Big Data e Data Science: pra quê afinal? – Hipsters #73
Neste episódio, finalmente vamos descobrir o que é big data e data science e qual a relação entre elas.
Participantes:
- Paulo Silveira, o host que aprendeu muito nesse episódio
- Fabiane Nardon, cientista de dados chefe na Tail
- Maurício Linhares, co-host e boxeador chefe da Digital Ocean
Links:
- Mllib
- Mahout
- Palestras do pessoal da Tail
- Meetup machine learning, big data e engenharia
- Curso de data analysis da Alura
Produção e conteúdo:
Edição e sonorização: Radiofobia Podcast e Multimídia
Douglas_Murita
Quais os livros que eu posso comprar para iniciar meus estudos em Data Science e Big Data ?
Igor C. F. Nobre
Data Science do Zero. Primeiras Regras com o Python
Bad Data Handbook
Julia for Data Science
Mastering Python Data Analysis
Mastering Python Scientific Computing
Douglas_Murita
Obrigado pelas dicas, já fazer um orçamento aqui ^^
diegobdev
Este primeiro livro eu tenho! Ainda não li, mas, comprei… Parece ser ótimo!
diegobdev
Tanto conteúdo e em tão pouco tempo! Façam a “parte 2″…e com mais tempo, o assunto é bem extenso, mas, vale a pena.
Abraço.
Fernando Quadro
Paulo, quando entrei pra escutar o podcast e vi que teria apenas um convidado, achei que poderia ficar um pouco “chato”. Mas me surpriendi,e achei que Fabiane deu um “show”, e proporcionou um excelente podcast. Parabéns!
Paulo Silveira
ela é uma das pioneiras e maiores desenvolvedoras do brasil, eu nao convidei mais ninguem pois sabia que ia dar muita conversa!
Gabriel Antonio
Seria legal um episódio sobre NodeJs, ótimo podcast.
Fernando Boaglio
Achei que nunca mais escutaria alguém falar de Cadeias de Markov kkk Minha sugestão aos interessados é ficar ligados nos Meetups gratuitos que acontecem por aí, tive o privilégio de ver a Fabiane em um deles https://www.meetup.com/pt-BR/conexaotwsp/events/239492915/
Walter
‘ Sharding ‘ de dados nesse caso é o scraper ( Termo comumente utilizado ) ? Sei que a tradução de ambos os termos é ‘ raspagem ‘, mas do modo como foi mencionado parece um processo armazenar dados, independente da fonte dos mesmo.
Tiago Silveira
Não. Simplificando bastante, sharding é o processo de repartir os dados em N pedaços, para poder executar um programa em N máquinas em paralelo. Tá melhor explicado aqui: https://pt.wikipedia.org/wiki/Shard_(arquitetura_de_banco_de_dados)
Walter
Seria da hora fazer um trabalho para deixar o player deste podcast parecido com o do Jovem Nerd que tem atalhos, cache … da pra navegar enquanto ouve, o player é fixado então não importa se tu descer tu pode parar o pod a qualquer momento …
Yukio
Muito bom o tema e ótima convidada. Explicações bem didáticas.
Eu acrescentaria apenas que saber uma variedade de algoritmos é sim importante, mas testar vários até encontrar o melhor, tem menos impacto do que muita gente acredita. Uma das coisas mais faladas nos fóruns de modelagem é que se o modelo mais simples resolve o problema, é ele que devemos utilizar. Em muitos casos o ganho de um algoritmo muito complexo é pequeno. Aqui tem uma tabela boa ilustrando isso: https://estatsite.com/2016/12/24/muitos-posts-sobre-manipulacao-de-dados/
Yukio
Esse episódio merece uma continuação, bom demais
Tiago Silveira
Kaggle é a melhor recomendação do podcast, deveria estar na lista de links. Eles estão em desenvolvimento ativo e os desafios são muito bons.
JUNIOR FERREIRA
podcast aqui e tudo pica… adorei ! opa teve um clitóris em sena… kkk