"Dados! Dados! Dados!" — esbravejou impaciente. "Não posso fazer tijolos sem barro." — Arthur Conan Doyle
O primeiro capÃtulo do livro Data Science do Zero, de Joel Grus, começa com uma citação que, na minha visão, resume bem o trabalho de um cientista de dados. Como uma introdução ao universo dos dados, ele nos lembra da quantidade absurda de informações que geramos diariamente — através de celulares, relógios, carros, eletrodomésticos... Estamos imersos em dados. Afinal, sem eles, o que seria da internet?
O Papel do Cientista de Dados
Uma frase famosa (que provavelmente você já ouviu se está nesse meio) diz que o cientista de dados entende mais de estatÃstica do que um cientista da computação, e mais de ciência da computação do que um estatÃstico. Joel cita essa frase, não discordando completamente, mas trazendo nuances interessantes.
De acordo com a realidade do mercado (ao meu ponto de vista) é que há cientistas de dados com formações bem distintas: alguns são excelentes estatÃsticos, outros são excelentes engenheiros de software. Enquanto alguns dominam machine learning profundamente, outros têm um foco mais analÃtico. Mas um ponto especÃfico me chamou a atenção por ser um tópico bem pessoal pra mim: Joel menciona que alguns cientistas de dados são PhDs que escrevem artigos acadêmicos, enquanto outros nunca leram um artigo sequer — e ele deixa claro que isso é um erro.
Ao ler isso, fiquei pensativa. Apesar de nunca ter considerado seguir a carreira acadêmica, durante meus estudos em ciência de dados, precisei ler muito mais artigos do que imaginava. No meu primeiro estágio, por exemplo, trabalhei em um ambiente cercado por mestres e doutorandos, onde a pesquisa acadêmica era fundamental para o projeto. No inÃcio, fiquei insegura por não ter a mesma bagagem acadêmica que todos ao meu redor. Então, passei a consumir cada vez mais artigos cientÃficos, não apenas sobre ciência de dados, mas também sobre tecnologia da informação como um todo, e percebi a imensidão de conteúdos cientÃficos que auxiliam no processo de aprendizado. Isso me fez perceber que, mesmo que você não queira seguir esse caminho, entender trabalhos acadêmicos é essencial para aprofundar seus conhecimentos.
Data Science na Prática
Uma das mensagens principais desse capÃtulo é que a ciência de dados pode significar coisas diferentes para pessoas e empresas diferentes. Dependendo da necessidade, um cientista de dados pode trabalhar:
- Identificando tendências de mercado e comportamento do consumidor
- Criando sistemas de recomendação para plataformas de streaming
- Desenvolvendo chatbots e assistentes virtuais
- Até mesmo dando um up em suas campanhas eleitorais (como apresentado neste artigo da Wired
E com esse contexto, o livro nos apresenta a Motivação Hipotética: DataSciencester.
DataSciencester: Uma Experiência Imersiva
Essa parte me empolgou desde a primeira vez que vi o livro. Joel nos coloca em uma situação hipotética: acabamos de ser contratados para liderar o setor de ciência de dados de uma nova rede social para cientistas de dados, chamada DataSciencester.
A partir disso, ele propõe desafios práticos, nos fazendo pensar como verdadeiros cientistas de dados. Algumas das tarefas incluem:
- Sugestão de conexões – Criar um sistema de "cientistas de dados que você talvez conheça" para fortalecer a rede.
- Salários e experiência – Analisar salários com base nos anos de experiência dos usuários (e fazer nossa primeira visualização de dados!).
- Contas pagas – Identificar quais usuários pagam suas contas e quais não.
- Tópicos de interesse – Analisar as palavras mais usadas por cada usuário para definir estratégias de conteúdo.
E para isso, já começamos a implementar algumas funções em Python! ConstruÃmos um dicionário para armazenar os usuários (user_id
→ user_name
) e um conjunto de tuplas para representar as conexões de amizade. Além disso, criamos diagramas para visualizar a rede e aplicamos conceitos essenciais de programação, como dicionários, tuplas, bibliotecas, loops e funções.
Ah! não deixa de conferir os códigos que implementei com base nos exercÃcios do livro. Eles estão disponÃveis no meu repositório: https://github.com/leticia-oliv/current-reading/tree/main/01_Introducao
Conclusão
Foi só o primeiro capÃtulo, e já trabalhamos com tantas funcionalidades sem nem ter uma formação na área — como o próprio Joel brinca, "culpem o RH". O próximo capÃtulo será um Curso Intensivo de Python, e estou curiosa para ver como ele irá apresentar os fundamentos da linguagem dentro dessa narrativa interativa (spoiler da LetÃcia do futuro: ele consegue fazer isso muito bem!).
Se quiser trocar uma ideia, tirar dúvidas, fazer sugestões ou até apontar alguma besteira que eu tenha falado, fique à vontade! Só peço que seja gentil. Até a próxima! 💚
Top comments (0)