DEV Community

Cover image for 📖 Leitura Atual – Capítulo 1: Introdução à Ciência de Dados
Letícia Oliveira
Letícia Oliveira

Posted on

📖 Leitura Atual – Capítulo 1: Introdução à Ciência de Dados

"Dados! Dados! Dados!" — esbravejou impaciente. "Não posso fazer tijolos sem barro." — Arthur Conan Doyle

O primeiro capítulo do livro Data Science do Zero, de Joel Grus, começa com uma citação que, na minha visão, resume bem o trabalho de um cientista de dados. Como uma introdução ao universo dos dados, ele nos lembra da quantidade absurda de informações que geramos diariamente — através de celulares, relógios, carros, eletrodomésticos... Estamos imersos em dados. Afinal, sem eles, o que seria da internet?

O Papel do Cientista de Dados

Uma frase famosa (que provavelmente você já ouviu se está nesse meio) diz que o cientista de dados entende mais de estatística do que um cientista da computação, e mais de ciência da computação do que um estatístico. Joel cita essa frase, não discordando completamente, mas trazendo nuances interessantes.

De acordo com a realidade do mercado (ao meu ponto de vista) é que há cientistas de dados com formações bem distintas: alguns são excelentes estatísticos, outros são excelentes engenheiros de software. Enquanto alguns dominam machine learning profundamente, outros têm um foco mais analítico. Mas um ponto específico me chamou a atenção por ser um tópico bem pessoal pra mim: Joel menciona que alguns cientistas de dados são PhDs que escrevem artigos acadêmicos, enquanto outros nunca leram um artigo sequer — e ele deixa claro que isso é um erro.

Ao ler isso, fiquei pensativa. Apesar de nunca ter considerado seguir a carreira acadêmica, durante meus estudos em ciência de dados, precisei ler muito mais artigos do que imaginava. No meu primeiro estágio, por exemplo, trabalhei em um ambiente cercado por mestres e doutorandos, onde a pesquisa acadêmica era fundamental para o projeto. No início, fiquei insegura por não ter a mesma bagagem acadêmica que todos ao meu redor. Então, passei a consumir cada vez mais artigos científicos, não apenas sobre ciência de dados, mas também sobre tecnologia da informação como um todo, e percebi a imensidão de conteúdos científicos que auxiliam no processo de aprendizado. Isso me fez perceber que, mesmo que você não queira seguir esse caminho, entender trabalhos acadêmicos é essencial para aprofundar seus conhecimentos.

Data Science na Prática

Uma das mensagens principais desse capítulo é que a ciência de dados pode significar coisas diferentes para pessoas e empresas diferentes. Dependendo da necessidade, um cientista de dados pode trabalhar:

  • Identificando tendências de mercado e comportamento do consumidor
  • Criando sistemas de recomendação para plataformas de streaming
  • Desenvolvendo chatbots e assistentes virtuais
  • Até mesmo dando um up em suas campanhas eleitorais (como apresentado neste artigo da Wired

E com esse contexto, o livro nos apresenta a Motivação Hipotética: DataSciencester.

DataSciencester: Uma Experiência Imersiva

Essa parte me empolgou desde a primeira vez que vi o livro. Joel nos coloca em uma situação hipotética: acabamos de ser contratados para liderar o setor de ciência de dados de uma nova rede social para cientistas de dados, chamada DataSciencester.

A partir disso, ele propõe desafios práticos, nos fazendo pensar como verdadeiros cientistas de dados. Algumas das tarefas incluem:

  • Sugestão de conexões – Criar um sistema de "cientistas de dados que você talvez conheça" para fortalecer a rede.
  • Salários e experiência – Analisar salários com base nos anos de experiência dos usuários (e fazer nossa primeira visualização de dados!).
  • Contas pagas – Identificar quais usuários pagam suas contas e quais não.
  • Tópicos de interesse – Analisar as palavras mais usadas por cada usuário para definir estratégias de conteúdo.

E para isso, já começamos a implementar algumas funções em Python! Construímos um dicionário para armazenar os usuários (user_id → user_name) e um conjunto de tuplas para representar as conexões de amizade. Além disso, criamos diagramas para visualizar a rede e aplicamos conceitos essenciais de programação, como dicionários, tuplas, bibliotecas, loops e funções.

Diagrama da rede DataSciencester baseado nas conexões entre os usuários

Ah! não deixa de conferir os códigos que implementei com base nos exercícios do livro. Eles estão disponíveis no meu repositório: https://github.com/leticia-oliv/current-reading/tree/main/01_Introducao

Conclusão

Foi só o primeiro capítulo, e já trabalhamos com tantas funcionalidades sem nem ter uma formação na área — como o próprio Joel brinca, "culpem o RH". O próximo capítulo será um Curso Intensivo de Python, e estou curiosa para ver como ele irá apresentar os fundamentos da linguagem dentro dessa narrativa interativa (spoiler da Letícia do futuro: ele consegue fazer isso muito bem!).

Se quiser trocar uma ideia, tirar dúvidas, fazer sugestões ou até apontar alguma besteira que eu tenha falado, fique à vontade! Só peço que seja gentil. Até a próxima! 💚

Top comments (0)