My Data Direction: Resumo da Segunda Semana Explorando Ciência de Dados

 Hellouis! Essa semana foi muito corrida para mim, cheia de atividades e trabalhos da universidade, logo não tive como fazer mais posts relacionados a esse meu projeto pessoal.

Bem, dei uma revisada nos tópicos de listas, dicionários e manipulação de arquivos .txt, além de fazer o mini projeto de cálculo de Streams da One Direction.

Aqui está uma parte dessa semana intensiva.


Se quiser ver todos os códigos que fiz, você pode acessar o meu repositório no GitHub. A página é streams_1d.

Para o cronograma dessa semana, seguindo aquele inicial, pensei em fazê-lo em três dias, sendo ele:

Semana 3 – Cronograma de 3 Dias

Tema: Análise de Dados com Pandas e Numpy
Período: Quinta (08/05), Sexta (09/05) e Sábado (10/05)


🔎 Dia 1 – Quinta-feira (08/05): Importando e Explorando um Dataset

Objetivo: Aprender a importar dados e fazer uma exploração inicial com Pandas e NumPy.

Tarefas:

  • ⬜ Escolher um dataset simples no Kaggle Datasets. Sugestão: "Students Performance" ou "Netflix Shows"

  • ⬜ Importar usando pd.read_csv() ou pd.read_excel()

  • ⬜ Usar comandos como .head(), .info(), .shape(), .describe()

  • ⬜ Identificar os tipos de dados em cada coluna

Desafio extra:
⬜ Identifique o número de valores nulos com .isnull().sum()
⬜ Anote: Qual coluna parece mais importante? Por quê?


🧹 Dia 2 – Sexta-feira (09/05): Limpeza de Dados

Objetivo: Aprender técnicas de limpeza: tratar valores nulos, duplicados e corrigir tipos de dados.

Tarefas:

  • ⬜ Remover duplicatas: .drop_duplicates()

  • ⬜ Preencher ou remover nulos: .fillna() ou .dropna()

  • ⬜ Corrigir tipo de dado se necessário: .astype()

  • ⬜ Padronizar textos: .str.lower(), .str.strip()

Desafio extra:
⬜ Faça um código que mostre colunas com mais de 20% de valores ausentes
⬜ Crie uma versão “limpa” do seu DataFrame e salve como CSV


📊 Dia 3 – Sábado (10/05): Análise Estatística Básica

Objetivo: Explorar estatísticas como média, mediana, desvio padrão e agrupamentos com Pandas.

Tarefas:

  • ⬜ Calcular: .mean(), .median(), .std(), .mode()

  • ⬜ Fazer agrupamentos com .groupby()
    Ex: Média por gênero, categoria, etc.

  • ⬜ Criar insights simples a partir dos dados. Ex:
    "Alunos que estudam mais têm nota média maior?"

Desafio extra:
⬜ Crie ao menos 1 gráfico (pode ser com plot() ou matplotlib)
⬜ Escreva 3 conclusões que você tirou dos dados

No mais, achei muito interessante realizar mudanças nos dados das músicas da One Direction para tirar alguma informação disso. Vamos ver o que essa semana me reserva. Hoje foi bem curtinho, mas espero explorar mais na próxima postagem. 

Até a próxima, DataDirectioners!

Comentários