Integração e tratamento de múltiplas bases de dados (ETL) com Python e Pandas para identificar padrões de consumo em uma plataforma de streaming.
Este projeto tem como objetivo praticar e demonstrar habilidades em análise de dados usando Python e a biblioteca Pandas. Os dados simulam o histórico de visualizações de uma plataforma de streaming de conteúdo (filmes e séries), e foram gerados com o auxílio de um modelo de linguagem (IA).
O projeto utiliza quatro arquivos CSV relacionados:
Combinação das quatro bases de dados para responder perguntas como: qual o gênero mais assistido por assinantes Premium no Brasil, qual a plataforma mais utilizada para ficção científica e qual o título com maior tempo de visualização.
Aplicação de filtros avançados para listar assinantes cadastrados em períodos específicos, encontrar filmes com avaliação IMDb acima de 8.5 e identificar visualizações incompletas.
Cálculo do tempo médio de visualização por dispositivo, contagem de assinantes por país e total de gastos mensais por tipo de plano.
Criação de novas colunas como idade do assinante e percentual de cada filme/série assistido (Minutos Assistidos / Duração Total).
Substituição de valores nulos na coluna de avaliação por média calculada, garantindo integridade dos dados para análise.
Criação de gráficos para distribuição de assinantes por plano e comparação do tempo médio de visualização entre gêneros.