Análise de Streaming | João Pedro dos Anjos

Objetivo

Este projeto tem como objetivo praticar e demonstrar habilidades em análise de dados usando Python e a biblioteca Pandas. Os dados simulam o histórico de visualizações de uma plataforma de streaming de conteúdo (filmes e séries), e foram gerados com o auxílio de um modelo de linguagem (IA).

Bases de Dados

O projeto utiliza quatro arquivos CSV relacionados:

catalogo_conteudo.csv: Informações sobre filmes e séries disponíveis na plataforma.
assinantes.csv: Dados dos assinantes da plataforma.
plataformas_distribuicao.csv: Detalhes sobre as plataformas e dispositivos usados para acessar o conteúdo.
historico_visualizacoes_2024.csv: Registros de visualizações de conteúdo pelos assinantes em 2024.

Metodologia

1. Junção de Tabelas (Joins)

Combinação das quatro bases de dados para responder perguntas como: qual o gênero mais assistido por assinantes Premium no Brasil, qual a plataforma mais utilizada para ficção científica e qual o título com maior tempo de visualização.

2. Filtros e Seleções

Aplicação de filtros avançados para listar assinantes cadastrados em períodos específicos, encontrar filmes com avaliação IMDb acima de 8.5 e identificar visualizações incompletas.

3. Agrupamento e Agregação

Cálculo do tempo médio de visualização por dispositivo, contagem de assinantes por país e total de gastos mensais por tipo de plano.

4. Engenharia de Features

Criação de novas colunas como idade do assinante e percentual de cada filme/série assistido (Minutos Assistidos / Duração Total).

5. Tratamento de Dados Nulos

Substituição de valores nulos na coluna de avaliação por média calculada, garantindo integridade dos dados para análise.

6. Visualização de Dados

Criação de gráficos para distribuição de assinantes por plano e comparação do tempo médio de visualização entre gêneros.

Principais Resultados

Ficção Científica Gênero mais assistido por assinantes Premium no Brasil

Apple TV Plataforma mais utilizada para ficção científica

8.75 horas Tempo de visualização do título mais assistido: "O Legado do Código"

Tecnologias Utilizadas

Python Pandas Matplotlib CSV / ETL

Análise de Comportamento e Engajamento