Atualmente os analistas devem lidar com dados caracterizados por variedade e volume extraordinários, e com muita rapidez. Utilizando a biblioteca Pandas, é possível usar Python para automatizar e executar tarefas de análise de dados de maneira rápida, não importa quão volumosos ou complexos sejam esses dados. O Pandas pode ajudar a garantir a veracidade de seus dados, visualizá-los para uma tomada de decisão eficaz e reproduzir análises em vários conjuntos de dados de modo confiável. Análise de dados com Python e Pandas reúne conhecimentos práticos e insights para solucionar problemas reais com o Pandas, mesmo que a análise de dados com Python seja novidade para você. Daniel Y. Chen apresenta conceitos essenciais por meio de exemplos simples e práticos, expandindo-os de modo incremental para resolver problemas mais difíceis do mundo real. Chen oferece um ponto de partida rápido para o Pandas por meio de um conjunto de dados realista, além de abordar a combinação de conjuntos de dados, o tratamento de dados ausentes e a estruturação de conjuntos de dados com o intuito de facilitar a análise e a visualização. Além disso, mostra técnicas eficazes de limpeza de dados que variam da manipulação básica de strings à aplicação simultânea de funções nos dataframes. Depois que seus dados estiverem prontos, Chen orientará você na adequação de modelos para previsão, clustering, inferência e exploração. O autor apresenta dicas sobre desempenho e escalabilidade, e introduz você ao ecossistema mais amplo da análise de dados com Python. ASSUNTOS ABORDADOS Como trabalhar com DataFrames e Series e importar e exportar dados Criação de plotagens com matplotlib, seaborn e Pandas Combinação de conjuntos de dados e tratamento de dados ausentes Reformatação, organização e limpeza de conjuntos de dados para que seja mais fácil trabalhar com eles Conversão de tipos de dados e manipulação de strings de texto Aplicação de funções para escalar as manipulações de dados Agregação, transformação e filtragem de conjuntos de dados volumosos usando groupby Como tirar proveito dos recursos avançados de data e hora do Pandas Adequação de modelos lineares usando as bibliotecas statsmodels e scikit-learn Uso de modelagem linear generalizada para adequação de modelos com diferentes variáveis de resposta Comparação entre vários modelos para selecionar o “melhor” Regularização para evitar a superadequação e melhorar o desempenho Uso de clustering em aprendizado de máquina sem supervisão







