Análise de dados utilizando PySpark

Projeto de análise de dados desenvolvido como projeto final do Bootcamp Analista de Dados do IGTI (Instituto de Gestão e Tecnologia da Informação). Este projeto engloba os seguintes conceitos trabalhados no cruso:

Construção de seção Spark para leitura dos dados;
Carregamento de dados para o Spark;
Análise inicial dos dados para avaliar comportamento dos dados e a presença outliers;
Pré-processamento dos dados;
Uso de Regressão Logística para a previsão de dados;
Avaliação do modelo treinado.

Resumo

Este projeto consiste em utilizar de uma seção Spark através da biblioteca pySpark para fazer a análise de dados disponíveis no arquivo "healthcare-dataset-stroke-data.csv". Este dataset é então usado para prever, através de regressão logística, se um paciente possui alguma tendência de apresentar derrame cerebral com base em dados como idade, sexo, bmi (índice de massa corporal - i.e. IMC), nível médio de glicose no sangue e dados de saúde e hábito.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Análise de dados utilizando PySpark

Resumo

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

Análise de dados utilizando PySpark

Resumo