Skip to content

Latest commit

 

History

History
14 lines (10 loc) · 1.02 KB

File metadata and controls

14 lines (10 loc) · 1.02 KB

Análise de dados utilizando PySpark

Projeto de análise de dados desenvolvido como projeto final do Bootcamp Analista de Dados do IGTI (Instituto de Gestão e Tecnologia da Informação). Este projeto engloba os seguintes conceitos trabalhados no cruso:

  • Construção de seção Spark para leitura dos dados;
  • Carregamento de dados para o Spark;
  • Análise inicial dos dados para avaliar comportamento dos dados e a presença outliers;
  • Pré-processamento dos dados;
  • Uso de Regressão Logística para a previsão de dados;
  • Avaliação do modelo treinado.

Resumo

Este projeto consiste em utilizar de uma seção Spark através da biblioteca pySpark para fazer a análise de dados disponíveis no arquivo "healthcare-dataset-stroke-data.csv". Este dataset é então usado para prever, através de regressão logística, se um paciente possui alguma tendência de apresentar derrame cerebral com base em dados como idade, sexo, bmi (índice de massa corporal - i.e. IMC), nível médio de glicose no sangue e dados de saúde e hábito.