Яндекс.Практикум: Data Scientist. Репозиторий проектов.
ЯП: Python, SQL |
IDE: Jupyter Notebook |
Certificate DS: 20212DS00733 |
Cert in english
| № | Проект | Задача | Инструменты |
|---|---|---|---|
| 15 | Проект "Телеком" > посмотреть тетрадь |
Научиться прогнозировать отток клиентов на основе исторических данных. Финальный проект. | градиентный бустинг, shap, tqdm, catboost, pipeline, sklearn, seaborn, matplotlib, numpy, pandas |
| 14 | Определение возраста покупателей > посмотреть тетрадь |
Построить модель, которая по фотографии определит приблизительный возраст человека. | компьютерное зрение, keras, os, matplotlib, pandas |
| 13 | Спрос на рейсы авиакомпании > посмотреть тетрадь |
Произвести выгрузку и подготовку данных с помощью SQL, проанализировать спрос пассажиров на рейсы в города, где проходят крупнейшие культурные фестивали. | извлечение данных, sql, pyspark, matplotlib, pandas |
| 12 | Классификатор комментариев > посмотреть тетрадь |
Ускорить модерацию комментариев в сообществе, автоматизировав оценку их токсичности. Обучить классификатор для разделения комментариев на нейтральные и негативные. | обработка естественного языка, лемматизация, nltk, simplemma, tqdm, re, pipeline, sklearn, seaborn, matplotlib, numpy, pandas |
| 11 | Прогнозирование заказов такси > посмотреть тетрадь |
Научиться прогнозировать количество заказов такси на следующий час. | временные ряды, statsmodels, sklearn, seaborn, matplotlib, pandas |
| 10 | Определение стоимости автомобилей > посмотреть тетрадь |
Построить модель для определения стоимости автомобиля на основе исторических данных: технических характеристик, комплектации и цены. | градиентный бустинг, lightgbm, sklearn, pandas |
| 09 | Защита персональных данных клиентов > посмотреть тетрадь |
Методом преобразования данных защитить личную информацию клиентов страховой компании. | sklearn, numpy, pandas |
| 08 | Восстановление золота из руды > посмотреть тетрадь |
Разработать модель, предсказывающую коэффициент восстановления золота из золотосодержащей руды. | sklearn, seaborn, matplotlib, numpy, pandas |
| 07 | Выбор локации для скважины > посмотреть тетрадь |
Построить модель машинного обучения, которая поможет определить регион, где добыча принесет наибольшую прибыль с наименьшим риском убытков. | bootstrap, sklearn, seaborn, matplotlib, numpy, pandas |
| 06 | Отток клиентов > посмотреть тетрадь |
Провести анализ оттока клиентов банка для выбора стратегии удержания. | pandas-profiling, imblearn, pipeline, sklearn, seaborn, matplotlib, numpy, pandas |
| 05 | Рекомендация тарифов > посмотреть тетрадь |
Построить модель для задачи классификации, которая подскажет подходящий тариф. | sklearn, matplotlib, numpy, pandas |
| 04 | Исследование рынка игр > посмотреть тетрадь |
Используя исторические данные о продажах компьютерных игр, оценки пользователей и экспертов, жанры и платформы, выявить закономерности, определяющие успешность игры. | проверка статистических гипотез, pandas-profiling, scipy, seaborn, matplotlib, numpy, pandas |
| 03 | Сравнение доходности тарифов мобильного оператора > посмотреть тетрадь |
Проанализировать поведение клиентов оператора сотовой связи и выполнить поиск оптимального тарифа. | проверка статистических гипотез, scipy, seaborn, matplotlib, numpy, pandas |
| 02 | Исследование объявлений о продаже квартир > посмотреть тетрадь |
Определить рыночную стоимость объектов недвижимости и типичные параметры квартир, используя данные за прошлый период. | math, seaborn, matplotlib, numpy, pandas |
| 01 | Исследование надёжности заёмщиков > посмотреть тетрадь |
На основе статистики о платёжеспособности клиентов исследовать влияет ли семейное положение и количество детей клиента на факт возврата кредита в срок. | лемматизация, pymystem3, seaborn, matplotlib, pandas |
| 00 | Музыка больших городов > посмотреть тетрадь |
Сравнить данные для Москвы и Петербурга, исследовать что и в каком режиме слушают жители этих городов. | pandas |
