Примечание: Курс изначально назывался Getting Started with Analytics and Data Engineering, что значит Введение в аналитику и инжиниринг данных. Синоним этого словосочетания - Analytics Engineering, что переводится как Инжиниринг Аналитики, то есть полный цикл создания аналитического решения с 0.
- Введение
- Требования
- Подготовка к курсу по Analytics Engineering
- Модуль 01 - Роль Аналитики
- Модуль 02 - Базы данных и SQL
- Модуль 03 - Business Intelligence
- Модуль 04 - Интеграция и трансформация данных - ETL и ELT
- Сертификаты и значки по окончанию курса.
- Трудоустройство
- Поддержка Курса
Всем привет! Меня зовут Дмитрий Аношин. Спасибо, что нашли время ознакомиться с моим ресурсом. Надеюсь мой опыт поможет вам в достижение ваших целей и вы сможете приобрести новые знания и также помочь другим.
Вот уже 4 года я работаю дата инженером в Amazon. Когда я в 2016 году начинал работать на позиции data engineer, я особо не вдавался в подробности, что это за роль. Просто искал работу в области данных, желательно Business Intelligence разработчиком. А получилось найти позицию data engineer в Amazon. Частично мне повезло, частично это было заслуженно, так как с 2010 года я непрерывно учился и развивался в области аналитики.
Я преследовал несколько целей:
- Получать хорошую зарплату.
- Работать в хорошей компании.
- Работать за границей, желательно близко к морю или океану.
Поэтому очень важно на начальном этапе определиться с целью. Именно цель даст вам силы и мотивацию для её достижения.
Сейчас очень много "мусора" в онлайне и в офлайне, все готовы вас научить. Обычно по принципу "утром деньги - вечером стулья": то есть сначала вы платите за курс, а там - как повезет.
Сам я читал множество книг, смотрел обучающие видео и проходил курсы на Coursera и edX. И зачастую курс бывает "формальный", неинтересный, скучный. Я бы не хотел сделать еще один скучный курс, поэтому этот курс будет меняться и эволюционировать, у него могут появляться новые модули и изменяться старые.
Я не преследую цели научить всех и не преследую цели зарабатывать на студентах. Так сложилось, что за свою карьеру я помог 8-ми знакомым пройти путь с нуля до трудоустройства, и 6 из них до сих пор успешно работают с данными.
Меня до сих пор спрашивают: как научиться, как начать? И чтобы не рассказывать снова и снова одно и то же многократно, я решил сконцентрировать эти знания на ресурсе Data Learn. Я не являюсь супер-экспертом в какой-то области и всё, о чем я говорю, - это моё восприятие роли аналитики, данных и инструментов аналитики для помощи бизнесу.
Как я уже говорил, курс бесплатный, так как он ничего не гарантирует. Но я уверен: он работает, так как позволит вам сфокусироваться на важном и отбросить всё лишнее, но при условии, что у вас есть цель и вы готовы реально поднапрячься, так как основная нагрузка ложится именно на ваши плечи.
Также хотелось бы создать экосистему - не просто набор видео лекций и упражнений, но framework, в котором люди могут помогать друг другу с решением задач и упражнений и делиться опытом. Будет просто замечательно, если вы станете data ambasador и будете принимать участие в создании, исправлении и добавлении контента.
Еще один важный для меня момент - это возможность делиться западным опытом с русскоязычным комьюнити, рассказывать о популярных на западе технологиях и решениях, помогать подготовиться к собеседованию в западную компанию, например в Амазон.
Если задуматься над вопросом "что самое ценное в курсе?", то я бы отметил 2 момента:
- Понимание задачи бизнеса и умение подобрать правильную (оптимальную) технологию для ее достижения.
- Понимание базовых принципов аналитики.
Если по результату курса вы сможете ответить на эти два вопроса, то остальное - уже дело техники и гугл вам в помощь.
По окончании курса планируются сертификаты для всех, кто успешно справится со всеми заданиями (промежуточными заданиями модулей и итоговым заданием). Итоговое задание будет включать в себя проект сквозной аналитики.
Прежде всего нужно определиться с требованиями для комфортной работы с данными при прохождении курса. Я могу выявить несколько ключевых компонетов:
- доступ в интернет;)
- желательно экран 15" и больше;
- желательно 16 Gb оперативки (мин 8 Gb), иначе будет тормозить;
- операционные системы Windows и Maс. Linux тоже подойдет;
- чтобы получить доступ к AWS, возможно, понадобится ввести номер банковской карты при регистрации (не раньше 4го модуля).
- slack - это месенджер, вы можете скачаеть его тут;
- аккаунт github (мы расскажем в 1й домашней работе как установить GitHub и для чего он используется)
- знание английского на уровне чтения;
- умение гуглить;)
- наличие социальной сети, чтобы рассказать о курсе;)
Например, если вы не знаете Английский, но хотите работать в этой области, то вам следует начать его изучать и активно практиковать!
Теперь давайте посмотрим на функциональные требования к инструментам и навыкам. Вы можете не знать ничего из списка, а можете быть экспертами по всем указанным инструментам.
Есть некоторые вещи, которые важно (или как минимум желательно) знать для успешного прохождения курса. Во время курса мы будем их разбирать, но будет хорошо, если вы уже владеете начальными навыками:
Примечание: Если вы чего-то не знаете, не беда, по ходу курса мы познакомимся со всем этим по необходимости. Начиная с основ Excel в Модуле 1.
-
Excel. Это универсальный инструмент для работы с данными. Если вы никогда с ним не работали, найдите любой ресурс и потренируйтесь. Страница Excel - это таблица со строками и столбцами, в которых можно выполнять операции над данными. Отличная аналогия для баз данных и хранилищ данных. Также в Excel можно создавать графики и Pivot (вы знаете, что это?) - это уже как BI инструмент. Мы познакомимся с Excel на 1м модуле.
-
SQL. Самый важный для меня элемент. Чтобы там ни говорили про Python/Scala/Java, большинство компаний (тот же Амазон) имеют базы данных. И бизнес-пользователи, и аналитики используют SQL для получения данных. Мне нравится ресурс
sql-ex.ru. Там есть множество упражнений, достаточно сделать около 30, чтобы понять, как используютсяSELECT,FROM,GROUP BY,ORDER BY,HAVING,UNION,JOIN, подзапросы. Этого хватит с головой! Есть и множество других ресурсов. Мы начнем использовать SQL на модуле 2. SQL вам не избежать, так что практикуйтесь ежедневно начиная со 2го модуля. -
CLI. Command line interface, или командная строка. Это важный навык, так как зачастую программы установлены на Linux машинах без графического интерфейса (или на удалённых серверах), и нужно консольными командами перемещаться по папкам и запускать программы. Вот отличный курс: Introduction to Shell. Мы будем использовать CLI начиная с модуля 5.
-
GitHub. Так как мы используем гитхаб как учебник, то обязательно посмотрите, как он работает. Сам по себе гит очень популярен для разработчиков, чтобы хранить код или делать code review (смотреть изменения в коде). Он хорошо работает для SQL, Python, но не работает для приложений вроде Tabelau и PowerBI. Вот инструкция на русском. GitHub нам пригодится для сохранения результата домашних заданий. Вы можете создать свой аккаунт и папку с названием курса и подпапками с название модулей.
-
Cloud. Облачные вычисления позволяют нам фокусироваться на решении проблемы и использовать современные сервисы аналитики. Быстро создавать решения для аналитики, масштабировать их. Мы познакомимся с облачными вычислениями на 5 модуле курса.
-
Python. Так сложилось, что Python стал главный языком для инжиниринга данных, но не главнее SQL. С Python можно сделать все: от графика/отчета, до инструмента трансформации данных, Machine Learning модели и т.п. Я склоняюсь к тому, что Python - это уже следующий уровень, сначала надо знать SQL. Например, 80% моей работы Data Engineer - это использование SQL, так как данные либо в озере данных, либо в хранилище данных. В редких случаях нужен Spark (PySpark или Scala). Мы начнем использовать Python с модуля 7.
Примечание: Каждый модуль состоит из нескольких видео лекций. Каждый раздел включает в себя небольшую теорию и ссылку на видео лекцию. При необходимости мы также добавим ссылку на лабораторную работу или домашнее задание. Также вы можете найти секцию
дополнительные материалы, где я предоставлю сслыки со статьями на русском и английском по теме. Они не обязательны, но вы можете с ними ознакомиться. В конце каждого модуля небольшой опрос.
Так как курс пока еще в процессе создания, мы не придумали как будет выглядеть финальный сертификат, но постоянно думаем об этом. Помимо основного сертификаты мы добавили концепцию значков, которые вы будете получать за выполнения домашнего задания для каждого модуля.
Курс состоит из 12 модулей и за каждый модуль вы получите значок. Чтобы его получить, вам необходимо показать нам ваш Github, в которому будет создана папка DE-101, а внутри будуте подпапки:
- Module01
- Module02
- ModuleXX
Если вы сделали домшнее задание, то в папку DE-101 вы сможете добавить новый документ по нашему шаблону, в котором будет информация о ваших достижениях.
Несмотря на то, что Datal Learn еще относительно молодой проект, он уже завоевал доверие у много дата профессионалов, а это значит, студенты Data Learn получают самые актуальные знания, которые востребованы на отечественном и западном рынке. Требуется серьезная мотивация и целеустремленность, чтобы закончить курс, и если вы справились с курсом, то вы легко справитесь с любой задаче на реальной работе.
Вы можете рассматривать курс DE-101 как воронку, куда уже записалось больше 2000 студентов, но малая часть там активна. Некоторым, просто интересно посмотреть видео, другие просматривают некоторые части курса. Кто-то хочет посмотреть на контент и его оформления, поэтому для активной части студентов, мы решили помогать с трудоустройством. У нас нет связей с компаниями, но мы сами прошли очень много собеседований за свою карьеру и знаем как правильно нужно подготовиться к собеседования, где искать, и главное, что говорить на собеседовании, чтобы найти свою первую работу. Вам необходимо как минимум закончить 4 модуля курса, выполнить все домашние задания и быть активным в слаке, тогда мы сможем вам помочь найти работу. Так как именно эта цель data learn - ваше трудоустройство, и мы гарантируем вам, что вы можете найти работу через 5-6 месяцев после начала занятий при полной отдачи. Я уже рассказывал про несколько успешных случаев.
Когда вы начнете проходить курс, возможно вы захотите поддержать data learn, вы можете это сделать с помощью:
Всем спасибо и до встречи на курсе и в нашем сообществе Datal Learn в Slack.

