Skip to content

DeepLearningSchool/Speech

Repository files navigation

Speech

Материалы Speech курса Deep Learning School (DLS)\

Этот курс посвящен современным методам обработки звука и речи (Speech Processing) с использованием машинного обучения.

Студенты познакомятся с основными способами представления аудиосигналов (wav, spectrograms, continuous embeddings, discrete tokens) , фундаментальными задачами обработки речи, такими как автоматическое распознавание речи (ASR) и синтез речи (TTS), а также получат обзор других ключевых направлений. Также курс включает в себя знакомство с задачей построения моделей для малоресурсных и не английских языков, и в эру больших языковых моделей, часть курса будет посвящена Speech LLM и мультимодальным LLM, включающим речь. Завершающие недели будут посвящены задачам в аудиодомене.

Основные материалы

  1. Введение в аудио

  2. Способы представления аудио

  3. SSL

  4. Аудио кодеки

  5. Распознавание речи

  6. Распознавание речи. Часть 2.

  7. Генерация речи, часть 1.

  8. Генерация речи, современные подходы.

  9. Дипфейки и их детекция.

  10. Voice Assistant Pipeline. Keyword & Endpoint Detection.

  11. Low-resource языки и non-English языки.

  12. LLM.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published