Материалы Speech курса Deep Learning School (DLS)\
Этот курс посвящен современным методам обработки звука и речи (Speech Processing) с использованием машинного обучения.
Студенты познакомятся с основными способами представления аудиосигналов (wav, spectrograms, continuous embeddings, discrete tokens) , фундаментальными задачами обработки речи, такими как автоматическое распознавание речи (ASR) и синтез речи (TTS), а также получат обзор других ключевых направлений. Также курс включает в себя знакомство с задачей построения моделей для малоресурсных и не английских языков, и в эру больших языковых моделей, часть курса будет посвящена Speech LLM и мультимодальным LLM, включающим речь. Завершающие недели будут посвящены задачам в аудиодомене.
