Audio Course documentation
Практическое занятие
Раздел 0. Добро пожаловать на курс!
Раздел 1. Работа с аудиоданными
Раздел 2. Краткое введение в аудиоприложения
Обзор аудио приложенийКлассификация звука с помощью конвейераАвтоматическое распознавание речи с помощью конвейераПрактическое занятие
Раздел 3. Архитектуры трансформеров для аудио
Раздел 4. Создание классификатора музыкальных жанров
Раздел 5. Automatic Speech Recognition
Раздел 6. От текста к речи
Раздел 7. Собираем все воедино
Раздел 8. Финишная прямая
Мероприятия в рамках курса
Практическое занятие
Это упражнение не оценивается и предназначено для ознакомления с инструментами и библиотеками, которые вы будете использовать на протяжении всего курса. Если вы уже имеете опыт работы с Google Colab, 🤗 Datasets, librosa и 🤗 Transformers, вы можете пропустить это упражнение.
- Создайте блокнот Google Colab.
- Используйте 🤗 Datasets для загрузки train split набора данных
facebook/voxpopuliна выбранном вами языке в потоковом режиме. - Получите третий пример из части
trainнабора данных и исследуйте его. Учитывая особенности этого примера, для решения каких аудиозадач можно использовать этот набор данных? - Постройте осциллограмму и спектрограмму этого примера.
- Перейдите на сайт 🤗 Hugging Face Hub, изучите предварительно обученные модели и найдите ту, которая может быть использована для автоматического распознавания речи на выбранном ранее языке. Инстанцируйте соответствующий конвейер с найденной моделью и транскрибируйте пример.
Если вы затрудняетесь с выполнением этого упражнения, не стесняйтесь заглянуть в пример решения. Открыли для себя что-то интересное? Нашли классную модель? Получили красивую спектрограмму? Не стесняйтесь делиться своими работами и открытиями в Twitter!
В следующих главах вы узнаете больше о различных архитектурах аудиотрансформеров и создадите свою собственную модель!
Update on GitHub