Практическое занятие

Это упражнение не оценивается и предназначено для ознакомления с инструментами и библиотеками, которые вы будете использовать на протяжении всего курса. Если вы уже имеете опыт работы с Google Colab, 🤗 Datasets, librosa и 🤗 Transformers, вы можете пропустить это упражнение.

Создайте блокнот Google Colab.
Используйте 🤗 Datasets для загрузки train split набора данных facebook/voxpopuli на выбранном вами языке в потоковом режиме.
Получите третий пример из части train набора данных и исследуйте его. Учитывая особенности этого примера, для решения каких аудиозадач можно использовать этот набор данных?
Постройте осциллограмму и спектрограмму этого примера.
Перейдите на сайт 🤗 Hugging Face Hub, изучите предварительно обученные модели и найдите ту, которая может быть использована для автоматического распознавания речи на выбранном ранее языке. Инстанцируйте соответствующий конвейер с найденной моделью и транскрибируйте пример.

Если вы затрудняетесь с выполнением этого упражнения, не стесняйтесь заглянуть в пример решения. Открыли для себя что-то интересное? Нашли классную модель? Получили красивую спектрограмму? Не стесняйтесь делиться своими работами и открытиями в Twitter!

В следующих главах вы узнаете больше о различных архитектурах аудиотрансформеров и создадите свою собственную модель!

Update on GitHub

Audio Course

Практическое занятие