Данный пример иллюстрирует возможность обучения системы аудиовизуального распознавания речи на пользовательских данных с использованием инструментария библиотеки OpenAV. В примере показано использование следующих модулей библиотеки для достижения заявленной цели:
- Модуль записи речевых аудиовизуальных данных - использовался для записи тестовой базы данных, доступной для скачивания в архиве ниже.
- Модуль загрузки данных - используется для обработки аудиовизуальных данных
- Модуль детектирования речевой активности - используется для детектирования речевых сегментов и удаления тишины
- Модуль предобработки речевых аудиоданных - используется для извлечения информативных признаков из аудиоданных
- Модуль предобработки речевых видеоданных - используется для извлечения информативных признаков из видеоданных
- Модуль аугментации данных - использовался для искусственного увеличения количества обучающих данных по заданным параметрам
- Модуль обучения нейросетевых моделей - используется для обучения аудиовизуальной модели распознавания речи
Для того чтобы обучить систему аудиовизуального распознавания речи, необходимо загрузить архив, в котором содержатся конфигурационный файл и данные для обучения:
Архив необходимо распаковать, после чего установить библиотеку OpenAV, с помощью команды в терминале, убедитесь в том, что у вас установлена версия Python 3.10 или новее:
pip install openav
Для корректной установки библиотеки на системы Windows и Linux можно воспользоваться пошаговым гайдом в разделе документации.
После установки библиотеки будет возможность выполнить запуск процесса обучения с помощью модуля обучения аудиовизуальных моделей , для этого необходимо запустить команду из директории, в которой находятся конфигурационный файл и данные для обучения, используя запрос в терминале:
openav_train_audiovisual --config ./train_audiovisual.yaml
Результатом работы данного примера является набор обученных нейросетевых моделей для распознавания аудиовизуальной речи пользователя, которые хранятся в каталоге ./models/. В данном каталоге будут располагаться модели, которые будут сохраняться в папку в том случае, если модель спрогрессировала на текущей эпохе. Таким образом, последняя сохраненная модель является самой эффективной. В примере приводится базовый конфигурационный файл и данные для обучения, записанные с использованием входящего в библиотеку "Модуля записи речевых аудиовизуальных данных".
Фактическое время обучения модели может варьироваться в зависимости от конфигурации оборудования и нагрузки на систему. На конфигурациях, указанных в разделе "Рекомендуемые технические требования для использования библиотеки" приблизительное время выполнения на 1 эпохе обучения составляет около 5 мин (без учета времени валидации и тестирования). Количество эпох зависит от конфигурационного файла и может сильно разниться.