Skip to content

Latest commit

 

History

History
31 lines (19 loc) · 6.21 KB

train_openav.md

File metadata and controls

31 lines (19 loc) · 6.21 KB

Обучение системы аудиовизуального распознавания речевых команд на основе разработанной библиотеки

Данный пример иллюстрирует возможность обучения системы аудиовизуального распознавания речи на пользовательских данных с использованием инструментария библиотеки OpenAV. В примере показано использование следующих модулей библиотеки для достижения заявленной цели:

  1. Модуль записи речевых аудиовизуальных данных - использовался для записи тестовой базы данных, доступной для скачивания в архиве ниже.
  2. Модуль загрузки данных - используется для обработки аудиовизуальных данных
  3. Модуль детектирования речевой активности - используется для детектирования речевых сегментов и удаления тишины
  4. Модуль предобработки речевых аудиоданных - используется для извлечения информативных признаков из аудиоданных
  5. Модуль предобработки речевых видеоданных - используется для извлечения информативных признаков из видеоданных
  6. Модуль аугментации данных - использовался для искусственного увеличения количества обучающих данных по заданным параметрам
  7. Модуль обучения нейросетевых моделей - используется для обучения аудиовизуальной модели распознавания речи

Для того чтобы обучить систему аудиовизуального распознавания речи, необходимо загрузить архив, в котором содержатся конфигурационный файл и данные для обучения:

Ссылка на архив

Зеркало

Архив необходимо распаковать, после чего установить библиотеку OpenAV, с помощью команды в терминале, убедитесь в том, что у вас установлена версия Python 3.10 или новее:

pip install openav

Для корректной установки библиотеки на системы Windows и Linux можно воспользоваться пошаговым гайдом в разделе документации.

После установки библиотеки будет возможность выполнить запуск процесса обучения с помощью модуля обучения аудиовизуальных моделей , для этого необходимо запустить команду из директории, в которой находятся конфигурационный файл и данные для обучения, используя запрос в терминале:

openav_train_audiovisual --config ./train_audiovisual.yaml

Результатом работы данного примера является набор обученных нейросетевых моделей для распознавания аудиовизуальной речи пользователя, которые хранятся в каталоге ./models/. В данном каталоге будут располагаться модели, которые будут сохраняться в папку в том случае, если модель спрогрессировала на текущей эпохе. Таким образом, последняя сохраненная модель является самой эффективной. В примере приводится базовый конфигурационный файл и данные для обучения, записанные с использованием входящего в библиотеку "Модуля записи речевых аудиовизуальных данных".

Фактическое время обучения модели может варьироваться в зависимости от конфигурации оборудования и нагрузки на систему. На конфигурациях, указанных в разделе "Рекомендуемые технические требования для использования библиотеки" приблизительное время выполнения на 1 эпохе обучения составляет около 5 мин (без учета времени валидации и тестирования). Количество эпох зависит от конфигурационного файла и может сильно разниться.