Ученые Группы ЦРТ третьи в решении самой сложной задачи распознавания речи

28 сентября 2018
На крупнейшей мировой конференции по речевым технологиям INTERSPEECH в Хайдерабаде представили результаты международного конкурса по распознаванию речи the 5th CHiME Speech Separation and Recognition Challenge (CHiME-5).

«Как и у других научных челленджей, задача CHiME — обеспечить обмен опытом сильнейших команд со всего мира и продвинуть вперед решение глобальных задач в области распознавания речи. В этом году мы как раз решали самую сложную из них, — рассказывает директор НИД ЦРТ Кирилл Левин. — По итогам участники выступают на конференции с докладами по своим решениям. Так что это не только шанс поломать голову и похвастаться результатом, но и обменяться опытом с коллегами и вместе с ними приблизиться к решению задачи, над которой человечество бьется уже много лет».

Каждый год организаторы предлагают участникам разные задания. Распознавание речи с близко расположенных микрофонов, таких как гарнитура или телефон, уже показывает хорошие результаты — IT-гиганты отчитываются о достижении «человеческого» уровня точности. При этом распознавание с дальней и средней дистанции (больше 1 метра) пока дает гораздо больше ошибок. Поэтому в этом году конкурсанты решали так называемую cocktail party problem — распознавание спонтанной речи нескольких дикторов в условиях частичного наложения речи и шума, то есть в типичной ситуации общения на вечеринке.

Записи для конкурса были сделаны на 20 ужинах в реальных домах на вечеринках, где люди готовили, ели, мыли посуду, свободно и эмоционально общались, шутили и смеялись. Для распознавания здесь сложны одновременная речь 2-4 человек, реверберация и интенсивный шум – звон приборов, льющаяся из крана вода, гул кондиционера, шаги, смех.

Цель участников — создать систему распознавания, которая «прослушает» записи и выдаст полную расшифровку с наименьшим количеством ошибок. Команда Группы ЦРТ, занявшая третье место, смогла улучшить показатели базовой системы, предоставленной организаторами, и повысить точность распознавания с 26.7% до 44.5%. Для этого был создан комплекс из нескольких нейронных сетей разных архитектур, различающий разных дикторов, определяющий моменты наложения речи, реализующий нейробимформинг (эффект направленного микрофона) и непосредственно распознающий речь.

«Когда мы научимся качественно распознавать речь разных дикторов, еще и перебиваемую шумами, речевые технологии выйдут на новый уровень. А голосовые ассистенты и умные колонки выйдут из разряда инновационных игрушек и станут нашими повседневными помощниками», — комментирует Кирилл Левин.

В этом году в конкурсе участвовали научные команды со всего мира, среди которых такие IT-гиганты, как ASUS, Hitachi, Lenovo, Toshiba, и крупные университеты-лидеры в области речевых технологий: Рейнско-Вестфальский технический университет Аахена, Университет Падерборна, Университет Джона Хопкинса и т.д. Победителем стала совместная команда китайской компании iFlytek, крупнейшего разработчика систем синтеза и распознавания китайской речи, и Научно-Технического университета Китайской академии наук.

По информации Группы компаний ЦРТ.

Комментарии

(0) Добавить комментарий