Существующие и Перспективные Области Применения Распознавания Речи - Часть 2

ВВЕДЕНИЕ

Основываясь на проведенных в предыдущей статье  результатах анализа особенностей технологий распознавания слитной речи (РСР) целесообразным является обзор существующих программных систем и решений по имплементации их на практике.  Подобный арсенал охватывает в перспективе огромный спектр возможностей, вплоть до того, что Вы хотите запустить процесс отгрузки конетйенра из точки А в точку Б с помощью голосового ассистента.


2 СУЩЕСТВУЮЩИЕ СИСТЕМЫ РАСПОЗНАВАНИЯ СЛИТНОЙ РЕЧИ

2.1. Классификация систем распознавания слитной речи

Система РСР представляет собой взаимодействие акустических моделей, лексикона, языковой модели и декодера. Если акустические модели выполняют оценку вероятностей распознавания отдельных аллофонов, то языковые модели оценивают вероятность следования слов друг за другом. Лексикон содержит все возможные варианты произнесения слов, которые будут распознаваться в процессе работы системы. Декодер определяет лучшую гипотезу в сети распознавания. Это программа, оперирующая большими объемами данных, которая в максимально сжатые сроки должна принять решение о распознанном тексте. Для успешной работы программы требуется разработка особых алгоритмов, ускоряющих процесс и уменьшающих число ошибок.


Классификацию систем РСР следует начать с определения основных аспектов этих систем. К таким аспектам можно отнести: 

  1. Размер словаря. Чем больше размер словаря, с которым работает система распознавания речи, тем больше частота появления ошибок при распознавании слов. Для сравнения, словарь, состоящий только из цифр, может быть распознан практически безошибочно, тогда как частота появления ошибок при распознавании словаря в сто тысяч слов может достигать 45%. При этом, необходимо учитывать уникальность слов в словаре. Если слова схожи, то погрешность распознавания увеличивается. 
  2. Дикторозависимость. Существуют дикторозависимые и дикторонезависимые системы распознавания РСР. Первый тип систем предназначен для работы только с одним пользователем (человеком, который обучал эту систему), в то время как второй тип систем предназначен для работы с любым диктором. Но создание по-настоящему дикторонезависимой системы – очень трудоемкая задача. На текущем этапе развития систем распознавания речи частота появления ошибок в дикторонезависимых системах в 3-5 раз больше, чем дикторозависимых. 
  3. Структурные единицы. В качестве структурных единиц могут выступать фразы, слова, 2 фонемы, дифоны, аллофоны. Системы РСР используя целые слова или фразы, называются системами распознавания речи по шаблону. Они как правило дикторазависимы, и их создание менее трудоемко, чем создание систем, распознающих речь на базе выделения лексических элементов. В таких системах структурными единицами речи являются лексические элементы (фонемы, дифоны, аллофоны). 
  4. Принцип выделения структурных единиц. В современных системах РСР используются несколько подходов для выделения из потока речи структурных единиц. Самый распространенный подход основан на преобразовании Фурье, которое переводит исходный сигнал из амплитудно-временного пространства в частотно-временное, а во временной области – линейное предсказание речи, которое описывает речевой сигнал с помощью модели авторегрессии. Однако анализ Фурье обладает целым рядом недостатков, в результате которых происходит потеря информации о временных характеристиках обрабатываемых сигналов. В связи с этим для задачи выделения структурных единиц речи оправданно использование вейвлет-анализа. С помощью вейвлетов можно анализировать свойства сигнала одновременно и в физическом пространстве, и в частотном. 
  5. Алгоритмы распознавания. После того как речевой сигнал разбивается на определенные части, происходит вероятностная оценка принадлежности этих частей к тому или иному элементу распознаваемого словаря. Это осуществляется по средством одного из алгоритмов распознавания. Наибольшее распространение получили системы распознавания речи на базе скрытых марковских моделей (СММ). СММ называется модель состоящая из N состояний, в каждом из которых некоторая система может принимать одно из M значений какого-либо параметра. В общем виде структурная схема классификации существующих систем РСР приведена на рис.1.

 


Рис.1. Структурная схема классификации существующих систем РСР


2.2. Анализ существующих групп систем распознавания слитной речи

В настоящее время речевое распознавание находит все новые и новые области применения, начиная от приложений, осуществляющих преобразование речевой информации в текст и заканчивая бортовыми устройствами управления автомобилем.


Все многообразие существующих систем распознавания речи можно условно разделить на следующие группы:

  1. Программные ядра для аппаратных реализаций систем распознавания речи. В основе любой речевой технологии лежит так называемый «engine» или ядро программы – набор данных и правил, по которым осуществляется обработка данных. В зависимости от назначения этого ядра различают TTS и ASR engine. TTS (Text-to-Speech) engine предоставляет возможность синтеза речи по тексту, а ASR (Automatic Speech Recognition) engine – для распознавания речи. Существует несколько крупных производителей, занимающихся созданием ASR ядер и среди них такие компании, как SPIRIT, Advanced Recognition Technologies, IBM.
  2. Наборы библиотек, утилит для разработки приложений, использующих речевое распознавание. К сожалению, отечественный рынок программных средств распознавания речи представлен единичными разработками. Из всех программ, изначально разрабатываемых для русского языка, только ПО от белорусской компании «Сакрамент» может конкурировать по качеству распознавания с зарубежными аналогами.
  3. Независимые пользовательские приложения, осуществляющие речевое управление и/или преобразование речи в текст.
  4. Специализированные приложения, использующие распознавание речи. В настоящее время одним из лидеров в данном направлении является компания «Центр Речевых Технологий», которая разрабатывает и производит программные продукты, технологии и образцы техники для подразделений МВД, ФСБ, МЮ, МЧС, МО, служб экстренной помощи, центров обработки вызовов и для других пользователей, в деятельности которых особое значение придается регистрации и обработке речевой информации. 
  5. Устройства, выполняющие распознавание на аппаратном уровне. Тайваньская технологическая корпорация Primestar Technology Corporation разработала собственный чип VP-2025, предназначенный для речевого распознавания. Данное устройство осуществляет распознавание с помощью нейросетевого метода.


2.3. Анализ функциональных возможностей современных программных продуктов по распознаванию слитной речи

В данной статье выделим следующие рабочие движки:

  1. Sakrament ASR Engine - разработка компании «Сакрамент», осуществляющая высокоточное распознавание речи на различных платформах. Технология распознавания речи используется при создании средств речевого управления – программ, управляющих действиями компьютера или другого электронного устройства с помощью голосовых команд, а также при организации телефонных справочных и информационных служб. Программа рассчитана на применение в различных аппаратных системах и программных приложениях, использующих технологии распознавания речи, таких как: IVR-системы, мобильные электронные устройства, бытовая техника и т.д. Sakrament ASR Engine может быть легко перенесена на любую существующую программную или аппаратную платформу, а также настроена под конфигурацию любого приложения.
  2. Speechlogger - это программа для распознавания речи и мгновенного голосового перевода в Интернете. Она использует технологию Google онлайн перевода голоса в текст. Это веб-приложение с автоматической расстановкой знаков препинания, автоматическим сохранением отметки времени, возможностью редактирования текста, транскрипции аудио файлов, опцией экспорта (в текст и записи) и многими другими функциями. Возможные варианты использования: голосовая пишущая машинка (речь в текст); автоматический переводчик в режиме реального времени (мгновенный переводчик голоса в текст и голос); слуховой аппарат; титровщик; генератор субтитров. Интерфейс системы Speechlogger приведен на рис.2.

     

    Рис.2. Интерфейс системы Speechlogger

  3. Войснот II.  Этот программный продукт представляет собой простой и удобный в использовании плагин, написанный для браузера Google Chrome. Предназначается приложение для набора текста голосом. С его помощью при нормальной диктовке можно достичь скорости печати от 600 до 1000 символов в минуту. Приложение умеет вычленять из речевого потока микропаузы, вставлять знаки препинания по голосовым командам, записывать наиболее употребительные технические термины, произнесённые на русском языке латиницей, автоматически приостанавливать и возобновлять работу. В ручном режиме плагином поддерживается вставка знаков препинания и заглавных букв, переход на новый абзац, отмена действий, сохранение заметок в формате TXT, проверка правописания. 

 


Рис.3. Интерфейс плагина Войснот II


Также имеется возможность настройки автозамены, размера шрифта, внешнего вида кнопок на панели инструментов. Имеются функции вставки даты в текст заметки, переключения на другие национальные языки, редактирования текста в режиме оффлайн.


ВЫВОДЫ

Проведенный анализ программного обеспечения для распознавания слитной речи показал, что в настоящее время не существует универсальной системы РСР, которая была бы способна к самообучению, являлась бы дикторонезависимой, устойчивой к шумам, была бы способна оперативно работать со словарями больших размеров  и обладающей низкой частотой появления ошибок. Рассмотренные программные решения на данный момент не являются универсальными и точными, погрешность распознавания речи сильно зависит от наличия посторонних средних и высокочастотных шумов, а также от качества микрофона.

В связи с этим следует отметить, что задачи развития РСР, разработки и реализации программно-информационных решений в данной области являются востребованными и актуальными. 



Авторы:

к.т.н., доцент кафедры информационных технологий ОНМУ Рудниченко Н.Д.

к.т.н., доцент кафедры информационных технологий ОНМУ Бойко В.Д.

к.т.н., старший преподаватель кафедры информационных технологий ОНМУ Шибаева Н.О.

старший преподаватель кафедры информационных технологий ОНМУ Косенко Е.Д.

аспирант кафедры информационных технологий ОНМУ Шибаев Д.С.


Инженер-программист, кандидат технических наук, доцент кафедры информационных технологий Одесского Национального Морского Университета. Научные интересы: искусственный интеллект, интеллектуальный анализ данных, управление IT-проектами, автоматизация разработки и тестирования ПО.