Система распознавания речи viavoice

Система распознавания речи viavoice

Качество распознавания доходит до 95%, но хорошая машинистка все же лучше

Известно, что удовлетворительная система распознавания речи, которая могла бы получить широкое распространение, пока не создана. Однако система диктовки ViaVoice корпорации IBM вполне может обеспечить многим пользователям существенное повышение производительности. Начало поставок пакета по цене $99 намечено на сентябрь.

Если ViaVoice не понял слово, он предлагает пользователю различные его варианты

За всю историю Тестового центра PC Week Labs это только второй случай тестирования продукта, который способен распознавать живую речь. Наши эксперименты показали, что пакет ViaVoice — это большой шаг вперед даже по сравнению с Personal Dictation System for OS/2 той же IBM, где слова нужно произносить со значительными паузами.

Если говорить о единственном сопернике в среде Windows 95 и Windows NT, системе NaturallySpeaking 1.0 ($349) фирмы Dragon Systems, то ViaVoice показал в тестах примерно такую же точность, зато его цена значительно ниже. (О тестировании бета-версии NaturallySpeaking см. в PC Week/RE, № 32, с. 43.)

Для большинства людей ViaVoice не сможет заменить клавиатуру. Так, в наших тестах он распознавал 85% речи, правда, после продолжительного “обучения” программы мы смогли достичь уровня 90 — 95%.

Но хотя последняя цифра выглядит впечатляюще, остающиеся 5% становятся причиной достаточно серьезных ошибок — от использования множественного числа вместо единственного до неправильного распознавания одного или двух слов, в результате чего вся фраза становится бессмысленной. Добавим к этому, что пакет работает только в своем собственном простом текстовом процессоре.

Что касается производительности, то следует отметить, что с помощью пакета можно диктовать от 70 до 80 слов в минуту. Однако этот показатель не включает время на коррекцию ошибок. Хорошая же машинистка может печатать с такой же скоростью, но без ошибок. Из этого следует, что ViaVoice подходит для людей, которые нуждаются во вводе больших массивов информации или кого раздражает процесс набора текста на клавиатуре.

Принципы работы ViaVoice и NaturallySpeaking примерно одинаковы. Оба они используют образцы звуков и анализ контекста. Однако некоторые различия пользователи все же обнаружат.

Настройка ViaVoice разделена на два сеанса. Первый сеанс столь же сух, как и воздух в Долине смерти, но в это время пользователь учится ставить голосом пунктуацию, чего не делает NaturallySpeaking. Второй сеанс заключается в чтении “Истории привидения” Марка Твена. Это долгая процедура, но результат стоит того.

Дальнейшую настройку можно провести во время работы. Несмотря на соблазн пользоваться клавиатурой при “обучении” системы образцам речи пользователя, нужно применять редактор ViaVoice. Если пакет не может распознать какое-либо слово, пользователю предоставляется небольшой список похожих слов и их производных.

Начав работать с ViaVoice, мы старались произносить слова чисто. Однако затем мы перешли на нормальную речь, что обычно происходит со всеми. Это оказалось довольно сложно, постоянно приходилось прерывать сеанс и пользоваться редактором.

Замечено, что первоклассные продукты могут поражать какими-то одними возможностями при том, что в них начисто отсутствуют другие. И здесь ViaVoice не является исключением. Так, IBM превзошла Dragon Systems тем, что ее пакет способен сохранять набранный текст в формате Microsoft Word 6.0 (и ViaVoice, и NaturallySpeaking могут сохранять документы в текстовом формате или RTF). Но на панели инструментов ViaVoice в отличие от NaturallySpeaking нет кнопки микрофона, которая четко обозначает начало и конец сеанса диктовки.

Требования к ресурсам компьютера у ViaVoice несколько выше, чем у NaturallySpeaking. Продукту IBM необходим ПК не слабее 150 МГц Pentium MMX или 166 МГц Pentium, тогда как его конкуренту достаточно 133 МГц Pentium. Требования к ОЗУ одинаковы — 32 Мб при работе под Windows 95.

Резюме для руковолителей

Продукт ViaVoice 1.0 корпорации IBM — это значительный шаг вперед по сравнению с системами, распознающими отдельные слова: он редко ошибается и способен распознавать живую речь. Однако практическое применение он может найти только в сферах, где требуется ввод в компьютер большого объема информации.

Преобразует живую речь в текст; поддерживает вывод в формате Microsoft Word 6.0; невысокая цена; разумные требования к машинным ресурсам.

Длительная настройка; в эффективности явно проигрывает хорошей машинистке.

Содержание статьи

Человека всегда привлекала идея управлять машиной естественным языком. Возможно, это отчасти связано с желанием человека быть НАД машиной. Так сказать, чувствовать свое превосходство. Но основной посыл — это упрощение взаимодействия человека с искусственным интеллектом. Управление голосом в Linux с переменным успехом реализуется без малого уже четверть века. Давай разберемся в вопросе и попробуем сблизиться с нашей ОС настолько, насколько это только возможно.

Суть дела

Системы работы с человеческим голосом для Linux существуют давно, и их великое множество. Но не все они корректно обрабатывают русскую речь. Некоторые и вовсе заброшены разработчиками. В первой части нашего обзора мы поговорим непосредственно о системах распознавания речи и голосовых ассистентах, а во второй — рассмотрим конкретные примеры их использования на Linux-десктопе.

Читайте также:  Новости фтс россии на сегодня

Следует различать собственно системы распознавания речи (перевод речи в текст или в команды), такие как, например, CMU Sphinx, Julius, а также приложения на основе этих двух движков, и голосовые ассистенты, ставшие популярными с развитием смартфонов и планшетов. Это, скорее, побочный продукт систем распознавания речи, дальнейшее их развитие и воплощение всех удачных идей распознавания голоса, применение их на практике. Для Linux-десктопов таких пока мало.

Надо понимать, что движок распознавания речи и интерфейс к нему — это разные вещи. Таков базовый принцип архитектуры Linux — разделение сложного механизма на более простые составные части. Самая сложная работа ложится на плечи движков. Обычно это скучная консольная программа, работающая незаметно для пользователя. Пользователь же взаимодействует в основном с программой-интерфейсом. Создать интерфейс несложно, поэтому основные усилия разработчики направляют именно на разработку открытых движков распознавания речи.

Что было раньше

Исторически сложилось так, что все системы работы с речью в Linux развивались не спеша и скачкообразно. Причина не в криворукости разработчиков, а в высоком уровне вхождения в среду разработки. Написание кода системы для работы с голосом требует высокой квалификации программиста. Поэтому, перед тем как начать разбираться с системами работы с речью в Linux, необходимо сделать небольшой экскурс в историю. Была когда-то в IBM такая чудесная операционная система — OS/2 Warp (Merlin). Вышла она в сентябре далекого уже 1996 года. Кроме того, что она обладала очевидными преимуществами перед всеми остальными операционками, OS/2 была укомплектована весьма продвинутой системой распознавания речи — IBM ViaVoice. Для того времени это было очень круто, учитывая, что ОС работала на системах с 486-м процессором с объемом ОЗУ от 8 Мбайт (!).

Как известно, OS/2 проиграла битву Windows, однако многие ее компоненты продолжили существовать независимо. Одним из таких компонентов стала та самая IBM ViaVoice, превратившаяся в самостоятельный продукт. Так как IBM всегда любила Linux, ViaVoice была портирована на эту ОС, что дало детищу Линуса Торвальдса самую передовую для своего времени систему распознавания речи.

К сожалению, судьба ViaVoice сложилась не так, как хотели бы линуксоиды. Сам движок распространялся бесплатно, но его исходники оставались закрытыми. В 2003 году IBM продала права на технологию канадо-американской компании Nuance. Nuance, разработавшая, пожалуй, самый успешный коммерческий продукт для распознавания речи — Dragon Naturally Speeking, здравствует и ныне. На этом бесславная история ViaVoice в Linux практически закончилась. За то короткое время, что ViaVoice была бесплатной и доступной линуксоидам, к ней разработали несколько интерфейсов, таких, например, как Xvoice. Однако проект давно заброшен и ныне практически неработоспособен.

OS/2 Warp — система, которую мы потеряли

Что сегодня?

Сегодня все гораздо лучше. В последние годы, после открытия исходников Google Voice API, ситуация с развитием систем распознавания речи в Linux значительно улучшилась, выросло качество распознавания. Например, проект Linux Speech Recognition на основе Google Voice API показывает очень неплохие результаты для русского языка. Все движки работают примерно одинаково: сначала звук с микрофона устройства юзера попадает в систему распознавания, после чего либо голос обрабатывается на локальном устройстве, либо запись отправляется на удаленный сервер для дальнейшей обработки. Второй вариант больше подходит для смартфонов или планшетов. Собственно, именно так и работают коммерческие движки — Siri, Google Now и Cortana.

Из всего многообразия движков для работы с человеческим голосом можно выделить несколько активных на данный момент.

WARNING

CMU Sphinx

Большая часть разработки CMU Sphinx ведется в университете Карнеги — Меллона. В разное время над проектом работали и Массачусетский технологический институт, и покойная ныне корпорация Sun Microsystems. Исходники движка распространяются под лицензией BSD и доступны как для коммерческого, так и для некоммерческого использования. Sphinx — это не пользовательское приложение, а, скорее, набор инструментов, который можно применить в разработке приложений для конечных пользователей. Sphinx сейчас — это крупнейший проект по распознаванию речи. Он состоит из нескольких частей:

  • Pocketsphinx — небольшая быстрая программа, обрабатывающая звук, акустические модели, грамматики и словари;
  • библиотека Sphinxbase, необходимая для работы Pocketsphinx;
  • Sphinx4 — собственно библиотека распознавания;
  • Sphinxtrain — программа для обучения акустическим моделям (записям человеческого голоса).

Проект развивается медленно, но верно. И главное — его можно использовать на практике. Причем не только на ПК, но и на мобильных устройствах. К тому же движок очень хорошо работает с русской речью. При наличии прямых рук и ясной головы можно настроить распознавание русской речи с помощью Sphinx для управления домашней техникой или умным домом. По сути, можно обычную квартиру превратить в умный дом, чем мы и займемся во второй части этого обзора. Реализации Sphinx имеются для Android, iOS и даже Windows Phone. В отличие от облачного способа, когда работа по распознаванию речи ложится на плечи серверов Google ASR или Яндекс SpeechKit, Sphinx работает точнее, быстрее и дешевле. И полностью локально. При желании можно научить Sphinx русской языковой модели и грамматике пользовательских запросов. Да, придется немного потрудиться при установке. Равно как и настройка голосовых моделей и библиотек Sphinx — занятие не для новичков. Так как основа CMU Sphinx — библиотека Sphinx4 — написана на Java, можно включать ее код в свои приложения для распознавания речи. Конкретные примеры использования будут описаны во второй части нашего обзора.

Читайте также:  Шрифты для печати штрих кодов

VoxForge

Особо выделим понятие речевого корпуса. Речевой корпус — это структурированное множество речевых фрагментов, которое обеспечено программными средствами доступа к отдельным элементам корпуса. Иными словами — это набор человеческих голосов на разных языках. Без речевого корпуса невозможна работа ни одной системы распознавания речи. В одиночку или даже небольшим коллективом создать качественный открытый речевой корпус сложно, поэтому сбором записей человеческих голосов занимается специальный проект — VoxForge.

Любой, у кого есть доступ к интернету, может поучаствовать в создании речевого корпуса, просто записав и отправив фрагмент речи. Это можно сделать даже по телефону, но удобней воспользоваться сайтом. Конечно, кроме собственно аудиозаписи, речевой корпус должен включать в себя дополнительную информацию, такую как фонетическая транскрипция. Без этого запись речи бессмысленна для системы распознавания.

VoxForge — стартовый портал для тех, кто хочет внести свой вклад в разработку открытых систем распознавания речи

HTK, Julius и Simon

HTK — Hidden Markov Model Toolkit — это инструментарий для исследования и разработки средств распознавания речи с использованием скрытых марковских моделей, разрабатывается в Кембриджском университете под патронажем Microsoft (Microsoft когда-то выкупила этот код у коммерческого предприятия Entropic Cambridge Research Laboratory Ltd, а затем вернула его Кембриджу вместе с ограничивающей лицензией). Исходники проекта доступны всем желающим, но использование кода HTK в продуктах, предназначенных для конечных пользователей, запрещено лицензией.

Однако это не означает, что HTK бесполезен для Linux-разработчиков: его можно использовать как вспомогательный инструмент при разработке открытых (и коммерческих) средств распознавания речи, что и делают разработчики открытого движка Julius, который разрабатывается в Японии. Julius лучше всего работает с японским языком. Великий и могучий тоже не обделен, ведь в качестве голосовой базы данных используется все тот же VoxForge.

Продолжение доступно только участникам

Вариант 1. Присоединись к сообществу «Xakep.ru», чтобы читать все материалы на сайте

Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», увеличит личную накопительную скидку и позволит накапливать профессиональный рейтинг Xakep Score! Подробнее

Рубрика: Информационные технологии

Дата публикации: 28.09.2019 2019-09-28

Статья просмотрена: 527 раз

Библиографическое описание:

Казачкин А. Е. Методы распознавания речи, современные речевые технологии // Молодой ученый. — 2019. — №39. — С. 6-8. — URL https://moluch.ru/archive/277/62675/ (дата обращения: 16.03.2020).

В данной статье мы проведем обзор развития систем распознавания речи, рассмотрим основные принципы их построения, а также актуальные области применения и перспективы развития систем распознавания речи.

В настоящее время существуют многочисленные технические средства, способные распознавать произносимые речевые сообщения: компьютеры, автомобили, телефоны и др.

Что же такое распознавание речи? На первый взгляд, все кажется очень просто: человек произносит слово (фразу) — техническая система реагирует на него: либо выполняет команду, содержащуюся в слове (фразе), либо набирает диктуемый текст.

Современные системы распознавания речи дают возможность пользователям диктовать слова (фразы) в обычной разговорной манере. Однако процесс непрерывного распознавания речи, дающий до 95 % качества распознавания при оптимальных условиях, все-таки дает на 100 знаков 4–5 ошибок. Около 200 ошибок на странице формата A4 — слишком много для профессиональной работы.

Как правило, система распознавания речи состоит из двух моделей: акустической и лингвистической.

Компьютер записывает звук речи в виде цифрового сигнала и делит его на аудиофрагменты длительностью несколько миллисекунд. Акустическая модель отвечает за преобразование речевого сигнала в набор признаков, в которых отображена информация о содержании речевого сообщения. Программа выполняет сложный анализ речи, сравнивая аудиофрагменты с записанными в память речевыми образцами.

Лингвистическая модель анализирует информацию, получаемую от акустической модели, и формирует окончательный результат распознавания. На основе вероятностного расчета компьютер определяет, что именно мог произнести пользователь. В основе модели лежит понятие фонемы — наименьшей акустической единицы языка. В процессе обучения, компьютер распознает наиболее важные признаки произношения пользователем фонем и записывает полученные данные в виде профиля пользователя. Для таких систем важно, чтобы в дальнейшем во время диктовки пользователь, по возможности,

Читайте также:  Символы для ников оружие

Возможности современных технологий

Увеличение вычислительных мощностей мобильных устройств позволило создать для них программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, Siri, голосовой переводчик Google Translate, Алиса и т. д. Эти приложения способны распознавать фразы, произнесенные пользователем, и выполнять команду, либо переводить их на другие языки.

Интеллектуальные речевые системы, позволяющие автоматически синтезировать и распознавать речевой сигнал, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивных телефонных приложений в настоящее время не веяние моды, а необходимость. Снижение нагрузки на операторов контакт-центров, и как следствие: сокращение расходов на оплату труда и повышение производительности систем обслуживания — вот только некоторые преимущества, доказывающие целесообразность использования подобных продуктов.

Таким образом, в приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.

Проблемы развития систем распознавания речи

Рассмотрим некоторые аспекты, препятствующие глобальному решению проблемы качественного распознавания речи.

1. Темп речи пользователей варьируется в широких пределах, часто в несколько раз. При этом различные звуки речи растягиваются или сжимаются не пропорционально. Например, гласные изменяются значительно сильнее, чем полугласные и особенно смычные согласные. Для так называемых щелевых звуков есть свои закономерности. (Полугласные — это звуки, при генерации которых необходимо участие голосовых связок, как и для гласных звуков, но сами они в обиходе считаются согласными). Образование щелевых звуков связано с шипением и прочими эффектами турбулентности в органах артикуляции. Это свойство называется временной нестационарностью образцов речевого сигнала.

2. Произнося одно и то же слово или фразу в разное время, под влиянием различных факторов (настроения, состояния здоровья и др.), мы генерируем заметно не совпадающие спектрально-временные распределения энергии. Это справедливо даже для дважды подряд произнесенного слова. Намного сильнее этот эффект проявляется при сравнении спектрограмм одной и той же фразы, произнесенной разными людьми. Обычно этот эффект называют спектральной нестационарностью образцов речевого сигнала.

3. Изменение темпа речи и четкости произношения является причиной коартикуляционной нестационарности, означающей изменение взаимовлияния соседних звуков от образца к образцу.

4. Проблема кластеризации слитной речи: в непрерывном речевом потоке трудно распознать речевые единицы из-за неточного определения границ.

Это лишь часть причин, препятствующих полной реализации систем распознавания речи.

Области применения систем распознавания речи

Основными областями применения систем распознавания речи я выделил:

1. Автоматизированный пользовательский интерфейс. На сегодняшний день для многих людей общение с компьютером все еще вызывает затруднения. Системы распознавания речи позволяют преодолевать эти трудности. Преимущество систем распознавания голоса состоит в том, что они намного быстрее любых других типов интерфейсов. Голосовая программа электронной почты позволяет включать компьютер, диктовать и отправлять сообщения, не прикасаясь к мыши и клавиатуре. Также люди с физическими недостатками получат более эффективный способ взаимодействия с компьютером.

Наиболее очевидное использование системы распознавания слитной речи заключается в создании систем автоматического стенографирования, которые могут заменять секретарей при диктовке голосом текстов писем, заметок в ежедневник, докладов. В таком случае происходит не только экономия за счет сокращения работы стенографиста, но и повышение степени конфиденциальности информации.

2. Управление мобильными устройствами. Известно, насколько неудобно и опасно использование мобильных телефонов с обычным (тактильным) способом набора номера за рулем. Поэтому в последнее время популярностью пользуются мобильные телефоны с голосовым набором. Достаточно произнести имя абонента, и соединение произойдет автоматически. Аудиосистемы контроля и управления уже применяются в автомобилях некоторых производителей. Владелец автомобиля голосом подает команды управления температурным режимом, радио, навигационной системой, которые воспринимают голос и выполняют команды (DIVO и VoiceCommander).

3. Информационные услуги. Технология распознавания голоса быстро изменила рынок телефонных услуг. Системы, распознающие разговорную речь, работают в информационных телефонных центрах. Эти системы позволяют автоматизировать диалог с клиентом, в результате чего отпадает необходимость в огромном количестве операторов, принимающих телефонные звонки, и избавляя клиентов от длительного ожидания освободившегося оператора на линии.

4. Интерфейсы разграничения доступа. За последнее десятилетие области применения таких систем значительно расширились и продолжают расширяться. Они применяются, в частности, для контроля ограниченного доступа к объекту с помощью распознавания лица и речи человека, выполнения финансовых операций при помощи речи и сенсорных экранов банкоматов.

В заключении данной статьи, хотел бы сказать Ограничения применения систем распознавания речи в рамках наиболее традиционных приложений позволяют сделать вывод о необходимости поиска потенциально новых решений в области распознавания речи. В ближайшее десятилетие задача распознавания и понимания естественной речи вне зависимости от языка и диктора будет занимать центральное место в речевых технологиях.

В настоящее время в ХНУРЭ разрабатывается новый метод автоматического распознавания речевых сигналов в реальном масштабе времени, основанный на бионическом принципе анализа сигналов.

Ссылка на основную публикацию
Сервер не поддерживает символы не ascii
Многие из нас пользуются замечательным FTP сервером FileZilla Server. Думаю, не я один столкнулся с проблемой некорректного отображения русских букв...
Ресивер пионер vsx 528
5.1 канальный AV ресивер Pioneer VSX-528 с 6x HDMI, AirPlay, DLNA, MHL, сквозным сигналом Ultra HD 4K и Интернет-радио vTuner....
Ресивер для нтв плюс какой лучше
Телекомпания НТВ‑ПЛЮС гарантирует получение качественных услуг, а также обеспечение корректного доступа к каналам и дополнительным сервисам Телекомпании, только при условии...
Сервера для обновления nod32 бесплатно
Отличие полной версии от триальной Полные (не триальные) антивирусные базы и программные компоненты Eset Antivirus и Eset Smart Security! Отличия...
Adblock detector