На главную
Tracktor Bowling - THE BEST, 23-02-2008, Rocco::ФотоAnimalJazz, 9-03-2008, Rocco::ФотоLuk - Sex,  24-02-2008, Rocco::Фото

**

Рубрики

Статьи  |  Голос компьютера

Голос компьютера

Еще во времена 286 компьютеров и XT-шек ходила одна байка про сисопа (системного оператора), который поздно ночью сортировал разные файлы, которые ему были загружены на BBS. Среди этих файлов попалась небольшая программка sayit.exe (если не ошибаюсь). Ну, естественно, он ее запустил – ничего, тишина. Тогда он запустил ее с параметром "/?" (sayit /?) – компьютер голосом робота с грузинским акцентом: "косая скобка?". Сисоп чуть со стула не упал от испуга.

Конечно, сегодня программы для синтеза речи не представляются такой уж экзотикой. Почти каждый уже не раз слышал о них.

Эта статья о программах синтеза русской речи. На сегодняшний день доступны только некоторые из них, так как большинство подобных программ открыто не распространяются и существуют лишь в качестве закрытых разработок или технологий для узкого применения, например в области автоматических информационных служб. Например, программы синтеза речи используются в некоторых справочных службах – они позволяют зачитывать текст расписания движения транспорта и прочее, а с использованием технологии распознавания речи (или технологии распознавания тональных сигналов телефона), можно создавать интерактивные службы, которые будут реагировать на действия клиента и выдавать ему именно ту информацию, которую он требует.

Программы синтеза речи, или TTS (Text-to-speech), существуют в нескольких разновидностях.
В виде отдельной программы, в которую, например, можно скопировать текст для чтения из буфера обмена, в виде API – библиотеки, предоставляющей другим программам возможность использования ее процедур и в виде стандартизованного SAPI - speech application programming interface – библиотеки, соответствующей стандарту синтеза речи.

В принципе, Text-to-speech engine или движки синтеза речи - это программы выполненные в виде системного драйвера, предназначенные для преобразования текста в речь. Во многих из них можно выбирать язык синтеза речи (русский, английский, французский), параметры голоса (женский, мужской, низкий, высокий), темп речи.

Сами движки синтеза речи не имеют внешнего интерфейса, поэтому для того, чтобы Ваш компьютер заговорил, не достаточно установки только движка. Для использования движка необходима программа, которая выполняет роль интерфейса, позволяет работать с движком, изменять его настройки, звучание речи.

Для массового пользователя доступны лишь несколько программ.

DIGALO
Настоящим прорывом в технологии text-to-speech стало появление третьей версии условно-бесплатного голосового движка синтеза русской речи Digalo французской фирмы Elan Informatique. Сайт разработчика www.dlgalo.com Условия распространения shareware

Русский мужской голос французского движка получил название Nikolai. Так вот, именно баритону Коли Дигало суждено было изменить отношение отечественных разработчиков и пользователей к ПО этого типа, поскольку он, если и не стал безупречно дикторским, то уж от голоса иного современного тележурналиста точно ничем не отличается. Мало того, ошибок в ударениях (а акценты у нас, если кто еще не знал, ставятся куда попало) у Digalo практически нет. Ну, разве что в именах и фамилиях и некоторых сложных малоупотребительных словах Николай что-нибудь напутает. Вместо Иван, например, произнесет вдруг по-болгарски Ивнов. Зато с широкоупотребительными словами никаких проблем. А уж русской ненормативной лексикой Николай владеет настолько виртуозно, что ему мог бы позавидовать даже видавший виды слесарь-сантехник. Во всяком случае, Коля Дигало почти всегда безошибочно определяет, когда надо сказать Е, а когда Ё. Из грубых промахов я бы, пожалуй, отметил не всегда корректное озвучивание чисел, очень странное, акцентированное произнесение слов "нет" и "не" и немного кортавое произношение из за легкого непроговаривания буквы "Р".
Тем не менее, стихи слышны стихами, проза - прозой. Очень качественный голос. Конечно, до человеческого нормального голоса далеко, но вполне понятно.

digalo.mp3

Lernout Hauspie (L&H)
Lernout Hauspie (L&H) - лидер среди фирм, занимающимися исследованиями и разработками в области речевых технологий. Выпущенный ими движок синтеза русской речи, сблашодаря поддержке ASR1600 и TTS3000 SAPI 5.0 SDKs используется во многих программных продуктах в различных областях.
Движок L&H имеет два голоса: первый женский - Adult Female; второй мужской Adult Мale.
Движок компании "Lernout&Hauspie" позволяет настраивать чтение аббревиатур и слов (ударения). Этот продукт, активно продвигаемый Microsoft, довольно отвратительного качества. Американские программисты немного ошиблись и, кажется, взяли за основу голос русского эмигранта, слегка подзабывшего родную речь.

В отличии от DIGALO его речь имеет какой-то странный иностранный акцент. Подавляющее большинство слов произносятся с неправильным ударением.

lh.mp3
lh_m.mp3

Sakrament Text-to-Speech Engine
Cистема синтеза русской речи "SAKRAMENT TEXT-TO-SPEECH ENGINE" создана на основе собственных разработок компании "Сакрамент" с использованием более чем 30 летнего опыта ведущих специалистов в этой области. Применение уникальных алгоритмов и разработка собственной акустической базы позволили добиться существенного повышения качества синтезируемой речи, а разработка интуитивно-простого интерфейса системы дополнила органичность самого синтеза, и сделала его наиболее привлекательным для пользователей.

"SAKRAMENT TEXT-TO-SPEECH ENGINE" может быть использована в виде плагина для проигрывателя MP3-файлов Winamp, что позволяет применить к синтезируемому голосу точную настройку эквалайзера и различных звуковых эффектов, но также предусмотрена и собственная оболочка программы –"SAKRAMENT TEXT-TO-SPEECH AGENT".

Система синтеза речи позволяет озвучивать тексты мужским и женским голосом, делая при этом интонационные паузы, а также, по желанию пользователя, изменять тон и тембр речи даже в ходе прослушивания.

Огромный минус движка - его закрытость (не доступен простым смертным).

vika.mp3
igor.mp3

Говорящая мышь
Движок синтеза речи "Клуба голосовых технологий" филологического факультета МГУ, расположенного в Научном Парке МГУ. Используется в некоторых известных программах, например в Maggic Goody
Как скромно заявляют о себе его создатели "Синтезатор характеризуется высоким качеством синтеза речи, что позволяет прослушивать тексты без их специальной подготовки. Помимо стандартных функций синтеза речи "Speaking Mouse Home" умеет петь, читать меню и экранные сообщения, озвучивать текст, набираемый с клавиатуры в любом из приложений, работающих под Windows 95. Имеются возможности редактирования голосов. Непосредственно из читаемого текста можно вызывать исполнение встроенных мультимедийных функций. Среди них: демонстрация графических файлов, проигрывание звуковых (WAV), MIDI файлов и видеоклипов."

Помимо стандартных функций синтеза речи "Speaking Mouse Home" умеет петь, читать меню и экранные сообщения, озвучивать текст, набираемый с клавиатуры в любом из приложений, работающих под Windows 95.
Синтезатор умеет произносить текущую дату и текущее время.
Дополнительные функции активизируются с помощью управляющих символов, вставляемых в текст: можно изменять тон, высоту, длительность звучания. К примеру, после обработки текста, вставки необходимых команд, программа сможет спеть текст по нотам.

Голос, воспроизводящий текст вполне понятен, хотя для привыкания требуется некоторое время. Читает по слогам. Прослеживается довольно занятная интонация, программа реагирует на знаки препинания ("скобка открывается", "запятая"). Есть несколько голосов (мужской, женский, робот, эльф...). огромный минус движка, он не является независимым, то есть используется только в конкретных программах.

ms_cap.mp3
ms_dic.mp3
ms_pet.mp3

Ознакомиться с другими программами синтеза речи вы можете на сайтах:
 
http://art.bdk.com.ru, http://iclub.kemsu.ru/ts

Ilya A. Zimnovich

Вход


HomeКарта сайтаПоиск по сайтуПечатная версияe-mail
© 2000-2011 Студенческий городок