Проект: Речевой движок

Processing, playback of audio and video
  • Я еще когда у меня не было PC прочел книжку, где подробно разбирались все методы синтеза речи. Автора и название к сожалению не помню, но там сильно пиарилась продукция компании Kurzweil Computer Products, Inc. Хотя в целом книжка была очень познавательной и полезной.

    За ссылки спасибо.
  • http://dsp-book.narod.ru/books.html - книжки по цифровой обработке сигналов, в т.ч. и по речевому синтезу.
  • Модель Маркова забыли
  • XVilka wrote:Модель Маркова забыли
    А оно разве не для распознавания речи? В текущем случае речь синтезируется, а на распознавание я пока не замахивался.
  • Нашел сайт энтузиаста http://www.bludnikov.ru/soft2.htm
    Тема на форуме IXBT http://forum.ixbt.com
    Не хочу хвастать, но мой SPEECH говорит все же более разборчиво. Чет там чувак перемудрил.

    У кого-нибудь сохранился файл со списком слогов русского языка? А то в теме все ссылки уже мертвые, а у себя я найти не могу.
  • Не, Alyona лучше!

    Послушать:
    Alyona.mp3
    Книгодел.mp3 <- для сравнения.
  • Я знаю, что лучше (причем на порядок), но она платная.
  • Если рассматривать ССГ как два слога, то вот таблица:

    а я э е о ё (ы) и у ю
    б бь ба бя (бэ) бе бо бё бы би бу (бю)
    в вь ва вя (вэ) ве во вё вы ви ву (вю)
    г га (гя)(гэ) ге го гё гы ги гу (гю)
    ж жа же жо жи жу
    д дь да дя (дэ) де до дё ды ди ду дю
    з зь за зя (зэ) зе зо зё зы зи зу зю
    к ка (кя)(кэ) ке ко кё кы ки ку (кю)
    чь ча че чё чи чу
    л ль ла ля (лэ) ле ло лё лы ли лу лю
    м мь ма мя (мэ) ме мо мё мы ми му (мю)
    н нь на ня (нэ) не но нё ны ни ну ню
    п пь па пя (пэ) пе по пё пы пи пу (пю)
    р рь ра ря (рэ) ре ро рё ры ри ру рю
    с сь са ся (сэ) се со сё сы си су сю
    т ть та тя (тэ) те то тё ты ти ту тю
    ф (фь) фа фя (фэ) фе фо фё фы фи фу (фю)
    х ха (хэ) хе хо хи ху
    ш ша ше шо ши шу
    ц ца це цо цы цу
    щь ща ще щё щи щу
    Вот все возможные конечные согласные слова (25 шт):

    мой
    ив
    нож/режь
    ток/луг (в московском произношении)
    вал
    ум
    сон
    скрип/лоб
    укор
    пёс/вяз
    кот/ряд
    штраф
    сух
    птиц
    мышь/шабаш
    ель
    наземь
    день
    крепь/рябь
    зверь
    высь/вязь
    сеть/медь
    явь/верфь/Юдифь
    дочь/плач
    вещь/лещ
    тьфу, ты, конечно, это уже видел
  • Mario wrote:Я знаю, что лучше (причем на порядок), но она платная.
    Там таблэтка есть.
  • Rock_maniak_forever wrote:Там таблэтка есть.
    Я в курсе. Однако если можно не тырить, то зачем тырить? Есть альтернатива.
  • Mario wrote:У кого-нибудь сохранился файл со списком слогов русского языка? А то в теме все ссылки уже мертвые, а у себя я найти не могу.
    Уже не нужно я нашел файл. Всем спасибо за не помощь. (шутю)
  • Я решил пока остановиться на 2-х буквенных сочетаниях слогов, поскольку количество 3-х буквенные превышает сумму 2-х и 1-но буквенных. Звуки записал и сейчас обрабатываю, если результат будет неудовлетворительным буду делать и 3-х буквенные.

    Еще нужно написать код синтаксического анализатора, предыдущая реализация тупо брала значения из таблицы в 128 dword'ов. Сейчас же придется заняться разбивкой на слоги. Хотя уже есть идея выделить семплы в отдельный файл со структурой указателей по типу:
    Spoiler:

    Code: Select all

    dd aText, Sample1
    ....
    aText db 'ав',0
    ....
    file 'ав.wav'
    Это упростит написание кода анализатора. Ну, и в вероятном будущем позволит делать другие голоса. Я подозреваю что мой средне-уральско-татарский диалект русского не всех устроит. :mrgreen:

    И еще сделать предварительную сборку слова из слогов, чтобы отсылать Infinity сразу кусок PCM данных в виде готового слова. Это уменьшит количество вызовов, ну и логически напрашивается вообще.

    В общем то пост в тему о том, что работа не заглохла.
  • Сегодня собрал первый рабочий вариант движка воспроизводящий по слогам. Нужно еще допиливать семлы одиночных букв, поскольку они были записаны на другой громкости и еще несколько выбиваются из общего ряда при произношении. Может быть заново надиктую.

    В целом произношение стало заметно лучше, если бы использовать 3-х буквенные слоги было бы еще лучше, но даже с 2-х буквенными слогами количество семплов более 300. А с 3-х буквенными это еще +2222 семла (да-да, именно более двух тысяч). Боюсь я такую работу тупо не осилю, да и времени столько нет.

    Еще размер файла с семплами распух до 19,2 Мб. Это из-за того, что для речи я использовал избыточное качество записи (48КГЦ/16бит/стерео) и в финальном варианте файл будет поменьше.
  • Для тех у кого не работает звук в Колибри я сделал запись. Качество не фонтан, но чтобы оценить достаточно.
    v01.mp3 928.9K первая реализация
    v02.mp3 658.2K вторая реализация

    Третья реализация, которая читает по слогам и которую я еще не выкладывал:
    v03.mp3 687.5K

    Третья реализация - Лукоморье:
    v03_lukomorie.mp3 3.9M
  • Who is online

    Users browsing this forum: No registered users and 4 guests