Перейти к содержанию
    

Allwinner T113-s3 уделал HiFi4 DSP. Смеяться или плакать?

1 hour ago, sasamy said:

сейчас из текста синтезируют потому что вычислительная база позволяет, но как качественно распознавать фонемы вы так и не рассказали,

Расточительство какое-то.   🙂 Про фестиваль слыхали?  В Линуксе есть.   Его базы тоже размечены фонемами:

1.thumb.png.9c87810abea84edc68d021faf988c604.png

 

Кстати, почитал немного светочей науки, в вокодере тоже рекомендуют использовать дифоны, а не фонемы:   https://web.archive.org/web/20220802025910id_/https://www.isca-speech.org/archive/pdfs/eurospeech_1989/hirata89_eurospeech.pdf

 

59 minutes ago, jcxz said:

Уже в 90-хх нормально синтезировали из текста. См. "Фонемафон". Вполне слушабельно получалось.

Как раз с этим особых проблем нет. Главное, чтобы на слух всё было понятно, натуральность особо не нужна.

 

Основная проблема -  эффективно определить положения фонем и сами фонемы из звукового потока. Ну ум приходят: Фурье, кепстры, вэйвлеты, LPC.   Как найти начало фонемы?

 

Phndec даёт самую высокую скорость распознавания фонем из аудиопотока.  Но Vosk более точен.   Возможно из-за более качественной модели на 16 кГц, в то время как русская модель для Phndec 8 кГц.   Это вдвое меньший частотный диапазон, что уменьшает вероятность более точнее определить фонему.

 

P.S.  Прошёлся компилятором по коду Phndec с флагами  -Wall -Wextra -pedantic -Werror.  Убрал ошибки и неточности.  Плюс ранее упомянутый файл nn.c с нейронкой - где забыли разыменовать указатели при проверки конца строки.

Ну и справедливости ради,  этот Phndec много раз упоминался в научных статьях.

Изменено пользователем repstosw

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

On 9/16/2024 at 12:33 PM, jcxz said:

Не знаю - поможет или нет, но ещё в дремучем 1999г. я писал читалку русского текста (голосом).

Использовал для этого "СИНТЕЗАТОР РУССКОЙ РЕЧИ "ФОНЕМАФОН"" (который от "БелСИнт"). Который раздобыл где-то в виде COM-файла, со встроенным этим драйвером. Вырезал его оттуда, нашёл точки входа в функции и вклеил его в свою программу.

не знаю для чего кроме развития шизофрении это может сегодня помочь,  "text to speech" есть даже в qt, а современных проектов на гитхабе с исходниками вагон и тележка

https://github.com/rhasspy/piper

On 9/16/2024 at 1:49 PM, repstosw said:

Про фестиваль слыхали?  В Линуксе есть.

старье нафталиновое

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Тут такая мысль просквозила: может аппаратное решение в виде CMX638 (CML Microocircuits) будет лучше софтовых "городушек"?
Так сказать, бабки взамен геморроя (-8Ж
Изменено пользователем Obam

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Присоединяйтесь к обсуждению

Вы можете написать сейчас и зарегистрироваться позже. Если у вас есть аккаунт, авторизуйтесь, чтобы опубликовать от имени своего аккаунта.

Гость
К сожалению, ваш контент содержит запрещённые слова. Пожалуйста, отредактируйте контент, чтобы удалить выделенные ниже слова.
Ответить в этой теме...

×   Вставлено с форматированием.   Вставить как обычный текст

  Разрешено использовать не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отображать как обычную ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставлять изображения напрямую. Загружайте или вставляйте изображения по ссылке.

×
×
  • Создать...