Allwinner T113-s3 уделал HiFi4 DSP. Смеяться или плакать?

Ответить

repstosw 18

Опубликовано 11 часов назад (изменено) · Жалоба

1 hour ago, sasamy said:

сейчас из текста синтезируют потому что вычислительная база позволяет, но как качественно распознавать фонемы вы так и не рассказали,

Расточительство какое-то. 🙂 Про фестиваль слыхали? В Линуксе есть. Его базы тоже размечены фонемами:

Кстати, почитал немного светочей науки, в вокодере тоже рекомендуют использовать дифоны, а не фонемы: https://web.archive.org/web/20220802025910id_/https://www.isca-speech.org/archive/pdfs/eurospeech_1989/hirata89_eurospeech.pdf

59 minutes ago, jcxz said:

Уже в 90-хх нормально синтезировали из текста. См. "Фонемафон". Вполне слушабельно получалось.

Как раз с этим особых проблем нет. Главное, чтобы на слух всё было понятно, натуральность особо не нужна.

Основная проблема - эффективно определить положения фонем и сами фонемы из звукового потока. Ну ум приходят: Фурье, кепстры, вэйвлеты, LPC. Как найти начало фонемы?

Phndec даёт самую высокую скорость распознавания фонем из аудиопотока. Но Vosk более точен. Возможно из-за более качественной модели на 16 кГц, в то время как русская модель для Phndec 8 кГц. Это вдвое меньший частотный диапазон, что уменьшает вероятность более точнее определить фонему.

P.S. Прошёлся компилятором по коду Phndec с флагами -Wall -Wextra -pedantic -Werror. Убрал ошибки и неточности. Плюс ранее упомянутый файл nn.c с нейронкой - где забыли разыменовать указатели при проверки конца строки.

Ну и справедливости ради, этот Phndec много раз упоминался в научных статьях.

Изменено 11 часов назад пользователем repstosw

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

sasamy 2

11 часов назад

Опубликовано 11 часов назад · Жалоба

On 9/16/2024 at 12:33 PM, jcxz said:

Не знаю - поможет или нет, но ещё в дремучем 1999г. я писал читалку русского текста (голосом).

Использовал для этого "СИНТЕЗАТОР РУССКОЙ РЕЧИ "ФОНЕМАФОН"" (который от "БелСИнт"). Который раздобыл где-то в виде COM-файла, со встроенным этим драйвером. Вырезал его оттуда, нашёл точки входа в функции и вклеил его в свою программу.

не знаю для чего кроме развития шизофрении это может сегодня помочь, "text to speech" есть даже в qt, а современных проектов на гитхабе с исходниками вагон и тележка

https://github.com/rhasspy/piper

On 9/16/2024 at 1:49 PM, repstosw said:

Про фестиваль слыхали? В Линуксе есть.

старье нафталиновое

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Obam 38

4 минуты назад

Опубликовано 4 минуты назад (изменено) · Жалоба

Тут такая мысль просквозила: может аппаратное решение в виде CMX638 (CML Microocircuits) будет лучше софтовых "городушек"?
Так сказать, бабки взамен геморроя (-8Ж

Изменено 4 минуты назад пользователем Obam

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Присоединяйтесь к обсуждению

Вы можете написать сейчас и зарегистрироваться позже. Если у вас есть аккаунт, авторизуйтесь, чтобы опубликовать от имени своего аккаунта.

К сожалению, ваш контент содержит запрещённые слова. Пожалуйста, отредактируйте контент, чтобы удалить выделенные ниже слова.

Ответить в этой теме...

× Вставлено с форматированием. Вставить как обычный текст

Разрешено использовать не более 75 эмодзи.

× Ваша ссылка была автоматически встроена. Отображать как обычную ссылку

× Ваш предыдущий контент был восстановлен. Очистить редактор

× Вы не можете вставлять изображения напрямую. Загружайте или вставляйте изображения по ссылке.

Указать URL изображения

Подписчики 10

Войти

repstosw 18

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

sasamy 2

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Obam 38

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Присоединяйтесь к обсуждению

Обзор

Активность