repstosw 18 11 часов назад Опубликовано 11 часов назад (изменено) · Жалоба 1 hour ago, sasamy said: сейчас из текста синтезируют потому что вычислительная база позволяет, но как качественно распознавать фонемы вы так и не рассказали, Расточительство какое-то. 🙂 Про фестиваль слыхали? В Линуксе есть. Его базы тоже размечены фонемами: Кстати, почитал немного светочей науки, в вокодере тоже рекомендуют использовать дифоны, а не фонемы: https://web.archive.org/web/20220802025910id_/https://www.isca-speech.org/archive/pdfs/eurospeech_1989/hirata89_eurospeech.pdf 59 minutes ago, jcxz said: Уже в 90-хх нормально синтезировали из текста. См. "Фонемафон". Вполне слушабельно получалось. Как раз с этим особых проблем нет. Главное, чтобы на слух всё было понятно, натуральность особо не нужна. Основная проблема - эффективно определить положения фонем и сами фонемы из звукового потока. Ну ум приходят: Фурье, кепстры, вэйвлеты, LPC. Как найти начало фонемы? Phndec даёт самую высокую скорость распознавания фонем из аудиопотока. Но Vosk более точен. Возможно из-за более качественной модели на 16 кГц, в то время как русская модель для Phndec 8 кГц. Это вдвое меньший частотный диапазон, что уменьшает вероятность более точнее определить фонему. P.S. Прошёлся компилятором по коду Phndec с флагами -Wall -Wextra -pedantic -Werror. Убрал ошибки и неточности. Плюс ранее упомянутый файл nn.c с нейронкой - где забыли разыменовать указатели при проверки конца строки. Ну и справедливости ради, этот Phndec много раз упоминался в научных статьях. Изменено 11 часов назад пользователем repstosw Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
sasamy 2 11 часов назад Опубликовано 11 часов назад · Жалоба On 9/16/2024 at 12:33 PM, jcxz said: Не знаю - поможет или нет, но ещё в дремучем 1999г. я писал читалку русского текста (голосом). Использовал для этого "СИНТЕЗАТОР РУССКОЙ РЕЧИ "ФОНЕМАФОН"" (который от "БелСИнт"). Который раздобыл где-то в виде COM-файла, со встроенным этим драйвером. Вырезал его оттуда, нашёл точки входа в функции и вклеил его в свою программу. не знаю для чего кроме развития шизофрении это может сегодня помочь, "text to speech" есть даже в qt, а современных проектов на гитхабе с исходниками вагон и тележка https://github.com/rhasspy/piper On 9/16/2024 at 1:49 PM, repstosw said: Про фестиваль слыхали? В Линуксе есть. старье нафталиновое Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
Obam 38 4 минуты назад Опубликовано 4 минуты назад (изменено) · Жалоба Тут такая мысль просквозила: может аппаратное решение в виде CMX638 (CML Microocircuits) будет лучше софтовых "городушек"? Так сказать, бабки взамен геморроя (-8Ж Изменено 4 минуты назад пользователем Obam Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться