repstosw 18 16 сентября Опубликовано 16 сентября (изменено) · Жалоба 1 hour ago, sasamy said: сейчас из текста синтезируют потому что вычислительная база позволяет, но как качественно распознавать фонемы вы так и не рассказали, Расточительство какое-то. 🙂 Про фестиваль слыхали? В Линуксе есть. Его базы тоже размечены фонемами: Кстати, почитал немного светочей науки, в вокодере тоже рекомендуют использовать дифоны, а не фонемы: https://web.archive.org/web/20220802025910id_/https://www.isca-speech.org/archive/pdfs/eurospeech_1989/hirata89_eurospeech.pdf 59 minutes ago, jcxz said: Уже в 90-хх нормально синтезировали из текста. См. "Фонемафон". Вполне слушабельно получалось. Как раз с этим особых проблем нет. Главное, чтобы на слух всё было понятно, натуральность особо не нужна. Основная проблема - эффективно определить положения фонем и сами фонемы из звукового потока. Ну ум приходят: Фурье, кепстры, вэйвлеты, LPC. Как найти начало фонемы? Phndec даёт самую высокую скорость распознавания фонем из аудиопотока. Но Vosk более точен. Возможно из-за более качественной модели на 16 кГц, в то время как русская модель для Phndec 8 кГц. Это вдвое меньший частотный диапазон, что уменьшает вероятность более точнее определить фонему. P.S. Прошёлся компилятором по коду Phndec с флагами -Wall -Wextra -pedantic -Werror. Убрал ошибки и неточности. Плюс ранее упомянутый файл nn.c с нейронкой - где забыли разыменовать указатели при проверки конца строки. Ну и справедливости ради, этот Phndec много раз упоминался в научных статьях. Изменено 16 сентября пользователем repstosw Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
sasamy 0 16 сентября Опубликовано 16 сентября · Жалоба On 9/16/2024 at 12:33 PM, jcxz said: Не знаю - поможет или нет, но ещё в дремучем 1999г. я писал читалку русского текста (голосом). Использовал для этого "СИНТЕЗАТОР РУССКОЙ РЕЧИ "ФОНЕМАФОН"" (который от "БелСИнт"). Который раздобыл где-то в виде COM-файла, со встроенным этим драйвером. Вырезал его оттуда, нашёл точки входа в функции и вклеил его в свою программу. не знаю для чего кроме развития шизофрении это может сегодня помочь, "text to speech" есть даже в qt, а современных проектов на гитхабе с исходниками вагон и тележка https://github.com/rhasspy/piper On 9/16/2024 at 1:49 PM, repstosw said: Про фестиваль слыхали? В Линуксе есть. старье нафталиновое Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
Obam 38 16 сентября Опубликовано 16 сентября (изменено) · Жалоба Тут такая мысль просквозила: может аппаратное решение в виде CMX638 (CML Microocircuits) будет лучше софтовых "городушек"? Так сказать, бабки взамен геморроя (-8Ж Изменено 16 сентября пользователем Obam Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
repstosw 18 16 сентября Опубликовано 16 сентября · Жалоба 1 hour ago, Obam said: Тут такая мысль просквозила: может аппаратное решение в виде CMX638 (CML Microocircuits) будет лучше софтовых "городушек"? Так сказать, бабки взамен геморроя (-8Ж 2400 бит в секунду. Пройденный этап ещё в 2017 г. Теперь нужно <150 bps. Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
petrov 7 17 сентября Опубликовано 17 сентября · Жалоба repstosw Ну ум приходят: Фурье, кепстры, вэйвлеты, LPC. Это уже всё в речевых кодеках прошли, там предел ~ 600 бит/с. Теперь нужно <150 bps. Мозг нужен, который неизвестно как работает и в простой процессор не влезет, остаётся только мозг кожаных мешков использовать, пускай сами смски отправляют. А простыми средствами будет 90% правильного распознавания в лучшем случае, вроде не мало, а по сути одни ошибки. Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
repstosw 18 17 сентября Опубликовано 17 сентября (изменено) · Жалоба 56 minutes ago, petrov said: Это уже всё в речевых кодеках прошли, там предел ~ 600 бит/с. Предел 300 бит/c. TWELP @ 300 bps: https://dspini.com/vocoders/lowrate/twelp-lowrate/twelp300 Codec2 @ 450 bps: https://www.rowetel.com/wordpress/?p=6212 В своё время делал из MELP 2400 bps свои режимы на 1200/800/600/300 bps. Просто брал данные со смежных 2-х/3-х/4-х/8-ми кадров и делал векторное квантование всех параметров (LSF, BPVC, PITCH, GAIN). Векторный квантователь и нарезку данных для обучения - делал самостоятельно. Разборчивость на уровне граничной, но понять о чём говорят - можно. Очень сильно положительно влияет составление кодовой книги под голос конкретного человека. Изменено 17 сентября пользователем repstosw Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
Obam 38 17 сентября Опубликовано 17 сентября · Жалоба 2400 бит в секунду. Пройденный этап ещё в 2017 г. Понял, "был неправ, вспылил..." (с) (((-8Ж Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
sasamy 0 19 сентября Опубликовано 19 сентября · Жалоба On 9/17/2024 at 2:50 PM, petrov said: остаётся только мозг кожаных мешков использовать, пускай сами смски отправляют зачем смс если можно делать чревовещательных котов https://neuralink.com/ Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
sasamy 0 19 сентября Опубликовано 19 сентября · Жалоба On 9/16/2024 at 3:50 AM, repstosw said: Имена собственные? А заимствованные слова? Неологизмы,... - "Не, не слышал..." https://habr.com/ru/articles/735480/ Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
mantech 50 19 сентября Опубликовано 19 сентября (изменено) · Жалоба 3 часа назад, sasamy сказал: зачем смс если можно делать чревовещательных котов Ну и отлично, для имплантирования так нужных всем смартфонов прямо в мозги сделан первый шаг, супер!)))))))) 2 часа назад, sasamy сказал: https://habr.com/ru/articles/735480/ Вот почему линуксы никогда не пойдут в массы, в этой статье нужно столько телодвижений сделать, чтоб какое-то калди только установить, и это еще то, что есть статья, где это все расписали, а если такой статьи нет?))) Микрософт в свое время правильно сделал со своими installshield... Изменено 19 сентября пользователем mantech Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
sasamy 0 19 сентября Опубликовано 19 сентября · Жалоба On 9/19/2024 at 1:46 PM, mantech said: в этой статье нужно столько телодвижений сделать, чтоб какое-то калди только установить "читал но не угадал ни одной буквы" - там написано как добавить термины в модель, можно и наоборот обрезать чтобы было только то что нужно On 9/19/2024 at 1:46 PM, mantech said: Микрософт в свое время правильно сделал со своими installshield для программирования всё равно клавиатуру используют - далеко не всё можно скопипастить мышью, вы код пробовали писать сами ? Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
mantech 50 19 сентября Опубликовано 19 сентября · Жалоба 10 минут назад, sasamy сказал: для программирования всё равно клавиатуру используют - далеко не всё можно скопипастить мышью, вы код пробовали писать сами ? Да что вы говорите)))))) Да, используют, только я использую клавиатуру именно чтобы писать код, а не многоэтажные скрипты для его запуска, у меня для этого есть только одна кнопка "Build"))))))) 12 минут назад, sasamy сказал: "читал но не угадал ни одной буквы" чукча не читатель - "Для генерации новой модели нам необходимо установить kaldi для необходимого инструментария." Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
sasamy 0 19 сентября Опубликовано 19 сентября · Жалоба On 9/19/2024 at 2:18 PM, mantech said: у меня для этого есть только одна кнопка "Build" для хелловорда из копипасты больше и не надо 🙂 On 9/19/2024 at 2:18 PM, mantech said: Для генерации новой модели нам необходимо установить kaldi git clone с парой make вызывает попаболь - "как же он служил в очистке ?!" Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
mantech 50 19 сентября Опубликовано 19 сентября (изменено) · Жалоба 1 час назад, sasamy сказал: git clone с парой make вызывает попаболь А дальше не осилили,, или это не надо? Далее нам нужно установить утилиты...И наконец запускаем В винде это сделали б обычным инсталшилдом с неск. галками, что там подключить, а-ля ваш любимый билдрут, тип того, не ужели мысль была непонятна? Изменено 19 сентября пользователем mantech Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
sasamy 0 19 сентября Опубликовано 19 сентября · Жалоба On 9/19/2024 at 3:39 PM, mantech said: В винде это сделали б обычным инсталшилдом с неск. галками, что там подключить, а-ля ваш любимый билдрут вы в своем уме - это исследовательские проекты, какие винды с галками - не усваиваете информацию проходите мимо, не для вас это Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться