Перейти к содержанию
    

Allwinner T113-s3 уделал HiFi4 DSP. Смеяться или плакать?

1 hour ago, sasamy said:

сейчас из текста синтезируют потому что вычислительная база позволяет, но как качественно распознавать фонемы вы так и не рассказали,

Расточительство какое-то.   🙂 Про фестиваль слыхали?  В Линуксе есть.   Его базы тоже размечены фонемами:

1.thumb.png.9c87810abea84edc68d021faf988c604.png

 

Кстати, почитал немного светочей науки, в вокодере тоже рекомендуют использовать дифоны, а не фонемы:   https://web.archive.org/web/20220802025910id_/https://www.isca-speech.org/archive/pdfs/eurospeech_1989/hirata89_eurospeech.pdf

 

59 minutes ago, jcxz said:

Уже в 90-хх нормально синтезировали из текста. См. "Фонемафон". Вполне слушабельно получалось.

Как раз с этим особых проблем нет. Главное, чтобы на слух всё было понятно, натуральность особо не нужна.

 

Основная проблема -  эффективно определить положения фонем и сами фонемы из звукового потока. Ну ум приходят: Фурье, кепстры, вэйвлеты, LPC.   Как найти начало фонемы?

 

Phndec даёт самую высокую скорость распознавания фонем из аудиопотока.  Но Vosk более точен.   Возможно из-за более качественной модели на 16 кГц, в то время как русская модель для Phndec 8 кГц.   Это вдвое меньший частотный диапазон, что уменьшает вероятность более точнее определить фонему.

 

P.S.  Прошёлся компилятором по коду Phndec с флагами  -Wall -Wextra -pedantic -Werror.  Убрал ошибки и неточности.  Плюс ранее упомянутый файл nn.c с нейронкой - где забыли разыменовать указатели при проверки конца строки.

Ну и справедливости ради,  этот Phndec много раз упоминался в научных статьях.

Изменено пользователем repstosw

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

On 9/16/2024 at 12:33 PM, jcxz said:

Не знаю - поможет или нет, но ещё в дремучем 1999г. я писал читалку русского текста (голосом).

Использовал для этого "СИНТЕЗАТОР РУССКОЙ РЕЧИ "ФОНЕМАФОН"" (который от "БелСИнт"). Который раздобыл где-то в виде COM-файла, со встроенным этим драйвером. Вырезал его оттуда, нашёл точки входа в функции и вклеил его в свою программу.

не знаю для чего кроме развития шизофрении это может сегодня помочь,  "text to speech" есть даже в qt, а современных проектов на гитхабе с исходниками вагон и тележка

https://github.com/rhasspy/piper

On 9/16/2024 at 1:49 PM, repstosw said:

Про фестиваль слыхали?  В Линуксе есть.

старье нафталиновое

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Тут такая мысль просквозила: может аппаратное решение в виде CMX638 (CML Microocircuits) будет лучше софтовых "городушек"?
Так сказать, бабки взамен геморроя (-8Ж
Изменено пользователем Obam

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

1 hour ago, Obam said:

Тут такая мысль просквозила: может аппаратное решение в виде CMX638 (CML Microocircuits) будет лучше софтовых "городушек"?
Так сказать, бабки взамен геморроя (-8Ж

2400 бит в секунду.  Пройденный этап ещё в 2017 г.

Теперь нужно <150 bps.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

repstosw

Ну ум приходят: Фурье, кепстры, вэйвлеты, LPC.

Это уже всё в речевых кодеках прошли, там предел ~ 600 бит/с.

Теперь нужно <150 bps.

Мозг нужен, который неизвестно как работает и в простой процессор не влезет, остаётся только мозг кожаных мешков использовать, пускай сами смски отправляют. А простыми средствами будет 90% правильного распознавания в лучшем случае, вроде не мало, а по сути одни ошибки.

 

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

56 minutes ago, petrov said:

Это уже всё в речевых кодеках прошли, там предел ~ 600 бит/с.

Предел 300 бит/c.

 

TWELP @ 300 bps: https://dspini.com/vocoders/lowrate/twelp-lowrate/twelp300

Codec2 @ 450 bps: https://www.rowetel.com/wordpress/?p=6212

 

В своё время делал  из MELP 2400 bps свои режимы на 1200/800/600/300 bps.  Просто брал данные со смежных 2-х/3-х/4-х/8-ми кадров  и делал векторное квантование всех параметров (LSF, BPVC, PITCH, GAIN).  Векторный квантователь и нарезку данных для обучения - делал самостоятельно.

Разборчивость на уровне граничной, но понять о чём говорят - можно.  Очень сильно положительно влияет составление кодовой книги под голос конкретного человека.

Изменено пользователем repstosw

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

On 9/17/2024 at 2:50 PM, petrov said:

остаётся только мозг кожаных мешков использовать, пускай сами смски отправляют

зачем смс если можно делать чревовещательных котов

https://neuralink.com/

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

On 9/16/2024 at 3:50 AM, repstosw said:

Имена собственные? А заимствованные слова?  Неологизмы,... - "Не, не слышал..."

https://habr.com/ru/articles/735480/

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

3 часа назад, sasamy сказал:

зачем смс если можно делать чревовещательных котов

Ну и отлично, для имплантирования так нужных всем смартфонов прямо в мозги сделан первый шаг, супер!))))))))

2 часа назад, sasamy сказал:

Вот почему линуксы никогда не пойдут в массы, в этой статье нужно столько телодвижений сделать, чтоб какое-то калди только установить, и это еще то, что есть статья, где это все расписали, а если такой статьи нет?))) Микрософт в свое время правильно сделал со своими installshield...

Изменено пользователем mantech

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

On 9/19/2024 at 1:46 PM, mantech said:

в этой статье нужно столько телодвижений сделать, чтоб какое-то калди только установить

 "читал но не угадал ни одной буквы" - там написано как добавить термины в модель, можно и наоборот обрезать чтобы было только то что нужно

On 9/19/2024 at 1:46 PM, mantech said:

Микрософт в свое время правильно сделал со своими installshield

для программирования всё равно клавиатуру используют - далеко не всё можно скопипастить мышью, вы код пробовали писать сами ?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

10 минут назад, sasamy сказал:

для программирования всё равно клавиатуру используют - далеко не всё можно скопипастить мышью, вы код пробовали писать сами ?

Да что вы говорите))))))  Да, используют, только я использую клавиатуру именно чтобы писать код, а не многоэтажные скрипты для его запуска, у меня для этого есть только одна кнопка "Build")))))))

12 минут назад, sasamy сказал:

 "читал но не угадал ни одной буквы"

чукча не читатель - "Для генерации новой модели нам необходимо установить kaldi для необходимого инструментария."

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

On 9/19/2024 at 2:18 PM, mantech said:

у меня для этого есть только одна кнопка "Build"

для хелловорда из копипасты больше и не надо 🙂

On 9/19/2024 at 2:18 PM, mantech said:

Для генерации новой модели нам необходимо установить kaldi 

git clone с парой make вызывает попаболь -  "как же он служил в очистке ?!"

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

1 час назад, sasamy сказал:

git clone с парой make вызывает попаболь

А дальше не осилили,, или это не надо?

Далее нам нужно установить утилиты...И наконец запускаем

В винде это сделали б обычным инсталшилдом с неск. галками, что там подключить, а-ля ваш любимый билдрут, тип того, не ужели мысль была непонятна?

Изменено пользователем mantech

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

On 9/19/2024 at 3:39 PM, mantech said:

В винде это сделали б обычным инсталшилдом с неск. галками, что там подключить, а-ля ваш любимый билдрут

вы в своем уме - это исследовательские проекты, какие винды с галками - не усваиваете информацию проходите мимо, не для вас это

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Присоединяйтесь к обсуждению

Вы можете написать сейчас и зарегистрироваться позже. Если у вас есть аккаунт, авторизуйтесь, чтобы опубликовать от имени своего аккаунта.

Гость
К сожалению, ваш контент содержит запрещённые слова. Пожалуйста, отредактируйте контент, чтобы удалить выделенные ниже слова.
Ответить в этой теме...

×   Вставлено с форматированием.   Вставить как обычный текст

  Разрешено использовать не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отображать как обычную ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставлять изображения напрямую. Загружайте или вставляйте изображения по ссылке.

×
×
  • Создать...