Перейти к содержанию
    

Allwinner T113-s3 уделал HiFi4 DSP. Смеяться или плакать?

4 часа назад, repstosw сказал:

Ответ очень очевиден: ДА.

Обнадеживает! Попробую вечером посмотреть, какой вариант драйвера ближе для адаптации под F1C.. заодно перепроверю ЧДНТ 😃

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Подскажите открытые проекты для распознавания слов в аудио-файле. Нужно конвертировать человеческую речь в предложения(не путать с распознаванием отдельных команд!). Приоритет на скорость обработки (в идеале потоковый режим).  Допускаются ошибки до 5%.   Полностью оффлайн, без взяких лазеек в интернеты и облака.   Желательно  с поддержкой русского словаря.

Желательно с оптимизацией под ARM NEON.

Нашёл несколько проектов (Kaldi, Wav2letter,... ), там Питоны и Куды сплошь и рядом.  На С/C++ нет таких?

Изменено пользователем repstosw

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

48 минут назад, repstosw сказал:

Нужно конвертировать человеческую речь в предложения(не путать с распознаванием отдельных команд!).

Ну вы блин даете))))))))  Такое гуглы с яндексами и их суперкомпами с нейросетями и то не всегда распознают...

50 минут назад, repstosw сказал:

На С/C++ нет таких?

Года 4 назад по случайности что-то нашел, и даже попробовал, но... результат вам бы не понравился(((

54 минуты назад, repstosw сказал:

там Питоны и Куды сплошь и рядом

Ну питоны то понятно, для ленивых, а вот с кудами-то вы погорячинись, эт практически язык сопроцессоров нейросетей, эт немного не то, что умеет НЕОН)))

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

3 hours ago, repstosw said:

Подскажите открытые проекты для распознавания слов в аудио-файле. Нужно конвертировать человеческую речь в предложения(не путать с распознаванием отдельных команд!). Приоритет на скорость обработки (в идеале потоковый режим).  Допускаются ошибки до 5%.   Полностью оффлайн, без взяких лазеек в интернеты и облака.   Желательно  с поддержкой русского словаря.

Желательно с оптимизацией под ARM NEON.

Нашёл несколько проектов (Kaldi, Wav2letter,... ), там Питоны и Куды сплошь и рядом.  На С/C++ нет таких?

 

Не скажу за ARM NEON, но у Sipeed есть направление MAIX для экспериментов с распознаванием на всяких маленьких платках. Кажется, там среди прочего есть и распознавание голоса.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

4 hours ago, repstosw said:

На С/C++ нет таких?

uSpeech

Нашел у себя в закладках. Не проверял.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

53 минуты назад, Ozelot сказал:

uSpeech

Так это ж просто на несколько фраз, на сколь помню?

Библиотека uSpeech предоставляет интерфейс для
распознавания голоса с помощью Arduino. Но не ожидайте слишком многого от неё. Вы можете создать с помощью этой библиотеки 10 голосовых команд.
Вероятность распознавания 30% - 40%, если на основе фонем то до 80%

 

1 час назад, Raven сказал:

Кажется, там среди прочего есть и распознавание голоса.

Там все питоны да и по виду все какое-то игрушечное...

Изменено пользователем mantech

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

7 hours ago, mantech said:

Ну вы блин даете))))))))  Такое гуглы с яндексами и их суперкомпами с нейросетями и то не всегда распознают...

Ожидаемо... 🙂   Сверх-точность не нужна.  Прогнал в Vosk фразу: "какой движ ты заварил сегодня?...". Получилось: "какой двести заварил сегодня?..."  Ну тоесть из-за недостаточной паузы между словами "движ" и "ты" - он посчитал, что это одно слово.   Возможно, в словаре нету слова "движ".  Ибо это жаргон. И его надо отдельно дообучать.

 

Spoiler

1.thumb.png.5502dde5534c224f6419fa71ea0c04f6.png

 

По сути, мне даже не в текст нужно, а в фонемы.  Потому что подразумевается это потом произносить.   Тоесть :  речь => фонемы и фонемы => речь.

С вокодерами игрался,  даёт приемлемый  поток на 9600, 4800, 2400 бит/секунду.  Всё что меньше - либо малоразборчиво (для большинства) - для отличной разборчивости надо делать кодовые книги под каждый голос, либо большая задержка кодирования (из-за объединения смежных фреймов).  Фонемы как я понимаю, можно передавать на скоростях до 50 .. 100 бит/c.

 

7 hours ago, mantech said:

Ну питоны то понятно, для ленивых, а вот с кудами-то вы погорячинись, эт практически язык сопроцессоров нейросетей, эт немного не то, что умеет НЕОН)))

Так потому и упомянул, что ARM,NEON не сможет Куда.   Нужен С/С++ код, допустимы ассемблерные вставки с NEON.

 

4 hours ago, Ozelot said:

uSpeech

Нашел у себя в закладках. Не проверял.

Оно распознаёт только команды из ограниченного словаря.

 

3 hours ago, mantech said:

Там все питоны да и по виду все какое-то игрушечное...

Если питоны там только для участия в компиляции - можно будет собрать на ПК в Линуксе, потом развернуть процесс сборки - в отдельные команды GCC. И перенести на GCC/ARM.  Делал такое с другими проектами:  Питон в итоге становится не нужным.

Но вот я смотрю на зависимости в Vosk/Kaldi (Vosk это по ходу надстройка над Kaldi, для удобства программирования), и мне становится грустно... Там дофига чего придётся дособирать:  SOX, Fortran, OpenFST, BLASS  и много чего ещё.  Настораживает Фортран.  Интересно, есть ли Фортран для ARM Cortex A7 ? 🙂

 

4 hours ago, Raven said:

Не скажу за ARM NEON, но у Sipeed есть направление MAIX для экспериментов с распознаванием на всяких маленьких платках. Кажется, там среди прочего есть и распознавание голоса.

Так у процессоров Сипид насколько мне известно, есть аппаратный нейро-процессор. Для Allwinner это не годится.

Изменено пользователем repstosw

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

7 часов назад, repstosw сказал:

Там дофига чего придётся дособирать:  SOX, Fortran, OpenFST, BLASS  и много чего ещё.

Добро пожаловать в "современное" программирование, тут без пол-литра не разобраться, а с пол-литра и вообще никак)))

7 часов назад, repstosw сказал:

Но вот я смотрю на зависимости в Vosk/Kaldi

Как по мне, я б поставил какой-нить сопроцессор для этого, например, если все это дело собирается и работает под линуксом, или под нейропроцессором, без всякого геморроя и головомойки, то поставил бы еще один процессор с этой шляпой, как например ставят сотовые модемы, ведь не будешь же делать самодельный модем на своем процессоре, если это нужно, так и со всякими распознавалками, ну или там те же нейропроцессоры, есть модуль с этим процессором и он выполняет то, что нужно, да и фиг с ним, пусть стоит рядом)))

Кстати, "говорилки" на сколь помню, тоже есть, но там такой же зоопарк программирования, и ее тоже можно попутно вкорячить в этот сопроцессор скорее всего...

ЗЫ. Моим заказчикам потребовалась система распознавания есть машина в боксе или нет, городить это все себе в программу? Да нафиг надо, у нее свой функционал, поставили пром. комп с прогой распознавания, подключили к нему камеры и по сети он передает терминалу команды, машина есть или уехала - все просто)))

Изменено пользователем mantech

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

1 hour ago, mantech said:

Добро пожаловать в "современное" программирование, тут без пол-литра не разобраться, а с пол-литра и вообще никак)))

Я "там" уже давно 🙂 Правда, чем дальше в лес - тем больше дров...

 

1 hour ago, mantech said:

Кстати, "говорилки" на сколь помню, тоже есть, но там такой же зоопарк программирования, и ее тоже можно попутно вкорячить в этот сопроцессор скорее всего...

Говорилки устроены намного проще и требуют меньше ресурсов, чем фонетические распознаватели.

 

1 hour ago, mantech said:

ЗЫ. Моим заказчикам потребовалась система распознавания есть машина в боксе или нет, городить это все себе в программу? Да нафиг надо, у нее свой функционал, поставили пром. комп с прогой распознавания, подключили к нему камеры и по сети он передает терминалу команды, машина есть или уехала - все просто)))

Собрал Kaldi под Линуксом (со всеми сопутствующими библиотеками, естественно), пока без Vosk (подозреваю, что он не особо нужен).  Протестировал:  работает, выдаёт текст.  Собиралось 3 часа (чистое время,  без учёта того что пришлось с 15-го Линукса перелезть на 16-й, а также обновить GCC с 5-го на 9-й, а также  понаставить кучу пакетов для успешного конфигурирования и компиляции, плюс битва с pthreads - это ещё пару часов).

 Девайс должен помещаться в руку человека и работать даже в тайге, где отсутствуют вышки сотовой связи(так даже будет лучше, так как эфир меньше загрязнён).

 Здесь главный заказчик - снова я для себя 🙂 

Изменено пользователем repstosw

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

On 9/11/2024 at 8:38 AM, mantech said:

Как по мне, я б поставил какой-нить сопроцессор для этого, например, если все это дело собирается и работает под линуксом, или под нейропроцессором, без всякого геморроя и головомойки

в чём суть вашего программирования бареметалла если вы ничего не можете без линукса, а всё что вы можете всё равно из линукса взято, может просто научиться линукс использовать ?

https://github.com/OpenVoiceOS/ovos-buildroot

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

1 час назад, sasamy сказал:

в чём суть вашего программирования бареметалла если вы ничего не можете без линукса

Вот мои 5 копеек - суть в том, что оно работает, причем, как я понял у ТСа, не как у вас на столе, а реально, вы ж так ничего и не сказали, что у вас в реальности работает. То, что вы делаете линуксовые сборки для стартеркита, чтобы уже потом клиенты доводили сами все это "до ума" - это одно, а готовые проекты - совсем другое, как-то так...

1 час назад, sasamy сказал:

И зачем это здесь? Что ТС просил создавать музыку?))))))

2 часа назад, repstosw сказал:

Собиралось 3 часа (чистое время,  без учёта того что пришлось с 15-го Линукса перелезть на 16-й, а также обновить GCC с 5-го на 9-й, а также  понаставить кучу пакетов для успешного конфигурирования и компиляции, плюс битва с pthreads - это ещё пару часов).

Так в чем и прелесть субмодуля, делаешь весь этот маразм один раз и все, потом тупо прошивать бинарь и не парится с этим ужасом постоянно, это пусть sasamy развлекается, ему эт по кайфу кажется))))))))))

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

On 9/11/2024 at 12:04 PM, mantech said:

Вот мои 5 копеек - суть в том, что оно работает, причем, как я понял у ТСа

так я же вас спросил - у вас то что работает ? да и тс смог собрать только на десктопе

On 9/11/2024 at 12:04 PM, mantech said:

И зачем это здесь?

там готовые пакеты буилдрут для сборки vosk для любого процессора с линукс, ну и kaldi там есть

On 9/11/2024 at 12:04 PM, mantech said:

делаешь весь этот маразм один раз и все

так продемонстрируйте - что вы сделали ?

Изменено пользователем sasamy

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

23 минуты назад, sasamy сказал:

так продемонстрируйте - что вы сделали ?

Под линуксом? Я ничего не делал, под своей системой, уже писал, промавтоматика и вендинг, а что у вас?

24 минуты назад, sasamy сказал:

да и тс смог собрать только на десктопе

Ну эт ему виднее, может потом и под линуксом соберет, у меня б терпения не хватило, поручил бы какому-то спецу, как сделал с опознаванием наличия автомашин, писал выше.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

On 9/11/2024 at 12:43 PM, mantech said:

Под линуксом? Я ничего не делал, под своей системой, уже писал, промавтоматика и вендинг

кроме порции лапши что-то есть  ?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

1 час назад, sasamy сказал:

кроме порции лапши что-то есть  ?

Так у вас и этого нет, как я понимаю, а отчитываться с фото и видео я не собираюсь - вы мне не начальник))

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Присоединяйтесь к обсуждению

Вы можете написать сейчас и зарегистрироваться позже. Если у вас есть аккаунт, авторизуйтесь, чтобы опубликовать от имени своего аккаунта.

Гость
К сожалению, ваш контент содержит запрещённые слова. Пожалуйста, отредактируйте контент, чтобы удалить выделенные ниже слова.
Ответить в этой теме...

×   Вставлено с форматированием.   Вставить как обычный текст

  Разрешено использовать не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отображать как обычную ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставлять изображения напрямую. Загружайте или вставляйте изображения по ссылке.

×
×
  • Создать...