_Евген_ 1 5 сентября Опубликовано 5 сентября · Жалоба 4 часа назад, repstosw сказал: Ответ очень очевиден: ДА. Обнадеживает! Попробую вечером посмотреть, какой вариант драйвера ближе для адаптации под F1C.. заодно перепроверю ЧДНТ 😃 Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
repstosw 18 10 сентября Опубликовано 10 сентября (изменено) · Жалоба Подскажите открытые проекты для распознавания слов в аудио-файле. Нужно конвертировать человеческую речь в предложения(не путать с распознаванием отдельных команд!). Приоритет на скорость обработки (в идеале потоковый режим). Допускаются ошибки до 5%. Полностью оффлайн, без взяких лазеек в интернеты и облака. Желательно с поддержкой русского словаря. Желательно с оптимизацией под ARM NEON. Нашёл несколько проектов (Kaldi, Wav2letter,... ), там Питоны и Куды сплошь и рядом. На С/C++ нет таких? Изменено 10 сентября пользователем repstosw Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
mantech 50 10 сентября Опубликовано 10 сентября · Жалоба 48 минут назад, repstosw сказал: Нужно конвертировать человеческую речь в предложения(не путать с распознаванием отдельных команд!). Ну вы блин даете)))))))) Такое гуглы с яндексами и их суперкомпами с нейросетями и то не всегда распознают... 50 минут назад, repstosw сказал: На С/C++ нет таких? Года 4 назад по случайности что-то нашел, и даже попробовал, но... результат вам бы не понравился((( 54 минуты назад, repstosw сказал: там Питоны и Куды сплошь и рядом Ну питоны то понятно, для ленивых, а вот с кудами-то вы погорячинись, эт практически язык сопроцессоров нейросетей, эт немного не то, что умеет НЕОН))) Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
Raven 11 10 сентября Опубликовано 10 сентября · Жалоба 3 hours ago, repstosw said: Подскажите открытые проекты для распознавания слов в аудио-файле. Нужно конвертировать человеческую речь в предложения(не путать с распознаванием отдельных команд!). Приоритет на скорость обработки (в идеале потоковый режим). Допускаются ошибки до 5%. Полностью оффлайн, без взяких лазеек в интернеты и облака. Желательно с поддержкой русского словаря. Желательно с оптимизацией под ARM NEON. Нашёл несколько проектов (Kaldi, Wav2letter,... ), там Питоны и Куды сплошь и рядом. На С/C++ нет таких? Не скажу за ARM NEON, но у Sipeed есть направление MAIX для экспериментов с распознаванием на всяких маленьких платках. Кажется, там среди прочего есть и распознавание голоса. Sipeed Wiki MaixPy MaixHub Maix-Speech @Github Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
Ozelot 9 10 сентября Опубликовано 10 сентября · Жалоба 4 hours ago, repstosw said: На С/C++ нет таких? uSpeech Нашел у себя в закладках. Не проверял. Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
mantech 50 10 сентября Опубликовано 10 сентября (изменено) · Жалоба 53 минуты назад, Ozelot сказал: uSpeech Так это ж просто на несколько фраз, на сколь помню? Библиотека uSpeech предоставляет интерфейс для распознавания голоса с помощью Arduino. Но не ожидайте слишком многого от неё. Вы можете создать с помощью этой библиотеки 10 голосовых команд. Вероятность распознавания 30% - 40%, если на основе фонем то до 80% 1 час назад, Raven сказал: Кажется, там среди прочего есть и распознавание голоса. Там все питоны да и по виду все какое-то игрушечное... Изменено 10 сентября пользователем mantech Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
repstosw 18 10 сентября Опубликовано 10 сентября (изменено) · Жалоба 7 hours ago, mantech said: Ну вы блин даете)))))))) Такое гуглы с яндексами и их суперкомпами с нейросетями и то не всегда распознают... Ожидаемо... 🙂 Сверх-точность не нужна. Прогнал в Vosk фразу: "какой движ ты заварил сегодня?...". Получилось: "какой двести заварил сегодня?..." Ну тоесть из-за недостаточной паузы между словами "движ" и "ты" - он посчитал, что это одно слово. Возможно, в словаре нету слова "движ". Ибо это жаргон. И его надо отдельно дообучать. Spoiler По сути, мне даже не в текст нужно, а в фонемы. Потому что подразумевается это потом произносить. Тоесть : речь => фонемы и фонемы => речь. С вокодерами игрался, даёт приемлемый поток на 9600, 4800, 2400 бит/секунду. Всё что меньше - либо малоразборчиво (для большинства) - для отличной разборчивости надо делать кодовые книги под каждый голос, либо большая задержка кодирования (из-за объединения смежных фреймов). Фонемы как я понимаю, можно передавать на скоростях до 50 .. 100 бит/c. 7 hours ago, mantech said: Ну питоны то понятно, для ленивых, а вот с кудами-то вы погорячинись, эт практически язык сопроцессоров нейросетей, эт немного не то, что умеет НЕОН))) Так потому и упомянул, что ARM,NEON не сможет Куда. Нужен С/С++ код, допустимы ассемблерные вставки с NEON. 4 hours ago, Ozelot said: uSpeech Нашел у себя в закладках. Не проверял. Оно распознаёт только команды из ограниченного словаря. 3 hours ago, mantech said: Там все питоны да и по виду все какое-то игрушечное... Если питоны там только для участия в компиляции - можно будет собрать на ПК в Линуксе, потом развернуть процесс сборки - в отдельные команды GCC. И перенести на GCC/ARM. Делал такое с другими проектами: Питон в итоге становится не нужным. Но вот я смотрю на зависимости в Vosk/Kaldi (Vosk это по ходу надстройка над Kaldi, для удобства программирования), и мне становится грустно... Там дофига чего придётся дособирать: SOX, Fortran, OpenFST, BLASS и много чего ещё. Настораживает Фортран. Интересно, есть ли Фортран для ARM Cortex A7 ? 🙂 4 hours ago, Raven said: Не скажу за ARM NEON, но у Sipeed есть направление MAIX для экспериментов с распознаванием на всяких маленьких платках. Кажется, там среди прочего есть и распознавание голоса. Sipeed Wiki MaixPy MaixHub Maix-Speech @Github Так у процессоров Сипид насколько мне известно, есть аппаратный нейро-процессор. Для Allwinner это не годится. Изменено 10 сентября пользователем repstosw Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
mantech 50 11 сентября Опубликовано 11 сентября (изменено) · Жалоба 7 часов назад, repstosw сказал: Там дофига чего придётся дособирать: SOX, Fortran, OpenFST, BLASS и много чего ещё. Добро пожаловать в "современное" программирование, тут без пол-литра не разобраться, а с пол-литра и вообще никак))) 7 часов назад, repstosw сказал: Но вот я смотрю на зависимости в Vosk/Kaldi Как по мне, я б поставил какой-нить сопроцессор для этого, например, если все это дело собирается и работает под линуксом, или под нейропроцессором, без всякого геморроя и головомойки, то поставил бы еще один процессор с этой шляпой, как например ставят сотовые модемы, ведь не будешь же делать самодельный модем на своем процессоре, если это нужно, так и со всякими распознавалками, ну или там те же нейропроцессоры, есть модуль с этим процессором и он выполняет то, что нужно, да и фиг с ним, пусть стоит рядом))) Кстати, "говорилки" на сколь помню, тоже есть, но там такой же зоопарк программирования, и ее тоже можно попутно вкорячить в этот сопроцессор скорее всего... ЗЫ. Моим заказчикам потребовалась система распознавания есть машина в боксе или нет, городить это все себе в программу? Да нафиг надо, у нее свой функционал, поставили пром. комп с прогой распознавания, подключили к нему камеры и по сети он передает терминалу команды, машина есть или уехала - все просто))) Изменено 11 сентября пользователем mantech Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
repstosw 18 11 сентября Опубликовано 11 сентября (изменено) · Жалоба 1 hour ago, mantech said: Добро пожаловать в "современное" программирование, тут без пол-литра не разобраться, а с пол-литра и вообще никак))) Я "там" уже давно 🙂 Правда, чем дальше в лес - тем больше дров... 1 hour ago, mantech said: Кстати, "говорилки" на сколь помню, тоже есть, но там такой же зоопарк программирования, и ее тоже можно попутно вкорячить в этот сопроцессор скорее всего... Говорилки устроены намного проще и требуют меньше ресурсов, чем фонетические распознаватели. 1 hour ago, mantech said: ЗЫ. Моим заказчикам потребовалась система распознавания есть машина в боксе или нет, городить это все себе в программу? Да нафиг надо, у нее свой функционал, поставили пром. комп с прогой распознавания, подключили к нему камеры и по сети он передает терминалу команды, машина есть или уехала - все просто))) Собрал Kaldi под Линуксом (со всеми сопутствующими библиотеками, естественно), пока без Vosk (подозреваю, что он не особо нужен). Протестировал: работает, выдаёт текст. Собиралось 3 часа (чистое время, без учёта того что пришлось с 15-го Линукса перелезть на 16-й, а также обновить GCC с 5-го на 9-й, а также понаставить кучу пакетов для успешного конфигурирования и компиляции, плюс битва с pthreads - это ещё пару часов). Девайс должен помещаться в руку человека и работать даже в тайге, где отсутствуют вышки сотовой связи(так даже будет лучше, так как эфир меньше загрязнён). Здесь главный заказчик - снова я для себя 🙂 Изменено 11 сентября пользователем repstosw Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
sasamy 0 11 сентября Опубликовано 11 сентября · Жалоба On 9/11/2024 at 8:38 AM, mantech said: Как по мне, я б поставил какой-нить сопроцессор для этого, например, если все это дело собирается и работает под линуксом, или под нейропроцессором, без всякого геморроя и головомойки в чём суть вашего программирования бареметалла если вы ничего не можете без линукса, а всё что вы можете всё равно из линукса взято, может просто научиться линукс использовать ? https://github.com/OpenVoiceOS/ovos-buildroot Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
mantech 50 11 сентября Опубликовано 11 сентября · Жалоба 1 час назад, sasamy сказал: в чём суть вашего программирования бареметалла если вы ничего не можете без линукса Вот мои 5 копеек - суть в том, что оно работает, причем, как я понял у ТСа, не как у вас на столе, а реально, вы ж так ничего и не сказали, что у вас в реальности работает. То, что вы делаете линуксовые сборки для стартеркита, чтобы уже потом клиенты доводили сами все это "до ума" - это одно, а готовые проекты - совсем другое, как-то так... 1 час назад, sasamy сказал: https://github.com/OpenVoiceOS/ovos-buildroot И зачем это здесь? Что ТС просил создавать музыку?)))))) 2 часа назад, repstosw сказал: Собиралось 3 часа (чистое время, без учёта того что пришлось с 15-го Линукса перелезть на 16-й, а также обновить GCC с 5-го на 9-й, а также понаставить кучу пакетов для успешного конфигурирования и компиляции, плюс битва с pthreads - это ещё пару часов). Так в чем и прелесть субмодуля, делаешь весь этот маразм один раз и все, потом тупо прошивать бинарь и не парится с этим ужасом постоянно, это пусть sasamy развлекается, ему эт по кайфу кажется)))))))))) Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
sasamy 0 11 сентября Опубликовано 11 сентября (изменено) · Жалоба On 9/11/2024 at 12:04 PM, mantech said: Вот мои 5 копеек - суть в том, что оно работает, причем, как я понял у ТСа так я же вас спросил - у вас то что работает ? да и тс смог собрать только на десктопе On 9/11/2024 at 12:04 PM, mantech said: И зачем это здесь? там готовые пакеты буилдрут для сборки vosk для любого процессора с линукс, ну и kaldi там есть On 9/11/2024 at 12:04 PM, mantech said: делаешь весь этот маразм один раз и все так продемонстрируйте - что вы сделали ? Изменено 11 сентября пользователем sasamy Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
mantech 50 11 сентября Опубликовано 11 сентября · Жалоба 23 минуты назад, sasamy сказал: так продемонстрируйте - что вы сделали ? Под линуксом? Я ничего не делал, под своей системой, уже писал, промавтоматика и вендинг, а что у вас? 24 минуты назад, sasamy сказал: да и тс смог собрать только на десктопе Ну эт ему виднее, может потом и под линуксом соберет, у меня б терпения не хватило, поручил бы какому-то спецу, как сделал с опознаванием наличия автомашин, писал выше. Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
sasamy 0 11 сентября Опубликовано 11 сентября · Жалоба On 9/11/2024 at 12:43 PM, mantech said: Под линуксом? Я ничего не делал, под своей системой, уже писал, промавтоматика и вендинг кроме порции лапши что-то есть ? Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
mantech 50 11 сентября Опубликовано 11 сентября · Жалоба 1 час назад, sasamy сказал: кроме порции лапши что-то есть ? Так у вас и этого нет, как я понимаю, а отчитываться с фото и видео я не собираюсь - вы мне не начальник)) Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться