Jump to content

    
163264

Сделать распознавание голосовых команд.

Recommended Posts

Нужно реализовать на контроллере уровня STM32 распознавание пары десятков однословных команд. Язык русский (английский), без предварительного обучения на диктора (хотя возможно какое-то постобучение, те если неправильно распознал нажимаем кнопку).

Использование слова-активатора (типа Алиса, Ок, Гугл) перед командой допустимо.

По RAM нужно обойтись ресурсами контроллера/

Интересует минимизация потребления как в режиме ожидания слова активатора (может даже лучше для активации использовать 2 слова. по первому просто просыпаемся, что вот сигнал пошел, а второе слово - уже активатор), так и в  процессе распознавания.

По существу нужен программный модуль, который мы будем вставлять в свое устройство (впрочем потом можем обсудить и вопрос комплексного создания устройства. но начнем именно с этой задачи).

Работа дистанционная. Пишите, плиз, в личку, стоимость, сроки, какие контроллеры справятся с этой задачей, примерную точность распознавания и примерный ток потребления.

 

 

Share this post


Link to post
Share on other sites

День добрый.

Несколько лет назад я занимался подобным распознаванием. Да, можно сделать подобное устройство с уровнем распознавания до 70% (было сделано на NB). При этом были использованы минимум 3 микрофона - один на гарнитуре вблизи рта, один возле наушника, третий - дальше второго в 2-3 раза. Если это не гарнитура, то микрофонов нужно уже 4. Массив микрофонов позволяет выделить полезный сигнал из общего окружения. При этом приходится работать не столько с частотными характеристиками сигналов, сколько с фазовыми. Замена одного из микрофонов на другой экземпляр даже одного производителя требует перенастройки всей системы распознавания. Просьба определиться, с условиями размещения микрофонов, уровнем и характером шума окружающей среды, допустимым процентом распознавания. Это позволит определить технические требования к МК и аппаратуре для тестирования и настройки. Без определения условий внешней среды и эталонных наборов слов НИКОГДА и НИКОМУ не сдать готового устройства. С одним микрофоном НИЧЕГО не получится, какой бы он не был.

Share this post


Link to post
Share on other sites
13 часов назад, SERG_201303 сказал:

День добрый.

Несколько лет назад я занимался подобным распознаванием. Да, можно сделать подобное устройство с уровнем распознавания до 70% (было сделано на NB). При этом были использованы минимум 3 микрофона - один на гарнитуре вблизи рта, один возле наушника, третий - дальше второго в 2-3 раза. Если это не гарнитура, то микрофонов нужно уже 4. Массив микрофонов позволяет выделить полезный сигнал из общего окружения. При этом приходится работать не столько с частотными характеристиками сигналов, сколько с фазовыми. Замена одного из микрофонов на другой экземпляр даже одного производителя требует перенастройки всей системы распознавания. Просьба определиться, с условиями размещения микрофонов, уровнем и характером шума окружающей среды, допустимым процентом распознавания. Это позволит определить технические требования к МК и аппаратуре для тестирования и настройки. Без определения условий внешней среды и эталонных наборов слов НИКОГДА и НИКОМУ не сдать готового устройства. С одним микрофоном НИЧЕГО не получится, какой бы он не был.

а как работают системы речевой аналитики в call центрах? Телефонная связь, там вообще все грустно с полосой и вообще с качеством речи. https://fonemica.ru/

Хотелось бы ограничиться одним микрофоном, расположенным возле уха (типа блютус гарнитуры устройство), условия бытовые. Дом, офис, улица.

Edited by 555555

Share this post


Link to post
Share on other sites

Для 555555.

Не знаю, как работают системы речевой аналитики в call центрах. Задач распознавания речевых образов много. Я вкратце описал свой опыт в этом деле. С одним микрофоном в распознавании речи делать нечего - выше 15-20% не подняться - попробуйте распознавание с гуглом/яндексом на улице со смартфона. Если кроме добрых пожеланий ничего нет, то бессмысленно говорить о какой-либо конкретной работе за конкретные время и деньги. 

Share this post


Link to post
Share on other sites
1 hour ago, SERG_201303 said:

попробуйте распознавание с гуглом/яндексом на улице со смартфона

насчёт любого смартфона не отвечу, а так-то у айфонов начиная с 4 или 5 модели 4 микрофона с разных сторон корпуса - как раз для шумодава

Share this post


Link to post
Share on other sites
1 hour ago, SERG_201303 said:

Для 555555.

Не знаю, как работают системы речевой аналитики в call центрах. Задач распознавания речевых образов много. Я вкратце описал свой опыт в этом деле. С одним микрофоном в распознавании речи делать нечего - выше 15-20% не подняться - попробуйте распознавание с гуглом/яндексом на улице со смартфона. Если кроме добрых пожеланий ничего нет, то бессмысленно говорить о какой-либо конкретной работе за конкретные время и деньги. 

Ну попробовал.
Закрыл оба микрофона пальцами на Samsung S8. 
И гугле переводчик с легкостью  определяет речь и переводит в текст.
Не 100% , но после двух-трех повторений. на ура. 
Микрофонный массив точно не нужен. 

Share this post


Link to post
Share on other sites
12 минут назад, AlexandrY сказал:

Ну попробовал.
Закрыл оба микрофона пальцами на Samsung S8. 
И гугле переводчик с легкостью  определяет речь и переводит в текст.
Не 100% , но после двух-трех повторений. на ура. 
Микрофонный массив точно не нужен. 

В мелких помещениях с большим количеством отражающих стен попробуй.

Они нужны эхо давить.

Share this post


Link to post
Share on other sites
26 minutes ago, baumanets said:

В мелких помещениях с большим количеством отражающих стен попробуй.

Сам попробуй. 
А так поиск в течении пары минут дает кучу решений.
Мне нравится вот такое - https://www.nxp.com/design/designs/nxp-edgeready-mcu-based-solution-for-local-voice-control:MCU-LOCAL-VOICE?&&tid=vanmcu-local

Share this post


Link to post
Share on other sites

Подытожу. 

1. Связываться с многомикрофонными решениями не очень хочется.

2. 400тр за непонятно какое решение - тоже. 

Если есть еще предложения - welcome.

Share this post


Link to post
Share on other sites

Давненько этой было. Один знакомый разрабатывал программу верификации человека с помощью коэффициентов адаптивного фильтра. Пока человек произносил кодовое слово фильтр настраивался  на характерные частоты и менял свои коэффициенты. Точность была порядка 80%.

Тысяч за 10 готов написать тестовую программку для примерной оценки данного алгоритма. Если идея окажется годной, то можно будет ее усовершенствовать.

strannik_p гав inbox.ru

Share this post


Link to post
Share on other sites

https://fex.net/ru/s/xydxpss

Посмотрите видеоролик, делали управление бытовым обогревателем.

Система работает автономно, построена на базе STM32 CortexM4 + Tensor Flow предобученная нейросеть.

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.