Перейти к содержанию
    

Сделать распознавание голосовых команд.

Нужно реализовать на контроллере уровня STM32 распознавание пары десятков однословных команд. Язык русский (английский), без предварительного обучения на диктора (хотя возможно какое-то постобучение, те если неправильно распознал нажимаем кнопку).

Использование слова-активатора (типа Алиса, Ок, Гугл) перед командой допустимо.

По RAM нужно обойтись ресурсами контроллера/

Интересует минимизация потребления как в режиме ожидания слова активатора (может даже лучше для активации использовать 2 слова. по первому просто просыпаемся, что вот сигнал пошел, а второе слово - уже активатор), так и в  процессе распознавания.

По существу нужен программный модуль, который мы будем вставлять в свое устройство (впрочем потом можем обсудить и вопрос комплексного создания устройства. но начнем именно с этой задачи).

Работа дистанционная. Пишите, плиз, в личку, стоимость, сроки, какие контроллеры справятся с этой задачей, примерную точность распознавания и примерный ток потребления.

 

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

День добрый.

Несколько лет назад я занимался подобным распознаванием. Да, можно сделать подобное устройство с уровнем распознавания до 70% (было сделано на NB). При этом были использованы минимум 3 микрофона - один на гарнитуре вблизи рта, один возле наушника, третий - дальше второго в 2-3 раза. Если это не гарнитура, то микрофонов нужно уже 4. Массив микрофонов позволяет выделить полезный сигнал из общего окружения. При этом приходится работать не столько с частотными характеристиками сигналов, сколько с фазовыми. Замена одного из микрофонов на другой экземпляр даже одного производителя требует перенастройки всей системы распознавания. Просьба определиться, с условиями размещения микрофонов, уровнем и характером шума окружающей среды, допустимым процентом распознавания. Это позволит определить технические требования к МК и аппаратуре для тестирования и настройки. Без определения условий внешней среды и эталонных наборов слов НИКОГДА и НИКОМУ не сдать готового устройства. С одним микрофоном НИЧЕГО не получится, какой бы он не был.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Как все поналетели. ОКР кто-то объявил?

См. видео в теме. 400К и код ваш.

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

13 часов назад, SERG_201303 сказал:

День добрый.

Несколько лет назад я занимался подобным распознаванием. Да, можно сделать подобное устройство с уровнем распознавания до 70% (было сделано на NB). При этом были использованы минимум 3 микрофона - один на гарнитуре вблизи рта, один возле наушника, третий - дальше второго в 2-3 раза. Если это не гарнитура, то микрофонов нужно уже 4. Массив микрофонов позволяет выделить полезный сигнал из общего окружения. При этом приходится работать не столько с частотными характеристиками сигналов, сколько с фазовыми. Замена одного из микрофонов на другой экземпляр даже одного производителя требует перенастройки всей системы распознавания. Просьба определиться, с условиями размещения микрофонов, уровнем и характером шума окружающей среды, допустимым процентом распознавания. Это позволит определить технические требования к МК и аппаратуре для тестирования и настройки. Без определения условий внешней среды и эталонных наборов слов НИКОГДА и НИКОМУ не сдать готового устройства. С одним микрофоном НИЧЕГО не получится, какой бы он не был.

а как работают системы речевой аналитики в call центрах? Телефонная связь, там вообще все грустно с полосой и вообще с качеством речи. https://fonemica.ru/

Хотелось бы ограничиться одним микрофоном, расположенным возле уха (типа блютус гарнитуры устройство), условия бытовые. Дом, офис, улица.

Изменено пользователем 555555

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Для 555555.

Не знаю, как работают системы речевой аналитики в call центрах. Задач распознавания речевых образов много. Я вкратце описал свой опыт в этом деле. С одним микрофоном в распознавании речи делать нечего - выше 15-20% не подняться - попробуйте распознавание с гуглом/яндексом на улице со смартфона. Если кроме добрых пожеланий ничего нет, то бессмысленно говорить о какой-либо конкретной работе за конкретные время и деньги. 

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

1 hour ago, SERG_201303 said:

попробуйте распознавание с гуглом/яндексом на улице со смартфона

насчёт любого смартфона не отвечу, а так-то у айфонов начиная с 4 или 5 модели 4 микрофона с разных сторон корпуса - как раз для шумодава

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

1 hour ago, SERG_201303 said:

Для 555555.

Не знаю, как работают системы речевой аналитики в call центрах. Задач распознавания речевых образов много. Я вкратце описал свой опыт в этом деле. С одним микрофоном в распознавании речи делать нечего - выше 15-20% не подняться - попробуйте распознавание с гуглом/яндексом на улице со смартфона. Если кроме добрых пожеланий ничего нет, то бессмысленно говорить о какой-либо конкретной работе за конкретные время и деньги. 

Ну попробовал.
Закрыл оба микрофона пальцами на Samsung S8. 
И гугле переводчик с легкостью  определяет речь и переводит в текст.
Не 100% , но после двух-трех повторений. на ура. 
Микрофонный массив точно не нужен. 

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

12 минут назад, AlexandrY сказал:

Ну попробовал.
Закрыл оба микрофона пальцами на Samsung S8. 
И гугле переводчик с легкостью  определяет речь и переводит в текст.
Не 100% , но после двух-трех повторений. на ура. 
Микрофонный массив точно не нужен. 

В мелких помещениях с большим количеством отражающих стен попробуй.

Они нужны эхо давить.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

26 minutes ago, baumanets said:

В мелких помещениях с большим количеством отражающих стен попробуй.

Сам попробуй. 
А так поиск в течении пары минут дает кучу решений.
Мне нравится вот такое - https://www.nxp.com/design/designs/nxp-edgeready-mcu-based-solution-for-local-voice-control:MCU-LOCAL-VOICE?&&tid=vanmcu-local

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Подытожу. 

1. Связываться с многомикрофонными решениями не очень хочется.

2. 400тр за непонятно какое решение - тоже. 

Если есть еще предложения - welcome.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Давненько этой было. Один знакомый разрабатывал программу верификации человека с помощью коэффициентов адаптивного фильтра. Пока человек произносил кодовое слово фильтр настраивался  на характерные частоты и менял свои коэффициенты. Точность была порядка 80%.

Тысяч за 10 готов написать тестовую программку для примерной оценки данного алгоритма. Если идея окажется годной, то можно будет ее усовершенствовать.

strannik_p гав inbox.ru

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

https://fex.net/ru/s/xydxpss

Посмотрите видеоролик, делали управление бытовым обогревателем.

Система работает автономно, построена на базе STM32 CortexM4 + Tensor Flow предобученная нейросеть.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Присоединяйтесь к обсуждению

Вы можете написать сейчас и зарегистрироваться позже. Если у вас есть аккаунт, авторизуйтесь, чтобы опубликовать от имени своего аккаунта.

Гость
Ответить в этой теме...

×   Вставлено с форматированием.   Вставить как обычный текст

  Разрешено использовать не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отображать как обычную ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставлять изображения напрямую. Загружайте или вставляйте изображения по ссылке.

×
×
  • Создать...