Сделать распознавание голосовых команд.

Ответить

163264 2

24 июня, 2020

Опубликовано 24 июня, 2020 · Жалоба

Нужно реализовать на контроллере уровня STM32 распознавание пары десятков однословных команд. Язык русский (английский), без предварительного обучения на диктора (хотя возможно какое-то постобучение, те если неправильно распознал нажимаем кнопку).

Использование слова-активатора (типа Алиса, Ок, Гугл) перед командой допустимо.

По RAM нужно обойтись ресурсами контроллера/

Интересует минимизация потребления как в режиме ожидания слова активатора (может даже лучше для активации использовать 2 слова. по первому просто просыпаемся, что вот сигнал пошел, а второе слово - уже активатор), так и в процессе распознавания.

По существу нужен программный модуль, который мы будем вставлять в свое устройство (впрочем потом можем обсудить и вопрос комплексного создания устройства. но начнем именно с этой задачи).

Работа дистанционная. Пишите, плиз, в личку, стоимость, сроки, какие контроллеры справятся с этой задачей, примерную точность распознавания и примерный ток потребления.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

SERG_201303 0

24 июня, 2020

Опубликовано 24 июня, 2020 · Жалоба

День добрый.

Несколько лет назад я занимался подобным распознаванием. Да, можно сделать подобное устройство с уровнем распознавания до 70% (было сделано на NB). При этом были использованы минимум 3 микрофона - один на гарнитуре вблизи рта, один возле наушника, третий - дальше второго в 2-3 раза. Если это не гарнитура, то микрофонов нужно уже 4. Массив микрофонов позволяет выделить полезный сигнал из общего окружения. При этом приходится работать не столько с частотными характеристиками сигналов, сколько с фазовыми. Замена одного из микрофонов на другой экземпляр даже одного производителя требует перенастройки всей системы распознавания. Просьба определиться, с условиями размещения микрофонов, уровнем и характером шума окружающей среды, допустимым процентом распознавания. Это позволит определить технические требования к МК и аппаратуре для тестирования и настройки. Без определения условий внешней среды и эталонных наборов слов НИКОГДА и НИКОМУ не сдать готового устройства. С одним микрофоном НИЧЕГО не получится, какой бы он не был.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

baumanets 12

24 июня, 2020

Опубликовано 24 июня, 2020 · Жалоба

Как все поналетели. ОКР кто-то объявил?

См. видео в теме. 400К и код ваш.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

555555 0

25 июня, 2020

Опубликовано 25 июня, 2020 (изменено) · Жалоба

13 часов назад, SERG_201303 сказал:

День добрый.

Несколько лет назад я занимался подобным распознаванием. Да, можно сделать подобное устройство с уровнем распознавания до 70% (было сделано на NB). При этом были использованы минимум 3 микрофона - один на гарнитуре вблизи рта, один возле наушника, третий - дальше второго в 2-3 раза. Если это не гарнитура, то микрофонов нужно уже 4. Массив микрофонов позволяет выделить полезный сигнал из общего окружения. При этом приходится работать не столько с частотными характеристиками сигналов, сколько с фазовыми. Замена одного из микрофонов на другой экземпляр даже одного производителя требует перенастройки всей системы распознавания. Просьба определиться, с условиями размещения микрофонов, уровнем и характером шума окружающей среды, допустимым процентом распознавания. Это позволит определить технические требования к МК и аппаратуре для тестирования и настройки. Без определения условий внешней среды и эталонных наборов слов НИКОГДА и НИКОМУ не сдать готового устройства. С одним микрофоном НИЧЕГО не получится, какой бы он не был.

а как работают системы речевой аналитики в call центрах? Телефонная связь, там вообще все грустно с полосой и вообще с качеством речи. https://fonemica.ru/

Хотелось бы ограничиться одним микрофоном, расположенным возле уха (типа блютус гарнитуры устройство), условия бытовые. Дом, офис, улица.

Изменено 25 июня, 2020 пользователем 555555

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

SERG_201303 0

25 июня, 2020

Опубликовано 25 июня, 2020 · Жалоба

Для 555555.

Не знаю, как работают системы речевой аналитики в call центрах. Задач распознавания речевых образов много. Я вкратце описал свой опыт в этом деле. С одним микрофоном в распознавании речи делать нечего - выше 15-20% не подняться - попробуйте распознавание с гуглом/яндексом на улице со смартфона. Если кроме добрых пожеланий ничего нет, то бессмысленно говорить о какой-либо конкретной работе за конкретные время и деньги.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Doka 1

25 июня, 2020

Опубликовано 25 июня, 2020 · Жалоба

1 hour ago, SERG_201303 said:

попробуйте распознавание с гуглом/яндексом на улице со смартфона

насчёт любого смартфона не отвечу, а так-то у айфонов начиная с 4 или 5 модели 4 микрофона с разных сторон корпуса - как раз для шумодава

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

AlexandrY 3

25 июня, 2020

Опубликовано 25 июня, 2020 · Жалоба

1 hour ago, SERG_201303 said:

Для 555555.

Не знаю, как работают системы речевой аналитики в call центрах. Задач распознавания речевых образов много. Я вкратце описал свой опыт в этом деле. С одним микрофоном в распознавании речи делать нечего - выше 15-20% не подняться - попробуйте распознавание с гуглом/яндексом на улице со смартфона. Если кроме добрых пожеланий ничего нет, то бессмысленно говорить о какой-либо конкретной работе за конкретные время и деньги.

Ну попробовал.
Закрыл оба микрофона пальцами на Samsung S8.
И гугле переводчик с легкостью определяет речь и переводит в текст.
Не 100% , но после двух-трех повторений. на ура.
Микрофонный массив точно не нужен.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

baumanets 12

25 июня, 2020

Опубликовано 25 июня, 2020 · Жалоба

12 минут назад, AlexandrY сказал:

Ну попробовал.
Закрыл оба микрофона пальцами на Samsung S8.
И гугле переводчик с легкостью определяет речь и переводит в текст.
Не 100% , но после двух-трех повторений. на ура.
Микрофонный массив точно не нужен.

В мелких помещениях с большим количеством отражающих стен попробуй.

Они нужны эхо давить.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

AlexandrY 3

25 июня, 2020

Опубликовано 25 июня, 2020 · Жалоба

26 minutes ago, baumanets said:

В мелких помещениях с большим количеством отражающих стен попробуй.

Сам попробуй.
А так поиск в течении пары минут дает кучу решений.
Мне нравится вот такое - https://www.nxp.com/design/designs/nxp-edgeready-mcu-based-solution-for-local-voice-control:MCU-LOCAL-VOICE?&&tid=vanmcu-local

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

baumanets 12

26 июня, 2020

Опубликовано 26 июня, 2020 · Жалоба

И датасеты на 50 Гб русской речи там в придачу?

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

163264 2

27 июня, 2020

Опубликовано 27 июня, 2020 · Жалоба

Подытожу.

1. Связываться с многомикрофонными решениями не очень хочется.

2. 400тр за непонятно какое решение - тоже.

Если есть еще предложения - welcome.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Strannik_78 0

6 июля, 2020

Опубликовано 6 июля, 2020 · Жалоба

Давненько этой было. Один знакомый разрабатывал программу верификации человека с помощью коэффициентов адаптивного фильтра. Пока человек произносил кодовое слово фильтр настраивался на характерные частоты и менял свои коэффициенты. Точность была порядка 80%.

Тысяч за 10 готов написать тестовую программку для примерной оценки данного алгоритма. Если идея окажется годной, то можно будет ее усовершенствовать.

strannik_p гав inbox.ru

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Dobermann 1

6 июля, 2020

Опубликовано 6 июля, 2020 · Жалоба

https://fex.net/ru/s/xydxpss

Посмотрите видеоролик, делали управление бытовым обогревателем.

Система работает автономно, построена на базе STM32 CortexM4 + Tensor Flow предобученная нейросеть.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Присоединяйтесь к обсуждению

Вы можете написать сейчас и зарегистрироваться позже. Если у вас есть аккаунт, авторизуйтесь, чтобы опубликовать от имени своего аккаунта.

Ответить в этой теме...

× Вставлено с форматированием. Вставить как обычный текст

Разрешено использовать не более 75 эмодзи.

× Ваша ссылка была автоматически встроена. Отображать как обычную ссылку

× Ваш предыдущий контент был восстановлен. Очистить редактор

× Вы не можете вставлять изображения напрямую. Загружайте или вставляйте изображения по ссылке.

Указать URL изображения

Подписчики 0

163264 2

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

SERG_201303 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

baumanets 12

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

555555 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

SERG_201303 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Doka 1

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

AlexandrY 3

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

baumanets 12

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

AlexandrY 3

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

baumanets 12

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

163264 2

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Strannik_78 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Dobermann 1

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Присоединяйтесь к обсуждению

Обзор

Активность