Перейти к содержанию
    

Ну да, так тебе все и выложили, и еще в исходниках. Ты бы еще на арифмометре сделал.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Key word - FFT.

ага, еще и фантастику почитать посоветуйте...с фурье человек далеко уйдет...

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

ага, еще и фантастику почитать посоветуйте...с фурье человек далеко уйдет...

Ну а как иначе?

С фурье все достаточно просто. Прощелкали спектр, сравнили со спектром эталона, получили 20 или более % подобия - распознали.

 

Предложите свой вариант вместо того чтобы воздух сотрясать ворчанием, не несущим никакой полезной нагрузки.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Ну а как иначе?

С фурье все достаточно просто. Прощелкали спектр, сравнили со спектром эталона, получили 20 или более % подобия - распознали.

:biggrin: А зачем? Уже отменили корреляцию во временнОй области? И еще, а что Вы влаживаете в слова 20% подобия? Это очень мало, между прочим...

 

Ну а уж если говорить о быстрых методах то быстрое вейвлет преобразование побыстрее будет(если это БВП по Добеши)...

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Ой, ну автор насмешил! На PC эта хрень толком не работает, а он на АВР-ке собрался...

 

 

Ну а как иначе?

С фурье все достаточно просто. Прощелкали спектр, сравнили со спектром эталона, получили 20 или более % подобия - распознали.

Речь - это не DTMF, таким наскоком ее не взять. Люди разные, голоса разные, а говорят одно и то же - фурье ничем не поможет. Да даже один и тот же голос, в разном настроении и с разной громкостью даст разные спектры.

Читайте про цифровую обработку речи. Мне, когда ее почитал, чуть не вывихнув мозги с кепстрами, стало понятно - ловить тут нечего.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Мне, когда ее почитал, чуть не вывихнув мозги с кепстрами, стало понятно - ловить тут нечего.

М.б. и есть чего, но уж только не на AVR. Хотя если в оффлайн...

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Речь - это не DTMF, таким наскоком ее не взять. Люди разные, голоса разные, а говорят одно и то же - фурье ничем не поможет.

Слова состоят из звуков, звуки имеют свой спектр (спектр может быть сдвинут, но картина в общем одинаковая, анализировать надо производную спектра).

У меня есть рабочая программа на базе FFT и анализа спектра, которая реально распознает речь! Она опровергает ваше опасение насчет "не поможет" - поможет еще как. Анализ спектра позволяет достаточно точно выделить звуки, основная сложность в этой задаче это определить границы между звуками, но и тут если не рассматривать все случаи жизни, а принять фиксированный интервал выборки в 10ms и по ним шлепать, то тоже проблем нет.

 

Ой, ну автор насмешил! На PC эта хрень толком не работает, а он на АВР-ке собрался...

А как же голосовой набор в телефонах? Ведь это распознавание речи и старенький Samsung N100 если не ошибаюсь, имея на борту скромный LPC ARM успешно справлялся этой задачкой. Эрики старые тоже. Ларчик на самом деле просто открывается, просто видать PC программеры - тупые (или ставят перед собой очень необъятную задачу - не только распознать но и понять :) ).

 

PS: Кстати для DTMF детекта FFT избыточно.

 

И еще, а что Вы вкладываете в слова 20% подобия? Это очень мало, между прочим...

Это зависит от метода сравнения. В моем случае 20% - это много.

Грубо не вдаваясь в детали - представим, что спектр входного сигнала отмасштабирован так, что интеграл разности спекторв входного сигнала и эталонного на отрезке от 0 до Fd будет минимальным. Полное совпадение - когда интеграл равен 0. Полное несовпадение - равен X.

20% подобия соотв. - 0.8*X.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

М.б. и есть чего, но уж только не на AVR. Хотя если в оффлайн...

А чем Вам AVR не подходит? Фигасе 20Мипс уже "не производительность" :lol:, Куда катится этот мир? :wacko:

Для сомневающихся- готовый проект, читайте тут например:

http://instruct1.cit.cornell.edu/courses/e...L362/index.html

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

ну с этого готового проекта я как-то начинал... результат впечатляюще отстойный. Даже в их рабочих исходниках косяков немерянно. На авр не добиться серъезного уровня.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

... На авр не добиться серъезного уровня.

Ну на вкус и цвет...

Кому и СТАРТ СТОП достаточно а кому нужно скоротать вечер в философской беседе с контроллером на тему "bit | ~bit" :lol:

 

PS Сорри за оффтоп

Изменено пользователем NetTracer

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Фигасе 20Мипс уже "не производительность"

Это восьмибитные мипсы. Т.е. когда нормальный DSP _за те же деньги_ будет делать 2000 бабочек в uS, AVR едва ли справится с одной. Кроме того нужно где-то хранить фонемы и слова, что для AVR тоже малореально, в условиях реалтайм.

Хотя я с Вами сразу же соглашусь, при условии, что покажете работающий пример хотя бы на 20 элементарных команд. Надеюсь, на распознавание всего языка (хотя бы 20 тысяч слов) на AVR Вы не претендуете.

 

 

А как же голосовой набор в телефонах?

Баловался я когда-то с Siemens S45. Не знаю, какой там проц и какой был применен алгоритм, но распознование команд было отвратительно - нужно было сделать десяток попыток, чтобы произнести команду так же, как она была записана. Такой футбол нам не нужен(с)

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

а что скажете по этому поводу: http://qrx.narod.ru/avt/mgv_gu.htm ? по-моему, ПИК в 4 раза менее производительный контроллер, если сравнивать с AVR той же тактовой частоты... и, как я понимаю, пахает - не жужжит...

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Это восьмибитные мипсы.

 

Ага... Чернила для восьмого класса. Мы тут выясняли соотношение AVR'овских и ARM'овских мипсов. Примерно в два раза. Если сравнивать с BF - то в 4 раза.

 

Т.е. когда нормальный DSP _за те же деньги_

 

Ну-ка, огласите нормальный DSP за 1-2 бакса?

 

Баловался я когда-то с Siemens S45

 

Не знаю, не знаю. На Осле (SL45) вполне вменяемо работало голосовое управление. Проц там, кстати, C166. Про алгоритм - не скажу, не разбирался. При желании - могу посмотреть, благо idb-файл не потерялся, место, где смотреть, примерно знаю...

 

а что скажете по этому поводу

Прикольно :) Интересно, как оно в живую, а не в описании?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Присоединяйтесь к обсуждению

Вы можете написать сейчас и зарегистрироваться позже. Если у вас есть аккаунт, авторизуйтесь, чтобы опубликовать от имени своего аккаунта.

Гость
Ответить в этой теме...

×   Вставлено с форматированием.   Вставить как обычный текст

  Разрешено использовать не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отображать как обычную ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставлять изображения напрямую. Загружайте или вставляйте изображения по ссылке.

×
×
  • Создать...