Перейти к содержанию
    

Вполне приличные синтезаторы речи под DOS на основе драйвера speeck_r.com занимает 42к и sdrv.com - 46k. Т.е. вполне можно втиснуть в AVR, но разобраться как оно работает мозгов не хватает, хотя писал, в свое время, на асме для 88-го.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Насчёт синтеза речи - посмотрите как это сделано в Adobe Acrobat Reader (там в меню есть опция Read Out Loud, читает вслух документ) - препротивнейший звук!

 

Насчёт распознавания - видимо, SasaVitebsk путает распознавание фиксированного набора команд (то есть, примерно десятка заранее заданных слов, как нужно автору ветки) с искусственным интеллектом, способным понять произвольную речь (а также поддержать беседу на отвлечённые темы). Вторую задачу, разумеется, никто и не берётся реализовывать, а вот первая вполне реальна, правда, будут частые ложные срабатывания или несрабатывания - это неизбежно, т.к. даже люди не всегда правильно понимают друг друга из-за нечёткой дикции (фефектов фикции).

 

Я не путаю. Изначально не говорилось о нескольких словах. А говорилось о возможности записи речи в виде текста. Во всяком случае я так понял. Об исскуственном интеллекте я вообще молчу. :biggrin:

 

Я считаю, что даже распознавание

фиксированного набора команд (то есть, примерно десятка заранее заданных слов, как нужно автору ветки)
сделать на AVR одному человеку в качестве развлечения - не по силам. Я бы не взялся.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Я не путаю. Изначально не говорилось о нескольких словах. А говорилось о возможности записи речи в виде текста. Во всяком случае я так понял. Об исскуственном интеллекте я вообще молчу. :biggrin:

изначально говорилось об этом:

мне надо, просто, что бы если я что то сказал,

микроконтроллер понял и что то сделал, или ответил,

ответит можно через SD CARD или скажем ISD2560,

но как распознавать речь?

 

 

 

 

Я считаю, что даже распознавание фиксированного набора команд (то есть, примерно десятка заранее заданных слов, как нужно автору ветки) сделать на AVR одному человеку в качестве развлечения - не по силам. Я бы не взялся.

ссылка уже приводилась в этом топике:

http://instruct1.cit.cornell.edu/courses/e...ndex.html#intro

сделано именно на AVR . В таблицах 2-5 приведены вероятности правильного распознавания (результаты эксперимента).

Исходники брать там же.

И вводите в заблуждение людей..

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

:) Значит это я ввожу в заблуждение людей.

И приведенный проект тому подтверждение.

:) :) :)

 

Когда на голову человека падает кирпич, то

один скажет: боже, почему всё это падает на меня, - вот не везёт

второй скажет: вот это повезло - другого бы убило

Вы похоже скажете: блин чуть не попало.

 

По-моему приведенный пример - ярчайшее подтверждение моих слов. Это ещё один пример, как потратив год работы можно лажануться. Особенно грамотно подобраны слова! Оно и понятно, так как при таком методе требуются односложные слова. Конечно лучше использовать немецкий язык в данном случае. Там "лево" и "право", "верх" и "низ" сильно отличаются.

 

Ну и самый блеск - это возможность 50% (а в одном случае и 100%) ошибки распознавания в "VOICE RECOGNITION SECURITY SYSTEM". :) Это просто ПЯТЬ баллов. Приведенная в конце цена - просто закономерная цена всего проекта. Хотя я бы не дал.

 

Извините, но оттуда копировать просто НЕЧЕГО.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Особенно грамотно подобраны слова! Оно и понятно, так как при таком методе требуются односложные слова. Конечно лучше использовать немецкий язык в данном случае. Там "лево" и "право", "верх" и "низ" сильно отличаются.
links, rechts (по произношению различаются не сильнее чем left/right)

а вы предлагаете в качестве команд использовать слова вроде: "демобилизация", "идиосинкразия" ? кхм..

 

Ну и самый блеск - это возможность 50% (а в одном случае и 100%) ошибки распознавания в "VOICE RECOGNITION SECURITY SYSTEM". :) Это просто ПЯТЬ баллов. Приведенная в конце цена - просто закономерная цена всего проекта.
в качестве промежуточного результата могли и не такую вероятность получить.. при использовании обучения (см.далее в оригинальной статье) на словаре из 8ми слов получили минимальную вероятность распознавания в 85% (и то только на одном слове - более половины слов определяются с вероятностью в 100%).

насчет цены - странно, вы к этому придрались.. это дипломный приект и в качестве справки просто приведена стоимость ВОМ.

тут помоему должно быть всё ясно: железо отдельно - исследовательская работа отдельно.

 

Извините, но оттуда копировать просто НЕЧЕГО.
забыли добавить - "ИМХО".

авторы использовали простейший подход - выделение полос фильтрами, однако приводят иные методы - улучшающие точность.

 

 

да, и главное: как раз такие проекты (и тут скорее не как "проекты-для-копирования" а как "проекты-прецеденты")

"когда (хоть и не 1) человек сделал на AVR и добился определенных результатов" и помогают снять ограничивающие убеждения, не позволяющие не только прочувствовать возможность реализации "в прнципе", но и мещающие инженеру быть эффективным (ставить творческие задачи, здраво оценивать трудоемкость, анализировать существующие разработки, штудировать (если придется) стопки литературы)

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Не буду с вами спорить. У нас просто разные взгляды на вещи. Например человеку, который порядочный на 85% после обучения, - я бы деньги не отдал. Но собственно не о том разговор.

 

Этот проект всё равно не подойдёт для начинающего. (А разбирающийся за него сам не возьмётся) Причина проста. Даже перевести его на русский словарь (насколько я понял при беглом просмотре) - это уже не совсем простая операция требующая определённых знаний отнюдь не в программировании.

 

И ещё повторюсь. На вопрос "можно ли?" - отвечу "да" На вопрос "целесообразно ли?" - отвечу "нет". Причина - надо длительные и трудоёмкие исследования.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

85% - хорошая вероятность. Особенно если учесть, что в существующих сотовых телефонах голосовой набор (говоришь имя - набирается номер) работает примерно с такой же эффективностью

 

Да и люди, порядочные более чем на 85% в наше время - большая редкость. ;)

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

85% - хорошая вероятность. Особенно если учесть, что в существующих сотовых телефонах голосовой набор (говоришь имя - набирается номер) работает примерно с такой же эффективностью

 

Да и люди, порядочные более чем на 85% в наше время - большая редкость. ;)

 

По первому - то сотовый телефон, а то секьюрити. :)

 

По второму - Вас видимо кто-то обидел. :) Забавно когда ко мне менты приходят, а я их куда-нибудь пытаюсь перенаправить. Типовая фраза такая:

- Саша тебе доверяю, а другим нет.

- Почему?

- Так кругом же бандиты!!! :blink:

 

:biggrin:

Не знаю вокруг меня "отличные люди". :biggrin:

 

 

Всё таки порядочный человек на 85% - это уже непорядочный. К тому же после обучения. :biggrin:

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Оптимизация Синтезатора Речи

---возможно кого-либо заинтересует:

http://www.youtube.com/watch?feature=endsc...p;v=vkEMMDzO_5s

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

85% - хорошая вероятность. Особенно если учесть, что в существующих сотовых телефонах голосовой набор (говоришь имя - набирается номер) работает примерно с такой же эффективностью

 

Видимо сил-но зависит от системы. Голосовым набором я пользую только за рулем и там участвует встроенный BT, но цифры распознаются на 100%. Естественно все работает не на AVR :)

 

Что касается произвольного текста, то даже лучшие программы типа Dragon Dictate на много-гигагерцовых PC и полном словаре под рукой далеки от 100%.

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Вообще не в теме, но думаю что если распознающий не понимает говорящего, то говорящему нужно снизойти до распознающего.

Простейший расппознающий, я думаю, где-то на двоичном уровне, что-то вроде морзянки, RC5 протокола для телевизоров или DiSEqC :)

Ну, ничё не поделааешь, говорящему придётся издавать пачки звуков-пауз из очень ограниченного лексикона. :rolleyes:

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

а в андроиде встроено распознавание - в моих попытках все мои слова, сказанные спокойно по одному слову, распознаются на 100%. насколько я понял, это все делается через интернет, т.е. для распознавания наверняка подключены колоссальные ресурсы, но факт говорит сам за себя - отдельные слова распознаются отлично и безошибочно.

 

что касается распознавания на AVR, то с определенными ограничениями мне эта задача представляется решаемой, т.к. были прецеденты на PIC, а PIC не далеко от AVR ушел, и даже скорее отстает в плане производительности: http://www.530.ru/electronics/projects.php?do=p124

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

насколько я понял, это все делается через интернет, т.е. для распознавания наверняка подключены колоссальные ресурсы

Колоссальные ресурсы можно представить и как колоссальные людские ресурсы :biggrin:

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

я понял, это все делается через интернет

Скорее всего.

Вот тут - http://habrahabr.ru/post/146501/ делают через гугль и Wi-Fi (то бишь, интернет). Это, конечно, далеко не AVR, но, если надо, то и STM32 не жалко :biggrin: .

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Присоединяйтесь к обсуждению

Вы можете написать сейчас и зарегистрироваться позже. Если у вас есть аккаунт, авторизуйтесь, чтобы опубликовать от имени своего аккаунта.

Гость
Ответить в этой теме...

×   Вставлено с форматированием.   Вставить как обычный текст

  Разрешено использовать не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отображать как обычную ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставлять изображения напрямую. Загружайте или вставляйте изображения по ссылке.

×
×
  • Создать...