Всем спасибо за ответы! Отвечаю по порядку.
Обучать бесполезно, современные движки, основанные на HMM нужно будет обучать для каждого помещения и каждого варианта положения человека в нем. Писать что-то свое, задача не того уровня. Пусть гугл и nuance над этим работают :)
Микрофоны по кругу - один из рассматриваемых вариантов. Но его надо сделать толково, чтобы во-первых микрофоны были направленными, в каждом микрофоне был свой АРУ + буфер с задержкой, например, в секунду, чтобы устройство могло на вход получить чистый звук с конкретного микрофона, который был записан еще до момента выбора направления.
Да, разговор переменный. Нужно избавиться не от звука устройства, а от эха помещения. Представьте что вы говорите в пустом спортивном зале и ваш голос там становится гулким. Вот это и есть реверберация.
Да, это один из вариантов, над которым работаем. 6 или 8 микрофонов, которые выполняют аудиофокусировку (beamforming). Только сделать это оказывается сложнее, чем кажется. Нет доступных устройств, которые способны выполнять синхронную многоканальную запись. Несколько аудиокарт - не вариант, частоты ползут на 1-3 семпла/в секунду. Даже один общий кварц для нескольких устройств пробовали делать - не помогает.
На видео для записи звука используется спикерфон Jabra с одним микрофоном.