Если пофантазировать, можно разделить задачу на две составляющие, первая это набор распознавания первичный и создание базы, второй это просто распознавание по архиву сэмплов. То есть в режиме обучения распознавание делает мощный внешний комп, который делает полный анализ складывает образцы куда то в базу, а в рабочем режиме, уже не такой мощный проц просто сравнивает то, что произнесено с тем, что наработано в базе, по сути проц, несколько фильтров и программа сравнения.