Поиск
Показаны результаты для тегов 'dtw'.
-
Оценить степень сходства двух фрагментов спектрограмм
repstosw опубликовал тема в Алгоритмы ЦОС (DSP)
Есть спектрограмма аудио-записи, на которой произнесено одно и то же слово несколько раз с некоторыми интервалами. В качестве опорного изображения (с чем надо будет сравнивать) выделен фрагмент слога - переход с согласной на гласную: слог "ли". Требуется пройтись по всей аудио-записи и найти ещё этот слог (опорный: "ли"). Акустическая система(микрофон, усилитель, голос диктора, ОСШ) - фиксированы. В качестве исходных данных - используются 13 коэффициентов MFCC (самый первый - энергия фрейма). Коэффициенты получены с окна 25 мс, перекрыш 10 мс, окно Хемминга. Был применён стандартный MEL-банк фильтров. Спектрограмма в WAV-редакторе - два раза сказано одно и то же слово (опорный фрагмент - слог "ли" выделен - интервал4 окна по 25 мс ) : Цветовая интерпретация через коэффициенты MFCC (только для визуализации, сами коэффициенты доступны в формате double/float): ЧБ: Цветное: Собственно, главный вопрос: как оценить степень схожести с опорным фрагментом? Рассматривал данные как линейный массив, и делал вычисления через Евклидово расстояние, повышал степень выше квадрата - результаты сходства/различия были, но они провлялись не так сильно. Читал про DTW - Dynamic Time Warping, нашёл и отладил алгоритм. Понял , что вещь полезная, но пока не могу её применить к этой задаче, так как непонятно - как сегментировать аудио-поток ?