repstosw 19 March 12 Posted March 12 (edited) · Report post Делаю свой речевой кодек для сжатия речи. Речевой сигнал прогоняю через классический конвеер обработки сигналов и получаю 64-канальную МЕЛ-спектрограмму, которая сжимается в 8 полосную с помощью свёрточного 1D-автоэнкодера. Пронормировать нужно в диапазон [0,1] перед подачей на входной слой нейросети. Собственно вопрос номер один: что делать со спектрограммой - как её нормировать? Читал, что есть 2 способа: глобальное нормирование и нормирование в пределах каждого частотного канала. Как правильнее? Заметил, что при канальном нормировании спектрограмма становится более контрастной что-ли... Но при этом напрягает факт, что происходит частичная де-корреляция : разрушается связь по вертикали между частотными полосами. Второй вопрос: есть ли более репрезентативное представление речевого сигнала, чем спектрограмма? Репрезентативное в плане: устранены инвариантности по афинным преобразованиям - деформации из-за сдвига и масштабирования по времени. Как это обыгрывается? Все данные приводят в один размер по временной оси, или используются рекуррентные сети со скользящим окном? Edited March 12 by repstosw Quote Share this post Link to post Share on other sites More sharing options...