Jump to content
    

Нормирование спектрограммы и представление данных

Делаю свой речевой кодек для сжатия речи. Речевой сигнал прогоняю через классический конвеер обработки сигналов и получаю 64-канальную МЕЛ-спектрограмму, которая сжимается в 8 полосную с помощью свёрточного 1D-автоэнкодера.

Пронормировать нужно в диапазон [0,1] перед подачей на входной слой нейросети.

 

Собственно вопрос номер один: что делать со спектрограммой - как её нормировать?  Читал, что есть 2 способа: глобальное нормирование и нормирование в пределах каждого частотного канала. Как правильнее?

 

Заметил, что при канальном нормировании спектрограмма становится более контрастной что-ли... Но при этом напрягает факт, что происходит частичная де-корреляция : разрушается связь по вертикали между частотными полосами.

 

Второй вопрос: есть ли более репрезентативное представление речевого сигнала, чем спектрограмма?

 

Репрезентативное в плане: устранены инвариантности по афинным преобразованиям - деформации из-за сдвига и масштабирования по времени.  Как это обыгрывается?  Все данные приводят в один размер по временной оси, или используются рекуррентные сети со скользящим окном?

 

Edited by repstosw

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Unfortunately, your content contains terms that we do not allow. Please edit your content to remove the highlighted words below.
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...