Показать метаданные Скрыть метаданные

(19)

(11)

2 543 308

(13)

(51)

МПК

G10L21/264(2013-01-01)

G10L25/06(2013-01-01)

G10L21/04(2013-01-01)

G10L19/04(2013-01-01)

(21) (22)

Заявка

2011130422/08, 2010-01-11

(24)

Дата начала отсчета патента

2010-01-11

(22)

дата подачи заявки

2010-01-11

(45)

опубликовано

2015-02-27

(72)

авторы

Бэкстрем ТомБайер СтефанГайгер РальфНойендорф МаксДиш Саша

(73)

патентообладатели

Фраунхофер-Гезелльшафт Цур Фёрдерунг Дер Ангевандтен Форшунг Е.Ф.

(56)

Документы, цитированные в отчете о поиске

УСТРОЙСТВО, СПОСОБ И МАШИНОЧИТАЕМЫЙ НОСИТЕЛЬ ДЛЯ ПОЛУЧЕНИЯ ПАРАМЕТРА, ОПИСЫВАЮЩЕГО ИЗМЕНЕНИЕ ХАРАКТЕРИСТИКИ СИГНАЛА Российский патент 2015 года по МПК G10L21/264 G10L25/06 G10L21/04 G10L19/04

Описание патента на изобретение RU2543308C2

Предпосылки создания изобретения

Использования изобретения связаны с аппаратом, способом и компьютерной программой для получения параметра, описывающего изменение сигнальной характеристики сигнала, на основе фактических параметров области преобразования, описывающих аудиосигнал в области преобразования.

Предпочтительные использования изобретения связаны с аппаратом, способом и компьютерной программой для получения параметра, описывающего временное изменение сигнальной характеристики аудиосигнала, на основе фактических параметров области преобразования, описывающих аудиосигнал в области преобразования.

Дальнейшие варианты использования изобретения связаны с оценкой изменения сигнала.

Хотя основной сферой настоящего изобретения является анализ временных вариаций аудиосигналов, тот же способ может быть легко адаптирован к любому цифровому сигналу и изменениям, которые такие сигналы демонстрируют на любой из своих осей. Такие сигналы и изменения включают, например, пространственные и временные изменения характеристик, такие как интенсивность и контрастность изображений и фильмов, модуляции (изменения) характеристик, такие как амплитуда и частота радиолокационных и радиосигналов, и изменений свойств, таких как гетерогенность ЭКГ сигналов.

Далее будет представлено краткое введение, касающееся концепции оценки изменения сигнала. Классическая обработка сигнала обычно начинается с предположения о локально стационарных сигналах и для многих применений это разумное предположение. Тем не менее допущения, что сигналы, такие как речь и аудио, являются локально стационарными, выходят за пределы разумного уровня в некоторых случаях. Классическая обработка сигнала обычно начинается с предположения о локально стационарных сигналах и для многих применений, это разумное предположение. Тем не менее допущения, что сигналы, такие как речь и аудио, являются локально стационарными, выходят за пределы разумного уровня в некоторых случаях. Сигналы, характеристики которых быстро изменяются, вносят искажения в результаты анализа, которые трудно сдержать с помощью классических подходов, и поэтому требуют методологию, специально созданную для быстро меняющихся сигналов.

Например, можно рассмотреть кодирование речевого сигнала с кодером, основанном на преобразовании. В этом случае входной сигнал анализируется в окнах, содержимое которых преобразуется в спектральной области. Когда сигнал является гармоническим сигналом, чья основная частота быстро меняется, расположения спектральных пиков, соответствующих гармонике, со временем меняются. Если, например, длина окна анализа относительно большая по сравнению с изменением основной частоты, спектральные пики распеределяются на соседние бункеры частоты. Другими словами, спектральное представление размывается. Это искажение может быть особенно сильным на верхних частотах, где расположение спектральных пиков движется быстрее, когда изменяется основная частота.

Хотя существуют способы для компенсации изменений основной частоты, такие как изменение шкалы времени модифицированного дискретного косинус преобразования (TW-MDCT) (см. ссылки [8] и [3]), оценка изменения шага остается проблемой.

В прошлом изменение шага оценивалось путем измерения шага и просто выведением производной по времени. Однако, так как оценка шага является трудной, а зачастую и неоднозначной задачей, оценки изменения шага были усеяны ошибками. Оценка шага страдает, в частности, от двух типов распространенных ошибок (см., например, ссылку [2]). Во-первых, когда гармоника имеет большую энергию, чем основная частота, эстиматоры/оценщики часто ошибочно полагают, что гармоника на самом деле основная частота, при этом выход является кратным истинной частоте. Такие ошибки можно наблюдать как разрывы в шаге дорожек, и они вызывают огромные ошибки в отношении производной по времени. Во-вторых, большинство методов оценки шага в основном полагаются на выбор пиков в области (областях) автокорреляции с помощью эвристики. Особенно в случае изменяющихся различных сигналов эти пики являются широкими (плоскими в верхней части), при этом небольшая ошибка в оценке автокорреляции может значительно сдвинуть ориентировочное расположение пика. Оценка шага, таким образом, является неустойчивой оценкой.

Как указано выше, общий подход в обработке сигналов заключается в предположении, что сигнал постоянен в короткие промежутки времени, и оценке его свойств в таких интервалах. Итак, если сигнал на самом деле изменяется во времени, то предполагается, что временная эволюция сигнала достаточно медленная, так что предположение о стационарности в короткий промежуток времени является достаточно точным, и анализ в короткие промежутки времени не приведет к значительному искажению.

В виду вышеизложенного желательно создать концепцию для получения параметра, описывающего временные изменения сигнальной характеристики с повышенной надежностью.

Сущность изобретения

Примером воплощения изобретения является аппарат для получения параметра, описывающего временное изменение сигнальной характеристики аудиосигнала, на основе фактических параметров области преобразования, описывающих аудиосигнал в области преобразования. Аппарат содержит определитель параметра, предназначенный для определения одного или нескольких модельных параметров модели изменений в области преобразования, описывающих временную эволюцию параметров области преобразования в зависимости от одного или нескольких модельных параметров, представляющих сигнальную характеристику, так что модельная ошибка, представление отклонения между моделируемой временной эволюцией параметров области преобразования и временной эволюцией фактических параметров области преобразования снижаются ниже заданного порогового значения или сводятся к минимуму.

Этот вариант воплощения изобретения основан на открытии, что типичные временные изменения аудиосигнала приводят к характерной временной эволюции в области преобразования, которую можно описать с помощью ограниченного числа модельных параметров. Хотя это особенно верно для голосовых сигналов, где характерная временная эволюция определяется типичной анатомией органов речи человека, это предположение верно и для более широкого спектра аудио- и других сигналов, как например типичные музыкальные сигналы.

Кроме того, обычно гладкая временная эволюция сигнальной характеристики (как, например, шаг, конверт, тональность, шумность и т.д.) может быть рассмотрена моделью изменения области преобразования. Соответственно, использование параметризованной модели изменения области преобразования даже может применяться для усиления (или рассмотрения) гладкости расчетной сигнальной характеристики. Таким образом, разрывов расчетной сигнальной характеристики или ее производных можно избежать. Выбрав модель изменения области преобразования соответственно можно наложить любые типичные ограничения на моделируемые изменение сигнальных характеристик, как, например, ограничение скорости изменения, ограничение диапазона значений, и так далее. Кроме того, выбрав модель изменения области преобразования соответственно, можно учесть влияние гармоник так, что, например, можно добиться повышения надежности путем одновременного моделирования временной эволюции основной частоты и гармоники.

Кроме того, с помощью моделирования изменений в области преобразования эффект искажения сигнала может быть ограничен. Хотя некоторые виды искажений (например, частотно-зависимые задержки сигнала) приводят к сильным модификациям формы волны сигнала, такие искажения могут иметь ограниченное влияние на представление сигнала в области преобразования. Так как естественно является желательным точно оценить сигнальные характеристики при наличии искажений, доказано, что использование области преобразования является очень хорошим выбором.

Подводя итог сказанному выше, использование модели изменения области преобразования, параметры которой призваны привести параметризованную модель изменения области преобразования (или ее выход) в соответствии с фактической временной эволюцией фактических параметров области преобразования, описывающих входной аудиосигнал, позволяет определение сигнальных характеристик типичного аудиосигнала с хорошей точностью и надежностью.

В предпочтительном варианте использования изобретения аппарат может быть предназначен для получения в качестве фактических параметров области преобразования первого набора параметров области преобразования, описывающего первый временной промежуток аудиосигнала в области преобразования для заранее определенного множества значений переменной преобразования. Кроме того, аппарат может быть настроен для получения второго набора параметров области преобразования, описывающих второй временной промежуток аудиосигнала в области преобразования для заранее определенного множества значений переменной преобразования. В этом случае определитель параметра может быть предназначен для получения модельного параметра изменения частоты (или шага) с помощью параметризованной модели изменения области преобразования, включающий параметр изменения частоты (или изменения шага) и представляющий компрессию сжатие или расширение представления области преобразования аудиосигнала по отношению к с учетом переменной преобразования, с условием плавного изменения частоты аудиосигнала. Определитель параметра может быть настроен для определения параметров изменения частоты, так, что параметризованная модель изменения области преобразования адаптирована к первому набору параметров области преобразования и ко второму набору параметров области преобразования. Применяя этот подход, можно очень эффективно использовать информацию, доступную из области преобразования. Было установлено, что представление области преобразования аудиосигнала (например, представление области автокорреляции, представление области автоковариации, представление области преобразования Фурье, представление области дискретного косинус-преобразования, и так далее) гладко расширяется или сжимается в зависимости от изменяющейся основной частоты или шага. Моделируя это гладкое сжатие или расширение представления области преобразования, полное содержание информации о представлении области преобразования может быть использовано, так как могут сравниваться различные образцы представления области преобразования (для различных значений переменной преобразования).

В предпочтительном варианте использования изобретения аппарат может быть предназначен для получения в качестве фактических параметров области преобразования параметров области преобразования, описывающих аудиосигнал в области преобразования в зависимости от переменной преобразования. Область преобразования может быть выбрана так, чтобы частота транспозиции аудиосигнала приводит к по крайней мере сдвигу частоты представления области преобразования аудиосигнала по отношению к переменной преобразования, или к растяжению представления области преобразования по отношению к переменной преобразования, или к сжатию представления области преобразования по отношению к переменной преобразования. Определитель параметра может быть предназначен для получения модельного параметра изменения частоты (или модельного параметра изменения шага) на основе временного изменения соответствующих (например, связанных с тем же значением переменной преобразования) фактических параметров области преобразования, принимая во внимание зависимость представления области преобразования аудиосигнала от переменной преобразования. Используя этот подход, информацию о временном изменении соответствующих фактических параметрах области преобразования (например, параметров области преобразования для идентичного лага автокорреляции, лага автоковариации, или разрешения по частоте Фурье-преобразования) можно оценивать отдельно от информации о зависимости представления области преобразования от переменной преобразования. Впоследствии, отдельно просчитанная информация может быть объединена. Таким образом, особенно эффективным способом можно оценить расширение или сжатие представления области перобразования, например, путем сравнения нескольких пар параметров области преобразования и учитывая рассчитанный локальный градиент изменения преобразования параметра представления области преобразования. Другими словами, местный наклон представления области преобразования в зависимости от параметра преобразования и временное изменение представления области преобразования (например, через последующие окна) могут быть объединены для оценки величины временного сжатия или расширения представления области преобразования, что в свою очередь является мерой временного изменения частоты и изменения шага.

Далее предпочтительные варианты использования изобретения также определяются в зависимых пунктах формулы изобретения.

Примером воплощения изобретения является способ для получения параметра, описывающего временное изменение сигнальной характеристики аудиосигнала, на основе фактических параметров области преобразования, описывающих аудиосигнал в области преобразования.

Еще одним воплощением изобретения является компьютерная программа для получения параметра, описывающего временное изменение сигнальной характеристики аудиосигнала.

Краткое описание фигур

На фиг.1а показана блок-схема аппарата для получения параметра, описывающего временное изменение сигнальной характеристики аудиосигнала;

На фиг.1b показана блок-схема способа получения параметра, описывающего временное изменение сигнальной характеристики аудиосигнала;

На фиг.2 показана блок-схема способа получения параметра, описывающего временную эволюцию огибающей сигнала, в соответствии с вариантом осуществления изобретения;

На фиг.3а показана блок-схема способа получения параметра, описывающего временное изменение шага, в соответствии с вариантом осуществления изобретения;

На фиг.3b показана упрощенная блок-схема способа получения параметра, описывающего временную эволюцию шага;

На фиг.4 показана блок-схема более усовершенствованного способа получения параметра, описывающего временное изменение шага, в соответствии с вариантом осуществления изобретения;

На фиг.5 показана блок-схема способа получения параметра, описывающего временное изменение сигнальной характеристики аудиосигнала в области автоковариации;

На фиг.6 показана блок-схема кодера аудиосигнала, в соответствии с вариантом осуществления изобретения, а также

На фиг.7 показана блок-схема общего способа получения параметра, описывающего изменение сигнала.

Подробное описание воплощения изобретения

Далее будет описана концепция моделирования изменений в целом в целях облегчения понимания настоящего изобретения. Впоследствии общее воплощение изобретения будет описано со ссылкой на фиг.1а и 1b. Впоследствии более специфические воплощения изобретения будут описаны со ссылкой на фиг. c 2 до 5. Наконец, применение изобретенной концепции для кодирования аудиосигнала будет описано со ссылкой на фиг.6, и выводы резюме будет приведено со ссылкой на фиг.7.

Для того чтобы избежать путаницы, терминология будет использоваться следующим образом:

- Под термином "изменение" мы имеем в виду общий набор функций, который описывают изменение характеристик во времени, и

- (частичная) производная ∂/∂x используется как математически точно определенная категория.

Другими словами, "изменение" относится к сигнальным характеристикам (на абстрактном уровне), тогда как "производное" используется всякий раз, когда используется математическое определение ∂/∂x, например, как к (лаг автокорреляции/лаг автоковариации) или t (время) производные автокорреляции/автоковариации.

Любые другие меры изменения будут объясняться словами, как правило, не используя термин "изменение".

Кроме того, воплощения изобретения для оценки временного изменения аудиосигналов будут описаны впоследствии. Однако настоящее изобретение не ограничивается только аудиосигналами и только временными изменениями. Скорее воплощения изобретения можно применять для оценки общих изменений сигналов, даже несмотря на то, что изобретение в настоящее время в основном используется для оценки временных изменений аудиосигналов.

Моделирование изменений

Общий обзор моделирования изменений

В общем говоря, варианты воплощения изобретения используют модели изменения для анализа входного аудиосигнала. Таким образом, модель изменения используется, чтобы создать способ оценки изменения.

Предположения для моделирования изменений

В дальнейшем, некоторые различия между обычной традиционной оценкой сигнальной характеристики и концепцией, применяемой в вариантах воплощения изобретения, будут обсуждены.

В то время как традиционные способы предполагают, что характеристики сигнала (например, аудиосигнала) являются постоянными (или стационарными) в коротких окнах времени, одним из основных подходов согласно настоящему изобретению является предположение, что (нормализованная) скорость изменения (например, сигнальной характеристики (как, например, высота или огибающая)) постоянна в течение короткого окна времени. Таким образом, в то время как традиционные способы могут обрабатывать стационарные сигналы, а также на скромном уровне искажений медленно изменяющиеся сигналы, некоторые варианты воплощения настоящего изобретения могут обрабатывать стационарные сигналы, линейно изменяющиеся сигналы (или экспоненциально изменяющиеся сигналы), а также на скромном уровне искажений такие нелинейно изменяющиеся сигналы, где скорость нелинейного изменения является медленной.

Как отмечалось выше, одним из основных подходов данного изобретения является предположение, что (нормализованная) скорость изменения постоянна в коротких окнах, но представленные способ и концепцию можно легко перенести на более общий случай. Например, нормализованную скорость изменения, изменение можно моделировать любой функцией, и до тех пор пока модель изменения (или указанной функции) имеет меньше параметров, чем число точек данных, модельные параметры могут быть однозначно определены.

В предпочтительных вариантах использования изобретения модель изменения может, например, описывать плавное изменение сигнальной характеристики. Например, модель может быть основана на предположении, что сигнальная характеристика (или нормализованная скорость ее изменения) следует масштабированной версии элементарной функции или масштабированной комбинации элементарных функций (где элементарные функции включают в себя: х^а; 1/х^а;; 1/х; 1/х²; е^х; а^х; ln(x); log_a(x); sinh х; cosh х; tanh х; coth х; arsinh х; arcosh х; artanh х; arcoth х; sin х; cos х; tan х; cot х; sec х; csc х; arcsin х; arccos х; arctan х; arccot хх). х^а; 1/х^а; $\sqrt{(х)}$ ; 1/х; 1/х²; е^х; а^х; ln(x); loga(x); sinh х; cosh х; tanh х; coth х; arsinh х; arcosh х; artanh х; arcoth х; sin х; cos х; tan х; cot х; sec х; csc х; arcsin х; arccos х; arctan х; arccot х). В некоторых вариантах, предпочтительно, чтобы функция, описывающая временную эволюцию сигнальной характеристики или нормализованную скорость изменения, являлась устойчивой и гладкой на всем интересующем спектре.

Применение в различных областях

Одним из основных областей применения концепции настоящего изобретения является анализ сигнальных характеристик, где величина изменения, изменение, является более информативным, чем величина этой характеристики. Например, с точки зрения шага это означает, что воплощения данного изобретения связаны с приложениями, где нас больше интересует изменение шага, чем величина шага.

Однако, если в приложении нас больше интересует величина сигнальной характеристики, а не скорость ее изменения, все равно можно извлечь выгоду из концепции настоящего изобретения. Например, если можно получить априорную информацию о сигнальных характеристиках, такую как допустимый диапазон скорости изменения, то изменение сигнала можно использовать в качестве дополнительной информации с целью получения точных и надежных временных контуров сигнальной характеристики. Например, с точки зрения шага, можно оценить шаг обычными способами, кадр за кадром, и использовать изменение шага для того, чтобы отсеять ошибки оценки, выпадающие значения, скачки октав и помочь в том, чтобы сделать контур шага непрерывным треком, а не изолированными точками в центре каждого окна анализа. Другими словами, возможно совместить модельные параметры, параметризующие модель изменений области преобразования и описывающие изменение сигнальной характеристики, с одной или более дискретными значениями, описывающими моментальное значение сигнальной характеристики.

Более того, в варианте воплощения изобретения это является главным подходом к моделированию нормализованной величины изменения, так как величина сигнальных характеристик затем явно удаляется из расчетов. Как правило, такой подход делает математические формулировки более легко поддающимися обработке. Тем не менее варианты воплощения изобретения не ограничиваются использованием нормализованных мер изменения, потому что нет никакой внутренней причины, по которой следует ограничивать данную концепцию нормализованными мерами изменения.

Математическая модель изменения

Далее, будет описана математическая модель изменения, которая может быть применена в некоторых вариантах воплощения изобретения. Однако другие модели изменения, естественно, тоже годны к употреблению.

Рассмотрим сигнал с таким свойством, как шаг, который изменяется с течением времени и обозначим его через p(t). Изменение шага является его производной $\frac{\partial}{\partial t} p (t)$ , и для того чтобы отменить влияние величины шага, мы нормализуем изменение при помощи р^-1(t) и определяем

$c (t) = p^{- 1} (t) \frac{\partial}{\partial t} p (t) . (1)$

Мы называем эту меру c(t) нормализованным изменением шага, или просто изменением шага, так как ненормализованная мера изменения шага не имеет смысла в данном примере.

Длина периода T(t) сигнала обратно пропорциональна шагу, T(t)=p^-1(t), в результате мы получаем

$c (t) = - T^{- 1} (t) \frac{\partial}{\partial t} T (t)$ .

Предположив, что изменение шага постоянно в малом интервале t, c(t)=с, уравнение в частных производных Уравнения 1 может быть легко решено, посредством чего мы получаем

$p (t) = p_{0}^{} e^{c t} (2)$

$T (t) = T_{0}^{} e^{c}$

где р₀ и Т₀ означают соответственно шаг и длину периода в момент времени t=0.

Хотя T(t) является длиной периода в момент времени t, мы понимаем, что любые временные функции следуют той же формуле. В частности, для автокорреляции R(k, t) лаг к в момент времени t временные особенности в k-области следуют этой формуле. Иными словами, особенность автокорреляции, которая проявляется как лаг k_o, во время t=0 будет смещаться в зависимости от t как аналогичным образом, мы имеем

$k (t) = k_{0} e^{c t} . (3)$

Аналогичным образом мы имеем

$c = - k^{- 1} (t) \frac{\partial}{\partial t} k (t) . (4)$

В уравнении 2 мы рассматривали только изменения, которые можно считать постоянными в течение короткого интервала. Тем не менее при желании мы можем использовать модели более высокого порядка, принимая, что изменение следует некой функциональной форме в короткий временной интервал. Полиномы в этом случае представляют особый интерес, поскольку результирующее дифференциальное уравнение может быть легко решено. Например, если мы определим, что изменение следует полиномиальной форме

$c (t) = \sum_{k = 1}^{M} k c_{k} t^{k - 1} = p^{- 1} (t) \frac{\partial}{\partial t} p (t)$

тогда

$p (t) = \exp (\sum_{k = 0}^{M} k c_{k} t^{k})$ .

Обратите внимание, что сейчас постоянная $p_{o_{,}}$ появляющаяся в уравнении 2, является ассимилированной в экспоненциал без потери общности, для того чтобы сделать представление более ясным.

Эта форма показывает, как модель изменения может быть легко распространена на более сложные случаи. Тем не менее, если не указано иначе, в этом документе мы рассмотрим только случай первого порядка (постоянное изменение), чтобы сохранить понятность и доступность. Те, кто знаком с этой темой, могут легко распространить описанные способы на случаи более высокого порядка.

Такой же подход, который используется здесь для моделирования изменения шага, может быть использован без модификаций и для других мер, для которых нормализованная производная является хорошо оправданной областью. Например, временная огибающая сигнала, которая соответствует мгновенной энергии преобразования сигнала Гильберта является такой мерой. Часто величина временной огибающей имеет меньшее значение, чем относительное значение, то есть временное изменение конверта. В аудио кодировании, моделирование временной огибающей является полезным для снижения распространения временного шума, и обычно достигается способом, известным как Временное ограничение шума (TNS), где временная огибающая моделируется на основе модели линейного предсказания в частотной области (см., например, ссылку [4]). Настоящее изобретение представляет собой альтернативу TNS в моделировании и оценке временной огибающей.

Если обозначить временную огибающую a(t), то (нормализованное) изменение огибающей h(t) определяется как

$h (t) = \sum_{k = 1}^{M} k h_{k} t^{k - 1} = a^{- 1} (t) \frac{\partial}{\partial t} a (t) (5)$

и, соответственно, решение уравнения в частных производных

$a (t) = \exp (\sum_{k = 0}^{M} h_{k} t^{k})$ .

Обратите внимание на то, что вышеуказанная форма означает, что в логарифмической области амплитуда является простым полиномом. Это удобно, так как амплитуды часто выражаются по шкале децибел (дБ).

Общее воплощение аппарата для получения параметра, описывающего временное изменение сигнальной характеристики

На фиг.1 показана блок-схема аппарата для получения параметра, описывающего временное изменение сигнальной характеристики аудиосигнала на основе фактических параметров области преобразования (например, значений автокорреляции, значений автоковариации, коэффициентов Фурье и так далее), описывающих аудиосигнал в области преобразования. Аппарат, показанный на фиг.1а, в полном объеме обозначается как 100. Аппарат 100 предназначен для получения (например, приема или вычисления) фактических параметров области преобразования 120, описывающих аудиосигнал в области преобразования. Кроме того, аппарат 100 предназначен для предоставления одного или нескольких модельных параметров 140 модели изменений в области преобразования, описывающих временную эволюцию параметров в области преобразования в зависимости от одного или нескольких модельных параметров. Аппарат 100 содержит дополнительный трансформатор 110, предназначенный для предоставления фактических параметров области преобразования 120 на основе представления временной области 118 аудиосигнала так, что фактические параметры области преобразования 120 описывают аудиосигнал в области преобразования. Тем не менее, аппарат 100 может альтернативно быть предназначен для получения фактических параметров области преобразования 120 от внешнего источника параметров области преобразования.

Аппарат 100 дополнительно включает в себя определитель параметра 130, при этом определитель параметра 130 предназначен для определения одного или нескольких модельных параметров модели изменения области преобразования так, что ошибка модели, представляющая собой отклонение смоделированной временной эволюции параметров области преобразованием от фактической временной эволюции фактических параметров области преобразования приводится ниже заданного порогового значения или сводится к минимуму. Таким образом, модель изменения области преобразования, описывающая временную эволюцию параметров области преобразования в зависимости от одного или нескольких модельных параметров, представляющих сигнальную характеристику, адаптируется (или подходит) к аудиосигналу, представленному фактическими параметрами области преобразования. Таким образом, фактически можно добиться того, чтобы смоделированное изменение параметров аудио-сигнала в области преобразования, описанное, прямо или косвенно, моделью изменения в области преобразования, приближалось (в пределах заданного допуска) к фактическому изменению параметров области преобразования.

Существует много различных вариантов реализации концепции определителя параметра. Например, определитель параметра может включать, например, сохраненные в нем (или на внешнем носителе данных) уравнения расчета изменения модельного параметра 130а, описывающие отображение параметров области преобразования на параметры модели изменения. В этом случае определитель параметра 130 может также содержать калькулятор изменения модельных параметров 130b (например, программируемый компьютер или сигнальный процессор или FPGA), который может быть настроен, например, с помощью аппаратного или программного обеспечения для оценки уравнений расчета изменения модельного параметра 130а. Например, калькулятор изменения модельных параметров 130b может быть предназначен для приема множества фактических параметров области преобразования, описывающих аудиосигнал в области преобразования, и на вычисление с помощью уравнений расчета изменения модельного параметра 130а, одного или нескольких модельных параметров 140. Уравнения расчета изменения модельного параметра 130а могут, например, описать в явной форме отображение фактических параметров области преобразования 120 на один или несколько модельных параметров 140.

Кроме того, определитель параметра 130 может, например, выполнять итеративную оптимизацию. Для этой цели определитель параметра 130 может включать в себя представление 130с из модели изменения временной области, что позволяет, например, вычислить последующий набор расчетных параметров области преобразования на основе предыдущего набора фактических параметров области преобразования (представляющих аудиосигнал), принимая во внимание модельный параметр, описывающий предполагаемую временную эволюцию. В этом случае определитель параметра 130 может также содержать оптимизатор модельного параметра 130d, при этом оптимизатор модельного параметра 130d может быть предназначен для модификации одного или нескольких модельных параметров модели изменения во временной области 130c, пока набор расчетных параметров области преобразования, полученный параметризованной моделью изменения во временной области 130c, при помощи предыдущего набора фактических параметров в области преобразования, не придет в достаточно близкое отношение (например, в рамках заданной разницы порога) с текущими фактическими параметрами области преобразования.

Однако, конечно, существует множество других способов для определения одного или нескольких модельных параметров 140 на основе фактических параметров области преобразования, потому что существуют различные математические формулировки решения этой общей проблемы, чтобы определить модельные параметры так, что результат моделирования будет приближаться к фактическим параметрам области преобразования (и/или их временной эволюции).

Учитывая сказанное выше, функциональность аппарата 100 может быть объяснена со ссылкой на фиг.1b, которая показывает блок-схему способа 150 для получения параметра 140, описывающего временное изменение сигнальной характеристики аудиосигнала. Способ 150 включает в себя необязательный шаг 160 вычисления фактических параметров области преобразования 120, описывающих аудиосигнал в области преобразования. Способ 150 также включает в себя шаг 170 определения одного или нескольких модельных параметров, 140 модели изменения в области преобразования, описывающих временную эволюцию параметров области преобразования в зависимости от одного или нескольких модельных параметров, представляющих сигнальную характеристику, так, что модельная ошибка, представляющая собой отклонения между моделируемой временной эволюцией и фактическими параметрами области преобразования, снижается ниже заданного порогового значения или сводится к минимуму.

Далее, некоторые варианты использования изобретения будут описаны более подробно, чтобы объяснить более подробно изобретенную концепцию.

Оценка изменения в области автокорреляции

В текущем контексте автокорреляция сигнала х_n определяется как

r_k=E[x_nx_n+k]

и оценивается как

$r_{k} \approx \frac{1}{N } \sum_{n = 1}^{N - k} x_{n} x_{n + k}$

где предполагается, что x_n отличен от нуля на интервале [1, N]. Отметим, что оценка стремится к истинному значению, когда N стремится к бесконечности. Более того, обычно, какая-то многооконная работа может применяться х_n до оценки

автокорреляции в целях обеспечения соблюдения допущения, что она равна нулю вне диапазона [1, N].

Оценка изменения в области автокорреляции - изменение шага

В одном варианте использования изобретения цель заключается в оценке изменения сигнала, то есть в случае изменения шага, в оценке, насколько автокорреляция растягивается или сжимается как функция времени. Другими словами, цель состоит в определении производной по времени лага автокорреляции к, которая обозначается как $\frac{\partial k}{\partial t}$ . Ради ясности, мы теперь используем более короткую форму k вместо k(t) и предполагаем, что зависимость от t является подразумеваемой.

Из уравнения 4 получаем

$\frac{\partial k}{\partial t} = - c k$ .

Традиционная проблема, которая преодолевается в некоторых вариантах использования изобретения, состоит в том, что производная по времени к недоступна и непосредственная оценка является затруднительной. Тем не менее признается, что цепное правило производных можно использовать для получения

$\frac{\partial k}{\partial t} = [\frac{\partial R}{\partial t}] [\frac{\partial k}{\partial R}] = [\frac{\partial R}{\partial t}] {[\frac{\partial R}{\partial k}]}^{- 1}$

$[\frac{\partial R}{\partial t}] = [\frac{\partial k}{\partial t}] [\frac{\partial R}{\partial k}] = - c k [\frac{\partial R}{\partial k}] . (6)$

Было установлено, что с помощью оценки с можно затем с помощью первого порядка Тейлора моделировать автокорреляцию в момент t_2,используя автокорреляцию в момент времени t₁ и производную по времени

$\overset{⌢}{R} (k, t_{2}) = R (k, t_{1}) + Δ t [\frac{\partial R}{\partial t}] = R (k, t_{1}) - c Δ t k [\frac{\partial R}{\partial k}]$

В практическом применении производную $\frac{\partial}{\partial t} R (k)$ можно оценить, например, по оценке второго порядка

$\frac{\partial}{\partial t} R (k) = \frac{1}{2} [R (k + 1) - R (k - 1)]$ .

Эта оценка является более предпочтительной, чем разница первого порядка R(k+1)-R(k), так как оценка второго порядка не страдает от сдвига фазы полуотсчета как оценка первого порядка. Для повышения точности или вычислительной эффективности альтернативные оценки могут быть использованы, например, оконные сегменты производной sinc-функции.

Используя критерий минимальной среднеквадратичной ошибки мы получаем задачу оптимизации

$\min_{c} \sum_{k = 1}^{N} {[R (k, t_{2}) - \overset{⌢}{R} (k, t_{2})]}^{2} (7)$

решение которой может быть легко получено как

$\hat{c} = \frac{\sum_{k = 1}^{N} [R (k, t_{2}) - R (k, t_{1})] k \frac{\partial R}{\partial k}}{Δ t \sum_{k = 1}^{N} k^{2} {(\frac{\partial R}{\partial k})}^{2}} . (8)$

Те же выводы справедливы и когда изменение шага оценивается из последующих окон автоковариации вместо автокорреляции. Тем не менее по сравнению с автокорреляцией автоковариация содержит дополнительную информацию, использование которой описано в разделе под названием "Моделирование в области автоковариации".

Оценка изменения в области автокорреляции - временная огибающая

Как будет описано далее, временная эволюция огибающей также может быть оценена в области автокорреляции.

Далее, будет дан краткий обзор определения изменения временной огибающей со ссылкой на фиг.2. Впоследствии возможный алгоритм в соответствии с вариантом использования данного изобретения будет описан в деталях.

На фиг.2 показана блок-схема способа получения параметра, описывающего временное изменение огибающей аудиосигнала. Способ, показанный на фиг.2, в полном объеме обозначается как 200. Способ 200 включает в себя определение 210 кратковременных значений энергии для множества последовательных временных интервалов. Определение кратковременных значений энергии может, например, включать в себя определение значений автокорреляции в общий заданный лаг (например, лаг 0) для множества последовательных (с временным перекрыванием или без временного перекрывания) окон автокорреляции для получения кратковременных значений энергии. Шаг 220 дополнительно содержит определение соответствующих модельных параметров. Например, шаг 220 может включать в себя определение полиномиальных коэффициентов полиномиальной функции времени так, что полиномиальная функция приближается к временной эволюции кратковременных значений энергии. Далее будет описан пример алгоритма для определения полиномиальных коэффициентов. Например, шаг 220 может включать в себя шаг 220а создания матрицы (например, обозначенной V), состоящей из последовательностей степеней значений времени, связанных с последовательными временными промежутками (временными интервалами в начале или в центре, например, во время t₀, t₁, t₂, и так далее). Шаг 220 может также включать шаг 220b создания целевого вектора (например, обозначенного r), элементы которого описывают кратковременные значения энергии для последовательных временных интервалов.

Кроме того, шаг 220 может включать в себя шаг 220 с решения системы линейных уравнений (например, в виде r=Vh), определяемых матрицей (например, обозначенной V) и целевым вектором (например, обозначенным r), чтобы получить в качестве решения полиномиальные коэффициенты (например, описываемые вектором h).

Далее, будут разъяснены дополнительные подробности, касающиеся этой процедуры.

В области автокорреляции моделирование временной огибающей является очень простым. Мы можем легко доказать, что автокорреляции с лагом ноль соответствует среднему квадрату амплитуды. Кроме того, автокорреляции во всех остальных лагах масштабируется по среднему квадрату амплитуды. Иными словами, ту же информацию можно получить на любые лаги, при этом достаточно только рассмотреть автокорреляцию на лаг ноль.

Так как модель первого порядка изменения огибающей является очень простой, модель более высокого порядка используется в предпочтительном варианте использования изобретения. Это также служит примером того, как действовать с моделями более высокого порядка, а также в случае оценки изменения шага.

Рассмотрим полиномиальную модель Mth порядка для изменения огибающей по Уравнению 5. Тогда мы имеем М+1 неизвестных и, таким образом, предпочтительно использовать минимум М+1 уравнений для решения. Другими словами, желательно использовать по крайней мере М+1 последовательных окон автокорреляции (обозначенных, например, с помощью центра времени окна автокорреляции или начала времени окна автокорреляции t_h, R(k,t_h), hε[0, N] и N≥М). Затем, получается значение aft) (описывающее, например, краткосрочную среднюю мощность или краткосрочную среднюю амплитуду, например, в линейном и нелинейном масштабировании) в N+1 разных моментов времени t=t_h (или для N+1 разных перекрывающихся или неперекрывающихся временных интервалов), то есть a(t_h)=R(0, t_h)^1/2 и

$\frac{1}{2} \ln R (0, t_{h}) = \sum_{k = 0}^{M} h_{k} t^{k}$

Так как a(t) является полиномом (точнее: приближается к полиному), это является классической задачей решения коэффициентов полинома, для которого в литературе существуют многочисленные способы.

Одной из основных альтернатив для решения является использование матрицы Вандермонда следующим образом.

Матрица Вандермонда V, например, определяется как

$V = [\begin{matrix} 1 & t_{0} & t_{0}^{2} & \dots & t_{0}^{M} \\ 1 & t_{1} & t_{1}^{2} & \dots & t_{1}^{M} \\ ⋮ & ⋮ & ⋮ \\ 1 & t_{N} & t_{N}^{2} & \dots & t_{N}^{M} \end{matrix}]$ ,

и может быть вычислена, например, на шаге 220а. Целевой вектор r и вектор решения h могут быть определены как

$r = [\begin{matrix} \frac{1}{2} \ln R {(0, t_{0})}^{1 / 2} \\ \frac{1}{2} \ln R {(0, t_{1})}^{1 / 2} \\ ⋮ \\ \frac{1}{2} \ln R {(0, t_{N})}^{1 / 2} \end{matrix}] h = [\begin{matrix} h_{0} \\ h_{1} \\ ⋮ \\ h_{N} \end{matrix}]$ .

Целевой вектор может, например, быть вычислен на шаге 220b.

Затем

r=Vh.

Так как t_h ^,s отчетливы и если М=N, то существует инверсия V^-1, и мы получаем

h=V^-1r,

Например, на шаге 220 с.

Если М>N, то ответ дает псевдоинверсия. Однако если N и М велики, то для эффективного решения могут быть использованы более детализированные способы, известные в данной области.

Оценка изменения в области автокорреляции - Анализ смещения

Хотя представленная выше оценка измеряет изменение, есть один шаг, на котором локально-стационарное предположение нельзя преодолеть в некоторых вариантах использования изобретения. А именно, оценка автокорреляции обычными средствами (например, с помощью окна автокорреляции конечной длины) приводит к предположению, что сигнал должен быть локально стационарным. В дальнейшем будет показано, что изменение сигнала не вносит смещение в оценку, так, что этот способ может считаться достаточно точным.

Для того чтобы проанализировать смещение автокорреляции, предположим, что изменение шага постоянно в этом интервале времени. Кроме того, предположим, что в t₀ мы имеем сигнал x(t) с длиной периода T(t₀)=Т₀, тогда на второй точке t₁ он имеет длину периода T(t₁)=Т₀ехр(-с(t₁-t₀)). Средняя длина периода на интервале [t₀, t₁] является

$\begin{array}{l} \hat{T} t_{0}, t_{1} = \frac{1}{t_{1} - t_{0}} \int_{t_{0}}^{t_{1}} T (t) d t = \frac{1}{t_{1} - t_{0}} \int_{t_{0}}^{t_{1}} T_{0} e^{- c (t - t_{0})} d t \\ = - \frac{T_{0}}{c (t_{1} - t_{0})} (e^{- c (t - t_{0})} - 1) = T 0 e^{- c \frac{t_{1} - t_{0}}{2}} \frac{\sinh c \frac{t_{1} - t_{0}}{2}}{c \frac{t_{1} - t_{0}}{2}} \end{array}$ .

Заметим, что последняя часть выражения выше является «гиперболической синк» функцией, которую мы будем обозначать через

$\sin c h (x) = \frac{\sinh (x)}{x} = \frac{e^{x} - e^{- x}}{2 x}$ .

Тогда для окна длины Δt_win=t₁-t₀ мы имеем

${\overset{\land}{T}}_{Δ t_{w i n}} = T_{0} e^{- c \frac{Δ t_{w i n}}{2}} \sin c h (c \frac{Δ t_{w i n}}{2}) . (9)$

По аналогии между T и k, это выражение также квантифицирует, насколько оценка автокорреляции растягивается из-за изменения сигнала. Однако, если многооконная работа применяется до оценки автокорреляции, смещение из-за изменения сигнала уменьшается, так как оценка затем концентрируется вокруг средней точки окна анализа.

При оценке с на основании двух последовательных кадров автокорреляции со смещением значения k для каждого кадра являются смещенными и следуют формулам

${\begin{cases} (k({\overset{\land}{t}}_{1}) = k_{0} e^{-c {\overset{\land}{t}}_{1}} sinch (c Δ t_{win} /2) \\ (k({\overset{\land}{t}}_{2}) = k_{0} e^{-c {\overset{\land}{t}}_{2}} sinch (c Δ t_{win} /2 \end{cases}$

где ${\overset{\land}{t}}_{1}$ и ${\overset{\land}{t}}_{2}$ являются средними точками каждого из кадров.

Параметр с может быть решен путем определения ${\overset{\land}{t}}_{1} = 0$ и расстоянием между окнами Δt_step= ${\overset{\land}{t}}_{2} - {\overset{\land}{t}}_{1}$ , при этом

$c = \frac{\ln k ({\overset{\land}{t}}_{1}) - \ln k ({\overset{\land}{t}}_{2})}{Δ t_{s t e p}}$ ,

где мы наблюдаем, что все случаи Δt_win взаимно отменяют друг друга. Другими словами, даже если изменение сигнала смещает оценку автокорреляции, оценка изменения, извлеченная из двух автокорреляций, является несмещенной.

Однако, в то время как изменение сигнала не смещает оценку изменения, ошибки оценки из-за откровенно коротких окон анализа не могут быть предотвращены. Оценка автокорреляции из короткого окна анализа подвержена ошибкам, так как она зависит от расположения окна анализа в отношении фазы сигнала. Более длинные окна анализа уменьшают этот тип ошибок оценки, но для того, чтобы сохранить предположение о локально постоянном изменении, надо искать компромисс. B рамках данной темы общепринято, чтобы длина окна анализа была по крайней мере в два раза ниже ожидаемой длины периода. Тем не менее более короткие окна анализ могут быть использованы, если увеличение ошибки является приемлемым.

С точки зрения изменения временной огибающей результаты будут схожими. Для модели первого порядка оценка изменения огибающей является несмещенной. Более того, точно такая же логика может быть применена к оценке автоковариации, при этом тот же результат справедлив и для автоковариации.

Оценка изменения в области автокорреляции - Применение

Далее будут описаны возможное применение данного изобретения для оценки изменения шага. Во-первых, будет изложена общая концепция со ссылкой на фиг.3, которая показывает блок-схему способа 300 для получения параметра, описывающего временное изменение шага аудиосигнала, согласно одному из вариантов использования изобретения. Впоследствии, детали реализации указанного способа 300 будут предоставлены.

Способ 300, показанный на фиг.3, включает в себя в качестве необязательного первого шага выполнение 310 предварительной обработки аудиосигнала для входного аудиосигнала. Предварительная обработка аудио может включать, например, предварительную обработку, которая облегчает извлечение желаемых характеристик аудиосигнала, например, за счет снижения вредных компонентов сигнала. Например, моделирование формантной структуры, описанной ниже, может быть применено в качестве предварительной обработки аудиосигнала на шаге 310.

Способ 300 также включает в себя шаг 320 определения первого набора значений автокорреляции R(k, t₁) аудиосигнала х_n для первого раза или интервала времени t₂ и для множества различных значений лага автокорреляции k. Для определения значений автокорреляций обратимся к описанию ниже.

Способ 300 также включает в себя шаг 322 определения второго набора значений автокорреляции R(k, t₂) аудиосигнала х_n для второго раза или интервала времени и для множества различных значений лага автокорреляции k. Соответственно, шаги 320 и 322 из способа 300 могут предоставить пары значений автокорреляции, каждая пара значений автокорреляции состоит из двух значений (результатов) автокорреляции, связанных с различными интервалами времени аудио-сигнала, но с таким же значением лага автокорреляции к. Способ 300 также включает в себя шаг 330 определения частной производной автокорреляции из лага автокорреляции, например, для первого интервала времени начиная с t₁ или для второго интервала времени начиная с f₂. Либо частная производная по лагу автокорреляции также может быть вычислена для другого момента времени или интервалу времени, лежащему или длящемуся между временем t₁ и временем t₂.

Соответственно, изменение автокорреляции R(k, t) по лагу автокорреляции может быть определено для множества различных значений лага автокорреляции к, например, для тех значений лага автокорреляции, для которых первый набор значений автокорреляции и второй набор значений автокорреляции определяются на шаге 320, 322.

Естественно, не существует фиксированного временного порядка по отношению к исполнению шагов 320, 322, 330, так, что шаги могут быть выполнены полностью или частично параллельно, или в другом порядке.

Способ 300 также включает в себя шаг 340 определения одного или нескольких модельных параметров модели изменения с помощью первого набора значений автокорреляции, второго набора значений автокорреляции и частной производной от автокорреляции $\frac{\partial}{\partial t} R (k, t)$ по лагу автокорреляции.

При определении одного или нескольких модельных параметров, временное изменение между значениями автокорреляции пары значений автокорреляции (как описано выше) может быть принято во внимание. Разница между этими двумя значениями автокорреляции пары значений автокорреляции может быть взвешена, например, в зависимости от изменения автокорреляции за лаг $(\frac{\partial}{\partial t} R (k, h))$ . При взвешивании разницы между двумя значениями автокорреляции пары значений автокорреляции, лаг автокорреляции к (связанный с парой значений автокорреляции) может также рассматриваться в качестве весового коэффициента. Соответственно, сумма членов вида

$[R (k, h + 1) - R (k, h)] k \frac{\partial}{\partial k} R (k, h)$

может быть использована для определения одного или нескольких модельных параметров, при этом указанный член суммы может быть связан с указанным значением лага автокорреляции к и член суммы включает в себя произведение разницы между двумя значениями автокорреляции пары значений автокорреляции в виде

R(k,h+1)-R(k,h),

и зависимый от лага весовой коэффициент, например, в виде

$k \frac{\partial}{\partial k} R (k, h)$ .

Зависимый от лага весовой коэффициент автокорреляции позволяет учесть тот факт, что автокорреляция распространяется более интенсивно с большими значениями лага автокорреляции, чем с маленькими значениями лага автокорреляции, включается фактор значения лага автокорреляции к. Более того, включение изменения значений автокорреляции с лагом делает возможным оценку расширения или сжатия функции автокорреляции на основе локальных (равных лагу автокорреляции) пар значений автокорреляции.

Таким образом, расширение или сжатие функции автокорреляции (с лагом) может быть оценено без проведения масштабирования образов и соответствия функциональности. Скорее отдельные члены суммы основываются на локальных (единственное значение лага k) входах R(k, h+1), R(k,h), $\frac{\partial}{\partial k} R (k, h)$ .

Тем не менее, для того чтобы получить большое количество информации по автокорреляционной функции, члены суммы, связанные с различными значениями лага к, могут быть объединены, при этом отдельные члены суммы по-прежнему остаются членами суммы с единственным значением лага.

Кроме того, может быть выполнена нормализация при определении модельных параметров модели изменения, при этом фактор нормализации может, например, принять форму

$Δ_{s t e p} \sum_{k = 1}^{N} k^{2} {[\frac{\partial}{\partial k} R (k, h)]}^{2}$

и может, например, включать сумму членов с единственным значением лага автокорреляции.

Другими словами, определение одного или нескольких модельных параметров может включать в себя сравнение (например, формирование разницы или вычитание) значений автокорреляции для данного, общего значения лага автокорреляции, но для различных временных интервалов, и для вычисления изменения значения автокорреляции за лаг (k - производная автокорреляции) сравнение значений автокорреляции для данного, общего интервала времени, но при различных значениях лага автокорреляции. Тем не менее, сравнения (или вычитания) значений автокорреляции для разных интервалов времени и для разных значений лага автокорреляции, что потребует значительных усилий, можно избежать.

Способ 300 может в дальнейшем, при необходимости, включать шаг 350 вычисления контура параметра, например контура временного шага, на основе одного или нескольких модельных параметров, определенных на шаге 340.

Далее возможная реализация концепции, описанной со ссылкой на фиг.3а, будет объяснена более подробно.

В качестве конкретного применения настоящего изобретения мы далее продемонстрируем воплощение способа оценки изменения шага из временного сигнала в области автокорреляции. Способ (360), который схематично представлен на фиг.3b, включает (или состоит из) следующие шаги:

1. Оценка (320, 322; 370) автокорреляции R(k, h) для окна h и h+1 (например, обработанное методом окна оконной функцией w_n) длины Δt_win, разделенного на Δt_step

${\overset{\land}{x}}_{n, h} = w_{n} x_{n} + h Δ t_{s t e p}$

$R (k, h) = \sum_{n = 1}^{Δ t_{w i n} - k} {\overset{\land}{x}}_{n, h} {\overset{\land}{x}}_{n} + k, n$

2. Оценка (330; 374) k-производной автокорреляции окна (или "кадра") h, например, путем

$\frac{\partial}{\partial t} R (k, h) = \frac{1}{2} [R (k + 1, h) - R (k - 1, h)]$

3. Оценка (340; 378) изменения шага си между окнами или кадрами h и h+1, используя (из уравнения 8)

$\hat{c_{h}} = \frac{\sum_{k = 1}^{N} [R (k, h + 1) - R (k, h)] k \frac{\partial}{\partial k} (k, h)}{Δ t_{s t e p} \sum_{k = 1}^{N} k^{2} {[\frac{\partial}{\partial k} R (k, h)]}^{2}} .$

Если нужен (опционально нормализованный) контур шага, а не только мера изменения шага с_h, должен быть добавлен следующий шаг:

4. Пусть средняя точка окна или кадра h будет t_h. Тогда контур шага между окнами или кадрами h и h+1 является

$p (t) = p (t_{h}) e^{c_{h} t}$ для t∈[t_h, t_n+1]

где p(t_h) получается из предыдущей пары кадров или фактической оценки величины шага. Если не доступны измерения величины шага, мы можем задать р(0) для произвольно выбранного начального значения, например, р(0)=1, и вычислить контур шага итеративно для всех последующих окон.

Большое число шагов предварительной обработки (310) известны в данной области и могут быть использованы для повышения точности оценки. Например, речевые сигналы, как правило, имеют основную частоту в диапазоне от 80 до 400 Гц, и если необходимо оценить изменения высоты тона, то лучше использовать полосовой фильтр входного сигнала, например, на диапазоне от 80 до 1000 Гц, так, чтобы сохранить основную и несколько первых гармоник, но ослабить высокочастотные компоненты, которые могут ухудшить качество особенно оценки производных и, следовательно, общую оценку.

Как сказано выше, этот способ применяется в области автокорреляции, но этот способ может опционально с соответствующими изменениями быть применен в других областях, таких как область автоковариации. Точно так же, как сказано выше, этот способ представлен в приложении к оценке изменения шага, но тот же самый подход может быть использован для оценки изменений в других характеристиках сигнала, таких как величина временной огибающей. Более того, изменение параметра (ов) может быть оценено из более чем двух окон для повышения точности, или, если формулировка модели изменения требует дополнительных степеней свободы. Общий вид представленного способа изображен на фигуре 7.

Если имеется дополнительная информация о свойствах входного сигнала, при желании можно использовать пороги для удаления недопустимых оценок изменения. Например, шаг (или изменение шага) речевого сигнала редко превышает 15 октав / сек, при этом любая оценка, которая превышает это значение, как правило, является либо неречевой, либо ошибкой оценки, и может быть проигнорирована. Кроме того, минимальные погрешности моделирования из Уравнения 7 могут быть опционально использованы как индикатор качества оценки. В частности, можно установить порог для ошибки моделирования так, что оценка, основанная на модели с большой погрешностью моделирования, игнорируется, так как изменение, показанное в модели, не описывается моделью хорошо и эта оценка ненадежна.

Оценка изменения в области автокорреляции - моделирование формантной структуры

Далее будет описана концепция предварительной обработки аудиосигнала, которая может быть использована для улучшения оценки характеристик (например, изменения шага) аудиосигнала.

В обработке речи формантная структура, как правило, моделируется моделями линейного предсказания (LP) (см. ссылку [6]) и их производными, такими как искаженное линейное предсказание (WLP) (см. ссылку [5]) или минимальной дисперсией свободного от искажений ответа (MVDR) (см. ссылку [9]). Кроме того, так как речь постоянно меняется, формантная модель, как правило, интерполирована в области пар спектральных линий (LSP) (см. ссылку [7]) или, что эквивалентно, в области пар спектрального иммитанса (ISP) (см. ссылку [1]) для получения плавных переходов между окнами анализа.

Для LP моделирования формантов, тем не менее, нормализованное изменение не представляет первостепенный интерес, так как нормализация LP модели не приносит значительных преимуществ в некоторых случаях. В частности, в обработке речи расположение формантов, как правило, более важно и интересно, чем изменение их расположения. Поэтому, хотя возможно сформулировать нормализованные модели изменения для формантов, мы сосредоточимся на более интересной теме отмены эффекта формантов.

Другими словами, включение модели изменения в формантах может быть использовано для повышения точности оценки изменения шага или иных характеристик. То есть, отменив влияние изменений в формантной структуре от сигнала до оценки изменения шага, можно уменьшить вероятность того, что изменение в формантной структуре будет интерпретировано как изменение шага. И формантное расположение, и шаг могут изменяться до примерно 15 октав в секунду, что означает, что изменения могут быть очень быстрыми, они варьируются в примерно том же диапазоне и их входы можно легко спутать.

Чтобы опционально отменить влияние формантной структуры, оценим сначала LP модель для каждого кадра, удалим формантную структуру путем фильтрации и использования отфильтрованных данных в оценке изменения шага. Для оценки изменения шага, важно, чтобы автокорреляция имела низкочастотный характер, и поэтому нужно оценить LP модель от высокочастотного отфильтрованного сигнала, но отменить формантную структуру только от исходного сигнала (то есть без высокочастотной фильтрации), при этом отфильтрованные данные будут иметь низкочастотный характер.

Как известно, низкочастотный характер облегчает оценку производных от сигнала. Сам процесс фильтрации может быть осуществлен в временной области, области автокорреляции или частотной области, в соответствии с вычислительными требованиями приложения.

В частности, способ предварительной обработки для отмены формантной структуры от автокорреляции может быть сформулирован

1. Фильтрация сигнала с фиксированным фильтром высоких частот.

2. Оценка LP моделей для каждого кадра высокочастотного отфильтрованного сигнала.

3. Удаление входа формантной структуры путем фильтрации исходного сигнала с LP фильтром.

Фиксированный фильтр высоких частот в шаге 1 может быть опционально заменен сигнал-адаптивным фильтром, таким как LP модель младшего порядка, оцененная для каждого кадра, если требуется более высокий уровень точности. Если низкочастотная фильтрация используется в качестве шага предварительной обработки на другой стадии в алгоритме, этот шаг высокочастотной фильтрации можно пропустить, при условии, что низкочастотная фильтрация появляется после формантной отмены.

Способ оценки LP в шаге 2 может быть выбран в соответствии с требованиями приложения. Хорошо оправданным выбором был бы, например, обычный способ LP (см. ссылку [6]), искаженный LP (см. ссылку [5]) и MVDR (см. ссылку [9]). Порядок модели и способ должны быть выбраны так, что модель LP не моделирует основную частоту, а только спектральный конверт.

На шаге 3, фильтрация сигнала с LP фильтрами может быть выполнена либо на основе окно-за-окном, либо на основе исходного непрерывного сигнала. При фильтрации сигнала без окон (например, фильтрации непрерывного сигнала) целесообразно применять способы интерполяции, известные в данной области, такие как LSP или ISP, для уменьшения резких изменений сигнальных характеристик при переходах между окнами анализа.

Далее, процесс удаления (или сокращения) формантной структуры будет кратко описан со ссылкой на фиг.4. Способ 400, блок-схема которого показана на фиг.4, включает шаг 410 сокращения или удаления формантной структуры от входного аудиосигнала, чтобы получить аудиосигнал с сокращенной формантной структурой. Способ 400 включает в себя шаг 420 определения параметра изменения шага на основе аудиосигнала с сокращенной формантной структурой. Вообще говоря, шаг 410 сокращения или удаления формантной структуры содержит дополнительный шаг 410а оценки параметров линейно-предсказанной модели входного аудиосигнала на основе высокочастотной отфильтрованной версии или сигнал-адаптивной отфильтрованной версии входного аудиосигнала. Шаг 410 также включает в себя дополнительный шаг 410b фильтрации широкополосной версии входного аудиосигнала на основе рассчитанных параметров для того, чтобы получить аудиосигнал с сокращенной формантной структурой так, что аудиосигнал с сокращенной формантной структурой имеет низкочастотный характер.

Естественно, способ 400 может быть модифицирован, как описано выше, например, если входной аудиосигнал уже был низкочастотно отфильтрован.

В целом, можно сказать, что сокращение или удаление формантной структуры из входного аудиосигнала можно использовать в качестве предварительной обработки аудиосигнала в сочетании с оценкой различных параметров (например, изменение шага, изменения огибающей и т.д.) и также в сочетании с обработкой в различных областях (например, области автокорреляции, области автоковариации, области преобразования Фурье и так далее).

Моделирование в области автоковариации

Моделирование в области автоковариации: Введение и обзор

Далее будет описано, как модельные параметры, представляющие временное изменение аудиосигнала, могут быть оценены в области автоковариации. Как уже упоминалось выше, различные модельные параметры такие, как параметр модели изменения шага или параметр модели изменения огибающей, могут быть оценены.

Автоковариация определяется как

$Q (k) = \frac{1}{N } \sum_{n = 1}^{N} x_{n} x_{n + k}$ ,

где х_n обозначает образцы входного аудиосигнала. Отметим, что в отличии от автокорреляции здесь мы не предполагаем, что х_n отлична от нуля только в интервале анализа. То есть, х_n не должна быть обработана оконным способом перед проведением анализа. Как и в автокорреляции, для стационарного сигнала автоковариация сходится к E[x_nx_n+k], N→∞.

По сравнению с автокорреляцией автоковариация - это очень похожая область, но с некоторой дополнительной информацией. В частности, в то время как в области автокорреляции фазовая информация из сигнала отбрасывается, в ковариации она сохраняется. Рассматривая стационарные сигналы, мы часто обнаруживаем, что фазовая информация не так полезна, но для быстро меняющихся сигналов она может быть очень полезна. Лежащее в основе этого различие связано с тем, что для стационарного сигнала ожидаемое значение не зависит от времени

E[x_nx_n+k]=E[x_nx_n-k]

но для нестационарного сигнала это не так.

Пусть в момент времени t (или в течение интервала времени начиная с момента времени t, или центрировано в момент t), оценим, для сигнала х_n, автоковариацию Q(k, t). Тогда мы можем легко увидеть, что это означает, что E[Q{k,t)]=E[Q(-k,t+к]. Далее мы адаптируем обозначения, где ожидания (описываемые оператором Е[…])являются неявными, при этом Q(k,t)=Q(-k,t+k). Точно так же отношение Q(-k,t)=Q(k,t-k) может быть справедливым.

Применяя предположение о локально постоянном временном изменении огибающей, получаем

E[x(t)}=е^ht[х(0)]

а так же

Q(k,t)=e^2htQ(k,0).

Производная по времени Q(k, t), следовательно,

$\frac{\partial Q (k, t)}{\partial} = 2 h Q (k, t) . (10)$

Используя эти соотношения, мы теперь можем составить оценку первого порядка Тейлора для Q(k, t) с центром в t

$Q (k, t) = Q (- k, t + k) = Q (- k, t) + k \frac{\partial Q (- k, t)}{\partial t} = (1 + 2 h k) Q (- k, t)$

Например, сдвиг во времени может быть измерен в тех же единицах, что и лаг автокорреляции, так что справедливо следующее:

$Q (- k, t + k = t Δ t) = Q (- k, t) + Δ t \frac{\partial Q (- k, t)}{\partial t}$ .

Теперь все члены появляются в тот же момент времени t (или в том же интервале времени), поэтому мы можем определить q_k=Q(k, t) и ${\overset{⌢}{q}}_{k} = \overset{⌢}{Q} (k, t)$ .

Напомним, что наша цель заключалась в оценке изменения огибающей h. Так как вышеуказанное соотношение справедливо для всех k, мы можем, например, свести к минимуму квадратичную ошибку моделирования

$\min_{h} \sum_{k = - N}^{N} {[q_{k} - {\overset{\land}{q}}_{k}]}^{2} (11)$

Минимум может быть легко найден как

$h = \frac{\sum_{k = - N}^{N} (q_{K} - 2 k q_{- k}) q_{- k}}{2 \sum_{k = - n}^{N} k q^{2}_{- k}} . (12)$

Здесь мы решили использовать минимальную среднеквадратическую ошибку (MMSE) в качестве нашего критерия оптимизации, но любые другие критерии, известные в данной области, могут быть применены в равной степени успешно здесь, а также в других вариантах использования изобретения. Кроме того, мы решили предпринять оценку по всем лагам между k=-N и k=N, но, по желанию, здесь и в других вариантах использования изобретения ради вычислительной эффективности и точности может быть использован выбор индексов.

Обратите внимание, что по сравнению с автокорреляцией, в автоковариации нам не нужно использовать последовательные окна анализа, но мы можем оценить временные изменения огибающей из одного окна. Аналогичный подход может быть легко разработан для оценки изменения шага из одного окна автоковариации.

Кроме того, обратите внимание, что по сравнению с оценкой изменения шага, для оценки огибающей нам не нужна предварительная фильтрация сигнала с низкочастотным фильтром, так как не нужны никакие k-производные автоковариации.

Моделирование в области автоковариации - Применение

В качестве другого примера конкретного применения концепции настоящего изобретения, мы покажем способ оценки изменения временной огибающей из сигнала в области автоковариации. Этот способ включает (или состоит из) следующие шаги:

1. Оценка автоковариации q_k сигнала х_n для окна длины Δt_win

$q_{k} = \sum_{n = 1}^{Δ t_{w i n}} x_{n} x_{n + k}$ для k∈(-N,N)

2. Найти изменение временной огибающей h, вычислив

$h = \frac{\sum_{k = - N}^{N} (q_{K} - 2 k q_{- k}) q_{- k}}{2 \sum_{k = - n}^{N} k q^{2}_{- k}} .$

Если нужен нормализованный контур огибающей, а не только мера изменения огибающей h, можно опционально добавить следующий шаг:

3. Контур огибающей

a(t)=a ₀e^ht для t∈ (0, Δt_win)

где а ₀ получается из предыдущего кадра или фактической оценки величины огибающей. При отсутствии измерений величины огибающей мы можем установить а ₀=1 и рассчитать контур огибающей итеративно для всех последующих окон.

Если имеется дополнительная информация о свойствах входного сигнала, при желании можно использовать пороги для удаления недопустимых оценок изменения. Кроме того, минимальные погрешности моделирования из Уравнения 11 могут быть опционально использованы как индикатор качества оценки. В частности, можно установить порог для ошибки моделирования так, что оценка, основанная на модели с большой погрешностью моделирования, игнорируется, так как изменение, показанное в модели, не описывается моделью хорошо, и эта оценка ненадежна.

Для дальнейшего повышения точности опционально можно сначала отменить формантную структуру входного сигнала (как описано в разделе "Оценка изменения в области автокорреляция - моделирование формантной структуры"). Однако заметим, что, с точки зрения речевых сигналов затем мы получим оценку формы волны гортанного давления вместо речевого сигнала (формы волны речевого давления), и временная огибающая таким образом моделирует гортанное давление, что может или не может быть желаемым следствием, в зависимости от применения.

Моделирование в области автоковариации - Совместная оценка изменения шага и изменения огибающей

Так же, как и изменение огибающей оценивалось в предыдущем разделе, изменение шага может быть оценено непосредственно из одного окна автоковариации. Тем не менее в этом разделе мы покажем более общую проблему того, как совместно оценить изменение шага и изменение огибающей из одного окна автоковариации. Затем для всех, кто разбирается в данной области, будет легко модифицировать этот способ только для оценки изменения шага. Следует отметить, что не стоит использовать любую оконную обработку в области автоковариации. Например, достаточно вычислить параметры автоковариации, как указано в разделе под названием "Моделирование в области автоковариации - Обзор". Тем не менее, выражение «одно окно автоковариации» выражает то, что оценка автоковариации одной фиксированной части аудиосигнала может быть использована для оценки изменения, в отличие от автокорреляции, где оценка автокорреляции по крайней мере двух фиксированных частей аудиосигнала должна быть использована для оценки изменения. Использование одного окна автоковариации возможно, так как автоковариация на лаге +k и -k выражает, соответственно, шаги автоковариации k вперед и назад от заданного образца. Другими словами, так как характеристики сигнала эволюционируют с течением времени, автоковариация вперед и назад от образца будет отличаться, и эта разница в прямой и обратной автоковариации выражает величину изменения в характеристиках сигнала. Такая оценка не представляется возможной в области автокорреляции, поскольку область автокорреляции симметрична, то есть, автокорреляция вперед и назад идентичны.

Рассмотрим сигнал x(t)=a{t)f(b(t)), где амплитуда и изменение шага моделируются моделями первого порядка, при этом a(t)=a ₀e^ht и b(t)=b₀te^ct. Автоковариация Q_x(k) из x(t) в этом случае

$\begin{array}{l} Q_{x} (k, t) = E [x (t) x (t + k)] = a (t) a (t + k) E [f (b (t)) f (b (t + k))] \\ = a (t) a (t + k) Q_{f} (k, t) (13) \end{array}$

где Q_f(k, t) является автоковариацией из f(b(t)).

Используя уравнения 6, 10 и 13, получим производную по времени от Q_x(k, t) как

$[\frac{\partial Q_{x} (k, t)}{\partial t}] = (2 + c k) h Q_{x} (k, t) - c k [\frac{\partial Q_{x} (k, t)}{\partial k}]$ .

Однако это уравнение содержит произведение ch и, таким образом, не является линейной функцией от с и h. Для того чтобы способствовать эффективному решению параметров, можно предположить, что |ch| мала, в результате чего мы можем приблизить (аппроксимировать)

$[\frac{\partial Q_{x} (k, t)}{\partial t}] = 2 h Q_{x} (k, t) - c k [\frac{\partial Q_{x} (k, t)}{\partial k}]$ .

Как и прежде, мы можем определить q_k=Q_x(k, t) и сформировать оценку Тейлора первого порядка

${\overset{⌢}{q}}_{k} = q_{- k} + 2 h k q_{- k} + c k^{2} [\frac{\partial q_{- k}}{\partial k}]$ .

Квадрат разности между истинным значением q_k и оценкой Тейлора ${\overset{⌢}{q}}_{k}$ снова послужит в качестве нашей целевой функции при нахождении оптимальных (или, по крайней мере, приблизительно оптимальных) с и h. Получим задачу минимизации

$\min_{c, h} \sum_{k = - N}^{N} {[q_{k} - {\overset{⌢}{q}}_{k}]}^{2}$

решение которой может быть легко получено как

(14)

$[\begin{matrix} h \\ c \end{matrix}] = A^{- 1} u$

где

$A = [\begin{matrix} \sum_{k} 2 {[q_{- k}]}^{2} & \sum_{k} q_{- k} \frac{\partial q_{- k}}{\partial k} k^{3} \\ \sum_{k} 2 q_{- k} \frac{\partial q_{- k}}{\partial k} k^{3} & {\sum_{k} [\frac{\partial q_{- k}}{\partial k} k^{2}]}^{2} \end{matrix}]$

$u = [\begin{matrix} \sum_{k} [q_{k} - q_{- k}] q_{- k} k \\ \sum_{k} [q_{k} - q_{- k}] \frac{\partial q_{- k}}{\partial k} k^{2} \end{matrix}]$

Хотя формулы кажутся сложными, построение А и u может быть выполнено с помощью только операций для векторов длины 2N (лаг нуля можно опустить), и решение с и h можно выполнить с помощью инверсии 2x2 матрицы А. Вычислительная сложность, таким образом, только скромная O(N) (т.е. порядка N).

Применение совместной оценки изменения шага и изменения огибающей следует тому же подходу, который представлен в разделе под названием "Моделирование в области автоковариации - применение", но используя Уравнение 14 в шаге 2.

Моделирование в области автоковариации - дальнейшие концепции

Далее, различные подходы к моделированию области автоковариации будут кратко обсуждены со ссылкой на фиг.5. На фиг.5 показана блок-схема способа 500 для получения параметра, описывающего временное изменение сигнальной характеристики аудиосигнала, согласно одному из вариантов использования изобретения. Способ 500 включает в себя в качестве опционального шага 510 предварительную обработку аудиосигнала. Предварительная обработка аудиосигнала на шаге 510 может, например, включать фильтрацию аудиосигнала (например, низкочастотную фильтрацию) и/или сокращение/удаление формантной структуры, как описано выше. Способ 500 может дополнительно содержать шаг 520 получения первой информации автоковариации, описывающей автоковариацию аудиосигнала для первого интервала времени и для множества различных значений лага автоковариации к. Способ 500 может также включать в себя шаг 522 получения второй информации автоковариации, описывающей автоковариацию аудиосигнала для второго интервала времени и для различных значений лага автоковариации k. Кроме того, способ 500 может включать в себя шаг 530 оценивания для множества различных значений лага автоковариации к, разницы между первой информацией автоковариации и второй информацией автоковариации для получения информации о временном изменении.

Кроме того, способ 500 может включать в себя шаг 540 оценки "локального" (т.е. в окружении соответствующих значений лага) изменения информации автоковариации по лагу для множества различных значений лага, чтобы получить "информацию о локальном изменении лага".

Кроме того, способ 500 обычно может включать шаг 550 объединения информации о временном изменении и информации о локальном изменении q' из информации автоковариации по лагу (также именуемую «информация о локальном изменении лага») для получения модельного параметра.

При объединении информации о временном изменении и информации о локальном изменении q' из информации автоковариации по лагу, информация о временном изменении и/или информация о локальном изменении q' из информации автоковариации по лагу может масштабироваться в соответствии с соответствующим лагом автоковариации к, например, пропорционально к лагу автоковариации к или его мощности множества.

Кроме того, шаги 520, 522 и 530 могут быть заменены шагами 570, 580, как будет объяснено далее. На шаге 570 информация автоковариации, описывающая автоковариацию аудиосигнала для одного окна автоковариации, но для разных значений лага автоковариации k, может быть получена. Например, значение автоковариации Q(k, t)=q_k и информация автоковариации q_-k=Q(-k, t) могут быть получены.

Впоследствии, взвешенные различия, например, 2k(q_k-q_-k) и/или k²(q_k-q_-k), между значениями автоковариации, связанными с различными значениями лага (например, -k, +k), могут быть оценены для множества различных значений лага автоковариации k в шаге 580. Значения веса (например, 2k, k²) могут быть выбраны в зависимости от разницы значений лага соответствующих вычитанных значений автоковариации (например, разница в лаге между значениями автоковариации q_k, q_-k:k-(-k)=2k).

Подводя итог сказанному выше, существует много различных путей получения одного или нескольких требуемых модельных параметров в области автоковариации. В предпочтительных вариантах использования изобретения, одного окна автоковариации может быть достаточно, чтобы оценить один, или несколько параметров модели временного изменения. В этом случае различия между значениями автоковариации, связанными с различными значениями лага автоковариации, можно сравнить (например, вычесть). Кроме того, значения автоковариации для разных интервалов времени, но одинаковых значений лага автоковариации можно сравнить (например, вычесть), чтобы получить информацию о временном изменении. В обоих случаях, может быть введено взвешивание, которое учитывает разницу автоковариации или лаг автоковариации при выводе модельных параметров.

Моделирование в других областях

В дополнение к автокорреляции и автоковариации, описанную здесь концепцию можно сформулировать и в других областях, таких как спектр Фурье. При применении этого способа в области Ψ, он может включать в себя следующие шаги:

1. Преобразование сигнала времени в область Ψ.

2. Вычисление производной (ых) по времени в области Ψ, в такой форме, что параметры модели изменения присутствуют в явном виде.

3. Формирование приближения ряда Тейлора сигнала в области Ψ и минимизирование его соответствия к истинной эволюции времени, чтобы получить параметры модели изменения.

4. (Опционально) Расчет контура времени изменения сигнала.

В практическом применении применение изобретенной концепции может, например, включать преобразование сигнала в желаемой области и определение параметров приближения ряда Тейлора так, что модель, представленная приближением ряда Тейлора, корректируется, чтобы соответствовать фактической временной эволюции представления сигнала в области преобразования.

В некоторых вариантах использования изобретения область преобразования может быть тривиальной, то есть возможно применить модель непосредственно во временной области.

Как показано в предыдущих разделах, модель(и) изменения может быть, например, локально постоянной (ными), многочленной (ными) или иметь другую функциональную форму (ы).

Как было показано в предыдущих разделах, приближение ряда Тейлора может быть применено либо к последовательным окнам в одном окне или в сочетании внутри окон и к последовательным окнам.

Приближение ряда Тейлора может быть любого порядка, хотя модели первого порядка, как правило, более привлекательны, так как можно получить параметры для решения линейных уравнений. Более того, и другие способы приближения, известные в данной области, могут быть использованы.

Как правило, минимизации среднеквадратической ошибки (MMSE) является полезным критерием минимизации, так как можно получить параметры для решения линейных уравнений. Другие критерии минимизации могут быть использованы для повышения отказоустойчивости или когда параметры лучше интерпретируются в другой области минимизации.

Аппарат для кодирования аудиосигнала

Как уже упоминалось выше, изобретенная концепция может быть применена в аппарате для кодирования аудиосигнала. Например, изобретенная концепция является особенно полезной, когда требуется информация о временном изменении аудиосигнала для аудиокодера (или аудио декодера, или любого другого аппарата обработки аудио).

На фиг.6 показана блок-схема аудио кодера, в соответствии с вариантом осуществления изобретения. Аудио кодер, показанный на фиг.6, обозначается в полном объеме как 600. Аудио кодер 600 предназначен для приема представления 606 входного аудиосигнала (например, представления аудиосигнала во временной области), и для обеспечения на его основе кодированного представления 630 входного аудиосигнала. Аудио кодер 600 включает в себя, опционально, первый препроцессор аудиосигнала 610 и, также опционально, второй препроцессор аудиосигнала 612. Кроме того, аудио кодер 600 может включать в себя ядро кодера аудиосигнала 620, который может быть настроен для приема представления 606 входного аудиосигнала или его предварительно обработанной версии, предоставленного, например, первым препроцессором аудиосигнала 610. Ядро кодера аудиосигнала 620 далее настроено на прием параметра 622, описывающего временное изменение сигнальной характеристики аудиосигнала 606. Кроме того, ядро кодера аудиосигнала 620 может быть настроено для кодирования аудиосигнала 606 или его соответствующей предварительно обработанной версии, в соответствии с алгоритмом кодирования аудиосигнала с учетом параметра 622. Например, алгоритм кодирования ядра кодера аудиосигнала 620 может быть скорректирован, чтобы следовать за изменяющейся характеристикой (описанной параметром 622) входного аудиосигнала или чтобы компенсировать изменяющуюся характеристику входного аудиосигнала.

Таким образом, кодирование аудиосигнала выполняется сигнал-адаптивным образом с учетом временного изменения сигнальных характеристик.

Ядро кодера аудиосигнала 620 может, например, быть оптимизировано для кодирования музыкальных аудиосигналов (например, с помощью алгоритма кодирования частотной области). Кроме того, кодер аудиосигнала может быть оптимизирован для кодирования речи и, следовательно, может также рассматриваться как ядро кодера речи. Тем не менее ядро кодера аудиосигнала или ядро кодера речи естественно может также быть настроено, чтобы следовать так называемому «гибридному» подходу, демонстрируя хорошие показатели как для кодирования музыкальных сигналов, так и для речевых сигналов.

Например, ядро кодера аудиосигнала или ядро кодера речи 620 может составлять (или включать) ядро кодера искривления времени, тем самым используя параметр 622, описывающий временное изменение сигнальной характеристики (например, шага), в качестве параметра искривления.

Аудио кодер 600 может, следовательно, включать аппарат 100, как описано со ссылкой на фиг.1, который предназначен для приема входного аудиосигнала 606, или его предварительно обработанной версии (предоставленной опциональным препроцессором аудиосигнала 612) и на предоставление, на его основе, параметра информации 622, описывающего временное изменение сигнальной характеристики (например, шага) аудиосигнала 606.

Таким образом, аудио кодер 606 может быть настроен для использования любой из изобретенных концепций, описанных здесь, для получения параметра 622 на основе входного аудиосигнала 606.

Компьютерная реализация

В зависимости от определенных требований реализации воплощения изобретения могут быть реализованы в виде аппаратных средств или в программном обеспечении. Реализация может быть выполнена с помощью носителя цифровых данных, например дискеты, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные на нем электронно читаемые управляющие сигналы, которые сотрудничают (или способны работать вместе) с программируемой компьютерной системой так, что выполняется соответствующий способ.

Некоторые варианты осуществления изобретения содержат носитель данных, имеющий электронно читаемые управляющие сигналы, которые способны сотрудничать с программируемой компьютерной системой так, что выполняется один из способов, описанных здесь.

Как правило, варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с программным кодом, который (программный код) функционирует для выполнения одного из способов, когда компьютерный программный продукт работает на компьютере. Этот программный код, например, может быть сохранен на машиночитаемом носителе.

Другие варианты осуществления изобретения включают компьютерную программу для выполнения одного из способов, описанных здесь, хранящуюся на машиночитаемом носителе.

Иными словами, воплощением изобретенного способа является, таким образом, компьютерная программа, имеющая программный код для выполнения одного из способов, описанных здесь, когда компьютерная программа работает на компьютере.

Еще одним вариантом осуществления изобретенного способа является, таким образом, носитель информации (или носитель цифровых данных, или машиночитаемый носитель), включающий сохраненную на нем компьютерную программу для выполнения одного из способов, описанных в данном документе.

Еще одним вариантом осуществления изобретенного способа является, таким образом, поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в данном документе. Поток данных или последовательность сигналов могут, например, быть настроены для передачи через соединение передачи данных, например, через Интернет.

Еще один вариант осуществления изобретения включает в себя средства обработки, например компьютер или программируемое логическое устройство, настроенное или адаптированное для выполнения одного из способов, описанных в данном документе.

Еще один вариант осуществления изобретения включает в себя компьютер с установленной на нем компьютерной программой для выполнения одного из способов, описанных в данном документе.

В некоторых вариантах осуществления изобретения программируемое логическое устройство (например, поле программируемая логическая матрица) может быть использовано для выполнения некоторых или всех функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления изобретения поле программируемая логическая матрица может сотрудничать с микропроцессором для выполнения одного из способов, описанных в данном документе.

Заключение

Далее, изобретенная концепция будет кратко изложена со ссылкой на фиг.7, которая показывает блок-схему способа 700 в соответствии с вариантом осуществления изобретения. Способ 700 включает в себя шаг 710 расчета представления области преобразования входного сигнала, например входного аудиосигнала. Способ 700 дополнительно еще включает в себя шаг 730 минимизации ошибки моделирования модели, описывающей влияние изменения в области. Моделирование 720 влияния изменения в области преобразования может быть выполнено как часть способа 700, но также может быть выполнено как подготовительный шаг.

Тем не менее при минимизации ошибки моделирования на шаге 730, и представление области преобразования входного аудиосигнала, и модель, описывающая влияние изменения, могут быть приняты во внимание. Модель, описывающая влияние изменения, может быть использована в форме, описывающей оценку последующего представления в области преобразования в качестве явной функции от предыдущих (или последующих, или других) параметров фактической области преобразования, или в форме, описывающей оптимальные (или, по крайней мере, достаточно хорошие) параметры модели изменения в качестве явной функции от множества фактических параметров области преобразования (из представления области преобразования входного аудиосигнала).

Шаг 730 минимизации результатов ошибки моделирования в одном или нескольких модельных параметров, описывающих изменение величины.

Опциональный шаг 740 генерации результатов контура в описании контура сигнальной характеристика входного (аудио) сигнала.

Подведем итог, вышеописанные воплощения настоящего изобретения касаются одного из самых фундаментальных вопросов в обработке сигналов, а именно насколько изменяется сигнал?

В соответствии с настоящим изобретением варианты осуществления изобретения обеспечивают способ (и аппарат) для оценки изменения сигнальных характеристик, таких как изменение основной частоты или временной огибающей. Что касается изменения частоты, он не обращает внимания на скачки октав, устойчив к ошибкам в автокорреляции (или автоковариации), простой, но тем не менее эффективный и несмещенный.

В особенности воплощения настоящего изобретения включают в себя следующие возможности:

- Моделируется изменение сигнальных характеристик (например, входного аудиосигнала). С точки зрения изменения шага или временной огибающей, модель определяет (уточняет), как автокорреляция или автоковариация (или другое представление области преобразования) меняются со временем.

- Хотя сигнальные характеристики нельзя считать локально постоянными, изменение (которое может быть нормализовано в некоторых вариантах осуществления изобретения) в сигнальных характеристиках можно считать постоянными или следующими функциональной форме.

- Путем моделирования изменения сигнала его изменение (=время эволюции сигнальных характеристик) может быть смоделировано.

- Модель изменения сигнала (например, в явном или неявном функциональном представлении) подгоняется к наблюдениям (например, фактическим параметрам области преобразования, полученным путем преобразования входного аудиосигнала), сводя к минимуму ошибку моделирования, при этом параметры модели квантифицируют величину изменения.

- С точки зрения оценки изменения шага изменение оценивается непосредственно из сигнала без промежуточного шага оценки шага (например, оценки абсолютного значения шага).

- Путем моделирования изменения в шаге, влияние изменения может быть измерено с любого лага автокорреляции, а не только на кратных длины периода, что, таким образом, позволяет использовать все имеющиеся данные и тем самым получить высокий уровень надежности и стабильности.

- Хотя оценивание автокорреляции или автоковариации от нестационарного сигнала вводит смещение в оценки автокорреляции и ковариации, оценка изменения в данной работе будет по-прежнему несмещенной в некоторых вариантах воплощения.

- Когда ищутся фактические характеристики сигнала, а не только изменение характеристик, этот способ опционально обеспечивает точный и непрерывный контур, который может быть подогнан к оценкам сигнальных характеристик по контуру.

- В кодировании речи и аудио, представленный способ может быть использован в качестве входного время-искаженного MDCT так, что когда становятся известны изменения в шаге, их влияние может быть отменено путем временной деформации до применения MDCT. Это позволит уменьшить размытие частотных компонентов и тем самым улучшить энергию уплотнения.

- При оценке по автокорреляции, последовательные окна анализа могут быть использованы для получения временного изменения. При оценке по автоковариации, необходимо только одно окно для измерения временного изменения, но последовательные окна могут быть использованы, когда это необходимо.

- Совместное оценивание изменений шага и временной огибающей соответствует AM-FM анализу сигнала.

Далее будут кратко описаны некоторые варианты осуществления изобретения.

Согласно одному аспекту воплощение изобретения включает оценщик изменения сигнала. Оценщик изменения сигнала включает в себя моделирование изменения сигнала в области преобразования, моделирование временной эволюции сигнала в области преобразования, минимизацию ошибки модели с точки зрения подгонки к входному сигналу.

Согласно одному аспекту изобретения оценщик изменения сигнала оценивает изменение в области автокорреляции.

В соответствии с другим аспектом оценщик изменения сигнала оценивает изменение шага.

Согласно одному аспекту изобретения данное изобретение создает оценщик изменения шага, при этом модель изменения включает в себя:

- Модель для сдвига в лаге автокорреляции.

- Оценка производной лага автокорреляции $\frac{\partial R}{\partial k}$ .

- Модель соотношения (i.) производной по времени лага автокорреляции, (ii.) производной по времени лага автокорреляции и (iii.) производной лага автокорреляции.

- Оценка ряда Тейлора автокорреляции.

- MMSE оценка соответствия модели, что дает параметр(ы) изменения шага. Согласно одному аспекту изобретения оценщик изменения шага может быть

использован в сочетании с изменением шкалы времени модифицированного дискретного косинус преобразования (TW-MDCT, см. ссылку [3]) в кодировании речи и аудио в качестве входных данных (или для внесения данных) для преобразования шкалы времени модифицированного дискретного косинуса (TW-MDCT).

Согласно одному аспекту изобретения оценщик изменения сигнала оценивает изменение в области автоковариации.

В соответствии с другим аспектом оценщик изменения сигнала оценивает изменение временной огибающей.

Согласно одному аспекту изобретения оценщик изменения временной огибающей включает в себя модель изменения, модель изменения, включающую:

- Модель влияния изменения временной огибающей на автоковариацию как функция лага к.

- Оценка ряда Тейлора автоковариации.

- MMSE оценка соответствия модели, что дает параметр(ы) изменения огибающей.

Согласно одному аспекту изобретения влияние формантной структуры отменяется в оценщике изменения сигнала.

Согласно другому аспекту настоящее изобретение включает использование оценок изменения сигнала некоторых характеристик сигнала в качестве дополнительной информации для поиска точных и надежных оценок этой характеристики.

Подводя итог, воплощения настоящего изобретения используют модели изменения для анализа сигнала. В отличие от этого традиционные способы требуют оценки изменения шага в качестве входных данных их алгоритмов, но не обеспечивают способ для оценивания изменения.

Литература

[1] Y.Bistritz and S.Peller. Immittance spectral pairs (ISP) for speech encoding. In Proc. Acou Speech Signal Processing, ICASSP-93, Minneapolis, MN, USA, April 27-30 1993.

[2] A. de Cheveigne and H.Kawahara. YIN, a fundamental frequency estimator for speech and music. J Acoust Soc Am, 111 (4): 1917-1930, April 2002.

[3] B.Edler, S.Disch, R.Geiger, S.Bayer, U.Kramer, G.Fuchs, M.Neundorf, M.Multrus, G.Schuller und H.Popp. Audio processing using high-quality pitch correction. US Patent application 61/042,314, 2008.

[4] J.Herre and J.D.Johnston. Enhancing the performance of perceptual audio coders by using temporal noise shaping (TNS). In Proc AES Convention 101, Los Angeles, CA, USA, November 8-11 1996.

[5] A.Harma. Linear predictive coding with modified filter structures. IEEE Trans. Speech Audio Process., 9 (8): 769-777, November 2001.

[6] J.Makhoul. Linear prediction: A tutorial review. Proc. IEEE, 63 (4): 561-580, April 1975

[7] K.K.Paliwal. Interpolation properties of linear prediction parametric representations. In Proc Eurospeech '95, Madrid, Spain, September 18-21 1995.

[8] L.Villemoes. Time warped modified transform coding of audio signals. International Patent PCT/EP2006/010246, Published 10.05.2007.

[9] M.Wolfel and J.McDonough. Minimum variance distortionless response spectral estimation. IEEE Signal Process Mag., 22 (5): 117-126, September 2005.

Иллюстрации к изобретению RU 2 543 308 C2

Реферат патента 2015 года УСТРОЙСТВО, СПОСОБ И МАШИНОЧИТАЕМЫЙ НОСИТЕЛЬ ДЛЯ ПОЛУЧЕНИЯ ПАРАМЕТРА, ОПИСЫВАЮЩЕГО ИЗМЕНЕНИЕ ХАРАКТЕРИСТИКИ СИГНАЛА

Группа изобретений относится к средствам для анализа временных вариаций аудио сигналов. Технический результат заключается в создании средств, обладающих повышенной надежностью, для получения параметра, описывающего временные изменения сигнальной характеристики. Для этого предложено устройство для получения параметра, который описывает изменения сигнальной характеристики сигнала на основе фактических параметров области преобразования, описывающих аудиосигнал в области преобразования, которое включает определитель параметра. Определитель параметра предназначен для определения одного или нескольких модельных параметров модели изменения в области преобразования, описывающих эволюцию параметров области преобразования в зависимости от одного или нескольких модельных параметров, представляющих сигнальную характеристику, так, что модельная ошибка, представляющая собой отклонения между моделируемой временной эволюцией параметров в области преобразования и эволюцией фактических параметров области преобразования снижается ниже заданного порогового значения или сводится к минимуму. 13 н. и 14 з.п. ф-лы, 9 ил.

Формула изобретения RU 2 543 308 C2

1. Устройство (100) для получения одного или нескольких модельных параметров (140), описывающих изменение сигнальной характеристики аудиосигнала на основе фактических параметров области преобразования (120), из представления области преобразования сигнала, описывающего сигнал в области преобразования, содержащее определитель параметра (130), предназначенный для определения одного или нескольких модельных параметров (140) модели изменения в области преобразования (130а; 130с), модель изменения, описывающую эволюцию параметров области преобразования в зависимости от единственного или нескольких модельных параметров (140) так, что ошибка модели, представляющая собой отклонение смоделированной эволюции параметров области преобразования от эволюции фактических параметров области преобразования, приводится ниже заданного порогового значения или сводится к минимуму;
при этом устройство (100) предназначено для получения, в качестве фактических параметров области преобразования, первой информации области преобразования (R(k,h)), которая содержит первый набор параметров области преобразования и описывает аудиосигнал для первого временного интервала для множества различных значений переменной преобразования (k), и второй информации области преобразования (R(k,h+1)), описывающей аудиосигнал для второго временного интервала для различных значений переменной преобразования;
при этом определитель параметра (130) предназначен для проведения оценки, для множества различных значений переменной преобразования (k) временного изменения между первой информацией области преобразования и второй информацией области преобразования, для получения информации временного изменения,
для оценки локального изменения информации об области преобразования по переменной преобразования для множества различных значений переменной преобразования, для получения информации локального изменения и
для объединения информации временного изменения и информации локального изменения, чтобы получить параметр модели изменения частоты (140);
при этом определитель параметра (130) предназначен для получения параметра модели изменения частоты с помощью модели изменения области преобразования, включающей параметр модели изменения частоты и представляющей сжатие или расширение представления в области преобразования аудиосигнала по отношению к переменной преобразования (k) при условии плавного изменения частоты аудиосигнала;
при этом определитель параметра предназначен для определения параметра модели изменения частоты, так, что параметризованная модель изменения области преобразования адаптирована к первому набору параметров области преобразования и ко второму набору параметров области преобразования.

2. Устройство (100) по п.1, при этом устройство (100) предназначено для получения, в качестве фактических параметров области преобразования (120), первого набора параметров области преобразования (R(k,h)), описывающего первый временной интервал аудиосигнала в области преобразования для заданного набора значений переменной преобразования (k), и второго набора параметров области преобразования (R(k,h+1)), описывающего второй временной интервал аудиосигнала в области преобразования для заданного определенного набора значений переменной преобразования (k).

3. Устройство (100) по п.1, при этом устройство (100) предназначено для получения, в качестве фактических параметров области преобразования (120), параметров области преобразования, описывающих аудиосигнал в области преобразования как функцию от переменной преобразования (k),
при этом область преобразования выбрана так, чтобы частота транспозиции аудиосигнала приводила к по крайней мере сдвигу представления в области преобразования аудиосигнала по отношению к переменной преобразования, или к растяжению представления области преобразования по отношению к переменной преобразования, или к сжатию представления области преобразования по отношению к переменной преобразования,
при этом определитель параметра 130 предназначен для получения параметра модели изменения частоты ( ${\overset{⌢}{с}}_{h}$ ) на основании временного изменения R(k,h+1)-R(k,h) соответствующих фактических параметров области преобразования, принимая во внимание зависимость представления в области преобразования аудиосигнала от переменной преобразования (k).

4. Устройство (100) по п.1, при этом устройство (100) предназначено для получения, в качестве фактических параметров области преобразования, первой информации автокорреляции (R(k,h)), описывающей автокорреляцию аудиосигнала для первого временного интервала для множества различных значений лага автокорреляции (k), и второй информации автокорреляции (R(k,h+1)), описывающей автокорреляцию аудиосигнала для второго временного интервала для различных значений лага автокорреляции;
при этом определитель параметра (130) предназначен для проведения оценки, для множества различных значений лага автокорреляции (k) временного изменения между первой информацией автокорреляции и второй информацией автокорреляции, для получения информации временного изменения,
для оценки локального изменения автокорреляционной информации по лагу для множества различных значений лага, для получения информации о локальном изменении лага и
для объединения информации временного изменения и информации локального изменения, чтобы получить параметр модели.

5. Устройство (100) по п.4, при этом определитель параметра предназначен на вычисление расчетного параметра изменения ${\overset{⌢}{с}}_{h}$ , используя следующее уравнение:
$\hat{c_{h}} = \frac{\sum_{k = 1}^{N} [R (k, h + 1) - R (k, h)] k \frac{\partial}{\partial k} R (k, h)}{Δ t_{s t e p} \sum_{k = 1}^{N} k^{2} {[\frac{\partial}{\partial k} R (k, h)]}^{2}}$ ,
при этом
k обозначает текущую переменную, описывающую различные значения лага автокорреляции;
h обозначает первый временной интервал;
h+1 обозначает второй временной интервал;
N≥2 обозначает число значений лага автокорреляции, которые нужно оценить;
R(k,h) обозначает автокорреляцию аудиосигнала (х_n) для окна, обозначенного индексом h
R(k,h+1) обозначает автокорреляцию аудиосигнала х_n для окна, обозначенного индексом h+1; и
$\frac{\partial}{\partial k} R (k, h)$ обозначает изменение автокорреляции R(k,h) за лаг для окна, обозначенного индексом h, в окружении лага, обозначенного k.

6. Устройство (100) по п.1, при этом устройство предназначено для получения, в качестве фактических параметров области преобразования, первой информации автоковариации (Q(k,t)=q_k), описывающей автоковариацию аудиосигнала для первого временного интервала для множества различных значений лага автоковариации (k), и второй информации автоковариации (Q(-k,t)=Q(k,t-k)=q_-k), описывающей автоковариацию аудиосигнала для второго временного интервала (t-k) для множества различных значений лага автоковариации; и
при этом определитель параметра предназначен для проведения оценки, для множества различных значений лага автоковариации (k), изменения (q_k-q_-k) между первой информацией автоковариации и второй информацией автоковариации, для получения информации временного изменения,
для оценки локальной производной ( $\frac{\partial q_{k}}{\partial k}$ ) информации автоковариации по лагу для множества различных значений лага, для получения информации о локальном изменении лага и
для объединения информации временного изменения и информации локального изменения лага, чтобы получить модельный параметр (140).

7. Устройство (100) по п.1, при этом устройство (100) предназначено для получения информации автоковариации (Q(k,t)=q_k, Q(-k,t)=q_-k), описывающей автоковариацию аудиосигнала для одного окна автоковариации, но для различных значений лага автоковариации,
для оценки, для множества различных пар значений лага автоковариации (-k, k) взвешенных различий (k²(q_k-q_-k)) между парами значений автоковариации,
при этом вес выбирается в зависимости от разницы (2k) значений лага соответствующих пар значений лага и в зависимости от изменения ( $q_{- k}^{'}$ ) значений автоковариации за лаг,
для объединения значений различных взвешенных различий, чтобы получить значение объединения, и для получения модельных параметров на основе значения объединения.

8. Устройство (100) по п.1, при этом устройство (100) предназначено для получения параметра, описывающего временное изменения огибающей аудиосигнала,
при этом определитель параметра (130) предназначен для получения множества параметров области преобразования (R(0, t_h)), описывающих мощность сигнала аудиосигнала для множества временных интервалов,
при этом определитель параметра предназначен для получения параметра модели изменения огибающей с помощью представления параметризованной модели изменения в области преобразования, включающей параметр модели изменения огибающей и представляющей временное увеличение мощности или временное уменьшение мощности представления области преобразования аудиосигнала при условии плавного изменения огибающей аудиосигнала,
при этом определитель параметра предназначен для определения параметра модели изменения огибающей так, что параметризованная модель изменения области преобразования адаптирована к параметрам области преобразования (R(0,t_h)).

9. Устройство (100) по п.8, при этом определитель параметра (130) предназначен для получения множества параметров автокорреляции или параметров автоковариации для данного лага автокорреляции или лага автоковариации и при этом определитель параметра предназначен для определения множества полиномиальных параметров полиномиальной модели изменения огибающей.

10. Устройство по п.1, при этом устройство предназначено для получения параметров области автокорреляции, описывающих аудиосигнал в области автокорреляции, и
при этом определитель параметра (130) предназначен для определения одного или нескольких модельных параметров (140) от модели изменения области автокорреляции; или
при этом устройство предназначено для получения параметров области автоковариации, описывающих аудиосигнал в области автоковариации, и
при этом определитель параметра (130) предназначен для определения одного или нескольких модельных параметров модели изменения области автоковариации.

11. Устройство по п.1, при этом модель изменения в области преобразования описывает временное изменение шага аудиосигнала, или при этом модель изменения в области преобразования описывает временное изменение огибающей аудиосигнала, или при этом модель изменения в области преобразования описывает одновременное временное изменение шага и огибающей аудиосигнала.

12. Устройство (100) по п.1, при этом устройство содержит редуктор формантной структуры, настроенный на предварительную обработку входного аудиосигнала, чтобы получить формант-структурно-редуцированный аудиосигнал; и при этом устройство предназначено для получения фактического параметра области преобразования на основе формант-структурно-редуцированного аудиосигнала; при этом редуктор формантной структуры предназначен для оценки параметров модели линейного предсказания входного аудиосигнала на основе высокочастотной отфильтрованной версии входного аудиосигнала и для фильтрации широкополосной версии входного аудиосигнала на основе расчетных параметров модели линейного предсказания, для получения формант-структурно-редуцированного аудиосигнала такого, что формант-структурно-редуцированный аудиосигнал включает в себя низкочастотную характеристику.

13. Устройство по п.1, в котором определитель параметра предназначен для адаптации модели изменения области преобразования, описывающей временную эволюцию параметров области преобразования в зависимости от одного или нескольких модельных параметров, представляющих сигнальную характеристику, к сигналу, представленному фактическими параметрами области преобразования.

14. Устройство по п.1, в котором определитель параметра предназначен для проведения оценки, для множества различных значений переменной преобразования (k), различий между парами (R(k, h+1), R(k, h)) значений области преобразования для первого набора параметров области преобразования и для второго набора параметров области преобразования, связанных с одинаковыми значениями переменной преобразования, для получения информации временного изменения.

15. Устройство по п.1, в котором определитель параметра предназначен для использования всех имеющихся значений области преобразования (R(k, h+1), R(k, h)), при любом значении переменной преобразования, для получения информации временного изменения.

16. Способ получения одного или нескольких модельных параметров, описывающих изменение сигнальной характеристики аудиосигнала на основе фактических параметров области преобразования, описывающих аудиосигнал в преобразованной области, включающий:
определение одного или нескольких модельных параметров (140) модели изменения в области преобразования, модели изменения, описывающей эволюцию параметров области преобразования в зависимости от единственного одного или нескольких модельных параметров так, что ошибка модели, представляющая собой отклонение смоделированной временной эволюции параметров области преобразования от эволюции фактических параметров области преобразования, приводится ниже заданного порогового значения или сводится к минимуму;
при этом первая информация области преобразования, содержащая первый набор параметров области преобразования и описывающая аудиосигнал для первого временного интервала для множества различных значений переменной преобразования, и вторая информация области преобразования, содержащая второй набор параметров области преобразования и описывающая аудиосигнал для второго временного интервала для различных значений переменной преобразования, получаются как фактические параметры области преобразования;
при этом временное изменение между первой информацией области преобразования и второй информацией области преобразования оценивается для множества различных значений переменной преобразования (k), чтобы получить информацию временного изменения,
при этом локальное изменение информации области преобразования по переменной преобразования оценивается для множества различных значений переменной преобразования, чтобы получить информацию локального изменения;
при этом информация временного изменения и информация локального изменения объединяются, чтобы получить параметр модели изменения частоты;
при этом параметр модели изменения частоты получается с помощью модели изменения области преобразования, включающей параметр модели изменения частоты и представляющей сжатие или расширение представления в области преобразования аудиосигнала по отношению к переменной преобразования (k) при условии плавного изменения частоты аудиосигнала; и
при этом параметр модели изменения частоты определяется так, что параметризованная модель изменения области преобразования адаптирована к первому набору параметров области преобразования и ко второму набору параметров области преобразования.

17. Устройство (100) для получения одного или нескольких модельных параметров (140), описывающих изменение сигнальной характеристики аудиосигнала на основе фактических параметров области преобразования (120), из представления области преобразования аудиосигнала, описывающего аудиосигнал в области преобразования, аппарат содержит:
определитель параметра (130), предназначенный для определения одного или нескольких модельных параметров модели изменения в области преобразования (130а; 130с), модель изменения, описывающая эволюцию параметров области преобразования в зависимости от единственного одного или нескольких модельных параметров (140) так, что ошибка модели, представляющая собой отклонение смоделированной эволюции параметров области преобразования от эволюции фактических параметров области преобразования, приводится ниже заданного порогового значения или сводится к минимуму;
при этом устройство (100) предназначено для получения информации автоковариации (Q(k,t)=q_k, Q(-k,t)=q_-k), описывающей автоковариацию аудиосигнала для одного окна автоковариации, но для различных значений лага автоковариации,
для оценки, для множества различных пар значений лага автоковариации (-k, k), взвешенных различий (k²(q_k-q_-k)) между парами значений автоковариации,
при этом вес выбирается в зависимости от разницы (2k) значений лага соответствующих пар значений лага и в зависимости от изменения ( $q_{- k}^{'}$ ) значений автоковариации за лаг,
для объединения значений различных взвешенных различий, чтобы получить значение объединения, и
для получения модельных параметров (140) на основе значения объединения.

18. Способ для получения одного или нескольких модельных параметров (140), описывающих изменение сигнальной характеристики аудиосигнала на основе фактических параметров области преобразования из представления области преобразования аудиосигнала, описывающего аудиосигнал в области преобразования, способ включает:
определение одного или нескольких модельных параметров модели изменения в области преобразования, модель изменения области преобразования, описывающую эволюцию параметров области преобразования в зависимости от единственного одного или нескольких модельных параметров (140) так, что ошибка модели, представляющая собой отклонение смоделированной временной эволюции параметров области преобразования от эволюции фактических параметров области преобразования, приводится ниже заданного порогового значения или сводится к минимуму;
при этом информация автоковариации, описывающая автоковариацию аудиосигнала для одного окна автоковариации, но для разных значений лага автоковариации получается,
при этом взвешенные различия между парами значений автоковариации оцениваются для множества различных пар значений лага автоковариации (-k, k),
при этом вес выбирается в зависимости от разницы (2k) значений лага соответствующих пар значений лага и в зависимости от изменения ( $q_{- k}^{'}$ ) значений автоковариации за лаг,
при этом различные взвешенные различия значений объединяются, чтобы получить значение объединения; и
при этом один или несколько параметров модели (140) получаются на основе значения объединения.

19. Устройство (100) для получения одного или нескольких модельных параметров (140), описывающих изменение сигнальной характеристики аудиосигнала на основе фактических параметров области преобразования (120), из представления области преобразования аудиосигнала, описывающего аудиосигнал в области преобразования, аппарат содержит:
определитель параметра (130), предназначенный для определения одного или нескольких модельных параметров модели изменения в области преобразования (130а; 130с), модель изменения, описывающую эволюцию параметров области преобразования в зависимости от единственного или нескольких модельных параметров (140) так, что ошибка модели, представляющая собой отклонение смоделированной эволюции параметров области преобразования от эволюции фактических параметров области преобразования, приводится ниже заданного порогового значения или сводится к минимуму;
при этом устройство (100) предназначено для получения модельного параметра (140), описывающего временное изменение огибающей аудиосигнала,
при этом определитель параметра (130) предназначен для получения множества параметров области преобразования (R(0,t_h)), описывающих мощность сигнала аудиосигнала для множества временных интервалов,
при этом определитель параметра предназначен для получения параметра модели изменения огибающей с помощью представления параметризованной модели изменения в области преобразования, включающей параметр модели изменения огибающей и представляющей временное увеличение мощности или временное уменьшение мощности представления области преобразования аудиосигнала при условии плавного изменения огибающей аудиосигнала, и
при этом определитель параметра предназначен для определения параметра модели изменения огибающей так, что параметризованная модель изменения области преобразования адаптирована к параметрам области преобразования (R(0,t_h)); и
при этом определитель параметра (130) предназначен для получения множества параметров автокорреляции или параметров автоковариации для данного лага автокорреляции или лага автоковариации, и
при этом определитель параметра предназначен для определения множества полиномиальных параметров полиномиальной модели изменения огибающей.

20. Способ для получения одного или нескольких модельных параметров, описывающих изменение сигнальной характеристики аудиосигнала на основе фактических параметров области преобразования из представления области преобразования аудиосигнала, описывающего аудиосигнал в области преобразования, способ включает:
определение одного или нескольких модельных параметров модели изменения в области преобразования, модели изменения, описывающей эволюцию параметров области преобразования в зависимости от единственного одного или нескольких модельных параметров (140) так, что ошибка модели, представляющая собой отклонение смоделированной временной эволюции параметров области преобразования от эволюции фактических параметров области преобразования, приводится ниже заданного порогового значения или сводится к минимуму;
при этом множество параметров области преобразования, описывающих мощность сигнала аудиосигнала для множества временных интервалов, получается;
при этом множество полиномиальных параметров полиномиальной модели изменения огибающей определяется,
при этом параметры модели изменения огибающей получаются с помощью представления параметризованной модели изменения в области преобразования, включающей параметры модели изменения огибающей и представляющей временное увеличение мощности или временное уменьшение мощности представления области преобразования аудиосигнала при условии плавного изменения огибающей аудиосигнала, и
при этом параметры модели изменения огибающей определяются так, что параметризованная модель изменения области преобразования адаптируется к параметрам области преобразования,
при этом множество параметров автокорреляции или параметров автоковариации получаются для данного лага автокорреляции или лага автоковариации.

21. Устройство (100) для получения одного или нескольких модельных параметров (140), описывающих изменение сигнальной характеристики аудиосигнала на основе фактических параметров области преобразования (120), из представления области преобразования аудиосигнала, описывающего аудиосигнал в области преобразования, аппарат содержит:
определитель параметра (130), предназначенный для определения одного или нескольких модельных параметров модели изменения в области преобразования (130а; 130с), модель изменения, описывающая эволюцию параметров области преобразования в зависимости от одного или нескольких модельных параметров (140) так, что ошибка модели, представляющая собой отклонение смоделированной эволюции параметров области преобразования от эволюции фактических параметров области преобразования, приводится ниже заданного порогового значения или сводится к минимуму;
при этом аппарат содержит редуктор формантной структуры, настроенный на предварительную обработку входного аудиосигнала, чтобы получить формант-структурно-редуцированный аудиосигнал;
при этом аппарат предназначен для получения фактического параметра области преобразования на основе формант-структурно-редуцированного аудиосигнала;
при этом редуктор формантной структуры предназначен для оценки параметров модели линейного предсказания входного аудиосигнала на основе высокочастотной отфильтрованной версии входного аудиосигнала, и
для фильтрации широкополосной версии входного аудиосигнала на основе расчетных параметров модели линейного предсказания,
для получения формант-структурно-редуцированного аудиосигнала такого, что формант-структурно-редуцированный аудиосигнал включает в себя низкочастотную характеристику.

22. Способ для получения одного или нескольких модельных параметров, описывающих изменение сигнальной характеристики аудиосигнала на основе фактических параметров области преобразования из представления области преобразования аудиосигнала, описывающего аудиосигнал в области преобразования, способ включает:
определение одного или нескольких модельных параметров модели изменения в области преобразования, модели изменения, описывающей эволюцию параметров области преобразования в зависимости от одного или нескольких модельных параметров так, что ошибка модели, представляющая собой отклонение смоделированной временной эволюции параметров области преобразования от эволюции фактических параметров области преобразования, приводится ниже заданного порогового значения или сводится к минимуму;
при этом входной аудио предварительно обрабатывается для получения формант-структурно-редуцированного аудиосигнала;
при этом фактический параметр области преобразования получается на основе формант-структурно-редуцированного аудиосигнала;
при этом параметры модели линейного предсказания входного аудиосигнала оцениваются на основе высокочастотной отфильтрованной версии входного аудиосигнала;
при этом широкополосная версия входного аудиосигнала фильтруется на основе расчетных параметров модели линейного предсказания,
для получения формант-структурно-редуцированного аудиосигнала такого, что формант-структурно-редуцированный аудиосигнал включает в себя низкочастотную характеристику.

23. Машиночитаемый носитель информации с хранящейся на нем компьютерной программой для осуществления способа по п.16, когда компьютерная программа запускается на компьютере.

24. Машиночитаемый носитель информации с хранящейся на нем компьютерной программой для осуществления способа по п.18, когда компьютерная программа запускается на компьютере.

25. Машиночитаемый носитель информации с хранящейся на нем компьютерной программой для осуществления способа по п.20, когда компьютерная программа запускается на компьютере.

26. Машиночитаемый носитель информации с хранящейся на нем компьютерной программой для осуществления способа по п.22, когда компьютерная программа запускается на компьютере.

27. Аудиокодер с искажением времени для кодирования входного аудиосигнала с временным искажением, включающий:
аппарат (100) для получения параметра, описывающего временное изменение сигнальной характеристики аудиосигнала, по одному из пп.1, 17, 19, 21,
при этом аппарат для получения параметра предназначен для получения параметра изменения шага, описывающего временное изменение входных аудиосигналов; и
искажающий время сигнальный процессор, настроенный на выполнение искажающей время дискретизации входного аудиосигнала с помощью параметра изменения шага для корректировки искажения времени.

Документы, цитированные в отчете о поиске Патент 2015 года RU2543308C2

СПОСОБ ПОЛУЧЕНИЯ ОКТАХЛОРЦИКЛОПЕНТЕНА	0		SU303312A1
СПОСОБ СЖАТИЯ РЕЧЕВОГО СИГНАЛА ПУТЕМ КОДИРОВАНИЯ С ПЕРЕМЕННОЙ СКОРОСТЬЮ И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ, КОДЕР И ДЕКОДЕР	1993	Пол Э.Джейкобс[Us] Уильям Р.Гарднер[Us] Чонг Ю.Ли[Us] Клайн С.Гилхаузен[Us] Кэтрин С.Лэм[Us] Минг-Чанг Цай[Us]	RU2107951C1
СПОСОБ МОДИФИКАЦИИ СИГНАЛА ДЛЯ ЭФФЕКТИВНОГО КОДИРОВАНИЯ РЕЧЕВЫХ СИГНАЛОВ	2002	Тамми Микко Елинек Милан Ляфлямм Клод Руоппила Веса	RU2302665C2
Кантовочная лебедка для открытия и закрытия газовых клапанов и перекидки клапанов воздуха, и продуктов горения коксовых печей	1931	Заславский П.В.	SU27259A1

RU 2 543 308 C2

Авторы

Бэкстрем Том

Байер Стефан

Гайгер Ральф

Нойендорф Макс

Диш Саша

Даты

2015-02-27—Публикация

2010-01-11—Подача

название	год	авторы	номер документа
КОДЕР, ДЕКОДЕР И СПОСОБ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ	2015	Бякстрем Том Фишер Йоханнес Хельмрих Кристиан	RU2662407C2
ОСНОВАННОЕ НА ЛИНЕЙНОМ ПРЕДСКАЗАНИИ КОДИРОВАНИЕ АУДИО С ИСПОЛЬЗОВАНИЕМ УЛУЧШЕННОЙ ОЦЕНКИ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ	2013	Бякстрем Том Хельмрих Кристиан Фукс Гийом Мултрус Маркус Дитц Мартин	RU2651187C2
СПОСОБ И УСТРОЙСТВО ДЛЯ РАСШИРЕНИЯ ШИРИНЫ ПОЛОСЫ АУДИОСИГНАЛА	2008	Рамабадран Тенкаси В. Джейсук Марк А.	RU2447415C2
СПОСОБ ВЗВЕШЕННОГО СЛОЖЕНИЯ С ПЕРЕКРЫТИЕМ	2006	Андерсен Сёрен Ванг	RU2405217C2
СПОСОБ ГЕНЕРАЦИИ КАДРОВ МАСКИРОВАНИЯ В СИСТЕМЕ СВЯЗИ	2006	Андерсен Сёрен Ванг	RU2407071C2
СПОСОБ РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ РЕЧИ С АДАПТАЦИЕЙ К ДИКТОРУ	1994	Сорокин Виктор Николаевич	RU2047912C1
МОДУЛЬ ОЦЕНКИ ПОДОБИЯ АУДИОСИГНАЛОВ, АУДИОКОДЕР, СПОСОБЫ И КОМПЬЮТЕРНАЯ ПРОГРАММА	2019	Диш, Саша Ван Дер Пар, Стивен Нидермайер, Андреас Бурдьель Перес, Элена Эдлер, Бернд	RU2782981C2
СПОСОБ КОНКАТЕНАЦИИ КАДРОВ В СИСТЕМЕ СВЯЗИ	2006	Андерсен Сёрен Ванг	RU2417457C2
УСТРОЙСТВО ДЛЯ КОДИРОВАНИЯ РЕЧЕВОГО СИГНАЛА С ИСПОЛЬЗОВАНИЕМ ACELP В АВТОКОРРЕЛЯЦИОННОЙ ОБЛАСТИ	2013	Бякстрем Том Мультрус Маркус Фукс Гийом Хельмрих Кристиан Дитц Мартин	RU2636126C2
ИНТЕГРАЛЬНОЕ ПАРАМЕТРИЧЕСКОЕ АУДИОКОДИРОВАНИЕ ДЛЯ КАЖДОЙ ПОЛОСЫ ЧАСТОТ	2022	Маркович, Горан	RU2834366C2