ОЦЕНКА ПЕРИОДА ОСНОВНОГО ТОНА Российский патент 2011 года по МПК G10L11/04 

Описание патента на изобретение RU2421826C2

ОБЛАСТЬ ТЕХНИКИ

Настоящее изобретение относится к оценке периода основного тона в аудиосигналах.

УРОВЕНЬ ТЕХНИКИ

Основной тон - это фундаментальная частота речевого сигнала. Это один из ключевых параметров в кодировании и обработке речи. Приложения, использующие определение основного тона, включают: улучшение речи, автоматическое распознавание и интерпретацию речи, анализ и моделирование просодии, а также кодирование речи, в частности низкоскоростное кодирование речи. Надежность определения основного тона часто является определяющим фактором для общего качества всей системы.

Обычно речевые кодеки обрабатывают речь сегментами по 10-30 мс. Эти сегменты называются кадрами. Для различных целей кадры часто далее разделяются на сегменты, имеющие длину 5-10 мс, называемые субкадрами.

Высота основного тона прямо связана с периодом основного тона, который является продолжительностью периода сигнала на фундаментальной частоте. Период основного тона может быть определен, например, с помощью автокорреляционных вычислений на сегменте аудиосигнала. В этих автокорреляционных вычислениях выборки исходного сегмента аудиосигнала перемножаются с выровненными выборками того же сегмента аудиосигнала, которые задержаны на соответствующее значение. Сумма произведений, полученная на выборках с определенной относительной задержкой, является величиной корреляции. Наибольшая величина корреляции будет при задержке, соответствующей периоду основного тона. Период основного тона также называется задержкой основного тона.

Перед определением наибольшей величины корреляции из множества таких величин они могут быть подвергнуты предварительной обработке для увеличения точности результата. Диапазон используемых задержек может также быть разделен на секции, и величины корреляции могут быть определены для задержек во всех или некоторых из этих секций. Автокорреляционные вычисления могут различаться между секциями, например, по числу используемых выборок. Кроме того, секционирование может быть использовано при предварительной обработке, применяемой к величинам корреляции перед определением наибольшей величины корреляции.

Трек основного тона - это последовательность вычисленных периодов основного тона для последовательности сегментов аудиосигнала.

Структура реализуемой системы аудиообработки устанавливает требования для определения основного тона. Сложность и требования к задержке часто являются жесткими, особенно для решений кодирования разговорной речи. Кроме того, точность оценки основного тона и стабильность трека основного тона - важная проблема во многих системах аудиообработки.

Точная оценка основного тона является сложной задачей. Несложный метод определения основного тона может дать в основном весьма надежную оценку основного тона, и такой метод часто неспособен обеспечить стабильное отслеживание основного тона; весьма эффективная оценка основного тона может быть достигнута сложными методами, но они часто генерируют треки основного тона, которые не совсем оптимальны в используемой структуре и/или дают слишком большую задержку для разговорных приложений.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Данное изобретение предназначено для улучшения традиционных принципов оценок основного тона.

Предлагаемый способ включает определение первых автокорреляционных величин для сегмента аудиосигнала. Первый рассматриваемый диапазон задержки делится на первый набор секций, и первые автокорреляционные величины определяются для задержек в множестве секций этого первого набора секций. Способ также содержит определение вторых автокорреляционных величин для сегмента аудиосигнала. Второй рассматриваемый диапазон задержки делится на второй набор секций таким образом, что секции первого набора и секции второго набора перекрываются. Вторые автокорреляционные величины определяются для задержек в множестве секций этого второго набора секций. Этот способ также содержит предоставление вычисленных первых автокорреляционных величин и вычисленных вторых автокорреляционных величин для оценки периода основного тона в сегменте аудиосигнала.

Предлагаемое устройство содержит коррелятор. Коррелятор сконфигурирован для определения первых автокорреляционных величин для сегмента аудиосигнала, где первый рассматриваемый диапазон задержки делится на первый набор секций, и первые автокорреляционные величины определяются для задержек в множестве секций этого первого набора секций. Коррелятор также сконфигурирован для определения вторых автокорреляционных величин для указанного сегмента аудиосигнала, где второй рассматриваемый диапазон задержки делится на второй набор секций таким образом, что секции первого набора и секции второго набора перекрываются, и вторые автокорреляционные величины определяются для задержек в множестве секций этого второго набора секций. Коррелятор также сконфигурирован для предоставления вычисленных первых автокорреляционных величин и вычисленных вторых автокорреляционных величин для оценки периода основного тона в сегменте аудиосигнала.

Устройство может быть, например, анализатором основного тона (например, анализатором основного тона с разомкнутой петлей обратной связи), аудиокодером или объектом, содержащим аудиокодер.

Заметим, что коррелятор и другие опциональные компоненты устройства могут быть реализованы аппаратно и/или программно. При аппаратной реализации устройство может быть, например, чипом или набором чипов (например, интегральной схемой). При программной реализации компоненты могут быть модулями компьютерного программного кода. В этом случае устройство также может быть, например, памятью, хранящей компьютерный программный код.

Кроме того, предлагается устройство, которое содержит описанное выше устройство и дополнительно компонент для ввода аудиоданных.

Это устройство может быть, например, беспроводным терминалом или базовой станцией беспроводной сети связи, а также практически любым другим устройством, выполняющим аудиообработку, для которой требуется оценка основного тона. Компонент для ввода аудиоданных может быть, например, микрофоном или интерфейсом к другому устройству, обеспечивающему аудиоданные.

Кроме того, предлагается система, которая содержит аудиокодер, включающий предложенное устройство, и аудиодекодер.

Наконец, предлагается компьютерное программное изделие, в котором программный код хранится на читаемом компьютером носителе. Программный код реализует предлагаемый способ при выполнении этого кода процессором.

Компьютерное программное изделие может быть, например, отдельным устройством памяти, или памятью, которая интегрирована в электронное устройство.

Данное изобретение включает также компьютерный программный код, независимый от компьютерного программного изделия и читаемого компьютером носителя.

Данное изобретение исходит из того, что секционирование диапазона задержки при автокорреляционных вычислениях, применяемых к сегментам аудиосигнала, может не только давать преимущества при оценке основного тона, но и вносит разрывы на границах между секциями. Поэтому предлагается обеспечить два параллельных набора секций диапазона задержки с определением автокорреляционных величин для задержек в секциях обоих наборов. Если секции одного набора перекрываются с секциями другого набора, то область разрыва между секциями в одном наборе всегда покрывается секцией другого набора.

Как результат, может быть достигнута улучшенная точность оценки основного тона и улучшенная стабильность отслеживания основного тона. Улучшенная характеристика оценки основного тона также повышает общее качество всей обработки, для которой применяется оценка основного тона.

Данное изобретение может быть использовано в рамках различных принципов оценок основного тона. Несмотря на то что нужно определять больше корреляционных величин, чем в существующих принципах оценок основного тона, использующих подобное секционирование без перекрытия, многие вычисления могут быть использованы повторно (в силу принципа перекрытий секций), и в результате увеличение сложности может оставаться минимальным.

Данное изобретение может быть использовано, например, в новом аудиокодеке или для улучшения существующего аудиокодека, например, известного кодека CELP (линейное предсказание с кодовым возбуждением). В речевых кодерах CELP оценка основного тона обычно выполняется в 2 этапа: анализ с разомкнутой петлей обратной связи для поиска области корректного основного тона и анализ с замкнутой петлей для выбора оптимального индекса адаптивной кодовой книги в области оценки с разомкнутой петлей. Данное изобретение подходит, например, для обеспечения улучшения анализа с разомкнутой петлей в таком речевом кодере CELP.

В примере реализации аудиосигнал делится на последовательность кадров, и каждый кадр далее делится на первый полукадр и второй полукадр. Первый полукадр может быть первым сегментом аудиосигнала, для которого определяют первые и вторые автокорреляционные величины, в то время как второй полукадр может быть вторым сегментом аудиосигнала, для которого также определяют первые и вторые автокорреляционные величины. В дополнение первый полукадр последующего кадра может быть третьим сегментом аудиосигнала, для которого могут быть определены первые и вторые автокорреляционные величины. Первый полукадр последующего кадра функционирует как кадр предпросмотра для текущего кадра.

Первый набор секций и второй набор секций могут содержать любое подходящее количество секций. Число секций в обоих наборах может быть одинаковым или различным. Далее диапазон задержки, охватываемый обоими наборами, может быть одинаковым или несколько различным. Кроме того, автокорреляционные величины могут быть определены для каждой секции набора либо только для некоторых секций набора. В некоторых ситуациях, например, при очень высоких фундаментальных частотах, соотносящихся с секцией с минимальными задержками, это может быть некритично для качества системы. В примере осуществления оба набора содержат четыре секции, и автокорреляционные величины определяются для задержек по меньшей мере в трех секциях каждого набора секций.

В примере осуществления изобретения выбирается сильнейшая из получаемых автокорреляционных величин в каждой секции каждого набора. Ассоциированные задержки могут затем быть приняты в качестве выбранных кандидатов для периода основного тона.

Перед выбором сильнейшей автокорреляционной величины в каждой секции каждого набора секций автокорреляционные величины могут быть усилены на базе периодов основного тона, оцененных для предыдущих кадров.

После выбора сильнейшей автокорреляционной величины в каждой секции каждого набора секций выбранные автокорреляционные величины могут быть усилены на базе обнаружения повторений (кратных значений) периода основного тона в соответствующем наборе секций. Диапазон задержки может быть разделен так, чтобы секция не содержала повторений периода основного тона. То есть наибольшая задержка в секции будет меньше, чем удвоенная наименьшая задержка в этой же секции. Это гарантирует, что повторения периода основного тона могут быть найдены только между данной и последующей секцией.

После выбора сильнейшей автокорреляционной величины в каждой секции каждого набора секций и опционально - перед некоторой дальнейшей обработкой выбранных автокорреляционных величин или после нее, выбранные автокорреляционные величины, стабильные между сегментами аудиосигнала, могут быть усилены. Сегменты, считающиеся стабильными, могут быть двумя последовательными сегментами, а также двумя сегментами, имеющими один или более других сегментов между ними. Стабильность может рассматриваться, например, среди сегментов в некотором кадре и в кадре предпросмотра. Автокорреляционные величины, которые стабильны в одной и той же секции среди сегментов аудиосигнала, могут быть усилены больше, чем автокорреляционные величины, которые стабильны в различных секциях среди сегментов аудиосигнала.

Такое посекционное усиление стабильности увеличивает стабильность выходного сигнала без включения в трек некорректных кандидатов для периода основного тона.

Стабильность среди сегментов может быть определена, например, путем определения когерентности между соответствующей парой автокорреляционных величин в двух сегментах. То есть наличие стабильности может быть принято в том случае, если эти величины отличаются одна от другой меньше, чем на заранее заданное значение.

В случае если автокорреляционные величины определяются на базе различного количества выборок для различных секций, или, по-другому, для различных задержек, может быть целесообразным нормализовать величины прямо перед любым сравнением автокорреляций, ассоциированных с различными секциями или задержками, соответственно.

Нужно отметить, что признаки и этапы всех представленных вариантов осуществления могут быть скомбинированы любым подходящим способом.

Далее нужно отметить, что аспект посекционного усиления может быть также реализован независимо от использования двух наборов секций для автокорреляционных вычислений.

Это может быть выполнено способом, содержащим определение автокорреляционных величин для сегмента аудиосигнала, где определенный диапазон задержки разделяется на секции, и автокорреляционные величины определяются для задержек в множестве этих секций; выбор из получаемых автокорреляционных величин сильнейшей автокорреляционной величины в каждой секции; усиление выбранных автокорреляционных величин, которые являются стабильными среди сегментов аудиосигнала, где автокорреляционные величины, стабильные в одинаковой секции среди сегментов аудиосигнала усиливают больше, чем автокорреляционные величины, стабильные в различных секциях среди сегментов аудиосигнала; и предоставление получаемых автокорреляционных величин для оценки периода основного тона в сегменте аудиосигнала.

Соответствующее компьютерное программное изделие может хранить программный код, осуществляющий этот способ при исполнении процессором. Соответствующие устройства и система могут содержать коррелятор, сконфигурированный для выполнения таких автокорреляционных вычислений, или средство для выполнения таких автокорреляционных вычислений; компонент для выбора, сконфигурированный для выполнения такого выбора, или средство для выполнения такого выбора; и компонент для усиления, сконфигурированный для выполнения такого усиления и для предоставления получаемых автокорреляционных величин, или средство для выполнения такого усиления и для предоставления получаемых автокорреляционных величин.

Другие цели и признаки настоящего изобретения станут понятными из следующего подробного описания вместе с соответствующими чертежами. Понятно, однако, что эти чертежи приведены исключительно для иллюстративных целей, а не для определения границ данного изобретения, описанного в прилагаемой формуле изобретения. Также понятно, что чертежи не выполнены в масштабе и предназначены для концептуальной иллюстрации описанных здесь структур и процедур.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Фиг.1 - схематическая блок-схема системы в соответствии с примером осуществления данного изобретения;

Фиг.2 - схематическая блок-схема, иллюстрирующая пример кодера в системе на фиг.1;

Фиг.3 - блок-схема, иллюстрирующая функционирование кодера на фиг.2;

Фиг.4 - схема, иллюстрирующая перекрывающиеся секции и посекционный выбор периода основного тона, использующийся кодером на фиг.2;

Фиг.5 - графики, представляющие сравнение между характеристиками стандартизованной оценки основного тона VMR-WB и оценки основного тона, использующегося в варианте осуществления данного изобретения; и

Фиг.6 - схематическая блок-схема устройства в соответствии с примером осуществления данного изобретения.

ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

Хотя данное изобретение может быть реализовано с помощью различных структур, первый вариант осуществления данного изобретения будет представлен путем примера улучшения кодирования речи, определенного в стандарте 3GPP2 C.S0052-0, версия 1.0: "Source-Controlled Variable-Rate Multimode Wideband Speech Codec (VMR-WB), Service Option 62 for Spread Spectrum Systems", 11 июня 2004 г. Техника кодирования, реализованная в соответствии с этим стандартом на полной или половинной скорости кадров, основана на кодировании Алгебраический CELP (ACELP).

Фиг.1 - схематическая блок-схема системы, позволяющей обеспечить улучшенное отслеживание основного тона в соответствии с первым вариантом осуществления данного изобретения. В контексте настоящего документа отслеживание основного тона относится преимущественно к принципу определения основного тона, который обеспечивает более надежные оценки основного тона путем комбинирования временной информации основного тона для последовательных сегментов аудиосигнала. Однако для облегчения некоторых методов кодирования и для устранения артефактов также желателен набор оценок основного тона с результатом в виде стабильного общего трека основного тона во время вокализованной речи.

Система содержит первое электронное устройство 110 и второе электронное устройство 120. Одним из устройств 110, 120 может быть, например, беспроводной терминал, а другое устройство 120, 110 может быть, например, базовой станцией беспроводной сети связи, которая может быть доступна через беспроводной терминал посредством радиоинтерфейса. Такая беспроводная сеть связи может быть, например, мобильной сетью связи, но также беспроводной локальной сетью (WLAN) и т.д. Соответственно, такой беспроводной терминал может быть, например, мобильным терминалом, а также любым устройством, подходящим для доступа к WLAN и т.п.

Первое электронное устройство 110 содержит источник 111 аудиоданных, который связан посредством кодера 112 с передающим компонентом (ТХ) 114. Понятно, что указанные соединения могут быть осуществлены посредством различных других (не показанных) элементов.

Если первое электронное устройство 110 является беспроводным терминалом, то источник 111 аудиоданных может быть, например, микрофоном, позволяющим пользователю вводить аналоговый аудиосигнал. В этом случае источник 111 аудиоданных может быть связан с кодером 112 посредством обрабатывающих компонентов, включающих аналого-цифровой преобразователь. Если первое электронное устройство 110 является базовой станцией, источник 111 аудиоданных может быть, например, интерфейсом к другим сетевым компонентам беспроводной сети связи, обеспечивающим цифровые аудиосигналы; в обоих случаях источник 111 аудиоданных может быть также памятью, хранящей цифровые аудиосигналы.

Кодер 112 может быть схемой, которая реализована в интегральной схеме (IC) 113. Другие компоненты, например декодер, аналого-цифровой преобразователь или цифроаналоговый преобразователь и т.д., могут быть реализованы в той же интегральной схеме 113.

Второе электронное устройство 120 содержит приемный компонент (RX) 121, который связан посредством декодера 122 с приемником 123 аудиоданных. Понятно, что указанные соединения могут быть осуществлены посредством различных других (не показанных) элементов.

Если второе электронное устройство 120 является беспроводным терминалом, то приемник 123 аудиоданных может быть, например, громкоговорителем, выводящим аналоговый аудиосигнал. В этом случае декодер 122 может быть связан с приемником 123 аудиоданных посредством обрабатывающих компонентов, включающих цифроаналоговый преобразователь. Если второе электронное устройство 120 является базовой станцией, то приемник 123 аудиоданных может быть, например, интерфейсом к другим сетевым компонентам беспроводной сети связи, которым перенаправляется цифровой аудиосигнал. В обоих случаях приемник 123 аудиоданных может быть также памятью, хранящей цифровые аудиосигналы.

Фиг.2 - схематическая блок-схема, представляющая детали кодера 112 первого электронного устройства 110.

Кодер 112 содержит первый блок 210, объединяющий различные компоненты, которые в этом документе не рассматриваются подробно.

Первый блок 210 связан с анализатором 220 основного тона с разомкнутой петлей обратной связи, который сконфигурирован в соответствии с вариантом осуществления данного изобретения. Анализатор 220 основного тона с разомкнутой петлей содержит коррелятор 221, компонент 222 усиления и выбора, компонент 223 усиления и селектор 224 периода основного тона.

Анализатор 220 основного тона с разомкнутой петлей, кроме того, связан со следующим блоком 230, объединяющим различные компоненты, которые в этом документе также не рассматриваются подробно.

Компоненты первого блока 210 также связаны непосредственно с компонентами следующего блока 230.

Кодер 112, интегральная схема 113 или анализатор 220 основного тона с разомкнутой петлей могут рассматриваться как примеры устройств, выполненных в соответствии с изобретением, и первое электронное устройство 110 может быть рассмотрено как пример устройства, выполненного в соответствии с изобретением.

Работа системы на фиг.1 будет теперь описана со ссылкой на фиг.3. Фиг.3 - блок-схема, показывающая работу анализатора 220 основного тона с разомкнутой петлей в составе кодера 112 первого электронного устройства 110.

Когда базовая станция (действующая как первое электронное устройство 110) принимает из беспроводной сети связи цифровой аудиосигнал посредством интерфейса (действующего как источник 111 аудиоданных) для передачи к беспроводному терминалу (действующему как второе электронное устройство 120), она предоставляет цифровой аудиосигнал кодеру 112. Подобным же образом, когда беспроводной терминал (действующий как первое электронное устройство 110) принимает входные аудиоданные посредством микрофона (действующего как источник 111 аудиоданных) для передачи поставщику услуг или другому беспроводному терминалу (действующему как второе электронное устройство 120), он преобразует аналоговый аудиосигнал в цифровой аудиосигнал и предоставляет цифровой аудиосигнал кодеру 112.

Компоненты первого блока 210 обеспечивают предварительную обработку принятого цифрового аудиосигнала, включая преобразование частоты дискретизации, высокочастотную фильтрацию и спектральную коррекцию. Компоненты первого блока 210 также выполняют спектральный анализ, который вычисляет энергию в критических полосах дважды за кадр. Кроме того, эти компоненты осуществляют обнаружение голосовой активности (VAD), уменьшение шума и анализ с линейным предсказанием (LP), с результатом в виде коэффициентов фильтра для синтеза с линейным предсказанием (LP). Дополнительно выполняется перцептуальное взвешивание путем фильтрации цифрового аудиосигнала фильтром перцептуального взвешивания, полученного по коэффициентам фильтра для синтеза с линейным предсказанием (LP), с получением взвешенного речевого сигнала. Подробности этих этапов обработки могут быть найдены в вышеуказанном стандарте C.S0052-0.

Первый блок 210 предоставляет взвешенный речевой сигнал и другую информацию для анализатора 220 основного тона с разомкнутой петлей.

Анализатор 220 основного тона с разомкнутой петлей выполняет анализ основного тона с разомкнутой петлей для взвешенного сигнала, децимированного (прореженного) в 2 раза (этапы 301-310). В этом анализе основного тона с разомкнутой петлей анализатор 220 основного тона вычисляет 3 оценки периода основного тона для каждого кадра, одну оценку в каждом полукадре текущего кадра и одну оценку в первом полукадре следующего кадра, который используется как кадр предпросмотра. Эти три полукадра соответствуют соответствующему сегменту аудиосигнала в настоящем варианте осуществления данного изобретения.

В соответствии со стандартом C.S0052-0 диапазон задержек основного тона (децимированный в 2 раза) разделяется на четыре секции [10, 16], [17, 31], [32, 61] и [62, 115], и корреляционные величины определяются для каждого из трех полукадров по меньшей мере для задержек в последних трех секциях.

Анализ основного тона с разомкнутой петлей в настоящем изобретении отличается тем, что диапазон задержек основного тона разделяется на четыре секции дважды, и эти секции перекрываются. Таким образом, область разрыва между секциями в одном наборе всегда покрывается секцией из другого набора. Первый набор секций может содержать, например, те же секции, которые определены в стандарте C.S0052-0, обозначенные [10, 16], [17, 31], [32, 61] и [62, 115]. Второй набор секций может содержать, например, секции [12, 21], [22, 40], [41, 77] и [78, 115]. Понятно, что оба набора могут быть основаны на разной сегментации.

Двойная сегментация диапазона задержек основного тона показана на фиг.4. Секционирование, используемое для первого полукадра, представлено с левой стороны, секционирование, используемое для второго полукадра, представлено в центре, а секционирование, используемое для кадра предпросмотра, представлено с правой стороны. Одинаковое секционирование используется для каждого из трех полукадров.

Первый набор из четырех секций S1-1, S2-1, S3-1, основанный на стандарте C.S0052-0, представлен для каждого полукадра четырьмя прямоугольниками, размещенными один над другим. Второй набор из четырех секций S1-2, S2-2, S3-2 представлен для каждого полукадра четырьмя прямоугольниками, также размещенными один над другим. Для целей иллюстрации соответствующий второй набор S1-2, S2-2, S3-2 немного сдвинут вправо по сравнению с соответствующим первым набором S1-1, S2-1, S3-1. Задержка, охватываемая секциями, увеличивается снизу вверх. Можно видеть, что секции в соответствующем первом наборе S1-1, S2-1, S3-1 и соответствующем втором наборе S1-2, S2-2, S3-2 имеют разные границы, и, таким образом, секции перекрываются.

В стандарте C.S0052-0 секции выбраны так, что они не могут содержать повторений (кратных значений) периода основного тона. Если этот принцип предотвращения потенциальных повторений периода основного тона в любой секции соблюдается для обоих наборов секций настоящего варианта осуществления изобретения, то секции в одном из наборов не будут покрывать все кандидатуры значений задержки основного тона. Более конкретно, в одном из наборов секция с наименьшими задержками не будет покрывать те задержки, которые соответствуют наивысшим частотам основного тона, которые способен найти оцениватель. В представленном выше примере второго набора, например, наименьшие задержки в 10 и 11 выборок не покрываются первой секцией. Тестирование показало, однако, что это искусственное ограничение не влияет на характеристики системы. Более того, также возможно преодолеть это ограничение путем добавления одной секции ко второму набору секций, для охвата также наивысших частот основного тона. Однако в случае стандарта C.S0052-0 или любого подобного метода, добавочная секция во втором наборе секций требует адаптации своего диапазона задержек для решения об использовании секции с минимальной задержкой.

В анализаторе 220 основного тона с разомкнутой петлей коррелятор принимает взвешенные выборки сигнала и применяет автокорреляционные вычисления отдельно для каждого из двух полукадров одного кадра и для кадра предпросмотра. То есть эти выборки каждого полукадра умножаются на задержанные выборки того же входного сигнала, и результаты умножений суммируются для получения корреляционной величины. Задержанные выборки могут быть, например, из того же полукадра, из предыдущего полукадра, или даже из предпредыдущего полукадра, или из комбинации всех этих кадров. В дополнение диапазон корреляции может включать также некоторые выборки из последующего полукадра.

Задержки для автокорреляционных вычислений по каждому полукадру с одной стороны выбирают из второй, третьей и четвертой секции первого набора секций S1-1, S2-1, S3-1 (этап 301).

Задержки для автокорреляционных вычислений по каждому полукадру с другой стороны выбирают из второй, третьей и четвертой секции второго набора секций S1-2, S2-2, S3-2 (этап 302).

В специальных случаях может быть учтена также первая секция каждого набора.

Корреляционные величины могут быть вычислены для каждого набора секций, например, согласно уравнению, приведенному в стандарте C.S0052-0. Здесь корреляционная величина вычисляется для каждой задержки в соответствующей секции по формуле:

где Swd(n) - взвешенный децимированный речевой сигнал, d - различные задержки в секции, C(d) - корреляция при задержке d, и Lsec - предел суммирования, который может зависеть от секции, к которой относится задержка.

Поскольку корреляционная величина определяется в двух наборах секций, общее число получающихся корреляционных величин C(d) почти в 2 раза больше, чем число корреляционных величин C(d), получающихся в соответствии со стандартом C.S0052-0.

Далее компонент 222 селекции и усиления выполняет первое усиление корреляционных величин для каждого набора секций каждого полукадра. При первом усилении корреляционные величины взвешиваются для корректировки корреляционных величин, соответствующих задержкам, близким к периодам основного тона, определенным для предыдущего кадра (этап 303). Далее для каждой секции каждого набора выбирается максимум из взвешенных корреляционных величин, и ассоциированные задержки идентифицируются как кандидаты на период основного тона. Кроме того, выбранные корреляционные величины нормализуются для компенсации различных пределов суммирования Lsec, которые могут быть использованы в автокорреляционных вычислениях для различных секций. Примеры подробностей взвешивания, выбора и нормализации для одного набора секций могут быть взяты из стандарта C.S0052-0.

Оставшаяся обработка выполняется с использованием только нормализованных корреляционных величин.

На фиг.4 восемнадцать выбранных корреляционных величин показаны точками (черными и белыми) на ассоциированных (приведены в качестве примера) позициях задержки, с одной корреляционной величиной для каждой второй, третьей и четвертой секции в обоих наборах секций каждого полукадра.

Например, для первого набора первого полукадра корреляционная величина С1-1-2 остается для второй секции, корреляционная величина С1-1-3 остается для третьей секции и корреляционная величина С1-1-4 остается для четвертой секции. Для второго набора первого полукадра величина С1-2-2 остается для второй секции, корреляционная величина С1-2-3 остается для третьей секции и корреляционная величина С1-2-4 остается для четвертой секции и т.д.

Число выбранных корреляционных величин в 2 раза больше, чем число корреляционных величин, остающихся на этом этапе в соответствии со стандартом C.S0052-0.

Далее компонент 222 селекции и усиления выполняет второе усиление корреляционных величин для каждого полукадра для устранения выбора кратных значений периода основного тона (этап 304). При этом втором усилении выбранные корреляционные величины, ассоциированные с задержкой в нижней секции, дополнительно корректируются, если есть кратное значение этой задержки по соседству с задержкой, ассоциированной с выбранной корреляционной величиной в верхней секции того же набора секций. Примеры подробностей такого усиления для одного набора секций могут быть взяты из стандарта C.S0052-0.

Компонент 223 усиления выполняет третье усиление корреляционных величин, которое отличается от третьего усиления, определенного в стандарте C.S0052-0.

Стандарт C.S0052-0 определяет, что если корреляционная величина в одном полукадре имеет когерентную корреляционную величину в любой секции другого полукадра, то она усиливается.

Корреляционные величины двух полукадров считаются когерентными, если выполняется следующее условие:

(max_value < 1.4 min_value)AND((max_value - min_value) < 14)

где max_value и min_value означают максимум и минимум двух корреляционных величин соответственно.

Проблема, возникающая при таком подходе, - потенциальная возможность выбора второго наилучшего трека для текущего кадра, когда этот наилучший трек пересекает границу секции. Поскольку пересечение может вызвать разрыв одного из треков, это может привести к усилению и, таким образом, выбору некорректной корреляционной величины.

Компонент 223 усиления на фиг.2, напротив, корректирует выбранную корреляционную величину посекционно для усиления кандидатов на задержку основного тона, что дает наиболее стабильное отслеживание основного тона для текущего кадра.

Если рассматриваемая корреляционная величина в секции одного полукадра когерентна с максимальной корреляционной величиной того же набора в другом полукадре, и эта максимальная корреляционная величина относится к той же секции, что и рассматриваемая корреляционная величина, то эта рассматриваемая корреляционная величина значительно усиливается (этапы 305, 306). Если рассматриваемая корреляционная величина в секции одного полукадра когерентна с максимальной корреляционной величиной того же набора в другом полукадре, и эта максимальная корреляционная величина относится к другой секции, чем рассматриваемая корреляционная величина, или если рассматриваемая корреляционная величина когерентна с максимальной корреляционной величиной другого набора в другом полукадре, то эта рассматриваемая корреляционная величина усиливается незначительно (этапы 305, 307, 308). Кандидаты, не имеющие когерентности с максимальной корреляционной величиной либо в том же наборе, либо в другом наборе другого полукадра, не усиливаются (этапы 305, 307, 309).

Посекционное измерение стабильности, таким образом, применяет большее усиление для тех соседних кандидатов, которые лежат в той же секции, что и сильнейшие кандидаты каждого полукадра, в то время как более умеренное усиление применяется к тем кандидатам, которые находятся в других секциях. Таким путем все соседние кандидаты, показывающие стабильность по отношению к сильнейшему кандидату, получают положительный вес для финального выбора, и гарантируется, что больший вес дается тем кандидатам, которые полагаются приемлемыми, чем тем кандидатам, которые потенциально некорректны.

Точки на фиг.4 представляют все выбранные корреляционные величины, а белые точки означают наивысшие корреляционные величины в каждом наборе каждого полукадра после третьего усиления. В первом полукадре такими являются, например, корреляционные величины С1-1-2 для первого набора S1-1 и корреляционные величины С1-2-2 для второго набора S2-1.

Без посекционной схемы обеспечения стабильности наивысшие корреляционные величины могут быть в некоторых случаях корреляционной величиной, ассоциированной с субоптимальной задержкой (с точки зрения стабильного трека основного тона), как, например корреляционная величина С3-1-2 в первом наборе S3-1 кадра предпросмотра. Напротив, когда используется посекционная схема обеспечения стабильности, оптимальный период основного тона, ассоциированный с корреляционной величиной С3-1-3 в первом наборе S3-1 кадра предпросмотра, имеет больше шансов быть выбранным.

Окончательно селектор 224 периода основного тона выбирает для каждого полукадра максимальную корреляционную величину из всех секций в обоих наборах секций (этап 310). Селектор 224 периода основного тона обеспечивает три задержки, ассоциированные с тремя финальными корреляционными величинами, как финальные периоды основного тона для второго блока 230. Эти три финальных периода основного тона формируют трек основного тона для текущего кадра.

Компоненты второго блока 230 выполняют оценку шума и обеспечивают соответствующую обратную связь к первому блоку 210. Кроме того, они производят модификацию сигнала, которая модифицирует исходный сигнал для упрощения голосовых типов кодирования и которая содержит собственный классификатор для классификации таких кадров, которые подходят для голосового кодирования на половинной скорости. Компоненты второго блока 230 также выполняют выбор скорости с определением других техник кодирования. Кроме того, эти компоненты обрабатывают активную речь в петле субкадра, используя соответствующую технику кодирования. Эта обработка содержит анализ основного тона с замкнутой петлей обратной связи, который использует периоды основного тона, определенные в вышеописанном анализе основного тона с разомкнутой петлей. Компоненты второго блока 230 выполняют также генерацию комфортного шума. Результаты речевого кодирования и генерации комфортного шума обеспечиваются как выходной битовый поток кодера 112.

Выходной битовый поток может быть передан посредством радиоинтерфейса компонентом 114 передачи второму электронному устройству 120. Приемный компонент 121 второго электронного устройства 120 принимает битовый поток и предоставляет его декодеру 122. Декодер 122 декодирует битовый поток и предоставляет получаемый декодируемый аудиосигнал приемнику 123 аудиоданных для воспроизведения, передачи или хранения.

По сравнению с методом стандарта C.S0052-0 использование перекрывающихся секций в корреляционных вычислениях и посекционных вычислений стабильности в настоящем варианте осуществления данного изобретения дает улучшенную точность и стабильность трека основного тона в некоторых проблемных речевых сегментах. Это в свою очередь дает увеличение выходного качества речи.

Фиг.5 представляет сравнение между оценкой основного тона VMR-WB по стандарту C.S0052-0 без представленных модификаций и с таковыми модификациями.

Первый график в верхней части фиг.5 показывает пример входного речевого сигнала в пяти кадрах. Второй график в середине фиг.5 показывает трек периода основного тона, получающийся при оценке основного тона VMR-WB по стандарту C.S0052-0, примененной к показанному входному речевому сигналу. В большинстве случаев оценка основного тона VMR-WB имеет очень хорошие характеристики. В некоторых ситуациях, однако, трек основного тона VMR-WB может быть нестабильным, например, как во втором полукадре кадра 2 и первом полукадре кадра 3. Третий график внизу фиг.5 показывает трек периода основного тона, получающийся при вышеописанной модификации оценки основного тона VMR-WB применительно к показанному входному речевому сигналу. Можно видеть, что модифицированная оценка основного тона VMR-WB подходит для обеспечения надежного и стабильного отслеживания основного тона также во многих случаях, когда оценка основного тона VMR-WB по стандарту C.S0052-0 дает некорректный результат.

Подобный эффект можно ожидать и при использовании данного изобретения вместе с некоторыми другими типами оценок основного тона, отличными от стандарта C.S0052-0.

Функции, проиллюстрированные с помощью коррелятора 221, также можно рассматривать как средства для определения первых автокорреляционных величин для сегмента аудиосигнала, где первый рассматриваемый диапазон задержек разделяется на первый набор секций и первые автокорреляционные величины определяются для задержек в множестве секций первого набора секций. Функции, проиллюстрированные с помощью коррелятора 221, также можно рассматривать как средства для определения вторых автокорреляционных величин для сегмента аудиосигнала, где второй рассматриваемый диапазон задержек разделяется на второй набор секций так, что секции первого набора и секции второго набора перекрываются, а вторые автокорреляционные величины определяются для задержек в множестве секций второго набора секций. Функции, проиллюстрированные с помощью коррелятора 221, также можно рассматривать как средства для предоставления вычисленных первых автокорреляционных величин и вычисленных вторых автокорреляционных величин для оценки периода основного тона в сегменте аудиосигнала.

Функции, проиллюстрированные с помощью компонента 222 селекции и усиления, также можно рассматривать как средства для выбора из вычисленных автокорреляционных величин сильнейшей автокорреляционной величины в каждой секции каждого набора секций.

Функции, проиллюстрированные с помощью компонента 223 усиления, также можно рассматривать как средства для усиления выбранных автокорреляционных величин, которые стабильны среди сегментов аудиосигнала, где автокорреляционные величины, которые стабильны в одинаковой секции среди сегментов аудиосигнала, усиливаются больше, чем автокорреляционные величины, которые стабильны в различных секциях среди сегментов аудиосигнала.

Фиг.6 - схематическая блок-схема устройства 600 в соответствии с другим вариантом осуществления данного изобретения.

Устройство 600 может быть, например, мобильным телефоном. Оно содержит микрофон 611, который связан посредством аналого-цифрового преобразователя (ADC) 612 с процессором 631. Процессор 631 далее связан посредством цифроаналогового преобразователя (DAC) 621 с громкоговорителем 622. Процессор 631 далее связан с приемопередатчиком (RX/TX) 6342 и памятью 633. Ясно, что указанные соединения могут быть выполнены посредством других, не показанных, элементов.

Процессор 631 сконфигурирован для выполнения компьютерного программного кода. Память 633 содержит часть 634 для хранения компьютерного программного кода и часть 635 для хранения данных. Хранящийся компьютерный программный код содержит код кодирования и код декодирования. Процессор 631 может, например, извлекать компьютерный программный код для исполнения из памяти 633 по мере необходимости. Понятно, что для выполнения также доступен различный другой компьютерный программный код, например, операционный программный код и программный код для различных приложений.

Хранящийся программный код кодирования или процессор 631 в комбинации с памятью может рассматриваться как пример устройства в соответствии с данным изобретением. Память 633 также может рассматриваться как пример компьютерного программного изделия в соответствии с данным изобретением.

Когда пользователь выбирает функцию мобильного телефона 600, которая требует кодирования входных аудиоданных, приложение, обеспечивающее эту функцию, вызывает извлечение процессором 631 кода кодирования из памяти 633.

Теперь, когда пользователь вводит аналоговый аудиосигнал, например речь, посредством микрофона 611, аналоговый аудиосигнал преобразуется аналого-цифровым преобразователем 612 в цифровой речевой сигнал и предоставляется процессору 631. Процессор 631 выполняет извлеченное программное обеспечение кодирования цифрового речевого сигнала. Кодированный речевой сигнал либо сохраняется в части 635 хранения данных памяти 633 для более позднего использования, либо передается приемопередатчиком 632 к базовой станции мобильной сети связи.

Кодирование также может быть основано на кодеке VMR-WB стандарта C.S0052-0 с такими же модификациями, как описано для первого варианта осуществления. В этом случае обработка, показанная на фиг.3, выполняется исполняемым компьютерным программным кодом, а не схемным путем. Альтернативно кодирование может быть основано на некоторых других принципах кодирования, улучшенных с использованием корреляции на базе по меньшей мере двух наборов перекрывающихся секций и/или посекционного усиления.

Процессор 631 может также извлекать программное обеспечение декодирования из памяти 633 и исполнять его для декодирования кодированного речевого сигнала, который либо принят посредством приемопередатчика 632, либо извлечен из части 635 для хранения данных памяти 633.

Декодированный цифровой речевой сигнал затем преобразуется цифроаналоговым преобразователем 621 в аналоговый аудиосигнал и выводится пользователю посредством громкоговорителя 622. Альтернативно декодированный цифровой речевой сигнал может быть сохранен в части 635 для хранения данных памяти 633.

Таким образом, перекрывающиеся секции в представленных вариантах осуществления изобретения гарантируют, что наилучшие треки всегда будут включены в одну секцию, а затем посекционное усиление стабильности в представленных вариантах осуществления соответствующим образом влияет на эти треки.

Хотя здесь были показаны, описаны и указаны фундаментальные новые возможности данного изобретения применительно к предпочтительным вариантам его осуществления, понятно, что специалистами могут быть выполнены различные упрощения, замены и изменения в форме и подробностях описанных устройств и способов без выхода за рамки данного изобретения. Например, понятно, что все комбинации элементов и/или этапов способа, которые выполняют по существу те же функции по существу тем же путем для достижения тех же результатов, находятся в рамках данного изобретения. Более того, нужно заметить, что структуры и/или элементы, и/или этапы способа, показанные и/или описанные вместе с любой представленной формой или вариантом осуществления данного изобретения, могут быть реализованы в любой другой представленной, описанной или предложенной форме или варианте осуществления по выбору разработчика. Поэтому изобретение ограничено только прилагаемой формулой изобретения. Кроме того, пункты формулы изобретения, сформулированные как «средство-плюс-функция», предназначены охватывать также структуры, описанные здесь и выполняющие перечисленные функции, и не только структурные эквиваленты, но и эквивалентные структуры.

Похожие патенты RU2421826C2

название год авторы номер документа
ВЫБОР ЗАДЕРЖКИ ОСНОВНОГО ТОНА 2018
  • Равелли, Эммануэль
  • Дитц, Мартин
  • Шнабель, Михаэль
  • Триттарт, Артур
  • Чекалинский, Александр
RU2742739C1
УСТРОЙСТВО И СПОСОБ ДЛЯ ВЫБОРА ОДНОГО ИЗ ПЕРВОГО АЛГОРИТМА КОДИРОВАНИЯ АУДИО И ВТОРОГО АЛГОРИТМА КОДИРОВАНИЯ АУДИО 2014
  • Равелли Эммануэль
  • Дела Штефан
  • Фукс Гийом
  • Фотопоулоу Элени
  • Хельмрих Кристиан
RU2618848C2
КОДИРОВАНИЕ И ДЕКОДИРОВАНИЕ АУДИОСИГНАЛОВ 2015
  • Чоэрлинг Кристофер
  • Грёшель Александер
  • Пурнхаген Хейко
  • Хёрих Хольгер
  • Краусс Курт
RU2708942C2
ЗАВИСЯЩЕЕ ОТ ГАРМОНИЧНОСТИ УПРАВЛЕНИЕ ИНСТРУМЕНТОМ ФИЛЬТРАЦИИ ГАРМОНИК 2015
  • Хельмрих Кристиан
  • Равелли Эммануэль
  • Яндер Мануэль
  • Дела Штефан
  • Маркович Горан
RU2691243C2
УСТРОЙСТВО И СПОСОБ ВЫБОРА ОДНОГО ИЗ ПЕРВОГО АЛГОРИТМА КОДИРОВАНИЯ И ВТОРОГО АЛГОРИТМА КОДИРОВАНИЯ С ИСПОЛЬЗОВАНИЕМ УМЕНЬШЕНИЯ ГАРМОНИК 2015
  • Равелли, Эммануэль
  • Мультрус, Маркус
  • Дела, Штефан
  • Грилл, Бернхард
  • Яндер, Мануэль
RU2632151C2
ОБНАРУЖЕНИЕ АКТИВНОСТИ СЛОЖНОГО СИГНАЛА ДЛЯ УСОВЕРШЕНСТВОВАННОЙ КЛАССИФИКАЦИИ РЕЧИ/ШУМА В АУДИОСИГНАЛЕ 1999
  • Сведберг Йонас
  • Экудден Эрик
  • Увлиден Андерс
  • Йоханссон Ингемар
RU2251750C2
КОДИРОВАНИЕ И ДЕКОДИРОВАНИЕ АУДИОСИГНАЛОВ 2018
  • Равелли, Эммануэль
  • Томасек, Адриан
  • Лутцки, Манфред
  • Бенндорф, Конрад
RU2741518C1
УСТРОЙСТВО И СПОСОБ ДЛЯ ОБРАБОТКИ ЗВУКОВОГО СИГНАЛА С ИСПОЛЬЗОВАНИЕМ ГАРМОНИЧЕСКОГО ПОСТФИЛЬТРА 2015
  • Равелли Эммануэль
  • Хельмрих Кристиан
  • Маркович Горан
  • Нойзингер Маттиас
  • Диш Саша
  • Яндер Мануэль
  • Дитц Мартин
RU2665259C1
КОДИРОВАНИЕ СИГНАЛА С ИСПОЛЬЗОВАНИЕМ КОДИРОВАНИЯ С РЕГУЛЯРИЗАЦИЕЙ ОСНОВНЫХ ТОНОВ И БЕЗ РЕГУЛЯРИЗАЦИИ ОСНОВНЫХ ТОНОВ 2011
  • Раджендран Вивек
  • Кандхадаи Анантападманабхан А.
  • Кришнан Венкатеш
RU2470384C1
СПОСОБ И УСТРОЙСТВО ДЛЯ УПРАВЛЕНИЯ МАСКИРОВКОЙ ПОТЕРИ АУДИОКАДРОВ 2014
  • Брун Стефан
  • Сведберг Йонас
RU2628144C2

Иллюстрации к изобретению RU 2 421 826 C2

Реферат патента 2011 года ОЦЕНКА ПЕРИОДА ОСНОВНОГО ТОНА

Изобретение относится к оценке периода основного тона в аудиосигналах. Автокорреляционные величины определяют как основу для оценки периода основного тона в сегменте аудиосигнала. Первый рассматриваемый диапазон задержки для автокорреляционных вычислений делят на первый набор секций, и первые автокорреляционные величины определяют для задержек в множестве секций этого первого набора секций. Второй рассматриваемый диапазон задержки для автокорреляционных вычислений делят на второй набор секций таким образом, что секции первого набора и секции второго набора перекрываются. Вторые автокорреляционные величины определяют для задержек в множестве секций этого второго набора секций. Технический результат - обеспечение эффективности оценки основного тона аудиосигнала. 5 н. и 26 з.п. ф-лы, 6 ил.

Формула изобретения RU 2 421 826 C2

1. Способ предоставления информации для оценки периода основного тона, содержащий
определение первых автокорреляционных величин для сегмента аудиосигнала, при этом первый рассматриваемый диапазон задержки делят на первый набор секций, и указанные первые автокорреляционные величины определяют для задержек в множестве секций указанного первого набора секций;
определение вторых автокорреляционных величин для указанного сегмента аудиосигнала, при этом второй рассматриваемый диапазон задержки делят на второй набор секций таким образом, что секции указанного первого набора и секции указанного второго набора перекрываются, и указанные вторые автокорреляционные величины определяют для задержек в множестве секций указанного второго набора секций; и
предоставление указанных определенных первых автокорреляционных величин и указанных определенных вторых автокорреляционных величин для оценки периода основного тона в указанном сегменте указанного аудиосигнала.

2. Способ по п.1, в котором указанный аудиосигнал делится на последовательность кадров, при этом кадр далее делится на первый полукадр и второй полукадр, и для кадра первые и вторые автокорреляционные величины определяют отдельно для указанного первого полукадра указанного кадра, как первого сегмента указанного аудиосигнала, для указанного второго полукадра указанного кадра, как второго сегмента указанного аудиосигнала, и для первого полукадра последующего кадра, как третьего сегмента указанного аудиосигнала.

3. Способ по п.1, в котором каждый указанный первый набор секций и указанный второй набор секций содержит по четыре секции, и указанные автокорреляционные величины определяют для задержек, по меньшей мере, в трех секциях из каждого набора секций.

4. Способ по п.1, в котором указанные секции в указанном первом наборе секций и в указанном втором наборе секций выбирают так, что секция не содержит повторений периодов основного тона.

5. Способ по п.1, также содержащий выбор из указанных предоставленных автокорреляционных величин сильнейшей автокорреляционной величины в каждой секции каждого набора секций.

6. Способ по п.5, также содержащий усиление автокорреляционных величин на базе периодов основного тона, оцененных для предыдущих кадров, перед выбором сильнейшей автокорреляционной величины в каждой секции каждого набора секций.

7. Способ по п.5, также содержащий усиление выбранных автокорреляционных величин на базе обнаружения повторений периодов основного тона для соответствующего набора секций.

8. Способ по п.5, также содержащий усиление выбранных автокорреляционных величин, которые являются стабильными среди сегментов указанного аудиосигнала, при этом автокорреляционные величины, стабильные в одинаковой секции среди сегментов указанного аудиосигнала, усиливают больше, чем автокорреляционные величины, стабильные в различных секциях среди сегментов указанного аудиосигнала.

9. Способ по п.1, в котором указанные автокорреляционные величины определяют в рамках анализа основного тона с разомкнутой петлей обратной связи.

10. Устройство для предоставления информации для оценки периода основного тона, содержащее коррелятор, при этом
коррелятор сконфигурирован для определения первых автокорреляционных величин для сегмента аудиосигнала, при этом первый рассматриваемый диапазон задержки делится на первый набор секций, и указанные первые автокорреляционные величины определяются для задержек в множестве секций указанного первого набора секций;
коррелятор сконфигурирован для определения вторых автокорреляционных величин для указанного сегмента указанного аудиосигнала, при этом второй рассматриваемый диапазон задержки делится на второй набор секций таким образом, что секции указанного первого набора и секции указанного второго набора перекрываются, и указанные вторые автокорреляционные величины определяются для задержек в множестве секций указанного второго набора секций; и
коррелятор сконфигурирован для предоставления указанных определенных первых автокорреляционных величин и указанных определенных вторых автокорреляционных величин для оценки периода основного тона в указанном сегменте указанного аудиосигнала.

11. Устройство по п.10, в котором указанный аудиосигнал делится на последовательность кадров, при этом кадр далее делится на первый полукадр и второй полукадр, и указанный коррелятор сконфигурирован для определения первых и вторых автокорреляционных величин для кадра отдельно для указанного первого полукадра указанного кадра, как первого сегмента указанного аудиосигнала, для указанного второго полукадра указанного кадра, как второго сегмента указанного аудиосигнала, и для первого полукадра последующего кадра, как третьего сегмента указанного аудиосигнала.

12. Устройство по п.10, в котором указанный первый набор секций и указанный второй набор секций содержит каждый по четыре секции, а указанный коррелятор сконфигурирован для определения указанных автокорреляционных величин для задержек, по меньшей мере, в трех секциях каждого набора секций.

13. Устройство по п.10, в котором указанные секции в указанном первом наборе секций и в указанном втором наборе секций выбираются так, что секция не содержит повторений периодов основного тона.

14. Устройство по п.10, также содержащее компонент для выбора, сконфигурированный для выбора из указанных определенных автокорреляционных величин сильнейшей автокорреляционной величины в каждой секции каждого набора секций.

15. Устройство по п.14, также содержащее компонент для усиления, сконфигурированный для усиления выбранных автокорреляционных величин, стабильных среди сегментов указанного аудиосигнала, при этом автокорреляционные величины, стабильные в одинаковой секции среди сегментов указанного аудиосигнала, усиливаются больше, чем автокорреляционные величины, стабильные в различных секциях среди сегментов указанного аудиосигнала.

16. Устройство по п.10, которое является анализатором основного тона с разомкнутой петлей обратной связи.

17. Устройство по п.10, которое является аудиокодером.

18. Устройство для аудиообработки, содержащее устройство по п.10 и компонент для ввода аудиоданных.

19. Устройство, по п.18, в котором указанный компонент для ввода аудиоданных является микрофоном или интерфейсом к другому устройству.

20. Устройство, по п.18, которое является беспроводным терминалом или сетевым элементом беспроводной сети связи.

21. Система для аудиокодирования и декодирования, содержащая аудиокодер, содержащий устройство по п.10 и аудиодекодер.

22. Используемый в компьютере носитель, в котором хранится программный код, при этом указанный программный код реализует при выполнении процессором следующее:
определение первых автокорреляционных величин для сегмента аудиосигнала, при этом первый рассматриваемый диапазон задержки делится на первый набор секций, и указанные первые автокорреляционные величины определяются для задержек в множестве секций указанного первого набора секций;
определение вторых автокорреляционных величин для указанного сегмента аудиосигнала, при этом второй рассматриваемый диапазон задержки делится на второй набор секций таким образом, что секции указанного первого набора и секции указанного второго набора перекрываются, и указанные вторые автокорреляционные величины определяются для задержек в множестве секций указанного второго набора секций; и
предоставление указанных определенных первых автокорреляционных величин и указанных определенных вторых автокорреляционных величин для оценки периода основного тона в указанном сегменте указанного аудиосигнала.

23. Используемый в компьютере носитель по п.22, в котором указанный аудиосигнал делится на последовательность кадров, при этом кадр далее делится на первый полукадр и второй полукадр, и для кадра первые и вторые автокорреляционные величины определяются отдельно для указанного первого полукадра указанного кадра, как первого сегмента указанного аудиосигнала, для указанного второго полукадра указанного кадра, как второго сегмента указанного аудиосигнала, и для первого полукадра последующего кадра, как третьего сегмента указанного аудиосигнала.

24. Используемый в компьютере носитель по п.22, в котором указанный первый набор секций и указанный второй набор секций содержит каждый по четыре секции, при этом указанные автокорреляционные величины определяют для задержек, по меньшей мере, в трех секциях каждого набора секций.

25. Используемый в компьютере носитель по п.22, в котором указанные секции в указанном первом наборе секций и в указанном втором наборе секций выбираются так, что секция не содержит повторений периода основного тона.

26. Используемый в компьютере носитель по п.22, в котором указанный программный код также выбирает из указанных предоставленных автокорреляционных величин сильнейшую автокорреляционную величину в каждой секции каждого набора секций.

27. Используемый в компьютере носитель по п.26, в котором указанный программный код также усиливает выбранные автокорреляционные величины, которые являются стабильными среди сегментов указанного аудиосигнала, при этом автокорреляционные величины, стабильные в одинаковой секции среди сегментов указанного аудиосигнала, усиливают больше, чем автокорреляционные величины, стабильные в различных секциях среди сегментов указанного аудиосигнала.

28. Используемый в компьютере носитель по п.22, в котором указанные автокорреляционные величины определяются в рамках анализа основного тона с разомкнутой петлей обратной связи.

29. Устройство для предоставления информации для оценки периода основного тона, содержащее
средства для определения первых автокорреляционных величин для сегмента аудиосигнала, при этом первый рассматриваемый диапазон задержки делится на первый набор секций, и указанные первые автокорреляционные величины определяются для задержек в множестве секций указанного первого набора секций;
средства для определения вторых автокорреляционных величин для указанного сегмента аудиосигнала, при этом второй рассматриваемый диапазон задержки делится на второй набор секций таким образом, что секции указанного первого набора и секции указанного второго набора перекрываются, и указанные вторые автокорреляционные величины определяются для задержек в множестве секций указанного второго набора секций; и
средства для предоставления указанных определенных первых автокорреляционных величин и указанных определенных вторых автокорреляционных величин для оценки периода основного тона в указанном сегменте указанного аудиосигнала.

30. Устройство по п.29, также содержащее средства для выбора из указанных предоставленных автокорреляционных величин сильнейшей автокорреляционной величины в каждой секции каждого набора секций.

31. Устройство по п.30, также содержащее средства для усиления выбранных автокорреляционных величин, стабильных среди сегментов указанного аудиосигнала, при этом автокорреляционные величины, стабильные в одинаковой секции среди сегментов указанного аудиосигнала, усиливаются больше, чем автокорреляционные величины, стабильные в различных секциях среди сегментов указанного аудиосигнала.

Документы, цитированные в отчете о поиске Патент 2011 года RU2421826C2

СПОСОБ ВЫДЕЛЕНИЯ ОСНОВНОГО ТОНА ИЗ РЕЧЕВОГО СИГНАЛА 2000
  • Аграновский А.В.
  • Леднов Д.А.
  • Потапенко А.М.
  • Репалов С.А.
  • Сулима П.М.
RU2184399C2
Способ приготовления мыла 1923
  • Петров Г.С.
  • Таланцев З.М.
SU2004A1
СПОСОБ ВЫДЕЛЕНИЯ ОСНОВНОГО ТОНА 1998
  • Архипов И.О.
  • Веркиенко Ю.В.
  • Гитлин В.Б.
  • Казаков В.С.
RU2174714C2
US 2004220801 A1, 2004.11.04
СПОСОБ ВЫДЕЛЕНИЯ ОСНОВНОГО ТОНА ИЗ РЕЧЕВОГО СИГНАЛА 1991
  • Дедков Г.В.
RU2007763C1

RU 2 421 826 C2

Авторы

Лааксонен Лассе

Рамо Ансси

Василаке Адриана

Даты

2011-06-20Публикация

2007-10-01Подача