ОБОРУДОВАНИЕ И СПОСОБ ОПРЕДЕЛЕНИЯ ИНФОРМАЦИИ ОСНОВНОГО ТОНА Российский патент 2021 года по МПК G10L25/90 G10L19/00 

Описание патента на изобретение RU2745717C2

Настоящее изобретение относится к обработке аудиосигналов, более конкретно, оно относится к получению информации основного тона из аудиосигнала.

Уровень техники

В некоторых алгоритмах, определение основного тона выполняется на основе автокорреляции аудиосигнала. Тем не менее, эти алгоритмы используют статическое количество дискретных отсчетов сигналов для больших диапазонов запаздываний основного тона.

Следовательно, проблема известных решений состоит в том, что неточная информация основного тона получается вследствие недостаточно гибкого учета дискретных отсчетов сигналов аудиосигнала для определения информации основного тона.

Следовательно, существует потребность в принципе, который предоставляет лучший компромисс между вычислительной сложностью и точностью определения значения основного тона.

Сущность изобретения

Вариант осуществления согласно изобретению создает оборудование для определения информации основного тона на основе аудиосигнала. Оборудование выполнено с возможностью получать значение подобия, связанное с данной парой частей аудиосигнала, имеющего данный сдвиг по времени. Кроме того, оборудование выполнено с возможностью выбирать длину частей сигнала для аудиосигнала, используемого для того, чтобы получать значение подобия для данного сдвига по времени, в зависимости от данного сдвига по времени. Дополнительно, оборудование выполнено с возможностью выбирать длину частей сигнала таким образом, что она линейно зависит от данного сдвига по времени, в пределах допуска в ±1 дискретный отсчет.

Описанное оборудование предоставляет точное определение информации основного тона при недопущении оценки излишне значительных частей аудиосигнала. Достаточно точное определение основного тона достигается посредством использования достаточной длины частей сигнала, и низкая вычислительная сложность достигается посредством использования обоснованной небольшой длины рассматриваемых частей сигнала. Следовательно, линейная зависимость длины части сигнала от данного сдвига по времени предоставляет хороший компромисс, поскольку она не допускает чрезмерной длины частей сигнала при одновременном предоставлении достаточно длинных частей сигнала, чтобы получать точную информацию основного тона. Поскольку информация основного тона представляет собой информацию относительно частоты, с ней связана периодичность. Длина периода основного тона, соответствующего основному тону, характеризуется посредством сдвига по времени, который приводит к высокому значению подобия. Следовательно, предпочтительно использовать части сигнала длины, которая линейно зависит от данного сдвига по времени. Другими словами, например, для проверки того, имеет ли сигнал низкий основной тон, который соответствует большому периоду основного тона, используется большой сдвиг по времени. В этом случае, при использовании линейной зависимости с положительным наклоном, надлежащим образом большая длина части сигнала выбирается для определения информации основного тона по сравнению с проверкой более высокого основного тона, соответствующего сравнительно меньшему периоду основного тона. Таким образом, принцип позволяет регулировать длину частей таким образом, что обоснованная часть рассматриваемого сигнала используется как при оценке меньшего сдвига по времени, так и при оценке большего сдвига по времени.

Согласно предпочтительному варианту осуществления изобретения, оборудование выполнено с возможностью получать информацию основного тона на основе последовательности значений подобия. Учет более одного значения подобия повышает точность определенного основного тона.

Согласно предпочтительному варианту осуществления изобретения, оборудование выполнено с возможностью получать последовательность значений подобия на основе значений подобия для сдвигов по времени в диапазоне, начинающемся между 1 мс и 4 мс и идущем вплоть до сдвигов по времени между 15 мс и 25 мс. Описанный вариант осуществления является полезным, поскольку рассматриваемый диапазон сдвигов по времени представляет собой характерный диапазон для человеческой речи, соответствующий основным частотам речи. Дополнительно, ограничение диапазона сдвигов по времени описанными значениями уменьшает вычислительную сложность при определении последовательностей значений подобия, поскольку оно ограничивает количество значений подобия, которые должны определяться.

Согласно дополнительному предпочтительному варианту осуществления изобретения, оборудование выполнено с возможностью пошагово увеличивать длину частей сигнала с шагами в один дискретный отсчет с увеличением сдвига по времени при получении значений подобия для различных пар частей, имеющих различные сдвиги по времени. Описанный вариант осуществления, в частности, является полезным вследствие своей способности предоставления частей сигнала с минимальной разностью длины. Другими словами, достигается сверхвысокая степень детализации длин, обеспечивающая гибкий выбор длин частей сигнала, за счет этого предоставляя хороший компромисс между точностью и вычислительной сложностью.

Согласно предпочтительному варианту осуществления изобретения, оборудование выполнено с возможностью увеличивать длину частей сигнала с целочисленной точностью с увеличением сдвига по времени при получении значений подобия для различных пар частей, имеющих различные сдвиги по времени. Увеличение длины частей сигнала с целочисленной точностью является, в частности, полезным вследствие низкой вычислительной сложности, предусмотренной при этом. Другими словами, например, повышающая дискретизация или дробные задержки не должны рассматриваться.

Согласно предпочтительному варианту осуществления изобретения, оборудование выполнено с возможностью увеличивать длину частей сигнала, между предварительно определенной минимальной длиной и предварительно определенной максимальной длиной, линейно в зависимости от сдвига по времени. Предварительно определенная минимальная длина используется для самого короткого сдвига по времени, соответствующего максимальной частоте основного тона, и предварительно определенная максимальная длина используется для самого длинного сдвига по времени, соответствующего минимальной частоте основного тона. Описанный вариант осуществления помогает при поддержании вычислительной сложности в предписанном диапазоне, определенном посредством предварительно определенной минимальной длины и предварительно определенной максимальной длины. Кроме того, предварительно определенная минимальная длина и предварительно определенная максимальная длина могут выбираться в соответствии, например, с человеческим речевым трактом, с тем чтобы захватывать, например, полный цикл рассматриваемого периода основного тона.

Согласно предпочтительному варианту осуществления изобретения, оборудование выполнено с возможностью выбирать длину частей сигнала на основе следующего:

,

где d является данным сдвигом по времени, является предварительно определенной минимальной длиной для частей сигнала, является предварительно определенным наименьшим значением рассматриваемого запаздывания основного тона, представляющим минимальное значение для d, и является коэффициентом, на который масштабируется данный сдвиг по времени, при этом, например, . Кроме того, оборудование выполнено с возможностью выбирать длину частей сигнала в качестве целочисленного значения, близкого к . Выбор целочисленного значения, близкого к , может быть основан на функции округления, функции минимального уровня, функции округления в большую сторону или функции усечения. Функция округления округляет значение до ближайшего целочисленного значения, функция минимального уровня округляет значение до ближайшего целого числа к минус бесконечности, функция округления в большую сторону округляет значение к следующему целому числу в направлении плюс бесконечности, и функция усечения удаляет любые десятичные значения , в силу этого возвращая целочисленное значение.

Согласно предпочтительному варианту осуществления изобретения, оборудование выполнено с возможностью вычислять значение автокорреляции на основе двух сдвинутых по времени частей сигнала для аудиосигнала, сдвинутого по времени посредством данного сдвига по времени, чтобы получать значение подобия, при этом значение подобия может представлять собой значение автокорреляции или значение, извлеченное из значения автокорреляции. Кроме того, количество значений дискретных отсчетов аудиосигнала, рассматриваемых при вычислении значения автокорреляции, определяется посредством выбранной длины. Использование автокорреляции для оценки основного тона, в частности, является полезным вследствие низкой вычислительной сложности, предусмотренной при вычислении автокорреляции. Варьирование количества значений дискретных отсчетов, используемых для вычисления значения автокорреляции, как описано, обеспечивает оценку более точных частот основного тона при недопущении излишне большой суммированной длины автокорреляции для небольших сдвигов по времени.

Согласно предпочтительному варианту осуществления изобретения, оборудование выполнено с возможностью получать значения подобия на основе следующего:

,

где является дискретным отсчетом аудиосигнала во время n, является информацией относительно длины частей сигнала для данного сдвига d по времени, и d является данным сдвигом по времени. Верхний предел суммирования, например, также может составлять , и значение d сдвига по времени может находиться в интервале [.

Вычисление значений подобия описанным способом предлагает быстрый и гибкий способ получения значений автокорреляции. В частности, верхний предел суммирования ( или ), который находится в зависимости от рассматриваемого сдвига (d) по времени, может предоставлять достаточно длинную часть сигнала для включения полного периода частоты основного тона, которая должна определяться.

Согласно предпочтительному варианту осуществления изобретения, оборудование выполнено с возможностью получать информацию местоположения максимального значения из множества значений подобия. Кроме того, оборудование выполнено с возможностью получать информацию основного тона на основе информации местоположения, соответствующей рассматриваемому сдвигу по времени максимального значения. Описанный вариант осуществления, в частности, является полезным в уменьшении вычислительной сложности, поскольку поиск максимального значения может выполняться с низкой вычислительной сложностью. Это, например, может формулироваться следующим образом:

,

или

,

где , и обозначает местоположение найденного максимума.

Согласно предпочтительному варианту осуществления изобретения, оборудование выполнено с возможностью применять нормирование к значению подобия с использованием, по меньшей мере, двух значений нормирования. Два значения нормирования содержат первое значение нормирования, представляющее статистическую характеристику, например, значение энергии, первой части данной пары частей, и второе значение нормирования, представляющее статистическую характеристику, например, значение энергии, второй части данной пары частей. Нормирование применяется к значению подобия, чтобы извлекать нормированное значение подобия. Описанная нормирование является полезной для компенсации флуктуаций энергии в аудиосигнале, например, флуктуаций энергии в речевом сигнале. В силу этого, предоставляются значения подобия, которые являются сравнимыми в широком диапазоне сдвигов по времени, обеспечивая обоснованность более точного результата определения основного тона.

Согласно предпочтительному варианту осуществления изобретения, оборудование выполнено с возможностью получать нормированное значение подобия на основе следующего:

,

где является значением подобия, и является функцией окна (windowing). Нормирование значения подобия описанным способом обеспечивает более точное определение информации основного тона вследствие меньшей флуктуации энергии значения подобия. В частности, рассматриваемое значение может подвергаться варьированиям энергии в частях сигнала, рассматриваемых для его определения. Использование описанной нормирования освобождает значение от варьирований энергии в рассматриваемых частях сигнала.

Согласно предпочтительному варианту осуществления изобретения, оборудование выполнено с возможностью рекурсивно извлекать значение нормирования, например, значение нормы, для нового сдвига d по времени из значения нормирования для предыдущего сдвига по времени, например, , и т.д., посредством суммирования одного или более значений энергии дискретных отсчетов сигналов, включенных в новую часть сигнала и не включенных в старую часть сигнала, и посредством вычитания одного или более значений энергии дискретных отсчетов сигналов, включенных в старую часть сигнала и не включенных в новую часть сигнала. Описанное рекурсивное вычисление значения нормирования обеспечивает быстрое и экономящее объем запоминающего устройства вычисление значения нормирования на основе предыдущего значения нормирования.

Согласно предпочтительному варианту осуществления изобретения, оборудование выполнено с возможностью получать значение нормирования на основе следующего:

,

где является дискретным отсчетом аудиосигнала, содержащейся в части сигнала согласно сдвигу d по времени, но не содержащейся в части сигнала согласно сдвигу по времени, является дискретным отсчетом аудиосигнала, не содержащейся в части сигнала согласно сдвигу d по времени, но содержащейся в части сигнала согласно сдвигу по времени аудиосигнала, и является значением нормирования, полученным для ранее рассматриваемой части сигнала согласно сдвигу по времени за пределами новой части сигнала сдвига d по времени. Описанный способ получения значения нормирования обеспечивает быстрый и простой способ вычисления значения нормирования на основе предыдущего значения нормирования. Кроме того, оценка значения нормирования описанным способом является, в частности, подходящей для вариантов осуществления изобретения, используемых в портативных устройствах с низкой потребляемой мощностью, поскольку вычисление демонстрирует низкую сложность и низкое требование к запоминающему устройству.

Согласно дополнительному предпочтительному варианту осуществления изобретения, оборудование выполнено с возможностью определять информацию, например, индекс или информацию локального максимума, которая представляет собой результат проверки локального максимума, в отношении характеристики идентифицированного максимума последовательности значений подобия, полученных для различных сдвигов по времени. Кроме того, оборудование выполнено с возможностью предоставлять частоту основного тона на основе идентифицированного максимума, если информация относительно характеристики идентифицированного максимума указывает то, что идентифицированный максимум представляет собой локальный максимум. Кроме того, оборудование выполнено с возможностью переходить к учету одного или более других значений подобия, которые отличаются от ранее идентифицированного максимального значения для оценки частоты основного тона, если информация относительно характеристики максимума не указывает то, что максимум представляет собой локальный максимум, например, если она указывает то, что местоположение располагается на краю поискового интервала. Неточная информация основного тона может быть обусловлена тем фактом, что она основана на идентифицированном максимуме, который не представляет собой локальный максимум. Следовательно, проверка идентифицированного максимума и результирующая обработка идентифицированного максимума описанным способом являются полезными для недопущения определения неточной информации основного тона.

Согласно предпочтительному варианту осуществления изобретения, оборудование выполнено с возможностью определять то, расположен ли идентифицированный максимум на границе последовательности значений подобия, в качестве информации относительно характеристики идентифицированного максимума. Если максимум расположен на границе последовательности значений подобия, значения за пределами этой границы могут находиться даже выше идентифицированного максимума, и в силу этого идентифицированный максимум не может представлять истинный локальный максимум. Другими словами, хорошо знать то, находится ли идентифицированный максимум на границе, чтобы реагировать адекватно. Реакция, например, может представлять собой выбор истинного локального максимума в последовательности значений подобия, поскольку ранее идентифицированное местоположение максимума может не представлять допустимое значение запаздывания основного тона.

Согласно предпочтительному варианту осуществления изобретения, оборудование выполнено с возможностью избирательно учитывать одно или более других значений подобия за пределами границы последовательности значений подобия, например, за пределами интервала начального поиска, если информация относительно характеристики идентифицированного максимума указывает то, что идентифицированный максимум расположен на границе последовательности значений подобия. Наличие возможности учитывать одно или более других значений подобия за пределами границы последовательности значений подобия помогает в обеспечении того, что получается точная и допустимая информация основного тона.

Согласно предпочтительному варианту осуществления изобретения, оборудование выполнено с возможностью определять информацию основного тона в поиске без обратной связи или в поиске с обратной связью. Описанный вариант осуществления является полезным для использования в кодерах аудиосигналов, которые выполнены с возможностью иметь двухстадийное определение информации основного тона, например, поиск без обратной связи и поиск с обратной связью.

Вариант осуществления изобретения предоставляет способ определения информации основного тона на основе аудиосигнала. Способ содержит: получение значения подобия, связанного с данной парой частей аудиосигнала, имеющего данный сдвиг по времени. Кроме того, способ содержит выбор длины частей сигнала для аудиосигнала, для пары частей, используемых для того, чтобы получать значение подобия для данного сдвига по времени, в зависимости от данного сдвига по времени, при этом длина частей сигнала выбирается таким образом, что она линейно зависит от данного сдвига по времени, в пределах допуска в ±1 дискретный отсчет. Описанный способ предоставляет надежную поддержку для получения значения подобия на основе информации связанных частей сигнала, соответствующих рассматриваемому сдвигу по времени.

Дополнительный предпочтительный вариант осуществления изобретения представляет собой компьютерную программу с программным кодом для осуществления способа, когда компьютерная программа выполняется на компьютере или микроконтроллере. Описанная программа является, в частности, подходящей для использования в мобильных устройствах, например, мобильных телефонах.

Дополнительные предпочтительные варианты осуществления согласно изобретению описывают надежный поиск основного тона с адаптивным размером корреляции.

Краткое описание чертежей

Ниже поясняются варианты осуществления настоящего изобретения со ссылкой на прилагаемые чертежи, на которых:

Фиг. 1 показывает блок-схему последовательности операций способа для оборудования согласно варианту осуществления изобретения;

Фиг. 2 показывает блок-схему последовательности операций способа для оборудования согласно варианту осуществления изобретения;

Фиг. 3 показывает график согласно варианту осуществления изобретения;

Фиг. 4 показывает график согласно варианту осуществления изобретения;

Фиг. 5 показывает график согласно варианту осуществления изобретения;

Фиг. 6 показывает схематический вид сигнала; и

Фиг. 7 показывает блок-схему последовательности операций способа согласно варианту осуществления изобретения.

Подробное описание вариантов осуществления

Фиг. 1 иллюстрирует блок-схему последовательности операций способа для оборудования 100 согласно варианту осуществления изобретения для определения информации 160 основного тона. Оборудование 100 использует в качестве вводов аудиосигнал 110, например, речевой сигнал и значение 120 сдвига по времени. На основе сдвига 120 по времени, оборудование 100 выбирает длину части сигнала (например, с использованием блока 140) и предоставляет информацию 140a, описывающую длину частей сигнала для определения 135 пары частей, используемых для того, чтобы получать 130 значение 130a подобия (например, в блоке или модуле 130 получения значений подобия). На основе значения 130a подобия, информация 160 основного тона может определяться при необязательном определении основного тона (например, в блоке или модуле 150 определения основного тона). Длина 140a части сигнала определяется таким образом, что она линейно зависит от сдвига 120 по времени. Предоставленная длина 140a частей сигнала используется для того, чтобы определять 135 пару частей аудиосигнала 110, при этом длина 140a этой пары частей сигнала гибко основана на сдвиге 120 по времени. Таким образом, значение 130a подобия, полученное на основе пары частей, предоставляет надежное значение 130a подобия для определения частоты основного тона. Например, если рассматривается большой период основного тона, соответствующий большому сдвигу 120 по времени, выбранная длина 140a частей сигнала должна быть, соответственно, большой, чтобы иметь возможность захватывать полный цикл рассматриваемого основного тона. Описанное оборудование в силу этого предлагает основу для надежного, точного, несложного и гибкого определения основного тона. Кроме того, следует отметить, что оборудование 100 согласно фиг. 1 может дополняться посредством любых признаков и функциональностей, описанных в данном документе, отдельно или в комбинации.

Фиг. 2 показывает блок-схему последовательности операций способа для оборудования 200 согласно варианту осуществления изобретения. Оборудование 200 принимает в качестве ввода аудиосигнал 210 и значение 220 сдвига по времени и доставляет в качестве вывода информацию 260 основного тона. Согласно сдвигу 220 по времени, длина 240a частей сигнала определяется (в блоке 240). Определенная длина 240a частей сигнала предоставляется для определения 235 пары частей, которая помимо этого основана на данном сдвиге 220 по времени и аудиосигнале 210. На основе определенной пары частей, значение 230a подобия получается (в блоке 230).

На дополнительном необязательном этапе (блоке 251), значение 230a подобия нормируется 251 на основе значений энергии определенной пары частей, в силу этого доставляя нормированное значение 251a подобия. На основе значения 230a подобия или нормированного значения 251a подобия, последовательность 252a значений подобия может получаться 252 на необязательном этапе (блоке 252). Полученная последовательность 252a значений подобия получается для самого короткого сдвига 252b по времени вплоть до самого длинного сдвига 252c по времени. Таким образом, блок 252, например, может предоставлять информацию 220 сдвига по времени в данном диапазоне (от самого короткого сдвига 252b по времени до самого длинного сдвига 252c по времени).

На дополнительном необязательном этапе (блоке 253), к последовательности 252a значений подобия применяется взвешивание методом окна 253. В силу этого, получается последовательность 253a значений подобия, взвешенная методом окна, при этом взвешивание методом окна 253 может повышать точность информации 260 основного тона, которая должна определяться, посредством выделения или отсутствия выделения определенных диапазонов последовательности 252a значений подобия.

Дополнительно, последовательность 252a значений подобия или последовательность 253a значений подобия, взвешенная методом окна, может использоваться при необязательном поиске 254 максимума для того, чтобы получать информацию 254a местоположения максимума.

На основе информации 254a местоположения максимума, на дополнительном необязательном этапе, выполняется проверка характеристики информации 254a местоположения максимума (в блоке 255). Проверка характеристики идентифицированного местоположения максимума 255 основана на информации 254a местоположения максимума, самом коротком рассматриваемом сдвиге 252b по времени и самом длинном рассматриваемом сдвиге 252c по времени. Если характеристика максимума указывает то, что максимум совпадает с самым коротким сдвигом 252b по времени или самым длинным сдвигом 252c по времени, принимается решение, что должно рассматриваться новое максимальное значение. Максимальное значение, которое должно рассматриваться, может находиться в диапазоне от самого короткого сдвига 252b по времени до самого длинного сдвига 252c по времени или за пределами самого короткого сдвига 252b по времени или самого длинного сдвига 252c по времени. Если новый максимум должен выбираться вследствие самого короткого сдвига 252b по времени и самого длинного сдвига 252c, новый локальный максимум между двумя значениями должен выбираться и предоставляться в качестве нового локального максимума 255a. Альтернативно, поиск нового максимального значения может выполняться за пределами самого короткого сдвига 252b по времени или самого длинного сдвига 252c по времени, и если новое максимальное значение находится, то должно предоставляться соответствующее местоположение или информация 255a для соответствующего местоположения. На конечном необязательном этапе, выполняется оценка частоты основного тона (в блоке 250).

Аудиосигнал 210 может предоставляться в прореженной версии, за счет этого уменьшая сложность вычислений. Это обусловлено тем фактом, что прореженный сигнал типично отображает уменьшенную частоту дискретизации и в силу этого демонстрирует меньшее количество дискретных отсчетов в секунду. Это, в свою очередь, приводит к меньшей сложности вычисления, что касается эквивалентного диапазона времени, меньшее количество значений дискретных отсчетов должно рассматриваться, чем для повышающе дискретизированного сигнала или эквивалентно для сигнала с более высокой частотой дискретизации. Следовательно, на первой стадии (не показана), аудиосигнал 210 может прореживаться до частоты дискретизации, например, варьирующейся между 5,3 и 8 кГц, в зависимости от входной частоты дискретизации.

Далее описывается то, как информация 240a длины частей сигнала может определяться посредством блока 240. Фиг. 3 показывает график 300 согласно аспекту изобретения. На горизонтальной оси 310, показано значение сдвига d по времени. Самый короткий сдвиг 310a по времени и самый длинный сдвиг 310b по времени указываются на горизонтальной оси, помеченные как и , соответственно, причем они могут соответствовать самому короткому сдвигу 252b по времени и самому длинному сдвигу 252b по времени на фиг. 2. На вертикальной оси 320, показана длина рассматриваемых частей сигнала, причем эта длина может представляться посредством информации 140a или 240a длины. Минимальная длина 320a и максимальная длина 320b указываются на вертикальной оси, помеченные как и , соответственно. Линия 330 иллюстрирует линейное увеличение длины частей сигнала с увеличением сдвига по времени. Кроме того, самый короткий сдвиг 310a по времени помечается в качестве , соответствующего минимальному рассматриваемому значению основного тона, и самый длинный сдвиг 310b по времени помечается в качестве , соответствующего максимальному рассматриваемому значению основного тона. График 300 иллюстрирует выбор длины частей сигнала, используемых для получения значения подобия, обеспечивая вычислительно эффективное и надежное определение основного тона.

Со ссылкой на фиг. 4, поиск информации 254a или 255a местоположения максимума проиллюстрирован как выполняемый, например, в блоке 254 или 255. Фиг. 4 показывает график 400 согласно аспекту изобретения. На горизонтальной оси 410, показан сдвиг d по времени, который может представлять собой сдвиг 120 или 220 по времени. На вертикальной оси 420, показаны значения для значения подобия, например, значения автокорреляции, которые могут представлять собой значение 130a, 230a или 251a подобия, полученное в блоке 130 или 230. Кривая 430 показывает примерное развертывание значений подобия, например, последовательность 252a значений подобия, в зависимости от сдвига d по времени. Кривая 430 имеет локальный максимум между вертикально пунктирными линиями, помеченными как и . Значение слева от локального максимума меньше , и значение справа от , меньше , в силу чего может характеризоваться в качестве истинного локального максимума. Кроме того, вертикально пунктирные линии, помеченные как и , иллюстрируют диапазон, в котором может выполняться поиск максимума (например, в блоке 254), и для которого значения d значений подобия сдвига по времени получаются, чтобы формировать последовательность 252a. Поиск максимума, например, может представлять собой поиск максимума, как указано в блоке 254 в оборудовании 200. Кроме того, идентифицируется максимум, который соответствует вертикально пунктирной линии, помеченной как . Тем не менее, этот идентифицированный максимум не представляет собой истинный локальный максимум, поскольку более высокий локальный максимум является доступным за пределами диапазона поиска. Следовательно, максимум, совпадающий с , , представляет собой ложный максимум. Со ссылкой на фиг. 2, описанная кривая 430 может отображать последовательность 252a, для которой поиск выполняется в блоке 254. Поиск 254 может идентифицировать значение в качестве максимума и в силу этого возвращать в качестве информации 254a местоположения максимума. Полученная информация 254a местоположения максимума может использоваться при проверке 255 характеристики максимума. Проверка 255 может идентифицировать информацию 254 местоположения максимума для того, чтобы указывать то, что максимум расположен на границе диапазона поиска. В ответ на это нахождение, в одной реализации, проверка (блок 255) может отбрасывать максимум при и вместо этого выбирать истинный локальный максимум внутри диапазона поиска, соответствующего . Это приводит к тому, что информация 255a местоположения максимума характеризуется посредством вместо

Далее описывается альтернативная реализация проверки (блок 255) со ссылкой на фиг. 5. Фиг. 5 показывает график 500 согласно аспекту изобретения. На горизонтальной оси 510, показано значение сдвига по времени. Кроме того, на вертикальной оси 520, показано значение подобия в зависимости от сдвига по времени. Кроме того, кривая 530 проиллюстрирована на графике 500, который, например, иллюстрирует значения подобия, например, 130a, 230a или 251a. Кривая 530 является аналогичной кривой 430 на фиг. 4 и показывает альтернативную процедуру, если проверка 255 выявляет то, что информация 254a местоположения максимума указывает то, что максимум расположен на границе диапазона поиска. График 500 показывает максимальное значение кривой 530 на пересечении с вертикально пунктирной линией, помеченной как , относительно значений справа от нее, как проиллюстрировано уже на графике 400 по фиг. 4 ( представляет собой максимум между и ). Альтернативно, в процедуре, описанной на фиг. 4, диапазон поиска расширяется за пределы , чтобы проверять 255 то, представляет ли собой найденный максимум истинно локальный максимум (с меньшими значениями с обеих сторон). При выполнении поиска за пределами , находится новый локальный максимум , который в свою очередь должен возвращаться в качестве (новой, исправленной) информации 255a местоположения максимума. Дополнительные значения подобия за пределами значения подобия, например, могут быть доступными вследствие того факта, что этот дополнительный поиск выполняется для повышающе дискретизированной версии кривой 430 по фиг. 4. Следовательно, новые вычисления могут не требоваться для извлечения значений за пределами за исключением повышающей дискретизации ранее используемой последовательности значений подобия.

Фиг. 6 показывает иллюстративный график аудиосигнала, например, аудиосигнала 110 и 210. Сигнал имеет покадровое секционирование, и отображаются три кадра. Две стрелки указывают на самый короткий сдвиг по времени и самый длинный сдвиг по времени, и стрелка, помеченная как окно запаздывания, указывает изменчивость окна запаздывания таким образом, что оно масштабируется между значениями и .

Фиг. 7 иллюстрирует блок-схему 700 последовательности операций способа согласно аспекту изобретения. На первом этапе, определяется 710 длина частей сигнала, при этом длина линейно зависит от рассматриваемого сдвига по времени. Затем, на основе определенной длины, определяется 720 пара частей сигнала. Кроме того, на основе определенной пары частей сигнала, получаются 730 значения подобия. Необязательно, на конечном этапе, на основе определенного значения подобия, определяется 740 информация основного тона.

Способ 700 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе, также относительно оборудования.

Дополнительные аспекты и заключение

Далее трактуются некоторые аспекты и идеи согласно настоящему изобретению.

Аспект согласно изобретению находит основную частоту, т.е. значение основного тона (также называемое значением запаздывания во временной области), в речевом сигнале с использованием способа автокорреляции. В AMR-WB-кодеке [1] речевого кодера, поиск основного тона разбивается на поиск основного тона без обратной связи и с обратной связью. Поиск основного тона без обратной связи представляет собой процесс оценки почти оптимального запаздывания непосредственно из взвешенного речевого ввода. В зависимости от режима, анализ основного тона без обратной связи выполняется один раз в расчете на каждый кадр (каждые 20 мс) или два раза в расчете на каждый кадр (каждый 10 мс), чтобы находить две оценки запаздывания основного тона в каждом кадре. Это выполняется для того, чтобы упрощать анализ основного тона и ограничивать поиск основного тона с обратной связью небольшим количеством запаздываний около оцененных запаздываний без обратной связи. В некоторых вариантах осуществления, такая процедура необязательно может использоваться.

Диапазон поиска регулируется согласно человеческому речевому тракту. Следовательно, алгоритм поиска основного тона, например, AMR-WB, ограничивается таким образом, чтобы выполнять поиск только между минимальным значением основного тона в 55 Гц и максимальным значением основного тона в 380 Гц. AMR-WB-кодек [1] использует фиксированный размер окна поиска для автокорреляции. Обнаружено, что этот фиксированный размер окна поиска не является оптимальным: иногда окно корреляции для оценки запаздывания основного тона может не содержать полный цикл основного тона, в силу этого приводя к сложности или незначимости корреляции; если функция окна является слишком большой, она может вызывать проблемы сложности, а также повышать сложность при обнаружении короткого запаздывания основного тона. Также обнаружено, что окно увеличенного размера должно приводить к значительной дополнительной сложности. VMR-WB- [2] и EVS-кодек [3] используют, соответственно, три и вплоть до четырех различных длин для окна автокорреляции, разделенного на четыре секции: [10, 16], [17, 31], [32, 61] и [62, 115], причем диапазон основного тона составляет от 10 до 115. Обнаружено, что основной недостаток состоит в том, что значения основного тона в одной секции используют идентичный размер автокорреляции и в силу этого не трактуются одинаково, что может приводить к неправильным значениям основного тона. Например, значения основного тона в 62 и 115 используют идентичную длину автокорреляции в 115. В некоторых кодеках, учитываются значения основного тона последних кадров. Тем не менее, априорные знания относительно последнего значения основного тона не всегда доступны, например, в кодеках, функционирующих в частотной области, в которых значения основного тона не требуются для нормальной обработки, к примеру, в AAC-ELD [4].

Далее подробнее поясняются различные аспекты настоящего изобретения.

Аспект изобретения представляет подход с низкой сложностью и надежным поиском основного тона с использованием адаптивного к основному тону размера автокорреляции для целочисленной точности. Он не требует априорных сведений по сигналу, таких как предыдущие значения основного тона. Такой подход, например, может реализовываться с использованием выбора длины частей сигнала, выполняемого посредством блоков 140, 240. По причинам сложности, поиск основного тона может разделяться на две стадии, аналогично поиску основного тона в AMR-WB-кодеке [1].

В AMR-WB-кодеке [1], диапазон поиска для поиска основного тона адаптируется на человеческом речевом тракте. В силу этого, наблюдаются значения основного тона в 55-376 Гц при частоте дискретизации в 12,8 кГц. На основе этого, границы дискретных отсчетов и дискретных отсчетов для частоты дискретизации в 48 кГц используются в подходе согласно аспекту изобретения. Это соответствует значениям основного тона от 55 Гц до 380 Гц.

Согласно дополнительному аспекту изобретения, на первой стадии, в отношении сигнала, например, сигнала 110 или 210 выполняется понижающая дискретизация, аналогично AMR-WB-кодеку [1], например, на непоказанной стадии оборудования 100 и 200. Но вместо прореживания сигнала до фиксированной частоты дискретизации в 6,4 кГц, сигнал (например, сигнал 110 или 210) прореживается до частоты дискретизации, варьирующейся между 5,3 и 8 кГц в зависимости от входной частоты дискретизации. Коэффициент прореживания выбирается, к примеру, следующим образом:

,

где является входной частотой дискретизации. Понижающая дискретизация осуществляется через FIR-фильтр, причем отводы являются следующими:

[0,0101, 0,2203, 0,5391, 0,2203, 0,0101] для ,

[0,0068, 0,0664, 0,2465, 0,3608, 0,2465, 0,0664, 0,0068] для ,

[0,0051, 0,0294, 0,1107, 0,2193, 0,2710, 0,2193, 0,1107, 0,0294, 0,0051] для

и

[0,0034, 0,0106, 0,0333, 0,0739, 0,1236, 0,1648, 0,1809, 0,1648, 0,1236, 0,0739, 0,0333, 0,0106, 0,0034] для (например, во избежание наложения спектров).

Согласно аспекту изобретения, поиск основного тона может выполняться для понижающе дискретизированной версии (например, для сигнала 110, 210) через способ автокорреляции в итерационном цикле (например, управляемом посредством блока 252) от минимального запаздывания до максимального значения запаздывания с размером автокорреляции (представленным, например, посредством информации 240a длины), составляющим от 5 мс до 10 мс для целочисленной точности.

В некоторых алгоритмах, имеется вероятность того, что максимум автокорреляционной функции соответствует кратному числу или субкратному числу запаздывания d основного тона, и того, что оцененное запаздывание основного тона в силу этого не является корректным. EP0628947 [5] разрешает эту проблему посредством применения функции взвешивания к автокорреляционной функции R:

,

где функция взвешивания имеет следующую форму: . является параметром настройки, который задается равным значению, достаточно низкому для того, чтобы уменьшать вероятность получения максимума для при кратном числе запаздывания основного тона, но одновременно достаточно высоким для того, чтобы исключать субкратные числа запаздывания основного тона. Аналогично AMR-WB-кодеку [1], этот подход использует функцию взвешивания, используемую с . Описанное взвешивание может представлять собой взвешивание методом окна, выполняемое в блоке 253.

В некоторых алгоритмах, к примеру, в AMR-WB-кодеке [1], максимальное значение автокорреляции в конечном счете нормируется, это позволяет сравнивать этот максимум между сигналами или с пороговым значением. Тем не менее, согласно аспекту изобретения, чтобы повышать стабильность поиска основного тона, посредством задания автокорреляции свободной от флуктуаций энергии в сигнале, значения автокорреляции становятся нормированным, например, в блоке 251, до того, как проводится максимизация (или поиск максимума), следующим образом:

где является нормированным значением автокорреляции между несдвинутым сигналом и сдвинутым влево сигналом на d дискретных отсчетов, является значением автокорреляции между несдвинутым сигналом и сдвинутым влево сигналом на d дискретных отсчетов, является весовым коэффициентом является произведением с точкой несдвинутой части сигнала (например, первой части пары частей), и является произведением с точкой части сигнала, сдвинутой влево на d дискретных отсчетов (например, второй части пары частей). (Например, может соответствовать нормированному значению 251a подобия, и может соответствовать значению 230a или 130a подобия),

Согласно дополнительному аспекту изобретения, чтобы снижать сложность, значения и нормирования, которые могут использоваться для нормирования и оцениваться в блоке 251, вычисляются с помощью механизма обновления. Таким образом, может вычисляться следующим образом:

где является дискретным отсчетом сигналов, сдвинутой влево на d дискретных отсчетов с окном поиска длины . Только для начальных значений и , полные произведения с точкой должны вычисляться с . Если длина окна поиска изменяется с до d, значение нормирования требует дополнительного обновления значений .

Согласно другому аспекту изобретения, другое существенное отличие для некоторых алгоритмов поиска основного тона на основе способа автокорреляции заключается в том, что этот подход выбирает только значения основного тона, которые представляют реальный локальный максимум, например, выполняемый в блоке 255. Таким образом, могут не допускаться ложные результаты основного тона, которые возникают, если максимум автокорреляции находится за пределами диапазона поиска (например, следует обратиться к примеру, описанному относительно фиг. 4 и 5). Это означает, что значение запаздывания d используется только в том случае, если:

.

Аналогично тому, что выполняется в AMR-WB-кодеке [1], вторая стадия поиска основного тона (например, с обратной связью) работает в исходной дискретизированной сигнальной области и использует только небольшое количество запаздываний около оцененного повышающе дискретизированного запаздывания без обратной связи. Поиск основного тона, например, поиск максимума в 254, также использует длину окна поиска (которая может составлять постоянную длину окна поиска в некоторых вариантах осуществления), но она теперь зависит от следующим образом:

,

где:

,

и мс, и мс.

Согласно дополнительному аспекту изобретения, диапазон поиска, например, в поиске 254 максимума, ограничен посредством следующего:

,

где .

Согласно аспекту изобретения, алгоритм выбирает значение запаздывания, принадлежащее максимальному нормированному значению автокорреляции.

Согласно другому аспекту изобретения, улучшение предложенного способа заключается в том, что поиск основного тона на границе поиска тщательно обрабатывается, как описано относительно блока 255 и относительно фиг. 4 и 5. Если значение запаздывания в или выбирается в некотором способе, алгоритм подвергается риску с использованием ложного значения запаздывания, когда реальный максимум находится за пределами диапазона поиска. Это может происходить даже при поиске основного тона, как описано выше, поскольку поиск основного тона без обратной связи и с обратной связью работают для различных разрешений сигнала вследствие понижающей дискретизации поиска основного тона без обратной связи. Следовательно, этот подход расширяет поиск посредством максимума, например, в четыре дискретных отсчета выше соответствующей границы (в блоке 255). Поиск основного тона прекращается и использует соответствующее значение запаздывания, если первый реальный максимум нормированной автокорреляции находится за пределами диапазона поиска в . В противном случае, выбирается или .

Хотя некоторые аспекты описаны в контексте оборудования, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или оборудование соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего оборудования. Некоторые или все этапы способа могут быть выполнены посредством (или с использованием) аппаратного оборудования, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых вариантах осуществления, один или более из самых важных этапов способа могут выполняться посредством этого оборудования.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронно считываемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой, так что осуществляется соответствующий способ. Следовательно, цифровой носитель хранения данных может быть машиночитаемым.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.

В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт исполняется на компьютере. Программный код, например, может сохраняться на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.

Другими словами, вариант осуществления изобретаемого способа в силу этого представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа исполняется на компьютере или микроконтроллере.

Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель хранения данных или носитель с записанными данными типично является материальным и/или энергонезависимым.

Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.

Дополнительный вариант осуществления согласно изобретению содержит оборудование или систему, выполненную с возможностью передавать (например, электронно или оптически) компьютерную программу для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Оборудование или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного оборудования.

Оборудование, описанное в данном документе, может реализовываться с использованием аппаратного оборудования либо с использованием компьютера, либо с использованием комбинации аппаратного оборудования и компьютера.

Оборудование, описанное в данном документе, или любые компоненты оборудования, описанного в данном документе, могут реализовываться, по меньшей мере, частично в аппаратных средствах и/или в программном обеспечении.

Способы, описанные в данном документе, могут осуществляться с использованием аппаратного оборудования либо с использованием компьютера, либо с использованием комбинации аппаратного оборудования и компьютера.

Способы, описанные в данном документе, или любые компоненты оборудования, описанного в данном документе, могут выполняться, по меньшей мере, частично посредством аппаратных средств и/или посредством программного обеспечения.

Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.

Библиографический список

1. 3GPP, TS 26.190, "Speech codec speech processing functions; Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions (Release 12)", 2014 год.

2. 3GPP2, C.S0052-A, "Source-Controlled Variable-Rate Multimode Wideband Speech Codec (VMR-WB), Service Options 62 and 63 for Spread Spectrum Systems", Version 1.0, апрель 2005 года

3. 3GPP, TS 26.445, "Universal Mobile Telecommunications System (UMTS); LTE; Codec for enhanced Voice Services (EVS); Detailed algorithmic description", version 12.3.0, Release 12

4. AAC-ELD Standard: http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=46457

5. EP0628947 "Method and device for speech signal pitch period estimation and classification in digital speech coders"

Похожие патенты RU2745717C2

название год авторы номер документа
ПРОЦЕССОР ДЛЯ ФОРМИРОВАНИЯ СПЕКТРА ПРОГНОЗИРОВАНИЯ НА ОСНОВЕ ДОЛГОСРОЧНОГО ПРОГНОЗИРОВАНИЯ И/ИЛИ ГАРМОНИЧЕСКОЙ ПОСТФИЛЬТРАЦИИ 2022
  • Маркович, Горан
  • Эдлер, Бернд
  • Байер, Штефан
  • Кине, Ян Фредерик
RU2826967C2
КОДИРОВАНИЕ И ДЕКОДИРОВАНИЕ ИМПУЛЬСНЫХ И ОСТАТОЧНЫХ ЧАСТЕЙ ЗВУКОВОГО СИГНАЛА 2022
  • Маркович, Горан
RU2825308C2
УСТРОЙСТВО ДЛЯ ОПРЕДЕЛЕНИЯ ИНФОРМАЦИИ О ПОДОБИИ, СПОСОБ ДЛЯ ОПРЕДЕЛЕНИЯ ИНФОРМАЦИИ О ПОДОБИИ, УСТРОЙСТВО ДЛЯ ОПРЕДЕЛЕНИЯ ИНФОРМАЦИИ АВТОКОРРЕЛЯЦИИ, УСТРОЙСТВО ДЛЯ ОПРЕДЕЛЕНИЯ ИНФОРМАЦИИ О ВЗАИМНОЙ КОРРЕЛЯЦИИ И КОМПЬЮТЕРНАЯ ПРОГРАММА 2017
  • Кратц Михаэль
  • Уле Кристиан
  • Клозе Пауль
  • Леонард Тимоти
  • Прокайн Петер
  • Шаррер Зебастьян
RU2747442C2
ЗАВИСЯЩЕЕ ОТ ГАРМОНИЧНОСТИ УПРАВЛЕНИЕ ИНСТРУМЕНТОМ ФИЛЬТРАЦИИ ГАРМОНИК 2015
  • Хельмрих Кристиан
  • Равелли Эммануэль
  • Яндер Мануэль
  • Дела Штефан
  • Маркович Горан
RU2691243C2
СПОСОБ И УСТРОЙСТВО ДЛЯ ПОЛУЧЕНИЯ СПЕКТРАЛЬНЫХ КОЭФФИЦИЕНТОВ ДЛЯ ЗАМЕНЯЮЩЕГО КАДРА АУДИОСИГНАЛА, ДЕКОДЕР АУДИО, ПРИЕМНИК АУДИО И СИСТЕМА ДЛЯ ПЕРЕДАЧИ АУДИОСИГНАЛОВ 2014
  • Суковски Джанин
  • Шпершнайдер Ральф
  • Маркович Горан
  • Егерс Вольфганг
  • Хельмрих Кристиан
  • Эдлер Бернд
  • Гайгер Ральф
RU2632585C2
КОДИРОВАНИЕ СПЕКТРАЛЬНЫХ КОЭФФИЦИЕНТОВ СПЕКТРА АУДИОСИГНАЛА 2014
  • Фукс Гийом
  • Нойзингер Маттиас
  • Мультрус Маркус
  • Дела Штефан
RU2638734C2
УСТРОЙСТВО И СПОСОБ ДЛЯ ОПРЕДЕЛЕНИЯ ПРЕДВАРИТЕЛЬНО ОПРЕДЕЛЕННОЙ ХАРАКТЕРИСТИКИ, ОТНОСЯЩЕЙСЯ К ОБРАБОТКЕ СПЕКТРАЛЬНОГО УЛУЧШЕНИЯ АУДИОСИГНАЛА 2018
  • Гампп, Патрик
  • Уле, Кристиан
  • Диш, Саша
  • Карампоурниотис, Антониос
  • Хафенштайн, Юлия
  • Хелльмут, Оливер
  • Херре, Юрген
  • Прокайн, Петер
RU2733278C1
Способ автоматического распознавания речевых сигналов 1991
  • Дрюченко Алексей Яковлевич
SU1775730A1
УСТРОЙСТВО И СПОСОБЫ ДЛЯ ОБРАБОТКИ АУДИОСИГНАЛА 2018
  • Гампп, Патрик
  • Уле, Кристиан
  • Диш, Саша
  • Карампоурниотис, Антониос
  • Хафенштайн, Юлия
  • Хелльмут, Оливер
  • Херре, Юрген
  • Прокайн, Петер
RU2733533C1
ДЕКОДИРОВАНИЕ КОДИРОВАННЫХ С ПРЕДСКАЗАНИЕМ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ АДАПТАЦИИ БУФЕРА 2007
  • Оянпера Юха
RU2408089C9

Иллюстрации к изобретению RU 2 745 717 C2

Реферат патента 2021 года ОБОРУДОВАНИЕ И СПОСОБ ОПРЕДЕЛЕНИЯ ИНФОРМАЦИИ ОСНОВНОГО ТОНА

Изобретение относится к обработке аудиосигналов и может быть использовано для получения информации основного тона из аудиосигнала. Оборудование для определения информации основного тона на основе аудиосигнала выполнено с возможностью получать значение подобия, связанное с данной парой частей аудиосигнала, имеющего данный сдвиг по времени, при этом оборудование выполнено с возможностью выбирать длину частей сигнала для аудиосигнала, используемого для того, чтобы получать значение подобия для данного сдвига по времени, в зависимости от данного сдвига по времени, и причем оборудование выполнено с возможностью выбирать длину частей сигнала таким образом, что она линейно зависит от данного сдвига по времени, в пределах допуска в ±1 дискретный отсчет. Технический результат – повышение точности определения значения основного тона. 6 н. и 16 з.п. ф-лы, 7 ил.

Формула изобретения RU 2 745 717 C2

1. Оборудование для определения информации (160; 260) основного тона на основе аудиосигнала (110; 210),

при этом оборудование выполнено с возможностью получать значение (130a; 230a, 251a) (; ) подобия, связанное с заданной парой частей аудиосигнала, имеющих заданный сдвиг (120; 220) (d) по времени;

при этом оборудование выполнено с возможностью выбирать длину (140a; 240a) () частей сигнала для аудиосигнала, используемую, чтобы получать значение (; ) подобия для заданного сдвига (d) по времени, в зависимости от заданного сдвига (d) по времени;

причем оборудование выполнено с возможностью выбирать длину () частей сигнала таким образом, что она линейно зависит от заданного сдвига (d) по времени, в пределах допуска в ±1 дискретный отсчет;

при этом оборудование выполнено с возможностью выбирать длину частей сигнала на основе следующего:

,

где d - заданный сдвиг по времени, - предварительно определенная минимальная длина для частей сигнала, - предварительно определенное наименьшее значение рассматриваемого запаздывания основного тона, и - коэффициент, на который масштабируется заданный сдвиг по времени, и

при этом оборудование выполнено с возможностью выбирать длину частей сигнала как целочисленное значение, близкое к .

2. Оборудование по п.1, при этом оборудование выполнено с возможностью получать информацию основного тона на основе последовательности значений (252a) подобия.

3. Оборудование по п.2, при этом оборудование выполнено с возможностью получать последовательность значений подобия на основе значений подобия для сдвигов d по времени в диапазоне, начинающемся между 1 мс и 4 мс и идущем вплоть до сдвигов по времени между 15 мс и 25 мс.

4. Оборудование по п.1, при этом оборудование выполнено с возможностью пошагово увеличивать длину частей сигнала с шагами в один дискретный отсчет с увеличением сдвига по времени.

5. Оборудование по п.1, при этом оборудование выполнено с возможностью увеличивать длину частей сигнала с целочисленной точностью с увеличением сдвига по времени.

6. Оборудование по п.1, при этом оборудование выполнено с возможностью увеличивать длину частей сигнала, между предварительно определенной минимальной длиной (320a) и предварительно определенной максимальной длиной (320b), линейно в зависимости от заданного сдвига по времени,

при этом предварительно определенная минимальная длина используется для самого короткого сдвига (252b) по времени, соответствующего максимальной частоте основного тона, и

при этом предварительно определенная максимальная длина используется для самого длинного сдвига (252c) по времени, соответствующего минимальной частоте основного тона.

7. Оборудование по п.1, при этом оборудование выполнено с возможностью вычислять значение (230a) () автокорреляции на основе двух сдвинутых по времени частей сигнала аудиосигнала, которые сдвинуты по времени на заданный сдвиг (d) по времени, чтобы получать значение подобия,

при этом количество значений дискретных отсчетов аудиосигнала, учитываемых при вычислении значения автокорреляции, определяется выбранной длиной.

8. Оборудование по п.7, при этом оборудование выполнено с возможностью получать значения подобия на основе следующего:

,

где - дискретный отсчет аудиосигнала во время n, - информация о длине частей сигнала для заданного сдвига d по времени, и d - заданный сдвиг по времени.

9. Оборудование по п.1, при этом оборудование выполнено с возможностью получать информацию (254a) местоположения максимального значения из множества значений подобия; и

при этом оборудование выполнено с возможностью получать информацию основного тона на основе информации местоположения максимального значения.

10. Оборудование по п.1, при этом оборудование выполнено с возможностью применять нормирование (251) к значению () подобия с использованием по меньшей мере двух значений (, ) нормирования, где

первое значение () нормирования представляет статистическую характеристику первой части из заданной пары частей, и

второе значение () нормирования представляет статистическую характеристику второй части из заданной пары частей,

чтобы получать нормированное значение (251a) () подобия.

11. Оборудование по п.10, при этом оборудование выполнено с возможностью получать нормированное значение подобия на основе следующего:

,

где - значение подобия, и - функция окна.

12. Оборудование по п.10, при этом оборудование выполнено с возможностью рекурсивно получать значение нормирования для нового сдвига d по времени из значения нормирования для предыдущего сдвига по времени посредством суммирования одного или более значений энергии дискретных отсчетов сигналов, включенных в новую часть сигнала и не включенных в старую часть сигнала, и посредством вычитания одного или более значений энергии дискретных отсчетов сигналов, включенных в старую часть сигнала и не включенных в новую часть сигнала.

13. Оборудование по п.10, при этом оборудование выполнено с возможностью получать значение нормирования на основе следующего:

,

где - дискретный отсчет аудиосигнала, содержащийся в части сигнала согласно сдвигу d по времени, но не содержащийся в части сигнала согласно сдвигу по времени, - дискретный отсчет аудиосигнала, не содержащийся в части сигнала согласно сдвигу d по времени, но содержащийся в части сигнала согласно сдвигу по времени аудиосигнала, и - значение нормирования, полученное для ранее учтенной части сигнала согласно сдвигу по времени .

14. Оборудование по п.1, при этом оборудование выполнено с возможностью определять информацию касаемо характеристики (255a) идентифицированного максимума последовательности значений () подобия, полученного для различных сдвигов (d) по времени; и

при этом оборудование выполнено с возможностью предоставлять частоту (250) основного тона на основе идентифицированного максимума, если информация касаемо характеристики идентифицированного максимума указывает то, что идентифицированный максимум представляет собой локальный максимум; и

при этом оборудование выполнено с возможностью переходить к учету одного или более других значений подобия для оценки частоты основного тона, если информация касаемо характеристики максимума не указывает то, что максимум представляет собой локальный максимум.

15. Оборудование по п.14, при этом оборудование выполнено с возможностью определять, расположен ли идентифицированный максимум на границе последовательности значений подобия, в качестве информации относительно характеристики идентифицированного максимума.

16. Оборудование по п.14, при этом оборудование выполнено с возможностью избирательно учитывать одно или более других значений подобия за пределами границы последовательности значений подобия, если информация касаемо характеристики идентифицированного максимума указывает то, что идентифицированный максимум расположен на границе последовательности значений подобия.

17. Оборудование по п.1, при этом оборудование выполнено с возможностью определять информацию основного тона в поиске без обратной связи или в поиске с обратной связью.

18. Способ определения информации основного тона на основе аудиосигнала, содержащий этапы, на которых:

получают значение (; ) подобия, связанное с заданной парой частей аудиосигнала, имеющих заданный сдвиг (d) по времени;

выбирают длину () частей сигнала для аудиосигнала, используемую, чтобы получать значение (; ) подобия для заданного сдвига (d) по времени, в зависимости от заданного сдвига (d) по времени; и

при этом длина () частей сигнала выбирается таким образом, что она линейно зависит от заданного сдвига (d) по времени, в пределах допуска в ±1 дискретный отсчет;

при этом согласно способу длину частей сигнала выбирают на основе следующего:

,

где d - заданный сдвиг по времени, - предварительно определенная минимальная длина для частей сигнала, - предварительно определенное наименьшее значение рассматриваемого запаздывания основного тона, и - коэффициент, на который масштабируется заданный сдвиг по времени, и

при этом согласно способу длину частей сигнала выбирают как целочисленное значение, близкое к .

19. Машиночитаемый носитель, содержащий хранящийся в нем программный код, который при его исполнении компьютером или микроконтроллером предписывает компьютеру или микроконтроллеру осуществлять способ по п.18.

20. Оборудование для определения информации (160; 260) основного тона на основе аудиосигнала (110; 210),

при этом оборудование выполнено с возможностью получать значение (130a; 230a, 251a) (; ) подобия, связанное с заданной парой частей аудиосигнала, имеющих заданный сдвиг (120; 220) (d) по времени;

при этом оборудование выполнено с возможностью выбирать длину (140a; 240a) () частей сигнала для аудиосигнала, используемую, чтобы получать значение (; ) подобия для заданного сдвига (d) по времени, в зависимости от заданного сдвига (d) по времени;

причем оборудование выполнено с возможностью выбирать длину () частей сигнала таким образом, что она линейно зависит от заданного сдвига (d) по времени, в пределах допуска в ±1 дискретный отсчет;

при этом оборудование выполнено с возможностью определять информацию касаемо характеристики (255a) идентифицированного максимума последовательности значений () подобия, полученного для различных сдвигов (d) по времени; и

при этом оборудование выполнено с возможностью предоставлять частоту (250) основного тона на основе идентифицированного максимума, если информация касаемо характеристики идентифицированного максимума указывает то, что идентифицированный максимум представляет собой локальный максимум; и

при этом оборудование выполнено с возможностью переходить к учету одного или более других значений подобия для оценки частоты основного тона, если информация касаемо характеристики максимума не указывает то, что максимум представляет собой локальный максимум.

21. Способ определения информации основного тона на основе аудиосигнала, содержащий этапы, на которых:

получают значение (; ) подобия, связанное с заданной парой частей аудиосигнала, имеющих заданный сдвиг (d) по времени;

выбирают длину () частей сигнала для аудиосигнала, используемую, чтобы получать значение (; ) подобия для заданного сдвига (d) по времени, в зависимости от заданного сдвига (d) по времени; и

при этом длина () частей сигнала выбирается таким образом, что она линейно зависит от заданного сдвига (d) по времени, в пределах допуска в ±1 дискретный отсчет;

при этом способ содержит этап, на котором определяют информацию касаемо характеристики (255a) идентифицированного максимума последовательности значений () подобия, полученного для различных сдвигов (d) по времени; и

при этом способ содержит этап, на котором предоставляют частоту (250) основного тона на основе идентифицированного максимума, если информация касаемо характеристики идентифицированного максимума указывает то, что идентифицированный максимум представляет собой локальный максимум; и

при этом способ содержит этап, на котором переходят к учету одного или более других значений подобия для оценки частоты основного тона, если информация касаемо характеристики максимума не указывает то, что максимум представляет собой локальный максимум.

22. Машиночитаемый носитель, содержащий хранящийся в нем программный код, который при его исполнении компьютером или микроконтроллером предписывает компьютеру или микроконтроллеру осуществлять способ по п.21.

Документы, цитированные в отчете о поиске Патент 2021 года RU2745717C2

MEDAN и др
"SUPER RESOLUTION PITCH DETERMINATION OF SPEECH SIGNALS", IEEE TRANSACTIONS ON SIGNAL PROCESSING, IEEE SERVICE CENTER, NEW YORK, NY, US, vol
Машина для изготовления проволочных гвоздей 1922
  • Хмар Д.Г.
SU39A1
Токарный резец 1924
  • Г. Клопшток
SU2016A1
АУДИОПРОЦЕССОР И СПОСОБ ОБРАБОТКИ ЗВУКА С ВЫСОКОКАЧЕСТВЕННОЙ КОРРЕКЦИЕЙ ЧАСТОТЫ ОСНОВНОГО ТОНА (ВАРИАНТЫ) 2009
  • Эдлер Бернд
  • Диш Саша
  • Джиджер Ралф
  • Баер Стефан
  • Краемер Ульрих
  • Фухс Гильом
  • Нуендорф Макс
  • Мултрус Маркус
  • Шуллер Гералд
  • Попп Харальд
RU2436174C2
EP 2830064 A1, 28.01.2015
WO 20015010949 A1, 29.01.2015
WO 2010003563 A1, 14.01.2010
US 20130117015 A1, 09.05.2013.

RU 2 745 717 C2

Авторы

Леконт, Жереми

Томасек, Адриан

Даты

2021-03-31Публикация

2017-10-02Подача