Область техники
Решение относится к области обработки аудиосигнала, а именно к решениям по внедрению сообщений в аудиосигнал.
Уровень техники
В настоящее время существует потребность незаметно для человеческого уха внедрять специальные сообщения, которые в дальнейшем могут быть извлечены и обработаны. Это может использоваться в различных прикладных областях, например, в рекламе, для идентификации ее источника распространения, защите интеллектуальной собственности и др. области.
Из уровня техники известна публикация " Huynh Ва Dieu. An Improvement for Hiding Data in Audio Using Echo Modulation.Proc. Second International Conference on Informatics and Engineering and Information Science. 2013/11/12 P. 127-132", в которой рассматривается способ эхомодуляции входного сигнала для передачи данных через компьютерную сеть.
Из уровня техники известна публикация "Mo Zhou, Shun-Dong Li, Xiang-Yang Luo3, Dao-Shun Wang. A New Echo Hiding Algorithm with High Robustness. International Journal of Automation and Power Engineering (IJAPE) Volume 2 Issue 4, May 2013", в которой рассматривается способ эхомодуляции входного сигнала для передачи данных. Основным отличием предлагаемого способа кодирования от представленного в является использование одинаковых параметров эхо-сигналов для обоих каналов входного сигнала, в то время как в используются разные параметры эхо-сигналов для каждого канала входного сигнала. Данное отличие ограничивает использование способа при передачи закодированного аудиосигнала на декодер через воздушную среду и моно микрофон.
Из уровня техники известна публикация "Kadir Tekeli, Rifat Asliyan. A COMPARISON OF ECHO HIDING METHODS. ICONTES2017: International Conference on Technology, Engineering and Science. The Eurasia Proceedings of Science, Technology, Engineering & Mathematics (EPSTEM). Volume 1, Pages 397-403", в которой рассматриваются возможные варианты эхомодуляции входного сигнала, наиболее близким из которых является биполярная эхомодуляция (BBFEH). Основным отличием предлагаемого способа кодирования от представленного является кодирование нескольких битов данных для одного блока входного сигнала вместо одного.
Сущность
Технический результат, достигаемый заявленным техническим решением, заключается в увеличении дальности распознавания (эффективность работы) при сохранении метрики уровня раздражения звука (ODG) в допустимых пределах.
В одном из вариантов реализации, представленном на фиг. 1, способ кодирования аудиометки, выполняемый по крайней мере одним процессором, включает следующие шаги: получают массив сэмплов входного аудиосигнала длиной Р, аудиометку размером Q байт, коэффициент ослабления аудиометки, параметры эхо-сигнала; дополняют аудиометку контрольной суммой и осуществляют ее помехоустойчивое кодирование, после чего дополняют получившуюся битовую последовательность до кратной N длины K бит, где N задается параметрами эхо-сигнала; разделяют битовую последовательность K, полученную на предыдущем шаге, на L блоков длиной N бит; разделяют массив сэмплов входного аудиосигнала на L блоков по М сэмплов; для каждого блока входного аудиосигнала, полученного на предыдущем шаге, формируют блок отфильтрованного аудиосигнала длиной М сэмплов с использованием частотного фильтра с линейной фазовой характеристикой, а амплитуда отфильтрованного блока аудиосигнала ослабляется с использованием коэффициента ослабления аудиометки; для каждого блока входного аудиосигнала, обработанного на предыдущем шаге, формируется две и более пары эхо-сигналов с положительным или отрицательным знаком на основании полученных параметров эхо-сигнала; формируют результирующий аудиосигнал путем поэлементного сложения блоков входного сигнала и соответствующего ему блока, состоящего из одного и более эхо-сигналов, полученных на предыдущем шаге.
В некоторых вариантах реализации формируют результирующий аудиосигнал путем поэлементного сложения блоков входного сигнала и соответствующего ему блока, состоящего из одного и более эхо-сигналов, полученных на предыдущем шаге, с использованием оконной функции Ханна или Блэкмана.
В оном из вариантов реализации способ кодирования аудиометки, выполняемый по крайней мере одним процессором, включает следующие шаги:
Получают массив сэмплов входного аудиосигнала длиной Р, аудиометку размером Q байт, коэффициент ослабления аудиометки, параметры кодирования, параметры эхо-сигнала;
Дополняют аудиометку контрольной суммой и осуществляют ее помехоустойчивое кодирование, после чего дополняют получившуюся битовую последовательность до кратной N длины K бит, где N задается параметрами эхо-сигнала;
Разделяют битовую последовательность K, полученную на предыдущем шаге, на L блоков длиной N бит;
Разделяют массив сэмплов входного аудиосигнала на L блоков по М сэмплов;
Для каждого блока входного аудиосигнала, полученного на предыдущем шаге, формируют блок отфильтрованного аудиосигнала длиной М сэмплов с использованием частотного фильтра с линейной фазовой характеристикой, а амплитуда отфильтрованного блока сигнала ослабляется с использованием коэффициента ослабления аудиометки;
Для каждого блока входного аудиосигнала, обработанного на предыдущем шаге, формируется две и более пары эхо-сигналов с положительным или отрицательным знаком на основании полученных параметров эхо-сигнала;
Формируют результирующий аудиосигнал путем поэлементного сложения блоков входного аудиосигнала и соответствующего ему блока, состоящего из одного и более эхо-сигналов, полученных на предыдущем шаге.
В одном из вариантов реализации формируют результирующий аудиосигнал путем поэлементного сложения блоков входного сигнала и соответствующего ему блока, состоящего из одного и более эхо-сигналов, полученных на предыдущем шаге, с использованием оконной функции Ханна или Блэкмана.
В одном из вариантов реализации параметрами кодирования являются:
• Алгоритм (способ) определения контрольной суммы;
• Алгоритм (способ) помехоустойчивого кодирования;
• параметры помехоустойчивого кодирования;
• используемый частотный фильтр.
В одном из вариантов реализации параметрами эхо-сигнала являются:
• фазовое смещение относительно исходного сигнала;
• полярность фазового смещения;
• возможное количество задержек эхо-сигнала;
• подстроечный коэффициент ослабления эхо-сигнала;
• постоянный коэффициент ослабления эхо-сигнала.
В одном из вариантов реализации, представленном на фиг. 2, способ декодирования аудио-метки в аудиосигнале, выполняемый по крайней мере одним процессором, включает следующие шаги:
Получают массив сэмплов входного аудиосигнала длиной Р, параметры декодирования, параметры эхо - сигнала - фазовое смещение и полярность фазового смещения;
Разделяют массив сэмплов входного аудиосигнала на L блоков по М сэмплов;
Для каждого блока входного аудиосигнала, полученного на предыдущем шаге, формируют блок отфильтрованного сигнала длиной М сэмплов с использованием частотного фильтра с линейной фазовой характеристикой;
Для каждого блока отфильтрованного аудиосигнала, полученного на предыдущем шаге, определяют дискретный кепстр, из которого берутся значения всех возможных смещений используемых в при кодировании пар эхо-сигналов и выбирается та пара, у которой разброс значений дискретного кепстра на позициях соответствующих фазовым задержкам максимален, затем на основании положения этой пары и порядка полярностей в ней совместно определяют N битов данных;
Определяют достоверность полученных N битов с помощью нормализованной экспоненциальной функции;
Осуществляют выбор максимальной достоверности с учетом определенной на предыдущем шаге нормализованной экспоненциальной функции и формируют последовательность из N битов и их достоверностей общей длиной K;
Из полученной на предыдущем шаге последовательности с использованием помехоустойчивого декодера (декодирование с использованием алгоритма помехоустойчивого кодирования/декодирования) извлекается декодированная аудиометка с контрольной суммой длиной R байт;
В ответ на совпадение контрольной суммы декодированной аудиометки аудиометка считается распознанной, иначе аудиометка игнорируется.
В одном из вариантов реализации параметрами декодирования являются:
• алгоритм определения контрольной суммы;
• алгоритм помехоустойчивого кодирования;
• параметры помехоустойчивого кодирования;
• используемый частотный фильтр.
В одном из вариантов реализации система декодирования аудиометки согласно фиг. 3 реализована с возможностью выполнения способа декодирования, описанного ранее.
В одном из вариантов реализации система кодирования аудиометки согласно фиг. 3 реализована с возможностью выполнения способа кодирования, описанного ранее.
Подробное описание
Аудиометка представляет собой последовательность эхо-модуляций частотно отфильтрованного аудиосигнала, которая содержит в себе закодированную цифровую последовательность и при этом не вызывает раздражение, например, по метрике ITU-R BS.1387-1.
Значение эхо-сигнала - это некое число сэмплов на которое один сигнал отстает от другого.
Блок - это набор из сэмплов, иными словами, массив. Блок может состоять из исходных сэмплов, из задержанных во времени сэмплов (собственно, эхо), или из их совокупности.
Способ кодирования аудиометки, представленный на фиг. 1, включает следующие шаги:
Получают массив сэмплов входного аудиосигнала длиной Р, аудиометку размером Q байт, коэффициент ослабления аудиометки, параметры эхо-сигнала
Аудиоданные или аудиосигнал длиной Р представляют в виде массива сэмплов со следующими параметрами:
• Частота дискретизации: от 16 до 256 кГц;
• Количество каналов: моно или стерео (стерео только при кодировании, так при передаче сигнала «по воздуху» эхо-сигналы смешаются);
• Разрядность данных: 16 или 32 бита.
Аудиометку (данные/сообщение вносимое в аудиосигнал) представляют в цифровом виде длиною (размером) Q байт.
Параметры эхо-сигналов i (от 1 до 2N-1) определяются для конкретной реализации путем последовательного увеличения (перебор) i с одновременным подбором di, коэффициентов a, w (эмпирический подбор).
В качестве параметров эхо-сигнала выступают:
• фазовое смещением di относительно исходного сигнала
• полярность исходного сигнала ±α/w, где
• α - постоянный коэффициент ослабления эхо-сигнала, диапазон значений (0,1), тип: double,
• w - подстроечный коэффициент ослабления эхо-сигнала, который может изменяться в зависимости от интенсивности входного сигнала, диапазон значений (0,1), тип: double,
• возможное количество задержек эхо-сигнала (от 1 до 2N-1).
Коэффициенты ослабления аудиометки находятся в диапазоне от 0 до 1 (вещественное число).
Параметров эхо-сигнала всего 2*i+2 (di, знак полярность, a, w):
1. Всего i фазовых смещений (или задержек эхо-сигнала, это одно и то же)
2. У каждого смещения есть своя полярность в виде знака (+1 или -1)
3. Для всех фазовых смещений с их полярностями есть общий постоянный коэффициент ослабления α
4. Для всех фазовых смещений с их полярностями есть общий подстроечный коэффициент ослабления w.
Осуществляют дополнение аудиометки контрольной суммой и ее помехоустойчивое кодирование, после чего дополняют получившуюся битовую последовательность до кратной N длины K бит, где N определяется параметрами эхо-сигнала
В качестве способа расчета контрольной суммы может использоваться способ (алгоритм) CRC8, CRC16, CRC32, Adler-32, Контрольная сумма Флетчера, FNV, MurmurHash2, MurmurHash2A, MurmurHash3 и др.
Корректирующий код (также помехоустойчивый код) - код, предназначенный для обнаружения и исправления ошибок. В качестве способов помехоустойчивого кодирования могут использоваться линейные циклические коды, БЧХ коды, коды коррекции ошибок Рида-Соломона, сверточные коды, каскадное кодирование.
Исходный цифровой код аудиометки размером Q байт дополняется кодом контрольной суммы, например CRC16 или CRC32 для Q=2 или 4 байт. Длина CRC выбирается такой, чтобы при данном R выполнялось условие К0<K. Получается сообщение с контрольной суммой общей длиной R байт, которое дополняется битами коррекции с помощью способа сверточного кодирования. Операция двоичного сверточного кодирования содержит сдвигающие регистры из k разрядов и сумматоры по модулю 2 для образования бит в выходной последовательности.
Параметры сверточного кодирования выбираются в зависимости от вносимой меткой искажений оригинального звука и желаемой устойчивости метки к шумам:
R - общая длина сообщения, байт;
k - длина регистра сдвига (количество разрядов, например, 2, 3, 4…);
r - число регистров сдвига, отношение количества бит на выходе сверточного кодирования к одному биту на входе (например, 1, 2, 3…).
Количество бит K0, получаемых после операции сверточного кодирования, определяется используемыми параметрами:
K0=(8R+(k-1))⋅r (например, R=1, k=2, r=1, то K0=9).
Полученная последовательность длиной K0 бит дополняется до кратной N длины Kбит.
Допустим, длина аудиометки 2 байта (16 бит). В качестве контрольной суммы используется CRC16. Осуществляют дополнение аудиометки контрольной суммой и ее помехоустойчивое кодирование, т.е. 16 бит аудиометки + дополняется CRC16, вычисленным (определенным) для аудиометки. Полученную последовательность из 32 бит кодируют при помощи помехоустойчивого кодирования и дополняют до длины кратной N (N=log2(i)+1, где i возможное количество задержек эхо-сигнала, т.о. при i=2, N=2).
Размер N определяется выбранными параметрами эхо-сигнала:
• di - фазовые задержки (эхо сигнала), т.е. задержки исходного сигнала на количество сэмплов, где i от 1 до 2N-1. di задается под конкретную реализацию, например, исходя из необходимых параметров качества сигнала, где в качестве метрик качества (например, согласно стандарту ITU-R BS. 1387-1) могут быть, но не ограничиваясь, ODG (Objection Distortion (уровень раздражения звука), https://files.stroyinf.ru/Data2/1/4293733/4293733966.pdf, http://nauteh-journal.ru/files/e8ccd601-6bcd-436b-8f33-bdeel4e607e8), LUFS (https://digital.gov.ru/ru/documents/4635, https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.1770-0-200607-S!!PDF-E.pdf)
• полярность - положительная или отрицательная, при положительной полярности эхо сигнал добавляется к исходному, при отрицательной - вычитается из него.
Если сигналы эхо униполярные, то N=log2(i), а если биполярные, то N=log2(i)+1.
В одном из вариантов реализации используется 150 сэмплов (могут быть и другие значения, но не ограничиваясь, например, 100-200), количество задержек может быть в диапазоне от 4 до 20, но не ограничиваясь.
Разделяют битовую последовательность K, полученную на предыдущем шаге, на L блоков длиной N бит
Разделяют массив сэмплов входного аудиосигнала на L блоков по М сэмплов
Массив сэмплов входного аудиосигнала длиной Р разделяется на L блоков фиксированного размера, каждый из которых содержит М сэмплов, где М=P/L.
Для каждого блока входного аудиосигнала, полученного на предыдущем шаге, формируют блок отфильтрованного сигнала длиной М сэмплов с использованием частотного фильтра с линейной фазовой характеристикой, а амплитуда отфильтрованного блока сигнала ослабляется с использованием коэффициента ослабления аудиометки
Для каждого блока входного сигнала формируется блок отфильтрованного сигнала длиной М сэмплов с использованием (цифрового) частотного фильтра с линейной фазовой характеристикой.
где ƒ - входной сигнал, bƒ - импульсная характеристика (ядро) фильтра.
В качестве частотного фильтра с линейной фазовой характеристикой может использоваться КИХ-фильтр с линейной фазой (симметричная/антисимметричная импульсная характеристика и четное/нечетное N, см. https://scask.ru/c_book_r_cos.php?id=36).
После того, как произвели фильтрацию блока, осуществляют его масштабирование (ослабляют сигнал с использованием коэффициента ослабления)
Для каждого блока входного аудиосигнала, обработанного на предыдущем шаге, формируется два и более значений смещений эхо-сигналов на основании полученных параметров эхо-сигнала
В заявленном техническом решении для кодирования битовой последовательности используется два и более биполярных эхо-сигнала.
Кодирование N бит осуществляется путем применения полученных ранее (выбранных) параметров эхо-сигнала: фазовым смещением относительно исходного сигнала и полярностью фазового смещения с учетом подстроечных коэффициентов Результирующий эхо-сигнал получаем путем сложения двух и более эхо-сигналов:
где n - количество фазовых задержек
Кодирование N-битной двоичной последовательности получаем следующим способом:
При этом должно обязательно выполняться следующее равенство:
Значение битовой последовательности получаем из выражений:
Представленное ядро кодирования при использовании двух и более биполярных эхо-сигналов позволяет реализовать более высокую скорость передачи данных и вносить менее слышимые человеческим ухом искажения исходного сигнала (ODG метрика).
Формируют результирующий сигнал путем поэлементного сложения блоков входного сигнала и блоков, состоящих из одного и более эхо-сигналов, полученных на предыдущем шаге.
Результирующий сигнал получается поэлементным сложением блоков входного
сигнала и блоков, состоящих из одного и более эхо-сигналов, полученных на предыдущем шаге, с использованием оконной функции W(i), например, Ханна или Блэкмана, для улучшения частотного спектра на границах каждого блока:
где ƒ(i) - эхо-сигнал, W(i) - оконная функция.
М сэмплам входного сигнала соответствует М сэмплов блока эхо-сигналов, которые содержат N бит из битовой последовательности сообщения с длиной K.
Далее опишем как осуществляется декодирование сигнала после его кодирования при помощи описанного ранее способа кодирования.
Способ декодирования аудиометки, представленный на фиг. 2, включает следующие шаги: Получают массив сэмплов входного аудиосигнала длиной Р.
Массив сэмплов входного аудиосигнала длиной Р разделяется на L блоков фиксированного размера, каждый из которых содержит М сэмплов, где М=P/L и соответственно L=Р/М.
Для каждого блока входного сигнала формируется блок отфильтрованного сигнала длиной М сэмплов с использованием частотного фильтра с линейной фазовой характеристикой (описан ранее).
Для каждого блока отфильтрованного сигнала длиной М сэмплов вычисляется дискретный кепстр
(htrps://support.ircam.fr/docs/AudioSculpt/3.0/co/Discrete%20Cepstrum.html), из которого берутся значения для всех возможных смещений используемых в энкодере пар эхо-сигналов (di). Далее из набора пар выбирается та, у которой разброс значений дискретного кепстра максимален (Если обозначить дискретный кепстр как С, то это такое i, при котором достигается максимум выражения |C(di)-C(di+1)|. Положение этой пары и порядок знаков в ней совместно определяют N битов данных.
Для вычисления кепстра может использоваться формула:
В зависимости от значений дискретного кепстра остальных пар эхо-сигналов вычисляется достоверность полученных N битов с помощью нормализованной экспоненциальной функции (softmax).
После анализа L блоков (выбора максимальной достоверности на выходе нормализованной экспоненциальной функции) исходного сигнала формируется последовательность из N битов и их достоверностей общей длиной K. Т.е. для каждого блока из L определяется:
i, при котором достигается максимум выражения и знак
в виде дискретной переменной [0,1]. В результате получаем:
Два массива из наборов [N, А] являются входными данными для алгоритма сверточного декодера, каждый длиной K, где K=L*N.
Из полученной последовательности с использованием сверточного декодера (алгоритма помехоустойчивого декодирования (обратного кодированию), описанного в части кодирования аудиометки) формируется восстановленное сообщение с контрольной суммой длиной R байт.
Определяется контрольная сумма восстановленной аудиометки (сообщения), которая сравнивается с контрольной суммой, взятой из восстановленной аудиометки (сообщения). Контрольная сумма используется для определения корректности значения кода аудиометки.
Контрольная сумма вычисляется для аудиометки длиной Q байт и передается вместе с ней. Соответственно, если сообщение не повреждено, вычисленная и полученная контрольные суммы будут совпадать. Если повреждено - будет различие. Аудиометка длиной Q содержит только полезные данные. Контрольная сумма вычисляется и передается вместе с меткой. Общая длина метки и ее контрольной суммы = R.
В случае совпадения контрольной суммы метка считается распознанной и может быть в дальнейшем использована по назначению. В случае несовпадения - метка игнорируется.
В некоторых вариантах реализации выводится результат в виде восстановленного кода метки размером Q байт, если вычисленная (определенная) и восстановленная контрольные суммы равны.
В некоторых вариантах реализации выполняют/запускают функции, обрабатывающие аудиометку, например, идентификацию источника аудио/видео или идентификацию самого проигрываемого аудио/видеофрагмента, например, рекламного сообщения или ролика.
На фиг. 3 представлен примерный вариант реализации компьютерной системы в соответствии с некоторыми вариантами реализации настоящего изобретения.
Компьютерная система может быть подключена (например, по сети) к другим компьютерным системам в локальной сети, интрасети, экстрасети или сети Интернет. Компьютерная система может работать в качестве сервера в сетевой среде клиент-сервер. Компьютерная система может быть персональным компьютером (PC), планшетным компьютером, ТВ-приставкой (STB), персональным цифровым помощником (PDA), мобильным телефоном или любым устройством, способным выполнять набор инструкций (последовательных или иных), определяющих действия, которые должны выполняться этим устройством. Кроме того, несмотря на то что проиллюстрирована только одна компьютерная система, термин «компьютер» также следует понимать как любую совокупность компьютеров, которые индивидуально или совместно выполняют набор (или несколько наборов) инструкций для выполнения любого одного или нескольких способов, описанных в настоящем описании.
Примерная компьютерная система 400 состоит из устройства 402 обработки данных, оперативного запоминающего устройства 404 (например, постоянного запоминающего устройства (ROM), динамической памяти с произвольным доступом (DRAM), такой как синхронная динамическая память с произвольным доступом (SDRAM)), и устройства 408 хранения данных, которые взаимодействуют друг с другом через шину 422.
Устройство 402 обработки данных представляет собой одно или несколько устройств обработки общего назначения, таких как микропроцессор, центральный процессор и т.п.
Устройство 402 обработки данных может быть микропроцессором с полным наборов команд (CISC), микропроцессором для вычисления сокращенных наборов команд (RISC), микропроцессором с очень длинным командным словом (VLIW), процессором, реализующим другие наборы команд, или процессором, реализующим сочетание наборов команд.
Устройство 402 обработки данных также может представлять собой одно или несколько устройств обработки специального назначения, таких как специализированная интегральная схема (ASIC), программируемая на месте матрица логических элементов (FPGA), цифровой сигнальный процессор (DSP), сетевой процессор и т.п. Устройство 402 обработки данных сконфигурировано для выполнения инструкций 430 с целью выполнения этапов способа 200 и системы 100, предназначенных для выполнения доверенной загрузки устройства с механизмом разделения функций заверения этапов загрузки между несколькими владельцами криптографических ключей а также для выполнения любых описанных выше операций.
Компьютерная система 400 может дополнительно включать сетевой интерфейс 406, устройство 412 визуального отображения (например, жидкокристаллический дисплей), буквенно-цифровое устройство 414 ввода (например, клавиатуру), устройство 416 управления курсором и устройство принятия внешнего воздействия 418. В одном варианте реализации устройство 412 визуального отображения, устройство 414 буквенно-цифрового ввода и устройство 416 управления курсором могут быть объединены в единый компонент или устройство (например, сенсорный жидкокристаллический дисплей).
Устройство принятия внешнего воздействия 418 представляет собой одно или несколько устройств или датчиков для принятия внешнего воздействия. В качестве устройства принятия внешнего воздействия может выступать, например, видеокамера, микрофон, сенсорный датчик и т.п.
Устройство 408 хранения данных может включать машиночитаемый носитель 410 данных, на котором хранятся инструкции 430, воплощающие любую одну или несколько методик или функций, описанных в настоящем документе (способ 200). Инструкции 430 также могут полностью или, по крайней мере, частично находиться в оперативной памяти 404 и/или на устройстве 402 обработки данных во время их выполнения компьютерной системой 400. Оперативная память 404 и устройство обработки 402 данных также представляют собой машиночитаемые носители данных. В некоторых реализациях инструкции 430 могут дополнительно передаваться или приниматься по сети 420 через сетевое интерфейсное устройство 406.
Несмотря на то, что в иллюстративных примерах машиночитаемый носитель 410 данных представлен в единственном числе, термин «машиночитаемый носитель» следует понимать как включающий в себя один или несколько носителей (например, централизованную или распределенную базу данных и (или) связанные с ней кэши и серверы), в которых хранится один или несколько наборов инструкций. Термин «машиночитаемый носитель» также следует понимать как включающий в себя какой-либо носитель, способный хранить, кодировать или переносить набор инструкций для выполнения машиной и вынуждающий машину выполнять любую одну или несколько методик настоящего изобретения.
Следовательно, термин «машиночитаемый носитель» должен включать, помимо прочего, твердотельные запоминающие устройства, оптические и магнитные носители данных.
Несмотря на то, что операции описанных в настоящем документе способов показаны и описаны в определенном порядке, порядок операций каждого способа может быть изменен таким образом, чтобы определенные операции могли выполняться в обратном порядке или чтобы определенные операции могли выполняться по меньшей мере частично одновременно с другими операциями. В некоторых реализациях инструкции или подоперации отдельных операций могут быть прерывающимися и (или) чередующимися.
Следует понимать, что приведенное выше описание является иллюстративным, а не ограничительным. Специалистам в данной области техники станут очевидны многие другие варианты реализации после прочтения и понимания, приведенного выше описания. Поэтому объем изобретения определяется со ссылкой на прилагаемую формулу изобретения, а также на полный объем эквивалентов, в отношении которых такая формула изобретения дает право предъявлять претензии.
В приведенном выше описании излагаются многочисленные детали. Однако специалисту в данной области техники будет очевидно, что аспекты настоящего изобретения могут быть реализованы на практике без этих конкретных деталей. В некоторых случаях, чтобы избежать затруднения понимания настоящего изобретения, хорошо известные структуры и устройства представлены в виде блок-схемы, а не подробно.
Следует отметить, что при отсутствии других конкретных указаний, как стало очевидно из последующего обсуждения, на протяжении всего описания такие термины в обсуждении, как «получение», «определение», «выбор», «хранение», «анализ» и т.п., относятся к действиям и процессам компьютерной системы или аналогичного электронного вычислительного устройства, которое манипулирует данными и преобразует данные, представленные в виде физических (электронных) величин в регистрах и памяти компьютерной системы, в другие данные, аналогичным образом представленные в виде физических величин в памяти или регистрах компьютерной системы или других таких устройствах хранения, передачи или отображения информации.
Настоящее изобретение также относится к устройству для выполнения операций, описанных в настоящем документе. Это устройство может быть специально сконструировано для требуемых целей или может содержать компьютер общего назначения, избирательно активируемый или реконфигурируемый компьютерной программой, хранящейся в компьютере. Такая компьютерная программа может храниться на машиночитаемом носителе данных, например, на дисках любого типа, включая дискеты, оптические диски, компакт-диски и магнитно-оптические диски, постоянные запоминающие устройства (ROM), оперативную память (RAM), программируемые постоянные запоминающие устройства (EPROM), электронно-перепрограммируемые постоянные запоминающие устройства (EEPROM), магнитные или оптические карты или носители любого типа, пригодные для хранения электронных инструкций, каждый из которых подключен к компьютерной системной шине.
Представленные в настоящем документе алгоритмы/способы, по своей сути, не связаны с конкретным компьютером или другим устройством. Различные системы общего назначения могут использоваться с программами в соответствии с приведенными в настоящем документе положениями, либо же будет удобнее создать более специализированное устройство для выполнения требуемых этапов способа. Требуемая структура для разнообразных таких систем будет выглядеть так, как указано в описании. Кроме того, аспекты настоящего изобретения не описаны со ссылкой на конкретный язык программирования. Следует иметь в виду, что для реализации положений настоящего изобретения могут использоваться различные языки программирования, как описано в настоящем документе.
Варианты реализации настоящего изобретения могут быть представлены в виде программного продукта или программного обеспечения, включающего машиночитаемый носитель с сохраненными на нем инструкциями, которые могут использоваться для программирования компьютерной системы (или других электронных устройств) с целью выполнения процесса в соответствии с настоящим изобретением. Машиночитаемый носитель включает любой механизм для хранения или передачи информации в форме, читаемой машиной (например, компьютером). К примеру, машиночитаемый (например, читаемый компьютером) носитель включает машиночитаемый (например, читаемый компьютером) носитель информации (например, постоянное запоминающее устройство (ROM), оперативную память (RAM), носитель информации на магнитных дисках, оптический носитель информации, устройства флэш-памяти).
Слова «пример» или «приведенный в качестве примера» в настоящем документе означают пример, случай или иллюстрацию. Любой аспект или решение, описанные в настоящем документе как «пример» или «приведенный в качестве примера», необязательно должны рассматриваться как предпочтительный или преимущественный по сравнению с другими аспектами или решениями. Скорее, использование слов «пример» или «приведенный в качестве примера» предназначено для представления концепций с практической точки зрения. При использовании в настоящей заявке термин «или» предназначен для обозначения включающего «или», а не исключающего «или». Кроме того, использование термина «реализация», «один вариант реализации», «пример реализации» или «один пример реализации» во всем тексте не означает один и тот же вариант или пример реализации, если только они не описаны как таковые. Кроме того, термины «первый», «второй», «третий», «четвертый» и схожее, используемые в настоящем документе, предназначены для обозначения различных элементов и необязательно имеют порядковое значение в соответствии с их числовым обозначением.
В то время как многие изменения и модификации изобретения без сомнения станут очевидными для специалиста, обладающего обычной квалификацией в данной области техники, после прочтения приведенного выше описания следует понимать, что любой конкретный вариант реализации, показанный и описанный в качестве иллюстрации, никоим образом не должен рассматриваться как ограничивающий. Поэтому ссылки на детали различных вариантов реализации не предназначены для ограничения объема формулы изобретения, которая сама по себе содержит только признаки, рассматриваемые как раскрытие изобретения.
название | год | авторы | номер документа |
---|---|---|---|
УСТРОЙСТВО И СПОСОБ ФИЛЬТРАЦИИ ПРИ КОДИРОВАНИИ ВИДЕО | 2019 |
|
RU2781233C2 |
СПОСОБ И УСТРОЙСТВО ДЛЯ КВАНТОВАНИЯ ИНФОРМАЦИОННОГО СИГНАЛА | 2005 |
|
RU2337413C2 |
СПОСОБ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ АУДИОСИГНАЛА И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ | 2006 |
|
RU2376656C1 |
АУДИОКОДИРОВАНИЕ | 2003 |
|
RU2325046C2 |
СПОСОБ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ АУДИОСИГНАЛА И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ | 2006 |
|
RU2473062C2 |
КАНАЛЬНОЕ КОДИРОВАНИЕ НА ОСНОВЕ КОМПЛЕКСНОГО ПРЕОБРАЗОВАНИЯ С ЧАСТОТНЫМ КОДИРОВАНИЕМ С РАСШИРЕННОЙ ПОЛОСОЙ | 2007 |
|
RU2555221C2 |
СПОСОБЫ И УСТРОЙСТВА ДЛЯ ФОРМИРОВАНИЯ ИЛИ ДЕКОДИРОВАНИЯ БИТОВОГО ПОТОКА, СОДЕРЖАЩЕГО ИММЕРСИВНЫЕ АУДИОСИГНАЛЫ | 2019 |
|
RU2802677C2 |
КАНАЛЬНОЕ КОДИРОВАНИЕ НА ОСНОВЕ КОМПЛЕКСНОГО ПРЕОБРАЗОВАНИЯ С ЧАСТОТНЫМ КОДИРОВАНИЕМ С РАСШИРЕННОЙ ПОЛОСОЙ | 2007 |
|
RU2422987C2 |
АУДИОКОДЕР И ДЕКОДЕР | 2019 |
|
RU2793725C2 |
АУДИОКОДЕР И ДЕКОДЕР | 2008 |
|
RU2456682C2 |
Изобретение относится к области вычислительной техники для обработки аудиосигнала. Технический результат заключается в увеличении дальности распознавания при сохранении метрики уровня раздражения звука (ODG) в допустимых пределах. Технический результат достигается за счет этапов, на которых: дополняют аудиометку контрольной суммой и осуществляют ее помехоустойчивое кодирование, после чего дополняют получившуюся битовую последовательность до кратной N длины K бит, где N задается параметрами эхо-сигнала; разделяют битовую последовательность K, полученную на предыдущем шаге, на L блоков длиной N бит; разделяют массив сэмплов входного аудиосигнала на L блоков по М сэмплов; для каждого блока входного аудиосигнала, полученного на предыдущем шаге, формируют блок отфильтрованного аудиосигнала длиной М сэмплов с использованием частотного фильтра с линейной фазовой характеристикой, а амплитуда отфильтрованного блока сигнала ослабляется с использованием коэффициента ослабления аудиометки; для каждого блока входного аудиосигнала, обработанного на предыдущем шаге, формируется две и более пары эхо-сигналов с положительным или отрицательным знаком на основании полученных параметров эхо-сигнала; формируют результирующий аудиосигнал путем поэлементного сложения блоков входного аудиосигнала и соответствующего ему блока, состоящего из одного и более эхо-сигналов, полученных на предыдущем шаге. 2 н. и 4 з.п. ф-лы, 3 ил.
1. Способ кодирования аудиометки, выполняемый по крайней мере одним процессором, включает следующие шаги:
• получают массив сэмплов входного аудиосигнала длиной Р, аудиометку размером Q байт, коэффициент ослабления аудиометки, параметры кодирования, параметры эхо-сигнала;
• дополняют аудиометку контрольной суммой и осуществляют ее помехоустойчивое кодирование, после чего дополняют получившуюся битовую последовательность до кратной N длины K бит, где N задается параметрами эхо-сигнала;
• разделяют битовую последовательность K, полученную на предыдущем шаге, на L блоков длиной N бит;
• разделяют массив сэмплов входного аудиосигнала на L блоков по М сэмплов;
• для каждого блока входного аудиосигнала, полученного на предыдущем шаге, формируют блок отфильтрованного аудиосигнала длиной М сэмплов с использованием частотного фильтра с линейной фазовой характеристикой, а амплитуда отфильтрованного блока сигнала ослабляется с использованием коэффициента ослабления аудиометки;
• для каждого блока входного аудиосигнала, обработанного на предыдущем шаге, формируется две и более пары эхо-сигналов с положительным или отрицательным знаком на основании полученных параметров эхо-сигнала;
• формируют результирующий аудиосигнал путем поэлементного сложения блоков входного аудиосигнала и соответствующего ему блока, состоящего из одного и более эхо-сигналов, полученных на предыдущем шаге.
2. Способ по п. 1, в котором формируют результирующий аудиосигнал путем поэлементного сложения блоков входного сигнала и соответствующего ему блока, состоящего из одного и более эхо-сигналов, полученных на предыдущем шаге, с использованием оконной функции Ханна или Блэкмана.
3. Способ по п. 1, в котором параметрами кодирования являются:
• алгоритм определения контрольной суммы;
• алгоритм помехоустойчивого кодирования;
• параметры помехоустойчивого кодирования;
• используемый частотный фильтр.
4. Способ по п. 1, в котором параметрами эхо-сигнала являются:
• фазовое смещение относительно исходного сигнала;
• полярность фазового смещения;
• возможное количество задержек эхо-сигнала;
• подстроечный коэффициент ослабления эхо-сигнала;
• постоянный коэффициент ослабления эхо-сигнала.
5. Способ декодирования аудиометки в аудиосигнале, выполняемый по крайней мере одним процессором, включает следующие шаги:
• получают массив сэмплов входного аудиосигнала длиной Р, параметры декодирования, параметры эхо-сигнала-фазовое смещение и полярность фазового смещения;
• разделяют массив сэмплов входного аудиосигнала на L блоков по М сэмплов
• для каждого блока входного аудиосигнала, полученного на предыдущем шаге, формируют блок отфильтрованного сигнала длиной М сэмплов с использованием частотного фильтра с линейной фазовой характеристикой
• для каждого блока отфильтрованного аудиосигнала, полученного на предыдущем шаге, определяют дискретный кепстр, из которого берутся значения всех возможных смещений используемых в при кодировании пар эхо-сигналов и выбирается та пара, у которой разброс значений дискретного кепстра на позициях соответствующих фазовым задержкам максимален, затем на основании положения этой пары и порядка полярностей в ней совместно определяют N битов данных;
• определяют достоверность полученных N битов с помощью нормализованной экспоненциальной функции;
• осуществляют выбор максимальной достоверности с учетом определенной на предыдущем шаге нормализованной экспоненциальной функции и формируют последовательность из N битов и их достоверностей общей длиной K;
• из полученной на предыдущем шаге последовательности с использованием помехоустойчивого декодера извлекается декодированная аудиометка с контрольной суммой длиной R байт;
• в ответ на совпадение контрольной суммы декодированной аудиометки аудиометка считается распознанной, иначе аудиометка игнорируется.
6. Способ по п. 1, в котором параметрами декодирования являются:
• алгоритм определения контрольной суммы;
• алгоритм помехоустойчивого кодирования;
• параметры помехоустойчивого кодирования;
• используемый частотный фильтр.
Устройство для закрепления лыж на раме мотоциклов и велосипедов взамен переднего колеса | 1924 |
|
SU2015A1 |
Колосоуборка | 1923 |
|
SU2009A1 |
US 10147433 B1, 04.12.2018 | |||
Способ восстановления спиралей из вольфрамовой проволоки для электрических ламп накаливания, наполненных газом | 1924 |
|
SU2020A1 |
УСТРОЙСТВО И СПОСОБ ДЛЯ ЭФФЕКТИВНОГО КОДИРОВАНИЯ МЕТАДАННЫХ ОБЪЕКТОВ | 2014 |
|
RU2666282C2 |
Авторы
Даты
2024-08-27—Публикация
2024-03-12—Подача