СПОСОБ УМЕНЬШЕНИЯ ИСКАЖЕНИЯ СЖАТОГО ВИДЕОИЗОБРАЖЕНИЯ И УСТРОЙСТВО ДЛЯ ЕГО РЕАЛИЗАЦИИ Российский патент 2007 года по МПК H04N7/26 H04N7/30 

Описание патента на изобретение RU2305377C2

Изобретение относится к области радиотехники и может быть использовано для цифровой обработки видеосигналов, передающих изображение.

Ограниченная пропускная способность телекоммуникационных каналов затрудняет качественную передачу изображений, в особенности динамических. Поэтому при передаче видеосигналов прибегают к их сжатию за счет изъятия повторяющихся или практически малоизменяющихся фрагментов с последующим их восстановлением при воспроизведении видеосигналов.

Действующие международные стандарты на представление видеосигнала (MPEG-1, MPEG-2, MPEG-4, Н-261, Н-263 и др.) не регламентируют способов сжатия видеосигнала, а только определяет, как должен выглядеть битовый поток кодированного видеосигнала, поэтому конкретные алгоритмы являются интеллектуальной собственностью фирм - производителей оборудования. Например, компания Сименс АГ запатентовала «Способ декодирования сжатых видеоданных с уменьшенной потребностью в памяти» (опубликованная заявка-аналог RU 97104164) [1]. Известна также американская разработка «Способ низкошумового кодирования и декодирования» (российский патент-аналог RU 2201654) [2], в которой требования к ширине полосы цифрового видеодекодера снижены за счет того, что стандартному МРЕG2-кодеру предшествует адаптивный процессор цифрового изображения, который адаптивно фильтрует сигнал по низким частотам. Японские специалисты предложили «Схему коррекции качества изображения», описанную в российской заявке-аналоге RU 2000133250 [3], в которой реализована схема, содержащая счетчик частоты появления уровня яркости, линейный интерполятор и корректор качества изображения. Известны отечественные разработки способов цифровой обработки видеосигналов, при которых осуществляется сжатие видеосигналов, передающих динамическое изображение. В патенте RU 2131172 описан «Интерполяционный способ сжатия телевизионного сигнала» [4], суть которого заключается в искусственном исключении сигналов строк и их восстановлении с помощью интерполяции по фрагментам не исключенных частей строк, что позволяет сократить избыточность телевизионного сигнала.

Известно, что в ходе разработки международных стандартов определились общие принципы обработки видеосигналов и их сжатия (см. Стандарт ISO-11172 и Стандарт ISO-13818, части 1, 2, 3, ноябрь 1994 г.) [5]. В частности, было установлено, что процесс сжатия цифрового видеосигнала может быть разбит на ряд последовательных операций: преобразование аналогового сигнала в цифровую форму, предварительная обработка, дискретное косинусное преобразование, квантование, кодирование.

Основная идея стандарта MPEG состоит в том, что из всего потока видеокадров изображения полностью передаются только избранные (опорные) кадры, для остальных же передаются лишь их изменения по отношению к опорным.

На самом деле в подвижном изображении от кадра к кадру в большинстве случаев меняется только его часть. Например, при выступлении диктора в новостях меняется только его мимика. Полная же смена кадра, когда очередной кадр нельзя восстановить как изменение предыдущего (в этом случае проще передать сам кадр), происходит относительно редко. Например, в американских фильмах это обычно 4-5 секунд, в европейских (и особенно в отечественных) этот интервал значительно больше.

По этой причине в MPEG-2 определено три типа кадров:

I-кадры (intra frames); Р-кадры (predicted frames); В-кадры (bidirectional frames).

I-кадры несут полноценное неподвижное изображение и вдобавок используются для построения Р- и В-кадров. P-кадры, то есть "предсказуемые", строятся на базе последнего (с точки зрения приемника) принятого I- или P-кадра. Правда если он сильно от него отличается (например, произошла смена плана), то P-кадр кодируется как I-кадр.

Наиболее сложно восстанавливаются В-кадры или "интерполируемые". Такой кадр может строиться либо как продолжение предыдущего I(Р)-кадра, либо как предшественник следующего за ним I(Р)-кадра, либо как интерполяция между обоими. При этом если В-кадр значительно отличается и от первого, и от второго, то он кодируется как I-кадр.

Все типы кадров группируются в определенной последовательности. Группа из 12 кадров образует так называемую GOP (Group of Pictures). Таким образом, при частоте 25 кадров в секунду новый I-кадр приходит максимум через 12×(1/25)=0,48 секунды. Вместе с ним восстанавливается полная (в известном смысле) идентичность передаваемого и принимаемого изображения). В связи с тем, что при декодировании для получения В-кадров необходимо уже иметь следующий за ним P-кадр, то при передаче последовательность кадров должна быть строго определенной.

Для кодирования отдельных кадров также существует специальная процедура. Например, для кодирования цветного изображения используется схема YUV, применяемая в обычном телевещании. При этом изображение раскладывается не по трем каналам цветности (схема RGB), а по двум каналам цветности (U, V) и по каналу яркости (Y).

Изображение в канале яркости - это, по существу, черно-белое изображение. Подмечено, что одна из особенностей восприятия изображения человеческим глазом состоит в том, что он обладает большим разрешением по каналу яркости (Y), чем по каналам цветности (U, V). Поэтому расслаивая цветной кадр на эти три составляющие, мы можем подвергнуть слои U и V большему сжатию, чем слой Y. Этот принцип был использован еще при создании цветного аналогового телевидения, где U, V передаются не одновременно, а поочередно.

I-кадр кодируется как статическое изображение следующим образом. Каждый слой кадра разбивается на блоки размером 8×8 точек и повергается дискретному косинус-преобразованию (ДКП, DCT). ДКП является полностью обратимым преобразованием. По сути ДКП - это частный случай преобразования Фурье для четной функции, когда функция раскладывается только на косинусные гармоники.

При использовании ДКП вместо значения пикселя (то есть уровня цветности и яркости) в ячейке блока ставится коэффициент ДКП. То есть блок преобразуется в свой двумерный спектр. Как правило, энергетический спектр изображения сосредотачивается в низкочастотных гармониках, поэтому коэффициенты, расположенные ближе к верхнему левому углу, имеют большие значения, чем остальные. Чем меньше соседние пиксели отличаются друг от друга в исходном блоке, тем ближе к нулю значения большинства коэффициентов ДКП.

Для пикселей монотонного изображения коэффициенты ДКП равны нулю, за исключением коэффициента в левом верхнем углу, который задает интенсивность изображения.

Полученные коэффициенты квантуются (то есть округляются до некоторой степени 2). Главная задача при этом - увеличить количество нулевых коэффициентов. По сути отбрасываются высокочастотные гармоники. Как показывает опыт, обычно это практически не влияет на качество изображения.

Полученный набор двоичных векторов (коэффициентов) сжимается известным кодом Хаффмана. Так формируется сжатый I-кадр, который с известной потерей качества можно восстановить независимо от других кадров. Р- и В-кадры кодируются с учетом их отличия от опорных I- и P-кадров. Поэтому они поддаются более сильному сжатию, чем I- кадры. При кодировании P-кадра (В-кадры кодируются практически аналогичным образом), он также разбивается на блоки 8х8 и сравнивается с исходным кадром (будем считать, что это I-кадр, хотя может быть и предшествующий P-кадр). Если некоторый блок в кодируемом P-кадре совпадает с аналогичным блоком в опорном кадре, то достаточно указать, что он тот же самый. Другим случаем является нахождение точно такого же блока в опорном I-кадре, но в другой позиции, поэтому вместо блока P-кадра можно указать лишь ссылку на другой блок I-кадра в виде вектора смещения. Остальные блоки кодируются так же, как в случае I-кадра.

Заметим, что если в подвижном изображении часть объектов будет двигаться поступательно (а это бывает часто), то несколько блоков будут закодированы одним и тем же вектором смещения. При последующем сжатии по методу Хаффмана это даст дополнительное увеличение степени компрессии P-кадра. С другой стороны, при увеличении степени сжатия большая часть коэффициентов становится равной нулю в результате квантования и, таким образом, блок кодируется либо только средним значением яркости, либо небольшим количеством низкочастотных коэффициентов ДКП. Поскольку блоки не перекрываются, то из-за разности средних значений яркости соседних блоков между ними возникает хорошо заметный перепад яркости, причем перепады яркости, как правило, в целом образуют регулярную клеточную структуру на декодированном изображении. В случае если при сжатии видео использовалась компенсации движения, блочная структура может меняться со временем, теряя регулярность расположения блоков, в связи с тем, что блоки из опорных кадров могут смещаться в предсказанных кадрах.

Каждая из вышеуказанных разработок [1-5] позволяет решать лишь некоторые аспекты комплексной проблемы «запись/воспроизведение качественного видеоизображения», при этом любое, даже незначительное, повышение качества сжатого видеоизображения требует значительных вычислительных затрат, что препятствует широкому внедрению этих разработок. Особенно сложным является устранение искажения динамического изображения в виде клетчатой структуры.

Представляется, что сочетание низкочастотной фильтрации с линейной или билинейной интерполяцией может обеспечить существенное улучшение сжатого динамического видеоизображения при достаточно скромных вычислительных затратах. Преимущество линейной интерполяции заключается в простоте вычислений, а именно: она может быть вычислена с использованием операции полусуммы либо с использованием предварительно рассчитанных таблиц. Недостаток линейной интерполяции заключается в том, что она менее эффективно устраняет блочные искажения по сравнению с низкочастотным фильтром, либо по сравнению с интерполяцией полиномами более высоких порядков.

Наиболее близким к предлагаемому является способ, описанный в диссертации Joceli Mayer, "Blending Models for Image Enhancement and Coding", Ph.D. Thesis, University of California, Santa Cruz, Advisor: Prof. Glen G. Langdon, Ph.D., December 1999 [6]; в которой предусмотрено использование интерполяции второго порядка (в частности полиномами Безье). Однако, использование интерполирующих полиномов более чем первого порядка требует значительно больших вычислительных затрат, чем линейная интерполяция (т.е. интерполяция полиномом первого порядка).

Предлагаемое изобретение решает задачу улучшения качества сжатого видеоизображения при незначительных вычислительных затратах.

Для достижения названного технического результата в предлагаемом способе, включающем разбивание обрабатываемого изображения на блоки с последующим преобразованием каждого блока с помощью ДКП, с квантованием и кодированием получившихся коэффициентов, осуществляют вычисление корректирующих характеристических точек, обычно называемых опорными точками, при помощи низкочастотной фильтрации и затем проводят линейную интерполяцию между вычисленными таким образом опорными точками. Эта процедура несколько напоминает выбор опорного кадра в стандарте MPEG. При этом, поскольку число опорных точек интерполяции меньше числа обрабатываемых точек изображения, суммарная вычислительная сложность, вызванная введением низкочастотной фильтрации, увеличивается незначительно.

Отличительными признаками предложенного способа является процедура выбора опорных точек с помощью низкочастотной фильтрации и замена обработки точек изображения обработкой значительно меньшего количества вычисленных таким образом опорных точек. При этом освобождающиеся вычислительные мощности направляются на осуществление одного из типов интерполяции - по строкам, столбцам или даже билинейной интерполяции, требующей наибольших вычислительных затрат.

Предлагаемый способ поясняется чертежами, на которых приведены:

На фиг.1 - схема разбиения обрабатываемого изображения на блоки и порядок обработки блоков.

На фиг.2 - схема использования линейной интерполяции для обработки строк блока изображения.

На фиг.3 - схема использования билинейной интерполяции для обработки блока изображения.

На фиг.4 - функциональная схема устройства, реализующего настоящее изобретение.

На фиг.1 показана схема разбиения обрабатываемого изображения 1 на обрабатываемые блоки 3 и очередность 4 обработки блоков 3. При обработке все изображение 1 разбивают на квадратные блоки 3 с размером, меньшим, чем размер блока 2 ДКП, использованного при кодировании. Наиболее выгодно использовать блок 3 с линейными размерами в два раза меньше блока 2 ДКП (т.е. блок 4×4 при размере блока 2 ДКП 8×8). Блоки 3 обрабатывают последовательно и результатом вычислений замещают обработанный блок 3. Хотя очередность 4 обработки не имеет значения, везде в дальнейшем предполагается очередность 4 обработки блоков 3 слева-направо-сверху-вниз.

На фиг.2 показана схема использования линейной интерполяции для уменьшения блочных искажений на строке обрабатываемого блока 3. При этом предполагается, что блочные искажения на столбцах отсутствуют или незначительны. Левую опорную точку 7 выбирают на крайней правой границе левого (возможно обработанного на предыдущем шаге) блока 3. Правую опорную точку 7 вычисляют при помощи низкочастотной фильтрации пикселей, лежащих по обе стороны от границы блока 3. С точки зрения эффективности вычислений в качестве низкочастотного фильтра целесообразно использовать фильтр длиной 2 и весами {0.5; 0.5}, или иными словами, подсчитывать полусумму яркостей пикселей по обе стороны границы блока 3. После вычислений левой и правой опорных точек 7 значения пикселей, находящихся между ними, замещают значениями, вычисленными по формуле линейной интерполяции:

Пиксель[i]=Л+(П-Л)/n·i i=[1,n];

Где Л - значение левой опорной точки, П - значение правой опорной точки, n - число интерполируемых точек, i - номер интерполируемого элемента изображения.

Данную процедуру производят для каждой строки обрабатываемого блока 3.

Уменьшение блочных искажений на столбцах изображения производят аналогично, при этом предполагается, что искажения на строках отсутствуют или незначительны.

На фиг.3 показана схема использования билинейного интерполятора 8 для уменьшения блочных искажений одновременно в строках и столбцах блока изображения.

В случае билинейной интерполяции вычисляют значения четырех опорных точек. Для этого также используют низкочастотные фильтры 5, подключаемые к входам билинейного интерполятора 8. Предпочтительно использовать низкочастотные фильтры 5 со следующими коэффициентами:

ФильтрКоэффициент левой верхней точкиКоэффициент правой верхней точкиКоэффициент левой нижней точкиКоэффициент правой нижней точкиНЧ фильтр 5100.50.50НЧ фильтр 520.500.250.25НЧ фильтр 530.50.2500.25НЧ фильтр 540.50.250.250

При таком выборе коэффициентов точки, обработанные на предыдущем шаге, имеют большие веса.

На фиг.4 показана функциональная схема устройства, реализующего предлагаемый способ.

Устройство состоит из классификатора 10 блоков, анализирующего блоки 3 и выявляющего наличие и тип блочных искажений, и набора низкочастотных фильтров 5 и интерполяторов 11-13, осуществляющих обработку поступивших данных. При отсутствии блочных искажений в обрабатываемом блоке 3 интерполяция не применяется. При наличии блочных искажений блок 3 обрабатывают в зависимости от типа блочных искажений одним из трех интерполяторов: линейным интерполятором 11 по строкам, линейным интерполятором 12 по столбцам, либо билинейным интерполятором 13. Выбор типа классификатора 10 блоков осуществляют, например, исходя из следующего требования:

- наличие блочных искажений по строкам (столбцам) фиксируют в случае, если все строки (столбцы) обрабатываемого блока 3 содержат не более одного перепада яркости и абсолютное значение этого перепада не превосходит удвоенного шага квантования коэффициентов ДКП для данного блока 3.

Фактически, данные от обрабатываемого блока 3, находящегося в буфере 9 изображения, поступают на вход классификатора 10 и на переключатель 14, реагирующий, как и переключатель 15, на команды классификатора 10. При отсутствии блочных искажений переключатели 14 и 15 устанавливаются в крайнее верхнее положение (см. фиг.4), при этом сигналы с обрабатываемого блока 3 минуют блок фильтров 5 и блок интерполяторов 11-13. Это означает, что коррекция блочных искажений в данном случае не требуется. Если классификатор 10 выявляет наличие блочных искажений, то, в зависимости от выявленного типа искажений, переключатели 14 и 15 активируют соответствующую линейку: интерполяцию строк, столбцов или билинейную интерполяцию.

Похожие патенты RU2305377C2

название год авторы номер документа
СПОСОБ СЖАТИЯ ЦИФРОВОГО ПОТОКА ВИДЕОСИГНАЛА В ТЕЛЕВИЗИОННОМ КАНАЛЕ СВЯЗИ 2010
  • Балобанов Владимир Григорьевич
  • Безруков Вадим Николаевич
  • Балобанов Андрей Владимирович
RU2467499C2
СПОСОБ ИНТЕРПОЛЯЦИИ ЗНАЧЕНИЙ ПОД-ПИКСЕЛОВ 2007
  • Карчевич Марта
  • Халлапуро Антти
RU2477575C2
УСТРОЙСТВО ДЛЯ ОБРАБОТКИ ВИДЕОСИГНАЛОВ С ПРЕПРОЦЕССОРОМ ДЛЯ ФОРМИРОВАНИЯ ВИДЕОСИГНАЛОВ С НЕЧЕРЕССТРОЧНОЙ РАЗВЕРТКОЙ ИЗ ВИДЕОСИГНАЛОВ С ЧЕРЕССТРОЧНОЙ РАЗВЕРТКОЙ 1993
  • Вайн Чарлз Мартин
  • Райтмайер Гленн Артур
  • Уз Камил Метин
RU2118066C1
СПОСОБ СЖАТИЯ И ВОССТАНОВЛЕНИЯ ПОДВИЖНЫХ ЦВЕТНЫХ ВИДЕОИЗОБРАЖЕНИЙ 2010
  • Балакирев Сергей Владимирович
  • Бардюков Дмитрий Алексеевич
  • Дворников Сергей Викторович
  • Ковайкин Юрий Владимирович
  • Осадчий Александр Иванович
  • Устинов Андрей Александрович
RU2434358C1
СПОСОБ ИНТЕРПОЛЯЦИИ ЗНАЧЕНИЙ ПОДПИКСЕЛОВ 2002
  • Карчевич Марта
  • Халлапуро Антти
RU2317654C2
СПОСОБ СУПЕРРАЗРЕШЕНИЯ ИЗОБРАЖЕНИЙ И НЕЛИНЕЙНЫЙ ЦИФРОВОЙ ФИЛЬТР ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ 2010
  • Шмунк Дмитрий Валерьевич
RU2431889C1
СИГНАЛИЗАЦИЯ МАТРИЦ КВАНТОВАНИЯ ДЛЯ ВИДЕОКОДИРОВАНИЯ 2012
  • Джоши Раджан Лаксман
  • Карчевич Марта
RU2582579C2
ОПЕРАЦИИ ПОВТОРНОЙ ДИСКРЕТИЗАЦИИ И ИЗМЕНЕНИЯ РАЗМЕРА ИЗОБРАЖЕНИЯ ДЛЯ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ ВИДЕО С ПЕРЕМЕННОЙ РАЗРЕШАЮЩЕЙ СПОСОБНОСТЬЮ 2007
  • Салливан Гари Дж.
RU2420915C2
ПРИЕМНИКИ ТВВЧ С НИЗКИМ РАЗРЕШЕНИЕМ 1993
  • Шо-Бао Нг[Us]
RU2106759C1
СПОСОБ ПРЕОБРАЗОВАНИЯ ЦИФРОВОГО СИГНАЛА ИЗОБРАЖЕНИЯ И УСТРОЙСТВО ДЛЯ ЕГО РЕАЛИЗАЦИИ 2004
  • Безруков Вадим Николаевич
  • Рабинович Александр Владиленович
  • Комаров Павел Юрьевич
RU2287909C2

Иллюстрации к изобретению RU 2 305 377 C2

Реферат патента 2007 года СПОСОБ УМЕНЬШЕНИЯ ИСКАЖЕНИЯ СЖАТОГО ВИДЕОИЗОБРАЖЕНИЯ И УСТРОЙСТВО ДЛЯ ЕГО РЕАЛИЗАЦИИ

Изобретение относится к области радиотехники и может быть использовано для цифровой обработки видеосигналов, передающих изображение. Технический результат заключается в улучшении качества сжатого видеоизображения при незначительных вычислительных затратах. Способ заключается в том, что разбивают обрабатываемое изображение на блоки с последующим преобразованием каждого блока с помощью ДКП, квантуют и кодируют получившиеся коэффициенты, вычисляют опорные точки и осуществляют линейную интерполяцию, причем перед этапом вычисления опорных точек осуществляют выбор одной из опорных точек на крайней границе блока и опорную точку на противоположной границе блока вычисляют с использованием дополнительных низкочастотных фильтров, после чего проводят линейную интерполяцию между вычисленными таким образом опорными точками. 2 н.п. ф-лы, 4 ил., 1 табл.

Формула изобретения RU 2 305 377 C2

1. Способ уменьшения искажения сжатого видеоизображения, включающий разбивание обрабатываемого изображения на блоки с последующим преобразованием каждого блока с помощью ДКП, квантование и кодирование получившихся коэффициентов, вычисление опорных точек и осуществление линейной интерполяции, отличающийся тем, что перед этапом вычисления опорных точек осуществляют выбор одной из опорных точек на крайней границе блока и опорную точку на противоположной границе блока вычисляют с использованием дополнительных низкочастотных фильтров, после чего проводят линейную интерполяцию между вычисленными таким образом опорными точками.2. Устройство для уменьшения искажений сжатого видеоизображения, состоящее из классификатора блоков, выявляющего тип блочных искажений на обрабатываемом блоке, и трех интерполяторов, один из которых осуществляет линейную интерполяцию по строкам, второй осуществляет линейную интерполяцию по столбцам, третий осуществляет билинейную интерполяцию по строкам и столбцам, отличающееся тем, что на входе каждого интерполятора установлен низкочастотный фильтр и классификатор осуществляет выбор и включение конкретного интерполятора в зависимости от выявленного типа блочных искажений.

Документы, цитированные в отчете о поиске Патент 2007 года RU2305377C2

US 6545719 B1, 08.04.2003
СПОСОБ КОДИРОВАНИЯ-ДЕКОДИРОВАНИЯ ИЗОБРАЖЕНИЙ И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ 1995
RU2093968C1
ИНТЕРПОЛЯЦИОННЫЙ СПОСОБ СЖАТИЯ ТЕЛЕВИЗИОННОГО СИГНАЛА 1996
  • Полыковский А.М.
RU2131172C1
СПОСОБ И УСТРОЙСТВО ДЛЯ ОБРАБОТКИ ВИДЕОКАДРА 1997
  • Кристард Детер
  • Дитер Хубрих
  • Олаф Котовски
  • Дирк Леффлер
RU2118064C1
СПОСОБ НИЗКОШУМОВОГО КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ 1997
  • Йю Хаопинг
  • Макнили Девид Ловелл
  • Бейерс Билли Весли Мл.
RU2201654C2
US 5646697 А, 08.07.1997
US 6330367 B2, 11.12.2001
Переносная печь для варки пищи и отопления в окопах, походных помещениях и т.п. 1921
  • Богач Б.И.
SU3A1
Многоканальный цифровой коррелятор 1973
  • Вашкевич Николай Петрович
  • Коннов Николай Николаевич
  • Кучин Алексей Викторович
SU462181A1

RU 2 305 377 C2

Авторы

Петухов Андрей Сергеевич

Свириденко Владимир Александрович

Жеон Сеун-Хан

Даты

2007-08-27Публикация

2003-05-20Подача