Показать метаданные Скрыть метаданные

(19)

(11)

2 420 813

(13)

(51)

МПК

G10L15/20(2006-01-01)

G10L21/02(2006-01-01)

(21) (22)

Заявка

2007149546/09, 2006-06-13

(24)

Дата начала отсчета патента

2006-06-13

(22)

дата подачи заявки

2006-06-13

(45)

опубликовано

2011-06-10

(72)

авторы

Чжан ЧженьюЛю ЦзычэнАсеро АлехандроСубраманиа АмарнагДроппо Джеймс Г.

(73)

патентообладатели

Майкрософт Корпорейшн

(56)

Документы, цитированные в отчете о поиске

US 5590241 А, 31.12.1996ЕР 1376540 А2, 02.01.2004US 2004267536 A1, 30.12.2004JP 9258768 A, 03.10.1997US 2003177006 A1, 18.09.2003

ПОВЫШЕНИЕ КАЧЕСТВА РЕЧИ С ИСПОЛЬЗОВАНИЕМ МНОЖЕСТВА ДАТЧИКОВ С ПОМОЩЬЮ МОДЕЛИ СОСТОЯНИЙ РЕЧИ Российский патент 2011 года по МПК G10L15/20 G10L21/02

Описание патента на изобретение RU2420813C2

Предпосылки создания изобретения

Распространенной проблемой распознавания речи и передачи речи является искажение речевого сигнала аддитивным шумом. В частности, установлено, что трудно обнаружимым и/или корректируемым является искажение, вносимое разговором другого говорящего.

Недавно разработаны системы, которые пытаются удалить шум с помощью сочетания альтернативного датчика, такого как микрофон, основанный на принципе костной проводимости, и микрофона, основанного на принципе воздушной проводимости. Разработаны различные способы, предусматривающие использование сигнала альтернативного датчика и сигнала микрофона, основанного на принципе воздушной проводимости, для формирования речевого сигнала повышенного качества, который меньше зашумлен, чем сигнал микрофона, основанного на принципе воздушной проводимости. Однако совершенная речь повышенного качества еще не достигнута, и необходимо дальнейшее продвижение вперед в формировании речевых сигналов повышенного качества.

Краткое изложение сущности изобретения

Предложены способ и устройство для определения правдоподобия состояния речи на основании сигнала альтернативного датчика и сигнала микрофона, основанного на принципе воздушной проводимости. Правдоподобие состояния речи используется для того, чтобы оценить значение чистой речи для сигнала чистой речи.

Краткое описание чертежей

На фиг.1 представлена блок-схема одной вычислительной среды, в которой можно воплотить варианты осуществления настоящего изобретения.

На фиг.2 представлена блок-схема альтернативной вычислительной среды, в которой можно воплотить варианты осуществления настоящего изобретения.

На фиг.3 представлена блок-схема системы обработки обычной речи согласно настоящему изобретению.

На фиг.4 представлена блок-схема системы повышения качества речи в соответствии с одним вариантом осуществления настоящего изобретения.

На фиг.5 представлена модель, на которой основано повышение качества речи в соответствии с одним вариантом осуществления настоящего изобретения.

На фиг.6 представлена схема последовательности операций повышения качества речи в соответствии с вариантом осуществления настоящего изобретения.

Подробное описание иллюстративных вариантов осуществления

На фиг.1 представлена блок-схема подходящей вычислительной системной среды 100, в которой можно воплотить варианты осуществления настоящего изобретения. Вычислительная системная среда 100 является лишь одним примером подходящей вычислительной среды, и ее не следует считать вносящей ограничения в объем применения или функциональные возможности изобретения. Не следует также считать вычислительную среду 100 связанной какой-либо зависимостью или каким-либо требованием с каким-либо одним или комбинацией компонентов, показанных в иллюстрируемой операционной среде 100.

Варианты осуществления изобретения работоспособны в сочетании с многочисленными вычислительными системными средами или конфигурациями общего назначения или специального назначения. Примеры хорошо известных вычислительных систем, сред и/или конфигураций, которые могут оказаться подходящими для использования совместно с вариантами осуществления изобретения, включают в себя - но не в ограничительном смысле - персональные компьютеры, серверные компьютеры, карманные и портативные устройства, микропроцессорные системы, системы на основе микропроцессоров, телевизионные приставки, программируемые потребительские электронные приборы, сетевые персональные компьютеры, миникомпьютеры, универсальные компьютеры, телефонные системы, распределенные вычислительные среды, которые включают в себя любые из вышеуказанных систем или устройств, и подобные им средства.

Варианты осуществления изобретения могут быть описаны в общем контексте исполняемых компьютером команд, таких как программные модули, исполняемые компьютером. В общем случае программные модули включают в себя подпрограммы, программы, объекты, задачи или представляют собой воплощения конкретных типов абстрактных данных. Это изобретение предназначено для воплощения в распределенных вычислительных средах, где задачи решаются устройствами дистанционной обработки, которые связаны друг с другом посредством сети связи. В распределенной вычислительной среде программные модули находятся как в локальных, так и в удаленных компьютерных запоминающих носителях, включающих в себя запоминающие устройства.

Обращаясь к фиг.1, иллюстративная система для воплощения изобретения включает в себя вычислительное устройство общего назначения в форме компьютера 110. Компоненты компьютера могут включать в себя - но не в ограничительном смысле - блок 120 обработки, системную память 130 и системную шину 121, которая связывает различные системные компоненты, включая системную память, с блоком 120 обработки. Системная шина 121 может быть любого из нескольких типов структур шин, включая сюда шину памяти или контроллер памяти, периферийную шину и локальную шину, в которой используется любая из множества архитектур шин. В качестве примера, не носящего ограничительный характер, такие архитектуры включают в себя шину промышленной стандартной архитектуры (шину ISA), шину микроканальной архитектуры (шину MCA), шину расширенной промышленной стандартной архитектуры (шину EISA), шину стандарта Ассоциации по стандартам в области видеоэлектроники (шину VESA), локальную шину межсоединения периферийных компонентов (шину PCI), также известную под названием «шина расширения».

Компьютер 110, как правило, включает в себя совокупность считываемых компьютером носителей информации. Считываемые компьютером носители информации могут быть любыми подходящими носителями информации, к которым компьютер 110 может получить доступ, и включают в себя как энергозависимые, так и энергонезависимые носители информации, как съемные, так и стационарные носители информации. В качестве примера, не носящего ограничительный характер, считываемые компьютером носители информации могут содержать компьютерные запоминающие носители и носители передачи данных. Компьютерные запоминающие носители включают в себя как энергозависимые, так и энергонезависимые, как съемные, так и стационарные носители, воплощенные любым способом или по любой технологии с целью хранения информации, такой как компьютерные команды, структуры данных, программные модули или другие данные. Компьютерные запоминающие среды включают в себя - но не в ограничительном смысле - оперативное запоминающее устройство (RAM, ОЗУ), постоянное запоминающее устройство (ROM, ПЗУ), EEPROM (ЭСППЗУ), флэш-память или другую технологию памяти, СD-ROM, цифровые универсальные диски (DVD) или другой накопитель на оптических дисках, магнитные кассеты, магнитную ленту, накопитель на магнитных дисках или другие магнитные запоминающие устройства либо другой носитель, который можно использовать для хранения требуемой информации и к которому может получить доступ компьютер 110. Среды передачи информации обычно воплощают считываемые компьютером команды, структуры данных, программные модули или другие данные в модулированном информационном сигнале, таком как несущая волна, или другой транспортный механизм, и включают в себя любые среды доставки информации. Термин «модулированный информационный сигнал» означает сигнал, который имеет одну или несколько своих характеристик установленными или измененными таким образом, что обеспечивается кодирование информации в сигнале. В качестве примера, не носящего ограничительный характер, отметим, что среды передачи информации включают в себя проводные среды, такие как проводная сеть или прямое проводное соединение, и беспроводные среды, такие как акустическая, радиочастотная, инфракрасная и другие беспроводные среды. В число считываемых компьютером носителей информации также следует включить сочетания любых вышеуказанных носителей.

Системная память 130 включает в себя компьютерные запоминающие среды в форме энергозависимого и/или энергонезависимого запоминающего устройства, такого как постоянное запоминающее устройство (ПЗУ) 131 и оперативное запоминающее устройство (ОЗУ) 132. Как правило, в ПЗУ 131 хранится базовая система 133 ввода-вывода (BIOS, БСВВ), содержащая базовые подпрограммы, которые способствуют переносу информации между элементами, находящимися внутри компьютера 110, например, во время запуска. ОЗУ 132 как правило содержит данные и/или программные модули, доступ к которым возможен немедленно и/или которые в данный момент исполняются в блоке 120 обработки. В качестве примера, не носящего ограничительный характер, на фиг.1 изображены операционная система 134, прикладные программы 135, другие программные модули 136 и программные данные 137.

Компьютер 110 также может включать в себя другие съемные и/или стационарные, энергозависимые и/или энергонезависимые компьютерные запоминающие среды. Лишь в качестве примера на фиг.1 изображен накопитель 141 на жестких дисках, который осуществляет считывание со стационарных энергонезависимых магнитных носителей и запись на них, накопитель 151 на магнитных дисках, который осуществляет считывание со съемного энергонезависимого магнитного диска 152 и запись на него, и накопитель 155 на оптических дисках, который осуществляет считывание со съемного энергонезависимого оптического диска 156, такого как CD-ROM или другие оптические носители, и запись на него или них. Другие съемные и/или стационарные, энергозависимые и/или энергонезависимые компьютерные запоминающие среды, которые можно использовать в возможной операционной среде, включают в себя - но не в ограничительном смысле - кассеты с магнитными лентами, платы флэш-памяти, цифровые универсальные диски, цифровую видеоленту, твердотельное ОЗУ, твердотельное ПЗУ и аналогичные средства. Накопитель 141 на жестких дисках как правило соединен с системной шиной 121 через посредство интерфейса стационарного запоминающего устройства, такого как интерфейс 140, а накопитель 151 на магнитных дисках и накопитель 155 на оптических дисках как правило соединены с системной шиной 121 через посредство интерфейса съемного запоминающего устройства, такого как интерфейс 150.

Накопители и связанные с ними компьютерные запоминающие среды, рассмотренные выше и проиллюстрированные на фиг.1, обеспечивают хранение считываемых компьютером команд, структур данных, программных модулей и других данных для компьютера 110. Например, накопитель 141 на жестких дисках изображен на фиг.1 как хранящий операционную систему 144, прикладные программы 145, другие программные модули 146 и программные данные 147. Отметим, что эти компоненты могут быть либо такими же, как операционная система 134, прикладные программы 135, другие программные модули 136 и программные данные 137 либо другими. Операционной системе 144, прикладным программам 145, другим программным модулям 146 и программным данным 147 здесь даны разные ссылочные позиции, чтобы проиллюстрировать, что они, как минимум, являются разными копиями.

Пользователь может вводить команды и информацию в компьютер 110 через посредство устройств ввода, таких как клавиатура 162, микрофон 163 и указательное устройство 161, такое как мышь, трекбол или сенсорная панель. Другие устройства ввода (не показаны) могут включать в себя джойстик, игровую панель, спутниковую тарелку, сканер или аналогичные средства. Эти и другие устройства ввода зачастую соединены с блоком 120 обработки через посредство пользовательского интерфейса 160 ввода, который подключен к системной шине, но могут быть соединены и через посредство других интерфейсов и структур шин, таких как параллельный порт, игровой порт или универсальная последовательная шина (USB). С системной шиной 121 через посредство интерфейса, такого как видеоинтерфейс 190, соединен также монитор 191 или отображающее устройство другого типа. Помимо монитора компьютеры могут также включать в себя другие периферийные устройства вывода, такие как динамики 197 и принтер 196, которые можно подсоединить через посредство интерфейса 195 периферийных устройств вывода.

Компьютер 110 эксплуатируется в сетевой среде с использованием логических соединений с одним или несколькими удаленными компьютерами, такими как удаленный компьютер 180. Удаленный компьютер 180 может быть персональным компьютером, карманным устройством, сервером, маршрутизатором, сетевым персональным компьютером, равноправным устройством или другим обычным узлом сети и в обычном случае включает в себя многие или все компоненты, описанные выше применительно к компьютеру 110. Логические соединения, изображенные на фиг.1, включают в себя локальную сеть (LAN) 171 и глобальную сеть (WAN) 173, но могут включать в себя и другие сети. Такие сетевые среды распространены в офисах, компьютерных сетях масштаба предприятия, корпоративных сетях и Internet.

При использовании в сетевой среде LAN компьютер 110 соединен с LAN 171 через посредство сетевого интерфейса или адаптера 170. При использовании в сетевой среде WAN компьютер 110 как правило включает в себя модем 172 или другие средства для установления связи по WAN 173, такой как Internet. Модем 172, который может быть внешним или внутренним, может быть соединен с системной шиной 121 через посредство пользовательского интерфейса 160 ввода или другого подходящего механизма. В сетевой среде программные модули, изображенные применительно к компьютеру 110, или их части могут храниться в удаленном запоминающем устройстве. В качестве примера, не носящего ограничительный характер, удаленные прикладные программы 185 изображены на фиг.1 как находящиеся в удаленном компьютере 180. Следует понимать, что показанные сетевые соединения являются лишь возможными и что можно использовать другие средства установления связи между компьютерами.

На фиг.2 представлена блок-схема мобильного устройства 200, которое представляет собой возможную вычислительную среду. Мобильное устройство 200 включает в себя микропроцессор 202, запоминающее устройство 204, компоненты 206 ввода-вывода (I/O, ВВ) и интерфейс 208 передачи информации, предназначенный для связи с удаленными компьютерами или другими мобильными устройствами. В одном варианте осуществления вышеупомянутые компоненты подключены друг к другу с возможностью осуществления связи через посредство подходящей шины 210.

Запоминающее устройство 204 воплощено в виде энергонезависимого электронного запоминающего устройства, такого как оперативное запоминающее устройство (RAM, ОЗУ) с модулем батарейной поддержки (не показан), так что информация, хранящаяся в запоминающем устройстве 204, не утрачивается, когда прекращается подача энергии от питающей электросети на мобильное устройство 200. Часть запоминающего устройства 204 предпочтительно предназначена для работы в качестве адресуемой памяти для выполнения программ, а другая часть запоминающего устройства 204 предпочтительно используется для хранения, например, с целью моделирования хранения в накопителе для дисков.

Запоминающее устройство 204 содержит операционную систему 212, прикладные программы 214, а также хранилище 216 объектов. Во время работы операционная система 212 предпочтительно исполняется процессором 202, получающим информацию из запоминающего устройства 204. Операционная система 212 в одном предпочтительном варианте осуществления представляет собой операционную систему WINDOWS^® СЕ, коммерчески доступную от Microsoft Corporation. Операционная система 212 предпочтительно спроектирована для мобильных устройств и воплощает признаки базы данных, которые могут использоваться прикладными программами 214 через посредство набора предоставляемых интерфейсов прикладного программирования и методов. Объекты в хранилище 216 объектов поддерживаются прикладными программами 214 и операционной системой 212, по меньшей мере, частично в ответ на вызовы предоставляемых интерфейсов прикладного программирования и методов.

Интерфейс 208 передачи информации представляет различные устройства и технологии, которые позволяют мобильному устройству 200 посылать и принимать информацию. Эти устройства включают в себя проводные и беспроводные модемы, спутниковые приемники и тюнеры радиовещания, чтобы назвать несколько примеров. Мобильное устройство 200 также может быть непосредственно соединено с компьютером для обмена данными с ним. В таких случаях интерфейс 208 передачи информации может быть приемопередатчиком, работающим в инфракрасном диапазоне, либо последовательным или параллельным соединением для передачи информации, причем все эти варианты обеспечивают передачу информации в потоковом режиме.

Компоненты 206 ввода-вывода включают в себя множество устройств ввода, таких как сенсорный экран, кнопки, ролики и микрофон, а также многообразие устройств вывода, включающих в себя звукогенератор, вибрационное устройство и дисплей. Вышеперечисленные устройства указаны лишь в качестве примеров, и не обязательно все они присутствуют в мобильном устройстве 200. Кроме того, к мобильному устройству 200 можно подсоединить или обнаружить в нем другие устройства ввода-вывода, и это тоже будет в рамках объема настоящего изобретения.

На фиг.3 представлена базовая блок-схема вариантов осуществления настоящего изобретения. Как показано на фиг.3, говорящий 300 генерирует речевой сигнал 302 (Х), который обнаруживается микрофоном 304, основанным на принципе воздушной проводимости, и альтернативным датчиком 306. Примеры альтернативных датчиков включают в себя ларингофон, который измеряет вибрации горла пользователя, датчик, основанный на принципе костной проводимости, который находится на кости лица или черепа пользователя (например, на челюстной кости) или в ухе пользователя и который воспринимает вибрации черепа и челюсти, которые соответствуют речи, произносимой пользователем. Микрофон 304, основанный на принципе воздушной проводимости, относится к тому типу микрофона, который обычно используется для преобразования звуковых воздушных волн в электрические сигналы.

Микрофон 304, основанный на принципе воздушной проводимости, принимает окружающий шум 308 (V), генерируемый одним или несколькими источниками 310 шума и генерирует свой собственный шум 305 (U) датчика. В зависимости от типа окружающего шума и уровня окружающего шума, окружающий шум 308 также можно обнаруживать посредством альтернативного датчика 306. Однако в рамках вариантов осуществления настоящего изобретения предполагается, что альтернативный датчик 306 как правило менее чувствителен к окружающему шуму, чем микрофон 304, основанный на принципе воздушной проводимости. Таким образом, сигнал 316 (В) альтернативного датчика, генерируемый альтернативным датчиком 306, в общем случае включает в себя меньший шум, чем сигнал 318 (Y) микрофона 304, основанного на принципе воздушной проводимости. Хотя альтернативный датчик 306 менее чувствителен к окружающему шуму, он генерирует некоторый шум 320 (W) датчика.

Тракт от говорящего 300 до альтернативного датчика 306 можно смоделировать как канал, имеющий отклик Н канала. Тракт от окружающего шума 308 до сигнала 316 альтернативного датчика можно смоделировать как канал, имеющий отклик G канала.

Сигнал 316 (В) альтернативного датчика и сигнал 318 (Y) микрофона, основанного на принципе воздушной проводимости, выдаются в блок 322 оценки чистого сигнала, который оценивает чистый сигнал 324. Оценка 324 чистого сигнала выдается в средство 328 обработки речи. Оценка 324 чистого сигнала может быть либо сигналом во временной области, либо вектором преобразования Фурье. Если оценка 324 чистого сигнала является сигналом во временной области, то средство 328 обработки речи может принимать форму приемника, системы кодирования речи или системы распознавания речи. Если оценка 324 чистого сигнала является вектором преобразования Фурье, то средство 328 обработки в обычном случае будет системой распознавания речи или будет содержать средство обратного преобразования Фурье, предназначенное для преобразования вектора преобразования Фурье в сигналы.

В блоке 322 оценки чистого сигнала сигнал 316 альтернативного датчика и сигнал 318 микрофона преобразуются с переводом в частотную область, используемую для оценки чистой речи. Как показано на фиг.4, сигнал 316 альтернативного датчика и сигнал 318 микрофона, основанного на принципе воздушной проводимости, выдаются в аналого-цифровые преобразователи (АЦП) 404 и 414 соответственно для генерирования последовательности цифровых значений, которые группируются в кадры значений блоками 406 и 416 составления кадров соответственно. В одном варианте осуществления АЦП 404 и 414 осуществляют выборку аналоговых сигналов на частоте 16 кГц и 16 бит на выборку, вследствие чего происходит создание 32 килобайт речевых данных в секунду, а блоки 406 и 416 составления кадров создают новый соответствующий кадр каждые 10 миллисекунд, что содержит соответствующие 20 миллисекундам данные.

Каждый соответствующий кадр данных, выдаваемый блоками 406 и 416 составления кадров, преобразуется с переводом в частотную область с помощью блоков 408 и 418 быстрого преобразования Фурье (FFT, БПФ) соответственно.

Значения частотной области для сигнала альтернативного датчика и датчика микрофона, основанного на принципе воздушной проводимости, выдаются в блок 420 оценки чистого сигнала, который использует упомянутые значения частотной области для оценки сигнала 324 чистой речи.

В некоторых вариантах осуществления сигнал 324 чистой речи преобразуется с переводом обратно во временную область с помощью блока 422 обратного быстрого преобразования Фурье (ОБПФ). Это приводит к созданию версии временной области сигнала 324 чистой речи.

В настоящем изобретении используется модель системы согласно фиг.3, которая предусматривает использование состояний речи для чистой речи, чтобы получить речевой сигнал повышенного качества. Фиг.5 обеспечивает графическое представление модели.

В модели согласно фиг.5 чистая речь 500 зависит от состояния 502 речи. Сигнал 504 микрофона, основанного на принципе воздушной проводимости, зависит от шума 506 датчика, окружающего шума 508 и сигнала 500 чистой речи. Сигнал 510 альтернативного датчика зависит от шума 512 датчика, сигнала 500 чистой речи, когда тот подвергается воздействию отклика 514 канала, и окружающего шума 508, когда тот подвергается воздействию отклика 516 канала.

Модель согласно фиг.5 используется в настоящем изобретении для оценки сигнала Х_t чистой речи, полученного из зашумленных наблюдений Y_t и B_t, и идентифицирует вероятность множества состояний S_t речи.

В одном варианте осуществления настоящего изобретения оценка сигнала чистой речи и вероятности состояний для оценки сигнала чистой речи образуются в изначальном предположении гауссовых распределений для составляющих шума в модели системы. Таким образом,

V ~ N(0,g²σ_v ²) Ур. 1

U ~ N(0,σ_u ²) Ур. 2

W ~ N(0,σ_w ²) Ур. 3,

где каждая составляющая шума смоделирована как гауссова с нулевым средним, имеющая соответствующие дисперсии g²σ_v ², σ_u ² и σ_w ²; V - окружающий шум, U - шум датчика в микрофоне, основанном на принципе воздушной проводимости, а W - шум датчика в альтернативном датчике. В уравнении 1 g - параметр настройки, который обеспечивает настройку дисперсии окружающего шума.

Кроме того, этот вариант осуществления настоящего изобретения модулирует вероятность сигнала чистой речи при заданном состоянии как гауссову с нулевым средним и дисперсией σ_s ², так что

X|(S = s) ~ N(0,σ_s ²) Ур. 4.

В одном варианте осуществления настоящего изобретения априорная вероятность заданного состояния предполагается равномерной вероятностью, так что все состояния являются равно вероятными. В частности, априорная вероятность определяется следующим образом:

Ур. 5,

где N_s - количество состояний речи, доступных в модели.

В описании нижеследующих уравнений для определения оценки сигнала чистой речи и вероятности состояний речи все переменные моделируются в комплексной спектральной области. Каждая частотная составляющая (Bin) обрабатывается независимо от других частотных составляющих. Для упрощения обозначений способ будет описан ниже для единственной частотной составляющей. Специалисты в данной области техники должны понимать, что вычисления выполняются для каждой частотной составляющей в спектральной версии входных сигналов. Для переменных, которые изменяются во времени, к обозначению переменной добавляется подстрочный индекс t.

Чтобы оценить сигнал Х_t чистой речи, полученный из зашумленных наблюдений Y_t и B_t, в настоящем изобретении предусматривается максимизация условной вероятности p(X_t|Y_t,B_t), которая представляет собой вероятность сигнала чистой речи при заданных зашумленном сигнале микрофона, основанного на принципе воздушной проводимости и зашумленном сигнале альтернативного датчика. Поскольку оценка сигнала чистой речи зависит от состояния S_t речи в условиях модели, то эта условная вероятность определяется следующим образом:

Ур. 6,

где {S} обозначает набор всех состояний речи, p(X_t|Y_t,B_t,S_t=s) - правдоподобие сигнала Х_t при заданных текущих зашумленных наблюдениях и состоянии s речи, а p(S_t=s|Y_t,B_t) - правдоподобие состояния s речи при заданных зашумленных наблюдениях. В настоящем изобретении можно использовать любое количество возможных состояний речи, включая сюда состояния речи для вокализованных звуков, фрикативных звуков, назальных звуков и гласных звуков заднего ряда. В некоторых вариантах осуществления отдельное состояние речи предусматривается для каждой из набора фонетических единиц, таких как фонемы. В одном варианте осуществления, однако, предусматриваются только два состояния речи, одно - для наличия речи и одно - для отсутствия речи.

В некоторых вариантах осуществления единственное состояние речи используется для всех частотных компонентов. Следовательно, каждый кадр имеет единственную переменную состояния речи.

Члены, собранные в правой стороне уравнения 6, можно вычислить следующим образом:

Ур. 7

Ур. 8,

которые показывают, что условную вероятность сигнала чистой речи при заданных наблюдениях можно оценить по совместной вероятности речевого сигнала, наблюдений и состояния и что условную вероятность состояния при заданных наблюдениях можно аппроксимировать путем интегрирования совместной вероятности сигнала чистой речи, наблюдений и состояния по всем возможным значениям чистой речи.

Пользуясь допущениями о гауссовом характере распределений шума, рассмотренными выше в уравнениях 1-3, можно вычислить совместную вероятность сигнала чистой речи, наблюдений и состояния следующим образом:

Ур. 9,

где p(X_t|S_t=s) = N(X_t;0,σ_s ²), p(S_t) - априорная вероятность состояния, которое задается равномерным распределением вероятностей в уравнении 5, G - отклик канала альтернативного датчика на окружающий шум, Н - отклик канала сигнала альтернативного датчика на сигнал чистой речи, а комплексные члены между вертикальными скобками, такие как |G|, обозначают модуль комплексной величины.

Отклик G канала альтернативного датчика для фоновой речи оценивается по сигналам Y микрофона, основанного на принципе воздушной проводимости, и альтернативного датчика В в последних D кадрах, на протяжении которых пользователь не говорит. В частности, G определяется следующим образом:

Ур. 10,

где D - количество кадров, на протяжении которых пользователь не говорит, но присутствует фоновая речь. Здесь предполагается, что G постоянен во всех D кадрах времени. В других вариантах осуществления вместо одинакового использования всех D кадров мы используем способ, известный как «экспоненциальное старение», так что самые последние кадры вносят больший вклад в оценку отклика G, чем более старые кадры.

Отклик H канала альтернативного датчика для сигнала чистой речи оценивается по сигналам Y микрофона, основанного на принципе воздушной проводимости, и альтернативного датчика В в последних T кадрах, на протяжении которых пользователь говорит. В частности, H определяется следующим образом:

Ур. 11,

где T - количество кадров, на протяжении которых пользователь говорит. В данном случае предполагается, что H постоянен во всех T кадрах времени. В других вариантах осуществления вместо одинакового использования всех T кадров мы используем способ, известный как «экспоненциальное старение», так что самые последние кадры вносят больший вклад в оценку отклика G, чем более старые кадры.

Условное правдоподобие p(S_t=s|Y_t,B_t) состояния вычисляется посредством использования аппроксимации уравнения 8 и вычисления совместной вероятности уравнения 9 следующим образом:

Ур. 12,

что можно упростить так:

Ур. 13.

Внимательное рассмотрение уравнения 13 позволяет установить, что первый член в некотором смысле моделирует корреляцию между каналом альтернативного датчика и каналом микрофона, основанного на принципе воздушной проводимости, тогда как второй член использует модель состояния и модель шума для пояснения наблюдения в канале микрофона, основанного на принципе воздушной проводимости. Третий член - это просто предшествующее состояние, которое в одном варианте осуществления соответствует равномерному распределению.

Вероятность состояния при заданном наблюдении, как вычислено в уравнении 13, имеет два возможных применения. Во-первых, ее можно использовать для построения классификатора состояний речи, который можно использовать для классификации наблюдений как включающих в себя речь или не включающих в себя речь, так что можно устранить дисперсии источников шума из кадров, которые не включают в себя речь. Она также может использоваться, чтобы обеспечить «мягкое» взвешивание при оценивании сигнала чистой речи, что дополнительно иллюстрируется ниже.

Как отмечалось выше, каждая из переменных в вышеуказанных уравнениях определяется для конкретной частотной составляющей в комплексной спектральной области. Таким образом, правдоподобие согласно уравнению 13 является характеристикой состояния, связанного с конкретной частотной составляющей. Вместе с тем, поскольку для каждого кадра имеется лишь одна-единственная переменная состояния, правдоподобие состояния для кадра формируется путем агрегирования правдоподобия по частотным компонентам следующим образом:

где L(S_t(ƒ)) = p(S_t(ƒ)|Y_t(ƒ),B_t(ƒ)) - правдоподобие для частотной составляющей ƒ, как определено в уравнении 13. Произведение определяется по всем частотным компонентам, за исключением тех, которые соответствуют частотам DC и Найквиста. Отметим, что если вычисление правдоподобия проводят в области логарифмического правдоподобия, то умножение в вышеуказанном уравнении заменяется суммированием.

Вышеуказанное правдоподобие можно использовать для построения классификатора наличия речи/отсутствия речи на основании признака отношения правдоподобия таким образом, что

Ур. 15,

где кадр считается содержащим речь, если отношение r больше 0, и считается не содержащим речь в противном случае.

Пользуясь правдоподобием состояний речи, можно сформировать оценку сигнала чистой речи. В одном варианте осуществления эту оценку формируют с помощью минимальной среднеквадратической оценки (МСКО) на основе уравнения 6, так что

Ур. 16,

где E(X_t|Y_t,B_t) - математическое ожидание сигнала чистой речи при заданном наблюдении, а E(X_t|Y_t,B_t,S_t=s) - математическое ожидание сигнала чистой речи при заданных наблюдениях и состоянии речи.

С помощью уравнений 7 и 9 условная вероятность p(X_t|Y_t,B_t,S_t=s), по которой можно вычислить ожидание E(X_t|Y_t,B_t,S_t=s), определяется следующим образом:

Ур. 17.

Это дает ожидание в виде:

Ур. 18,

где

Ур. 19

Ур. 20,

а М^* - комплексно сопряженная величина по отношению к М.

Таким образом, оценка - МСКО (MMSE) - сигнала X_t чистой речи задается следующим образом:

Ур. 21,

где π_s - последующее состояние, задаваемое следующим образом:

Ур. 22,

где L(S_t=s) задается уравнением 14. Таким образом, оценка сигнала чистой речи основана, в частности, на относительном правдоподобии конкретного речевого состояния, и это относительное правдоподобие обеспечивает мягкое взвешивание для оценки сигнала чистой речи.

В вышеуказанных вычислениях Н предполагается известным с большой точностью. Однако на практике Н известен лишь с ограниченной точностью. В дополнительном варианте осуществления настоящего изобретения Н моделируется как гауссова случайная величина N(H;H₀,σ_H ²). В таком варианте осуществления все вышеупомянутые вычисления проводятся по всем возможным значениям Н. Однако это делает математические выкладки неосуществимыми. В одном варианте осуществления для обхода этой трудности используется итеративный процесс. Во время каждой итерации Н заменяется в уравнениях 13 и 20 на Н₀, а σ_w ² заменяется на , где - оценка сигнала чистой речи, определенная из предыдущей итерации. Затем сигнал чистой речи оценивают с помощью уравнения 21. Эта новая оценка сигнала чистой речи затем устанавливается в качестве нового значения , и выполняется следующая итерация. Итерации заканчиваются, когда оценка сигнала чистой речи становится устойчивой.

На фиг.6 представлен способ оценивания сигнала чистой речи с помощью вышеуказанных уравнений. На этапе 600 идентифицируются кадры вводимого фрагмента речи, на протяжении которых пользователь не говорит. Эти кадры затем используются для определения дисперсии σ_v ² окружающего шума, дисперсии σ_w ² шума альтернативного датчика и дисперсии σ_u ² шума микрофона, основанного на принципе воздушной проводимости.

Чтобы идентифицировать кадры, в которых пользователь не говорит, можно проверить сигнал альтернативного датчика. Поскольку сигнал альтернативного датчика будет давать гораздо меньшие значения сигнала при фоновой речи, чем при шуме, то, когда энергия сигнала альтернативного датчика мала, можно изначально предположить, что говорящее лицо не говорит. Значения сигнала микрофона, основанного на принципе воздушной проводимости, и сигнала альтернативного датчика для кадров, которые не содержат речь, запоминаются в буфере и используются для вычисления дисперсий шума следующим образом:

Ур. 23

Ур. 24,

где N_v - количество кадров шума во фрагменте речи, которые используются для формирования дисперсии, V - набор кадров шума, в которых пользователь не говорит, а B_t' обозначает сигнал альтернативного датчика после учета утечки, вычисляемый следующим образом:

B_t' = B_t - GY_t Ур. 25,

что в некоторых вариантах осуществления вычисляется следующим альтернативным образом:

Ур. 26.

В некоторых вариантах осуществления способ идентификации кадров, в которых речь отсутствует, на основе низких уровней энергии в сигнале альтернативного датчика выполняется только в течение начальных кадров обучения. После того, как начальные значения для дисперсий шума сформированы, их можно использовать для того, чтобы определять, какие кадры содержат речь, а какие кадры не содержат речь, с помощью отношения правдоподобия согласно уравнению 15.

Значение g, являющееся параметром настройки, который можно использовать либо для увеличения, либо для уменьшения оцененной дисперсии σ_v ², задают равным 1 в одном конкретном варианте осуществления. Это значение предполагает полную конфиденциальность в процедуре оценки шума. В разных вариантах осуществления настоящего изобретения можно использовать разные значения g.

Дисперсию σ_u ² шума микрофона, основанного на принципе воздушной проводимости, оценивают на основании наблюдения, что микрофон, основанный на принципе воздушной проводимости, меньше подвержен шуму датчика, чем альтернативный датчик. Как таковая дисперсия микрофона, основанного на принципе воздушной проводимости, может быть вычислена следующим образом:

Ур. 27.

На этапе 602 оценивают дисперсию σ_s ² речи с помощью шумоподавляющего фильтра с временным сглаживанием. Этот шумоподавляющий фильтр является обобщением спектрального вычитания. В частности, дисперсию речи вычисляют следующим образом:

Ур. 28,

где

Ур. 29,

при этом

где - оценка чистой речи из предшествующего кадра, τ - коэффициент сглаживания, который в некоторых вариантах осуществления задают равным 0,2, α управляет степенью снижения шума, так что, если α>1, то происходит большее снижение шума за счет увеличения искажения речи, а β дает минимальный порог шума и обеспечивает средство добавления аддитивного шума для маскировки воспринимаемого остаточного музыкального шума. В некоторых вариантах осуществления γ1=2 и γ2=1/2. В некоторых вариантах осуществления β задают равным 0,01 для снижения шума на 20 дБ для кадров чистого шума.

Таким образом, дисперсия в уравнении 28 определяется как взвешенная сумма оцененного сигнала чистой речи предшествующего кадра и энергии сигнала микрофона, основанного на принципе воздушной проводимости, отфильтрованного шумоподавляющим фильтром K_s.

В некоторых вариантах осуществления α выбирают в соответствии с отношением «сигнал-шум» и принципом маскировки, который показал, что одно и то же количество шума в полосе с высокой энергией речи имеет меньшее влияние на восприятие, чем в полосе с низкой энергией речи, а присутствие высокой энергии речи на одной частоте будет снижать восприятие шума в соседней полосе частот. В этом варианте осуществления α выбирают следующим образом:

Ур. 31,

где SNR - отношение «сигнал-шум» в децибелах (дБ), В - требуемый уровень отношения «сигнал-шум», выше которого не должно происходить снижение шума, а α₀ - количество шума, которое должно быть удалено при нулевом значении отношения «сигнал-шум». В некоторых вариантах осуществления В задают равным 20 дБ.

Используя определение отношения «сигнал-шум»:

Ур. 32

шумоподавляющий фильтр уравнения 29 принимает вид:

Ур. 33.

Этот шумоподавляющий фильтр обеспечивает слабое подавление шума для положительных отношений «сигнал шум» и более сильное подавление шума для отрицательных отношений «сигнал-шум». Фактически для достаточно отрицательных отношений «сигнал-шум» весь наблюдаемый сигнал и шум удаляются и только сигнал, который присутствует, это порог шума, который снова добавляется ветвью «в противном случае» шумоподавляющего фильтра из уравнения 33.

В некоторых вариантах осуществления α₀ делают зависимым от частоты, так что для разных частот удаляются разные количества шума. В одном варианте осуществления эту частотную зависимость создают с помощью линейной интерполяции между α₀ на частоте 30 Гц и α₀ на частоте 8 кГц, так что

α₀(k) = α_0min+(α_0max-α_0min)k/225 Ур. 34,

где k - номер частотной составляющей, α_0min - значение α₀, требуемое на частоте 30 Гц, α_0max - значение α₀, требуемое на частоте 8 кГц, и предполагается, что имеются 256 частотных компонент.

После определения дисперсии речи на этапе 602 такие дисперсии используют для определения правдоподобия каждого состояния речи на этапе 604 с помощью вышеуказанных уравнений 13 и 14. Правдоподобия состояний речи потом используют на этапе 606 при определении оценки чистой речи для текущего кадра. Как отмечено выше, в тех вариантах осуществления, в которых для представления Н используется гауссово распределение, этапы 604 и 606 итерируются с использованием самой последней оценки сигнала чистой речи в каждой итерации и использованием изменений для уравнений, рассмотренных выше, чтобы вместить гауссову модель для Н.

Хотя настоящее изобретение описано со ссылками на конкретные варианты его осуществления, специалисты в данной области техники должны понимать, что могут делаться изменения в форме и деталях без отхода от сущности и объема изобретения.

Иллюстрации к изобретению RU 2 420 813 C2

Реферат патента 2011 года ПОВЫШЕНИЕ КАЧЕСТВА РЕЧИ С ИСПОЛЬЗОВАНИЕМ МНОЖЕСТВА ДАТЧИКОВ С ПОМОЩЬЮ МОДЕЛИ СОСТОЯНИЙ РЕЧИ

Изобретение относится к распознаванию и передаче речи, в частности к способам и устройствам для определения правдоподобия состояния речи на основании сигнала альтернативного датчика и сигнала микрофона, основанного на принципе воздушной проводимости. Техническим результатом является формирование речевого сигнала повышенного качества. Указанный технический результат достигается тем, что генерируют сигнал альтернативного датчика, причем альтернативный датчик является менее чувствительным к окружающему шуму, чем микрофон, основанный на принципе воздушной проводимости, генерируют сигнал микрофона, основанного на принципе воздушной проводимости, используют сигнал альтернативного датчика и сигнал микрофона, основанного на принципе воздушной проводимости, для оценивания правдоподобия L(S_t) состояния S_t речи, посредством оценивания отдельной составляющей правдоподобия для каждой из набора частотных составляющих и объединение отдельных составляющих правдоподобия для формирования оценки правдоподобия состояния речи, используют правдоподобие состояния речи для оценивания значения сниженного шума, которое моделирует значение сниженного шума при заданном состоянии речи. Правдоподобие состояния речи используется вместе с сигналом альтернативного датчика и сигналом микрофона, основанного на принципе воздушной проводимости, для того, чтобы оценить значение чистой речи для сигнала чистой речи. 3 н. и 10 з.п. ф-лы, 6 ил.

Формула изобретения RU 2 420 813 C2

1. Способ определения оценки значения сниженного шума, представляющего часть сигнала речи со сниженным шумом, заключающийся в том, что
генерируют сигнал альтернативного датчика с использованием альтернативного датчика, причем альтернативный датчик является менее чувствительным к окружающему шуму, чем микрофон, основанный на принципе воздушной проводимости;
генерируют сигнал микрофона, основанного на принципе воздушной проводимости,
используют сигнал альтернативного датчика и сигнал микрофона, основанного на принципе воздушной проводимости, для оценивания правдоподобия L(S_t) состояния S_t речи, посредством оценивания отдельной составляющей правдоподобия для каждой из набора частотных составляющих и объединение отдельных составляющих правдоподобия для формирования оценки правдоподобия состояния речи;
используют правдоподобие состояния речи для оценивания значения сниженного шума в соответствии с

где π_s - последующее состояние, задаваемое следующим образом:

и где

причем и ,
где М* - комплексно-сопряженная величина по отношению к М;
- значение сниженного шума;
Y_t - значение для кадра t сигнала микрофона, основанного на принципе воздушной проводимости;
B_t - значение для кадра t сигнала альтернативного датчика;
σ_u ² - дисперсия шума датчика в микрофоне, основанном на принципе воздушной проводимости;
σ_w ² - дисперсия шума датчика в альтернативном датчике;
g²σ_v ² - дисперсия окружающего звука;
G - отклик канала альтернативного датчика на окружающий шум;
Н - отклик канала сигнала альтернативного датчика на сигнал чистой речи;
S - набор всех состояний речи, и
σ_s ² - дисперсия для распределения, которое моделирует значение сниженного шума при заданном состоянии речи.

2. Способ по п.1, дополнительно предусматривающий использование оценки правдоподобия состояния речи для того, чтобы определить, содержит ли кадр сигнала микрофона, основанного на принципе воздушной проводимости, речь.

3. Способ по п.2, дополнительно предусматривающий использование кадра сигнала микрофона, основанного на принципе воздушной проводимости, который определен как не содержащий речь, для определения дисперсии для источника шума, и использование упомянутой дисперсии для источника шума для оценки значения сниженного шума.

4. Способ по п.1, дополнительно предусматривающий оценивание дисперсии распределения как линейной комбинации оценки значения сниженного шума для предшествующего кадра и отфильтрованной версии сигнала микрофона, основанного на принципе воздушной проводимости, для текущего кадра.

5. Способ по п.4, в котором отфильтрованную версию сигнала микрофона, основанного на принципе воздушной проводимости, формируют с помощью фильтра, который является зависимым от частоты.

6. Способ по п.4, в котором отфильтрованную версию сигнала микрофона, основанного на принципе воздушной проводимости, формируют с помощью фильтра, который является зависимым от отношения «сигнал к шуму».

7. Способ по п.1, дополнительно предусматривающий выполнение итерации путем использования оценки значения сниженного шума для формирования новой оценки значения сниженного шума.

8. Компьютерная запоминающая среда, имеющая исполняемые компьютером команды, которые при исполнении процессором вынуждают процессор выполнять этапы способа для оценки значения чистой речи, причем этапы заключаются в том, что:
принимают сигнал альтернативного датчика, генерируемый с использованием альтернативного датчика, причем альтернативный датчик является менее чувствительным к окружающему шуму, чем микрофон, основанный на принципе воздушной проводимости;
принимают сигнал микрофона, основанного на принципе воздушной проводимости, генерируемый с использованием микрофона, основанного на принципе воздушной проводимости,
определяют правдоподобие состояния речи на основании сигнала альтернативного датчика и сигнала микрофона, основанного на принципе воздушной проводимости, посредством оценивания отдельного правдоподобия для каждого из набора частотных составляющих и объединение отдельных составляющих правдоподобия для формирования оценки правдоподобия состояния речи, и
используют правдоподобие состояния речи для оценивания значения чистой речи.

9. Компьютерная запоминающая среда по п.8, в которой использование правдоподобия состояния речи для оценивания значения чистой речи предусматривает взвешивание значения ожидания.

10. Компьютерная запоминающая среда по п.8, в которой использование правдоподобия состояния речи для оценивания значения чистой речи предусматривает
использование правдоподобия состояния речи для идентификации кадра сигнала как кадра, в котором речь отсутствует,
использование кадра, в котором речь отсутствует, для оценивания дисперсии для шума, и
использование дисперсии для шума для оценивания значения чистой речи.

11. Способ идентификации значения чистой речи для сигнала чистой речи, заключающийся в том, что
принимают сигнал альтернативного датчика, генерируемый с использованием альтернативного датчика, причем альтернативный датчик является менее чувствительным к окружающему шуму, чем микрофон, основанный на принципе воздушной проводимости;
принимают сигнал микрофона, основанного на принципе воздушной проводимости, генерируемый с использованием микрофона, основанного на принципе воздушной проводимости;
формируют модель, в которой сигнал чистой речи является зависимым от состояния речи, сигнал альтернативного датчика является зависимым от сигнала чистой речи, и сигнал микрофона, основанного на принципе воздушной проводимости, является зависимым от сигнала чистой речи, причем формирование модели содержит моделирование вероятности значения сигнала чистой речи при заданном состоянии речи как распределения, имеющего дисперсию; и
определяют отфильтрованное значение сигнала микрофона, основанного на принципе воздушной проводимости посредством применения значения для текущего кадра сигнала микрофона, основанного на принципе воздушной проводимости к зависимому от частоты шумоподавляющему фильтру, которое является функцией от дисперсии окружающего шума;
определяют дисперсию распределения как линейную комбинацию оценки значения для сигнала чистой речи для предшествующего кадра и отфильтрованного значения сигнала микрофона, основанного на принципе воздушной проводимости;
определяют оценку значения чистой речи для текущего кадра на основании модели, дисперсию распределения, значение для сигнала альтернативного датчика для текущего кадра, и значения для сигнала микрофона, основанного на принципе воздушной проводимости для текущего кадра.

12. Способ по п.11, дополнительно предусматривающий определение правдоподобия для состояния, и где определение оценки значения чистой речи дополнительно предусматривает использование упомянутого правдоподобия для состояния.

13. Способ по п.11, в котором формирование модели предусматривает формирование модели, в которой сигнал альтернативного датчика и сигнал микрофона, основанного на принципе воздушной проводимости, являются зависимыми от источника шума.

Документы, цитированные в отчете о поиске Патент 2011 года RU2420813C2

US 5590241 А, 31.12.1996
ЕР 1376540 А2, 02.01.2004
US 2004267536 A1, 30.12.2004
JP 9258768 A, 03.10.1997
US 2003177006 A1, 18.09.2003
СИСТЕМА АДАПТИВНОЙ ФИЛЬТРАЦИИ АУДИОСИГНАЛОВ ДЛЯ УЛУЧШЕНИЯ РАЗБОРЧИВОСТИ РЕЧИ ПРИ НАЛИЧИИ ШУМА	1996	Торбьерн В. Сельве	RU2163032C2

RU 2 420 813 C2

Авторы

Чжан Чженью

Лю Цзычэн

Асеро Алехандро

Субраманиа Амарнаг

Дроппо Джеймс Г.

Даты

2011-06-10—Публикация

2006-06-13—Подача

название	год	авторы	номер документа
УЛУЧШЕНИЕ РЕЧИ С ПОМОЩЬЮ НЕСКОЛЬКИХ ДАТЧИКОВ С ИСПОЛЬЗОВАНИЕМ ПРЕДШЕСТВУЮЩЕЙ ЧИСТОЙ РЕЧИ	2006	Лю Цзычэн Асеро Алехандро Чжан Чженью	RU2407074C2
СПОСОБ И УСТРОЙСТВО ДЛЯ ПОВЫШЕНИЯ РАЗБОРЧИВОСТИ РЕЧИ С ИСПОЛЬЗОВАНИЕМ НЕСКОЛЬКИХ ДАТЧИКОВ	2004	Асеро Алехандро Дроппо Джеймс Г. Денг Ли Синклер Майкл Дж. Хуанг Ксуедонг Дэвид Чжэн Янли Жанг Женжиоу Лиу Зиченг	RU2373584C2
СПОСОБ И УСТРОЙСТВО ДЛЯ УЛУЧШЕНИЯ РЕЧИ С ПОМОЩЬЮ НЕСКОЛЬКИХ ДАТЧИКОВ	2005	Асеро Алехандро Дроппо Джеймс Дж. Хуан Сюэдонг Дэвид Чжан Чжэню Лю Цзычэн	RU2389086C2
СПОСОБ МНОГОСЕНСОРНОГО УЛУЧШЕНИЯ РЕЧИ НА МОБИЛЬНОМ РУЧНОМ УСТРОЙСТВЕ И МОБИЛЬНОЕ РУЧНОЕ УСТРОЙСТВО	2005	Синклер Майкл Дж. Хуанг Ксуедонг Дэвид Жанг Женжиоу	RU2376722C2
СИСТЕМА ДЕТЕКТИРОВАНИЯ РЕЧИ	2004	Хуанг Ксуедонг Д. Лиу Зиченг Зханг Зхенгиоу Синклэр Майкл Дж. Асеро Алехандро	RU2363994C2
СПОСОБ И АППАРАТ МУЛЬТИСЕНСОРНОГО УЛУЧШЕНИЯ РЕЧИ В МОБИЛЬНОМ УСТРОЙСТВЕ	2005	Синклер Майкл Дж. Грановеттер Ранди Филлис Чжан Чженью Лю Цзычэн	RU2391716C2
СПОСОБ ОЦЕНКИ ШУМА С ИСПОЛЬЗОВАНИЕМ ПОШАГОВОГО БАЙЕСОВСКОГО ИЗУЧЕНИЯ	2004	Асеро Алехандро Денг Ли Дроппо Джеймс Дж.	RU2370831C2
СПОСОБ И АППАРАТУРА ДЛЯ ГЕНЕРАЦИИ СИГНАЛА РЕЧИ	2014	Сринивасан Срирам	RU2648604C2
РАСПОЗНАВАНИЕ СМЕШАННОЙ РЕЧИ	2015	Юй Дун Вэн Чао Селтзер Майкл Л. Дроппо Джеймс	RU2686589C2
СПОСОБ ПОДАВЛЕНИЯ ШУМА ПУТЕМ СПЕКТРАЛЬНОГО ВЫЧИТАНИЯ	1996	Хендел Петер	RU2145737C1