Показать метаданные Скрыть метаданные

(19)

(11)

2 383 938

(13)

(51)

МПК

G10L17/00(2006-01-01)

H04M3/42(2006-01-01)

(21) (22)

Заявка

2004124499/09, 2004-08-10

(24)

Дата начала отсчета патента

2004-08-10

(22)

дата подачи заявки

2004-08-10

(45)

опубликовано

2010-03-10

(72)

авторы

Дзу Юн-ЧенгОлласон Дэвид Дж.

(73)

патентообладатели

Майкрософт Корпорейшн

(56)

Документы, цитированные в отчете о поиске

US 4837804 A, 06.06.1989US 6219407 B1, 17.04.2001EP 1009148 A, 14.06.2000.

УСОВЕРШЕНСТВОВАННАЯ ИДЕНТИФИКАЦИЯ ВЫЗЫВАЮЩЕГО АБОНЕНТА НА ОСНОВЕ РАСПОЗНАВАНИЯ РЕЧИ Российский патент 2010 года по МПК G10L17/00 H04M3/42

Описание патента на изобретение RU2383938C2

Предшествующий уровень техники

Настоящее изобретение относится к способу определения идентификационных данных вызывающего телефонного абонента. Более конкретно, настоящее изобретение относится к применению технологии распознавания речи для сбора идентификационных данных вызывающего телефонного абонента в случаях, когда традиционный идентификатор (ИД) абонента неадекватен или недоступен.

В настоящее время широко распространено получение отдельными лицами относительно большого числа голосовых сообщений. Например, нередко отдельные лица получают десятки новых голосовых сообщений в течение выходных дней. Кроме того, зачастую отдельные лица оставляют двадцать, тридцать или более сохраненных сообщений в системе голосовых сообщений. По мере того как число голосовых сообщений увеличивается, возможности эффективного прослушивания и сортировки сообщений снижаются.

Голосовые сообщения, как правило, не имеют надежной индикации идентификационных данных вызывающего абонента. В технике известны системы идентификации вызывающих абонентов, однако они ограничены идентификацией входящего номера телефона, который, возможно, соотносится с предполагаемым вызывающим абонентом, если данный номер телефона связан с этим лицом. Такие системы отслеживают телефон, но не говорящего абонента. Поэтому полезность этих систем идентификации вызывающего абонента для систем голосовых сообщений и маршрутизации вызова весьма ограничена.

Без приемлемо надежной информации идентификации вызывающего абонента трудно генерировать полезный итоговый список голосовых сообщений, чтобы обеспечить возможность пользователю системы голосовых сообщений эффективно просматривать совокупность новых или сохраненных сообщений. В результате большинство систем голосовых сообщений не включает в себя надежных средств для эффективного прослушивания и/или сортировки сообщений. Например, большинство современных систем голосовых сообщений предоставляет пользователю минимально полезную аудиосводку типа: «У Вас имеется три новых сообщения и три сохраненных сообщения». Такие сводки, как правило, не включают информации, относящейся к деталям вызова.

Отсутствие информации, связанной с голосовыми сообщениями, приводит к тому, что для их просмотра и упорядочения требуется больше времени. Например, в противоположность большинству сообщений электронной почты, голосовое сообщение не может быть удалено просто на основе косвенных указаний на содержание сообщения, его срочность или источник. Кроме того, сохраненные голосовые сообщения в общем случае не могут быть отсортированы или упорядочены в папки на основе косвенных указаний на содержание сообщения, его срочность или источник.

Прослушивание и сортировка голосовых сообщений в настоящее время требует значительных затрат времени, поскольку пользователь системы должен прослушивать каждое сообщение, чтобы выделить основную информацию, такую как идентификационные данные вызывающего абонента и/или срочность или тема телефонного вызова. Для речевых приложений в общем случае невозможно реализовать правила для автоматического предварительного упорядочения сообщений. Например, вероятно, невозможно реализовать правило удаления голосового сообщения или сохранения голосового сообщения в предварительно определенной папке на основе конкретных идентификационных данных вызывающего абонента и/или темы или срочности телефонного вызова. Без последовательной (непротиворечивой) индикации идентификационных данных вызывающего абонента также трудно интеллектуальным образом маршрутизировать телефонные вызовы на основе предпочтений и приоритетов абонента, принимающего вызов.

Сущность изобретения

Варианты осуществления настоящего изобретения касаются способа сбора совокупности идентификационных данных вызывающего телефонного абонента. В одном варианте осуществления создается персонализированная контекстно-свободная грамматика (грамматика CFG) для каждого потенциального принимающего вызов абонента (получателя), которая конфигурируется для поддержки идентификации вызывающих абонентов с использованием распознавания голоса. Каждая грамматика CFG воплощает индикацию с высокой вероятностью вызывающих абонентов, и весовые коэффициенты вероятности в каждой грамматике CFG изменяются соответствующим образом. Когда принимающий абонент получает вызов, релевантная грамматика CFG применяется во взаимосвязи с приложением распознавания голоса для обеспечения по меньшей мере предварительной идентификации вызывающего абонента. В соответствии с другим вариантом осуществления вызывающий абонент подтверждает идентификационные данные. В соответствии с одним вариантом осуществления, если возможно, используется стандартное средство ИД вызывающего абонента, по меньшей мере для содействия процессу идентификации. В соответствии с еще одним вариантом осуществления используется усовершенствованная идентификация вызывающего абонента на основе распознавания голоса для обеспечения функциональной возможности интеллектуальной маршрутизации вызова.

Краткое описание чертежей

Фиг.1 - блок-схема иллюстративной вычислительной среды.

Фиг.2 - схематичное представление системы голосовых сообщений и маршрутизации вызова.

Фиг.3 - схематичное представление содержимого грамматики CFG.

Фиг.4 - блок-схема последовательности операций, иллюстрирующая этапы, связанные с реализацией системы идентификации вызывающего абонента, включающей в себя распознавание речи.

Фиг.5 - блок-схема последовательности операций, иллюстрирующая этапы, связанные с реализацией функциональных возможностей интеллектуальной маршрутизации вызова.

Детальное описание приведенных для примера

вариантов осуществления

1. Иллюстративная операционная среда

Различные аспекты настоящего изобретения касаются применения технологии распознавания речи для сбора идентификационных данных вызывающего абонента, если традиционный ИД абонента неадекватен или недоступен. Варианты осуществления настоящего изобретения могут быть реализованы во взаимосвязи с системой маршрутизации вызова, в которой вызывающий абонент идентифицируется, и вызов маршрутизируется соответствующим образом. Таким образом, варианты осуществления могут быть реализованы с использованием системы голосовых сообщений, в которой абонент, оставляющий сообщение, идентифицируется, и сообщение сортируется или маршрутизируется соответствующим образом. Варианты осуществления также могут быть реализованы во взаимосвязи с комбинацией систем маршрутизации вызова и голосовых сообщений. Следует отметить, что настоящее изобретение не ограничено системами маршрутизации вызова и голосовых сообщений. Они являются просто двумя примерами систем, с использованием которых может быть реализовано настоящее изобретение. Перед более детальным описанием вариантов осуществления изобретения ниже представлена приведенная для примера вычислительная среда, в которой могут быть реализованы указанные варианты осуществления и связанные с ними системы.

Фиг.1 иллюстрирует пример подходящей вычислительной среды 100, в которой могут быть реализованы варианты осуществления настоящего изобретения и связанные с ними системы. Среда 100 вычислительной системы является лишь примером подходящей вычислительной среды и не предназначается для ограничения объема использования или функциональных возможностей изобретения. Вычислительная среда 100 также не должна интерпретироваться как имеющая какую-либо зависимость или требование по отношению к любому компоненту или комбинации показанных компонентов.

Настоящее изобретение может быть реализовано в других средах или конфигурациях универсальных или специализированных вычислительных систем. Примеры хорошо известных вычислительных систем, сред и/или конфигураций, которые могут подходить для использования с изобретением, включают, не ограничиваясь указанным, персональные компьютеры, серверные компьютеры, миниатюрные или портативные устройства, мультипроцессорные системы, приборы, основанные на микропроцессорах, приставки, программируемые приборы бытовой электроники, сетевых ПК, мини-компьютеры, универсальные компьютеры, телефонные системы, распределенные вычислительные среды, которые включают любые из вышеуказанных систем или устройств и т.п.

Изобретение может быть описано в общем контексте команд, исполняемых компьютером, таких как программные модули, исполняемые на компьютере. В общем случае программные модули включают в себя стандартные программы, программы, объекты, компоненты, структуры данных и т.д., которые выполняют конкретные задачи или реализуют некоторые абстрактные типы данных. Изобретение предназначено для реализации в распределенных вычислительных средах, где задачи выполняются удаленными устройствами обработки, которые связаны коммуникационной сетью. В распределенной вычислительной среде программные модули размещаются как в локальных, так и удаленных компьютерных носителях данных, включая запоминающие устройства. Задачи, выполняемые программами и модулями, описаны ниже со ссылками на чертежи. Специалисты в данной области техники смогут реализовать представленное в описании и на чертежах в виде исполняемых процессором команд, которые могут быть записаны на машиночитаемом носителе любой формы.

На фиг.1 представлена приведенная для примера система для реализации изобретения, включающая в себя универсальное вычислительное устройство в форме компьютера 110. Компоненты компьютера 110 могут включать в себя, не ограничиваясь указанным, блок 120 обработки, системную память 130 и системную шину 121, которая связывает различные системные компоненты, включая системную память, с блоком 120 обработки. Системная шина 121 может быть любой из различных типов шинных структур, включая шину памяти или контроллер памяти, шину периферийных устройств, локальную шину, использующую любую из разнообразных шинных архитектур. В качестве примера, но не ограничения, такие архитектуры включают в себя шину ISA (Архитектура, соответствующая промышленному стандарту), шину MCA (Микроканальная архитектура), усовершенствованную шину ISA (EISA), локальную шину VESA (Ассоциации по стандартам в области видеоэлектроники), шину соединения периферийных компонентов (PCI), также известную как шина Mezzanine.

Компьютер 110 в типовом случае включает в себя множество считываемых компьютером сред (носителей). Считываемые компьютером носители могут представлять собой любые известные носители, к которым компьютер 110 может осуществлять доступ, и включают в себя энергозависимые и энергонезависимые носители, съемные и несъемные носители. К примеру, но не в качестве ограничения, считываемые компьютером носители могут содержать компьютерные носители записи и коммуникационную среду. Компьютерные носители записи включают в себя энергозависимые и энергонезависимые носители, съемные и несъемные носители, реализованные любым методом или по любой технологии для хранения информации, такой как считываемые компьютером команды, структуры данных, программные модули или иные данные. Компьютерные носители записи содержат, не ограничиваясь указанным, оперативную память (RAM, ОЗУ), постоянную память (ROM, ПЗУ), электронно-стираемую программируемую постоянную память (EEPROM, ЭСППЗУ), память с групповой перезаписью (флэш-память) или другие технологии памяти, CD-ROM, универсальные цифровые диски (DVD) или иные устройства памяти на оптических дисках, магнитных кассетах, магнитных лентах, устройства памяти на магнитных дисках или иные магнитные устройства памяти, или любые иные носители, которые могут быть использованы для хранения желательной информации и к которым может быть обеспечен доступ компьютера 110.

Коммуникационная среда (среда передачи) в типовом случае воплощает считываемые компьютером команды, структуры данных, программные модули или иные данные в модулированном сигнале данных, таком как несущее колебание или иной транспортный механизм (механизм передачи), и включает в себя любую среду доставки информации. Термин «модулированный сигнал данных» означает сигнал, у которого одна или более характеристик установлены или изменяются таким образом, чтобы кодировать информацию в сигнале. В качестве примера, но не ограничения, коммуникационная среда включает в себя проводные среды, такие как проводная сеть или прямое проводное соединение, и беспроводную среду передачи, такую как акустическая, радиочастотная, инфракрасная и другая беспроводная среда передачи. Комбинации любых вышеуказанных сред также должны быть включены в объем носителей (сред), считываемых компьютером.

Системная память 130 включает в себя компьютерный носитель записи в форме энергозависимой и/или энергонезависимой памяти такой, как постоянная память (ПЗУ, ROM) 131 и оперативная память (ОЗУ, RAM) 132. Базовая система ввода/вывода (BIOS) 133, содержащая базовые подпрограммы, которые способствуют переносу информации между элементами в компьютере 110, например, при запуске, в типовом случае сохранена в ПЗУ 131. ОЗУ 132 в типовом случае содержит данные и/или программные модули, которые непосредственно доступны и/или обрабатываются блоком 120 обработки. В качестве примера, но не ограничения, на фиг.1 показаны операционная система 134, прикладные программы 135, другие программные модули 136 и программные данные 137.

Компьютер 110 может также включать в себя другие съемные/ несъемные, энергозависимые/энергонезависимые компьютерные носители записи. Например, на фиг.1 показан дисковод 141 жестких дисков для считывания с несъемного, энергонезависимого магнитного носителя и записи на него, дисковод 151 магнитных дисков для считывания со съемного энергонезависимого магнитного диска 152 и записи на него, и дисковод 155 оптических дисков для считывания со съемного энергонезависимого оптического диска 156 или записи на оптический диск, такой как, например, ПЗУ на компакт-диске (CD-ROM) или иные оптические носители записи. Другие съемные и несъемные, энергозависимые и энергонезависимые компьютерные носители записи, которые могут быть использованы в приведенной для примера операционной среде, включают в себя, не ограничиваясь указанным, кассеты на магнитных лентах, карты флэш-памяти, DVD, цифровые видеомагнитные ленты, твердотельные ОЗУ, твердотельные ПЗУ и т.п. Дисковод 141 жестких дисков в типовом случае соединен с системной шиной 121 посредством интерфейса несъемной памяти, такого как интерфейс 140, и дисковод 151 магнитных дисков и дисковод 155 оптических дисков соединены с системной шиной 121 в типовом случае посредством интерфейса схемной памяти, такого как интерфейс 150.

Дисководы и связанные с ними считываемые компьютером носители, описанные выше и показанные на фиг.1, обеспечивают хранение считываемых компьютером команд, структур данных, программных модулей и других данных для компьютера 110. На фиг.1, например, показано, что дисковод 141 жесткого диска хранит операционную систему 144, прикладные программы (приложения) 145, другие программные модули 146 и программные данные 147. Заметим, что эти компоненты могут быть теми же самыми или отличающимися от операционной системы 134, прикладных программ 135, других программных модулей 136 и программных данных 137. Операционная система 144, прикладные программы 145, другие программные модули 146 и программные данные 147 обозначены отличающимися ссылочными позициями для иллюстрации того, что они, как минимум, являются другими копиями.

Пользователь может вводить команды и информацию в компьютер 110 посредством устройств ввода, например клавиатуры 162, микрофона 163, координатно-указательного устройства 161, такого как мышь, трекбол или сенсорная панель. Другие устройства ввода (не показаны) могут включать в себя джойстик, игровую панель, спутниковую параболическую антенну, сканер и т.п. Эти и другие устройства ввода часто соединяются с блоком 120 обработки через интерфейс 160 пользовательского ввода, связанный с системной шиной, но могут быть соединены и посредством других интерфейсов и структур шин, таких как параллельный порт, игровой порт или универсальная последовательная шина (USB) и т.д. Монитор 191 или иное устройство отображения также соединено с системной шиной 121 через интерфейс, например, такой как видеоинтерфейс 190. Помимо монитора, компьютеры также могут включать в себя другие периферийные устройства вывода, например, громкоговорители 197 и принтер 196, которые могут быть соединены через интерфейс 195 устройств вывода.

Компьютер 110 может работать в сетевой среде с использованием логических соединений с одним или более удаленными компьютерами, такими как удаленный компьютер 180. Удаленный компьютер 180 может представлять собой ПК, портативное устройство, сервер, маршрутизатор, сетевой ПК, одноранговое устройство или другой обычный сетевой узел и в типовом случае включает в себя многие или все из элементов, описанных выше применительно к компьютеру 110. Логические соединения, показанные на фиг.1, включают в себя локальную сеть (LAN) 171 и глобальную сеть (сеть широкого охвата - WAN) 173, но могут включать в себя и другие сети. Такие сетевые среды являются общеизвестными в офисах, компьютерных сетях предприятий, интранетах и в Интернет.

При использовании в сетевой среде локальной сети (LAN) компьютер 110 соединяется с локальной сетью 171 через сетевой интерфейс или адаптер 170. При использовании в сетевой среде глобальной сети (WAN) компьютер 110 в типовом случае включает в себя модем 172 или иное средство для установления связи в глобальной сети 173, такой как Интернет. Модем 172, который может быть внутренним или внешним, соединен с системной шиной 121 через интерфейс 160 пользовательского ввода или иной подходящий механизм. В сетевой среде программные модули, изображенные по отношению к компьютеру 110, или их части могут быть сохранены в удаленном устройстве памяти. В качестве примера, но не ограничения, фиг.1 иллюстрирует удаленные прикладные программы 185 как хранящиеся в устройстве памяти 181. Следует иметь в виду, что показанные сетевые соединения приведены для примера, и что могут быть использованы и другие средства установления канала связи между компьютерами.

Следует отметить, что настоящее изобретение может быть реализовано на компьютерной системе, подобной описанной со ссылкой на фиг.1. Однако настоящее изобретение может быть выполнено на сервере, компьютере, предназначенном для обработки сообщений, или в распределенной системе, в которой различные части настоящего изобретения выполняются на различных частях распределенной вычислительной системы.

II. Система голосовых сообщений и маршрутизации вызовов

На фиг.2 в соответствии с одним аспектом настоящего изобретения представлена блок-схема системы 204 управления голосовыми сообщениями. Система 204 реализована в одной из вычислительных сред, описанных со ссылкой на фиг.1. Вызовы 202 маршрутизируются в систему 204. Вызовы 202 являются приведенными для примера вызовами, которые направлены конкретному получателю 210. Каждый получатель 210 имеет связь с системой 204 управления голосовыми сообщениями. Например, каждый получатель 210 связан с «почтовым ящиком», связанным с системой 204, причем почтовый ящик представляет собой память данных для сбора новых или сохраненных голосовых сообщений.

Система 204 сообщений использует подсистему 214 голосовых сообщений для обеспечения создания голосовых сообщений вызывающими абонентами для соответствующих получателей 210 вызовов. Например, вызывающий абонент, ассоциированный с вызовом 202, может взаимодействовать с подсистемой 214 голосовых сообщений для генерации сообщения для конкретного предназначаемого получателя 210 вызова. Подсистема 214 голосовых сообщений использует компонент 216 управления сообщениями для приема и распределения сообщений. Новые сообщения поддерживаются в области памяти 218 данных, а ранее просмотренные сообщения, которые не были удалены, поддерживаются в области памяти 220 данных. Следует отметить, что новые и сохраненные сообщения также могут сохраняться в одной области памяти данных, без отклонения от сущности заявленного изобретения. Получатель 210 вызова может взаимодействовать с подсистемой 214 голосовых сообщений для просмотра своих новых и сохраненных сообщений и для удаления или сохранения сообщений по своему усмотрению.

Для каждого индивидуального вызова 202 система 204 использует подсистему 206 идентификации для идентификации вызывающего абонента. Подсистема 206 включает в себя компонент 222 распознавания речи, который используется для выполнения распознавания речи во взаимосвязи с множеством грамматик CFG 212. Грамматики CFG 212 включают в себя персонализированную грамматику CFG для каждого получателя вызова. Каждая грамматика CGF в качестве примера может включать совокупность узлов и указателей, через которые проходит алгоритм декодирования для облегчения процесса использования распознавания речи для сбора идентификационных данных вызывающего абонента, связанного с вызовом 202. В соответствии с одним аспектом настоящего изобретения заданная грамматика CFG персонализирована для конкретного получателя 210 тем, что она взвешена в пользу набора наиболее вероятных вызывающих абонентов для данного получателя. Особенности содержимого грамматики CFG 212 описаны ниже более детально со ссылками на фиг.3.

В соответствии с одним вариантом осуществления вызывающий абонент, генерирующий вызов в систему 204, взаимодействует с подсистемой 206 и, при наличии предварительно определенного набора условий, которые описаны ниже со ссылками на фиг.4, ему предлагается произнести свое имя. Полная модель произношения слова (т.е. акустическая модель) имени вызывающего абонента регистрируется и сохраняется (т.е. сохраняется в компоненте 222 распознавания речи или в грамматике CFG 212). Чтобы преодолеть недостатки, связанные с традиционными правилами «от буквы к звуку», модель сохраненных слов обеспечивают точную информацию о произношении, что касается того, каким образом каждый вызывающий абонент четко произносит свое имя. Компонент 222 распознавания речи использует сохраненные модели слов для выявления идентификационных данных повторяющихся вызывающих абонентов путем применения соответствующей грамматики CFG (т.е. грамматики CFG, связанной с соответствующим получателем вызова) и сравнения сохраненных моделей слов с моделью слова, генерируемой для неидентифицированного вызывающего абонента. Каждая из описанных моделей слов может, например, представлять собой последовательность фонем или отдельный речевой блок, что также входит в объем настоящего изобретения.

Подсистема 226 идентификации также включает в себя компонент 224 идентификатора (ИД) вызывающего абонента. Компонент 224, например, сопоставим с хорошо известными системами идентификации вызывающих абонентов, в которых вызов ассоциируется с вызывающим абонентом на основе связанного с ним номера телефона-источника вызова. В соответствии с одним вариантом осуществления, если информация ИД вызывающего абонента доступна, она используется подсистемой идентификации в качестве эффективного, но не презюмируемого указания идентификации вызываемого абонента. Например, если даже информация ИД вызывающего абонента доступна, подсистема 206 идентификации будет все равно предлагать вызывающему абоненту подтвердить свои идентификационные данные.

В соответствии с одним вариантом осуществления в случаях, когда ИД вызывающего абонента не помогает в идентификации вызывающего абонента, связанного с вызовом 202, интеллектуальным образом используется контекстная информация, связанная с информацией ИД вызывающего абонента, для обновления вероятностей в структуре грамматики CFG. Подсистема 206 идентификации может быть конфигурирована для использования дополнительной информации, чтобы способствовать в определении контекстных предположений.

Например, подсистема 206 идентификации может быть обеспечена доступом к списку лиц, которые, как ожидается, должны встретиться во множестве из конкретных помещений совещаний. Когда поступает вызов, в который включена традиционная информация ИД вызывающего абонента, соответствующая вызову, исходящему из одного из перечисленных помещений совещаний, подсистема 206 идентификации конфигурируется для настройки грамматики CGF релевантного получателя вызова таким образом, что вероятностные веса увеличиваются для вызывающих абонентов, для которых запланирована встреча в данном конкретном помещении совещания. В другом примере подсистема 206 идентификации обеспечивается доступом к списку помещений и служащих в конкретном здании. Когда поступает вызов, указывающий на происхождение вызова из упомянутого в списке помещения совещания, то грамматика CFG релевантного получателя вызова настраивается таким образом, что вероятностные веса возрастают для вызывающих абонентов, работающих в том же здании, где находится данное помещение совещания.

В соответствии с одним аспектом настоящего изобретения грамматика CFG 212, компонент 224 идентификации вызывающего абонента и компонент 222 распознавания речи используются по предварительно организованной схеме для идентификации вызывающего абонента. Детали того, каким образом, компоненты применяются в соответствии с такой схемой, описаны ниже со ссылками на фиг.4.

В соответствии с одним вариантом осуществления изобретения, как только идентификационные данные вызывающего абонента собраны и ассоциированы с голосовым сообщением, компонент 216 управления сообщениями сортирует сообщение и относит его к категории соответствующим образом.

Например, если получатель 210 вызова взаимодействует с подсистемой 214 голосовых сообщений для просмотра новых или сохраненных сообщений, они, например, представляются с информативными, основанными на вызывающем абоненте опциями, такими как: «У Вас имеется три новых сообщения от Вашей жены, два новых сообщения от Вашего шефа и три старых сообщения от Роя Уильямса… нажмите 1, чтобы прослушать сообщения от Вашей жены, нажмите 2, чтобы прослушать сообщения от Вашего шефа, и нажмите 3, чтобы прослушать сообщения от Роя Уильямса». Это является усовершенствованием по сравнению с менее информативными опциями, например: «У Вас пять новых сообщений и три старых сообщения, нажмите 1 для прослушивания старых сообщений или 2 для прослушивания новых сообщений». В соответствии с одним вариантом осуществления сортировка основана на предмете сообщения и/или срочности, а не на идентификации вызывающего абонента или в дополнение к ней. Предположения о предмете и/или срочности основаны, например, на идентификационных данных различных вызывающих абонентов и, например, выбираются или программируются получателем вызова на основе его предпочтений.

Информация идентификации (т.е. включающая идентификационные данные вызывающего абонента, а также основанная на допущении информация о предмете и/или срочности) может быть использована для обеспечения получателя 210 вызова опциями интеллектуальной маршрутизации вызова, например, интеллектуальной фильтрацией вызовов и/или пересылкой вызовов. Такие приложения маршрутизации вызовов описаны более детально ниже со ссылками на фиг.5. Подсистема 226 интеллектуального управления вызовами, являющаяся факультативным компонентом, взаимодействует, например, с подсистемой 206 идентификации и подсистемой 214 голосовых сообщений для обеспечения приложений интеллектуальной маршрутизации вызовов.

III. Грамматика CFG 212

На фиг.3 схематично представлена грамматика CFG 212, которая по существу является совокупностью отдельных грамматик CFG. Каждая отдельная грамматика CFG, например, персонализирована для конкретного получателя 210 вызова. Конкретная грамматика CFG, используемая во взаимосвязи с компонентом 222 распознавания речи для идентификации вызывающего абонента зависит от того, какому получателю вызова направлен вызов 202.

Подсистема 206 идентификации обеспечивает возможность надежного сбора детальной информации, относящейся к идентификационным данным вызывающего абонента, с использованием распознавания речи. Распознавание речи, выполняемое компонентом 222, является особенно надежным, поскольку оно основывается: 1) на создании моделей произношения целых слов для имен повторяющихся вызывающих абонентов и 2) на контекстно-чувствительных персонализированных грамматиках распознавания речи (т.е. CFG 212). Дополнительно к этому традиционная информация ИД вызывающего абонента, такая как собираемая компонентом 224, используется при ее наличии, по меньшей мере для обеспечения более точной вероятностной грамматики CFG для процесса идентификации на основе распознавания речи. Как описано со ссылкой на фиг.4, процесс подтверждения может быть реализован для обеспечения еще большей надежности.

Заданная грамматика CFG персонализируется для конкретного получателя 210, например, посредством того, что она конфигурируется в пользу набора высоковероятных вызывающих абонентов для данного получателя вызовов. В соответствии с одним вариантом осуществления, как показано в блоке 302, алгоритм, связанный с грамматикой CGF, взвешивается для поддержки (т.е. так взвешиваются вероятности языковой модели) идентификации вызывающих абонентов в списке повторяющихся вызывающих абонентов, поддерживаемом связанным получателем вызовов. В соответствии с другим вариантом осуществления алгоритм взвешивается для поддержки идентификации вызывающих абонентов, содержащихся в списке контактов (т.е. перечисленных в адресной книге), поддерживаемом ассоциированным получателем вызова. В соответствии с другим вариантом осуществления алгоритм взвешивается для поддержки идентификации вызывающих абонентов, которые включены в список сослуживцев, к которому имеет доступ подсистема 206 идентификации. В соответствии с еще одним вариантом осуществления для взвешивания вероятностей грамматики CFG используются контекстные предположения, связанные с местоположением источника вызова (т.е. основанные на традиционной информации ИД вызывающего абонента). Все или некоторые из этих факторов, как и другие факторы, могут быть использованы в качестве основы для персонализации грамматики CFG получателя вызовов с целью повышения вероятности корректной идентификации. Хотя на фиг.3 показан блок 302 только для одной грамматики CFG, следует иметь в виду, что другие грамматики CFG конфигурированы аналогичным образом.

Как показано в блоке 302, грамматика CGF может также факультативно использоваться в качестве места хранения данных, используемых для поддержки компонента ИД вызывающего абонента или компонента 222 распознавания речи. Например, акустические модели могут сохраняться в грамматике CFG 212 и использоваться компонентом 222 распознавания речи. Компиляции информации, например, списки сослуживцев, списки помещений совещаний, списки повторяющихся вызывающих абонентов, списки участников совещаний, списки помещений в здании, списки служащих в здании и другая информация могут сохраняться в грамматике CFG 212 и использоваться любым компонентом подсистемы 206 идентификации в процессе выполнения процедуры идентификации вызывающего абонента. Любые из данных могут альтернативно сохраняться с возможностью доступа в местоположении, независимом от грамматики CFG 212, что также входит в объем настоящего изобретения.

IV. Процедура выполнения усовершенствованной идентификации вызывающего абонента на основе распознавания речи

В соответствии с одним аспектом настоящего изобретения грамматика CFG 212, компонент 224 ИД вызывающего абонента и компонент 222 распознавания речи используются подсистемой 206 идентификации в соответствии с предварительно определенной схемой для идентификации вызывающего абонента. На фиг.4 представлена блок-схема алгоритма, иллюстрирующая этапы, связанные с указанной предварительно определенной схемой.

Процесс, представленный для примера на фиг.4, начинается, когда вызов 202 поступает в систему 204 управления голосовыми сообщениями. Первый этап, как показано блоком 402, заключается в использовании компонента 224 ИД вызывающего абонента, чтобы выяснить, могут ли быть сделаны какие-либо выводы об идентификации на основе только традиционной информации ИД вызывающего абонента. Иными словами определяется, ассоциирован ли телефонный номер, соответствующий вызову 202, с идентифицируемым лицом. Если информации ИД вызывающего абонента достаточно для формирования приемлемо правдоподобной догадки относительно идентификационных данных вызывающего абонента, то процесс переходит непосредственно к процедуре подтверждения имени, что показано на фиг.4 блоком 408.

Блок 408 представляет этап, на котором подсистема 206 идентификации получает подтверждение от вызывающего абонента относительно того, кем является вызывающий абонент. Этап 408 служит для подтверждения или отклонения правдоподобной догадки об идентификации, сформированной подсистемой 206 идентификации. Например, вызывающему абоненту задается простой вопрос: «Вы Ник Коллизон?». Если подтверждение безуспешно, то в соответствии с блоком 406 с вызывающим абонентом проводится сеанс вопроса и ответа для получения речевой выборки от вызывающего абонента (т.е. произнесенного вызывающим абонентом его имени), и для идентификации вызывающего абонента на основе речевой выборки с использованием компонента 222 распознавания речи и грамматики CFG 212.

В частности, после получения речевой выборки от вызывающего абонента эта выборка сравнивается компонентом 222 распознавания речи с языковой моделью, сохраненной в грамматике CFG релевантного получателя вызова. Этот процесс распознавания речи используется для формирования другой правдоподобной догадки относительно идентификационных данных вызывающего абонента. Правдоподобная догадка, основанная на распознавании речи, затем подтверждается или отклоняется вызывающим абонентом на этапе 408. Если подтверждение отклонено, то сеанс вопроса и ответа повторяется. Система конфигурирована, например, с возможностью выполнения предварительно определенного числа различных попыток идентификации на основе сохраненных выборок речи. В соответствии с одним вариантом осуществления, однако, после предварительно определенного количества безуспешных попыток, система отказывается от идентификации вызывающего абонента. В таких случаях акустические голосовые выборки вызывающего абонента могут все еще сохраняться для последующей идентификации на основе распознавания речи, если впоследствии идентификационные данные вызывающего абонента станут известными. В соответствии с одним вариантом осуществления система 206 идентификации обеспечивает возможность пользователю ввести идентификационные данные через телефонную кнопочную панель.

Если правдоподобная догадка, основанная на распознавании речи, успешно подтверждена, то выполняется этап 410. На этапе 410 акустические данные сохраняются для последующего использования компонентом 222 распознавания речи. В соответствии с одним вариантом осуществления компонент 222 распознавания речи сохраняет либо предварительно определенное, либо неограниченное число акустических выборок для каждого вызывающего абонента. Поддержание множества выборок позволяет компоненту 222 распознавания речи выполнять более точные сравнения в ходе процесса идентификации (т.е. множество выборок может сравниваться с целевой выборкой для достижения более высокой точности).

После сохранения акустических данных, в соответствии с блоком 412, осуществляется обновление списка часто звонящих абонентов. Грамматика CFG, ассоциированная с получателем 210, которому был направлен вызов 202, взвешивается с учетом идентификации списка часто звонящих абонентов. Вслед за успешной и подтвержденной идентификацией вызывающего абонента, в соответствии с блоком 412, список вызывающих абонентов модифицируется для добавления одного вызова к числу вызовов, принятому от подтвержденного вызывающего абонента. Как только список повторяющихся абонентов обновлен, соответственно должна быть обновлена взвешенная грамматика CFG. Такие обновления грамматики CFG могут быть выполнены по команде, после каждого вызова или на периодической основе (т.е. ежедневно, еженедельно, ежемесячно и т.д.). Следует отметить, что в соответствии с одним вариантом осуществления изобретения любой источник информации о предпочтениях грамматики CFG (т.е. повторяющиеся абоненты, имена из списка контактов, списка сослуживцев и т.д.) может быть модифицирован, причем модифицированная информация используется для обновления одной или более грамматик CFG на периодической основе или по запросу.

Следует отметить, что если идентификация вызывающего абонента успешно подтверждена на основе только ИД вызывающего абонента, то этап 412 является следующим этапом, так как этап 410 можно пропустить, поскольку не имеется акустических речевых данных.

Возвращаясь к блоку 402, следует отметить, что в некоторых случаях принятой информации ИД вызывающего абонента будет недостаточно для идентификации вызывающего абонента, но будет достаточно для формирования некоторой контекстной информации, которая может быть использована для взвешивания грамматики CFG получателя в направлении надлежащей идентификации (см. приведенный выше пример с «помещением для совещания»). В соответствии с блоком 404, веса грамматики CFG настраиваются в соответствии с контекстной информацией ИД вызывающего абонента. Вслед за настройкой, в соответствии с блоком 406, в процессе сеанса вопроса и ответа с вызывающим абонентом получают акустическую выборку. Остальная часть процесса идентификации, включая этап 408 подтверждения, повторяется, как представлено на блок-схеме процедуры и описано выше.

Дополнительно ссылаясь на блок 402, следует отметить, что в некоторых случаях вообще не будет иметься полезной информации ИД вызывающего абонента. В таких случаях этап 406 сеанса вопроса и ответа проводится сразу же, и процедура повторяется, как представлено на блок-схеме и описано выше.

V. Интеллектуальная маршрутизация вызова

В соответствии с некоторыми вариантами осуществления настоящего изобретения идентификационные данные вызывающего абонента собираются и подтверждаются, когда вызывающий абонент еще находится на линии. Соответственно, сбор и подтверждение идентификационных данных вызывающего абонента могут быть использованы для приложений маршрутизации вызова, таких как фильтрация или пересылка вызова, не ограничиваясь указанным. Приложения маршрутизации вызовов реализуются, например, с использованием подсистемы 226 интеллектуального управления вызовами (фиг.2), которая является дополнительным компонентом.

На фиг.5 представлена блок-схема последовательности операций, иллюстрирующая интеллектуальную процедуру фильтрации в соответствии с одним аспектом настоящего изобретения. Процесс начинается, например, когда вызов 202 поступает в систему. На первом этапе, который показан блоком 502, система 221 определяет, включена ли функция интеллектуальной фильтрации. Если нет, то все вызовы маршрутизируются дальше к их предназначенным получателям (блок 510). Если эта функция включена, то подсистема 206 определяет идентификационные данные вызывающего абонента. Идентификационные данные собираются, например, с использованием процедуры по фиг.4, хотя это и не обязательно.

В соответствии с блоком 506, собранные идентификационные данные вызывающего абонента сравниваются с системными настройками для определения того, разрешено ли вызывающему абоненту связываться с предполагаемым им получателем 210. Если это разрешено, то осуществляется соединение вызова в соответствии с блоком 508, а если не разрешено, то в соответствии с блоком 508 вызывающего абонента переадресуют к подсистеме 214 голосовых сообщений для того, чтобы оставить сообщение.

В соответствии с другим аспектом настоящего изобретения, пересылка вызова действует соответственно описанной процедуре фильтрации вызова. Основное различие состоит в том, что вместо использования идентификационной информации в качестве базы для маршрутизации вызова либо к получателю, либо в систему голосовых сообщений, идентификационная информация используется в качестве базы для маршрутизации вызова в то или иное местоположение (т.е. на тот или иной телефонный номер).

Таким образом, варианты осуществления настоящего изобретения касаются использования распознавания речи для сбора информации о вызывающем абоненте в системах речевых сообщений и маршрутизации вызовов, в частности, в условиях, когда традиционный ИД вызывающего абонента неадекватен или вообще недоступен. В соответствии с одним вариантом осуществления настоящего изобретения идентификация вызывающего абонента с использованием распознавания речи выполняется во взаимосвязи со следующими компонентами системы:

1. Персонализированная грамматика CFG используется для каждого потенциального получателя вызова. Грамматика CFG создает преимущество для набора высоковероятных вызывающих абонентов. Эти пользующиеся преимуществом вызывающие абоненты принадлежат к набору имен, которым предоставлено предпочтение по сравнению с остальными обычными именами за счет присвоения более высокого веса языковой модели. Например, предпочтение может быть предоставлено абонентам, часто звонящим конкретному получателю, именам из списка его контактов или людям, работающим в том же подразделении, и т.д.

2. Акустическая модель целого слова, относящаяся к произношению имени, для каждого повторно звонящего абонента генерируется из записей, полученных из предшествующих вызовов. Эта модель слова обеспечивает точную информацию произношения, что касается того, как вызывающий абонент произносит свое имя, чтобы преодолеть недостатки обычных правил «от буквы к звуку».

3. Традиционная информация ИД вызывающего абонента используется в процедуре подтверждения. При необходимости информация ИД вызывающего абонента, при ее доступности, используется интеллектуальным образом в структуре, основанной на вероятности, чтобы непосредственно ввести вызывающего абонента в процесс подтверждения.

4. Вероятностная грамматика CFG взвешивается по контексту. Даже в случаях, когда традиционный ИД вызывающего абонента не является достоверным указателем идентификационных данных вызывающего абонента, он все равно может обеспечить полезную контекстную информацию в системе, основанной на вероятностном подходе.

5. Могут быть обеспечены услуги интеллектуальной фильтрации вызовов и пересылки вызовов. Система может наращиваться для использования в качестве приложения интеллектуальной фильтрации и/или пересылки вызовов.

Хотя настоящее изобретение описано со ссылками на предпочтительные варианты осуществления, специалистам в данной области техники должно быть понятно, что изменения по форме и в деталях могут быть осуществлены без отклонения от сущности и объема настоящего изобретения.

Иллюстрации к изобретению RU 2 383 938 C2

Реферат патента 2010 года УСОВЕРШЕНСТВОВАННАЯ ИДЕНТИФИКАЦИЯ ВЫЗЫВАЮЩЕГО АБОНЕНТА НА ОСНОВЕ РАСПОЗНАВАНИЯ РЕЧИ

Изобретение относится к идентификации вызывающего абонента. Изобретение позволяет надежно идентифицировать абонента на основе распознавания речи. Создается персонализированная контекстно-свободная грамматика (грамматика CFG) для каждого потенциального принимающего вызов абонента, которая конфигурируется для поддержки идентификации вызывающих абонентов с использованием распознавания голоса. Каждая грамматика CFG содержит указание на высоковероятных вызывающих абонентов, и весовые коэффициенты вероятности в каждой грамматике CFG изменяются соответствующим образом. Когда принимающий абонент получает вызов, применяется релевантная грамматика CFG совместно с приложением распознавания голоса для обеспечения по меньшей мере предварительной идентификации вызывающего абонента. Вызывающий абонент может подтвердить идентификационные данные. При возможности используется стандартное средство идентификации вызывающего абонента по меньшей мере для содействия процессу идентификации. Можно также использовать усовершенствованную идентификацию вызывающего абонента на основе распознавания голоса для обеспечения функциональной возможности интеллектуальной маршрутизации вызова. 3 н. и 14 з.п. ф-лы, 5 ил.

Формула изобретения RU 2 383 938 C2

1. Реализуемый компьютером способ в системе (204) управления голосовыми сообщениями для определения идентификационных данных вызывающего телефонного абонента, соотнесенного с входящим телефонным вызовом (202), направленным конкретному потенциальному получателю вызова, способ, заключающийся в том, что создают и сохраняют для множества потенциальных получателей (210) вызовов, включая конкретного потенциального получателя вызова, персонализированную грамматику (212) распознавания речи, включающую в себя по меньшей мере один список вызывающих абонентов для каждого потенциального получателя вызова, причем персонализированная грамматика распознавания речи взвешена для поддержки идентификации набора высоковероятных вызывающих абонентов,
получают речевую выборку от вызывающего телефонного абонента и выбирают идентификационные данные вызывающего телефонного абонента на основе по меньшей мере частично персонализированной грамматики распознавания речи, ассоциированной с упомянутым конкретным потенциальным получателем вызова.

2. Способ по п.1, в котором сохранение персонализированной грамматики распознавания речи включает в себя сохранение грамматики распознавания речи, имеющей взвешенные вероятности языковой модели.

3. Способ по п.1, в котором сохранение грамматики распознавания речи, поддерживающей набор высоковероятных вызывающих абонентов, включает в себя сохранение грамматики распознавания речи, взвешенной для поддержки идентификации по меньшей мере одного повторяющегося вызывающего абонента.

4. Способ по п.1, в котором сохранение грамматики распознавания речи, поддерживающей набор высоковероятных вызывающих абонентов, включает в себя сохранение грамматики распознавания речи для конкретного потенциального получателя вызова, взвешенной для поддержки идентификации по меньшей мере одного вызывающего абонента, внесенного в список контактов, поддерживаемый упомянутым конкретным потенциальным получателем вызова.

5. Способ по п.1, в котором сохранение грамматики распознавания речи, поддерживающей набор высоковероятных вызывающих абонентов, включает в себя сохранение грамматики распознавания речи для конкретного потенциального получателя вызова, взвешенной для поддержки идентификации по меньшей мере одного сослуживца упомянутого конкретного потенциального получателя вызова.

6. Способ по п.1, в котором сохранение грамматики распознавания речи, поддерживающей набор высоковероятных вызывающих абонентов, включает в себя сохранение грамматики распознавания речи, взвешенной для поддержки идентификации по меньшей мере одного потенциального вызывающего абонента, ассоциированного с местоположением, являющимся источником телефонного вызова.

7. Способ по п.6, в котором сохранение грамматики распознавания речи, взвешенной для поддержки идентификации по меньшей мере одного потенциального вызывающего абонента, ассоциированного с местоположением, являющимся источником телефонного вызова, включает в себя сохранение грамматики распознавания речи, взвешенной для поддержки идентификации по меньшей мере одного потенциального вызывающего абонента, ассоциированного с местоположением, указанным в информации идентификатора (ИД) вызывающего абонента, связанной с телефонным вызовом.

8. Способ по п.1, дополнительно содержащий взаимодействие с вызывающим телефонным абонентом для подтверждения идентификационных данных.

9. Способ по п.1, дополнительно содержащий
прием голосового сообщения от вызывающего телефонного абонента для конкретного потенциального получателя вызова и
сортировку голосового сообщения с другими голосовыми сообщениями на основе по меньшей мере частично идентификационных данных вызывающего телефонного абонента.

10. Способ по п.1, дополнительно содержащий маршрутизацию телефонного вызова на основе идентификационных данных вызывающего телефонного абонента.

11. Способ по п.10, в котором маршрутизация телефонного вызова включает в себя маршрутизацию по меньшей мере одного вызова, ассоциированного с предварительно определенными идентификационными данными, в систему голосовых сообщений.

12. Способ по п.10, в котором маршрутизация телефонного вызова включает в себя маршрутизацию по меньшей мере одного вызова, ассоциированного с предварительно определенными идентификационными данными, на альтернативный номер пересылки вызова.

13. Способ по п.10, в котором маршрутизация телефонного вызова включает в себя маршрутизацию телефонного вызова непосредственно к предназначенному получателю вызова.

14. Способ по п.1, дополнительно содержащий создание и сохранение множества моделей целого слова для произношения имени для множества потенциальных вызывающих абонентов.

15. Способ по п.1, в котором любая из грамматик распознавания речи сохраняет множество акустических моделей произношения имен, каждая из которых выведена непосредственно из и ассоциирована с идентифицируемым вызывающим абонентом, и в котором речевая выборка сравнивается с множеством акустических моделей произношения имен, чтобы соотнести идентификационные данные с вызывающим телефонным абонентом.

16. Машиночитаемый носитель, содержащий сохраненные на нем исполняемые компьютером инструкции, которые при исполнении процессором обуславливают выполнение процессором способа по п.1.

17. Подсистема (206) идентификации в системе (204) управления голосовыми сообщениями, предназначенная для обеспечения идентификации вызывающего телефонного абонента, инициировавшего телефонный вызов (202), направленный получателю (210) телефонного вызова, содержащая
персонализированную грамматику (212) распознавания речи для потенциального получателя вызова, причем персонализированная грамматика распознавания речи включает в себя по меньшей мере один список вызывающих абонентов для потенциального получателя вызова и сохраняет последовательности акустических моделей, представляющих языковые модели, причем персонализированная грамматика распознавания речи взвешена для поддержки идентификации набора высоковероятных вызывающих абонентов;
акустическую выборку целого слова, содержащую акустический сигнал, сформированный предыдущим вызывающим абонентом, произносящим свое имя, и компонент (222) распознавания речи, выполненный с возможностью применения речевой выборки, полученной от вызывающего телефонного абонента, к грамматике распознавания речи и к акустической выборке целого слова для идентификации вызывающего телефонного абонента.

Документы, цитированные в отчете о поиске Патент 2010 года RU2383938C2

Перекатываемый затвор для водоемов	1922	Гебель В.Г.	SU2001A1
УСТРОЙСТВО ДЛЯ ЗАЩИТЫ ТЕЛЕФОННОЙ ЛИНИИ ОТ НЕСАНКЦИОНИРОВАННОГО ДОСТУПА К МЕЖДУГОРОДНОЙ СВЯЗИ	2000	Гогохия Т.А. Петров В.М.	RU2185034C2
US 4837804 A, 06.06.1989
US 6219407 B1, 17.04.2001
EP 1009148 A, 14.06.2000.

RU 2 383 938 C2

Авторы

Дзу Юн-Ченг

Олласон Дэвид Дж.

Даты

2010-03-10—Публикация

2004-08-10—Подача

название	год	авторы	номер документа
Способ эмуляции голосового бота при обработке голосового вызова (варианты)	2022	Горькова Мария Давидовна Мацнев Сергей Алексеевич	RU2792405C2
ПЕРСОНАЛИЗИРОВАННЫЕ АУДИО/ВИДЕОПРИГЛАШЕНИЯ ДЛЯ ТЕЛЕФОННЫХ ВЫЗОВОВ	2018	Борухофф, Станислав	RU2734114C1
УСЛУГИ ИНТЕЛЛЕКТУАЛЬНОЙ СЕТИ СВЯЗИ	2005	Нолдус Роджер Шарма Арвинд	RU2392771C2
СЕТЬ ДОСТАВКИ УСЛУГ	2011	Димео Дэвид М. Мархвицкий Юлиус	RU2542577C2
СПОСОБ ОБРАБОТКИ ВХОДЯЩИХ ЗВОНКОВ	2021	Румянков Александр Сергеевич Рабочий Роман Николаевич	RU2783966C1
СИСТЕМЫ И СПОСОБЫ ДЛЯ ПРЕДОСТАВЛЕНИЯ УСЛУГ ОТВЕТА	2007	Риччи Франческо	RU2479144C2
СИСТЕМА ТЕЛЕКОММУНИКАЦИОННЫХ СЕТЕЙ ДЛЯ РЕАЛИЗАЦИИ СМЕШАННЫХ УСЛУГ И СПОСОБ ИХ РЕАЛИЗАЦИИ	2005	Чжу Дунмин Шао Жуцзе	RU2370904C2
СПОСОБ ПРОВЕРКИ ПРАВА ДОСТУПА АБОНЕНТА К СИСТЕМЕ КОЛЛЕКТИВНОГО ПОЛЬЗОВАНИЯ	2000	Кожухарь Е.В.	RU2158485C1
СИСТЕМА ДЛЯ УПРАВЛЕНИЯ ВЫЗОВОМ С БОРТА САМОЛЕТА СЛУЖБ НЕОТЛОЖНОГО РЕАГИРОВАНИЯ В БОРТОВОЙ БЕСПРОВОДНОЙ СОТОВОЙ СЕТИ САМОЛЕТА	2009	Малош Марк	RU2515223C2
РАСШИРЕННОЕ ИСПОЛЬЗОВАНИЕ ГОЛОСОВОЙ ПОЧТЫ ПОСРЕДСТВОМ АВТОМАТИЧЕСКОГО СОЗДАНИЯ ПРЕДВАРИТЕЛЬНОГО ПРОСМОТРА СООБЩЕНИЯ ГОЛОСОВОЙ ПОЧТЫ	2009	Хамэйкер Джон Херольд Кейт Уилсон Майкл Нотарио Дэвид Миллетт Том	RU2520355C2