ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Изобретение относится к способу и устройству для предоставления текстового сообщения с использованием голосового сигнала. Изобретение, в частности, полезно, но необязательно в качестве ограничения, для предоставления текстового сообщения с использованием голосовых входных данных, обрабатываемых портативным электронным устройством, имеющим ограниченную память и вычислительные возможности.
УРОВЕНЬ ТЕХНИКИ
Обмен короткими текстовыми сообщениями, зачастую с использованием формата службы коротких сообщений (SMS), является очень популярным приложением в беспроводной связи. Биллионы коротких текстовых сообщений отправляются каждый месяц, обычно с одного мобильного телефона на другой. Такие текстовые сообщения популярны по нескольким причинам. Сообщения, как правило, составляют долю от стоимости одноминутного вызова мобильного телефона, и они не требуют тонального сигнала готовности для отправки или приема. Поэтому сообщения могут быть созданы и отправлены в момент времени, который удобен отправителю, а приняты и прочитаны в момент времени, который удобен получателю.
Текстовые сообщения, как правило, создаются посредством набора символов на кнопочной панели мобильного телефона. Однако использование таких малогабаритных кнопочных панелей с нестандартным расположением клавиш для составления сообщения может быть неудобным и, как правило, требует больше времени, чем могло бы потребоваться при использовании полноразмерной клавиатуры со стандартным расположением клавиш. Но, несомненно, является непрактичным иметь полноразмерную клавиатуру, присоединенную к мобильному телефону. Таким образом, есть потребность в более эффективном способе составления коротких текстовых сообщений.
Кроме того, несмотря на то что различные типы систем распознавания речи хорошо известны, большинство не пригодны для использования в портативных электронных устройствах, таких как мобильные телефоны. Это происходит потому, что системы распознавания речи известного уровня техники, как правило, требуют большей вычислительной мощности и памяти, чем имеется в распоряжении в портативных электронных устройствах.
Раскрытые в известном уровне техники словарные системы и способы распознавания речи используют предопределенный, фиксированный словарный перечень. В употреблении фиксированный словарный перечень может быть большим, но не может быть исчерпывающим, а поэтому, например, фамилия лица и наименования многих местоположений могут не быть включенными в состав. В противоположность, открытые словарные системы и способы распознавания речи содержат изменяемый словарный перечень, к которому новые слова и фразы могут быть добавлены пользователем или кем-либо другим. Однако современные открытые словарные системы и способы распознавания речи требуют относительно больших вычислительных накладных расходов, которые могут быть неприемлемыми для портативных электронных устройств, таких как персональные цифровые секретари, радиотелефоны и другие портативные устройства.
В этом патентном описании, в том числе в формуле изобретения, термины «содержит», «содержащий» или подобные термины предназначены для обозначения неисключительного включения, так что способ или устройство, которое содержит номенклатуру элементов, не включает в себя исключительно эти элементы, а на самом деле может включать в себя другие, не перечисленные элементы.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
В соответствии с одним из аспектов изобретения, предусмотрен способ предоставления текстового сообщения. Способ включает в себя этапы приема фрагмента речи на входе электронного устройства. Затем над фрагментом речи выполняется распознавание речи, управляемое определенными пользователем шаблонами сообщений, сохраненными в памяти, ассоциированной с электронным устройством, при этом распознавание речи определено сопоставлением фрагмента речи с одним из шаблонов для создания шаблона сопоставления. Затем по шаблону сопоставления предоставляется текстовое сообщение.
По меньшей мере один из шаблонов сообщений может включать в себя фиксированный языковый компонент.
По меньшей мере один из шаблонов сообщений может включать в себя изменяемый языковый компонент.
По меньшей мере один из шаблонов сообщений может включать в себя оба, фиксированный и изменяемый, языковых компонента.
Текстовое сообщение может быть SMS-сообщением.
Вышеприведенный способ также может включать в себя этап редактирования определенного пользователем шаблона сообщения посредством приема набранных символов с кнопочной панели электронного устройства.
Компонент текстового сообщения может быть транскрипцией фрагмента речи.
Вся совокупность текстового сообщения может быть транскрипцией фрагмента речи.
Согласно еще одному аспекту изобретения предусмотрено электронное устройство для предоставления текстового сообщения. Устройство включает в себя микрофон, действующий, чтобы принимать фрагмент речи; энергонезависимую память для сохранения шаблонов сообщений; и процессор, действующий, чтобы выполнять речевое распознавание фрагмента речи, управляемое шаблонами сообщений, при этом процессор является действующим, чтобы сопоставлять фрагмент речи с одним из шаблонов для создания шаблона сопоставления, чтобы предоставлять текстовое сообщение по шаблону сопоставления.
Что касается электронного устройства, шаблоны сообщений также могут включать в себя фиксированный или изменяемый языковые компоненты или оба, фиксированный и изменяемый, языковые компоненты.
Что касается электронного устройства, текстовое сообщение может быть SMS-сообщением.
Электронное устройство может включать в себя кнопочную панель, действующую, чтобы редактировать шаблон сообщения.
Электронное устройство может быть действующим, чтобы сопоставлять фрагмент речи с большим количеством шаблонов и вычислять оценку правдоподобия для каждого из шаблонов.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
С тем чтобы изобретение могло быть без труда понято и приведено в практическое исполнение, далее будет произведена ссылка на предпочтительные варианты осуществления, которые проиллюстрированы со ссылкой на сопроводительные чертежи, на которых:
Фиг.1 - принципиальная структурная схема радиотелефона в соответствии с настоящим изобретением;
Фиг.2 - блок-схема последовательности операций способа, иллюстрирующая способ для предоставления, редактирования и передачи текстового сообщения в соответствии с настоящим изобретением;
Фиг.3 - блок-схема последовательности операций способа, которая иллюстрирует способ для предоставления списка отобранных шаблонов сообщений пользователю в соответствии с настоящим изобретением; и
Фиг.4 - блок-схема последовательности операций способа, иллюстрирующая способ для предоставления пользователю возможности редактировать существующие шаблоны сообщений и сохранять новые шаблоны в статической программируемой памяти в соответствии с настоящим изобретением.
ПОДРОБНОЕ ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ
Со ссылкой на фиг.1 проиллюстрирован радиотелефон 100, содержащий узел 105 радиочастотной связи, присоединенный, чтобы быть на связи с процессором 110. Интерфейсы ввода/вывода (I/O) в виде дисплея 115, кнопочной панели 120, микрофона 190 и динамика 195 также присоединены, чтобы быть на связи с процессором 110.
Процессор 110 содержит кодировщик/декодер 125 с ассоциативно связанным постоянным запоминающим устройством (ПЗУ, ROM), хранящим данные для кодирования и декодирования голоса или других сигналов, которые могут быть переданы или приняты радиотелефоном 100. Процессор 110 также включает в себя микропроцессор 135, присоединенный посредством общей шины 140 данных и адреса к кодировщику/декодеру 125 и ассоциативно связанному символьному постоянному запоминающему устройству (ПЗУ) 145, оперативному запоминающему устройству (ОЗУ, RAM) 150, статической программируемой памяти 155 и съемному SIM-модулю 160 (модулю идентификации абонента). Статическая программируемая память 155 и SIM-модуль 160, каждый может хранить, среди прочего, выбранные поступающие текстовые сообщения, базу данных телефонного справочника и, как более подробно описано ниже, шаблоны исходящих текстовых сообщений. Микропроцессор 135 имеет порты для присоединения к кнопочной панели 120, дисплею 115 и модулю 165 предупредительной сигнализации, который типично содержит динамик, двигатель вибратора и ассоциированные приводы. Символьное постоянное запоминающее устройство 145 хранит код для декодирования или кодирования текстовых сообщений, которые могут быть приняты узлом 105 связи, вводимых с кнопочной панели 120.
Узел 105 радиочастотной связи является комбинированными приемником и передатчиком, имеющими общую антенну 170. Узел 105 связи содержит приемопередатчик 175, присоединенный к антенне 170 через радиочастотный усилитель 180. Приемопередатчик 175 также присоединен к комбинированному модулятору/демодулятору 185, который присоединяет узел 105 связи к процессору 110.
Со ссылкой на фиг.2 представлена блок-схема последовательности операций способа, иллюстрирующая один из вариантов осуществления настоящего изобретения, в том числе способ 200 для предоставления, редактирования и передачи текстового сообщения с использованием радиотелефона 100. Способ 200 активизируется на начальном этапе 205. На этапе 210 фрагмент речи принимается в устройстве ввода, таком как микрофон 190, телефона 100. Затем процессор 110 выполняет дискретизацию и оцифровку колебательного сигнала фрагмента речи на этапе 215, затем сегментирование на этапе 220 перед обработкой, чтобы обеспечить векторы признаков, представляющие волновой сигнал на этапе 225. Должно быть отмечено, что этапы 215, 220 и 225 хорошо известны в области техники, а поэтому не требуют подробного разъяснения.
Затем, на этапе 230, выполняется распознавание речи по векторам признаков, вытекающим из этапа 225. Распознавание речи управляется посредством определенных пользователем шаблонов сообщений, сохраненных в статической программируемой памяти 155 устройства 100. Шаблоны сообщений более подробно описаны позже в этом патентном описании. Затем способ 200 предоставляет текстовое сообщение пользователю на этапе 235. Сообщение может быть предоставлено пользователю с использованием одного из I/O-интерфейсов, такого как дисплей 115 или динамик 195, устройства 100.
После того как сообщение предоставлено пользователю, пользователь затем способен решать, редактировать ли сообщение на этапе 240. Если пользователь решает не редактировать сообщение, сообщение передается на этапе 245 в формате сообщения, таком как SMS. Однако, если на этапе 240 пользователь решает редактировать сообщение, сообщение редактируется на этапе 250 перед тем, как быть отправленным на этапе 245. В различных вариантах осуществления настоящего изобретения пользователь может редактировать сообщение несколькими разными способами, в том числе произнесением редакционных изменений в микрофон 190 или набором редакционных изменений на кнопочной панели 120. Затем способ 200 заканчивается на этапе 255.
В альтернативном варианте осуществления настоящего изобретения после этапа 230 распознавания речи, описанного выше, этап 235 предоставления текстового сообщения может включать в себя предоставление пользователю телефона 100 списка отобранных шаблонов сообщений, из которых пользователь может выбрать шаблон, который является наиболее подходящим для подразумеваемого текстового сообщения.
Фиг.3 - блок-схема последовательности операций способа, которая иллюстрирует способ 300 для предоставления такого списка отобранных шаблонов пользователю. Способ 300 активизируется на начальном этапе 305, когда пользователь вводит команду с кнопочной панели 120 или в микрофон 190. Способ 300 сначала использует процессор 110, выбирающий на этапе 310 шаблон сообщения из списка имеющихся в распоряжении шаблонов сообщений. Затем на этапе 315 выбранный шаблон сравнивается с векторами признаков, предоставленными на этапе 225 способа 200. Процессор 110 затем вычисляет оценку правдоподобия на этапе 320, которая оценивает качество соответствия между аспектами выбранного шаблона и векторами признаков введенного фрагмента речи.
Затем процессор 110 определяет на этапе 325, находится ли оценка правдоподобия выше установленного порогового значения. Пороговое значение может быть автоматически вычислено процессором 110, или оно может быть предварительно установлено пользователем телефона 100. Если оценка правдоподобия выбранного шаблона ниже установленного порогового значения, шаблон отклоняется на этапе 330. Однако если оценка правдоподобия выбранного шаблона выше установленного порогового значения, то на этапе 335 шаблон считается приемлемым сопоставлением с введенным фрагментом речи, и шаблон добавляется к списку отобранных шаблонов. Независимо от того, отклоняется ли выбранный шаблон или добавляется к списку отобранных шаблонов, способ 300 затем переходит к этапу 340, где процессор 110 определяет, все ли имеющиеся в распоряжении шаблоны были оценены. Если не все имеющиеся в распоряжении шаблоны были оценены, на этапе 345 способ 300 выбирает следующий шаблон сообщения и возвращается на этап 315, где следующий шаблон сравнивается с векторами признаков введенного фрагмента речи. Если все шаблоны были оценены на этапе 340, способ 300 продолжается до этапа 350 и предоставляет пользователю список всех отобранных шаблонов. Отобранные шаблоны могут быть предоставлены пользователю с использованием одного из I/O-интерфейсов, такого как дисплей 115 или динамик 195, устройства 100. Затем способ 300 заканчивается на этапе 355.
Согласно одному из вариантов осуществления настоящего изобретения пользователи телефона 100 не ограничены использованием шаблонов, поставляемых производителем телефона 100. Вернее, пользователи телефона 100 способны редактировать существующие шаблоны, сохраненные в статической программируемой памяти 155, чтобы создавать свои собственные персонифицированные шаблоны сообщений.
Со ссылкой на фиг.4 проиллюстрирован способ 400 для предоставления пользователю возможности редактировать существующие шаблоны и сохранять новые шаблоны в статической программируемой памяти 155. Способ 400 активизируется на начальном этапе 405, когда пользователь вводит команду с кнопочной панели 120 или в микрофон 190. На этапе 410 список существующих шаблонов предоставляется пользователю телефона 100 через I/O-интерфейсы, такие как дисплей 115 или динамик 195. Затем пользователь выбирает желаемый шаблон сообщения на этапе 415 с использованием I/O-интерфейса, такого как микрофон 190 или кнопочная панель 120. Потом пользователь редактирует шаблон на этапе 420, снова с использованием I/O-интерфейса, такого как микрофон 190 или кнопочная панель 120. В заключение, на этапе 425, пользователь сохраняет отредактированный шаблон в статической программируемой памяти 155. Затем способ 400 заканчивается на этапе 430.
Другие способы редактирования шаблонов сообщений также находятся в пределах объема настоящего изобретения, в том числе подключение телефона 100 к основному компьютеру с использованием канала связи, такого как USB-кабель, а затем загрузкой или групповой записью отредактированных шаблонов в статическую программируемую память 155.
Способ по настоящему изобретению дополнительно может включать в себя шаблоны сообщений, которые содержат фиксированные и изменяемые языковые компоненты. Фиксированные языковые компоненты не изменяются, когда пользователь выбирает шаблон и передает сообщение. Однако изменяемые языковые компоненты могут изменяться пользователем от сообщения к сообщению. Использование фиксированных и изменяемых языковых компонентов может значительно усиливать ограниченные вычислительную мощность и память телефона 100.
Например, конкретный шаблон короткого текстового сообщения, касающегося запроса деловой встречи, может содержать следующее: «Встретьте меня в $МЕСТО во $ВРЕМЯ». Здесь фиксированные языковые компоненты подчеркнуты, а изменяемые языковые компоненты записаны прописными буквами и начинаются с «$». Разные пользователи шаблона могут в таком случае редактировать переменную, такую как $МЕСТО, чтобы привести в соответствие со своими конкретными обстоятельствами. Например, студент университета может определить переменную $МЕСТО как:
$МЕСТО = sp|библиотека|общежитие|кафетерий и т. п.
Тогда как юрист может определить переменную $МЕСТО как:
$МЕСТО = sp|офис|здание суда|дом и т. п.
В вышеприведенном «sp» означает паузу или отсутствие голосового события, а «|» означает логический оператор «ИЛИ».
Другим примером шаблона сообщения, которое может быть использовано в настоящем изобретении, является «Счастливого $ПРАЗДНЕСТВО». Здесь изменяемый языковый компонент $ПРАЗДНЕСТВО может быть отредактирован пользователем, чтобы включать в себя:
$ПРАЗДНЕСТВО = sp|день рождения|новый год|день благодарения и т. п.
С использованием открытого словарного распознавания речи телефон 100 способен распознавать отредактированные изменяемые языковые компоненты, введенные пользователем. Так как изменяемые языковые компоненты состоят из дискретных наборов переменных, накладные расходы обработки распознавания речи и требования к памяти минимизированы. Таким образом, вышеприведенный, в частности, подходит для устройств, обладающих ограниченными вычислительными и запоминающими ресурсами, таких как мобильные телефоны.
Использование шаблонов, включающих в себя фиксированные и изменяемые языковые компоненты, увеличивает эффективность системы распознавания речи по нескольким причинам. Во-первых, фиксированные языковые компоненты конкретного шаблона, как правило, могут быть распознаны быстро и эффективно, так как есть только ограниченное количество шаблонов, сохраненных в статической программируемой памяти 155, в сравнении с почти неограниченным количеством перестановок фраз, ассоциируемых со структурами фраз естественного языка. Во-вторых, изменяемые языковые компоненты также могут эффективно распознаваться, так как положение внутри фразы изменяемого языкового компонента в шаблоне сообщения автоматически идентифицирует дискретный набор возможных ответов. Например, со ссылкой на шаблон сообщения «Счастливого $ПРАЗДНЕСТВО», приведенный выше, фиксированный языковый компонент «Счастливого» может действовать в качестве сигнала так, что процессор 110 осведомлен, что последующим голосовым входным сигналом, принятым с микрофона 190, будет изменяемый языковый компонент «$ПРАЗДНЕСТВО».
Несмотря на то что вышеизложенные варианты осуществления настоящего изобретения описаны относительно радиотелефона 100, способ и устройство настоящего изобретения также могли бы включать в себя другие электронные устройства, которые предоставляют текстовые сообщения, такие как персональные цифровые секретари (PDA).
Таким образом, настоящее изобретение упрощает этапы, требуемые для предоставления и передачи текстового сообщения с портативного электронного устройства. Текстовое сообщение может быть предоставлено посредством голосовых входных данных, а не посредством набираемых символов, вводимых с малогабаритной кнопочной панели. Кроме того, изобретение может включать в себя открытое словарное распознавание речи, чтобы избежать повышенных требований к памяти заключенного предшествующим уровнем техники словарного распознавания речи. Открытое словарное распознавание речи использует независимые от диктора акустические модели частей слова, разработанные, чтобы покрывать все акустические случаи употребления, или фонемы, языка. Таким образом, пользователь не ограничен предопределенным словарем, но может редактировать изменяемые языковые компоненты, как описано выше, чтобы включать в них слова, не найденные в словаре, такие как наименования и местоположения. Результат заключается в том, что текстовые сообщения, предусмотренные настоящим изобретением, могут быть высоко персонифицированы.
Вышеприведенное детализированное описание предоставляет только предпочтительные примерные варианты осуществления и не имеет намерением ограничивать объем, применимость или конфигурацию изобретения. Точнее детализированное описание предпочтительных примерных вариантов осуществления снабжает специалистов в данной области техники достаточным описанием для реализации предпочтительных примерных вариантов осуществления изобретения. Должно быть понятно, что могут быть сделаны различные изменения в работе и компоновке элементов, не выходя из сущности и объема изобретения в качестве изложенных в прилагаемой формуле изобретения.
название | год | авторы | номер документа |
---|---|---|---|
ГИБКАЯ СХЕМА ДЛЯ НАСТРОЙКИ ЯЗЫКОВОЙ МОДЕЛИ | 2015 |
|
RU2689203C2 |
СПОСОБ ВВОДА ТЕКСТА | 2004 |
|
RU2377664C2 |
СПОСОБ СЕМАНТИЧЕСКОЙ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА С ИСПОЛЬЗОВАНИЕМ ГРАФИЧЕСКОГО ЯЗЫКА-ПОСРЕДНИКА | 2009 |
|
RU2509350C2 |
ПОВТОРНОЕ РАСПОЗНАВАНИЕ РЕЧИ С ВНЕШНИМИ ИСТОЧНИКАМИ ДАННЫХ | 2016 |
|
RU2688277C1 |
СПОСОБ УПРАВЛЕНИЯ ДИАЛОГОМ И СИСТЕМА ПОНИМАНИЯ ЕСТЕСТВЕННОГО ЯЗЫКА В ПЛАТФОРМЕ ВИРТУАЛЬНЫХ АССИСТЕНТОВ | 2020 |
|
RU2759090C1 |
ВЫВЕДЕНИЕ НАМЕРЕНИЯ ПОЛЬЗОВАТЕЛЯ НА ОСНОВЕ ПРЕДЫДУЩИХ ВЗАИМОДЕЙСТВИЙ С ГОЛОСОВЫМ ПОМОЩНИКОМ | 2011 |
|
RU2544787C2 |
СИНХРОННОЕ ПОНИМАНИЕ СЕМАНТИЧЕСКИХ ОБЪЕКТОВ ДЛЯ ВЫСОКОИНТЕРАКТИВНОГО ИНТЕРФЕЙСА | 2004 |
|
RU2352979C2 |
СПОСОБ ОБРАБОТКИ ВХОДЯЩИХ ЗВОНКОВ | 2021 |
|
RU2783966C1 |
ПОДДЕРЖАНИЕ КОНТЕКСТНОЙ ИНФОРМАЦИИ МЕЖДУ ПОЛЬЗОВАТЕЛЬСКИМИ ВЗАИМОДЕЙСТВИЯМИ С ГОЛОСОВЫМ ПОМОЩНИКОМ | 2015 |
|
RU2653250C2 |
ОРКЕСТРОВКА СЛУЖБ ДЛЯ ИНТЕЛЛЕКТУАЛЬНОГО АВТОМАТИЗИРОВАННОГО ПОМОЩНИКА | 2011 |
|
RU2556416C2 |
Изобретение относится к области приемопередатчиков с возможностью предоставления текстового сообщения с использованием голосового сигнала. Техническим результатом заявленного изобретения является упрощение составления коротких текстовых сообщений и повышение их персонификации. Технический результат достигается тем, что вычисляют оценку правдоподобия, которая оценивает качество соответствия между определенным пользователем шаблоном сообщения и векторами признаков принятого фрагмента речи, полученными путем дискретизации и сегментирования фрагмента речи; сравнивают оценку правдоподобия с установленным пороговым значением, и если оценка правдоподобия выше установленного порогового значения, то шаблон сообщения добавляют к списку отобранных шаблонов сообщений, в противном случае шаблон отклоняется; и предоставляют пользователю текстовое сообщение в соответствии со списком отобранных шаблонов сообщений. 2 н. и 11 з.п. ф-лы, 4 ил.
принимают фрагмент речи на входе электронного устройства;
сопоставляют упомянутый фрагмент речи с одним из определенных пользователем шаблонов сообщений, сохраненных в памяти, ассоциируемой с электронным устройством, при этом вычисляют оценку правдоподобия, которая оценивает качество соответствия между упомянутым шаблоном сообщения и векторами признаков фрагмента речи, полученными путем дискретизации и сегментирования фрагмента речи, определяют находится ли оценка правдоподобия выше установленного порогового значения, и если оценка правдоподобия находится выше установленного порогового значения, то шаблон сообщения добавляют к списку отобранных шаблонов сообщений, в противном случае шаблон сообщения отклоняется, и предоставляют пользователю текстовое сообщение в соответствии со списком отобранных шаблонов сообщений.
микрофон, предназначенный для приема фрагмента речи;
энергонезависимую память для хранения шаблонов сообщений; и
процессор, предназначенный для сопоставления упомянутого фрагмента речи, принятого микрофоном, с одним из упомянутых шаблонов сообщений, сохраненных в энергонезависимой памяти, ассоциируемой с электронным устройством, при этом процессор выполнен с возможностью
осуществления дискретизации и сегментирования фрагмента речи для получения векторов признаков фрагмента речи;
вычисления оценки правдоподобия, которая оценивает качество соответствия между шаблоном сообщения и векторами признаков фрагмента речи,
определения, находится ли оценка правдоподобия выше установленного порогового значения, и если оценка правдоподобия находится выше установленного порогового значения, то добавления шаблона сообщения к списку отобранных шаблонов сообщений, в противном случае - отклонения шаблона сообщения; и
предоставления пользователю текстового сообщения в соответствии со списком отобранных шаблонов сообщений.
US 6526292 B1, 25.02.2003 | |||
US 4525793, 25.06.1985 | |||
US 5963639 A, 05.10.1999 | |||
0 |
|
SU178414A1 | |
Нефтяная горелка | 1928 |
|
SU13455A1 |
Авторы
Даты
2008-03-20—Публикация
2004-09-17—Подача