Предшествующий уровень техники
Настоящее изобретение относится к переводу с одного языка на другой. В частности, настоящее изобретение относится к услуге перевода, которая предоставляется устройству по сети.
В нашем, все в большей степени взаимосвязанном, современном мире становятся все более и более частыми определенные ситуации, в которых языковой барьер затрудняет общение. Типичная ситуация представляет собой иностранного путешественника, который не может понимать местный язык, связанный со страной, в которую он прибыл. Такому путешественнику сложно общаться с местным населением даже при помощи простейших выражений. Например, иностранный путешественник, не знающий языка той страны, в которой он находится, будет испытывать трудности в повседневном общении с местным населением при решении даже простых задач. В качестве всего лишь нескольких примеров такие задачи могут включать в себя, регистрацию и выписку из гостиницы, заказ такси, поиск туалета или пункта обмена валют.
Ожидается, что популярность беспроводных мобильных устройств (таких как, персональные цифровые информационные устройства (PDA), карманные ПК, наладонные компьютеры, переносные компьютеры, смартфоны, интеллектуальные мобильные телефоны и т.п.) в будущем будет продолжать увеличиваться. Ожидается, что такой рост популярности совпадает с уменьшением стоимости беспроводных услуг связи и услуг связи третьего поколения (3G).
Таким образом, со временем будет возрастать потребность в реализации действенной и эффективной универсальной системы перевода с одного языка на другой для мобильных устройств. Устройство, реализующее такую систему, будет помогать отдельным людям, таким как иностранные путешественники, желающим преодолеть проблемы, возникающие из-за языковых барьеров. Однако технологические ограничения затрудняют предоставление высококачественного перевода для текста на естественном языке (т.е. текста без существенных ограничений). Такие ограничения должны быть преодолены или обойдены, для того чтобы сделать возможной по-настоящему действенную и эффективную мобильную систему перевода.
Сущность изобретения
Варианты осуществления настоящего изобретения в общем случае имеют отношение к мобильному переводчику с одного языка на другой, который облегчает общение между людьми, говорящими на разных языках. Некоторые конкретные варианты осуществления изобретения имеют отношение к услуге перевода, которая предоставляется беспроводному мобильному устройству путем избирательной загрузки информации из сервера. Загружаемая информация включает в себя архитектуру перевода, имеющую независимое от языка средство перевода и, по меньшей мере, одну зависящую от языка базу данных перевода. Зависящая от языка база данных перевода включает в себя шаблоны перевода и словарь перевода. Также может быть загружена специализированная база данных для выбранного города или городов мира. Перевод между языками осуществляется путем применения в средстве перевода зависящей от языка базы данных перевода, и, необязательно, специфической для данного города базы данных перевода. Для упрощения процесса перевода средство перевода реализует управляемую пользователем схему замещения термов.
Перечень фигур чертежей
Фиг.1 - блок-схема иллюстративного вычислительного устройства.
Фиг.2 - блок-схема иллюстративного вычислительного устройства.
Фиг.3 - блок-схема иллюстративной среды вычислительной системы.
Фиг.4 - общая блок-схема алгоритма, иллюстрирующая процесс от ввода данных до получения перевода.
Фиг.5 - более детализированная блок-схема алгоритма, иллюстрирующая полный процесс от ввода данных до получения перевода.
ПОДРОБНОЕ ОПИСАНИЕ ИЛЛЮСТРАТИВНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ
I. Иллюстративное подходящее вычислительное устройство
На Фиг.1 показан пример подходящей компьютерной системы 100, в которой может быть реализован вариант осуществления настоящего изобретения. Компьютерная система 100 является только одним примером подходящей компьютерной системы и не предназначена для введения каких-либо ограничений как на объем, так и на функциональность данного изобретения. Также компьютерную систему 100 не следует интерпретировать как имеющую какую-либо зависимость или требования в отношении любого ее показанного компонента или их комбинации.
Обращаясь к Фиг.1, иллюстративное устройство, подходящее для данного изобретения, включает в себя компьютерное устройство общего назначения в виде компьютера 110. Компоненты компьютера 110 могут включать в себя, но не в ограничительном смысле, процессорное устройство 120, системную память 130 и системную шину 121, связывающую различные компоненты системы, в том числе и системную память, с процессорным устройством 120. Системная шина 121 может быть шинной структурой любого типа, включая шину памяти или контроллер памяти, периферийную шину и локальную шину с любой из многочисленных шинных архитектур. Для примера, но не с целью ограничения, такие архитектуры включают в себя шину архитектуры промышленного стандарта (ISA), шину микроканальной архитектуры (МСА), расширенную ISA (EISA) шину, локальную шину ассоциации стандартов видеоэлектроники (VESA) и шину соединений периферийных компонентов (PCI), также известную как шину Mezzanine.
Компьютер 110 обычно включает в себя ряд машиночитаемых носителей данных. Машиночитаемые носители данных могут быть любыми доступными носителями данных, к которым может осуществить доступ компьютер 110, и включают в себя как энергозависимые, так и энергонезависимые носители данных и как съемные, так и несъемные носители данных. Для примера, но не с целью ограничения, машиночитаемые носители данных могут включать в себя компьютерные носители данных и среды передачи. Компьютерные носители данных включают в себя как энергозависимые, так и энергонезависимые и как съемные, так и несъемные носители данных, реализованные с применением любого способа или технологии хранения информации, такой как машиночитаемые команды, структуры данных, программные модули или другие данные. Компьютерные носители данных включают в себя, но не в ограничительном смысле ОЗУ, ПЗУ, EEPROM, флэш-память или память другой технологии, ПЗУ на компакт-диске (CD-ROM), универсальные цифровые диски (DVD) или другие оптические носители данных, магнитные кассеты, магнитные ленты, носители данных на магнитных дисках или другие устройства хранения данных на магнитных носителях, или любые другие носители данных, которые могут быть использованы для хранения необходимой информации и к которым может осуществить доступ компьютер 110.
Среды передачи обычно воплощают машиночитаемые команды, структуры данных, программные модули или другие данные в виде сигнала модулированного данными, такого как сигнал несущей или другой транспортный механизм, и включают в себя любые среды доставки информации. Термин "сигнал модулированный данными" означает сигнал, имеющий одну или более его характеристик, установленных или изменяемых для обеспечения кодирования информации в этом сигнале. Для примера, но не с целью ограничения, среды передачи включают в себя проводные среды, такие как проводная сеть или прямое кабельное соединение, беспроводные среды, такие как акустические, РЧ (радиочастотные), инфракрасные и другие беспроводные среды. В число машиночитаемых носителей также следует включить любую комбинацию упомянутых выше носителей.
Системная память 130 включает в себя компьютерные носители данных в виде энергозависимой и/или энергонезависимой памяти, такой как постоянное запоминающее устройство (ПЗУ) 131 и оперативное запоминающее устройство (ОЗУ) 132. Базовая система 133 ввода/вывода (BIOS), содержащая основные процедуры, содействующие передаче информации между элементами в компьютере 110, как, например, во время запуска, обычно хранится в ПЗУ 131. ОЗУ 132 обычно содержит данные и/или программные модули, которые являются непосредственно доступными и/или выполняются в настоящее время процессорным устройством 120. Для примера, но не с целью ограничения, на Фиг.1 показаны операционная система 134, прикладные программы 135, другие программные модули 136 и данные 137 программ.
Компьютер 110 также может включать в себя другие сменные/несменные, энергозависимые/энергонезависимые компьютерные носители данных. Исключительно в качестве примера, на Фиг.1 показан накопитель 141 на жестких магнитных дисках, считывающий и записывающий на несъемный, энергонезависимый магнитный носитель данных, привод 151 магнитного диска, считывающий и записывающий на съемный, энергонезависимый магнитный диск 152 и привод 155 оптического диска, считывающий и записывающий на съемный, энергонезависимый оптический диск 156, такой как CD-ROM или другой оптический носитель данных. Другие сменные/несменные, энергозависимые/энергонезависимые компьютерные носители данных, которые могут применяться в иллюстративной рабочей среде, включают в себя, но не в ограничительном смысле, кассеты с магнитной лентой, карты флэш-памяти, универсальные цифровые диски, цифровую видеоленту, твердотельное ОЗУ, твердотельное ПЗУ и т.п. Накопитель 141 на жестких магнитных дисках обычно соединен с системной шиной 121 посредством интерфейса несъемной памяти, такого как интерфейс 140, и привод 151 магнитного диска и привод 155 оптического диска обычно соединены с системной шиной 121 посредством интерфейса съемной памяти, такого как интерфейс 150.
Приводы и связанные с ними компьютерные носители данных, обсуждаемые выше и проиллюстрированные на Фиг.1, обеспечивают в компьютере 110 хранение машиночитаемых команд, структур данных, программных модулей и других данных. Например, на Фиг.1 накопитель на жестких магнитных дисках изображен хранящим операционную систему 144, прикладные программы 145, другие программные модули 146 и данные 147 программ. Необходимо заметить, что эти компоненты могут быть теми же самыми или отличными от операционной системы 134, прикладных программ 135, других программных модулей 136 и данных 137 программ. Операционная система 144, прикладные программы 145, другие программные модули 146 и данные 147 программ имеют в данном случае отличающиеся номера для иллюстрации того, что, по меньшей мере, они являются отличающимися копиями.
Пользователь может вводить команды и информацию в компьютер 110 через устройства ввода, такие как клавиатура 162, микрофон 163 и указывающее устройство 161, такое как мышь, трекбол или сенсорный планшет. Другие устройства ввода (не показаны) могут включать в себя джойстик, игровую панель, спутниковую параболическую антенну, сканер или подобное устройство. Эти и другие устройства ввода часто соединены с процессорным устройством 120 через интерфейс 160 пользовательского ввода, связанный с системной шиной, но могут быть подсоединены через другой интерфейс или шинные структуры, такие как параллельный порт, игровой порт или универсальную последовательную шину (USB). Монитор 191 или другое устройство отображения также подсоединены к системной шине 121 через интерфейс, такой как видеоинтерфейс 190. Помимо монитора, компьютеры могут также включать в себя другие периферийные устройства вывода, такие как громкоговорители 197 и принтер 196, которые могут быть подсоединены через периферийный интерфейс 195 вывода.
Компьютер 110 может работать в сетевой среде, используя логические соединения с одним или более удаленными компьютерами, таким как удаленный компьютер 180. Удаленный компьютер 180 может быть персональным компьютером, портативным устройством, сервером, маршрутизатором, сетевым ПК, одноранговым узлом сети или другим обычным узлом сети, и обычно включает в себя множество или все из элементов, описанных выше в связи с компьютером 110. Изображенные на Фиг.1 логические соединения включают в себя локальную сеть (ЛС) 171 и глобальную сеть (ГС) 173, но также могут включать в себя другие сети. Такие типы сетевого окружения являются обычными в офисах, компьютерных сетях масштаба предприятия, интрасетях, сети Интернет.
При использовании в локальной сетевой среде компьютер 110 подсоединяется к ЛС 171 через сетевой интерфейс или адаптер 170. При использовании в глобальной сетевой среде, компьютер 110 обычно включает в себя модем 172 или другие средства для установления соединения через ГС 173, такую как Интернет. Модем 172, который может быть внутренним или внешним, может быть подсоединен к системной шине 121 через интерфейс 160 пользовательского ввода или другим подходящим способом. В сетевой среде программные модули, описанные в связи с компьютером 110, или часть их, могут храниться в удаленном устройстве хранения данных. Для примера, но не с целью ограничения, на Фиг.1 показаны удаленные прикладные программы 185, как находящиеся на удаленном компьютере 180. Очевидно, что показанные сетевые соединения являются иллюстративными и могут быть использованы другие средства организации линии связи между компьютерами.
Необходимо отметить, что настоящее изобретение может быть выполнено как связанное с компьютерной системой такой, которая описана согласно Фиг.1. Однако настоящее изобретение может быть аналогично выполнено как связанное с сервером, компьютером, предназначенным для обработки сообщений, или распределенной системой, в которой разные части настоящего изобретения выполняются на разных частях распределенной компьютерной системы.
II. Другое иллюстративное подходящее компьютерное устройство
Фиг.2 представляет собой блок-схему мобильного компьютерного устройства 200. Мобильное устройство 200 включает в себя микропроцессор 202, память 204, компоненты 206 ввода/вывода (I/O) и интерфейс 208 связи для связи с удаленным компьютером или другими мобильными устройствами. В одном из вариантов осуществления изобретения внутренние компоненты устройства 200 для связи друг с другом соединены через подходящую шину 210.
Устройство 200 является примером подходящего компьютерного устройства, в котором может быть осуществлено настоящее изобретение. Устройство 200 является примером подходящего компьютерного устройства и не предназначено для введения каких-либо ограничений как на объем, так и на функциональность данного изобретения. Также устройство 200 не следует интерпретировать как имеющее какую-либо зависимость или требования в отношении любого его компонента или их комбинации, показанных в иллюстративном устройстве 200.
Память 204 реализована в виде энергонезависимой электронной памяти, такой как оперативное запоминающее устройство (ОЗУ) с резервным батарейным модулем (не показано), так что информация, хранящаяся в памяти 204, не теряется при отключении обычного питания мобильного устройства 200. Часть памяти 204 предпочтительно выделяется в качестве адресуемой памяти для выполнения программ, в то время как другая часть памяти 204 предпочтительно используется для хранения данных, например, для эмуляции хранения данных на жестком диске.
Память 204 содержит операционную систему 212, прикладные программы 214, а также и хранилище 216 объектов. Предпочтительно, во время работы операционная система 212 выполняется процессором 202 из памяти 204. В одном из предпочтительных вариантов осуществления изобретения, операционная система 212 представляет собой операционную систему WINDOWS® СЕ, серийно выпускаемую Microsoft Corporation. Операционная система 212 предпочтительно разработана для мобильных устройств и реализует функциональные возможности баз данных, которые могут быть использованы приложениями 214 через набор предоставляемых интерфейсов и методов прикладного программирования. Объекты библиотеки объектов 216 поддерживаются приложениями 214 и операционной системой 212, по меньшей мере, частично в ответ на вызовы предоставляемых интерфейсов и методов прикладного программирования.
Интерфейс 208 связи представляет множество устройств и способов, которые позволяют мобильному устройству 200 посылать и принимать информацию. Некоторые примеры данных устройств включают в себя проводные и беспроводные модемы, спутниковые приемники и широковещательные тюнеры. Мобильное устройство 200 может также быть соединено непосредственно с компьютером для обмена данными с ним. В этих случаях интерфейс 208 связи может быть инфракрасным приемопередатчиком или последовательным или параллельным коммуникационным соединением, причем все они способны передавать потоковые данные.
Компоненты 206 ввода/вывода могут включать в себя любое из множества устройств ввода данных, как, например, сенсорный экран, кнопки, роллеры и микрофон, а также множество устройств вывода, включающих в себя генератор звука, вибрационное устройство и дисплей. Перечисленные выше устройства представлены в качестве примера и необязательно каждое из них должно присутствовать в мобильном устройстве 200. Дополнительно другие устройства ввода/вывода информации могут быть подсоединены или использоваться с мобильным устройством 200 без выхода за пределы объема настоящего изобретения.
Варианты осуществления настоящего изобретения могут работать со многими средами или конфигурациями компьютерных систем общего назначения или специального назначения, отличными от иллюстрированных в данном описании. Примеры широко известных подходящих сред и конфигураций компьютерных систем включают в себя, но не в ограничительном смысле, персональные компьютеры, серверы, карманные или портативные устройства, микропроцессорные системы, системы, основанные на микропроцессорах, телевизионные приставки, программируемую бытовую электронику, сетевые ПК, миникомпьютеры, универсальные компьютеры (мэйнфреймы), системы телефонии, распределенные компьютерные среды, которые включают в себя любые вышеуказанные системы или устройства, и т.п.
Варианты осуществления настоящего изобретения могут быть описаны в общем контексте машиноисполняемых команд, таких как программные модули, выполняемые компьютером. Обычно программные модули включают в себя процедуры, программы, объекты, компоненты, структуры данных и т.д., которые выполняют отдельные задачи или реализуют определенные абстрактные типы данных. Настоящее изобретение разработано для использования в распределенных компьютерных средах, в которых задачи выполняются удаленными процессорными устройствами, которые соединены через сеть связи. В распределенной компьютерной среде программные модули размещены как на локальных, так и на удаленных компьютерных носителях данных, включающих в себя запоминающие устройства. Задачи, выполняемые программами и модулями, описаны ниже и сопровождаются чертежами. Специалисты в данной области техники могут реализовать описание и фигуры, в качестве как, например, машиноисполняемых команд, которые могут быть записаны на машиночитаемом носителе информации любого вида.
III. Иллюстративная среда компьютерной системы
Фиг.3 представляет собой блок-схему, иллюстрирующую пример подходящей среды 300 компьютерной системы, в которой может быть реализован вариант осуществления настоящего изобретения. Среда 300 компьютерной системы является только одним примером подходящей компьютерной среды и не предназначена для введения каких-либо ограничений как на объем, так и на функциональность данного изобретения. Также среду 300 компьютерной системы не следует интерпретировать как имеющую какую-либо зависимость или требования в отношении любого ее показанного компонента или их комбинации.
Среда 300 включает в себя множество клиентских средств (клиентов) 304. Клиенты иллюстративно, хотя и не обязательно, являются мобильными устройствами подобными устройству 200, показанному на Фиг.2. Клиенты не обязательно должны быть мобильными. Согласно одному из вариантов осуществления изобретения, по меньшей мере, один клиент 304 обычно является немобильным компьютерным устройством, таким как персональный компьютер подобный компьютеру 110 по Фиг.1. Данный клиент 304 может быть любым из компьютерных устройств, описанных выше в связи с Фиг.1 и 2, или каким-либо другим компьютерным устройством. Для упрощения настоящего описания иллюстративных вариантов осуществления изобретения предполагается, что клиенты 304 являются мобильными устройствами подобными устройству 200, показанному на Фиг.2. Дополнительно предполагается, что в общем случае связь с клиентами 304 осуществляется через беспроводную сеть связи. Для поддержки связи как с мобильным, так и с немобильным клиентом 304, также легко может быть использована проводная связь.
Клиенты 304 сконфигурированы для связи, по меньшей мере, временно, с сервером 302, который поддерживается в сети 310. Клиенты 304, в качестве иллюстрации, сконфигурированы для связи с сервером 302 через интерфейс связи, такой как интерфейс 208, показанный на Фиг.2. Сервер 302, в качестве иллюстрации, сконфигурирован для предоставления информации, такой как информация приложений, для клиентов 304. Такая информация может быть доступной из хранилища 214 приложений и использоваться процессором 202 для представления пользователю клиента функциональных возможностей перевода с одного языка на другой.
Варианты осуществления настоящего изобретения относятся к системе, которая предоставляет возможность клиенту 304 получать специализированную информацию, такую как информацию приложений, от сервера 302. Специализированная информация дает возможность клиенту функционировать в качестве мобильного переводчика с одного языка на другой. С помощью мобильного переводчика пользователь клиента 304 имеет возможность для осуществления некоторых видов общения, использующих конкретный естественный язык, которым он не владеет достаточно свободно. Информация, принимаемая клиентом от сервера, в качестве иллюстрации, предоставляет возможность перевода между языком, который знаком пользователю, и, по меньшей мере, одним иностранным языком, выбранным пользователем. Принимаемая информация может также включать в себя информацию, относящуюся к конкретному месту назначения (т.е. город), выбираемому пользователем.
Сервер 302 сконфигурирован для предоставления услуги практического перевода по сети (например, Интернет) для клиента 304. Клиент 304, в качестве иллюстрации, хотя и необязательно, является беспроводным мобильным устройством. Услуга, предоставляемая сервером 302 для клиента 304, в качестве иллюстрации, предоставляется на платной основе (например, разовая оплата или оплата за подписку). Услуга перевода, в качестве иллюстрации, дает возможность клиенту служить его пользователю в качестве мобильного переводчика. Пользователь может использовать мобильный переводчик для того, чтобы получить возможность участия в разговорах, используя конкретный естественный язык, которым он не владеет достаточно свободно. Например, иностранные туристы без знания языка страны посещения должны осуществлять повседневное общение с местным населением для регистрации в гостинице и выписки из нее, при заказе такси, посещении магазина и т.п. Мобильный переводчик дает возможность таким туристам осуществлять такие разговоры.
Как было описано, для того чтобы оснастить клиент 304 таким образом, чтобы он мог служить пользователю в качестве мобильного переводчика, для осуществления этой услуги с сервера 304 клиенту 302 передаются определенные элементы приложений. Элементы приложений, в качестве иллюстрации, включают в себя независимое от языка средство перевода и, по меньшей мере, одну зависящую от языка базу данных перевода. Зависящая от языка база данных, в качестве иллюстрации, включает в себя набор шаблонов перевода и словарь перевода. Функция шаблонов перевода имеет отношение к конкретной схеме перевода, которая будет описана ниже более подробно.
Элементы приложений, переданные с сервера 302 клиенту 304, также в необязательном порядке включают в себя одну или более специализированных баз данных, представляющих один или более конкретных городов назначения. Специализированные базы данных, в качестве иллюстрации, включают в себя определенные слова и фразы, связанные с городом назначения, такие как конкретные гостиницы, названия улиц, ресторанов, туристических достопримечательностей и т.п. Другие типы специализированных баз данных (например, отличающиеся от базы данных на основе городов) могут быть реализованы, не выходя за пределы объема настоящего изобретения.
Пользователь клиента 304 по желанию может запросить передачу одной или более зависящих от языка баз данных (соответствующих одному или более естественным языкам) вместе с одной или более специализированными базами данных. После передачи элементов приложений с сервера 302 на мобильное устройство клиента, осуществляется перевод между языками посредством использования в средстве перевода зависящей от языка базы данных перевода, и, необязательно, любых специализированных баз данных. Средство перевода может находиться в клиенте 204 продолжительное время или иногда передаваться клиенту 204 с сервера 202 (т.е. передаваться с зависящей от языка или специализированной базой данных). Средство перевода, в качестве иллюстрации, реализует конкретную схему перевода, описанную более подробно ниже.
Согласно одному конкретному варианту осуществления изобретения американец, путешествующий в окрестностях Пекина, может загрузить средство перевода, двусторонние китайско-английские шаблоны перевода и словарь, а также словарь перевода, ориентированный на Пекин, с сервера в свое беспроводное мобильное устройство. В Пекине американец может применять в средстве перевода зависящую от языка базу данных перевода и специфическую для данного города базу данных перевода для того, чтобы облегчить эффективное общение в Пекине. Средство перевода, в качестве иллюстрации, является независимым от языка.
IV. Интегрированная схема перевода
Существует много проблем, связанных с обеспечением перевода высокого качества для текста на естественном языке. Согласно одному из вариантов осуществления изобретения для решения некоторых из таких проблем услуга перевода, предоставляемая сервером 302 и осуществляемая клиентом 304, основывается на "интегрированной схеме перевода". Согласно этой схеме предоставляются переводы для обычных сценариев. Для каждого обычного сценария собирают обычные предложения вместе с их переводами на различные иностранные языки. Исходя из этих предложений-примеров перевод производится, используя систему перевода, основанную на примерах.
Фиг.4 представляет собой блок-схему алгоритма, иллюстрирующую в общем виде процесс работы интегрированной схемы перевода. Первым этапом этого процесса является взаимодействие пользователя клиента со своим клиентским устройством для того, чтобы произвести выбор исходного предложения 408. Как показано блоками 402, 404 и 406, пользователь может выбирать исходное предложение 408 при помощи взаимодействия, выполняемого через устройство речевого ввода, устройство рукописного ввода и/или при помощи клавиатуры. Могут использоваться другие способы ввода без выхода за пределы объема настоящего изобретения. Исходное предложение 408, в качестве иллюстрации, выбирается из зависящей от языка базы данных и специализированной базы данных, которые загружаются с сервера 302 в клиент 304. Исходное предложение 408, в качестве иллюстрации, представлено на языке, знакомом пользователю.
После выбора исходного предложения 408 переводчик 410 использует независящее от языка средство перевода для перевода исходного предложения в целевое предложение 412. Целевое предложение 412, в качестве иллюстрации, составлено на языке, который необходим пользователю для осуществления взаимодействия. Согласно блокам 414 и 416 целевое предложение 412 выводится в виде речи (т.е. искусственная речь) или выводится на дисплей пользователю клиентского устройства. Затем пользователь использует упомянутый вывод для общения на соответствующем иностранном языке. Могут быть реализованы другие виды вывода без отступления от объема настоящего изобретения.
Согласно одному из вариантов осуществления изобретения выбор исходного предложения 408 выполняется также просто, как непосредственный ввод данных пользователем. Например, пользователь может непосредственно ввести исходное предложение в клиентское устройство, используя способы речевого, рукописного ввода или при помощи клавиатуры. В качестве альтернативы, выбор исходного предложения 408 может производиться при помощи процесса выбора. Например, клиентское устройство может предоставить список исходных предложений 408, распределенных по категориям, из которых пользователь производит выбор.
Однако согласно одному из аспектов настоящего изобретения зависящая от языка база данных, загруженная в клиентское устройство, содержит ограниченное количество предложений-примеров. Если одно из таких предложений-примеров точно соответствует тому, которое ищет пользователь, оно отбирается пользователем в качестве исходного предложения 408. В противном случае, пользователь выбирает предложение-пример, которое достаточно похоже на то, которое ищет пользователь. Затем система конфигурируется для предоставления пользователю возможности изменять похожее предложение до тех пор, пока оно не примет надлежащую форму, в которой сможет служить в качестве исходного предложения 408. Пользователь, в качестве иллюстрации, изменяет похожее предложение путем замены определенных элементов предложения элементами, содержащимися в словарях, найденных в зависящей от языка базе данных и/или одной или более загруженных специализированных базах данных. Таким образом, пользователь преобразует похожее предложение в требуемое исходное предложение 408. Другими словами, выбор исходного предложения 408 может выполняться при помощи использования двух этапного процесса. Во-первых, выбирается похожее предложение. Затем похожее предложение преобразуется путем замены, добавления и/или удаления термов до тех пор, пока похожее предложение не становится в достаточной мере или точно соответствующим исходному предложению 408.
Согласно одному из аспектов настоящего изобретения похожее предложение может быть выбрано, по меньшей мере, двумя способами. Во-первых, пользователем может вручную просматриваться база данных предложений (т.е. часть зависящей от языка базы данных). Процессу просмотра, в качестве иллюстрации, содействует использованию системы, использующей меню на основе категорий. Например, пользователь может использовать устройство ввода для выбора общей категории, такой как "ТАКСИ". После выбора пользователю предоставляется список подкатегорий. Пользователь может перемещаться по системе меню до тех пор, пока не находит предложение, похожее на искомое, в качестве исходного предложения 408. Затем пользователь изменяет похожее предложение до состояния, в котором его можно будет использовать в качестве исходного предложения 408.
Однако в качестве альтернативы пользователь может начать поиск похожего предложения путем ввода искомого предложения. Затем система извлекает похожие предложения из базы данных и предоставляет их пользователю для выбора. Затем пользователь выбирает предложение, которое достаточно похоже на искомое. Затем пользователь изменяет похожее предложение до состояния, в котором его можно будет использовать в качестве исходного предложения 408. Например, пользователь может ввести "May I get to the train station quickly by taxi?" («Могу ли я быстро доехать до вокзала на такси?»). Затем система производит поиск в базе данных предложений и предоставляет список, такой как:
a. "May I get to the hotel by taxi?" («Могу ли я доехать до гостиницы на такси?»,
b. "I get to the train station by bus." («Я доберусь до вокзала на автобусе»).
с. "I get to the train station quickly." («Я быстро доберусь до вокзала»).
Затем пользователь выбирает предложение из списка для использования в качестве похожего предложения (т.е. исходное для изменения). В одном из примеров изменения пользователь может выбрать для преобразования сегмент "the hotel" («гостиница») в предложении "а" для замещения на "train station" («вокзал»). Терм "train station" («вокзал»), в качестве иллюстрации, является термом, который доступен из зависящей от языка базы данных для перевода.
Согласно одному из аспектов настоящего изобретения Фиг.5 является блок-схемой алгоритма, иллюстрирующей полный процесс, причем пользователь начинает с ввода предложения, перевод которого он ищет. Блок 502 представляет процесс ввода данных пользователем, который может производиться через устройство речевого ввода, при помощи клавиатуры, через устройство рукописного ввода или другим способом. Блок 504 представляет процесс сравнения введенных данных с предложениями и шаблонами 506, хранящимися в клиенте в качестве части, зависящей от языка базы данных (и/или части любой специализированной базы данных).
Блок 508 представляет ситуацию, в которой найдено точное соответствие данным, введенным пользователем. В такой ситуации, согласно блоку 510, словарь и правила 512, которые в качестве иллюстрации, используются в качестве части загруженных зависящей от языка базы данных и независимого средства перевода, применяются для перевода предложения 508 и генерируют выходные данные 514 (т.е., речевой вывод или вывод на дисплей).
Блок 516 представляет ситуацию, в которой не найдено точное соответствие данным, введенным пользователем, однако найдено похожее соответствие. Шаблон 516 представляет похожее соответствие, извлеченное из базы данных 506. Согласно блоку 518 пользователь преобразует похожее соответствие до тех пор, пока оно не становится разумным приближением первоначально введенных данных 502. Затем согласно блоку 510 преобразованное предложение переводится в выходные данные 514 (т.е. речевой вывод или вывод на дисплей).
Блок 520 представляет ситуацию, когда не может быть найдено ни точного соответствия, ни подходящего приближения введенных данных 502. В этом случае соответствующие введенные данные 502 возвращаются в сервер. Согласно блоку 522 введенные данные используются для обучения зависящей от языка базы данных и/или специализированных баз данных, которые впоследствии передаются другим клиентам.
V. Основанный на шаблонах машинный перевод
Согласно одному из аспектов настоящего изобретения описанный процесс перевода реализуется посредством основанного на шаблонах машинного перевода, как это показано на примере формата данных в Выражении 1:
Выражение 1
Согласно подходу основанного на шаблонах машинного перевода извлечение предложения из зависящей от языка базы данных в качестве приближения предложения, перевод которого требуется пользователю, осуществляется путем применения алгоритма, который использует подход, основанный на шаблонах. В общем случае, алгоритм содержит два этапа.
На первом этапе алгоритм выбирает предложения-кандидаты, используя подход извлечения информации на основе взвешенной частоты встречаемости терма/инверсной частоте терма во всех документах (ЧТ-ИЧД, TF-IDF). Набор предложений-примеров, обозначаемый в данном описании D, содержит некоторое количество документов, причем каждый документ фактически является предложением-примером. Результат индексации документа (который содержит только одно предложение) представляется в виде вектора весов:
Выражение 2
где dik (1≤k≤m) является весом терма tk в документе Di, и m является размерностью векторного пространства, которое определяется количеством разных термов, найденных в наборе. Термы, в качестве иллюстрации, но не обязательно, являются словами английского языка. С тем же успехом они могут быть японскими или китайскими иероглифами или любыми другими лингвистическими единицами. Вес dik терма в документе вычисляется согласно его частоте встречаемости в документе (ЧТ - частота встречаемости), а также его распространенности во всем наборе (ИЧД - инверсная частота терма во всех документах). Существует большое количество способов, которые могут применяться для вычисления din. Например, может быть использована следующая формула:
Выражение 3
где fik является частотой встречаемости терма tk в документе Di; N является общим количеством документов в наборе; и nk является количеством документов, которые содержат терм tk.
Аналогичным образом индексируется запрос (который в данном случае соответствует предложению, перевод которого требуется пользователю), и также получается вектор для запроса:
Выражение 4
Затем вычисляется мера подобия между Di и Qj как скалярное произведение этих векторов, которое представляет собой:
Выражение 5
Результат представляет собой набор предложений S, где
Выражение 6
На втором этапе алгоритма используется подход взвешенного расстояния редактирования для изменения ранжирования набора выбранных предложений. Для заданного выбранного предложения Di→(di1, di2,…, dim), расстояние редактирования между Di и Qj, обозначаемое ED(Di,Qj), определяется как минимальное количество вставок, удалений и замен термов, необходимое для того, чтобы сделать две строки А и В одинаковыми. Более точно, ED(Di,Qj) определяется как минимальное количество операций, необходимое для изменения Di в Qj, где операцией является одна из следующих операций:
1. изменение терма;
2. вставка терма; или
3. удаление терма.
Для вычисления расстояния редактирования между двумя строками, в качестве иллюстрации, используется алгоритм динамического программирования. Для представления значений расстояния редактирования используется двумерная матрица, m[0..|S1|,0..|S2|]:
Уравнение 7
m[,], в качестве иллюстрации, вычисляется построчно. Строка m[i, ] зависит только от строки m[i-1,]. Временная сложность этого алгоритма составляет 0(|s1|*|s2|). Если s1 и s2 имеют похожие длины в единицах количества термов, например, примерно n, то упомянутая временная сложность составляет O(n2).
Взвешенное расстояние редактирования в общем случае означает тот факт, что штраф за каждую операцию (вставка, удаление, перестановка) не обязательно равен 1, но может принимать разные значения исходя из значимости соответствующих термов. Например, может использоваться следующий список значений штрафов для присвоения значений в соответствии с конкретными частям речи:
Такой список является только примером, и может быть изменен в соответствии с конкретным приложением. Предложения S={Di|Sim(Di,Qj)|≥δ}, выбранные при помощи подхода ЧТ-ИЧД, в качестве иллюстрации, ранжируются по взвешенному расстоянию редактирования ED, и получается упорядоченный список:
Уравнение 8
Упорядоченный список, в качестве иллюстрации, используется в качестве основы для определения того, какое похожее предложение или предложения должны быть предоставлены пользователю для упрощения описанного процесса перевода, основанного на шаблонах.
Хотя настоящее изобретение было описано со ссылкой на предпочтительные варианты осуществления, специалистам в данной области техники должно быть очевидно, что могут быть внесены изменения в форму и детали без отступления от сущности и объема настоящего изобретения.
название | год | авторы | номер документа |
---|---|---|---|
АДАПТИВНЫЙ МАШИННЫЙ ПЕРЕВОД | 2004 |
|
RU2382399C2 |
СИСТЕМЫ И СПОСОБЫ ДЛЯ УПРАВЛЕНИЯ МУЛЬТИМЕДИЙНЫМИ ОПЕРАЦИЯМИ В УДАЛЕННЫХ СЕАНСАХ | 2009 |
|
RU2504829C2 |
ПЕРЕВОДЧЕСКИЙ СЕРВИС НА БАЗЕ ЭЛЕКТРОННОГО СООБЩЕСТВА | 2015 |
|
RU2604984C1 |
РАСПРЕДЕЛЕННАЯ РЕЧЕВАЯ СЛУЖБА | 2005 |
|
RU2455783C2 |
Способ и система для перевода исходной фразы на первом языке целевой фразой на втором языке | 2019 |
|
RU2767965C2 |
ТЕЛЕКОММУНИКАЦИОННАЯ ЧИП-КАРТА | 2013 |
|
RU2628492C2 |
СПОСОБ ПРЕОБРАЗОВАНИЯ ДАННЫХ ГЕОИНФОРМАЦИОННЫХ СИСТЕМ (ГИС), СИСТЕМА ДЛЯ ЕГО РЕАЛИЗАЦИИ И СПОСОБ ПОИСКА ПО СФОРМИРОВАННОЙ ЭТИМ СПОСОБОМ БАЗЕ ДАННЫХ | 2017 |
|
RU2669143C1 |
КРАУД-СОРСНЫЕ СИСТЕМЫ ОБУЧЕНИЯ ЛЕКСИКЕ | 2014 |
|
RU2607416C2 |
ОБСЛУЖИВАНИЕ СОБЫТИЙ ДЛЯ ЛОКАЛЬНЫХ ПРИЛОЖЕНИЙ-КЛИЕНТОВ ПОСРЕДСТВОМ ЛОКАЛЬНОГО СЕРВЕРА | 2012 |
|
RU2616162C2 |
СПОСОБ И СИСТЕМА ФОРМИРОВАНИЯ УВЕДОМЛЕНИЙ О ПОЯВЛЕНИИ ПРЕДЛОЖЕНИЙ БИЛЕТОВ | 2020 |
|
RU2748177C1 |
Изобретение относится к области перевода с одного языка на другой. Изобретение позволяет повысить качество и удобство перевода текста на естественном языке. Беспроводному мобильному устройству предоставляется услуга перевода посредством избирательной загрузки информации с сервера. Загружаемая информация включает в себя архитектуру перевода, имеющую независимое от языка средство перевода и, по меньшей мере, одну зависящую от языка базу данных перевода. Зависящая от языка база данных перевода включает в себя шаблоны перевода и словарь перевода. Также может загружаться специализированная база данных для выбранного города или городов мира. Перевод между языками осуществляется путем применения в средстве перевода зависящей от языка базы данных перевода и базы данных перевода, специфической для конкретного города. Для упрощения процесса перевода средство перевода реализует управляемую пользователем схему замены терминов. 3 н. и 21 з.п. ф-лы, 5 ил.
1. Способ предоставления услуги перевода с одного языка на другой пользователю клиентского компьютерного устройства, включающий в себя этапы, на которых
принимают от пользователя входные данные, которые соответствуют выбору языка,
принимают от пользователя входные данные, которые соответствуют выбору специализированной базы данных, причем выбор специализированной базы данных соответствует географической области, представлять которую адаптированы данные в специализированной базе данных,
передают запрос из клиентского компьютерного устройства на сервер,
в ответ на упомянутый запрос принимают от сервера зависящую от языка базу данных, которая соответствует выбору языка,
в ответ на упомянутый запрос принимают от сервера специализированную базу данных,
эксплуатируют клиентское компьютерное устройство для использования независимого от языка средства перевода совместно с зависящей от языка базой данных и специализированной базой данных,
предоставляют пользователю доступ к набору предложений-примеров, которые содержатся в зависящей от языка базе данных, на языке, который является знакомым для пользователя,
принимают от пользователя входные данные выбора, которые идентифицируют предложение-пример, подобное, но не идентичное целевому предложению, перевод которого требуется пользователю,
принимают от пользователя входные данные манипулирования и
изменяют предложение-пример согласно входным данным манипулирования для создания предложения-примера, наиболее близко соответствующего целевому предложению.
2. Способ по п.1, в котором при приеме специализированной базы данных принимают специализированную базу данных, содержащую информацию перевода, которая имеет отношение к конкретному месту назначения и которая включает в себя словарь перевода, адаптированный для представления этого конкретного места назначения, при этом словарь перевода включает в себя слова, связанные с по меньшей мере одним из гостиницы, названия улицы, ресторана, туристической достопримечательности, ассоциированных с упомянутым конкретным местом назначения.
3. Способ по п.2, в котором при приеме специализированной базы данных принимают специализированную базу данных, содержащую информацию перевода, которая имеет отношение к конкретному городу.
4. Способ по п.1, дополнительно включающий в себя этап, на котором эксплуатируют клиентское компьютерное устройство для использования независимого от языка средства перевода совместно с зависящей от языка базой данных для выполнения перевода с одного языка на другой.
5. Способ по п.4, дополнительно включающий в себя этап, на котором принимают независимое от языка средство перевода от сервера.
6. Способ по п.5, в котором при приеме независимого от языка средства перевода принимают независимое от языка средство перевода с зависящей от языка базой данных.
7. Способ по п.1, в котором при предоставлении пользователю доступа к набору предложений-примеров предоставляют пользователю доступ к распределенному по категориям набору предложений-примеров.
8. Способ по п.1, в котором при использовании независимого от языка средства перевода совместно с зависящей от языка базой данных переводят предложение-пример посредством использования независимого от языка средства перевода для применения к предложению-примеру словаря перевода, содержащегося в зависящей от языка базе данных.
9. Способ по п.1, в котором при изменении предложения-примера выполняют по меньшей мере одно из добавления, удаления и замещения терма в предложении-примере для создания измененного предложения-примера.
10. Способ по п.1, в котором при предоставлении пользователю доступа к набору предложений-примеров предоставляют пользователю доступ к распределенному по категориям набору предложений-примеров.
11. Способ по п.1, в котором при применении независимого от языка средства перевода совместно с зависящей от языка базой данных переводят предложение-пример посредством использования независимого от языка средства перевода для применения к измененному предложению-примеру словаря перевода, содержащегося в зависящей от языка базе данных.
12. Способ по п.4, дополнительно включающий в себя этапы, на которых принимают от пользователя целевые входные данные, которые представляют собой текст, перевод которого требуется пользователю;
выполняют поиск в наборе текстов-примеров, которые содержатся в зависящей от языка базе данных; и
идентифицируют текст-пример, который, по меньшей мере, подобен целевым входным данным по существу.
13. Способ по п.12, в котором при использовании независимого от языка средства перевода совместно с зависящей от языка базой данных переводят текст-пример посредством использования независимого от языка средства перевода для применения к тексту-примеру словаря перевода, содержащегося в зависящей от языка базе данных.
14. Способ по п.12, в котором при идентификации текста-примера
идентифицируют множество текстов-примеров, которые являются приближениями целевого текста;
представляют множество текстов-примеров пользователю и
принимают от пользователя входные данные выбора, которые идентифицируют один из этого множества текстов-примеров.
15. Способ по п.12, в котором при использовании независимого от языка средства перевода и зависящей от языка базы данных переводят упомянутый один из упомянутого множества текстов-примеров посредством использования независимого от языка средства перевода для применения словаря перевода, содержащегося в зависящей от языка базы данных.
16. Способ по п.12, дополнительно включающий в себя этапы, на которых принимают от пользователя входные данные манипулирования;
изменяют упомянутый один из упомянутого множества текстов-примеров согласно входным данным манипулирования для преобразования его в наилучшее приближение целевого предложения.
17. Способ по п.16, в котором при использовании независимого от языка средства перевода и зависящей от языка базы данных переводят упомянутое наилучшее приближение при помощи использования независимого от языка средства перевода для применения словаря перевода, содержащегося в зависящей от языка базы данных, к наилучшему приближению.
18. Способ функционирования сервера для предоставления услуги перевода с одного языка на другой, содержащий этапы, на которых хранят первую зависящую от языка базу данных, которая соответствует первой паре языков, хранят вторую зависящую от языка базу данных, которая соответствует второй паре языков, которая отличается от первой пары языков,
хранят по меньшей мере одну специализированную базу данных, которая является дополнением к одной из первой и второй зависящих от языка баз данных, причем эта специализированная база данных содержит информацию перевода, которая имеет отношение к конкретной географической области, причем данная информация перевода содержит словарь перевода, скомпонованный так, что он включает в себя данные, которые соответствуют этой конкретной географической области,
хранят независимое от языка средство перевода,
принимают от клиента запрос на перевод,
отвечают на данный запрос посредством передачи на клиент, по меньшей мере, копии либо первой, либо второй зависящей от языка базы данных и отвечают на данный запрос посредством передачи на клиент независимого от языка средства перевода.
19. Способ по п.18, дополнительно содержащий этап, на котором отвечают на запрос посредством передачи на клиент упомянутой специализированной базы данных.
20. Устройство для реализации услуги перевода с одного языка на другой, содержащее
средство ввода данных, приспособленное для приема входных данных пользователя,
процессор, связанный со средством ввода данных и приспособленный для приема входного сигнала, который соответствует входным данным пользователя,
память, связанную с процессором,
хранящуюся в памяти зависящую от языка базу данных, содержащую словарь перевода и набор предложений-примеров,
хранящуюся в памяти специализированную базу данных, содержащую информацию перевода, которая соответствует конкретной географической области, причем данная информация перевода включает в себя словарь перевода, адаптированный для представления этой конкретной географической области, при этом словарь перевода включает в себя слова, связанные с по меньшей мере одним из гостиницы, названия улицы, ресторана, туристической достопримечательности, ассоциированных с упомянутой конкретной географической областью, и
хранящееся в памяти независимое от языка средство перевода, при этом процессор приспособлен выбирать предложение-пример на основе входных данных пользователя и изменять это предложение-пример для создания измененного предложения-примера на основе дополнительных входных данных пользователя, причем процессор приспособлен создавать измененное предложение-пример на основе этих дополнительных входных данных пользователя посредством замещения терма в упомянутом предложении-примере термом, выбранным из специализированной базы данных, при этом процессор дополнительно приспособлен использовать независимое от языка средство перевода для применения словаря перевода к упомянутому предложению-примеру для выполнения перевода, который выдается пользователю.
21. Устройство по п.20, в котором процессор дополнительно приспособлен изменять предложение-пример на основе дополнительного входного сигнала, который соответствует дополнительным входным данным пользователя.
22. Устройство по п.20, в котором процессор дополнительно приспособлен использовать независимое от языка средство перевода для применения специализированной базы данных к предложению-примеру для получения перевода, который выводится пользователю.
23. Устройство по п.22, в котором специализированная база данных является базой данных, специфической для конкретного места назначения.
24. Устройство по п.23, в котором специализированная база данных является базой данных, специфической для конкретного города.
WO 00/57320 A2, 28.09.2000 | |||
RU 2070734 C1, 20.12.1996 | |||
Топчак-трактор для канатной вспашки | 1923 |
|
SU2002A1 |
EP 0953918 A2, 03.11.1999 | |||
US 6119078 A, 12.09.2000. |
Авторы
Даты
2009-05-27—Публикация
2004-02-20—Подача