ОБЛАСТЬ ТЕХНИКИ
[0001] Настоящее изобретение, в целом, относится к обработке естественного языка, а точнее, к созданию обучающих выборок, используемых в методах машинного обучения, путем глубинного семантического анализа текстов на естественном языке.
ВВЕДЕНИЕ
[0002] Под машинным обучением обычно понимается изучение и создание алгоритмов, использующих типовые выборки данных (также называемые «обучающие выборки») для построения моделей в задачах принятия решений на основе данных. В иллюстративном примере обучающий алгоритм может использоваться для определения или настройки значений некоторых параметров функции классификатора, которая определяет степень ассоциации некоторого объекта с указанным классом объектов.
КРАТКОЕ ИЗЛОЖЕНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ
[0003] В соответствии с одним или более аспектами настоящего изобретения пример реализации способа создания обучающих выборок, используемых в методах машинного обучения, путем глубинного семантического анализа текстов на естественном языке может включать: выполнение лексико-морфологического анализа текста на естественном языке, содержащего множество токенов, для определения одного или более лексических и грамматических атрибутов, связанных с каждым токеном из множества токенов, причем каждый токен содержит, как минимум, одно слово естественного языка; выполнение синтактико-семантического анализа текста на естественном языке для получения множества синтактико-семантических структур, представляющих текст на естественном языке; определение с помощью синтактико-семантических структур множества синтаксических и семантических атрибутов, связанных с текстом на естественном языке; выбор из лексических, грамматических, синтаксических и семантических атрибутов набора выходных атрибутов; и создание выходного текста, включающего символические идентификаторы одного или более атрибутов из выходного набора атрибутов, где каждый атрибут связан с соответствующей частью текста на естественном языке.
[0004] В соответствии с одним или более аспектами настоящего изобретения пример системы для создания обучающих выборок, используемых в методах машинного обучения, путем глубинного семантического анализа текстов на естественном языке может включать: память и процессор, соединенный с памятью, причем процессор выполнен с возможностью: осуществлять лексико-морфологический анализ текста на естественном языке, содержащего множество токенов, для определения одного или более лексических и грамматических атрибутов, связанных с каждым токеном из множества токенов, причем каждый токен содержит, как минимум, одно слово естественного языка; выполнять синтактико-семантический анализ текста на естественном языке для получения множества синтактико-семантических структур, представляющих текст на естественном языке; определять с помощью синтактико-семантических структур множество синтаксических и семантических атрибутов, связанных с текстом на естественном языке; выбирать из лексических, грамматических, синтаксических и семантических атрибутов набор выходных атрибутов; и создавать выходной текст, включающий символические идентификаторы одного или более атрибутов из выходного набора атрибутов, где каждый атрибут связан с соответствующей частью текста на естественном языке.
[0005] В соответствии с одним или более аспектами настоящего изобретения пример постоянного машиночитаемого носителя данных может включать исполняемые команды, которые при исполнении их вычислительной системой приводят к выполнению вычислительной системой операций, включающих: выполнение лексико-морфологического анализа текста на естественном языке, содержащего множество токенов, для определения одного или более лексических и грамматических атрибутов, связанных с каждым токеном из множества токенов, причем каждый токен содержит, как минимум, одно слово естественного языка; выполнение синтактико-семантического анализа текста на естественном языке для получения множества синтактико-семантических структур, представляющих текст на естественном языке; определение с помощью синтактико-семантических структур множества синтаксических и семантических атрибутов, связанных с текстом на естественном языке; выбор из лексических, грамматических, синтаксических и семантических атрибутов набора выходных атрибутов; и создание выходного текста, включающего символические идентификаторы одного или более атрибутов из выходного набора атрибутов, где каждый атрибут связан с соответствующей частью текста на естественном языке. Технический результат от внедрения изобретения состоит в автоматизации процесса получения высокоточных размеченных текстов практически любого объема и содержания в соответствии с выбранным способом разметки и их использования для машинного обучения в задачах обработки естественного языка.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0006] Настоящее изобретение иллюстрируется с помощью примеров, а не способом ограничения, и может быть лучше понято при рассмотрении приведенного ниже описания предпочтительных вариантов реализации в сочетании с чертежами, на которых:
[0007] На Фиг. 1 показана блок-схема примера реализации способа создания обучающих выборок для методов машинного обучения путем глубинного семантического анализа текстов на естественном языке в соответствии с одним или более аспектами настоящего изобретения;
[0008] На Фиг. 2 схематически показан пример размеченного текста на естественном языке, который может использоваться для обучения функции классификатора, вычисляющей оценку степени ассоциации токена из текста на естественном языке с определенной категорией именованных сущностей в соответствии с одним или более аспектами настоящего изобретения;
[0009] На Фиг. 3 приведена блок-схема одного описанного в иллюстративном примере способа выполнения семантико-синтаксического анализа предложения на естественном языке в соответствии с одним или более аспектами настоящего изобретения.
[00010] На Фиг. 4 схематически показан пример лексико-морфологической структуры предложения в соответствии с одним или более аспектами настоящего изобретения;
[00011] На Фиг. 5 схематически показаны языковые описания, представляющие модель естественного языка в соответствии с одним или более аспектами настоящего изобретения;
[00012] На Фиг. 6 схематически показаны примеры морфологических описаний в соответствии с одним или более аспектами настоящего изобретения;
[00013] На Фиг. 7 схематически показаны примеры синтаксических описаний в соответствии с одним или более аспектами настоящего изобретения;
[00014] На Фиг. 8 схематически показаны примеры семантических описаний в соответствии с одним или более аспектами настоящего изобретения;
[00015] На Фиг. 9 схематически показаны примеры лексических описаний в соответствии с одним или более аспектами настоящего изобретения;
[00016] На Фиг. 10 схематически показаны примеры структур данных, которые могут быть использованы в рамках одного или более способов, реализованных в соответствии с одним или более аспектами настоящего изобретения;
[00017] На Фиг. 11 схематически показан пример графа обобщенных составляющих в соответствии с одним или более аспектами настоящего изобретения;
[00018] На Фиг. 12 приводится пример синтаксической структуры, соответствующей предложению, приведенному на Фиг. 11;
[00019] На Фиг. 13 показана семантическая структура, соответствующая синтаксической структуре, приведенной на Фиг. 12;
[00020] На Фиг. 14 показана схема примера вычислительной системы, реализующей способы настоящего изобретения.
ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ РЕАЛИЗАЦИИ
[00021] В настоящем документе описываются способы и системы создания обучающих выборок, используемых в методах машинного обучения, путем глубинного семантического анализа текстов на естественном языке. Описанные в настоящем документе системы и способы могут быть использованы в разнообразных приложениях обработки естественного языка, включая машинный перевод, построение семантических индексов, семантический поиск (включая многоязычный семантический поиск), классификацию документов, электронные исследования и др.
[00022] В настоящем документе термин «вычислительная система» означает устройство обработки данных, оснащенное универсальным процессором, памятью и, по меньшей мере, одним интерфейсом связи. Примерами вычислительных систем, которые могут использовать описанные в этом документе способы, являются, в частности, настольные компьютеры, ноутбуки, планшетные компьютеры и смартфоны.
[00023] Системы и способы по настоящему изобретению повышают надежность и эффективность создания обучающих выборок для методов машинного обучения путем глубинного семантического анализа текстов на естественном языке для выявления широкого спектра морфологических, грамматических, синтаксических и (или) семантических атрибутов текстов на естественном языке. Определенные значения атрибутов, а также обнаруженные именованные сущности и извлеченные факты могут быть отражены в выходящем размеченном тексте в заранее определенном формате, например, в виде определенной схемы расширяемого языка разметки (XML).
[00024] В соответствии с одним или более аспектами настоящего изобретения вычислительная система, реализующая способы, описанные в настоящем документе, может выполнять лексико-морфологический анализ исходного текста на естественном языке для получения лексико-морфологических структур, представляющих предложения исходного текста. Каждая лексико-морфологическая структура может содержать, для каждого слова в предложении на естественном языке, одно или более лексических значений и одно или более грамматических значений слова на естественном языке.
[00025] Каждое лексическое значение может занимать определенное положение в лексико-семантической иерархии, которое отражает иерархические отношения между лексическими значениями и независимыми от языка семантическими классами. Лексико-семантическая иерархия может определять для каждого лексического значения поверхностную (синтаксическую) модель, которая в свою очередь может быть связана с глубинной (семантической) моделью. Таким образом, лексико-морфологический анализ может дать, для каждого слова исходного текста на естественном языке, его лексическое и грамматическое значения и идентификаторы одного или более семантических классов, связанных со словами на естественном языке, как более подробно будет описано ниже.
[00026] Вычислительная система далее может выполнить синтаксический анализ одного или более предложений исходного текста на естественном языке. В некоторых вариантах реализации синтаксический анализ может включать этап грубого синтаксического анализа и этап точного синтаксического анализа, как более подробно будет описано ниже.
[00027] Грубый синтаксический анализ может позволить получить граф обобщенных составляющих. В настоящем документе «составляющая» означает группу слов исходного предложения, функционирующую как одна грамматическая сущность. Точный синтаксический анализ может позволить получить одно или более синтаксических деревьев, представляющих предложения на естественном языке. Наилучшее синтаксическое дерево, соответствующее исходному предложению, может быть выбрано в множестве синтаксических деревьев исходя из определенной функции оценки, которая учитывает совместимость лексических значений слов исходного предложения, поверхностные отношения, глубинные отношения и т.д. (более подробное описание см. ниже в настоящем документе).
[00028] Вычислительная система может далее выполнять семантический анализ текста на естественном языке для получения, для каждого предложения на естественном языке, соответствующей независимой от языка семантической структуры, представляющей предложение. Семантические структуры отражают семантические классы, связанные с каждым словом предложения, семантемы, глубинные позиции, диатезы, кореферентные и анафорические связи и т.д. (более подробное описание см. ниже в настоящем документе).
[00029] В некоторых вариантах осуществления вычислительная система может также использовать один или более способов распознавания именованных сущностей для определения в тексте на естественном языке именованных сущностей одной или более категорий именованных сущностей. Распознавание именованных сущностей (NER) (также известное под названиями: идентификация сущностей и извлечение сущностей) представляет собой задачу по извлечению информации, в ходе выполнения которой производится выявление токенов в тексте на естественном языке и их классификация по заранее определенным категориям, таким как персоны, названия организаций, географические названия, представление времени, количества, денежные суммы, проценты и т.д.
[00030] Распознавание именованных сущностей может выполняться, исходя из значений отдельных атрибутов текста на естественном языке, полученных при выполнении лексико-морфологического и (или) синтактико-семантического анализа текста на естественном языке. В некоторых реализациях некоторые лексические, грамматические и (или) семантические атрибуты естественного языка могут использоваться в одной или более функциях классификатора. Каждая функция классификатора может определять для токена естественного языка степени ассоциирования с определенной категорией именованных сущностей. Кроме того или альтернативно для интерпретации семантических структур, полученных в ходе синтактико-семантического анализа, может использоваться набор продукционных правил с последующей генерацией множества объектов данных, соответствующих определенным именованным сущностям, как более подробно описано ниже.
[00031] В некоторых вариантах осуществления вычислительная система может также использовать один или более способов извлечения фактов для определения в тексте на естественном языке одного или более фактов, связанных с определенным информационным объектом.
[00032] Термин «факт» в настоящем документе означает отношение между информационными объектами, на которые ссылается текст на естественном языке. Факт может быть связан с одной или более категориями фактов. Например, факт, связанный с лицом, может относиться к рождению лица, его образованию, занятости, трудовой деятельности и т.д. В другом примере факт, связанный с коммерческой операцией, может относиться к типу операции и сторонам операции, обязательствам сторон, дате подписания контракта, дате исполнения, выплатам по контракту и т.д.
[00033] В некоторых реализациях некоторые лексические, грамматические и (или) семантические атрибуты естественного языка могут использоваться в одной или более функциях классификатора. Каждая функция классификатора может определять для предложения на естественном языке степень ассоциации с определенной категорией фактов. Кроме того или альтернативно для интерпретации семантических структур, полученных в ходе синтактико-семантического анализа, может использоваться набор продукционных правил, с последующей генерацией множества объектов данных, соответствующих обнаруженным фактам, как более подробно описано ниже.
[00034] Затем вычислительная система может вывести размеченный текст в определенном формате, например, на расширяемом языке разметки (XML), совместимом с заранее определенной или изменяемой пользователем схемой. Вычислительная система может использовать размеченный текст для выполнения различных задач машинного обучения. Подобные задачи могут включать настройку параметров функции классификатора, классификацию и кластеризацию текста, анализ авторства, оценку семантического сходства текстов на естественном языке, анализ тональности высказываний, определение именованных сущностей и фактов и т.д., как более подробно описано ниже.
[00035] Системы и способы, описанные в этом документе, могут быть реализованы аппаратно (например, с помощью устройств обработки общего назначения и (или) специализированных устройств обработки, и (или) других устройств и соответствующей схемы), программно (например, с помощью инструкций, выполняемых устройством обработки), или сочетанием этих подходов. Различные аспекты упомянутых выше способов и систем подробно описаны ниже в этом документе с помощью примеров, а не способом ограничения.
[00036] На Фиг. 1 показана блок-схема примера реализации способа создания обучающих выборок для методов машинного обучения путем глубинного семантического анализа текстов на естественном языке в соответствии с одним или более аспектами настоящего изобретения. Способ 100 и (или) каждая из его отдельных функций, процедур, подпрограмм или операций может быть реализована с помощью одного или более процессоров вычислительной системы (например, вычислительной системы 1000 на Фиг. 14), в которой реализован этот способ. В некоторых вариантах реализации способ 100 может выполняться в одном потоке обработки. При альтернативном подходе способ 100 может быть реализован с использованием двух или более потоков обработки, при этом в каждом потоке реализована одна или более отдельных функций, процедур, подпрограмм или операций этого способа. В иллюстративном примере потоки обработки, в которых реализован способ 100, могут быть синхронизированы (например, с помощью семафоров, критических секций и (или) других механизмов синхронизации потоков). При альтернативном подходе потоки обработки, в которых реализован способ 100, могут выполняться асинхронно по отношению друг к другу. Таким образом, несмотря на то, что Фиг. 1 и соответствующее описание содержат список операций для способа 100 в определенном порядке, в различных вариантах осуществления способа, как минимум, некоторые из описанных операций могут выполняться параллельно и (или) в случайно выбранном порядке.
[00037] В блоке 110 вычислительная система, реализующая способ 100, может выполнить лексико-морфологический анализ исходного текста 101 на естественном языке, который может быть представлен, например, одним или более исходными документами. Лексико-морфологический анализ может применяться к исходному тексту на естественном языке, с использованием зависящих от конкретного языка морфологических и лексических описаний, которые будут более подробно описаны в этом документе ниже со ссылкой на Фиг. 6 и 9. Для каждого предложения лексико-морфологический анализ может построить лексико-морфологическую структуру, соответствующую предложению. Такая лексико-морфологическая структура может содержать для каждого слова в предложении на естественном языке одно или более лексических значений и одно или более грамматических значений слова на естественном языке. В некоторых вариантах осуществления лексические и грамматические значения могут группироваться в одну или более пар <грамматическое значение - лексическое значение>.
[00038] Грамматическое значение может быть представлено набором значений грамматических атрибутов (также называемых граммемами), таких как часть речи, падеж, род, число, спряжение, вид, время и т.д. Лексическое значение может включать одну или более соответствующих слову естественного языка лемм (например, канонических или словарных форм), идентификатор семантического класса, связанного со словом естественного языка, и одну или более классифицирующих или дифференцирующих семантем.
[00039] Отсутствующие в словаре слова (например, именованные сущности) могут быть связаны с заранее определенным семантическим классом (например, UNKNOWN). Грамматические значения токена, отсутствующего в словаре, могут быть определены с помощью псевдолемматизации (то есть восстановления возможной канонической формы несловарного токена), анализа контекста (например, двух и более слов на естественном языке, окружающих несловарный токен в предложении), капитализации одной или более букв несловарного токена т.д.
[00040] Каждое лексическое значение может занимать определенное положение в лексико-семантической иерархии, которое отражает иерархические отношения между лексическими значениями и независимыми от языка семантическими классами. Лексико-семантическая иерархия может определять для каждого лексического значения поверхностную (синтаксическую) модель, которая в свою очередь может быть связана с глубинной (семантической) моделью. Лексическое значение может наследовать семантический класс и (или) другие свойства родителя, таким образом уточняя его семантическую модель, как более подробно описано ниже со ссылкой на Фиг. 8.
[00041] Таким образом, лексико-морфологический анализ может дать для каждого слова исходного текста на естественном языке его лексическое и грамматическое значения и идентификаторы одного или более семантических классов, связанных со словами на естественном языке. Более подробное описание иллюстративного примера способа проведения лексико-морфологического анализа предложения приведено ниже в настоящем документе со ссылкой на Фиг. 4.
[00042] После завершения лексико-морфологического анализа вычислительная система может разметить исходный текст на естественном языке определенными морфологическими и лексическими свойствами слов и предложений на естественном языке. В некоторых вариантах осуществления предварительное определение семантических классов может также находить отражение в разметке текста на естественном языке. Морфологической и грамматической информации, получаемой в результате лексико-морфологического анализа, может быть достаточно для некоторых задач машинного обучения, таким образом, в некоторых вариантах реализации изобретения этот способ может пропускать одну или более последующих операций (например, синтактико-семантический анализ текста на естественном языке) и переходить к выводу размеченного текста, как более подробно описано ниже в этом документе со ссылкой на блок 160.
[00043] В блоке 120 вычислительная система может выполнить синтаксический анализ одного или более предложений исходного текста на естественном языке. В некоторых вариантах реализации изобретения синтаксический анализ может включать этап грубого синтаксического анализа и этап точного синтаксического анализа, как более подробно будет описано ниже со ссылкой на Фиг. 3.
[00044] Синтаксический анализ может включать применение одной или более поверхностных моделей к каждому предложению текста на естественном языке. Поверхностная модель может быть представлена набором синтаксических форм («синтформ»), используемых для определения возможных синтаксических структур предложения. Поверхностная модель может содержать множество поверхностных позиций дочерних элементов, описаний линейного порядка и (или) описаний диатез, как более подробно описано ниже в этом документе. Термин «диатеза» в этом документе означает определенное отношение между поверхностной позицией, глубинной позицией и их семантическим значением. В качестве иллюстративного примера диатеза может определять залог глагола: активный залог в ситуации, когда некоторая сущность активно выполняет некоторое действие, и пассивный залог, когда сущность является объектом действия.
[00045] Синтаксический анализ может далее включать применение одной или более моделей составляющих для каждого предложения текста на естественном языке. Модель составляющих включает одну или более поверхностных позиций дочерних составляющих и определений их линейного порядка для описания грамматического значения различных возможных заполнителей поверхностных позиций, как более подробно описано ниже в этом документе.
[00046] Синтаксический анализ может далее включать применение одного или более коммуникативных описаний к каждому предложению текста на естественном языке. Коммуникативное описание может определять коммуникативный порядок слов в синтформе, как более подробно описано ниже в этом документе.
[00047] Синтаксический анализ может далее включать применение одного или более описаний управления и согласования к каждому предложению текста на естественном языке. Эти описания могут определять некоторые ограничения, применяемые к грамматическим значениям составляющих, которые связаны с указанным ядром составляющей, как более подробно описано ниже в этом документе.
[00048] Синтаксический анализ может далее включать применение одного или более недревесных синтаксических описаний к каждому предложению текста на естественном языке. Недревесные синтаксические описания могут отражать различные языковые явления, таких как эллипсис и координация. Они могут использоваться для трансформации синтаксических структур, которые создаются на различных этапах анализа. Недревесные синтаксические описания могут включать описания эллипсиса, описания координации и (или) описания референциального и структурного контроля, как более подробно описано ниже в этом документе.
[00049] Грубый синтаксический анализ может включать применение к предложению на естественном языке поверхностной модели для создания множества возможных отношений между словами предложения. Грубый синтаксический анализ может позволить получить граф обобщенных составляющих. В настоящем документе «составляющая» означает группу слов исходного предложения, функционирующую как одна грамматическая сущность.
[00050] Точный синтаксический анализ может позволить получить, из графа обобщенных составляющих одно или более синтаксических деревьев, представляющих предложения на естественном языке. Причиной многообразия возможных синтаксических деревьев, соответствующих какому-либо данному исходному предложению, может быть омонимия и (или) совпадающие грамматические формы, соответствующие разным лексико-морфологическим значениям одного или более слов в составе исходного предложения. Наилучшее синтаксическое дерево, соответствующее исходному предложению, может быть выбрано в множестве синтаксических деревьев исходя из определенной функции оценки, которая учитывает совместимость лексических значений слов исходного предложения, поверхностные отношения, глубинные отношения и т.д.,
[00051] Точный синтаксический анализ также может включать создание одной или более недревесных связей (например, путем создания дополнительных связей между вершинами дерева для отражения эллипсиса, координации и (или) референциального и структурного контроля). Если этот процесс заканчивается неудачей, вычислительная система может выбрать синтаксическое дерево с условно оптимальной оценкой, наиболее близкой к оптимальной, и произвести попытку установить одну или более недревесных связей в дереве, как более подробно описано ниже в этом документе.
[00052] После завершения синтаксического анализа вычислительная система может разметить исходный текст на естественном языке выявленными синтаксическими свойствами предложений на естественном языке. В некоторых вариантах осуществления способ может пропускать одну или более последующих операций (например, семантический анализ текста на естественном языке) и переходить к выводу размеченного текста, как более подробно описано ниже со ссылкой на блок 160.
[00053] В блоке 130 вычислительная система может выполнять семантический анализ текста на естественном языке для получения для каждого предложения на естественном языке соответствующей независимой от языка семантической структуры, представляющей предложение. Семантические структуры отражают семантические классы, связанные с каждым словом предложения, семантемы, глубинные позиции, диатезы кореферентные и анафорические связи и т.д., как более подробно описано ниже на фиг. 3-13.
[00054] В некоторых вариантах осуществления создание семантических структур может включать устранение неоднозначностей, вызванных омонимией и (или) совпадающими грамматическими формами, соответствующими различным лексико-морфологическим значениям определенных слов естественного языка, как более подробно описано ниже в настоящем документе.
[00055] После завершения семантического анализа вычислительная система может разметить исходный текст на естественном языке выявленными семантическими свойствами предложений на естественном языке. В некоторых вариантах осуществления способ может пропускать одну или более последующих операций (например, распознавание именованных сущностей и (или) извлечение фактов) и переходить к выводу размеченного текста, как более подробно описано ниже со ссылкой на блок 160.
[00056] В блоке 140 вычислительная система может использовать один или более способов распознавания именованных сущностей для определения в тексте на естественном языке именованных сущностей одной или более категорий именованных сущностей. Эти категории могут быть представлены концептами заранее определенной или динамически выстраиваемой онтологии.
[00057] «Онтология» в настоящем документе означает модель, которая представляет объекты, относящиеся к определенной области знаний (предметной области), и отношения между данными объектами. Онтология может включать определения некого множества классов, где каждый класс соответствует концепту предметной области. Каждое определение класса может включать определения одного или более отнесенных к данному классу объектов. Согласно общепринятой терминологии класс может также называться концептом онтологии, а принадлежащий классу объект может называться экземпляром данного концепта. Определение информационного объекта может представлять материальный реальный объект (например, человека или предмет) или определенные характеристики, связанные с одним или более реальными объектами (например, числовой атрибут или качество). В некоторых вариантах реализации информационный объект может быть ассоциирован с двумя или более классами.
[00058] Распознавание именованных сущностей может выполняться, исходя из значений отдельных атрибутов текста на естественном языке, полученных при выполнении лексико-морфологического и (или) синтактико-семантического анализа текста на естественном языке. В некоторых реализациях некоторые лексические, грамматические и (или) семантические атрибуты естественного языка могут использоваться в одной или более функциях классификатора. Каждая функция классификатора может определять для токена естественного языка степени ассоциации с определенной категорией именованных сущностей. Кроме того или альтернативно для интерпретации семантических структур, полученных в ходе синтактико-семантического анализа, может использоваться набор продукционных правил с последующей генерацией множества объектов данных, соответствующих обнаруженным именованным сущностям.
[00059] После окончания распознавания именованных сущностей вычислительная система может далее разметить исходный текст на естественном языке, используя выявленные категории именованных сущностей. В некоторых вариантах осуществления этот способ может пропускать одну или более последующих операций (например, извлечение фактов) и переходить к выводу размеченного текста, как более подробно описано ниже со ссылкой на блок 160.
[00060] В блоке 150 вычислительная система может также использовать один или более способов извлечения фактов для выявления в тексте на естественном языке одного или более фактов, связанных с определенным информационным объектом.
[00061] После распознавания именованных сущностей и других информационных объектов в тексте на естественном языке вычислительная система может перейти к разрешению кореференций и анафорических связей между токенами естественного текста (каждый токен может содержать одно или более слов). «Кореференция» в настоящем документе означает конструкцию естественного языка, содержащую два или более токенов естественного языка, которые относятся к одной сущности (например, одному и тому же лицу, вещи, месту или организации).
[00062] После определения кореференций вычислительная система может перейти к выявлению отношений между выявленными информационными объектами и (или) другими информационными объектами. Примерами таких отношений могут быть работа лица X в организационном подразделении Y, расположение объекта X в геопозиционировании Y, приобретение организационной единицей X организационной единицы Y и т.д. Подобные отношения могут быть выражены фрагментами на естественном языке, которые могут содержать множество слов из одного или более предложений.
[00063] В некоторых реализациях некоторые лексические, грамматические и (или) семантические атрибуты естественного языка могут использоваться в одной или более функциях классификатора. Каждая функция классификатора может определять для предложения на естественном языке степень ассоциации с определенной категорией фактов. Кроме того или альтернативно для интерпретации семантических структур, полученных в ходе синтактико-семантического анализа, может использоваться набор продукционных правил с последующей генерацией множества объектов данных, соответствующих обнаруженным фактам.
[00064] В блоке 160 вычислительная система может сохранить и/или вывести размеченный текст в определенном формате, например, на расширяемом языке разметки (XML), совместимом с заранее определенной или изменяемой пользователем схемой. Выводимый текст может содержать множество символических идентификаторов одного или более атрибутов, причем каждый атрибут связан (например, тегом XML) с соответствующей частью текста на естественном языке.
[00065] В некоторых вариантах реализации вывод размеченного текста может включать выбор из значений атрибутов, полученных при лексико-морфологическом и семантическом анализах, набора выходных значений атрибутов, представленных в размеченном тексте. В некоторых вариантах реализации могут выбираться значения атрибутов с максимальной оценкой. Вычислительная система может определить значение оценки атрибута, исходя из одного или более факторов, включая статистические данные по совместимости определенных лексем и семантических классов, частоте возникновения указанного лексического значения в корпусе текстов на естественном языке и т.д. Вместо этого могут использоваться другие способы выбора значений атрибутов.
[00066] В некоторых вариантах осуществления в выходном тексте могут быть представлены все значения атрибутов, полученные при лексико-морфологическом и семантическом анализах. В иллюстративном примере для отдельных слов, токенов и т.д. могут быть указаны альтернативные значения некоторых атрибутов текста на естественном языке. Такие альтернативные значения могут быть квалифицированы по степени ассоциации значения атрибута с соответствующим элементом текста на естественном языке. Например, слово «play» в исходном предложении может быть определено как существительное с вероятностью 40% и как глагол с вероятностью 60%. Аналогично, альтернативные значения могут быть указаны для семантических классов, глубинных позиций, категорий именованных сущностей и (или) других параметров, полученных в результате лексико-морфологического, синтаксического и (или) семантического анализа исходного текста на естественном языке.
[00067] Пример размеченного текста схематически проиллюстрирован на Фиг. 2. В примере на Фиг. 2 открывающие и закрывающие теги <PER> и </PER> используются для определения токенов, которые относятся к персонам, открывающие и закрывающие теги <LOC> и </LOC> используются для определения токенов, которые относятся к геолокации, открывающие и закрывающие теги <EVENT> и </EVENT> используются для указания токенов, относящихся к событиям, а открывающие и закрывающие теги <DAY> и </DAY> используются для определения токенов, которые относятся к календарным датам. Для описания токенов, ссылающихся на объекты, связанные с другими категориями именованных сущностей, могут использоваться другие теги.
[00068] В некоторых вариантах осуществления изобретения для определения подкатегорий именованных сущностей могут использоваться дополнительные квалифицирующие теги. В одном из иллюстративных примеров объект, ссылающийся на тег <EVENT>, может быть дополнительно квалифицирован с помощью дополнительных тегов как спортивное событие, празднование юбилея, премьера представления, выпуск фильма в прокат, выпуск продукта и т.д. В другом иллюстративном примере объект, ссылающийся на тег <PER>, может быть дополнительно квалифицирован с помощью дополнительных тегов как политик, знаменитость, писатель, художник и т.д. В еще одном иллюстративном примере объект, ссылающийся на тег <LOC>, может быть дополнительно квалифицирован с помощью дополнительных тегов, таких как континент, страна, город, столица, улица и т.д.
[00069] В некоторых вариантах осуществления дополнительные квалифицирующие теги могут использоваться для определения различных морфологических, синтаксических и семантических атрибутов текста на естественном языке.
[00070] В блоке 170 вычислительная система может использовать размеченный текст для выполнения различных задач машинного обучения. Подобные задачи могут включать настройку параметров функции классификатора, классификацию и кластеризацию текста, анализ авторства, оценку семантического сходства текстов на естественном языке, анализ тональности высказываний, определение именованных сущностей и фактов и т.д.
[00071] В иллюстративном примере функция классификатора может обучаться на обучающей выборке из текстов на естественном языке, которые были размечены с помощью систем и способов в соответствии с одним или более аспектами настоящего изобретения. Функция классификатора может реализовывать различные способы от наивного байесовского классификатора до дифференциальной эволюции, метода опорных векторов, случайных лесов и т.д.
[00072] Обучение классификатора может включать определение наиболее важных атрибутов текстов на естественном языке и (или) настройку значений одного или более параметров функции классификатора. После завершения стадии обучения функция классификатора может использоваться для обработки контрольного набора текстов на естественном языке (т.е. неразмеченных текстов). Качество классификации можно оценить, применяя классификатор к одному или более размеченным текстам на естественном языке из тестового набора. Обученная функция классификатора может использоваться для получения значения, отражающего степень ассоциации определенной части текста на естественном языке с определенной категорией фактов, информационных объектов, других текстов на естественном языке и т.д.
[00073] В ответ на выполнение описанных со ссылками на блок 170 операций способ может завершиться.
[00074] На Фиг. 3 приведена блок-схема одного иллюстративного примера реализации способа 200 для выполнения семантико-синтаксического анализа предложения на естественном языке 212 в соответствии с одним или несколькими аспектами настоящего изобретения. Способ 200 может быть применен к одной или более синтаксическим единицам (например, предложениям), включенным в определенный текстовый корпус, для формирования множества семантико-синтаксических деревьев, соответствующих синтаксическим единицам. В различных иллюстративных примерах подлежащие обработке способом 200 предложения на естественном языке могут извлекаться из одного или нескольких электронных документов, которые могут создаваться путем сканирования (или другим способом получения изображений бумажных документов) и оптического распознавания символов (OCR) для получения текстов, соответствующих этим документам. Предложения на естественном языке также могут извлекаться из других различных источников, включая сообщения, отправляемые по электронной почте, тексты из социальных сетей, файлы с цифровым содержимым, обработанные с использованием способов распознавания речи и т.д.
[00075] В блоке 214 вычислительное устройство, реализующее данный способ, может проводить лексико-морфологический анализ предложения 212 для установления морфологических значений слов, входящих в состав предложения. В настоящем документе "морфологическое значение" слова означает одну или несколько лемм (т.е. канонических или словарных форм), соответствующих слову, и соответствующий набор значений грамматических признаков, которые определяют грамматическое значение слова. В число таких грамматических признаков могут входить лексическая категория (часть речи) слова и один или более морфологических и грамматических признаков (например, падеж, род, число, спряжение и т.д.). Ввиду омонимии и (или) совпадающих грамматических форм, соответствующих разным лексико-морфологическим значениям определенного слова, для данного слова может быть установлено два или более морфологических значений. Более подробное описание иллюстративного примера проведения лексико-морфологического анализа предложения приведено ниже в настоящем документе со ссылкой на Фиг. 4.
[00076] В блоке 215 вычислительное устройство может проводить грубый синтаксический анализ предложения 212. Грубый синтаксический анализ может включать применение одной или нескольких синтаксических моделей, которые могут быть соотнесены с элементами предложения 212, с последующим установлением поверхностных (т.е. синтаксических) связей в рамках предложения 212 для получения графа обобщенных составляющих. В настоящем документе "составляющая" означает группу соседних слов исходного предложения, функционирующую как одна грамматическая сущность. Составляющая включает в себя ядро в виде одного или более слов и может также включать одну или несколько дочерних составляющих на более низких уровнях. Дочерняя составляющая является зависимой составляющей, которая может быть соотнесена с одной или несколькими родительскими составляющими.
[00077] В блоке 216 вычислительное устройство может проводить точный синтаксический анализ предложения 212 для формирования одного или более синтаксических деревьев предложения. Среди различных синтаксических деревьев на основе определенной функции оценки с учетом совместимости лексических значений слов исходного предложения, поверхностных отношений, глубинных отношений и т.д. может быть отобрано одно или несколько лучших синтаксических деревьев, соответствующих предложению 212.
[00078] В блоке 217 вычислительное устройство может обрабатывать синтаксические деревья для формирования семантической структуры 218, соответствующей предложению 212. Семантическая структура 218 может включать множество узлов, соответствующих семантическим классам и также может включать множество дуг, соответствующих семантическим отношениям (более подробное описание см. ниже в настоящем документе).
[00079] Фиг. 4 схематически иллюстрирует пример лексико-морфологической структуры предложения в соответствии с одним или более аспектами настоящего изобретения. Пример лексико-морфологической структуры 300 может включать множество пар "лексическое значение - грамматическое значение" для примера предложения. В качестве иллюстративного примера, "11" может быть соотнесено с лексическим значением "shall" 312 и "will" 314. Грамматическим значением, соотнесенным с лексическим значением 312, является <Verb, GTVerbModal, ZeroType, Present, Nonnegative, Composite II>. Грамматическим значением, соотнесенным с лексическим значением 314, является <Verb, GTVerbModal, ZeroType, Present, Nonnegative, Irregular, Composite II>.
[00080] Фиг. 5 схематически иллюстрирует используемые языковые описания 210, в том числе морфологические описания 201, лексические описания 203, синтаксические описания 202 и семантические описания 204, а также отношения между ними. Среди них морфологические описания 201, лексические описания 203 и синтаксические описания 202 зависят от языка. Набор языковых описаний 210 представляет собой модель определенного естественного языка.
[00081] В качестве иллюстративного примера определенное лексическое значение в лексических описаниях 203 может быть соотнесено с одной или несколькими поверхностными моделями синтаксических описаний 202, соответствующих данному лексическому значению. Определенная поверхностная модель синтаксических описаний 202 может быть соотнесена с глубинной моделью семантических описаний 204.
[00082] Фиг. 6 схематически иллюстрирует несколько примеров морфологических описаний. В число компонентов морфологических описаний 201 могут входить: описания словоизменения 310, грамматическая система 320, описания словообразования 330 и другие. Грамматическая система 320 включает набор грамматических категорий, таких как часть речи, падеж, род, число, лицо, возвратность, время, вид и их значения (так называемые "граммемы"), в том числе, например, прилагательное, существительное или глагол; именительный, винительный или родительный падеж; женский, мужской или средний род и т.д. Соответствующие граммемы могут использоваться для составления описания словоизменения 310 и описания словообразования 330.
[00083] Описание словоизменения 310 определяет формы данного слова в зависимости от его грамматических категорий (например, падеж, род, число, время и т.д.) и в широком смысле включает в себя или описывает различные возможные формы слова. Описание словообразования 330 определяет, какие новые слова могут быть образованы от данного слова (например, сложные слова).
[00084] В соответствии с одним из аспектов настоящего изобретения при установлении синтаксических отношений между элементами исходного предложения могут использоваться модели составляющих. Составляющая представляет собой группу соседних слов в предложении, ведущих себя как единое целое. Ядром составляющей является слово, она также может содержать дочерние составляющие более низких уровней. Дочерняя составляющая является зависимой составляющей и может быть прикреплена к другим составляющим (родительским) для построения синтаксических описаний 202 исходного предложения.
[00085] На Фиг. 7 приведены примеры синтаксических описаний. В число компонентов синтаксических описаний 202 могут входить, среди прочего, поверхностные модели 410, описания поверхностных позиций 420, описание референциального и структурного контроля 456, описание управления и согласования 440, описание недревесного синтаксиса 450 и правила анализа 460. Синтаксические описания 202 могут использоваться для построения возможных синтаксических структур исходного предложения на заданном естественном языке с учетом свободного линейного порядка слов, недревесных синтаксических явлений (например, согласование, эллипсис и т.д.), референциальных отношений и других факторов.
[00086] Поверхностные модели 410 могут быть представлены в виде совокупностей одной или нескольких синтаксических форм («синтформ» 412) для описания возможных синтаксических структур предложений, входящих в состав синтаксического описания 202. В целом, лексическое значение слова на естественном языке может быть связано с поверхностными (синтаксическими) моделями 410. Поверхностная модель может представлять собой составляющие, которые возможны, если лексическое значение выступает в роли "ядра". Поверхностная модель может включать набор поверхностных позиций дочерних элементов, описание линейного порядка и (или) диатезу. В настоящем документе "диатеза" означает определенное отношение между поверхностными и глубинными позициями и их семантическими ролями, выражаемыми посредством глубинных позиций. Например, диатеза может быть выражаться залогом глагола: если субъект является агентом действия, глагол в активном залоге, а когда субъект является направлением действия, это выражается пассивным залогом глагола.
[00087] В модели составляющих может использоваться множество поверхностных позиций 415 дочерних составляющих и описаний их линейного порядка 416 для описания грамматических значений 414 возможных заполнителей этих поверхностных позиций. Диатезы 417 представляют собой соответствия между поверхностными позициями 415 и глубинными позициями 514 (как показано на Фиг. 9). Коммуникативные описания 480 описывают коммуникативный порядок в предложении.
[00088] Описание линейного порядка (416) может быть представлено в виде выражений линейного порядка, отражающих последовательность, в которой различные поверхностные позиции (415) могут встречаться в предложении. В число выражений линейного порядка могут входить наименования переменных, имена поверхностных позиций, круглые скобки, граммемы, оператор «or» (или) и т.д. В качестве иллюстративного примера описание линейного порядка простого предложения "Boys play football" можно представить в виде "Subject Core Object_Direct" (Подлежащее - Ядро - Прямое дополнение), где Subject (Подлежащее), Core (Ядро) и Object Direct (Прямое дополнение) представляют собой имена поверхностных позиций 415, соответствующих порядку слов.
[00089] Коммуникативные описания 480 могут описывать порядок слов в синтформе 412 с точки зрения коммуникативных актов, представленных в виде коммуникативных выражений порядка, которые похожи на выражения линейного порядка. Описания управления и согласования 440 может включать правила и ограничения на грамматические значения присоединяемых составляющих, которые используются во время синтаксического анализа.
[00090] Описания недревесного синтаксиса 450 могут создаваться для отражения различных языковых явлений, таких как эллипсис и согласование, они используются при трансформациях синтаксических структур, которые создаются на различных этапах анализа в различных вариантах реализации изобретения. Описания недревесного синтаксиса 450 могут, среди прочего, включать описание эллипсиса 452, описания согласования 454, а также описания референциального и структурного контроля 430.
[00091] Правила анализа 460 могут описывать свойства конкретного языка и использоваться в рамках семантического анализа. Правила анализа 460 могут включать правила вычисления семантем 462 и правила нормализации 464. Правила нормализации 464 могут использоваться для описания трансформаций семантических структур, которые могут отличаться в разных языках.
[00092] На Фиг. 8 приведен пример семантических описаний. Компоненты семантических описаний 204 не зависят от языка и могут, среди прочего, включать семантическую иерархию 510, описания глубинных позиций 520, систему семантем 530 и прагматические описания 540.
[00093] Ядро семантических описаний может быть представлено семантической иерархией 510, в которую могут входить семантические понятия (семантические сущности), также называемые семантическими классами. Последние могут быть упорядочены в иерархическую структуру, отражающую отношения "родитель-потомок". В целом, дочерний семантический класс может унаследовать одно или более свойств своего прямого родителя и других семантических классов-предков. В качестве иллюстративного примера семантический класс SUBSTANCE (Вещество) является дочерним семантическим классом класса ENTITY (Сущность) и родительским семантическим классом для классов GAS, (Газ), LIQUID (Жидкость), METAL (Металл), WOOD MATERIAL (Древесина) и т.д.
[00094] Каждый семантический класс в семантической иерархии 510 может сопровождаться глубинной моделью 512. Глубинная модель 512 семантического класса может включать множество глубинных позиций 514, которые могут отражать семантические роли дочерних составляющих в различных предложениях с объектами данного семантического класса в качестве ядра родительской составляющей. Глубинная модель 512 также может включать возможные семантические классы, выступающие в роли заполнителей глубинных позиций. Глубинные позиции (514) могут выражать семантические отношения, в том числе, например, "agent" (агенс), "addressee" (адресат), "instrument" (инструмент), "quantity" (количество) и т.д. Дочерний семантический класс может наследовать и уточнять глубинную модель своего непосредственного родительского семантического класса.
[00095] Описания глубинных позиций 520 отражают семантические роли дочерних составляющих в глубинных моделях 512 и могут использоваться для описания общих свойств глубинных позиций 514. Описания глубинных позиций 520 также могут содержать грамматические и семантические ограничения в отношении заполнителей глубинных позиций 514. Свойства и ограничения, связанные с глубинными позициями 514 и их возможными заполнителями в различных языках, могут быть в значительной степени подобными и зачастую идентичными. Таким образом, глубинные позиции 514 не зависят от языка.
[00096] Система семантем 530 может представлять собой множество семантических категорий и семантем, которые представляют значения семантических категорий. В качестве иллюстративного примера семантическая категория "DegreeOfComparison" (Степень сравнения) может использоваться для описания степени сравнения прилагательных и включать следующие семантемы: "Positive" (Положительная), "ComparativeHigherDegree" (Сравнительная степень сравнения), "SuperlativeHighestDegree" (Превосходная степень сравнения) и другие. В качестве еще одного иллюстративного примера семантическая категория "RelationToReferencePoint" (Отношение к точке) может использоваться для описания порядка (пространственного или временного в широком смысле анализируемых слов), как, например, до или после точки или события, и включать семантемы "Previous" (Предыдущий) и "Subsequent" (Последующий). В качестве еще одного иллюстративного примера семантическая категория "EvaluationObjective" (Оценка) может использоваться для описания объективной оценки, как, например, "Bad" (Плохой), "Good" (Хороший) и т.д.
[00097] Система семантем 530 может включать независимые от языка семантические атрибуты, которые могут выражать не только семантические характеристики, но и стилистические, прагматические и коммуникативные характеристики. Некоторые семантемы могут использоваться для выражения атомарного значения, которое находит регулярное грамматическое и (или) лексическое выражение в естественном языке. По своему целевому назначению и использованию системы семантем могут разделяться на категории, например, грамматические семантемы 532, лексические семантемы 534 и классифицирующие грамматические (дифференцирующие) семантемы 536.
[00098] Грамматические семантемы 532 могут использоваться для описания грамматических свойств составляющих при преобразовании синтаксического дерева в семантическую структуру. Лексические семантемы 534 могут описывать конкретные свойства объектов (например, "being flat" (быть плоским) или "being liquid" (являться жидкостью)) и использоваться в описаниях глубинных позиций 520 как ограничение заполнителей глубинных позиций (например, для глаголов "face (with)" (облицовывать) и "flood" (заливать), соответственно). Классифицирующие грамматические (дифференцирующие) семантемы 536 могут выражать дифференциальные свойства объектов внутри одного семантического класса. В качестве иллюстративного примера в семантическом классе HAIRDRESSER (ПАРИКМАХЕР) семантема «RelatedToMen» (Относится к мужчинам) присваивается лексическому значению "barber" в отличие от других лексических значений, которые также относятся к этому классу, например, «hairdresser», «hairstylist» и т.д. Используя данные независимые от языка семантические свойства, которые могут быть выражены в виде элементов семантического описания, в том числе семантических классов, глубинных позиций и семантем, можно извлекать семантическую информацию в соответствии с одним или более аспектами настоящего изобретения.
[00099] Прагматические описания 540 позволяют назначать определенную тему, стиль или жанр текстам и объектам семантической иерархии 510 (например, «Экономическая политика», «Внешняя политика», «Юриспруденция», «Законодательство», «Торговля», «Финансы» и т.д.). Прагматические свойства также могут выражаться семантемами. В качестве иллюстративного примера прагматический контекст может приниматься во внимание при семантическом анализе.
[000100] На Фиг. 9 приведен пример лексических описаний. Лексические описания (203) представляют собой множество лексических значений 612 конкретного естественного языка. Для каждого лексического значения 612 имеется связь 602 с его независимым от языка семантическим родителем для того, чтобы указать положение какого-либо заданного лексического значения в семантической иерархии 510.
[000101] Лексическое значение 612 в лексико-семантической иерархии 510 может быть соотнесено с поверхностной моделью 410, которая в свою очередь через одну или несколько диатез 417 может быть соотнесена с соответствующей глубинной моделью 512. Лексическое значение 612 может наследовать семантический класс своего родителя и уточнять свою глубинную модель 512.
[000102] Поверхностная модель 410 лексического значения может включать одну или несколько синтаксических форм 412. Синтформа 412 поверхностной модели 410 может включать одну или несколько поверхностных позиций 415, в том числе соответствующие описания их линейного порядка 416, одно или несколько грамматических значений 414, выраженных в виде набора грамматических категорий (граммем), одно или несколько семантических ограничений, соотнесенных с заполнителями поверхностных позиций, и одну или несколько диатез 417. Семантические ограничения, соотнесенные с определенным заполнителем поверхностной позиции, могут быть представлены в виде одного или более семантических классов, объекты которых могут заполнить эту поверхностную позицию.
[000103] Фиг. 10 схематически иллюстрирует примеры структур данных, которые могут быть использованы в рамках одного или более методов настоящего изобретения. Снова ссылаясь на Фиг. 3, в блоке 214 вычислительное устройство, реализующее данный способ, может проводить лексико-морфологический анализ предложения 212 для построения лексико-морфологической структуры 722 согласно Фиг. 10. Лексико-морфологическая структура 722 может включать множество соответствий лексического и грамматического значений для каждой лексической единицы (например, слова) исходного предложения. Фиг. 4 схематически иллюстрирует пример лексико-морфологической структуры.
[000104] Снова возвращаясь к Фиг. 3, в блоке 215 вычислительное устройство может проводить грубый синтаксический анализ исходного предложения 212 для построения графа обобщенных составляющих 732 согласно Фиг. 13. Грубый синтаксический анализ предполагает применение одной или нескольких возможных синтаксических моделей возможных лексических значений к каждому элементу множества элементов лексико-морфологической структуры 722, с тем чтобы установить множество потенциальных синтаксических отношений в составе исходного предложения 212, представленных графом обобщенных составляющих 732.
[000105] Граф обобщенных составляющих 732 может быть представлен ациклическим графом, включающим множество узлов, соответствующих обобщенным составляющим исходного предложения 212 и включающим множество дуг, соответствующих поверхностным (синтаксическим) позициям, которые могут выражать различные типы отношений между обобщенными лексическими значениями. В рамках данного способа может применяться множество потенциально применимых синтаксических моделей для каждого элемента множества элементов лексико-морфологических структур исходного предложения 212 для формирования набора составляющих исходного предложения 212. Затем в рамках способа может рассматриваться множество возможных составляющих исходного предложения 212 для построения графа обобщенных составляющих 732 на основе набора составляющих. Граф обобщенных составляющих 732 на уровне поверхностной модели может отражать множество потенциальных связей между словами исходного предложения 212. Поскольку количество возможных синтаксических структур может быть относительно большим, граф обобщенных составляющих 732 может, в общем случае, включать избыточную информацию, в том числе относительно большое число лексических значений по определенным узлам и (или) поверхностных позиций по определенным дугам графа.
[000106] Граф обобщенных составляющих 732 может изначально строиться в виде дерева, начиная с концевых узлов (листьев) и двигаясь далее к корню, путем добавления дочерних составляющих, заполняющих поверхностные позиции 415 множества родительских составляющих, с тем чтобы были охвачены все лексические единицы исходного предложения 212.
[000107] В некоторых вариантах осуществления корень графа обобщенных составляющих 732 представляет собой предикат. В ходе описанного выше процесса дерево может стать графом, так как определенные составляющие более низкого уровня могут быть включены в одну или несколько составляющих верхнего уровня. Множество составляющих, которые представляют определенные элементы лексико-морфологической структуры, затем может быть обобщено для получения обобщенных составляющих. Составляющие могут быть обобщены на основе их лексических значений или грамматических значений 414, например, на основе частей речи и отношений между ними. Фиг. 11 схематически иллюстрирует пример графа обобщенных составляющих.
[000108] В блоке 216 вычислительное устройство может проводить точный синтаксический анализ предложения 212 для формирования одного или более синтаксических деревьев 742 согласно Фиг. 10 на основе графа обобщенных составляющих 732. Для каждого синтаксического дерева вычислительное устройство может определить интегральную оценку на основе априорных и вычисляемых оценок. Дерево с наилучшей оценкой может быть выбрано для построения наилучшей синтаксической структуры 746 исходного предложения 212.
[000109] В ходе построения синтаксической структуры 746 на основе выбранного синтаксического дерева вычислительное устройство может установить одну или несколько недревесных связей (например, путем создания дополнительной связи среди, как минимум, двух узлов графа). Если этот процесс заканчивается неудачей, вычислительное устройство может выбрать синтаксическое дерево с условно оптимальной оценкой, наиболее близкой к оптимальной, и производится попытка установить одну или несколько недревесных связей в дереве. Наконец, в результате точного синтаксического анализа создается синтаксическая структура 746, которая представляет собой лучшую синтаксическую структуру, соответствующую исходному предложению 212. Фактически в результате отбора лучшей синтаксической структуры 746 определяются лучшие лексические значения 240 для элементов исходного предложения 212.
[000110] В блоке 217 вычислительное устройство может обрабатывать синтаксические деревья для формирования семантической структуры 218, соответствующей предложению 212. Семантическая структура 218 может отражать передаваемую исходным предложением семантику в независимых от языка терминах. Семантическая структура 218 может быть представлена в виде ациклического графа (например, дерево, возможно, дополненное одной или более недревесной связью (дугой графа). Слова исходного предложения представлены узлами с соответствующими независимыми от языка семантическими классами семантической иерархии 510. Дуги графа представляют глубинные (семантические) отношения между элементами предложения. Переход к семантической структуре 218 может осуществляться с помощью правил анализа 460 и предполагает соотнесение одного или более атрибутов (отражающих лексические, синтаксические и (или) семантические свойства слов исходного предложения 212) с каждым семантическим классом.
[000111] На Фиг. 12 приводится пример синтаксической структуры предложения, сгенерированной из графа обобщенных составляющих, показанного на Фиг. 14. Узел 901 соответствует лексическому элементу "life" (жизнь) 906. Применяя способ описанного в настоящем документе синтактико-семантического анализа, вычислительное устройство может установить, что лексический элемент "life" (жизнь) 906 представляет одну из форм лексического значения, соотнесенного с семантическим классом "LIVE" (ЖИТЬ) 904 и заполняет поверхностную позицию $Adjunct_Locative 905) в родительской составляющей, представленной управляющим узлом Verb:succeed:succeed:TO_SUCCEED (907).
[000112] На Фиг. 13 приводится семантическая структура, соответствующая синтаксической структуре на Фиг. 12. В отношении вышеупомянутого лексического элемента "life" (жизнь) (906) на Фиг. 12 семантическая структура включает лексический класс 1010 и семантический класс 1030, соответствующие представленным на Фиг. 12, однако вместо поверхностной позиции (905) семантическая структура включает глубинную позицию "Sphere" (сфера_деятельности) 1020.
[000113] Как отмечено выше в настоящем документе, в качестве "онтологии" может выступать модель, которая представляет собой объекты, относящиеся к определенной области знаний (предметной области), и отношения между данными объектами. Таким образом, онтология отличается от семантической иерархии, несмотря на то что она может быть соотнесена с элементами семантической иерархии через определенные отношения (также называемые "якоря"). Онтология может включать определения некого множества классов, где каждый класс соответствует концепту предметной области. Каждое определение класса может включать определения одного или более отнесенных к данному классу объектов. Согласно общепринятой терминологии класс онтологии может также означать концепт, а принадлежащий классу объект может означать экземпляр данного концепта.
[000114] В соответствии с одним или несколькими аспектами настоящего изобретения вычислительное устройство, в котором реализованы описанные в настоящем описании способы, может индексировать один или несколько параметров, полученных в результате семантико-синтаксического анализа. Таким образом, способы настоящего изобретения позволяют рассматривать не только множество слов в составе исходного текстового корпуса, но и множество лексических значений этих слов, сохраняя и индексируя всю синтаксическую и семантическую информацию, полученную в ходе синтаксического и семантического анализа каждого предложения исходного текстового корпуса. Такая информация может дополнительно включать данные, полученные в ходе промежуточных этапов анализа, а также результаты лексического выбора, в том числе результаты, полученные в ходе разрешения неоднозначностей, вызванных омонимией и (или) совпадающими грамматическими формами, соответствующими различным лексико-морфологическим значениям некоторых слов исходного языка.
[000115] Для каждой семантической структуры можно создать один или несколько индексов. Индекс можно представить в виде структуры данных в памяти, например, в виде таблицы, состоящей из нескольких записей. Каждая запись может представлять собой установление соответствия между определенным элементом семантической структуры (например, одно слово или несколько слов, синтаксическое отношение, морфологическое, синтаксическое или семантическое свойство или синтаксическая или семантическая структура) и одним или несколькими идентификаторами (или адресами) случаев употребления данного элемента семантической структуры в исходном тексте.
[000116] В некоторых вариантах осуществления индекс может включать одно или несколько значений морфологических, синтаксических, лексических и (или) семантических параметров. Эти значения могут создаваться в процессе двухэтапного семантического анализа (более подробное описание см. в настоящем документе). Индекс можно использовать для выполнения различных задач обработки естественного языка, в том числе для выполнения семантического поиска.
[000117] Вычислительное устройство, реализующее данный способ, может извлекать широкий спектр лексических, грамматических, синтаксических, прагматических и (или) семантических характеристик в ходе проведения синтактико-семантического анализа и создания семантических структур. В иллюстративном примере система может извлекать и сохранять определенную лексическую информацию, данные о принадлежности определенных лексических единиц семантическим классам, информацию о грамматических формах и линейном порядке, информацию об использовании определенных форм, аспектов, тональности (например, положительной или отрицательной), глубинных позиций, недревесных связей, семантем и т.д.
[000118] Вычислительное устройство, в котором реализованы описанные здесь способы, может производить анализ, используя один или несколько описанных в этом документе способов анализа текста, и индексировать любой один или несколько параметров описаний языка, включая лексические значения, семантические классы, граммемы, семантемы и т.д. Индексацию семантического класса можно использовать в различных задачах обработки естественного языка, включая семантический поиск, классификацию, кластеризацию, фильтрацию текста и т.д.. Индексация лексических значений (вместо индексации слов) позволяет искать не только слова и формы слов, но и лексические значения, т.е. слова, имеющие определенные лексические значения. Вычислительное устройство, реализующее способы настоящего изобретения, также может хранить и индексировать синтаксические и семантические структуры, созданные одним или несколькими описанными в настоящем документе способами анализа текста, для использования данных структур и (или) индексов при проведении семантического поиска, классификации, кластеризации и фильтрации документов.
[000119] На Фиг. 14 схематически показан иллюстративный пример вычислительного устройства (1000), которое может исполнять набор команд, которые вызывают выполнение вычислительным устройством любого отдельно взятого или нескольких способов настоящего изобретения. Вычислительное устройство может подключаться к другому вычислительному устройству по локальной сети, корпоративной сети, сети экстранет или сети Интернет. Вычислительное устройство может работать в качестве сервера или клиентского вычислительного устройства в сетевой среде "клиент/сервер" либо в качестве однорангового вычислительного устройства в одноранговой (или распределенной) сетевой среде. Вычислительное устройство может быть представлено персональным компьютером (ПК), планшетным ПК, телевизионной приставкой (STB), карманным ПК (PDA), сотовым телефоном или любым вычислительным устройством, способным выполнять набор команд (последовательно или иным образом), определяющих операции, которые должны быть выполнены этим вычислительным устройством. Кроме того, в то время как показано только одно вычислительное устройство, следует принять, что термин «вычислительное устройство» также может включать любую совокупность вычислительных устройств, которые отдельно или совместно выполняют набор (или несколько наборов) команд для выполнения одной или нескольких методик, описанных в настоящем документе.
[000120] Пример вычислительного устройства (1000) включает процессор (502), основную память (504) (например, постоянное запоминающее устройство (ПЗУ) или динамическую оперативную память (DRAM)) и устройство хранения данных (518), которые взаимодействуют друг с другом по шине (530).
[000121] Процессор (502) может быть представлен одним или более универсальными вычислительными устройствами, например, микропроцессором, центральным процессором и т.д. В частности, процессор (502) может представлять собой микропроцессор с полным набором команд (CISC), микропроцессор с сокращенным набором команд (RISC), микропроцессор с командными словами сверхбольшой длины (VLIW), процессор, реализующий другой набор команд, или процессоры, реализующие комбинацию наборов команд. Процессор (502) также может представлять собой одно или несколько вычислительных устройств специального назначения, например, заказную интегральную микросхему (ASIC), программируемую пользователем вентильную матрицу (FPGA), процессор цифровых сигналов (DSP), сетевой процессор и т.п. Процессор (502) настроен на выполнение команд (526) для осуществления рассмотренных в настоящем документе операций и функций.
[000122] Вычислительное устройство (1000) может дополнительно включать устройство сетевого интерфейса (522), устройство визуального отображения (510), устройство ввода символов (512) (например, клавиатуру), и устройство ввода - сенсорный экран (514).
[000123] Устройство хранения данных (518) может содержать машиночитаемый носитель данных (524), в котором хранится один или более наборов команд (526), и в котором реализован один или более из методов или функций настоящего изобретения. Команды (526) также могут находиться полностью или по меньшей мере частично в основной памяти (504) и/или в процессоре (502) во время выполнения их в вычислительном устройстве (1000), при этом оперативная память (504) и процессор (502) также составляют машиночитаемый носитель данных. Команды (526) дополнительно могут передаваться или приниматься по сети (516) через устройство сетевого интерфейса (522).
[000124] В некоторых вариантах осуществления команды (526) могут включать в себя команды способа (100) классификации текстов на естественном языке на основе семантических признаков и/или способа вычисления параметров модели классификации. В то время как машиночитаемый носитель данных (524), показанный на примере на Фиг. 14, является единым носителем, термин «машиночитаемый носитель» должен включать один носитель или несколько носителей (например, централизованную или распределенную базу данных, и/или соответствующие кэши и серверы), в которых хранится один или более наборов команд. Термин "машиночитаемый носитель данных" также следует рассматривать как термин, включающий любой носитель, который способен хранить, кодировать или переносить набор команд для выполнения машиной, который заставляет эту машину выполнять любую одну или несколько из методик, описанных в настоящем раскрытии изобретения. Таким образом, термин «машиночитаемый носитель данных», помимо прочего, также относится к твердотельной памяти и оптическим и магнитным носителям.
[000125] Описанные в документе способы, компоненты и функции могут быть реализованы дискретными аппаратными компонентами, либо они могут быть интегрированы в функции других аппаратных компонентов, таких как ASICS, FPGA, DSP или подобных устройств. Кроме того, способы, компоненты и функции могут быть реализованы с помощью модулей встроенного программного обеспечения или функциональных схем аппаратных устройств. Способы, компоненты и функции также могут быть реализованы с помощью любой комбинации вычислительных средств и программных компонентов, либо исключительно с помощью программного обеспечения.
[000126] В приведенном выше описании изложены многочисленные детали. Однако специалисту в этой области техники благодаря этому описанию очевидно, что настоящее изобретение может быть реализовано на практике без этих конкретных деталей. В некоторых случаях хорошо известные структуры и устройства показаны в виде блок-схемы, а не детально, чтобы не усложнять описание настоящего изобретения.
[000127] Некоторые части описания предпочтительных вариантов реализации представлены в виде алгоритмов и символического представления операций с битами данных в памяти компьютера. Такие описания и представления алгоритмов представляют собой средства, используемые специалистами в области обработки данных, чтобы наиболее эффективно передавать сущность своей работы другим специалистам в данной области. В настоящем документе и в целом алгоритмом называется самосогласованная последовательность операций, приводящих к требуемому результату. Операции требуют физических манипуляций с физическими величинами. Обычно, хотя и не обязательно, эти величины принимают форму электрических или магнитных сигналов, которые можно хранить, передавать, комбинировать, сравнивать и подвергать другим манипуляциям. Оказалось, что прежде всего для обычного использования удобно описывать эти сигналы в виде битов, значений, элементов, символов, членов, цифр и т.д.
[000128] Однако следует иметь в виду, что все эти и подобные термины должны быть связаны с соответствующими физическими величинами, и что они представляют собой просто удобные метки, применяемые к этим величинам. Если иное специально и недвусмысленно не указано в нижеследующем обсуждении, следует принимать, что везде по тексту такие термины как "определение", "вычисление", "расчет", "вычисление", "получение", "установление", "изменение" и т.п., относятся к действиям и процессам вычислительного устройства или аналогичного электронного вычислительного устройства, которое работает с данными и преобразует данные, представленные в виде физических (например, электронных) величин в регистрах и памяти вычислительного устройства, в другие данные, аналогичным образом представленные в виде физических величин в памяти или регистрах вычислительного устройства, либо других подобных устройствах хранения, передачи или отображения информации.
[000129] Настоящее изобретение также относится к устройству для выполнения операций, описанных в настоящем документе. Такое устройство может быть специально сконструировано для требуемых целей, или оно может содержать универсальный компьютер, который избирательно активируется или дополнительно настраивается с помощью компьютерной программы, хранящейся в памяти компьютера. Такая компьютерная программа может храниться на машиночитаемом носителе данных, например, в частности, на диске любого типа, включая дискеты, оптические диски, CD-ROM и магнитно-оптические диски, постоянные запоминающие устройства (ПЗУ), оперативные запоминающие устройства (ОЗУ), СППЗУ, ЭППЗУ, магнитные или оптические карты и носитель любого типа, подходящий для хранения электронной информации.
[000130] Следует понимать, что вышеприведенное описание носит иллюстративный, а не ограничительный характер. Различные другие варианты реализации станут очевидными специалистам в данной области техники после прочтения и понимания приведенного выше описания. Область применения изобретения поэтому должна определяться с учетом прилагаемой формулы изобретения, а также всех областей применения эквивалентных способов, которые покрывает формула изобретения.
Изобретение относится к обработке естественного языка. Технический результат направлен на автоматизацию процесса получения высокоточных размеченных текстов практически любого объема и содержания в соответствии с выбранным способом разметки и их использования в соответствии с выбранным способом разметки и их использования для машинного обучения в задачах обработки естественного языка. Способ создания обучающих выборок включает: выполнение вычислительной системой лексико-морфологического анализа текста на естественном языке, выполнение синтактико-семантического анализа текста на естественном языке для получения множества семантических структур, выбор из лексических, грамматических, синтаксических и семантических атрибутов семантических структур набора выходных атрибутов; и создание выходного текста и индекса, включающего символические идентификаторы одного или более значения атрибутов из выходного набора атрибутов, где каждый атрибут связан с соответствующей частью текста на естественном языке, и указанное одно или более значение атрибутов сопровождается значением вероятности. 3 н. и 17 з.п. ф-лы, 14 ил.
1. Способ создания обучающих выборок, содержащий:
выполнение вычислительной системой лексико-морфологического анализа текста на естественном языке, содержащего множество токенов, для определения на основе лексико-морфологического анализа одного или более лексических значений и грамматических значений, связанных с каждым токеном в множестве токенов, где каждый токен содержит, по меньшей мере, одно слово естественного языка;
выполнение синтактико-семантического анализа текста на естественном языке для получения множества семантических структур, включающего одну или более семантических структур для одного или более предложений исходного текста на естественном языке; определение на основе семантических структур множества синтаксических и семантических атрибутов семантических структур, ассоциированных с текстом на естественном языке;
выбор из лексических, грамматических, синтаксических и семантических атрибутов семантических структур набора выходных атрибутов; и
создание выходного текста и индекса, включающего символические идентификаторы одного или более значения атрибутов из выходного набора атрибутов, где каждый атрибут связан с соответствующей частью текста на естественном языке, и указанное одно или более значение атрибутов сопровождается значением вероятности.
2. Способ по п. 1, дополнительно включающий:
определение для одного или более токенов текста на естественном языке степени ассоциации токена с категорией информационных объектов.
3. Способ по п. 2, отличающийся тем, что определение степени ассоциации дополнительно включает:
интерпретацию синтактико-семантических структур с использованием набора продукционных правил.
4. Способ по п. 2, отличающийся тем, что определение степени ассоциации дополнительно включает:
применение функции классификатора к одному или более лексическим, грамматическим, синтаксическим или семантическим атрибутам.
5. Способ по п. 2, дополнительно включающий:
выявление одной или более связей между обнаруженными информационными объектами для извлечения одного или более фактов, представленных, как минимум, фрагментом текста на естественном языке.
6. Способ по п. 5, отличающийся тем, что определение связей дополнительно включает:
интерпретацию синтактико-семантических структур с использованием набора продукционных правил.
7. Способ по п. 5, отличающийся тем, что определение связей дополнительно включает:
применение функции классификатора к одному или более значениям лексических, грамматических, синтаксических или семантических атрибутов.
8. Способ по п. 1, отличающийся тем, что выходной набор атрибутов включает первое альтернативное значение для первого атрибута и второе альтернативное значение для первого атрибута.
9. Способ по п. 8, отличающийся тем, что выходной набор атрибутов содержит степень ассоциации первого альтернативного значения с первым атрибутом.
10. Способ по п. 1, отличающийся тем, что выходной текст представлен в виде текста на расширяемом языке разметки (XML).
11. Способ по п. 1, отличающийся тем, что каждая синтактико-семантическая структура из множества синтактико-семантических структур представлена графом, включающим множество вершин, соответствующих множеству семантических классов, и множество дуг, соответствующих множеству семантических отношений.
12. Система для создания обучающих выборок, содержащая:
память;
процессор, соединенный с данной памятью, причем процессор выполнен с возможностью:
выполнять лексико-морфологический анализ текста на естественном языке, содержащего множество токенов, для определения одного или более лексических и грамматических атрибутов, связанных с каждым токеном в множестве токенов, где каждый токен содержит, по меньшей мере, одно слово естественного языка;
выполнять синтактико-семантический анализ текста на естественном языке для получения множества семантических структур, включающий одну или более семантических структур для одного или более предложений исходного текста на естественном языке;
определять на основе семантических структур множества синтаксических и семантических атрибутов семантических структур, ассоциированных с текстом на естественном языке;
выбирать из лексических, грамматических, синтаксических и семантических атрибутов семантических структур набор выходных атрибутов; и
создавать выходной текст и индекс, включающий символические идентификаторы одного или более значения атрибутов из выходного набора атрибутов, где каждый атрибут связан с соответствующей частью текста на естественном языке, и указанное одно или более значение атрибутов сопровождается значением вероятности.
13. Система по п. 12, отличающаяся тем, что процессор дополнительно выполнен с возможностью:
определения для одного или более токенов текста на естественном языке степени ассоциации токена с категорией информационных объектов.
14. Система по п. 12, отличающаяся тем, что определение степени ассоциации дополнительно включает:
интерпретацию синтактико-семантических структур с использованием набора продукционных правил.
15. Система по п. 12, отличающаяся тем, что выходной набор атрибутов включает первое альтернативное значение для первого атрибута и второе альтернативное значение для первого атрибута.
16. Система по п. 12, отличающаяся тем, что выходной текст представлен в виде текста на расширяемом языке разметки (XML).
17. Система по п. 12, отличающаяся тем, что каждая синтактико-семантическая структура из множества синтактико-семантических структур представлена графом, включающим множество вершин, соответствующее множеству семантических классов, и множество дуг, соответствующее множеству семантических отношений.
18. Постоянный машиночитаемый носитель данных, содержащий исполняемые команды создания обучающих выборок, которые при выполнении побуждают вычислительную систему:
выполнять лексико-морфологический анализ текста на естественном языке, содержащего множество токенов, для определения одного или более лексических и грамматических атрибутов, связанных с каждым токеном в множестве токенов, где каждый токен содержит, по меньшей мере, одно слово естественного языка;
выполнять синтактико-семантический анализ текста на естественном языке для получения множества семантических структур, включающего одну или более семантических структур для одного или более предложений исходного текста на естественном языке;
определять на основе семантических структур множества синтаксических и семантических атрибутов семантических структур, ассоциированных с текстом на естественном языке;
выбирать из лексических, грамматических, синтаксических и семантических атрибутов семантических структур набор выходных атрибутов; и
создавать выходной текст и индекс, включающий символические идентификаторы одного или более значения атрибутов из выходного набора атрибутов, где каждый атрибут связан с соответствующей частью текста на естественном языке, и указанное одно или более значение атрибутов сопровождается значением вероятности.
19. Машиночитаемый постоянный носитель данных по п. 18, отличающийся тем, что выходной набор атрибутов включает первое альтернативное значение для первого атрибута и второе альтернативное значение для первого атрибута.
20. Машиночитаемый постоянный носитель данных по п. 18, отличающийся тем, что каждая синтактико-семантическая структура из множества синтактико-семантических структур представлена графом, включающим множество вершин, соответствующих множеству семантических классов, и множество дуг, соответствующих множеству семантических отношений.
Приспособление для суммирования отрезков прямых линий | 1923 |
|
SU2010A1 |
Способ защиты переносных электрических установок от опасностей, связанных с заземлением одной из фаз | 1924 |
|
SU2014A1 |
EP 0984366 A2, 08.03.2000 | |||
ЛИНГВИСТИЧЕСКИ ИНФОРМИРОВАННЫЕ СТАТИСТИЧЕСКИЕ МОДЕЛИ СТРУКТУРЫ СОСТАВЛЯЮЩИХ ДЛЯ УПОРЯДОЧЕНИЯ В РЕАЛИЗАЦИИ ПРЕДЛОЖЕНИЙ ДЛЯ СИСТЕМЫ ГЕНЕРИРОВАНИЯ ЕСТЕСТВЕННОГО ЯЗЫКА | 2004 |
|
RU2336552C2 |
Авторы
Даты
2017-11-20—Публикация
2016-10-26—Подача