СПОСОБ АВТОМАТИЗИРОВАННОГО ИЗВЛЕЧЕНИЯ СМЫСЛОВЫХ КОМПОНЕНТ ИЗ СЛОЖНОСОЧИНЁННЫХ ПРЕДЛОЖЕНИЙ ЕСТЕСТВЕННО-ЯЗЫЧНЫХ ТЕКСТОВ В СИСТЕМАХ МАШИННОГО ПЕРЕВОДА И УСТРОЙСТВО ДЛЯ ЕГО РЕАЛИЗАЦИИ Российский патент 2022 года по МПК G06F40/279 G06F40/205 

Описание патента на изобретение RU2766060C1

Изобретение относится к области технологий компьютерной лингвистики по обработке естественно-язычных текстов, а именно - к автоматизированному извлечению смысловых компонентов из текстов любого уровня сложности в системах межъязыкового машинного перевода [G06F16/00, G06F17/00, G06F17/21, G06F17/27, G06F17/30, G06F40/00].

Из уровня техники известен СПОСОБ ИЗВЛЕЧЕНИЯ ФАКТОВ ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ [RU2637992 (C1), опубл. 08.12.2017 г.], отличающийся тем, что при извлечении фактов из текстов на естественном языке получают идентификатор первого токена, содержащегося в тексте и включающего слово естественного языка, ссылающееся на первый информационный объект, представленный первой именованной сущностью. Далее получают идентификаторы первого множества слов, представляющего первый факт определенной категории фактов, связанный с первым информационным объектом некоторой категории информационных объектов. После чего определяют в тексте второе множество слов, включающее второй токен, ссылающийся на второй информационный объект, ассоциирующийся с указанной категорией информационных объектов. В ответ на получение подтверждения того, что второе множество слов представляет второй факт, связанный со вторым информационным объектом той же категории информационных объектов, извлекают второй факт и сохраняют его в форме RDF-графа. А в конце изменяют параметр функции классификатора, которая дает значение, отражающее степень ассоциации данной семантической структуры с фактом из определенной категории фактов.

Недостатками аналога являются:

- данное техническое решение не позволяет эффективно осуществлять машинный перевод для текстов на флективных языках;

- при извлечении текста система не реагирует на члены предложений, образующих смысловые конструкции, которые разделены различного рода описательно-уточняющими оборотами.

Также из уровня техники известен СПОСОБ ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ СМЫСЛОВЫХ БЛОКОВ ДОКУМЕНТОВ С ИСПОЛЬЗОВАНИЕМ МИКРОМОДЕЛЕЙ НА БАЗЕ ОНТОЛОГИИ [RU 2662688 (C1), опубл. 26.07.2018], отличающийся тем, что извлечение информации из документов, содержащих текст на естественном языке, производится на основе идентификации в тексте смысловых блоков, относящихся к заданной категории. Далее выполняется лексический анализ множества слов смыслового блока с целью построения множества лексических структур, содержащих информацию о лексических значениях слов и соответствующих семантических классах, представляющих смысловой блок. Затем идентифицируется микромодель для извлечения информации, относящейся к заданной категории, причем микромодель включает множество продукционных правил, связанных с онтологией. Впоследствии применяются продукционные правила микромодели с целью извлечения информационных объектов, связанных с соответствующим семантическим классом, соответствующим концепту онтологии.

Недостатками данного аналога являются:

- данный способ не позволяет оптимально качественно производить машинный перевод текстов на флективных языках;

- при проведении семантико-синтаксического анализа текста на флективных языках технические решения данного способа способны выявлять смысловые компоненты только в рамках одного простого предложения или в одном из фрагментов сложносочиненного предложения.

Наиболее близкой по технической сущности является АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ ИМЕНОВАННЫХ СУЩНОСТЕЙ ИЗ ТЕКСТА [RU2665239 (C2), опубл. 28.08.2018 г.], отличающийся тем, что извлечение именованных сущностей из неразмеченного текстового корпуса производится путём выделения обучающего набора текстов на естественном языке, после чего процессором соответствующего набора признаков извлекают именованные сущности для каждой категории. Далее производится обучение процессором модели классификации с использованием обучающего набора текстов и наборов признаков для каждой категории именованных сущностей. После чего процессором извлекаются токены из неразмеченного текста и формируются наборы атрибутов для каждого токена неразмеченного текста на основании по меньшей мере глубокого семантико-синтаксического анализа. Далее определяются возможные синтаксические связи по меньшей мере в одном предложении неразмеченного текста, включающее получение множества синтаксических атрибутов, и производится формирование независимой от языка семантической структуры, включающее определение семантических связей и соответствующих семантических атрибутов каждого токена. Затем процессором классифицируется каждый токен по меньшей мере в одну из категорий на основании модели классификатора и набора атрибутов токена и формируется размеченное представление по меньшей мере части текста на основании по меньшей мере одного из токенов, классифицированных по категориям.

Основной технической проблемой прототипа является то, что в данном решении автоматизированная обработка естественно-язычных текстов, в части извлечения смысловых компонентов из сложно-сочинённых предложений с многочисленным составом словоформ для флективных языков, осуществляется с неудовлетворительном качеством, что впоследствии негативно сказывается на эффективности грамматически-правильного машинного перевода всего текста в целом.

Задачей изобретения является устранение недостатков прототипа.

Техническим результатом изобретения является повышение качества автоматизированного извлечения смысловых компонентов из текстов любого уровня сложности в системах межъязыкового машинного перевода.

Указанный технический результат достигается за счет того, что устройство автоматизированного извлечения смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода, содержащее последовательно соединённые лингвистические модули сентенсизации, фрагментизации, графематизации, морфологизации, паттернизации, семантизации и экстракции, отличающееся тем, что выход лингвистического модуля паттернизации последовательно подключён к первому входу модуля индексации и модулю фильтрации, образующие лингвистический модуль постпаттернизации, при этом один выход модуля фильтрации соединён с вторым входом лингвистического модуля индексации, а второй выход модуля фильтрации соединён с модулем семантизации.

Указанный технический результат достигается за счет того, что способ автоматизированного извлечения смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода, характеризующийся тем, что на этапах сентенсизации, фрагментизации, графематизации и морфологизации производят процедуры исследования текста на основе морфологического, синтаксического и семантического анализов его составных частей - целых предложений, их фрагментов и графем с символами, на этапе паттернизации производят извлечение из текста семантико-синтаксически связных словосочетаний (паттернов), отличающийся тем, что на этапе индексации осуществляют атрибутирование и идексирование фрагментов текста, на этапе фильтрации осуществляют перфомансирование и фильтрацию после перфомансирования, на этапе семантизации производят семантический анализ фрагментов текста и на этапе экстракции осуществляют извлечение искомых лингвистических объектов.

В частности, модуль индексации состоит из модуля атрибутирования и модуля индексирования.

В частности, модуль фильтрации состоит из модуля перфомансирования и модуля фильтрования после перфомансирования.

В частности, извлечение из текста семантико-синтаксически связных словосочетаний (паттернов) производят на основе доминирования синтаксического родителя в связке с рецессивной словоформой.

В частности, в результате семантического анализа при семантизации производят построение семантико-синтаксического графа текста.

В частности, при атрибутировании производят установление морфологических атрибутов для фрагментов текста.

В частности, при индексировании присваивают атрибутированным фрагментам специальные уникальные индексы.

В частности, на основе индексации фрагментов текста выявляют фрагменты, не имеющие в своём составе главные лингвистические объекты в виде смысловых компонентов.

В частности, при перфомансировании осуществляется подготовка проиндексированных фрагментов для фильтрации.

В частности, при фильтрации после перфомансирования производиться удаление в буфер фрагментов предложения, не содержащих в своем составе главные лингвистические объекты в виде смысловых компонентов.

В частности, процедуры индексации и фильтрации многократно повторяются до момента исключения из текста исследуемого сложносочинённого предложения всех фрагментов, не содержащих в своем составе главных лингвистических объектов.

В частности, индексирование фрагментов текста осуществляют по классификации на основе закономерности для сложносочинённых предложений русского языка, заключающейся в том, что типология фрагментов предложений русского языка содержит ограниченное количество различных вариантов, равное восемьдесяти одному.

Краткое описание чертежей

На фиг. 1 показана блок-схема устройства автоматизированного извлечения смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода.

На рисунке обозначено: 1 - модуль подачи текста на естественном языке, 2 - лингвистический процессор, 3 - лингвистический модуль сентенсизации, 4 - лингвистический модуль фрагментизации, 5 - лингвистический модуль графематизации, 6 - лингвистический модуль морфологизации, 7 - лингвистический модуль паттернизации, 8 - лингвистический модуль постпаттернизации, 9 - лингвистический модуль семантизации, 10 - лингвистический модуль экстракции, 11 - модуль индексации, 12 - модуль фильтрации, 13 - модуль атрибутирования, 14 - модуль индексирования, 15 - модуль перфомансирования, 16 - модуль фильтрования после перфомансирования.

Осуществление изобретения

Устройство автоматизированного извлечения смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода состоит из модуля подачи текста на естественном языке 1, выход которого соединён с лингвистическим процессором 2 непосредственно через вход лингвистического модуля сентенсизации 3, к которому последовательно присоединены лингвистический модуль фрагментизации 4, лингвистический модуль графематизации 5, лингвистический модуль морфологизации 6, лингвистический модуль паттернизации 7, лингвистический модуль постпаттернизации 8, лингвистический модуль семантизации 9 и лингвистический модуль экстракции 10. При этом лингвистический модуль постпаттернизации 8 состоит из последовательно соединённых модуля индексации 11 и модуля фильтрации 12. Кроме того, модуль индексации 11 состоит из модуля атрибутирования 13 и модуля индексирования 14, а модуль фильтрации 12 состоит из модуля перфомансирования 15 и модуля фильтрования после перфомансирования 16. При этом лингвистический модуль паттернизации 7 последовательно соединён с модулем атрибутирования 13, модулем индексирования 14, модулем перфомансирования 15, модулем фильтрования после перфомансирования 16, один выход которого соединён с модулем атрибутирования 13, а другой непосредственно с входом лингвистического модуля семантизации 9.

Автоматизированное извлечение смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода осуществляется следующим образом.

В общем случае, извлечение смысловых компонентов в естественно-язычных текстах производят с использованием лингвистических процессоров, которые используют в разнообразных компьютерных приложениях для смысловой обработки естественно-язычных текстов, включая машинный перевод, целевой информационный поиск по заданным смыслам, реферирование и аннотирование текстов, категоризацию и классификацию документов и др.

Смысловыми компонентами в заявляемом изобретении являются субъектно-предикатные конструкции словоформ, несущие в себе смысловую нагрузку, к таковым относятся: смысловые ядра, смысловые блоки и смысловые кластеры.

Под смысловыми ядрами понимается связка слов в виде субъектно-предикатных конструкций, определяющих смыслы в виде переходных процессов, происходящих с субъектами, как в целом предложении, так и в его фрагментах. Примерами смысловых ядер в русскоязычных текстах могут быть следующие словосочетания: «Петя пошёл»; «Дерево было спилено»; «Он должен быть»; «Татьяна хотела научиться стрелять» и др.

Под смысловыми блоками понимаются несколько смысловых ядер, объединённых союзами или разделённые знаками пунктуации. Например: «Кот ел, ел и объелся»; «Дерево было спилено и сожжено».

Смысловые ядра и смысловые блоки подразделяются на главные и второстепенные лингвистические объекты, различие между которыми заключается в том, что второстепенные лингвистические объекты, например, в предложениях русского языка всегда входят в состав какого-либо оборота, описывающего главные лингвистические объекты, а сам главный лингвистический компонент, соответственно, никогда в такой роли не выступает. Например, в предложении «Велосипедист, который всё время шёл вторым в пелетоне, пришёл к финишу первым» главным лингвистическим объектом является «Велосипедист пришёл», а второстепенным - «который шёл».

Под смысловым кластером понимаются главные или второстепенные лингвистические объекты, дополненные сабжем - пакетом описаний субъект-объектных предикатных отношений. Например: «…человеческое сознание точно также имеет свой вход и тоже обладает выходом…».

Под системой машинного перевода понимается автоматизированная трансформация на программном уровне оригинального текста, составленного на одном исходном языке, в другой иноязычный текст, например, перевод с русского на английский. В известных системах машинного перевода используются четыре основных технологии – это подстрочный, статистический, семантический и смысловой анализ, которые можно охарактеризовать, соответственно, как: «неудовлетворительный», «удовлетворительный», «хороший» и «отличный».

Для систем машинного перевода, особенно для случаев автоматизированного преобразования текста на аналитические языки (английский, голландский и др.), характеризующиеся чётким грамматическим строем, требуется выявление в оригинальном тексте, представленного на языке иной грамматико-строевой типологии, например, на флективном русском языке, смысловых компонент текста, к которым относятся: смысловые ядра, блоки и кластеры, то есть, несущие смысловую нагрузку словесные конструкции предложений ‒ главные и второстепенные лингвистические объекты.

Одной из основных задач систем машинного перевода является нахождение главных лингвистических объектов в любом месте предложения на оригинальном тексте, и вынесение их в начало переведенного варианта предложения. Например, если в русском тексте допустимо выражение: «В школу шёл Петя.», то в его английском выражении обязательно должно быть: «Petya was going to school.»

Смысловые ядра главных и второстепенных лингвистических объектов не всегда образуются линейкой рядом расположенных слов в рамках одного фрагмента или простого предложения. В сложносочинённых предложениях элементы субъектно-предикатных конструкций могут быть разнесены по разным фрагментам, и тогда это становится проблемой для всех известных систем машинного перевода, поскольку они сталкиваются с затруднениями в выявлении главных лингвистических объектов.

Например, в предложении: «А ведь, и человеческое сознание, подобно той курице, которая на входе клюет зерна и щиплет зелень, а на выходе производит яйцо, точно также имеет свой вход, где поступающая информация осмысляется, и тоже обладает выходом, из которого подаётся уже готовый смысловой продукт.» ‒ имеются следующие смысловые компоненты: [сознание имеет… и обладает] (главный лингвистический объект); [которая клюёт…, щиплет…, а производит], [информация осмысляется], [продукт подаётся] (второстепенные лингвистические объекты).

Нахождение лингвистических объектов в естественно-язычных текстах возлагают на системы автоматизированной обработки текстов, под которыми в настоящем документе понимаются технологии лингвистического анализа естественно-язычного текста на машинно-программном уровне. Известные системы автоматизированной обработки текстов включают в себя, как правило, морфологические, синтаксические и семантические языковые исследования анализируемых текстов. В общем виде автоматизированная обработка данных строится на основе четырёх процедурных принципов: дифференциации, дивергенции, конвергенции и интеграции. Сначала текст дифференцируется, разбиваясь на элементы - слова и знаки, затем дивергенируется, разводя элементы по морфологическим признакам в разные группы, далее эти элементы подвергаются конвергенции, сводя их друг с другом по синтаксическим критериям, и, наконец, они интегрируются в конечный семантико-синтаксический граф.

Выполнение процедур автоматизированной обработки текстов возлагаются на лингвистические модули - это программные блоки, исполняющие одну или несколько родственных алгоритмических процедур в ходе выполнения одного шага обработки естественно-язычного текста с целью получения какого-либо одного искомого промежуточного результата, например, в ходе морфологического или синтаксического анализа входного текста.

Из набора лингвистических модулей при выполнении конкретной задачи автоматизированной обработки текстов составляется лингвистический процессор, который может быть многошаговым и целью которого является уже получение каких-либо искомых конечных результатов, например, извлечение именованных сущностей из заданного на входе естественно-язычного текста, выявление главных или второстепенных лингвистических объектов, построение семантико-синтаксического графа предложения или текста или осуществление межъязыкового перевода.

Как правило, для типовых лингвистических процессоров анализ и перевод предложений текста на русском языке (обладающих повышенной категорией сложности, то есть включают в себя несколько единиц придаточных, причастных, деепричастных, указательных и прочих оборотов речи, отделённых знаками препинания и имеющих строгий упорядоченный грамматический строй) на другие языки становится непреодолимой проблемой.

В заявляемом изобретении для решения указанных выше проблем по автоматизированной обработке текстов на вход лингвистического процессора 2, а именно на лингвистический модуль сентенсизации 3, подают машинно-читаемый текст с модуля подачи текста на естественном языке 1, производящий первичную обработку текста с целью разделения его на отдельные абзацы и предложения для дальнейшего исследования. Дифференциация текста в модуле сентенсизации 3 на первом этапе осуществляют по пунктуационным критериям, в частности, по знаку «<.>точка» или символам «!»; «?». Например, текст: - <Петя, который утром пошёл в школу, к обеду не вернулся. Вечером он также ещё не появлялся дома> - получает разбивку на два следующих предложения: <Петя, который утром пошёл в школу, к обеду не вернулся> и <Вечером он также ещё не появлялся дома>.

Полученные по результатам первого этапа предложения поступают из лингвистического модуля сентенсизации 3 на вход лингвистического модуля фрагментизации 4, где происходит дальнейшее деление предложений на фрагменты, но уже по другим пунктуационным критериям, в частности, по знакам «<,> - запятая» или «<;> - точка с запятой». Например, вышеприведенные предложения будут разбиты на следующие фрагменты: - <Петя>, <который утром пошёл в школу>, <к обеду не вернулся>. <Вечером он также ещё не появлялся дома>.

Далее, выделенные на втором этапе фрагменты в лингвистическом модуле фрагментизации 4 поступают на вход лингвистического модуля графематизации 5, где процесс дифференцирования входной информации продолжают до выделения из неё отдельных графем (словоформ) и знаков (символов), которые являются элементарными единицами текста.

Затем, эти выходные данные из лингвистического модуля графематизации 5 поступают на четвёртом этапе в лингвистический модуль морфологизации 6, в котором всем текстовым элементам - и графемам, и знакам - присваивают «пометы», как морфологические признаки или характеристики, дивергенируя (разводя) выявленные элементы текста по разным морфологическим группам.

Потом эти графемы и знаки вместе с полученными на четвертом этапе морфемными пометами направляют в синтаксический синтезатор - лингвистический модуль паттернизации 7, где конвергенируют, то есть, связывают друг с другом по синтаксическим правилам, образуя устойчивые синтаксические словосочетания - паттерны, которым присваивают индивидуальные маркёры.

Полученные на пятом этапе промаркированные паттерны на следующих этапах проходят перепаттернизацию в лингвистическом модуле постпаттернизации 8, а именно на шестом этапе осуществляют индексацию с помощью дополнительно введённого модуля индексации 11, в котором производится установление морфологических атрибутов для фрагментов текста с помощью модуля атрибутирования 13 и присвоение атрибутированным фрагментов специальных уникальных индексов в модуле постиндексирования 14. Данную индексную аннотацию фрагментов текста осуществляют по классификации на основе закономерности для сложносочинённых предложений русского языка, заключающейся в том, что типология фрагментов предложений русского языка содержит ограниченное количество различных вариантов числом - восемьдесят один.

Благодаря данным процедурам атрибутирования и постиндексирования фрагментов текста с высоким качеством выявляют фрагменты, не имеющие в своём составе главные лингвистические объекты в виде смысловых компонентов.

Далее на седьмом этапе осуществляют фильтрацию с помощью дополнительно введённого модуля фильтрации 12, который осуществляет выявление и удаление в буфер фрагментов, не содержащих в себе главные лингвистические объекты, а именно в модуле перфомансирования 15, в котором осуществляется подготовка проиндексированных фрагментов для фильтрации в буфер, а в модуле фильтрования после перфомансирования 16 - удаление в буфер фрагментов после операции перфомансирования.

Далее подобный двухпроцедурный цикл будет повторяться, пройдя некоторое количество итераций до момента, пока в исследуемом списке не останется только один смысловой компонент, являющийся главным лингвистическим объектом.

Полученные на этапах перепаттернизации промаркированные паттерны проходят на следующем этапе семантический анализ в лингвистическом модуле семантизации 9, в результате чего получают для словоформ и паттернов присущие им лексические значения - семантисы.

В конце, на девятом этапе в лингвистическом модуле экстракции 10 происходит в зависимости от поставленной исходной задачи извлечение искомых лингвистических объектов, будь то, например, именованные сущности или главные лингвистические объекты.

Таким образом, использование исследуемого технического решения позволяет повысить качество автоматизированного извлечения смысловых компонент из текстов любого уровня сложности в системах межъязыкового машинного перевода.

Технический результат изобретения повышение качества автоматизированного извлечения смысловых компонент из текстов любого уровня сложности в системах межъязыкового машинного перевода достигается за счет того, что:

- модуль атрибутирования 13 позволяет установить морфологические атрибуты для фрагментов текста;

- модуль постиндексирования 14 осуществляет присвоение атрибутированным фрагментам специальных уникальных индексов, сформированных на основе выявленных закономерностей для сложносочинённых предложений русского языка;

- модуль перфомансирования 15 осуществляет подготовку проиндексированных фрагментов для фильтрации в буфер;

- модуль фильтрования после перфомансирования 16 осуществляет удаление в буфер фрагментов после операции перфомансирования;

- процедуры, производящиеся в модуле атрибутирования 13, модуле постиндексирования 14, модуле перфомансирования 15 и модуле фильтрования после перфомансирования 16, повторяются до момента, пока в исследуемом списке не останется только один смысловой компонент, являющийся главным лингвистическим объектом;

- в своей совокупности заявленное техническое решение позволяет с высоким качеством выявлять фрагменты, не имеющие в своём составе главные лингвистические объекты в виде смысловых компонентов, что впоследствии позволяет повысить качество перевода текстов на флективных языках, в том числе состоящих из предложений с повышенной категорией сложности, то есть включают в себя несколько единиц придаточных, причастных, деепричастных, указательных и прочих оборотов речи, отделённых знаками препинания и имеющих строгий упорядоченный грамматический строй.

Пример достижения технического результата:

К примеру, известные системы машинного перевода «Google» и «ProMT» для следующего русскоязычного предложения <Со всего маху свалился в яму, как мешок с картошкой, велосипедист из Сибири.> выдаёт неграмотный перевод <From all over the mahu fell into the pit, like a bag of potatoes, a cyclist from Siberia.> Здесь смысловым ядром является субъектно-предикатная конструкция словосочетания: «велосипедист свалился», которое в английском переводе должно быть перенесено в начало предложения. Однако, ввиду того, что слова «велосипедист» и «свалился» разнесены в разные фрагменты данного предложения, лингвистический процессор не справляется с выявлением указанного смыслового ядра.

А подобную систему перевода, улучшенная технологией статистической обработки двуязычных текстов, реализуют в лингвистическом процессоре языковой трансляции «Yandex», которая для вышеприведенного тестового предложения уже даёт правильный перевод, а именно: <A cyclist from Siberia fell into the pit like a sack of potatoes.> Но для предложений повышенной сложности при численности слов более 20 и наличии двух и более смысловых компонентов, члены которых разнесены по различным фрагментам в предложениях с несколькими описательно-уточняющими оборотами, ограниченными пунктуационными знаками, например, запятой <,>, система машинного перевода «Yandex» уже переводит с нарушениями грамматики английского языка. Например, следующее допустимое в русском языке предложение:

<Не заметив, что на мосту, где было совершенно темно, шоссе, давно требующее починки, о которой некому было позаботиться, размыто дождями, в этих местах почти не прекращающимися, покрыто выбоинами, заполненными, о чем было нетрудно догадаться, густой грязью, завалено мусором, велосипедист, как мешок с картошкой, со всего маха свалился в яму.> система машинного перевода «Yandex» переводит с ошибками: <Without noticing that on the bridge, where it was completely dark, the highway, long in need of repair, which no one could take care of, was washed away by the rains, in these places almost non-stop, covered with potholes, filled, as it was easy to guess, with thick mud, littered with garbage, the cyclist, like a bag of potatoes, fell into the hole with all>.

А с помощью заявленного технического решения данное предложение переводиться безошибочно: <After all the human consciousness has the inlet where the arriving information is comprehended, and also possesses the outlet from which the readymade commonsense product is outgoing, likewise that chicken which pecks grains and nibbles greens on its inlet and makes egg to the outlet.>. В результате качество перевода сложносочиненных предложений текстов на флективных языках увеличилось на 30%.

Похожие патенты RU2766060C1

название год авторы номер документа
СПОСОБ АВТОМАТИЗИРОВАННОГО ИЗВЛЕЧЕНИЯ СМЫСЛОВЫХ КОМПОНЕНТ ИЗ СЛОЖНОСОЧИНЁННЫХ ПРЕДЛОЖЕНИЙ ЕСТЕСТВЕННО-ЯЗЫЧНЫХ ТЕКСТОВ В СИСТЕМАХ МАШИННОГО ПЕРЕВОДА И УСТРОЙСТВО ДЛЯ ЕГО РЕАЛИЗАЦИИ 2021
  • Карпов Антоний Геннадьевич
  • Хачукаев Эдуард Магомедович
  • Хачукаева Элина Эдуардовна
RU2777693C1
Способ автоматизированного извлечения смысловых компонентов из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода и устройство для его реализации 2021
  • Карпов Антон Геннадьевич
  • Хачукаев Эдуард Магомедович
  • Хачукаева Элина Эдуардовна
RU2766821C1
СПОСОБ АВТОМАТИЗИРОВАННОЙ ОБРАБОТКИ ТЕКСТА НА ЕСТЕСТВЕННОМ ЯЗЫКЕ ПУТЕМ ЕГО СЕМАНТИЧЕСКОЙ ИНДЕКСАЦИИ, СПОСОБ АВТОМАТИЗИРОВАННОЙ ОБРАБОТКИ КОЛЛЕКЦИИ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ ПУТЕМ ИХ СЕМАНТИЧЕСКОЙ ИНДЕКСАЦИИ И МАШИНОЧИТАЕМЫЕ НОСИТЕЛИ 2008
  • Хорошевский Владимир Фёдорович
  • Клинцов Виктор Петрович
RU2399959C2
СПОСОБ АВТОМАТИЗИРОВАННОЙ СЕМАНТИЧЕСКОЙ ИНДЕКСАЦИИ ТЕКСТА НА ЕСТЕСТВЕННОМ ЯЗЫКЕ 2012
  • Харламов Александр Александрович
RU2518946C1
СПОСОБ АВТОМАТИЗИРОВАННОГО СЕМАНТИЧЕСКОГО СРАВНЕНИЯ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ 2013
  • Харламов Александр Александрович
RU2538303C1
СИСТЕМА И МЕТОД СЕМАНТИЧЕСКОГО ПОИСКА 2013
  • Зуев Константин Алексеевич
  • Даниэлян Татьяна Владимировна
  • Рахматулина Эльмира Монировна
RU2563148C2
СПОСОБ АВТОМАТИЗИРОВАННОЙ СЕМАНТИЧЕСКОЙ КЛАССИФИКАЦИИ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ 2013
  • Харламов Александр Александрович
RU2538304C1
СПОСОБ ОБУЧЕНИЯ АССОЦИАТИВНО-ЭТИМОЛОГИЧЕСКОМУ АНАЛИЗУ ПИСЬМЕННЫХ ТЕКСТОВ НА ИНОСТРАННЫХ ЯЗЫКАХ 2018
  • Алямкина Екатерина Анатольевна
  • Флеров Олег Владиславович
RU2702148C2
СПОСОБ СЕМАНТИЧЕСКОЙ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА С ИСПОЛЬЗОВАНИЕМ ГРАФИЧЕСКОГО ЯЗЫКА-ПОСРЕДНИКА 2009
  • Менде Михаэль
RU2509350C2
РАСШИРЕНИЕ ВОЗМОЖНОСТЕЙ ИНФОРМАЦИОННОГО ПОИСКА 2015
  • Даниэлян Татьяна Владимировна
  • Инденбом Евгений Михайлович
RU2618375C2

Иллюстрации к изобретению RU 2 766 060 C1

Реферат патента 2022 года СПОСОБ АВТОМАТИЗИРОВАННОГО ИЗВЛЕЧЕНИЯ СМЫСЛОВЫХ КОМПОНЕНТ ИЗ СЛОЖНОСОЧИНЁННЫХ ПРЕДЛОЖЕНИЙ ЕСТЕСТВЕННО-ЯЗЫЧНЫХ ТЕКСТОВ В СИСТЕМАХ МАШИННОГО ПЕРЕВОДА И УСТРОЙСТВО ДЛЯ ЕГО РЕАЛИЗАЦИИ

Изобретение относится к области компьютерной лингвистики. Техническим результатом является повышение качества автоматизированного извлечения смысловых компонентов из текстов любого уровня сложности в системах межъязыкового машинного перевода. Раскрыто устройство автоматизированного извлечения смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода, содержащее последовательно соединённые лингвистические модули сентенсизации, фрагментизации, графематизации, морфологизации, паттернизации, семантизации и экстракции, при этом выход лингвистического модуля паттернизации последовательно подключён к первому входу модуля индексации и модулю фильтрации, образующим лингвистический модуль постпаттернизации, при этом один выход модуля фильтрации соединён с вторым входом лингвистического модуля индексации, а второй выход модуля фильтрации соединён с модулем семантизации. 2 н. и 11 з.п. ф-лы, 1 ил.

Формула изобретения RU 2 766 060 C1

1. Устройство автоматизированного извлечения смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода, содержащее последовательно соединённые лингвистические модули сентенсизации, фрагментизации, графематизации, морфологизации, паттернизации, семантизации и экстракции, отличающееся тем, что выход лингвистического модуля паттернизации последовательно подключён к первому входу модуля индексации и модулю фильтрации, образующим лингвистический модуль постпаттернизации, при этом один выход модуля фильтрации соединён с вторым входом лингвистического модуля индексации, а второй выход модуля фильтрации соединён с модулем семантизации.

2. Способ автоматизированного извлечения смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода, характеризующийся тем, что на этапах сентенсизации, фрагментизации, графематизации и морфологизации производят процедуры исследования текста на основе морфологического, синтаксического и семантического анализов его составных частей - целых предложений, их фрагментов и графем с символами, на этапе паттернизации производят извлечение из текста семантико-синтаксически связных словосочетаний (паттернов), отличающийся тем, что на этапе индексации осуществляют атрибутирование и идексирование фрагментов текста, на этапе фильтрации осуществляют перфомансирование и фильтрацию после перфомансирования, на этапе семантизации производят семантический анализ фрагментов текста и на этапе экстракции осуществляют извлечение искомых лингвистических объектов.

3. Устройство по п.1, отличающееся тем, что модуль индексации состоит из модуля атрибутирования и модуля индексирования.

4. Устройство по п.1, отличающееся тем, что модуль фильтрации состоит из модуля перфомансирования и модуля фильтрования после перфомансирования.

5. Способ по п.2, отличающийся тем, что извлечение из текста семантико-синтаксически связных словосочетаний (паттернов) производят на основе доминирования синтаксического родителя в связке с рецессивной словоформой.

6. Способ по п.2, отличающийся тем, что в результате семантического анализа при семантизации производят построение семантико-синтаксического графа текста.

7. Способ по п.2, отличающийся тем, что при атрибутировании производят установление морфологических атрибутов для фрагментов текста.

8. Способ по п.2, отличающийся тем, что при индексировании присваивают атрибутированным фрагментам специальные уникальные индексы.

9. Способ по п.2, отличающийся тем, что на основе индексации фрагментов текста могут выявляться фрагменты, не имеющие в своём составе главные лингвистические объекты в виде смысловых компонентов.

10. Способ по п.2, отличающийся тем, что при перфомансировании осуществляется подготовка проиндексированных фрагментов для фильтрации.

11. Способ по п.2, отличающийся тем, что при фильтрации после перфомансирования производится удаление в буфер фрагментов предложения, не содержащих в своем составе главные лингвистические объекты в виде смысловых компонентов.

12. Способ по п.2, отличающийся тем, что процедуры индексации и фильтрации многократно повторяются до момента исключения из текста исследуемого сложносочинённого предложения всех фрагментов, не содержащих в своем составе главных лингвистических объектов.

13. Способ по п.8, отличающийся тем, что индексирование фрагментов текста осуществляют по классификации на основе закономерности для сложносочинённых предложений русского языка, заключающейся в том, что типология фрагментов предложений русского языка содержит ограниченное количество различных вариантов, равное восьмидесяти одному.

Документы, цитированные в отчете о поиске Патент 2022 года RU2766060C1

Автоматическое извлечение именованных сущностей из текста 2014
  • Нехай Илья Владимирович
RU2665239C2
СПОСОБ ИЗВЛЕЧЕНИЯ ФАКТОВ ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ 2016
  • Старостин Анатолий Сергеевич
  • Смуров Иван Михайлович
  • Джумаев Станислав Сергеевич
RU2637992C1
ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ СМЫСЛОВЫХ БЛОКОВ ДОКУМЕНТОВ С ИСПОЛЬЗОВАНИЕМ МИКРОМОДЕЛЕЙ НА БАЗЕ ОНТОЛОГИИ 2017
  • Даниэлян Татьяна Владимировна
  • Михайлов Максим Борисович
RU2662688C1
US 20080091405 A1, 17.04.2008.

RU 2 766 060 C1

Авторы

Карпов Антон Геннадьевич

Хачукаева Элина Эдуардовна

Хачукаев Эдуард Магомедович

Даты

2022-02-07Публикация

2021-05-18Подача