Изобретение относится к области технологий компьютерной лингвистики по обработке естественно-язычных текстов, а именно – к автоматизированному извлечению смысловых компонентов из текстов любого уровня сложности в системах межязыкового машинного перевода [G06F16/00, G06F17/00, G06F17/21, G06F17/27, G06F17/30, G06F40/00].
Из уровня техники известен СПОСОБ ИЗВЛЕЧЕНИЯ ФАКТОВ ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ [RU2637992 (C1), опубл. 08.12.2017 г.], отличающийся тем, что при извлечении фактов из текстов на естественном языке получают идентификатор первого токена, содержащегося в тексте и включающего слово естественного языка, ссылающееся на первый информационный объект, представленный первой именованной сущностью. Далее получают идентификаторы первого множества слов, представляющего первый факт определенной категории фактов, связанный с первым информационным объектом некоторой категории информационных объектов. После чего определяют в тексте второе множество слов, включающее второй токен, ссылающийся на второй информационный объект, ассоциирующийся с указанной категорией информационных объектов. В ответ на получение подтверждения того, что второе множество слов представляет второй факт, связанный со вторым информационным объектом той же категории информационных объектов, извлекают второй факт и сохраняют его в форме RDF-графа. А в конце изменяют параметр функции классификатора, которая дает значение, отражающее степень ассоциации данной семантической структуры с фактом из определенной категории фактов.
Недостатками аналога являются:
- данное техническое решение не позволяет эффективно осуществлять машинный перевод для текстов на флективных языках;
- при извлечении текста система не реагирует на члены предложений, образующих смысловые конструкции, которые разделены различного рода описательно-уточняющими оборотами.
Также из уровня техники известен CПОСОБ ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ СМЫСЛОВЫХ БЛОКОВ ДОКУМЕНТОВ С ИСПОЛЬЗОВАНИЕМ МИКРОМОДЕЛЕЙ НА БАЗЕ ОНТОЛОГИИ [RU 2662688 (C1), опубл. 26.07.2018], отличающийся тем, что извлечение информации из документов, содержащих текст на естественном языке, производится на основе идентификации в тексте смысловых блоков, относящихся к заданной категории. Далее выполняется лексический анализ множества слов смыслового блока с целью построения множества лексических структур, содержащих информацию о лексических значениях слов и соответствующих семантических классах, представляющих смысловой блок. Затем идентифицируется микромодель для извлечения информации, относящейся к заданной категории, причем микромодель включает множество продукционных правил, связанных с онтологией. Впоследствии применяются продукционные правила микромодели с целью извлечения информационных объектов, связанных с соответствующим семантическим классом, соответствующим концепту онтологии.
Недостатками данного аналога являются:
- данный способ не позволяет оптимально качественно производить машинный перевод текстов на флективных языках;
- при проведении семантико-синтаксического анализа текста на флективных языках технические решения данного способа способны выявлять смысловые компоненты только в рамках одного простого предложения или в одном из фрагментов сложносочиненного предложения.
Наиболее близкой по технической сущности является АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ ИМЕНОВАННЫХ СУЩНОСТЕЙ ИЗ ТЕКСТА [RU2665239 (C2), опубл. 28.08.2018 г.], отличающийся тем, что извлечение именованных сущностей из неразмеченного текстового корпуса производится путём выделения обучающего набора текстов на естественном языке, после чего процессором соответствующего набора признаков извлекают именованные сущности для каждой категории. Далее производится обучение процессором модели классификации с использованием обучающего набора текстов и наборов признаков для каждой категории именованных сущностей. После чего процессором извлекаются токены из неразмеченного текста и формируются наборы атрибутов для каждого токена неразмеченного текста на основании по меньшей мере глубокого семантико-синтаксического анализа. Далее определяются возможные синтаксические связи по меньшей мере в одном предложении неразмеченного текста, включающее получение множества синтаксических атрибутов, и производится формирование независимой от языка семантической структуры, включающее определение семантических связей и соответствующих семантических атрибутов каждого токена. Затем процессором классифицируется каждый токен по меньшей мере в одну из категорий на основании модели классификатора и набора атрибутов токена и формируется размеченное представление по меньшей мере части текста на основании по меньшей мере одного из токенов, классифицированных по категориям.
Основной технической проблемой прототипа является то, что в данном решении автоматизированная обработка естественно-язычных текстов, в части извлечения смысловых компонентов из сложно-сочинённых предложений с многочисленным составом словоформ для флективных языков, осуществляется с неудовлетворительном качеством, что впоследствии негативно сказывается на эффективности грамматически-правильного машинного перевода всего текста в целом.
Задачей изобретения является устранение недостатков прототипа.
Техническим результатом изобретения является повышение качества автоматизированного извлечения смысловых компонентов из текстов любого уровня сложности в системах межязыкового машинного перевода.
Указанный технический результат достигается за счет того, что устройство автоматизированного извлечения смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода, содержащее последовательно соединённые лингвистические модули сентенсизации, фрагментизации, графематизации, морфологизации, паттернизации, семантизации и экстракции, отличающееся тем, выход лингвистического модуля паттернизации последовательно подключён к модулю индексации, модулю фильтрации, модулю когментации и модулю перепаттернизации, образующие лингвистический модуль постпаттернизации, а выход модуля перепаттернизации соединён с входом лингвистического модуля семантизации, где модуль сентенсизации выполнен с возможностью первичной обработки текста с целью разделения его на отдельные абзацы и предложения и его дальнейшей дифференциации по пунктуационным критериям, модуль фрагментизации выполнен с возможностью деления предложений на фрагменты по знакам, модуль графематизации выполнен с возможностью дифференцирования входной информации до выделения из неё отдельных графем и знаков, которые являются элементарными единицами текста, модуль морфологизации выполнен с возможностью присваивания «пометов» всем текстовым элементам – и графемам, и знакам, как морфологических признаков или характеристик, разводя выявленные элементы текста по разным морфологическим группам, модуль паттернизации выполнен с возможностью связывания друг с другом «пометов» по синтаксическим правилам, образуя устойчивые синтаксические словосочетания – паттерны, которым присваивают индивидуальные маркёры, модуль семантизации выполнен с возможностью получения для словоформ и паттернов присущие им лексических значений – семантисов, модуль экстракции выполнен с возможностью извлечения искомых лингвистических объектов, модуль индексации выполнен с возможностью установления морфологических атрибутов для фрагментов текста, модуль фильтрации выполнен с возможностью выявления и удаления в буфер фрагментов, не содержащих в себе главные лингвистические объекты, модуль когментации выполнен с возможностью перефрагментирования оставшихся после фильтрации фрагментов, модуль перепаттернизации выполнен с возможностью перепаттернизации вновь образованных фрагментов в модуле когментации, при этом упомянутые индексация, фильтрация, когментация и перепаттернизация будут повторяться, пройдя некоторое количество итераций до момента, пока в исследуемом списке не останется только один смысловой компонент, являющийся главным лингвистическим объектом.
Указанный технический результат достигается за счет того, что способ автоматизированного извлечения смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода, характеризующийся тем, что на этапах сентенсизации, фрагментизации, графематизации и морфологизации производят процедуры исследования текста на основе морфологического, синтаксического и семантического анализов его составных частей – целых предложений, их фрагментов и графем с символами, на этапе паттернизации производят извлечение из текста семантико-синтаксически связных словосочетаний (паттернов), отличающийся тем, что что на этапе индексации осуществляют атрибутирование и идексирование фрагментов текста, на этапе фильтрации осуществляют перфомансирование и фильтрацию после перфомансирования, на этапе когментации осуществляют слияние фрагментов и реиндексирование, на этапе перепаттернизации осуществляют перфомантирование и тестирование, на этапе семантизации производят семантический анализ фрагментов текста и на этапе экстракции осуществляют извлечение искомых лингвистических объектов, при этом этапы индексации, фильтрации, когментации и перепаттернизации повторяют, пройдя некоторое количество итераций до момента, пока в исследуемом списке не останется только один смысловой компонент, являющийся главным лингвистическим объектом.
В частности, модуль индексации состоит из модуля атрибутирования и модуля индексирования.
В частности, модуль фильтрации состоит из модуля перфомансирования и модуля фильтрования после перфомансирования.
В частности, модуль когментации состоит из модуля слияния фрагментов и модуля реиндексирования.
В частности, модуль перепаттернизации состоит из модуля перформатирования и модуля тестирования.
В частности, извлечение из текста семантико-синтаксически связных словосочетаний (паттернов) производят на основе доминирования синтаксического родителя в связке с рецессивной словоформой.
В частности, в результате семантического анализа при семантизации производят построение семантико-синтаксического графа текста.
В частности, при атрибутировании производят установление морфологических атрибутов для фрагментов текста.
В частности, при индексировании присваивают атрибутированным фрагментам специальные уникальные индексы.
В частности, на основе индексации фрагментов текста выявляют фрагменты, не имеющие в своём составе главные лингвистические объекты в виде смысловых компонентов.
В частности, индексирование фрагментов текста осуществляют по классификации на основе закономерности для сложносочинённых предложений русского языка, заключающейся в том, что типология фрагментов предложений русского языка содержит ограниченное количество различных вариантов, равное восемьдесяти одному.
В частности, при перфомансировании осуществляется подготовка проиндексированных фрагментов для фильтрации.
В частности, при фильтрации производиться удаление в буфер фрагментов предложения, не содержащих в своем составе главные лингвистические объекты в виде смысловых компонентов.
В частности, крайние фрагменты сложносочинённого предложения, между которыми были удалены в буфер фрагменты после фильтрации, когментируются, то есть, воссоединяются в новый фрагмент.
В частности, новые образованные фрагменты в результате когментации реиндексируются.
В частности, вновь образованные фрагменты в результате когментации перепаттернизируются, то есть на первом этапе перформатируются на основе перефрагментирования, а на втором – проверка нового фрагмента на когментированную валидность.
В частности, процедуры индексации, фильтрации, когментации, перепаттернизации многократно повторяются до момента исключения из текста исследуемого сложносочинённого предложения всех фрагментов, не содержащих в своем составе главных лингвистических объектов.
Краткое описание чертежей
На фиг. показана блок-схема устройства автоматизированного извлечения смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода.
На рисунке обозначено: 1 – модуль подачи текста на естественном языке,
2 – лингвистический процессор, 3 – лингвистический модуль сентенсизации,
4 – лингвистический модуль фрагментизации, 5 – лингвистический модуль графематизации, 6 – лингвистический модуль морфологизации, 7 – лингвистический модуль паттернизации, 8 – лингвистический модуль постпаттернизации,
9 – лингвистический модуль семантизации, 10 – лингвистический модуль экстракции, 11 – модуль индексации, 12 – модуль фильтрации, 13 – модуль когментации,
14 – модуль перепаттернизации, 15 – модуль атрибутирования, 16 – модуль индексирования, 17 – модуль перфомансирования, 18 – модуль фильтрования после перфомансирования, 19 – модуль слияния фрагментов, 20 – модуль реиндексирования, 21 – модуль перформатирования, 22 – модуль тестирования.
Осуществление изобретения
Устройство автоматизированного извлечения смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода состоит из модуля подачи текста на естественном языке 1, выход которого соединён с лингвистическим процессором 2 непосредственно через вход лингвистического модуля сентенсизации 3, к которому последовательно присоединены лингвистический модуль фрагментизации 4, лингвистический модуль графематизации 5, лингвистический модуль морфологизации 6, лингвистический модуль паттернизации 7, лингвистический модуль постпаттернизации 8, лингвистический модуль семантизации 9 и лингвистический модуль экстракции 10. При этом лингвистический модуль постпаттернизации 8 состоит из последовательно соединённых модуля индексации 11, модуля фильтрации 12, модуля когментации 13 и модуля перепаттернизации 14. Кроме того, модуль индексации 11 состоит из модуля атрибутирования 15 и модуля индексирования 16, модуль фильтрации 12 состоит из модуля перфомансирования 17 и модуля фильтрования после перфомансирования 18, модуль когментации 13 состоит из модуля слияния фрагментов 19 и модуля реиндексирования 20, а модуль перепаттернизации 14 состоит из модуля перформатирования 21 и модуля тестирования. При этом лингвистический модуль паттернизации 7 последовательно соединён с модулем атрибутирования 15, модулем индексирования 16, модулем перфомансирования 17, модулем фильтрования после перфомансирования 18, модулем слияния фрагментов 19, модулем реиндексирования 20, модулем перформатирования 21 и модулем тестирования 22, один выход которого соединён с модулем атрибутирования 15, а другой непосредственно с входом лингвистического модуля семантизации 9.
Автоматизированное извлечение смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода осуществляется следующим образом.
В общем случае, извлечение смысловых компонентов в естественно-язычных текстах производят с использованием лингвистических процессоров, которые используют в разнообразных компьютерных приложениях для смысловой обработки естественно-язычных текстов, включая машинный перевод, целевой информационный поиск по заданным смыслам, реферирование и аннотирование текстов, категоризацию и классификацию документов и др.
Смысловыми компонентами в заявляемом изобретении являются субъектно-предикатные конструкции словоформ, несущие в себе смысловую нагрузку, к таковым относятся: смысловые ядра, смысловые блоки и смысловые кластеры.
Под смысловыми ядрами понимается связка слов в виде субъектно-предикатных конструкций, определяющих смыслы в виде переходных процессов, происходящих с субъектами, как в целом предложении, так и в его фрагментах. Примерами смысловых ядер в русскоязычных текстах могут быть следующие словосочетания: «Петя пошёл»; «Дерево было спилено»; «Он должен быть»; «Татьяна хотела научиться стрелять» и др.
Под смысловыми блоками понимаются несколько смысловых ядер, объединённых союзами или разделённые знаками пунктуации. Например: «Кот ел, ел и объелся»; «Дерево было спилено и сожжено».
Смысловые ядра и смысловые блоки подразделяются на главные и второстепенные лингвистические объекты, различие между которыми заключается в том, что второстепенные лингвистические объекты, например, в предложениях русского языка всегда входят в состав какого-либо оборота, описывающего главные лингвистические объекты, а сам главный лингвистический компонент, соответственно, никогда в такой роли не выступает. Например, в предложении «Велосипедист, который всё время шёл вторым в пелетоне, пришёл к финишу первым» главным лингвистическим объектом является «Велосипедист пришёл», а второстепенным – «который шёл».
Под смысловым кластером понимаются главные или второстепенные лингвистические объекты, дополненные сабжем – пакетом описаний субъект-объектных предикатных отношений. Например: «…человеческое сознание точно также имеет свой вход и тоже обладает выходом…».
Под системой машинного перевода понимается автоматизированная трансформация на программном уровне оригинального текста, составленного на одном исходном языке, в другой иноязычный текст, например, перевод с русского на английский. В известных системах машинного перевода используются четыре основных технологии – это подстрочный, статистический, семантический и смысловой анализ, которые можно охарактеризовать, соответственно, как: «неудовлетворительный», «удовлетворительный», «хороший» и «отличный».
Для систем машинного перевода, особенно для случаев автоматизированного преобразования текста на аналитические языки (английский, голландский и др.), характеризующиеся чётким грамматическим строем, требуется выявление в оригинальном тексте, представленного на языке иной грамматико-строевой типологии, например, на флективном русском языке, смысловых компонент текста, к которым относятся: смысловые ядра, блоки и кластеры, то есть, несущие смысловую нагрузку словесные конструкции предложений ‒ главные и второстепенные лингвистические объекты.
Одной из основных задач систем машинного перевода является нахождение главных лингвистических объектов в любом месте предложения на оригинальном тексте, и вынесение их в начало переведенного варианта предложения. Например, если в русском тексте допустимо выражение: «В школу шёл Петя.», то в его английском выражении обязательно должно быть: «Petya was going to school.»
Смысловые ядра главных и второстепенных лингвистических объектов не всегда образуются линейкой рядом расположенных слов в рамках одного фрагмента или простого предложения. В сложносочинённых предложениях элементы субъектно-предикатных конструкций могут быть разнесены по разным фрагментам, и тогда это становится проблемой для всех известных систем машинного перевода, поскольку они сталкиваются с затруднениями в выявлении главных лингвистических объектов.
Например, в предложении: «А ведь, и человеческое сознание, подобно той курице, которая на входе клюет зерна и щиплет зелень, а на выходе производит яйцо, точно также имеет свой вход, где поступающая информация осмысляется, и тоже обладает выходом, из которого подаётся уже готовый смысловой продукт.» ‒ имеются следующие смысловые компоненты: [сознание имеет… и обладает] (главный лингвистический объект); [которая клюёт…, щиплет…, а производит], [информация осмысляется], [продукт подаётся] (второстепенные лингвистические объекты).
Нахождение лингвистических объектов в естественно-язычных текстах возлагают на системы автоматизированной обработки текстов, под которыми в настоящем документе понимаются технологии лингвистического анализа естественно-язычного текста на машинно-программном уровне. Известные системы автоматизированной обработки текстов включают в себя, как правило, морфологические, синтаксические и семантические языковые исследования анализируемых текстов. В общем виде автоматизированная обработка данных строится на основе четырёх процедурных принципов: дифференциации, дивергенции, конвергенции и интеграции. Сначала текст дифференцируется, разбиваясь на элементы – слова и знаки, затем дивергенируется, разводя элементы по морфологическим признакам в разные группы, далее эти элементы подвергаются конвергенции, сводя их друг с другом по синтаксическим критериям, и, наконец, они интегрируются в конечный семантико-синтаксический граф.
Выполнение процедур автоматизированной обработки текстов возлагаются на лингвистические модули – это программные блоки, исполняющие одну или несколько родственных алгоритмических процедур в ходе выполнения одного шага обработки естественно-язычного текста с целью получения какого-либо одного искомого промежуточного результата, например, в ходе морфологического или синтаксического анализа входного текста.
Из набора лингвистических модулей при выполнении конкретной задачи автоматизированной обработки текстов составляется лингвистический процессор, который может быть многошаговым и целью которого является уже получение каких-либо искомых конечных результатов, например, извлечение именованных сущностей из заданного на входе естественно-язычного текста, выявление главных или второстепенных лингвистических объектов, построение семантико-синтаксического графа предложения или текста или осуществление межязыкового перевода.
Как правило, для типовых лингвистических процессоров анализ и перевод предложений текста на русском языке (обладающих повышенной категорией сложности, то есть включают в себя несколько единиц придаточных, причастных, деепричастных, указательных и прочих оборотов речи, отделённых знаками препинания и имеющих строгий упорядоченный грамматический строй) на другие языки становится непреодолимой проблемой.
В заявляемом изобретении для решения указанных выше проблем по автоматизированной обработке текстов на вход лингвистического процессора 2, а именно на лингвистический модуль сентенсизации 3, подают машинно-читаемый текст с модуля подачи текста на естественном языке 1, производящий первичную обработку текста с целью разделения его на отдельные абзацы и предложения для дальнейшего исследования. Дифференциация текста в модуле сентенсизации 3 на первом этапе осуществляют по пунктуационным критериям, в частности, по знаку «<.>точка» или символам «!»; «?». Например, текст: - <Петя, который утром пошёл в школу, к обеду не вернулся. Вечером он также ещё не появлялся дома> - получает разбивку на два следующих предложения: <Петя, который утром пошёл в школу, к обеду не вернулся> и <Вечером он также ещё не появлялся дома>.
Полученные по результатам первого этапа предложения поступают из лингвистического модуля сентенсизации 3 на вход лингвистического модуля фрагментизации 4, где происходит дальнейшее деление предложений на фрагменты, но уже по другим пунктуационным критериям, в частности, по знакам «<,> - запятая» или «<;> - точка с запятой». Например, вышеприведенные предложения будут разбиты на следующие фрагменты: - <Петя>, <который утром пошёл в школу>, <к обеду не вернулся>. <Вечером он также ещё не появлялся дома>.
Далее, выделенные на втором этапе фрагменты в лингвистическом модуле фрагментизации 4 поступают на вход лингвистического модуля графематизации 5, где процесс дифференцирования входной информации продолжают до выделения из неё отдельных графем (словоформ) и знаков (символов), которые являются элементарными единицами текста.
Затем, эти выходные данные из лингвистического модуля графематизации 5 поступают на четвёртом этапе в лингвистический модуль морфологизации 6, в котором всем текстовым элементам – и графемам, и знакам – присваивают «пометы», как морфологические признаки или характеристики, дивергенируя (разводя) выявленные элементы текста по разным морфологическим группам.
Потом эти графемы и знаки вместе с полученными на четвертом этапе морфемными пометами направляют в синтаксический синтезатор – лингвистический модуль паттернизации 7, где конвергенируют, то есть, связывают друг с другом по синтаксическим правилам, образуя устойчивые синтаксические словосочетания – паттерны, которым присваивают индивидуальные маркёры.
Полученные на пятом этапе промаркированные паттерны на шестом этапе проходят индексацию с помощью дополнительно введённого модуля индексации 8, а именно производят установление морфологических атрибутов для фрагментов текста с помощью модуля атрибутирования 15 и присвоение атрибутированным фрагментов специальных уникальных индексов в модуле индексирования 16. Данную индексную аннотацию фрагментов текста осуществляют по классификации на основе закономерности для сложносочинённых предложений русского языка, заключающейся в том, что типология фрагментов предложений русского языка содержит ограниченное количество различных вариантов числом – восемьдесят один.
Благодаря данным процедурам атрибутирования и индексирования фрагментов текста с высоким качеством выявляют фрагменты, не имеющие в своём составе главные лингвистические объекты в виде смысловых компонентов.
Далее на седьмом этапе осуществляют фильтрацию с помощью дополнительно введённого модуля фильтрации 12, который осуществляет выявление и удаление в буфер фрагментов, не содержащих в себе главные лингвистические объекты, а именно в модуле перфомансирования 17, в котором осуществляется подготовка проиндексированных фрагментов для фильтрации в буфер, а в модуле фильтрования после перфомансирования 18 – удаление в буфер фрагментов после операции перфомансирования.
После на восьмом этапе производят когментацию с помощью дополнительно введённого модуля когментации 13, который осуществляет перефрагментирование оставшихся после фильтрации фрагментов в модуле фильтрования после перфомансирования 18. На первом этапе в модуле слияния фрагментов 19 осуществляется воссоединение двух крайних фрагментов, между которыми были удалены в буфер один или несколько фрагментов по процедуре перфомансирования в модуле перфомансирования 17, а на втором этапе в модуле реиндексирования 20 осуществляется установление новых морфологических атрибутов и переиндексация вновь образованных фрагментов.
Далее на этапе девять внутри модуля перепаттернизации 14 осуществляют перепаттернизация вновь образованных фрагментов в модуле когментации 13. На первом этапе в модуле перформатирования 21 осуществляется перепаттернизации вновь образованных фрагментов по процедуре перефрагментирование, а на втором этапе в модуле тестирования 22 – проверка нового фрагмента на когментированную валидность.
Пподобный четрёхпроцедурный цикл будет повторяться, пройдя некоторое количество итераций до момента, пока в исследуемом списке не останется только один смысловой компонент, являющийся главным лингвистическим объектом.
Полученные на этапах перепаттернизации промаркированные паттерны проходят на следующем этапе семантический анализ в лингвистическом модуле семантизации 9, в результате чего получают для словоформ и паттернов присущие им лексические значения – семантисы.
В конце, в лингвистическом модуле экстракции 10 происходит в зависимости от поставленной исходной задачи извлечение искомых лингвистических объектов, будь то, например, именованные сущности или главные лингвистические объекты.
Таким образом, использование исследуемого технического решения позволяет повысить качество автоматизированного извлечения смысловых компонент из текстов любого уровня сложности в системах межязыкового машинного перевода.
Таким образом, использование заявленного технического решения позволяет повысить качество автоматизированного извлечения смысловых компонент из текстов любого уровня сложности в системах межязыкового машинного перевода.
Технический результат изобретения повышение качества автоматизированного извлечения смысловых компонент из текстов любого уровня сложности в системах межязыкового машинного перевода достигается за счет того, что:
- модуль атрибутирования 15 позволяет установить морфологические атрибуты для фрагментов текста;
- модуль индексирования 16 осуществляет присвоение атрибутированным фрагментам специальных уникальных индексов, сформированных на основе выявленных закономерностей для сложносочинённых предложений русского языка;
- модуль перфомансирования 17 осуществляет подготовку проиндексированных фрагментов для фильтрации в буфер;
- модуль фильтрования после перфомансирования 18 осуществляет удаление в буфер фрагментов после операции перфомансирования;
- модуль слияния фрагментов 19 осуществляет воссоединение двух крайних фрагментов, между которыми были удалены в буфер один или несколько фрагментов по процедуре перфомансирования;
- модуль реиндексирования 20 производит установление новых морфологических атрибутов и переиндексация вновь образованных фрагментов;
- модуль перформатирования 21 осуществляет перепаттернизации вновь образованных фрагментов по процедуре перефрагментирование;
- модуль тестирования 22 производит проверку нового фрагмента на когментированную валидность;
- процедуры, производящиеся в модуле атрибутирования 15, модуле индексирования 16, модуле перфомансирования 17, модуле фильтрования после перфомансирования 18, модуле слияния фрагментов 19, модуле реиндексирования 20, модуле перформатирования 21 и модуле тестирования повторяются до момента, пока в исследуемом списке не останется только один смысловой компонент, являющийся главным лингвистическим объектом;
- в своей совокупности заявленное техническое решение позволяет с высоким качеством выявлять фрагменты, не имеющие в своём составе главные лингвистические объекты в виде смысловых компонентов, что впоследствии позволяет повысить качество перевода текстов на флективных языках, в том числе состоящих из предложений с повышенной категорией сложности, то есть включают в себя несколько единиц придаточных, причастных, деепричастных, указательных и прочих оборотов речи, отделённых знаками препинания и имеющих строгий упорядоченный грамматический строй.
Пример достижения технического результата:
К примеру, известные системы машинного перевода «Google» и «ProMT» для следующего русскоязычного предложения <Со всего маху свалился в яму, как мешок с картошкой, велосипедист из Сибири.> выдаёт неграмотный перевод <From all over the mahu fell into the pit, like a bag of potatoes, a cyclist from Siberia.> Здесь смысловым ядром является субъектно-предикатная конструкция словосочетания: «велосипедист свалился», которое в английском переводе должно быть перенесено в начало предложения. Однако, ввиду того, что слова «велосипедист» и «свалился» разнесены в разные фрагменты данного предложения, лингвистический процессор не справляется с выявлением указанного смыслового ядра.
А подобную систему перевода, улучшенная технологией статистической обработки двуязычных текстов, реализуют в лингвистическом процессоре языковой трансляции «Yandex», которая для вышеприведенного тестового предложения уже даёт правильный перевод, а именно: <A cyclist from Siberia fell into the pit like a sack of potatoes.> Но для предложений повышенной сложности при численности слов более 20 и наличии двух и более смысловых компонентов, члены которых разнесены по различным фрагментам в предложениях с несколькими описательно-уточняющими оборотами, ограниченными пунктуационными знаками, например, запятой <,>, система машинного перевода «Yandex» уже переводит с нарушениями грамматики английского языка. Например, следующее допустимое в русском языке предложение:
<Не заметив, что на мосту, где было совершенно темно, шоссе, давно требующее починки, о которой некому было позаботиться, размыто дождями, в этих местах почти не прекращающимися, покрыто выбоинами, заполненными, о чем было нетрудно догадаться, густой грязью, завалено мусором, велосипедист, как мешок с картошкой, со всего маха свалился в яму.> система машинного перевода «Yandex» переводит с ошибками: <Without noticing that on the bridge, where it was completely dark, the highway, long in need of repair, which no one could take care of, was washed away by the rains, in these places almost non-stop, covered with potholes, filled, as it was easy to guess, with thick mud, littered with garbage, the cyclist, like a bag of potatoes, fell into the hole with all>.
А с помощью заявленного технического решения данное предложение переводиться безошибочно: <After all the human consciousness has the inlet where the arriving information is comprehended, and also possesses the outlet from which the readymade commonsense product is outgoing, likewise that chicken which pecks grains and nibbles greens on its inlet and makes egg to the outlet.>. В результате качество перевода сложносочиненных предложений текстов на флективных языках увеличилось на 75%.
Изобретение относится к области технологий компьютерной лингвистики по обработке естественно-язычных текстов. Технический результат заключается в повышении качества машинного перевода текстов с любой степенью сложности. Технический результат достигается за счет того, что на этапах сентенсизации, фрагментизации, графематизации и морфологизации производят процедуры исследования текста на основе морфологического, синтаксического и семантического анализов его составных частей – целых предложений, их фрагментов и графем с символами, на этапе паттернизации производят извлечение из текста семантико-синтаксически связных словосочетаний (паттернов), при этом на этапе индексации осуществляют атрибутирование и идексирование фрагментов текста, на этапе фильтрации осуществляют перфомансирование и фильтрацию после перфомансирования, на этапе когментации осуществляют слияние фрагментов и реиндексирование, на этапе перепаттернизации осуществляют перформатирование и тестирование, на этапе семантизации производят семантический анализ фрагментов текста и на этапе экстракции осуществляют извлечение искомых лингвистических объектов, при этом этапы индексации, фильтрации, когментации и перепаттернизации повторяют, пройдя некоторое количество итераций до момента, пока в исследуемом списке не останется только один смысловой компонент, являющийся главным лингвистическим объектом. 2 н. и 16 з.п. ф-лы, 1 ил.
1. Устройство автоматизированного извлечения смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода, содержащее последовательно соединённые лингвистические модули сентенсизации, фрагментизации, графематизации, морфологизации, паттернизации, семантизации и экстракции, отличающееся тем, что выход лингвистического модуля паттернизации последовательно подключён к модулю индексации, модулю фильтрации, модулю когментации и модулю перепаттернизации, образующие лингвистический модуль постпаттернизации, а выход модуля перепаттернизации соединён с входом лингвистического модуля семантизации, где модуль сентенсизации выполнен с возможностью первичной обработки текста с целью разделения его на отдельные абзацы и предложения и его дальнейшей дифференциации по пунктуационным критериям, модуль фрагментизации выполнен с возможностью деления предложений на фрагменты по знакам, модуль графематизации выполнен с возможностью дифференцирования входной информации до выделения из неё отдельных графем и знаков, которые являются элементарными единицами текста, модуль морфологизации выполнен с возможностью присваивания «пометов» всем текстовым элементам – и графемам, и знакам, как морфологических признаков или характеристик, разводя выявленные элементы текста по разным морфологическим группам, модуль паттернизации выполнен с возможностью связывания друг с другом «пометов» по синтаксическим правилам, образуя устойчивые синтаксические словосочетания – паттерны, которым присваивают индивидуальные маркёры, модуль семантизации выполнен с возможностью получения для словоформ и паттернов присущих им лексических значений – семантисов, модуль экстракции выполнен с возможностью извлечения искомых лингвистических объектов, модуль индексации выполнен с возможностью установления морфологических атрибутов для фрагментов текста, модуль фильтрации выполнен с возможностью выявления и удаления в буфер фрагментов, не содержащих в себе главные лингвистические объекты, модуль когментации выполнен с возможностью перефрагментирования оставшихся после фильтрации фрагментов, модуль перепаттернизации выполнен с возможностью перепаттернизации вновь образованных фрагментов в модуле когментации, при этом упомянутые индексация, фильтрация, когментация и перепаттернизация будут повторяться, пройдя некоторое количество итераций до момента, пока в исследуемом списке не останется только один смысловой компонент, являющийся главным лингвистическим объектом.
2. Способ автоматизированного извлечения смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода, характеризующийся тем, что на этапах сентенсизации, фрагментизации, графематизации и морфологизации производят процедуры исследования текста на основе морфологического, синтаксического и семантического анализов его составных частей – целых предложений, их фрагментов и графем с символами, на этапе паттернизации производят извлечение из текста семантико-синтаксически связных словосочетаний (паттернов), отличающийся тем, что на этапе индексации осуществляют атрибутирование и идексирование фрагментов текста, на этапе фильтрации осуществляют перфомансирование и фильтрацию после перфомансирования, на этапе когментации осуществляют слияние фрагментов и реиндексирование, на этапе перепаттернизации осуществляют перформатирование и тестирование, на этапе семантизации производят семантический анализ фрагментов текста и на этапе экстракции осуществляют извлечение искомых лингвистических объектов, при этом этапы индексации, фильтрации, когментации и перепаттернизации повторяют, пройдя некоторое количество итераций до момента, пока в исследуемом списке не останется только один смысловой компонент, являющийся главным лингвистическим объектом.
3. Способ по п.1, отличающийся тем, что модуль индексации состоит из модуля атрибутирования и модуля индексирования.
4. Способ по п.1, отличающийся тем, что модуль фильтрации состоит из модуля перфомансирования и модуля фильтрования после перфомансирования.
5. Способ по п.1, отличающийся тем, что модуль когментации состоит из модуля слияния фрагментов и модуля реиндексирования.
6. Способ по п.1, отличающийся тем, что модуль перепаттернизации состоит из модуля перформатирования и модуля тестирования.
7. Способ по п.2, отличающийся тем, что извлечение из текста семантико-синтаксически связных словосочетаний (паттернов) производят на основе доминирования синтаксического родителя в связке с рецессивной словоформой.
8. Способ по п.2, отличающийся тем, что в результате семантического анализа при семантизации производят построение семантико-синтаксического графа текста.
9. Способ по п.2, отличающийся тем, что при атрибутировании производят установление морфологических атрибутов для фрагментов текста.
10. Способ по п.2, отличающийся тем, что при индексировании присваивают атрибутированным фрагментам специальные уникальные индексы.
11. Способ по п.2, отличающийся тем, что на основе индексации фрагментов текста выявляют фрагменты, не имеющие в своём составе главные лингвистические объекты в виде смысловых компонентов.
12. Способ по п.2, отличающийся тем, что при перфомансировании осуществляется подготовка проиндексированных фрагментов для фильтрации.
13. Способ по п.2, отличающийся тем, что при фильтрации производится удаление в буфер фрагментов предложения, не содержащих в своем составе главные лингвистические объекты в виде смысловых компонентов.
14. Способ по п.2, отличающийся тем, что крайние фрагменты сложносочинённого предложения, между которыми были удалены в буфер фрагменты после фильтрации, когментируются, то есть воссоединяются в новый фрагмент.
15. Способ по п.2, отличающийся тем, что новые образованные фрагменты в результате когментации реиндексируются.
16. Способ по п.2, отличающийся тем, что вновь образованные фрагменты в результате когментации перепаттернизируются, то есть на первом этапе перформатируются на основе перефрагментирования, а на втором – проверка нового фрагмента на когментированную валидность.
17. Способ по п.2, отличающийся тем, что процедуры индексации, фильтрации, когментации, перепаттернизации многократно повторяются до момента исключения из текста исследуемого сложносочинённого предложения всех фрагментов, не содержащих в своем составе главных лингвистических объектов.
18. Способ по п.10, отличающийся тем, что индексирование фрагментов текста осуществляют по классификации на основе закономерности для сложносочинённых предложений русского языка, заключающейся в том, что типология фрагментов предложений русского языка содержит ограниченное количество различных вариантов, равное восьмидесяти одному.
Пресс для выдавливания из деревянных дисков заготовок для ниточных катушек | 1923 |
|
SU2007A1 |
Способ защиты переносных электрических установок от опасностей, связанных с заземлением одной из фаз | 1924 |
|
SU2014A1 |
Способ получения цианистых соединений | 1924 |
|
SU2018A1 |
ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ С ИСПОЛЬЗОВАНИЕМ АЛЬТЕРНАТИВНЫХ ВАРИАНТОВ СЕМАНТИКО-СИНТАКСИЧЕСКОГО РАЗБОРА | 2016 |
|
RU2646386C1 |
СПОСОБ И СИСТЕМА СИНТЕЗА ТЕКСТА НА ОСНОВЕ ИЗВЛЕЧЕННОЙ ИНФОРМАЦИИ В ВИДЕ RDF-ГРАФА С ИСПОЛЬЗОВАНИЕМ ШАБЛОНОВ | 2015 |
|
RU2610241C2 |
Авторы
Даты
2022-08-08—Публикация
2021-07-01—Подача