Настоящее изобретение относится к определению жанра текста, в частности к обучению нейронной сети для определения жанра и поджанра текста, в том числе имеющего большой объем и сложную семантическую структуру.
УРОВЕНЬ ТЕХНИКИ
На данный момент существует огромное количество текстовых произведений, доступ к которым возможно получить с любого мультимедийного устройства. При таком многообразии вариантов пользователи испытывают трудности с выбором конкретного подходящего для них текстового произведения.
Также существует проблема анализа оцифрованных, но не атрибутированных текстов. В частности, ознакомление с такими текстами и отнесение их к тому или иному жанру и поджанру может занимать много времени и нести субъективный характер.
Известно, что указанные сложности в определении или в поиске подходящего жанра текстового произведения могут быть решены с использованием искусственного интеллекта и машинного обучения. Так, например, известен патентный документ CN 108170673 A «Способ и устройство идентификации стиля информации на основе искусственного интеллекта», согласно которому выполняют получение текстовой информации, подлежащей идентификации, анализ указанной текстовой информации для определения информации об именованной сущности, содержащейся в указанной текстовой информации, и темы, которой принадлежит текстовая информация, и выполняют идентификацию стиля текстовой информации на основе информации об именованной сущности и темы.
К именованной сущности может относиться имя человека, название организации, географическое название и все другие объекты, идентифицируемые по имени, к темам может относится, например, спорт, развлечения, еда, технологии и тому подобное.
Модель исчисления вероятностей, реализующая указанный способ, обучают с использованием обучающей выборки, содержащей текстовую информацию и маркированные данные.
Недостатком известного решения является то, что в нем не учитываются тексты, имеющие большой объем информации. Выполняя обучение нейронной сети согласно известному способу для задачи определения жанровой принадлежности больших текстов, например литературных произведений, будут необходимы слишком большие объёмы обучающих данных (высокая размерность обучающих данных).
Ввиду этого существует проблема создания способа обучения нейронной сети для определения жанровой принадлежности текста большого объема и сложной структуры, который позволил бы значительно сократить общий объем данных и время для ее обучения.
РАСКРЫТИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ
Согласно настоящему изобретению предложен способ обучения нейронной сети для определения жанра и поджанра текста, согласно которому на первом этапе: обеспечивают наличие текстов из первой группы, относящихся к одному жанру и содержащих сквозную именованную сущность, и словаря, содержащего указанную сквозную именованную сущность и слова, попадающие в заданный шаг до сквозной именованной сущности и после нее. Обучают нейронную сеть с использованием текста из первой группы, при обучении нейронная сеть выбирает именованную сущность и слова и/или контекстные конструкции, попадающие в заданный шаг до именованной сущности и после нее, помещает их в список и сравнивает список с указанным словарём, на основании чего нейронная сеть выдает результат сопоставления для определения жанра текста. На втором этапе: обеспечивают наличие текстов из второй группы, относящихся к тому же жанру и содержащих разные именованные сущности. Обучают нейронную сеть, обученную на первом этапе, с использованием текста из второй группы, повторяя указанные операции первого этапа, начиная с выбора именованной сущности. При этом в процессе обучения на первом и на втором этапе пополняют указанный словарь новыми словами и контекстными конструкциями из списка, создаваемого нейронной сетью. На третьем этапе: после обучения нейронной сети по меньшей мере двум жанрам обеспечивают наличие текстов из третьей группы, относящихся к указанным обученным жанрам и содержащих разные именованные сущности, и объединенного словаря, полученного из пополненных словарей по указанным обученным жанрам, и обучают нейронную сеть с использованием текста из третьей группы, повторяя указанные операции первого этапа, начиная с выбора именованной сущности, причем для операции сравнения используют объединенный словарь, а на выходе нейронная сеть выдает результат сравнения для определения жанра и поджанра текста.
В предлагаемом способе для обучения нейронной сети не требуется работа со всем текстом, а только с именованной сущностью, которая указывается заранее и встречается в тексте достаточно часто, чтобы обучить алгоритм, но недостаточно часто, чтобы сильно нагрузить систему. Это позволяет снизить нагрузку на систему, выполняющую алгоритм, и реализовывать данный алгоритм на менее производительных системах.
Использование сквозной именованной сущности значительно сокращает общий объём обучающих данных и время, затрачиваемое на решение задачи определения жанровой принадлежности текста. В частности, данный алгоритм обучения нейронной сети позволит экономить время и ресурсы для решения проблемы жанровой классификации текста, так как в ходе выполнения программы алгоритма возможно использовать относительно небольшие подборки текстов (например, в среднем от 20).
По сравнению с другими известными методиками, в которых необходимо использовать большое количество текстов (от 500 и более), предлагаемый способ будет не только менее ресурсоемкий, но и более эффективный.
Обучение нейронной сети на втором и третьем этапах с использованием текстов, не содержащих сквозную именованную сущность, позволяет получить обученную нейронную сеть, в будущем обеспечивающую высокую точность при определении жанра произведения. При этом данная особенность не требует больших затрат на обучение нейронной сети.
После обучения нейронной сети определению одного жанра аналогичным образом ее можно обучить другому жанру, причем количество жанров для обучения может быть ограничено только вычислительными возможностями системы. Нейронную сеть, обученную некоторому количеству жанров, обучают (дообучают) для определения поджанра текста. При дообучении повышается точность «понимания» нейронной сетью контекста предоставленного для анализа текста и усиливается точность классификации текстов, являющихся полижанровыми.
Стоит отметить, что согласно одному из аспектов настоящего изобретения тексты из первой группы могут быть маркированными, а тексты из второй и третьей группы могут быть немаркированными. Маркированный текст позволяет ускорить обучение нейронной сети, а немаркированный текст позволяет закрепить и улучшить результаты ее обучения.
В дополнение, словарь может содержать слова, грамматически и семантически близкие к именованной сущности, и при обучении нейронная сеть дополнительно может помещать в список слова, грамматически и семантически близкие к именованной сущности, для последующей операции сравнения. Другими словами, задачей нейронной сети будет являться самостоятельное нахождение корректных именованных сущностей и определение слов, грамматически и семантически относящихся к данной именованной сущности, и занесение их в список как на первом, так и на втором этапе.
Перед операцией сравнения получаемый список, в который помещают слова и контекстные конструкции, может быть очищен от слов-дубликатов. Очищение списка, составляемого нейронной сетью, от слов-дубликатов и сравнение слов из очищенного списка со словарём позволяет улучшить результат обучения нейронной сети на 20 и более процентов.
Также стоит отметить, что согласно еще одному из аспектов настоящего изобретения тексты из первой, второй и третьей групп могут содержать дополнительную именованную сущность. В этом случае при обучении нейронной сети каждой выбранной именованной сущности может быть присвоен контекстный маркер после помещения ее в словарь, который определяет «вес» именованной сущности в тексте, что можно сравнить с созданием иерархии (классификацией) именованных сущностей.
Использование дополнительной единой сквозной именованной сущности для обучения нейронной сети позволяет в дальнейшем повысить точность определения жанра текста, а также более точно подбирать поджанр текста, в случае если текст является мультижанровым.
Таким образом, техническим результатом предлагаемого решения является сокращение общего объема обучающих данных и времени на обучение нейронной сети для задачи определения жанровой и поджанровой принадлежности больших корпусов текстов с обеспечением высокой точности результатов.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ
Способ обучения нейронной сети, в соответствии с различными вариантами реализации настоящего изобретения, может быть осуществлен с использованием, например, известных компьютерных или мультипроцессорных систем. В других вариантах реализации заявленный способ может быть реализован посредством специализированных программно-аппаратных средств.
В настоящем раскрытии в отношении предлагаемого способа обучения нейронной сети под «жанрами» текста могут пониматься стили текста нехудожественной литературы, такие как официально-деловой, публицистический, научный и другие, также под жанрами текста могут пониматься жанры произведений художественной литературы, такие как детектив, фэнтази, любовный роман и другие.
Под «поджанрами» текста может пониматься жанр, дополнительный к основному жанру и имеющий второстепенное присутствие в исследуемом тексте.
Необходимо отметить, что применение настоящего изобретения возможно в иной классификации текстов, предусматривающей наличие иных типов или категорий текстов, различимых по критерию наличия каких-либо определенных характеристик.
В предлагаемом ниже варианте осуществления настоящего изобретения в качестве примера приведено описание обучения нейронной сети определению жанра текста, в этом случае обучающими данными будут являться литературные произведения. В других вариантах реализации, в которых есть необходимость сосредоточиться на распознавании стиля статьи или другой нехудожественной литературы, они также могут быть взяты в качестве обучающих данных.
Перед обучением нейронной сети всю совокупность литературных произведений разделяют по жанрам, например, в данном примере литературные произведения разделены на два жанра: «детектив», «викторианский роман», а также на обучающий и тестовый набор в отношении 80% и 20% соответственно.
Подбор текстов одного жанра (например, детектив) для обучения нейронной сети на первом этапе выполняют так, чтобы они содержали единого сквозного (присутствующего во всех произведениях подборки) героя, который определяется как сквозная именованная сущность. В качестве текстов одного жанра могут быть использованы книги (или рассказы) одного автора с единым героем, который проходит сквозь каждую книгу (рассказ). В данном примере указанные тексты будут отнесены к текстам из первой группы. Необходимо отметить, что в других вариантах реализации, в которых происходит распознавание стиля нехудожественной литературы, под сквозной именованной сущностью может пониматься некоторое понятие, термин, обозначение, формула или иная грамматическая конструкция или математическое обозначение.
Все подаваемые на вход литературные произведения проходят предварительное преобразование, которое включает в себя следующие действия:
- первичный анализ: определяются границы заголовков, абзацев и отдельных
предложений, с которыми в дальнейшем будет вестись работа алгоритма; поскольку для определения жанра заголовки не важны, они не учитываются при последующем анализе (планируется на втором этапе);
- с помощью библиотеки Word2vec слова в корпусе текста преобразуются в начальную форму;
- с целью увеличения производительности алгоритма, из дальнейшего анализа на этапе подготовки текста исключаются «стоп-слова» (междометия, союзы, частицы, предлоги, знаки препинания и др.);
Дополнительно, для текстов из первой группы производят токенизацию, т.е. каждое слово маркируют, при этом соответствующим образом отмечая сквозную именованную сущность, слова, попадающие в заданный шаг до сквозной именованной сущности и после нее, и/или слова, относящиеся грамматически и семантически к данной сквозной именованной сущности, и/или слова, которые относятся к соответствующему жанру. Под заданным шагом до именованной сущности и после нее может пониматься установленное оператором количество слов до именованной сущности и после нее. Слова, относящиеся к соответствующему жанру, также могут готовиться операторами вручную и/или могут быть взяты из уже существующих жанровых словарей. К грамматическим значениям могут быть отнесены необходимый падеж, род, число, спряжение, вид, время и т.д., а также прилагательные, причастные и деепричастные обороты, находящиеся в непосредственной близости от именованной сущности.
Вместе с этим создают словарь по относящимся к одному жанру литературным произведениям, который представляет собой множество слов, маркированных как относящихся к соответствующему жанру, например, «детектив», «сыщик», «происшествие», «улики». Словарь может содержать те же или схожие слова с указанными в предыдущем абзаце маркированными словами, а именно содержать сквозную именованную сущность, слова, попадающие в заданный шаг до сквозной именованной сущности и после нее, и/или слова, относящиеся грамматически и семантически к данной сквозной именованной сущности, и/или слова, которые относятся к соответствующему жанру.
Стоит отметить, что токенизация литературных произведений и наполнение словаря, которые будут использованы в обучении нейронной сети, могут быть выполнены как в ручном режиме оператором, так и автоматически.
На первом этапе, в предпочтительном варианте реализации на вход нейронной сети подают маркированный текст из первой группы. Нейронная сеть выбирает именованную сущность и слова и/или контекстные конструкции, попадающие в заданный шаг до выбранной именованной сущности и после нее, и помещает в список.
Под контекстными конструкциями могут пониматься связки слов или фразы, например, «вышел на место преступления», «преступник не был пойман» и др.
Нейронная сеть также помещает в список слова (леммы), относящиеся грамматически и семантически к выбранной именованной сущности, и слова, относящиеся к соответствующему жанру. Кроме того, в списке могут попадать случайные слова, не относящиеся к жанру детектива, однако являющиеся характерными для автора текста или героя, например «камин», «кэб», «трость», которые могут относиться к другим жанрам, например к жанру «викторианская литература». Среди набора слов, помещенных в список, могут присутствовать маркированные слова.
Следующим шагом нейронная сеть очищает список от слов-дубликатов, которые попали в него в ходе работы алгоритма. Предполагается возможность вычисления веса слов, попавших в список, на основе тегов (маркировки), присвоенных при предварительной обработке текста. Далее этот список сравнивается со словарем по соответствующему жанру с целью определения нейронной сетью текста как относящегося или не относящегося к детективному жанру.
На первом этапе во время обучения нейронной сети словарь уточняется и пополняется новыми словами из списка, создаваемого нейронной сетью. Также из указанного списка словарь пополняется контекстными фразами, которым может быть присвоен статус «КК детективного жанра». Указанные случайные слова также могут пополнить словарь с присвоением им соответствующего статуса и быть применены на третьем этапе обучения при определении поджанра.
По указанному словарю также может выполняться выборка, которая позволяет обновить его и сократить количество слов для дальнейшей работы алгоритма. С помощью выборки слов реализуется снижение размерности данных, при этом не происходит существенной потери эффективности алгоритма (сохраняется семантика выборки, она относится к конкретному жанру).
Благодаря обучению нейронной сети с использованием именованной сущности, находящейся в подборке текстов, алгоритм сможет наиболее эффективно определять жанровую принадлежность текста, а именно за счет того, что многие маркированные слова находятся близко к именованным сущностям. Для лучшего определения того, что является именованной сущностью, предлагается учить нейронную сеть на одном повторяющемся примере (на сквозной именованной сущности в каждой отдельной подборке текстов) с последующей экстраполяцией на другие произведения на следующем этапе.
Стоит отметить, что именованных сущностей может быть несколько, они могут быть сквозными и несквозными. В этом случае в процессе обучения нейронной сети каждой именованной сущности может быть присвоен контекстный маркер, посредством которого задается ее «вес». Введение контекстного маркера можно сравнить с созданием иерархии (классификацией) именованных сущностей. При присвоении контекстного маркера могут быть учтены по меньшей мере два фактора: частота и близость расположения других именованных сущностей. Контекстная маркировка именованных сущностей дает возможность нейронной сети точнее определять жанровое содержание (процентное соотношение) в мультижанровых произведениях, что также можно использовать в дальнейшем при определении поджанров.
Указанным образом, на первом этапе проводят несколько итераций обучения нейронной сети. При получении на выходе обучаемой нейронной сети заданного процента успешности определения жанра контрольных тестовых образцов, не вошедших в первый этап обучения, например 80% и более, обучение переходит на второй этап.
На втором этапе используют подборки немаркированных текстов из второй группы, они относятся к тому же жанру «детектив», но уже без единого сквозного героя, т.е. с разными именованными сущностями. Задачей нейронной сети является самостоятельное нахождение корректных именованных сущностей и определение грамматически и семантически относящихся к выбранной именованной сущности слов, слов, относящихся к соответствующему жанру, и слов и контекстных конструкций, попадающих в заданный шаг до выбранной именованной сущности и после нее. При этом на втором этапе обучения может быть изменен заданный шаг, например увеличиться с коэффициентом 1,5.
Найденные слова и/или контекстные конструкции, аналогично первому этапу, заносят в список с последующим удалением слов-дубликатов. Полученный список сравнивают со словарем, который пополнен и обновлен на первом этапе, на основании чего нейронная сеть выдает результат сравнения для определения жанра текста.
Указанный пополненный и обновленный словарь также пополняется и обновляется новыми словами и контекстными конструкциями на втором этапе.
Критерием окончания обучения нейронной сети на втором этапе может служить тот же процент успешности определения жанра на контрольных образцах, а именно 80% и более. Да данном этапе заканчивается обучение нейронной сети одному жанру текста.
После обучения нейронной сети определению одного жанра текста, ее обучают другому жанру и т.д. В приведенном варианте осуществления вторым жанром для обучения нейронной сети является «викторианская литература». Способ обучения нейронной сети определению жанра «викторианская литература» полностью повторяет способ обучения нейронной сети определению жанра «детектив».
Далее, на третьем этапе уже обученную нескольким жанрам нейронную сеть возможно дополнительно обучить определению поджанра текста. На этом этапе используют немаркированные тексты из третьей группы, которые относятся к обученным жанрам, в данном случае и к «детективу», и к «викторианской литературе», и при этом содержащие разные именованные сущности.
Также, перед обучением нейронной сети на третьем этапе создают объединенный словарь из пополненных и обновленных словарей, полученных для указанных выше жанров на втором этапе обучения. Стоит отметить, что указанный объединенный словарь также может пополняться и обновляться на третьем этапе.
В предпочтительном варианте осуществления при обучении на третьем этапе нейронная сеть помещает в список только контекстные конструкции, попадающие в заданный шаг до именованной сущности и после нее, что ускоряет обучение, поскольку данных для сравнения со словарем будет меньше, при этом не будет потеряна точность в определении поджанра. Однако в некоторых случаях также в список могут быть помещены только слова, попадающие в заданный шаг до именованной сущности и после нее, или как и слова, так и контекстные конструкции, попадающие в заданный шаг до именованной сущности и после нее. Полученный список сравнивают с объединенным словарем, причем при сравнении дают разрешение на использование словарных групп со статусом «случайные слова».
Путем многократной «прогонки» (итераций обучения) немаркированного текста для определения жанра и поджанра повышается вероятность более точного «понимания» нейронной сетью контекста предоставленного для анализа произведения.
В каждой из «прогонок» каждой из выявленных нейронной сетью именованных сущностей присваивается контекстный маркер. Многократная прогонка усиливает точность классификации в первую очередь полижанровых текстов.
Так, например, один и тот же элемент контекста (слово из словаря) может относиться к жанру «детектив» и «викторианская литература». В этом случае нейронная сеть фиксирует слова и словосочетания, такие как: прилагательные, причастные и деепричастные обороты (контекстные конструкции), находящиеся в непосредственной близости от именованной сущности, с заданным шагом. Эти слова и контекстные конструкции проверяются на соответствие со объединенным словарем, содержащим слова, относящиеся к указанным жанрам, на основании чего нейронная сеть уточняет жанровую и поджанровую принадлежность текста.
В частности, результат, выдаваемый нейронной сетью, может быть приведен в виде значения, которые указывают на сколько процентов текст относится к тому или иному жанру, при этом к поджанру будет относиться тот жанр, чье значение меньше.
Например, если результат сравнения, выдаваемый нейронной сетью, будет иметь вид: 20% от «КК детективного жанра» и 40% от общего количества слов, относящихся к детективному жанру, 5% от «КК жанра викторианской литературы» и 1% от общего количества слов, относящихся к жанру викторианской литературы, тексту будет определен жанр – «детектив», поджанр – «викторианская литература».
Архитектура нейронной сети может иметь следующий вид:
- слой внедрения, который инициализируется со случайными весами и изучает встраивание для всех слов в наборе обучающих данных;
- подготовительный слой, который уменьшает размерность выходных данных первого слоя, пытаясь выделить важные элементы;
- плотный слой с функцией активации relu, которая добавляет нелинейность, превращая отрицательные числа в 0;
- плотный выходной слой с тремя нейронами, соответственно количеству классов, с функцией активации softmax, благодаря которой сумма вероятностей будет равна 1.
Таким образом, проблема, которую решает настоящее изобретение, заключается в том, что для создания нейронной сети, задачей которой будет являться определение жанровой принадлежности текста литературного произведения, необходимы слишком большие объёмы данных (высокая размерность обучающих данных). Это связано с тем, что литературные произведения – это тексты большой длинны и сложной семантической структуры. Предлагаемое решение позволяет определять жанровую принадлежность больших литературных текстов с помощью метода концентрации работы алгоритма на единой сквозной именованной сущности, что значительно сокращает общий объём обучающих данных и время, затрачиваемое на решение задачи определения жанровой принадлежности текста. Кроме того, предлагаемое изобретение позволяет определить поджанр произведений или соотношение различных жанров в одном мультижанровом литературном тексте, что может быть использовано при составлении подробных антологий жанров.
Предлагаемое изобретение может быть использовано для рекомендаций литературных произведений. Например, системы рекомендации книг и текстов могут использовать обученную нейронную сеть для предоставления пользователям персонализированных рекомендаций на основе их предпочтений, а также для защиты детей или другой группы лиц от чувствительного для них контента.
Предлагаемое изобретение может быть использовано в академических исследованиях. Например, исследователи в области литературы могут использовать алгоритм для анализа больших оцифрованных, но не атрибутированных корпусов текстов.
Предлагаемое изобретение также может быть использовано при определении жанра аудио произведений или графических произведений. В этом случае перед определением жанра аудио произведение или графическое произведение должно быть переведено в текстовую форму.
Хотя в настоящей заявке описаны и проиллюстрированы несколько вариантов реализации изобретения, специалисты в данной области могут представить себе целый ряд других средств для выполнения задачи и/или достижения результатов и/или одного или более преимуществ, описанных в настоящей заявке, при этом подразумевается, что каждое из таких изменений/или модификаций находится в пределах объема вариантов реализации настоящего изобретения, описанных в настоящем документе и отраженных в формуле изобретения.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ И СИСТЕМА ГЕНЕРАЦИИ ТЕКСТА | 2023 |
|
RU2817524C1 |
СПОСОБ И СИСТЕМА КЛАССИФИКАЦИИ И ФИЛЬТРАЦИИ ЗАПРЕЩЕННОГО КОНТЕНТА В СЕТИ | 2020 |
|
RU2738335C1 |
СПОСОБ И СИСТЕМА ГЕНЕРАЦИИ ТЕКСТА ДЛЯ ЦИФРОВОГО АССИСТЕНТА | 2022 |
|
RU2796208C1 |
Способ атрибутизации частично структурированных текстов для формирования нормативно-справочной информации | 2020 |
|
RU2750852C1 |
СПОСОБ И СИСТЕМА ОБЕЗЛИЧИВАНИЯ КОНФИДЕНЦИАЛЬНЫХ ДАННЫХ | 2022 |
|
RU2804747C1 |
СПОСОБ И СИСТЕМА ОБЕЗЛИЧИВАНИЯ КОНФИДЕНЦИАЛЬНЫХ ДАННЫХ | 2022 |
|
RU2802549C1 |
Автоматическое извлечение именованных сущностей из текста | 2014 |
|
RU2665239C2 |
СЕНТИМЕНТНЫЙ АНАЛИЗ НА УРОВНЕ АСПЕКТОВ И СОЗДАНИЕ ОТЧЕТОВ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ | 2016 |
|
RU2635257C1 |
ИЗВЛЕЧЕНИЕ ИНФОРМАЦИОННЫХ ОБЪЕКТОВ С ИСПОЛЬЗОВАНИЕМ КОМБИНАЦИИ КЛАССИФИКАТОРОВ, АНАЛИЗИРУЮЩИХ ЛОКАЛЬНЫЕ И НЕЛОКАЛЬНЫЕ ПРИЗНАКИ | 2018 |
|
RU2686000C1 |
СПОСОБ ИЗВЛЕЧЕНИЯ ФАКТОВ ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ | 2016 |
|
RU2637992C1 |
Настоящее изобретение относится к определению жанра текста, в частности к обучению нейронной сети для определения жанра и поджанра текста, в том числе имеющего большой объем и сложную семантическую структуру. Согласно предлагаемому способу обучения нейронной сети для определения жанра и поджанра текста на первом этапе: обеспечивают наличие текстов из первой группы, относящихся к одному жанру и содержащих сквозную именованную сущность, и словаря, содержащего указанную именованную сущность и слова, попадающие в заданный шаг до сквозной именованной сущности и после нее, обучают нейронную сеть с использованием текста из первой группы, при обучении нейронная сеть выбирает именованную сущность и слова и/или контекстные конструкции, попадающие в заданный шаг до именованной сущности и после нее, помещают их в список и сравнивает список с указанным словарём, на основании чего нейронная сеть выдает результат сопоставления для определения жанра текста. На втором этапе: обеспечивают наличие текстов из второй группы, относящихся к тому же жанру и содержащих разные именованные сущности, обучают нейронную сеть, обученную на первом этапе, с использованием текста из второй группы, повторяя указанные операции первого этапа, начиная с выбора именованной сущности. На третьем этапе: после обучения нейронной сети по меньшей мере двум жанрам обеспечивают наличие текстов из третьей группы, относящихся к указанным обученным жанрам и содержащих разные именованные сущности, и объединенного словаря, полученного из пополненных словарей по указанным обученным жанрам, и обучают нейронную сеть с использованием текста из третьей группы, повторяя указанные операции первого этапа, начиная с выбора именованной сущности, причем для операции сравнения используют объединенный словарь, а на выходе нейронная сеть выдает результат сравнения для определения жанра и поджанра текста. Предлагаемый способ обеспечивает сокращение общего объема обучающих данных и времени на обучение нейронной сети для задачи определения жанровой и поджанровой принадлежности больших корпусов текстов с обеспечением высокой точности результатов. 4 з.п. ф-лы.
1. Компьютерно-реализуемый способ обучения нейронной сети для определения жанра и поджанра текста, выполняемый с помощью процессора и согласно которому на первом этапе: с использованием программно-аппаратных средств обеспечивают наличие текстов из первой группы, относящихся к одному жанру и содержащих сквозную именованную сущность, и словаря, содержащего указанную сквозную именованную сущность и слова, попадающие в заданный шаг до сквозной именованной сущности и после нее, обучают нейронную сеть с использованием текста из первой группы, причем при обучении нейронная сеть выбирает именованную сущность и слова и/или контекстные конструкции, попадающие в заданный шаг до именованной сущности и после нее, помещает их в список и сравнивает список с указанным словарём, на основании чего нейронная сеть выдает результат сопоставления для определения жанра текста, на втором этапе: с использованием программно-аппаратных средств обеспечивают наличие текстов из второй группы, относящихся к тому же жанру и содержащих разные именованные сущности, и обучают нейронную сеть, обученную на первом этапе, с использованием текста из второй группы, повторяя указанные операции первого этапа, начиная с выбора именованной сущности, причем в процессе обучения на первом и на втором этапе пополняют указанный словарь новыми словами и контекстными конструкциями из списка, создаваемого нейронной сетью, на третьем этапе: после обучения нейронной сети по меньшей мере двум жанрам, с использованием программно-аппаратных средств обеспечивают наличие текстов из третьей группы, относящихся к указанным обученным жанрам и содержащих разные именованные сущности, и объединенного словаря, полученного из пополненных словарей по указанным обученным жанрам, и обучают нейронную сеть с использованием текста из третьей группы, повторяя указанные операции первого этапа, начиная с выбора именованной сущности, причем для операции сравнения используют объединенный словарь, а на выходе нейронная сеть выдает результат сравнения для определения жанра и поджанра текста.
2. Способ по п. 1, согласно которому тексты из первой группы являются маркированными, а тексты из второй и третьей групп являются немаркированными.
3. Способ по п. 1 или 2, согласно которому словарь содержит слова, грамматически и семантически близкие к именованной сущности, и при обучении нейронная сеть дополнительно помещает в список слова, грамматически и семантически близкие к именованной сущности, для последующей операции сравнения.
4. Способ по любому из предыдущих пунктов, согласно которому перед операцией сравнения получаемый список, в который помещают слова и контекстные конструкции, очищают от слов-дубликатов.
5. Способ по любому из предыдущих пунктов, согласно которому тексты содержат дополнительную именованную сущность, причем при обучении каждой из них нейронная сеть присваивает контекстный маркер.
CN 108170673 A, 15.06.2018 | |||
KR 20040032355 A, 17.04.2004 | |||
CN 105677900 A, 15.06.2016 | |||
CN 106101116 A, 09.11.2016. |
Авторы
Даты
2024-12-09—Публикация
2023-11-12—Подача