Способ разметки и верификации текстовых данных Российский патент 2025 года по МПК G06F18/00 G06F40/10 

Описание патента на изобретение RU2832840C1

Изобретение относится к средствам интерактивной разметки текстовых данных.

Известна интерактивная система машинного обучения для автоматизированной разметки информации в тексте [US 2005027664 А1, опублик. 03.02.2005], предназначенная для обучения разметке текстовых данных в интерактивном режиме. Система и способ основываются на множестве начальных обучающих данных (частично размеченных или неразмеченных) и множестве примеров данных, представляющих собой результат обучения. Посредством итеративных интерактивных (с участием пользователя) сеансов обучения на размеченных данных система обучает модули разметки, которые, в свою очередь, используются для обнаружения большего количества примеров-кандидатов для разметки. После завершения процедуры разметки всех (или значительного объема) текстовых данных, на усмотрение пользователя возможно обучение итогового модуля (модулей) разметки, который может быть в дальнейшем экспортирован и использован для разметки новых текстовых данных. По мере итеративного процесса обучения для принятия пользователем соответствующих решений, интерфейс системы выборочно предоставляет пользователю экземпляры размеченных данных, обеспечивая возможность проверки размеченных данных и (при необходимости) внесения исправлений.

Недостатком данного изобретения является отсутствие средств статистического языкового моделирования, представляемых, в том числе, посредством языковых моделей глубокого обучения. Отсутствие средств языкового моделирования сказывается на возможности эффективно обрабатывать контекст размечаемых фрагментов текста и ведет к выделению сущностей на основе неполной информации в условиях семантической неоднозначности текста.

Известен сервис для разметки данных на основе замкнутого цикла активного обучения [US 11048979 В1, опублик. 29.06.2023], где описаны методы разметки данных на основе активного обучения. Сервис разметки данных на основе активного обучения позволяет пользователю создавать большие наборы данных высокой точности и управлять ими для использования в различных системах машинного обучения. Схемы на основе машинного обучения могут использоваться для автоматизации разметки и управления наборами данных, повышая эффективность разметки и сокращая сопутствующие временные затраты. В вариантах реализации данных схем используются методы активного обучения для уменьшения размера данных, разметка которых производится вручную. По мере разметки подмножеств исходного набора данных, размеченные данные используются для обучения модели, которая далее способна самостоятельно идентифицировать необходимые объекты в наборе данных. Процесс может продолжаться итеративно до сходимости модели; данная схема обеспечивает разметку данных без необходимости привлечения ручной разметки для каждого объекта.

Недостатком данного изобретения является определение оценки качества размеченных данных в соответствии с заданным порогом, без возможности проверки результатов разметки экспертом, а также помещение результатов автоматической разметки (AUTO LABELING) во множество размеченных данных (LABEL STORE) в отсутствие надежного механизма проверки размеченных данных.

Наиболее близким аналогом является система и методы глубокого обучения для классификации данных с учетом содержания и контекста [US 20200279105 А1, опублик. 09.03.2020], где описана система и методы глубокого обучения для классификации данных по бизнес-категориям и уровню конфиденциальности, с учетом содержания и контекста. Система глубокого обучения включает модуль выделения признаков, модуль классификации и разметки, модуль выделения признаков извлекает из документов контекстные признаки и признаки документа, настройка модуля классификации и разметки предусматривает классификацию документов по содержанию и контексту при помощи нейросетевых моделей с учетом бизнес-категорий и уровня конфиденциальности данных.

Недостатками изобретения являются ограниченное количество уровней (тегов), связанных с уровнем конфиденциальности данных, отсутствие политики распределения ролей и проверки результатов разметки экспертом.

Задачей заявляемого изобретения является создание интерактивного способа разметки данных, обеспечивающего экономию времени на разметку данных, с сохранением возможности проверки результатов разметки.

Техническим результатом изобретения является обеспечение экономии времени на разметку данных за счет автоматического отбора данных для разметки на основе метрик неуверенности с сохранением возможности проверки результатов разметки за счет контроля данных для обучения на каждой итерации.

Технический результат достигается следующим образом.

Способ разметки и верификации текстовых данных реализуется в несколько последовательных этапов, при этом на первом этапе осуществляют предварительное обучение языковой модели глубокого обучения на подготовленном корпусе данных, включающем в себя коллекции текстов широкой тематической направленности, на втором этапе осуществляют разметку релевантных решаемой задаче текстовых данных при помощи программного интерфейса путем выделения фрагментов текста произвольной длины, присвоения размеченным данным различных произвольно определяемых пользователем категорий, которые используют в качестве дополнительной обучающей выборки для языковой модели, на третьем этапе осуществляют предварительную обработку размеченных данных, на четвертом этапе осуществляют обучение языковой модели с учетом вновь размеченных данных и векторизацию размеченных данных, на пятом этапе производят предсказание категорий на множестве неразмеченных данных при помощи модели классификатора, сопряженного с языковой моделью, при этом формируют метрики, отражающие степень неуверенности модели для каждой категории, используют стратегию отбора объектов из выборки, каждому объекту на основе метрик присваивают степень информативности, после чего для экспертной оценки выбирают наиболее информативные объекты, при этом в качестве метрик неуверенности используют максимальную энтропию и минимальную уверенность, а также метрику "дубли категорий", отражающую степень неуверенности при отнесении данных, принадлежащих одной категории к другой категории, при этом расчет данной метрики производят при помощи расчета средней уверенности модели для одного типа категорий по разметке для другого типа категорий, после чего последовательность действий со второго по пятый этапы повторяют до достижения консенсуса между оценкой эксперта и метриками неуверенности по всем предоставляемым для оценки объектам и их предсказанным категориям, при этом выбор момента консенсуса определяет эксперт.

Кроме того, осуществляют произвольное определение категорий, например, «юр. лицо», «реквизиты», «условие», «мера ответственности» и др. со стороны пользователя, при этом состав определяемых категорий устанавливают в зависимости от стилистической принадлежности размечаемого текста и особенностей бизнес-задачи, для решения которой производится разметка данных.

К тому же выделяют фрагменты текста с произвольной глубиной вложенности, т.е. выделяют подсущности в составе сущностей, при этом в рамках данной иерархии в качестве подсущностей выбирают словосочетания, входящие в границы предложения - сущности, а также слова, входящие в границы словосочетания - сущности.

Изобретение поясняется чертежом, где на фигуре 1 представлена структурная схема способа, где 1 - базовый цикл обучения языковой модели (предварительное обучение); 2 - разметка данных пользователем (соответствие "фрагмент текста" - категория"); 3 - добавление размеченных данных в обучающую выборку; 4 - предварительная обработка размеченных данных (токенизация, удаление стоп-слов, лемматизация, приведение к нижнему регистру, сохранение форматирования оригинального фрагмента текста); 5 - цикл обучения языковой модели (с учетом размеченных данных), формирующий векторизованное представление текстовых фрагментов; 6 - модель классификации категорий, формирующая метрики неуверенности для каждой категории.

Заявленный способ реализуют следующим образом в несколько шагов:

Предварительное обучение языковой модели глубокого обучения на основе архитектуры Transformer (реализация RoBERTa) (1).

Разметка данных пользователем (2); в ходе разметки осуществляется выделение пользователем произвольных фрагментов текста, обладающих различной синтаксической организацией (слов, словосочетаний, предложений, абзацев и т.п.) и представляющих интерес с точки зрения поставленной бизнес-задачи.

Добавление размеченных данных в обучающую выборку (3); на данной стадии предусмотрена возможность экспертной оценки размеченных данных; по результатам оценки возможна передача размеченных данных на доработку (повторную разметку).

Предварительная обработка размеченных данных (токенизация, удаление стоп-слов, лемматизация, приведение к нижнему регистру, сохранение форматирования оригинального фрагмента текста) (4).

Векторизация размеченных текстовых фрагментов (фрагментов текста с тегом в виде названия категории) при помощи языковой модели; в ходе дополнительного обучения размеченные данные и контекстное окружение размеченных фрагментов позволяют языковой модели формировать необходимое признаковое описание для решения задачи поиска и предсказания категорий (5)

Предсказание категорий на множестве неразмеченных данных при помощи модели классификатора на основе градиентного бустинга, сопряженного с языковой моделью (6). Для каждой категории формируются метрики, отражающие степень неуверенности модели для каждой категории (в качестве метрик неуверенности используют максимальную энтропию и минимальную уверенность); на основе метрик определяется степень информативности, после чего для экспертной оценки выбираются наиболее информативные объекты. Дополнительно вычисляется метрика "дубли категорий", отражающая степень неуверенности при отнесении данных, принадлежащих одной категории, к другой категории; расчет данной метрики производится при помощи расчета средней уверенности модели для одного типа категорий по разметке для другого типа категорий.

Указанные шаги повторяются до достижения консенсуса между оценкой эксперта и метриками неуверенности по всем предоставляемым для оценки объектам и их категориям; выбор момента консенсуса определяет эксперт.

Промышленное применение заявленного технического решения возможно с использованием известных технических и технологических средств.

В качестве примера приводятся результаты на каждом шаге реализации способа:

(1) - языковая модель глубокого обучения предварительно обучена;

(2) - в случае решения задачи по выделению условий об ответственности в договорной документации, в качестве данных для разметки (на усмотрение пользователя) могут выступать следующие фрагменты текста и правила их совместного расположения в тексте документа:

- "… нести полную ответственность";

- "… общая сумма штрафных санкций...не должна превышать…";

- "… единственной мерой ответственности";

- "… за каждый факт нарушения";

Наличие словосочетания "штраф/неустойку в размере" и отсутствие словосочетания "за каждый/ое/ые/ую" (маркер ограниченной ответственности). Разметка соответствующего текстового фрагмента пользователем может означать определение для данного фрагмента категории «Ограниченная ответственность» или любой другой категории (на усмотрение пользователя).

(3) - в обучающую выборку добавлены размеченные данные;

(4) - размеченные данные прошли процедуру предварительной обработки;

(5) - получено векторное представление (массив числовых векторов) размеченных текстовых фрагментов;

(6) - получено предсказание категорий на множестве неразмеченных данных.

Похожие патенты RU2832840C1

название год авторы номер документа
СПОСОБ УПРАВЛЕНИЯ АВТОМАТИЗИРОВАННОЙ СИСТЕМОЙ ПРАВОВЫХ КОНСУЛЬТАЦИЙ 2019
  • Мешков Валерий Викторович
  • Хюрри Руслан Владимирович
  • Приходько Ольга Викторовна
RU2718978C1
ВЫДЕЛЕНИЕ ВРЕМЕННЫХ ВЫРАЖЕНИЙ ДЛЯ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ 2014
  • Романенко Александр Александрович
RU2595489C2
Система автоматического определения тематики текстовых документов на основе объяснимых методов искусственного интеллекта 2023
  • Соченков Илья Владимирович
  • Жебель Владимир Викторович
  • Зубарев Денис Владимирович
  • Девяткин Дмитрий Алексеевич
  • Ядринцев Василий Владимирович
RU2823436C1
Автоматическое извлечение именованных сущностей из текста 2014
  • Нехай Илья Владимирович
RU2665239C2
Способ атрибутизации частично структурированных текстов для формирования нормативно-справочной информации 2020
  • Федосин Сергей Алексеевич
  • Плотникова Наталья Павловна
  • Мартынов Владислав Александрович
  • Рыскин Константин Эдуардович
  • Кузнецов Дмитрий Александрович
  • Денискин Александр Владимирович
  • Вечканова Юлия Сергеевна
  • Федюшкин Николай Алексеевич
  • Циликов Никита Сергеевич
RU2750852C1
СПОСОБ УПРАВЛЕНИЯ ДИАЛОГОМ И СИСТЕМА ПОНИМАНИЯ ЕСТЕСТВЕННОГО ЯЗЫКА В ПЛАТФОРМЕ ВИРТУАЛЬНЫХ АССИСТЕНТОВ 2020
  • Ашманов Станислав Игоревич
  • Сухачев Павел Сергеевич
  • Зоркий Федор Кириллович
RU2759090C1
СЕГМЕНТАЦИЯ ТЕКСТА 2017
  • Инденбом Евгений Михайлович
  • Колотиенко Сергей Сергеевич
RU2666277C1
ОБУЧЕНИЕ КЛАССИФИКАТОРОВ, ИСПОЛЬЗУЕМЫХ ДЛЯ ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ 2018
  • Мацкевич Степан Евгеньевич
  • Булгаков Илья Александрович
RU2691855C1
ОБУЧЕНИЕ КЛАССИФИКАТОРОВ, ИСПОЛЬЗУЕМЫХ ДЛЯ ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ 2018
  • Мацкевич Степан Евгеньевич
  • Булгаков Илья Александрович
RU2681356C1
СПОСОБ ПОЛУЧЕНИЯ НИЗКОРАЗМЕРНЫХ ЧИСЛОВЫХ ПРЕДСТАВЛЕНИЙ ПОСЛЕДОВАТЕЛЬНОСТЕЙ СОБЫТИЙ 2020
  • Бабаев Дмитрий Леонидович
  • Овсов Никита Павлович
  • Киреев Иван Александрович
RU2741742C1

Иллюстрации к изобретению RU 2 832 840 C1

Реферат патента 2025 года Способ разметки и верификации текстовых данных

Изобретение относится к способу разметки и верификации текстовых данных. Технический результат заключается в возможности более точной разметки текстового документа. В способе на первом этапе осуществляют предварительное обучение языковой модели глубокого обучения на подготовленном корпусе данных, включающем в себя коллекции текстов широкой тематической направленности, на втором этапе осуществляют разметку релевантных решаемой задаче текстовых данных при помощи программного интерфейса путем выделения фрагментов текста произвольной длины, присвоения размеченным данным различных произвольно определяемых пользователем категорий, которые используют в качестве дополнительной обучающей выборки для языковой модели, на третьем этапе осуществляют предварительную обработку размеченных данных, на четвертом этапе осуществляют обучение языковой модели с учетом вновь размеченных данных и векторизацию размеченных данных, на пятом этапе производят предсказание категорий на множестве неразмеченных данных при помощи модели классификатора, сопряженного с языковой моделью, при этом формируют метрики, отражающие степень неуверенности модели для каждой категории, используют стратегию отбора объектов из выборки, каждому объекту на основе метрик присваивают степень информативности, после чего для экспертной оценки выбирают наиболее информативные объекты, при этом в качестве метрик неуверенности используют максимальную энтропию и минимальную уверенность, а также метрику "дубли категорий", отражающую степень неуверенности при отнесении данных, принадлежащих одной категории, к другой категории, при этом расчет данной метрики производят при помощи расчета средней уверенности модели для одного типа категорий по разметке для другого типа категорий, после чего последовательность действий со второго по пятый этапы повторяют до достижения консенсуса между оценкой эксперта и метриками неуверенности по всем предоставляемым для оценки объектам и их предсказанным категориям, при этом выбор момента консенсуса определяет эксперт. 2 з.п. ф-лы, 1 ил.

Формула изобретения RU 2 832 840 C1

1. Способ разметки и верификации текстовых данных реализуется в несколько последовательных этапов, при этом

на первом этапе осуществляют предварительное обучение языковой модели глубокого обучения на подготовленном корпусе данных, включающем в себя коллекции текстов широкой тематической направленности,

на втором этапе осуществляют разметку релевантных решаемой задаче текстовых данных при помощи программного интерфейса путем выделения фрагментов текста произвольной длины, присвоения размеченным данным различных произвольно определяемых пользователем категорий, которые используют в качестве дополнительной обучающей выборки для языковой модели,

на третьем этапе осуществляют предварительную обработку размеченных данных,

на четвертом этапе осуществляют обучение языковой модели с учетом вновь размеченных данных и векторизацию размеченных данных,

на пятом этапе производят предсказание категорий на множестве неразмеченных данных при помощи модели классификатора, сопряженного с языковой моделью, при этом формируют метрики, отражающие степень неуверенности модели для каждой категории, используют стратегию отбора объектов из выборки, каждому объекту на основе метрик присваивают степень информативности, после чего для экспертной оценки выбирают наиболее информативные объекты, при этом в качестве метрик неуверенности используют максимальную энтропию и минимальную уверенность, а также метрику "дубли категорий", отражающую степень неуверенности при отнесении данных, принадлежащих одной категории к другой категории, при этом расчет данной метрики производят при помощи расчета средней уверенности модели для одного типа категорий по разметке для другого типа категорий,

после чего последовательность действий со второго по пятый этапы повторяют до достижения консенсуса между оценкой эксперта и метриками неуверенности по всем предоставляемым для оценки объектам и их предсказанным категориям, при этом выбор момента консенсуса определяет эксперт.

2. Способ разметки и верификации текстовых данных по п. 1, отличающийся тем, что осуществляют произвольное определение категорий, например «юр. лицо», «реквизиты», «условие», «мера ответственности» и др., со стороны пользователя, при этом состав определяемых категорий устанавливают в зависимости от стилистической принадлежности размечаемого текста и особенностей бизнес-задачи, для решения которой производится разметка данных.

3. Способ разметки и верификации текстовых данных по п. 1, отличающийся тем, что выделяют фрагменты текста с произвольной глубиной вложенности, т.е. выделяют подсущности в составе сущностей, при этом в рамках данной иерархии в качестве подсущностей выбирают словосочетания, входящие в границы предложения-сущности, а также слова, входящие в границы словосочетания-сущности.

Документы, цитированные в отчете о поиске Патент 2025 года RU2832840C1

Система автоматического определения тематики текстовых документов на основе объяснимых методов искусственного интеллекта 2023
  • Соченков Илья Владимирович
  • Жебель Владимир Викторович
  • Зубарев Денис Владимирович
  • Девяткин Дмитрий Алексеевич
  • Ядринцев Василий Владимирович
RU2823436C1
ОБУЧЕНИЕ КЛАССИФИКАТОРОВ, ИСПОЛЬЗУЕМЫХ ДЛЯ ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ 2018
  • Мацкевич Степан Евгеньевич
  • Булгаков Илья Александрович
RU2691855C1
АВТОМАТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ НАБОРА КАТЕГОРИЙ ДЛЯ КЛАССИФИКАЦИИ ДОКУМЕНТА 2018
  • Орлов Никита Константинович
  • Анисимович Константин Владимирович
RU2701995C2
ИЗВЛЕЧЕНИЕ ИНФОРМАЦИОННЫХ ОБЪЕКТОВ С ИСПОЛЬЗОВАНИЕМ КОМБИНАЦИИ КЛАССИФИКАТОРОВ, АНАЛИЗИРУЮЩИХ ЛОКАЛЬНЫЕ И НЕЛОКАЛЬНЫЕ ПРИЗНАКИ 2018
  • Инденбом Евгений Михайлович
RU2686000C1
ВОССТАНОВЛЕНИЕ ТЕКСТОВЫХ АННОТАЦИЙ, СВЯЗАННЫХ С ИНФОРМАЦИОННЫМИ ОБЪЕКТАМИ 2017
  • Булгаков Илья Александрович
  • Инденбом Евгений Михайлович
RU2665261C1
US 20200279105 A1, 03.09.2020
KR 102069621 B1, 23.01.2020
US 20210065041 A1, 04.03.2021.

RU 2 832 840 C1

Авторы

Пантин Алексей Иванович

Коробейников Алексей Андреевич

Даты

2025-01-09Публикация

2023-12-26Подача