Область техники, к которой относится изобретение
Настоящее изобретение относится к области машинного обучения, и, более конкретно, к способу распознавания характера текстового контента.
Уровень техники
Интернет и социальные сети являются одним из основных источников информации и способов общения для современного человека. Они имеют широкий охват аудитории по всему миру и могут использоваться для недобросовестных действий, в частности для распространения ненадлежащего текстового контента. Для своевременного выявления подобных действий необходимы системы, способные распознавать контент предварительно заданной тематики. В последнее время высокую эффективность демонстрируют методы машинного обучения на основе обработки естественного языка, такие как модели BERT.
Как правило, подготовка качественного обучающего набора данных является сложной задачей, которая занимает много человеческих ресурсов и времени. Чем больше размер обучающего набора данных, тем выше метрики точности обученной на его основе модели. Тем не менее, постоянно появляются все новые инфоповоды, а злоумышленники действуют очень гибко и стремятся часто обновлять свои подходы к распространению ненадлежащего текстового контента, поэтому за то время, пока вручную формируется обучающий набор данных для выявления одного контента, успевают появиться новые виды контента, и формирующийся набор данных и модель на его основе могут быстро потерять актуальность.
Соответственно, в уровне техники существует потребность в создании более быстрого решения по выявлению актуальных текстов требуемой тематики, которое обеспечивало бы приемлемую точность.
Сущность изобретения
С целью устранения вышеупомянутых недостатков предшествующего уровня техники настоящее изобретение направлено на создание способа распознавания характера текстового контента.
Согласно настоящему изобретению, предложен способ распознавания характера текстового контента, содержащий этапы, на которых:
формируют исходный набор источников текстовых данных, содержащих контент предварительно заданной тематики, причем каждому источнику присваивают по меньшей мере одну метку характера контента и по меньшей мере одну метку тематики контента;
с использованием блока синтаксического анализа автоматически выполняют синтаксический анализ каждого источника в наборе источников для идентификации автора источника и идентификации ссылок на сторонние источники, причем в качестве сторонних источников рассматриваются источники, не включенные в имеющийся набор источников, причем в качестве ссылок на сторонние источники рассматриваются названия сторонних источников и url-ссылки на сторонние источники;
с использованием блока поиска выполняют поиск упомянутых сторонних источников по идентифицированным ссылкам;
с использованием блока поиска выполняют поиск сторонних источников по идентифицированным авторам;
с использованием блока проверки выбирают из найденных сторонних источников источники, тематика которых близка к по меньшей мере одной из тематик контента исходного набора источников;
с использованием блока разметки автоматически присваивают выбранным источникам соответствующие метки тематики контента;
с использованием процессора и памяти формируют из выбранных источников дополнительный набор источников;
с использованием блока разметки каждому источнику из дополнительного набора источников автоматически присваивают по меньшей мере одну метку характера контента путем сравнения данного источника с источниками из исходного набора, имеющими такую же тематику, как данный источник; и
с использованием процессора и памяти формируют обучающий набор источников путем объединения исходного набора источников и размеченного дополнительного набора источников.
В одном из вариантов осуществления источники включают в себя статьи, публикации, сообщения, комментарии и иные тексты в электронном виде в газетах, журналах, книгах, исследованиях, отчетах, веб-сайтах, блогах и социальных сетях.
В одном из вариантов осуществления итеративно выполняют этапы синтаксического анализа, поиска, выбора, разметки и формирования дополнительного набора источников до тех пор, пока не будет достигнуто минимально необходимое общее количество источников во всех сформированных наборах, пока не будет выполнено предварительно заданное количество итераций или пока не будет исчерпана возможность нахождения сторонних источников; и
объединяют все сформированные дополнительные наборы источников.
В одном из вариантов осуществления способ дополнительно содержит этап, на котором:
выполняют машинное обучение модели распознавания характера контента с использованием обучающего набора источников.
В одном из вариантов осуществления способ дополнительно содержит этапы, на которых:
принимают текстовый контент, подлежащий анализу;
с помощью обученной модели распознавания характера контента анализируют принятый текстовый контент и при наличии контента предварительно заданной тематики распознают характер контента.
В одном из вариантов осуществления с использованием блока синтаксического анализа автоматически выполняют синтаксический анализ каждого источника в наборе источников для идентификации местоположения, в котором находится автор источника и/или в котором опубликован источник,
причем поиск сторонних источников выполняют с учетом идентифицированных местоположений.
В одном из вариантов осуществления для определения близости тематики источника к предварительно заданной тематике используют определение сходства по векторному расстоянию между текстом источника и предварительно заданным набором ключевых слов этой тематики.
Технический результат
Настоящее изобретение позволяет повысить эффективность способов распознавания характера текстового контента. При этом обеспечивается повышение скорости получения результата, повышение автоматизации, повышение точности распознавания в отношении свежего текстового контента.
Следует понимать, что не каждый из вариантов осуществления может обеспечивать одновременно все указанные преимущества по сравнению со всеми известными решениями из уровня техники. Соответственно, некоторые варианты осуществления могут обладать лишь некоторыми из указанных преимуществ или иными преимуществами относительно некоторых известных решений.
Эти и другие преимущества настоящего изобретения станут понятны при прочтении нижеследующего подробного описания.
Подробное описание
Общее описание способа
Далее настоящее изобретение будет более подробно. Следует отметить, что данное описание не является ограничивающим и предназначено лишь для того, чтобы предоставить общее понимание предложенных принципов изобретения.
Способ распознавания характера текстового контента согласно настоящему изобретению содержит следующие этапы.
На этапе 1 с использованием вычислительного устройства (например, компьютера, содержащего процессор и память) формируют исходный набор источников текстовых данных, содержащих контент предварительно заданной тематики, причем каждому источнику присваивают по меньшей мере одну метку характера контента и по меньшей мере одну метку тематики контента. Источники включают в себя статьи, публикации, сообщения, комментарии и иные тексты в электронном виде в газетах, журналах, книгах, исследованиях, отчетах, веб-сайтах, блогах и социальных сетях. В общем случае подходят любые доступные тексты в электронном виде. Кроме того, в качестве текстового источника может рассматриваться источник, который в первоначальном виде не является текстовым, но из которого извлечен текст – например, путем распознавания речи из голосового сообщения, подкаста, видеоролика и т.п. Исходный набор формируется человеком, специалистом.
Далее на этапе 2 с использованием блока синтаксического анализа автоматически выполняют синтаксический анализ каждого источника в наборе источников для идентификации автора источника и идентификации ссылок на сторонние источники, причем в качестве сторонних источников рассматриваются источники, не включенные в имеющийся набор источников, причем в качестве ссылок на сторонние источники рассматриваются названия сторонних источников и url-ссылки на сторонние источники. Например, если источником является публикация в социальной сети, то определяется автор этой публикации и url-ссылки на сторонние источники в этой публикации. Если источником является репост чужой публикации в социальной сети, то в качестве автора определяется не автор публикации, а тот, кто сделал репост. Важно не упускать это звено, потому что автор исходной публикации может служить генератором контента, в то время как сеть распространителей может ссылаться на чужой контент, не генерируя свой. Следует понимать, что в качестве автора может рассматриваться аккаунт в социальной сети независимо от того, реальный ли человек стоит за публикациями в этом аккаунте или бот. Если источником является, например, научная статья, то блок синтаксического анализа может определять авторов статьи и выявлять список литературы, в котором указаны авторы и названия сторонних статей. Конкретные методы синтаксического анализа (парсинга) известны специалистам в данной области техники и не описываются здесь подробно.
На этапе 3 с использованием блока поиска автоматически или с участием оператора выполняют поиск упомянутых сторонних источников по идентифицированным ссылкам. Поиск может выполняться как просто в Интернете, так и по специализированным базам данных, таким как Scopus и т.п.
На этапе 4 с использованием блока поиска автоматически или с участием оператора выполняют поиск сторонних источников по идентифицированным авторам. Аналогично, поиск может выполняться как просто в поисковых системах, так и по специализированным базам данных.
Для этапов 3 и 4 также могут применяться методы парсинга, в том числе с применением API проверяемых ресурсов – например, API социальной сети ВКонтакте.
На этапе 5 с использованием блока проверки автоматически выбирают из найденных сторонних источников источники, тематика которых близка к по меньшей мере одной из тематик контента исходного набора источников. Для определения близости тематики источника к предварительно заданной тематике может использоваться, например, определение сходства по векторному расстоянию между текстом источника и предварительно заданным набором ключевых слов этой тематики. Существует множество известных для специалиста методов определения сходства по векторному расстоянию – например, word2vec. Если сходство превышает заданный порог, то тематика источника считается близкой к проверяемой тематике. Набор ключевых слов для каждой тематики формируется заранее оператором и может включать в себя как отдельные слова или словосочетания, так и текст новости, инфоповода и т.д. Таким образом, обеспечивается возможность обучать модель выявлять актуальные слова и темы сразу по мере их появления.
На этапе 6 с использованием блока разметки автоматически присваивают выбранным источникам соответствующие метки тематики контента. В частности, если источник был выбран на предыдущем этапе, то та тематика, которая была определена как близкая и послужила причиной выбора источника, ставится в соответствие этому источнику.
Этапы 2-6, то есть этапы синтаксического анализа, поиска, выбора, разметки и формирования дополнительного набора источников могут быть выполнены единожды, если этого окажется достаточно, или же могут итеративно выполняться до тех пор, пока не будет достигнуто минимально необходимое общее количество источников во всех сформированных наборах, пока не будет выполнено предварительно заданное количество итераций или пока не будет исчерпана возможность нахождения сторонних источников (то есть синтаксический анализ больше не может найти ссылки на сторонние источники в имеющихся наборах источников).
На этапе 7 с использованием процессора и памяти формируют из выбранных источников дополнительный набор источников. Если выполнялось несколько итераций, то на этапе 7 все сформированные дополнительные наборы источников объединяются в один.
На этапе 8 с использованием блока разметки каждому источнику из дополнительного набора источников автоматически присваивают по меньшей мере одну метку характера контента путем сравнения данного источника с источниками из исходного набора, имеющими такую же тематику, как данный источник. И вновь для этого могут использоваться методы определения сходства по векторному расстоянию – например, word2vec. В качестве примера может использоваться следующий подход: из исходного набора отбирается группа источников той же тематики, что и текущий проверяемый сторонний источник. Затем эта группа разбивается на подгруппы согласно меткам характера контента. Например, имеются темы президентских выборов в Лаосе и коррупции в Лаосе. Если метки характера контента представляют собой манипуляцию, угнетение и мистификацию, то группа источников из исходного набора по каждой теме делится на 3 соответствующих подгруппы. Определяется сходство текущего проверяемого стороннего источника с каждым источником из подгруппы по соответствующей теме и вычисляется среднее значение сходства. Если среднее значение сходства превышает заданный порог, то данному проверяемому источнику присваивается данная метка характера контента. Необходимо проверять каждую подгруппу по заданной теме, потому что один и тот же источник может иметь несколько меток характера контента.
На этапе 9 с использованием процессора и памяти формируют обучающий набор источников путем объединения исходного набора источников и размеченного дополнительного набора источников.
На этапе 10 выполняют машинное обучение модели распознавания характера контента с использованием обучающего набора источников. Конкретные методы обучения моделей машинного обучения известны специалистам в данной области техники и не раскрываются здесь подробно. В качестве неограничивающего примера может использоваться модель на основе BERT, потому что она демонстрирует относительно высокие метрики даже для небольших обучающих наборов.
Далее, когда модель обучена, ее можно использовать для непосредственной работы по выявлению текстов требуемой тематики.
На этапе 11 принимают текстовый контент, подлежащий анализу. Как указывалось выше, текст при необходимости может извлекаться и из других видов контента.
На этапе 12 с помощью обученной модели распознавания характера контента анализируют принятый текстовый контент и при наличии контента предварительно заданной тематики распознают характер контента. В частности, определяют, относится ли принятый текстовый контент к той или иной тематике из искомых тематик и к тому или иному характеру контента из искомых характеров контента.
Тем самым, обеспечивается способ распознавания характера текстового контента, обладающий повышенной точностью распознавания в отношении свежего текстового контента. Таким образом, можно своевременно выявлять возникающие тексты требуемой тематики при появлении различных новостей и инфоповодов. При этом принимаются во внимание как авторы, так и распространители контента. Скорость получения результата повышается за счет ускоренного создания обучающего набора по сравнению с традиционными способами ручного формирования наборов данных.
Для дополнительного повышения точности на этапе 2 с использованием блока синтаксического анализа может автоматически выполняться синтаксический анализ каждого источника в наборе источников для идентификации местоположения, в котором находится автор источника и/или в котором опубликован источник, и далее на этапах 3 и 4 поиск сторонних источников может выполняться с учетом идентифицированных местоположений.
Структура устройства
Следует понимать, что устройство для распознавания характера текстового контента согласно настоящему изобретению в целом выполняет функции, соответствующие этапам способа распознавания характера текстового контента. В частности, устройство может содержать процессор и память, соединенную с процессором и содержащую инструкции, которые предписывают процессору выполнять описанные выше этапы способа распознавания характера текстового контента.
Пример осуществления
Устройство для распознавания характера текстового контента может быть в качестве неограничивающего примера реализовано на базе рабочей станции с 64-разрядной ОС Windows 10, содержащего процессор Intel Xeon с частотой 3 ГГц, 32 ГБ оперативной памяти и графический процессор Nvidia с 6 ГБ памяти.
Сначала специалист формирует исходный набор данных, состоящий из публикаций в социальной сети Twitter на темы президентских выборов в Лаосе и коррупции в Лаосе. Метки характера контента включают в себя манипуляцию, угнетение и мистификацию. Также специалист формирует набор ключевых слов, содержащий, например, традиционные ключевые слова для этих тем и новый инфоповод с судебным заседанием в отношении коррупционера. Далее устройство автоматически формирует обучающий набор данных с применением API сети Twitter и поиска в поисковой машине Яндекс. Затем предварительно обученная модель Bert-base-twitter дообучается на сформированном обучающем наборе. Обученная таким образом модель применяется для распознавания текстов требуемой тематики. Метрики точности (и precision, и recall, и f1-score) достигают 0,72.
Дополнительные особенности реализации
По меньшей мере один из этапов в способе или блоков в устройстве может использовать модель искусственного интеллекта (AI) для выполнения соответствующих операций. Функция, связанная с AI, может выполняться через энергонезависимую память, энергозависимую память и процессор.
Процессор может включать в себя один или несколько процессоров. В то же время, один или несколько процессоров могут быть процессором общего назначения, например, центральным процессором (CPU), прикладным процессором (AP) или т.п., блоком обработки только графики, таким как графический процессор (GPU), визуальный процессор (VPU) и/или специализированный процессор AI, такой как нейронный процессор (NPU).
Один или несколько процессоров управляют обработкой входных данных в соответствии с заранее определенным правилом работы или моделью искусственного интеллекта (AI), хранящейся в энергонезависимой памяти и энергозависимой памяти. Предварительно определенное рабочее правило или модель искусственного интеллекта могут быть получены путем обучения. При этом процессор может выполнять операцию предварительной обработки данных для преобразования в форму, подходящую для использования в качестве входных данных для модели искусственного интеллекта.
«Получена путем обучения» означает, что посредством применения алгоритма обучения к множеству обучающих данных создается предварительно определенное рабочее правило или модель AI с желаемой характеристикой. Обучение может выполняться на самом устройстве, в котором выполняется AI согласно варианту осуществления, и/или может быть реализовано через отдельный сервер/систему.
Модель искусственного интеллекта может включать в себя множество слоев нейронной сети. Каждый из множества слоев нейронной сети включает в себя множество весовых значений и выполняет рабочую операцию для данного уровня путем вычисления между результатом вычисления предыдущего слоя и множеством весовых значений.
Примеры нейронных сетей включают, помимо прочего, сверточную нейронную сеть (CNN), глубокую нейронную сеть (DNN), рекуррентную нейронную сеть (RNN), ограниченную машину Больцмана (RBM), глубокую сеть доверия (DBN), двунаправленную рекуррентную глубокую нейронную сеть (BRDNN), генеративно-состязательные сети (GAN) и глубокие Q-сети.
Алгоритм обучения - это метод обучения предварительно определенного целевого устройства (например, нейронной сети на базе GPU) с использованием множества обучающих данных, чтобы вызывать, разрешать или управлять целевым устройством для выполнения определения или прогнозирования. Примеры алгоритмов обучения включают, но не ограничиваются ими, обучение с учителем, обучение без учителя, обучение с частичным привлечением учителя или обучение с подкреплением.
Различные иллюстративные блоки и модули, описанные в связи с раскрытием сущности в данном документе, могут реализовываться или выполняться с помощью процессора общего назначения, процессора цифровых сигналов (DSP), специализированной интегральной схемы (ASIC), программируемой пользователем вентильной матрицы (FPGA) или другого программируемого логического устройства (PLD), дискретного логического элемента или транзисторной логики, дискретных аппаратных компонентов либо любой комбинации вышеозначенного, предназначенной для того, чтобы выполнять описанные в данном документе функции. Процессор общего назначения может представлять собой микропроцессор, но в альтернативном варианте, процессор может представлять собой любой традиционный процессор, контроллер, микроконтроллер или конечный автомат. Процессор также может реализовываться как комбинация вычислительных устройств (к примеру, комбинация DSP и микропроцессора, несколько микропроцессоров, один или более микропроцессоров вместе с DSP-ядром либо любая другая подобная конфигурация).
Некоторые блоки или модули по отдельности или вместе могут представлять собой, например, компьютер, и включать в себя процессор, который сконфигурирован для вызова и выполнения компьютерных программ из памяти для выполнения этапов способа или функций блоков или модулей в соответствии с вариантами осуществления настоящего изобретения. Согласно вариантам осуществления, устройство может дополнительно включать в себя память. Процессор может вызывать и выполнять компьютерные программы из памяти для выполнения способа. Память может быть отдельным устройством, независимым от процессора, или может быть интегрирована в процессор. Память может хранить код, инструкции, команды и/или данные для исполнения на наборе из одного или более процессоров описанного устройства. Коды, инструкции, команды могут предписывать процессору выполнять этапы способа или функции устройства.
Функции, описанные в данном документе, могут реализовываться в аппаратном обеспечении, программном обеспечении, выполняемом посредством одного или более процессоров, микропрограммном обеспечении или в любой комбинации вышеозначенного, если это применимо. Аппаратные и программные средства, реализующие функции, также могут физически находиться в различных позициях, в том числе согласно такому распределению, что части функций реализуются в различных физических местоположениях, то есть может выполняться распределенная обработка или распределенные вычисления.
В случае если объем данных велик, может производиться многопоточная обработка данных, которая в простом представлении может выражаться в том, что все множество подлежащих обработке данных разделяется на набор подмножеств, и каждое ядро процессора выполняет обработку в отношении назначенного для него подмножества данных.
Вышеупомянутая память может быть энергозависимой или энергонезависимой памятью или может включать в себя как энергозависимую, так и энергонезависимую память. Специалисту в области техники должно быть также понятно, что, когда речь идет о памяти и о хранении данных, программ, кодов, инструкций, команд и т.п., подразумевается наличие машиночитаемого (или компьютерно-читаемого, процессорно-читаемого) запоминающего носителя. Машиночитаемый запоминающий носитель может представлять собой любой доступный носитель, который может использоваться для того, чтобы переносить или сохранять требуемое средство программного кода в форме инструкций или структур данных, и к которому можно осуществлять доступ посредством компьютера, процессора или иного устройства обработки общего назначения или специального назначения.
В качестве примера, а не ограничения, машиночитаемые носители могут содержать постоянное запоминающее устройство (ROM), программируемое постоянное запоминающее устройство (PROM), стираемое программируемое постоянное запоминающее устройство (EPROM), электронно-стираемое программируемое постоянное запоминающее устройство (EEPROM), флэш-память, оперативную память (RAM), статическую память с произвольным доступом (SRAM), динамическую память с произвольным доступом (DRAM), синхронную динамическую память с произвольным доступом (SDRAM), синхронную динамическую память с произвольной выборкой с двойной скоростью передачи данных (DDR SDRAM), синхронную динамическую память с произвольной выборкой с повышенной скоростью (ESDRAM), DRAM с синхронной линией связи (SLDRAM) и оперативную память с шиной прямого доступа (DR RAM) и т.п.
Информация и сигналы, описанные в данном документе, могут представляться с помощью любой из множества различных технологий. Например, данные, инструкции, команды, информация, сигналы, биты, символы и элементарные сигналы, которые могут приводиться в качестве примера в вышеприведенном описании, могут представляться посредством напряжений, токов, электромагнитных волн, магнитных полей или частиц, оптических полей или частиц либо любой комбинации вышеозначенного.
Следует понимать, что хотя в настоящем документе для описания различных элементов, компонентов, областей, слоев и/или секций могут использоваться такие термины, как "первый", "второй", "третий" и т.п., эти элементы, компоненты, области, слои и/или секции не должны ограничиваться этими терминами. Эти термины используются только для того, чтобы отличить один элемент, компонент, область, слой или секцию от другого элемента, компонента, области, слоя или секции. Так, первый элемент, компонент, область, слой или секция может быть назван вторым элементом, компонентом, областью, слоем или секцией без выхода за рамки объема настоящего изобретения. В настоящем описании термин "и/или" включает любые и все комбинации из одной или более из соответствующих перечисленных позиций. Элементы, упомянутые в единственном числе, не исключают множественности элементов, если отдельно не указано иное.
Функциональность элемента, указанного в описании или формуле изобретения как единый элемент, может быть реализована на практике посредством нескольких компонентов устройства, и наоборот, функциональность элементов, указанных в описании или формуле изобретения как несколько отдельных элементов, может быть реализована на практике посредством единого компонента.
В одном варианте осуществления элементы/блоки/модули предложенного устройства находятся в общем корпусе, могут быть размещены на одной раме/конструкции/печатной плате/кристалле и связаны друг с другом конструктивно посредством монтажных (сборочных) операций и функционально посредством линий связи. Упомянутые линии или каналы связи, если не указано иное, являются типовыми, известными специалистам линиями связи, материальная реализация которых не требует творческих усилий. Линией связи может быть провод, набор проводов, шина, дорожка, беспроводная линия связи (индуктивная, радиочастотная, инфракрасная, ультразвуковая и т.д.). Протоколы связи по линиям связи известны специалистам и не раскрываются отдельно.
Под функциональной связью элементов следует понимать связь, обеспечивающую корректное взаимодействие этих элементов друг с другом и реализацию той или иной функциональности элементов. Частными примерами функциональной связи может быть связь с возможностью обмена информацией, связь с возможностью передачи электрического тока, связь с возможностью передачи механического движения, связь с возможностью передачи света, звука, электромагнитных или механических колебаний и т.д. Конкретный вид функциональной связи определяется характером взаимодействия упомянутых элементов, и, если не указано иное, обеспечивается широко известными средствами, используя широко известные в технике принципы.
Несмотря на то, что примерные варианты осуществления были подробно описаны, следует понимать, что такие варианты осуществления являются лишь иллюстративными и не предназначены ограничивать настоящее изобретение, и что данное изобретение не должно ограничиваться конкретными описанными компоновками и конструкциями, поскольку специалисту в данной области техники на основе информации, изложенной в описании, и знаний уровня техники могут быть очевидны различные другие модификации и варианты осуществления изобретения, не выходящие за пределы сущности и объема данного изобретения.
название | год | авторы | номер документа |
---|---|---|---|
ИЗВЛЕЧЕНИЕ ИНФОРМАЦИОННЫХ ОБЪЕКТОВ С ИСПОЛЬЗОВАНИЕМ КОМБИНАЦИИ КЛАССИФИКАТОРОВ, АНАЛИЗИРУЮЩИХ ЛОКАЛЬНЫЕ И НЕЛОКАЛЬНЫЕ ПРИЗНАКИ | 2018 |
|
RU2686000C1 |
СПОСОБ И СИСТЕМА СОЗДАНИЯ КРАТКОГО ИЗЛОЖЕНИЯ ЦИФРОВОГО КОНТЕНТА | 2016 |
|
RU2637998C1 |
Автоматическое извлечение именованных сущностей из текста | 2014 |
|
RU2665239C2 |
РАСПРЕДЕЛЁННОЕ ОБУЧЕНИЕ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПЕРСОНАЛИЗАЦИИ | 2018 |
|
RU2702980C1 |
СПОСОБ И СИСТЕМА ДЛЯ ПРОВЕРКИ МЕДИАКОНТЕНТА | 2022 |
|
RU2815896C2 |
СИСТЕМА И СПОСОБ АУГМЕНТАЦИИ ОБУЧАЮЩЕЙ ВЫБОРКИ ДЛЯ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ | 2020 |
|
RU2758683C2 |
Система автоматического определения тематики текстовых документов на основе объяснимых методов искусственного интеллекта | 2023 |
|
RU2823436C1 |
Способ и система для формирования карточки объекта | 2018 |
|
RU2739554C1 |
СИСТЕМА ДЛЯ СОЗДАНИЯ ДОКУМЕНТОВ НА ОСНОВЕ АНАЛИЗА ТЕКСТА НА ЕСТЕСТВЕННОМ ЯЗЫКЕ | 2016 |
|
RU2639655C1 |
СИСТЕМА И СПОСОБ АВТОМАТИЗИРОВАННОЙ ОЦЕНКИ НАМЕРЕНИЙ И ЭМОЦИЙ ПОЛЬЗОВАТЕЛЕЙ ДИАЛОГОВОЙ СИСТЕМЫ | 2020 |
|
RU2762702C2 |
Изобретение относится к области машинного обучения и, более конкретно, к способу распознавания характера текстового контента. Техническим результатом является повышение точности и скорости получения конечного результата. Способ содержит этапы, на которых: формируют исходный набор источников текстовых данных, содержащих контент предварительно заданной тематики, причем каждому источнику присваивают по меньшей мере одну метку характера контента и по меньшей мере одну метку тематики контента; автоматически выполняют синтаксический анализ каждого источника в наборе источников для идентификации автора источника и идентификации ссылок на сторонние источники, причем в качестве сторонних источников рассматриваются источники, не включенные в имеющийся набор источников, причем в качестве ссылок на сторонние источники рассматриваются названия сторонних источников и url-ссылки на сторонние источники; выполняют поиск упомянутых сторонних источников по идентифицированным ссылкам; выполняют поиск сторонних источников по идентифицированным авторам; выбирают из найденных сторонних источников источники, тематика которых близка к по меньшей мере одной из тематик контента исходного набора источников; автоматически присваивают выбранным источникам соответствующие метки тематики контента; формируют из выбранных источников дополнительный набор источников; каждому источнику из дополнительного набора источников автоматически присваивают по меньшей мере одну метку характера контента путем сравнения данного источника с источниками из исходного набора, имеющими такую же тематику, как данный источник; и формируют обучающий набор источников путем объединения исходного набора источников и размеченного дополнительного набора источников. 3 з.п. ф-лы.
1. Способ распознавания характера текстового контента, содержащий этапы, на которых:
формируют исходный набор источников текстовых данных, содержащих контент предварительно заданной тематики, причем каждому источнику присваивают по меньшей мере одну метку характера контента и по меньшей мере одну метку тематики контента;
с использованием блока синтаксического анализа автоматически выполняют синтаксический анализ каждого источника в наборе источников для идентификации автора источника и идентификации ссылок на сторонние источники, причем в качестве сторонних источников рассматриваются источники, не включенные в имеющийся набор источников, причем в качестве ссылок на сторонние источники рассматриваются названия сторонних источников и url-ссылки на сторонние источники;
с использованием блока поиска выполняют поиск упомянутых сторонних источников по идентифицированным ссылкам;
с использованием блока поиска выполняют поиск сторонних источников по идентифицированным авторам;
с использованием блока проверки выбирают из найденных сторонних источников источники, тематика которых близка к по меньшей мере одной из тематик контента исходного набора источников;
с использованием блока разметки автоматически присваивают выбранным источникам соответствующие метки тематики контента;
с использованием процессора и памяти формируют из выбранных источников дополнительный набор источников;
итеративно выполняют этапы синтаксического анализа, поиска, выбора, разметки и формирования дополнительного набора источников и объединяют все сформированные дополнительные наборы источников до тех пор, пока не будет достигнуто минимально необходимое общее количество источников во всех сформированных наборах, пока не будет выполнено предварительно заданное количество итераций или пока не будет исчерпана возможность нахождения сторонних источников;
с использованием блока разметки каждому источнику из дополнительного набора источников автоматически присваивают по меньшей мере одну метку характера контента путем сравнения данного источника с источниками из исходного набора, имеющими такую же тематику, как данный источник;
с использованием процессора и памяти формируют обучающий набор источников путем объединения исходного набора источников и размеченного дополнительного набора источников;
выполняют машинное обучение модели распознавания характера контента с использованием обучающего набора источников;
принимают текстовый контент, подлежащий анализу; и
с помощью обученной модели распознавания характера контента анализируют принятый текстовый контент и при наличии контента предварительно заданной тематики распознают характер контента.
2. Способ по п. 1, в котором источники включают в себя статьи, публикации, сообщения, комментарии и иные тексты в электронном виде в газетах, журналах, книгах, исследованиях, отчетах, веб-сайтах, блогах и социальных сетях.
3. Способ по п. 1, в котором:
с использованием блока синтаксического анализа автоматически выполняют синтаксический анализ каждого источника в наборе источников для идентификации местоположения, в котором находится автор источника и/или в котором опубликован источник,
причем поиск сторонних источников выполняют с учетом идентифицированных местоположений.
4. Способ по п. 1, в котором для определения близости тематики источника к предварительно заданной тематике используют определение сходства по векторному расстоянию между текстом источника и предварительно заданным набором ключевых слов этой тематики.
US 2014039877 A1, 06.02.2014 | |||
US 2013268534 A1, 10.10.2013 | |||
US 2019066026 A1, 28.02.2019 | |||
US 2010017487 A1, 21.01.2010. |
Авторы
Даты
2024-10-04—Публикация
2023-06-30—Подача