Область техники
[01] Настоящее техническое решение относится к электронным устройствам и способам обработки текста. Конкретнее, системы и способы относятся к обработке текстов и для создания их кратких изложений.
Уровень техники
[02] Разработки в сфере компьютерных технологий позволяют обрабатывать большие объемы данных, включая компьютерную обработку текстов. Компьютерное создание кратких изложений или конспектов документа является одной из сложных задач компьютерной лингвистики. Основная задача компьютерного создания кратких изложений документа обладает двумя аспектами: (i) скорость обработки (поскольку некоторые краткие изложения необходимо создавать «налету») и (ii) точность (т.е. предоставление краткого изложения без потерь общего смысла документа).
[03] Подобные созданные на компьютере краткие изложения используются во многих сферах компьютерных технологий, например, поисковых системах (для создания отрывков текста для включения их на страницу результатов поиска (SERP), для предоставления пользователю кратких изложений различных документов, что позволяет более эффективно осуществлять компьютерный поиск, создавать новостные ленты из новостных статей, поддерживать базы данных текстовой информации, осуществлять машинный перевод текстов и так далее.
[04] В общем случае, существуют два типа компьютерных методов создания краткого изложения данного документа. Первый тип - генеративный метод обобщения, который включает в себя выбор слов или фраз (не целых предложений) из конкретного документа. Далее в соответствии с этим способом создается краткое изложение на основе выбранных слов или фраз.
[05] Второй тип - экстрактивное обобщение - процесс выбора и извлечения «текстовых отрывков» (обычно, предложений) из документа. Излеченные отрывки текста далее переорганизуются в некотором порядке для создания краткого изложения.
[06] В патентной заявке США №US2015/0293905 описан способ обобщения документа. Определяется концепт для каждого предложения в документе. Показатели релевантности между предложениями вычисляются в соответствии с обнаруженными концептами. Далее создается граф концептов, узел которого представляет собой предложение в документе, а ребро между двумя узлами представляет собой показатель релевантности между двумя предложениями.
[07] В патенте США №US7899666 описаны способ и система автоматического извлечения отношений между концептами, которые включены в электронный текст. Аспекты примерного варианта осуществления технического решения включают в себя семантическую сеть, которая включает в себя множество лемм, сгруппированных в синонимические ряды (синсеты), которые представляют собой концепты, каждый из синсетов обладает соответствующим смыслом, и множество ссылок, соединяющих между собой синсеты, которые представляют семантические связи между синсетами. Семантическая сеть дополнительно включает в себя семантическую информацию, включающую в себя по меньшей мере одно из: 1) расширенный набор семантических связей, представляющих: иерархические семантические связи, семантические связи синеет/корпус, семантические связи глагол/субъект, семантические связи глагол/непосредственный объект и семантические связи мелкая структура/крупная структура; 2) дерево иерархических категорий, обладающее множеством категорий, причем каждая из категорий включает в себя группу из одного или нескольких синсетов и набор признаков, причем набор признаков каждой категории связан с каждым синсетом в соответствующей категории; и 3) множество доменов, причем один или несколько доменов связаны по меньшей мере с частью синсетов, и каждый домен добавляет информацию в отношении лингвистического контекста, в котором соответствующий синеет используется в языке. Лингвистическая система использует семантическую сеть для разрешения семантической неопределенности электронного текста с помощью одного или нескольких расширяемых наборов ссылок семантической связи, дерева иерархических категорий и множества доменов для назначения соответствующего одного из смыслов элементам в электронном тексте, вне зависимости от контекстуальной ссылки.
[08] Статья «Обобщение документа» ("Summarization of a Document") авторства Прабха и др., описывает обобщение документа. Способы классификации документов используются для назначения категории, распределение Бернулли используется для операции обобщения документа. Распределение Бернулли используется для поиска вероятности совместного вхождения двух терминов в большой корпус. Лексическая связь между терминами используется для получения конкретного весового коэффициента для терминов документа. Схема индексации и обобщения документа расширяется с помощью механизма лингвистического анализа. Зависящая от контекста индексная модель улучшается с помощью величин семантических весовых коэффициентов. Оценка показателя лексической связи, основанная на взаимоотношении между концептами, выполняется для операции индексации. Показатель лексической связи Бернулли используется для выполнения процесса классификации документов. Язык Java и реляционная база данных Oracle используются для процесса разработки системы. Предлагаемая модель обеспечивает высокий весовой коэффициент терминам, включающим содержимое, и, в результате, предложения представлены в таком виде, что наиболее информативные предложения отображаются в верхней части краткого изложения, что оказывает положительный эффект на качество краткого изложения.
Раскрытие
[09] Настоящее техническое решение позволяет уменьшить по меньшей мере некоторые недостатки, присущие известному уровню техники, в отношении обработки поисковых запросов.
[10] Варианты осуществления настоящего технического решения были разработаны с учетом определения разработчиками по меньшей мере одной технической проблемы, связанной с известными подходами к созданию краткого изложения документа. В ходе экстрактивного обобщения, качество краткого изложения зависит от метода, использованного для выбора отрывков текста из документа. Разработчики также обратили внимание, что отрывки текста в документе не обладают одинаковой величиной в отношении понимания основной идеи или идей, изложенных в документе. Соответственно, если некоторые предложения являются более значимыми и ценными, чем другие, было бы предпочтительно создать краткое изложение документа с помощью тех предложений, которые обладают более значимой «величиной».
[11] Разработчики также оценили тот факт, что известные на данном уровне техники методы основываются на онтологических словарях для идентификации и/или выбора отрывков текста для включения их в краткие изложения. Проблема с таким подходом на основе онтологических словарей заключается в необходимости создания таких словарей, необходимости их поддержки и сохранения в памяти до момента выполнения компьютерного обобщения текстов. Кроме того, известные на данном уровне техники методы являются максимально эффективными для обобщения текстов, которые обладают определенной темой, для которой ранее был создан словарь, поддерживающийся в актуальном состоянии.
[12] Варианты осуществления настоящего технического решения направлены по меньшей мере на некоторые из технических проблем, присущих известному уровню техники при выполнении исполняемого на компьютере способа создания краткого изложения текста путем выбора предложений из цифрового текста на основе вычисленной величины предложения. Величина предложения вычисляется на основе самого цифрового текста без использования онтологических словарей. Конкретнее, варианты осуществления технического решения определяют величину предложения путем первоначального разбора предложения на одну или несколько концептуальных фраз, и дальнейшего определения для данного предложения цифрового текста: (i) не-контекстуальной величины для этих концептуальных фраз и (ii) контекстуальной величины для этих концептуальных фраз.
[13] Первым объектом настоящего технического решения является исполняемый на компьютере способ создания краткого изложения цифрового текста. Способ может выполняться на сервере, который соединен с сетью передачи данных. Способ включает в себя: получение сервером указания на цифровой текст для обработки, цифровой текст включает в себя множество предложений; семантический анализ (парсинг) сервером каждого из множества предложений на одну или несколько концептуальных фраз, каждая из одной или нескольких концептуальных фраз обладает по меньшей мере одним словом; парсинг выполняется путем применения по меньшей мере одного параметра парсинга; выполнение сервером первого анализа для создания величины контекстно-независимой связи (CIR) для данной концептуальной фразы из одной или нескольких концептуальных фраз, величина CIR представляет первое соотношение совместного вхождения: (i) по меньшей мере одного слова из данной концептуальной фразы и (ii) по меньшей мере одного слова из каждой из оставшихся концептуальных фраз из одной или нескольких концептуальных фраз; выполнение сервером второго анализа для создания величины контекстно-зависимой связи (CDR) для данной концептуальной фразы, величина CDR представляет собой второе соотношение: (i) числа предложений, в которые данная концептуальная фраза входит совместно с другой концептуальной фразой из одной или нескольких концептуальных фраз и (ii) общее число предложений из множества предложений, которые содержат другую концептуальную фразу из цифрового текста; определение сервером общего весового коэффициента CIR и общего весового коэффициента CDR для каждой из концептуальных фраз; определение сервером для каждой из концептуальных фраз смысловой величины концепта на основе, по меньшей мере частично, их соответствующих общего весового коэффициента CIR и общего весового коэффициента CDR; определение сервером для каждого предложения из множества предложений, смысловой величины предложения на основе, по меньшей мере частично, смысловой величины концепта для каждой концептуальной фразы, содержащейся в данном предложении; определение сервером ранга каждого предложения на основе по меньшей мере определенной смысловой величины предложения; и создание сервером краткого изложения цифрового текста, краткое изложение цифрового текста включает в себя по меньшей мере одно предложение, извлеченное из цифрового текста, на основе по меньшей мере его определенного рейтинга.
[14] В некоторых вариантах осуществления способа, способ дополнительно включает в себя сохранение в памяти краткого изложения цифрового текста в связи с цифровым текстом.
[15] В некоторых вариантах осуществления способа, по меньшей мере один параметр парсинга основан по меньшей мере на одной эвристике.
[16] В некоторых вариантах осуществления способа, способ дополнительно включает в себя, до получения указания на цифровой текст для обработки, получение сервером по меньшей мере одного эвристического значения и сохранение сервером по меньшей мере одного эвристического значения.
[17] В некоторых вариантах осуществления способа, концептуальная фраза включает в себя смысловой логический элемент, который сформирован по меньшей мере одним словом.
[18] В некоторых вариантах осуществления способа, по меньшей мере один параметр парсинга идентифицирует смысловой логический элемент, основанный по меньшей мере на одном слове, которое представляет собой существительное.
[19] В некоторых вариантах осуществления способа, по меньшей мере один параметр парсинга идентифицирует смысловой логический элемент, основанный по меньшей мере на одном слове, которое представляет собой грамматический элемент на основе существительного.
[20] В некоторых вариантах осуществления способа, способ дополнительно включает в себя, до определения величины CIR и величины CDR, нормализацию каждого из по меньшей мере одного слова.
[21] В некоторых вариантах осуществления способа, способ дополнительно включает в себя, до определения величины CIR и величины CDR, определение общих синонимов между данным словом из первой концептуальной фразы и другого данного слова из второй концептуальной фразы.
[22] В некоторых вариантах осуществления способа, первый анализ представляет собой не-онтологический анализ.
[23] В некоторых вариантах осуществления способа, способ дополнительно включает в себя анализ величины CIR для определения типа взаимосвязи соответствующей данной концептуальной фразы и другой данной одной из оставшихся концептуальных фраз из одной или нескольких концептуальных фраз, которая представляет собой одну из: взаимосвязь род-вид, эквивалентную взаимосвязь и ассоциативную взаимосвязь.
[24] В некоторых вариантах осуществления способа, этап определения общего весового коэффициента CIR для данной концептуальной фразы включает в себя агрегацию множества величин CIR данной концептуальной фразы, данная величина из множества величин CIR относится к другой данной концептуальной фразе из по меньшей мере некоторых из оставшихся концептуальных фраз в цифровом тексте.
[25] В некоторых вариантах осуществления способа, по меньшей мере некоторые из оставшихся концептуальных фраз в цифровом тексте включают в себя те оставшиеся концептуальные фразы, которые были определены при первом анализе как семантически связанные с данной концептуальной фразой.
[26] В некоторых вариантах осуществления способа, по меньшей мере некоторые из оставшихся концептуальных фраз в цифровом тексте включают в себя все оставшиеся концептуальные фразы.
[27] В некоторых вариантах осуществления способа, этап определения общего весового коэффициента CDR для данной концептуальной фразы включает в себя агрегацию множества величин CDR данной концептуальной фразы, данная величина из множества величин CDR относится к другой данной концептуальной фразе из оставшихся совместно входящих фраз в цифровом тексте.
[28] В некоторых вариантах осуществления способа, определение смысловой величины концепта для данной концептуальной фразы включает в себя агрегацию величины общего весового коэффициента CIR и величины общего весового коэффициента CDR для данной концептуальной фразы.
[29] В некоторых вариантах осуществления способа, этап агрегации величины общего весового коэффициента CIR и величины общего весового коэффициента CDR данной концептуальной фразы включает в себя перемножение общего весового коэффициента CIR и величины общего весового коэффициента CDR.
[30] В некоторых вариантах осуществления способа, определение смысловой величины предложения для данного предложения включает в себя агрегацию соответствующей смысловой величины концепта для каждой концептуальной фразы, содержащейся в данном предложении.
[31] В некоторых вариантах осуществления способа, агрегация соответствующей смысловой величины концепта из каждой фразы, содержащейся в данном предложении включает в себя (i) добавление соответствующей смысловой величины концепта для каждой концептуальной фразы, содержащейся в данном предложении для создания общей величины и (ii) разделение общей величины на число концептуальных фраз в данном предложении.
[32] В некоторых вариантах осуществления способа, создание краткого изложения цифрового текста включает в себя выбор заранее выбранного числа предложений из множества предложений на основе их соответствующей смысловой величины предложения.
[33] В некоторых вариантах осуществления способа, выбор дополнительно включает в себя сохранение порядка заранее выбранного числа предложений в соответствии с цифровым текстом.
[34] В некоторых вариантах осуществления способа, способ дополнительно включает в себя, до получения указания на цифровой текст для обработки, получение указания на заранее выбранное число предложений.
[35] В некоторых вариантах осуществления способа, выбор заранее выбранного числа предложений из множества предложений на основе их соответствующей смысловой величины предложения включает в себя: (i) выбор первого подмножества заранее выбранного числа предложений из первой части цифрового текста и (ii) выбор второго подмножества заранее выбранного числа предложений из второй части цифрового текста.
[36] В некоторых вариантах осуществления способа, выполнение первого анализа для создания величины CIR данной концептуальной фразы в отношении целевой фразы, которая является другой из одной или более концептуальных фраз, включает в себя: (i) определение числа слов в данной концептуальной фразе, которое также присутствует в целевой фразе и (ii) деление числа совместно входящих слов на общее число слов в целевой фразе.
[37] Другим объектом настоящего технического решения является исполняемый на компьютере способ создания краткого изложения цифрового текста. Способ может выполняться на сервере, который соединен с сетью передачи данных. Способ включает в себя: получение сервером указания на цифровой текст для обработки, цифровой текст включает в себя множество предложений; семантический анализ (парсинг) сервером каждого из множества предложений на одну или несколько концептуальных фраз, каждая из одной или нескольких концептуальных фраз обладает по меньшей мере одним словом; парсинг выполняется путем применения по меньшей мере одного параметра парсинга; выполнение сервером первого анализа для создания величины контекстно-независимой связи (CIR) для данной концептуальной фразы из одной или нескольких концептуальных фраз, величина CIR представляет первое соотношение совместного вхождения: (i) по меньшей мере одного слова из данной концептуальной фразы и (ii) по меньшей мере одного слова из каждой из оставшихся концептуальных фраз из одной или нескольких концептуальных фраз; выполнение сервером второго анализа для создания величины контекстно-зависимой связи (CDR) для данной концептуальной фразы, величина CDR представляет собой второе соотношение: (i) числа предложений, в которые данная концептуальная фраза входит совместно с другой концептуальной фразой из одной или нескольких концептуальных фраз и (ii) общее число предложений из множества предложений, которые содержат другую концептуальную фразу из цифрового текста; определение сервером общего весового коэффициента CIR и общего весового коэффициента CDR для каждой из концептуальных фраз; определение сервером для каждой из концептуальных фраз смысловой величины концепта на основе, по меньшей мере частично, их соответствующих общего весового коэффициента CIR и общего весового коэффициента CDR; определение сервером для каждого предложения из множества предложений, смысловой величины предложения на основе, по меньшей мере частично, смысловой величины концепта для каждой концептуальной фразы, содержащейся в данном предложении; определение сервером ранга каждого предложения на основе по меньшей мере определенной смысловой величины предложения; и назначение сервером категории темы цифровому тексту, категория темы основана по меньшей мере на одной более высоко ранжированной концептуальной фразе.
[38] Еще одним объектом настоящего технического решения является сервер. Сервер включает в себя: интерфейс связи для связи с электронным устройством через сеть передачи данных, процессор, который функционально соединен с интерфейсом связи, процессор выполнен с возможностью осуществлять: получение указания на цифровой текст для обработки, цифровой текст включает в себя множество предложений; семантический анализ (парсинг) каждого из множества предложений на одну или несколько концептуальных фраз, каждая из одной или нескольких концептуальных фраз обладает по меньшей мере одним словом, путем применения по меньшей мере одного параметра парсинга; выполнение первого анализа для создания величины контекстно-независимой связи (CIR) для данной концептуальной фразы из одной или нескольких концептуальных фраз, величина CIR представляет первое соотношение совместного вхождения: (i) по меньшей мере одного слова из данной концептуальной фразы и (ii) по меньшей мере одного слова из каждой из оставшихся концептуальных фраз из одной или нескольких концептуальных фраз; выполнение второго анализа для создания величины контекстно-зависимой связи (CDR) для данной концептуальной фразы, величина CDR представляет собой второе соотношение: (i) числа предложений, в которые данная концептуальная фраза входит совместно с другой концептуальной фразой из одной или нескольких концептуальных фраз и (ii) общее число предложений из множества предложений, которые содержат другую концептуальную фразу из цифрового текста; определение общего весового коэффициента CIR и общего весового коэффициента CDR для каждой из концептуальных фраз; определение для каждой из концептуальных фраз смысловой величины концепта на основе, по меньшей мере частично, их соответствующих общего весового коэффициента CIR и общего весового коэффициента CDR; определение для каждого предложения из множества предложений, смысловой величины предложения на основе, по меньшей мере частично, смысловой величины концепта для каждой концептуальной фразы, содержащейся в данном предложении; ранжирование каждого предложения на основе по меньшей мере определенной смысловой величины предложения; и создание краткого изложения цифрового текста, краткое изложение цифрового текста включает в себя по меньшей мере одно предложение, извлеченное из цифрового текста, на основе по меньшей мере его определенного рейтинга.
[39] В контексте настоящего описания, если четко не указано иное, "электронное устройство", "пользовательское устройство", "сервер", "удаленный сервер" и "компьютерная система" подразумевают под собой аппаратное и/или системное обеспечение, подходящее к решению соответствующей задачи. Таким образом, некоторые неограничивающие примеры аппаратного и/или программного обеспечения включают в себя компьютеры (серверы, настольные компьютеры, ноутбуки, нетбуки и так далее), смартфоны, планшеты, сетевое оборудование (маршрутизаторы, коммутаторы, шлюзы и так далее) и/или их комбинацию.
[40] В контексте настоящего описания, если четко не указано иное, "машиночитаемый носитель" и "память" подразумевает под собой носитель абсолютно любого типа и характера, не ограничивающие примеры включают в себя ОЗУ, ПЗУ, диски (компакт диски, DVD-диски, дискеты, жесткие диски и т.д.), USB-ключи, флеш-карты, твердотельные накопители и накопители на магнитной ленте.
[41] В контексте настоящего описания, если четко не указано иное, «указание» информационного элемента может представлять собой сам информационный элемент или указатель, отсылку, ссылку или другой косвенный способ, позволяющий получателю указания найти сеть, память, базу данных или другой машиночитаемый носитель, из которого может быть извлечен информационный элемент. Например, указание на файл может включать в себя сам файл (т.е. его содержимое), или же оно может являться уникальным дескриптором файла, идентифицирующим файл по отношению к конкретной файловой системе, или каким-то другими средствами передавать получателю указание на сетевую папку, адрес памяти, таблицу в базе данных или другое место, в котором можно получить доступ к файлу. Как будет понятно специалистам в данной области техники, степень точности, необходимая для такого указания, зависит от степени первичного понимания того, как должна быть интерпретирована информация, которой обмениваются получатель и отправитель указателя. Например, если до установления связи между отправителем и получателем понятно, что признак информационного элемента принимает вид ключа базы данных для записи в конкретной таблице заранее установленной базы данных, содержащей информационный элемент, то передача ключа базы данных - это все, что необходимо для эффективной передачи информационного элемента получателю, несмотря на то, что сам по себе информационный элемент не передавался между отправителем и получателем указания.
[42] В контексте настоящего описания, если конкретно не указано иное, слова «первый», «второй», «третий» и т.д. используются в виде прилагательных исключительно для того, чтобы отличать существительные, к которым они относятся, друг от друга, а не для целей описания какой-либо конкретной взаимосвязи между этими существительными. Так, например, следует иметь в виду, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо порядка, отнесения к определенному типу, хронологии, иерархии или ранжирования (например) серверов/между серверами, равно как и их использование (само по себе) не предполагает, что некий "второй сервер" обязательно должен существовать в той или иной ситуации. В дальнейшем, как указано здесь в других контекстах, упоминание «первого» элемента и «второго» элемента не исключает возможности того, что это один и тот же фактический реальный элемент. Так, например, в некоторых случаях, «первый» сервер и «второй» сервер могут являться одним и тем же программным и/или аппаратным обеспечением, а в других случаях они могут являться разным программным и/или аппаратным обеспечением.
[43] Каждый вариант осуществления настоящего технического решения преследует по меньшей мере одну из вышеупомянутых целей и/или объектов. Следует иметь в виду, что некоторые объекты настоящего технического решения, полученные в результате попыток достичь вышеупомянутой цели, могут удовлетворять и другим целям, отдельно не указанным здесь.
[44] Дополнительные и/или альтернативные характеристики, аспекты и преимущества вариантов осуществления настоящего технического решения станут очевидными из последующего описания, прилагаемых чертежей и прилагаемой формулы изобретения.
Краткое описание чертежей
[45] Для лучшего понимания настоящего технического решения, а также других его аспектов и характерных черт сделана ссылка на следующее описание, которое должно использоваться в сочетании с прилагаемыми чертежами, где:
[46] На Фиг. 1 представлена диаграмма системы, которая подходит для реализации настоящего технического решения, и/или которая используется в сочетании с вариантами осуществления настоящего технического решения.
[47] На Фиг. 2 представлена принципиальная схема сервера обработки в системе, показанной на Фиг. 1, сервер обработки реализован в соответствии с вариантами осуществления настоящего технического решения, не ограничивающими его объем.
[48] На Фиг. 3 представлен снимок экрана, показывающий цифровой текст, который отображается на клиентском устройстве системы, показанной на Фиг. 1.
[49] На Фиг. 4 представлена блок-схема способа создания краткого изложения текста, способ выполняется сервером обработки, показанным на Фиг. 2.
[50] Также следует отметить, что чертежи выполнены не в масштабе, если специально не указано иное.
Осуществление
[51] На Фиг. 1 представлена принципиальная схема системы 100, выполненной в соответствии с вариантами осуществления настоящего технического решения, не ограничивающими его объем. Важно иметь в виду, что нижеследующее описание системы 100 представляет собой описание иллюстративных вариантов осуществления настоящего технического решения. Таким образом, все последующее описание представлено только как описание иллюстративного примера настоящего технического решения. Это описание не предназначено для определения объема или установления границ настоящего технического решения. Некоторые полезные примеры модификаций системы 100 также могут быть охвачены нижеследующим описанием. Целью этого является также исключительно помощь в понимании, а не определение объема и границ настоящего технического решения. Эти модификации не представляют собой исчерпывающий список, и специалистам в данной области техники будет понятно, что возможны и другие модификации. Кроме того, это не должно интерпретироваться так, что там, где не были изложены примеры модификаций, никакие модификации невозможны, и/или что то, что описано, является единственным вариантом осуществления этого элемента настоящего технического решения. Как будет понятно специалисту в данной области техники, это, скорее всего, не так. Кроме того, следует иметь в виду, что система 100 представляет собой в некоторых конкретных проявлениях достаточно простой вариант осуществления настоящего технического решения, и в подобных случаях представлен здесь с целью облегчения понимания. Как будет понятно специалисту в данной области техники, многие варианты осуществления настоящего технического решения будут обладать гораздо большей сложностью.
[52] Все примеры и используемые здесь условные конструкции предназначены, главным образом, для того, чтобы помочь читателю понять принципы настоящего технического решения, а не для установления границ его объема. Следует также отметить, что специалисты в данной области техники могут разработать различные схемы, отдельно не описанные и не показанные здесь, но которые, тем не менее, воплощают собой принципы настоящего технического решения и находятся в границах его объема. Кроме того, для ясности в понимании, следующее описание касается достаточно упрощенных вариантов осуществления настоящего технического решения. Как будет понятно специалисту в данной области техники, многие варианты осуществления настоящего технического решения будут обладать гораздо большей сложностью.
[53] Более того, все заявленные здесь принципы, аспекты и варианты осуществления настоящего технического решения, равно как и конкретные их примеры, предназначены для обозначения их структурных и функциональных основ. Таким образом, например, специалистами в данной области техники будет очевидно, что представленные здесь блок-схемы представляют собой концептуальные иллюстративные схемы, отражающие принципы настоящего технического решения. Аналогично, любые блок-схемы, диаграммы, псевдокоды и т.п.представляют собой различные процессы, которые могут быть представлены на машиночитаемом носителе и, таким образом, использоваться компьютером или процессором, вне зависимости от того, показан явно подобный компьютер или процессор, или нет.
[54] Функции различных элементов, показанных на фигурах, включая функциональный блок, обозначенный как "процессор", могут быть обеспечены с помощью специализированного аппаратного обеспечения или же аппаратного обеспечения, способного использовать подходящее программное обеспечение. Когда речь идет о процессоре, функции могут обеспечиваться одним специализированным процессором, одним общим процессором или множеством индивидуальных процессоров, причем некоторые из них могут являться общими. В некоторых вариантах осуществления настоящего технического решения процессор может являться универсальным процессором, например, центральным процессором (CPU) или специализированным для конкретной цели процессором, например, графическим процессором (GPU). Более того, использование термина "процессор" или "контроллер" не должно подразумевать исключительно аппаратное обеспечение, способное поддерживать работу программного обеспечения, и может включать в себя, без установления ограничений, цифровой сигнальный процессор (DSP), сетевой процессор, интегральная схема специального назначения (ASIC), программируемую пользователем вентильную матрицу (FPGA), постоянное запоминающее устройство (ПЗУ) для хранения программного обеспечения, оперативное запоминающее устройство (ОЗУ) и энергонезависимое запоминающее устройство. Также может быть включено другое аппаратное обеспечение, обычное и/или специальное.
[55] Программные модули или простые модули, представляющие собой программное обеспечение, которое может быть использовано здесь в комбинации с элементами блок-схемы или другими элементами, которые указывают на выполнение этапов процесса и/или текстовое описание. Подобные модели могут быть выполнены на аппаратном обеспечении, показанном напрямую или косвенно.
[56] Техническим результатом, на достижение которого направлено заявленное решение, является расширение технических средств создания краткого изложения цифрового текста. С учетом этих примечаний, далее будут рассмотрены некоторые не ограничивающие варианты осуществления аспектов настоящего технического решения.
[57] Система 100 включает в себя сервер 102 обработки (или, просто «сервер 102»). Сервер 102 обработки может представлять собой обычный компьютерный сервер. В примере варианта осуществления настоящего технического решения, сервер 102 обработки может представлять собой сервер Dell™ PowerEdge™, на котором используется операционная система Microsoft™ Windows Server™. Излишне говорить, что сервер 102 обработки может представлять собой любое другое подходящее аппаратное и/или прикладное программное, и/или системное программное обеспечение или их комбинацию. В представленном варианте осуществления настоящего технического решения, не ограничивающем его объем, сервер 102 обработки является одиночным сервером. В других вариантах осуществления настоящего технического решения, не ограничивающих его объем, функциональность сервера 102 обработки может быть разделена, и может выполняться с помощью нескольких серверов.
[58] Сервер 102 обработки может представлять собой конкретный сервер, выполненный и запрограммированный для осуществления различных процедур, которые будут описаны далее. В альтернативных вариантах осуществления технического решения, сервер 102 обработки может выполнять различные процедуры, которые будут описаны в дополнение к другим процедурам, которые может выполнять сервер 102 обработки. Например, сервер 102 обработки может быть выполнен как сервер поисковой системы и может быть выполнен с возможностью выполнять различные процедуры, которые будут далее описаны в дополнение к выполнению различных процедур, связанных с выполнением поисков и отрисовкой страницы результатов поиска (SERP).
[59] Варианты аппаратного осуществления сервера 102 обработки широко известны среди специалистов в данной области техники. Тем не менее, коротко говоря, сервер 102 обработки содержит интерфейс связи (не показан), настроенный и выполненный с возможностью устанавливать соединение с различными элементами через сеть 104 передачи данных. С этой целью, сервер 102 обработки соединен с сетью 104 передачи данных. В некоторых вариантах осуществления настоящего технического решения, не ограничивающих его объем, сеть 104 передачи данных может представлять собой Интернет. В других вариантах осуществления настоящего технического решения, сеть связи 104 может быть реализована иначе - в виде глобальной сети связи, локальной сети связи, частной сети связи и т.п.
[60] С сетью 104 передачи данных также соединен сервер 108 источника документа. Аналогично серверу 102 обработки, сервер 108 источника документа может быть реализован как обычный компьютерный сервер. В примере варианта осуществления настоящего технического решения, сервер 108 источника документа может также представлять собой сервер Dell™ PowerEdge™, на котором используется операционная система Microsoft™ Windows Server™.
[61] Излишне говорить, что сервер 108 источника документа может представлять собой любое другое подходящее аппаратное и/или прикладное программное, и/или системное программное обеспечение или их комбинацию. В представленном варианте осуществления настоящего технического решения, не ограничивающем его объем, сервер 108 источника документа является одиночным сервером. В других вариантах осуществления настоящего технического решения, не ограничивающих его объем, функциональность сервера 108 источника документа может быть разделена, и может выполняться с помощью нескольких серверов. Важно иметь в виду, что сервер 108 источника документа и сервер 102 обработки не обязаны быть реализованы одинаковым образом.
[62] Сервер 108 источника документа размещает содержимое, включая один или несколько цифровых документов 110. Природа одного или нескольких цифровых документов 110 никак конкретно не ограничена. Коротко говоря, данный один из одного или нескольких цифровых документов 110 (упоминается как цифровой документ 110 для простоты) содержит одно или несколько предложений. Цифровой документ 110 может представлять собой, например, веб-страницу, содержащую текст и/или изображения (например, статью из WIKIPEDIA™ о мейнфреймах). Цифровой документ 110 может представлять собой, в качестве другого примера, цифровую версию книги (например, цифровую версию книги «Гордость и Предубеждение» Джейн Остин).
[63] Вне зависимости от типа цифрового документа 110, может быть желательно создать краткое изложение цифрового документа 110. Вариантов использования такого краткого изложения бесчисленное множество. Например, может быть желательно создать краткое изложение цифрового документа 110, который представляет собой веб-ресурс для включения такого созданного краткого изложения на страницу результатов поиска (SERP), которая была создана сервером поисковой системы в ответ на поисковый запрос пользователя. В качестве другого примера, может быть желательно создать краткое изложение цифрового документа 110, который является цифровой версией книги, для публикации этого краткого изложения в ответ на получение запроса о таком кратком изложении (например, при запросе пользователя к соответствующему серверу).
[64] Вне зависимости от того, по какой причине может быть желательно подобное обобщение, в системе 100 предусмотрено клиентское устройство 106. Клиентское устройство 106 способно получать доступ к серверу 108 источника документа и/или серверу 102 обработки через сеть 104 передачи данных. Клиентское устройство 106 способно получать доступ к серверу 108 источника документа и/или серверу 102 обработки либо для доступа к содержимому одного или нескольких цифровых документов 110, либо для доступа к их созданным кратким изложениям. С этой целью, клиентское устройство 106 соединено с сетью 104 через линию передачи данных (не пронумерована).
[65] Аппаратное осуществление клиентского устройства 106 никак конкретно не ограничено. Клиентское устройство 106 может, например, в качестве не ограничивающего примера, представлять собой настольный (как показано на Фиг. 1) компьютер, ноутбук, смартфон (например, Apple iPhone™ или Samsung Galaxy S5™), персональный цифровой органайзер (PDA) или другое устройство, включающее в себя функциональность вычисления и возможности передачи данных. Клиентское устройство 106 может включать в себя, среди прочего, внутренние аппаратные компоненты, включая один или несколько одно- или мультиядерных процессоров, которые коллективно представлены здесь как процессор (не показан), ОЗУ (не показано), сетевой интерфейс (не показано) для связи с сервером 108 источника документа.
[66] Реализация линии передачи данных не ограничена и будет зависеть от того, какое клиентское устройство 106 используется. В качестве примера (но не ограничения) в данных вариантах осуществления настоящего технического решения в случаях, когда клиентское устройство 106 представляет собой беспроводное устройство связи (например, смартфон), линия передачи данных представляет собой беспроводную сеть передачи данных (например, среди прочего, линию передачи данных 3G, линию передачи данных 4G, беспроводной интернет Wireless Fidelity или WiFi®, Bluetooth® и т.п.). В тех примерах, где клиентское устройство 106 представляет собой портативный компьютер, линия передачи данных может быть как беспроводной (беспроводной интернет Wireless Fidelity или WiFi®, Bluetooth® и т.п) так и проводной (соединение на основе сети Ethernet).
[67] Клиентское устройство 106 связано с пользователем 112, который может взаимодействовать с клиентским устройством 106. В некоторых вариантах осуществления настоящего технического решения, клиентское устройство 106 может быть выполнено с возможностью выполнять браузерное приложение (не показано). В общем случае, задачей браузерного приложения является предоставление пользователю 112 доступа к одному или нескольким веб-ресурсам и/или к одному или нескольким сервисам. Один или несколько веб-ресурсов и/или один или несколько сервисов могут храниться или предоставляться сервером 102 обработки и/или сервером 108 источника документа.
[68] Реализация браузерного приложения никак конкретно не ограничена. Например, браузерное приложение 104 может быть реализовано как Яндекс™ браузер. Несмотря на то что клиентское устройство 106 связано с пользователем 112, эта связь не требует от пользователя 112 авторизации или чего-либо подобного.
[69] Важно иметь в виду, что варианты реализации клиентского устройства 106, линии передачи данных и сети 104 передачи данных приведены исключительно для наглядности. Таким образом, специалисты в данной области техники смогут понять подробности других конкретных вариантов осуществления клиентского устройства 106, линии передачи данных и сети 104 передачи данных. То есть, представленные здесь примеры не ограничивают объем настоящего технического решения.
[70] На Фиг. 3 представлен снимок 300 экрана, который отображает цифровой текст 302. Цифровой текст 302 может представлять собой, например, отрисованную версию одного или нескольких цифровых документов 110, доступных клиентскому устройству 106 через сеть 104 передачи данных. Для целей иллюстрации предполагается, что один или несколько цифровых документов 110 является цифровой версией книги, и цифровой текст 302 является частью цифровой версии книги, отрисованной на устройстве вывода клиентского устройства 106. Несмотря на то, что устройство вывода не показано, оно может быть реализовано как экран, монитор, сенсорный экран и так далее.
[71] Цифровой текст 302 создан из множества предложений 304, множество предложений включает в себя ряд индивидуальных предложений 306. Каждое предложение 306 отделено знаком пунктуации, который в данном случае является точкой, но также может представлять собой восклицательный знак, вопросительный знак и так далее. Каждое предложение 306 создано из индивидуального слова 308. Таким образом, предложение 306 может включать в себя одно или несколько индивидуальных слов 308. Во избежание сомнений, следует отметить, что цифровой текст 302 (и, конкретнее, каждая буква индивидуальных слов 308) представлена буквой «X», тем не менее, в реальности индивидуальные слова 308 созданы из букв конкретного языка. Например, если конкретным языком является английский, данное предложение 306 может представлять собой: "The cost of modern computer systems has been steadily decreasing compared to early days of computers" (англ. «Стоимость современных компьютерных систем заметно снизилась по сравнению со стоимостью первых компьютеров»).
[72] Функции и процедуры различных компонентов сервера 102 обработки будут более подробно описаны далее с использованием примера цифрового текста 302. На Фиг. 2 представлено схематичное изображение сервера 102 обработки, который выполняется в соответствии с некоторыми неограничивающими вариантами осуществления настоящего технического решения. Сервер 102 обработки включает в себя (или иначе получает доступ к): модуль 202 получения текста, модуль 204 парсинга, база 206 данных параметров парсинга, модуль 208 создания величины контекстно-независимой связи, модуль 210 создания величины контекстно-зависимой связи, модуль 212 обработки весового коэффициента, модуль 216 определения смысловой величины концепта, модуль 218 определения смысловой величины предложения, модуль 220 ранжирования, модуль 222 создания краткого изложения, хранилище 224 кратких изложений.
[73] Несмотря на то, что модуль 202 получения текста, модуль 204 парсинга, база 206 данных параметров парсинга, модуль 208 создания величины контекстно-независимой связи, модуль 210 создания величины контекстно-зависимой связи, модуль 212 обработки весового коэффициента, модуль 216 определения смысловой величины концепта, модуль 218 определения смысловой величины предложения, модуль 220 ранжирования, модуль 222 создания краткого изложения и хранилище 224 кратких изложений представлены здесь схематически в распределенном виде для простоты понимания, подразумевается, что некоторые или все из модуля 202 получения текста, модуля 204 парсинга, базы 206 данных параметров парсинга, модуля 208 создания величины контекстно-независимой связи, модуля 210 создания величины контекстно-зависимой связи, модуля 212 обработки весового коэффициента, модуля 216 определения смысловой величины концепта, модуля 218 определения смысловой величины предложения, модуля 220 ранжирования, модуля 222 создания краткого изложения и хранилища 224 кратких изложений могут быть реализованы как единый элемент (например, единое вычислительное устройство - сервер или тому подобное).
[74] Функциональности каждого из модуля 202 получения текста, модуля 204 парсинга, базы 206 данных параметров парсинга, модуля 208 создания величины контекстно-независимой связи, модуля 210 создания величины контекстно-зависимой связи, модуля 212 обработки весового коэффициента, модуля 216 определения смысловой величины концепта, модуля 218 определения смысловой величины предложения, модуля 220 ранжирования, модуля 222 создания краткого изложения и хранилища 224 кратких изложений, а также данные и/или информация, которые были обработаны или сохранены на них, будут более подробно описаны далее.
[75] В соответствии с вариантами осуществления настоящего технического решения, модуль 202 получения текста выполнен с возможностью получать указание на цифровой текст 302 для обработки. Как было упомянуто ранее, цифровой текст 302 включает в себя множество предложений.
[76] То, как именно модуль 202 получения текста получает указание на цифровой текст 302, никак конкретно не ограничено. Например, модуль 202 получения текста может получать указание на цифровой текст 302 от сервера 108 источника документа в ответ на запрос от клиентского устройства 106. Клиентское устройство 106 может создавать подобный запрос в ответ на пользовательскую команду, полученную от пользователя 112. Например, пользователь 112 может желать получать доступ к одному или нескольким цифровым документам 110, сохраненным с помощью сервера 108 источника документа, и получать краткое изложение цифрового текста 302, который представляет то же самое.
[77] Альтернативно, модуль 202 получения текста может получать указание на цифровой текст 302 от сервера 108 источника документа в ответ на другую процедуру, выполняемую сервером 102 обработки. Например, в том варианте осуществления технического решения, где сервер 102 обработки также выполняет функциональность поисковой системы, модуль 202 получения текста может получать указание на цифровой текст 302 напрямую или косвенно от сервера 108 источника документа как часть обработки поискового запроса, полученного от клиентского устройства 106 как часть создания страницы результатов поиска (SERP), которая обладает сниппетом, содержащим краткое изложение одного или нескольких цифровых документов. Сервер 102 обработки, как часть создания страницы результатов поиска (SERP), обычно создает «сниппет» цифрового текста 302, который включает в себя краткое изложение документа, которое будет представлено как часть страницы результатов поиска.
[78] Модуль 204 парсинга получает указание на цифровой текст 302. Модуль 204 парсинга выполнен с возможностью разбивать при помощи парсинга каждое из множества предложений 304 на одну или несколько концептуальных фраз 310. Данная концептуальная фраза 312 из одной или нескольких концептуальных фраз 310 включают в себя одно или несколько слов 308.
[79] Модуль 204 парсинга выполняет парсинг путем применения по меньшей мере одного параметра 214 парсинга. Как будет описано далее, по меньшей мере один параметр 214 парсинга может быть зависимым от языка. По этой причине, модуль 204 имеет доступ к базе 206 данных параметров парсинга. База 206 данных параметров парсинга сохраняет указание на один или несколько параметров 314 парсинга. В общем случае, один или несколько параметров 214 парсинга позволяют модулю 204 парсинга идентифицировать одну или несколько концептуальных фраз 310. Данная концептуальная фраза 312 является смысловым логическим элементом в цифровом тексте 302. Исключительно в качестве примера, данная концептуальная фраза 312 может представлять собой: "modern computer systems" («современные компьютерные системы»), "information retrieval methods" («способы получения информации»), "wooden chair" («деревянный стул»), "umbrella" («зонт») и так далее.
[80] Один или несколько параметров 214 парсинга могут быть основаны на одном или нескольких конкретных эвристических правилах. Одно или несколько эвристических правил могут представлять собой грамматические правила. Например, грамматическое правило может быть таковым, что данная концептуальная фраза 312 является словосочетанием, которое включает в себя одну или несколько соседних слов, слова представляют собой существительные, прилагательные или конкретные типы союзов. Каждая концептуальная фраза 312 может быть идентифицирована с помощью «инициирующего слова», которое может представлять собой главное слово концептуальной фразы 312. Главное слово может быть определено на основе позиции слова в данной концептуальной фразе 312.
[81] Конкретные правила определения инициирующего слова могут изменяться (т.е. конкретные правила могут зависеть от языка). В русском языке, главное слово обычно является самым левым существительным в данной концептуальной фразе 312. В английском языке, это может быть самое правое существительное (если отсутствуют такие предлоги как «of»). Например: (i) в концептуальной фразе 312 «article text automatic TRANSLATIONS - написанное заглавными буквами слово «translation» является главным словом, которое является самым правым словом или (ii) в концептуальной фразе «automatic TRANSLATION of article text» написанное заглавными буквами слово «translation» является главным словом, которое является самым левым существительным перед предлогом.
[82] Альтернативно, определение и приложения одного или нескольких параметров 214 парсинга может выполняться с помощью алгоритма машинного обучения.
[83] Конкретный технический эффект от применения одного или нескольких параметров 214 парсинга заключен в возможности идентифицировать одну или несколько концептуальных фраз 310 без использования словарей (таким образом, не требуя заполнения, обновления, поддержки и сохранения словарей).
[84] В некоторых вариантах осуществления настоящего технического решения, модуль 204 парсинга дополнительно выполнен с возможностью нормализовать каждую данную концептуальную фразу 312. В некоторых вариантах осуществления настоящего технического решения, каждое слово 308 данной концептуальной фразы 312 приведено к своей нормальной форме (например, окончания и, в некоторых случаях, суффиксы могут быть опущены). В некоторых вариантах осуществления настоящего технического решения, данная концептуальная фраза 312 нормализована до леммы. В некоторых вариантах осуществления настоящего технического решения, некоторые или все из слов 308 данной концептуальной фразы могут быть приведены к их главному (наиболее часто используемому) синониму с помощью базы данных тезауруса (не показано).
[85] В некоторых вариантах осуществления настоящего технического решения, модуль 204 парсинга выполнен с возможностью нормализовать инициирующее слово 308 с помощью первой процедуры нормализации, и нормализовать остальные слова 308 в данной концептуальной фразе 312 с помощью второй процедуры нормализации. Например, вторая процедура нормализации может представлять собой удаление (или замену на инфинитивную форму) суффиксов и окончаний, а первая процедура нормализации может представлять собой удаление (или замену на инфинитивную форму) только окончаний.
[86] В некоторых в некоторых вариантах осуществления технического решения, модуль 204 парсинга далее реорганизует слова 308 данной концептуальной фразы 312 так, чтобы в реорганизованной версии концептуальной фразы 312 главное слово 308 стояло в начале, а после него стояли остальные нормализованные слова 308, ранжированные в алфавитном порядке. Естественно, модуль 204 парсинга может реорганизовывать слова 308 с помощью других подходов. Конкретный технический эффект от модуля 204, который нормализует и/или реорганизует одну или несколько концептуальных фраз 310, заключается в возможности более эффективно определять сходства между различными из одной или нескольких концептуальных фраз 310 (процесс будет описан далее).
[87] Исключительно в виде примера, первая данная концептуальная фраза 312 может представлять собой "information search systems" («системы информационного поиска»), а вторая данная концептуальная фраза 312 может представлять собой "system for information searching" («системы для информационного поиска»). Используя различные техники, описанные выше, модуль 204 парсинга нормализует первую данную концептуальную фразу 312 до "system information search" и вторую данную концептуальную фразу 312 до "system information search".
[88] Модуль 208 создания величины контекстно-независимой связи выполнен с возможностью выполнять первый анализ для создания величины контекстно-независимой связи (CIR) для данной концептуальной фразы 312 из одной или нескольких концептуальных фраз 310. В общем случае, величина CIR представляет первое соотношение совместного включения: (i) по меньшей мере одного слова 308 данной концептуальной фразы 312 и (ii) по меньшей мере одного слова 308 каждой оставшейся концептуальной фразы 312 из одной или нескольких концептуальных фраз 310.
[89] Величина CIR может быть использована модулем 208 создания величины контекстно-независимой связи для определения отношений между первой данной концептуальной фразой 312 и второй данной концептуальной фразой 312.
[90] Исключительно в виде примера, первая данная концептуальная фраза 312 может представлять собой "computer technology" («компьютерные технологии»), а вторая концептуальная фраза 312 может представлять собой "modern computer technologies" («современные компьютерные технологии»). Величина CIR второй данной концептуальной фразы 312 по отношению к первой данной концептуальной фразе 312 равна 1.00, что вычисляется как два ("computer", "technology") разделить на два ("computer technology"). Другими словами, два слова из второй данной концептуальной фразы 312 включены в первую данную концептуальную фразу 312, первая данная концептуальная фраза 312 включает в себя только два совместно входящих слова.
[91] Величина CIR первой данной концептуальной фразы 312 по отношению ко второй данной концептуальной фразе 312 равна 0.67, что вычисляется как два ("computer", "technology") разделить на три ("modern computer technologies"). Другими словами, два слова из первой данной концептуальной фразы 312 присутствуют во второй данной концептуальной фразе 312, вторая данная концептуальная фраза 312 включает в себя более чем два совместно входящих слова.
[92] Где из двух концептуальных фраз 312 - первая связана с величиной CIR равной 1, а другая связана с величиной CIR меньше 1 - подобное соотношение величины CIR указывает на взаимосвязь род-вид между первой концептуальной фразой 312 и второй концептуальной фразой 312.
[93] В качестве другого примера, первая данная концептуальная фраза 312 может представлять собой "modern computer technologies" («современные компьютерные технологии»), а вторая концептуальная фраза 312 может представлять собой "advanced computer technologies for management" («передовые компьютерные технологии для управления»). Величина CIR второй данной концептуальной фразы 312 по отношению к первой данной концептуальной фразе 312 равна 0.67, что вычисляется как два ("computer", "technology") разделить на три ("modern computer technologies"). Другими словами, два слова из второй данной концептуальной фразы 312 включены в первую данную концептуальную фразу 312, первая данная концептуальная фраза 312 обладает более чем двумя совместно входящими словами.
[94] Величина CIR первой данной концептуальной фразы 312 по отношению ко второй данной концептуальной фразе 312 равна 0.50, что вычисляется как два ("computer", "technology") разделить на четыре ("advanced computer technologies [for] management"). Другими словами, два слова из первой данной концептуальной фразы 312 присутствуют во второй данной концептуальной фразе 312, вторая концептуальная фраза 312 включает в себя более чем два совместно входящих слова.
[95] Где из двух концептуальных фраз 312 - первая связана с величиной CIR меньшей 1, и другая также связана с величиной CIR меньше 1 - подобное соотношение величины CIR указывает на ассоциативную взаимосвязь между первой концептуальной фразой 312 и второй концептуальной фразой 312.
[96] Исключительно в виде примера, первая данная концептуальная фраза 312 может представлять собой "information search systems" («системы информационного поиска»), а вторая концептуальная фраза 312 может представлять собой "systems for information searching" («системы для информационного поиска»). Величины CIR обоих первой данной концептуальной фразы 312 в отношении ко второй данной концептуальной фразой 312 и второй данной концептуальной фразы 312 к первой данной концептуальной фразой равны 1.00, вычисляется как 3 ("system", "information" and "search"), разделенное на 3 ("system information search", в нормализованном и реорганизованном виде).
[97] Где из двух концептуальных фраз 312 - первая связана с величиной CIR равной 1, а другая связана с величиной CIR меньше 1 - подобное соотношение величины CIR указывает на эквивалентную взаимосвязь между первой концептуальной фразой 312 и второй концептуальной фразой 312.
[98] Модуль 208 создания величины контекстно-независимой связи далее повторяет процесс для данной концептуальной фразы 312 в отношении ко всем другим концептуальным фразам 312 из одной или нескольких концептуальных фраз 310. Далее, модуль 204 парсинга повторяет процесс для другой концептуальной фразы 312 в отношении ко всем другим концептуальным фразам 312 из одной или нескольких концептуальных фраз 310.
[99] Модуль 208 создания величины контекстно-независимой связи далее может создавать первую матрицу определенных контекстно-независимых логических связей между данной концептуальной фразой 312 в отношении ко всем другим концептуальным фразам 312 из одной или нескольких концептуальных фраз 310.
[100] Модуль 210 величины контекстно-зависимой связи может выполнять второй анализ для создания величины контекстно-зависимой связи (CDR) для данной концептуальной фразы 312. В общем случае, величина CDR представляет второе соотношение: (i) числа предложений, в которые данная концептуальная фраза 312 совместно входит с другой концептуальной фразой 312 из одной или нескольких концептуальных фраз 310 по отношению к общему числу предложений из множества предложений 304, которые содержат другую концептуальную фразу 312 из цифрового текста 302.
[101] Модуль 210 величины контекстно-зависимой связи далее может создавать вторую матрицу определенных контекстно-зависимых логических связей между данной концептуальной фразой 312 в отношении ко всем другим концептуальным фразам 312 из одной или нескольких концептуальных фраз 310.
[102] Модуль 212 обработки величины весового коэффициента выполнен с возможностью определять общий весовой коэффициент CIR и общий весовой коэффициент CDR для каждой из одной или нескольких концептуальных фраз 310. В некоторых вариантах осуществления технического решения, модуль 212 обработки весового коэффициента использует вышеописанную первую матрицу и вторую матрицу для суммирования, для данной концептуальной фразы 312, их соответствующих величин CIR и CDR для создания, соответственно, общего весового коэффициента CIR и общего весового коэффициента CDR.
[103] Модуль 216 определения смысловой величины концепта выполнен с возможностью определить, для каждой из концептуальных фраз 312, смысловую величину концепта, на основе, по меньшей мере частично, ее соответствующего общего весового коэффициента CIR и общего весового коэффициента CDR. В некоторых вариантах осуществления настоящего технического решения, модуль 216 определения смысловой величины концепта определяет смысловую величину концепта путем умножения соответствующего общего весового коэффициента CIR и общего весового коэффициента CDR данной концептуальной фразы. Естественно, модуль 216 определения смысловой величины концепта может определять смысловую величину концепта путем применения различных функций.
[104] Модуль 218 определения смысловой величины предложения выполнен с возможностью определять, для данного предложения 306 из множества предложений 304, смысловую величину предложения. В некоторых вариантах осуществления настоящего технического решения, модуль 218 определения смысловой величины предложения определяет смысловую величину предложения путем добавления всех смысловых величин концептов из концептуальных фраз 312, которые составляют данное предложение 306, и далее разделяет результат на число концептуальных фраз 312 в данном предложений. Естественно, модуль 218 определения смысловой величины предложения может определять смысловую величину предложения путем применения различных функций.
[105] Модуль 220 ранжирования выполнен с возможностью ранжировать каждое предложение 306 (определять его ранг) на основе по меньшей мере определенной смысловой величины предложения. В некоторых вариантах осуществления настоящего технического решения, модуль 220 ранжирования ранжирует каждое предложение 306 из множества предложения 306 в порядке убывания соответствующей смысловой величины предложения. Другими словами, модуль 220 ранжирования упорядочивает множество предложений 306 в порядке убывания с наиболее важного предложения 306 к наименее важному предложению 306, причем важность предложения определяется соответствующей ему смысловой величиной предложения.
[106] Модуль 222 создания краткого изложения выполнен с возможностью создавать краткое изложение цифрового текста 302. Модуль 222 создания краткого изложения создает краткое изложение цифрового текста 302 путем извлечения по меньшей мере одного предложения 306 из цифрового текста 302 на основе определенного ранга по меньшей мере одного предложения 306. В некоторых вариантах осуществления настоящего технического решения, модуль 222 создания краткого изложения создает краткое изложение цифрового текста 302 путем выбора заранее определенного числа предложений 306, обладающих более высоким рангом на основе соответствующей смысловой величины предложения. В некоторых вариантах осуществления настоящего технического решения, число выбранных предложений 306 определяется заранее системным администратором. В других вариантах осуществления технического решения, число выбранных предложений 306 заранее определяется или выбирается пользователем 112.
[107] Таким образом, в других вариантах осуществления настоящего технического решения, модуль 222 создания краткого изложения может получать указание на заранее выбранное число предложений 306, которые будут включены в краткое изложение. Например, это указание может быть получено от клиентского устройства 106. Альтернативно, это указание может быть создано самим сервером 102 обработки.
[108] В некоторых вариантах осуществления настоящего технического решения, модуль 222 создания краткого изложения создает краткое изложение цифрового текста 302 путем использования заранее определенного числа предложений 306 при сохранении порядка предложений в цифровом тексте 302.
[109] Модуль 222 создания краткого изложения выполнен с возможностью сохранять краткое изложение в хранилище 224 кратких изложений. Конкретнее, модуль 222 создания краткого изложения сохраняет краткое изложение в хранилище 224 кратких изложений в связи с цифровым текстом 302. Эта связь с цифровым текстом 302 может быть реализована как сохранение краткого изложения в связи, например, с ID цифрового текста 302.
[110] С учетом архитектуры, описанной выше, а также представленных примеров, возможно выполнять исполняемый на компьютере способ создания краткого изложения цифрового текста 302. На Фиг. 4 представлена блок-схема способа 400, реализованного в соответствии с вариантами осуществления настоящего технического решения, не ограничивающими его объем. Способ 400 выполняется на сервере 102 обработки. Следует отметить, что различные этапы, описанные выше как исполняемые различными компонентами сервера 102 обработки (т.е. модулем 202 получения текста, модулем 204 парсинга, базой 206 данных параметров парсинга, модулем 208 создания величины контекстно-независимой связи, модулем 210 создания величины контекстно-зависимой связи, модулем 212 обработки весового коэффициента, модулем 216 определения смысловой величины концепта, модулем 218 определения смысловой величины предложения, модулем 220 ранжирования, модулем 222 создания краткого изложения и хранилищем 224 кратких изложений) будут описаны как выполняемые сервером 102 обработки при описании способа 400. Также следует упомянуть, что сервер 102 обработки соединен с сетью 104 передачи данных.
[111] 402 - получение сервером указания на цифровой текст для обработки, цифровой текст включает в себя множество предложений
[112] Способ 400 начинается с выполнения этапа 402, на котором сервер 102 обработки получает указание на цифровой текст 302 для обработки. Следует упомянуть, что цифровой текст 302 включает в себя множество предложений.
[113] 404 - парсинг сервером каждого из множества предложений на одну или несколько концептуальных фраз, каждая из одной или нескольких концептуальных фраз обладает по меньшей мере одним словом; парсинг выполняется путем применения по меньшей мере одного параметра парсинга
[114] Способ 400 продолжается на этапе 404, где сервер 102 обработки подвергает парсингу каждое из множества предложений 304 на одну или несколько концептуальных фраз 310. Этап парсинга 404 выполняется путем применения по меньшей мере одного параметра 214 парсинга. По меньшей мере один параметр 214 парсинга может быть зависимым от языка. Парсинг 404 выполняется так, что каждая определенная таким образом концептуальная фраза 312 состоит по меньшей мере из одного слова 308.
[115] В некоторых вариантах осуществления способа 400, по меньшей мере один параметр 214 парсинга основан по меньшей мере на одной эвристике. Таким образом, в некоторых вариантах осуществления способа 400, способ 400 дополнительно включает в себя, до этапа получения 402 указания на цифровой текст 302, этап получения по меньшей мере одного эвристического значения и сохранения по меньшей мере одного эвристического знания в памяти сервера 102 обработки.
[116] В некоторых вариантах осуществления способа 400, концептуальная фраза 312 включает в себя смысловой логический элемент, который сформирован по меньшей мере одним словом 308. По меньшей мере один параметр 214 парсинга может быть использован сервером 102 обработки для идентификации смыслового логического элемента на основе по меньшей мере одного слова 308, которое является существительным или грамматическим элементом на основе существительного (или другое подходящее грамматические правило, которое формирует часть по меньшей мере одного параметра 214 парсинга).
[117] В некоторых вариантах осуществления способа 400, первый анализ является лингвистическим анализом. В некоторых вариантах осуществления настоящего технического решения, первый анализ является не-онтологическим анализом (т.е. он не полагается на онтологические словари или другие источники, а анализирует сами слова 308).
[118] 406 - выполнение сервером первого анализа для создания величины контекстно-независимой связи (CIR) для данной концептуальной фразы из одной или нескольких концептуальных фраз, величина CIR представляет собой первое соотношение совместного вхождения: (i) по меньшей мере одного слова данной концептуальной фразы и (ii) по меньшей мере одного слова каждой оставшейся концептуальной фразы из одной или нескольких концептуальных фраз
[119] Способ 400 продолжается на этапе 406, где сервер 102 обработки выполняет первый анализ для создания величины контекстно-независимой связи (CIR) для данной концептуальной фразы 312 из одной или нескольких концептуальных фраз 310. Величина CIR представляет первое соотношение совместного включения: (i) по меньшей мере одного слова 308 данной концептуальной фразы 312 и (ii) по меньшей мере одного слова 308 каждой оставшейся концептуальной фразы 312 из одной или нескольких концептуальных фраз 310.
[120] В некоторых вариантах осуществления способа 400, этап 406 включает в себя создание величины CIR данной концептуальной фразы 312 в отношении целевой фразы 312, которая является другой из одной или более концептуальных фраз 312, и процесс создания включает в себя: (i) определение числа слов 308 в данной концептуальной фразе 312, которое также присутствует в целевой фразе 312 и (ii) деление числа совместно входящих слов 308 на общее число слов 308 в целевой фразе 312.
[121] В некоторых вариантах осуществления способа 400, способ 400 дополнительно включает в себя анализ величины CIR для определения типа взаимосвязи соответствующей данной концептуальной фразы 312 и другой данной одной из оставшихся концептуальных фраз 312 из одной или нескольких концептуальных фраз 310, которая представляет собой одну из: взаимосвязь род-вид, эквивалентную взаимосвязь и ассоциативную взаимосвязь.
[122] 408 - выполнение сервером второго анализа для создания величины контекстно-зависимой связи (CDR) для данной концептуальной фразы, величина CDR представляет собой второе соотношение: (i) числа предложений, в которые данная концептуальная фраза совместно входит с другой концептуальной фразой из одной или нескольких концептуальных фраз по отношению к общему числу предложений из множества предложений, которые содержат другую концептуальную фразу из цифрового текста
[123] Способ 400 продолжается на этапе 408, где сервер 102 обработки выполняет второй анализ для создания величины контекстно-зависимой связи (CDR) для данной концептуальной фразы 312. величина CDR представляет собой второе соотношение: (i) числа предложений 306, в которые данная концептуальная фраза 312 совместно входит с другой концептуальной фразой 312 из одной или нескольких концептуальных фраз 310 по отношению к (ii) общему числу предложений из множества предложений 304, которые содержат другую концептуальную фразу 312 из цифрового текста 302.
[124] В некоторых вариантах осуществления способа 400, способ 400 дополнительно включает в себя, до определения 406 величины CIR и этапа определения 408 величины CDR, выполнение этапа нормализации каждого из по меньшей мере одного слова 308. В некоторых вариантах осуществления способа 400, способ 400 дополнительно включает в себя, до этапа определения 406 величины CIR и величины CDR, выполнение этапа определения общих синонимов между данным словом 308 из первой концептуальной фразы 312 и другим данным словом 308 из второй концептуальной фразы 312.
[125] 410 - определение сервером общего весового коэффициента контекстно-независимой связи и общего весового коэффициента контекстно-зависимой связи для каждой из концептуальных фраз
[126] Способ 400 продолжается на этапе 410, где сервер 102 обработки определяет общий весовой коэффициент CIR и общий весовой коэффициент CDR для каждой концептуальной фразы 312.
[127] В некоторых вариантах осуществления способа 400, этап определения 410 общего весового коэффициента CIR для данной концептуальной фразы 312 включает в себя агрегацию множества величин CIR данной концептуальной фразы 312, данная величина из множества величин CIR относится к другой данной концептуальной фразе из по меньшей мере некоторых из оставшихся концептуальных фраз 312 в цифровом тексте 302. В некоторых вариантах осуществления способа 400, по меньшей мере некоторые из оставшихся концептуальных фраз 312 в цифровом тексте 302 включают в себя те оставшиеся концептуальные фразы 312, которые были определены при первом анализе как семантически связанные с данной концептуальной фразой 312. В некоторых вариантах осуществления способа 400, по меньшей мере некоторые из оставшихся концептуальных фраз 312 в цифровом тексте 302 включают в себя все оставшиеся концептуальные фразы 312.
[128] В некоторых вариантах осуществления способа 400, определение 410 общего весового коэффициента CDR для данной концептуальной фразы 312 включает в себя агрегацию множества величин CDR данной концептуальной фразы 312, данная величина из множества величин CDR относится к другой данной концептуальной фразе из оставшихся совместно входящих концептуальных фраз 312 в цифровом тексте 302.
[129] 412 - определение сервером, для каждой из концептуальных фраз, смысловой величины концепта, на основе, по меньшей мере частично, ее соответствующего общего весового коэффициента контекстно-независимой связи и общего весового коэффициента контекстно-зависимой связи
[130] Способ 400 продолжается на этапе 412, на котором сервер 102 обработки определяет для каждой концептуальной фразы 312, смысловую величину концепта. Этап определения 412 основан по меньшей мере частично на соответствующем общем весовом коэффициенте CIR и общем весовом коэффициенте CDR.
[131] В некоторых вариантах осуществления способа 400, определение 412 смысловой величины концепта для данной концептуальной фразы 312 включает в себя агрегацию величины общего весового коэффициента CIR и величины общего весового коэффициента CDR для данной концептуальной фразы 312. В некоторых вариантах осуществления способа 400, этап агрегации величины общего весового коэффициента CIR и величины общего весового коэффициента CDR данной концептуальной фразы 312 включает в себя перемножение общего весового коэффициента CIR и величины общего весового коэффициента CDR. Естественно, другие подходящие функции могут быть использованы для выполнения агрегации.
[132] 414 - определение сервером для данного предложения из множества предложений, смысловой величины предложения на основе, по меньшей мере частично, смысловой величины предложения для каждой концептуальной фразы, которая содержится в данном предложении
[133] Способ 400 продолжается на этапе 414, на котором сервер 102 обработки определяет для данного предложения 306 из множества предложений 304 смысловую величину предложения. Этап определения 414 основан по меньшей мере частично на смысловой величине концепта для каждой концептуальной фразы 312, содержащейся в данном предложении 306.
[134] В некоторых вариантах осуществления способа 400, определение 414 смысловой величины предложения для данного предложения 306 включает в себя агрегацию соответствующей смысловой величины концепта для каждой концептуальной фразы 312, содержащейся в данном предложении 306. В некоторых вариантах осуществления способа 400, этап агрегации соответствующей смысловой величины концепта из каждой фразы 312, содержащейся в данном предложении 306 включает в себя (i) добавление соответствующей смысловой величины концепта для каждой концептуальной фразы 312, содержащейся в данном предложении 306 для создания общей величины и (ii) разделение общей величины на число концептуальных фраз 312 в данном предложении 306.
[135] 416 - определение сервером ранга каждого предложения по меньшей мере на основе определенной смысловой величины предложения
[136] Способ 400 продолжается на этапе 416, на котором сервер 102 обработки ранжирует каждое предложение 306 по меньшей мере на основе определенной смысловой величины предложения.
[137] 418 - создание сервером краткого изложения цифрового текста, краткое изложение цифрового текста включает в себя по меньшей мере одно предложение, извлеченное из цифрового текста на основе ранга, определенного для этого по меньшей мере одного предложения
[138] Способ 400 продолжается на этапе 418, на котором сервер 102 обработки создает краткое изложение цифрового текста 302. Краткое изложение цифрового текста 302 включает в себя по меньшей мере одно предложение 306, извлеченное из цифрового текста на основе его определенного ранга (как было определено на этапе 414 и ранжировано на этапе 416).
[139] В некоторых вариантах осуществления настоящего технического решения, способ 400 дополнительно включает в себя сохранение в памяти краткого изложения цифрового текста 302 в связи с цифровым текстом 302.
[140] В некоторых вариантах осуществления способа 400, этап создания 418 краткого изложения цифрового текста 302 включает в себя выбор заранее выбранного числа предложений 306 из множества предложений 304 на основе их соответствующей смысловой величины предложения. В некоторых вариантах осуществления способа 400, этап выбора дополнительно включает в себя сохранение порядка заранее выбранного числа предложений 306 в соответствии с цифровым текстом 302. В некоторых вариантах осуществления способа 400, способ 400 дополнительно включает в себя, до получения 402 указания на цифровой текст 302 для обработки, выполнение этапа получения указания на заранее выбранное число предложений.
[141] В некоторых вариантах осуществления способа 400, этап выбора заранее выбранного числа предложений 306 из множества предложений 304 на основе их соответствующей смысловой величины предложения включает в себя: (i) выбор первого подмножества заранее выбранного числа предложений 306 из первой части цифрового текста 302 (например, верхней половины цифрового текста 302) и (ii) выбор второго подмножества заранее выбранного числа предложений 306 из второй части цифрового текста 302 (например, второй половины цифрового текста 302).
[142] В некоторых вариантах осуществления настоящего технического решения, как часть этапа 418 вместо (или в дополнении к) создания сервером 102, краткого изложения цифрового текста 302, сервер 102 назначает категорию темы цифровому тексту 302. Категория темы может быть основана по меньшей мере на одной высоко ранжированной фразе 312. Взаимоотношения между категорией темы и по меньшей мере одной концептуальной фразой 312 могут быть заранее определены системным администратором или определены с помощью алгоритма машинного обучения, выполняемого сервером 102 обработки.
[143] Затем способ 400 завершается.
[144] Некоторые из этих этапов, а также передача-получение сигнала хорошо известны в данной области техники и поэтому для упрощения были опущены в конкретных частях данного описания. Сигналы могут быть переданы-получены с помощью оптических средств (например, оптоволоконного соединения), электронных средств (например, проводного или беспроводного соединения) и механических средств (например, на основе давления, температуры или другого подходящего параметра).
[145] С учетом вышеописанных вариантов осуществления технического решения, которые были описаны и показаны со ссылкой на конкретные этапы, выполненные в определенном порядке, следует иметь в виду, что эти этапы могут быть совмещены, разделены, обладать другим порядком выполнения - все это не выходит за границы настоящего технического решения. Соответственно, порядок и группировка этапов не является ограничением для настоящего технического решения.
[146] Специалисты в данной области техники поймут, что в настоящем описании выражение "получение данных" от пользователя подразумевает получение электронным устройством или другим электронным устройством данных от пользователя в виде электронного (или другого) сигнала. Кроме того, специалисты в данной области техники поймут, что отображение данных пользователю через графический интерфейс пользователя (например, экран компьютерного устройства и тому подобное) может включать в себя передачу сигнала графическому интерфейсу пользователя, этот сигнал содержит данные, которые могут быть обработаны, и по меньшей мере часть этих данных может отображаться пользователю через графический интерфейс пользователя.
[147] Важно иметь в виду, что варианты осуществления настоящего технического решения могут быть выполнены с проявлением и других технических результатов.
[148] Модификации и улучшения вышеописанных вариантов осуществления настоящего технического решения будут ясны специалистам в данной области техники. Предшествующее описание представлено только в качестве примера и не несет никаких ограничений. Таким образом, объем настоящего технического решения ограничен только объемом прилагаемой формулы изобретения.
[149] Следовательно, некоторые варианты осуществления настоящего технического решения, описанные выше, можно изложить следующим образом в виде пронумерованных пунктов.
[150] ПУНКТ 1 Исполняемый на компьютере способ (400) создания краткого изложения цифрового текста (302), способ (400) выполняется на сервере (102), сервер (102) соединен с сетью (104) передачи данных, способ (400) включает в себя:
[151] получение (402) сервером (102) указания на цифровой текст (302) для обработки, причем цифровой текст (302) включает в себя множество предложений (304);
[152] парсинг (404) сервером (102) каждого из множества предложений (304) на одну или несколько концептуальных фраз (310), каждая из одной или нескольких концептуальных фраз (310) обладает по меньшей мере одним словом (308); парсинг (404) выполняется путем применения по меньшей мере одного параметра (214) парсинга;
[153] выполнение (406) сервером (102) первого анализа для создания величины контекстно-независимой связи (CIR) для данной концептуальной фразы (312) из одной или нескольких концептуальных фраз (310), величина CIR представляет собой первое соотношение совместного вхождения: (i) по меньшей мере одного слова (308) данной концептуальной фразы (312) и (ii) по меньшей мере одного слова (308) каждой оставшейся концептуальной фразы (312) из одной или нескольких концептуальных фраз (310);
[154] выполнение (408) сервером (102) второго анализа для создания величины контекстно-зависимой связи (CDR) для данной концептуальной фразы (312), величина CDR представляет собой второе соотношение: (i) числа предложений (306), в которые данная концептуальная фраза (312) совместно входит с другой концептуальной фразой (312) из одной или нескольких концептуальных фраз (310) по отношению к (ii) общему ряду множества предложений (304), которые содержат другую концептуальную фразу (312) в цифровом тексте (302);
[155] определение (410) сервером (102) общего весового коэффициента CIR и общего весового коэффициента CDR для каждой из концептуальных фраз (312);
[156] определение (412) сервером (102), для каждой из концептуальных фраз (312), смысловой величины концепта, на основе, по меньшей мере частично, ее соответствующего общего весового коэффициента CIR и общего весового коэффициента CDR;
[157] определение (414) сервером (102) для данного предложения (306) из множества предложений (304), смысловой величины предложения на основе, по меньшей мере частично, смысловой величины предложения для каждой концептуальной фразы (312), которая содержится в данном предложении (306);
[158] ранжирование (416) сервером (102) каждого предложения (306) по меньшей мере на основе определенной смысловой величины предложения; и
[159] создание (418) сервером (102) краткого изложения цифрового текста (302), краткое изложение цифрового текста (302) включает в себя по меньшей мере одно предложение (306), извлеченное из цифрового текста (302) на основе его определенного ранжирования.
[160] ПУНКТ 2 Исполняемый на компьютере способ (400) по п. 1, дополнительно включающий в себя сохранение в памяти краткого изложения цифрового текста (302) в связи с цифровым текстом (302).
[161] ПУНКТ 3 Исполняемый на компьютере способ (400) по любому из пп. 1 или 2, в котором по меньшей мере один параметр (214) парсинга основан по меньшей мере на одной эвристике.
[162] ПУНКТ 4 Исполняемый на компьютере способ (400) по п. 3, который дополнительно включает в себя, до получения (402) указания на цифровой текст (302) для обработки, получение сервером (102) по меньшей мере одного эвристического значения и сохранение сервером по меньшей мере одного эвристического значения.
[163] ПУНКТ 5 Исполняемый на компьютере способ (400) по любому из пп. 1-4, в котором концептуальная фраза (312) включает в себя смысловой логический элемент, который сформирован по меньшей мере одним словом (308).
[164] ПУНКТ 6 Исполняемый на компьютере способ (400) по п. 5, в котором по меньшей мере один параметр (214) парсинга идентифицирует смысловой логический элемент, основанный по меньшей мере на одном слове (308), которое представляет собой существительное.
[165] ПУНКТ 7 Исполняемый на компьютере способ (400) по п. 5, в котором по меньшей мере один параметр (214) парсинга идентифицирует смысловой логический элемент, основанный по меньшей мере на одном слове (308), которое представляет собой грамматический элемент на основе существительного.
[166] ПУНКТ 8 Исполняемый на компьютере способ (400) по п. 5, который дополнительно включает в себя, до этапа определения (406) величины CIR и этапа определения (408) величины CDR, выполнение этапа нормализации каждого из по меньшей мере одного слова (308).
[167] ПУНКТ 9 Исполняемый на компьютере способ (400) по п. 5, который дополнительно включает в себя, до этапа определения (406) величины CIR и величины CDR, выполнение этапа определения (408) общих синонимов между данным словом (308) из первой концептуальной фразы (312) и другого данного слова (308) из второй концептуальной фразы (312).
[168] ПУНКТ 10 Исполняемый на компьютере способ (400) по любому из пп. 1-9, причем первый анализ представляет собой не-онтологический анализ.
[169] ПУНКТ 11 Исполняемый на компьютере способ (400) по любому из пп. 1-10, причем способ (400) дополнительно включает в себя анализ величины CIR для определения типа взаимосвязи соответствующей данной концептуальной фразы (312) и другой данной одной из оставшихся концептуальных фраз (312) из одной или нескольких концептуальных фраз (310), которая представляет собой одну из: взаимосвязь род-вид, эквивалентную взаимосвязь и ассоциативную взаимосвязь.
[170] ПУНКТ 12 Исполняемый на компьютере способ (400) по любому из пп. 1-10, причем определение (412) общего весового коэффициента CIR для данной концептуальной фразы (312) включает в себя агрегацию множества величин CIR данной концептуальной фразы (312), данная величина из множества величин CIR относится к другой данной концептуальной фразе из по меньшей мере некоторых из оставшихся концептуальных фраз (312) в цифровом тексте (302).
[171] ПУНКТ 13 Исполняемый на компьютере способ (400) по п. 12, по меньшей мере некоторые из оставшихся концептуальных фраз (312) в цифровом тексте (302) включают в себя те оставшиеся концептуальные фразы (312), которые были определены при первом анализе как семантически связанные сданной концептуальной фразой (312).
[172] ПУНКТ 14 Исполняемый на компьютере способ (400) по п. 12, в котором по меньшей мере некоторые из оставшихся концептуальных фраз (312) в цифровом тексте (302) включают в себя все оставшиеся концептуальные фразы (312).
[173] ПУНКТ 15 Исполняемый на компьютере способ (400) по любому из пп. 1-14, в котором определение (412) общего весового коэффициента CIR для данной концептуальной фразы (312) включает в себя агрегацию множества величин CDR данной концептуальной фразы (312), данная величина из множества величин CDR относится к другой данной концептуальной фразе из оставшихся совместно входящих концептуальных фраз (312) в цифровом тексте (302).
[174] ПУНКТ 16 Исполняемый на компьютере способ (400) по любому из пп. 1-15, в котором определение смысловой величины концепта для данной концептуальной фразы (312) включает в себя агрегацию величины общего весового коэффициента CIR и величины общего весового коэффициента CDR для данной концептуальной фразы (312).
[175] ПУНКТ 17 Исполняемый на компьютере способ (400) по п. 16, в котором агрегация величины общего весового коэффициента CIR и величины общего весового коэффициента CDR данной концептуальной фразы (312) включает в себя перемножение общего весового коэффициента CIR и величины общего весового коэффициента CDR.
[176] ПУНКТ 18 Исполняемый на компьютере способ (400) по любому из пп. 1-17, в котором определение (414) смысловой величины предложения для данного предложения (306) включает в себя агрегацию соответствующей смысловой величины концепта для каждой концептуальной фразы (312), содержащейся в данном предложении (306).
[177] ПУНКТ 19 Исполняемый на компьютере способ (400) по п. 18, в котором агрегация соответствующей смысловой величины концепта из каждой фразы (312), содержащейся в данном предложении (306) включает в себя (i) добавление соответствующей смысловой величины концепта для каждой концептуальной фразы (312), содержащейся в данном предложении (306) для создания общей величины и (ii) разделение общей величины на число концептуальных фраз (312) в данном предложении (306).
[178] ПУНКТ 20 Исполняемый на компьютере способ (400) по любому из пп. 1-19, в котором создание (418) краткого изложения цифрового текста (302) включает в себя выбор заранее выбранного числа предложений (306) из множества предложений (304) на основе их соответствующей смысловой величины предложения.
[179] ПУНКТ 21 Исполняемый на компьютере способ (400) по п. 20, в котором выбор дополнительно включает в себя сохранение порядка заранее выбранного числа предложений (306) в соответствии с цифровым текстом (302).
[180] ПУНКТ 22 Исполняемый на компьютере способ (400) по п. 20, дополнительно включающий в себя, до получения (402) указания на цифровой текст (302) для обработки, получение указания на заранее выбранное число предложений.
[181] ПУНКТ 23 Исполняемый на компьютере способ (400) по п. 20, в котором выбор заранее выбранного числа предложений (306) из множества предложений (306) на основе их соответствующей смысловой величины предложения включает в себя: (i) выбор первого подмножества заранее выбранного числа предложений (306) из первой части цифрового текста (302) и (ii) выбор второго подмножества заранее выбранного числа предложений (306) из второй части цифрового текста (302).
[182] ПУНКТ 24 Исполняемый на компьютере способ (400) по пп. 1-23, в котором выполнение (406) первого анализа для создания величины CIR данной концептуальной фразы (312) в отношении целевой фразы (312), которая является другой из одной или более концептуальных фраз (312), включает в себя: (i) определение числа слов (308) в данной концептуальной фразе (312), которое также присутствует в целевой фразе (312) и (ii) деление числа совместно входящих слов (308) на общее число слов (308) в целевой фразе (312).
[183] ПУНКТ 25 Исполняемый на компьютере способ (400) создания краткого изложения цифрового текста (302), способ выполняется на сервере (102), сервер (102) соединен с сетью (104) передачи данных, способ (400) включает в себя:
[184] получение (402) сервером (102) указания на цифровой текст (302) для обработки, причем цифровой текст (302) включает в себя множество предложений (304);
[185] парсинг (404) сервером (102) каждого из множества предложений (304) на одну или несколько концептуальных фраз (310), каждая из одной или нескольких концептуальных фраз (310) обладает по меньшей мере одним словом (308); парсинг (404) выполняется путем применения по меньшей мере одного параметра (214) парсинга;
[186] выполнение (406) сервером (102) первого анализа для создания величины контекстно-независимой связи (CIR) для данной концептуальной фразы (312) из одной или нескольких концептуальных фраз (310), величина CIR представляет собой первое соотношение совместного вхождения: (i) по меньшей мере одного слова (308) данной концептуальной фразы (312) и (ii) по меньшей мере одного слова (308) каждой оставшейся концептуальной фразы (312) из одной или нескольких концептуальных фраз (310);
[187] выполнение (408) сервером (102) второго анализа для создания величины контекстно-зависимой связи (CDR) для данной концептуальной фразы (312), величина CDR представляет собой второе соотношение: (i) числа предложений (306), в которые данная концептуальная фраза (312) совместно входит с другой концептуальной фразой (312) из одной или нескольких концептуальных фраз (310) по отношению к (ii) общему ряду множества предложений (304), которые содержат другую концептуальную фразу (312) в цифровом тексте (302);
[188] определение (410) сервером (102) общего весового коэффициента CIR и общего весового коэффициента CDR для каждой из концептуальных фраз (312);
[189] определение (412) сервером (102), для каждой из концептуальных фраз (312), смысловой величины концепта, на основе, по меньшей мере частично, ее соответствующего общего весового коэффициента CIR и общего весового коэффициента CDR;
[190] определение (414) сервером (102) для данного предложения (306) из множества предложений (304), смысловой величины предложения на основе, по меньшей мере частично, смысловой величины предложения для каждой концептуальной фразы (312), которая содержится в данном предложении (306);
[191] ранжирование (416) сервером (102) каждого предложения (306) по меньшей мере на основе определенной смысловой величины предложения; и
[192] назначение сервером категории темы цифровому тексту (302), категория темы основана по меньшей мере на одной более высоко ранжированной концептуальной фразе (312).
[193] ПУНКТ 26 Сервер (102), включающий в себя:
[194] интерфейс связи для связи с электронным устройством (106) через сеть (104) передачи данных,
[195] процессор, который оперативно соединен с интерфейсом передачи данных, и выполнен с возможностью осуществлять:
[196] получение указания на цифровой текст для обработки, для создания его краткого изложения, цифровой текст включает в себя множество предложений;
[197] парсинг каждого из множества предложений на одну или несколько концептуальных фраз, каждая из одной или нескольких концептуальных фраз обладает по меньшей мере одним словом, путем применения по меньшей мере одного параметра парсинга;
[198] выполнение первого анализа для создания величины контекстно-независимой связи (CIR) для данной концептуальной фразы из одной или нескольких концептуальных фраз, величина CIR представляет собой первое соотношение совместного вхождения: (i) по меньшей мере одного слова данной концептуальной фразы и (ii) по меньшей мере одного слова каждой оставшейся концептуальной фразы из одной или нескольких концептуальных фраз;
[199] выполнение второго анализа для создания величины контекстно-зависимой связи (CDR) для данной концептуальной фразы, величина CDR представляет собой второе соотношение: (i) числа предложений, в которые данная концептуальная фраза совместно входит с другой концептуальной фразой из одной или нескольких концептуальных фраз по отношению к (ii) общему числу предложений из множества предложений, которые содержат другую концептуальную фразу из цифрового текста;
[200] определение общего весового коэффициента CIR и общего весового коэффициента CDR для каждой из концептуальных фраз;
[201] определение, для каждой из концептуальных фраз, смысловой величины концепта, на основе, по меньшей мере частично, ее соответствующего общего весового коэффициента CIR и общего весового коэффициента CDR;
[202] определение для данного предложения из множества предложений, смысловой величины предложения на основе, по меньшей мере частично, смысловой величины предложения для каждой концептуальной фразы, которая содержится в данном предложении;
[203] ранжирование каждого предложения по меньшей мере на основе определенной смысловой величины предложения; и
[204] создание краткого изложения цифрового текста, краткое изложение цифрового текста включает в себя по меньшей мере одно предложение, извлеченное из цифрового текста на основе ранга, определенного для этого по меньшей мере одного предложения.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ И СИСТЕМА ДЛЯ СОПОСТАВЛЕНИЯ ИСХОДНОГО ЛЕКСИЧЕСКОГО ЭЛЕМЕНТА ПЕРВОГО ЯЗЫКА С ЦЕЛЕВЫМ ЛЕКСИЧЕСКИМ ЭЛЕМЕНТОМ ВТОРОГО ЯЗЫКА | 2016 |
|
RU2682002C2 |
Способ и система автоматического создания тезауруса | 2016 |
|
RU2672393C2 |
ПОИСК ИЗОБРАЖЕНИЙ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ | 2015 |
|
RU2688271C2 |
СПОСОБ УПРАВЛЕНИЯ АВТОМАТИЗИРОВАННОЙ СИСТЕМОЙ ПРАВОВЫХ КОНСУЛЬТАЦИЙ | 2019 |
|
RU2718978C1 |
АННОТАЦИЯ ПОСРЕДСТВОМ ПОИСКА | 2007 |
|
RU2439686C2 |
СПОСОБ И СИСТЕМА ГЕНЕРАЦИИ ТЕКСТА ДЛЯ ЦИФРОВОГО АССИСТЕНТА | 2022 |
|
RU2796208C1 |
ГЕНЕРИРОВАНИЕ ДИАЛОГОВЫХ РЕКОМЕНДАЦИЙ ДЛЯ ЧАТОВЫХ ИНФОРМАЦИОННЫХ СИСТЕМ | 2013 |
|
RU2637874C2 |
СПОСОБ И СИСТЕМА ГЕНЕРАЦИИ ТЕКСТА | 2023 |
|
RU2817524C1 |
СПОСОБ И СИСТЕМА КОМПЬЮТЕРНОЙ ОБРАБОТКИ ОДНОЙ ИЛИ НЕСКОЛЬКИХ ЦИТАТ В ЦИФРОВЫХ ТЕКСТАХ ДЛЯ ОПРЕДЕЛЕНИЯ ИХ АВТОРА | 2018 |
|
RU2711123C2 |
Способ и система для перевода исходной фразы на первом языке целевой фразой на втором языке | 2019 |
|
RU2767965C2 |
Изобретение относится к электронным устройствам и способам обработки текста. Техническим результатом является расширение арсенала технических средств создания краткого изложения цифрового текста. В способе создания краткого изложения цифрового текста создают краткое изложение цифрового текста путем выбора предложений из цифрового текста на основе вычисленной величины предложения. Величина предложения вычисляется на основе самого цифрового текста без использования онтологических словарей. Определяют величину предложения путем первоначального разбора предложения на одну или несколько концептуальных фраз и дальнейшего определения для данного предложения цифрового текста: неконтекстуальной величины для этих концептуальных фраз и контекстуальной величины для этих концептуальных фраз. 3 н. и 21 з.п. ф-лы, 4 ил.
1. Исполняемый на компьютере способ создания краткого изложения цифрового текста, способ выполняется на сервере, сервер соединен с сетью передачи данных, способ, включающий в себя:
получение сервером указания на цифровой текст для обработки, причем цифровой текст включает в себя множество предложений;
парсинг сервером каждого из множества предложений на одну или несколько концептуальных фраз, каждая из одной или нескольких концептуальных фраз обладает по меньшей мере одним словом; парсинг выполняется путем применения по меньшей мере одного параметра парсинга;
выполнение сервером первого анализа для создания величины контекстно-независимой связи (CIR) для данной концептуальной фразы из одной или нескольких концептуальных фраз, причем величина контекстно-независимой связи (CIR) представляет собой первое отношение
количества слов, совместно входящих в данную фразу и в по меньшей мере одну другую концептуальную фразу из одной или нескольких концептуальных фраз, к количеству слов в этой по меньшей мере одной другой концептуальной фразе из одной или нескольких концептуальных фраз;
выполнение сервером второго анализа для создания величины контекстно-зависимой связи (CDR) для данной концептуальной фразы, причем величина CDR представляет собой второе отношение
числа предложений, в которые данная концептуальная фраза совместно входит с другой концептуальной фразой из одной или нескольких концептуальных фраз, по отношению к общему числу предложений из множества предложений, которые содержат другую концептуальную фразу из цифрового текста;
определение сервером общего весового коэффициента CIR и общего весового коэффициента CDR для каждой из концептуальных фраз путем агрегации величин CIR для указанной каждой концептуальной фразы и путем агрегации величин CDR для указанной каждой концептуальной фразы соответственно;
определение сервером для каждой из концептуальных фраз смысловой величины концепта путем агрегации ее соответствующего общего весового коэффициента CIR и общего весового коэффициента CDR;
определение сервером для данного предложения из множества предложений смысловой величины предложения путем агрегации смысловых величин концептов концептуальных фразы, которые содержатся в данном предложении;
определение сервером ранга каждого предложения по меньшей мере на основе определенной смысловой величины предложения; и
создание сервером краткого изложения цифрового текста, краткое изложение цифрового текста включает в себя по меньшей мере одно предложение, извлеченное из цифрового текста на основе ранга, определенного для этого по меньшей мере одного предложения.
2. Способ по п. 1, в котором дополнительно осуществляют сохранение в памяти краткого изложения цифрового текста в связи с цифровым текстом.
3. Способ по п. 1, в котором по меньшей мере один параметр парсинга основан по меньшей мере на одной эвристике.
4. Способ по п. 3, в котором дополнительно осуществляют, до получения указания на цифровой текст для обработки, получение сервером по меньшей мере одного эвристического значения и сохранение сервером по меньшей мере одного эвристического значения.
5. Способ по п. 1, в котором концептуальная фраза включает в себя смысловой логический элемент, который сформирован по меньшей мере одним словом.
6. Способ по п. 5, в котором по меньшей мере один параметр парсинга идентифицирует смысловой логический элемент, основанный по меньшей мере на одном слове, которое представляет собой существительное.
7. Способ по п. 5, в котором по меньшей мере один параметр парсинга идентифицирует смысловой логический элемент, основанный по меньшей мере на одном слове, которое представляет собой грамматический элемент на основе существительного.
8. Способ по п. 5, в котором дополнительно осуществляют, до определения величины CIR и этапа определения величины CDR, выполнение этапа нормализации каждого из по меньшей мере одного слова.
9. Способ по п. 5, в котором дополнительно осуществляют, до определения величины CIR и величины CDR, определение общих синонимов между данным словом из первой концептуальной фразы и другим данным словом из второй концептуальной фразы.
10. Способ по п. 1, причем первый анализ представляет собой не-онтологический анализ, в ходе которого анализируют слова без использования онтологических словарей.
11. Способ по п. 1, в котором дополнительно осуществляют анализ величины CIR для определения типа взаимосвязи, соответствующей данной концептуальной фразы и другой данной одной из оставшихся концептуальных фраз из одной или нескольких концептуальных фраз, которая представляет собой одну из: взаимосвязь род-вид, эквивалентную взаимосвязь и ассоциативную взаимосвязь.
12. Способ по п. 1, в котором этап определения общего весового коэффициента CIR для данной концептуальной фразы включает в себя агрегацию множества величин CIR данной концептуальной фразы, причем данная величина из множества величин CIR относится к другой данной концептуальной фразе из по меньшей мере некоторых из оставшихся концептуальных фраз в цифровом тексте.
13. Способ по п. 12, в котором, по меньшей мере, некоторые из оставшихся концептуальных фраз в цифровом тексте включают в себя те оставшиеся концептуальные фразы, которые были определены при первом анализе как семантически связанные с данной концептуальной фразой.
14. Способ по п. 12, в котором, по меньшей мере, некоторые из оставшихся концептуальных фраз в цифровом тексте включают в себя все оставшиеся концептуальные фразы.
15. Способ по п. 1, в котором этап определения общего весового коэффициента CDR для данной концептуальной фразы включает в себя агрегацию множества величин CDR данной концептуальной фразы, причем данная величина из множества величин CDR относится к другой данной концептуальной фразе из оставшихся совместно входящих концептуальных фраз в цифровом тексте.
16. Способ по п. 1, в котором агрегация величины общего весового коэффициента CIR и величины общего весового коэффициента CDR данной концептуальной фразы включает в себя перемножение общего весового коэффициента CIR и величины общего весового коэффициента CDR.
17. Способ по п. 1, в котором агрегация смысловых величин концептов концептуальных фраз, содержащихся в данном предложении, включает в себя добавление соответствующей смысловой величины концепта для каждой концептуальной фразы, содержащейся в данном предложении для создания общей величины, и разделение общей величины на число концептуальных фраз в данном предложении.
18. Способ по п. 1, в котором создание краткого изложения цифрового текста включает в себя выбор заранее выбранного числа предложений из множества предложений на основе их соответствующей смысловой величины предложения.
19. Способ по п. 18, в котором выбор заранее выбранного числа предложений из множества предложений дополнительно включает в себя сохранение порядка заранее выбранного числа предложений в соответствии с цифровым текстом.
20. Способ по п. 18, в котором до получения указания на цифровой текст для обработки осуществляют получение указания на заранее выбранное число предложений.
21. Способ по п. 18, в котором выбор заранее выбранного числа предложений из множества предложений на основе их соответствующей смысловой величины предложения включает в себя выбор первого подмножества заранее выбранного числа предложений из первой части цифрового текста и выбор второго подмножества заранее выбранного числа предложений из второй части цифрового текста.
22. Способ по п. 1, в котором выполнение первого анализа для создания величины CIR данной концептуальной фразы в отношении целевой фразы, которая является другой из одной или более концептуальных фраз, включает в себя определение числа слов в данной концептуальной фразе, которое также присутствует в целевой фразе, и деление числа совместно входящих слов на общее число слов в целевой фразе.
23. Исполняемый на компьютере способ создания краткого изложения цифрового текста, способ выполняется на сервере, сервер соединен с сетью передачи данных, способ, включающий в себя:
получение сервером указания на цифровой текст для обработки, причем цифровой текст включает в себя множество предложений;
парсинг сервером каждого из множества предложений на одну или несколько концептуальных фраз, каждая из одной или нескольких концептуальных фраз обладает по меньшей мере одним словом; парсинг выполняется путем применения по меньшей мере одного параметра парсинга;
выполнение сервером первого анализа для создания величины контекстно-независимой связи (CIR) для данной концептуальной фразы из одной или нескольких концептуальных фраз, причем величина контекстно-независимой связи (CIR) представляет собой первое отношение
количества слов, совместно входящих в данную фразу и в по меньшей мере одну другую концептуальную фразу из одной или нескольких концептуальных фраз, к количеству слов в этой по меньшей мере одной другой концептуальной фразе из одной или нескольких концептуальных фраз;
выполнение сервером второго анализа для создания величины контекстно-зависимой связи (CDR) для данной концептуальной фразы, причем величина CDR представляет собой второе отношение
числа предложений, в которые данная концептуальная фраза совместно входит с другой концептуальной фразой из одной или нескольких концептуальных фраз, по отношению к общему числу предложений из множества предложений, которые содержат другую концептуальную фразу из цифрового текста;
определение сервером общего весового коэффициента CIR и общего весового коэффициента CDR для каждой из концептуальных фраз путем агрегации величин CIR для указанной каждой концептуальной фразы и путем агрегации величин CDR для указанной каждой концептуальной фразы соответственно;
определение сервером для каждой из концептуальных фраз смысловой величины концепта путем агрегации ее соответствующего общего весового коэффициента CIR и общего весового коэффициента CDR;
определение сервером для данного предложения из множества предложений смысловой величины предложения путем агрегации смысловых величин концептов концептуальных фраз, которые содержатся в данном предложении;
определение сервером ранга каждого предложения, по меньшей мере, на основе определенной смысловой величины предложения; и
назначение сервером категории темы цифровому тексту, категория темы основана по меньшей мере на одной более высоко ранжированной концептуальной фразе.
24. Сервер для создания краткого изложения цифрового текста, включающий в себя:
интерфейс передачи данных для связи с электронным устройством через сеть передачи данных,
процессор, который оперативно соединен с интерфейсом передачи данных и выполнен с возможностью осуществлять:
получение указания на цифровой текст для обработки, для создания его краткого изложения, цифровой текст включает в себя множество предложений;
парсинг каждого из множества предложений на одну или несколько концептуальных фраз, каждая из одной или нескольких концептуальных фраз обладает по меньшей мере одним словом, путем применения по меньшей мере одного параметра парсинга;
выполнение первого анализа для создания величины контекстно-независимой связи (CIR) для данной концептуальной фразы из одной или нескольких концептуальных фраз, причем величина контекстно-независимой связи (CIR) представляет собой первое отношение
количества слов, совместно входящих в данную фразу и в по меньшей мере одну другую концептуальную фразу из одной или нескольких концептуальных фраз, к количеству слов в этой по меньшей мере одной другой концептуальной фразе из одной или нескольких концептуальных фраз;
выполнение второго анализа для создания величины контекстно-зависимой связи (CDR) для данной концептуальной фразы, причем величина CDR представляет собой второе отношение
числа предложений, в которые данная концептуальная фраза совместно входит с другой концептуальной фразой из одной или нескольких концептуальных фраз, по отношению к общему числу предложений из множества предложений, которые содержат другую концептуальную фразу из цифрового текста;
определение общего весового коэффициента CIR и общего весового коэффициента CDR для каждой из концептуальных фраз путем агрегации величин CIR для указанной каждой концептуальной фразы и путем агрегации величин CDR для указанной каждой концептуальной фразы соответственно;
определение сервером для каждой из концептуальных фраз смысловой величины концепта путем агрегации ее соответствующего общего весового коэффициента CIR и общего весового коэффициента CDR;
определение для данного предложения из множества предложений смысловой величины предложения путем агрегации смысловых величин концептов концептуальных фраз, которые содержатся в данном предложении;
ранжирование каждого предложения, по меньшей мере, на основе определенной смысловой величины предложения; и
создание краткого изложения цифрового текста, краткое изложение цифрового текста включает в себя по меньшей мере одно предложение, извлеченное из цифрового текста на основе ранга, определенного для этого по меньшей мере одного предложения.
Устройство для закрепления лыж на раме мотоциклов и велосипедов взамен переднего колеса | 1924 |
|
SU2015A1 |
US 7899666 B2, 01.03.2011 | |||
Колосоуборка | 1923 |
|
SU2009A1 |
Способ и приспособление для нагревания хлебопекарных камер | 1923 |
|
SU2003A1 |
US 6205456 B1, 20.03.2001 | |||
СПОСОБ И СИСТЕМА ДЛЯ КЛАССИФИКАЦИИ ДИСПЛЕЙНЫХ СТРАНИЦ С ПОМОЩЬЮ РЕФЕРАТОВ | 2005 |
|
RU2377645C2 |
Авторы
Даты
2018-01-24—Публикация
2016-02-09—Подача