Изобретение относится к области информационных технологий, а именно к обработке информационных материалов с целью подготовки их к персонализированному использованию, то есть к обработке, ориентированной на конкретного потребителя или группу потребителей, имеющих определенные (предполагающиеся известными) информационные потребности.
Широко известны традиционные способы обработки информации, содержащейся в потоке материалов, с целью подготовки ее к использованию определенными потребителями, включающие приемы аннотирования, реферирования, предусматривающие подготовку вторичных материалов, в которых содержание исходных материалов кратко характеризуется либо передается в сжатой форме.
Таким способам, не предполагающим какой-либо формализации принципов оценки содержания исходных материалов, присущи недостатки, обусловленные влиянием субъективных предпочтений специалистов, осуществляющих обработку, на ее результат.
Известны также способы обработки информации, содержащейся в потоке материалов, предусматривающие использование предварительно заданного перечня служебных слов и передачу содержания каждого документа совокупностью отобранных из исходного текста фраз, включающих такие слова (см. например заявку на европейский патент N ЕР 0361464, 1990).
В подобных способах более вероятен, чем в способах предыдущей группы отбор только той информации, которая связана с информационной потребностью пользователя, представленной перечнем служебных слов, однако не исключены как пропуски нужной информации, так и ложные совпадения, поскольку слова могут иметь более одного значения, а одно и то же понятие может быть выражено в различных словесных формах.
Известен, кроме того, ряд способов, объединяемых направленностью на выявление "латентной структуры" информации, представляющей интерес для пользователя, на основании, в частности, анализа его предыдущих запросов (см. например: S. Deerwester, S.T. Dumais, G.W.Furnas, T.K.Landauer, R.Harshman. Indexing by latent semantic analysis. Journel of the American Society for Information Science, 41 (1990), 6, 391-407). В этих способах, тоже ориентированных на выявление совпадений поисковых образов с элементами содержания обрабатываемых материалов благодаря более сложному формированию указанных образов, составляющих так называемый "профиль пользователя", то есть характеристику его информационной потребности, менее вероятны ошибки, присущие способам предыдущей группы.
Однако в этом и подобных ему способах акцент делается на формировании "профиля пользователя", осуществляемом предварительно, и не уделяется внимания получению интегрированного представления содержания совокупности обработанных материалов, равно как и содержания одного разноаспектного документа большого объема в процессе самой обработки, поскольку такие способы, как и способы предыдущей группы, ориентированы на независимый анализ отдельных материалов обрабатываемого потока. Кроме того, отмеченный акцент, создавая определенные предпосылки для автоматизации таких способов, не благоприятствует полной мобилизации возможностей специалистов, осуществляющих "ручную" обработку потока информационных материалов.
Предлагаемые изобретения представлены шестью способами-вариантами обработки информационных материалов для персонализированного использования.
Наиболее близким из числа известных ко всем предлагаемым способам является способ последней из групп, рассмотренных при описании уровня техники, описанный в работе S.Deerwester, S.T.Dumais, G.W.Furnas, T.K.Landauer and R. Harshman "Indexing by latent semantic analysis" (Journel of the American Society for Information Science, 41 (1990), 6, 391-407).
Каждым из предлагаемых способов решается задача получения технического результата, заключающегося в мобилизации психофизиологических механизмов воздействия (стимулирования) на ассоциативные (интерпретационные) способности специалиста, осуществляющего обработку потока информационных материалов, на адекватный учет информационной потребности пользователя, чтобы создать условия для персонализированного информационного обеспечения. Достигаемый при использовании данных способов технический результат заключается также в представлении пользователю содержания всей совокупности подвергнутых обработке информационных материалов в интегрированной форме с количественной оценкой относительного охвата в обработанной совокупности тех или иных составляющих "профиля пользователя" как по отдельности, так и во взаимосвязи с выводом упорядоченных количественных характеристик предлагаемой интегрированной формы, позволяющих специалисту, осуществляющему обработку информационных материалов, самому определить последовательность ознакомления с информационными материалами, соответствующую его информационной потребности.
Для достижения названного технического результата в каждом из трех первых предлагаемых способов-вариантов, как и в упомянутом известном, выявляют наличие в обрабатываемых материалах сведений, могущих быть описанными с точки зрения их содержания элементами характеристики информационной потребности пользователя ("профиля пользователя"), фиксируют факт наличия таких сведений и соответствующие им элементы характеристики "профиля пользователя" и используют эти элементы и их сочетания при представлении пользователю содержания обрабатываемых материалов.
В отличие от известного в первом, втором и третьем предлагаемых способах процесс обработки осуществляют в интерактивном режиме. При этом последовательно демонстрируют отдельные смысловые фрагменты, на которые подразделены обрабатываемые информационные материалы, в форме, соответствующей их виду, с демонстрацией в визуальной или аудиовизуальной форме элементов характеристики "профиля пользователя". В случае выявления смысловой связи между содержанием данного фрагмента и теми или иными из упомянутых элементов фиксируют наличие такой связи путем формирования индивидуального признака для каждого из элементов, с которым выявлена связь данного фрагмента.
Далее в первом предлагаемом способе при выявлении различной степени связи данного фрагмента с разными элементами характеристики "профиля пользователя" формируют признаки принадлежности этих элементов разным уровням в соответствии с количеством выявленных градаций связи. После этого осуществляют формирование образа локальной, то есть относящейся к данному фрагменту структуры, представляющей собой помеченный связный неориентированный граф, вершинам которого поставлены в соответствие те элементы характеристики "профиля пользователя", для которых сформированы признаки наличия связей с содержанием данного фрагмента. Этот граф является полносвязным, если ни один из упомянутых элементов характеристики "профиля пользователя" не является доминирующим, то есть все они отнесены к одному и тому же уровню. Если же сформированы признаки принадлежности элементов характеристики "профиля пользователя" разным уровням в соответствии с выявленными различиями тесноты их связи с содержанием данного фрагмента, то каждая из вышерасположенных вершин связана со всеми нижерасположенными, причем в случае наличия более одной вершины на самом верхнем уровне каждая из таких вершин связана также с остальными и с тем же уровнем.
Во втором предлагаемом способе после фиксации наличия упомянутой связи и формирования индивидуального признака для каждого из элементов характеристики "профиля пользователя", с которым выявлено наличие связи содержания данного фрагмента, осуществляют демонстрацию в визуальной или аудиовизуальной форме структур связного неориентированного графа из фиксированного набора вариантов, вершинам которого поставлены в соответствие те элементы характеристики "профиля пользователя", для которых сформированы признаки наличия связи с содержанием данного фрагмента, причем по меньшей мере одной структуре набора присуще наличие доминирующего элемента. При этом производят выбор в качестве локальной, то есть относящейся к данному фрагменту, структуры такого вида из числа имеющихся в наборе, который наиболее адекватен этому фрагменту, и фиксируют в качестве признаков выбранной структуры совокупность материальных факторов, идентифицирующих элементы характеристики "профиля пользователя", соответствующие вершинам этой структуры, и наличие соединяющих их ребер.
В третьем предлагаемом способе после фиксации наличия упомянутой связи и формирования индивидуального признака для каждого из элементов характеристики "профиля пользователя", с которым выявлено наличие связи содержания данного фрагмента, осуществляют формирование образа локальной, то есть относящейся к данному фрагменту структуры в виде помеченного связного неориентированного графа, вершинам которого поставлены в соответствие те элементы характеристики "профиля пользователя", для которых сформированы признаки наличия связи с содержанием данного фрагмента, и фиксируют в качестве признаков сформированной структуры совокупность материальных факторов, идентифицирующих элементы характеристики "профиля пользователя", соответствующие вершинам этой структуры, и наличие соединяющих их ребер.
По окончании формирования образа локальной структуры для последнего из фрагментов обрабатываемых материалов в каждом из трех первых предлагаемых способов-вариантов формируют образ интегрального графа путем логического суммирования графов, представляющих локальные структуры, при одинаковых кратностях ребер последних. Затем отображают результат обработки в визуально воспринимаемом виде с заменой кратных ребер геометрическими образами, размеры или цвет которых соответствуют их кратности, и цифровой индикацией кратности ребер полученного интегрального графа в целом или отдельных его компонент в качестве показателя степени взаимосвязанности проблем, соотносимых с элементами характеристики "профиля пользователя", которым соответствуют вершины интегрального графа.
Описанные первые три предлагаемых способа-варианта равноценны с точки зрения возможности достижения указанного выше технического результата. При этом первый из них предпочтителен в случаях, когда природа обрабатываемых информационных материалов позволяет ограничиться двумя используемыми в нем видами локальных структур; второй когда ожидаемые локальные структуры могут иметь иной заранее известный вид, в особенности когда их более двух; третий
когда специфика обрабатываемых информационных материалов не позволяет априори выбрать типовые локальные структуры.
Для четвертого, пятого и шестого предлагаемых способов-вариантов общим с известным способом по названной выше работе S.Deerwester, S.T.Dumais, G.W. Furnas, T.K.Landauer and R.Harshman является, как и для первых трех, выявление наличия в обрабатываемых материалах сведений, могущих быть описанными с точки зрения их содержания элементами характеристики "профиля пользователя", фиксация факта наличия таких сведений и соответствующих им элементов характеристики "профиля пользователя" и использование этих элементов и их сочетаний при представлении пользователю содержания обрабатываемых материалов.
В отличие от этого известного в четвертом, пятом и шестом предлагаемых способах-вариантах процесс обработки осуществляют в интерактивном режиме. При этом последовательно демонстрируют отдельные смысловые фрагменты, на которые подразделены обрабатываемые информационные материалы, в форме, соответствующей их виду, с демонстрацией в визуальной или аудиовизуальной форме элементов характеристики "профиля пользователя". В случае выявления смысловой связи между содержанием данного фрагмента и теми или иными из упомянутых элементов фиксируют наличие такой связи путем формирования индивидуального признака для каждого из элементов, с которым выявлена связь данного фрагмента.
Далее в четвертом предлагаемом способе при выявлении различной степени связи данного фрагмента с разными элементами характеристики "профиля пользователя" формируют признаки принадлежности этих элементов разным уровням в соответствии с количеством выявленных градаций связи. После этого осуществляют формирование образа локальной, то есть относящейся в данному фрагменту структуры, представляющей собой помеченный связный неориентированный граф, вершинам которого поставлены в соответствие те элементы характеристики "профиля пользователя", для которых сформированы признаки наличия связи с содержанием данного фрагмента. Этот граф является полносвязным, если ни один из упомянутых элементов характеристики "профиля пользователя" не является доминирующим. Если же сформированы признаки принадлежности элементов характеристики "профиля пользователя" разными уровням в соответствии с выявленными различиями тесноты их связи с содержанием данного фрагмента, то каждая из вышерасположенных вершин связана со всеми нижерасположенными, причем в случае наличия более одной вершины на самом верхнем уровне каждая из таких вершин связана также с остальными.
В пятом предлагаемом способе после фиксации наличия упомянутой связи и формирования индивидуального признака для каждого из элементов характеристики "профиля пользователя", в которым выявлено наличие связи содержания данного фрагмента, осуществляют демонстрацию в визуальной или аудиовизуальной форме структур связного неориентированного графа из фиксированного набора вариантов, вершинам которого поставлены в соответствие те элементы характеристики "профиля пользователя", для которых сформированы признаки наличия связи с содержанием данного фрагмента, причем по меньшей мере одной структуре набора присуще наличие доминирующего элемента. При этом производят выбор в качестве локальной, то есть относящейся к данному фрагменту, структуры такого вида из числа имеющихся в наборе, который наиболее адекватен этому фрагменту, и фиксируют в качестве признаков выбранной структуры совокупность материальных факторов, идентифицирующих элементы характеристики "профиля пользователя", соответствующие вершинам этой структуры, и наличие соединяющих их ребер.
В шестом из предлагаемых способов-вариантов после фиксации наличия упомянутой связи и формирования индивидуального признака для каждого из элементов характеристики "профиля пользователя", связь с которым выявлена, осуществляют формирование образа локальной, то есть относящейся к данному фрагменту структуры в виде помеченного связанного неориентированного графа, вершинам которого поставлены в соответствие те элементы характеристики "профиля пользователя", для которых сформированы признаки наличия связи с содержанием данного фрагмента, и фиксируют в качестве признаков сформированной структуры совокупность материальных факторов, идентифицирующих элементы характеристики "профиля пользователя", соответствующие вершинам этой структуры, и наличие соединяющих их ребер.
Затем в четвертом, пятом и шестом предлагаемых способах определяют частоты встречаемости различных конкретных локальных структур, а также частоты встречаемости локальных структур с различным количеством входящих в них элементов характеристики информационной потребности пользователя и отображают значения этих частот и вид соответствующих локальных структур.
Такая же информация может отображаться в качестве промежуточного результата обработки и в описанных выше первых трех предлагаемых способах.
Как и первые три предлагаемых способа-варианта, вторые три, будучи равноценными с точки зрения возможности достижения указанного выше технического результата, предпочтительны соответственно в тех же самых случаях, которые уже были названы для первых трех.
Мобилизации психофизиологических механизмов для ориентации специалиста, производящего обработку потока информационных материалов, на адекватный учет информационной потребности пользователя, способствует интерактивный режим осуществления способов по все шести предлагаемым вариантам, а именно, выполнение этим специалистом предписываемых ему действий в ответ на автоматически выполняемые действия по визуализированному или аудиовизуальному представлению фрагментов исходных материалов и текущих результатов обработки.
Представление пользователю содержания всей совокупности подвергнутых обработке информационных материалов в интегрированной форме обеспечивается как вследствие отмеченной интерактивной организации процесса обработки, так и благодаря тому, что формируемые и представляемые результаты обработки в виде количественных показателей являются функцией содержания всей совокупности обработанных материалов, рассматриваемого с позиций "профиля пользователя". Такой характер имеют как отображаемые результаты обработки, заключающиеся в интегральном графе и его компонентах в способах по первым трем вариантам, так и результаты статистического анализа встречаемости тех или иных элементов характеристики "профиля пользователя" в локальных структурах различных типов в способах по четвертому, пятому и шестому вариантам.
Предлагаемые способы иллюстрируются чертежами, где на фиг. 1 представлена блок-схема технологии автоматизированной обработки информационных материалов для персонализированного использования; на фиг. 2 возможный состав технических средств для одного из частных случаев реализации технологии автоматизированной обработки информационных материалов по предлагаемым способам; на фиг. 3 схематическое изображение процесса формирования образа локальной структуры, приписываемой фрагменту информационных материалов; на фиг. 4 примеры локальных структуры, имеющих вершины, соответствующие доминирующим элементам характеристики "профиля пользователя", и полносвязной локальной структуры; на фиг. 5 пример построения интегрального графа для совокупности локальных структур, приведенных на фиг. 4; на фиг. 6 пример набора локальных структур; на фиг. 7 пример структур, которые дополнительно могут быть включены в набор; на фиг. 8 совокупность локальных структур, полученных при обработке конкретных информационных материалов; на фиг. 9 - интегральный граф, соответствующий совокупности локальных структур на фиг.8; на фиг. 10 пример компоненты интегрального графа на фиг.9.
Информационная технология, основанная на любом из предлагаемых способов, включая использование его результатов и предшествующие подготовительные операции, показана в укрупненном виде на фиг. 1.
К подготовительным операциям относятся формирование "профиля пользователя", подбор информационных материалов и их фрагментирование.
К собственно способам относятся индексирование информационных материалов (включая соотнесение фрагментов информационных материалов с заданными видами локальных структур в первом, втором, четвертом и пятом способах) или формирование локальных структур (в третьем и шестом способах) и интегрального графа (только для первых трех предлагаемых способов), а также отображение полученных результатов.
К действиям по использованию полученных результатов относится их интерпретация.
Предлагаемые способы не предъявляют требований к форме представления информационных материалов и их носителю и допускают использование любых документированных материалов. Ими могут быть, в частности, текстовые материалы, видеозаписи и др. С точки зрения содержания исходные материалы могут представлять собой как совокупность сообщений, документов, статей, аналитических материалов, связанных многоаспектной тематикой, так и отдельные документы.
"Профиль пользователя" это совокупность смысловых элементов, характеризующая информационную потребность пользователя. В зависимости от информационной потребности элементами "профиля пользователя" могут быть понятия, определения, проблемы, задачи, индексы, объекты или, в общем случае - термины (слова или словосочетания) или сочетания терминов (предложения или несколько предложений). При определении "профиля пользователя" связи между его элементами не устанавливаются. Различные известные методы формирования "профиля пользователя" рассмотрены, в частности, в работе (Allen, R. User models: theary, method and practice International. Journal of Man-Machine Studies, 32 (1990), 511-543.
Для использования в предлагаемых способах существенно, что элементы должны быть примерно одного уровня значимости с точки зрения интереса пользователя и иметь одинаковую природу (быть близкими по назначению, типу). Элементы "профиля пользователя" могут быть представлены не только в виде словесных формулировок, но и в форме зрительно воспринимаемых образов.
Под фрагментированием информационных материалов понимается разбиение их на отдельные семантически целостные модули. Для материалов типа сообщений фрагментирование заключается в выделении значимых сообщений, и фрагментом может быть само сообщение или его часть. Для информационных материалов типа документов в качестве фрагмента могут выступать абзац, последовательность абзацев или часть абзаца.
В процессе индексирования устанавливается принадлежность характера связи между соотнесенными с ним элементами "профиля пользователя" определенному типу, описываемому графом локальной структурой. В первом и четвертом способах это иерархическая структура либо структура, представленная полносвязным графом, во втором и пятом способах это структура из числа содержащихся в заранее составленном наборе (библиотеке структур), в третьем и шестом способах это структура произвольного вида, устанавливаемая специалистом, выполняющим индексацию. Выбор той или иной структуры определяется ассоциативными отношениями, возникшими у индексатора в процессе соотнесения смысла фрагмента и совокупности элементов характеристики "профиля пользователя". Доминирующие элементы, наличие которых обусловливается иерархический характер выбираемой локальной структуры, определяются исходя из смысла фрагмента относительно информационной потребности пользователя как имеющие для этого фрагмента большее значение (приоритет) по сравнению с другими. Локальная структура, полученная в результате индексирования, является совокупностью смысловых элементов "профиля пользователя" и логических связей между ними.
Под интегральным графом понимается логическая сумма всех полученных в процессе индексирования локальных структур. Последние всегда являются помеченными неориентированными связными графами с одинаковой кратностью всех ребер. Логическая сумма локальных структур получается путем их наложения с совмещением одинаковых вершин (последним поставлены в соответствие определенные элементы характеристики "профиля пользователя"). При этом кратность ребер интегрального графа равна количеству совпавших связей между соответствующими парами вершин в суммируемых локальных структурах.
Результаты обработки информационных материалов отображаются в виде текстовых фрагментов, графиков, схем, таблиц.
Интерпретация результатов, полученных после обработки, заключительный этап информационной технологии, реализуемой с применением предлагаемых способов. В ходе интерпретации выявляются, в частности, комплексы тесно связанных между собой элементов, определяющих "профиль пользователя", и отдельные слабо связанные или совсем не связанные с остальными элементами. Дальнейший качественный и количественный анализ позволяет сделать выводы о соответствии обработанных материалов информационной потребности пользователя и информационной насыщенности этих материалов с точки зрения данного "профиля пользователя".
Проведение всей обработки именно с позиции конкретного "профиля пользователя" и определяет описываемую технологию как технологию обработки информационных материалов для персонализированного использования.
Примерный состав технических средств для осуществления предлагаемых способов, схематически показанный на фиг. 2, включает компьютерный монитор (мониторы) 1 с клавиатурой 2 и графическим манипулятором ("мышью") 3, процессор 4, память 5 программ, промежуточных и конечных результатов обработки, носители 6,7 файлов обрабатываемых информационных материалов и элементов характеристики "профиля пользователя".
При использовании такого состава технических средств на этапе индексации в одном окне монитора (или на одном из мониторов, если их несколько) отображается содержание исходных материалов, при этом каждый фрагмент выделяется отличающейся от соседних подсветкой. В другом окне (или на другом мониторе) в режиме скроллинга можно последовательно просматривать изображения, соответствующие элементам "профиля пользователя".
Еще в одном диалоговом окне (или в том же, в котором отображаются элементы "профиля пользователя", или на экране отдельного монитора) высвечиваются изображения радиокнопок, выбирая которые при помощи клавиатуры или графического манипулятора можно осуществлять формирование признаков наличия смысловой связи индексируемого в данный момент фрагмента с теми или иными отображаемыми элементами "профиля пользователя".
Аналогичным образом, в зависимости от реализуемого варианта способа, отображаются локальные структуры и осуществляется их выбор или (в третьем и шестом предлагаемых способах) формирование вида структуры.
На завершающих этапах осуществления способов отображаются результаты статистического анализа частот употребления элементов характеристики "профиля пользователя", выступающих в локальных структурах в качестве доминирующих, совместно с информацией о самих соответствующих элементах и тех фрагментах исходных материалов, для которых выявлено наличие связи содержания с соответствующими элементами "профиля пользователя".
Процесс индексации, то есть формирования образа локальной структуры, приписываемой фрагменту информационных материалов, более детально показан на фиг. 3, где использованы обозначения Х для обрабатываемого фрагмента информационных материалов и Yi для составляющих "профиля пользователя". Схема на фиг.3 условна в том отношении, что она одновременно иллюстрирует все три метода индексирования, используемые соответственно в первом и четвертом (два нижних блока в левом ряду), втором и пятом (два нижних блока в среднем ряду), третьем и шестом способах (нижний блок в правом ряду).
Виды локальных структур, используемых в первом и четвертом способах, поясняются фиг. 4а, 4б, 4в, на которых изображены соответственно простейшая иерархическая структура с доминирующей вершиной Y3, иерархическая структура с двумя вершинами Y6 и Y3 на верхнем уровне и полносвязная структура. Фиг.5 поясняет формирование интегрального графа на основе конкретных графов локальных структуры, приведенных на фиг.3 (числами показаны кратности ребер). Такой принцип формирования интегрального графа применяется во всех предлагаемых способах, предусматривающих эту операцию (первом, втором и третьем).
Пример набора (библиотеки) из базовых локальных структур для использования во втором и пятом способах представлен на фиг. 6а 6г, где показаны соответственно:
структура с лидером (доминирующим элементом "профиля пользователя"), аналогичная фиг. 3а; в этой структуре, применимой для любого количества Yi, вершины, не являющиеся лидером, составляют контекст для него;
структура кольцевого типа, в которой попарно связаны только соседние вершины; данная структура, тоже применимая для любого количества Yi, относится к структурам со слабой связью;
регулярная структура, в которой все вершины равноправны, применимая только для количества Yi, кратного 3, относится к структурам со средней степенью связности;
полносвязная структура, в которой каждый Yi связан с остальными, являющаяся структурой с сильной степенью связности.
Дополнительно в набор (библиотеку) могут быть включены структуры типов, показанных на фиг. 7а, 7б.
На фиг. 7а показана структура типа гантели, в которой А и В локальные структуры из числа базовых, показанных на фиг.5 (в частном случае А и В могут быть одной и той же структурой). Для этой структуры существенно наличие ребра, соединяющего две базовые структуры, отражающие самостоятельные тематические группы понятий. Ребро между А и В означает наличие связи между любой парой понятий, одно из которых входит в А, а другое в В.
В структуре по фиг. 7б через А тоже обозначена одна из базовых локальных структур. Ребро а означает наличие связи между Yi и любым понятием, входящим в А.
Кроме того, в библиотеку могут быть включены типы локальных структур, образованные рекурсивно, когда в качестве отдельного понятия выступает одна из базовых локальных структур.
В третьем и шестом способах специалист, производящий индексацию, может приписать отдельному обрабатываемому фрагменту в качестве локальной структуры произвольный граф, в частности такой, который получается из одной из базовых структур путем добавления или исключения отдельных ребер.
Способы четвертый, пятый и шестой по своему назначению могут быть сопоставлены со способами аннотирования, применяемыми для характеристики содержания информационных материалов. Обычные способы не предусматривают выработку рекомендаций для пользователя о целесообразной последовательности ознакомления с материалами по интересующей его тематике.
Целесообразность в данном случае понимается с точки зрения сокращения времени за счет того, что ему предлагается не просматривать материалы подряд, как они встретились, а вначале ознакомиться с теми, которые в наибольшей степени соответствуют его интересам.
При этом полезность относительно аннотирования (индексации) локальной структуры имеет как микро-, так и макроэффект. Микроэффект проявляется в сокращении времени при одновременном получении большей информации пользователем, когда он видит на экране отдельную локальную структуру, приписанную некоторому материалу. При обычном аннотировании он должен последовательно (слово за словом) прочитать слова, которые входят в аннотацию. В случае с представлением ему аннотации в виде локальной структуры пользователь воспринимает сразу все входящие в нее элементы одновременно с характером взаимосвязи между собой. При этом отсутствует жесткая последовательность ознакомления. Каждый вначале находит, что его интересует больше. Если Y-ков много, например больше сотни, для ускорения его ориентации в локальной структуре ему могут последовательно высвечиваться на экране для каждой вершины по одному первому слову из Y, потом 2 и т.д. При этом используются психофизические возможности человека моментально понимать, то есть схватывать тип структуры, которую он видит.
Макроэффект достигается при выводе пользователю суммарной информации о всех локальных структурах, которыми аннотированы интересующие его материалы. пользователю выводится логическая статистика по частоте употребления отдельных понятий (или их сочетаний) в качестве лидера, а также комбинации Yi, которые вошли в сильно связанные (тип 4) локальные структуры. В результате пользователь имеет возможность самому построить стратегию ознакомления с материалами в целом исходя из той информации, которая ему выводится. Учитывая, что выводимые ему данные ориентированы на описание наиболее существенной или значимой информации, пользователь имеет возможность сократить время ознакомления со всеми материалами в целом.
Как уже отмечалось при раскрытии изобретений, в любом из первых трех способов в качестве результата, представляемого пользователю, могут быть отображены те же данные, что и в четвертом шестом способах. Однако такие результаты для первых трех способов являются промежуточными, основным же для них является результат в виде информации, заключенной в интегральном графе.
Для анализа информации, заключенной в интегральном графе, существенным является механизм выявления и привлечения внимания пользователя к структурным особенностям интегрального графа. К таким особенностям могут быть отнесены так называемые "логические сгустки" сочетания элементов профиля пользователя, наиболее часто встречающиеся в различных локальных структурах. Для их выявления пользователю выводятся сочетания элементов профиля пользователя, упорядоченные по сумме связей (с учетом кратности) между элементами, входящими в сочетание (внутренние связи) и сумме связей (с учетом кратности) между элементами, входящими в сочетание, со всеми остальными (внешние связи). Выявленные "сгустки" могут интерпретироваться как комплексы элементов "несущие основное содержание" информационных материалов или как новая, еще неосознанная пользователем проблема имеющая отношение к его информационной потребности.
Реализация предлагаемых способов, которая, как уже отмечалось, выполняется в интерактивном режиме, предполагает отображение текущей и итоговой информации, представленной определенными формами.
Выходная форма представляет собой совокупность визуальных объектов, размещенных на экране монитора ПК.
Выходные формы отличаются своим назначением и составом компонент.
Компоненты подразделяются на: 1) поддерживающие процесс общения с системой: меню (текстовые меню и иконки), информационные (наименования окон, статус-строки, дополнительная информация), системы помощи, подсказки; 2) представляющие пользователю результаты обработки информации и влияющие на их демонстрацию.
Важной особенностью выходной формы является ее организация, направленная на то, чтобы совокупность компонент обеспечивала многоаспектное и комментированное представление по конкретной задаче, которой посвящена выходная форма.
Или, иначе, каждая выходная форма посвящена конкретной задаче, которая определяет характер выбора компонент и методы их представления и обработки.
По назначению выходные формы делятся на: поддерживающие технологический процесс, представляющие справочную информацию, представляющие результаты обработки информации и влияющие на их демонстрацию (настраиваемые пользователем).
Предполагается поддержка интерфейсом двух методов обработки полученных результатов: по стандартному сценарию, произвольного.
Оба метода предполагают использование специализированных выходных форм. Различие может заключаться в характере подачи информации, последовательности выдачи и возможностях, предоставляемых пользователю, по взаимодействию с системой.
Ниже практическое использование технологии, основанной на предлагаемых изобретениях, иллюстрируется примером.
Примером обработки информационных материалов, полученных из "Проекта программы ЮНЕСКО и бюджета на 96-97 гг. Документ 28/С6, Издание ЮНЕСКО, 1995 г." (на русском языке).
Всего было выделено для процесса индексирования 19 информационных материалов (фрагментов текста).
Для их индексирования был сформирован "профиль пользователя", описывающий его информационную потребность относительно "Проекта программы ЮНЕСКО" и включающий 9 элементов.
1. Расширение использования местных возможностей обучения, включая печать, общинное радио, телевидение, библиотеки, мультимедиа.
2. Обновление и деверсификация системы образования с учетом потребностей культурной самобытности обучающихся.
3. Содействие поиску альтернативных систем обеспечения образования, включая открытое и дистанционное образование.
4. Ускорение передачи и распространения знаний через существующие сети и обмен базами данных.
5. Сохранение и охрана мирового наследия человечества в виде книг, произведений искусства и памятников исторического и научного значения.
6. Модернизация музейных инфраструктур и совершенствование учебных программ с целью превращения музеев в места непрерывного образования.
7. Содействие тому, чтобы технологические инновации отвечали потребностям развития производства, распространению разнообразных и качественных культурных программ и другой культурной продукции.
8. Наращивание усилий по развитию региональных компьютерных сетей, которые могут стать для развивающихся стран первым этапом на пути к созданию "электронных скоростных магистралей".
9. Содействие использованию информационных и коммуникационных технологий во всех областях компетенции ЮНЕСКО.
В процессе проведения индексации фрагментам "Программы" были поставлены в соответствие элементы профиля пользователя. В качестве примера индексации приведены три фрагмента текста с поставленными им в соответствие элементами (номер порядковый номер индекса, символ " * " указание более высокого приоритета элемента профиля пользователя относительно других элементов из присвоенных фрагменту):
Фрагмент 1. Проект 01224 из "Крупной программы I: На пути к непрерывному образованию".
В рамках Международного проекта по техническому и профессиональному образованию (ЮНЕВОК), осуществление которого начало в 1992 году, по-прежнему будут предприниматься усилия по созданию сети национальных центров ЮНЕВОК в целях активизации обмена опытом по вопросам политики в области технического и профессионального образования, укреплению национального потенциала в области научных исследований и разработок и содействию к доступу к базам данных и информации. Упор будет делаться также на мероприятия по подготовке кадров в таких областях, как разработка учебного плана и новые методологии обучения: подготовка преподавателей, администраторов и работников планирования (с участием МИПО ЮНЕСКО), а также на составление учебно-методических материалов. В увязке с проектом "Естественнонаучное, техническое и профессиональное образование для девушек" внимание будет уделяться содействию равного доступа для девушек и женщин к техническому и профессиональному образованию и взаимодействию между образованием и рынком труда в перспективе непрерывного образования (с участием МБП ЮНЕСКО). Предусматривается издание на английском и французском языках и распространение ежеквартального информационного бюллетеня UNESCO INFO.
Фрагменту поставлены в соответствие элементы 2,4,9.
Фрагмент 2. Проект 03127 из "Крупной программы III: Развитие культуры, наследие и творчество".
Особые условия будут предприняты с целью сохранения движимых культурных ценностей и улучшения инфраструктуры музеев. Помощь государствам членам будет оказываться в отношении составления списков, обеспечения сохранности, безопасности и популяризации собраний. В сотрудничестве с ИККРОМ и ИКОМ будет привлекаться внимание к подготовке музееведов путем усиления или создания на местах в других районах сетей, аналогичных сети ПРЕМА для стран Африки. Техническая помощь будет оказываться развивающимся странам в целях создания национальных музеев, а также их оборудования компьютерными системами и банками данных (в сотрудничестве с Агентством по культурному и техническому сотрудничеству (АККТ) и (АЛЕКСО)).
Фрагменту поставлены в соответствие элементы 5, *6, 9.
Фрагмент 3. Проект 03127 из "Трансдисциплинарных проектов".
Учебные материалы и информация будут широко распространяться через правительственные и неправительственные системы из сети доставки, такие, например, как "Сеть Африка 2000", "Общество планета". Клубы ЮНЕСКО, Сеть ассоциированных школ, программа "Глобус", молодежные и женские организации, общественные движения и организации учителей. Будет оказана помощь в переводе отдельных материалов на национальные и местные языки. Соглашения о сотрудничестве будут заключены с организациями, осуществляющими деятельность по вопросам народонаселения и окружающей среды в различных регионах с целью содействия широкому распространению имеющей важное значение информации в соответствующей аудитории.
Фрагменту поставлены в соответствие элементы *1, 4, *8, 9. Соответствующие фрагментам локальные структуры приведены на фиг.8.
В связи с небольшим количеством фрагментов, использованных для примера, и как следствие непрезентативной статистики по локальным структурам, статистический анализ по конкретным локальным структурам не рассматривается. Далее был сформирован интегральный граф (фиг.8), который послужил основой для оценки и интерпретации входной информации.
Анализ кратности ребер интегрального графа позволяет установить наиболее сильно или слабо связанные проблемы.
Приведем в качестве примера один из вариантов анализа.
Первоначально рассмотрим наиболее сильные связи (ребра наибольшей кратности) из всех возможных произвольных пар элементов профиля пользователя. Выделим для демонстрации подхода первые три пары. Такими являются: 7-9, 1-9, 2-9. Следует подчеркнуть, что выделение осуществляется программно.
Проведем подобное выделение для всех возможных произвольных сочетаний по три вершины интегрального графа, то есть рассмотрим все возможные подграфы интегрального графа с тремя вершинами. Выделение также производится по заданию пользователя автоматически.
Рассматривая совокупную величину кратности ребер полученных подграфов, можем их ранжировать по убыванию этой величины. Рассмотрим первую тройку полученных подграфов. Такими являются 1-2-9, 1-7-9, 2-3-7.
Сопоставляя результаты, полученные для подграфом интегрального графа с двумя вершинами и для подграфов с тремя вершинами, рассмотрим, как изменилось поведение взаимосвязи элементов профиля пользователя.
Рассмотрим подграф 1-2-9. Это первый подграф по совокупной кратности ребер из подграфов с тремя вершинами. (Далее для простоты обозначения "троек"). Подграф отражает ситуацию, которая сложилась в процессе индексирования, и отражает тот факт, что проблемы 1,2,9 оказались наиболее взаимосвязаны, по мнению пользователя, применительно к данным информационным материалам. Программно пользователь может рассмотреть, какие именно материалы послужили основой для формирования данного подграфа. Далее, сравнивая данный подграф с подграфом с вершинами 7 и 9 (лидером из подграфов интегрального графа с двумя вершинами), пользователь может сделать вывод о том, что элемент 7 не участвовал в формировании наибольшей "тройки", хотя подграф с вершинами 7 и 9 является лидером среди подграфов с двумя вершинами. Очевидно, что данный процесс итерационен и может быть применен к подграфам с различным количеством вершин. Цель данного процесса дать пользователю информации о том, каким образом используются в процессе индексирования элементы профиля пользователя и какие связи образуются между ними по результатам процесса индексирования.
Итерационно оценивая полученные связи, пользователь получает характеристику информационных материалов применительно к профилю пользователя, полученную при индексировании.
Одним из вариантов представления информации пользователю о подграфах интегрального графа выступает "схема взаимосвязи" (фиг.10), представляющая пользователю информацию по конкретным элементам профиля пользователя и их связи визуально. Для "схемы взаимосвязи" связи, соединяющие элементы профиля пользователя, это ребра подграфа, а количественная оценка данной связи - кратность ребра.
Предлагаемые способы могут найти применение для получения разнообразных видов практически полезного результата в различных сферах их использования, в частности: в сферах администрирования, финансовой выявление взаимозависимостей между показателями, описывающими интересующий пользователя процесс или объекта; упреждение, прогноз, выявление нарождающихся проблем; в сфере самообразования ускоренное изучение разнородных материалов по сложной проблеме; в библиотечном деле подбор информационных материалов с учетом тематического интереса пользователя; экспресс-ознакомление с аннотациями интересующих пользователя материалов; создание специальных баз данных, включающих семантические аннотации изданий по определенной тематике; при создании автоматизированных систем реферирования на различных языках.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ АВТОМАТИЗИРОВАННОЙ ОБРАБОТКИ ИНФОРМАЦИОННЫХ ТЕКСТОВЫХ МАТЕРИАЛОВ | 2003 |
|
RU2242048C2 |
СПОСОБ ВЫЯВЛЕНИЯ ПЕРСОНАЛЬНЫХ ДАННЫХ ОТКРЫТЫХ ИСТОЧНИКОВ НЕСТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ | 2013 |
|
RU2549515C2 |
Сегментация многостолбцового документа | 2014 |
|
RU2647671C2 |
СПОСОБ ОБРАБОТКИ ЭЛЕКТРОКАРДИОСИГНАЛА В ДИНАМИКЕ ДЛЯ ДИАГНОЗА ИНФАРКТА МИОКАРДА | 2001 |
|
RU2217045C2 |
Система и способ обнаружения источника вредоносной активности на компьютерной системе | 2018 |
|
RU2724800C1 |
СПОСОБ КАРТОГРАФИРОВАНИЯ ЛЕДНИКОВОЙ ГЕОМОРФОЛОГИИ | 2014 |
|
RU2570334C1 |
СПОСОБ СТРУКТУРНО-ФУНКЦИОНАЛЬНОГО СИНТЕЗА ЗАЩИЩЕННОЙ ИЕРАРХИЧЕСКОЙ СЕТИ СВЯЗИ | 2013 |
|
RU2547627C2 |
Способ упреждающей реконфигурации структуры сети связи обеспечивающей обмен информацией в интересах корпоративной системы управления в условиях деструктивных воздействий | 2020 |
|
RU2747174C1 |
СПОСОБ ОБРАБОТКИ ЭЛЕКТРОКАРДИОСИГНАЛА ДЛЯ ДИАГНОСТИКИ ИНФАРКТА МИОКАРДА | 2008 |
|
RU2383295C1 |
СПОСОБ И СИСТЕМА ФОРМИРОВАНИЯ СТРУКТУРЫ ДАННЫХ НА ОСНОВЕ МНОГОСЛОЙНОГО ГРАФА | 2020 |
|
RU2739473C1 |
Изобретениями, относящимися к области информационных технологий, обеспечиваются адекватный учет "профиля пользователя", то есть его информационной потребности, и представление ему сведений о содержании всей совокупности подвергнутых обработке информационных материалов в интегрированной форме с количественной оценкой охвата в обработанной совокупности тех или иных составляющих "профиля пользователя" как по отдельности, так и во взаимосвязи. В обрабатываемых материалах выявляют наличие сведений, ассоциируемых с составляющими "профиля пользователя", которые демонстрируются в процессе обработки в визуальной или аудиовизуальной форме. Формируют локальные структуры - графы, отражающие характер связи каждого самостоятельного в смысловом отношении фрагмента обрабатываемых материалов с указанными составляющими. В одних вариантах предлагаемых изобретений пользователю предоставляется в визуальной форме статистика по частоте использования различных конкретных локальных структур и структур с различным количеством входящих в них элементов "профиля пользователя". В других вариантах строят интегральный граф, представляющий логическую сумму локальных структур, и демонстрируют пользователю образ этого графа в целом или отдельных его компонент. И в тех и в других вариантах конечный результат способа ориентирует пользователя на приоритетный отбор тех частей информационных материалов, которые в наибольшей степени отвечают его информационной потребности, и способствуют обнаружению скрытых проблем, не проявляющихся при обычном последовательном ознакомлении с материалами. 6 с.п.ф-лы, 10 ил.
EP, патент, 0457700, кл.G 06F 15/40, 1996 | |||
Geerwester S., Dumais S.T., Furnas G.W., Landauer T.K | |||
and Harshman R | |||
Indexing by latent semantic analysis | |||
Journao for Information Science, 41(1990), 6, 391 - 407. |
Авторы
Даты
1997-11-20—Публикация
1996-04-29—Подача