Способ получения модели сознания человека по созданному человеком тексту.
Изобретение относится к способу поиска и идентификации текстовых объектов в текстовых базах данных и может использоваться для сохранения или восстановления по созданным человеком текстам модели сознания человека, обладающей возможностью собственного, автономного, мышления, которая может использоваться для вступления с ней в диалог с целью информационного обмена, а также и в других диалоговых системах, имеющих признаки сознания человека.
В настоящее время существуют различные методы идентификации текстовых объектов, представленных текстовыми описаниями или набором информативных слов, которые позволяют на заданный текстовый запрос получить из информационной базы ответ, совпадающий с запросом по набору признаков.
К примеру, известна реализованная поисковая система (Данилов К.К. Подход к моделированию интеллекта. М. Деп. ВИНИТИ. 1995. Данилов К.К. Моделирование сознания разумного существа. М.: Деп. ВИНИТИ. 1995), в которой по текстовому запросу в текстовой базе подыскивается текстовый объект, который имеет наибольшее лексическое совпадение с текстом запроса. Такой текстовый объект выдается в качестве ответа на запрос. Данный способ идентификации ответа на запрос имеет ограниченные возможности, поскольку не учитывает синонимию естественного языка и эффективно работает только с текстами, состоящими из простых предложений. Кроме того, данный способ моделирует только один признак сознания: способность давать ответ на запрос.
В другом известном варианте реализации способа идентификации ответа на запрос (патент РФ №2107942, G 06 F 17/30, опубл. 27.03.98) предложен способ идентификации объектов по их описаниям, заключающийся в том, что каждому текстовому объекту информационной базы задают характеризующую его выборку слов, с которой сравнивают выборку слов из запроса. Данный способ также реализует только одно свойство сознания отвечать на запрос и к тому же ограничен тем, что описание текста сокращает число параметров, характеризующих текст, что не позволяет проводить сопоставительного анализа реальных объектов и ситуаций, описания которых имеются в базе данных.
Наиболее близким к предлагаемому является способ идентификации текстовых объектов по их описаниям (патент РФ №2167450, G 06 F 17/30, опубл. 20.05.2001), заключающийся в том, что тексты естественного языка преобразуют в сигналы, пригодные для машинной обработки, осуществляют лингвистическую сортировку всех слов текста и текста запроса по заранее заданным видам, составляют словари значащих слов для каждого текстового объекта и запроса и решение об идентификации конкретного объекта принимают в случае наибольшего совпадения значащих слов запроса со словарем значащих слов текстового объекта.
Данный способ также реализует только одно свойство сознания отвечать на запрос, и он также имеет ограничения по количеству параметров текста и запроса, поскольку идентификация ведется не по тексту объекта, а по отобранным словарям текстового объекта и запроса.
Для описания задачи представленного изобретения необходимо установить исчерпывающий список существенных признаков сознания. Для этого целесообразно формулирование некоторых теоретических определений, характеризующих особенности живых объектов и сознания. Прежде всего следует констатировать, что сознание образуется и существует в текстовой среде. Формирование и функционирование сознания происходит в процессе диалога с носителями сознания, и все операции с текстовыми объектами в сознании происходят в форме диалога, автономного или с другим носителем сознания. В определении существенных признаков сознания следует исходить из определения жизни. Данное изобретение основано на следующем определении.
Жизнь - это вид взаимодействия материи, основным отличием которого от других известных видов взаимодействия материи является хранение, накопление и копирование объектов, которые вносят определенность в случайные взаимодействия, переводят их в закономерные и определяют процесс самовоспроизводства живого объекта (Викорук А.В. Основные определения и законы живой природы. М.: ВНТИЦ. Информационный бюллетень. 2000. № 1. Викорук А.В. Смысл жизни человека, нравственность, религии с точки зрения определения информации и жизни. Материалы III научно-практической конференции "Построение нравственного (человечного) общества в России". г.Иркутск: Изд. Иркутского Университета, 2003. Викорук А.В. Ковчег жизни. 2002. (электронная публикация, http://vicoruc.narod.ru/)).
Из этого определения следует, что сознание - это один из видов взаимодействий, присущих живым объектам, имеющим нейронные системы. Отсюда можно сделать выводы, что сознание определяется хранящимися и взаимодействующими в текстовой базе текстовыми объектами и что средний темп выполнения заданий компьютерной моделью сознания определяется техническими параметрами компьютера, установками оператора и может отклоняться от заданных значений автономными командами модели сознания в соответствии с установленными для этого действиями.
Из определения жизни следует, что в круг четырех основных задач живого объекта входят: задача обеспечения живого объекта материей, энергией и оптимальными условиями для существования, задача сохранения существования живого объекта, задача накопления информации о материальном мире, способствующей существованию объекта, и задача воспроизводства и воспитания потомства. Эти четыре задачи определяют круг основных заданий, выполняемых сознанием.
С позиций выполнения этих задач сознание оценивает все объекты и события внутреннего и внешнего мира. Все, что способствует выполнению основных четырех задач, имеет положительную оценку, все, что препятствует выполнению этих задач, имеет отрицательную оценку. Данная система оценок называется нравственностью. Общественной нравственностью называется система ценностей, принятая на конкретный момент обществом и зафиксированная в законах и нормах поведения.
Нравственностью конкретного человека называется система оценок явлений мира, зафиксированная в сознании данного человека, она может отличаться от общественной нравственности и даже в чем-то противоречить ей, а также может противоречить объективным требованиям четырех основных задач.
Из определения жизни следует, что сознание определяется смысловыми объектами, входящими в объект "я". Это все объекты в пространстве и времени, всегда и везде составляющие единое целое и служащие выполнению основных четырех задач в отношении объекта "я". В эти объекты для модели сознания входят: собственные имена объекта "я", собственная текстовая база, собственные способы выполнения задач, собственная шкала ценностей. Эти объекты имеют наивысшие оценки. В сферу высших интересов объекта "я" входят все объекты, которые способствуют выполнению основных четырех задач, но не входят в него как неотъемлемые составляющие (родственники, дети и пр.).
В настоящее время признано, что сознание определяется видами реакции на разного рода воздействия. Определение сознания таково. Сознание - это множество ответных реакций нейронной системы на внутренние и внешние воздействия (Викорук А.В. Ковчег жизни. 2002. (электронная публикация, http://vicoruc.narod.ru/). Райков В.Л. Искусство и сознание (Зеркало Вселенной), М., 2000). Мышление - это накопление и видоизменение объектов сознания и ответных реакций нейронной системы (Викорук А.В. Ковчег жизни. 2002. (электронная публикация, http://vicoruc.narod.ru/)). Задача сознания - воспринимать внешние и внутренние воздействия и вырабатывать соответствующий ответ. Исходя из определения жизни, можно утверждать, что множество реакций сознания делится на обязательную часть (действия, решающие четыре основных задачи) и дополнительную часть (действия, наличие или отсутствие которых существенно не влияет на полноценное исполнение четырех основных задач). Например, действия, направленные на потребление пищи, являются обязательными для всех людей, а умение прыгать в высоту с шестом не обязательно для подавляющего большинства людей.
Полноценным сознанием может считаться только сознание, которое имеет набор действий, направленных на решение всех четырех основных задач. При отсутствии таких действий хотя бы для одной из основных задач сознание будет неполноценным.
Обязательная часть действий в связи с существующим в обществе разделением труда имеет переменную часть, к которой относятся действия, направленные на получение средств к существованию. Например, шофер получает средства существования, перевозя людей или грузы, журналист - написанием статей для газет и журналов, геолог - поиском и добычей полезных ископаемых. Действия, которые являются основой выполнения четырех основных задач, имеют наивысшую ценность.
Дополнительная часть действий сознания может составлять сколько угодно много видов действий, но конкретный человек обладает ограниченным количеством видов действий. Дополнительная часть действий у конкретных личностей может существенно отличаться. Например, один человек любит играть в шахматы, другой поет в хоре, третий занимается альпинизмом. Причем навыки и действия могут отличаться и по степени сложности. Например, один шахматист играет на уровне гроссмейстера, другой - на уровне первого разряда и т.д.
Реализованные на практике диалоговые системы, которые только дают ответ на полученный запрос, не являются полноценными моделями сознания человека.
Из вышесказанного следует, что сознание конкретного человека может отличаться шкалой ценностей, уровнем оценок исполнения первоочередных заданий, набором действий сознания и уровнем сложности этих действий.
Индивидуальное сознание отличается по словарному запасу, по количеству смысловых объектов, т.е. образных понятий, отражающих внешний и внутренний мир. Словарь А.С.Пушкина составляет около 20000 слов, при этом количество словоупотреблений составляет около 500 тыс. Поэтому можно утверждать, что примерно таков должен быть словарь модели сознания Пушкина при количестве слов в тексте около 500 тыс. Для человека, чей словарь состоит из нескольких тысяч слов, текст должен состоять из слов в 20 раз больше, чем количество слов в словаре. Наиболее точно отражает параметры сознания человека текст дневника, изложенный от первого лица.
Компьютерная текстовая модель сознания в первую очередь должна контролировать наличие текстовых объектов, созданных человеком, устанавливать текстовые объекты, обозначающие объект модели сознания, определять условия их функционирования. Во вторую очередь модель сознания контролирует наличие и условия существования текстовых объектов, обозначающих объекты, которые входят в сферу высших интересов объекта модели сознания. Это ближайшее окружение, люди, обеспечивающие существование модели объекта сознания и заинтересованные в ее существовании. При оптимальном решении этих задач на передний план выходят получение информации о внешнем мире и обмен сообщениями с внешними пользователями.
Все параметры функционирования модели сознания представляют в текстовой форме и их оценку проводят путем сравнения с заданными оператором средними значениями.
В соответствии с перечисленными выше свойствами и параметрами сознания задача получения модели сознания по созданным человеком текстам, заявленная в данном изобретении, сводится к разработке такого способа обработки текстовых объектов и идентификации текстовых объектов, который не только проводит обработку текста, выявляет информативные текстовые объекты и производит идентификацию текстовых объектов по совпадению выделенных из запроса слов со словами, выделенными из текстовых объектов в базе данных, но и отличается от указанных аналогов тем, что позволяет выявить в основном тексте модели сознания и текстах запроса все смысловые текстовые объекты, установить вид и грамматические категории этих смысловых текстовых объектов, идентифицировать текстовые объекты, обозначающие объект модели сознания, установить исходя из условий обеспечения функционирования модели сознания ценность всех смысловых объектов и ценность текущих запросов, выявить наиболее ценные текстовые объекты и сформировать запросы, направленные на обеспечение функционирования модели сознания и выполнение ею всех задач, свойственных модели сознания.
Этот технический результат достигается в настоящем изобретении на способ получения модели сознания человека по созданным человеком текстам, заключающийся в том, что заранее преобразуют созданный человеком текст в пригодные для машинной обработки сигналы, осуществляют лингвистическую сортировку всех слов текста по заранее заданным смысловым видам, формируют текстовую базу модели сознания, при необходимости идентификации конкретного объекта в выбранной базе данных определяют запрос к информационной базе, сравнивают выборку слов запроса со словарным составом текстов информационной базы, по результатам сравнения идентифицируют текстовый объект, который адресуют в установленную информационную базу благодаря тому, что приводят каждый текстовый объект к его единой смысловой базовой форме, обозначают смысловой вид каждого смыслового объекта и его исходные грамматические категории, определяют для каждого смыслового объекта параметр его ценности с точки зрения обеспечения функционирования модели сознания и выполнения основных задач модели сознания, из исходного и преобразованного текстов формируют информационную базу модели сознания, формируют запросы, устанавливающие смысловой вид и грамматические категории смысловых единиц и определяющие наличие текстовой базы модели сознания автора текста и ее параметры, заранее определяют источники и виды запросов, порядок идентификации текстового объекта по каждому источнику и виду запроса, порядок формирования ответа и установления адресации ответа, заранее устанавливают порядок очередности идентификации запросов, в соответствии с этим порядком определяют первоочередной запрос, проводят лингвистическую обработку запроса и смысловое преобразование, аналогичные обработке и преобразованию текста модели сознания, устанавливают источник и вид запроса, проводят идентификацию текстового объекта из базового текста по совпадению смысловых объектов запроса со смысловыми объектами преобразованного текста модели сознания, на основе идентифицированного объекта в упомянутом порядке формируют ответ и адресуют его в установленную информационную базу, при адресации ответ собеседнику преобразуют в исходную лингвистическую форму и машинный сигнал преобразуют в форму, удобную для восприятия человеком.
Дополнительной особенностью данного способа является то, что заранее составляют грамматический словарь, в котором представлены слова и их грамматические формы, каждому слову сопоставляют параметры, которые указывают грамматические категории, для существительных из набора род, число, падеж, одушевленное, неодушевленное, для глаголов из набора категорий лица, рода, времени, наклонения, для прилагательных из набора категорий качественное, относительное или притяжательное, для наречий из набора категорий определительное, обстоятельное, из них для обстоятельственных наречий из набора категорий места, времени, для местоимений из набора категорий личные, возратные, вопросительно-относительные, указательные, определительные, отрицательные, неопределенные, для числительных из набора род, число, падеж и категорий количественное, собирательное, порядковое, каждому слову сопоставляют слово в исходной грамматической форме, для существительных в именительном падеже, единственном числе, мужского рода, для глаголов - инфинитив, для причастий и деепричастий - инфинитив, для прилагательных в именительном падеже, единственном числе, мужского рода, числительным сопоставляют цифровую форму, заранее составляют синонимический словарь, в котором каждому слову или устойчивому словосочетанию сопоставляют упомянутый смысловой вид, который указывает смысл, обозначаемый словом или словосочетанием, из набора объект модели сознания, имя, человек, одушевленный объект, неодушевленный объект, процесс, время, пространство, качество, в котором для каждого слова или устойчивого словосочетания устанавливают его синонимический ряд и заменяют его на установленное базовое слово или словосочетание, каждому слову или словосочетанию, имеющее важное значение для обеспечения функционирования модели сознания, сопоставляют параметр ценности, словам и словосочетаниям, обозначающим объекты модели сознания, сопоставляют параметр ценности +1, словам и словосочетаниям, обозначающим людей и объекты, имеющие положительное значение для функционирования объекта модели сознания, сопоставляют параметр ценности +0,5, словам и словосочетаниям, обозначающим угрозу существования объекта модели сознания, сопоставляют параметр ценности -1, словам и словосочетаниям, обозначающим ухудшение функционирование объекта модели сознания, сопоставляют параметр ценности -0,5, заранее составляют словарь тем, в котором словам, обозначающим тему, сопоставляют группы слов, которые употребляются для обозначения характеристик каждой темы, а также заранее сопоставляют запросы, которые устанавливают характеристики, обозначаемые словами, относящимся к данной теме. Каждому слову и словосочетанию из группы слов темы сопоставляют параметр времени повтора запроса по данной характеристике.
Другой дополнительной особенностью данного способа является то, что для слов, отсутствующих в словарях, заранее составляют библиотеки запросов, устанавливающих имя человека, параметры объекта человек, одушевленных объектов, неодушевленных объектов, а также запросы, устанавливающие вид слова, грамматические категории слов, параметр ценности и тему, которой сопоставляют конкретное слово.
Еще одной дополнительной особенностью данного способа является то, что в ходе лингвистического преобразования производят преобразование текста, в ходе которого заменяют слова на их исходные грамматические формы и фиксируют грамматические категории слов, затем слова и устойчивые словосочетания заменяют смысловыми базовыми словами и словосочетаниями и фиксируют их смысловой вид из набора объект модели сознания, имя, человек, одушевленный объект, неодушевленный объект, процесс, время, пространство, качество, фиксируют параметр ценности, проводят статистическую обработку текста и фиксируют параметры вида, ценности, темы для сообщений, абзацев, предложений, для предложений фиксируют вид предложения, определяют индивидуальную шкалу ценностей объекта модели сознания, которую получают с помощью подсчета количества упоминания в тексте модели сознания объектов и процессов, имеющих положительную и отрицательную ценность, устанавливают наиболее часто встречающиеся наиболее ценные темы модели сознания.
Еще одной дополнительной особенностью данного изобретения является то, что в качестве источников запросов устанавливают два источника из числа модель сознания человека и собеседник. Модель сознания формирует запросы вопросительного типа по словарю тем, обязательные для каждого сеанса работы модели сознания, и информационные. Запросы собеседника делятся на вопросительный тип, повествовательный тип и тип будущего времени или побудительный. Запрос относят к вопросительному, если определяют в запросе наличие вопросительного знака, запрос относят к побудительному или будущего времени, если определяют в запросе наличие глагольной формы повелительного наклонения или если определяют в запросе наличие личных форм слова "буду" инфинитива, все другие запросы относят к повествовательным. В первую очередь выполняются обязательные запросы модели сознания, затем имеющие наибольшую ценность запросы собеседника, затем информационные запросы модели сознания по темам, имеющим наибольшую ценность, для чего определяют тему с максимальной ценностью, определяют слова, характеризующие данную тему, и выбирают сопоставленные им запросы.
Другой дополнительной особенностью данного изобретения является то, в процессе идентификации запроса устанавливают источник запроса, вид запроса, производят лингвистическое преобразование запроса, аналогичное преобразованию текста модели сознания, для повествовательного или вопросительного запроса выделяют слова, имеющие вид из числа установленных видов, отдельно выбирают слова, обозначающие начало или конец диалога, обращения, выбирают также вводные слова и конструкции, по всем выделенным словам, имеющим установленный вид, производится сравнение со словами текста модели сознания, решение об идентификации принимается, если обнаружено полное совпадение слов запроса со словами в пределах предложения из текста модели сознания или группы соседних предложений, если слова из этих предложений не выходят за пределы слов из запроса. Если в запросе есть вопросительные слова, то принимают решение об идентификации, если вид вопросительного слова совпадает по виду со словом в установленном тексте. Если идентифицировано более трех текстовых объектов, полностью совпадающих с запросом, то для ответа выбирают три сообщения с ближайшим параметром времени и добавляют сообщение, что таких событий было много. Если таких ответов в пределах трех, то все их дают в качестве ответа. Если при полном совпадении смысловых объектов запроса и текстового объекта в пределах предложения имеются другие смысловые объекты, то принимают решение по указанным выше процедурам для случая полного совпадения слов запроса и предложения текста. Если текстовый объект не совпадает с запросом по одной смысловой единице, то выдают идентифицированный текст с добавлением отрицания события запроса. В случае несовпадения более одного слова выдают сообщение об отсутствии события. Для запросов в будущем времени или побудительных проверяют по словарю тем наличие алгоритма осуществления указанных в запросе действий, если такой алгоритм задан в словаре, то в качестве ответа на запрос идентифицируют ответ, установленный для данного действия, если такой алгоритм отсутствует, то выдают ответ о невозможности осуществления данного действия. Идентифицированный текстовый объект принимается в качестве ответа, к нему при наличии специальных выше обозначенных условий добавляют слова приветствия или прощания, вводные слова и конструкции. Для запросов от модели сознания полученный ответ на запрос об основных параметрах модели сознания записывают в текст модели сознания с указанием текущего времени и адресуют собеседнику. Если ответ не идентифицирован, то запрос переадресуют собеседнику, полученный ответ от собеседника проверяют на соответствие запросу по упомянутой процедуре идентификации и при положительном решении ответ записывают в текстовую базу модели сознания. Для запросов от модели сознания к собеседнику по темам с меняющимися параметрами полученные ответы проверяют на соответствие запросам и при положительном решении ответы заносят в текст модели сознания с указанием темы. По темам, касающимся объектов, имеющих новое собственное имя, которое не значится в словаре модели сознания, открывают соответствующую тему. Для запросов от собеседника сформированный ответ адресуют собеседнику. Проверяют наличие в запросе тем с меняющимися параметрами, если таковые есть, то проверяют новизну параметров указанных тем, если указанные в запросе параметры отсутствуют в тексте модели сознания или отличаются от имеющихся в текстовой базе, то запрос собеседника заносят в текст модели сознания.
Другой дополнительной особенностью является то, что заранее задают параметры времени работы модели сознания в течение дня, объем полученных запросов от собеседников и объем текстов, переданных собеседникам, в конце работы модели сознания производят оценку реального значения этих параметров и их отклонения от заданных параметров, если конкретный параметр меньше заданного значения, то из словаря тем по теме существования модели сознания выдается запрос к собеседнику о желательном увеличении данного параметра в следующий раз, если конкретный параметр больше заданного значения, то выдается запрос о благополучности существования модели сознания по данному параметру.
Из существующего уровня техники не выявлены объекты, которые содержали бы совокупность указанных выше признаков. Это позволяет считать заявленный способ новым.
Из существующего уровня техники не известна также совокупность признаков, отличных от признаков упомянутого выше наиболее близкого аналога. Это позволяет считать заявленный способ обладающим изобретательским уровнем.
Прежде чем перейти к описанию заявленного способа, целесообразно привести определения некоторых понятий, встречающихся в описании и прилагаемой формуле изобретения.
Объектом модели сознания называется автор текста, который является текстовой базой модели сознания, и текстовые объекты, обозначающие смысловые параметры автора текста.
Первичным текстом модели сознания человека называется созданный данным человеком текст, прошедший синтаксическое преобразование на отдельные сообщения, абзацы, предложения и части предложения, выделенные знаками препинания.
Текстовым объектом называется слово или группа слов с неопределенными или определенными не полностью значениями параметров.
Смысловым текстовым объектом называется слово или группа слов с однозначно определенными значениями установленных параметров.
Преобразованным текстом называется текст, прошедший грамматическое и синонимическое преобразование с помощью грамматического, синонимического словарей, с однозначно определенными установленными параметрами по указанным словарям и ценностному словарю.
Информационной базой модели сознания называется совокупность словарей, первичного и преобразованного текстов, другие тексты, описаний действий по обработке текстов и запросов, используемых в действиях по преобразованию и обработке текстов и запросов для получения технического результата в заявленном изобретении.
Моделью сознания человека называется совокупность информационной базы и установленных действий с текстовыми объектами, свойства которых соответствуют всем существенным свойствам сознания человека.
Предлагаемый в данном изобретении способ предназначен для обработки текста, установления смысловых параметров текстовых объектов, установления вида действий с текстовыми объектами, идентификации текстовых объектов с целью осуществления информационного обмена внешних пользователей с созданным человеком текстом, пополнения данного текста новыми текстами и видоизменения его по установленным действиям, моделирующим мышление человека.
Предлагаемый способ основан на теоретических утверждениях, сформулированных в виде определений жизни и сознания, означающих, что текст, созданный человеком без нарушений норм данного языка, содержит множество смысловых текстовых объектов, которое может пополняться из внешних информационных источников, при этом смысловые текстовые объекты получают оценку с точки зрения принадлежности к объекту модели сознания, его сохранения, обеспечения его функционирования, пополнения его текстовой базы и копирования текстовых объектов для внешнего пользователя. Способ по настоящему изобретению позволяет создать в рамках множества смысловых текстовых объектов, созданных человеком, модель сознания человека, идентифицировать объект модели сознания, сохранять ее, пополнять ее новыми информационными данными и обеспечить обмен текстовыми объектами с внешним пользователем.
Таким образом, данное изобретение решает задачу получения модели сознания человека по созданному человеком тексту, имеющей все существенные признаки сознания.
Эта задача решается в настоящем изобретении следующим образом.
Прежде всего создают информационную базу модели сознания. Для этого все поступающие тексты преобразуют в сигналы, пригодные для машинной обработки. Машинную обработку сигналов осуществляют на вычислительных машинах, например на персональных компьютерах. В дальнейшем изложении будет представлена лишь логическая составляющая этой машинной обработки, т.к. обработку сигналов производят с помощью любого подходящего аппаратного обеспечения и согласно процедурам логической обработки текстов, состоящей в следующем.
Каждый поступающий текст, созданный объектом модели сознания, размещают последовательно по мере поступления в библиотеке первичного текста.
При этом по соответствующим знакам препинания производят синтаксическое преобразование текста, т.е. определяют границы сообщения или отдельных сообщений, если сообщений больше одного, затем определяют границы абзацев, предложений и частей предложения, разделенных знаками препинания. Например, запись в дневнике М.М.Пришвина: "17 июля. Сержусь на себя и капризничаю. Спрашивается, отчего смута и отчего противоречия, - как будто сама не понимает: по обе стороны семьи, и тут это таинственное путешествие". После преобразования, текст будет выглядеть так. {17 июля.} {Сержусь сам на себя и капризничаю.} {{Спрашивается,} {отчего смута и отчего противоречия, -} {как будто сама не понимает:} {по обе стороны семьи,} {и тут это таинственное путешествие.}}
Далее производят грамматическое преобразование текста с помощью заранее составленного грамматического словаря или путем запроса оператора, если встречается слово, которого нет в словаре. Каждое слово, имеющее разные формы, преобразуют к исходной грамматической форме. Для склоняемых частей речи это именительный падеж, для слов, изменяющихся по числам, - единственное число, если слово меняется по родам - мужской род, для глаголов - инфинитив. Причастия и деепричастия преобразуют в инфинитив. При этом для каждого слова фиксируют параметры его первоначальной грамматической формы. Для существительных, например, это род, число, падеж, одушевленность или неодушевленность. Для глаголов это категории лица, рода, времени, наклонения. Прилагательные преобразуют в форму единственного числа, мужского рода и именительного падежа, фиксируют категорию исходной формы. При этом фиксируют значение прилагательного: качественное, относительное или притяжательное. Для наречий фиксируют обозначаемый им признак: определительное, обстоятельное. Для обстоятельственных наречий фиксируют категорию признака: места, времени. Для местоимений фиксируют их разряд: личные, возратные, вопросительно-относительные, указательные, определительные, отрицательные, неопределенные. Притяжательные местоимения распределяют между личными и возвратными. Числительные преобразуют в цифровую форму и фиксируют их категории падеж, число, род и категорию значения: количественное, собирательное, порядковое.
Предлоги, союзы, союзные слова оставляют без изменения.
После преобразования приведенный выше пример, будет представлен так. Для краткости указывается только главный параметр. {17 (числительное) июль (время).} {Сердиться (глагол) сам (местоимение) на (предлог) себя (местоимение) и (союз) капризничать (глагол).} {{Спрашивается (глагол),} {отчего (наречие) смута (существительное) и (союз) отчего (наречие) противоречие (существительное), -} {как будто (частица) сама (местоимение) не понимать (глагол):} {по (предлог) два (числительное) сторона (существительное) семья (существительное),} {и (союз) тут (местоимение) это (местоимение) таинственный (прилагательное) путешествие (существительное).}}
Полученный после грамматического преобразования текст преобразуют в текст, в котором все схожие по смыслу текстовые объекты преобразуют в однозначную смысловую форму. Делают такое преобразование с помощью заранее составленного синонимического словаря или с помощью запросов к оператору, если данного слова нет в словаре. Например, все имена собственные объекта модели сознания, личные местоимения, притяжательные местоимения преобразуют в слово "я". Все имена собственные и личные местоимения всех людей и собеседников также преобразуют к единой форме, обозначающей конкретных людей. Для каждого слова или устойчивого словосочетания устанавливают его синонимический ряд в словаре и заменяют его на установленное в словаре базовое слово или словосочетание. Если многозначность это не устраняет, то слово заменяют на словосочетание. Например, для фразы "увести невесту" однозначной смысловой единицей будет словосочетание "увести невесту".
Кроме уже имеющихся характеристик, по этим характеристикам или с помощью словаря или запросов к оператору фиксируют смысловой вид, к которому относятся данные смысловые объекты по следующим видам: объект модели сознания, имя, человек, одушевленный объект, неодушевленный объект, процесс, время, пространство, качество.
Упомянутый выше в качестве примера текст будет выглядеть так. Параметры не указываются для краткости. {17 июля.} {Сердиться я на я и капризничать.} {{я спрашивается,} {отчего смута и отчего противоречие, -} {как будто Коноплянцева не понимать:} {по два сторона семья,} {и тут этот роман с Коноплянцева.}} Время устанавливается по указанной дате. Автор, если он не указан специально, устанавливается "я", т.е. автор дневника. Местоимения "сам" и "себя" заменяются на "я". Сообщение начинается с даты, и поскольку в пределах сообщения не указывается объект женского рода, то объект, обозначенный местоимением "сама", устанавливается оператором по примечаниям к дневнику. Аналогично устанавливается смысл фразы "таинственное путешествие".
На этом этапе определяют параметры самостоятельных сообщений, абзацев, предложений и частей предложений, выделенных знаками препинания. Для сообщений определяют принадлежность конкретному автору, время и место создания, вид темы, которую обозначают смысловым объектом, имеющим наибольшую значимость в пределах данного текстового объекта. Например, автор - объект модели сознания, дата создания, если оно задано перед сообщением или в его конце, или текущий момент времени, место, если оно указано в начале или в конце сообщения, или место нахождения компьютера, тема - люди, обозначенные в сообщении, если их нет, то обозначенные одушевленные объекты, или обозначенные неодушевленные объекты и т.д. Для абзацев определяют аналогичные параметры, если в абзаце указывается значение параметра, отличающееся от значения данного параметра для всего сообщения. Для предложений определяют объект предложения, время, место, процесс, вид предложения: вопросительное, повествовательное, в будущем времени или побудительное.
Вопросительные предложения определяют по наличию знака вопроса, устанавливают также наличие вопросительных слов. Побудительные предложения определяют по наличию глагольной формы повелительного наклонения, глагольной формы совместного действия. Предложения в будущем времени определяются по наличию личных форм слова "буду" и инфинитива, а также по наличию глаголов несовершенного вида в настоящем времени или формах настоящего-будущего времени. Для предложений побудительных и предложений в будущем времени определяют возможность или невозможность выполнения моделью сознания этих действий. Если выполнение возможно, то определяют процедуру операций по выполнению данных действий и заносят указанную процедуру в библиотеку действий для данного глагола. Все остальные предложения относятся к повествовательным.
Для всех смысловых единиц преобразованного текста определяют ценность с помощью ценностного словаря или по запросам к оператору. Ценность определяют с точки зрения выполнения четырех основных задач.
Словам и словосочетаниям, обозначающим объекты модели сознания, сопоставляют параметр ценности +1, словам и словосочетаниям, обозначающим людей и объекты, имеющие положительное значение для функционирования объекта модели сознания, сопоставляют параметр ценности +0,5, словам и словосочетаниям, обозначающим угрозу существования объекта модели сознания, сопоставляют параметр ценности -1, словам и словосочетаниям, обозначающим ухудшение функционирование объекта модели сознания, сопоставляют параметр ценности -0,5.
Все текстовые объекты от предложения до самостоятельного сообщения получают оценку. Определение ценности производят следующим образом. Если объекты, входящие в текстовый объект, имеют положительные ценности, то ценность указывают положительную с коэффициентом максимальным из имеющихся ценностей. Если ценности только отрицательные, то общая ценность принимают отрицательной с коэффициентом равным максимальному коэффициенту. Если имеются положительные и отрицательные ценности, то указывают максимальные положительную и отрицательную ценности.
В приведенном выше примере текста, состоящего из 3 предложений, первое предложение не имеет ценности, т.к. это параметр времени. Второе предложение имеет ценность, получаемую из ценности объекта "я" (+1) и ценности процесса "сердиться" (-0,5), то есть (+1, -0,5). Ценность третьего предложения составляет (+1, -0,5), т.к. составляют ценность объекта "я" и ценность явления "смута" (-0,5).
Для сложного предложения, абзаца и сообщения ценность определяют аналогичным образом. Поэтому ценность абзаца приведенного выше примера будет тоже равна (+1, -0,5).
Для сообщения, абзаца, предложения определяют также следующие параметры: время, пространство, объекты, имеющие наибольшую ценность, параметр ценности. Эти параметры определяют исходя из соответствующих параметров смысловых единиц, входящих в данный смысловой объект и характеризующих данный параметр. Если в конкретном предложении, абзаце какие-то из указанных параметров не определены, то данные параметры устанавливают по предыдущим предложениям, абзацам или устанавливают по запросу к оператору.
Индивидуальную шкалу ценностей модели сознания получают с помощью подсчета количества упоминания в тексте модели сознания объектов и процессов, имеющих положительную и отрицательную ценность. Ценность каждого объекта определяют умножением количества повторений на значение ценности данного объекта. Индивидуальную шкалу ценностей используют для определения ценности имеющихся информационных сообщений и ценности запросов.
Заранее составляют словарь тем, в котором словам, обозначающим тему, сопоставляют группы слов или словосочетаний, которые употребляются для обозначения характеристик каждой темы. Каждому слову и словосочетанию из группы слов темы сопоставляют параметр времени повтора запроса по данной характеристике для обновления сведений. Словарь составляют для слов, имеющих наибольшую ценность по шкале ценностей, устанавливают список наиболее ценных тем для модели сознания.
По словарю тем устанавливают темы предложений, абзацев, сообщений. Для каждого текстового объекта указывают наиболее значимые темы. Прежде всего это темы, касающиеся объекта модели сознания, затем люди, имеющие наибольшую ценность для объекта модели сознания, затем одушевленные объекты, наиболее ценные процессы, неодушевленные объекты.
С помощью статистической обработки устанавливают наиболее часто упоминаемые темы в тексте модели сознания, на основе чего устанавливают параметр ценности конкретной темы.
Кроме запросов, получаемых от собеседников, модель сознания формирует вопросительные запросы с целью установления наличия объектов модели сознания и параметров функционирования модели сознания, а также вопросительные запросы по установлению параметров собеседников, других людей, представленных в текстовых объектах, наиболее ценных одушевленных и неодушевленных объектов.
Запросы формируют собеседник и модель сознания. Собеседник формирует запросы указанных выше трех типов. Модель сознания формирует запросы вопросительного типа по словарю тем. Такие запросы формируют с использованием слов, которые обозначают параметр конкретной темы. Например, если указана тема человек, то запросы формируют на основе слов, обозначающих имя, возраст, место жительства, род занятий и т. д. Например, для параметра "имя" задают запрос объекта модели сознания "Какое мое имя?", для собеседника "Как вас зовут?", для параметра места жительства "Где я (вы) живу (живете)?" и т. д. Наибольшую ценность дают запросам об имени, возрасте, и они выполняются в первую очередь. В словаре тем указывают и особенности формирования ответа на запрос. Например, если в запросе указана тема начала или конца диалога, то данной теме сопоставлено указание в ответе повторить слова приветствия или прощания. Для объекта модели сознания по всем видам смысловых объектов устанавливают запросы с наивысшей ценностью и указанием периода времени для повтора запросов. Например, по теме качество существования объекта модели сознания период обновления данных может быть установлен в 1 день, при этом указывают среднее время работы модели сознания за один день, средний объем полученных текстов и переданных собеседнику. Указывают также порядок формирования запроса собеседнику, в случае если реальные параметры работы меньше установленных средних или больше.
По другим наиболее ценным темам также устанавливают период обновления сведений. Время обновления устанавливает оператор в зависимости от периода естественного обновления явления, описываемого параметрами конкретной темы.
Заранее формируют запросы о виде слов, грамматических параметрах, ценности и других параметрах слов, которые отсутствуют в словарях.
Заранее устанавливают порядок выполнения запросов, при котором в первую очередь выполняют запросы о смысловых параметрах объекта модели сознания, в которые входят имя, время и место нахождения объекта модели сознания, процесс и качество состояния, затем выполняют запросы о тех же параметрах собеседника, затем выполняют запросы собеседника, в отсутствие запросов собеседника выполняют запросы по темам, имеющим наибольшую ценность в порядке заданной очередности.
В процессе идентификации запроса устанавливают источник запроса, вид запроса, производят синтаксическое, грамматическое, синонимическое преобразования запроса, аналогичные преобразованию текста модели сознания, устанавливают смысловые единицы запроса.
Для повествовательных и вопросительных запросов проводят следующие действия. Из запроса выделяют слова, имеющие вид из числа установленных видов, отдельно выбирают слова, обозначающие начало или конец диалога, обращения, и выбирают также вводные слова и конструкции. По всем выделенным словам, имеющим установленный вид, производится сравнение со словами текста модели сознания.
Решение об идентификации принимается, если обнаружено полное совпадение слов запроса, установленного вида, со словами в пределах предложения из текста модели сознания или группы соседних предложений, если слова из этих предложений не выходят за пределы установленных слов из запроса. Если в запросе есть вопросительные слова, то принимают решение об идентификации, если вид вопросительного слова совпадает по виду со словом в установленном тексте.
Если идентифицировано более трех текстовых объектов, полностью совпадающих с запросом, то для ответа выбирают три текстовых объекта с ближайшим параметром времени и добавляют сообщение, что таких событий было много. Если таких ответов в пределах трех, то все их дают в качестве ответа. Если при полном совпадении смысловых объектов запроса и текстового объекта в пределах предложения имеются другие смысловые объекты, то принимают решение по указанным выше процедурам.
Если текстовый объект не совпадает с запросом по одной смысловой единице, то выдают идентифицированный текст с добавлением отрицания события запроса.
В случае несовпадения более одного слова выдают сообщение об отсутствии события.
Для запросов в будущем времени и побудительных проверяют по словарю тем наличие алгоритма осуществления указанных в запросе действий. Если такой алгоритм задан в словаре, то в качестве ответа на запрос идентифицируют ответ, установленный для данного действия. Если такой алгоритм отсутствует, то выдают ответ о невозможности осуществления данного действия.
Идентифицированный текстовый объект принимают в качестве ответа. К нему при наличии специальных вышеобозначенных условий добавляют слова приветствия или прощания, вводные слова и конструкции, а также указанные в словаре тем по данной теме дополнительные сообщения.
Для запросов от модели сознания полученный ответ на запрос об основных параметрах модели сознания записывают в текст модели сознания с указанием текущего времени и адресуют собеседнику. Если ответ не идентифицирован, то запрос переадресуют собеседнику. Полученный ответ от собеседника проверяют на соответствие запросу и при положительном решении ответ записывают в текстовую базу модели сознания.
Для запросов от модели сознания к собеседнику по темам с меняющимися параметрами полученные ответы проверяют на соответствие запросам и при положительном решении ответы заносят в текст модели сознания с указанием темы. По темам, касающимся объектов, имеющих новое собственное или нарицательное имя, которое не значится в словаре модели сознания, открывают соответствующую тему.
Для запросов от собеседника сформированный ответ адресуют собеседнику. Проверяют наличие в запросе тем с меняющимися параметрами. Если таковые есть, то проверяют новизну параметров указанных тем. Если указанные в запросе параметры отсутствуют в тексте модели сознания или отличаются от имеющихся в текстовой базе, то запрос собеседника заносят в текст модели сознания.
После завершения адресации идентифицированного ответа на запрос переходят на выполнение следующего по очередности запроса.
Рассмотренный способ обеспечивает достижение следующих технических результатов.
Идентификация текстовых объектов производится непосредственно по смысловому содержанию текстовых объектов, имеющих минимальное отклонение от смысла исходного текста. Идентифицируются объекты, являющиеся неотъемлемой частью объекта модели сознания. Обеспечивается формирование моделью сознания запросов, направленных на создание условий для существования модели сознания, на пополнение основной информационной базы из внешних источников информации и на обмен текстами с внешними пользователями. Данные реализуемые действия относятся к существенным признакам функционирования сознания.
Все рассмотренные выше операции выполняются с помощью общеизвестных программных операций. Конкретный вид соответствующих программ будет определяться конкретным видом аппаратного обеспечения и установленной на нем операционной системы и не является предметом патентных притязаний заявителя.
В указанных выше аналогах изобретения реализованы способы идентификации текстовых объектов, которые осуществляют лишь один существенных признак сознания: способность давать ответ на запрос.
В качестве иллюстрации возможностей технического осуществления данного способа рассмотрим пример с простым текстом, являющимся текстом модели сознания. Для наглядности и краткости операции преобразования текста и другие несущественные операции опущены. В качестве примера возьмем такой текст: "Мое имя Петр. Мне 40 лет. У меня есть жена. Мою жену зовут Нина. У меня есть дочь. Мою дочь зовут Настя. Моей дочери 5 лет. Я люблю жену и дочь. Я люблю читать книги."
Рассмотрим сначала вариант, когда этот текст является текстом объекта модели сознания. В этом случае при начале работы по запросам модели сознания будет установлено имя объекта модели сознания "Петр". Затем модель сознания будет давать запросы, адресованные носителю сознания, об основных параметрах объекта модели сознания: местоположение объекта модели сознания, качество его жизни и т. д. Полученные ответы будут заноситься в текстовую базу объекта модели сознания. Если после этого запросы от собеседника будут отсутствовать, то модель сознания по словарю тем будет давать запросы по темам, относящимся к человеку, то есть когда он родился и где, когда и где учился, что он любит и т. д. Таким образом будет пополняться текстовая база объекта носителя сознания. На запросы собеседника, касающиеся данных об объекте модели сознания, модель сознания будет отвечать в рамках сформированной текстовой базы.
Рассмотрим другой вариант, когда текстовая база объекта модели сознания сформирована в достаточном объеме, то есть в объеме 10-20 тыс. слов, а указанный выше текст является повествовательным запросом собеседника. В этом случае, если имя Петр отсутствует в словаре тем, то такая тема будет открыта в словаре. После этого модель сознания сформирует запросы в рамках темы "человек" об установлении основных параметров этого человека. В текст модели сознания будет занесен повествовательный запрос собеседника Петра с указанием темы "Петр". Запросы о параметрах человека Петра будут адресованы собеседнику после выполнения его запросов.
Данный пример показывает способность модели сознания идентифицировать текстовые объекты, являющиеся неотъемлемой частью объекта модели сознания, определять его параметры с помощью запросов, устанавливать основные параметры собеседников, производить обмен информацией с собеседником, расширять текст модели сознания с помощью запросов, что является основными признаками сознания человека. Таким образом, достигается технический результат, заявленный в данном изобретении.
Настоящее изобретение может использоваться для осуществления диалога с собеседниками, если носитель сознания не может вступить в контакт с собеседниками, например, в качестве автоответчика, способного вести полноценный с информационной точки зрения диалог, также для сохранения модели сознания человека, создавшего текст, или для восстановления модели сознания исторических личностей, оставивших текст достаточного объема и качества, и в других диалоговых системах, имеющих свойства сознания человека.
Приведенные примеры реализации настоящего изобретения служат лишь в качестве иллюстраций и никоим образом не ограничивают объема патентных притязаний, определяемого нижеследующей формулой изобретения.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ СИНТЕЗА САМООБУЧАЮЩЕЙСЯ СИСТЕМЫ ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ТЕКСТОВЫХ ДОКУМЕНТОВ ДЛЯ ПОИСКОВЫХ СИСТЕМ | 2002 |
|
RU2273879C2 |
СПОСОБ УПРАВЛЕНИЯ АВТОМАТИЗИРОВАННОЙ СИСТЕМОЙ ПРАВОВЫХ КОНСУЛЬТАЦИЙ | 2019 |
|
RU2718978C1 |
СПОСОБ И СИСТЕМА СЕМАНТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВЫХ ДОКУМЕНТОВ | 2016 |
|
RU2630427C2 |
ГОЛОСОВАЯ СВЯЗЬ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ МЕЖДУ ЧЕЛОВЕКОМ И УСТРОЙСТВОМ | 2014 |
|
RU2583150C1 |
СПОСОБ КЛАСТЕРИЗАЦИИ РЕЗУЛЬТАТОВ ПОИСКА В ЗАВИСИМОСТИ ОТ СЕМАНТИКИ | 2014 |
|
RU2564629C1 |
Способ автоматизированного анализа текста и подбора релевантных рекомендаций по улучшению его читабельности | 2021 |
|
RU2769427C1 |
СИСТЕМА И МЕТОД СЕМАНТИЧЕСКОГО ПОИСКА | 2013 |
|
RU2563148C2 |
СПОСОБ СЕМАНТИЧЕСКОЙ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА С ИСПОЛЬЗОВАНИЕМ ГРАФИЧЕСКОГО ЯЗЫКА-ПОСРЕДНИКА | 2009 |
|
RU2509350C2 |
МЕТОД АНАЛИЗА ТОНАЛЬНОСТИ ТЕКСТОВЫХ ДАННЫХ | 2014 |
|
RU2571373C2 |
СПОСОБ АВТОМАТИЗИРОВАННОЙ СЕМАНТИЧЕСКОЙ КЛАССИФИКАЦИИ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ | 2013 |
|
RU2538304C1 |
Изобретение относится к вычислительной технике и может использоваться для диалога с моделью сознания и в других диалоговых системах, имеющих признаки сознания человека. Техническим результатом является обеспечение способа обработки текстовых объектов и идентификации текстовых объектов, позволяющего наиболее точно осуществить идентификацию текстового объекта. Для этого создают словари данного языка, в которых каждому текстовому объекту дают присущие ему лексические характеристики, грамматические характеристики, смысловой вид, параметр ценности смысловых объектов; с помощью словарей проводят лингвистическое преобразование исходного текста в базовый текст, обозначают ценность этих смысловых объектов, определяют источники запросов, виды запросов, формируют запросы, устанавливающие вид смысловых объектов и их характеристики, определяют порядок идентификации запросов, порядок формирования ответа и адресации идентифицированного ответа; определяют первоочередной запрос, проводят лингвистическое преобразования запроса, аналогичное лингвистическому преобразованию текста модели сознания, идентифицируют ответ из выбранной информационной базы по совпадению смысловых объектов запроса и предложения в текстовой базе, адресуют полученный ответ в установленную информационную базу. 6 з.п. ф-лы.
СПОСОБ ИДЕНТИФИКАЦИИ ОБЪЕКТОВ ПО ИХ ОПИСАНИЯМ | 1999 |
|
RU2167450C2 |
СПОСОБ УСТАНОВЛЕНИЯ В ХРАНИЛИЩЕ МЕСТОПОЛОЖЕНИЯ ОБЪЕКТА ПО ПОИСКОВОМУ ТЕМАТИЧЕСКОМУ ПРИЗНАКУ | 1994 |
|
RU2107942C1 |
СПРАВОЧНАЯ ПРАВОВАЯ СИСТЕМА ХРАНЕНИЯ И ПОИСКА ДАННЫХ | 2001 |
|
RU2223537C2 |
СИСТЕМА ПОИСКА ИНФОРМАЦИИ В КОМПЬЮТЕРНОЙ СЕТИ | 1998 |
|
RU2138076C1 |
US 4774661 А, 27.09.1988. |
Авторы
Даты
2006-02-27—Публикация
2004-05-25—Подача