СПОСОБ И УСТРОЙСТВО ОПРЕДЕЛЕНИЯ СТЕПЕНИ ГЕННОЙ АССОЦИАЦИИ Российский патент 2023 года по МПК G06F16/33 

Описание патента на изобретение RU2790285C1

Настоящая заявка испрашивает приоритет в отношении китайской заявки на изобретение № 202011535972.2, поданной в Патентное ведомство Китайской Народной Республики 23 декабря 2020 г. под названием "METHOD AND DEVICE FOR DETERMINING A DEGREE OF GENE ASSOCIATION", все содержание которой включено сюда посредством ссылки.

Область техники, к которой относится изобретение

Заявка относится к области техники генной ассоциации и, в частности, к способу и устройству определения степени генной ассоциации.

Уровень техники

В настоящее время, за счет углубления медицинских исследований идентификация патогенных генов, связанных с наследственными болезнями, будет играть важную вспомогательную роль для соответствующего персонала при исследовании и последующем лечении этих наследственных болезней.

Наследственная болезнь обычно связана с многочисленными патогенными генами. Множество клинической информации о фенотипе, описанной в записях описаний болезни, может существовать в тексте описания случаев для пациентов с наследственными болезнями. Различная клиническая информация о фенотипе может быть связана с одним или более патогенными генами. Патогенные гены, связанные с различной клинической информацией о фенотипе, могут быть одинаковыми или различающимися. В настоящее время были идентифицированы 5181 видов наследственных болезней и 15428 видов генов. То, как быстро определять ассоциацию между записями описания болезни и генами в тексте описания случая пациента стало неотложной технической проблемой для соответствующего персонала.

Сущность изобретения

С точки зрения описанных выше проблем, настоящая заявка представляет способ и устройство определения степени генной ассоциации, чтобы преодолеть вышеупомянутую проблему или, по меньшей мере, частично решить вышеупомянутую проблему. Соответствующее техническое решение изложено ниже.

Способ определения степени генной ассоциации, содержащий этапы, на которых:

определяют запись описания болезни в тексте описания случая;

для множества заданных баз данных ассоциации:

определяют данные записи для целевой записи(-ей) ассоциации в заданной базе данных ассоциации согласно записи описания болезни и генным идентификаторам, каждый из которых соответствует одному из множества генов, где каждая из заданных баз данных ассоциации хранит записи ассоциации записи описания болезни и генных идентификаторов, соответствующих по меньшей мере одному из множества генов;

вводят данные записи в заданную запись-матрицу генной ассоциации, чтобы определить показатель ассоциации записи описания болезни с каждым из множества генов из заданной базы данных ассоциации; и

определяют степень ассоциации между записью описания болезни и каждым из множества генов в соответствии с показателями ассоциации записи описания болезни с генными идентификаторами, соответствующими множеству генов из множества заданных баз данных ассоциации.

Как вариант, определение данных записи для целевой записи(-ей) ассоциации в заданной базе данных ассоциации в соответствии с записью описания болезни и генным идентификаторам, каждый из которых соответствует одному из множества генов, содержит этапы, на которых:

для любого гена из множества генов определяют данные записи для целевой записи(-ей) ассоциации записи описания болезни и генного идентификатора, соответствующего гену из заданной базы данных ассоциации, соответственно, где данные записи для целевой записи(-ей) ассоциации содержат: первое количество записей ассоциации, содержащих как генный идентификатор гена, так и запись описания болезни, второе количество записей ассоциации, содержащих запись описания болезни, третье количество записей ассоциации, содержащих генный идентификатор гена, и общее количество записей ассоциации в заданной базе данных ассоциации.

Как вариант, заданная запись-матрица генной ассоциации имеет вид:

,

где М – показатель ассоциации записи описания болезни с генным идентификатором, соответствующим гену в заданной информационной генной базе данных; Т1 – первое количество номер, Т2 - второе количество, Т3 - третье количество; ТS - общее количество.

Как вариант, определение степени ассоциации между записью описания болезни и каждым из множества генов в соответствии с показателем ассоциации записи описания болезни с генными идентификаторами, соответствующими множеству генов из множества заданных баз данных ассоциации, для любого гена содержит этапы, на которых:

взвешивают показатели ассоциации записи описания болезни с генным идентификатором, соответствующим гену из множества заданных информационных баз данных генной ассоциации, чтобы получить значение ассоциации между записью описания болезни и геном; и

определяют степень ассоциации между записью описания болезни и геном в соответствии со значением ассоциации.

Как вариант, определение степени ассоциации между записью описания болезни и геном в соответствии со значением ассоциации содержит:

определение степени ассоциации между записью описания болезни и геном в соответствии с , где L - степень ассоциации между записью описания болезни и геном, e – основание натурального логарифма и z - значение ассоциации.

Как вариант, процесс обучения заданной матрицы ассоциации запись- ген содержит этапы, на которых:

вводят в качестве обучающей информации данные записи для целевых записей ассоциации, содержащих множество записей описания болезни и генных идентификаторов множества генов из множества заданных информационных баз данных генной ассоциации, в текущую обучающую запись-матрицу генной ассоциации и определяют предсказываемые показатели ассоциации, соответствующие обучающей информации и множеству генов в заданных информационных базах данных генной ассоциации, соответственно;

определяют предсказываемую степень ассоциации между множеством записей описаний болезни и множеством генов, соответственно, согласно определенным предсказываемым показателям ассоциации;

определяют ошибки между предсказываемыми степенями ассоциации и фактическими степенями ассоциации для множества записей описания болезни и множества генов;

определяют, находятся ли ошибки ниже заданного порога ошибки;

если да, определяют, что текущая обучающая запись-матрица генной ассоциации является записью-матрицей генной ассоциации; и

в противном случае, корректируют параметры матрицы в текущей обучающей записи-матрице генной ассоциации посредством алгоритма нисходящего градиента, используя скорректированную обучающую запись-матрицу генной ассоциации в качестве текущей обучающей записи-матрицы генной ассоциации, и, возвращаясь к этапу ввода, как к обучающей информации, записывают данные целевой записи(-ей) ассоциации, содержащие множество записей описания болезни и генных идентификаторов множества генов из множества заданных баз данных генной ассоциации, в текущую обучающую запись-матрицу генной ассоциации и определяют предсказываемые показатели ассоциации, соответствующие обучающей информации и множеству генов в заданных информационных базах данных генной ассоциации, соответственно.

Устройство определения степени генной ассоциации, содержащее: блок записи описания болезни, блок определения показателя ассоциации и блок определения степени ассоциации;

в котором блок определения записи описания болезни используется для определения записи описания болезни в тексте описания случая;

блок определения показателя ассоциации используется для множества заданных баз данных ассоциации, чтобы определять данные записи для целевой записи(-ей) ассоциации в заданную базу данных ассоциации в соответствии с записью описания болезни и генными идентификаторами, каждый их которых соответствует одному из множества генов, где каждая из заданных баз данных ассоциации хранит записи ассоциации записи описания болезни и генных идентификаторов, соответствующих по меньшей мере одному из множества генов; и вводить данные записи в заданную запись-матрицу генной ассоциации для определения показателя ассоциации записи описания болезни с соответствующим каждым из множества генов из заданной базы данных ассоциации; и

блок определения степени ассоциации используется для определения степени ассоциации между записью описания болезни и каждым из множества генов в соответствии с показателем ассоциации записи описания болезни с генными идентификаторами, соответствующими множеству генов из множества заданных баз данных ассоциации.

Как вариант, блок определения показателя ассоциации конкретно используется для любого гена из множества генов, соответственно определяя данные записи для целевой записи(-ей) ассоциации, содержащие запись описания болезни и генный идентификатор, соответствующий гену из заданной базы данных ассоциации, причем данные записи для целевой записи(-ей) ассоциации содержат первое количество записей ассоциации, содержащих как генный идентификатор гена, так и запись описания болезни, второе количество записей ассоциации, содержащих запись описания болезни, третье количество записей ассоциации, содержащих генный идентификатор гена, и общее количество записей ассоциации в заданной базе данных ассоциации.

Как вариант, заданная запись-матрица генной ассоциации имеет вид:

,

где М – показатель ассоциации записи описания болезни с генным идентификатором, соответствующим гену из заданной информационной генной базы данных; Т1 - первое количество, Т2 - второе количество, Т3 - третье количество; ТS - общее количество.

Как вариант, блок определения степени ассоциации содержит субблок получения значения ассоциации и субблок определения степени ассоциации,

в котором субблок получения значения ассоциации используется для любого гена, взвешивая показатели ассоциации записи описания болезни с генным идентификатором, соответствующим гену из множества заданных информационных баз данных генной ассоциации, чтобы получить значение ассоциации между записью описания болезни и геном;

субблок определения степени ассоциации используется для определения степени ассоциации между записью описания болезни и геном в соответствии со значением ассоциации.

Как вариант, субблок определения степени ассоциации используется для определения степени ассоциации между записью описания болезни и геном в соответствии с , где L - степень ассоциации между записью описания болезни и геном, e – основание натурального логарифма и z - значение ассоциации.

Как вариант, устройство дополнительно содержит: блок определения предсказываемого показателя ассоциации, блок определения предсказываемой степени ассоциации, блок определения ошибки, блок сравнения ошибки, блок определения записи-матрицы генной ассоциации и блок корректировки параметров матрицы,

в котором блок определения предсказываемого показателя ассоциации используется для ввода в качестве обучающей информации данных записи для целевых записей ассоциации, содержащих множество записей описания болезни и генных идентификаторов множества генов из множества заданных информационных баз данных генной ассоциации, в текущую обучающую запись-матрицу генной ассоциации, и для определения предсказываемых показателей ассоциации, соответствующих обучающей информации и множеству генов в заданных информационных базах данных генной ассоциации, соответственно;

блок определения предсказываемой степени ассоциации используется для определения предсказываемой степени ассоциации между множеством записей описания болезни и множеством генов, соответственно, в соответствии с определенными предсказываемыми показателями ассоциации;

блок определения ошибки используется для определения ошибки между предсказываемыми степенями связи и фактическими степенями связи множества записей описания болезни и множества генов;

блок сравнения ошибки используется для определения, находится ли ошибка ниже заданного порога ошибки, и если да, запускают блок определения записи-матрицы генной ассоциации, или, в противном случае, запускают блок корректировки параметров матрицы;

блок определения записи-матрицы генной ассоциации используется для определения текущей обучающей записи-матрицы генной ассоциации в качестве записи-матрицы генной ассоциации;

блок корректировки параметров матрицы используется для корректировки параметров матрицы текущей обучающей записи-матрицы генной ассоциации посредством алгоритма нисходящего градиента, используя корректированную обучающую запись-матрицу генной ассоциации в качестве текущей обучающей записи-матрицы генной ассоциации, и для запуска блока определения предсказываемого показателя ассоциации.

Носитель запоминающего устройства, на котором хранится компьютерная программа, которая, когда исполняется процессором, осуществляет способ определения степени генной ассоциации, соответствующий любому из описанных выше способов.

Процессор для исполнения программы, где программа, когда исполняется, выполняет способ определения степени генной ассоциации в соответствии с любым из описанных выше способов.

Электронное устройство, содержащее по меньшей мере один процессор, по меньшей мере одну память, связанную с процессором, и шину; в котором процессор осуществляет связь с памятью через шину; процессор используется для вызова программных команд из памяти для выполнения способа определения степени генной ассоциации в соответствии с любым описанным выше способом.

Компьютерный программный продукт, который, когда исполняется на электронном устройстве, выполнен с возможностью исполнения программы для инициализации этапов способа определения степени генной ассоциации в соответствии с любым из описанных выше способов.

С помощью описанной выше технической схемы способ и устройство определения степени генной ассоциации, представленные в этой заявке, способны определять запись описания болезни в тексте описания случая. Для множества заданных баз данных ассоциации данные записи для целевой записи(-ей) ассоциации в заданной базе данных ассоциации определяют в соответствии с записью описания болезни и генными идентификаторами, каждый из которых соответствует одному из множества генов, где каждая из заданных баз данных ассоциации хранит записи ассоциации записи описания болезни и генных идентификаторов, соответствующих по меньшей мере одному из множества генов; данные записи вводятся в заданную запись-матрицу генной ассоциации, чтобы определить показатель ассоциации записи описания болезни с соответствующим каждым из множества генов в заданной базе данных ассоциации; и степень ассоциации между записью описания болезни и каждым из множества генов определяют в соответствии с показателями ассоциации записи описания болезни с генными идентификаторами, соответствующими множеству генов во множестве заданных баз данных ассоциации. В этой заявке, определяя данные записи для целевой записи(-ей) ассоциации записи описания болезни и множества генов из каждой заданной базы данных ассоциации и вводя данные записи в заданную запись-матрицу генной ассоциации, определяют показатель ассоциации записи описания болезни с соответствующим каждым из множества генов в заданной базе данных ассоциации и степень ассоциации между записью описания болезни и множеством генов может быть быстро получена.

Представленное выше является лишь кратким обзором технического решения в этой заявке. Чтобы понять технические средства настоящей заявки более ясно, она может быть реализована в соответствии с записью этого описания, а чтобы сделать вышеупомянутые и другие задачи, признаки и преимущества настоящей заявки более понятными, ниже будут представлены конкретные варианты осуществления настоящей заявки.

Краткое описание чертежей

Чтобы более ясно объяснить варианты осуществления настоящей заявки или технические решения предшествующего уровня техники, ниже будет приведено краткое введение в чертежи, необходимые для использования при описании вариантов осуществления или предшествующего уровня техники. Очевидно, что чертежи, показанные ниже, являются просто некоторыми из вариантов осуществления настоящей заявки. Специалист в данной области техники может также получить другие чертежи, соответствующие таким чертежам, при условии, что никакие изобретательские усилия не применяются.

Фиг. 1 – блок-схема последовательности выполнения операций способа определения степени генной ассоциации, представленного в некоторых вариантах осуществления настоящей заявки;

фиг. 2 - блок-схема последовательности выполнения операций способа определения степени генной ассоциации, представленного в некоторых вариантах осуществления настоящей заявки;

фиг. 3 - схема процесса обучения заданной записи-матрицы генной ассоциации, представленного в некоторых вариантах осуществления настоящей заявки;

фиг. 4 – блок-схема последовательности осуществления операций еще одного другого способа определения степени генной ассоциации, представленного в некоторых вариантах осуществления настоящей заявки;

фиг. 5 - структурная схема устройства определения степени генной ассоциации, представленного в некоторых вариантах осуществления настоящей заявки;

фиг. 6 - структурная схема другого устройства определения степени генной ассоциации, представленного в некоторых вариантах осуществления настоящей заявки.

Подробное описание предпочтительных вариантов осуществления

Примерные варианты осуществления настоящего раскрытия теперь будут описаны подробно со ссылкой на сопроводительные чертежи. Хотя на чертежах показаны примерные варианты осуществления настоящего раскрытия, следует понимать, что настоящее раскрытие может быть реализовано в различных формах и не должно ограничиваться представленными здесь вариантами осуществления. Скорее эти варианты осуществления изложены, чтобы позволить более полное понимание настоящего раскрытия и полностью представить специалистам в данной области техники объем защиты настоящего раскрытия.

Как показано на фиг. 1, способ определения степени генной ассоциации, представленный в некоторых вариантах осуществления настоящей заявки, может содержать следующие этапы, на которых:

S100: определяют запись описания болезни в тексте описания случая.

Текст описания случая может быть записью медицинских действий, таких как обследование медицинским персоналом и диагноз болезней пациентов. Как вариант, текст описания случая может быть предложениями или абзацами, составленными из множества слов. Запись описания болезни может быть записью, описывающей клиническую информацию о фенотипе болезни пациента.

Как вариант, записью описания болезни может быть проявление HPO или проявление наследственной болезни. HPO (human phenotype ontology, онтология человеческого фенотипа) является набором стандартного словаря, описывающего патологические фенотипы, вызванные человеческими болезнями. Набор стандартного словаря содержит многочисленные проявления HPO. Понятно, что проявления HPO могут быть выражены китайскими словами или словами на других языках, таких как английский язык. Проявление наследственной болезни может быть профессиональным названием, и/или аббревиатурой и/или одним из других определяемых пользователем названий болезней, где гены являются главной причиной болезней. Следует заметить, что определяемые пользователем названия в отрасли могут быть разговорными обозначениями болезней. Например, профессиональное название болезни "бронхиальная астма" может быть сокращено до "астма" и оно часто выражается как разговорное выражение для обозначения "свистящего дыхания". Следует понимать, что благодаря непрерывному углублению исследований наследственных болезней в области исследований и различным фактическим потребностям в различных областях применения, отраслевой персонал может создавать свои представления наследованных болезней в соответствии с потребностями исследования или фактическими потребностями применения.

Как вариант, в некоторых вариантах осуществления настоящей заявки, текст описания случая может быть сегментирован и структурированные представления описания болезни могут извлекаться от неструктурированного текста описания случая через извлечение именованных записей (named entity recognition, NER) при обработке естественного языка (natural language processing, NLP). Варианты осуществления настоящей заявки могут точно извлекать запись описания болезни из текста описания случая, используя упомянутую технологию извлечения именованных записей.

Следует понимать, что варианты осуществления настоящей заявки могут также извлекать запись описания болезни из текста описания случая через заранее установленные ключевые слова описания болезни.

Следует понимать, что текст описания случая может содержать одно или более проявлений записи описания болезни и варианты осуществления настоящей заявки могут выполнять способ для определения степени генной ассоциации, представляемый вариантами осуществления настоящей заявки на любой записи описания болезни, определенной из текста описания случая.

S200: для множества заданных баз данных ассоциации определяют данные записи для одной или более целевых записей ассоциации из заданной базы данных ассоциации, соответствующие записи описания болезни и генным идентификаторам, каждый из которых соответствует одному из множества генов, причем каждая из заданных баз данных ассоциации хранит записи ассоциации записи описания болезни и генных идентификаторов, соответствующих по меньшей мере одному из множества генов; и вводят данные записи в заданную запись-матрицу генной ассоциации, чтобы определить показатель ассоциации записи описания болезни с соответствующим каждым из множества генов в заданной базе данных ассоциации.

Заданная база данных ассоциации может быть базой данных, созданной на основе общедоступной в отрасли базы данных болезней, чтобы связать пригодные для отображения записи с генными идентификаторами. Как вариант, общедоступные в отрасли базы данных болезней могут содержать: базу данных OMIM (disease-related gene, генов, связанных с болезнью) данных, базу данных ClinVar (genetic variation, наследственная изменчивость), базу данных HGMD (human gene mutation, мутация человеческих генов), базу данных HPO (standard terms of human phenotype, стандартные термины человеческого фенотипа) и базу данных Orphanet (rare disease-related, связанная с редкими заболеваниями). Варианты осуществления настоящей заявки могут соответственно создавать базы данных ассоциации для различных общедоступных в отрасли баз данных болезней. Как вариант, заданная база данных ассоциации может хранить записи ассоциации, которые отображают взаимосвязь ассоциации между записями описаний болезней и генными идентификаторами.

Как вариант, варианты осуществления настоящей заявки могут определять данные записи для целевой записи(-ей) ассоциации в заданной базе данных ассоциации в соответствии с записью описания болезни и генными идентификаторами, соответствующими множеству генов. Как вариант, данные записи для целевой записи(-ей) ассоциации могут быть количеством записей ассоциации, содержащих запись описания болезни и любой из множества генов из заданной базы данных ассоциации, или количеством записей ассоциации, содержащих генный идентификатор любого из множества генов в заданной базе данных ассоциации.

Как вариант, этап S200 может содержать для любого гена из множества генов, определение данных записи для целевой записи(-ей) ассоциации записи описания болезни и генного идентификатора, соответствующего гену в заданной базе данных ассоциации, соответственно. Данные записи для целевой записи(-ей) ассоциации содержат первое количество записей ассоциации, содержащих генный идентификатор гена и запись описания болезни, второе количество записей ассоциации, содержащих запись описания болезни, третье количество записей ассоциации, содержащих генный идентификатор гена, и общее количество записей ассоциации в заданной базе данных ассоциации.

Следует понимать, что целевая запись(-и) ассоциации может быть записью(-ями) ассоциации в заданной базе данных ассоциации и может быть записью(-ями) ассоциации, содержащей генный идентификатор гена и запись описания болезни в заданной базе данных ассоциации, записью(-ями) ассоциации, содержащей запись описания болезни в заданной базе данных ассоциации, или записью(-ями) ассоциации, содержащей генный идентификатор гена.

Как вариант, заданная запись-матрица генной ассоциации может иметь вид:

,

где M - показатель ассоциации записи описания болезни с генным идентификатором, соответствующим гену в заданной информационной генной базе данных; Т1 - первое количество, Т2 - второе количество, Т3 - третье количество и ТS - общее количество.

В вариантах осуществления настоящей заявки, вводя данные записи для определенной целевой записи(-ей) ассоциации в заданную запись-матрицу генной ассоциации, показатели ассоциации, выводимые из заданной записи-матрицы генной ассоциации, могут быть получены посредством вычисления. Следует заметить, что количество показателей ассоциации определенной записи описания болезни в отношении любого из множества генов является таким же, как количество, выводимое из множества заданных баз данных ассоциации. Например, полагая, что имеется пять заданных баз данных ассоциации для записи описания болезни и любого гена, в некоторых вариантах осуществления настоящей заявки, показатели ассоциации записи описания болезни с геном могут быть определены, основываясь на пяти заданных базах данных ассоциации, используя заданную запись-матрицу генной ассоциации, то есть, могут быть определены пять показателей ассоциации записи описания болезни с геном. Следует понимать, что пять показателей ассоциации могут быть одинаковыми или разными.

S300: определяют степень ассоциации между записью описания болезни и каждым из множества генов в соответствии с показателями ассоциации записи описания болезни с генными идентификаторами, соответствующими множеству генов из множества заданных баз данных ассоциации.

Как вариант, в вариантах осуществления настоящей заявки для любого гена показатели ассоциации, соответствующие записи описания болезни и генному идентификатору, соответствующему гену из множества заданных информационных баз данных генной ассоциации, суммируются, чтобы получить значение ассоциации записи описания болезни и гена.

Как вариант, основываясь на способе, показанном на фиг. 1, другой способ определения степени генной ассоциации, представленный в некоторых вариантах осуществления настоящей заявки, показан на фиг. 2. Этап S300 может содержать:

S310: для любого гена взвешивают показатели ассоциации записи описания болезни с генным идентификатором, соответствующим гену из множества заданных информационных баз данных генной ассоциации, чтобы получить значение ассоциации между записью описания болезни и геном.

В некоторых вариантах осуществления настоящей заявки вес может быть установлен для каждой заданной информационной базы данных генной ассоциации заранее, так чтобы после процедуры взвешивания могло быть получено более надежное значение ассоциации между записью описания болезни и геном. Для простоты понимания это поясняется здесь примером. Вес заданной информационной базы А данных генной ассоциации устанавливается равным w1, вес заданной информационной базы В данных генной ассоциации устанавливается равным w2, вес заданной информационной базы С данных генной ассоциации устанавливается равным w3, вес заданной информационной базы D данных генной ассоциации устанавливается равным w4 и вес заданной информационной базы Е данных генной ассоциации устанавливается равной w5 заранее; показатель ассоциации записи описания болезни с генным идентификатором гена, соответствующий заданной информационной генной базе А данных ассоциации, равен x1, показатель ассоциации, равен x2, показатель ассоциации, соответствующий заданной информационной генной базе В данных ассоциации, равен x2, показатель ассоциации, соответствующий заданной информационной генной базе C данных, равен x3, показатель ассоциации, соответствующий заданной информационной генной базе D данных, равен x4, и показатель ассоциации, соответствующий заданной информационной базе Е данных генной ассоциации, равен x5. Посредством процесса взвешивания, значение ассоциации между записью описания болезни и геном получают следующим образом:

S320: определяют степень ассоциации между записью описания болезни и геном в соответствии со значением ассоциации.

Как вариант, этап S320 может содержать:

определение степени ассоциации между записью описания болезни и геном в соответствии с , где L - степень ассоциации между записью описания болезни и геном, e – основание натурального логарифма и z - значение ассоциации.

Настоящая заявка представляет способ определения степени генной ассоциации, способный определять запись описания болезни в тексте описания случая. Для множества заданных баз данных ассоциации данные записи для записи(-ей) ассоциации в заданной базе данных ассоциации определяются в соответствии с записью описания болезни и генным идентификаторам, каждый из которых соответствует одному из множества генов, причем каждая из заданных баз данных ассоциации хранит записи ассоциации записи описания болезни и генных идентификаторов, соответствующих по меньшей мере одному из множества генов; данные записи вводятся в заданную запись-матрицу генной ассоциации, чтобы определить показатель ассоциации записи описания болезни с соответствующим каждым из множества генов в заданной базе данных ассоциации; и степень ассоциации между записью описания болезни и каждым из множества генов определяют в соответствии с показателями ассоциации записи описания болезни с генными идентификаторами, соответствующими множеству генов из множества заданных баз данных ассоциации. В настоящей заявке в результате определяют данные записи для целевых записей ассоциации записи описания болезни и множества генов в каждой заданной базе данных ассоциации и вводят данные записи в заданную запись-матрицу генной ассоциации, определяют показатель ассоциации записи описания болезни с каждым из множества генов из заданной базы данных ассоциации и степень ассоциации между записью описания болезни и множеством генов может быть быстро получена.

Как вариант, как показано на фиг. 3, процесс обучения заданной записи-матрицы генной ассоциации, представленный в некоторых вариантах осуществления настоящей заявки, может содержать этапы, на которых:

S10: вводят в качестве обучающей информации данные записи для целевых записей ассоциации, содержащие множество записей описаний болезни и генные идентификаторы множества генов из множества заданных информационных баз данных генной ассоциации, в текущую обучающую запись-матрицу генной ассоциации, и определяют предсказываемые показатели ассоциации, соответствующие обучающей информации и множеству генов в заданных информационных базах данных генной ассоциации, соответственно.

Варианты осуществления настоящей заявки могут инициализировать обучающую запись-матрицу генной ассоциации в начале обучения. Этап S10 подобен этапу S200. Варианты осуществления настоящей заявки могут последовательно вводить данные записи для целевых записей ассоциации множества записей описаний болезни и генных идентификаторов, соответствующих множеству генов из множества заданных информационных баз данных генной ассоциации, в текущую обучающую запись-матрицу генной ассоциации, чтобы получить предсказываемый результат показателей ассоциации из текущей обучающей записи-матрицы генной ассоциации. Точно также, определенное количество предсказываемых показателей ассоциации записи описания болезни с любым из множества генов является таким же, как количество множества заданных баз данных ассоциации.

S20: определяют предсказываемые степени ассоциации между множеством записей описаний болезни и множеством генов в соответствии с определенными предсказываемыми показателями ассоциации.

Как вариант, в вариантах осуществления настоящей заявки для любого гена показатели ассоциации, соответствующие записи описания болезни и генного идентификатора, соответствующего гену из множества заданных информационных баз данных генной ассоциации, суммируются, чтобы получить значение ассоциации записи описания болезни и гена.

Как вариант, в вариантах осуществления настоящей заявки для любого гена показатели ассоциации, соответствующие записи описания болезни и генному идентификатору, соответствующему гену из множества заданных информационных баз данных генной ассоциации, взвешиваются, чтобы получить значение ассоциации между записью описания болезни и геном.

В вариантах осуществления настоящей заявки степень ассоциации между записью описания болезни и геном может быть определена в соответствии со значением ассоциации.

S30: определяют ошибки между предсказываемыми степенями ассоциации и фактическими степенями ассоциации множества записей описания болезни и множества генов.

Фактические степени ассоциации могут быть степенями ассоциации между множеством записей описаний болезни и множеством генов, определенными профессионалами в этой области. В вариантах осуществления настоящей заявки, было ли завершено обучение текущей обучающей записи-матрицы генной ассоциации, может быть определено в соответствии с ошибками между фактическими степенями ассоциации и предсказываемыми степенями ассоциации.

S40: определяют, находятся ли ошибки ниже заданного порога ошибки; если да, то выполняют этап S50, или, в противном случае, выполняют этап S60.

Заданный порог ошибки может быть определен в вариантах осуществления настоящей заявки в соответствии с реальными потребностями, что не является здесь дополнительным ограничением.

S50: определяют, что текущая обучающая запись-матрица генной ассоциации является записью-матрицей генной ассоциации.

S60: корректируют параметры матрицы в текущей обучающей записи-матрице генной ассоциации посредством алгоритма нисходящего градиента, используя скорректированную обучающую запись-матрицу генной ассоциации в качестве текущей обучающей записи-матрицы генной ассоциации, и возвращаются к этапу S10.

Варианты осуществления настоящей заявки корректируют параметры матрицы посредством алгоритма нисходящего градиента и могут проверять и повторно формировать обучающую запись-матрицу генной ассоциации после корректировки параметров матрицы, так чтобы, используя окончательно полученную обучающую запись-матрицу генной ассоциации, можно было получить более точные показатели ассоциации, дополнительно уменьшая ошибки между фактическими степенями ассоциации и предсказываемыми степенями ассоциации.

Следует понимать, что варианты осуществления изобретения могут также корректировать вес каждой заданной информационной базы данных генной ассоциации посредством способ нисходящего градиента, когда определено, что ошибки не ниже заданного порога ошибки. Корректируя вес каждой заданной информационной базы данных генной ассоциации, ошибки между фактическими степенями ассоциации и предсказываемыми степенями ассоциации могут быть уменьшены.

Как вариант, основываясь на способе, показанном на фиг. 1, на фиг. 4 показан другой способ определения степени генной ассоциации, представленный в некоторых вариантах осуществления настоящей заявки. После этапа S300 способ может дополнительно содержать этапы, на которых:

S400: сортируют множество генов в порядке убывания степени ассоциации между записью описания болезни и множеством генов.

Следует понимать, что чем выше степень ассоциации между геном и записью описания болезни, тем ближе клинический фенотип болезни, описанный записью описания болезни, к фенотипу гена. Сортировка множества генов после определения степеней ассоциации между записью описания болезни и множеством генов полезна для соответствующего технического персонала, чтобы идентифицировать и отсеивать патогенные гены болезни, соответствующие записи описания болезни.

В соответствии с упомянутыми выше вариантами осуществления способа, в некоторых вариантах осуществления настоящей заявки дополнительно представляется устройство определения степени генной ассоциации. Структура устройства показана на фиг. 5 и может содержать: блок 100 определения записи описания болезни, блок 200 определения показателя ассоциации и блок 300 определения степени ассоциации.

Блок 100 определения записи описания болезни используется для определения записи описания болезни в тексте описания случая.

Текст описания случая может быть записью медицинских действий, таких как обследование врачебным персоналом и диагноз болезней пациента. Как вариант, текст описания случая может быть предложениями или абзацами, составленными из множества слов. Запись описания болезни может быть записью, описывающей клиническую информацию о фенотипе болезни пациента.

Как вариант, запись описания болезни может быть записью HPO или записью наследственной болезни. HPO (human phenotype ontology, онтология человеческого фенотипа) является набором из стандартного словаря, описывающим патологические фенотипы, вызванные человеческими болезнями. Набор из стандартного словаря содержит многочисленные записи HPO. Понятно, что записи HPO могут быть китайскими словами или словами на других языках, таких как английский язык. Запись наследственной болезни может быть профессиональным названием и/или аббревиатурой и/или одним из других определяемых пользователем названий болезней, имеющих гены как главную причину болезней. Следует заметить, что определяемые пользователем названия могут быть разговорными выражениями обозначения болезней, принятыми в отрасли.

Например, профессиональное название болезни "бронхиальная астма" может быть сокращено до "астма" и оно часто выражается как разговорное выражение для обозначения "свистящего дыхания". Следует понимать, что благодаря непрерывному углублению исследований наследственных болезней в области исследований и различным фактическим потребностям в различных областях применения, отраслевой персонал может создавать свои записи наследственных болезней в соответствии с потребностями исследования или фактическими потребностями применения.

Как вариант, блок 100 определения записи описания болезни может сегментировать текст описания случая и затем извлекать структурированные записи описания болезни из неструктурированного текста описания случая через извлечение именованных записей (named entity recognition, NER) при обработке естественного языка (natural language processing, NLP). Варианты осуществления настоящей заявки могут точно извлекать запись описания болезни из текста описания случая, используя упомянутую технологию извлечения именованных записей.

Следует понимать, что блок 100 определения записи описания болезни может также извлекать запись описания болезни из текста описания случая, предварительно устанавливая ключевые слова описания болезни.

Блок 200 определения показателя ассоциации используется для множества заданных баз данных ассоциации: определяют данные записи для целевой записи(-ей) ассоциации в заданной базе данных ассоциации между записью описания болезни и генным идентификаторам каждого из соответствующего одного из множества генов, причем каждая из заданных баз данных ассоциации хранит записи ассоциации записи описания болезни и генных идентификаторов, соответствующих по меньшей мере одному из множества генов; и вводят данные записи в заданную запись-матрицу генной ассоциации, чтобы определить показатель ассоциации записи описания болезни с соответствующим каждым из множества генов из заданной базы данных ассоциации.

Заданная база данных ассоциации может быть базой данных, созданной, основываясь на общедоступной в отрасли базе данных болезней, чтобы связать отображаемые записи с генными идентификаторами. Как вариант, общедоступные в отрасли базы данных болезней могут содержать: базу данных OMIM (disease-related gene, генов, связанных с болезнью) данных, базу данных ClinVar (genetic variation, наследственная изменчивость), базу данных HGMD (human gene mutation, мутация человеческих генов), базу данных HPO (standard terms of human phenotype, стандартные термины человеческого фенотипа) и базу данных Orphanet (rare disease-related, связанная с редкими заболеваниями). Как вариант, заданная база данных ассоциации может хранить записи ассоциации, которые отображают взаимосвязь ассоциации между записями описаний болезней и генными идентификаторами.

Как вариант, блок 200 определения показателя ассоциации может определять данные записи для целевой записи(-ей) ассоциации в заданной базе данных ассоциации в соответствии с записью описания болезни и генным идентификаторам, соответствующим множеству генов. Как вариант, данные записи для целевой записи(-ей) ассоциации могут быть количеством записей ассоциации, содержащих запись описания болезни и любой из множества генов из заданной базы данных ассоциации, или количеством записей ассоциации, включающих генный идентификатор любого из множества генов из заданной базы данных ассоциации.

Как вариант, блок 200 определения показателя ассоциации конкретно используется для любого гена из множества генов, определяет данные записи целевой записи(-ей) ассоциации записи описания болезни и генного идентификатора, соответствующего гену в заданной базе данных ассоциации, соответственно. Данные записи для целевой записи(-ей) ассоциации содержат первое количество записей ассоциации, содержащих генный идентификатор гена и запись описания болезни, второе количество записей ассоциации, содержащих запись описания болезни, третье количество записей ассоциации, содержащих генный идентификатор гена, и общее количество записей ассоциации в заданной базе данных ассоциации.

Следует понимать, что целевая запись(-и) ассоциации может быть записью(-ями) ассоциации в заданной базе данных ассоциации и может быть записью(-ями) ассоциации, содержащей генный идентификатор гена и запись описания болезни в заданной базе данных ассоциации, причем запись(-и) ассоциации содержит запись описания болезни в заданной базе данных ассоциации или запись(-и) ассоциации, содержащую генный идентификатор гена.

Как вариант, заданная запись-матрица генной ассоциации может иметь следующий вид:

,

где M – показатель ассоциации записи описания болезни с генным идентификатором, соответствующим гену из заданной информационной генной базы данных; T1 - первое количество, T2 - второе количество, T3 - третье количество и TS - общее количество.

Блок 200 определения показателя ассоциации используется, чтобы посредством ввода данных записи для определенной целевой записи(-ей) ассоциации в заданную запись-матрицу генной ассоциации, получить на выходе заданной записи-матрицы генной ассоциации показатель ассоциации путем вычисления. Следует заметить, что количество показателей ассоциации определенной записи описания болезни с любым из множества генов, является таким же, как количество заданных баз данных ассоциации.

Блок 300 определения степени ассоциации используется для определения степени ассоциации между записью описания болезни и каждым из множества генов, соответствующих показателям ассоциации записи описания болезни с генными идентификаторами, соответствующими множеству генов из множества заданных баз данных ассоциации.

Как вариант, блок 300 определения степени ассоциации может использоваться для любого гена: суммируют показатели ассоциации, соответствующие записи описания и генному идентификатору, соответствующему гену из множества заданных информационных баз данных генной ассоциации, чтобы получить значение ассоциации записи описания болезни и гена.

Как вариант, блок 300 определения степени ассоциации содержит субблок получения значения ассоциации и субблок определения степени ассоциации.

Субблок получения значения ассоциации используется для любого гена, взвешивая показатели ассоциации записи описания болезни с генным идентификатором, соответствующим гену из множества заданных информационных баз данных генной ассоциации, чтобы получить значение ассоциации между записью описания болезни и геном.

В вариантах осуществления настоящей заявки вес может быть установлен для каждой заданной информационной базы данных генной ассоциации заранее, так чтобы после обработки со взвешиванием могло быть получено более надежное значение ассоциации между записью описания болезни и геном.

Субблок определения степени ассоциации используется для определения степени ассоциации между записью описания болезни и геном, соответствующим значению ассоциации.

Как вариант, субблок определения степени ассоциации конкретно используется для определения степени ассоциации между записью описания болезни и геном в соответствии с , где L - степень ассоциации между записью описания болезни и геном, e – основание натурального логарифма и z - значение ассоциации.

В настоящей заявке представляется устройство определения степени генной ассоциации, выполненное с возможностью определения записи описания болезни в тексте описания случая. Для множества заданных баз данных ассоциации данные записи для целевой записи(-ей) ассоциации в заданной базе данных ассоциации определяются в соответствии с записью описания болезни и генным идентификаторам, каждый из которых соответствует одному из множества генов, причем каждая из заданных баз данных ассоциации хранит записи ассоциации записи описания болезни и генных идентификаторов, соответствующих по меньшей мере одному из множества генов; данные записи вводят в заданную запись-матрицу генной ассоциации, чтобы определить показатель ассоциации записи описания болезни с каждым из множества генов из заданной базы данных ассоциации; и определяют степень ассоциации между записью описания болезни и каждым из множества генов в соответствии с показателями ассоциации записи описания болезни с генными идентификаторами, соответствующими множеству генов из множества заданных баз данных ассоциации. В настоящей заявке путем определения данных записи для целевой записи(-ей) ассоциации записи описания болезни и множества генов из каждой заданной базы данных ассоциации и ввода данных записи в заданную запись-матрицу генной ассоциации, определяют показатель ассоциации записи описания болезни с каждым из множества генов в заданной базе данных ассоциации и степень ассоциации между записью описания болезни и множеством генов может быть быстро получена.

Как вариант, устройство определения степени генной ассоциации может дополнительно содержать: блок определения предсказываемого показателя ассоциация, блок определения предсказываемой степени ассоциации, блок определения ошибки, блок сравнения ошибки, блок определения записи-матрицы генной ассоциации и блок корректировки параметров матрицы.

Блок определения предсказываемого показателя ассоциации используется для ввода в качестве обучающей информации данных записи для целевых записей ассоциации, содержащих множество записей описания болезни и генных идентификаторов множества генов из множества заданных информационных баз данных генной ассоциации в текущую обучающую запись-матрицу генной ассоциации, и определения предсказуемых показателей ассоциации, соответствующих обучающей информации и множеству генов в заданных информационных базах данных генной ассоциации, соответственно.

Блок определения предсказываемой степени ассоциации используется для определения предсказываемой степени ассоциации между множеством записей описаний болезни и множеством генов в соответствии с определенными показателями ассоциации.

Как вариант, блок определения предсказываемой степени ассоциации может использоваться для любого гена: показатели ассоциации, соответствующие записи описания болезни и генному идентификатору, соответствующему гену из множества заданных информационных баз данных генной ассоциации, суммируются, чтобы получить значение ассоциации записи описания болезни и гена.

Как вариант, блок определения предсказываемой степени ассоциации может использоваться для любого гена: показатели ассоциации, соответствующие записи описания болезни и генному идентификатору, соответствующему гену из множества заданных информационных баз данных генной ассоциации, взвешиваются, чтобы получить значение ассоциации записи описания болезни и гена.

Блок определения предсказываемой степени ассоциации может использоваться для определения степень ассоциации между записью описания болезни и геном в соответствии со значением ассоциации.

Блок определения ошибки используется для определения ошибки между предсказываемыми степенями ассоциации и фактическими степенями ассоциации множества записей описания болезни и множества генов.

Фактические степени ассоциации может быть степенями ассоциации между множеством записей описания болезни и множеством генов, определенными профессионалами в этой области.

Блок сравнения ошибки используется для определения, находится ли ошибка ниже заданного порога ошибки, если да, вызывают блок определения записи-матрицы генной ассоциации, или, в противном случае, вызывают блок корректировки параметров матрицы.

Блок определения записи-матрицы генной ассоциации используется для определения текущей обучающей записи-матрицы генной ассоциации как записи-матрицы генной ассоциации.

Блок корректировки параметров матрицы используется для корректировки параметров матрицы в текущей обучающей записи-матрице генной ассоциации посредством алгоритма нисходящего градиента, используя корректированную обучающую запись-матрицу генной ассоциации в качестве текущей обучающей записи-матрицы генной ассоциации и вызывая блок 200 определения предсказываемого показателя ассоциации.

Как вариант, основываясь на устройстве, показанном на фиг. 5, на фиг. 6 показано другое устройство определения степени генной ассоциации, представленное в некоторых вариантах осуществления настоящей заявки. Устройство может дополнительно содержать блок 400 генной сортировки.

Блок 400 генной сортировки может использоваться для сортировки множества генов в нисходящем порядке степени ассоциации между записью описания болезни и множеством генов после того, как блок 300 определения степени ассоциации определяет степень ассоциации между записью описания болезни и множеством генов, соответственно.

Устройство определения степени генной ассоциации содержит процессор и память. Блок 100 определения записи описания болезни, блок 200 определения показателя ассоциации и блок 300 определения степени ассоциации все хранятся в памяти в виде программных блоков. Вышеупомянутые программные блоки исполняются процессором для осуществления соответствующих функций.

Процессор содержит ядро, которое вызывает соответствующие программные блоки из памяти. Могут обеспечиваться одно или более ядер, посредством которых определяют данные записи для целевых записей ассоциации, содержащих запись описания болезни и множество генов в каждой заданной базе данных ассоциации, вводят данные записи в заданную запись-матрицу генной ассоциации и определяют показатель ассоциации записи описания болезни с соответствующим каждым из множества генов из заданной базы данных ассоциации, и, корректируя основные параметры, степень ассоциации между записью описания болезни и множеством генов может быть быстро получена.

Некоторые варианты осуществления настоящей заявки представляют носитель запоминающего устройства, на котором хранится программа, которая, когда исполняется процессором, осуществляет способ определения степени генной ассоциации.

Некоторые варианты осуществления настоящей заявки представляют процессор для исполнения программы, которая, когда исполняется, реализует способ определения степени генной ассоциации.

Некоторые варианты осуществления настоящей заявки представляют электронное устройство, содержащее по меньшей мере один процессор, по меньшей мере одну память, связанную с процессором, и шину; причем процессор осуществляет связь с памятью через шину; процессор используется для вызова программных команд из памяти, чтобы выполнять вышеупомянутый способ определения степени генной ассоциации. Электронное устройство здесь может быть сервером, персональным компьютером, персональным компьютерным помощником или мобильным телефоном и т.д.

Настоящая заявка дополнительно обеспечивает компьютерный программный продукт, который, когда исполняется на электронном устройстве, пригоден для исполнения программы, которая инициализирует этапы способа для определения степени генной ассоциации.

Настоящая заявка была описана со ссылкой на блок-схемы последовательности выполнения операций и/или блок-схемы способов, устройств, электронных устройств (систем) и компьютерные программные продукты, соответствующие вариантам осуществления настоящей заявки. Следует понимать, что каждый процесс и/или блок на блок-схемах последовательности выполнения операций и/или на блок-схемах и в комбинациях процессов и/или блоков на блок-схемах последовательности выполнения операций и/или на блок-схемах могут осуществляться командами компьютерной программы. Команды компьютерной программы могут подаваться на процессор универсального компьютера, компьютер специального назначения, встроенный процессор или на другое программируемое устройство, формирующее такую машину, чтобы команды, исполняемые процессором компьютера или другого программируемого устройства обработки данных создавали средство, осуществляющее функции, указанные в одном или более потоках блок-схем последовательности выполнения операций и/или в одном или более блоках блок-схем.

В типичной конфигурации электронное устройство содержит один или более процессоров (CPU), память и шину. Электронное устройство может дополнительно содержать интерфейс ввода - вывода, сетевой интерфейс и т.п.

Память может содержать непостоянную память на считываемом компьютером носителе, оперативную память (RAM) и/или долговременную память, такую как постоянная память (ROM) или флэш-RAM. Память содержит по меньшей мере одну микросхему памяти. Память является примером считываемого компьютером носителя.

Считываемые компьютером носители содержат постоянный и непостоянный носители, съемные и несъемные носители и информационное запоминающее устройство может реализовываться любым способом или технологией. Информация может быть считываемыми компьютером командами, структурами данных, программными модулями или другими данными. Примеры компьютерных носителей запоминающего устройства содержат, но не ограничиваясь только этим, память с фазовыми переходами (phase change memory, PRAM), статическая оперативная память (static random access memory, SRAM), динамическая оперативная память (dynamic random access memory, DRAM), другие типы оперативной памяти (random access memory, RAM), постоянное запоминающее устройство (read-only memory, ROM), электрически стираемое программируемое постоянное запоминающее устройство (electrically erasable programmable read-only memory, EEPROM), флэш-память или другие технологии памяти, CD-ROM, цифровой универсальный диск (digital versatile disc, DVD) или другое оптическое запоминающее устройство, магнитные кассеты, магнитная лента, запоминающее устройство на магнитных дисках или другие устройства магнитного запоминающего устройства или любые другие носители долговременного хранения, которые могут использоваться для хранения информации, к которым могут получать доступ компьютерные устройства. Согласно приведенному здесь определению, считываемый компьютером носитель не содержит передаваемые носители, такие как сигналы модулированных данных и несущие волны.

Дополнительно, термины "содержит", "включает" или любые другие их вариации предназначены охватывать неисключающее сочетание, так чтобы процесс, способ, продукт или устройство, содержащие ряд факторов, могли содержать не только эти факторы, но также и другие факторы, явно не перечисленные, или факторы, внутренне свойственные этому процессу, способу, продукту или устройству. Без ограничения, фактор, определяемый словами "содержит...", не исключает существование других таких же факторов в процессе, способе, продукте или устройстве, содержащих такой фактор.

Специалисты в данной области техники должны понимать, что, варианты осуществления настоящей заявки могут быть представлены как способ, система или компьютерный программный продукт. Поэтому варианты осуществления настоящей заявки могут принимать форму полностью аппаратного варианта осуществления, полностью программного варианта осуществления или варианта осуществления, содержащего как аппаратные, так и программные элементы. Кроме того, настоящая заявка может иметь форму одного или более компьютерных программных продуктов, содержащих исполняемые компьютером коды, которые могут реализовываться на исполняемом компьютером носителе данных (включая, но не ограничиваясь только этим, диски, CD-ROM, оптические диски и т.д.).

Выше приведены только примеры настоящей заявки, которые не используются для ограничения настоящей заявки. Для специалистов в данной области техники настоящая заявка может иметь различные модификации и изменения. Любые модификации, эквивалентные замены или улучшения, сделанные в пределах записи и принципа настоящей заявки, должны включаться в рамки объема защиты формулы изобретения настоящей заявки.

Похожие патенты RU2790285C1

название год авторы номер документа
СПОСОБ, УСТРОЙСТВО И КОМПЬЮТЕРНОЕ УСТРОЙСТВО ГЕННОГО АНАЛИЗА, ОСНОВАННЫЕ НА СОВМЕСТНО ИСПОЛЬЗУЕМОЙ ПАМЯТИ 2020
  • Ян, Цзяобо
  • Сун, Чао
  • Юй, Чуан
  • Чжан, Юцзинь
  • Хэ, Цзэнцюань
  • Ван, Дзиньань
RU2792228C1
Способ и система поддержки принятия врачебных решений с использованием математических моделей представления пациентов 2017
  • Дрокин Иван Сергеевич
  • Бухвалов Олег Леонидович
  • Сорокин Сергей Юрьевич
RU2703679C2
Способ формирования математических моделей пациента с использованием технологий искусственного интеллекта 2017
  • Дрокин Иван Сергеевич
  • Бухвалов Олег Леонидович
  • Сорокин Сергей Юрьевич
RU2720363C2
НЕЧЕТКИЙ ПОИСК С ИСПОЛЬЗОВАНИЕМ ФОРМ СЛОВ ДЛЯ РАБОТЫ С БОЛЬШИМИ ДАННЫМИ 2021
  • Семенов Станислав Владимирович
RU2768233C1
Способ обработки данных секвенирования генов и устройство для обработки данных секвенирования генов 2020
  • Чжан Юцзинь
  • Юй Чуан
  • Кун Линсян
  • Хэ Хуэй
  • Хэ Цзэнцюань
  • Цзинь Сянциань
RU2799005C2
СПОСОБ И СИСТЕМА ОПРЕДЕЛЕНИЯ АКТИВНОСТИ УЧЕТНЫХ ЗАПИСЕЙ В ВЫЧИСЛИТЕЛЬНОЙ СРЕДЕ 2023
  • Усков Святослав Александрович
  • Кравченко Андрей Алексеевич
  • Драчуков Андрей Александрович
  • Жиров Дмитрий Викторович
RU2824919C1
КЛАССИФИКАЦИЯ САЙТОВ СПЛАЙСИНГА НА ОСНОВЕ ГЛУБОКОГО ОБУЧЕНИЯ 2018
  • Джаганатан, Кишор
  • Фарх, Кай-Хоу
  • Кириазопулу Панайотопулу, София
  • Макрэй, Джереми Фрэнсис
RU2780442C2
УСТРОЙСТВО И СПОСОБ ДЛЯ АНАЛИЗА МЕДИЦИНСКИХ ИЗОБРАЖЕНИЙ 2022
  • Кулеев Рамиль Фуатович
  • Рахматуллина Миляуша Дамировна
  • Монголин Александр Сергеевич
  • Максудов Булат Тимурович
  • Мустафаев Тамерлан Айдын Оглы
RU2806982C1
СПОСОБЫ ОБУЧЕНИЯ ГЛУБОКИХ СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ НА ОСНОВЕ ГЛУБОКОГО ОБУЧЕНИЯ 2018
  • Гао, Хун
  • Фарх, Кай-Хоу
  • Сундарам, Лаксшман
  • Макрэй, Джереми Фрэнсис
RU2767337C2
ОСНОВАННОЕ НА СТРУКТУРЕ ПРОГНОЗНОЕ МОДЕЛИРОВАНИЕ 2014
  • Сармьенто Расселл Хавиниар
  • Баскервилл Дональд Скотт
  • Чжан Сиюнь
RU2694321C2

Иллюстрации к изобретению RU 2 790 285 C1

Реферат патента 2023 года СПОСОБ И УСТРОЙСТВО ОПРЕДЕЛЕНИЯ СТЕПЕНИ ГЕННОЙ АССОЦИАЦИИ

Изобретение относится к биотехнологии. Описан способ определения степени ассоциации между записью описания болезни и геном. Определяют, посредством блока определения записи описания болезни, запись описания болезни в тексте описания случая. Для каждой из множества заданных баз данных ассоциации: определяют, посредством блока определения показателя ассоциации, данные записи для целевой записи(-ей) ассоциации в заданной базе данных ассоциации в соответствии с записью описания болезни и генными идентификаторами, каждый из которых соответствует одному из множества генов, причем каждая из заданных баз данных ассоциации хранит записи ассоциации записи описания болезни и генных идентификаторов, соответствующих по меньшей мере одному из множества генов. Вводят, посредством блока определения показателя ассоциации, данные записи в заданную запись-матрицу генной ассоциации, чтобы определить показатель ассоциации записи описания болезни с соответствующим каждым из множества генов из заданной базы данных ассоциации. Определяют, посредством блока определения степени ассоциации, степени ассоциации между записью описания болезни и каждым из множества генов в соответствии с показателями ассоциации записи описания болезни с генными идентификаторами, соответствующими множеству генов из множества заданных баз данных ассоциации. Также описано соответствующее устройство определения степени ассоциации между записью описания болезни и геном, содержащее указанные выше блоки. Кроме того, описан носитель запоминающего устройства для определения степени ассоциации между записью описания болезни и геном, согласно изобретению программа хранится на носителе запоминающего устройства и, когда исполняется процессором, осуществляет способ определения степени генной ассоциации. Раскрыт процессор для определения степени ассоциации между записью описания болезни и геном, согласно изобретению процессор используется для исполнения программы, причем программа, когда исполняется, выполняет способ определения степени генной ассоциации. Представлено электронное устройство для определения степени ассоциации между записью описания болезни и геном, содержащее по меньшей мере один процессор, по меньшей мере одну память, связанную с процессором, и шину. При этом процессор осуществляет связь с памятью через шину и процессор используется для вызова программных команд из памяти, чтобы выполнить способ определения степени генной ассоциации. Решение позволяет повысить скорость определения степени ассоциации между записью описания болезни и каждым из множества генов. 5 н. и 10 з.п. ф-лы, 6 ил.

Формула изобретения RU 2 790 285 C1

1. Способ определения степени ассоциации между записью описания болезни и геном, отличающийся тем, что содержит этапы, на которых:

определяют, посредством блока определения записи описания болезни, запись описания болезни в тексте описания случая;

для каждой из множества заданных баз данных ассоциации:

определяют, посредством блока определения показателя ассоциации, данные записи для целевой записи(-ей) ассоциации в заданной базе данных ассоциации в соответствии с записью описания болезни и генными идентификаторами, каждый из которых соответствует одному из множества генов, причем каждая из заданных баз данных ассоциации хранит записи ассоциации записи описания болезни и генных идентификаторов, соответствующих по меньшей мере одному из множества генов;

вводят, посредством блока определения показателя ассоциации, данные записи в заданную запись-матрицу генной ассоциации, чтобы определить показатель ассоциации записи описания болезни с соответствующим каждым из множества генов из заданной базы данных ассоциации; и

определяют, посредством блока определения степени ассоциации, степени ассоциации между записью описания болезни и каждым из множества генов в соответствии с показателями ассоциации записи описания болезни с генными идентификаторами, соответствующими множеству генов из множества заданных баз данных ассоциации.

2. Способ по п. 1, отличающийся тем, что определение данных записи для целевой записи(-ей) ассоциации в заданной базе данных ассоциации, соответствующей записи описания болезни и генным идентификаторам, каждый из которых соответствует одному из множества генов, содержит этапы, на которых:

для любого гена из множества генов определяют данные записи для целевой записи(-ей) ассоциации записи описания болезни и генного идентификатора, соответствующего гену из заданной базы данных ассоциации, соответственно, причем данные записи для целевой записи(-ей) ассоциации содержат первое количество записей ассоциации, содержащих как генный идентификатор гена, так и запись описания болезни, второе количество записей ассоциации, содержащих запись описания болезни, третье количество записей ассоциации, содержащих генный идентификатор гена, и общее количество записей ассоциации в заданной базе данных ассоциации.

3. Способ по п. 2, отличающийся тем, что заданная запись-матрица генной ассоциации имеет вид:

,

где М - показатель ассоциации записи описания болезни с генным идентификатором, соответствующим гену в заданной базе данных ассоциации; Т1 - первое количество, Т2 - второе количество, Т3 - третье количество; ТS - общее количество.

4. Способ по любому из пп. 1-3, отличающийся тем, что степень определения ассоциации между записью описания болезни и каждым из множества генов, соответствующих показателям ассоциации записи описания болезни с генными идентификаторами, соответствующими множеству генов из множества заданных баз данных ассоциации, содержит для любого гена из множества генов этапы, на которых:

взвешивают показатели ассоциации записи описания болезни с генным идентификатором, соответствующим гену из множества заданных баз данных ассоциации, чтобы получить значение ассоциации между записью описания болезни и геном; и

определяют степень ассоциации между записью описания болезни и геном в соответствии со значением ассоциации.

5. Способ по п. 4, отличающийся тем, что определение степени ассоциации между записью описания болезни и геном в соответствии со значением ассоциации содержит этапы, на которых:

определяют степень ассоциации между записью описания болезни и геном в соответствии с , где L - степень ассоциации между записью описания болезни и геном, e - основание натурального логарифма и z - значение ассоциации.

6. Способ по любому из пп. 1-5, отличающийся тем, что способ дополнительно содержит этапы, на которых:

вводят в качестве обучающей информации данные записи для целевой записи(-ей) ассоциации, содержащей множество записей описания болезни и генные идентификаторы множества генов из множества заданных баз данных ассоциации, в текущую обучающую запись-матрицу генной ассоциации, и определяют предсказываемые показатели ассоциации, соответствующие обучающей информации и множеству генов из заданных информационных баз данных генной ассоциации, соответственно;

определяют предсказываемую степень ассоциации между множеством записей описания болезни и множеством генов в соответствии с определенными предсказываемыми показателями ассоциации;

определяют ошибки между предсказываемой степенью ассоциации и фактический степенью ассоциации множества записей описания болезни и множества генов;

определяют, находятся ли ошибки ниже заданного порога ошибки;

если да, принимают решение, что текущая обучающая запись-матрица генной ассоциации является запись-матрица генной ассоциации; и

в противном случае корректируют параметры матрицы в текущей обучающей записи-матрице генной ассоциации посредством алгоритма нисходящего градиента, используя скорректированную обучающую запись-матрицу генной ассоциации в качестве текущей обучающей записи-матрицы генной ассоциации, и возвращаются к этапу ввода в качестве обучающей информации, записывают данные целевых записей ассоциации, содержащие множество записей описания болезни и генные идентификаторы множества генов из множества заданных баз данных ассоциации, в текущую обучающую запись-матрицу генной ассоциации и определяют предсказываемые показатели ассоциации, соответствующие обучающей информации и множеству генов из заданных баз данных ассоциации, соответственно.

7. Устройство определения степени ассоциации между записью описания болезни и геном, отличающееся содержанием блока определения записи описания болезни, блока определения показателя ассоциации и блока определения степени ассоциации;

в котором блок определения записи описания болезни используется для определения записи описания болезни в тексте описания случая;

блок определения показателя ассоциации используется для каждой из множества заданных баз данных ассоциации, чтобы определить данные записи для целевой записи(-ей) ассоциации в заданной базе данных ассоциации в соответствии с записью описания болезни и генными идентификаторами, каждый из которых соответствует одному из множества генов, причем каждая из заданных баз данных ассоциации хранит записи ассоциации записи описания болезни и генных идентификаторов, соответствующих по меньшей мере одному из множества генов; и вводят данные записи в заданную запись-матрицу генной ассоциации, чтобы определить показатель ассоциации записи описания болезни с соответствующим каждым из множества генов из заданной базы данных ассоциации; и

блок определения степени ассоциации используется для определения степени ассоциации между записью описания болезни и каждым из множества генов в соответствии с показателями ассоциации записи описания болезни и генными идентификаторами, соответствующими множеству генов из множества заданных баз данных ассоциации.

8. Устройство по п. 7, отличающееся тем, что блок определения показателя ассоциации конкретно используется для любого гена из множества генов, соответственно определяет данные записи для целевой записи(-ей) ассоциации, содержащей запись описания болезни и генный идентификатор, соответствующий гену из заданной базы данных ассоциации, где данные записи для целевой записи(-ей) ассоциации содержат: первое количество записей ассоциации, содержащих как генный идентификатор гена, так и запись описания болезни, второе количество записей ассоциации, содержащих запись описания болезни, третье количество записей ассоциации, содержащих генный идентификатор гена, и общее количество записей ассоциации в заданной базе данных ассоциации.

9. Устройство по п. 8, отличающееся тем, что заданная запись-матрица генной ассоциации имеет вид:

,

где M - показатель ассоциации записи описания болезни с генным идентификатором, соответствующим гену из заданной базы данных ассоциации; T1 - первое количество, T2 - второе количество, T3 - третье количество и TS - общее количество.

10. Устройство по любому из пп. 7-9, отличающееся тем, что блок определения степени ассоциации содержит субблок получения значения ассоциации и субблок определения степени ассоциации,

в котором субблок получения значения ассоциации используется для любого гена из множества генов, чтобы взвешивать показатели ассоциации записи описания болезни с генным идентификатором, соответствующим гену из множества заданных баз данных ассоциации, чтобы получить значение ассоциации между записью описания болезни и геном;

субблок определения степени ассоциации используют для определения степени ассоциации между записью описания болезни и геном в соответствии со значением ассоциации.

11. Устройство по п. 10, отличающееся тем, что субблок определения степени ассоциации используется для определения степени ассоциации между записью описания болезни и геном в соответствии с , где L - степень ассоциации между записью описания болезни и геном, e - основание натурального логарифма и z - значение ассоциации.

12. Устройство по любому из пп. 7-11, отличающееся тем, что дополнительно содержит: блок определения предсказываемого показателя ассоциации, блок определения предсказываемой степени ассоциации, блок определения ошибки, блок сравнения ошибки, блок определения записи-матрицы генной ассоциации и блок корректировки параметров матрицы,

в котором блок определения предсказываемого показателя ассоциации используется для ввода в качестве обучающей информации данных записи для целевых записей ассоциации, содержащих множество записей описания болезни и генных идентификаторов множества генов из множества заданных баз данных ассоциации, в текущую обучающую запись-матрицу генной ассоциации, и определения предсказываемых показателей ассоциации, соответствующих обучающей информации и множеству генов из заданных баз данных ассоциации, соответственно;

блок определения предсказываемой степени ассоциации используется для определения предсказываемой степени ассоциации между множеством записей описания болезни и множеством генов в соответствии с определенными предсказываемыми показателями ассоциации;

блок определения ошибки используется для определения ошибки между предсказываемой степенью ассоциации и фактический степенью ассоциации множества записей описания болезни и множества генов;

блок сравнения ошибки используется для определения, находятся ли ошибки ниже заданного порога погрешности, если да, вызывают блок определения записи-матрицы генной ассоциации, или, в противном случае, вызывают блок корректировки параметров матрицы;

блок определения записи-матрицы генной ассоциации используется для определения текущей обучающей записи-матрицы генной ассоциации в качестве записи-матрицы генной ассоциации;

блок корректировки параметров матрицы используется для корректировки параметров матрицы в текущей обучающей записи-матрице генной ассоциации посредством алгоритма нисходящего градиента, используя корректированную обучающую запись-матрицу генной ассоциации в качестве текущей обучающей записи-матрицы генной ассоциации, и для вызова блока определения предсказываемого показателя ассоциации.

13. Носитель запоминающего устройства для определения степени ассоциации между записью описания болезни и геном, отличающийся тем, что программа хранится на носителе запоминающего устройства и, когда исполняется процессором, осуществляет способ определения степени генной ассоциации в соответствии с любым из пп. 1-6.

14. Процессор для определения степени ассоциации между записью описания болезни и геном, отличающийся тем, что процессор используется для исполнения программы, причем программа, когда исполняется, выполняет способ определения степени генной ассоциации в соответствии с любым из пп. 1-6.

15. Электронное устройство для определения степени ассоциации между записью описания болезни и геном, отличающееся тем, что содержит по меньшей мере один процессор, по меньшей мере одну память, связанную с процессором, и шину;

в котором процессор осуществляет связь с памятью через шину и процессор используется для вызова программных команд из памяти, чтобы выполнить способ определения степени генной ассоциации в соответствии с любым из пп. 1-6.

Документы, цитированные в отчете о поиске Патент 2023 года RU2790285C1

CN 109119132 B, 27.08.2019
CN 110349632 A, 18.10.2019
RU 2020114290 A, 01.12.2021.

RU 2 790 285 C1

Авторы

Чжоу, Цзянь

Кун, Линсян

Ван, Цзиньань

Хэ, Цзэнцюань

Даты

2023-02-16Публикация

2021-01-21Подача