СИСТЕМА И СПОСОБ ИНТЕРПРЕТАЦИИ АЛЛЕЛЕЙ С ПРИМЕНЕНИЕМ РЕФЕРЕНСНОГО ГЕНОМА НА ОСНОВЕ ГРАФА Российский патент 2023 года по МПК G16B30/00 G16B30/20 G16B30/10 

Описание патента на изобретение RU2809124C2

Область изобретения

[0001] Настоящее изобретение в целом направлено на способы и системы для создания аннотированного референсного генома на основе графа.

Уровень техники

[0002] Персональная геномика становится все более важным аспектом здравоохранения. В связи с развитием технологии секвенирования постоянно предлагаются новые приложения для персональной геномной информации. Эти новые приложения обычно нацелены на определение терапевтических возможностей и/или адаптацию терапевтических возможностей к конкретному пациенту на основе личного профиля пациента, содержащего как генетическую информацию (данные) (например, данные секвенирования, метилирования, транскриптома и/или другие генетические/геномные данные), так и клинический профиль (например, возраст, пол, диагноз, состояние, история болезни и/или другая клиническая информация).

[0003] Хотя получение геномного профиля становится все более доступным, интерпретация результатов геномного профиля обычно намного дороже из-за отсутствия доступных или накопленных знаний. С тех пор, как первые секвенаторы начали получать генетическую информацию, был создан очень большой корпус медицинской литературы, объясняющей биомедицинские функции и частоту мутаций для множества различных популяций. Несмотря на то, что существует огромный корпус информации, не существует простой или эффективной методологии или основы для согласования этого корпуса информации.

[0004] Например, в литературе, опубликованной в начале 2000-х, использовалась более ранняя версия референсного генома человека, тогда как в недавних публикациях может использоваться последняя версия, такая как GRCH37 или GRCH38. Мутация, обсуждаемая в 2005 и 2015 годах, может соответствовать разным координатам в разных референсных геномах. Соответственно, чтобы интерпретировать функцию мутации или определить приоритет мутаций, обычно требуется, чтобы исследователь или лечащий врач собирал и просматривал медицинскую литературу вручную. Особенно это актуально при выявлении причин случаев редких заболевантй. Если бы было возможно собирать литературу и соответствующие источники обо всех различных версиях референсного генома по конкретному фенотипу или диагнозу, персонализированная медицина была бы значительно улучшена.

[0005] Единичный, моноплоидный или линейный референсный геном является плохой универсальной референсной структурой для референсного генома, потому что он представляет лишь малую долю вариации и только в течение периода времени, в течение которого используют конкретную версию референсного генома. Для поддержки изменений, внесенных в референсного геном, и предвосхищения будущих версий генома, референсный геном на основе графа обеспечивает комплексную основу для упорядочивания знаний на уровне аллелей. Среди многих других преимуществ, референсный геном на основе графа обладает способностью объединять полиморфизмы и мутации в популяциях и индивидуумах.

Краткое описание изобретения

[0006] Существует постоянная потребность в инструментах и способах, позволяющих собирать и систематизировать литературу, касающуюся предшествующих версий референсного генома отностительно текущей версии референсного генома на основе графа.

[0007] Настоящее изобретение относится к способам и системам для создания аннотированного референсного генома на основе графа. В настоящей заявке различные варианты реализации и осуществления относятся к системе, которая позволяет сообщать аллель и контекстную информацию, собранную из множества версий референсного генома. Указанная система выравнивает более ранние версии референсного генома с текущей версией указанного референсного генома с созданием референсного генома на основе графа. Указанный референсный геном на основе графа включает узлы с информацией о предыдущей локализации указанных узлов в более ранних указанного референсного генома. Затем указанная система извлекает или получает информацию из научной литературы об аллеле и контекстную информацию, связанную с этим аллелем, включая информацию о том, в какой более ранней версии указанного референсного генома идентифицировали указанный аллель, и локализацию указанного аллеля в этой более ранней версии референсного генома. Указанный извлеченный аллель и контекстную информацию затем картируют на указанный референсный геном на основе графа путем поиска в указанном референсном геноме на основе графа узла, который содержит извлеченную версию указанного референсного генома и извлеченную локализацию.

[0008] В целом в одном аспекте предложен способ создания аннотированного референсного генома на основе графа. Указанный способ включает: (i) получение одной или больше версий референсного генома, являющихся более ранними версиями текущего референсного генома, причем каждая из одной или больше версий указанного референсного генома содержит множество узлов, по меньшей мере несколько из которых содержат информацию, идентифицирующую версию указанного референсного генома и локализацию в этой версии указанного референсного генома для соответствующего узла; (ii) выравнивание каждой из указанной одной или больше полученных более ранних версии указанного референсного генома с текущим референсным геномом для создания референсного генома на основе графа, при этом указанное выравнивание основано по меньшей мере частично на информации о локализации из узлов полученной боле ранней версии указанного референсного генома; (iii) извлечение из корпуса источников, по меньшей мере несколько, из которых каждый содержит информацию об аллеле и контекстную информацию, связанную с этим аллелем, аллель и контекстную информацию, связанную с указанным аллелем, при этом соответствующий источник идентифицирует одну из одной или больше полученных более ранних версий указанного референсного генома и локализацию указанного аллеля в идентифицированной более ранней версии указанного референсного генома; и (iv) картирование указанного извлеченного аллеля и связанной с ним контекстной информации на узле указанного референсного генома на основе графа на основе идентифицированной более ранней версии указанного референсного генома и локализации указанного извлеченного аллеля в этой идентифицированной более ранней версии указанного референсного генома.

[0009] Согласно одному варианту реализации, указанный способ дополнительно включает формирование отчета, обобщающего всю указанную контекстную информацию, связанную с узлом указанного референсного генома на основе графа; и предоставление через пользовательский интерфейс указанного сформированного отчета пользователю.

[0010] Согласно одному варианту реализации, указанный отчет содержит одно или больше из частоты аллелей, информации о появлении, информации об окружающих мутациях и/или частоты комутаций.

[0011] Согласно одному варианту реализации, картирование включает аннотирование указанного узла с указанным извлеченным аллелем и связанной контекстной информацией. Согласно одному варианту реализации, картирование включает аннотирование указанного узла с идентификацией указанного источника, из которого извлекли указанный аллель.

[0012] Согласно одному варианту реализации, указанная контекстная информация содержит информацию о признаке или медицинском состоянии, связанном с указанным аллелем. Согласно одному варианту реализации, указанная контекстная информация содержит идентификацию источника, из которого идентифицировали или извлекли указанный аллель. Согласно одному варианту реализации, указанная контекстная информация содержит информацию об одном или больше человек, у которых идентифицирован указанный аллель.

[0013] Согласно одному варианту реализации, указанный способ дополнительно включает нормализацию множества аллелей, связанных с узлом указанного референсного генома на основе графа.

[0014] Согласно другому аспекту предложена система для создания аннотированного референсного генома на основе графа. Указанная система включает: (i) модуль выравнивания, выполненный с возможностью выравнивания каждой из множества полученных более ранних версий референсного генома с текущим референсным геномом для создания референсного генома на основе графа, при этом указанное выравнивание основано по меньшей мере частично на информации из узлов полученной более ранней версии указанного референсного генома, по меньшей мере некоторые из указанных узлов содержат информацию, идентифицирующую версию указанного референсного генома и локализацию в этой версии указанного референсного генома для соответствующего узла; (ii) модуль картирования, выполненный с возможностью картирования множества идентифицированных аллелей на одном или больше узлах указанного референсного генома на основе графа на основе указанной идентифицированной более ранней версии указанного референсного генома и локализации указанного извлеченного аллеля в этой идентифицированной более ранней версии указанного референсного генома, при этом каждый из множества идентифицированных аллелей также содержит контекстную информацию, которую картируют на соответствующем узле с соответствующим аллелем; (iii) модуль отчета, выполненный с возможностью формирования отчета, обобщающего всю указанную контекстную информацию, связанную с узлом указанного референсного генома на основе графа; и (iv) пользовательский интерфейс, выполненный с возможностью предоставления сформированного отчета пользователю.

[0015] Согласно одному варианту реализации, указанная система дополнительно включает модуль извлечения, выполненный с возможностью извлечения из корпуса источников по меньшей мере нескольких, каждый из которых содержит информацию об аллеле и контекстную информацию, связанную с этим аллелем, аллель и контекстную информацию, связанную с указанным аллелем, при этом соответствующий источник идентифицирует: (i) одну из одной или больше полученных более ранних версий указанного референсного генома и (ii) локализацию указанного аллеля в идентифицированной более ранней версии указанного референсного генома.

[0016] Согласно другому аспекту предложен референсный геном на основе графа. Референсный геном на основе графа включает: (i) множество аннотированных узлов текущей версии референсного генома, при этом каждый из указанного множества аннотированных узлов содержит информацию об аллеле и контекстную информацию, связанную с этим аллелем, из одной или больше предыдущих версий указанного референсного генома, указанную контекстную информацию, содержащую по меньшей мере идентификацию предыдущей версии указанного референсного генома, из которого извлекли указанный аллель, и информацию о геномных координатах указанного аллеля в предыдущей версии указанного референсного генома, из которого извлекли указанный аллель; и (ii) множество ребер, каждое из которых соединяет два узла через первый или второй конец каждого из указанных двух узлов.

[0017] В различных вариантах осуществления процессор или контроллер могут быть связаны с одним или больше носителями данных (обычно называемыми в настоящем описании «памятью», например энергозависимая и энергонезависимая память компьютера, такая как RAM, PROM, EPROM и EEPROM, гибкие диски, компакт-диски, оптические диски, магнитная лента и др.). В некоторых вариантах осуществления на носителе данных может быть закодирована одна или больше программ, которые при исполнении на одном или больше процессорах и/или контроллерах осыществляют по меньшей мере некоторые из функций, обсуждаемых в настоящем описании. Различные носители данных могут быть закреплены в процессоре или контроллере или могут быть переносными, так что одна или больше программ, хранящихся на них, могут быть загружены в процессор или контроллер, чтобы осуществить различные аспекты различных вариантов реализации, обсуждаемых в настоящей заявке. В настоящей заявке термины «программа» или «компьютерная программа» используются в общем смысле для обозначения любого типа компьютерного кода (например, программного обеспечения или микрокода), который может быть использован для программирования одного или больше процессоров или контроллеров.

[0018] Следует принимать во внимание, что все комбинации вышеупомянутых концепций и дополнительных концепций, обсуждаемых более подробно ниже (при условии, что такие концепции не являются взаимно несовместимыми), рассматриваются как часть раскрытого в настоящей заявке объекта изобретения. В частности, все комбинации заявленного объекта изобретения, появляющиеся в конце настоящего описания, рассматриваются как часть объекта изобретения, раскрытого в настоящей заявке. Также следует понимать, что терминология, явным образом используемая в настоящей заявке, которая также может появляться в любом описании изобретения, включенном посредством ссылки, должна иметь значение, наиболее совместимое с конкретными концепциями, раскрытыми в настоящей заявке.

[0019] Эти и другие аспекты различных вариантов реализации будут очевидны и объяснены со ссылкой на вариант(ы) реализации, описанные ниже.

Краткое описание графических материалов

[0020] В графических материалах одинаковые ссылки в целом относятся к одним и тем же частям на разных видах. Кроме того, графические материалы не обязательно выполнены в масштабе, вместо этого акцент обычно направлен на иллюстрацию принципов различных вариантов реализации.

[0021] На ФИГ. 1 представлена блок-схема способа создания аннотированного референсного генома на основе графа в соответствии с вариантом реализации.

[0022] На ФИГ. 2 представлено схематическое изображение системы для создания аннотированного референсного генома на основе графа в соответствии с вариантом реализации.

[0023] На ФИГ. 3 представлено схематическое изображение аннотированного референсного генома на основе графа в соответствии с вариантом реализации.

Подробное описание изобретения

[0024] В настоящем описании изобретения представлены различные варианты реализации системы и способа создания аннотированного референсного генома на основе графа. В более общем смысле, заявитель обнаружил и обратил внимание, что было бы полезно предоставить систему для сообщения аллельной и контекстной информации, собранной из множества версий референсного генома. Указанная система выравнивает более ранние версии референсного генома с текущей версией указанного референсного генома для создания референсного генома на основе графа. Указанная система извлекает или получает информацию из научной литературы об аллеле и контекстную информацию, связанную с этим аллелем, включая информацию о том, в какой более более ранней версии указанного референсного генома идентифицировали указанный аллель, и локализацию указанного аллеля в этой более более ранней версии указанного референсного генома. Указанный извлеченный аллель и контекстную информацию затем картируют на указанный референсный геном на основе графа путем поиска в указанном референсном геноме на основе графа узла, который содержит извлеченную версию указанного референсного генома и извлеченное положение. Указанная система формирует отчет, обобщающий всю указанную контекстную информацию, связанную с узлом указанного референсного генома на основе графа, и предоставляет сформированный отчет пользователю.

[0025] ФИГ. 1, в одном варианте реализации, представляет собой блок-схему способа 100 создания аннотированного референсного генома на основе графа. На этапе 110 предоставляют систему для создания аннотированного референсного генома на основе графа. Указанная система может быть любой из систем, описанных или иным образом предусмотренных в настоящей заявке, и может содержать любой из компонентов или модулей, описанных или иным образом предусмотренных в настоящей заявке.

[0026] На этапе 120 указанного способа указанная система получает или ей предоставляют одну или больше предыдущих версий референсного генома получают или. Каждая из этих предыдущих версий включает множество узлов, по меньшей мере, некоторые из этих узлов содержат информацию, идентифицирующую версию указанного референсного генома, из которой был получен указанный узел, а также локализацию в этой версии указанного референсного генома, где расположен указанный узел. Согласно одному варианту реализации, узел представляет собой SNP (однонуклеотидный полиморфизм), мутацию, аллель и/или k-мер длины k.

[0027] Референсный геном может быть референсным геномом человека или референсным геномом любого другого организма. Предыдущие версии референсного генома могут быть выделены или получены из любого источника, включая базу данных предыдущих версий, но не ограничиваясь ею. Например, одна или больше версий референсного генома могут быть частными или общедоступными для использования и могут храниться в частном или общедоступном архиве или базе данных для поиска. Обычно референсный геном является цифровым и может храниться в базе данных, а также может передаваться электронным способом через проводную и/или беспроводную систему связи из базы данных в систему создания указанного аннотированного референсного генома на основе графа.

[0028] Как правило, различия между версиями референсного генома включают более надежные данные для конкретных локализаций, изменения координат или локализации определенных последовательностей, новую информацию о предыдущих гэпах в последовательности и многие другие различия. Одно из самых больших отличий, относящихся к настоящему изобретению, представляет собой изменение координат последовательности. Например, последовательность k (которая может быть одним нуклеотидом или SNP или может быть последовательностью нуклеотидов) на хромосоме 5 может быть расположена в первой локализации в первой версии референсного генома, но дополнительное секвенирование и анализ могут выявить более правильное расположение этой последовательности k во второй локализации хромосомы 5. Соответственно, следующая версия указанного референсного генома переместит последовательность k в указанную вторую локализацию. В предыдущей версии референсного генома и опубликованной литературе обсуждаемая последовательность k по-прежнему будет иметь расположение последовательности k в первой локализации на хромосоме 5.

[0029] На этапе 130 указанного способа каждую из полученных более ранних версий указанного референсного генома выравнивают с текущим референсным геномом для создания референсного генома на основе графа. Это выравнивание основано по меньшей мере частично на информации о локализации указанных узлов полученной более ранней версии указанного референсного генома. Поскольку узлы полученных более ранних версий указанного референсного генома содержат информацию о локализации, эту информацию о локализации можно использовать для определения того, где в текущей версии указанного референсного генома можно найти эту локализацию. В некоторых случаях координаты локализации не изменятся, в то время как во многих случаях координаты локализации будут значительно изменены.

[0030] Согласно одному варианту реализации, указанная система включает или находится в связи с системой или модулем сравнения, которые содержат или предоставляют информацию о том, где могут быть найдены локализации предыдущих версий указанного референсного генома в текущей версии указанного референсного генома. Например, в системе текущая версия указанного референсного генома может содержать во множестве узлов информацию о том, где этот узел был локализован в предыдущих версиях указанного референсного генома. Дополнительно или в качестве альтернативы, предыдущие версии референсного генома могут быть аннотированы или иным образом содержать информацию о том, где в текущей версии указанного референсного генома могут быть найдены узлы из этой версии указанного референсного генома.

[0031] Например, текущая версия указанного референсного генома человека, выпущенная консорциумом Genome Reference Consortium в 2013 г. представляет собой GRCh38, иногда называемая сборкой 38, хотя впоследствии были выпущены модификации GRCh38. Соответственно, любая из предыдущих версий или сборок может быть картирована на GRCh38 способами, описанными или иным образом предусмотренными в настоящей заявке. В будущем может быть выпущена новая версия, такая как GRCh39, и предыдущие версии или сборки могут быть отображены на GRCh39. Описанные в настоящей заявке способы и системы работают независимо от того, какую версию или сборку используют в качестве текущей версии указанного референсного генома человека. Кроме того, описанные в настоящей заявке способы и системы работают для любого организма, имеющего референсный геном с множеством версий или сборок.

[0032] В прошлом в научной литературе, посвященной изучению аспектов генетики человека, использовалась одна или больше версий генома человека, выпущенных до текущей версии GRCh38. Соответственно, в научной литературе обычно упоминается конкретная версия референсного генома человека, используемая для анализа или исследования. Однако в тех случаях, когда в научной литературе нет ссылок на конкретную версию референсного генома человека, использованную для анализа или исследования, дату публикации и/или исследования (которые можно почерпнуть или вывести из цитирования публикации или метаданных публикации) можно использовать для вывода, какую версию референсного генома человека, вероятно, использовали для анализа или исследования.

[0033] Согласно одному варианту реализации, чтобы выразить информацию для цепи и, таким образом, различать считывание ДНК в прямом или обратном направлении, указанный референсный геном на основе графа может быть сконструирован с использованием двунаправленного метода или формата. Для построения референсного генома на основе графа доступно несколько методик, в том числе множественное выравнивание генома на основе филогенетического древа, построение графа Де Брейна и многие другие способы. Например, при использовании для сборки генома графы Де Брейна обычно содержат узел, представляющий k-мер с направленными ребрами, представляющими перекрытие k - 1 оснований между двумя узлами, хотя возможны многие другие варианты, как и многие другие способы построения граф.

[0034] Согласно одному варианту реализации, указанный способ может использовать все предыдущие версии референсного генома, включая любые патчи или другие модификации, и любые накопленные полиморфизмы в качестве входных данных во время построения указанного референсного генома на основе графа. Согласно другому варианту реализации, указанный способ может использовать только некоторые предыдущие версии референсного генома в качестве входных данных во время построения указанного референсного генома на основе графа.

[0035] Согласно одному варианту реализации, для каждого аллеля из предыдущей версии референсного генома, выравненного с текущей версией референсного генома, может быть создана структура данных или ее можно использовать чтобы отмечать, какая версия указанного референсного генома включает указанный аллель и указанные координаты аллеля в этой версии референсного генома, включая номер и локализацию хромосомы. Соответственно, множество узлов или аллелей текущей версии указанного референсного генома будет содержать информацию об этом узле или аллеле в некоторых или всех предыдущих версиях указанного референсного генома, использованных для создания указанного референсного генома на основе графа.

[0036] На этапе 140 указанного способа система извлекает, идентифицирует и/или получает информацию об одном или больше аллелях из научной литературы. Например, система может содержать или иметь доступ к корпусу литературы и ссылок, которые могут быть общедоступными и/или частными базами данных. В настоящее время существует множество различных баз данных научной литературы, и можно использовать любую из этих баз данных. Из этого корпуса литературы и источников можно идентифицировать и/или извлекать информацию об аллеле. Вместе с идентификацией указанного аллеля может быть идентифицирована и/или извлечена другая информация, включая, но не ограничиваясь этим: (1) ссылочный идентификационный номер кластера SNP или другой номер доступа, идентифицирующий указанный аллель; (2) координаты указанного аллеля, включая количество и локализацию хромосом; (3) указанный референсный геном, используемый для указанных координат; и/или (4) контекстная информация об указанном аллеле.

[0037] Согласно одному варианту реализации, указанная контекстная информация может включать, например, медицинскую информацию или информацию о признаках, идентифицированных как связанные с указанным аллелем или влияющие на него, полиморфизмы, идентифицированные для указанного аллеля, популяции, связанные с указанным аллелем, исследовательскую информацию об указанном аллеле, информацию о цитировании указанного аллеля и/или любую другую информацию об указанном аллеле, источнике и/или исследовании.

[0038] Согласно одному варианту реализации, информация об аллеле может быть представлена в литературе в структурированном и/или неструктурированном виде. Структурированные форматы легче согласовать с референсным геномом на основе графа. Однако для неструктурированной информации можно использовать определенный процесс ETL (извлечение, преобразование и загрузка). Система может содержать таблицу синонимов для учета различных названий, используемых для предыдущих версий референсного генома. Например, hg19 и GRCH37 относятся к одной и той же более ранней версии референсного генома человека. Система также может содержать модуль или алгоритм, выполненный или разработанный с возможностью извлечения релевантной информации о мутации/аллеле в виде групп, такой как референсная идентификация, число хромосом, координаты, референсные и альтернативные аллели, информация о цепи, соматическая/зародышевая линия, метод секвенирования (например, микрочип, WGS или WES), фенотип(ы), диагноз, анатомическое расположение, возраст, пол, раса, история болезни и/или идентификатор пациента, среди другой возможной информации. Согласно одному варианту реализации, указанную информацию анализируют с помощью конвейеров обработки естественного языка на основе медицинской онтологии. Взаимосвязи между аллелем, фенотипом, метаданными и любой другой информацией могут быть сохранены в структуре данных, такой как СУРБД (система управления реляционными базами данных), среди других возможных структур данных.

[0039] Согласно одному варианту реализации, этот этап и другие этапы указанного способа обязательно включают в себя большую вычислительную работу. Например, этот этап может включать просмотр тысяч или миллионов литературных источников, включая обобщение всей релевантной информации. Способы или системы могут применяться для облегчения вычислительной работы. Например, настройка инфраструктуры с помощью Hadoop/MapReduce может полностью или частично решить эту задачу. Многие другие способы и системы могут быть использованы для облегчения этого ресурсоемкого анализа.

[0040] На этапе 150 указанного способа система картирует выделенный, полученный или идентифицированный аллель и связанную с ним контекстную информацию на узел указанного референсного генома на основе графа. Картирование основано по меньшей мере частично на локализации выделенного аллеля в более ранней версии указанного референсного генома. Например, аллель из предыдущей версии указанного референсного генома может быть картирован на узел указанного референсного генома на основе графа. Наряду с указанным аллелем контекстная информация, связанная с аллелем, может быть картирована на узел, включая любую или всю контекстную информацию, раскрытую или иным образом предусмотренную в настоящем описании. Картирование основано по меньшей мере частично на информации о локализации, связанной с извлеченным, полученным или идентифицированным аллелем, и может иметь перекрестную ссылку на информацию о локализации для указанного референсного генома на основе графа. Согласно одному варианту реализации, аллель может иметь несколько соответствующих координат из одной или больше предыдущих версий указанного референсного генома. Система может анализировать каждый из них и запрашивать СУРБД во время картирования.

[0041] На необязательном этапе 160 указанного способа система нормализует множество аллелей или результатов, связанных с узлом указанного референсного генома на основе графа. Согласно одному варианту реализации, многие из указанных аллелей не являются мутациями, а представляют собой нормальные полиморфизмы, и нормализация идентифицирует эти нормальные полиморфизмы. Можно использовать любой способ нормализации.

[0042] На этапе 170 указанного способа система формирует отчет, обобщающий всю контекстную информацию, связанную с узлом указанного референсного генома на основе графа. Система может сделать это для одного или множества узлов. Согласно одному варианту реализации, система может запрашивать СУРБД или другую структуру данных для получения информации об узле, аллеле, локализации в указанном референсном геноме на основе графа и/или локализации в предыдущей версии указанного референсного генома. Результаты можно обобщать по разным версиям генома в одну или больше категорий, включая: частоту аллелей, время появления, частоту окружающих мутаций, частоту ко-мутаций, группы фенотипов и/или любую другую информацию.

[0043] На этапе 180 указанного способа система предоставляет сформированный отчет пользователю через пользовательский интерфейс системы. Отчет может иметь любой формат, и предпочтительно, чтобы его было легко просматривать и интерпретировать. Отчет может быть предоставлен с помощью любого механизма, включая отображение, считывание, загрузку, выгрузку, распечатку, электронную почту и многие другие процессы, но не ограничиваясь ими.

[0044] Согласно одному варианту реализации, создание и использование референсного генома на основе графа является значительным улучшением, по сравнению с предшествующими форматами референсного генома, и решает многие давно назревшие проблемы в данной области техники. Например, несколько участков генома аннотированы накопленными клиническими и/или биологическими знаниями для большинства биомедицинских исследований и приложений. Чтобы объяснить неизвестную область генома, необходимо создать открытую структуру обучения для накопления знаний, ориентированных на мутации. Например, если у больного раком обнаружены неизвестные соматические мутации, приоритетность этих мутаций может повлиять на последующее принятие клинических решений. Один из способов определения приоритетов представляет собой изучение частоты аллелей каждой мутации и количество сообщений о мутации, хотя это неэффективный и неуправляемый способ анализа. Обобщение аллеля из литературы в контексте референсного генома на основе графа предоставляет гораздо более ценную и действенную информацию. Соответственно, способы и системы, раскрытые в настоящей заявке, могут значительно улучшить уход за пациентом и результаты, по сравнению с способами и системами для предыдущего референсного генома. Согласно другому варианту реализации, данные, собранные из корпуса литературы и картированные на указанный референсный геном на основе графа, также могут облегчить процесс обнаружения биомаркеров.

[0045] Согласно другому варианту реализации, инфраструктура референсного генома на основе графа может позволить сторонним организациям, таким как биофармацевтические компании или диагностические компании, поддерживать собственные базы данных мутационных фенотипов независимо от того, как меняется указанный референсный геном. Например, клиент может иметь обнаруженные мутации, относящиеся к разным версиям указанного референсного генома, например, hg18 или hg19. Эти мутации могут быть включены в указанный референсный геном на основе графа. Например, если пользователь запрашивает конкретные координаты генома относительно конкретной предыдущей версии указанного референсного генома, информация, связанная с этими координатами, может быть извлечена из указанного референсного генома на основе графа независимо от того, какую версию указанного референсного генома используют или указывают.

[0046] ФИГ. 2 представляет собой схематическое изображение 200 системы и способа создания аннотированного референсного генома на основе графа, как описано или иным образом раскрыто в настоящей заявке. Система 200 включает один или больше из процессора 220, памяти 226, пользовательского интерфейса 240, интерфейса 250 связи и запоминающего устройства 260, соединенных между собой через одну или больше системных шин 210. В некоторых вариантах реализации, таких как те, в которых система содержит или осуществляет секвенсор или платформу секвенирования, аппаратное обеспечение может включать дополнительное оборудование 215 секвенирования, которое может представлять собой любой секвенсор или платформу секвенирования. Следует понимать, что ФИГ. 2 представляет собой в некоторых отношениях абстракцию, и фактическая организация указанных компонентов системы 400 может отличаться и быть более сложной, чем проиллюстрировано.

[0047] Согласно одному варианту реализации, система 200 содержит процессор 220, способный выполнять инструкции, хранящиеся в памяти 226 или запоминающем устройстве 260, или обрабатывать данные иным образом. Процессор 220 выполняет одну или больше этапов указанного способа и может содержать один или больше указанных модулей, описанных или иным образом предусмотренных в настоящем описании. Процессор 220 может состоять из одного или множества модулей и может содержать, например, память 226. Процессор 220 быть в любом подходящем виде, включая микропроцессор, микроконтроллер, несколько микроконтроллеров, схему, программируемую логическую интегральную схему (FPGA), специализированную интегральную схему (ASIC), один процессор или множество процессоров, но не ограничиваясь ими.

[0048] Память 226 быть в любой подходящей форме, включая энергонезависимую память и/или RAM. Память 226 может включать в себя различные накопители, такие как, например, кэш или системная память. По существу, память 226 может включать статическую память с произвольным доступом (SRAM), динамическую RAM (DRAM), флэш-память, постоянное запоминающее устройство (ROM) или другие подобные запоминающие устройства. В памяти, помимо прочего, может храниться операционная система. RAM используется процессором для временного хранения данных. Согласно одному варианту реализации, операционная система может содержать код, который при исполнении процессором управляет работой одного или больше компонентов системы 200. Очевидно, что в вариантах реализации, в которых процессор осуществляет одну или больше функций, описанных в настоящей заявке, в аппаратном обеспечении, программное обеспечение, описанное как соответствующее таким функциям в других вариантах реализации, может быть опущено.

[0049] Пользовательский интерфейс 240 может включать одно или больше устройств для обеспечения связи с пользователем, например администратором. Пользовательский интерфейс может быть любым устройством или системой, которые позволяют передавать и/или получать информацию, и может включать дисплей, мышь и/или клавиатуру для получения пользовательских команд. В некоторых вариантах реализации пользовательский интерфейс 240 может включать интерфейс командной строки или графический пользовательский интерфейс, который может быть представлен удаленному терминалу через интерфейс 250 связи. Пользовательский интерфейс может быть расположен с одним или больше другими компонентами системы или может быть расположен удаленно от системы и находится в состоянии связи через проводную и/или беспроводную сеть связи.

[0050] Интерфейс 250 связи может включать одно или больше устройств для обеспечения связи с другими устройствами программного обеспечения. Например, интерфейс 250 связи может включать карту сетевого интерфейса (NIC), выполненную с возможностью связи согласно протоколу Ethernet. Кроме того, интерфейс 250 связи может осуществлять стек TCP/IP для связи согласно протоколам TCP/IP. Будет очевидно различное альтернативное или дополнительное программное обеспечение или конфигурации для интерфейса 250 связи.

[0051] Запоминающее устройство 260 может включать один или больше машиночитаемых носителей данных, таких как постоянное запоминающее устройство (ROM), оперативное запоминающее устройство (RAM), носители данных на магнитных дисках, оптические носители данных, устройства флэш-памяти или аналогичные носители данных. В различных вариантах реализации запоминающее устройство 260 может хранить инструкции для выполнения процессором 220 или данные, с которыми может работать процессор 220. Например, запоминающее устройство 260 может хранить операционную систему 261 для управления различными операциями системы 200. Если система 200 осуществляет секвенсор и включает аппаратное обеспечение 215 секвенирования, запоминающее устройство 260 может включать инструкции 262 секвенирования для работы программного обеспечения 215 секвенирования. Согласно одному варианту реализации, запоминающее устройство 260 может включать извлеченную базу данных 464 аллелей, созданную или заполненную в соответствии со способами, раскрытыми или иным образом предусмотренными в настоящем описании. Согласно одному варианту реализации, запоминающее устройство 260 может включать референсный геном 265 на основе графа, созданный в соответствии со способами, раскрытыми или иным образом предусмотренными в настоящем описании.

[0052] Очевидно, что различная информация, описанная как хранящаяся в запоминающем устройстве 260, может быть дополнительно или в качестве альтернативы сохранена в памяти 226. В этом отношении память 226 также может рассматриваться как запоминающее устройство, а запоминающее устройство 460 может рассматриваться памятью. Будут очевидны различные другие устройства. Кроме того, память 226 и запоминающее устройство 260 могут рассматриваться как энергонезависимые машиночитаемые носители. В настоящей заявке термин «энергонезависимый» следует понимать как исключающий временные сигналы, но включающий все формы хранения, включая как энергозависимую, так и энергонезависимую память.

[0053] Система 200 может также включать корпус литературы 270. Этот корпус может представлять собой одну базу данных или несколько баз данных. Указанная база данных может быть компонентом системы 200, или система 200 может обмениваться данными или иным образом обращаться к корпусу литературы 270. Указанная база данных может содержать множество статей, документов, плакатов, рефератов или другой информации, которую можно получить или найти в частных и/или публичных источниках.

[0054] Хотя система 200 показана как включающая по одному из каждого описанного компонента, различные компоненты могут дублироваться в различных вариантах реализации. Например, процессор 220 может включать несколько микропроцессоров, которые выполнены с возможностью независимого выполнения раскрытых в настоящем описании способов или выполнены с возможностью осуществления этапов или подпрограмм раскрытых в настоящем описании способов, таким образом, что несколько процессоров взаимодействуют для достижения описанных в настоящей заявке функций. Кроме того, если система 200 осуществлена в системе облачных вычислений, различные компоненты программного обеспечения могут принадлежать отдельным физическим системам. Например, процессор 220 может включать первый процессор на первом сервере и второй процессор на втором сервере. Возможны многие другие варианты и конфигурации.

[0055] Согласно одному варианту реализации процессор 220 содержит один или больше модулей для выполнения одной или больше функций или этапов указанных способов, описанных или иным образом предусмотренных в настоящей заявке. Например, процессор 220 может содержать модуль 222 выравнивания, модуль 223 извлечения, модуль 224 картирования и/или модуль 225 отчетов.

[0056] Согласно одному варианту реализации модуль 222 выравнивания выравнивает или способствует выравниванию полученной или идентифицированной более ранней версии референсного генома с текущим референсным геномом для создания референсного генома на основе графа. Это выравнивание может быть основано по меньшей мере частично на информации о локализации из узлов полученной более ранней версии референсного генома. Поскольку узлы полученных более ранних версий указанного референсного генома содержат информацию о локализации, эту информацию о локализации можно использовать для определения того, где в текущей версии указанного референсного генома можно найти эту локализацию. В некоторых случаях координаты локализации не изменятся, в то время как во многих случаях координаты локализации будут значительно изменены. Согласно одному варианту реализации, модуль 222 выравнивания содержит или предоставляет информацию о том, где могут быть найдены локализации предыдущих версий указанного референсного генома в текущей версии указанного референсного генома.

[0057] Согласно одному варианту реализации, модуль 223 извлечения извлекает, идентифицирует и/или получает информацию об одном или больше аллелях из научной литературы, найденной в корпусе литературы 270. Извлеченная информация 264 об аллелях может храниться, например, в запоминающем устройстве 260 или во множестве других мест или баз данных. Вместе с идентификацией указанного аллеля может быть идентифицирована и/или извлечена другая информация, включая, но не ограничиваясь этим: (1) ссылочный идентификационный номер кластера SNP или другой номер доступа, идентифицирующий указанный аллель; (2) координаты указанного аллеля, включая количество и локализацию хромосом; (3) указанный референсный геном, используемый для указанных координат; и/или (4) контекстную информацию об указанном аллеле. Согласно одному варианту реализации, указанная контекстная информация может включать, например, медицинскую информацию или информацию о признаках, идентифицированных как связанные с указанным аллелем или влияющие на него, полиморфизмы, идентифицированные для указанного аллеля, популяции, связанные с указанным аллелем, исследовательскую информацию об указанном аллеле, информацию о цитировании указанного аллеля и/или любую другую информацию об указанном аллеле, источнике и/или исследовании.

[0058] Согласно одному варианту реализации, модуль 224 картирования картирует извлеченный, полученный или идентифицированный аллель и связанную с ним контекстную информацию на узел указанного референсного генома 265 на основе графа. Картирование основано по меньшей мере частично на локализации выделенного аллеля в более ранней версии указанного референсного генома. Например, аллель из предыдущей версии указанного референсного генома может быть картирован на узел указанного референсного генома на основе графа. Наряду с указанным аллелем контекстная информация, связанная с аллелем, может быть картирована на узел, включая любую или всю контекстную информацию, описанную или иным образом раскрытую в настоящей заявке. Картирование основано по меньшей мере частично на информации о локализации, связанной с извлеченным, полученным или идентифицированным аллелем, и может иметь перекрестную ссылку на информацию о локализации для указанного референсного генома на основе графа. Согласно одному варианту реализации, аллель может иметь несколько соответствующих координат из одной или больше предыдущих версий указанного референсного генома. Система может анализировать каждый из них и запрашивать СУРБД во время картирования.

[0059] Согласно одному варианту реализации, модуль 225 отчета системы формирует отчет, обобщающий всю указанную контекстную информацию, связанную с узлом указанного референсного генома на основе графа. Указанный модуль может сделать это для одного или нескольких узлов. Согласно одному варианту реализации, указанный модуль может запрашивать СУРБД или другую структуру данных для получения информации об узле, аллеле, локализации в указанном референсном геноме на основе графа и/или локализации в предыдущей версии указанного референсного генома. Результаты можно обобщать по разным версиям генома в одну или больше категорий, включая: частоту аллелей, время появления, частоту окружающих мутаций, частоту ко-мутаций, группы фенотипов и/или любую другую информацию. Согласно одному варианту реализации, модуль 225 отчета также предоставляет или предписывает системе предоставить сформированный отчет пользователю через пользовательский интерфейс системы.

[0060] Согласно одному варианту реализации, в настоящей заявке предложен референсный геном на основе графа. В одном варианте реализации ФИГ. 3 представляет референсный геном 300 на основе графа, основанный на текущей версии референсного генома и кодирующий информацию из множества различных версий указанного референсного генома. Референсный геном 300 на основе графа содержит, например, множество узлов 310, которые могут быть помечены, идентифицированы или иным образом аннотированы последовательностями, информацией об аллеле и/или контекстной информацией, как описано или иным образом раскрыто в настоящей заявке. Референсный геном 300 на основе графа также содержит, например, множество ребер 320, которые соединяют два узла через любой из их соответствующих концов. Референсный геном 300 на основе графа может также содержать пути 330, которые соединяют два узла через любой из их соответствующих концов, но обеспечивают альтернативную последовательность, координаты или другие модификации. Например, пути могут обеспечивать системы координат относительно геномов, закодированных в указанном графе, что позволяет создавать стабильные картирования, даже если структуру указанного графа изменяют.

[0061] Согласно одному варианту реализации, множество узлов 310 указанного референсного генома с использованием основе графа содержат информацию из одной или больше предыдущих версий указанного референсного генома. Указанная информация может включать, например, аллель, идентификацию указанного референсного генома, из которого указанный аллель был извлечен или идентифицирован, информацию о координатах указанного аллеля в этом референсном геноме и/или контекстную информацию среди другой возможной информации. ФИГ. 3, например, представляет собой таблицу или структуру 340 данных, связанную с узлом 310. Указанный узел может быть непосредственно аннотирован информацией в таблице или структуре 340 данных, или узел 310 может быть связан в памяти с таблицей или структурой 340 данных, и/или узел 310 может содержать указатель или другую ссылку на таблицу или структуру 340 данных. Хотя в указанной таблице показаны три предыдущих версии указанного референсного генома, таблица может содержать информацию об одной, нескольких или всех предыдущих версиях указанного референсного генома.

[0062] В настоящей заявке все определения следует понимать как полученные из определения словаря, определения в документах, включенных посредством ссылки, и/или обычные значения определенных терминов.

[0063] В настоящей заявке термины в единственном числе, используемые в описании и формуле изобретения, следует понимать как означающие «по меньшей мере один», если явным образом не указано иное.

[0064] В настоящей заявке союзы «и/или», используемые в описании и в формуле изобретения, следует понимать как означающие «один или оба» из элементов, соединенных таким образом, то есть элементы, которые в одних случаях присутствуют вместе, а в других случаях отдельно. Множественные элементы, перечисленные с помощью «и/или», должны толковаться одинаково, то есть «один или больше» элементов, соединенных таким образом. При желании могут присутствовать другие элементы, отличные от элементов, конкретно обозначенных условием «и/или», независимо от того, связаны они или не связаны с этими конкретно указанными элементами.

[0065] В настоящей заявке используемый в описании и формуле изобретения союз «или» следует понимать как имеющий то же значение, что и «и/или», как определено выше. Например, при разделении элементов в списке «или» или «и/или» следует интерпретировать как включающее, то есть включение по меньшей мере одного, но также и более одного, из числа или списка элементов, и, необязательно, дополнительные элементы, не внесенные в список. Только термины, явно указывающие на обратное, такие как «только один из» или «точно один из» или при использовании в формуле изобретения «состоящий из» будут относиться к включению ровно одного элемента из числа или списка элементов. В общем случае, в настоящей заявке термин «или» должен толковаться только как указывающий на исключительные альтернативы (то есть «один или другой, но не оба»), когда ему предшествуют термины исключительности, такие как «любой», «один из», «только один из» или «точно один из».

[0066] В настоящей заявке фраза «по меньшей мере один» в отношении списка из одного или нескольких элементов должна пониматься как означающая по меньшей мере один элемент, выбранный из любого одного или больше элементов в списке элементов, но не обязательно включающий по меньшей мере один из каждого элемента, конкретно перечисленного в списке элементов, и не исключая любые комбинации элементов в списке элементов. Это определение также позволяет необязательно присутствовать элементам, отличным от элементов, специально идентифицированных в списке элементов, к которым относится фраза «по меньшей мере один», независимо от того, связаны они или не связаны с этими конкретно идентифицированными элементами.

[0067] Также следует понимать, что в настоящей заявке в любых способах, которые включают более одного этапа или действия, порядок этапов или действий способа не обязательно ограничивается порядком, в котором перечислены этапы или действия способа, если явным образом не указано иное.

[0068] В формуле изобретения, а также в описании выше, все переходные фразы, такие как «содержащий», «включающий», «несущий», «имеющий», «имеющий в составе», «вовлекающий», «удерживающий», «состоящий из» и подобные, следует понимать как неограниченные, то есть означающие включение, но не ограничиваются этим. Только переходные фразы «состоящий из» и «состоящий по существу из» должны быть закрытыми или полузакрытыми переходными фразами соответственно.

Хотя в настоящей заявке были описаны и проиллюстрированы несколько вариантов реализации изобретения, специалисты в данной области техники легко смогут представить себе множество других средств и/или структур для выполнения функции и/или получения результатов, и/или одного или больше описанных в настоящей заявке преимуществ, и каждый из таких вариантов и/или модификаций считается находящимся в пределах объема описанных в настоящей заявке вариантов реализации изобретения. В более общем плане, специалисты в данной области техники легко поймут, что все параметры, размеры, материалы и конфигурации, описанные в настоящей заявке, предназначены для примера, и что фактические параметры, размеры, материалы и/или конфигурации будут зависеть от конкретного применения или приложений, для которых используется/используются идеи изобретения. Используя не более чем рутинное экспериментирование, специалисты в данной области узнают или смогут установить многие эквиваленты конкретных вариантов осуществления изобретения, описанных в настоящей заявке. Следовательно, следует понимать, что вышеизложенные варианты реализации представлены только в качестве примера, и что в пределах объема прилагаемой формулы изобретения и ее эквивалентов варианты реализации могут быть осуществлены иначе, чем конкретно описано и заявлено. В настоящей заявке варианты реализации направлены на каждый отдельный признак, систему, пункт, материал, набор и/или способ. Кроме того, любая комбинация двух или больше таких признаков, систем, пунктов, материалов, наборов и/или способов, если такие признаки, системы, пункты, материалы, наборы и/или способы не противоречат друг другу, включена в объем настоящего изобретения.

Похожие патенты RU2809124C2

название год авторы номер документа
КЛАССИФИКАЦИЯ САЙТОВ СПЛАЙСИНГА НА ОСНОВЕ ГЛУБОКОГО ОБУЧЕНИЯ 2018
  • Джаганатан, Кишор
  • Фарх, Кай-Хоу
  • Кириазопулу Панайотопулу, София
  • Макрэй, Джереми Фрэнсис
RU2780442C2
СПОСОБЫ ОБУЧЕНИЯ ГЛУБОКИХ СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ НА ОСНОВЕ ГЛУБОКОГО ОБУЧЕНИЯ 2018
  • Гао, Хун
  • Фарх, Кай-Хоу
  • Сундарам, Лаксшман
  • Макрэй, Джереми Фрэнсис
RU2767337C2
СПОСОБЫ И КОМПОЗИЦИИ ДЛЯ ОБНАРУЖЕНИЯ СОМАТИЧЕСКОГО ВАРИАНТА 2019
  • Цзюй, Цзинь Хён
RU2813655C2
БИОИНФОРМАЦИОННЫЕ СИСТЕМЫ, УСТРОЙСТВА И СПОСОБЫ ДЛЯ ВЫПОЛНЕНИЯ ВТОРИЧНОЙ И/ИЛИ ТРЕТИЧНОЙ ОБРАБОТКИ 2017
  • Ван Ройн, Питер
  • Рюле, Майкл
  • Мехьо, Рами
  • Стоун, Гэвин
  • Хам, Марк
  • Оджард, Эрик
  • Пташек, Амнон
RU2799750C2
БИОИНФОРМАЦИОННЫЕ СИСТЕМЫ,УСТРОЙСТВА И СПОСОБЫ ВЫПОЛНЕНИЯ ВТОРИЧНОЙ И/ИЛИ ТРЕТИЧНОЙ ОБРАБОТКИ 2017
  • Ван Ройн, Питер
  • Рюле, Майкл
  • Мехьо, Рами
  • Стоун, Гэвин
  • Хам, Марк
  • Оджард, Эрик
  • Пташек, Амнон
RU2750706C2
СИСТЕМА И СПОСОБ ИНТЕРПРЕТАЦИИ ДАННЫХ И ПРЕДОСТАВЛЕНИЯ РЕКОМЕНДАЦИЙ ПОЛЬЗОВАТЕЛЮ НА ОСНОВЕ ЕГО ГЕНЕТИЧЕСКИХ ДАННЫХ И ДАННЫХ О СОСТАВЕ МИКРОБИОТЫ КИШЕЧНИКА 2017
  • Мусиенко Сергей Владимирович
  • Перфильев Андрей Валентинович
  • Осипенко Дмитрий Александрович
  • Никогосов Дмитрий Аркадьевич
  • Алексеев Дмитрий Глебович
  • Тяхт Александр Викторович
RU2699284C2
ГЕНОМНАЯ ИНФРАСТРУКТУРА ДЛЯ ЛОКАЛЬНОЙ И ОБЛАЧНОЙ ОБРАБОТКИ И АНАЛИЗА ДНК И РНК 2017
  • Ван Ройн, Питер
  • Макмиллен, Роберт Дж.
  • Рюле, Майкл
  • Мехьо, Рами
RU2804029C2
ГЕНОМНАЯ ИНФРАСТРУКТУРА ДЛЯ ЛОКАЛЬНОЙ И ОБЛАЧНОЙ ОБРАБОТКИ И АНАЛИЗА ДНК И РНК 2017
  • Ван Ройн, Питер
  • Макмиллен, Роберт Дж.
  • Рюле, Майкл
  • Мехьо, Рами
RU2761066C2
РАСЧЕТ БРЕМЕНИ ОПУХОЛЕВЫХ МУТАЦИЙ С ИСПОЛЬЗОВАНИЕМ ДАННЫХ РНК СЕКВЕНИРОВАНИЯ ОПУХОЛЕЙ И КОНТРОЛИРУЕМОГО МАШИННОГО ОБУЧЕНИЯ 2020
  • Буздин Антон Александрович
  • Сорокин Максим Игоревич
  • Зотова Евгения Дмитриевна
  • Ткачев Виктор Сергеевич
  • Гаража Андрей Владимирович
RU2759205C1
ФРЕЙМВОРК НА ОСНОВЕ ГЛУБОКОГО ОБУЧЕНИЯ ДЛЯ ИДЕНТИФИКАЦИИ ПАТТЕРНОВ ПОСЛЕДОВАТЕЛЬНОСТИ, КОТОРЫЕ ВЫЗЫВАЮТ ПОСЛЕДОВАТЕЛЬНОСТЬ-СПЕЦИФИЧНЫЕ ОШИБКИ (SSE) 2019
  • Кашефагиги, Дорна
  • Киа, Амирали
  • Фарх, Кай-Хоу
RU2745733C1

Иллюстрации к изобретению RU 2 809 124 C2

Реферат патента 2023 года СИСТЕМА И СПОСОБ ИНТЕРПРЕТАЦИИ АЛЛЕЛЕЙ С ПРИМЕНЕНИЕМ РЕФЕРЕНСНОГО ГЕНОМА НА ОСНОВЕ ГРАФА

Изобретение относится к биоинформатике. Описан способ создания аннотированного референсного генома на основе графа, включающий: получение при помощи секвенирования одной или больше версий референсного генома, являющихся более ранними версиями текущего референсного генома, при этом каждая из этих одной или больше версий указанного референсного генома содержит множество узлов, по меньшей мере некоторые из которых содержат информацию, идентифицирующую указанную версию референсного генома и локализацию в этой версии указанного референсного генома для соответствующего узла. Выравнивание каждой из одной или больше полученных более ранних версий указанного референсного генома с указанным текущим референсным геномом для создания референсного генома на основе графа, при этом выравнивание основано по меньшей мере частично на информации о локализации из узлов полученной более ранней версии указанного референсного генома. Извлечение из корпуса источников по меньшей мере нескольких, каждый из которых содержит информацию об аллеле и контекстную информацию, связанную с этим аллелем, аллель и контекстную информацию, связанную с указанным аллелем, при этом соответствующий источник идентифицирует: (i) одну из одной или больше полученных более ранних версий указанного референсного генома и (ii) локализацию указанного аллеля в идентифицированной более ранней версии указанного референсного генома; и картирование указанного извлеченного аллеля и связанной с ним контекстной информации на узле указанного референсного генома на основе графа, на основе идентифицированной более ранней версии указанного референсного генома и локализации указанного извлеченного аллеля в этой идентифицированной более ранней версии указанного референсного генома. Формирование отчета, обобщающего всю указанную контекстную информацию, связанную с узлом указанного референсного генома на основе графа; и предоставление через пользовательский интерфейс указанного сформированного отчета пользователю. Также описана система для создания аннотированного референсного генома на основе графа. Изобретение позволяет собирать и систематизировать литературу, касающуюся предшествующих версий референсного генома отностительно текущей версии референсного генома на основе графа. 2 н. и 9 з.п. ф-лы, 3 ил.

Формула изобретения RU 2 809 124 C2

1. Способ (100) создания аннотированного референсного генома на основе графа, включающий:

получение (120) при помощи секвенирования одной или больше версий референсного генома, являющихся более ранними версиями текущего референсного генома, при этом каждая из этих одной или больше версий указанного референсного генома содержит множество узлов, по меньшей мере некоторые из которых содержат информацию, идентифицирующую указанную версию референсного генома и локализацию в этой версии указанного референсного генома для соответствующего узла;

выравнивание (130) каждой из одной или больше полученных более ранних версий указанного референсного генома с указанным текущим референсным геномом для создания референсного генома на основе графа, при этом выравнивание основано по меньшей мере частично на информации о локализации из узлов полученной более ранней версии указанного референсного генома;

извлечение (140) из корпуса источников по меньшей мере нескольких, каждый из которых содержит информацию об аллеле и контекстную информацию, связанную с этим аллелем, аллель и контекстную информацию, связанную с указанным аллелем, при этом соответствующий источник идентифицирует: (i) одну из одной или больше полученных более ранних версий указанного референсного генома и (ii) локализацию указанного аллеля в идентифицированной более ранней версии указанного референсного генома; и

картирование (150) указанного извлеченного аллеля и связанной с ним контекстной информации на узле указанного референсного генома на основе графа, на основе идентифицированной более ранней версии указанного референсного генома и локализации указанного извлеченного аллеля в этой идентифицированной более ранней версии указанного референсного генома;

формирование (170) отчета, обобщающего всю указанную контекстную информацию, связанную с узлом указанного референсного генома на основе графа; и

предоставление (180) через пользовательский интерфейс указанного сформированного отчета пользователю.

2. Способ по п. 1, характеризующийся тем, что указанный отчет содержит одно или больше из частоты аллелей, информации о появлении, информации об окружающих мутациях и/или частоты ко-мутаций.

3. Способ по п. 1, характеризующийся тем, что картирование включает аннотирование указанного узла с указанным извлеченным аллелем и связанной контекстной информацией.

4. Способ по п. 1, характеризующийся тем, что картирование включает аннотирование указанного узла с идентификацией указанного источника, из которого извлекли указанный аллель.

5. Способ по п. 1, характеризующийся тем, что указанная контекстная информация содержит информацию о признаке или медицинском состоянии, связанном с указанным аллелем.

6. Способ по п. 1, характеризующийся тем, что указанная контекстная информация содержит идентификацию источника, из которого идентифицировали или извлекли указанный аллель.

7. Способ по п. 1, характеризующийся тем, что указанная контекстная информация содержит информацию об одном или больше человек, у которых идентифицировали указанный аллель.

8. Способ по п. 1 дополнительно включающий нормализацию (160) множества аллелей, связанных с узлом указанного референсного генома на основе графа.

9. Система (200) для создания аннотированного референсного генома на основе графа, включающая:

аппаратное обеспечение секвенирования;

модуль (222) выравнивания, выполненный с возможностью выравнивания каждой из множества полученных более ранних версий референсного генома с текущим референсным геномом для создания референсного генома на основе графа, при этом указанное выравнивание основано по меньшей мере частично на информации из узлов полученной более ранней версии указанного референсного генома, по меньшей мере некоторые из указанных узлов содержат информацию, идентифицирующую версию указанного референсного генома и локализацию в этой версии указанного референсного генома для соответствующего узла;

модуль (223) извлечения, выполненный с возможностью извлечения из корпуса источников, по меньшей мере нескольких, каждый из которых содержит информацию об аллеле и контекстную информацию, связанную с этим аллелем, аллель и контекстную информацию, связанную с указанным аллелем, при этом соответствующий источник идентифицирует: (i) одну из одной или больше полученных более ранних версий указанного референсного генома и (ii) локализацию указанного аллеля в идентифицированной более ранней версии указанного референсного генома;

модуль (224) картирования, выполненный с возможностью картирования множества идентифицированных аллелей на одном или больше узлах указанного референсного генома на основе графа на основе идентифицированной более ранней версии указанного референсного генома и локализации указанного извлеченного аллеля в этой идентифицированной более ранней версии указанного референсного генома, при этом каждый из множества идентифицированных аллелей также содержит контекстную информацию, которую картируют на соответствующем узле с соответствующим аллелем;

модуль (225) отчета, выполненный с возможностью формирования отчета, обобщающего всю указанную контекстную информацию, связанную с узлом указанного референсного генома на основе графа; и

пользовательский интерфейс (240), выполненный с возможностью предоставления сформированного отчета пользователю.

10. Система по п. 9, характеризующаяся тем, что указанная контекстная информация содержит информацию о признаке или медицинском состоянии, связанном с указанным аллелем.

11. Система по п. 9, характеризующаяся тем, что указанная контекстная информация содержит идентификацию источника, из которого идентифицировали или извлекли указанный аллель.

Документы, цитированные в отчете о поиске Патент 2023 года RU2809124C2

Мария Зуева Референсный геном в виде графа как "геномный паспорт" человечества, 2016, найдено в интернет 29.09.2023 http://bioinformaticsinstitute.ru/sites/default/files/graph_genome_october.pdf
WO 2017035392 А1, 02.03.2017
СПОСОБ КАРТИРОВАНИЯ ПОЛОЖЕНИЙ РЯДА МЕТИЛИРОВАННЫХ НУКЛЕОТИДНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ Pu(5mC)GPy В ПРОТЯЖЕННОЙ ДНК ДЛЯ ПОСТРОЕНИЯ ЭПИГЕНЕТИЧЕСКОГО ПРОФИЛЯ И ВЫЯВЛЕНИЯ АНОМАЛЬНО МЕТИЛИРОВАННЫХ УЧАСТКОВ ДНК 2015
  • Абдурашитов Мурат Абдурашитович
  • Томилов Виктор Николаевич
  • Гончар Данила Александрович
  • Дубинин Евгений Викторович
  • Дегтярев Сергей Харитонович
RU2586502C1

RU 2 809 124 C2

Авторы

Мао, Йонг

Волянский, Костянтин

Димитрова, Невенка

Даты

2023-12-07Публикация

2019-05-20Подача