ОБЛАСТЬ ТЕХНИКИ
[0001] Варианты реализации настоящего изобретения в целом относятся к защищенной передаче данных, в частности, к системам и способам защищенной передачи больших объемов данных, для которых актуально соблюдение конфиденциальности или соблюдение безопасности при передаче по не полностью незащищенным сетями.
УРОВЕНЬ ТЕХНИКИ
[0002] В результате секвенирования, например геномного секвенирования и генотипирования SNP, могут быть получены геномные данные большого объема. Например, файл определения, или поиска, вариантов (variant call file), используемый для сохранения данных полученных секвенированием вариантов последовательностей хромосом, может составлять сотни гигабайт.
[0003] Исследователи и медицинские учреждения часто нуждаются в передаче геномных данных из одного места в другое, географически удаленное место. Поскольку выделенные или частные сети, которые охватывают большие расстояния, могут быть слишком дорогими или содержать не полностью защищенные диапазоны, данные часто передают по незащищенным сетям. Геномные данные могут быть связаны с конкретными пациентами, и, следовательно, имеет место проблема конфиденциальности, более того, их передача может регулироваться законами и нормами, касающимися хранения и передачи таких данных. Кроме того, в силу того что эти данные обрабатывают для определения индивидуальных аномалий пациента, получаемая из них информация является еще более конфиденциальной, и поэтому еще острее потребность в механизме защищенной передачи.
[0004] Объем данных, а также конфиденциальность информации обуславливают необходимость разработки эффективных способов защищенной передачи геномных данных. Существующие способы не обязательно учитывают характеристики геномных данных, в том числе данных, относящихся к вариантам, и не учитывают качество таких специфических передаваемых данных.
[0005] Соответственно, существует необходимость в эффективной и защищенной системе для передачи геномных данных по незащищенным сетям.
РАСКРЫТИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ
[0006] В целом, описанные здесь различные аспекты систем, способов и устройств направлены на усовершенствование систем и способов передачи геномных данных между географически удаленными местами по незащищенным сетям посредством новых способов обработки, сжатия, кодирования и шифрования данных перед передачей. Хотя представлены конкретные подробности применения системы для передачи информации о вариантах, включающих однонуклеотидный полиморфизм (single nucleotide polymorphisms, SNP), специалисту в данной области техники будет понятно, что описанные здесь варианты реализации имеют более широкое применение.
[0007] Согласно одному аспекту настоящего изобретения система для преобразования данных, секвенированных из генома и преобразованных в файл определения, или поиска, вариантов (variant call file, VCF), содержит первый и второй модули обработки, каждый из которых содержит компьютерный процессор и компьютерочитаемый материальный носитель. Первый модуль обработки выполнен с возможностью сжимать файл VCF до аннотированного файла VCF, который содержит первичные не избыточные данные вариантов из файла VCF, на основе справочных данных, кодировать аннотированный файл VCF и сохранять кодированный файл VCF. Второй модуль обработки выполнен с возможностью принимать кодированный файл VCF и заполнять кодированный файл VCF (т.е. производить восстановление сжатых данных с использованием алгоритма inflate).
[0008] В одном варианте реализации справочные данные включают данные эталонного и альтернативного аллеля из базы данных коротких геномных вариаций (SNP). В одном варианте реализации кодирование аннотированного файла VCF включает преобразование данных номера хромосом и положения хромосом из аннотированного файла VCF с использованием математической системы координат.
[0009] Согласно другому аспекту настоящего изобретения предложен выполняемый компьютерным процессором способ преобразования данных, секвенированных из генома пациента, и преобразованных в файл определения вариантов (variant call file, VCF), и он включает этапы сжатия файла VCF до аннотированного файла VCF, который содержит первоначально неизбыточные данные вариантов из файла VCF, кодирования аннотированного файла VCF, и сохранения кодированного файла VCF на компьютерочитаемом материальном носителе.
[0010] В одном варианте реализации сжатие файла VCF включает удаление определений вариантов, для которых связанные с качеством данные не соответствуют заданному пороговому значению. В одном варианте реализации сжатие файла VCF включает удаление известных вариантов с использованием данных из справочной базы данных коротких геномных вариаций (SNP). Известные варианты могут включать информацию об эталонном и/или альтернативном аллеле.
[0011] В одном варианте реализации кодирование аннотированного файла VCF включает преобразование данных номера хромосом и положения хромосом аннотированного файла VCF с использованием математической системы координат. Преобразование данных номера хромосом и положения хромосом аннотированного файла VCF с использованием математической системы координат может включать преобразование данных номера хромосом и положения хромосом аннотированного файла VCF в систему циклических координат на основе значения модуля. Способ, кроме того, может включать шифрование значения модуля и инициирование передачи шифрованного значения модуля из кодированного файла VCF во второй терминал через сетевое подключение.
[0012] В одном варианте реализации кодирование аннотированного файла VCF включает преобразование данных номера хромосом и положения хромосом аннотированного файла VCF с использованием прямоугольных координат, полярных координат или линейных координат. В одном варианте реализации способ также включает применение преобразования частотной области к аннотированному файлу VCF перед кодированием аннотированного файла VCF. В одном варианте реализации способ также включает передачу кодированного файла VCF на второй терминал через сетевое подключение.
[0013] Согласно другому аспекту настоящего изобретения предложен выполняемый компьютерным процессором способ преобразования данных, полученных путем секвенирования из генома пациента и преобразованных в файл определения вариантов (variant call file, VCF), и он включает этапы приема файла VCF, кодированного с использованием математической системы координат; и заполнение кодированного файла VCF данными эталонного и альтернативного аллеля с использованием данных справочной базы данных коротких геномных вариаций (SNP).
[0014] В одном варианте реализации способ дополнительно включает декодирование кодированного файла VCF с использованием значения модуля.
[0015] Описанные выше и другие особенности и преимущества настоящего изобретения будут более очевидными из следующего описания, чертежей и формулы изобретения. На основе описания специалисту в данной области будет понятно, что существуют другие аспекты и преимущества настоящего изобретения.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0016] На чертежах одинаковыми номерами позиций обозначены одинаковые детали на всех различных видах. В следующем описании различные варианты настоящего изобретения описаны со ссылкой на следующие чертежи, на которых:
[0017] На фиг. 1 приведена схема защищенной системы передачи в соответствии с одним иллюстративным вариантом осуществления настоящего изобретения.
[0018] На фиг. 2 приведена передающая станция в соответствии с одним иллюстративным вариантом осуществления настоящего изобретения.
[0019] На фиг. 3 приведена приемная станция в соответствии с одним иллюстративным вариантом осуществления настоящего изобретения.
[0020] На фиг. 4 приведена схема последовательности операций, иллюстрирующая один пример работы передающей станции, показанной на фиг. 2.
[0021] На фиг. 5 приведена схема последовательности операций, иллюстрирующая один пример работы приемной станции, показанной на фиг. 3.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ
[0022] Описанные в настоящем документе различные варианты реализации способов и систем соответствуют принципам настоящего изобретения. Эти варианты реализации являются иллюстративными и не должны рассматриваться как ограничивающие объем настоящего изобретения, как это понятно специалисту в данной области.
[0023] Геномные данные представляют собой вывод из машин для секвенирования, как известно специалисту в данной области. Объем необработанных данных, выводимых из устройства для секвенирования, может составлять сотни гигабайт. Необработанные данные, как правило, сравнивают и выравнивают с эталонным геномом, чтобы создавать файл выравнивания, например файл определения вариантов (variant call file, VCF), который на порядки меньше, чем необработанные данные, но все еще слишком большой для легкой передачи в удаленный узел.
[0024] Иллюстративный вариант реализации системы для защищенной передачи геномных данных через незащищенные в других отношениях сети показан на фиг. 1. система 1 передачи содержит передающую станцию 100, приемную станцию 200, сеть 300 и базу данных 400.
[0025] Передающая станция 100 содержит модуль 110 обработки и блок 120 ввода/вывода. Модуль 110 обработки обрабатывает файл VCF для создания сжатого файла, как описано ниже, для защищенной передачи в приемную станцию 200, которая обычно удалена от передающей станции 100. Блок 120 ввода/вывода выполняет пересылку сжатого файла, который также может быть шифрованным и/или кодированным.
[0026] Приемная станция 200 содержит модуль 210 обработки и блок 220 ввода/вывода. Блок 220 ввода/вывода выполняет прием сжатого файла, который также может быть шифрованным и кодированным. Модуль 210 обработки обрабатывает и восстанавливает сжатый файл в виде исходного файла VCF или чего-либо аналогичного ему.
[0027] В системе 1 передачи сжатый, кодированный и шифрованный файл передается по меньшей мере частично через сеть 300. Сеть 300 может быть образована или может быть сопряжена с Интернетом, внутренней сетью, персональной сетью (personal area network, PAN), локальной компьютерной сетью (local area network, LAN) и/или глобальной сетью (wide area network, WAN) и т.п.
[0028] База данных 400 содержит информацию о геномных данных, которая может относиться к файлу выравнивания, т.е. данных, которые раньше были выровнены с эталонным геномом. Если какие-либо данные из файла выравнивания имеются в базе данных 400, то файл выравнивания может быть аннотирован с помощью справочной информации из базы данных 400, при этом сами аннотации заменяют данные, которые в противном случае хранятся в базе данных 400 и доступны с помощью приемной станции 200.
[0029] Например, в одном иллюстративном варианте реализации файл, который раньше был выровнен с данными эталонного генома, представляет собой файл определения вариантов (variant call file, VCF) для данных варианта, а база данных 400 представляет собой источник известных вариантов, например базу данных SNP. База данных SNP известна специалистам в данной области и поддерживается, например, Национальным центром биотехнологической информации и Национальными институтами здравоохранения.
[0030] Типичная запись данных в файл VCF включает следующую информацию, которая относится к восстановлению генома: хромосома, в которой расположен однонуклеотидный вариант (или небольшая вставка или делеция), положение в хромосоме, эталонное основание (А, С, G, Т или N), альтернативное основание (А, С, G или Т), качество определения вариантов и характер определения вариантов (гомозиготных/гетерозиготных). Запись данных в файл VCF может включать другую информацию, которая не относится к описанному в настоящем документе процессу восстановления.
[0031] Для известных вариантов в файле VCF геномные координаты для положения в хромосоме являются достаточными для определения данных эталонного и альтернативного аллеля для варианта из информации, сохраненной в базе данных SNP, и, следовательно, могут быть использованы для сжатия файла VCF. Координаты хромосомы содержат номер хромосомы и положение варианта в хромосоме.
[0032] База данных 400 может быть базой данных с возможностью поиска и может содержать, включать или сопрягаться с реляционной базой данных. Могут быть использованы другие базы данных, такие как база данных в формате запроса, база данных в формате стандартного языка запросов (Standard Query Language, SQL), или аналогичное запоминающее устройство, формат запросов, платформа или источник. База данных 400 может содержать одну базу данных или набор баз данных, специализированных или иных. В одном варианте реализации база данных 400 может хранить данные или взаимодействовать с другими базами данных для сохранения различных данных и информации, описанной в настоящем документе. В некоторых вариантах реализации базы данных 400 могут содержать систему, программу или приложение управления файлами для сохранения и поддержания данных и информации, используемой или создаваемой с помощью различных особенностей и функций систем и способов, описанных в настоящем документе.
[0033] Иллюстративный вариант реализации передающей станции 100 показан на фиг. 2. Модуль 110 обработки содержит модуль 111 сжатия, модуль 112 кодирования, модуль 113 шифрования и модуль 114 памяти. Модуль 111 сжатия сжимает файл ранее выровненных данных или файл VCF, например, с использованием аннотаций на основе известных геномных данных, сохраненных в базе данных, или других методов, которые более полно описаны в настоящем документе.
[0034] Модуль 112 кодирования кодирует сжатый файл. В примере VCF, который был сжат, модуль 112 кодирования может заменять данные варианта геномными координатами, т.е. номером хромосом и положением, закодированными с использованием системы координат (например, прямоугольной, полярной и т.п.), как более подробно описано ниже. Модуль 113 шифрования шифрует файл VCF с использованием метода шифрования, известного в данной области, такого как симметричное или асимметричное шифрование. Модуль 114 памяти может сохранять результаты сжатия, кодирования и шифрования, выполненного модулем 111 сжатия, модулем 112 кодирования и модулем 113 шифрования, а также их промежуточных этапов.
[0035] Иллюстративный вариант реализации приемной станции 200 показан на фиг. 3. Модуль 210 обработки приемной станции 200 содержит модуль 211 дешифрования, модуль 212 декодирования, модуль 213 заполнения и модуль 214 памяти. Модуль 211 дешифрования дешифрует зашифрованный файл геномных данных, полученный через блок 220 ввода/вывода. Модуль 212 декодирования декодирует закодированный файл, полученный из передающей станции 100, с использованием схемы координат, примененной в процессе кодирования. Модуль 213 заполнения заполняет декодированный сжатый файл. В примере файла VCF, который был сжат с использованием ссылок на известные данные варианта, сохраненные в dbSNP, та же база данных или база данных, содержащая ту же информацию, может быть использована для замены аннотаций в сжатом файле VCF соответствующими геномными данными. Например, данные альтернативного и эталонного аллеля могут быть просмотрены в dbSNP и «повторно добавлены» в записи файла VCF.
[0036] Теперь со ссылками на фиг. 4 и 5 будет описан пример работы системы 1 передачи для передачи файла VCF. Передающая станция 100 принимает секвенированные геномные данные (этап S100). Секвенированные данные могут быть необработанными или они могут быть предварительно выровнены с эталонным геномом. Секвенированные геномные данные обрабатываются и выравниваются с эталонным геномом (этап S101), если они не были предварительно выровнены с ним. Затем модуль 111 сжатия сжимает файл VCF (этап S102). Для сжатия файла VCF делается ссылка на базу данных известных вариантов (dbSNP), обычно индексированных по хромосоме. Для каждой записи в файле VCF, если вариант уже известен, то информация в записи может быть сжата до хромосомы и положения варианта в хромосоме. Чем больше информации сохранено в dbSNP, тем больше файл VCF может быть потенциально сжат.
[0037] Согласно иллюстративному варианту реализации удаление данных варианта, которые не соответствуют предварительно заданному порогу качества, может дополнительно сократить данные варианта в файле VCF. Восстановление генома является более надежным, когда определения варианта являются надежными (более высокого качества). В данном иллюстративном варианте реализации определения варианта, соответствующие заданному порогу качества, сохраняются, а определения варианта более низкого качества удаляются или пропускаются при создании файла для передачи. Специалистам в данной области будет понятно, что порог для качества варианта может изменяться в зависимости от используемого метода определения варианта. Например, при секвенировании данных следующего поколения методом Illumina потребуется по меньшей мере 20 ридов, охватывающих SNP.
[0038] Затем сжатый файл VCF может быть закодирован для дополнительного сжатия размера файла (этап S103). Кодирование геномных координат, а именно, номера и положения хромосомы, согласно одному иллюстративному варианту реализации, может быть выполнено с использованием системы координат. Может быть использована любая подходящая система координат, хотя согласно иллюстративным вариантам реализации, описанным в настоящем документе, использованы прямоугольная, полярная, линейная и циклическая системы координат.
Кодирование в прямоугольных координатах
[0039] Преобразование геномных координат в прямоугольные координаты может быть выполнено путем размещения рассматриваемого хромосомного набора (например, 24-хромосомный набор) на оси х таким образом, что центр хромосомы лежит на оси х, а именно, если координата у центра каждой хромосомы равна нулю.
[0040] Когда диапазон координат х равен, например, [1…24], диапазон координат у будет [-α/2…α/2], где α - количество нуклеотидных оснований, имеющихся в хромосоме. Для каждой хромосомы ось координат у=0 будет смещена в новое положение α', где:
Полярные координаты
[0041] Полярные координаты (r, θ), которые представляют отрезок (радиус) и угол для геномных локаций, могут быть получены путем преобразования из прямоугольных координат (х, у), указанных выше, следующим образом:
Линейные координаты
[0042] Линейные координаты могут быть получены путем преобразования генома из его организации в хромосомы в одну последовательность примерно из 3 миллиардов пар оснований (число пар оснований в геноме человека). Данное преобразование может быть выполнено путем последовательного соединения нуклеотидных оснований от каждой из хромосом в одну последовательность в обычном хромосомном порядке (chr1 … chr22, за которым следуют chrX и chrY, соответственно). Следовательно, диапазон линейных координат будет α ∈ [1…3 209 286 105].
Циклические координаты
[0043] Для получения циклических координат хромосомные положения отображаются в циклической (круговой) системе координат, где точки на окружности представляют нуклеотидные положения, а угловое расстояние этих точек представляет координату положения. Если количество положений превышает количество представлений, возможных в диапазоне 1 оборота (2 π), для уменьшения масштаба значений может быть использована модульная арифметика.
[0044] В одном иллюстративном варианте реализации значение модульной арифметики может быть использовано для уменьшения сложности файла VCF, кодированного с использованием циклической системы координат. Используя модуль (n) для огибания положений, линейное значение положения а может быть преобразовано в положение на окружности следующим образом:
[0045] Преобразованная координата α'=f (n, q, r), где n - значение модуля, q - показатель деления и r - остаток. Для каждого положения в файле VCF кодированный файл будет содержать следующую информацию:
(i) показатель операции по модулю;
(ii) остаток от операции по модулю, выраженный в виде угла; и
(iii) альтернативный аллель в указанном положении.
[0046] Значение «n» модуля может служить в качестве ключа для декодирования информации в файле VCF. Значение модуля может быть постоянной или может быть вычислено с помощью генератора случайных чисел. Значение модулей может быть отправлено с файлом VCF или, в качестве альтернативы, отправлено по отдельному каналу. В одном иллюстративном варианте реализации другой канал является защищенным каналом. Также может использоваться защищенный канал, например, для передачи информации для идентификации пациента.
[0047] Значение модуля может быть зашифровано с использованием метода шифрования, известного специалисту в данной области. В данном иллюстративном варианте реализации, в котором использовано значение модуля, чтобы декодировать информацию о варианте для пациента, потребуется удаленный узел для дешифрования значения модуля и последующего декодирования координат варианта, тем самым проходя два уровня дешифрования.
[0048] После этапов сжатия и кодирования сжатый и кодированный файл VCF может быть зашифрован с помощью модуля 113 шифрования (этап S104). Может быть использован любой подходящий метод шифрования, в том числе методы симметричного и асимметричного шифрования.
[0049] В одном иллюстративном варианте реализации этапу шифрования может предшествовать этап спектрального анализа ДНК, на котором основания А, С, G и Т альтернативных аллелей преобразованы в спектральную область с использованием, например, преобразования Фурье или другого частотного преобразования. После приема спектр ДНК будет преобразован обратно в основания А, С, G и Т альтернативных аллелей.
[0050] В ходе операции, описанной на фиг. 4, могут быть сохранены результаты различных этапов, в том числе этапа после дешифрования (этап S105).
[0051] Обработанный файл затем может быть передан в приемную станцию 200 по сети 300, которая может быть незащищенной или содержать незащищенные диапазоны. Далее со ссылкой на фиг. 5 будет описано восстановление исходного файла в приемной станции 200 согласно иллюстративному варианту реализации настоящего изобретения. Процесс восстановления по существу является процессом применения этапов сжатия, кодирования и шифрования, которые применяются е переданному файлу в обратном порядке.
[0052] Если файл был дешифрован, то зашифрованный файл дешифруется в модуле 211 дешифрования (этап S201). В иллюстративном варианте реализации, включающем этап частотного преобразования в спектральную область, информация о спектре ДНК будет преобразована обратно в основания А, С, G, Т альтернативных аллелей. В одном иллюстративном варианте реализации схема шифрования, используемая модулем 113 шифрования, заранее известна модулю 211 дешифрования. В другом альтернативном варианте реализации схема кодирования передается в модуль 211 дешифрования с передаваемым файлом или после передачи файла, с использованием того же или отдельного канала.
[0053] В варианте реализации, в котором в процессе шифрования было использовано значение модуля, затем это значение модуля дешифруется, а потом используется модулем 211 дешифрования для выполнения дешифрования зашифрованного файла VCF.
[0054] Затем модуль 212 декодирования декодирует расшифрованный файл (этап S202). В одном иллюстративном варианте реализации схема кодирования, используемая модулем 112 кодирования, заранее известна модулю 211 декодирования. В другом альтернативном варианте реализации схема кодирования передается в модуль 212 декодирования с передаваемым файлом или после передачи файла, с использованием того же или отдельного канала.
[0055] Затем модуль 213 заполнения заполняет файл на основании базы данных известных вариантов (этап S203). В ходе операции, описанной на фиг. 5, могут быть сохранены результаты различных этапов, включая сохранение восстановленного файла VCF после конечного этапа заполнения (этап S204). После восстановления файл VCF может быть передан, при необходимости, для дополнительной обработки (этап S205).
[0056] Передающая станция 100 и приемная станция 200 могут быть объединены в вычислительных станциях, в которых операции инициируются человеком-оператором, автоматической операцией или тем и другим. Передающая станция 100 также может быть включена в сетевое устройство (такое как сервер или маршрутизатор), обладающее возможностью идентификации файла VCF, который передан, и выполнения примеров операций, описанных в настоящем документе. Сетевое устройство может быть шлюзом, направляющим данные между сетью, в которой секвенированные геномные данные сжимаются, кодируются и шифруются согласно иллюстративным вариантам реализации, описанным в настоящем документе, через сети, по которым эти данные передаются, в сеть, содержащую приемную станцию 200. Приемная станция 200 также может быть включена в сетевое устройство (например, сетевой шлюз), обладающее возможностью идентификации сжатого, закодированного и зашифрованного файла VCF согласно иллюстративным вариантам реализации, описанным в настоящем документе, и сохранения геномных данных.
[0057] Система передачи, показанная на фиг. 1, 2 и 3, может быть компьютерной системой или может содержать ее. Система передачи может быть описана в общем контексте выполняемых на компьютере команд, таких как программные модули, выполняемые на компьютере. Как правило, программные модули включают подпрограммы, программы, объекты, компоненты, структуры данных и др., которые выполняют конкретные задачи, или реализуют конкретные абстрактные типы данных.
[0058] Специалистам в данной области будет понятно, что изобретение может быть осуществлено при различных конфигурациях компьютерной системы, включая переносные беспроводные устройства, такие как мобильные телефоны или планшеты, мультипроцессорные системы, микропроцессорные программируемые потребителем электронные устройства, миникомпьютеры, универсальные вычислительные машины и т.п. Изобретение также может быть осуществлено в средах распределенных вычислений, в которых задачи выполняются удаленными устройствами обработки, которые связаны через сеть связи. В среде распределенных вычислений программные модули могут быть расположены как в локальной, так и в удаленной компьютерной запоминающей среде, включая запоминающие устройства.
[0059] Система передачи может включать в себя множество программных обрабатывающих модулей, сохраняемых в памяти, как описано выше, и выполняемых на процессоре в описанном здесь режиме. Программные модули могут быть в виде любого подходящего языка программирования, который преобразуется в машинный язык или объектный код, чтобы обеспечить процессору или процессорам возможность выполнения команд.
[0060] Компьютерная система может включать в себя вычислительное устройство общего назначения в виде компьютера, содержащего процессор, системную память и системную шину, которая соединяет различные компоненты системы, включая системную память, с процессором.
[0061] Процессор, который выполняет команды и инструкции, может быть компьютером общего назначения, но может использовать любую из множества других технологий, включая компьютер специального назначения, микрокомпьютер, миникомпьютер, универсальную вычислительную машину, программируемый микропроцессор, микроконтроллер, периферийный элемент интегральной схемы, программируемую потребителем специальную интегральную схему (CSIC, Customer Specific Integrated Circuit), специализированную интегральную схему (ASIC, Application Specific Integrated Circuit), логическую схему, процессор цифровой обработки сигналов, программируемое логическое устройство, такое как программируемая пользователем вентильная матрица (FPGA, Field Programmable Gate Array), программируемое логическое устройство (PLD, Programmable Logic Device), программируемая логическая матрица (PLA, Programmable Logic Array), интегральный схемы RFID (радиочастотной идентификации), интеллектуальную микросхему или любое другое устройство или систему устройств, которые способны выполнять этапы процесса согласно настоящему изобретению.
[0062] Должно быть понятно, что процессоры и/или запоминающие устройства компьютерной системы не обязательно должны физически находиться в одном месте. Каждый из процессоров и каждое из запоминающих устройств, используемых компьютерной системой, могут находиться в географически удаленных местах, и могут быть соединены таким образом, чтобы поддерживать связь друг с другом любым подходящим способом. Кроме того, понятно, что каждый из процессоров и/или запоминающих устройств может быть составлен из различных физических элементов оборудования.
[0063] Среда вычислений также может включать в себя удаляемый/неудаляемый кратковременный/некратковременный компьютерный носитель для хранения.
[0064] Некоторые варианты реализации настоящего изобретения описаны выше. Однако, вполне очевидно, что настоящее изобретение не ограничено этими вариантами реализации, а намерение заключается в том, что добавления и изменения содержимого, явно описанного здесь, также входят в объем изобретения. Кроме того, должно быть понятно, что особенности различных вариантов реализации, описанных в настоящем документе, не являются взаимоисключающими, и могут существовать в различных сочетаниях и перестановках, даже если такие сочетания и перестановки не были выражены здесь, не отступая от сущности и объема настоящего изобретения. Фактически, варианты, изменения и другие воплощения содержимого, явно описанного здесь, могут осуществляться специалистами в данной области, не отступая от сущности и объема настоящего изобретения. Таким образом, изобретение не определяется лишь предшествующим иллюстративным описанием.
название | год | авторы | номер документа |
---|---|---|---|
Система обработки данных полногеномного секвенирования | 2023 |
|
RU2804535C1 |
Способ обработки данных полногеномного секвенирования | 2023 |
|
RU2806429C1 |
ГЕНОМНАЯ ИНФРАСТРУКТУРА ДЛЯ ЛОКАЛЬНОЙ И ОБЛАЧНОЙ ОБРАБОТКИ И АНАЛИЗА ДНК И РНК | 2017 |
|
RU2761066C2 |
ГЕНОМНАЯ ИНФРАСТРУКТУРА ДЛЯ ЛОКАЛЬНОЙ И ОБЛАЧНОЙ ОБРАБОТКИ И АНАЛИЗА ДНК И РНК | 2017 |
|
RU2804029C2 |
БИОИНФОРМАЦИОННЫЕ СИСТЕМЫ,УСТРОЙСТВА И СПОСОБЫ ВЫПОЛНЕНИЯ ВТОРИЧНОЙ И/ИЛИ ТРЕТИЧНОЙ ОБРАБОТКИ | 2017 |
|
RU2750706C2 |
БИОИНФОРМАЦИОННЫЕ СИСТЕМЫ, УСТРОЙСТВА И СПОСОБЫ ДЛЯ ВЫПОЛНЕНИЯ ВТОРИЧНОЙ И/ИЛИ ТРЕТИЧНОЙ ОБРАБОТКИ | 2017 |
|
RU2799750C2 |
СИСТЕМА И СПОСОБ ИНТЕРПРЕТАЦИИ АЛЛЕЛЕЙ С ПРИМЕНЕНИЕМ РЕФЕРЕНСНОГО ГЕНОМА НА ОСНОВЕ ГРАФА | 2019 |
|
RU2809124C2 |
КЛАССИФИКАЦИЯ САЙТОВ СПЛАЙСИНГА НА ОСНОВЕ ГЛУБОКОГО ОБУЧЕНИЯ | 2018 |
|
RU2780442C2 |
Способ совместного сжатия и шифрования данных при геномном выравнивании | 2020 |
|
RU2747625C1 |
ВИРТУАЛЬНЫЕ НАБОРЫ ФРАГМЕНТОВ НУКЛЕОТИДНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ | 2004 |
|
RU2390561C2 |
Изобретение относится к биотехнологии. Описана система для безопасной передачи данных, полученных путем секвенирования из генома и обработанных с получением файла определения варианта (VCF), который содержит (i) данные о номере хромосомы, (ii) данные о положении хромосомы, задающие положение нуклеотидного варианта в геноме, (iii) эталонное основание, (iv) альтернативное основание, (v) качество определения вариантов, (vi) характер определения вариантов, причем система содержит: передающую станцию, содержащую: аппаратно-программный модуль сжатия, выполненный для сжатия файла VCF до аннотированного файла VCF, содержащего неизбыточные данные варианта из файла VCF, посредством сравнения вариантов в файле VCF с базой данных известных вариантов, индексированных по хромосоме, и, если вариант в файле VCF известен из указанной базы данных, сжатия известного варианта в файле VCF до записи, содержащей (i) данные о номере хромосомы и (ii) данные о положении хромосомы нуклеотидного варианта; и аппаратно-программный модуль кодирования, выполненный для кодирования аннотированного файла VCF путем преобразования записи, содержащей данные о номере хромосомы и данные о положении хромосомы нуклеотидного варианта, в систему координат согласно схеме кодирования; аппаратно-программный модуль памяти, выполненный для сохранения кодированного аннотированного файла VCF; аппаратно-программный блок ввода/вывода передающей станции, выполненный для передачи кодированного файла VCF; и приёмную станцию, содержащую: аппаратно-программный блок ввода/вывода приёмной станции, выполненный для приёма кодированного аннотированного файла VCF; аппаратно-программный модуль декодирования, выполненный для декодирования кодированного аннотированного файла VCF с использованием указанной схемы кодирования, и аппаратно-программный модуль заполнения, выполненный для заполнения декодированного аннотированного файла VCF с использованием базы данных известных вариантов, индексированных по хромосоме. Также представлены соответствующие способы передачи данных. Изобретение обеспечивает облегчение, например ускорение, передачи больших объемов данных защищенным образом с уменьшением потребных для такой передачи ресурсов. 3 н. и 11 з.п. ф-лы, 5 ил.
1. Система для безопасной передачи данных, полученных путем секвенирования из генома и обработанных с получением файла определения варианта (VCF), который содержит
(i) данные о номере хромосомы,
(ii) данные о положении хромосомы, задающие положение нуклеотидного варианта в геноме,
(iii) эталонное основание,
(iv) альтернативное основание,
(v) качество определения вариантов,
(vi) характер определения вариантов,
причем система содержит:
- передающую станцию, содержащую:
аппаратно-программный модуль сжатия, выполненный для сжатия файла VCF до аннотированного файла VCF, содержащего неизбыточные данные варианта из файла VCF, посредством сравнения вариантов в файле VCF с базой данных известных вариантов, индексированных по хромосоме, и, если вариант в файле VCF известен из указанной базы данных, сжатия известного варианта в файле VCF до записи, содержащей (i) данные о номере хромосомы и (ii) данные о положении хромосомы нуклеотидного варианта;
и аппаратно-программный модуль кодирования, выполненный для кодирования аннотированного файла VCF путем преобразования записи, содержащей данные о номере хромосомы и данные о положении хромосомы нуклеотидного варианта, в систему координат согласно схеме кодирования;
аппаратно-программный модуль памяти, выполненный для сохранения кодированного аннотированного файла VCF;
аппаратно-программный блок ввода/вывода передающей станции,
выполненный для передачи кодированного файла VCF; и
- приёмную станцию, содержащую:
аппаратно-программный блок ввода/вывода приёмной станции, выполненный для приёма кодированного аннотированного файла VCF;
аппаратно-программный модуль декодирования, выполненный для декодирования кодированного аннотированного файла VCF с использованием указанной схемы кодирования, и
аппаратно-программный модуль заполнения, выполненный для заполнения декодированного аннотированного файла VCF с использованием базы данных известных вариантов, индексированных по хромосоме.
2. Система по п. 1, в которой база данных известных вариантов, индексированных по хромосоме, включает данные эталонного и альтернативного аллеля из базы данных коротких геномных вариаций (SNP).
3. Система по п. 1, в которой кодирование аннотированного файла VCF включает преобразование данных номера хромосомы и данных положения хромосомы нуклеотидного варианта в одни из таких координат, как прямоугольные координаты, полярные координаты, линейные координаты или циклические координаты.
4. Способ преобразования и безопасной передачи данных, секвенированных из генома пациента и обработанных с получением файла определения варианта (VCF), который содержит
(i) данные о номере хромосомы,
(ii) данные о положении хромосомы, задающие положение нуклеотидного варианта в геноме,
(iii) эталонное основание,
(iv) альтернативное основание,
(v) качество определения вариантов,
(vi) характер определения вариантов,
причем способ включает:
сжатие, посредством аппаратно-программного модуля сжатия, файла VCF до аннотированного файла VCF, содержащего неизбыточные данные варианта из файла VCF, посредством сравнения вариантов в файле VCF с базой данных известных вариантов, индексированных по хромосоме, и, если вариант в файле VCF известен из указанной базы данных, сжатия известного варианта в файле VCF до записи, содержащей (i) данные о номере хромосомы и (ii) данные о положении хромосомы нуклеотидного варианта;
кодирование, посредством аппаратно-программного модуля кодирования, аннотированного файла VCF путем преобразования записи, содержащей данные о номере хромосомы и данные о положении хромосомы нуклеотидного варианта, в систему координат согласно схеме кодирования;
сохранение, посредством аппаратно-программного модуля памяти, кодированного аннотированного файла VCF и
передачу, посредством аппаратно-программного блока ввода/вывода, кодированного аннотированного файла VCF.
5. Способ по п. 4, в котором сжатие файла VCF включает удаление определений вариантов, в которых связанные с качеством данные не соответствуют заданному пороговому значению.
6. Способ по п. 4, в котором сжатие файла VCF включает удаление известных вариантов с использованием данных из справочной базы данных коротких геномных вариаций (SNP).
7. Способ по п. 6, в котором известные варианты содержат информацию об эталонном и/или альтернативном аллеле.
8. Способ по п. 4, в котором кодирование аннотированного файла VCF включает преобразование данных номера хромосомы и данных положения хромосомы нуклеотидного варианта в одни из таких координат, как прямоугольные координаты, полярные координаты, линейные координаты или циклические координаты.
9. Способ по п. 4, в котором преобразование данных номера хромосомы и данных положения хромосом нуклеотидного варианта включает отображение положения хромосом в циклической системе координат, в которой точки на окружности представляют нуклеотидные положения, а угловое расстояние этих точек представляет координату положения и в которой значение модуля используют для огибания положений по окружности, причём это значение модуля образует часть схемы кодирования.
10. Способ по п. 9, дополнительно включающий шифрование значения модуля и инициирование передачи шифрованного значения модуля и закодированного файла VCF во второй терминал через сетевое подключение.
11. Способ по п. 8, дополнительно включающий применение преобразования частотной области к аннотированному файлу VCF перед кодированием аннотированного файла VCF.
12. Способ по п. 4, дополнительно включающий передачу кодированного файла VCF во второй терминал через сетевое подключение.
13. Способ преобразования и безопасной передачи данных, секвенированных из генома пациента и преобразованных в файл определения варианта (VCF), который содержит
(i) данные о номере хромосомы,
(ii) данные о положении хромосомы, задающие положение нуклеотидного варианта в геноме,
(iii) эталонное основание,
(iv) альтернативное основание,
(v) качество определения вариантов,
(vi) характер определения вариантов,
причем способ включает:
прием, посредством аппаратно-программного блока ввода/вывода,
кодированного аннотированного файла VCF, в котором записи, содержащие (i) данные о номере хромосомы и (ii) данные о положении хромосомы нуклеотидного варианта, кодированы с использованием системы координат согласно схеме кодирования, декодирование, посредством аппаратно-программного модуля декодирования, кодированного аннотированного файла VCF с использованием указанной схемы кодирования и заполнение, посредством аппаратно-программного модуля заполнения, декодированного аннотированного файла VCF с получением файла VCF с использованием базы данных известных вариантов, индексированных по хромосоме.
14. Способ по п. 13, дополнительно включающий декодирование кодированного файла VCF с использованием значения модуля.
WO 2014144478 A2, 18.09.2014 | |||
WO 2013049420 A1, 04.04.2013 | |||
СИСТЕМА И СПОСОБ ПЕРЕДАЧИ ДОКУМЕНТОВ И УПРАВЛЕНИЯ ДОКУМЕНТООБОРОТОМ | 2006 |
|
RU2419137C2 |
Авторы
Даты
2021-08-12—Публикация
2015-11-18—Подача