МУЛЬТИАЛЛЕЛЬНОЕ ГЕНОТИПИРОВАНИЕ ОДНОНУКЛЕОТИДНЫХ ПОЛИМОРФИЗМОВ И ИНДЕЛ-МУТАЦИЙ Российский патент 2019 года по МПК C12Q1/68 

Описание патента на изобретение RU2706203C1

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННУЮ ЗАЯВКУ

Данная заявка заявляет приоритет согласно заявке США № 62/243078, поданной 18 октября 2015 г., описание которой настоящим включено в полной объеме посредством ссылки.

ОБЛАСТЬ ТЕХНИКИ

Аспекты, описанные в данном документе, в общем относятся к системам и способам мультиаллельного генотипирования. В частности, один или несколько аспектов данного описания касаются матричных способов генотипирования мультиаллельных маркеров, включая однонуклеотидные полиморфизмы (ОНП) и индел-мутации, а также алгоритмов определения информации о генотипах множественных аллелей для каждого варианта в образцах.

ИЗВЕСТНЫЙ УРОВНЬ ТЕХНИКИ

Матрицы синтезированных зондов для нуклеиновых кислот, такие как матрицы Affymetrix® (Affymetrix, Inc., Santa Clara, CA), были использованы для получения беспрецедентного количества информации о биологических системах. Например, матрицы могут содержать зонды, достаточные для генотипирования одного миллиона однонуклеотидных полиморфизмов (ОНП) на матрицу. Анализ генотипических данных от таких микрочипов может привести к разработке новых лекарственных препаратов, новых разновидностей или штаммов организмов, включая растения, животных, бактерии, архебактерии и грибы, и новых диагностических инструментов и способов лечения на основании генетической информации (включая информацию, касающуюся конкретных целевых популяций и/или особ) и корреляции такой информации с заболеваниями, такими как рак.

Большинство ОНП и индел-мутаций (например, инсерции или делеции оснований) могут быть биаллельными, при которых в генетической вариации могут существовать два аллеля. Таким образом, обычные способы генотипирования могут касаться биаллельных способов, предназначенных для идентификации двух аллелей; однако, некоторые генетические варианты могут иметь больше двух возможных аллелей. Это означает, что существует повышенный интерес к генотипированию мультиаллельных вариантов, у которых в одном локусе существует множество альтернативных аллелей, в отличие от гаплотипов, образуемых аллелями множественных биаллельных вариантов. Например, геномные данные, такие как полученные по проекту "1000 геномов" (1000 Genomes Project), могут содержать примерно 400000 мультиаллельных ОНП и индел-мутаций. Микрочипы, такие как матрицы Affymetrix® Axiom®, могут содержать панель с десятками мультиаллельных вариантов, имеющих значительное влияние на метаболизм лекарственных средств, в зависимости от того, какие альтернативные аллели присутствуют в панели. Таким образом, существует потребность в новых подходах к идентификации мультиаллельных вариантов при генотипировании.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Далее приведено упрощенное изложение сущности различных аспектов, описанных в данном документе. Такое изложение не является подробным описанием и не подразумевает указания ключевых или критических элементов или определения объема притязаний. Приведенное ниже описание сущности изобретения излагает некоторые понятия в упрощенной форме в качестве вступления к следующему далее более подробному описанию.

Аспекты, описанные в данном документе, касаются систем, способов и алгоритмов мультиаллельного генотипирования и других способов, описанных в данном документе. Способы генотипирования типично предполагают один референсный аллель и один альтернативный аллель для маркера или геномного варианта. Алгоритм мультиаллельного генотипирования, раскрытый в данном документе, был расширен по сравнению с обычными способами генотипирования, для работы с мультиаллельными маркерами с несколькими вариантами. Другими словами, способы, раскрытые в данном документе, позволяют генотипировать мультиаллельные ОНП и индел-мутации путем выбора двух аллелей при анализе каждого варианта каждого образца, с целью уменьшения числа аллелей, анализируемых единовременно.

В соответствии с конкретными вариантами реализации, в данном документе раскрыты способы генотипирования одного или нескольких мультиаллельных маркеров с использованием компьютерной системы. Способы могут включать получение сигналов одного или нескольких мультиаллельных маркеров в одном или нескольких образцах, проведение для каждого мультиаллельного маркера кластеризации сигналов для каждой пары аллелей в множество пар аллелей из одного или нескольких образцов, с получением кластеров, каждый из которых представляет собой пару аллелей, для каждого гомозиготного кластера, представляющего собой гомозиготную пару аллелей, регистрацию сигналов альтернативного аллеля для расчета фонового сигнала для альтернативного аллеля, с получением множества фоновых сигналов, каждый из которых представляет соответствующий аллель, присваивание исходных значений проявления генотипа (genotype calls) каждому образцу для каждой пары аллелей на основании сигналов и фоновых сигналов, расчет многомерного нормального распределения для каждого кластера, с использованием исходных значений генотипов и априорных параметров кластеров, для каждого многомерного нормального распределения каждого кластера, расчет логарифмического правдоподобия принадлежности каждого образца, на основании логарифмического правдоподобия принадлежности, расчет, для каждого образца, вероятности принадлежности к каждому кластеру, и присваивание конечного значения проявления генотипа каждому образцу на основании вероятности принадлежности.

В соответствии с дополнительными вариантами реализации, раскрыты также способы использования полногеномной амплификации и локус-специфической мультиплексной полимеразной цепной реакции (мПЦР, mPCR) для получения ампликонов. Эти способы могут быть направлены на селективное смещение амплификации с целью улучшения качества данных генотипирования для желательного маркера, представляющего интерес, и для снижения эффекта нежелательных псевдогенов в полученных данных. Способы могут включать получение геномной ДНК (например, путем экстракции), проведение полногеномной амплификации геномной ДНК, и проведение локус-специфической мПЦР для получения повышенного числа ампликонов желательных вариантов гена. Полученный образец ДНК может быть фрагментирован и гибридизован с матрицей, которая может быть использована для мультиаллельного генотипирования. Благодаря целенаправленному нарушению равновесия или созданию смещения в сторону амплификации вариантов, представляющих интерес, может быть улучшен последующий (downstream) биоинформатический анализ.

В соответствии с дополнительными вариантами реализации, данное изобретение касается способов и/или систем и/или устройств, которые могут быть использованы, совместно или независимо, для нахождения численных результатов биологических анализов или испытаний или экспериментов и определения или оценки результатов. В конкретных вариантах реализации, данное описание касается устройства для обработки информации, такого как компьютер или лабораторное оборудование, укомплектованное логическими операторами или модулями для оценки данных и осуществления стадий, описанных в данном документе. В дополнительных вариантах реализации, изобретение касается логических операторов и/или данных, записанных на материальном носителе информации.

Эти и дополнительные аспекты должны приниматься во внимание для понимания преимуществ данного изобретения, описанных более подробно ниже.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Материалы патента или заявки содержат по меньшей мере один чертеж, выполненный в цвете. Экземпляры публикаций этого патента или патентной заявки с цветным чертежом (чертежами) будут предоставляться Патентным ведомством по запросу с уплатой требуемого сбора. Более полное понимание аспектов, описанных в данном документе, и их преимуществ можно получить из следующего описания с учетом прилагаемых чертежей, на которых одинаковые номера позиций указывают на схожие элементы, и где:

Фигура 1 изображает пример компьютерной системы, которая может быть использована для выполнения прикладной программы в соответствии с вариантом реализации изобретения.

Фигура 2 изображает системную блок-схему компьютерной системы в соответствии с Фигурой 1.

Фигура 3 показывает примеры графиков логарифмического превращения интенсивности аллеля по контрасту и размеру.

Фигура 4 показывает примеры графиков образцов, отнесенных к кластерам, по алгоритму биаллельного генотипирования.

Фигура 5 изображает обобщенную блок-схему способа мультиаллельного генотипирования.

Фигуры 6A, 6B и 6C показывают примеры графиков расчетов фонового сигнала для каждой пары аллелей.

Фигуры 7A, 7B, и 7C показывают примеры графиков начального разбиения подмножества генотипированных образцов.

Фигура 8 изображает пример N-мерной модели гауссовых смесей для мультиаллельного генотипирования.

Фигура 9 показывает пример графика зависимости доли проявленных генотипов (call rate) мультиаллельных полиморфизмов от среднего согласования кластеров, включающего все мультиаллельные наборы проб (probeset).

Фигура 10 показывает примеры графиков зависимостей проявленных (calls) и референсных генотипов для нескольких конвертированных наборов проб.

Фигура 11 показывает пример схемы последовательности стадий для комбинации локус-специфической амплификации отдельного гена (например, CYP2D6) и полногеномной амплификации (ПГА).

Фигура 12 показывает графики результатов генотипирования, полученные при реализации двух подходов, представленных на Фигуре 11.

Фигура 13 показывает пример схемы последовательности выполняемых действий раскрытого подхода к амплификации в соответствии с одним или несколькими аспектами данного изобретения.

Фигура 14 показывает пример таблицы наборов мультиплексных праймеров, испытанных на пригодность в соответствии с одним или несколькими аспектами данного изобретения.

Фигура 15 показывает пример результатов генотипирования, полученных при проведении исследований со смесью олигонуклеотидов с известным количественным соотношением компонентов (oligonucleotide spike-in) в соответствии с одним или несколькими аспектами данного изобретения.

Фигура 16 показывает пример таблицы с результатами анализа методом 15-плексной мПЦР в соответствии с одним или несколькими аспектами данного изобретения.

ДЕТАЛЬНОЕ ОПИСАНИЕ

ОБЩИЕ ПОЛОЖЕНИЯ

Данное изобретение имеет много предпочтительных вариантов реализации и содержит ссылки на многие патенты, заявки и другие источники, касающиеся деталей, известных специалистам в данной области техники. Поэтому, при указании патента, заявки или другого источника, или повторном обращении к ним в приведенном далее описании, следует понимать, что они включаются посредством ссылок в полном объеме во всех отношениях, а также в указанном значении.

В используемом в данной заявке значении, термины в единственном числе включают ссылки на множественное число, если из контекста четко не следует иное. Например, термин "агент" включает множество агентов, включая их смеси.

Индивидуум не ограничен человеком, но может также обозначать другие организмы, включая, без ограничений, млекопитающих, растения, бактерии или клетки, взятые у любых из вышеперечисленных организмов.

В данном описании, различные аспекты данного изобретения могут быть представлены в формате диапазона. Следует понимать, что описание в формате диапазона используется только для удобства и краткости и не должно рассматриваться как негибкое ограничение объема данного описания. Соответственно, описание диапазона следует рассматривать как конкретно раскрывающее все возможные поддиапазоны, а также индивидуальные численные значения в этом диапазоне. Например, описание диапазона, такого как от 1 до 6, следует рассматривать как конкретно раскрывающее поддиапазоны, такие как от 1 до 3, от 1 до 4, от 1 до 5, от 2 до 4, от 2 до 6, от 3 до 6 и т.д., а также индивидуальные числа в этом диапазоне, например, 1, 2, 3, 4, 5 и 6. Такой подход применяется независимо от размера диапазона. Все ссылки на логарифмическую функцию (log) по умолчанию относятся к основанию e (натуральному логарифму), если не указано иное (например, log10).

В практике данного изобретения могут использоваться, если не указано иное, обычные методики и описания органической химии, технологии полимеров, молекулярной биологии (включая рекомбинантные методы), цитологии, биохимии и иммунологии, доступные специалистам в данной области техники. Такие обычные методики включают синтез полимерных матриц, гибридизацию, лигирование и детектирование гибридизации с использованием метки. Конкретные иллюстрации пригодных методик могут быть указаны со ссылкой на пример, приведенный далее в настоящем документе. Однако, конечно, могут использоваться также другие обычные эквивалентные процедуры. Такие обычные методики и описания содержатся в стандартных лабораторных руководствах, таких как Genome Analysis: A Laboratory Manual Series (Vols. I-IV), Using Antibodies: A Laboratory Manual, Cells: A Laboratory Manual, PCR Primer: A Laboratory Manual, и Molecular Cloning: A Laboratory Manual (все выпущены издательством Cold Spring Harbor Laboratory Press), Stryer, L. (1995) Biochemistry (4th Ed.) Freeman, N.Y., Gait, "Oligonucleotide Synthesis: A Practical Approach" 1984, IRL Press, London, Nelson and Cox (2000), Lehninger, Principles of Biochemistry 3rd Ed., W.H. Freeman Pub., New York, N.Y., и Berg et al. (2002) Biochemistry, 5th Ed., W.H. Freeman Pub., New York, N.Y., которые все включены в данный документ в полном объеме посредством ссылок во всех отношениях.

Данное изобретение может использовать твердые субстраты, включая матрицы, в некоторых предпочтительных вариантах реализации. Способы и методики, применимые к синтезу полимерных (включая белковые) матриц, были описаны в документе США № 09/536841, WO 00/58516, патентах США №№ 5143854, 5242974, 5252743, 5324633, 5384261, 5405783, 5424186, 5451683, 5482867, 5491074, 5527681, 5550215, 5571639, 5578832, 5593839, 5599695, 5624711, 5631734, 5795716, 5831070, 5837832, 5856101, 5858659, 5936324, 5968740, 5974164, 5981185, 5981956, 6025601, 6033860, 6040193, 6090555, 6136269, 6269846 и 6428752, в заявках PCT №№ PCT/US99/00730 (международная публикация № WO 99/36760) и PCT/US01/04285, которые все включены в данный документ посредством ссылок в полном объеме во всех отношениях.

Патенты, описывающие методики синтеза в конкретных вариантах реализации, включают патенты США №№ 5412087, 6147205, 6262216, 6310189, 5889165 и 5959098. Матрицы нуклеиновых кислот описаны во многих из вышеперечисленных патентов, но эти же методики применимы к полипептидным матрицам.

Матрицы нуклеиновой кислоты, пригодные для использования в данном изобретении, включают продукты, коммерчески доступные от фирмы Affymetrix (Santa Clara, Calif.) под торговой маркой GeneChip®. Пример матрицы представлен на веб-сайте affymetrix.com.

Данное изобретение также предусматривает различное применение полимеров, присоединенных к твердым субстратам. Такие применения включают контроль экспрессии генов, анализ антигенного профиля (profiling), скрининг библиотек, генотипирование и диагностику. Способы контроля экспрессии генов и анализа антигенного профиля могут быть представлены в патентах США №№ 5800992, 6013449, 6020135, 6033860, 6040138, 6177248 и 6309822. Генотипирование и его применения описаны в документах США № 60/319253, 10/013598, и патентах США №№ 5856092, 6300063, 5858659, 6284460, 6361947, 6368799 и 6333179. Другие области применения описаны в патентах США №№ 5871928, 5902723, 6045996, 5541061 и 6197506.

Данное изобретение также предусматривает способы подготовки образцов в определенных предпочтительных вариантах реализации. До генотипирования или одновременно с ним, геномный образец может быть амплифицирован с использованием различных механизмов, в некоторых из которых может использоваться ПЦР. См., например, PCR Technology: Principles and Applications for DNA Amplification (Ed. H.A. Erlich, Freeman Press, NY, N.Y., 1992); PCR Protocols: A Guide to Methods and Applications (Eds. Innis, et al., Academic Press, San Diego, Calif., 1990); Mattila et al., Nucleic Acids Res. 19, 4967 (1991); Eckert et al., PCR Methods and Applications 1, 17 (1991); PCR (Eds. McPherson et al., IRL Press, Oxford); и патенты США №№ 4683202, 4683195, 4800159 4965188 и 5333675, каждый из которых включен в данный документ посредством ссылок в полном объеме во всех отношениях. Образец может быть амплифицирован на матрице. См., например, патент США № 6300070 и патентную заявку США № 09/513300, которые включены в данный документ посредством ссылок.

Другие пригодные способы амплификации включают лигазную цепную реакцию (ЛЦР) (например, Wu and Wallace, Genomics 4, 560 (1989), Landegren et al., Science 241, 1077 (1988) и Barringer et al., Gene 89:117 (1990)), транскрипционную амплификацию (Kwoh et al., Proc. Natl. Acad. Sci. USA 86, 1173 (1989) и WO88/10315), самоподдерживающуюся репликацию последовательностей (Guatelli et al., Proc. Nat. Acad. Sci. USA, 87, 1874 (1990) и WO90/06995), селективную амплификацию целевых полинуклеотидных последовательностей (патент США № 6410276), полимеразную цепную реакцию с использованием в качестве праймера консенсусной последовательности (CP-PCR) (патент США № 4437975), полимеразную цепную реакцию с произвольными праймерами (AP-PCR) (патенты США №№ 5413909, 5861245) и амплификацию на основе последовательности нуклеиновых кислот (NASBA) (см. патенты США №№ 5409818, 5554517 и 6063603, каждый из которых включен в данный документ посредством ссылки). Другие способы амплификации, которые могут быть использованы, включают: метод Qbeta Replicase, описанный в патентной заявке PCT № PCT/US87/00880, изотермические способы амплификации, такие как SDA (амплификация с перемещением цепи), описанная Walker et al., 1992, Nucleic Acids Res. 20(7):1691-6, 1992, и амплификацию по типу катящегося кольца, описанную в патенте США № 5648245. Другие способы амплификации, которые могут быть использованы, описаны в патентах США №№ 5242794, 5494810, 4988617 и в документе США № 09/854317 и публикации США № 20030143599, каждый из которых включен в данный документ посредством ссылок. В некоторых вариантах реализации ДНК амплифицируют путем мультиплексной локус-специфической ПЦР. В других вариантах реализации, ДНК амплифицируют с использованием лигирования адаптерной последовательности и однопраймерной ПЦР. Могут также использоваться другие доступные способы амплификации, такие как сбалансированная (balanced) ПЦР (Makrigiorgos, et al. (2002), Nat Biotechnol, Vol. 20, pp. 936-9).

Дополнительные способы подготовки образцов и методики снижения сложности образца нуклеиновой кислоты описаны Dong et al., Genome Research 11, 1418 (2001), в патентах США №№ 6361947, 6391592 и патентных заявках США №№ 09/916135, 09/920491, 09/910292 и 10/013598.

Способы проведения анализов полинуклеотидной гибридизации хорошо отработаны в данной области техники. Процедуры и условия гибридизационного анализа будут меняться в зависимости от области применения и выбираются в соответствии с общеизвестными способами связывания, включая упоминаемые в: Maniatis et al. Molecular Cloning: A Laboratory Manual (2nd Ed. Cold Spring Harbor, N.Y., 1989); Berger and Kimmel, Methods in Enzymology, Vol. 152, Guide to Molecular Cloning Techniques (Academic Press, Inc., San Diego, Calif., 1987); Young and Davism, P.N.A.S, 80: 1194 (1983). Способы и устройство для проведения повторяющихся и контролируемых реакций гибридизации были описаны в патентах США №№ 5871928, 5874219, 6045996 и 6386749, 6391623, каждый из которых включен в данный документ посредством ссылок.

Данное изобретение также предусматривает детектирование сигнала гибридизации между лигандами в определенных предпочтительных вариантах реализации. См. патенты США №№ 5143854, 5578832; 5631734; 5834758; 5936324; 5981956; 6025601; 6141096; 6185030; 6201639; 6218803; и 6225625, патентную заявку США № 60/364731 и заявку PCT № PCT/US99/06097 (опубликована как WO99/47964), каждый из которых также настоящим включен посредством ссылок в полном объеме во всех отношениях.

Способы и устройство для детектирования сигнала и обработки данных интенсивности раскрыты, например, в патентах США №№ 5143854, 5547839, 5578832, 5631734, 5800992, 5834758, 5856092, 5902723, 5936324, 5981956, 6025601, 6090555, 6141096, 6185030, 6201639; 6218803; и 6225625, в патентной заявке США № 60/364731 и в заявке PCT № PCT/US99/06097 (опубликована как WO99/47964), каждый из которых также настоящим включен в данный документ посредством ссылок в полном объеме во всех отношениях.

В практике данного изобретения могут также применяться обычные методы, программное обеспечение и системы, используемые в биологии. Компьютерные программные продукты по данному описанию типично включают машиночитаемый носитель с исполняемыми компьютером командами для осуществления логических стадий способа по данному описанию. Пригодный машиночитаемый носитель включает дискету, компакт-диск (CD-ROM)/цифровой видеодиск (DVD)/цифровой видеодиск только для чтения (DVD-ROM), накопитель на жестких дисках, флеш-память, постоянное запоминающее устройство (ROM)/ оперативное запоминающее устройство (RAM), запоминающее устройство на магнитных лентах и т.д. Исполняемые компьютером команды могут быть написаны на пригодном языке программирования или комбинации нескольких языков. Базовые методы вычислительной биологии описаны, например, в Setubal and Meidanis et al., Introduction to Computational Biology Methods (PWS Publishing Company, Boston, 1997); Salzberg, Searles, Kasif, (Ed.), Computational Methods in Molecular Biology, (Elsevier, Amsterdam, 1998); Rashidi and Buehler, Bioinformatics Basics: Application in Biological Science and Medicine (CRC Press, London, 2000), и Ouelette and Bzevanis, Bioinformatics: A Practical Guide for Analysis of Gene and Proteins (Wiley & Sons, Inc., 2nd ed., 2001).

Данное изобретение может также использовать различные компьютерные программные продукты и программное обеспечение, предназначенное для различных целей, например, для конструирования зондов, управления данными, анализа, и работы с инструментами. См. патенты США №№ 5593839, 5795716, 5733729, 5974164, 6066454, 6090555, 6185561, 6188783, 6223127, 6229911 и 6308170. Компьютерные способы, связанные с генотипированием с использованием анализа на микрочипах высокой плотности, также могут использоваться в способах по настоящему изобретению, см., например, публикации патентов США №№ 20050250151, 20050244883, 20050108197, 20050079536 и 20050042654.

Дополнительно, данное изобретение может иметь предпочтительные варианты реализации, включающие способы, обеспечивающие получение генетической информации по сетям, таким как интернет, как описано в патентных заявках США №№ 10/063559, 60/349546, 60/376003, 60/394574, 60/403381.

ОПРЕДЕЛЕНИЯ

Нуклеиновые кислоты в соответствии с данным изобретением могут включать любой полимер или олигомер пиримидиновых и пуриновых оснований, предпочтительно, цитозина, тимина и урацила, и аденина и гуанина, соответственно (см. Albert L. Lehninger, Principles of Biochemistry, страницы 793-800 (Worth Pub. 1982), которая настоящим включена в данный документ в полном объеме во всех отношениях). Фактически, данное изобретение предусматривает любой компонент дезоксирибонуклеотидной, рибонуклеотидной или пептидной нуклеиновой кислоты, и любые их химические варианты, такие как метилированные, гидроксиметилированные или глюкозилированные формы этих оснований и т.п. Полимеры или олигомеры могут быть гетерогенными или гомогенными по составу, и могут быть выделены из природных источников или могут быть получены искусственно или путем синтеза. Кроме того, нуклеиновые кислоты могут представлять собой ДНК или РНК, или их смесь, и могут существовать в неизменном виде или в переходных состояниях в одноцепочечной или двухцепочечной форме, включая гомодуплексное, гетеродуплексное и гибридное состояния.

Олигонуклеотид или полинуклеотид представляет собой нуклеиновую кислоту, состоящую из не менее чем 2, предпочтительно, не менее 8, 15 или 20 нуклеотидов в длину, но может достигать 50, 100, 1000 или 5000 нуклеотидов в длину, или соединение, специфически гибридизующееся с полинуклеотидом. Полинуклеотиды по данному изобретению включают последовательности дезоксирибонуклеиновой кислоты (ДНК) или рибонуклеиновой кислоты (РНК) или их миметики, которые могут быть выделены из природных источников, получены рекомбинантными методами или искусственно синтезированы. Дополнительным примером полинуклеотида по данному изобретению может быть пептидная нуклеиновая кислота (ПНК) (см. патент США № 6156501, который настоящим включен в данный документ посредством ссылки в полном объеме). Данное описание также охватывает случаи нетрадиционного спаривания оснований, такие как хугстиновское (Hoogsteen) спаривание оснований, которое наблюдается в определенных молекулах тРНК и предположительно имеет форму тройной спирали. "Полинуклеотид" и "олигонуклеотид" в данной заявке используются взаимозаменяемо.

Термин "гибридизация", в используемом в данном документе значении, относится к процессу, в котором два одноцепочечных полинуклеотида нековалентно связываются с образованием стабильного двухцепочечного полинуклеотида; теоретически возможна также трехцепочечная гибридизация. Образующийся (обычно) двухцепочечный полинуклеотид представляет собой "гибрид". Доля популяции полинуклеотидов, образующая стабильные гибриды, называется в данном документе "степенью гибридизации". Гибридизации обычно проводят в жестких условиях, например, при концентрации соли не более примерно 1 M и температуре по меньшей мере 25°C. Например, условия 5×SSPE (750 мМ NaC1, 50 мМ фосфата Na, 5 мМ EDTA, pH 7,4) и температура 25-30°C, являются пригодными для гибридизации с аллель-специфическим зондом, или условия 100 мМ MES, 1 M [Na+], 20 мМ EDTA, 0,01% твин-20 и температура 30-50°C, предпочтительно, примерно 45-50°C. Гибридизации могут проводиться в присутствии таких агентов, как ДНК спермы сельди в количестве примерно 0,1 мг/мл, ацетилированный BSA (альбумин бычьей сыворотки) в количестве примерно 0,5 мг/мл. Поскольку на строгость гибридизации могут влиять другие факторы, включая состав оснований и длину комплементарных цепей, присутствие органических растворителей и степень ошибочного спаривания оснований, комбинация параметров имеет большее значение, чем абсолютная величина какого-либо одного из них. Условия гибридизации, пригодные для микрочипов, описаны в Gene Expression Technical Manual, 2004, и GENECHIP® Mapping Assay Manual, 2004.

Термин ʺфрагментʺ относится к части большего по размеру полинуклеотида ДНК или ДНК. Полинуклеотид, например, может быть разделен или фрагментирован на множество фрагментов. Различные способы фрагментирования нуклеиновой кислоты хорошо известны специалистам. Эти способы могут быть, например, химическими или физическими по характеру. Химическое фрагментирование может включать частичную деградацию с помощью ДНКазы; частичную депуринизацию кислотой; использование рестриктаз; интрон-кодируемые эндонуклеазы; способы расщепления ДНК, такие как способы образования триплекса и гибрида, основанные на специфической гибридизации сегмента нуклеиновой кислоты для локализации агента расщепления в определенном положении молекулы нуклеиновой кислоты; или другие ферменты или соединения, которые расщепляют ДНК в известных или неизвестных положениях. Физические способы фрагментирования могут быть связаны с воздействием на ДНК высоких сдвиговых нагрузок. Высокие сдвиговые нагрузки могут быть получены, например, путем перемещения ДНК в камере или канале с углублениями или шипами, или принудительного пропускания образца ДНК через проточный канал ограниченного размера, например, отверстие с размерами поперечного сечения в микронном или субмикронном диапазоне значений. Другие физические способы включают обработку ультразвуком и распыление. Могут быть также использованы комбинации физических и химических способов фрагментирования, такие как фрагментирование под действием тепла и ион-медиируемого гидролиза. См. например, Sambrook et al., "Molecular Cloning: A Laboratory Manual," 3rd Ed. Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y. (2001) (Sambrook et al.), который включен в данный документ посредством ссылок во всех отношениях. Эти способы могут быть оптимизированы для гидролиза нуклеиновой кислоты на фрагменты выбранного диапазона размеров. Пригодными диапазонами размеров могут быть от 25, 50, 75, 100, 200, 400, 700 или 1000, до 500, 800, 1500, 2000, 4000 или 10000 пар оснований. Однако пригодными могут также быть большие диапазоны размеров, такие как от 4000, 10000 или 20000, до 10000, 20000 или 500000 пар оснований.

"Геном" означает или обозначает полный однокопийный набор генетических инструкций организма, закодированный в ДНК организма. Геном может быть мультихромосомным, так что ДНК в клетке распределена по множеству индивидуальных хромосом. Например, у человека имеется 22 пары хромосом плюс сцепленная с полом XX- или XY-пара.

Термин "хромосома" относится к несущим наследственность генным носителям живой клетки, образующимся из хроматина и содержащим ДНК и белковые компоненты (в частности, гистоны). В данном документе используется обычная международно признанная система нумерации индивидуальных хромосом человеческого генома. Размер индивидуальных хромосом может меняться для разных их типов в данном мультихромосомном геноме и в разных геномах. В случае генома человека, полная масса ДНК для данной хромосомы обычно составляет более примерно 100000000 п.о. (bp). Например, размер всего человеческого генома составляет примерно 3×109 п.о. Наибольшая хромосома - хромосома № 1 - содержит примерно 2,4 ×108 п.о. (by), тогда как наименьшая хромосома - хромосома № 22 - содержит примерно 5,3×107 п.о.

"Область хромосомы" представляет собой часть хромосомы. Фактический физический размер или протяженность любой индивидуальной области хромосомы может изменяться в широких пределах. Термин "область" не обязательно определяет один или несколько конкретных генов, поскольку область не обязательно учитывает конкретные кодирующие сегменты (экзоны) индивидуального гена.

"Матрица" включает подложку, предпочтительно твердую, с зондами нуклеиновых кислот, присоединенными к подложке. Предпочтительные матрицы типично включают множество разных зондов нуклеиновых кислот, присоединенных к поверхности субстрата в разных известных положениях. Эти матрицы, также называемые "микрочипами" или просто "чипами", в общем описаны в известном уровне техники, например, в патентах США №№ 5143854, 5445934, 5744305, 5677195, 5800992, 6040193, 5424186, и Fodor et al., Science, 251:767-777 (1991), каждый из которых включен в данный документ посредством ссылок в полном объеме во всех отношениях.

Матрицы в общем могут быть получены с использованием различных методик, таких как механические способы синтеза или способы управляемого светом синтеза, включающие комбинацию фотолитографических методов и способов твердофазового синтеза. Методики синтеза этих матриц с использованием механических способов синтеза описаны, например, в патентах США №№ 5384261 и 6040193, которые включены в данный документ посредством ссылок в полном объеме во всех отношениях. Хотя матрицы с плоской поверхностью являются предпочтительными, матрицы могут быть изготовлены на поверхности практически любой формы или даже на множестве поверхностей. Матрицы могут представлять собой нуклеиновые кислоты на бусинах, гелях, полимерных поверхностях, волокнах, таких как оптические волокна, стекле или любом другом пригодном субстрате (см. патенты США №№ 5770358, 5789162, 5708153, 6040193 и 5800992, которые настоящим включены в данный документ посредством ссылок в полном объеме во всех отношениях).

Предпочтительные матрицы являются коммерчески доступными от фирмы Affymetrix под торговыми марками GeneChip® и Axiom®, и предназначены для различных целей, включая генотипирование и контроль экспрессии генов для различных эукариотических и прокариотических видов (см. Affymetrix Inc., Santa Clara, и их веб-сайт affymetrix.com). Другие коммерчески доступные матрицы включают матрицы Infinium® (Illumina, Inc., San Diego, California) и матрицы SurePrint® (Agilent Technologies, Inc., Santa Clara, California).

Аллель относится к одной конкретной форме генетической последовательности (такой как ген) в клетке, у индивидуума или в популяции, причем данная конкретная форма отличается от других форм этого же самого гена в последовательности по меньшей мере одного, и часто нескольких, вариантов сайтов в последовательности гена. Последовательности этих вариантов сайтов, различающиеся для разных аллелей, называются "вариансами", "полиморфизмами" или "мутациями". В каждом специфическом аутосомном положении хромосомы или "локусе" индивидуум имеет два аллеля - один унаследованный от одного родителя, и один - от другого родителя, например, один от матери и один от отца. Индивидуум является "гетерозиготным" в локусе, если он имеет в данном локусе два разных аллеля. Индивидуум является "гомозиготным" в локусе, если он имеет в этом локусе два идентичных аллеля.

Полиморфизм относится к наличию двух или больше генетически определенных альтернативных последовательностей или аллелей в популяции. Полиморфный маркер или сайт представляет собой локус, в котором наблюдается расхождение. Предпочтительные маркеры имеют по меньшей мере два аллеля, каждый из которых встречается с частотой предпочтительно более 1%, и более предпочтительно, более 10% или 20% от выбранной популяции. Полиморфизм может содержать одну или несколько замен оснований, инсерцию, повтор или делецию. Размер полиморфного локуса может составлять всего одну пару оснований. Полиморфные маркеры включают полиморфизмы длины фрагментов рестрикции, варьирующее число тандемных повторов (VNTR), гипервариабельные участки, минисателлиты, динуклеотидные повторы, тринуклеотидные повторы, тетрануклеотидные повторы, простые повторы последовательности, и инсерционные элементы, такие как Alu. Первую идентифицированную аллельную форму произвольно называют референсной формой, и другие аллельные формы называют альтернативными или вариантными аллелями. Аллельную форма, чаще всего встречающуюся в выбранной популяции, иногда называют формой дикого типа. Диплоидные организмы могут быть гомозиготными или гетерозиготными по аллельным формам. Диаллельный или биаллельный полиморфизм имеет две формы. Триаллельный полиморфизм имеет три формы. Мультиаллельный полиморфизм имеет две или больше форм. Полиморфизм двух нуклеиновых кислот может возникать в природных условиях, или может быть вызван воздействием или контактом с химическими, ферментативными или другими агентами, или воздействием агентов, вызывающих повреждения нуклеиновых кислот, например, ультрафиолетового излучения, мутагенов или канцерогенов. Однонуклеотидные полиморфизмы (ОНП) представляют собой положения, в которых по меньшей мере два альтернативных основания присутствуют с существенной частотой (>1%) в человеческой популяции, и являются наиболее распространенным типом генетической изменчивости у людей. Мультиаллельные маркеры могут включать ОНП или индел-мутации с тремя или больше возможными аллелями.

Термины ʺзонд однонуклеотидного полиморфизмаʺ или ʺОНП-зондʺ, используемые в данном документе взаимозаменяемо, и общепринятые в данной области техники, относится к набору с одним или несколькими олигонуклеотидами, предназначенному для анализов определенного однонуклеотидного полиморфизма. Такие зонды обычно идентифицируют в соответствии с их положением на матрице, но их также можно идентифицировать, например, путем использования последовательности маркера в виде штрих-кода (in a barcode fashion), детектируемых меток, различимых твердых носителей, к которым крепятся зонды, или различных других средств, известных специалистам в данной области техники. В определенных анализах, известных специалистам в данной области техники, таких как чипы Axiom® Assay (Affymetrix, Inc., Santa Clara, CA) или Infinium® II Assay (Illumina, Inc., San Diego, CA), после гибридизации с образцом к ОНП-зонду прибавляется зондирующее (interrogation) основание, комплементарное к следующему основанию в последовательности образца (которая образует затем по меньшей мере частично двухцепочечный комплекс с образцом), и непосредственно или опосредовано детектируемый сигнал добавленного зондирующего основания используют для определения идентичности добавленного зондирующего основания, по которой определяют идентичность релевантного аллеля. Добавляемое зондирующее основание может быть введено различными методами, известными специалистам в данной области техники, такими как с использованием лигирования или однонуклеотидной достройки. Как известно специалистам в данной области техники, некоторые матричные анализы используют ОНП-зонды, рассчитанные на использование в прямом или обратном направлении по отношению к полиморфизму и, таким образом, при конструировании зонда, зонд может быть комплементарным к участкам последовательности, расположенным слева или справа от полиморфизма. Неограничительные примеры методов зондирования, основанных на лигировании, раскрыты в US 2008/0131894.

Термин ʺгенотипированиеʺ относится к определению генетической информации, которую имеет индивидуум в одном или нескольких положениях в геноме. Например, генотипирование может включать определение того, какую аллель или аллели имеет индивидуум для отдельного ОНП, или определение того, какую аллель или аллели имеет индивидуум для множества ОНП. Например, определенный нуклеотид в геноме может представлять собой A у некоторых индивидуумов и C у других индивидуумов. Индивидуумы, имеющие в данном положении A, имеют A-аллель, а имеющие C - C-аллель. В диплоидном организме, индивидуум будет иметь две копии последовательности, содержащей полиморфное положение, поэтому индивидуум может иметь A-аллель и C-аллель или, альтернативно, две копии A-аллеля или две копии C-аллеля. Индивидуумы, имеющие две копии C-аллеля, являются гомозиготными по C-аллелю, индивидуумы, имеющие две копии A-аллеля - гомозиготными по C-аллели, и индивидуумы, имеющие по одной копии каждого аллеля, являются гетерозиготными. Матрица может быть сконструирована таким образом, чтобы определять различия между этими тремя возможными результатами. Полиморфное положение может иметь два или больше возможных аллелей, и матрица может быть рассчитана на определение различий между всеми возможными комбинациями.

Генотип может относиться к информации, представленной отдельным полиморфизмом, например, однонуклеотидным полиморфизмом, или индел-мутацией отдельного основания, или к информации, представленной множеством положений оснований, такой как комплексная или многоосновная индел-мутация. Например, если ОНП является биаллельным и может представлять собой A или C, то, если индивидуум является гомозиготным по A в данном положении, то генотип ОНП является гомозиготным A или AA. ОНП могут также быть мультиаллельными (в отличие от биаллельных) и иметь три или более возможных аллельных вариантов. Генотип может также относиться к информации, представленной множеством полиморфных положений.

Термин "праймер", в используемом в данном документе значении, относится к одноцепочечному олигонуклеотиду, способному выступать в роли точки инициации управляемого матрицей синтеза ДНК в пригодных условиях, например, буфера и температуры, в присутствии четырех разных нуклеозидтрифосфатов и агента полимеризации, такого как, например, ДНК- или РНК-полимераза или обратная транскриптаза. Длина праймера, в любом конкретном случае, зависит от, например, предполагаемого применения праймера, и в общем составляет от 15 до 30 нуклеотидов. Короткие молекулы праймеров в общем требуют более низких температур для образования достаточно стабильных гибридных комплексов с матрицей. Праймер не обязательно должен точно соответствовать последовательности матрицы, но должен быть в достаточной степени комплементарным, чтобы гибридизоваться с такой матрицей. Участок связывания с праймером представляет собой область матрицы, с которой гибридизуется праймер. Пара праймеров представляет собой набор праймеров, включающий 5'-прямой праймер, который гибридизуется с 5'-концом амплифицируемой последовательности, и 3'-обратный праймер, который гибридизуется с комплементом 3'-конца амплифицируемой последовательности.

Термин "априорное распределение" (prior), при использовании в данном документе в качестве существительного (as a noun), относится к оценке параметра плюс неопределенность распределения этого параметра, используемого в расчетах до наблюдения каких-либо (текущих) данных. Это обозначение является стандартным в байесовской статистике. Такие значения могут быть использованы как оценки положения центра кластера генотипа и дисперсии в качестве значений априорных распределений (prior values) (таких как величины, полученные из других наборов данных, или введенные пользователем).

Термин "зонд", в используемом в данном документе значении, относится к иммобилизованной на поверхности молекуле, которая может быть распознана конкретной мишенью. См. патент США № 6582908, где приведен пример матриц, имеющих все возможные комбинации зондов с 10, 12 и больше основаниями. Примеры зондов, которые могут использоваться для анализов в соответствии с этим описанием, включают, без ограничений, агонисты и антагонисты рецепторов клеточных мембран, токсины и яды, вирусные эпитопы, гормоны (например, опиоидные пептиды, стероиды и т.д.), рецепторы гормонов, пептиды, ферменты, субстраты ферментов, кофакторы, лекарственные средства, лектины, сахара, олигонуклеотиды, нуклеиновые кислоты, олигосахариды, белки и моноклональные антитела. В некоторых вариантах реализации данного изобретения, зонд может включать связанный со стеклом олигонуклеотид, обычно, длиной в 30 оснований. Длина зонда может регулироваться для компенсации последовательностей мишеней с высоким или низким GC, где GC обозначает содержание гуанина-цитозина в последовательностях-мишенях. Вариабельный участок зонда может быть расположен в или рядом с сайтом лигирования на 3'-конце зонда, или ближе к центру зонда, или на расстоянии от сайта лигирования.

Конструирование и использование аллель-специфических зондов для анализа полиморфизмов описано, например, Saiki et al., Nature 324, 163-166 (1986); Dattagupta, EP 235726, Saiki, и WO 89/11548. Могут быть разработаны аллель-специфические зонды, которые гибридизуются с сегментом ДНК-мишени одного индивидуума, но не гибридизуются с соответствующим сегментом другого индивидуума из-за присутствия разных полиморфных форм в соответствующих сегментах двух индивидуумов. Условия гибридизации должны быть достаточно строгими для существования (that there is) значительной разницы в интенсивности гибридизации между аллелями, и должны предпочтительно обеспечивать по существу бинарный ответ, при котором зонд гибридизуется только с одним из аллелей.

ИЛЛЮСТРАТИВНЫЕ ВАРИАНТЫ РЕАЛИЗАЦИИ

Приведенное ниже описание различных вариантов реализации содержит ссылки на прилагаемые чертежи, описанные выше, которые являются его частью, и которые изображают, в качестве иллюстраций, различные возможные варианты практической реализации аспектов, описанных в данном документе. Следует понимать, что могут быть использованы другие варианты реализации, и могут быть выполнены структурные и функциональные модификации, не выходящие за пределы объема, описанного в данном документе. Различные аспекты могут предусматривать другие варианты реализации и могут быть осуществлены или выполнены различными другими способами.

Геномный анализ на основе матриц в общем направлен на очень большое число ОНП и других полиморфизмов, и в каждом случае использует по меньшей мере один набор проб, причем набор проб включает множество олигонуклеотидных последовательностей, которые применяются для определения присутствия конкретного ОНП. Например, пробы могут быть объединены в биаллельные пары или наборы и мультиаллельные наборы проб, каждая из которых зондирует маркер-мишень. В некоторых системах, многие полиморфизмы могут иметь два или больше разных наборов проб, причем каждый из разных наборов проб обеспечивает возможный результат генотипирования полиморфизмов. В одном способе, образец от индивидуума подвергают воздействию матрицы для генотипирования или другой системы набора проб для определения присутствия разных полиморфных аллелей в образце. Поскольку многие организмы имеют множество копий каждой хромосомы, для одного и того же образца могут быть детектированы разные аллели. Таким образом, образец в общем характеризуется множественными аллелями (например, 2 или больше) для каждого полиморфизма. Определение множественных аллелей для полиморфизма обычно называется в данной области техники генотипированием или ОНП-генотипированием.

В одном примере современных матриц для генотипирования, матрицы для генотипирования Axiom® фирмы Affymetrix, Inc. способны генотипировать, с возможностью регулируемого выбора, от 1500 до 2,6 миллионов ОНП на матрицу. Вся матрица может быть покрыта (населена) олигонуклеотидными зондами, которые могут анализировать тысячи ОНП и геномных проб. Зонды связываются с меченой ДНК из анализируемого образца. Обычно, программное обеспечение для проведения анализа используют для количественного определения яркости каждого флуоресцирующего комплекса ДНК-зонда на изображении с нанесенной координатной сеткой. Точки (spots) с высокой интенсивностью указывают на высокую аффинность между зондом и анализируемыми последовательностями ДНК и используются для декодирования генотипов ОНП индивидуума. Affymetrix выпускает другие матрицы, включая человеческие, собачьи, мышиные и другие матрицы.

Проявления генотипов ОНП или полиморфизмов относятся к процессу определения аллелей, присутствующих в положении полиморфизма. Для биаллельных полиморфизмов, в общем, в определенном положении могут присутствовать две разные пары оснований, которые могут быть названы аллель A и аллель B. Генотипом ОНП в общем является один из (A, A), (B, B) или (A, B). Первые два генотипа в общем называются гомогенными, а последний - гетерогенным. Для мультиаллельных полиморфизмов может существовать N разных пар оснований, где N может быть любым числом больше двух. Например, если N=3, то в положении может присутствовать три разные пары оснований, включая аллель A, аллель B и аллель C. Генотипом мультиаллельного ОНП может быть один из (A, A), (B, B), (A, B), (A, C), (B, C) или (C, C).

Существует потребность в усовершенствованных алгоритмах и способах генотипирования для обработки дополнительных вариантов в мультиаллельных маркерах. В качестве общего вступления к предмету изобретения, описанному более подробно ниже, аспекты, описанные в данном документе, касаются систем и способов, включающих одну или несколько программ, реализованных программными средствами, логические модули, и системы сбора данных, предназначенные для генотипирования мультиаллельных маркеров. Способы мультиаллельного генотипирования касаются присваивания проявлений генотипов маркерам, имеющим два или больше возможных вариантов, с использованием байесовского N-аллельного генотипирования. Алгоритм байесовского N-аллельного генотипирования (BANG) был разработан для генотипирования мультиаллельных маркеров в диплоидных геномах, и алгоритм предназначен для проведения анализов произвольного числа аллелей (N). Алгоритм BANG был опробован на примерно 150000 наборах проб для примерно 100000 мультиаллельных маркеров, полученных по проекту 1000 Genomes (фаза 3) при анализе 360 образцов (HapMap 270 plus LWK). При использовании разумных критериев конверсии для проявлений генотипов и согласия с (результатами проекта) 1000 Genomes, примерно 40% наборов проб продемонстрировали хорошие результаты при первоочередном (first-pass) анализе без подбора параметров алгоритма или ОНП-специфических значений априорных распределений.

Алгоритм BANG может использовать конструкцию зонда и пары каналов лигирования, являющиеся специфическими по отношению к одному-единственному ожидаемому аллелю. Например, матрицы для генотипирования Affymetrix's Axiom® используют двухцветный анализ на основе лигирования с олигонуклеотидными зондами на подложке микрочипа. Каждая ячейка матрицы рассматривается как элемент (feature) и содержит большое количество экземпляров одного зонда. В некоторых вариантах реализации, элемент может иметь размер 5×5 или 6×6 микрон. Каждый элемент матрицы может содержать большое количество экземпляров уникальной олигонуклеотидной последовательности, комплементарной геномной последовательности, фланкирующей сайт ОНП. Зонды в растворе, несущие сайты присоединения одного из двух красителей, в зависимости от основания ОНП-сайта (например, A или T/G или C), гибридизуются с комплексом зонд-на-стекле/мишень, и затем подвергаются лигированию для определения специфичности. Двухцветная система Axiom® позволяет отличать лигирование с A или T от лигирования с G или C, на основании образующегося флуоресцирующего фрагмента.

Уникальная комбинация зонда и канала лигирования может быть использована для определения аллеля, присутствующего в последовательности-мишени. Конкретный аллель, присутствующий в последовательности-мишени образца, может быть определен с использованием каналов лигирования, позволяющих отличать лигирование с нуклеотидами A или T от лигирования с нуклеотидами G или C по полученному флуоресцирующему фрагменту. Другими словами, в некоторых вариантах реализации, аллель, присутствующий в последовательности-мишени образца, может быть определен путем лигирования различным образом меченых олигонуклеотидов с множеством зондов на матрице для определения отличий между лигированием меченых олигонуклеотидов с нуклеотидами A, T, C или G на 3'-конце меченых олигонуклеотидов. В других вариантах реализации, аллель, присутствующий в последовательности-мишени образца, может быть определен с использованием однонуклеотидной достройки множества зондов на матрице различным образом мечеными нуклеотидами для определения отличий между достройкой нуклеотидами A, T, C или G.

Наборы проб, содержащие совокупность зондов и ожидаемых каналов лигирования, могут быть предназначены для оценки различных возможных аллелей специфических маркеров. Кроме того, алгоритм BANG может быть использован при регистрации данных интенсивности для ряда образцов, дающих значения сигнала для аллеля для образца.

Фиг. 1 изображает пример компьютерной системы, которая может быть использована для выполнения прикладной программы в соответствии с вариантом реализации изобретения. Фиг. 1 показывает компьютерную систему 1, которая включает дисплей 3, экран 5, системный блок 7, клавиатуру 9 и указательное устройство типа "мышь" 11. Указательное устройство типа "мышь" 11 может иметь одну или несколько кнопок для взаимодействия с графическим интерфейсом пользователя. В системном блоке 7 установлен дисковод CD-ROM 13, системное запоминающее устройство и накопитель на жестких дисках (см. Фиг. 2), которые могут быть использованы для хранения и извлечения программы, реализованной программными средствами, включающей программу в машинном коде для осуществления изобретения, данные для использования по изобретению и т.п. Хотя CD-ROM 15 изображен в качестве типичного примера машиночитаемого носителя информации, могут быть использованы другие машиночитаемые носители информации, включая дискету, магнитную ленту, флеш-память, системное запоминающее устройство, и накопитель на жестких дисках. Дополнительно, машиночитаемый носитель информации может представлять собой сигнал передачи данных, сформированный в виде электромагнитного сигнала передачи модулированной информации (например, в сети, включая интернет).

Фиг. 2 изображает блок-схему компьютерной системы 1, используемой для выполнения прикладной программы в соответствии с вариантом реализации изобретения. Как и на Фиг. 1, компьютерная система 1 включает монитор 3 и клавиатуру 9, и указательное устройство типа "мышь" 11. Компьютерная система 1 является всего лишь одним из примеров пригодной вычислительной системы и не должна рассматриваться как ограничивающая каким-либо образом объем использования или функциональность, предусматриваемые данным описанием. Компьютерная система 1 не должна рассматриваться как имеющая какую-либо зависимость от, или требования к использованию, какого-либо одного из, или комбинации, компонентов, изображенных на Фиг. 1 и 2.

Компьютерная система 1 дополнительно включает подсистемы, такие как центральный процессор 51, системное запоминающее устройство 53, постоянное запоминающее устройство 55 (например, накопитель на жестких дисках), сменное запоминающее устройство 57 (например, дисковод CD-ROM, дискета, запоминающее устройство на картах флеш-памяти с USB-интерфейсом), адаптер дисплея 59, звуковую плату 61, громкоговорители 63 и сетевой интерфейс 65. Другие компьютерные системы, пригодные для использования по изобретению, могут включать дополнительные, или меньшее количество, подсистем. Например, другая компьютерная система может включать несколько процессоров 51 (т.е. быть многопроцессорной системой) или кэш-память.

Архитектура системной шины компьютерной системы 1 представлена стрелками 67. Однако такие стрелки являются иллюстративными для любой схемы межсоединений, используемой для компоновки подсистем. Например, локальная шина может быть использована для соединения центрального процессора с системным запоминающим устройством и адаптером дисплея. Компьютерная система 1, изображенная на Фиг. 2, является всего лишь примером компьютерной системы, пригодной для использования по изобретению. Могут быть использованы также другие компьютерные архитектуры с разными конфигурациями подсистем.

В некоторых аспектах, компьютерная система 1 может включать различные машиночитаемые носители. Машиночитаемые носители могут быть любыми доступными носителями, которые могут быть доступными для компьютерной системы 1, могут быть постоянными (non-transitory), могут включать энергозависимые и энергонезависимые, сменные и несменные носители, реализованные с использованием любого способа или технологии хранения информации, такой как машиночитаемые команды, объектный код, структуры данных, программные модули или другие данные. Примеры машиночитаемых носителей могут включать запоминающее устройство с произвольной выборкой (RAM), постоянное запоминающее устройство (ROM), электронно-стираемое программируемое постоянное запоминающее устройство (EEPROM), флеш-память или другую технологию запоминающего устройства, запоминающее устройство на оптическом компакт-диске без возможности перезаписи (CD-ROM), компакт-диски формата DVD (DVD) или другие устройства хранения информации на оптических дисках, магнитные кассеты, магнитную ленту, устройства хранения информации на магнитных дисках или другие магнитные устройства хранения информации, или любые другие носители, которые могут быть использованы для хранения желательной информации, и которые могут быть доступными для компьютерной системы 1.

Хотя это не является обязательным, различные аспекты, описанные в данном документе, могут быть реализованы в виде способа, системы обработки данных, или машиночитаемого носителя, на котором записаны исполняемые компьютером команды. Например, предусматривается машиночитаемый носитель с записанными командами для осуществления процессором стадий способа в соответствии с аспектами раскрытых вариантов реализации. Например, аспекты стадий способа и алгоритмов, раскрытых в данном документе, могут быть исполнены процессором компьютерной системы 1. Такой процессор может осуществлять выполнение исполняемых компьютером команд, хранящихся на машиночитаемом носителе.

Программное обеспечение может храниться в памяти 53 и/или запоминающем устройстве (например, постоянном запоминающем устройстве 55 или сменном запоминающем устройстве 57) для обеспечения команд для процессора 57, позволяющих компьютерной системе 1 выполнять различные функции. Например, память 53 может хранить программное обеспечение, используемое компьютерной системой 1, включая, без ограничений, операционную систему, прикладные программы и ассоциированные базы данных. Также некоторые или все исполняемые компьютером команды для компьютерной системы 1 могут быть выполнены в виде аппаратных средств или программно-аппаратных средств. Хотя это не изображено, память 53 может содержать одно или несколько приложений, представляющих данные прикладных программ, хранящиеся в памяти при работающей компьютерной системе 1 и исполняемых в компьютерной системе 1 соответствующих прикладных программах (например, задачах программного обеспечения).

Сетевой интерфейс 65 может позволять компьютерной системе 1 поддерживать связь с другими устройствами по любым сетевым соединениям, включая локальную сеть (LAN), глобальную сеть (WAN), или другие сети. Например, компьютерная система 1 может устанавливать соединения по интернету или другим типам компьютерных сетей. В некоторых вариантах реализации, компьютерная система 1 может поддерживать связь с другими устройствами, такими как оптические сканеры, которые могут быть использованы для сканирования матриц. Например, сканеры могут визуализировать мишени путем детектирования флуоресцентного или другого излучения меток, ассоциированных с молекулами-мишенями, или путем детектирования проходящего, отраженного или рассеянного излучения. Сканер может обеспечивать сигнал, представляющий интенсивности (и, возможно, другие характеристики, такие как цвет, которые могут быть ассоциированы с детектируемой длиной волн) детектируемого излучения, или длины волн отраженного света, а также положения на подложке матрицы элементов, детектирующих длины волн излучения или отраженного света. Типично, сигнал включает информацию об интенсивности, соответствующую участкам сканируемой подложки. В некоторых вариантах реализации, компьютерная система 1 может получать или регистрировать сигналы от сканера (например, данные сигналов для всех образцов и всех возможных аллелей) по сетевому интерфейсу 65 и обрабатывать данные в соответствии с хранящимися в памяти командами.

Данное описание является функциональным для многих других сред или конфигураций вычислительных систем, как общего назначения, так и специализированных. Примеры хорошо известных вычислительных систем, сред и/или конфигураций, которые могут быть пригодны для использования с раскрытыми вариантами реализации, включают, без ограничений, персональные компьютеры (ПК), серверные компьютеры, карманные или переносные устройства, смартфоны, мультипроцессорные системы, системы на основе микропроцессоров, оптические сканеры, измерительные устройства/инструменты, телевизионные приставки, декодирующие цифровой сигнал в аналоговый, программируемую бытовую электронику, сетевые ПК, миникомпьютеры, универсальные ЭВМ, распределенные вычислительные среды, которые включают любые из вышеперечисленных систем или устройств, и т.п. Компьютерные системы, пригодные для использования по изобретению, могут также быть встроены в измерительные инструменты.

В некоторых примерах, алгоритм байесовского N-аллельного генотипирования (BANG) и другие алгоритмы генотипирования могут храниться в и/или быть реализоваными в компьютерной системе 1. Алгоритм мультиаллельного генотипирования может быть применен к получаемым данным интенсивности для образцов мультиаллельных маркеров.

ПОДРОБНОЕ ОПИСАНИЕ АЛГОРИТМА

Алгоритм BANG может выполняться со следующими стадиями. Сначала, алгоритм может оценивать фоновые сигналы для каждого аллеля во множестве образцов. Алгоритм может затем определять пары аллелей и образцы требуемого генотипа с использованием алгоритма биаллельного генотипирования, такого как алгоритмы Axiom® GT1 или BRLMM-P фирмы Affymetrix, Inc., или прикладной программы GenCall с алгоритмом GenTrain фирмы Illumina, Inc., для определения начальных генотипических проявлений (initial calls) для большинства или всех образцов. Затем сопряженные значения априорных распределений могут быть объединены с сигналами соответствующих образцов для получения апостерионого, многомерного нормального распределения сигналов, соответствующих каждому кластеру диплоидного генотипа, и окончательное присваивание генотипов может быть проведено для образцов на основании правдоподобия принадлежности для каждого распределения.

В некоторых вариантах реализации, мультиаллельное генотипирование может увеличивать эффективность методик биаллельного генотипирования при идентификации пары аллелей. Например, при биаллельном генотипировании, данные интенсивности для аллелей могут быть трансформированы в пространстве логарифмического сигнала в значения контрастности и размера (например, уровня сигнала). Фигура 3 изображает примеры графиков логарифмического преобразования интенсивности аллеля в контрастность и размер. Данные, используемые в данном документе, являются модельными и используются просто в качестве иллюстрации. Следующие уравнения могут быть использованы для расчета значений контрастности и размера на основании интенсивностей аллеля A и аллеля B.

Трансформированные данные интенсивности могут быть затем подвергнуты кластеризации для разделения данных для присваивания начальных проявлений генотипов. Для каждой пары аллелей, сигналы таких аллелей от всех образцов кластеризуют с использованием алгоритма Axiom® GT1, с возможным использованием ОНП-специфических значений априорных распределений и параметров алгоритма. Другими словами, каждая пара аллелей может быть представлена кластером.

Фигура 4 изображает примеры графиков образцов, отнесенных к кластерам по алгоритму биаллельного генотипирования. Графики на Фигуре 4 изображают кластеры для пар аллелей BB, AB и AA, а также, на нижнем графике, плотность в двумерном пространстве. На основании графиков трансформированных интенсивностей, образцы могут быть отнесены к разным кластерам, и логарифмическое правдоподобие данных рассчитывают с учетом распределений и отнесения к кластерам. Например, алгоритм может оценивать все возможные положения вертикальных границ между данными на оси X и рассчитывать для каждого отрезка апостериорное правдоподобие с учетом комбинации данных и байесовских значений априорных распределений положений кластеров. Центры кластеров и дисперсии могут быть выведены из взвешенной комбинации данных и значений априорных распределений с использованием наиболее вероятного разделения данных. Дополнительно, могут быть рассчитаны апостериорные вероятности каждого образца в каждом из кластеров. Образцы, не попавшие ни в один из кластеров, могут быть идентифицированы и сведены в кластер ʺокеанʺ (ocean), и вероятности могут быть перенормированы. Проявления могут быть отнесены к кластерам с наибольшей апостериорной вероятностью, и если наибольшая вероятность слишком мала, то может быть присвоено неопределенное проявление (no call) генотипа.

Мультиаллельное генотипирование может аналогично использовать алгоритм Axiom® GT1 для создания исходных кластеров и присваивания конечных проявлений генотипов и доверительных уровней. Однако алгоритм мультиаллельного генотипирования может также распространять расчеты правдоподобия на N-мерное пространство и рассчитывать апостериорную вероятность каждого образца, принадлежащего к каждому кластеру, наряду с кластером ʺокеанʺ, добавленным для образцов, не соответствующих достаточно хорошо ни одному из кластеров.

Фигура 5 изображает обобщенную блок-схему способа мультиаллельного генотипирования. Блок-схема на Фигуре 5 указывает в общем стадии, входящие в алгоритм BANG.

РЕГИСТРАЦИЯ СИГНАЛОВ И ОЦЕНКА ФОНА

Данные cигналов могут быть сначала собраны для всех образцов и всех возможных аллелей, причем каждый образец может иметь больше двух значений сигнала, по одному на аллель. В некоторых вариантах реализации, регистрация сигналов для мультиаллельных маркеров в образцах может быть основана на гибридизации образцов с множеством зондов на матрице для измерений мультиаллельных маркеров. Образцы могут быть генотипированы с использованием алгоритма Axiom® GT1 во всех возможных биаллельных комбинациях.

Алгоритм может собирать метрики для каждого аллеля (варианта) в мультиаллельном маркере, пропуская маркеры с менее чем 3 вариантами. Аллели в каждом наборе могут быть отсортированы, и проявления генотипов и метрики могут быть собраны для каждой биаллельной пары. Каждый из анализируемых вариантов может входить в пары, составляющие биаллельные наборы, и каждый биаллельный набор может быть генотипирован. Например, если потенциально присутствуют три аллеля A, B и C, то все образцы могут быть генотипированы три раза, с учетом аллельных комбинаций A/B, A/C и B/C.

Для каждой пары аллелей, сигналы таких аллелей от всех образцов могут быть кластеризованы с использованием алгоритма Axiom® GT1, и могут быть также использованы ОНП-специфические значения априорных распределений и параметры алгоритма.

Для каждого образца, отнесенного к гомозиготному кластеру, сигнал другого аллеля может быть включен в расчет среднего фонового сигнала для этого другого аллеля. Например, при кластеризации аллель A - аллель B, B - сигналы образцов в AA-кластере могут быть добавлены к совокупности фоновых сигналов B. Аналогично, A-сигналы образцов в BB-кластере могут быть добавлены к совокупности фоновых сигналов A. Этот процесс может повторяться для каждой пары аллелей, и среднее и стандартное отклонение фонового сигнала могут быть рассчитаны для каждого аллеля. В некоторых вариантах реализации, каждый фоновый сигнал аллеля может быть усреднен по всем аллельным парам, тогда как в других вариантах реализации для каждого аллеля могут быть получены независимые оценки фонового сигнала.

Если будет определено, что все образцы имеют генотипы AA, AB или AC, то оценку фонового сигнала аллеля A определить нельзя. В таких случаях, когда аллель не может иметь каких-либо фоновых сигналов, вместо них могут быть использованы взвешенное среднее средних фоновых сигналов других аллелей, и взвешенное среднее их стандартных отклонений. В некоторых вариантах реализации, глобальная оценка фонового сигнала может быть использована для аллеля, если отсутствуют значения для расчета среднего, дисперсии и стандартного отклонения фонового сигнала для аллеля. Глобальная оценка фонового сигнала может быть средним множества фоновых сигналов для всех аллелей.

Следует отметить, что при каждой попарной кластеризации, фоновые сигналы могут быть выбраны только для двух рассматриваемых аллелей. Другими словами, при кластеризации A - B нельзя выбрать фоновые сигналы C. Образец может также несколько раз входить в одну и ту же оценку фона, если образец определяется как гомозиготный по нескольким другим аллелям в различных попарных кластеризациях.

Как вариант, на стадии расчета фона могут быть разрешены конкретные значения априорных распределений, поскольку такие значения априорных распределений могут отличаться от значений априорных распределений, используемых в раунде генотипирования. Если значения априорных распределений не заданы, могут быть использованы обобщенные значения (generic values). Сигналы и фон для набора проб могут быть рассчитаны, если образец имеет размер больше 0. Иначе, эти метрики могут быть приняты равными -1, за исключением стандартного отклонения фона канала, который может быть принят равным 0, если размер образца меньше 1.

Метрики для каждого аллеля биаллельных пар могут быть получены из сигналов определяемых гомозиготных генотипов для биаллельного набора проб. Средний сигнал для аллеля ( может быть получен путем суммирования сигналов определяемых гомозиготных генотипов для этого аллеля () и затем деления на общее число образцов, вносящих вклад в эти сигналы (). Фоновое значение аллеля () может быть рассчитано путем суммирования сигналов этого аллеля при определении гомозиготного генотипа, когда определяемый генотип не совпадает с аллелем (. Среднее фона аллеля () может быть рассчитано путем деления суммы этих сигналов аллеля на число сигналов. Для фонового сигнала аллеля могут быть также рассчитаны дисперсия () и стандартное отклонение (). Средний сигнал, определенный для фона данного аллеля, может суммироваться с кратным стандартного отклонения для задания индивидуального порогового значения фона для данного аллеля.

Средний сигнал, фоновый сигнал, среднее, дисперсия, стандартное отклонение фонового сигнала, и другие параметры для каждого соответственного аллеля могут быть рассчитаны с использованием следующих уравнений:

Может быть также рассчитано общее число сигналов, вносящих вклад во все каналы. Общий средний фон (allAvgBgnd) и стандартное отклонение (allAvgStDev) для всех наборов проб () могут быть рассчитаны путем усреднения взвешенного среднего фона и значений взвешенных средних стандартных отклонений по всем наборам проб в мультиаллельном наборе. Могут быть также рассчитаны значение общего взвешенного среднего фона (allWeightedAvgBgnd) и общего взвешенного среднего стандартного отклонения (allWeightedAvgStDev) путем суммирования средних значений этих метрик и взвешивания их по числу образцов, вносящих вклад в общий вес, и затем деления этого значения на число образцов. Может быть рассчитано пороговое значение фона для аллелей, не имеющих заданного порогового значения для индивидуального аллеля из-за отсутствия сигналов в фоне. Для этого расчета может потребоваться умножение взвешенного среднего стандартного отклонения на заданный коэффициент, определяемый параметром SIG_THRESHOLD_VAR_MULTIPLE (например, текущее значение по умолчанию может быть равно 2). Это значение может суммироваться с общим взвешенным средним фоном.

Фигуры 6A, 6B и 6C показывают примеры графиков расчетов фонового сигнала для каждого аллеля. Для каждого мультиаллельного маркера, все образцы могут быть кластеризованы во всех возможных биаллельных комбинациях, и полученные результаты определения гомозиготных генотипов могут быть использованы для оценки среднего и дисперсии фоновых сигналов. В примере, изображенном на Фигурах 6A-6C, rs3091244 представляет собой триаллельный маркер A/C/T, и возможные биаллельные комбинации включают C-аллель - T-аллель (Фигура 6A), C-аллель - A-аллель (Фигура 6B), и T-аллель - A-аллель (Фигура 6C). Три оценки фонового сигнала имеют значения от приблизительно 1350 до приблизительно 1700.

Фигуры 7A, 7B и 7C показывают примеры графиков начального разбиения подмножества генотипированных образцов. Например, подмножество образцов может быть генотипировано в каждой возможной биаллельной комбинации. Полученные определяемые генотипы могут быть объединены в предполагаемые определяемые мультиаллельные генотипы. На Фигуре 7A, образцы с ʺвысоким A-сигналомʺ могут быть удалены из графика кластеризации C-аллель - T-аллель. ʺВысокий A-сигналʺ может указывать на значение сигнала выше среднего фона аллеля A плюс удвоенное стандартное отклонение. На Фигуре 7B, образцы с высоким T-сигналом могут быть удалены с графика кластеризации C-аллель - A-аллель, и на Фигуре 7C образцы с высоким C-сигналом могут быть удалены с графика кластеризации T-аллель - A-аллель.

УСТАНОВОЧНЫЕ ПАРАМЕТРЫ АЛГОРИТМА

Информация для картирования вариантов данного маркера может содержаться в файлах (например, CDF-файле (файл формата описания информационного канала)), доступ к которым осуществляется в ходе реализации алгоритма. Программа, выполняющая алгоритм (например, программа, исполняемая компьютерной системой 1) может считывать файлы значений априорных распределений мультиаллельных маркеров, а также установочные параметры. Установочные параметры алгоритма мультиаллельного генотипирования могут включать параметры, используемые при биаллельном генотипировании, а также параметры с разными исходными значениями по умолчанию, заданными для мультиаллельного генотипирования. Начальное присваивание проявлений генотипов при мультиаллельном генотипировании может осуществляться с теми же параметрами и установочными значениями, что и алгоритм биаллельного генотипирования. В Таблице 1 ниже приведены параметры конечного присваивания проявлений генотипов при мультиаллельном генотипировании, которые могут отличаться от начальной стадии.

Таблица 1. Параметры конечного присваивания проявлений генотипа при мультиаллельном генотипировании

Параметр Цель ocean Значение однородной плотности; Проверка точек данных по однородной вероятности "океана" (ocean) freqFlag Накладывает на кластеры штраф за частоту смешения (смешение) wobble Предельное число (Cap number) средних значений; ограничивает априорные псевдонаблюдения величиной, равной 1/wobble lambda Контроль смешения общих дисперсий inflatePRA Создает генотипические проявления (Make calls), увеличивающие неопределенность среднего наблюдаемой дисперсии confidenceThreshold Пороговое значение для неопределенных генотипов hardshell Может не допускать чрезмерного сближения кластеров shellbarrier Предельное расстояние сближения кластеров

НАЧАЛЬНОЕ ПРИСВАИВАНИЕ ГЕНОТИПОВ

После расчета фоновых сигналов для каждого аллеля, алгоритм может присваивать исходные проявления генотипов каждого образца для пары аллелей на основании сигналов и фоновых сигналов аллеля. Например, различные комбинации биаллельных наборов проб могут быть генотипированы с использованием объекта из класса программного файла алгоритма.

Каждый аллель может иметь оценку фонового сигнала, и образец можно считать имеющим сигнал выше фонового для аллеля, если сигнал этого аллеля превышает предварительно заданное пороговое значение. В некоторых вариантах реализации, предварительно заданное пороговое значение может быть рассчитано как равное avgBgndallele+2*stdevBgndallele. Для каждой пары аллелей, алгоритм может идентифицировать подмножество образцов, имеющих сигнал не выше фонового сигнала в любом другом аллеле или в любом альтернативном аллеле. Например, при анализе аллель A - аллель B, все образцы, имеющие сигнал не выше фонового в аллеле C, аллеле D и т.п., могут быть включены при генотипировании и классифицированы. Другими словами, в каждом раунде генотипирования биаллельных комбинаций, если одна из других аллелей, которые не подвергаются генотипированию в этом раунде, имеет сигнал выше порогового значения для фона, то этот образец может быть исключен из текущего раунда генотипирования.

Для каждой пары аллелей, алгоритм может определять, является ли число образцов в подмножестве образцов (например, образцов, не имеющих сигналов других аллелей выше фоновых) большим предварительного заданного минимального значения. Например, если будет определено наличие более минимального числа (например, 3 или любого числа) соответствующих образцов, то эти образцы могут быть генотипированы по двум аллелям, представленным соответствующей парой аллелей, с использованием алгоритма Axiom® GT1, причем могут быть использованы конкретные значения априорных распределений и параметры алгоритма. Эта стадия определения может повторяться для каждой пары аллелей с числом образцов, большим минимального значения. В конце процесса, образцы могут иметь 0, 1 или больше проявлений при различных итерациях.

Значения априорных распределений, которые могут быть специфическими для биаллельной комбинации, генотипирование которой проводится, могут быть признаны допустимыми в качестве варианта, хотя, если конкретные значения априорных распределений не заданы, могут использоваться также обобщенные значения. Проявления генотипа, статистические данные, на основании которых производится классификация, число биаллельных сравнений и индексы генотипированных образцов могут сохраняться для всех раундов генотипирования (например, сохраняться компьютерной системой 1).

КОМБИНИРОВАНИЕ ПРОЯВЛЕНИЙ БИАЛЛЕЛЬНЫХ ГЕНОТИПОВ В ПРОЯВЛЕНИЯ МУЛЬТИАЛЛЕЛЬНЫХ ГЕНОТИПОВ

Могут быть собраны результаты всех биаллельных проявлений каждого образца, и совокупность проявлений каждого образца может быть затем подвергнута разложению до одного предположительного проявления генотипа. Для каждого биаллельного проявления, два аллеля, анализируемые данным набором проб, могут быть картированы лексикографически по соответствующим мультиаллельным сигналам, например, A, B, C, D, E, F и т.д. Например, если анализировать триаллельный маркер A/C/T, то A-аллель картируют на A-сигнал, C-аллель - на B-сигнал, и T-аллель - на C-сигнал. Для создания проявления биаллельного набора проб C/T, алгоритм может картировать соответствующее биаллельное проявление по мультиаллельному проявлению. Если проявление имеет значение -1, алгоритм может выдать ʺнеопределенное проявление генотипаʺ. Если проявление имеет значение 0, то ответным мультиаллельным проявлением будет BB, что соответствует наличию двух C-аллелей. Если проявление имеет значение 2, то ответным мультиаллельным проявлением будет CC, что соответствует наличию двух T-аллелей. Если проявление имеет значение 1, то ответным результатом может быть BC, что соответствует гетерозиготному CT-генотипу. Все биаллельные проявления могут быть зарегистрированы для каждого образца, и образцу может быть присвоено наиболее часто встречающееся значение биаллельного проявления. Например, алгоритм может сравнивать проявления генотипа каждого образца для выбора наиболее часто встречающегося значения принадлежности каждого образца. Если результаты определения наиболее часто встречающегося проявления генотипа разделятся поровну, образцу может быть присвоен статус несостоятельного проявления. В некоторых вариантах реализации, при разделенных поровну проявлениях генотипа, образцу может быть присвоено значение ʺнеопределенное проявлениеʺ (no-call). Если образец никогда не включался ни в одну итерацию, образцу может быть присвоено значение ʺнеопределенное проявлениеʺ.

МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ и ПРИСВАИВАНИЕ КОНЕЧНОГО ГЕНОТИПА

После присваивания начальных проявлений генотипа, сигналы могут быть приведены к многомерным нормальным распределениям, описывающим каждый кластер, для определения правдоподобия принадлежности образца к данному кластеру. Другими словами, алгоритм может записывать сводные сигналы по аллелям и начальным проявлениям генотипов, и файлы сводных сигналов вместе с файлом значений априорных распределений могут считываться программой, выполняющей алгоритм. Сигналы могут быть конвертированы в логарифмическое пространство сигналов, и каждый набор проб могут поставлен в соответствие со всеми возможными кластерами с соответствующими значениями априорных распределений для каждого кластера. Число наблюдений, среднее и ковариация кластера могут быть определены по результатам начальных проявлений генотипов.

Другими словами, алгоритм может использовать начальные проявления генотипов и значения априорных распределений (например, обобщенные или ОНП-специфические значения априорных распределений, определенные по другим данным) для расчета многомерного нормального распределения для каждого кластера диплоидного генотипа в логарифмическом пространстве сигналов. Для каждого кластера диплоидного генотипа, значения априорных распределений могут быть уточнены по log2 сигналам каждого образца, предположительно отнесенного к этому кластеру.

Среднее и ковариация многомерного нормального (распределения), описывающего данный кластер, могут быть определены с использованием данных для этого кластера, объединеных с параметрами значений априорных распределений для этого кластера. Сопряженное априорное распределение, используемое для многомерного нормального распределения, может иметь форму нормального-обратного распределения Уишарта. Эти априорные параметры могут быть доступными в качестве вводных данных посредством файла, загружаемого для использования с алгоритмом. Заданные по умолчанию значения этих параметров могут быть определены с помощью программы в случае отсутствия файла. Эти параметры могут быть объединены с данными кластера следующим образом (как показано в уравнениях ниже):

В некоторых вариантах реализации, апостериорные параметры могут быть соответственно откорректированы. Например, уровень сигнала данных может быть использован для размещения пустых кластеров в ожидаемых положениях, поскольку эти положения могут отличаться от положений, указанных в файле априорных данных. Средний фоновый сигнал аллеля и средний сигнал аллеля могут быть взяты из гомозиготных сигналов в данных. Для пустых кластеров, уровень сигнала может быть определен по среднему сигналу аллеля с последующей понижающей корректировкой. Если кластер не содержит аллеля, то сигнал может быть взят из фонового сигнала аллеля. Если фактический сигнал аллеля или фоновый сигнал аллеля отсутствуют, недостающее значение может быть рассчитано путем сложения или вычитания ожидаемой величины разности из имеющегося сигнала. Ожидаемая величина разности между кластерами может содержаться в двух переменных: одной, определяющей ожидаемое расстояние между кластером с 0 аллелей и кластером с 1 аллелем (copyNumber0to1), и другой, определяющей ожидаемое расстояние между кластером с 1 аллелем и кластером с 2 аллелями (copyNumber1to2).

Дополнительно, может быть проведена последняя проверка, чтобы убедиться в правильном порядке кластеров. Например, кластер, содержащий B-аллель (BB, AB), может иметь более высокий уровень сигнала аллеля B, чем кластер, не содержащий B-аллель (CC, CD). Кластер, содержащий два аллеля, также может ожидаемо иметь немного более высокий уровень сигнала этого аллеля, чем кластер, содержащий только одну копию этого аллеля. Например, BB может иметь более высокий уровень сигнала B, чем кластер AB. Способ может также позволять убедиться в том, что кластеры разделены расстоянием, определяемым удвоенной величиной барьерной оболочки (shell barrier). Величины барьерной оболочки могут определять расстояние между двумя рассматриваемыми кластерами. Переменная ʺshellbarrier0to1ʺ может быть минимальным расстоянием между кластерами с 0 аллелей и 1 аллелем, в то время как ʺshellbarrier1to2ʺ может быть минимальным расстоянием между кластерами с 1 аллелем и 2 аллелями. Для кластеров AA, AB и BB и аллеля A, ʺshellbarrier0to1ʺ может определять минимальное расстояние между положением A-аллеля в BB-кластере и положением A-аллеля в AB-кластере, в то время как ʺshellbarrier1to2ʺ может определять минимальное расстояние между A-аллелем в AB-кластере и A-аллелем в AA-кластере.

Таким образом, при необходимости, апостериорные средние положения могут быть откорректированы для сохранения порядка. Например, AA-кластер может иметь большее значение log2 A-сигнала, чем кластеры AB, AC и т.д., которые могут, в свою очередь, иметь большие значения log2 A-сигнала, чем все кластеры, не содержащие A-аллеля. Кластеры с копией аллеля номер 1, могут сравниваться с кластерами с копией аллеля номер 0, и их средние log2 сигналы аллелей могут быть увеличены (при необходимости) до максимальной величины, равной копии номер 0 log2 сигналов аллелей плюс S (который может быть конфигурируемым параметром). Эта корректировка может быть затем повторена при сравнении гомозиготных кластеров (копия номер 2) с гетерозиготными кластерами (копия номер 1).

При установленных апостериорных распределениях, log правдоподобия принадлежности (L) в каждом распределении (кластере), для каждого образца, может быть рассчитан следующим образом:

Может быть проведен расчет возведения в степень log правдоподобия с последующим изменением масштаба (rescaling) значений правдоподобия путем вычитания минимума (при работе с отрицательными log правдоподобия), или путем вычитания правдоподобия из максимума. Корректировочное значение для ʺокеанаʺ может быть рассчитано путем умножения значения параметра ʺокеанʺ на минимальное значение правдоподобия.

Вероятность принадлежности к каждому кластеру, или к однородному кластеру ʺокеанʺ, может быть рассчитана для каждого образца по значениям log правдоподобий, и образец может быть отнесен к кластеру с наибольшей вероятностью. Другими словами, конечное проявление генотипа может быть присвоено каждому образцу на основании вероятности принадлежности к конкретному кластеру. Доверительное значение, определяемое как вероятность принадлежности образца к любому из других кластеров, может быть рассчитано для каждого образца и подвергнуто сравнению с предварительно заданным пороговым значением. Всем образцам, попавшим выше этого порогового значения, может быть присвоено значение ʺнеопределенное проявлениеʺ.

В качестве дополнительного примера, Фигура 8 показывает пример N-мерной модели гауссовых смесей мультиаллельного генотипирования. Модель на Фигуре 8 может быть использована для присваивания конечных проявлений мультиаллельной принадлежности, и модель может быть сконструирована путем комбинирования сопряженных априорных распределений (обобщенных или полученных из реальных данных) с данными для образцов, предположительно отнесенных к каждому генотипу. Апостериорная вероятность принадлежности к каждому кластеру генотипа может быть рассчитана для каждого образца, и генотип с наибольшим правдоподобием может быть присвоен в качестве конечного проявления генотипа, если оно превышает заданное пороговое значение. Эта стадия позволяет разделить любые спорные проявления генотипов начального разбиения и может дать значимую вероятность для каждого возможного генотипа каждого образца.

РЕАЛИЗАЦИЯ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ

В соответствии с дополнительными конкретными вариантами реализации, один или несколько из вышеперечисленных способов могут быть включены в пакет программного обеспечения для автоматического генотипирования мультиаллельных маркеров по данным, полученным с использованием матрицы, или аналогичным генотипическим данным. Такой пакет программного обеспечения может считывать большое количество разных файлов во время исполнения алгоритма BANG. Примеры программных файлов включают (без ограничений) следующие:

AxiomDMETMultiallelicCaller.java

AxiomDMETClusterer.java

AxiomDMETStem.java

assign_final_calls.py

AxiomGT1.summary.txt - файл краткого описания, содержащий сигналы всех биаллельных наборов проб, присутствующих в мультиаллельных наборах

Файл набора проб (файл аннотации) - файл, содержащий информацию о том, к какому мультиаллельному набору принадлежит набор проб, и о том, является ли набор проб частью неоднозначного (wobble) набора. Программа может пропускать наборы проб из неоднозначного набора, поскольку они нуждаются в консолидации программой AxiomDMETSummarizer.java перед проведением определения мультиаллельной принадлежности.

Ссылочный файл (Reference file) -файл, содержащий референсные проявления генотипов. Используется для тестирования.

Имя файла выходных данных (Output file name) -имя файла, который будет содержать проявления генотипов для мультиаллельного набора проб. Имя используют в качестве префикса при генерировании других файлов выходных данных с детальной статистикой (_ProbeSetSummary.txt), которые могут быть использованы с программой построения графиков SpotFire (_spotfire.txt).

AxiomGT1.multiallelic_summary.txt - Файл краткого описания, генерируемый программой AxiomDMETMultiAllelicCaller.java

AxiomGT1.multiallelic_calls.txt - файл с проявлениями генотипов (calls file), создаваемый программой AxiomDMETMultiAllelicCaller.java

Группа наборов проб (ps_group) может быть использована для идентификации группы наборов проб, используемых для анализа одного и того же мультиаллельного маркера. Идеально, могут существовать multi_asid, заданные для всех наборов проб в мультиаллельном наборе. Может также присутствовать другой идентификатор для идентификации неоднозначного набора для каждого набора наборов проб в мультиаллельном наборе, который может нуждаться в консолидации перед обработкой программой определения мультиаллельных проявлений. Может сохраняться необходимость в Alleles_fwd для идентификации аллелей, анализируемых с помощью биаллельного набора проб. Может также быть полезным перечисление всех аллелей, присутствующих на матрице мультиаллельного маркера (поле multi_alleles). На этой стадии, программа может задавать канал на основании поля alleles_fwd. Идеальной ситуацией может быть наличие определенной степени картирования между аллелем или биаллельным probeset_id и каналом для разделения данных и реализации вычислений.

Следующие данные могут быть необходимыми в файле аннотации, который должен быть доступным в файлах библиотеки:

probeset_id - Требует способа, позволяющего идентифицировать разные биаллельные наборы проб в мультиаллельном наборе. Текущая реализация использует probeset_id для биаллельных наборов проб в мультиаллельном наборе.

multiallelic - Требует способа, позволяющего идентифицировать, какие из наборов проб являются мультиаллельными и, таким образом, нуждаются в определении проявления генотипа с использованием алгоритма определения проявления мультиаллельного генотипа. Текущая реализация использует булеан (boolean) для указания, является ли набор проб частью мультиаллельного набора наборов проб (0/1)

multi_asid - Идентификатор мультиаллельного набора проб.

ps_group - Средства, по которым могут быть идентифицированы наборы проб в мультиаллельном наборе. В настоящее время для этого используют группу наборов проб, но может быть использован любой идентификатор, при условии, что может быть проведено картирование между идентификатором и наборами проб в наборе, а также способ идентификации, какие pro

multi_alleles - все аллели мультиаллельного маркера

affy_snp_id - идентификатор (the id) маркера, анализируемого с использованием биаллельного набора проб

wobble - Зонды могут быть использованы для анализа маркеров для всех вариантов, близких к варианту-мишени (неоднозначностей). Такие неоднозначные наборы требуют консолидации в набор проб перед проведением генотипирования. Таким образом, могут быть необходимы средства для определения необходимости консолидации. В настоящее время, используют булеан для указания того, является ли зонд частью неоднозначного набора (0/1). Алгоритм определения мультиаллельных проявлений в настоящее время пропускает все данные, для которых значение этого булеана задано равным 1, поскольку оно идентифицирует неоднозначные наборы, требующие консолидации. Это требуется только в прототипе, поскольку программа будет сначала выполнять консолидацию, а затем генотипирование.

alleles_fwd - - Средство, позволяющее идентифицировать каждую консолидацию биаллельных наборов проб в мультиаллельном наборе. До настоящего времени для этого использовались аллели, анализируемые в прямом направлении.

DMETcall - Хранит информацию о проявлениях генотипа (the calls), позволенную для кода DMET. Требует способа картирования биаллельных кодов проявления генотипа по соответствующим числовым кодам DMET.

Файл краткого описания может содержать следующие данные: a_ij, сигнал канала A для набора проб i и образца j, из файла краткого описания; b_ij, сигнал канала B для набора проб i и образца j, из файла краткого описания.

Ссылочный файл может содержать референсное проявление генотипа (reference call) для мультиаллельного набора проб.

ДОПОЛНИТЕЛЬНЫЕ ПАРАМЕТРЫ И УСТАНОВОЧНЫЕ ЗНАЧЕНИЯ

Следующие параметры могут быть использованы в качестве возможных установочных параметров пользователя.

AxiomDMETMultiAllelicCaller.java имеет следующие параметры:

OUTPUT_CALLS_NUMERIC_CODE - булеан для обозначения того, должен ли использоваться числовой код DMET в файле проявлений генотипа (calls file)

AxiomDMETStem.java имеет следующие параметры:

MIN_LOG2_SIG -минимальные значения сигнала log 2 (в настоящее время задаются равными 0,000001)

SIG_THRESHOLD_VAR_MULTIPLE - множитель, применяемый для общевзвешенной средней дисперсии, используемой при расчетах порогового значения фона.

Программа AxiomDMETClusterer.java имеет следующие параметры:

WORKING_DIR_PATH - путь для временных файлов, создаваемых для определения проявлений генотипа и характеризации биаллельных наборов проб

SUMMARY_FILE_NAME - имя файла краткого описания, который будет создат для сигналов от двух каналов одного биаллельного набора проб

POSTERIOR_FILE_NAME - файл данных модели биаллельного набора проб, генерируемый программой apt-summary-genotype для файла краткого описания

CALLS_FILE_NAME - имя файла проявлений генотипов для биаллельного набора проб, генерируемого из файла краткого описания с помощью apt-summary-genotype f

METRICS_FILE_NAME - имя файла метрик биаллельного набора проб, генерируемого Ps_metrics из файлов, генерируемых apt-summary-genotype

PERFORMANCE_FILE_NAME - имя рабочего файла (файла классификации) для биаллельного набора проб, созданного с использованием файла метрик и других файлов, генерируемых apt-summary-genotype

APT_SUMMARY_GENOTYPE - фактический путь для программы

OUTPUT_DIR_NAME - имя для хранения результатов определения генотипа, генерируемых apt-summary-genotype для биаллельного набора проб

GENOTYPES_FILE_PATH - путь и имя файла проявлений генотипа

PS_CLASS_FILE_PATH - путь и имя рабочего файла

SCRIPT_NAME - имя скрипта, используемого для вызова apt-summary-genotype, Ps_metrics и Ps_classification при проведении вычислений с данными биаллельного набора проб

CMD - строка скрипта, которая будет выполняться для биаллельного набора проб, если скрипт еще не создан

Выбор набора проб:

Мультиаллельные проявления могут быть сгенерированы для наборов проб, обозначенных в файле набора проб как мультиаллельные и не принадлежащие к неоднозначному набору. Значение ʺ1ʺ может быть использовано для обозначения того, что набор проб является мультиаллельным, и ʺ0ʺ может быть использован для обозначения того, что набор проб не является частью неоднозначного набора.

Файлы выходных данных

В некоторых вариантах реализации, алгоритм мультиаллельного генотипирования может генерировать четыре исходных файла выходных данных. Файлы выходных данных могут все иметь одинаковый префикс, который может быть именем файла выходных данных (OutFileName), заданным пользователем. Примеры файлов выходных данных описаны ниже:

OutFileName.txt - Файл проявлений генотипа, содержащий мультиаллельные проявления генотипа для каждого образца для всех групп наборов проб. Файл проявлений генотипа похож на нормальный файл AxiomGT1.calls.txt, в котором заголовками столбцов являются наименования образцов. Однако, столбец probeset_id заполнен идентификатором группы наборов проб, который должен быть идентификатором, общим для двух или больше биаллельных наборов проб. Проявления генотипа имеют формат AA - FF, который является форматом определяемых типов DMET. Для данного маркера, аллели, взаимодействующие с этим маркером, должны быть лексикографически связаны с этими символами для установления взаимосвязи фактических аллелей с проявлением генотипа. Существует три других возможных проявления генотипа, которые являются неопределенными: NotAvailable - проявления, имеющие слишком высокий уровень сигнала во всех других каналах, вследствие чего образец не поддается генотипированию.

CallsInconsistent - имеется два разных проявления генотипа с одинаковой результативностью определения проявления при объединении биаллельных проявлений генотипов.

XX - неопределенное проявление генотипа было задан при генотипировании и объединении проявлений генотипов.

OutFileName_summary.txt - файл краткого описания с сигналами каналов, конвертированными в сигналы аллелей

OutFileName_ProbesetSummary.txt - данные, описывающие группы наборов проб. Содержат следующие столбцы:

ps_group - содержит идентификаторы групп наборов проб

multi_asid - идентификатор мультиаллельного набора проб

multi_alleles - аллели, анализируемые на присутствие маркера

tile_strand - прямой или обратный

line - идентификация неоднозначностей группы (в будущем должен использоваться идентификатор набора проб - мультиаллельный или биаллельный)

offset - смещение для данной группы наборов проб

probeLength - длина зондов в данной группе наборов проб

nAllelesFound - число аллелей, фактически определенных в процессе определения проявлений генотипов

AllelesFound - какие из ожидаемых аллелей были определены

nBiallelicCombinations - число биаллельных комбинаций

AveBgnd - среднее значение фона для этой группы наборов проб

VarBgnd - дисперсия фона для этой группы наборов проб

WeightedAveBgnd - Взвешенное среднее значение фона, используемое для расчета порогового значения фона

WeightedVarBgnd - Взвешенное стандартное отклонение значения фона, используемое для расчета порогового значения фона

SignalThreshold_weightedBNDPlus2sd - Пороговое значение фона. Значение используют для определения того, имеет ли сигнал уровень выше фонового

OutFileName_spotfire.txt - файл, который описывает все группы наборов проб, и может быть использован для графического изображения кластеров в программе spotfire. Этот файл используется для кода-прототипа и отладки. Некоторые данные могут потребоваться в будущем для использования при отладке.

Следующие файлы генерируются скриптом assign_final_calls.py:

файл проявлений (calls file) -файл содержит конечные проявления генотипа, присваиваемые алгоритмом мультиаллельного генотипирования

файл достоверностей (confidences file) -достоверности присваиваемых проявлений генотипа

файл апостериорных ОНП (snp-posterior file) -файл, содержащий апостериорные параметры для кластеров, который при последующих пригонах может быть использован в качестве файла априорных распределений

файл вероятностей (probabilities file) -файл содержит вероятности для данного образца, принадлежащие к каждому из кластеров

МУЛЬТИАЛЛЕЛЬНОЕ ГЕНОТИПИРОВАНИЕ - ВЕРИФИКАЦИЯ АЛГОРИТМА

В примере была спроектирована матрица Axiom® с наборами проб примерно по 100000 мультиаллельных маркеров с более чем двумя аллелями каждый по данным фазы 3 проекта 1000 Genomes. Маркеры выбирали по присутствию по меньшей мере одного занимающего третье место по степени распространенности аллеля из образцов на следующих четырех планшетах для образцов: планшеты для образцов HapMap T01 (CEU), T02 (CHB+JPT), T03 (YRI), и V12 (LWK) фирмы Coriell. Наборы проб преимущественно конструировали таким образом, чтобы избежать сближенных интерферирующих вариантов (NIVs) с частотой минорного аллеля более 1% в любой континентальной популяции, за исключением набора нескольких тысяч маркеров экзона, для которых было дозволено до двух NIV. Наборы проб готовили в виде неперекрывающегося мозаичного поля с двумя повторами, за исключением наборов проб экзона, которые размещались на поле с четырьмя повторами. Маркеры выбирали из аутосомных хромосом и хромосомы X.

Четыре указанных выше планшета популяций анализировали с помощью планшетов Axiom с микрочипами в лунках (array plates). Контроль качества образцов (QC) проводили как обычно, используя 3000 биаллельных контрольных наборов проб AFFX-SNP для оценки доли проявлений в образцах контроля качества. Сигналы от образцов, прошедших QC, использовали в качестве входного сигнала реализации прототипа алгоритма BANG. На каждой стадии использовали обобщенные априорные значения и параметры алгоритма по умолчанию. Считалось, что набор проб продемонстрировал хорошие характеристики, если набор проб удовлетворяет следующим критериям:

1. доля проявлений 90%

2. Коэффициент соответствия между копиями (CN) аллеля >50% для всех копий аллеля.

a. Коэффициент соответствия с копией номер 2 рассчитывают для каждого аллеля отдельно, как число правильно проявленых гомозигот, деленное на ожидаемое число гомозигот в референсном образце проекта 1000 Genomes. Непроявленные результаты считаются ошибками.

b. Коэффициент соответствия c копией номер 1 (CN 1) рассчитывают для каждого аллеля отдельно, как число правильно проявленных гетерозигот, включающих аллель, деленное на ожидаемое число гетерозигот, включающих аллель. Другими словами, коэффициент соответствия CN 1 для аллеля A представляет собой долю правильных проявлений для образцов с ожидаемыми генотипами AB, AC и т.д. Непроявленные результаты считаются ошибками.

По этим критериям, примерно 42% наборов проб в матрице Axiom продемонстрировали хорошие результаты. Фигура 9 показывает пример графика зависимости доли проявлений генотипов мультиаллельного набора проб от невзвешенного среднего коэффициента соответствия каждого кластера ожидаемого генотипа. Коэффициент соответствия может быть рассчитан для каждого ожидаемого генотипа и затем усреднен без учета числа образцов, ожидаемого в каждом кластере. Например, ожидаемыми генотипами могут быть AA, AB, AC, и не могут быть ожидаемыми образцы с генотипами BB, CC, BC. Таким образом, эти кластеры можно пропустить. Непроявленные присваивания могут считаться неверными. Представлены все мультиаллельные наборы проб на матрице Axiom, генотипированные для примерно 360 индивидуумов из популяций CEU, CHB, JPT, YRI и LWK. Значительное меньшинство наборов проб может иметь высокие величины доли проявлений генотипов и коэффициента соответствия (верхний правый угол Фигуры 9). Может присутствовать еще один пик плотности при высокой доле проявлений генотипов и низком коэффициенте соответствия, для наборов проб во всем исследуемом диапазоне (across the range of performance).

Фигура 10 показывает примеры графиков проявлений и референсных генотипов для нескольких конвертированных наборов проб. Например, графики на Фигуре 10 показывают долю генотипов, проявлений методом BANG, по сравнению с референсными генотипами фазы 3 проекта 1000 Genomes. Показаны три набора проб для разных трехаллельных маркеров. Все графики показывают сигналы log2 матрицы для скрининга на примерно 360 образцах. Графики слева окрашены в цвета, соответствующие генотипам, присвоенным алгоритмом BANG. Графики справа окрашены в цвета, соответствующие генотипам, проявленным для этих же индивидуумов по результатам фазы 3 проекта 1000 Genomes. Большее число непроявленных значений (желтый цвет) для референсных генотипов проекта 1000 Genomes объясняется тем фактом, что не все прошедшие скрининг индивидуумы участвовали в анализах по проекту 1000 Genomes.

КОНСТРУИРОВАНИЕ ЗОНДОВ

Конструирование специфических зондов может быть связано с методами мультиаллельного генотипирования и может быть полезным для получения представляющих интерес данных. Логические процедуры определения ОНП-зондов, которые могут быть использованы в различных системах анализа ДНК, существуют уже давно. Ранее разработанные матрицы для исследований ОНП обычно используют наборы зондов, которые содержат зонд, полностью комплементарный к мишени, представляющей интерес (включая ОНП, представляющий интерес), и один или несколько других зондов, которые содержат одно или несколько монозамещений по сравнению с полностью комплементарным зондом. Полученные данные интенсивности для разных зондов в наборе зондов затем сравнивают, получая определяемое проявление генотипа для ОНП, представляющего интерес. См., например, патент США № 5858659, который настоящим включен в данный документ посредством ссылки в полном объеме.

Недавно разработанные матрицы для генотипирования ОНП включают чипы Axiom® (Affymetrix, Inc., Santa Clara, CA) и чипы Infinium® II (Illumina, Inc., San Diego, CA). Эти матрицы используют ОНП-зонд, комплементарный к последовательности, фланкирующей сайт ОНП в представляющей интерес нуклеиновой кислоте-мишени и, таким образом, ОНП-зонд в этих матрицах не гибридизуется непосредственно с нуклеиновой кислотой-мишенью по ОНП-сайту. Вместо этого, двухцепочечная часть дуплекса зонд-мишень заканчивается непосредственно перед ОНП слева от него. Анализ сайта ОНП затем проводится путем прибавления нуклеотида или зонда (с нуклеотидом или зондом, содержащим один из двух разны гаптенов) к одному концу ОНП-зонда (например, 5', 3'), с использованием пригодного механизма, известного специалистам в данной области техники, требующего комплементарности к основанию мишени в сайте ОНП (например, лигирования или однонуклеотидной достройки). Определение аллеля, находящегося в сайте ОНП, осуществляется путем последующегшо детектирования конкретного гаптена, ассоциированного с добавленным нуклеотидом или зондом.

Чип Axiom® использует ОНП-зонды с олигонуклеотидами из 30 оснований в двухцветном формате. Идентичность основания в сайте ОНП определяется путем лигирования зондов, содержащих один из двух гаптенов, служащих сайтами присоединения одной из двух флуоресцентных меток, в зависимости от идентичности основания, которое лигируется с ОНП-зондом (например, первая комбинация гаптен/метка ассоциирована с зондами, лигирующимися с сайтом ОНП, содержащим A или T, и вторая комбинация гаптен/метка ассоциирована с зондами, лигирующимися с сайтом ОНП, содержащим C или G). См., например, Hoffmann et al., ʺNext generation genome-wide association tool: design and coverage of a high-throughput European-optimized SNP arrayʺ, Genomics, 98(2): 79-89 (2011); и Hoffmann et al., ʺDesign and coverage of high throughput genotyping arrays optimized for individuals of East Asian, African American, and Latino race/ethnicity using imputation and a novel hybrid SNP selection algorithmʺ, Genomics, 98(6): 422-30 (2011), которые обе включены настоящим в данный документ посредством ссылок в полном объеме.

Анализ Axiom® DMET также может быть использован для генетического анализа метаболических путей, задействованных в метаболизме лекарственных средств. Генетическая изменчивость может быть важным фактором, определяющим способность разных индивидуумов к метоболизму лекарственных средств. Исследования генетического фона индивидуума могут быть использованы для определения лекарственных средств и корректировки терапевтической дозы в зависимости от полиморфизмов, присутствующих у индивидуума. Панель DMET облегчает проведение таких испытаний благодаря созданию одного теста, анализирующего более 1200 полиморфизмов в наборе генов, которые могут играть роль в метаболизме лекарственных средств. Панель DMET может анализировать большое число разных генов одновременно, облегчая детектирование конкретных комбинаций аллелей в разных генах, которые могут быть задействованы в метаболизме нового лекарственного средства.

Чип Infinium® II использует зонды ОНП в форме олигонуклеотидов длиной в 50 оснований в двухцветном формате. Идентичность основания в сайте ОНП определяют путем включения ddNTP (дидезоксинуклеозидтрифосфатов), несущих один из двух разных гаптенов, посредством однонуклеотидной достройки ОНП-зонда, причем каждый гаптен ассоциирован с разными флуоресцентными метками (например, ddCTP и ddGTP ассоциированы с первой комбинацией гаптен/метка, а ddATP и ddTTP ассоциированы со второй комбинацией гаптен/метка). См., например, Gunderson et al., ʺWhole-genome genotyping of haplotype tag single nucleotide polymorphismsʺ, Pharmacogenomics, 7(4): 641-8 (2006); и Steemers et al., ʺWhole-genome genotyping with the single-base extension assayʺ, Nature Methods, 3: 31-33 (2006), которые обе настоящим включены в данный документ посредством ссылок в полном объеме.

КОМБИНИРОВАННЫЙ СПОСОБ ПОЛНОГЕНОМНОЙ И ЛОКУС-СПЕЦИФИЧЕСКОЙ АМПЛИФИКАЦИИ

В дополнительных вариантах реализации данного изобретения, полногеномная амплификация (ПГА) и локус-специфическая амплификация могут быть скомбинированы для использования с анализом на чипах для селективного смещения амплификации в сторону желательной последовательности-мишени для улучшения полученных данных генотипирования для желательной последовательности-мишени и для снижения эффекта нежелательных псевдогенов в получаемых данных.

Например, чипы Axiom® и Infinium® II используют полногеномную амплификацию ДНК, при которой проводится амплификация целого генома. Специалистам в данной области техники известно много способов полногеномной амплификации, таких как амплификация с множественным вытеснением цепи (MDA), дегенеративная олигонуклеотидная ПЦР (DOP-PCR) и преамплификация с удлинением праймеров (PEP), и многие наборы для ПГА являются коммерчески доступными, такие как набор для ПГА PicoPLEX™ (New England Biolabs, Inc., Ipswich, Massachusetts), наборы для ПГА REPLI-g (QIAGEN, Venlo, Netherlands) и наборы для полногеномной амплификации GenomePlex® (Sigma-Aldrich Corporation, St. Louis, Missouri). Для мультиаллельных мишеней может использоваться фактический вариант гена, представляющего интерес, а также псевдогены, которые могут иметь схожие последовательности, содержащие незначительные отличия от фактических вариантов, представляющих интерес, и которые будут не только обеспечивать получение данных, полезных для достижения определенных клинических или исследовательских целей. но и, в действительности, препятствовать эффективному анализу и генотипированию мишени, представляющей интерес. Псевдогены могут усложнять анализ родственных последовательностей и могут приводить к определению гомозиготных генотипов как гетерозиготных или наоборот. Таким образом, полногеномная амплификация (ПГА) может приводить к амплификации таких псевдогенов со степенью амплификации, близкой к мишеням, представляющим интерес, что может вызывать трудности с определением точного проявления генотипов для мишеней, представляющих интерес.

Для решения этой проблемы, может быть полезным улучшить результаты путем дополнения полногеномной амплификации (ПГА) локус-специфической амплификацией для вариантов, представляющих интерес. Специалистам в данной области техники известны многие формы локус-специфической амплификации, такие как использование мультиплексной полимеразной цепной реакции, инвертированных молекулярных зондов с последующей ПЦР, зондов типа "висячий замок" (padlock) с последующей амплификацией по типу катящегося кольца, и другие подходы. Мультиплексная ПЦР может состоять из использования ПЦР для одновременной амплификации разных последовательностей ДНК-мишеней. Другими словами, мишени, содержащие псевдогены, могут быть подвергнуты амплификации методом мПЦР с использованием праймеров, специфических по отношению к желательному гену. Использование инвертированных молекулярных зондов известно специалистам в данной области техники и описано, например, в Hardenbol et al., Nat. Biotechnol. 21:673-8 (2003), Hardenbol et al., Genome Res. 15:269-275 (2005), Ji et al., Cancer Res. 66:7910-9, патентах №№ 6858412; 8716190; 8828688; 8759036, и опубликованных заявках США №№ 2013/0296172 и 2015/0284786, которые все настоящим включены в данный документ посредством ссылок в полном объеме во всех отношениях. Использование зондов типа "висячий замок" с последующей амплификацией по типу катящегося кольца также известно специалистам в данной области техники и описано, например, в патентах США №№ 6558928 и 7074564, которые все настоящим включены в данный документ посредством ссылок в полном объеме во всех отношениях. Локус-специфическая амплификация одной конкретной анализируемой последовательности (вместо схожих с ней вариантов) может быть полезной при последующем анализе данных, полученных путем анализов на микрочипе, особенно, в комбинации с результатами полногеномной амплификации.

Локус-специфическая амплификация может быть использована в качестве дополнения к полногеномной амплификации для получения, в конечном результате, большего числа копий желательных мишеней генома, и статистического смещения полученных продуктов амплификации в сторону желательных мишеней, в отличие от нежелательных псевдогенов. Увеличение концентрации целевой части генома относительно нежелательных областей может усиливать сигнал мишени и улучшать получаемые впоследствии результаты генотипирования как при биаллельном, так и при мультиаллельном генотипировании. Другими словами, увеличение количества желательных ампликонов, доступных для анализа на матрице, может приводить к более эффективному и усовершенствованному процессу биоинформатического генотипирования. Улучшение процесса генотипирования может быть особенно полезным в случаях, когда конкретная мишень маркера, представляющего интерес, такая как специфический ОНП варианта гена, представляющего интерес, имеет большое количество схожих псевдогенов или вариантов. Например, у цитохрома P450 имеется много маркеров, обладающих диагностическим, клиническим и/или фармакогенетическим значением, которые, однако, имеют схожие варианты, не являющиеся релевантными. Например, в CYP2D6 присутствуют ОНП, имеющие высокое фармакогенетическое значение, но использование одной лишь полногеномной амплификации может помешать точному анализу желательного маркера, поскольку высокая гомология между CYP2D6 и псевдогенами, такими как CYP2D7 и CYP2D8, будет обычно усложнять последующее генотипирование из-за вклада последних в сильный неспецифический фоновый сигнал при исследованиях маркеров CYP2D6 (например, ОНП), представляющих интерес. Как будет понятно квалифицированному специалисту в данной области техники, такой высокий неспецифический фон, создаваемый псевдогенами и другими последовательностями с высокой степенью гомологии, также мешает другим маркерам, представляющим интерес, таким как ABCC2, CFTR, CYP1A2, CYP2A6, CYP2B6, CYP2C19, CYP2C8, CYP2C9, GSTM1 и SULT1A1.

В некоторых вариантах реализации, может быть получен образец геномной ДНК (например, путем экстракции), который может быть подвергнут полногеномной амплификации. Может быть проведена локус-специфическая мПЦР-амплификация образца по последовательности, представляющей интерес, и образец может быть фрагментирован и гибридизован с матрицей для мультиаллельного генотипирования.

Фигура 11 показывает пример схемы последовательности стадий для раскрытого подхода к амплификации в соответствии с одним или несколькими аспектами данного изобретения. В этом примере, продукт ПЦР CYP2D6 размером 5,6 т.п.о. может быть добавлен к Axiom® на двух разных стадиях последовательности выполняемых действий: перед полногеномной амплификацией или после полногеномной амплификации. В некоторых вариантах реализации, такая последовательность выполняемых действий может обеспечивать анализ ок.100 вариантов (2973 наборов проб) при использовании одного продукта ПЦР.

Фигура 12 показывает графики результатов, полученных при испытаниях двух процедур использования амплифицированных методом ПЦР мишеней. Графики на Фигуре 12 показывают результаты кластерного анализа, полученные при амплификации одного ампликона, полностью включающего CYP2D6. В некоторых вариантах реализации, процедуры использования ПЦР-амплифицированных мишеней могут давать немного улучшенные показатели конверсии (conversion rate) ОНП. Однако, для оценки влияния на сложные маркеры могут потребоваться более масштабные исследования.

В некоторых вариантах реализации, в способах амплификации Axiom® DMET, раскрытых в данном документе, может использоваться робастная (robust) химическая платформа Axiom 2.0 с похожей последовательностью выполняемых действий, 24-луночным форматом, ручными процессами подготовки мишени и манипуляциями с реагентами. Стадия мПЦР может быть включена в последовательность выполняемых действий Axiom® с использованием коммерчески доступных наборов для мПЦР, таких как набор для мультиплексной ПЦР QIAGEN. В некоторых вариантах реализации, продукты мПЦР могут добавляться после полногеномной амплификации, до фрагментирования ДНКазой в последовательности выполняемых действий.

Фигура 13 показывает пример схемы последовательности выполняемых действий в раскрытом подходе к амплификации в соответствии с одним или несколькими аспектами данного изобретения.

Фигура 14 показывает таблицу мультиплексных наборов праймеров, испытанных на пригодность в соответствии с одним или несколькими аспектами данного изобретения.

Дополнительно, исследования со смесью олигонуклеотидов с известным количественным соотношением компонентов могут помочь идентифицировать чувствительные пробы. В одном примере, 70-мерные олигомеры были синтезированы для мономорфов уровня (Tier) 1 (например, аллели A, B, C, D). Олигомеры имеют две спаренные цепи и вырожденные последовательности в неоднозначных (wobble) положениях. Амплифицированную гДНК анализируют на планшете с микрочипами DMET и регистрируют сигналы зондов. Фигура 15 показывает пример результатов генотипирования, полученных для исследований с использованием смеси олигонуклеотидов с известным количественным соотношением компонентов. Как видно на Фигуре 15, первый набор проб оказался нечувствительным, в то время как второй набор проб продемонстрировал дозозависимый ответ.

Фигура 16 показывает пример таблицы результатов 15-плексного анализа методом мультиплексной ПЦР (мПЦР) в соответствии с одним или несколькими аспектами данного изобретения. В некоторых вариантах реализации может быть использован набор для мультиплексной ПЦР Qiagen Multiplex PCR Plus Kit (PN 206151 или 206152) по протоколу мПЦР. Как показывают результаты, представленные на Фигуре 16, три ОНП с частотой минорного аллеля (MAF) ≥1% наблюдались в последовательности праймера, выносимого с DMET Plus. Референсный вариант ОНП rs76015180 присутствовал на критическом 3'-конце праймера 1-0214 и, как было продемонстрировано, влиял на амплификацию.

Хотя предмет настоящего изобретения был описан с использованием терминологии, специфической для структурных особенностей и/или методологии действий, следует понимать, что предмет изобретения, сформулированный в приложенной формуле изобретения, не обязательно будет ограничен конкретными признаками или действиями, описанными выше. Скорее, конкретные признаки и действия, описанные выше, приводятся в качестве примеров реализации нижеследующей формулы изобретения.

Похожие патенты RU2706203C1

название год авторы номер документа
ГЕНЕТИЧЕСКИЕ МАРКЕРЫ ДЛЯ ПРОГНОЗИРОВАНИЯ ОТВЕТА НА ТЕРАПИЮ ПОДНИМАЮЩИМИ УРОВЕНЬ HDL ИЛИ ИМИТИРУЮЩИМИ HDL АГЕНТАМИ 2015
  • Дюбе Мари-Пьер
  • Тардиф Жан-Клод
RU2703192C2
БИОМАРКЕРЫ ДЛЯ ОЦЕНКИ ЭФФЕКТИВНОСТИ АЛИСКИРЕНА В КАЧЕСТВЕ ГИПЕРТЕНЗИВНОГО АГЕНТА 2006
  • Гу Джесси
  • Мейер Джоанне
RU2408363C2
ПРОГНОЗИРОВАНИЕ ПРОГРЕССИРОВАНИЯ ВОЗРАСТНОЙ МАКУЛОДИСТРОФИИ ДО ПОЗДНЕЙ СТАДИИ С ПОМОЩЬЮ ПОЛИГЕННОГО ПОКАЗАТЕЛЯ 2011
  • Беренс, Тимоти, В.
  • Грэхем, Роберт, Р.
RU2593954C2
ЧЕЛОВЕЧЕСКИЕ ГЕНЕТИЧЕСКИЕ МАРКЕРЫ, АССОЦИИРОВАННЫЕ С ОТВЕТОМ НА СРЕДСТВА ДЛЯ ЛЕЧЕНИЯ, КОТОРЫЕ ЦЕЛЕНАПРАВЛЕННО ВОЗДЕЙСТВУЮТ НА ТОКСИН B CLOSTRIDIUM DIFFICILE 2017
  • Шоу, Питер, М.
  • Мехротра, Деван, В.
  • Бланчард, Ребекка, Л.
  • Шэнь, Цзюйдун
  • Могг, Робин
  • Дорр, Мэри Бет
  • Ли, Цзюньхуа
  • Сюй, Сюнь
RU2761249C2
СПОСОБЫ НЕИНВАЗИВНОГО ПРЕНАТАЛЬНОГО УСТАНОВЛЕНИЯ ПЛОИДНОСТИ 2011
  • Рабиновитц, Мэтью
  • Джемелос, Джордж
  • Банджевик, Милена
  • Райан, Эллисон
  • Демко, Закари
  • Хилл, Мэтью
  • Зиммерман, Бернхард
  • Банер, Йохан
RU2671980C2
Набор олигонуклеотидных праймеров и способ генотипирования однонуклеотидного полиморфизма rs8065080 в гене TRPV1 человека 2020
  • Давидюк Юрий Николаевич
  • Якубова Алия Шамильевна
  • Ризванов Альберт Анатольевич
  • Гиниатуллин Рашид Асхатович
RU2748380C1
Способ определения Helicobacter pylori 2017
  • Бастия Филиппо
RU2744190C1
СПОСОБЫ И КОМПОЗИЦИИ ДЛЯ ВЫСОКОМУЛЬТИПЛЕКСНОЙ ПЦР 2012
  • Циммерманн Бернхард
  • Хилл Мэттью М.
  • Лакроут Филипп Гилберт
  • Додд Майкл
RU2650790C2
СПОСОБ ПРОГНОЗИРОВАНИЯ РИСКА РАЗВИТИЯ БРОНХИАЛЬНОЙ АСТМЫ 2012
  • Хуснутдинова Эльза Камилевна
  • Карунас Александра Станиславовна
  • Федорова Юлия Юрьевна
  • Нургалиева Альфия Хаматьяновна
  • Юнусбаев Баязит Булатович
RU2510508C1
Способ генотипирования гена TLR2 по полиморфизму rs5743708 и набор олигонуклеотидных праймеров и зондов для его реализации 2023
  • Саламайкина Светлана Андреевна
  • Миронов Константин Олегович
  • Есьман Анна Сергеевна
  • Поздышева Елена Алексеевна
  • Акимкин Василий Геннадьевич
RU2805861C1

Иллюстрации к изобретению RU 2 706 203 C1

Реферат патента 2019 года МУЛЬТИАЛЛЕЛЬНОЕ ГЕНОТИПИРОВАНИЕ ОДНОНУКЛЕОТИДНЫХ ПОЛИМОРФИЗМОВ И ИНДЕЛ-МУТАЦИЙ

Изобретение относится к области биотехнологии и молекулярной биологии. Предложен способ генотипирования одного или нескольких мультиаллельных маркеров, включающий получение сигналов одного или нескольких мультиаллельных маркеров в одном или нескольких образцах, с последующей кластеризацией сигналов для каждой пары аллелей, регистрацию сигналов одного или нескольких альтернативных аллелей для расчета фонового сигнала для одного или нескольких аллелей, с получением множества фоновых сигналов, каждый из которых представляет соответствующий аллель, присваивание исходного значения проявления генотипа каждого образца для каждой пары аллелей на основании сигналов и фоновых сигналов, расчет многомерного нормального распределения для каждого кластера, для каждого многомерного нормального распределения каждого кластера, расчет логарифмического правдоподобия принадлежности каждого образца, на основании логарифмического правдоподобия принадлежности, расчет, для каждого образца, вероятности принадлежности к каждому кластеру, присваивание конечного значения проявления генотипа каждому образцу на основании вероятности принадлежности. Способ может быть использован в генетике и медицине. 10 з.п. ф-лы, 16 ил., 1 табл.

Формула изобретения RU 2 706 203 C1

1. Способ генотипирования одного или нескольких мультиаллельных маркеров, с использованием компьютерной системы, включающий:

получение сигналов одного или нескольких мультиаллельных маркеров в одном или нескольких образцах, где один или несколько мультиаллельных маркеров содержат три или более возможных аллелей;

для каждого мультиаллельного маркера, кластеризацию сигналов для каждой пары аллелей в множестве пар аллелей из одного или нескольких образцов, с получением кластеров, содержащих каждый пару аллелей;

для каждого гомозиготного кластера, содержащего гомозиготную пару аллелей, регистрацию сигналов одного или нескольких альтернативных аллелей для расчета фонового сигнала для одного или нескольких аллелей, с получением множества фоновых сигналов, каждый из которых представляет соответствующий аллель;

присваивание исходного значения проявления генотипа каждого образца для каждой пары аллелей на основании сигналов и фоновых сигналов;

расчет многомерного нормального распределения для каждого кластера с использованием исходных проявлений генотипов и параметров априорного распределения кластеров;

для каждого многомерного нормального распределения каждого кластера, расчет логарифмического правдоподобия принадлежности каждого образца;

на основании логарифмического правдоподобия принадлежности, расчет, для каждого образца, вероятности принадлежности к каждому кластеру;

присваивание конечного значения проявления генотипа каждому образцу на основании вероятности принадлежности;

таким образом, осуществляют генотипирование мультиаллельных маркеров.

2. Способ по п. 1, отличающийся тем, что один или несколько мультиаллельных маркеров содержат однонуклеотидные полиморфизмы (ОНП) и индел-мутации.

3. Способ по п. 1, отличающийся тем, что присваивание исходных значений проявления генотипов дополнительно включает:

для каждой пары аллелей, идентификацию подмножества образцов, для которых сигнал не превышает фоновый сигнал в любом из альтернативных аллелей;

для каждой пары аллелей, определение того, что число образцов в подмножестве образцов превышает предварительно заданное минимальное значение; и

для каждой пары аллелей, генотипирование каждого образца в подмножестве образцов по двум аллелям, представленным в соответствующей паре аллелей.

4. Способ по п. 1, отличающийся тем, что присваивание исходных значений проявления генотипов каждого образца дополнительно включает:

сравнение проявлений каждого образца для выбора проявления, наиболее часто наблюдающегося в каждом образце, причем в случае разделения проявлений поровну образцу присваивают значение ʺнеопределенное проявлениеʺ.

5. Способ по п. 1, отличающийся тем, что расчет логарифмического правдоподобия принадлежности каждого образца рассчитывают с использованием

где |Σ| означает детерминант ковариации;

где x обозначает вектор k-мерного столбца, включающий сигнал образца для набора проб;

где k обозначает число сигналов для набора проб.

6. Способ по п. 1, отличающийся тем, что присваивание конечного значения проявления генотипа дополнительно включает:

отнесение каждого образца к конкретному кластеру, к которому образец имеет наибольшую вероятность принадлежности, в результате чего каждый образец соотносится с кластером; и

присваивание конечного значения генотипа на основании отнесения каждого образца к кластеру.

7. Способ по п. 1, дополнительно включающий:

расчет доверительного значения для каждого образца, отличающийся тем, что доверительное значение включает вероятность принадлежности образца к любому другому кластеру;

сравнение доверительного значения каждого образца с предварительно заданным пороговым значением; и

присваивание значения ʺнеопределенное проявлениеʺ каждому образцу, имеющему доверительное значение выше предварительно заданного порогового значения.

8. Способ по п. 1, дополнительно включающий:

расчет среднего, дисперсии, и стандартного отклонения фонового сигнала для каждого соответствующего аллеля.

9. Способ по п. 8, отличающийся тем, что для аллеля используют фоновый сигнал совокупной оценки при отсутствии значений для расчета среднего, дисперсии и стандартного отклонения фонового сигнала для аллеля, и тем, что фоновый сигнал совокупной оценки представляет собой среднее множества фоновых сигналов.

10. Способ по п. 8, отличающийся тем, что расчет среднего, дисперсии и стандартного отклонения фонового сигнала для каждого соответствующего аллеля дополнительно включает расчет с использованием следующих уравнений:

где avgSigallele обозначает средний сигнал для аллеля,

allelehom обозначает сигнал гомозиготных проявлений для этого аллеля,

nsigallele обозначает общее число образцов, вносящих вклад в сигналы;

bgndallele обозначает фоновое значение для аллеля,

|Σ|allelein hom call not = allele обозначает сигнал для этого аллеля при гомозиготных проявлениях, когда проявление не соответствует аллелю;

avgBgndallele обозначает среднее фона аллеля;

weightedAvgBgnd обозначает взвешенное среднее фона;

varianceBgndallele обозначает дисперсию фона;

stdevBgndallele обозначает стандартное отклонение фона; и

weightedAvgStDevBgnd обозначает взвешенное среднее стандартное отклонение фона.

11. Способ по п. 1, отличающийся тем, что регистрация сигналов для одного или нескольких мультиаллельных маркеров в одном или нескольких образцах основана на гибридизации образцов с множеством зондов на матрице для измерений мультиаллельных маркеров.

Документы, цитированные в отчете о поиске Патент 2019 года RU2706203C1

US 20120221255 A2, 30.08.2012
US 20080131894 A1, 05.06.2008
US 20130261196 A1, 03.10.2013
WO2008064687 A1, 05.06.2008
Б
ГЛИК
Молекулярная биотехнология
Москва
Мир
Топчак-трактор для канатной вспашки 1923
  • Берман С.Л.
SU2002A1
стр
Способ получения молочной кислоты 1922
  • Шапошников В.Н.
SU60A1

RU 2 706 203 C1

Авторы

Голлуб Джереми Натан

Шаперо Майкл Х.

Оливер Дороти

Блэк Дебора

Сиддики Фарук

Даты

2019-11-14Публикация

2016-10-18Подача