Настоящая заявка испрашивает преимущество и приоритет по заявке на выдачу патента США на изобретение с серийным №13/683604, которая была подана 21 ноября 2012 г., и предварительной заявки на выдачу патента США №61/675020, которая была подана 24 июля 2012 г. Заявка на выдачу патента США на изобретение с серийным №13/683604 представляет собой частичное продолжение заявки на выдачу патента США на изобретение с серийным №13/300235, которая была подана 18 ноября 2011 г., представляет собой частичное продолжение заявки на выдачу патента США на изобретение с серийным №13/110685, которая была подана 18 мая 2011 г., и испрашивает приоритет по предварительной заявке на выдачу патента США №61/675020, которая была подана 24 июля 2012 г. Заявка на выдачу патента США на изобретение с серийным №13/110685 испрашивает приоритет по предварительной заявке на выдачу патента США №61/395 850, которая была подана 18 мая 2010 г.; предварительной заявке на выдачу патента США №61/398 159, которая была подана 21 июня 2010 г.; предварительной заявке на выдачу патента США №61/462972, которая была подана 9 февраля 2011 г.; предварительной заявке на выдачу патента США №61/448547, которая была подана 2 марта 2011 г.; и предварительной заявке на выдачу патента США №61/516996, которая была подана 12 апреля 2011 г. Заявка на выдачу патента США на изобретение с серийным №13/300235 испрашивает приоритет по предварительной заявке на выдачу патента США №61/571248, которая была подана 23 июня 2011 г.Содержание всех указанных заявок полностью включено в настоящий документ посредством ссылки.
ЗАЯВЛЕНИЕ О СПОНСИРУЕМЫХ ПРАВИТЕЛЬСТВОМ НАУЧНО-ИССЛЕДОВАТЕЛЬСКИХ РАЗРАБОТКАХ
Настоящая работа была поддержана грантом №5R44HD60423-3, выданным Национальными институтами здоровья (National Institutes of Health). Правительство США может обладать правами по любому выданному на основании настоящей заявки патенту.
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Настоящее изобретение в целом относится к способам и композициям для одновременной амплификации множественных представляющих интерес областей нуклеиновых кислот в одном реакционном объеме.
УРОВЕНЬ ТЕХНИКИ
Для повышения производительности анализа и обеспечения наиболее эффективного использования образцов нуклеиновых кислот может проводиться одновременная амплификация множества целевых нуклеиновых кислот в представляющем интерес образце путем объединения множества олигонуклеотидных праймеров с образцом и последующего помещения образца в условия полимеразной цепной реакции (ПНР) в ходе процесса, известного в данной области техники как «мультиплексная ПЦР». Применение мультиплексной ПЦР может значительно упростить процедуры тестирования и сократить время, необходимое для анализа и обнаружения нуклеиновых кислот. Однако при добавлении множественных пар в одну ПЦР-реакцию могут образовываться нецелевые продукты амплификации, такие как амплифицированные димеры праймеров. Риск образования таких продуктов возрастает с увеличением числа праймеров. Указанные нецелевые ампликоны значительно ограничивают применение амплифицированных продуктов для дальнейшего анализа и/или испытаний. Соответственно, существует потребность в усовершенствованных способах для уменьшения образования нецелевых ампликонов при мультиплексной ПЦР.
Улучшенные способы мультиплексной ПЦР могут подходить для разнообразных приложений, например, для неинвазивной пренатальной генетической диагностики (NPD). В частности, современные способы пренатальной диагностики могут предупреждать врачей и родителей о патологиях у растущего плода. Без пренатальной диагностики один ребенок из 50 рождается с серьезным физическим или умственным дефектом, а один из 30 будет страдать некоторой формой врожденного порока развития. К сожалению, стандартные способы либо обладают недостаточной точностью, либо предусматривают инвазивную процедуру, которая сопровождается риском самопроизвольного аборта. Способы на основе содержания гормонов в материнской крови или ультразвуковых измерений являются неинвазивными, однако, они также характеризуются низкой точностью. Такие способы, как амниоцентез, биопсия ворсин хориона и забор образцов плодной крови характеризуются высокой точностью, но являются инвазивными и влекут за собой значительный риск. Амниоцентез выполнялся приблизительно при 3% всех беременностей в США, хотя за последние 15 лет частота его применения снизилась.
В норме у людей в каждой здоровой диплоидной клетке имеется два набора из 23 хромосом, по одной копии от каждого родителя. Считается, что анеуплоидия, состояние ядерной клетки, при котором клетка содержит слишком много и/или слишком мало хромосом, отвечает за значительный процент неудачных имплантаций, самопроизвольных абортов и генетических заболеваний. Выявление хромосомных аномалий может идентифицировать индивидуумов или эмбрионы с такими состояниями, как синдром Дауна, синдром Клайнфельтера и синдром Тернера, наряду с прочими, помимо повышения шансов на успешную беременность. Важность тестирования на хромосомные аномалии, в частности, возрастает с увеличением возраста матери: подсчитано, что у матерей в возрасте 35-40 лет по меньшей мере 40% эмбрионов являются анормальными, а у матерей в возрасте более 40 лет анормальными являются более половины эмбрионов.
Недавно было обнаружено, что бесклеточная плодная ДНК и интактные плодные клетки могут попадать в кровоток матери. Следовательно, анализ этого генетического материала может обеспечить раннюю неинвазивную пренатальную генетическую диагностику (NPD). Существует потребность в усовершенствованных способах для повышения чувствительности и специфичности, уменьшения временных затрат и стоимости NPD.
КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
Согласно одному аспекту в настоящем изобретении предложены способы амплификации целевых локусов в образце нуклеиновой кислоты. Согласно некоторым вариантам осуществления указанный способ включает (i) приведение указанного образца нуклеиновой кислоты в контакт с библиотекой тестовых праймеров, которые одновременно гибридизуются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; или 100000 разных целевых локусов, в результате чего получают реакционную смесь; и (ii) помещение реакционной смеси в условия реакции удлинения праймеров, в результате чего получают амплифицированные продукты, которые включают целевые ампликоны. Согласно некоторым вариантам осуществления указанный способ также включает определение присутствия или отсутствия по меньшей мере одного целевого ампликона (например, по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% целевых ампликонов). Согласно некоторым вариантам осуществления указанный способ также включает определение последовательности по меньшей мере одного целевого ампликона (например, по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% целевых ампликонов).
Согласно различным вариантам осуществления любых аспектов настоящего изобретения амплифицируют по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; или 100000 разных целевых локусов. Согласно некоторым вариантам осуществления по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% амплифицированных продуктов представлено целевыми ампликонами. Согласно некоторым вариантам осуществления амплифицируют по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% целевых локусов. Согласно различным вариантам осуществления менее чем 60, 50, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0,5, 0,25, 0,1 или 0,05% амплифицированных продуктов представлено димерами праймеров. Согласно некоторым вариантам осуществления библиотека тестовых праймеров включает по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; или 100000 пар тестовых праймеров, при этом каждая пара праймеров включает прямой тестовый праймер и обратный тестовый праймер, которые гибридизуются с одним и тем же целевым локусом. Согласно некоторым вариантам осуществления библиотека тестовых праймеров включает по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; или 100000 индивидуальных тестовых праймеров, которые гибридизуются с разными целевыми локусами, при этом указанные индивидуальные праймеры не входят в состав пар праймеров.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения концентрация каждого тестового праймера составляет менее 100, 75, 50, 25, 10, 5, 2 или 1 нМ. Согласно различным вариантам осуществления содержание GC в тестовых праймерах составляет от 30 до 80%, например, от 40 до 70% или от 50 до 60% включительно. Согласно некоторым вариантам осуществления диапазон содержания GC (например, разность максимального содержания GC и минимального содержания GC, например, 80%-60% = диапазон, составляющий 20%) тестовых праймеров составляет менее 30, 20, 10 или 5%. Согласно некоторым вариантам осуществления температура плавления (Тm) тестовых праймеров составляет от 40 до 80°C, например, от 50 до 70°C, от 55 до 65°C, или от 57 до 60,5°C включительно. Согласно некоторым вариантам осуществления диапазон температур плавления тестовых праймеров составляет менее 20, 15, 10, 5, 3 или 1°C. Согласно некоторым вариантам осуществления длина тестовых праймеров составляет от 15 до 100 нуклеотидов, например, от 15 до 75 нуклеотидов, от 15 до 40 нуклеотидов, от 17 до 35 нуклеотидов, от 18 до 30 нуклеотидов, от 20 до 65 нуклеотидов включительно. Согласно некоторым вариантам осуществления тестовые праймеры содержат маркер, не являющийся специфичным по отношению к цели, например, маркер, образующий внутреннюю петлевую структуру. Согласно некоторым вариантам осуществления указанный маркер расположен между двумя ДНК-связывающими областями. Согласно различным вариантам осуществления тестовые праймеры содержат 5'-область, являющуюся специфической в отношении целевого локуса, внутреннюю область, не являющуюся специфической в отношении целевого локуса и образующую петлевую структуру, и 3'-область, являющуюся специфической в отношении целевого локуса. Согласно различным вариантам осуществления длина 3'-области составляет по меньшей мере 7 нуклеотидов. Согласно некоторым вариантам осуществления длина 3'-области составляет от 7 до 20 нуклеотидов, например, от 7 до 15 нуклеотидов, или от 7 до 10 нуклеотидов включительно. Согласно различным вариантам осуществления тестовые праймеры содержат 5'-область, не являющуюся специфической в отношении целевого локуса (такую как маркер или сайт связывания универсального праймера), за которой следует область, являющаяся специфической в отношении целевого локуса, внутренняя область, не являющаяся специфической в отношении целевого локуса и образующая петлевую структуру, и 3'-область, являющаяся специфической в отношении целевого локуса. Согласно некоторым вариантам осуществления диапазон длин тестовых праймеров составляет менее 50, 40, 30, 20, 10 или 5 нуклеотидов. Согласно некоторым вариантам осуществления длина целевых ампликонов составляет от 50 до 100 нуклеотидов, например, от 60 до 80 нуклеотидов, или от 60 до 75 нуклеотидов включительно. Согласно некоторым вариантам осуществления диапазон длин целевых ампликонов составляет менее 50, 25, 15, 10 или 5 нуклеотидов.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения условия реакции удлинения праймеров представляют собой условия полимеразной цепной реакции (ПЦР). Согласно различным вариантам осуществления продолжительность этапа отжига составляет более 3, 5, 8, 10 или 15 минут. Согласно различным вариантам осуществления продолжительность этапа удлинения составляет более 3, 5, 8, 10 или 15 минут.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения тестовые праймеры применяют для одновременной амплификации по меньшей мере 1000 разных целевых локусов в образце, который содержит материнскую ДНК от беременной матери плода и плодную ДНК, для определения присутствия или отсутствия хромосомных аномалий плода. Согласно различным вариантам осуществления указанный способ включает лигирование сайта связывания универсального праймера с молекулами ДНК в указанном образце; амплификация лигированных молекул ДНК с применением по меньшей мере 1000 специфических праймеров и универсального праймера, в результате чего получают первый набор амплифицированных продуктов; и амплификация первого набора амплифицированных продуктов с применением по меньшей мере 1000 пар специфических праймеров, в результате чего получают второй набор амплифицированных продуктов. Согласно различным вариантам осуществления применяют по меньшей мере 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4 000; 50000; 75000; или 100000 разных пар праймеров.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения тестовые праймеры применяют для одновременной амплификации по меньшей мере 1000 разных целевых локусов в образце, который содержит ДНК от предполагаемого отца плода, и одновременной амплификации целевых локусов в образце, который содержит материнскую ДНК от беременной матери указанного плода и плодную ДНК, для определения, является ли предполагаемый отец биологическим отцом указанного плода.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения тестовые праймеры применяют для одновременной амплификации по меньшей мере 1000 разных целевых локусов в одной клетке или множестве клеток эмбриона для определения присутствия или отсутствия хромосомных аномалий. Согласно различным вариантам осуществления исследуют клетки из группы, включающей два или более эмбрионов, и один эмбрион отбирают для оплодотворения in vitro.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения тестовые праймеры применяют для одновременной амплификации по меньшей мере 1000 разных целевых локусов в образце нуклеиновой кислоты для судебно-технической экспертизы. Согласно различным вариантам осуществления продолжительность этапа отжига составляет более 3, 5, 8, 10 или 15 минут.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения способ включает применение тестовых праймеров для одновременной амплификации по меньшей мере 1000 разных целевых локусов в контрольном образце нуклеиновой кислоты, в результате чего получают первый набор целевых ампликонов, и для одновременной амплификации указанных целевых локусов в тестируемом образце нуклеиновой кислоты, в результате чего получают второй набор целевых ампликонов; и сравнение первого и второго наборов целевых ампликонов для определения того, присутствует ли целевой локус в одном образце, отсутствуя при этом в другом, или того, присутствует ли целевой локус с разными титрами в контрольном образце и в тестируемом образце. Согласно различным вариантам осуществления указанный тестируемый образец получен от индивидуума, у которого предположительно имеется представляющее интерес заболевание или фенотип (например, раковое заболевание) или повышенный риск представляющего интерес заболевания или фенотипа; и при этом один или большее число целевых локусов содержат последовательность (например, полиморфизм или другую мутацию), связанную с повышенным риском представляющего интерес заболевания или фенотипа, или связанную с представляющим интерес заболеванием или фенотипом. Согласно различным вариантам осуществления указанный способ включает применение тестовых праймеров для одновременной амплификации 1000 разных целевых локусов в контрольном образце, который содержит РНК, в результате чего получают первый набор целевых ампликонов, и для одновременной амплификации указанных целевых локусов в тестируемом образце, который содержит РНК, в результате чего получают второй набор целевых ампликонов; и сравнение первого и второго наборов целевых ампликонов для определения присутствия или отсутствия разницы в уровнях экспрессии РНК между контрольным образцом и тестируемым образцом. Согласно различным вариантам осуществления указанная РНК представляет собой мРНК. Согласно различным вариантам осуществления тестируемый образец получен от индивидуума, у которого предположительно имеется представляющее интерес заболевание или фенотип (например, раковое заболевание) или повышенный риск представляющего интерес заболевания или фенотипа (например, ракового заболевания); и при этом один или большее число целевых локусов содержат последовательность (например, полиморфизм или другую мутацию), связанную с повышенным риском представляющего интерес заболевания или фенотипа, или связанную с представляющим интерес заболеванием или фенотипом. Согласно некоторым вариантам осуществления тестируемый образец получен от индивидуума, у которого диагностировано представляющее интерес заболевание или фенотип (например, раковое заболевание); и при этом различие уровня экспрессии РНК между контрольным образцом и тестируемым образцом указывает на то, что целевой локус содержит последовательность (например, полиморфизм или другую мутацию), связанную с повышенным или пониженным риском представляющего интерес заболевания или фенотипа.
Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения тестовые праймеры выбирают из библиотеки кандидатных праймеров на основании одного или нескольких параметров, например, проводят отбор праймеров с применением любых способов согласно настоящему изобретению. Согласно некоторым вариантам осуществления тестовые праймеры выбирают из библиотеки кандидатных праймеров по меньшей мере отчасти на основании способности указанных кандидатных праймеров образовывать димеры праймеров.
Согласно одному аспекту в настоящем изобретении предложены способы отбора тестовых праймеров из библиотеки кандидатных праймеров. Согласно различным вариантам осуществления указанный отбор включает (i) вычисление на компьютере балла нежелательности для большей части или для всех возможных комбинаций двух кандидатных праймеров из библиотеки, при этом каждый балл нежелательности основан по меньшей мере отчасти на вероятности образования димеров между двумя кандидатными праймерами; (ii) удаление кандидатного праймера с максимальным баллом нежелательности из библиотеки кандидатных праймеров; и (iii), в том случае, если кандидатный праймер, удаленный на этапе (ii), представляет собой член пары праймеров, удаление другого члена указанной пары праймеров из библиотеки кандидатных праймеров; и (iv) необязательно повторение этапов (ii) и (iii), что обеспечивает отбор библиотеки тестовых праймеров. Согласно некоторым вариантам осуществления указанный способ отбора используют до тех пор, пока все баллы нежелательности для комбинаций кандидатных праймеров, остающихся в библиотеке, не сравняются с минимальным порогом или не опустятся ниже минимального порога. Согласно некоторым вариантам осуществления указанный способ отбора используют до тех пор, пока количество кандидатных праймеров, остающихся в библиотеке, не снизится до требуемого количества. Согласно различным вариантам осуществления балл нежелательности рассчитывают по меньшей мере для 80, 90, 95, 98, 99 или 99,5% возможных комбинаций кандидатных праймеров в библиотеке. Согласно различным вариантам осуществления кандидатные праймеры, остающиеся в библиотеке, способны одновременно амплифицировать по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов. Согласно различным вариантам осуществления указанный способ также включает (v) приведение образца нуклеиновой кислоты, который содержит целевые локусы, в контакт с кандидатными праймерами, остающимися в библиотеке, в результате чего получают реакционную смесь; и (vi) помещение реакционной смеси в условия реакции удлинения праймеров, в результате чего получают амплифицированные продукты, которые включают целевые ампликоны.
Согласно одному аспекту в настоящем изобретении предложены способы отбора тестовых праймеров из библиотеки кандидатных праймеров. Согласно различным вариантам осуществления указанный выбор тестовых праймеров из библиотеки кандидатных праймеров включает (i) вычисление на компьютере балла нежелательности для большей части или для всех возможных комбинаций двух кандидатных праймеров из библиотеки, при этом каждый балл нежелательности основан по меньшей мере отчасти на вероятности образования димеров между двумя кандидатными праймерами; (ii) удаление из библиотеки кандидатных праймеров кандидатного праймера, который входит в состав наибольшего числа комбинаций двух кандидатных праймеров с баллом нежелательности выше первого минимального порога; (iii) в том случае, если кандидатный праймер, удаленный на этапе (ii), представляет собой член пары праймеров, удаление другого члена указанной пары праймеров из библиотеки кандидатных праймеров; и (iv) необязательно повторение этапов (ii) и (iii), что обеспечивает отбор библиотеки тестовых праймеров. Согласно некоторым вариантам осуществления указанный способ отбора используют до тех пор, пока все баллы нежелательности для комбинаций кандидатных праймеров, остающихся в библиотеке, не сравняются с первым минимальным порогом или не опустятся ниже первого минимального порога. Согласно некоторым вариантам осуществления указанный способ отбора используют до тех пор, пока количество кандидатных праймеров, остающихся в библиотеке, не снизится до требуемого количества. Согласно различным вариантам осуществления балл нежелательности рассчитывают по меньшей мере для 80, 90, 95, 98, 99 или 99,5% возможных комбинаций кандидатных праймеров в библиотеке. Согласно различным вариантам осуществления кандидатные праймеры, остающиеся в библиотеке, способны одновременно амплифицировать по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов. Согласно различным вариантам осуществления указанный способ также включает (v) приведение образца нуклеиновой кислоты, который содержит целевые локусы, в контакт с кандидатными праймерами, остающимися в библиотеке, в результате чего получают реакционную смесь; и (vi) помещение реакционной смеси в условия реакции удлинения праймеров, в результате чего получают амплифицированные продукты, которые включают целевые ампликоны.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения указанный способ отбора включает дополнительное снижение числа кандидатных праймеров, остающихся в библиотеке, путем снижения первого минимального порога, используемого на этапе (ii), до более низкого второго минимального порога и, необязательно, повторение этапов (ii) и (iii). Согласно некоторым вариантам осуществления указанный способ отбора включает повышение первого минимального порога, используемого на этапе (ii), до более высокого второго минимального порога и, необязательно, повторение этапов (ii) и (iii). Согласно некоторым вариантам осуществления указанный способ отбора используют до тех пор, пока все баллы нежелательности для комбинаций кандидатных праймеров, остающихся в библиотеке, не сравняются со вторым минимальным порогом или не опустятся ниже второго минимального порога, или до тех пор, пока количество кандидатных праймеров, остающихся в библиотеке, не снизится до требуемого количества.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения указанный способ включает, до этапа (i), идентификацию или отбор праймеров, которые гибридизуются с целевыми локусами. Согласно некоторым вариантам осуществления множество праймеров (или пар праймеров) гибридизуются с одним и тем же целевым локусом, и указанный способ отбора используют для выбора одного праймера (или одной пары праймеров) для указанного целевого локуса на основании одного или нескольких параметров. Согласно различным вариантам осуществления указанный способ включает, до этапа (ii), удаление из библиотеки пары праймеров, дающей целевой ампликон, который перекрывается с целевым ампликоном, получаемым с помощью другой пары праймеров. Согласно различным вариантам осуществления кандидатный праймер выбирают из группы двух или более кандидатных праймеров с равными баллами нежелательности для удаления из библиотеки кандидатных праймеров на основании одного или нескольких других параметров. Согласно некоторым вариантам осуществления кандидатные праймеры, остающиеся в библиотеке, используют в качестве библиотеки тестовых праймеров в любых способах согласно настоящему изобретению. Согласно некоторым вариантам осуществления полученная библиотека тестовых праймеров включает любые из библиотек праймеров согласно настоящему изобретению.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения баллы нежелательности основаны по меньшей мере отчасти на одном или нескольких параметрах, выбранных из группы, состоящей из степени гетерозиготности целевого локуса, распространенности заболевания, связанной с последовательностью (например, полиморфизмом) в целевом локусе, пенетрантности заболевания, связанной с последовательностью (например, полиморфизмом) в целевом локусе, специфичности кандидатного праймера в отношении целевого локуса, размера кандидатного праймера, температуры плавления целевого ампликона, содержания GC в целевом ампликоне, эффективности амплификации целевого ампликона и размера целевого ампликона.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения баллы нежелательности основаны по меньшей мере отчасти на одном или нескольких параметрах, выбранных из группы, состоящей из степени гетерозиготности целевого локуса, специфичности кандидатного праймера в отношении целевого локуса; размера кандидатного праймера, температуры плавления целевого ампликона, содержания GC в целевом ампликоне, эффективности амплификации целевого ампликона и размера целевого ампликона; и тестовые праймеры применяют для одновременной амплификации по меньшей мере 1000 разных целевых локусов в образце, который содержит материнскую ДНК от беременной матери плода и плодную ДНК, для определения присутствия или отсутствия хромосомных аномалий плода. Согласно различным вариантам осуществления указанный способ включает лигирование сайта связывания универсального праймера с молекулами ДНК в указанном образце; амплификацию лигированных молекул ДНК с применением по меньшей мере 1000 специфических праймеров и универсального праймера, в результате чего получают первый набор амплифицированных продуктов; и амплификацию первого набора амплифицированных продуктов с применением по меньшей мере 1000 пар специфических праймеров, в результате чего получают второй набор амплифицированных продуктов. Согласно различным вариантам осуществления применяют по меньшей мере 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных пар праймеров. Согласно различным вариантам осуществления амплифицируют по меньшей мере 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4 000; 50000; 75000; или 100000 разных целевых локусов.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения баллы нежелательности основаны по меньшей мере отчасти на одном или нескольких параметрах, выбранных из группы, состоящей из степени гетерозиготности целевого локуса, специфичности кандидатного праймера в отношении целевого локуса; размера кандидатного праймера, температуры плавления целевого ампликона, содержания GC в целевом ампликоне, эффективности амплификации целевого ампликона и размера целевого ампликона; и тестовые праймеры применяют для одновременной амплификации по меньшей мере 1000 разных целевых локусов в образце, который содержит ДНК от предполагаемого отца плода, и для одновременной амплификации указанных целевых локусов в образце, который содержит материнскую ДНК от беременной матери плода и плодную ДНК, для определения, является ли предполагаемый отец биологическим отцом указанного плода. Согласно различным вариантам осуществления амплифицируют по меньшей мере 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения баллы нежелательности основаны по меньшей мере отчасти на одном или нескольких параметрах, выбранных из группы, состоящей из степени гетерозиготности целевого локуса, специфичности кандидатного праймера в отношении целевого локуса; размера кандидатного праймера, температуры плавления целевого ампликона, содержания GC в целевом ампликоне, эффективности амплификации целевого ампликона и размера целевого ампликона; и тестовые праймеры применяют для одновременной амплификации по меньшей мере 1000 разных целевых локусов в одной клетке или множестве клеток эмбриона для определения присутствия или отсутствия хромосомных аномалий. Согласно различным вариантам осуществления исследуют клетки из группы, включающей два или более эмбриона, и один эмбрион отбирают для оплодотворения in vitro. Согласно различным вариантам осуществления амплифицируют по меньшей мере 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения баллы нежелательности основаны по меньшей мере отчасти на одном или нескольких параметрах, выбранных из группы, состоящей из степени гетерозиготности целевого локуса, специфичности кандидатного праймера в отношении целевого локуса; размера кандидатного праймера, температуры плавления целевого ампликона, содержания GC в целевом ампликоне, эффективности амплификации целевого ампликона и размера целевого ампликона; и тестовые праймеры применяют для одновременной амплификации по меньшей мере 1000 разных целевых локусов в образце нуклеиновой кислоты для судебно-технической экспертизы. Согласно различным вариантам осуществления продолжительность этапа отжига составляет более 3, 5, 8, 10 или 15 минут. Согласно различным вариантам осуществления амплифицируют по меньшей мере 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; или 100000 разных целевых локусов.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения баллы нежелательности основаны по меньшей мере отчасти на одном или нескольких параметрах, выбранных из группы, состоящей из степени гетерозиготности целевого локуса, распространенности заболевания, связанной с последовательностью (например, полиморфизмом) в целевом локусе, пенетрантности заболевания, связанной с последовательностью (например, полиморфизмом) в целевом локусе, специфичностью кандидатного праймера в отношении целевого локуса, размера кандидатного праймера, температуры плавления целевого ампликона, содержания GC в целевом ампликоне, эффективности амплификации целевого ампликона и размера целевого ампликона; и указанный способ включает применение тестовых праймеров для одновременной амплификации по меньшей мере 1000 разных целевых локусов в контрольном образце нуклеиновой кислоты, в результате чего получают первый набор целевых ампликонов, и для одновременной амплификации указанных целевых локусов в тестируемом образце нуклеиновой кислоты, в результате чего получают второй набор целевых ампликонов; и сравнение первого и второго наборов целевых ампликонов для определения того, присутствует ли целевой локус в одном образце, отсутствуя при этом в другом, или того, присутствует ли целевой локус в контрольном образце и в тестируемом образце с разными титрами. Согласно различным вариантам осуществления указанный тестируемый образец получен от индивидуума, у которого предположительно имеется представляющее интерес заболевание или фенотип, или повышенный риск представляющего интерес заболевания или фенотипа; и при этом один или большее число целевых локусов содержат последовательность (например, полиморфизм) в целевом локусе, связанную с повышенным риском представляющего интерес заболевания или фенотипа, или связанную с представляющим интерес заболеванием или фенотипом. Согласно различным вариантам осуществления амплифицируют по меньшей мере 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения баллы нежелательности основаны по меньшей мере отчасти на одном или нескольких параметрах, выбранных из группы, состоящей из степени гетерозиготности целевого локуса, распространенности заболевания, связанной с последовательностью (например, полиморфизмом) в целевом локусе, пенетрантности заболевания, связанной с последовательностью (например, полиморфизмом) в целевом локусе, специфичности кандидатного праймера в отношении целевого локуса, размера кандидатного праймера, температуры плавления целевого ампликона, содержания GC в целевом ампликоне, эффективности амплификации целевого ампликона и размера целевого ампликона; и указанный способ включает применение тестовых праймеров для одновременной амплификации 1000 разных целевых локусов в контрольном образце, который содержит РНК, в результате чего получают первый набор целевых ампликонов, и для одновременной амплификации указанных целевых локусов в тестируемом образце, который содержит РНК, в результате чего получают второй набор целевых ампликонов; и сравнение первого и второго наборов целевых ампликонов для определения присутствия или отсутствия разницы в уровнях экспрессии РНК между контрольным образцом и тестируемым образцом. Согласно различным вариантам осуществления указанная РНК представляет собой мРНК. Согласно различным вариантам осуществления указанный тестируемый образец получен от индивидуума, у которого предположительно имеется представляющее интерес заболевание или фенотип (например, раковое заболевание) или повышенный риск представляющего интерес заболевания или фенотипа (например, ракового заболевания); и при этом один или большее число целевых локусов содержат последовательность (например, полиморфизм или другую мутацию), связанную с повышенным риском представляющего интерес заболевания или фенотипа, или связанную с представляющим интерес заболеванием или фенотипом. Согласно некоторым вариантам осуществления указанный тестируемый образец получен от индивидуума, у которого диагностировано представляющее интерес заболевание или фенотип (например, раковое заболевание); и при этом различие уровня экспрессии РНК между контрольным образцом и тестируемым образцом указывает на то, что целевой локус включает последовательность (например, полиморфизм или другую мутацию), связанную с повышенным или пониженным риском представляющего интерес заболевания или фенотипа. Согласно различным вариантам осуществления амплифицируют по меньшей мере 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов.
Согласно одному аспекту в настоящем изобретении предложены библиотеки праймеров. Согласно некоторым вариантам осуществления указанные праймеры выбирают из библиотеки кандидатных праймеров с применением любых способов согласно настоящему изобретению. Согласно некоторым вариантам осуществления библиотека содержит праймеры, которые одновременно гибридизуются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов. Согласно некоторым вариантам осуществления библиотека содержит праймеры, которые одновременно амплифицируют по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов. Согласно некоторым вариантам осуществления библиотека содержит праймеры, которые одновременно амплифицируют по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов таким образом, что менее чем 60; 40; 30; 20; 10; 5; 4; 3; 2; 1; 0,5; 0,25; 0,1; или 0,05% амплифицированных продуктов представлено димерами праймеров. Согласно некоторым вариантам осуществления библиотека содержит праймеры, которые одновременно амплифицируют 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов таким образом, что по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% амплифицированных продуктов представлено целевыми ампликонами. Согласно некоторым вариантам осуществления библиотека содержит праймеры, которые одновременно амплифицируют целевые локусы таким образом, что амплифицируется по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% целевых локусов из 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов. Согласно некоторым вариантам осуществления библиотека праймеров содержит по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 пар праймеров, при этом каждая пара праймеров включает прямой тестовый праймер и обратный тестовый праймер, при этом каждая пара тестовых праймеров гибридизуется с целевым локусом. Согласно некоторым вариантам осуществления библиотека праймеров содержит по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 индивидуальных праймеров, каждый из который гибридизуется с отличным целевым локусом, при этом указанные индивидуальные праймеры не входят в состав пар праймеров.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения концентрация каждого праймера составляет менее 100, 75, 50, 25, 10, 5, 2 или 1 нМ. Согласно различным вариантам осуществления содержание GC в праймерах составляет от 30 до 80%, например, от 40 до 70% или от 50 до 60% включительно. Согласно некоторым вариантам осуществления диапазон содержания GC в праймерах составляет менее 30, 20, 10, или 5%. Согласно некоторым вариантам осуществления температура плавления праймеров составляет от 40 до 80°C, например, от 50 до 70°C, от 55 до 65°C, или от 57 до 60,5°C включительно. Согласно некоторым вариантам осуществления диапазон температур плавления праймеров составляет менее 15, 10, 5, 3 или 1°C. Согласно некоторым вариантам осуществления длина праймеров составляет от 15 до 100 нуклеотидов, например, от 15 до 75 нуклеотидов, от 15 до 40 нуклеотидов, от 17 до 35 нуклеотидов, от 18 до 30 нуклеотидов, или от 20 до 65 нуклеотидов включительно. Согласно некоторым вариантам осуществления праймеры содержат маркер, не являющийся специфичным по отношению к цели, например, маркер, который образует внутреннюю петлевую структуру. Согласно некоторым вариантам осуществления указанный маркер расположен между двумя ДНК-связывающими областями. Согласно различным вариантам осуществления праймеры содержат 5'-область, являющуюся специфической в отношении целевого локуса, внутреннюю область, не являющуюся специфической в отношении целевого локуса и образующую петлевую структуру, и 3'-область, являющуюся специфической в отношении целевого локуса. Согласно различным вариантам осуществления длина 3'-области составляет по меньшей мере 7 нуклеотидов. Согласно некоторым вариантам осуществления длина 3'-области составляет от 7 до 20 нуклеотидов, например, от 7 до 15 нуклеотидов, или от 7 до 10 нуклеотидов включительно. Согласно различным вариантам осуществления праймеры содержат 5'-область, не являющуюся специфической в отношении целевого локуса (например, другой маркер или сайт связывания универсального праймера), за которой следует область, являющаяся специфической в отношении целевого локуса, внутренняя область, не являющаяся специфической в отношении целевого локуса и образующая петлевую структуру, и 3'-область, являющаяся специфической в отношении целевого локуса. Согласно некоторым вариантам осуществления диапазон длин праймеров составляет менее 50, 40, 30, 20, 10 или 5 нуклеотидов. Согласно некоторым вариантам осуществления длина целевых ампликонов составляет от 50 до 100 нуклеотидов, например, от 60 до 80 нуклеотидов, или от 60 до 75 нуклеотидов включительно. Согласно некоторым вариантам осуществления диапазон длин целевых ампликонов составляет менее 50, 25, 15, 10 или 5 нуклеотидов.
Согласно одному аспекту в настоящем изобретении предложены наборы, которые включают любые из библиотек праймеров согласно настоящему изобретению, для амплификации целевых локусов в образце нуклеиновой кислоты. Согласно некоторым вариантам осуществления указанный набор включает инструкции по применению библиотеки для амплификации целевых локусов.
Согласно одному аспекту в настоящем изобретении предложены способы определения статуса плоидности хромосомы у вынашиваемого плода. Согласно некоторым вариантам осуществления указанный способ включает приведение образца нуклеиновой кислоты в контакт с библиотекой праймеров, которые одновременно гибридизуются с по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных полиморфных локусов в результате чего получают реакционную смесь; при этом указанный образец нуклеиновой кислоты содержит материнскую ДНК от матери плода и плодную ДНК от плода. Согласно некоторым вариантам осуществления реакционную смесь подвергают воздействию условий реакции удлинения праймеров, в результате чего получают продукты амплификации; указанные амплифицированные продукты измеряют с использованием высокопроизводительного секвенатора для получения данных секвенирования; число аллелей в полиморфных локусах рассчитывают на компьютере на основе данных секвенирования; создают на компьютере множество гипотез плоидности, каждая из которых касается отличного возможного состояния плоидности хромосомы; строят на компьютере модель совместного распределения для значений ожидаемого числа аллелей в полиморфных локусах на хромосоме для каждой гипотезы плоидности; относительную вероятность каждой из гипотез плоидности определяют на компьютере с применением модели совместного распределения и числа аллелей; и определяют состояние плоидности указанного плода путем отбора состояния плоидности, соответствующего гипотезе, имеющей наибольшую вероятность.
Согласно одному аспекту в настоящем изобретении предложены способы определения статуса плоидности хромосомы у вынашиваемого плода. Согласно варианту осуществления способ определения статуса плоидности хромосомы у вынашиваемого плода включает получение первого образца ДНК, который содержит материнскую ДНК от матери плода и плодную ДНК от плода, подготовку первого образца путем выделения ДНК с получением подготовленного образца, измерение ДНК в подготовленном образце во множестве полиморфных локусов в хромосоме, вычисление на компьютере числа аллелей во множестве полиморфных локусов по измерениям ДНК, выполненным в подготовленном образце, создание на компьютере множества гипотез плоидности, каждая из которых относится к разному возможному состоянию плоидности хромосомы, построение на компьютере модели совместного распределения для значений ожидаемого числа аллелей во множестве полиморфных локусов на хромосоме для каждой гипотезы плоидности, определение на компьютере относительной вероятности каждой из гипотез плоидности с использованием модели совместного распределения и числа аллелей, измеренных в подготовленном образце, и прогнозирование состояния плоидности плода путем отбора состояния плоидности, соответствующего гипотезе с наибольшей вероятностью.
Согласно одному аспекту в настоящем изобретении предложены способы тестирования на анормальное распределение хромосомы в образце, который содержит смесь материнской и плодной ДНК. Согласно некоторым вариантам осуществления указанный способ включает (i) приведение в контакт указанного образца с библиотекой праймеров, которые одновременно гибридизуются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов, в результате чего получают реакционную смесь; при этом указанные целевые локусы выбраны из совокупности разных хромосом; и при этом указанная совокупность разных хромосом включает по меньшей мере одну первую хромосому, предположительно имеющую анормальное распределение в указанном образце, и по меньшей мере одну вторую хромосому, предположительно имеющую нормальное распределение в указанном образце; (ii) помещение реакционной смеси в условия реакции удлинения праймеров, в результате чего получают продукты амплификации; (iii) секвенирование амплифицированных продуктов, в результате которого получают набор маркеров последовательности, выравнивающихся с целевыми локусами; при этом указанные маркеры последовательности имеют достаточную длину, чтобы можно было приписать их к конкретному целевому локусу; (iv) определение на компьютере соответствия совокупности маркеров последовательности соответствующим им целевым локусам; (v) определение на компьютере числа маркеров последовательности, выравнивающихся с целевыми локусами первой хромосомы, и числа маркеров последовательности, выравнивающихся с целевыми локусами второй хромосомы; и (vi) сравнение на компьютере значений, полученных на этапе (v), для определения наличия или отсутствия анормального распределения первой хромосомы.
Согласно одному аспекту в настоящем изобретении предложены способы обнаружения наличия или отсутствия анеуплоидии плода. Согласно некоторым вариантам осуществления указанный способ включает (i) приведение образца, который включает смесь материнской и плодной ДНК, в контакт с библиотекой праймеров, которые одновременно гибридизуются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных неполиморфных целевых локусов, в результате чего получают реакционную смесь; при этом указанные целевые локусы взяты из совокупности разных хромосом; (ii) помещение реакционной смеси в условия реакции удлинения праймеров, в результате чего получают амплифицированные продукты, которые включают целевые ампликоны; (iii) количественное определение на компьютере относительной частоты целевых ампликонов из первой и второй представляющих интерес хромосом; (iv) сравнение на компьютере относительной частоты целевых ампликонов из первой и второй представляющих интерес хромосом; и (v) идентификацию наличия или отсутствия анеуплоидии на основании сравниваемых относительных частот первой и второй представляющих интерес хромосом. Согласно некоторым вариантам осуществления первая хромосома представляет собой хромосому, предположительно являющуюся эуплоидной. Согласно некоторым вариантам осуществления вторая хромосома представляет собой хромосому, предположительно являющуюся анеуплоидной.
Согласно одному аспекту раскрывается способ определения наличия или отсутствия анеуплоидии плода в образце материнской ткани, содержащем плодную и материнскую геномную ДНК, включающий (а) получение смеси плодной и материнской геномной ДНК из указанного образца материнской ткани, (b) выполнение массивного параллельного ДНК-секвенирования фрагментов ДНК, случайно выбранных из смеси плодной и материнской геномной ДНК этапа (а), для определения последовательности указанных фрагментов ДНК, (с) идентификацию хромосом, которым принадлежат полученные на этапе (b) последовательности, (d) использование данных этапа (с) для определения количества по меньшей мере одной первой хромосомы в указанной смеси материнской и плодной геномной ДНК, при этом предполагается, что указанная по меньшей мере одна первая хромосома является эуплоидной у плода, (е) использование данных этапа (с) для определения количества второй хромосомы в указанной смеси материнской и плодной геномной ДНК, при этом предполагается, что указанная вторая хромосома является анеуплоидной у плода, (f) вычисление доли плодной ДНК в смеси плодной и материнской ДНК, (g) вычисление ожидаемого распределения количества второй целевой хромосомы, если вторая целевая хромосома является эуплоидной, с использованием количества, полученного на этапе (d), (h) вычисление ожидаемого распределения количества второй целевой хромосомы, если вторая целевая хромосома является анеуплоидной, с использованием первого количества, полученного на этапе (d), и рассчитанной доли плодной ДНК в смеси плодной и материнской ДНК на этапе (f) и (i) использование метода максимального правдоподобия или метода оценки апостериорного максимума для определения, является ли количество второй хромосомы, определенное на этапе (е), с большей вероятностью частью распределения, рассчитанного на этапе (g), или распределения, рассчитанного на этапе (h); в результате чего определяют наличие или отсутствие анеуплоидии у плода.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения указанный способ также включает получение генотипических данных от одного или обоих родителей плода. Согласно некоторым вариантам осуществления получение генотипических данных от одного или обоих родителей указанного плода включает подготовку ДНК от указанных родителей, причем указанная подготовка включает преимущественное обогащение ДНК по множеству полиморфных локусов для получения подготовленной родительской ДНК, необязательно амплификацию подготовленной родительской ДНК и измерение родительской ДНК в подготовленном образце во множестве полиморфных локусов.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения построение модели совместного распределения вероятностей ожидаемого числа аллелей для множества полиморфных локусов на хромосоме выполняют с применением полученных генетических данных от одного или обоих родителей. Согласно некоторым вариантам осуществления образец (например, первый образец) был выделен из материнской плазмы, и при этом получение генотипических данных от матери выполняют путем оценки материнских генотипических данных по измерениям ДНК, выполненным в подготовленном образце.
Согласно одному аспекту раскрыт диагностический бокс для содействия в определении статуса плоидности хромосомы у вынашиваемого плода, при этом указанный диагностический бокс позволяет выполнять этапы подготовки и измерения в любых способах согласно настоящему изобретению.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения значения числа аллелей являются вероятностными, а не бинарными. Согласно некоторым вариантам осуществления измерения ДНК в подготовленном образце во множестве полиморфных локусов также используются для определения того, унаследовал ли плод один или несколько связанных с заболеванием гаплотипов.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения построение модели совместного распределения для вероятностей числа аллелей выполняют с применением данных относительно вероятности хромосомного кроссинговера в различных локализациях в хромосоме для моделирования зависимости между полиморфными аллелями на хромосоме. Согласно некоторым вариантам осуществления построение модели совместного распределения для числа аллелей и этап определения относительной вероятности каждой гипотезы осуществляют с применением способа, не требующего использования эталонной хромосомы.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения при определении относительной вероятности каждой гипотезы применяется установленная доля плодной ДНК в подготовленном образце. Согласно некоторым вариантам осуществления измерения ДНК из подготовленного образца, используемого при вычислении вероятностей числа аллелей и определении относительной вероятности каждой гипотезы, включают первичные генетические данные. Согласно некоторым вариантам осуществления выбор состояния плоидности, соответствующего гипотезе, имеющей наибольшую вероятность, реализуют с использованием оценок максимального правдоподобия или оценок апостериорного максимума.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения определение состояния плоидности указанного плода также включает комбинирование относительных вероятностей каждой из гипотез плоидности, определенных с применением модели совместного распределения, и вероятностей числа аллелей с относительными вероятностями каждой из гипотез плоидности, которые рассчитывают с применением статистических методов, взятых из группы, состоящей из анализа количества считываний, сравнения степеней гетерозиготности, статистики, доступной только при использовании родительской генетической информации, вероятности нормализованных сигналов генотипа для определенных родительских контекстов, статистики, рассчитываемой с использованием оцениваемой доли плода в образце (например, первом образце) или подготовленном образце, и их комбинаций.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения для определяемого состояния плоидности оценивают уровень достоверности. Согласно некоторым вариантам осуществления указанный способ также включает осуществление клинического действия на основании устанавливаемого состояния плоидности указанного плода, при этом указанное клиническое действие выбрано из прерывания беременности или сохранения беременности.
Согласно некоторым вариантам осуществления указанный способ может быть реализован для плодов на 4-5 неделях гестации; на 5-6 неделях гестации; на 6-7 неделях гестации; на 7-8 неделях гестации; на 8-9 неделях гестации; на 9-10 неделях гестации; на 10-12 неделях гестации; на 12-14 неделях гестации; на 14-20 неделях гестации; на 20-40 неделях гестации; в первом триместре; во втором триместре; в третьем триместре; или для их комбинаций.
Согласно различным вариантам осуществления любых аспектов настоящего изобретения с использованием указанного способа составляют отчет, отражающий установленный статус плоидности хромосомы у вынашиваемого плода. Согласно некоторым вариантам осуществления раскрыт набор для определения статуса плоидности целевой хромосомы у вынашиваемого плода, разработанный для применения с любыми способами согласно настоящему изобретению; указанный набор включает множество внутренних прямых праймеров и необязательно множество внутренних обратных праймеров, при этом каждый из праймеров сконструирован так, чтобы гибридизоваться с областью ДНК, расположенной непосредственно выше (в 5' направлении) и/или ниже (в 3' направлении) от одного из полиморфных сайтов на целевой хромосоме, и необязательно дополнительных хромосомах, при этом область гибридизации отделена от указанного полиморфного сайта небольшим количеством оснований, причем указанное небольшое количество выбрано из группы, состоящей из 1, 2, 3, 4, 5, 6-10, 11-15, 16-20, 21-25, 26-30, 31-60 и их комбинаций.
Согласно одному аспекту в настоящем изобретении предложены способы определения, является ли предполагаемый отец биологическим отцом плода, вынашиваемого беременной матерью. Согласно некоторым вариантам осуществления указанный способ включает: (i) одновременную амплификацию множества полиморфных локусов, включающего по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных полиморфных локусов из генетического материала предполагаемого отца,, в результате чего получают первый набор амплифицированных продуктов; (ii) одновременную амплификацию соответствующего множества полиморфных локусов в смешанном образце ДНК, происходящем из образца крови беременной матери, в результате чего получают второй набор амплифицированных продуктов; при этом указанный смешанный образец ДНК содержит плодную ДНК и материнскую ДНК; (iii) определение на компьютере вероятности того, что предполагаемый отец является биологическим отцом указанного плода, с применением генотипических измерений на основе первого и второго наборов амплифицированных продуктов; и (iv) определение, является ли предполагаемый отец биологическим отцом указанного плода, с использованием определенной вероятности того, что предполагаемый отец является биологическим отцом указанного плода. Согласно различным вариантам осуществления указанный способ также включает одновременную амплификацию соответствующего множества полиморфных локусов из генетического материала матери для получения третьего набора амплифицированных продуктов; при этом вероятность того, что предполагаемый отец является биологическим отцом указанного плода, определяют с применением генотипических измерений на основе первого, второго и третьего наборов амплифицированных продуктов.
Согласно одному аспекту в настоящем изобретении предложены способы установления относительных вероятностей того, что каждый эмбрион из группы эмбрионов будет развиваться желаемым образом. Согласно некоторым вариантам осуществления указанный способ включает приведение образца от каждого эмбриона в контакт с библиотекой праймеров, которые одновременно гибридизуются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов, в результате чего получают реакционную смесь для каждого эмбриона, причем каждый из указанных образцов получен из одной или нескольких клеток эмбриона. Согласно некоторым вариантам осуществления каждую реакционную смесь подвергают воздействию условий реакции удлинения праймеров, в результате чего получают продукты амплификации. Согласно некоторым вариантам осуществления указанный способ включает определение на компьютере одной или нескольких характеристик по меньшей мере одной клетки из каждого эмбриона на основании амплифицированных продуктов; и установление на компьютере относительных вероятностей того, что каждый эмбрион будет развиваться желаемым образом, на основании указанных одной или нескольких характеристик по меньшей мере одной клетки для каждого эмбриона.
Согласно одному аспекту в настоящем изобретении предложены способы измерения количества двух или более целевых локусов в образце нуклеиновой кислоты. Согласно некоторым вариантам осуществления указанный способ включает (i) применение ПЦР для амплификации образца нуклеиновой кислоты, который содержит первый стандартный локус, второй стандартный локус, первый целевой локус и второй целевой локус, с образованием амплифицированных продуктов; при этом указанный первый стандартный локус и указанный первый целевой локус содержат одинаковое число нуклеотидов, но имеют последовательность, отличающуюся одним или несколькими нуклеотидами; и при этом указанные второй стандартный локус и второй целевой локус содержат одинаковое число нуклеотидов, но имеют последовательность, отличающуюся одним или несколькими нуклеотидами; (ii) секвенирование амплифицированных продуктов для определения стандартного отношения, отражающего относительное количество амплифицированного первого стандартного локуса по сравнению с количеством амплифицированного второго стандартного локуса; при этом указанное стандартное отношение отражает различия в эффективности ПЦР для амплификации указанного первого стандартного локуса и указанного второго стандартного локуса; (iii) определение целевого соотношения, отражающего относительное количество амплифицированного первого целевого локуса по сравнению с количеством амплифицированного второго целевого локуса; и (iv) коррекция указанного целевого соотношения, определенного на этапе (iii), с учетом стандартного отношения, определенного на этапе (ii), для определения относительного количества первого целевого локуса и второго целевого локуса в указанном образце. Согласно различным вариантам осуществления указанный способ включает определение абсолютного количества первого целевого локуса и второго целевого локуса в указанном образце. Согласно различным вариантам осуществления указанный способ также включает определение присутствия или отсутствия целевого локуса (например, по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов) в указанном образце. Согласно различным вариантам осуществления указанный способ включает применение любых библиотек праймеров согласно настоящему изобретению. Согласно различным вариантам осуществления указанный способ включает одновременную амплификацию 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов.
Согласно одному аспекту в настоящем изобретении предложены способы количественного определения множества генетических целей в образце для анализа. Согласно некоторым вариантам осуществления указанный способ включает (i) смешивание генетического материала, полученного из указанного образца для анализа, с множеством специфичных по отношению к цели реагентов для амплификации, и множеством стандартных последовательностей, соответствующих целям указанных специфичных по отношению к цели реагентам для амплификации; (ii) амплификация целевых областей генетического материала и стандартных последовательностей для получения целевых ампликонов и ампликонов стандартных последовательностей; и (iii) измерение полученного количества целевых ампликонов и ампликонов стандартных последовательностей. Согласно некоторым вариантам осуществления указанный генетический материал присутствует в генетической библиотеке. Согласно некоторым вариантам осуществления генетические цели представляют собой полиморфные локусы (такие как SNP). Согласно некоторым вариантам осуществления измерение количества достигается путем подсчета последовательностей. Согласно некоторым вариантам осуществления указанный способ также включает определение расчетного числа копий по меньшей мере одной хромосомы в образце, из которого была получена генетическая библиотека, причем указанное определение включает сравнение числа считываний последовательностей целевого ампликона с числом считываний последовательностей стандартного ампликона. Согласно некоторым вариантам осуществления стандартные последовательности и генетическая библиотека содержат универсальные сайты праймирования, которые могут быть праймированы одним и тем же праймером. Согласно некоторым вариантам осуществления этап смешивания включает по меньшей мере 10; 100, 500; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных специфичных по отношению к цели реагентов для амплификации и по меньшей мере 10; 100, 500; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 стандартных последовательностей. Согласно различным вариантам осуществления указанный способ включает применение любых библиотек праймеров согласно настоящему изобретению. Согласно различным вариантам осуществления указанный способ включает одновременную амплификацию 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых областей. Согласно некоторым вариантам осуществления известны относительные количества каждой из стандартных последовательностей. Согласно некоторым вариантам осуществления относительные количества каждой из последовательностей были откалиброваны относительно эталонного генома. Согласно некоторым вариантам осуществления образец для анализа содержит смесь плодного и материнского геномов. Согласно некоторым вариантам осуществления образец для анализа получен из крови беременной женщины или получен из плазмы крови. Согласно некоторым вариантам осуществления эталонный геном содержит по меньшей мере одну анеуплоидию, например, анеуплоидию по хромосоме 13, 18, 21, X или Y. Согласно некоторым вариантам осуществления эталонный геном является диплоидным.
Согласно одному аспекту в настоящем изобретении предложена смесь, которая содержит множество генетических стандартных последовательностей, при этом относительное количество каждой генетической стандартной последовательности в указанной смеси было определено путем калибровки по эталонному геному. Согласно различным вариантам осуществления указанная смесь содержит по меньшей мере 10; 100, 500; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 генетических стандартных последовательностей. Согласно различным вариантам осуществления указанные генетические стандартные последовательности содержат первый универсальный сайт праймирования, второй универсальный сайт праймирования, первый специфичный по отношению к цели сайт праймирования, второй специфичный по отношению к цели сайт праймирования и маркерную последовательность, расположенную между указанными первым и вторым специфичными по отношению к цели сайтами праймирования, при этом первый специфичный по отношению к цели сайт и второй специфичный по отношению к цели сайт праймирования расположены между указанными первым и вторым универсальными сайтами праймирования. Согласно различным вариантам осуществления калибровка включает применение любых библиотек праймеров согласно настоящему изобретению. Согласно различным вариантам осуществления калибровка включает одновременную амплификацию 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых областей. Согласно некоторым вариантам осуществления эталонный геном содержит по меньшей мере одну анеуплоидию, например, анеуплоидию по хромосоме 13, 18, 21, X или Y. Согласно некоторым вариантам осуществления эталонный геном является диплоидным.
Согласно одному аспекту в настоящем изобретении предложены способы получения набора калиброванных генетических стандартных последовательностей. Согласно некоторым вариантам осуществления указанный способ включает (i) образование реакционной смеси для амплификации, которая содержит генетическую библиотеку, полученную из эталонного генома, наборы реагентов с множеством специфичных в отношении цели праймеров для амплификации и множество генетических стандартных последовательностей, соответствующих указанным наборам специфичных по отношению к цели реагентов для амплификации, (ii) амплификацию генетической библиотеки и генетических стандартных последовательностей для получения ампликонов из целевых последовательностей и ампликонов из генетических стандартных последовательностей, (iii) измерение количества ампликонов из целевых последовательностей и ампликонов из генетических стандартных последовательностей, и (iv) определение взаимного относительного количества каждой из генетических стандартных последовательностей, с калибровкой таким образом множества генетических стандартных последовательностей. Согласно различным вариантам осуществления используют по меньшей мере 10; 100, 500; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 генетических стандартных последовательностей. Согласно различным вариантам осуществления указанный способ включает применение любых библиотек праймеров согласно настоящему изобретению. Согласно различным вариантам осуществления указанный способ включает одновременную амплификацию 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных последовательностей. Согласно некоторым вариантам осуществления эталонный геном содержит по меньшей мере одну анеуплоидию, например, анеуплоидию по хромосоме 13, 18, 21, X, или Y. Согласно некоторым вариантам осуществления эталонный геном является диплоидным.
Согласно одному аспекту в настоящем изобретении предложен набор генетических стандартных последовательностей, которые были откалиброваны в соответствии с любыми способами согласно настоящему изобретению. Согласно одному аспекту в настоящем изобретении предложен набор генетических стандартных последовательностей, которые могут быть откалиброваны до, во время или после реализации указанного способа.
Согласно одному аспекту в настоящем изобретении предложены способы измерения числа копий представляющего интерес гена, включающего по меньшей мере один аллель, содержащий делецию. Согласно некоторым вариантам осуществления указанный способ включает (i) смешивание генетического материала, полученного из образца для анализа, с реагентом для амплификации, специфическим в отношении указанного представляющего интерес гена, и не способным значительно амплифицировать содержащий делецию аллель указанного представляющего интерес гена, стандартной последовательностью, соответствующей представляющему интерес гену, реагента для амплификации, специфического в отношении эталонной последовательности, и стандартной последовательности, соответствующей указанной эталонной последовательности; (ii) амплификация представляющей интерес генной последовательности, стандартной последовательности, соответствующей представляющему интерес гену, эталонной последовательности и стандартной последовательности, соответствующей указанной эталонной последовательности, для получения ампликонов представляющего интерес гена, ампликонов эталонной последовательности и ампликонов стандартных последовательностей; и (iii) измерение полученного количества целевых ампликонов и ампликонов стандартных последовательностей. Согласно некоторым вариантам осуществления указанное измерение количества достигается путем подсчета считываний последовательностей. Согласно некоторым вариантам осуществления указанный способ также включает определение расчетного числа копий по меньшей мере одной хромосомы в образце, из которого была получена генетическая библиотека, причем указанное определение включает сравнение числа последовательностей целевых ампликонов с числом последовательностей стандартных ампликонов. Согласно некоторым вариантам осуществления стандартные последовательности и генетическая библиотека содержат универсальные сайты праймирования, которые могут быть праймированы одним и тем же праймером. Согласно некоторым вариантам осуществления относительные количества каждой из последовательностей были откалиброваны относительно эталонного генома. Согласно различным вариантам осуществления используют по меньшей мере 10; 100, 500; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 генетических стандартных последовательностей. Согласно различным вариантам осуществления указанный способ включает применение любых библиотек праймеров согласно настоящему изобретению. Согласно различным вариантам осуществления указанный способ включает одновременную амплификацию 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых областей. Согласно некоторым вариантам осуществления эталонный геном является диплоидным. Согласно некоторым вариантам осуществления образец для анализа получен из крови.
Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения преимущественное обогащение ДНК в указанном образце (например, первого образца) в целевых локусах (например, множестве полиморфных локусов) включает получение множества пре-циркуляризованных зондов, при этом каждый зонд нацелен на один из указанных локусов (например, полиморфных локусов), при этом 3'- и 5'-конец указанных зондов предпочтительно сконструированы таким образом, чтобы гибридизоваться с областью ДНК, которая отделена от полиморфного сайта локуса небольшим количеством оснований, причем указанное небольшое количество составляет 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21-25, 26-30, 31-60 или их комбинацию, гибридизацию пре-циркуляризованных зондов с ДНК из образца (например, первого образца), заполнение гэпа между концами гибридизованного зонда с применением ДНК-полимеразы, циркуляризацию пре-циркуляризованного зонда и амплификацию циркуляризованного зонда.
Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения преимущественное обогащение ДНК в целевых локусах (например, множестве полиморфных локусов) включает получение множества зондов для опосредованной лигированием ПЦР, при этом каждый ПЦР-зонд нацелен на один из целевых локусов (например, полиморфных локусов), и прямые (3'→5') и обратные (5'→3') ПЦР-зонды сконструированы так, чтобы гибридизоваться с областью ДНК на цепи ДНК, которая предпочтительно отделена от полиморфного сайта локуса небольшим количеством оснований, причем указанное небольшое количество составляет 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21-25, 26-30, 31-60 или их комбинацию, гибридизацию зондов для опосредованной лигированием ПЦР в ДНК из образца (например, первого образца), заполнение гэпа между концами зондов для опосредованной лигированием ПЦР с применением ДНК-полимеразы, лигирование зондов для опосредованной лигированием ПЦР и амплификация лигированных зондов для опосредованной лигированием ПЦР.
Согласно некоторым вариантам осуществления различных аспектов настоящего изобретения преимущественное обогащение ДНК в целевых локусах (например, множестве полиморфных локусов) включает получение множества зондов гибридного захвата, нацеленных на указанные локусы (например, полиморфные локусы), гибридизацию зондов гибридного захвата с ДНК в указанном образце (например, первого образца) и физическое удаление некоторой или всей из негибридизированной ДНК из образца (например, первого образца) ДНК.
Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения зонды гибридного захвата сконструированы так, чтобы гибридизоваться с областью, которая фланкирует, но не перекрывает полиморфный сайт. Согласно некоторым вариантам осуществления зонды гибридного захвата сконструированы так, чтобы гибридизоваться с областью, которая фланкирует, но не перекрывает полиморфный сайт, и при этом длина фланкирующего зонда захвата может быть выбрана из группы, состоящей из менее чем приблизительно 120 оснований, менее чем приблизительно 110 оснований, менее чем приблизительно 100 оснований, менее чем приблизительно 90 оснований, менее чем приблизительно 80 оснований, менее чем приблизительно 70 оснований, менее чем приблизительно 60 оснований, менее чем приблизительно 50 оснований, менее чем приблизительно 40 оснований, менее чем приблизительно 30 оснований и менее чем приблизительно 25 оснований. Согласно некоторым вариантам осуществления зонды гибридного захвата сконструированы так, чтобы гибридизоваться с областью, которая перекрывает полиморфный сайт, и при этом множество зондов гибридного захвата содержит по меньшей мере два зонда гибридного захвата для каждого полиморфного локуса, и все зонды гибридного захвата сконструированы так, чтобы быть комплементарными разным аллелям в указанном полиморфном локусе.
Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения преимущественное обогащение ДНК во множестве полиморфных локусов включает получение множества внутренних прямых праймеров, при этом каждый праймер нацелен на один из полиморфных локусов, и при этом 3'-конец внутренних прямых праймеров сконструирован для гибридизации с областью ДНК, расположенной выше (в 5' направлении) от полиморфного сайта и отделенной от полиморфного сайта небольшим количеством оснований, причем указанное небольшое количество выбрано из группы, состоящей из 1, 2, 3, 4, 5, 6-10, 11-15, 16-20, 21-25, 26-30 или 31-60 пар оснований, необязательно получение множества внутренних обратных праймеров, при этом каждый праймер нацелен на один из полиморфных локусов, и при этом 3'-конец внутренних обратных праймеров сконструирован для гибридизации с областью ДНК выше (в 5' направлении) от полиморфного сайта и отделенной от полиморфного сайта небольшим количеством оснований, причем указанное небольшое количество выбрано из группы, состоящей из 1, 2, 3, 4, 5, 6-10, 11-15, 16-20, 21-25, 26-30 или 31-60 пар оснований, гибридизацию внутренних праймеров с ДНК и амплификацию ДНК с использованием полимеразной цепной реакции для образования ампликонов.
Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения указанный способ также включает получение множества внешних прямых праймеров, при этом каждый праймер нацелен на одну из целей (например, полиморфных локусов), и при этом указанные внешние прямые праймеры сконструированы так, чтобы гибридизоваться с областью ДНК, расположенной выше (в 5' направлении) указанного внутреннего прямого праймера; необязательно получение множества внешних обратных праймеров, при этом каждый праймер нацелен на один из целевых локусов (например, полиморфных локусов), и при этом указанные внешние обратные праймеры сконструированы так, чтобы гибридизоваться с областью ДНК, расположенной непосредственно за указанным внутренним обратным праймером в 3' направлении; гибридизацию первых праймеров с ДНК и амплификацию ДНК с использованием полимеразной цепной реакции.
Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения указанный способ также включает получение множества внешних обратных праймеров, при этом каждый праймер нацелен на один из полиморфных локусов, и при этом указанные внешние обратные праймеры сконструированы так, чтобы гибридизоваться с областью ДНК, расположенной непосредственно после указанного внутреннего обратного праймера в 3' направлении; необязательно получение множества внешних прямых праймеров, при этом каждый праймер нацелен на один из целевых локусов (например, полиморфных локусов), и при этом указанные внешние прямые праймеры сконструированы так, чтобы гибридизоваться с областью ДНК, расположенной выше (в 5' направлении) от указанного внутреннего прямого праймера; гибридизацию первых праймеров с ДНК и амплификацию ДНК с использованием полимеразной цепной реакции.
Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения подготовка образца (например, первого образца) также включает добавление универсальных адаптеров в ДНК в образце (например, в первом образце) и амплификацию указанной ДНК в указанном образце (например, первом образце) с использованием полимеразной цепной реакции. Согласно некоторым вариантам осуществления по меньшей мере часть ампликонов, которые амплифицируются, содержит менее чем 100 п.о., менее чем 90 п.о., менее чем 80 п.о., менее чем 70 п.о., менее чем 65 п.о., менее чем 60 п.о., менее чем 55 п.о., менее чем 50 п.о. или менее чем 45 п.о., и при этом указанная часть составляет 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% или 99%.
Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения амплификацию ДНК выполняют в одном или нескольких индивидуальных реакционных объемах, и при этом каждый отдельный реакционный объем содержит более чем 100 разных пар прямых и обратных праймеров, более чем 200 разных пар прямых и обратных праймеров, более чем 500 разных пар прямых и обратных праймеров, более чем 1000 разных пар прямых и обратных праймеров, более чем 2000 разных пар прямых и обратных праймеров, более чем 5000 разных пар прямых и обратных праймеров, более чем 10000 разных пар прямых и обратных праймеров, более чем 20000 разных пар прямых и обратных праймеров, более чем 50000 разных пар прямых и обратных праймеров или более чем 100000 разных пар прямых и обратных праймеров.
Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения подготовка образца (например, первого образца) также включает разделение образца (например, первого образца) на множество частей, и при этом ДНК в каждой части преимущественно обогащают в подмножестве целевых локусов (например, множестве полиморфных локусов). Согласно некоторым вариантам осуществления внутренние праймеры выбирают путем идентификации пар праймеров, предположительно образующих нежелательные дуплексы праймеров, и удаление из множества праймеров по меньшей мере одной из пар праймеров, идентифицированной как способная образовывать нежелательные дуплексы праймеров. Согласно некоторым вариантам осуществления внутренние праймеры содержат область, сконструированную для гибридизации либо выше (в 5'-направлении), либо ниже (в 3'-направлении) целевого локуса (например, полиморфного локуса), и необязательно содержат универсальную последовательность праймирования, сконструированную для обеспечения ПЦР-амплификации. Согласно некоторым вариантам осуществления по меньшей мере некоторые праймеры дополнительно содержат случайную область, которая отличается в каждой отдельной молекуле праймера. Согласно некоторым вариантам осуществления по меньшей мере некоторые праймеры дополнительно содержат молекулярный штрихкод.
Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения преимущественное обогащение приводит к средней степени смещения числа аллелей между подготовленным образцом и образцом (например, первым образцом) с фактором, выбранным из группы, состоящей из фактора не более чем 2, фактора не более чем 1,5, фактора не более чем 1,2, фактора не более чем 1,1, фактора не более чем 1,05, фактора не более чем 1,02, фактора не более чем 1,01, фактора не более чем 1,005, фактора не более чем 1,002, фактора не более чем 1,001 и фактора не более чем 1,0001. Согласно некоторым вариантам осуществления множество полиморфных локусов представлено SNP. Согласно некоторым вариантам осуществления измерение ДНК в подготовленном образце выполняют посредством секвенирования.
Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения целевые локусы присутствуют на одной и той же представляющей интерес нуклеиновой кислоте (например, одной и той же хромосоме или одной и той же области хромосомы). Согласно некоторым вариантам осуществления по меньшей мере некоторые из целевых локусов присутствуют на разных представляющих интерес нуклеиновых кислотах (например, на разных хромосомах). Согласно некоторым вариантам осуществления указанный образец нуклеиновой кислоты содержит фрагментированные или расщепленные нуклеиновые кислоты. Согласно некоторым вариантам осуществления указанный образец нуклеиновой кислоты содержит геномную ДНК, кДНК или мРНК. Согласно некоторым вариантам осуществления указанный образец нуклеиновой кислоты содержит ДНК из одной клетки. Согласно некоторым вариантам осуществления указанный образец нуклеиновой кислоты представляет собой образец крови или плазмы, по существу не содержащий клеток. Согласно некоторым вариантам осуществления указанный образец нуклеиновой кислоты содержит или получен из крови, плазмы, слюны, семенной жидкости, спермы, супернатанта культуры клеток, слизистого секрета, зубного налета, ткани желудочно-кишечного тракта, кала, мочи, волос, кости, жидкостей организма, слез, ткани, кожи, ногтей, бластомеров, эмбрионов, амниотической жидкости, образцов ворсин хориона, желчи, лимфы, цервикальной слизи или образца для судебно-технической экспертизы. Согласно некоторым вариантам осуществления целевые локусы представляют собой сегменты нуклеиновых кислот человека. Согласно некоторым вариантам осуществления целевые локусы содержат однонуклеотидные полиморфизмы (SNP) или состоят из SNP. Согласно некоторым вариантам осуществления праймеры представляют собой молекулы ДНК.
Согласно некоторым вариантам осуществления любых аспектов настоящего изобретения ДНК в указанном образце (например, первом образце) происходит из материнской плазмы. Согласно некоторым вариантам осуществления подготовка образца (например, первого образца) также включает амплификацию ДНК. Согласно некоторым вариантам осуществления подготовка образца (например, первого образца) также включает преимущественное обогащение ДНК в указанном образце (например, первого образца) в целевых локусах (например, множестве полиморфных локусов).
Согласно различным вариантам осуществления реакция удлинения праймера или полимеразная цепная реакция включает добавление одного или нескольких нуклеотидов полимеразой. Согласно различным вариантам осуществления реакция удлинения праймера или полимеразная цепная реакция не включает опосредованную лигированием ПЦР. Согласно различным вариантам осуществления реакция удлинения праймера или полимеразная цепная реакция не включает соединение двух праймеров лигазой. Согласно различным вариантам осуществления праймеры не содержат связанные инвертированные зонды (LIP), которые также могут называться пре-циркуляризованными зондами, зондами предварительной циркуляризации или зондами циркуляризации, зондами типа «висячий замок» (Padlock-зонды) или молекулярными инверсионными зондами (MIP).
Понятно, что аспекты и варианты осуществления настоящего изобретения, описанные в настоящем документе, включают аспекты и варианты осуществления «содержащий», «состоящий из» и «состоящий по существу из».
Определения
«Однонуклеотидный полиморфизм (SNP)» относится к отдельному нуклеотиду, который может отличаться в геномах двух членов одного и того же вида. Использование термина не должно подразумевать какое-либо ограничение частоты, с которой встречается каждый вариант.
«Последовательность» относится к последовательности ДНК или генетической последовательности. Она может относиться к первичной физической структуре молекулы или цепи ДНК у индивидуума. Она может относиться к последовательности нуклеотидов, присутствующих в этой молекуле ДНК, или к цепи, комплементарной к молекуле ДНК. Она может относиться к информации, которая содержится в молекуле ДНК, представленной in silico.
«Локус» относится к конкретной представляющей интерес области на ДНК индивидуума, которая может относиться к SNP, сайту возможной инсерции или делеции или сайту некоторой другой соответствующей генетической вариации. Связанные с заболеванием SNP также могут относиться к связанным с заболеванием локусам.
«Полиморфный аллель», также «полиморфный локус», относится к аллелю или локусу, по которому генотип варьирует у индивидуумов данного вида. Некоторые примеры полиморфных аллелей включают однонуклеотидные полиморфизмы, короткие тандемные повторы, делеции, дупликации и инверсии.
«Полиморфный сайт» относится к специфичным нуклеотидам, присутствующим в варьирующей у индивидуумов полиморфной области.
«Аллель» относится к генам, которые занимают конкретный локус.
«Генетические данные», также «генотипические данные», относится к данным, описывающим аспекты генома одного или нескольких индивидуумов. Они могут относиться к одному или нескольким локусам, частичным или полным последовательностям, частичным или полным хромосомам или полному геному. Они могут относиться к идентичности одного или нескольких нуклеотидов; они могут относиться к набору последовательных нуклеотидов или нуклеотидов из различных локализаций в геноме или к их комбинации. Генотипические данные представлены, как правило, in silico, однако можно также рассматривать физические нуклеотиды в последовательности как химически кодированные генетические данные. Могут быть описаны генотипические данные «в» индивидууме(ах), «для» индивидуума(ов), «на» индивидууме(ах), «от» индивидуума(ов) или «по» индивидууму(ам). Генотипические данные могут относиться к выходным измерениям, полученным с помощью платформы генотипирования, если указанные измерения выполняются на генетическом материале.
«Генетический материал», также «генетический образец», относится к физическому материалу, такому как ткань или кровь, содержащему ДНК или РНК, полученному от одного или нескольких индивидуумов
«Искаженные генетические данные» относится к генетическим данным, содержащим что-либо из следующего: выпадения аллелей, ненадежные измерения пар оснований, некорректные измерения пар оснований, отсутствующие измерения пар оснований, недостоверные измерения инсерций или делеций, недостоверные измерения чисел копий хромосомных сегментов, ложные сигналы, отсутствующие измерения, другие погрешности или их комбинации.
«Достоверность» относится к статистической вероятности того, что названный SNP, аллель, набор аллелей, признак плоидности или определенное число копий хромосомных сегментов корректно представляет реальный генетический статус индивидуума.
«Определение признака плоидности», также «прогнозирование числа копий хромосомы» или «прогнозирование числа копий» (CNC), может относиться к действию по определению количества и/или хромосомной идентичности одной или нескольких хромосом, присутствующих в клетке.
«Анеуплоидии» относится к состоянию, при котором в клетке присутствует неправильное число хромосом (например, неправильное число целых хромосом или неправильное число сегментов хромосом, например, наличие делеций или дупликаций сегмента хромосомы). В случае соматической клетки человека она может относиться к случаю, при котором клетка не содержит 22 пары аутосомных хромосом и одну пару половых хромосом. В случае гаметы человека она может относиться к явлению, когда клетка не содержит одну из каждой из 23 хромосом. В случае одного типа хромосом она может относиться к случаю, когда имеется больше или меньше чем две гомологичных, но неидентичных копии хромосомы, или когда присутствуют две копии хромосомы, происходящие от одного и того же родителя. Согласно некоторым вариантам осуществления делеция сегмента хромосомы представляет собой микроделецию.
«Состояние плоидности» относится к количеству и/или хромосомной идентичности одного или нескольких типов хромосом в клетке.
«Хромосома» может относиться к одной копии хромосомы, т.е. к одной молекуле ДНК, которых в нормальной соматической клетке содержится 46; примером является «хромосома 18 материнского происхождения». Хромосома также может относиться к типу хромосом, которых содержится 23 в нормальной соматической клетке человека; примером является «хромосома 18».
«Хромосомная идентичность» может относиться к референтному числу хромосом, т.е. к типу хромосом. В норме у людей имеется 22 типа пронумерованных типов аутосомных хромосом и два типа половых хромосом. Она также может относиться к хромосоме родительского происхождения. Она также может относиться к конкретной хромосоме, унаследованной от родителя. Она также может относиться к другим признакам, идентифицирующим хромосомы.
«Статус генетического материала» или просто «генетический статус» может относиться к идентичности набора SNP в ДНК, к фазированным гаплотипам генетического материала или к последовательности ДНК, включая инсерции, делеции, повторы и мутации. Он также может относиться к состоянию плоидности одной или нескольких хромосом, хромосомных сегментов или наборов хромосомных сегментов.
«Аллельные данные» относится к набору генотипических данных, касающихся набора из одного или нескольких аллелей. Они могут относиться к фазированным гаплотипическим данным. Они могут относиться к идентичностям SNP, а также могут относиться к данным последовательностей ДНК, в том числе инсерций, делеций, повторов и мутаций. Они могут включать родительское происхождение каждого аллеля.
«Аллельное состояние» относится к фактическому состоянию генов в наборе из одного или нескольких аллелей. Оно может относиться к фактическому состоянию генов, описанных аллельными данными.
«Аллельное отношение» или «отношение аллелей» относится к соотношению количеств каждого из аллелей в локусе, который присутствует в образце или у индивидуума. Если образец измеряют с помощью секвенирования, аллельное отношение может означать соотношение количества считанных последовательностей, которые картируются с каждым аллелем в локусе. Если образец измеряют с помощью способа измерения интенсивности, аллельное отношение может означать соотношение количеств каждого аллеля, присутствующего в локусе, определенных с помощью способа измерения.
«Подсчет числа аллелей» или «число аллелей» относится к числу последовательностей, которые картируются с конкретным локусом, и, если этот локус является полиморфным, к числу последовательностей, которые картируются с каждым из аллелей. Если каждый аллель подсчитывают бинарным образом, то число аллелей будет представлено целым числом. Если аллели подсчитывают в вероятностном смысле, число аллелей может быть представлено дробным числом.
«Вероятность числа аллелей» относится к числу последовательностей, которые предположительно картируются с конкретным локусом или набором аллелей в полиморфном локусе, в комбинации с вероятностью указанного картирования. Отметим, что подсчитанное число аллелей эквивалентно вероятности числа аллелей, если вероятность картирования для каждой подсчитанной последовательности является бинарной (0 или 1). Согласно некоторым вариантам осуществления вероятности числа аллелей могут быть бинарными. Согласно некоторым вариантам осуществления вероятности числа аллелей могут приниматься за равные измерениям ДНК.
«Аллельное распределение» или «распределение числа аллелей» относится к относительному количеству каждого аллеля, присутствующего в каждом локусе из набора локусов. Аллельное распределение может относиться к индивидууму, к образцу или к набору измерений, выполненных в образце. В контексте секвенирования аллельное распределение относится к числу считанных последовательностей или вероятному числу считанных последовательностей, которые картируются с конкретным аллелем для каждого аллеля в наборе полиморфных локусов. Измерения аллелей могут быть обработаны вероятностным образом, т.е. вероятность того, что данный аллель присутствует в данном считывании последовательности, представляет собой значение от 0 до 1; или они могут быть обработаны бинарным способом, т.е. предполагается, что любое заданное считывание включает 0 или 1 копию конкретного аллеля.
«Паттерн отельного распределения» относится к набору различных распределений аллелей для различных родительских контекстов. Определенные паттерны распределения аллелей могут указывать на определенные состояния плоидности.
«Смещение числа аллелей» относится к степени, с которой измеренное отношение аллелей в гетерозиготном локусе отличается от отношения, которое наблюдалось в исходном образце ДНК. Степень смещения числа аллелей в конкретном локусе равняется наблюдаемому измеренному аллельному отношению в этом локусе, разделенному на отношение аллелей в исходном образце ДНК в этом локусе. Смещение числа аллелей может быть определено как превышающая единицу, таким образом, если расчет степени смещения числа аллелей дает значение х, составляющее менее 1, степень смещения числа аллелей может быть пересчитана как 1/х. Смещение числа аллелей может быть обусловлено смещением при амплификации, смещением при очистке или каким-либо другим явлением, которое по-разному влияет на разные аллели.
«Праймер», также «зонд ПЦР», относится к отдельной молекуле ДНК (олигомеру ДНК) или коллекции молекул ДНК (олигомеров ДНК), в которой молекулы ДНК идентичны или почти идентичны, и при этом праймер содержит область, которая сконструирована для гибридизации с целевым локусом (например, с целевым полиморфным локусом или неполиморфным локусом), и может содержать последовательность праймирования, сконструированную для обеспечения ПЦР-амплификации. Праймер также может содержать молекулярный штрихкод. Праймер может содержать случайную область, которая отличается для каждой индивидуальной молекулы. Термины «тестовый праймер» и «кандидатный праймер» не предназначены для ограничения и могут относиться к любым раскрытым в настоящем описании праймерам.
Библиотека праймеров относится к группе из двух или более праймеров. Согласно различным вариантам осуществления библиотека содержит по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных праймеров. Согласно различным вариантам осуществления библиотека содержит по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных пар праймеров, при этом каждая пара праймеров включает прямой тестовый праймер и обратный тестовый праймер, при этом каждая пара тестовых праймеров гибридизуется с целевым локусом. Согласно некоторым вариантам осуществления библиотека праймеров содержит по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных индивидуальных праймеров, каждый из которых гибридизуется с отличным целевым локусом, при этом указанные индивидуальные праймеры не входят в состав пар праймеров. Согласно некоторым вариантам осуществления библиотека содержит как (i) пары праймеров, так и (ii) индивидуальные праймеры (например, универсальные праймеры), которые не входят в состав пар праймеров.
«Зонд гибридного захвата» относится к любой последовательности нуклеиновой кислоты, возможно, модифицированной, которая получена различными способами, такими как ПЦР или прямой синтез, и должна быть комплементарна одной цепи конкретной целевой последовательности ДНК в образце. Экзогенные зонды гибридного захвата могут быть добавлены в подготовленный образец и гибридизированы посредством процесса денатурации и повторного отжига с образованием дуплексов экзогенно-эндогенных фрагментов. Затем указанные дуплексы можно физически отделить от образца различными способами.
«Считывание последовательности» относится к данным, представляющим последовательности нуклеотидных оснований, которые были измерены с использованием способа клонального секвенирования. С помощью клонального секвенирования можно получать данные последовательности, представляющие одну молекулу ДНК, или клоны, или кластеры одной исходной молекулы ДНК. Считывание последовательности также может быть связано с оценкой качества в каждом положении основания последовательности, отражающей вероятность того, что нуклеотид был определен корректно.
«Картирование считывания последовательности» представляет собой процесс определения локализации источника считываний последовательности в геномной последовательности конкретного организма. Локализация источника считываний последовательности основана на подобии последовательности нуклеотидов при считывании и геномной последовательности нуклеотидов.
«Ошибка совпадающих копий», также «анеуплоидия совпадающих хромосом» (МСА), относится к состоянию анеуплоидии, при котором одна клетка содержит две идентичных или почти идентичных хромосомы. Этот тип анеуплоидии может возникать в ходе формирования гамет в мейозе и может быть назван ошибкой мейотического нерасхождения. Этот тип ошибки может возникать в митозе. Совпадающая трисомия может относиться к случаю, при котором у индивидуума имеется три копии данной хромосомы, и две из указанных копий являются идентичными.
«Ошибка несовпадающих копий», также «анеуплоидия уникальной хромосомы» (UCA), относится к состоянию анеуплоидии, при котором одна клетка содержит две хромосомы, которые происходят от одного и того же родителя и могут быть гомологичными, но не являются идентичными. Этот тип анеуплоидии может возникать в мейозе, и может быть назван мейотической ошибкой. Несовпадающая трисомия может относиться к случаю, при котором у индивидуума имеются три копии данной хромосомы, и две из указанных копий происходят от одного и того же родителя и являются гомологичными, но не идентичными. Отметим, что несовпадающая трисомия может относиться к случаю, при котором присутствуют две гомологичных хромосомы от одного родителя, и при котором некоторые сегменты хромосом являются идентичными, тогда как другие сегменты являются только гомологичными.
«Гомологичные хромосомы» относятся к копиям хромосом, которые содержат один и тот же набор генов, которые в норме образуют пары в ходе мейоза.
«Идентичные хромосомы» относятся к копиям хромосом, которые содержат один и тот же набор генов, и для каждого гена в них содержится один и тот же набор аллелей, которые являются идентичными или почти идентичными.
«Выпадение аллеля (ADO)» относится к ситуации, когда по меньшей мере одна пара оснований в наборе пар оснований из гомологичных хромосом в данном аллеле не обнаруживается.
«Выпадение локуса (LDO)» относится к ситуации, при которой обе пары оснований в наборе пар оснований из гомологичных хромосом в данном аллеле не обнаруживаются.
«Гомозиготный» относится к содержанию аналогичных аллелей в соответствующих хромосомных локусах.
«Гетерозиготный» относится к содержанию несходных аллелей в соответствующих хромосомных локусах.
«Степень гетерозиготности» относится к уровню в популяции индивидуумов, имеющих гетерозиготные аллели в заданном локусе. Степень гетерозиготности также может относиться к ожидаемому или измеренному отношению аллелей в заданном локусе у индивидуума или в образце ДНК.
«Высокоинформативный однонуклеотидный полиморфизм (HISNP)» относится к SNP, если у плода имеется аллель, которая не присутствует в генотипе матери.
«Хромосомная область» относится к сегменту хромосомы или к полной хромосоме.
«Сегмент хромосомы» относится к участку хромосомы, размер которого может варьировать от одной пары оснований до всей хромосомы.
«Хромосома» относится либо к полной хромосоме, либо к сегменту или участку хромосомы.
«Копии» относится к числу копий хромосомного сегмента. Они могут относиться к идентичным копиям или к неидентичным гомологичным копиям хромосомного сегмента, при этом различные копии хромосомного сегмента содержат по существу аналогичный набор локусов, где один или несколько аллелей различаются. Отметим, что в некоторых случаях анеуплоидии, таких как ошибка копирования М2, возможно наличие некоторых копий данного хромосомного сегмента, которые являются идентичными, а также некоторых копий одного и того же хромосомного сегмента, которые не являются идентичными.
«Гаплотип» относится к комбинации аллелей в нескольких локусах, которые, как правило, наследуются вместе в одной и той же хромосоме. Гаплотип может относиться всего к двум локусам или к целой хромосоме в зависимости от количества событий рекомбинации, произошедших между данным набором локусов. Гаплотип также может относиться к набору однонуклеотидных полиморфизмов (SNP) на одной хроматиде, которые статистически связаны.
«Гаплотипические данные», также «фазированные данные» или «упорядоченные генетические данные», относится к данным для одной хромосомы в диплоидном или полиплоидном геноме, т.е. к изолированной материнской либо отцовской копии хромосомы в диплоидном геноме.
«Фазирование» относится к действию по определению гаплотипических генетических данных при наличии неупорядоченных диплоидных (или полиплоидных) генетических данных индивидуума. Оно может относиться к действию по определению, какой из двух генов в аллеле, для набора аллелей, присутствующего в одной хромосоме, связан с каждой из двух гомологичных хромосом у индивидуума.
«Фазированные данные» относятся к генетическим данным, для которых определен один или несколько гаплотипов.
«Гипотеза» относится к возможному состоянию плоидности в данном наборе хромосом или к совокупности возможных аллельных состояний в данном наборе локусов. Совокупность вероятностей может включать один или несколько элементов.
«Гипотеза числа копий», также «гипотеза состояния плоидности», относится к гипотезе, касающейся числа копий хромосомы у индивидуума. Она также может относиться к гипотезе, касающейся идентичности каждой из хромосом, в том числе касающейся информации о том, от какого родителя происходит каждая из хромосом, а также о том, какие из двух хромосом родителей присутствуют у индивидуума. Она также может относиться к гипотезе, касающейся того, какие хромосомы или хромосомные сегменты от родственного индивидуума, если они имеются, генетически соответствуют заданной хромосоме индивидуума.
«Целевой индивидуум» относится к индивидууму, чей генетический статус подлежит определению. Согласно некоторым вариантам осуществления доступно только ограниченное количество ДНК целевого индивидуума. Согласно некоторым вариантам осуществления целевым индивидуумом является плод. Согласно некоторым вариантам осуществления может иметься более чем один целевой индивидуум. Согласно некоторым вариантам осуществления каждый плод, происходящий от пары родителей, может считаться целевым индивидуумом. Согласно некоторым вариантам осуществления определяемые генетические данные представлены одним аллельным признаком или набором аллельных признаков. Согласно некоторым вариантам осуществления генетического данные, подлежащие определению, представляют собой признак плоидности.
«Родственный индивидуум» относится к любому индивидууму, который является генетически родственным целевому индивидууму и, таким образом, обладает общими с целевым индивидуумом гаплотипическими блоками. В одном контексте родственным индивидуумом может быть генетический родитель целевого индивидуума или какой-либо генетический материал от родителя, такой как сперма, полярное тельце, эмбрион, плод или ребенок. Он также может относиться к сиблингу, родителю или к родителям родителей.
«Сиблинг» относится к какому-либо индивидууму, чьи генетические родители являются также родителями рассматриваемого индивидуума. Согласно некоторым вариантам осуществления он может относиться к рожденному ребенку, эмбриону или плоду, или одной или нескольким клеткам, происходящим от рожденного ребенка, эмбриона или плода. Сиблинг также может относиться к гаплоидному индивидууму, который происходит от одного из родителей, например, к сперме, полярному тельцу или какому-либо другому набору гаплотипического генетического материала. Индивидуум может считаться собственным сиблингом.
«Плодный» означает «принадлежащий плоду» или «принадлежащий области плаценты, генетически аналогичной плоду». У беременной женщины некоторая часть плаценты генетически аналогичная плоду, и свободноплавающая плодная ДНК, присутствующая в материнской крови, может происходить из части плаценты, генотип которой совпадает с генотипом плода. Отметим, что генетическая информация в половине хромосом плода наследуется от матери плода. Согласно некоторым вариантам осуществления ДНК указанных унаследованных от матери хромосом, происходящая из плодной клетки, считается имеющей «плодное происхождение», а не «материнское происхождение».
«ДНК плодного происхождения» относится к ДНК, изначально входившей в состав клетки, генотип которой по существу эквивалентен генотипу плода.
«ДНК материнского происхождения» относится к ДНК, изначально входившей в состав клетки, генотип которой по существу эквивалентен генотипу матери.
«Ребенок» может относиться к эмбриону, бластомеру или плоду. Отметим, что в раскрытых в настоящем документе вариантах осуществления описанные концепции в равной степени применяются к индивидуумам, которые представляют собой рожденного ребенка, плод, эмбрион или совокупность их клеток. Применение термина «ребенок» может означать, в буквальном смысле, что называемый ребенком индивидуум является генетическим потомком родителей.
«Родитель» относится к генетическим матери или отцу индивидуума. У индивидуума, как правило, имеется два родителя, мать и отец, хотя это необязательно, как, например, в случае генетического или хромосомного химеризма. Родитель может рассматриваться как индивидуум.
«Родительский контекст» относится к генетическому статусу заданного SNP в каждой из двух соответствующих хромосом для одного или обоих родителей цели.
«Развиваться требуемым образом», также «нормально развиваться» относится к имплантированию в матку жизнеспособного эмбриона, приводящему к беременности, и/или к продолжению беременности, что приводит к рождению живого ребенка, и/или к рождению ребенка без хромосомных аномалий, и/или к рождению ребенка, у которого отсутствуют другие нежелательные генетические состояния, таких как связанные с заболеванием гены. Предполагается, что термин «развиваться требуемым образом» охватывает все, что является желательным для родителей или специалистов в области здравоохранения. В некоторых случаях «развиваться требуемым образом» может относиться к нежизнеспособному или жизнеспособному эмбриону, который применяется для медицинского исследования или для других целей.
«Введение в матку» относится к процессу переноса эмбриона в полость матки в контексте in vitro оплодотворения.
«Материнская плазма» относится к порции плазмы крови беременной женщины.
«Клиническое решение» относится к любому решению относительно осуществления действия или воздержания от действия, результат которого влияет на здоровье или выживаемость индивидуума. В контексте пренатальной диагностики клиническое решение может относиться к решению о прерывании или о продолжении беременности. Клиническое решение также может относиться к решению о проведении дополнительного тестирования, к осуществлению действий по минимизации нежелательного фенотипа или к осуществлению действий по подготовке к рождению ребенка с аномалиями.
«Диагностический бокс» относится к одному устройству или к комбинации устройств, разработанному(ых) для выполнения одного или множества аспектов раскрытых в настоящем документе способов. Согласно варианту осуществления диагностический бокс может быть размещен в пункте наблюдения за пациентом. Согласно варианту осуществления с помощью диагностического бокса может выполняться целевая амплификация с последующим секвенированием. Согласно варианту осуществления диагностический бокс может функционировать самостоятельно или может управляться специалистом.
«Основанный на информатике способ» относится к способу, который в значительной мере опирается на статистику для интерпретации значительного объема данных. В контексте пренатальной диагностики он относится к способу, разработанному для определения состояния плоидности одной или нескольких хромосом или аллельного состояния в одном или нескольких аллелях с помощью статистического заключения о наиболее возможном состоянии, а не с помощью непосредственного физического измерения состояния, при большом количестве генетических данных, например, данных молекулярной матрицы или секвенирования. Согласно варианту осуществления настоящего раскрытия основанная на информатике методика может быть методикой, раскрытой в настоящем изобретении. Согласно варианту осуществления настоящего раскрытия это может быть PARENTAL SUPPORTтм.
«Первичные генетические данные» относятся к аналоговым интенсивностным сигналам, которые производит платформа генотипирования. В контексте матриц SNP первичные генетические данные относится к интенсивностным сигналам до проведения какого-либо определения генотипа. В контексте секвенирования первичные генетические данные относятся к аналоговым измерениям, аналогичным хроматограмме, которые выходят из секвенатора до определения идентичности какой-либо пары оснований и до картирования последовательности с геномом.
«Вторичные генетические данные» относятся к обработанным генетическим данным, которые производятся платформой генотипирования. В контексте матриц SNP вторичные генетические данные относятся к аллельным признакам, полученным программным обеспечением, ассоциированным с устройством считывания матриц SNP, при этом программное обеспечение определяет наличие признака того, присутствует или не присутствует данная аллель в образце. В контексте секвенирования вторичные генетические данные относятся к идентичности пары оснований последовательностей, которые были определены, и возможно также к последовательностям, которые были картированы с геномом.
Неинвазивная пренатальная диагностика (NPD), или также «неинвазивный пренатальный скрининг» (NPS), относится к способу определения генетического статуса плода, вынашиваемого матерью, с применением генетического материала, присутствующего в материнской крови, при этом указанный генетический материал получают путем взятия у матери крови из вены.
«Преимущественное обогащение» ДНК, которая соответствует локусу, или преимущественное обогащение ДНК в локусе относится к любому способу, который обеспечивает более высокое процентное содержание соответствующих локусам молекул ДНК в смеси ДНК после обогащения, по сравнению с процентным содержанием соответствующих указанным локусам молекул ДНК в смеси ДНК до обогащения. Указанный способ может включать селективную амплификацию молекул ДНК, которые соответствуют локусам. Указанный способ может включать удаление молекул ДНК, которые не соответствуют локусам. Указанный способ может включать комбинацию способов. Степень обогащения определяется как процентное содержание молекул ДНК, которые соответствуют локусу, в смеси после обогащения, поделенное на процентное содержание молекул ДНК, которые соответствуют локусу, в смеси до обогащения. Преимущественное обогащение может быть выполнено по множеству локусов. Согласно некоторым вариантам осуществления настоящего раскрытия степень обогащения превышает 20. Согласно некоторым вариантам осуществления настоящего раскрытия степень обогащения превышает 200. Согласно некоторым вариантам осуществления настоящего раскрытия степень обогащения превышает 2000. Если преимущественное обогащение выполняется по множеству локусов, степень обогащения может относиться к средней степени обогащения всех локусов в наборе локусов.
«Амплификация» относится к способу, который увеличивает число копий молекулы ДНК. «Селективная амплификация» может относиться к способу, который увеличивает число копий конкретной молекулы ДНК или молекул ДНК, которые соответствуют конкретной области ДНК. Она также может относиться к способу, который увеличивает число копий конкретной целевой молекулы ДНК или целевой области ДНК в большей степени, чем число копий нецелевых молекул или областей ДНК. Селективная амплификация может быть способом преимущественного обогащения.
«Универсальная последовательность праймирования» относится к последовательности ДНК, которая может быть добавлена к популяции целевых молекул ДНК, например, путем лигирования, ПЦР или опосредованной лигированием ПЦР. При добавлении к популяции целевых молекул праймеры, специфичные к универсальным последовательностям праймирования, могут быть использованы для амплификации целевой популяции с применением одной пары амплификационных праймеров. Универсальные последовательности праймирования, как правило, не являются родственными целевым последовательностям.
«Универсальные адаптеры», или «адаптеры лигирования», или «маркеры библиотеки» представляют собой молекулы ДНК, содержащие универсальную последовательность праймирования, которая может быть ковалентно связана с 5'-концом и 3'-концом в популяции целевых двуцепочечных молекул ДНК. Добавление адаптеров обеспечивает универсальные последовательности праймирования на 5'-конце и 3'-конце целевой популяции, с которых может начинаться ПЦР-амплификация, с амплификацией всех молекул целевой популяции с применением одной пары праймеров для амплификации.
«Нацеливание» относится к способу, используемому для селективной амплификации или другого преимущественного обогащения по тем молекулам ДНК, которые соответствуют набору локусов, в смеси ДНК.
«Модель совместного распределения» относится к модели, которая определяет вероятность событий, определенных как несколько случайных переменных, с условием, что множество случайных переменных определено в одном и том же пространстве вероятностей, при этом вероятности переменной связаны. Согласно некоторым вариантам осуществления может быть использован вырожденный случай, когда вероятности переменных не связаны.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Раскрытые в настоящем документе варианты осуществления далее будут объяснены с использованием ссылок на приложенные графические материалы, в которых аналогичные структуры обозначены аналогичными символами при рассмотрении с разных точек зрения. Представленные графические материалы необязательно выполнены в масштабе, вместо этого акцент сделан на иллюстрацию принципов раскрытых в настоящем документе вариантов осуществления.
На фиг. 1 графически представлен способ прямой мультиплексной мини-ПЦР.
На фиг. 2 графически представлен способ полувложенной мини-ПЦР.
На фиг. 3 графически представлен способ полной вложенной мини-ПЦР.
На фиг. 4 графически представлен способ гемивложенной мини-ПЦР.
На фиг. 5 графически представлен способ тройной гемивложенной мини-ПЦР.
На фиг. 6 графически представлен способ односторонней вложенной мини-ПЦР.
На фиг. 7 графически представлен способ односторонней мини-ПЦР.
На фиг. 8 графически представлен способ обратной полувложенной мини-ПЦР.
На фиг. 9 представлены некоторые возможные технологические процессы для полувложенных способов.
На фиг. 10 графически представлены петлевые адаптеры лигирования.
На фиг. 11 графически представлены внутренне маркированные праймеры.
На фиг. 12 представлен пример некоторых праймеров с внутренними маркерами.
На фиг. 13 графически представлен способ, в котором используются праймеры с областью связывания адаптера лигирования.
На фиг. 14 представлены показатели точности смоделированных признаков плоидности для способа подсчета с применением двух различных методик анализа.
На фиг. 15 представлено отношение двух аллелей для множества SNP в линии клеток в эксперименте 4.
На фиг. 16 представлено отношение двух аллелей для множества SNP в линии клеток в эксперименте 4, отсортированное по хромосоме.
На фиг. 17A-D представлено отношение двух аллелей для множества SNP в четырех образцах плазмы беременных женщин, отсортированное по хромосоме.
На фиг. 18 представлена та часть данных, которая может быть объяснена дисперсией биномиального распределения до и после коррекции данных.
На фиг. 19 представлен график, показывающий относительное обогащение плодной ДНК в образцах после короткого протокола приготовления библиотеки.
На фиг. 20 представлен график глубины секвенирования для сравнения способов прямой ПНР и полувложенной ПЦР.
На фиг. 21 представлено сравнение глубины секвенирования для прямой ПЦР трех геномных образцов.
На фиг. 22 представлено сравнение глубины секвенирования для полувложенной мини-ПЦР трех геномных образцов.
На фиг. 23 представлено сравнение глубины секвенирования для 1200-плексной и 9600-плексной реакций.
На фиг. 24 представлены отношения числа считанных последовательностей для шести клеток по трем хромосомам.
На фиг. 25 представлены аллельные отношения для двух реакций с тремя клетками и третьей реакции в 1 нг геномной ДНК по трем хромосомам.
На фиг. 26 представлены аллельные отношения для двух реакций с единичной клеткой по трем хромосомам.
На фиг. 27 представлено сравнение двух библиотек праймеров, представляющее число локусов с частотами конкретных минорных аллелей, на которые нацелена каждая библиотека праймеров.
На фиг. 28А представлено графическое представление электрофореза продуктов ПЦР. На фиг. 28 В-28М представлены электрофореграммы для полос 1-12, соответственно, фиг. 28А.
На фиг. 29А-29Е: Схематическое изображение способа определения плодной анеуплоидии согласно настоящему изобретению (фиг. 29А). Используют данные генотипа матери и отца (из крови или буккальных мазков) и данные частот кроссинговера из базы данных НарМар для получения (фиг. 29В) множества независимых гипотез для каждого потенциального состояния плоидности плода in silico (фиг. 29С). Каждую из указанных гипотез расширяют, включая в нее субгипотезы, учитывающие разные возможные точки кроссинговера. Указанная модель данных предсказывает, как предположительным образом будут выглядеть данные секвенирования (ожидаемые аллельные распределения) при каждом из гипотетических плодных генотипов и при разных долях плодной cfDNA (бесклеточной ДНК); результаты сравнивают с фактическими данными секвенирования; вероятность для каждой гипотезы определяют с применением байесовской статистики. В указанном гипотетическом примере определяют гипотезы с максимальным правдоподобием (эуплоидность) (фиг. 29D). Индивидуальные показатели правдоподобия с фиг. 29С суммируют для каждого семейства гипотез числа копий (моносомии, дисомии или триплоидии). Гипотеза с максимальным правдоподобием прогнозирует состояние плоидности, указывает на долю плода и представляет расчетную точность для конкретного образца (фиг. 29Е).
Фиг. 30А-30Н: Типичные графические представления эуплоидности (фиг. 30А-30С), моносомии (фиг. 30D) и трисомии (фиг. 30Е-30Н). На всех графиках ось X отображает линейное расположение индивидуальных полиморфных локусов вдоль каждой хромосомы (согласно подписям под графиками) и ось У отображает число считываний аллеля А в виде доли от общих считываний аллелей (А+В). Материнский и плодный генотипы, а также положение на оси У, вокруг которого сосредоточены полосы, указаны на графиках справа. Если требуется облегчить визуализацию, графики могут быть маркированы цветом в соответствии с материнским генотипом, таким образом, что красный указывает на материнский генотип АА, голубой указывает на материнский генотип ВВ, и зеленый указывает на материнский генотип АВ. Если требуется, вклады материнских аллелей могут быть маркированы цветом в колонке «плодный генотип». Вклады аллелей маркированы как материнские|плодные таким образом, что аллели, по которым мать является АА и плод является АВ, маркированы «АА|АВ». Фиг. 30А: Графики, полученные для случаев, когда присутствуют две хромосомы и доля плодной cfDNA составляет 0%. Указанный график относится к небеременной женщине, и, соответственно, представляет паттерн, соответствующий полностью материнскому генотипу. Кластеры аллелей, соответственно, сосредоточены вокруг 1 (аллели АА), 0,5 (аллели АВ) и 0 (аллели ВВ). Фиг. 30В: График, полученный для случая, когда присутствуют две хромосомы и доля плода составляет 12%. Вклад плодных аллелей в долю считываний аллеля А сдвигает расположение некоторых аллельных зон вверх или вниз вдоль оси У, таким образом, что полосы сосредоточены вокруг 1 (аллели АА|АА), 0,94 (аллели АА|АВ), 0,56 (аллели АВ|АА), 0,50 (аллели АВ|АВ), 0,44 (аллели АВ|ВВ), 0,06 (аллели ВВ|АВ), и 0 (аллели ВВ|ВВ). фиг. 30С. График, полученный для случая, когда присутствуют две хромосомы и доля плода составляет 26%. Паттерн, включающий две красные и две голубые периферические полосы и трио центральных зеленых полос, очевидно выражен (цвет не показан). Полосы сосредоточены вокруг 1 (аллели АА|АА), 0,87 (аллели АА|АВ), 0,63 (аллели АВ|АА), 0,50 (аллели АВ|АВ), 0,37 (аллели АВ|ВВ), 0,13 (аллели ВВ|АВ), и 0 (аллели ВВ|ВВ). Фиг. 30D: График, полученный для случая, когда присутствует одна хромосома и доля плода составляет 26%. Отличительный паттерн из одной внешней красной и одной внешней голубой периферических полос, а также двух центральных зеленых полос указывает на унаследованную от матери моносомию (цвет не показан). Поскольку вклад плода в считывания аллелей представлен единственным аллелем (А или В), внутренние периферические красные и голубые полосы отсутствуют, а центральное трио полос конденсируется в две полосы (цвет не показан). Полосы сосредоточены вокруг 1 (аллели АА|А), 0,57 (аллели АВ|А), 0,43 (аллели АВ|В), и 0 (аллели ВВ|В). Фиг. 30Е: График, полученный для случая, когда присутствуют три хромосомы и доля плода составляет 27%. Указанный паттерн из двух красных и двух голубых периферических полос, а также двух центральных зеленых полос указывает на унаследованную от матери мейотическую трисомию (цвет не показан). Полосы сосредоточены вокруг 1 (аллели АА|ААА), 0,88 (аллели АА|ААВ), 0,56 (аллели АВ|ААВ), 0,44 (аллели АВ|АВВ), 0,12 (ВВ|АВВ аллели) и 0 (аллели ВВ|ВВВ). Фиг. 30F: График, полученный для случая, когда присутствуют три хромосомы и доля плода составляет 14%. Указанный паттерн из трех красных и трех голубых периферических полос, а также двух центральных зеленых полос, указывает на унаследованную от отца мейотическую трисомию (цвет не показан). Полосы сосредоточены вокруг 1 (аллели АА|ААА), 0,93 (аллели АА|ААВ), 0,87 (аллели АА|АВВ), 0,60 (аллели АВ|ААА), 0,53 (аллели АВ|ААВ), 0,47 (аллели АВ|АВВ), 0,40 (аллели АВ|ВВВ), 0,13 (аллели ВВ|ААВ), 0,07 (аллели ВВ|АВВ) и 0 (аллели ВВ|ВВВ). Фиг. 30G: График, полученный для случая, когда присутствуют три хромосомы и доля плода составляет 35%. Указанный паттерн из двух красных и двух голубых периферических полос и 4 центральных зеленых полос указывает на унаследованную от матери митотическую трисомию (цвет не показан). Полосы сосредоточены вокруг 1 (аллели АА|ААА), 0,85 (аллели АА|ААВ), 0,72 (аллели АВ|ААА), 0,57 (аллели АВ|ААВ), 0,43 (аллели АВ|АВВ), 0,28 (аллели АВ|ВВВ), 0,15 (аллели ВВ|АВВ) и 0 (аллели ВВ|ВВВ). Фиг. 30Н: График, полученный для случая, когда присутствуют три хромосомы и доля плода составляет 25%. Указанный паттерн из двух красных и двух голубых периферических полос, а также 4 центральных зеленых полос указывает на унаследованную от отца митотическую трисомию (цвет не показан). Указанный паттерн можно отличить от паттерна унаследованной от матери митотической трисомии (как на фиг. 30G) по положению внутренних периферических полос. В частности, полосы сосредоточены вокруг 1 (аллели АА|ААА), 0,78 (аллели АА|АВВ), 0,67 (аллели АВ|ААА), 0,56 (аллели АВ|ААВ), 0,44 (аллели АВ|АВВ), 0,33 (аллели АВ|ВВВ), 0,22 (аллели ВВ|ААВ) и 0 (аллели ВВ|ВВВ).
На фиг. 31 графически представлены тестируемые образцы: (фиг. 31А) эуплоидный, (фиг. 31В) Т13, (фиг. 31С) Т18, (фиг. 31D) Т21, (фиг. 31Е) 45,Х и (фиг. 31F) 47, XXY, в соответствии с указанным. Каждая хромосома указана в верхней части графика, плодный и материнский генотипы указаны на графиках справа, ось X отражает линейное расположение SNP вдоль каждой хромосомы, ось У отражает число считываний аллеля А в виде доли от общего числа считываний. Отметим изменяющееся расположение кластеров в зависимости от доли плода, согласно описанию в настоящем документе. Каждая зона представляет один SNP локус. Плодный и материнский генотипы указаны на графике справа, и идентичности хромосом указаны на графиках сверху.
Фиг. 32: Общая распространенность при рождении анеуплоидии половых хромосом превышает распространенность аутосомных анеуплоидий.
Несмотря на то, что вышеописанные графические материалы поясняют раскрытые в настоящем документе варианты осуществления, также предполагаются другие варианты осуществления, отмеченные в обсуждении. В настоящем раскрытии пояснительные варианты осуществления представлены с целью иллюстрации, а не для ограничения. Специалистами в данной области может быть разработан обширный ряд других модификаций и вариантов осуществления без отступления от объема и сути принципов, лежащих в основе раскрытых в настоящем документе вариантов осуществления.
ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
Настоящее изобретение основано отчасти на неожиданно обнаруженном факте, заключающемся в том, что только относительно небольшое число праймеров в библиотеке праймеров отвечают за существенное количество амплифицированных димеров праймеров, которые образуются в реакциях мультиплексной ПЦР. Были разработаны способы отбора наиболее нежелательных праймеров для их удаления из библиотеки кандидатных праймеров. Снижение количества димеров праймеров до пренебрежимо малого количества (-0,1% продуктов ПЦР) в указанных способах позволяет получить библиотеки праймеров для одновременной амплификации значительного числа целевых локусов в одной реакции мультиплексной ПЦР. Поскольку праймеры гибридизуются с целевыми локусами и амплифицируют их, а не гибридизуются с другими праймерами с образованием амплифицированных димеров праймеров, число разных целевых локусов, которые могут быть амплифицированы, возрастает. Было также обнаружено, что применение более низких концентраций праймеров и значительно более продолжительный период отжига по сравнению с обычным повышает вероятность того, что праймеры гибридизуются с целевыми локусами, а не друг с другом с образованием димеров праймеров.
Во время ПЦР-амплификации и секвенирования 19488 целевых локусов в геномном образце, 99,4-99,7% считываний последовательностей картировались с геномом, из которых 99,99% картировались с целевыми локусами. Для образцов плазмы с 10 млн считываний последовательностей, как правило, амплифицировались и секвенировались по меньшей мере 19350 из 19488 целевых локусов (99,3%). Возможность одновременной амплификации такого значительного числа целевых локусов за один прием значительно снижает необходимые для анализа тысяч целевых локусов время и количество ДНК. Например, ДНК из одной клетки достаточно для одновременного анализа тысяч целевых локусов, что важно для вариантов применения, при которых количество ДНК невелико, таких как генетическое тестирование единственной клетки из эмбриона перед in vitro оплодотворением или генетическое тестирование образца для судебно-технической экспертизы с незначительным количеством ДНК. Кроме того, возможность анализировать целевые локусы в одном реакционном объеме (например, в одной камере или лунке), без разделения указанного образца на множество разных реакций, снижает вариабельность, которая может возникать между реакциями. Кроме того, были разработаны способы применения эталонных стандартов для поправки на смещение амплификации, которая может возникать для разных целевых локусов. Например, различия в эффективности амплификации между целевыми локусами из-за таких факторов, как содержание GC, могут приводить к тому, что будут образовываться различные количества продуктов ПЦР для целевых локусов, которые на самом деле присутствуют в равных количествах. Применение эталонных стандартов, аналогичных целевым локусам, позволяет обнаружить такое смещение амплификации, таким образом, она может быть скорректирована во время количественного определения целевых локусов.
Во время секвенирования продуктов ПЦР выявляются такие артефакты, как димеры праймеров, которые, соответственно, подавляют обнаружение целевых ампликонов. Из-за указанного ограничения для обнаружения часто используют микроматрицы с зондами гибридизации, поскольку микроматрицы менее чувствительны к помехам, обусловленным димерами праймеров. Высокий уровень мультиплексирования с минимумом нецелевых ампликонов, достигнутый к настоящему моменту, позволяет использовать ПЦР с последующим секвенированием в качестве альтернативы микроматрицам.
Способы мультиплексной ПЦР согласно настоящему изобретению могут находить разнообразное применение, например, при генотипировании, обнаружении хромосомных аномалий (например, анеуплоидии плодных хромосом), анализе генных мутаций и полиморфизмов (таких как однонуклеотидные полиморфизмы, SNP), анализе генных делеций, тестировании на отцовство, анализе генетических различий в популяциях, судебно-технической экспертизе, измерении предрасположенности к заболеванию, количественном анализе мРНК и обнаружении и идентификации инфекционных агентов (таких как бактерии, паразиты и вирусы). Указанные способы мультиплексной ПЦР также могут использоваться для неинвазивного пренатального тестирования, например, тестирования на отцовство или обнаружения аномалий плодных хромосом. Примеры способов конструирования праймеров
Высокомультиплексная ПЦР часто может приводить к синтезу очень значительной доли продуктов ДНК, образующихся в результате непродуктивных побочных реакций, таких как формирование димеров праймеров. Согласно варианту осуществления праймеры, которые с наибольшей вероятностью вызывают непродуктивные побочные реакции, могут быть удалены из библиотеки праймеров, в результате чего будет получена библиотека праймеров с большим содержанием амплифицированной ДНК, картирующейся с геномом. Этап удаления проблемных праймеров, т.е. тех праймеров, которые с повышенной вероятностью формируют димеры, неожиданным образом позволил проводить ПЦР с исключительно высокими уровнями мультиплексирования для последующего анализа секвенированием. В таких системах, как системы секвенирования, производительность которых существенно ухудшается при наличии димеров праймеров и/или других вредных продуктов, было достигнуто более чем 10-кратное, более чем 50-кратное и более чем 100-кратное мультиплексирование относительно других описанных вариантов мультиплексирования. Отметим отличие от способов обнаружения на основе зондов, например, микроматриц, TAQMAN, ПЦР и т.д., в которых избыток димеров праймеров не оказывает значимого влияния на результат. Также отметим, что в целом на существующем уровне техники считается, что мультиплексирование ПЦР для секвенирования ограничивается приблизительно 100 анализируемыми фрагментами в одной и той же лунке. Fluidigm и Rain Dance предлагают платформы для ПЦР-анализа 48 или 1000 фрагментов из одного образца в параллельных реакциях.
Существует ряд способов выбора праймеров для библиотеки, при которых количество некартирующихся димеров праймеров или других вредных продуктов праймеров сводится к минимуму. Эмпирические данные указывают на то, что за большое количество побочных реакций с участием некартирующихся димеров праймеров ответственно небольшое количество «плохих» праймеров. Удаление этих «плохих» праймеров может повысить процент считываний последовательностей, которые картируются с целевыми локусами. Одним из способов идентификации «плохих» праймеров является просмотр данных секвенирования ДНК, амплифицированной в ходе целевой амплификации; димеры праймеров, наблюдающиеся с наибольшей частотой, могут быть удалены с получением библиотеки праймеров, которая со значительно меньшей вероятностью вызовет образование побочных продуктов ДНК, которые не картируются с геномом. Существуют также общедоступные программы, которые могут рассчитать энергию связывания различных комбинаций праймеров, и удаление праймеров с самой высокой энергией связывания также даст библиотеку праймеров, которая со значительно меньшей вероятностью вызовет образование побочных продуктов ДНК, которые не картируются с геномом.
Согласно некоторым вариантам осуществления отбора праймеров исходную библиотеку кандидатных праймеров создают путем конструирования одного или нескольких праймеров или пар праймеров для кандидатных целевых локусов. Набор кандидатных целевых локусов (таких как SNP) может быть выбран на основании общедоступной информации относительно нужных параметров целевых локусов, таких как частота встречаемости SNP в целевой популяции или степень гетерозиготности по указанным SNP. Согласно одному варианту осуществления праймеры для ПЦР могут быть сконструированы с применением программы Primer3 (доступна в сети Интернет по адресу: primer3.sourceforge.net; libprimer3, версия 2.2.3, и полностью включена в настоящий документ посредством ссылки). Если требуется, праймеры могут быть сконструированы для отжига в конкретном диапазоне температур отжига, иметь конкретный диапазон содержания GC, конкретный диапазон размеров, давать целевые ампликоны с размерами в конкретном диапазоне и/или иметь другие характеристические параметры. Наличие в исходный момент множества праймеров или пар праймеров на кандидатный целевой локус увеличивает вероятность того, что в библиотеке останется праймер или пара праймеров для большей части или для всех целевых локусов. Согласно одному варианту осуществления критерии отбора могут быть такими, чтобы в библиотеке оставалась по меньшей мере одна пара праймеров на целевой локус. Таким образом большая часть целевых локусов или все целевые локусы будут амплифицированы при применении конечной библиотеки праймеров. Это желательно для таких вариантов применения, как скрининг делеций или дупликаций по многим локализациям в геноме или скрининг значительного числа последовательностей (таких как полиморфизмы или другие мутации), связанных с заболеванием или повышенным риском заболевания. Если пара праймеров из библиотеки дает целевой ампликон, который перекрывается с целевым ампликоном, получаемым с помощью другой пары праймеров, одна из указанных пар праймеров может быть удалена из библиотеки для предотвращения взаимных помех.
Согласно некоторым вариантам осуществления рассчитывают «балл нежелательности» (более высокую оценку для наименьшей желательности) (например, с применением расчета на компьютере) для большей части или для всех возможных комбинаций двух праймеров из библиотеки кандидатных праймеров. Согласно различным вариантам осуществления балл нежелательности рассчитывают по меньшей мере для 80, 90, 95, 98, 99 или 99,5% возможных комбинаций кандидатных праймеров в библиотеке. Каждый балл нежелательности основан по меньшей мере отчасти на вероятности образования димеров между двумя кандидатными праймерами. Если требуется, балл нежелательности может также основываться на одном или нескольких других параметрах, выбранных из группы, состоящей из степени гетерозиготности целевого локуса, распространенности заболевания, связанной с последовательностью (например, полиморфизмом) в целевом локусе, пенетрантности заболевания, связанной с последовательностью (например, полиморфизмом) в целевом локусе, специфичности кандидатного праймера в отношении целевого локуса, размера кандидатного праймера, температуры плавления целевого ампликона, содержания GC в целевом ампликоне, эффективности амплификации целевого ампликона и размера целевого ампликона. В том случае, если рассматривается несколько факторов, балл нежелательности может быть рассчитана на основании средневзвешенных значений различных параметров. Указанным параметрам может быть присвоен разный вес на основании их важности для конкретного применения, предусмотренного для праймеров. Согласно некоторым вариантам осуществления праймер с максимальным баллом нежелательности удаляют из библиотеки. Если удаленный праймер представляет собой член пары праймеров, которая гибридизуется с одним целевым локусом, тогда другой член указанной пары праймеров может быть удален из библиотеки. Процесс удаления праймеров может быть при необходимости повторен. Согласно некоторым вариантам осуществления указанный способ отбора используют до тех пор, пока все балла нежелательности для комбинаций кандидатных праймеров, остающихся в библиотеке, не сравняются с минимальным порогом или не опустятся ниже минимального порога. Согласно некоторым вариантам осуществления указанный способ отбора используют до тех пор, пока количество кандидатных праймеров, остающихся в библиотеке, не снизится до требуемого количества.
Согласно различным вариантам осуществления после вычисления степеней нежелательности кандидатный праймер, являющийся частью максимального количества комбинаций двух кандидатных праймеров с баллом нежелательности выше первого минимального порога, удаляют из библиотеки. Указанный этап не учитывает взаимодействия на уровне первого минимального порога или ниже, поскольку указанные взаимодействия менее значимы. Если удаленный праймер представляет собой член пары праймеров, которая гибридизуется с одним целевым локусом, тогда другой член указанной пары праймеров может быть удален из библиотеки. Процесс удаления праймеров может быть при необходимости повторен. Согласно некоторым вариантам осуществления указанный способ отбора используют до тех пор, пока все балла нежелательности для комбинаций кандидатных праймеров, остающихся в библиотеке, не сравняются с первым минимальным порогом или не опустятся ниже первого минимального порога. Если число кандидатных праймеров, остающихся в библиотеке, выше, чем требуется, число праймеров может быть снижено путем уменьшения первого минимального порога до более низкого второго минимального порога и повторения процесса удаления праймеров. Если число кандидатных праймеров, остающихся в библиотеке ниже, чем требуется, реализация способа может быть продолжена путем повышения первого минимального порога до более высокого второго минимального порога и повторения процесса удаления праймеров с применением исходной библиотеки кандидатных праймеров, что позволяет оставить в библиотеке большее количество кандидатных праймеров. Согласно некоторым вариантам осуществления указанный способ отбора используют до тех пор, пока все балла нежелательности для комбинаций кандидатных праймеров, остающихся в библиотеке, не сравняются с вторым минимальным порогом или не опустятся ниже второго минимального порога, или до тех пор, пока количество кандидатных праймеров, остающихся в библиотеке, не снизится до требуемого количества.
Если требуется, пары праймеров, дающие целевой ампликон, который перекрывается с целевым ампликоном, получаемым с помощью другой пары праймеров, могут быть разделены на отдельные реакции амплификации. Множественные реакции ПЦР-амплификации могут быть желательными для вариантов применения, когда желательно проанализировать все кандидатные целевые локусы (а не исключать кандидатные целевые локусы из анализа из-за перекрывающихся целевых ампликонов).
Указанные способы отбора минимизируют число кандидатных праймеров, которые должны быть удалены из библиотеки для достижения требуемого уменьшения уровня димеров праймеров. Удаление меньшего числа кандидатных праймеров из библиотеки позволяет амплифицировать больше целевых локусов (или все целевые локусы) с применением полученной библиотеки праймеров.
Мультиплексирование больших количеств праймеров налагает значительные ограничения на анализы, которые могут быть включены в исследование. Анализы, в которых происходят непредусмотренные взаимодействия, приводят к образованию побочных продуктов амплификации. Ограничения размера для мини-ПЦР могут привести к дальнейшим ограничениям. Согласно варианту осуществления можно начать с очень большого числа потенциальных целевых SNP (от приблизительно 500 до более 1 миллиона) и попытаться сконструировать праймеры для амплификации каждого SNP. Если праймеры могут быть сконструированы, можно попытаться идентифицировать пары праймеров, которые с большой вероятностью будут способствовать формированию побочных продуктов, путем оценки вероятности формирования побочных дуплексов праймеров между всеми возможными парами праймеров с использованием опубликованных термодинамических параметров образования дуплексов ДНК. Взаимодействия праймеров можно ранжировать функцией оценивания, связанной с взаимодействием, и праймеры с наихудшими индексами взаимодействия элиминируют до тех пор, пока не будет получено требуемое число праймеров. В случаях, когда SNP, предположительно гетерозиготные, подходят лучше всего, возможно также ранжирование перечня анализируемых фрагментов и отбор наиболее гетерозиготных из совместимых анализируемых фрагментов. Эксперименты подтвердили, что праймеры с высокими индексами взаимодействия с наибольшей вероятностью будут формировать димеры праймеров. При высоком уровне мультиплексирования невозможно устранить все побочные взаимодействия, однако важно удалить праймеры или пары праймеров с наиболее высокими индексами взаимодействия in silico, поскольку они могут доминировать во всей реакции, в значительной степени ограничивая амплификацию намеченных целей. Такая процедура выполнялась авторами для создания мультиплексных наборов праймеров, содержащих до 10000 праймеров и, в некоторых случаях, более чем 10000 праймеров. Благодаря указанной процедуре достигается значительное улучшение, позволяющее амплифицировать более 80%, более 90%, более 95%, более 98% и даже более 99% целевых продуктов, как было установлено путем секвенирования всех продуктов ПЦР, по сравнению с 10% после реакции, из которой не были удалены наихудшие праймеры. При комбинации с описанным ранее частичным полувложенным подходом более 90% и даже более 95% ампликонов могут быть картированы с целевыми последовательностями.
Отметим, что существуют другие способы определения того, какие зонды ПЦР предположительно будут формировать димеры. Согласно варианту осуществления анализ пула ДНК, которая была амплифицирована с использованием неоптимизированного набора праймеров, может быть достаточным для выявления проблемных праймеров. Например, анализ может быть выполнен с использованием секвенирования, и те праймеры, димеры которых присутствуют в наибольших количествах, считают праймерами, которые с большой вероятностью будут формировать димеры и которые подлежат удалению.
Указанный способ имеет ряд потенциальных применений, например, для генотипирования SNP, выявления степени гетерозиготности, измерения числа копий и других применений целевого секвенирования. Согласно варианту осуществления этот способ конструирования праймеров может быть использован в комбинации со способом мини-ПЦР, описанным в других разделах настоящего документа. Согласно некоторым вариантам осуществления этот способ конструирования праймеров может быть использован как часть способа массивно-мультиплексной ПЦР.
Использование маркеров в праймерах может снизить амплификацию и секвенирование продуктов димеров праймеров. Согласно некоторым вариантам осуществления праймер содержит внутреннюю область, которая образует петлевую структуру с маркером. Согласно конкретным вариантам осуществления праймеры содержат 5'-область, специфическую в отношении целевого локуса, внутреннюю область, не являющуюся специфической в отношении целевого локуса и образующую петлевую структуру, и 3'-область, специфическую в отношении целевого локуса. Согласно некоторым вариантам осуществления область петли может располагаться между двумя связывающими областями, при этом указанные две связывающие области сконструированы таким образом, чтобы связываться с непрерывными или смежными областями матричной ДНК. Согласно различным вариантам осуществления длина 3'-области составляет по меньшей мере 7 нуклеотидов. Согласно некоторым вариантам осуществления длина 3'-области составляет от 7 и 20 нуклеотидов, например, от 7 до 15 нуклеотидов, или от 7 до 10 нуклеотидов включительно. Согласно различным вариантам осуществления праймеры содержат 5'-область, не являющуюся специфической в отношении целевого локуса (такой как маркер или сайт связывания универсального праймера), за которой следует область, являющаяся специфической в отношении целевого локуса, внутренняя область, не являющаяся специфической в отношении целевого локуса и образующая петлевую структуру, и 3'-область, являющаяся специфической в отношении целевого локуса. Маркированные праймеры могут быть использованы для укорачивания необходимой специфичной по отношению к цели последовательности до менее чем 20, менее чем 15, менее чем 12 и даже менее чем 10 пар оснований. При конструировании стандартных праймеров может случайно оказаться так, что целевая последовательность фрагментируется внутри сайта связывания праймера, или она может быть заложена в конструкцию праймера. Преимущества этого способа включают повышение числа анализируемых фрагментов, которые могут быть сконструированы для ампликона определенной максимальной длины, и сокращение «неинформативного» секвенирования последовательностей праймеров. Он также может быть использован в комбинации с внутренним маркированием (см. другие разделы настоящего документа).
Согласно варианту осуществления относительное количество непродуктивных продуктов мультиплексной целевой ПЦР-амплификации может быть снижено путем повышения температуры отжига. В тех случаях, когда амплифицируются библиотеки с тем же маркером, что и в специфичных по отношению к целям праймерах, температуру отжига можно повысить по сравнению с температурой для геномной ДНК, поскольку маркеры будут способствовать связыванию праймеров. Согласно некоторым вариантам осуществления авторы использовали значительно более низкие концентрации праймеров, чем описанные ранее, наряду с более длительным, чем упоминаемое где-либо еще, временем отжига. Согласно некоторым вариантам осуществления время отжига может составлять более 3 минут, более 5 минут, более 8 минут, более 10 минут, более 15 минут, более 20 минут, более 30 минут, более 60 минут, более 120 минут, более 240 минут, более 480 минут и даже более 960 минут. Согласно варианту осуществления используется более длительное время отжига, чем описанное ранее, что позволяет снизить концентрации праймеров. Согласно различным вариантам осуществления используют более длительные по сравнению с обычными периоды удлинения, например, более 3, 5, 8, 10 или 15 минут. Согласно некоторым вариантам осуществления концентрацию праймеров снижают до 50 нМ, 20 нМ, 10 нМ, 5 нМ, 1 нМ и до менее чем 1 мкМ. Неожиданным образом при этом обеспечивается полноценная производительность высокомультиплексных реакций, например, 1000-плексных реакций, 2000-плексных реакций, 5000-плексных реакций, 10000-плексных реакций, 20000-плексных реакций, 50000-плексных реакций и даже 100000-плексных реакций. Согласно варианту осуществления при амплификации используются один, два, три, четыре или пять циклов, проводимых с длительным временем отжига с последующим циклами ПЦР с обычным временем отжига при использовании маркированных праймеров.
Отбор целевых локализаций можно начать с конструирования пула пар кандидатных праймеров и создания термодинамической модели потенциально неблагоприятных взаимодействий между парами праймеров, а затем использовать указанную модель для устранения конструкций, которые несовместимы с другими конструкциями в пуле.
После процесса отбора праймеры, остающиеся в библиотеке, могут использоваться в любых способах согласно настоящему изобретению.
Примеры библиотек праймеров
Согласно одному аспекту в настоящем изобретении предложены библиотеки праймеров, таких как праймеры, выбранные из библиотеки кандидатных праймеров с применением любых способов согласно настоящему изобретению. Согласно некоторым вариантам осуществления библиотека содержит праймеры, которые одновременно гибридизуют (или способны одновременно гибридизовать) или которые одновременно амплифицируют (или способны одновременно амплифицировать) по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов в одном реакционном объеме. Согласно различным вариантам осуществления библиотека содержит праймеры, которые одновременно амплифицируют (или способны одновременно амплифицировать) от 1000 до 2000; от 2000 до 5000; от 5000 до 7500; от 7500 до 10000; от 10000 до 20000; от 20000 до 25000; от 25000 до 30000; от 30000 до 40000; от 40000 до 50000; от 50000 до 75000; или от 75000 до 100000 разных целевых локусов в одном реакционном объеме включительно. Согласно различным вариантам осуществления библиотека содержит праймеры, которые одновременно амплифицируют (или способны одновременно амплифицировать) от 1000 до 100000 разных целевых локусов в одном реакционном объеме, например, от 1000 до 50000; от 1000 до 30000; от 1000 до 20000; от 1000 до 10000; от 2000 до 30000; от 2000 до 20000; от 2000 до 10000; от 5000 до 30000; от 5000 до 20000; или от 5000 до 10000 разных целевых локусов включительно. Согласно некоторым вариантам осуществления библиотека содержит праймеры, которые одновременно амплифицируют (или способны одновременно амплифицировать) целевые локусы в одном реакционном объеме таким образом, что менее чем 60, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0,5, 0,25, 0,1 или 0,5% амплифицированных продуктов представлено димерами праймеров. Согласно различных вариантах осуществления количество амплифицированных продуктов, которые представляют собой димеры праймеров, составляет от 0,5 до 60%, например, от 0,1 до 40%, от 0,1 до 20%, от 0,25 до 20%, от 0,25 до 10%, от 0,5 до 20%, от 0,5 до 10%, от 1 до 20% или от 1 до 10% включительно. Согласно некоторым вариантам осуществления праймеры одновременно амплифицируют (или способны одновременно амплифицировать) целевые локусы в одном реакционном объеме таким образом, что по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% амплифицированных продуктов представлено целевыми ампликонами. Согласно различным вариантам осуществления количество амплифицированных продуктов, которые представляют собой целевые ампликоны, составляет от 50 до 99,5%, например, от 60 до 99%, от 70 до 98%, от 80 до 98%, от 90 до 99,5% или от 95 до 99,5% включительно. Согласно некоторым вариантам осуществления праймеры одновременно амплифицируют (или способны одновременно амплифицировать) целевые локусы в одном реакционном объеме таким образом, что амплифицируется по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% целевых локусов. Согласно различным вариантам осуществления количество целевых локусов, которые амплифицируются, составляет от 50 до 99,5%, например, от 60 до 99%, от 70 до 98%, от 80 до 99%, от 90 до 99,5%, от 95 до 99,9% или от 98 до 99,99% включительно. Согласно некоторым вариантам осуществления библиотека праймеров содержит по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 пар праймеров, при этом каждая пара праймеров включает прямой тестовый праймер и обратный тестовый праймер, причем каждая пара тестовых праймеров гибридизуется с целевым локусом. Согласно некоторым вариантам осуществления библиотека праймеров содержит по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 индивидуальных праймеров, каждый из который гибридизуется с отличным целевым локусом, при этом указанные индивидуальные праймеры не входят в состав пар праймеров.
Согласно различным вариантам осуществления концентрация каждого праймера составляет менее 100, 75, 50, 25, 20, 10, 5, 2 или 1 нМ, или менее чем 500, 100, 10, или 1 мкМ. Согласно различным вариантам осуществления концентрация каждого праймера составляет от 1 мкМ до 100 нМ, например, от 1 мкМ до 1 нМ, от 1 до 75 нМ, от 2 до 50 нМ или от 5 до 50 нМ включительно. Согласно различным вариантам осуществления содержание GC в праймерах составляет от 30 до 80%, например, от 40 до 70%, или 50 до 60% включительно. Согласно некоторым вариантам осуществления диапазон содержания GC в праймерах составляет менее 30, 20, 10 или 5%. Согласно некоторым вариантам осуществления диапазон содержания GC в праймерах составляет от 5 до 30%, такой как 5 до 20% или 5 до 10% включительно. Согласно некоторым вариантам осуществления температура плавления (Тm) тестовых праймеров составляет от 40 до 80°C, например, от 50 до 70°C, от 55 до 65°C, или от 57 до 60,5°C включительно. Согласно некоторым вариантам осуществления Тm рассчитывают с применением программы Primer3 (Hbprimer3, версия 2.2.3) с применением встроенных параметров SantaLucia (интернет-адрес: primer3.sourceforge.net). Согласно некоторым вариантам осуществления диапазон температур плавления праймеров составляет менее 15, 10, 5, 3 или 1°C. Согласно некоторым вариантам осуществления диапазон температур плавления праймеров составляет от 1 до 15°C, например, от 1 до 10°C, от 1 до 5°C, или от 1 до 3°C включительно. Согласно некоторым вариантам осуществления длина праймеров составляет от 15 до 100 нуклеотидов, например, от 15 до 75 нуклеотидов, от 15 до 40 нуклеотидов, от 17 до 35 нуклеотидов, от 18 до 30 нуклеотидов, от 20 до 65 нуклеотидов включительно. Согласно некоторым вариантам осуществления диапазон длин праймеров составляет менее 50, 40, 30, 20, 10 или 5 нуклеотидов. Согласно некоторым вариантам осуществления диапазон длин праймеров составляет от 5 до 50 нуклеотидов, например, от 5 до 40 нуклеотидов, от 5 до 20 нуклеотидов, или от 5 до 10 нуклеотидов включительно. Согласно некоторым вариантам осуществления длина целевых ампликонов составляет от 50 и 100 нуклеотидов, например, от 60 до 80 нуклеотидов, или от 60 до 75 нуклеотидов включительно. Согласно некоторым вариантам осуществления диапазон длин целевых ампликонов составляет менее 50, 25, 15, 10 или 5 нуклеотидов. Согласно некоторым вариантам осуществления диапазон длин целевых ампликонов составляет от 5 до 50 нуклеотидов, например, от 5 до 25 нуклеотидов, от 5 до 15 нуклеотидов или от 5 до 10 нуклеотидов включительно.
Указанные библиотеки праймеров могут использоваться в любых способах согласно настоящему изобретению.
Примеры наборов праймеров
Согласно одному аспекту в настоящем изобретении предложен набор (например, наборы для амплификации целевых локусов в образце нуклеиновой кислоты), включающий любые из библиотек праймеров согласно настоящему изобретению. Согласно некоторым вариантам осуществления может быть получен состав с набором, который содержит множество праймеров, сконструированных для реализации способов, раскрытых в настоящем описании. Указанные праймеры могут представлять собой внешние прямые и обратные праймеры, внутренние прямые и обратный праймеры согласно описанию в настоящем документе, они могут представлять собой праймеры, которые были сконструированы таким образом, чтобы иметь низкое сродство к связыванию с другими праймерами в наборе согласно описанию в разделе, относящемся к конструированию праймеров, они могут представлять собой зонды гибридного захвата или пре-циркуляризованные зонды согласно описанию в соответствующих разделах, или какую-либо их комбинацию. Согласно варианту осуществления набор могут входить в состав для определения статуса плоидности целевой хромосомы у вынашиваемого плода, разработанный для применения в способах, раскрытых в настоящем документе, при этом указанный набор содержит множество внутренних прямых праймеров и, необязательно, множество внутренних обратных праймеров, и, необязательно, внешние прямые праймеры и внешние обратные праймеры, где каждый праймер сконструирован так, чтобы гибридизоваться с областью ДНК, расположенной непосредственно выше (в 5'-направлении) и/или ниже (в 3'-направлении) одного из целевых сайтов (например, полиморфных сайтов) на целевой хромосоме, и, необязательно, дополнительных хромосомах. Согласно варианту осуществления набор праймеров может использоваться в комбинации с диагностическим боксом, описанным где-либо в настоящем документе. Согласно некоторым вариантам осуществления набор включает инструкции по применению библиотеки для амплификации целевых локусов.
Примеры способов мультиплексной ПЦР
Согласно одному аспекту в настоящем изобретении предложены способы амплификации целевых локусов в образце нуклеиновой кислоты, которые включают (i) приведение указанного образца нуклеиновой кислоты в контакт с библиотекой праймеров, которые одновременно гибридизуются по крайней мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов, в результате чего получают реакционную смесь; и (ii) помещение реакционной смеси в условия реакции удлинения праймеров (такие как условия ПЦР), в результате чего получают продукты амплификации, которые включают целевые ампликоны. Согласно некоторым вариантам осуществления указанный способ также включает определение присутствия или отсутствия по меньшей мере одного целевого ампликона (например, по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% целевых ампликонов). Согласно некоторым вариантам осуществления указанный способ также включает определение последовательности по меньшей мере одного целевого ампликона (например, по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% целевых ампликонов). Согласно некоторым вариантам осуществления амплифицируют по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% целевых локусов. Согласно различным вариантам осуществления менее чем 60, 50, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0,5, 0,25, 0,1 или 0,05% амплифицированных продуктов представлено димерами праймеров.
Согласно варианту осуществления в способе, раскрытом в настоящем документе, используется высокоэффективная высокомультиплексная целевая ПЦР для амплификации ДНК с последующим высокопроизводительным секвенированием для определения частот аллелей в каждом целевом локусе. Возможность мультиплексировать более чем приблизительно 50 или 100 ПЦР-праймеров в одном реакционном объеме таким образом, что большинство полученных считываний последовательностей картируются с целевыми локусами, является новой и неочевидной. Одна из техник, которая позволяет проведение высокомультиплексной целевой ПЦР высокоэффективным способом, включает конструирование праймеров, которые предположительно не будут гибридизоваться друг с другом. Зонды ПЦР, как правило, называемые праймерами, отбирают путем создания термодинамической модели потенциально неблагоприятных взаимодействий между по меньшей мере 500; по меньшей мере 1000; по меньшей мере 2000; по меньшей мере 5000; по меньшей мере 7500; по меньшей мере 10000; по меньшей мере 20000; по меньшей мере 25000; по меньшей мере 30000; по меньшей мере 40000; по меньшей мере 50000; по меньшей мере 75000; или по меньшей мере 100000 потенциальными парами праймеров, или непредусмотренных взаимодействий между праймерами и образцом ДНК, с последующим использованием модели для устранения конструкций, которые несовместимы с другими конструкциями в пуле. Другая техника, позволяющая проведение высокомультиплексной целевой ПЦР высокоэффективным способом, заключается в использовании частичного или полного вложенного подхода в целевой ПЦР. Применение одного из указанных подходов или их комбинации обеспечивает мультиплексирование по меньшей мере 300, по меньшей мере 800, по меньшей мере 1200, по меньшей мере 4000 или по меньшей мере 10000 праймеров в одном пуле с получением амплифицированной ДНК, содержащей большую часть молекул ДНК, которые при секвенировании будут картироваться с целевыми локусами. Использование одного из указанных подходов или их комбинации позволяет проводить мультиплексирование значительного числа праймеров в одном пуле с получением амплифицированной ДНК, содержащей более 50%, более 60%, более 67%, более 80%, более 90%, более 95%, более 96%, более 97%, более 98%, более 99% или более 99,5% ДНК молекул, которые картируются с целевыми локусами.
Согласно некоторым вариантам осуществления обнаружение целевого генетического материала может проводиться с использованием мультиплексного подхода. Число целевых генетических последовательностей, которые могут анализироваться параллельно, может варьировать в диапазоне от 1 до 10, от 10 до 100, от 100 до 1000, от 1000 до 10000, от 10000 до 100000, от 100000 до 1000000 или от 1000000 до 10000000. Ранее попытки проведения мультиплексирования более чем со 100 праймерами на пул приводило к значительным проблемам, связанным с нежелательными побочными реакциями, например, с образованием димеров праймеров. Целевая ПЦР Согласно некоторым вариантам осуществления ПЦР может использоваться для нацеливания на конкретные локализации в геноме. В образцах плазмы исходная ДНК высокофрагментирована (как правило, имеет длину менее чем 500 п.о., в среднем менее чем 200 п.о.). При ПЦР для осуществления амплификации как прямые, так и обратные праймеры должны отжигаться с одним и тем же фрагментом. Таким образом, если фрагменты короткие, при ПЦР-анализах также должны амплифицироваться относительно короткие области. Подобно MIPS, если полиморфные положения находятся слишком близко к сайту связывания полимеразы, это может привести к смещению амплификации для разных аллелей. В настоящее время праймеры ПЦР, целями которых являются полиморфные области, например, содержащие SNP, как правило, сконструированы таким образом, что 3'-конец праймера будет гибридизироваться с основанием, непосредственно примыкающим к полиморфному основанию или основаниям. Согласно раскрытому в настоящем описании варианту осуществления 3' концы как прямых, так и обратных праймеров ПЦР сконструированы так, чтобы гибридизоваться с основаниями, которые расположены на расстоянии одного или нескольких положений от вариантных положений (полиморфных сайтов) целевого аллеля. Число оснований между полиморфным сайтом (SNP или иным) и основанием, для гибридизации с которым сконструирован 3'-конец праймера, может составлять 1 основание, может составлять 2 основания, может составлять 3 основания, может составлять 4 основания, может составлять 5 оснований, может составлять 6 оснований, может составлять от 7 до 10 оснований, может составлять от 11 до 15 оснований или может составлять от 16 до 20 оснований. Прямые и обратные праймеры могут быть сконструированы для гибридизации на разном по числу оснований расстоянии от полиморфного сайта.
ПЦР-анализ может проводиться в большом масштабе, однако взаимодействия между разными ПЦР-анализами затрудняет их мультиплексирование при количестве, превышающем приблизительно сто анализов. Для повышения уровня мультиплексирования могут быть использованы различные комплексные молекулярные подходы, но их применение может быть ограничено числом до 100, возможно, до 200, или, с некоторой вероятностью, до 500 анализов на реакцию. Образцы с большими количествами ДНК могут быть разделены на несколько субреакций, а затем повторно объединены перед секвенированием. В случае образцов, в которых количество либо всего образца, либо субпопуляции молекул ДНК ограничено, расщепление образца будет вносить статистический шум. Согласно варианту осуществления небольшое или ограниченное количество ДНК может относиться к количеству ниже 10 пг, от 10 до 100 пг, от 100 пг до 1 нг, от 1 до 10 нг или от 10 до 100 нг. Отметим, что, хотя Указанный способ подходит, в частности, для небольших количеств ДНК, при которых другие способы, предусматривающие разделение образца на множество пулов, могут вызвать значительные проблемы, связанные с возникновением стохастического шума, он обеспечивает преимущество минимизации стандартной ошибки при применении на образцах с любым количеством ДНК. В таких ситуациях можно использовать этап универсальной преамплификации для увеличения общего количества образца. В идеале такой этап преамплификации не должен значимо изменять аллельные распределения.
Согласно варианту осуществления способ согласно настоящему раскрытию позволяет получать продукты ПЦР, специфичные в отношении значительного числа целевых локусов, в частности, для 1000-5000 локусов, 5000-10000 локусов или более чем для 10000 локусов, для генотипирования посредством секвенирования или каких-либо других способов генотипирования, из ограниченных образцов, таких как единичные клетки или ДНК жидкостей организма. В настоящее время проведение реакций мультиплексной ПЦР для более чем 5-10 целей сопряжено со значительными проблемами и часто затруднено из-за побочных продуктов праймеров, таких как димеры праймеров, и других артефактов. При обнаружении целевых последовательностей с использованием микроматриц с зондами гибридизации димеры праймеров и другие артефакты можно проигнорировать, поскольку они не выявляются. Однако при использовании секвенирования в качестве способа выявления подавляющее большинство считываний последовательностей будет считывать в образце такие артефакты, а не нужные целевые последовательности. Описанные на существующем уровне техники способы, используемые для мультиплексирования более 50 или 100 реакций в одном реакционном объеме с последующим секвенированием, как правило, дают более 20%, часто более 50%, во многих случаях более 80% и в некоторых случаях более 90% считываний нецелевых последовательностей.
В целом, для проведения целевого секвенирования множества (n) целей в образце (более 50, более 100, более 500 или более 1000) образец может быть разделен на ряд параллельных реакций, в которых будет амплифицироваться одна индивидуальная цель. Это было реализовано в многолуночных планшетах для ПЦР; также могут использоваться коммерчески доступные платформы, такие как FLUIDIGM ACCESS ARRAY (48 реакций на образец в микрожидкостных чипах), или метод капельной ПЦР от RAIN DANCE TECHNOLOGY (от сотен до нескольких тысяч целей). К сожалению, такие методы разделения/объединения являются проблематичными для образцов с ограниченным количеством ДНК, поскольку в них часто отсутствует достаточное количество копий генома для обеспечения того, чтобы в каждую лунку попала одна копия каждой области генома. Особенно серьезную проблему это представляет в тех случаях, когда целями являются полиморфные локусы и необходимы данные об относительных пропорциях аллелей в указанных полиморфных локусах, поскольку стохастический шум, возникающий в результате разделения и объединения, приведет к крайне неудовлетворительной точности измерений пропорций аллелей, присутствующих в исходном образце ДНК. В настоящем документе описан способ эффективной и производительной амплификации во множестве реакций ПЦР, который применим для случаев, когда доступно только ограниченное количество ДНК. Согласно варианту осуществления указанный способ может применяться для анализа единичных клеток, жидкостей организма, смесей ДНК, например, свободноплавающей ДНК, присутствующей в материнской плазме, биопсийных образцов, проб окружающей среды и/или образцов для судебно-технической экспертизы.
Согласно варианту осуществления целевое секвенирование может включать один, несколько или все из следующих этапов, а) получение и амплификация библиотеки с адаптерными последовательностями на обоих концах фрагментов ДНК. b) разделение на несколько реакций после амплификации библиотеки, с) получение и необязательно амплификация библиотеки с адаптерными последовательностями на обоих концах фрагментов ДНК. d) выполнение 1000-10000-плексной амплификации выбранных целей с применением одного специфичного по отношению к цели «прямого» праймера на цель и одного специфичного по отношению к маркеру праймера. е) выполнение второй амплификации из указанного продукта с применением «обратных» специфичных в отношении цели праймеров и одного (или нескольких) праймера(ов), специфичного(ых) в отношении универсального маркера, который был введен в качестве части специфичных по отношению к цели прямых праймеров в первом раунде, f) выполнение 1000-плексной преамплификации выбранной цели в течение ограниченного числа циклов, g) разделение продукта на множество аликвот и амплификация субпулов целей в индивидуальных реакциях (например, от 50 до 500-плексной, хотя могут быть использованы все, вплоть до одноплексной. h) объединение продуктов реакций в параллельных субпулах, i) Во время указанных амплификаций праймеры могут нести совместимые с секвенированием маркеры (частичные или полноразмерные) так, чтобы продукты могли быть секвенированы.
Высокомультиплексная ПЦР
В настоящем описании раскрыты способы, позволяющие проводить направленную амплификацию более ста и до десятков тысяч целевых последовательностей (например, локусов SNP) из образца нуклеиновой кислоты, такой как геномная ДНК, полученная из плазмы. Амплифицированный образец может быть относительно свободен от продуктов димеров праймеров и характеризоваться незначительным смещением числа аллелей в целевых локусах. Если во время или после амплификации к продуктам добавить совместимые с секвенированием адаптеры, анализ таких продуктов можно выполнять посредством секвенирования.
Проведение высокомультиплексной ПЦР-амплификации с применением способов, известных в данной области техники, приводит к образованию продуктов димеров праймеров, количество которых превышает количества нужных продуктов амплификации, и которые неприемлемы для секвенирования. Это явление можно уменьшить эмпирическим способом, устраняя праймеры, образующие указанные продукты, или путем отбора праймеров in silico. Однако чем выше число анализов, тем сложнее решить указанную проблему.
Одно из решений заключается в разделении 5000-плексной реакции на несколько менее мультиплексированных реакций амплификации, например, сто 50-плексных или пятьдесят 100-плексных реакций, или в использовании микрофлюидики, или даже в разделении образца для проведения индивидуальных реакций ПЦР. Однако в случае ограниченной доступности образца ДНК, например, плазмы беременной женщины при неинвазивной пренатальной диагностике, разделения образца на несколько реакций следует избегать, так как это приведет к возникновению эффекта «бутылочного горлышка».
В настоящем документе описаны способы, предусматривающие сначала проведение глобальной амплификации ДНК плазмы из образца, а затем разделение указанного образца на множество мультиплексных реакций с обогащением по целям с более умеренным количеством целевых последовательностей на реакцию. Согласно варианту осуществления способ согласно настоящему раскрытию может использоваться для преимущественного обогащения смеси ДНК по множеству локусов, при этом указанный способ включает один или несколько из следующих этапов: получение и амплификация библиотеки из смеси ДНК, при этом молекулы в библиотеке содержат адаптерные последовательности, лигированные на обоих концах фрагментов ДНК, разделение амплифицированной библиотеки на множество реакций, проведение первого раунда мультиплексной амплификации выбранных целей с применением одного специфичного по отношению к цели «прямого» праймера на цель и одного или нескольких специфичных в отношении адаптеров универсальных «обратных» праймеров. Согласно варианту осуществления способ согласно настоящему раскрытию также включает проведение второй амплификации с применением «обратных» специфичных в отношении цели праймеров и одного или нескольких праймеров, специфичных в отношении универсального маркера, который был введен в качестве части специфичных по отношению к цели прямых праймеров в первом раунде. Согласно варианту осуществления указанный способ может включать применение полной вложенной, гемивложенной, полувложенной, односторонней полной вложенной, односторонней гемивложенной или односторонней полувложенной ПЦР. Согласно варианту осуществления способ согласно настоящему раскрытию используют для преимущественного обогащения смеси ДНК по множеству локусов, при этом указанный способ включает проведение мультиплексной преамплификации выбранных целей в течение ограниченного числа циклов, разделение продукта на множество аликвот и амплификацию субпулов целей в индивидуальных реакциях, и объединение продуктов реакций в параллельных субпулах. Отметим, что указанный подход может быть использован для проведения целевой амплификации таким образом, что он обеспечит низкие уровни смещения числа аллелей для 50-500 локусов, для 500-5000 локусов, для 5000-50000 локусов, или даже для 50000-500000 локусов. Согласно варианту осуществления праймеры несут совместимые с секвенированием частичные или полноразмерные маркеры.
Технологический процесс может предусматривать (1) экстракцию ДНК, например, ДНК плазмы, (2) подготовку библиотеки фрагментов с универсальными адаптерами на обоих концах фрагментов, (3) амплификацию указанной библиотеки с применением универсальных праймеров, специфичных в отношении адаптеров, (4) разделение амплифицированной «библиотеки» образца на множество аликвот, (5) выполнение мультиплексных (например, приблизительно 100-плексной, 1000 или 10000-плексной с одним специфичным по отношению к цели праймером на цель и специфичным по отношению к маркеру праймером) амплификаций аликвот, (6) объединение аликвот из одного образца, (7) определение штрихкодов образца, (8) смешивание образцов и коррекция концентрации, (9) секвенирование образца. Технологический процесс может включать множество подэтапов, которые включают один из перечисленных этапов (например, этап (2) подготовки библиотеки может включать три ферментативных этапа (формирования тупых концов, наращивания dA и адаптерного лигирования) и три этапа очистки). Этапы технологического процесса могут быть скомбинированы, разделены или выполнены в другом порядке (например, штрихкодирование и объединение образцов).
Важно отметить, что амплификация библиотеки может выполняться таким образом, что она будет смещена в сторону более эффективной амплификации коротких фрагментов. Благодаря этому возможна преимущественная амплификация более коротких последовательностей, например, мононуклеосомных фрагментов ДНК, таких как внеклеточная плодная ДНК (плацентарного происхождения), выявляемая в кровотоке беременных женщин. Отметим, что ПЦР-анализы могут содержать маркеры, например, маркеры секвенирования (обычно усеченную форму из 15-25 оснований). После мультиплексирования ПЦР-мультиплексы образца объединяют и затем завершают маркирование (включая штрихкодирование) с помощью маркер-специфичной ПЦР (также может выполняться с помощью лигирования). Также в ту же реакцию мультиплексирования могут быть добавлены полные маркеры секвенирования В первых циклах цели могут быть амплифицированы специфичными к целям праймерами, впоследствии преобладают специфичные по отношению к маркерам праймеры, которые завершают SQ-адаптерную последовательность. Праймеры ПЦР могут не содержать маркеров. Маркеры секвенирования могут быть добавлены к продуктам амплификации путем лигирования.
Согласно варианту осуществления высокомультиплексная ПЦР с последующей оценкой амплифицированного материала путем секвенирования клонов может быть использована в различных вариантах применения, например, для выявления анеуплоидии плода. В то время как при традиционных мультиплексных ПЦР оценивают до пятидесяти локусов одновременно, описанный в настоящем документе способ может быть использован для оценки более 50 локусов одновременно, более 100 локусов одновременно, более 500 локусов одновременно, более 1000 локусов одновременно, более 5000 локусов одновременно, более 10000 локусов одновременно, более 50000 локусов одновременно и более 100000 локусов одновременно. Эксперименты показали, что до 10000 и больше разных локусов могут оцениваться одновременно в одной реакции с достаточно хорошей эффективностью и специфичностью для проведения неинвазивной пренатальной диагностики анеуплоидии и/или определения признаков числа копий с высокой точностью. Анализы можно комбинировать в одной реакции со всем образцом cfDNA, выделенной из материнской плазмы, с ее фракцией или с процессированными производными cfDNA образца. Образец (например, cfDNA или производные cfDNA) также можно разделить на множество параллельных мультиплексных реакций. Оптимальное расщепление образца и мультиплексирование определяют путем согласования различных технических показателей. Вследствие ограниченного количества материала расщепление образца на множество фракций может внести шумовой сигнал, увеличить время обработки и повысить вероятность ошибки. С другой стороны, более высокая степень мультиплексирования может приводить к большим количествам побочных продуктов амплификации и большим диспропорциям в амплификации, явлениям, которые могут снижать показатели производительности тестирования.
Двумя ключевыми взаимосвязанными соображениями при применении описанных в настоящем документе способов являются ограниченное количество исходного образца (например, плазмы) и число исходных молекул в материале, на основе которого определяют частоту аллелей или проводят другие измерения. Если число исходных молекул опускается ниже определенного уровня, случайный шумовой сигнал становится значимым и может повлиять на точность теста. Как правило, данные удовлетворительного качества для осуществления неинвазивной пренатальной диагностики анеуплоидии могут быть получены, если измерения выполняются на образце, содержащем эквивалент 500-1000 исходных молекул на целевой локус. Существует ряд способов увеличения количества отдельных измерений, например, увеличение объема образца. Каждая манипуляция, проводимая с образцом, также потенциально приводит к потере материала. Важно характеризовать потери, происходящие в результате различных манипуляций, и избегать указанных потерь, или, при необходимости, повышать выход при определенных манипуляциях во избежание потерь, которые могут ухудшить производительность теста.
Согласно варианту осуществления можно снизить потенциальные потери на последовательных этапах за счет амплификации всего образца или части исходного образца (например, образца cfDNA). Доступны различные способы амплификации всего генетического материала в образце с увеличением количества материала, доступного для последующих процедур. Согласно варианту осуществления при опосредованной лигированием ПЦР (LM-PCR, или ОЛ-ПЦР) фрагменты ДНК амплифицируются посредством ПЦР после лигирования или одного отдельного адаптера, или двух отдельных адаптеров, или множества отдельных адаптеров. Согласно варианту осуществления при амплификации с множественным смещением цепей (MDA) используется полимераза phi-29 для амплификации всей ДНК в изотермических условиях. В методе ДОП-ПЦР и его вариантах для амплификации ДНК из исходного материала используется случайный прайминг. Каждый способ имеет определенные характеристики, такие как однородность амплификации по всем представленным областям генома, эффективность захвата и амплификации исходной ДНК, а также производительность амплификации как функция от длины фрагмента.
Согласно варианту осуществления может быть использована ОЛ-ПЦР с одним гетеродуплексным адаптером, содержащим на 3'-конце тирозин. Гетеродуплексный адаптер дает возможность использовать единичную молекулу адаптера, которая может быть превращена в две различные последовательности на 5'-конце и 3'-конце исходного фрагмента ДНК во время первого раунда ПЦР. Согласно варианту осуществления можно фракционировать амплифицированную библиотеку по размерам или продуктам, такими способами, как AMPURE, TASS, или другими аналогичными способами. Перед лигированием образец ДНК может быть снабжен тупыми концами с последующим добавлением единичного аденозинового основания на 3'-конце. Перед лигированием ДНК может быть расщеплена с использованием рестрикционного фермента или другого способа расщепления. Во время лигирования 3'-концевой аденозин фрагментов образца и комплементарный 3'-концевой тирозин выступают над адаптером и могут повысить эффективность лигирования. Этап удлинения ПЦР-амплификации может быть ограничен во времени с целью уменьшения амплификации фрагментов, длина которых составляет более приблизительно 200 пар оснований, приблизительно 300 пар оснований, приблизительно 400 пар оснований, приблизительно 500 пар оснований или приблизительно 1000 пар оснований. Поскольку более длинные фрагменты ДНК, выявляемые в материнской плазме, практически полностью являются материнскими, это может привести к обогащению по плодной ДНК на 10-50% и улучшению производительности теста. Ряд реакций проводили с использованием условий, описанных для коммерчески доступных наборов; в результате успешное лигирование достигалось менее чем для 10% молекул ДНК образца. После серии оптимизаций условий реакции по этому параметру лигирование было улучшено до приблизительно 70%. Мини-ПЦР.
Описанный ниже способ мини-ПЦР целесообразен для образцов, содержащих короткие нуклеиновые кислоты, расщепленные нуклеиновые кислоты или фрагментированные нуклеиновые кислоты, такие как cfDNA. Традиционная схема ПЦР-анализа приводит к значительным потерям отдельных плодных молекул, однако потери могут быть существенно уменьшены путем создания очень коротких ПЦР-анализов, называемых анализами мини-ПЦР. Плодная cfDNA в материнской сыворотке высокофрагментирована, и размеры фрагментов распределены приблизительно согласно распределению Гаусса со средним значением 160 п.о., стандартным отклонением 15 п.о., минимальным размером приблизительно 100 п.о. и максимальным размером приблизительно 220 п.о. Распределение стартовых и концевых положений фрагмента относительно целевых полиморфизмов, не являясь обязательно случайным, значительно варьирует между индивидуальными целями и между всеми целями в совокупности, и полиморфный сайт одного конкретного целевого локуса может занимать любое положение от старта до конца в различных фрагментах, происходящих из этого локуса. Отметим, что термин «мини-ПЦР» может в равной степени относиться к обычной ПЦР без дополнительных условий или ограничений.
Во время ПЦР происходит амплификация только тех матричных фрагментов ДНК, которые содержат сайты как прямых, так и обратных праймеров. Поскольку фрагменты плодной cfDNA являются короткими, вероятность того, что сайты обоих праймеров присутствуют, представлена вероятностью существования плодного фрагмента длиной L, содержащего сайты как прямых, так и обратных праймеров, и равняется отношению длины ампликона к длине фрагмента. При идеальных условиях в анализе, в котором ампликон составляет 45, 50, 55, 60, 65 или 70 пар оснований, будет успешно амплифицироваться 72%, 69%, 66%, 63%, 59% или 56%, соответственно, доступных матричных фрагментов молекул. Длина ампликона - это расстояние между 5-концами сайтов прямого и обратного праймирования. Ампликон с меньшей длиной по сравнению с общеизвестными в данной области техники может обеспечивать более эффективные измерения желаемых полиморфных локусов, требуя считывания только коротких последовательностей. Согласно варианту осуществления размер существенной доли ампликонов должен составляет менее 100 п.о., менее 90 п.о., менее 80 п.о., менее 70 п.о., менее 65 п.о., менее 60 п.о., менее 55 п.о., менее 50 п.о. или менее 45 п.о.
Отметим, что в способах, известных в данной области техники, обычно избегают коротких анализов, таких как описанные в настоящем документе, поскольку они не являются необходимыми и накладывают значительные ограничения на конструирование праймеров, ограничивая длину праймера, характеристики отжига и расстояние между прямым и обратным праймерами.
Также отметим, что существует вероятность смещения амплификации, если 3'-конец любого из праймеров находится приблизительно на расстоянии 1-6 оснований от полиморфного сайта. Такая разница в одном основании в сайте начального связывания полимеразы может привести к предпочтительной амплификации одного аллеля, что может изменить наблюдаемые частоты аллелей и ухудшить производительность. Все эти ограничения делают идентификацию праймеров, которые будут успешно амплифицировать конкретный локус, и, следовательно, конструирование больших наборов праймеров, которые были бы совместимы в одной мультиплексной реакции, крайне проблематичными. Согласно варианту осуществления 3'-конец внутренних прямых и обратных праймеров сконструирован для гибридизации с областью ДНК выше (в 5-направлении) полиморфного сайта, и отделен от полиморфного сайта небольшим количеством оснований. В идеальном варианте число оснований может составлять от 6 до 10 оснований, но с тем же успехом может составлять от 4 до 15 оснований, от трех до 20 оснований, от двух до 30 оснований или от 1 до 60 оснований, с достижением по сути одинакового результата.
Мультиплексная ПЦР может включать единственный раунд ПЦР, в котором амплифицируют все цели, или может включать один раунд ПЦР с последующим одним или несколькими раундами вложенной ПЦР или определенного варианта вложенной ПЦР. Вложенная ПЦР состоит из последующего раунда или раундов ПЦР-амплификации с использованием одного или нескольких новых праймеров, которые внутренне связываются, с помощью по меньшей мере одной пары оснований, с праймерами, использованными в предыдущем раунде. Вложенная ПЦР снижает число побочных целей амплификации за счет амплификации в последовательных реакциях только тех продуктов предыдущих реакций, которые имеют правильную внутреннюю последовательность. Снижение амплификации побочных целей повышает количество полезных измерений, которые могут быть получены, в частности, при секвенировании. Вложенная ПЦР, как правило, означает конструирование праймеров, полностью внутренних по отношению к сайтам связывания предыдущих праймеров, с увеличением в обязательном порядке минимального размера сегмента ДНК, необходимого для амплификации. Для образцов, таких как cfDNA из материнской плазмы, в которых ДНК высокофрагментирована, больший размер анализируемых фрагментов снижает число отдельных молекул cfDNA, для которых можно получить измерения. Согласно варианту осуществления с целью компенсации этого эффекта можно использовать способ частично вложенной ПЦР, при котором один или оба праймера второго раунда перекрывают первые сайты связывания праймеров первого, захватывая некоторое количество внутренних оснований для достижения дополнительной специфичности наряду с минимальным увеличением общего размера анализируемых фрагментов.
Согласно варианту осуществления мультиплексный пул ПЦР анализируемых фрагментов сконструирован для амплификации потенциально гетерозиготных SNP или других полиморфных или неполиморфных локусов в одной или нескольких хромосомах, и эти анализируемые фрагменты используются в одной реакции для амплификации ДНК. Количество ПЦР-анализов может составлять от 50 до 200 ПЦР-анализов, от 200 до 1000 ПЦР-анализов, от 1000 до 5000 ПЦР-анализов или от 5000 до 20000 ПЦР-анализов (50-200-плексная, 200-1000-плексная, 1000-5000-плексная, 5000-20000-плексная, более чем 20000-плексная ПЦР, соответственно). Согласно варианту осуществления мультиплексный пул из приблизительно 10000 анализируемых фрагментов ПЦР (10 000-плексная ПЦР) конструируется для амплификации потенциально гетерозиготных SNP локусов в хромосомах X, Y, 13, 18 и 21 и 1 или 2, и эти анализируемые фрагменты используются в одной реакции для амплификации cfDNA, полученной из материала образца плазмы, образцов ворсин хориона, образцов амниоцентеза, единичных клеток или небольшого количества клеток, других жидкостей или тканей организма, раковых новообразований или другого генетического материала. Частоты SNP в каждом локусе могут быть определены с помощью клонального секвенирования или каких-либо других способов секвенирования ампликонов. Статистический анализ распределения частот аллелей или отношений всех проанализированных фрагментов может быть использован для определения того, содержит ли образец трисомию по одной или нескольким хромосомам, включенным в тест. Согласно другому варианту осуществления образцы исходной cfDNA расщепляют на два образца, и выполняют параллельные 5000-плексные анализы. Согласно другому варианту осуществления образцы исходной cfDNA расщепляют на n образцов и выполняют параллельные (~10000/n)-плексные анализы, где n составляет от 2 до 12, или от 12 до 24, или от 24 до 48, или от 48 до 96. Данные собирают и анализируют способом, аналогичным описанному выше. Отметим, что указанный способ в равной степени подходит для обнаружения транслокаций, делеций, дупликаций и других хромосомных аномалий.
Согласно варианту осуществления к 3'-концу или 5'-концу любого из праймеров могут добавляться «хвосты», не имеющие гомологии с целевым геномом. Указанные хвосты облегчают последующие манипуляции, процедуры или измерения. Согласно варианту осуществления хвостовая последовательность может быть одинаковой для прямых и обратных специфичных по отношению к цели праймеров. Согласно варианту осуществления различные хвосты могут использоваться для прямых и обратных специфичных по отношению к цели праймеров. Согласно варианту осуществления множество различных хвостов может быть использовано для различных локусов или наборов локусов. Некоторые хвосты могут быть общими для всех локусов или субнаборов локусов. Например, использование прямых и обратных хвостов, соответствующих прямым и обратным последовательностям, требующимся для любой из применяемых в настоящее время платформ секвенирования, может позволять проведение прямого секвенирования после амплификации. Согласно варианту осуществления указанные хвосты могут использоваться в качестве общих сайтов праймирования для всех амплифицируемых целей, которые могут быть использованы для добавления других подходящих последовательностей. Согласно некоторым вариантам осуществления внутренние праймеры могут содержать область, сконструированную для гибридизации либо выше (в 5'-направлении), либо ниже (в 3'-направлении) от целевого локуса (например, полиморфного локуса). Согласно некоторым вариантам осуществления указанные праймеры могут содержать молекулярный штрихкод. Согласно некоторым вариантам осуществления указанный праймер может содержать универсальную последовательность праймирования, сконструированную для обеспечения ПЦР-амплификации.
Согласно варианту осуществления пул для 10000-плексного ПЦР-анализа получают таким образом, что прямые и обратные праймеры имеют хвосты, соответствующие прямым и обратным последовательностям, необходимым для инструмента высокопроизводительного секвенирования, такого как HISEQ, GAIIX или MYSEQ от ILLUMINA. Кроме того, включенный в хвосты секвенирования 5'-конец представляет собой дополнительную последовательность, которая может быть использована в качестве сайта праймирования в последующей ПЦР для добавления последовательностей нуклеотидов штрихкода к ампликонам, что обеспечивает возможность мультиплексного секвенирования множества образцов на одной дорожке инструмента высокопроизводительного секвенирования.
Согласно варианту осуществления пул для 10000-плексного ПЦР-анализа создается таким образом, что обратные праймеры имеют хвосты, соответствующие обратным последовательностям, необходимым для инструмента высокопроизводительного секвенирования. После амплификации в первом 10000-плексном анализе может быть выполнена последующая ПЦР-амплификация с использованием другого 10000-плексного пула, содержащего частично вложенные прямые праймеры (например, из 6 вложенных оснований) для всех целей и обратный праймер, соответствующий обратному хвосту секвенирования, включенном в первом раунде. Указанный последующий раунд частично вложенной амплификации только с одним специфичным по отношению к цели праймером и универсальным праймером ограничивает необходимый размер анализируемого фрагмента, снижает шумовой сигнал, а также значительно уменьшает число побочных ампликонов. Маркеры секвенирования могут добавляться к присоединенным адаптерам лигирования и/или как часть зондов ПЦР так, что маркер является частью конечного ампликона.
Доля плода оказывает влияние на производительность теста. Существует ряд способов обогащения ДНК, присутствующей в материнской плазме, плодной фракцией. Доля плода может быть увеличена описанным ранее способом ОЛ-ПЦР, а также целевым удалением длинных материнских фрагментов. Согласно варианту осуществления перед мультиплексной ПЦР-амплификацией целевых локусов может быть проведена дополнительная мультиплексная ПЦР с целью селективного удаления длинных, в основном материнских фрагментов, соответствующих целевым локусам последующей мультиплексной ПЦР. Конструируют дополнительные праймеры для отжига сайта, расположенного на большем расстоянии от полиморфизма, чем ожидается для фрагментов внеклеточной плодной ДНК. Указанные праймеры могут использоваться в одном цикле реакции мультиплексной ПЦР до проведения мультиплексной ПЦР целевых полиморфных локусов. Указанные дистальные праймеры маркируют молекулой или фрагментом, способной(ым) обеспечить селективное распознавание маркированных участков ДНК. Согласно варианту осуществления, указанные молекулы ДНК могут быть ковалентно модифицированы молекулой биотина, которая обеспечивает удаление свежеобразованной двуцепочечной ДНК, содержащей указанные праймеры, после одного цикла ПЦР. Двуцепочечная ДНК, образовавшаяся во время первого раунда, скорее всего по происхождению является материнской. Удаление гибридного материала может быть осуществлено с помощью применения магнитных стрептавидиновых гранул. Существуют другие способы мечения, которые могут работать с тем же успехом. Согласно варианту осуществления могут быть использованы способы отбора по размеру для обогащения образца более короткими цепями ДНК, например, менее чем приблизительно 800 п.о., менее чем приблизительно 500 п.о., или менее чем приблизительно 300 п.о. После этого можно проводить амплификацию коротких фрагментов обычным образом.
Способ мини-ПЦР, раскрытый в настоящем описании, позволяет проводить высокомультиплексную амплификацию и анализ от сотен до тысяч, или даже миллионов локусов в одной реакции, из одного образца. В то же время выявление амплифицированной ДНК может быть мультиплексным; десятки и сотни образцов могут быть мультиплексированы на одной дорожке секвенатора с использованием ПЦР-штрихкодирования. Такое мультиплексное выявление было успешно протестировано на примерах вплоть до 49-плексного, и возможна гораздо более высокая степень мультиплексирования. Фактически, это обеспечивает проведение генотипирования сотен образцов в тысячах SNP в одной серии секвенирования. Для указанных образцов способ позволяет определять генотип и уровень гетерозиготности и одновременно определять число копий; оба показателя могут быть использованы для выявления анеуплоидии. Указанный способ, в частности, подходит для выявления анеуплоидии вынашиваемого плода по свободноплавающей ДНК обнаруживаемой в материнской плазме. Этот способ может быть использован как часть способа установления пола плода и/или прогнозирования отцовства плода. Он может быть использован как часть способа установления дозы мутаций. Указанный способ может использоваться для любого количества ДНК или РНК, и целевые области могут представлять собой SNP, другие полиморфные области, неполиморфные области и их комбинации.
Согласно некоторым вариантам осуществления может использоваться опосредованная лигированием универсальная ПЦР-амплификация фрагментированной ДНК. Опосредованная лигированием универсальная ПЦР-амплификация может использоваться для амплификации ДНК плазмы, которая затем может быть разделена на множество параллельных реакций. Она может также использоваться для преимущественной амплификации коротких фрагментов и обогащения таким образом плодной фракцией. Согласно некоторым вариантам осуществления добавление маркеров к фрагментам путем лигирования может позволять обнаружение более коротких фрагментов, применение более коротких участков специфичных в отношении целевых последовательностей праймеров и/или отжиг при более высоких температурах, что уменьшает уровень неспецифических реакций.
Способы, описанные в настоящем документе, могут использоваться в различных целях, в тех случаях, когда имеется целевая множество ДНК, смешанная с некоторым количеством загрязняющей ДНК. Согласно некоторым вариантам осуществления целевая ДНК и загрязняющая ДНК могут происходить от генетически родственных индивидуумов. Например, генетические аномалии плода (цели) могут быть выявлены по материнской плазме, которая содержит плодную (целевую) ДНК, а также материнскую (загрязняющую) ДНК; аномалии включают аномалии целых хромосом (например, анеуплоидию), аномалии части хромосом (например, делеции, дупликации, инверсии, транслокации), полинуклеотидные полиморфизмы (например, STR), однонуклеотидные полиморфизмы и/или другие генетические аномалии или отличия. Согласно некоторым вариантам осуществления целевая и загрязняющая ДНК могут происходить от одного индивидуума, но при этом указанные целевая и загрязняющая ДНК отличаются одной или несколькими мутациями, например, как в случае ракового заболевания, (см., например, Н. Mamon и др. Preferential Amplification of Apoptotic DNA from Plasma: Potential for Enhancing Detection of Minor DNA Alterations in Circulating DNA. Clinical Chemistry 54:9 (2008). Согласно некоторым вариантам осуществления ДНК может быть обнаружена в супернатанте культуры клеток (апоптотических). Согласно некоторым вариантам осуществления можно индуцировать апоптоз в биологических образцах (например, крови) для последующей подготовки библиотеки, амплификации и/или секвенирования. Ряд технологических процессов и протоколов, обеспечивающих выполнение указанных задач, представлены в различных разделах настоящего описания.
Согласно некоторым вариантам осуществления целевая ДНК может происходить из одиночных клеток, из образцов ДНК, состоящих из менее чем одной копии целевого генома, из небольших количеств ДНК, из ДНК смешанного происхождения (например, плазмы при беременности: плацентарной и материнской ДНК; плазмы пациента с раковым заболеванием и опухолей: смеси ДНК здоровых и раковых тканей, трансплантатов и т.п.), из других жидкостей организма, из культур клеток, культуральных супернатантов, из образцов для судебно-технической экспертизы ДНК, из исторических образцов ДНК (например, насекомых, заключенных в янтарь), из других образцов ДНК и их комбинаций.
Согласно некоторым вариантам осуществления могут использоваться ампликоны небольшого размера. Ампликоны небольшого размера подходят, в частности, для фрагментированной ДНК (см., например, A. Sikora, и др. Detection of increased amounts of cell-free fetal DNA with short PCR amplicons. Clin Chem. 2010 Jan; 56 (1): 136-8.)
Применение ампликонов небольшого размера может обеспечить ряд существенных преимуществ. Ампликоны небольшого размера могут обеспечивать оптимизацию эффективности амплификации. Ампликоны небольшого размера, как правило, дают более короткие продукты, таким образом уменьшается вероятность неспецифического праймирования. Более короткие продукты могут быть сгруппированы плотнее в проточной ячейке для секвенирования, поскольку кластеры будут меньше. Отметим, что способы, описанные в настоящем документе, могут с равным успехом работать и в случае более длинных ПЦР-ампликонов. Длина ампликона может быть при необходимости увеличена, например, для секвенирования более длинных отрезков последовательностей. Эксперименты с 146-плексной направленной амплификацией анализируемых фрагментов размером от 100 п.о. до 200 п.о. в качестве первого этапа протокола вложенной ПЦР проводили с получением положительных результатов на одиночных клетках и на геномной ДНК.
Согласно некоторым вариантам осуществления способы, описанные в настоящем документе, могут использоваться для амплификации и/или обнаружения SNP, числа копий, метилирования нуклеотидов, уровней мРНК, уровней экспрессии других типов РНК, других генетических и/или эпигенетических характеристик. Способы мини-ПЦР, описанные в настоящем документе, могут использоваться вместе с секвенированием следующего поколения; он может быть использован совместно с другими последующими способами, такими как микроматрицы, подсчет методом цифровой ПЦР, ПЦР в режиме реального времени, масс-спектрометрический анализ и т.д.
Согласно некоторым вариантам осуществления описанные в настоящем документе способы мини-ПЦР амплификации могут быть использованы как часть способа точного количественного определения минорных популяций. Он может быть использован для определения абсолютного количества с использованием калибровочных стандартов с внутренним контролем. Он может быть использован для количественного анализа мутантного/минорного аллеля посредством очень глубокого секвенирования, и может выполняться по высокомультиплексному типу. Он может быть использован для стандартного тестирования для установления отцовства, родства и происхождения у человека, животных, растений или других существ. Он может быть использован для судебно-технической экспертизы. Он может быть использован для быстрого генотипирования и анализа числа копий (CN) на материале любого типа, например, амниотической жидкости и пробах ворсин хориона, сперме, продуктах оплодотворения (РОС). Он может быть использован для анализа единичных клеток, например, генотипирования образцов, полученных с применением биопсии из эмбрионов. Он может быть использован для быстрого анализа эмбрионов (в течение менее одного, одного или двух дней после биопсии) с помощью целевого секвенирования с использованием мини-ПЦР.
Согласно некоторым вариантам осуществления он может быть использован для анализа опухолей: биоптат опухолей часто представляет собой смесь здоровых и опухолевых клеток. Целевая ПЦР позволяет проводить глубокое секвенирование SNP и локусов практически без фоновых последовательностей. Он может быть использован для анализа числа копий и утраты гетерозиготности на опухолевой ДНК. Указанная опухолевая ДНК может присутствовать во многих жидкостях организма или тканях пациентов с опухолями. Он может быть использован для обнаружения рецидива опухоли и/или для скрининга опухоли. Он может быть использован для контроля качества семян. Он может быть использован в селекции и рыбоводстве. Отметим, что любой из указанных способов может с тем же успехом применяться для нацеливания на неполиморфные локусы для определения плоидности.
Некоторые литературные источники, описывающие некоторые из фундаментальных способов, лежащих в основе раскрытых в настоящем документе способов, включают: (1) Wang HY, Luo М, Tereshchenko IV, Frikker DM, Cui X, Li JY, Hu G, Chu Y, Azaro MA, Lin Y, Shen L, Yang Q, Kambouris ME, Gao R, Shih W, Li H. Genome Res. 2005 Feb; 15 (2): 276-83. Department of Molecular Genetics, Microbiology and Immunology/The Cancer Institute of New Jersey, Robert Wood Johnson Medical School, New Brunswick, New Jersey 08903, USA. (2) Высокопроизводительное генотипирование одиночных нуклеотидных полиморфизмов с высокой чувствительностью: Li Н, Wang HY, Cui X, Luo M, Hu G, Greenawalt DM, Tereshchenko IV, Li JY, Chu Y, Gao R. Methods Mol Biol. 2007; 396 - PubMed PMID: 18025699. (3) Способ, включающий мультиплексирование в среднем с 9 анализами на секвенирование, описан в источнике: Nested Patch PCR enables highly multiplexed mutation discovery in candidate genes. Varley KE, Mitra RD. Genome Res. 2008 Nov; 18 (11): 1844-50. Epub 2008 Oct 10. Отметим, что раскрытые в настоящем документе способы позволяют проводить мультиплексирования более высоких порядков, чем описанные в вышеуказанных источниках.
Варианты целевой ПЦР - вложенная ПЦР
Существует множество вариантов технологических процессов для проведения ПЦР; описаны некоторые технологические процессы, типичные для раскрытых в настоящем документе способов. Указанные в настоящем документе этапы не означают исключения других возможных этапов и не подразумевают, что какой-либо из этапов, описанных в настоящем документе, необходим для того, чтобы способ работал соответствующим образом. В литературе известен широкий ряд вариаций параметров или другие модификации, и они могут быть выполнены без изменения сущности настоящего изобретения. Один конкретный обобщенный технологический процесс приведен ниже с последующим рядом возможных вариантов. Варианты, как правило, относятся к возможным вторичным реакциям ПЦР, например, к различным типам вложения, которые могут быть выполнены (этап 3). Важно отметить, что варианты могут быть выполнены в другое время или в другом порядке, чем описанный(ое) в настоящем документе. Если требуется, примеры, в которых для иллюстрации используются полиморфные локусы, могут быть легко адаптированы для амплификации неполиморфных локусов.
1. ДНК в образце может содержать адаптеры лигирования, которые часто называют маркерами библиотеки или адаптерными маркерами лигирования (LT), добавляемые в тех случаях, если адаптеры лигирования содержат универсальную последовательность праймирования, для последующей универсальной амплификации. Согласно варианту осуществления это может быть реализовано с использованием стандартного протокола, разработанного для создания библиотек секвенирования после фрагментации. Согласно варианту осуществления образец ДНК может быть снабжен тупыми концами, и затем А может быть добавлен к 3'-концу. Может быть добавлен и лигирован Y-адаптер с выступающим «липким» Т. Согласно некоторым вариантам осуществления могут быть использованы другие липкие концы, отличные от А или выступающего Т. Согласно некоторым вариантам осуществления другие адаптеры могут быть добавлены, например, петлевые адаптеры лигирования. Согласно некоторым вариантам осуществления адаптеры могут содержать маркер, сконструированный для ПЦР-амплификации.
2. Специфичная амплификация целей (STA). Преамплификация сотен, тысяч, десятков тысяч и даже сотен тысяч целей может быть мультиплексирована в одном реакционном объеме. STA, как правило, проводится за 10-30 циклов, хотя она может проводиться за 5-40 циклов, за 2-50 циклов и даже за 1-100 циклов. Праймеры могут быть снабжены хвостами, например, для упрощения технологического процесса или чтобы избежать секвенирования больших пропорций димеров. Отметим, что, как правило, димеры обоих праймеров, несущих одинаковый маркер, не будут эффективно амплифицироваться или секвенироваться. Согласно некоторым вариантам осуществления может быть проведено от 1 до 10 циклов ПЦР; согласно некоторым вариантам осуществления может быть проведено от 10 до 20 циклов ПЦР; согласно некоторым вариантам осуществления может быть проведено от 20 до 30 циклов ПЦР; согласно некоторым вариантам осуществления может быть проведено от 30 до 40 циклов ПЦР; согласно некоторым вариантам осуществления может быть проведено более 40 циклов ПЦР. Амплификация может представлять собой линейную амплификацией. Число циклов ПЦР может быть оптимизировано для получения оптимального профиля глубины секвенирования («depth of read», DOR). Для разных целей могут быть целесообразны разные профили DOR. Согласно некоторым вариантам осуществления желательно более равномерное распределение считываний между всеми анализируемыми фрагментами; если DOR слишком мала для некоторых анализируемых фрагментов, стохастический шум может быть слишком высок для того, чтобы данные были полезными, в то же время, если глубина секвенирования слишком высока, предельная полезность каждого дополнительного считывания относительно мала.
Хвосты праймеров могут улучшить выявление фрагментированной ДНК из универсально маркированных библиотек. Если маркер библиотеки и хвосты праймеров содержат гомологичную последовательность, гибридизация может быть улучшена (например, понижением температуры плавления (Тм)), а праймеры можно удлинить, если только часть целевой последовательности праймера находится во фрагменте ДНК образца. Согласно некоторым вариантам осуществления могут быть использованы 13 или больше пар оснований, специфичных по отношению к цели. Согласно некоторым вариантам осуществления могут быть использованы от 10 до 12 пар оснований, специфичных по отношению к цели. Согласно некоторым вариантам осуществления могут быть использованы от 8 до 9 пар оснований, специфичных по отношению к цели. Согласно некоторым вариантам осуществления могут быть использованы от 6 до 7 пар оснований, специфичных по отношению к цели. Согласно некоторым вариантам осуществления STA может быть выполнена на преамплифицированной ДНК, например, MDA, RCA, другие виды полногеномных амплификаций или опосредованная адаптерами универсальная ПЦР. Согласно некоторым вариантам осуществления STA может быть выполнена на образцах и популяциях, обогащенных определенными последовательностями или истощенных по определенным последовательностям, например, путем отбора по размеру, целевого захвата, направленного разрушения.
3. Согласно некоторым вариантам осуществления возможно выполнение вторичных мультиплексных ПЦР или реакций удлинения праймеров для повышения специфичности и снижения количества нежелательных продуктов. Например, полное вложение, полувложение, гемивложение и/или разделение на меньшие пулы анализируемых фрагментов для параллельных реакций являются методиками, которые могут быть использованы для повышения специфичности. Эксперименты показали, что расщепление образца на три 400-плексные реакции приводит к образованию продукта ДНК с большей специфичностью, чем одна 1200-плексная реакция с теми же праймерами. Аналогичным образом, эксперименты показали, что расщепление образца на четыре 2400-плексные реакции приводит к образованию продукта ДНК с большей специфичностью, чем одна 9600-плексная реакция с теми же праймерами. Согласно варианту осуществления возможно использование специфичных по отношению к целям и специфичных по отношению к маркерам праймеров одинаковой и противоположной направленностей.
4. Согласно некоторым вариантам осуществления можно амплифицировать образец ДНК (разведенный, очищенный или иным путем обработанный), полученный реакцией STA, с использованием специфичных по отношению к маркеру праймеров и «универсальной амплификации», т.е. амплифицировать многие или все преамплифицированные и маркированные цели. Праймеры могут содержать дополнительные функциональные последовательности, например, штрихкоды или полную адаптерную последовательность, необходимую для секвенирования на платформе высокопроизводительного секвенирования.
Указанные способы могут быть использованы для анализа любого образца ДНК и, в частности, подходят для случаев особенно маленьких образцов ДНК или образца ДНК, который содержит ДНК, происходящую от более одного индивидуума, например, в случае материнской плазмы. Указанные способы могут быть использованы на образцах ДНК, таких как ДНК единичных клеток или небольшого количества клеток, геномная ДНК, ДНК плазмы, амплифицированные библиотеки плазмы, амплифицированные библиотеки апоптотического супернатанта, или на других образцах смешанной ДНК. Согласно варианту осуществления эти способы могут быть использованы в случае, если у одного индивидуума присутствуют клетки различной генетической структуры, такие как раковые клетки или клетки трансплантатов.
Варианты протокола (варианты и/или добавления к описанному выше технологическому процессу)
Прямая мультиплексная мини-ПЦР. Специфичная целевая амплификация (STA) множества целевых последовательностей с маркированными праймерами показана на фиг. 1. 101 обозначает двуцепочечную ДНК с исследуемым полиморфным локусом в X. 102 обозначает двуцепочечную ДНК с адаптерами лигирования, добавленными для универсальной амплификации. 103 обозначает одноцепочечную ДНК, которая была универсально амплифицирована гибридизованными праймерами ПЦР. 104 обозначает конечный продукт ПЦР. Согласно некоторым вариантам осуществления STA может быть выполнена на более 100, более 200, более 500, более 1000, более 2000, более 5000, более 10000, более 20000, более 50000, более 100000 или более 200000 целях. В последующей реакции специфичные по отношению к маркеру праймеры амплифицируют все целевые последовательности и удлиняют маркеры для включения всех необходимых последовательностей для секвенирования, включая индексы образцов. Согласно варианту осуществления праймеры могут быть немаркированными, или могут быть маркированы только определенные праймеры. Адаптеры секвенирования могут быть добавлены посредством общепринятого лигирования адаптеров. Согласно варианту осуществления начальные праймеры могут нести маркеры.
Согласно варианту осуществления праймеры конструируются так, что длина амплифицированной ДНК является неожиданно короткой. На существующем уровне техники рядовые специалисты в данной области, как правило, конструируют ампликоны размером 100 + пар оснований. Согласно варианту осуществления могут быть сконструированы ампликоны размером менее 80 пар оснований. Согласно варианту осуществления могут быть сконструированы ампликоны размером менее 70 пар оснований. Согласно варианту осуществления могут быть сконструированы ампликоны размером менее 60 пар оснований. Согласно варианту осуществления могут быть сконструированы ампликоны размером менее 50 пар оснований. Согласно варианту осуществления могут быть сконструированы ампликоны размером менее 45 пар оснований. Согласно варианту осуществления могут быть сконструированы ампликоны размером менее 40 пар оснований. Согласно варианту осуществления могут быть сконструированы ампликоны размером менее 35 пар оснований. Согласно варианту осуществления могут быть сконструированы ампликоны размером от 40 до 65 пар оснований.
Согласно данному протоколу был проведен эксперимент с использованием 1200-плексной амплификации. Использовалась как геномная ДНК, так и плазма беременной женщины; приблизительно 70% считываний последовательностей картировались с целевыми последовательностями. Подробности представлены в других разделах настоящего документа. Секвенирование продуктов 1042-плексной амплификации без конструирования и отбора анализируемых фрагментов приводило к тому, что >99% последовательностей являлись продуктами димеров праймеров.
Последовательная ПЦР. После STA1 множественные аликвоты продукта могут быть параллельно амплифицированы с пулами пониженной сложности и теми же праймерами. Первая амплификация может дать достаточно материала для расщепления. Этот способ, в частности, хорошо походит для небольших образцов, например, в количестве приблизительно 6-100 пг, приблизительно от 100 пг до 1 нг, приблизительно от 1 нг до 10 нг или приблизительно от 10 нг до 100 нг. Протокол 1200-плексной амплификации был разделен на три 400-плексные. Картирование считываний последовательностей возросло от приблизительно 60-70% при 1200-плексной амплификации, выполненной монокомпонентно, до более 95%.
Полувложенная мини-ПЦР (см. фиг. 2). После STA 1 вторая STA проводится с мультиплексным набором внутренних вложенных прямых праймеров (103В, 105b) и одним (или несколькими) специфичным(и) по отношению к маркеру обратным(и) праймером(ами) (103А). 101 обозначает двуцепочечную ДНК с исследуемым полиморфным локусом в X. 102 обозначает двуцепочечную ДНК с адаптерами лигирования, добавленными для универсальной амплификации. 103 обозначает одноцепочечную ДНК, которая была универсально амплифицирована с прямым праймером В и гибридизированным обратным праймером А. 104 обозначает продукт ПЦР из 103. 105 обозначает продукт из 104 с гибридизированным вложенным прямым праймером В и обратного маркера А, который уже является частью молекулы из ПЦР, проведенной между 103 и 104. 106 обозначает конечный продукт ПЦР. При таком технологическом процессе обычно более 95% последовательностей картируются с намеченными целями. Вложенный праймер может перекрываться с последовательностью внешнего прямого праймера, но вводит дополнительные основания на 3'-конце. Согласно некоторым вариантам осуществления на 3'-конце можно использовать от одного до 20 дополнительных оснований. Эксперименты показали, что использование 9 или более дополнительных 3'-концевых оснований в 1200-плексном дизайне работает хорошо.
Полностью вложенная мини-ПЦР (см. фиг. 3). После этапа 1 STA можно провести вторую мультиплексную ПЦР (или параллельные мультиплексные ПЦР пониженной сложности) с двумя вложенными праймерами, несущими маркеры (А, а, В, b). 101 обозначает двуцепочечную ДНК с исследуемым полиморфным локусом в X. 102 обозначает двуцепочечную ДНК с адаптерами лигирования, добавленными для универсальной амплификации. 103 обозначает одноцепочечную ДНК, которая была универсально амплифицирована с прямым праймером В и гибридизированным обратным праймером А. 104 обозначает продукт ПЦР из 103. 105 обозначает продукт из 104 с вложенным прямым праймером b и гибридизированным вложенным обратным праймером а. 106 обозначает конечный продукт ПЦР. Согласно некоторым вариантам осуществления можно использовать два полных набора праймеров. Эксперименты с использованием протокола полностью вложенной мини-ПЦР были использованы для проведения 146-плексной амплификации на единичных клетках и трех клетках без этапа 102 добавления универсальных адаптеров лигирования и амплификации.
Гемивложенная мини-ПЦР (см. фиг. 4). Можно использовать целевую ДНК, которая имеет адаптеры на концах фрагментов. STA выполняется с применением мультиплексного набора прямых праймеров (В) и одного (или нескольких) специфичного(ых) по отношению к маркеру обратного(ых) праймера(ов) (А). Вторая STA может быть выполнена с использованием универсального специфичного по отношению к маркеру прямого праймера и специфичного по отношению к целями обратного праймера. 101 обозначает двуцепочечную ДНК с исследуемым полиморфным локусом в X. 102 обозначает двуцепочечную ДНК с адаптерами лигирования, добавленными для универсальной амплификации. 103 обозначает одноцепочечную ДНК, которая была универсально амплифицирована с гибридизированным обратным праймером А. 104 обозначает продукт ПЦР из 103, который был амплифицирован с использованием обратного праймера А и праймера LT - маркера адаптера лигирования. 105 обозначает продукт из 104 с гибридизированным прямым праймером В. 106 обозначает конечный продукт ПЦР. При данном технологическом процессе специфичные по отношению к целям прямой и обратный праймеры используются в отдельных реакциях, что снижает, таким образом, сложность реакции и предотвращает формирование димеров прямого и обратного праймеров. Отметим, что в данном примере праймеры А и В могут рассматриваться как первые праймеры, а праймеры «а» и «b» могут рассматриваться как внутренние праймеры. Этот способ представляет собой большое усовершенствование прямой ПЦР, поскольку подходит так же хорошо, как и прямая ПЦР, но позволяет избежать образования димеров праймеров. После первого раунда гемивложенного протокола, как правило, наблюдается -99% нецелевой ДНК, однако после второго раунда, как правило, происходит значительное улучшение.
Тройная гемивложенная мини-ПЦР (см. фиг. 5). Можно использовать целевую ДНК, которая имеет адаптер на концах фрагментов. STA проводят с применением мультиплексного набора прямых праймеров (В) и одного или нескольких специфичных по отношению к маркеру обратных праймеров (А) и (а). Вторая STA может быть проведена с использованием универсального специфичного по отношению к маркеру прямого праймера и специфичного по отношению к целям обратного праймеров. 101 обозначает двуцепочечную ДНК с исследуемым полиморфным локусом в X. 102 обозначает двуцепочечную ДНК с адаптерами лигирования, добавленными для универсальной амплификации. 103 обозначает одноцепочечную ДНК, которая была универсально амплифицирована с гибридизированным обратным праймером А. 104 обозначает продукт ПЦР из 103, который был амплифицирован с использованием обратного праймера А и праймера LT - маркера адаптера лигирования. 105 обозначает продукт из 104 с гибридизированным прямым праймером В. 106 обозначает продукт ПЦР из 105, который был амплифицирован с использованием обратного праймера А и прямого праймера В. 107 обозначает продукт из 106 с гибридизированным обратным праймером «а». 108 обозначает конечный продукт ПЦР. Отметим, что в данном примере праймеры «а» и В могут рассматриваться как внутренние праймеры, и А может рассматриваться как первый праймер. Необязательно и А, и В могут рассматриваться как первые праймеры, а «а» может рассматриваться как внутренний праймер. Обозначения обратного и прямого праймеров могут меняться местами. При данном технологическом процессе специфичные по отношению к целям прямой и обратный праймеры используются в отдельных реакциях, что снижает, таким образом, сложность реакции и предотвращает формирование димеров прямого и обратного праймеров. Этот способ представляет собой большое усовершенствование прямой ПЦР, поскольку подходит так же хорошо, как прямая ПЦР, но позволяет избежать образования димеров праймеров. После первого раунда гемивложенного протокола, как правило, наблюдается ~99% нецелевой ДНК, однако после второго раунда, как правило, происходит большое улучшение.
Односторонняя вложенная мини-ПЦР (см. фиг. 6). Можно использовать целевую ДНК с адаптером на концах фрагментов. STA также может быть проведена с мультиплексным набором вложенных прямых праймеров и с использованием маркера адаптера лигирования в качестве обратного праймера. Затем можно провести вторую STA с использованием набора вложенных прямых праймеров и универсального обратного праймера. 101 обозначает двуцепочечную ДНК с исследуемым полиморфным локусом в X. 102 обозначает двуцепочечную ДНК с адаптерами лигирования, добавленными для универсальной амплификации. 103 обозначает одноцепочечную ДНК, которая была универсально амплифицирована с гибридизированным прямым праймером А. 104 обозначает продукт ПЦР из 103, который был амплифицирован с использованием прямого праймера А и обратного праймера LT - маркера адаптера лигирования. 105 обозначает продукт из 104 с гибридизированным вложенным прямым праймером «а». 106 обозначает конечный продукт ПЦР. Этот способ выявляет более короткие целевые последовательности, чем стандартная ПЦР с использованием перекрывающихся праймеров в первой и второй STA. Способ, как правило, реализуется на образце ДНК, который уже был подвергнут описанному выше этапу 1 STA - добавлению универсальных маркеров и амплификации; два вложенных праймера находятся исключительно на одной стороне, на другой стороне используется маркер библиотеки. Способ реализовали на библиотеках апоптотических супернатантов и плазме беременных женщин. В указанном технологическом процессе приблизительно 60% последовательностей картируются с намеченными целями. Отметим, что считывания, которые содержали последовательность обратного адаптера, не картировались, так что предполагается, что это количество будет выше, если считывания, содержащие последовательность обратного адаптера, будут картироваться.
Односторонняя мини-ПЦР. Можно использовать целевую ДНК с адаптером на концах фрагментов (см. фиг. 7). STA может быть проведена с мультиплексным набором прямых праймеров и одним (или несколькими) специфичным по отношению к маркеру обратным праймером. 101 обозначает двуцепочечную ДНК с исследуемым полиморфным локусом в X. 102 обозначает двуцепочечную ДНК с адаптерами лигирования, добавленными для универсальной амплификации. 103 обозначает одноцепочечную ДНК с гибридизированными прямыми праймерами А. 104 обозначает продукт ПЦР из 103, который был амплифицирован с использованием прямого праймера А и обратного праймера LT - маркера адаптера лигирования, и который является конечным продуктом ПЦР. Этот способ может выявить более короткие целевые последовательности, чем стандартная ПЦР. Однако он может быть относительно неспецифичным, поскольку используется только один специфичный по отношению к цели праймер. Данный протокол наполовину так же эффективен, как односторонняя вложенная мини-ПЦР.
Обратная полувложенная мини-ПЦР. Можно использовать целевую ДНК с адаптером на концах фрагментов (см. фиг. 8). STA может быть выполнена с мультиплексным набором прямых праймеров и одним (или несколькими) специфичным по отношению к маркеру обратным праймером. 101 обозначает двуцепочечную ДНК с исследуемым полиморфным локусом в X. 102 обозначает двуцепочечную ДНК с адаптерами лигирования, добавленными для универсальной амплификации. 103 обозначает одноцепочечную ДНК с гибридизированным обратным праймером В. 104 обозначает продукт ПЦР из 103, который был амплифицирован с использованием обратного праймера В и прямого праймера LT - маркера адаптера лигирования. 105 обозначает продукт ПЦР из 104 с гибридизированным прямым праймером А и внутренним обратным праймером «b». 106 обозначает продукт ПЦР, который был амплифицирован из 105 с использованием прямого праймера А и обратного праймера «b» и который является конечным продуктом ПЦР. Указанный способ может выявить более короткие целевые последовательности, чем стандартная ПЦР.
Может также существовать большее количество вариантов, которые по сути являются повторами или комбинациями вышеописанных способов, таких как двойная вложенная ПЦР, в которой используются три набора праймеров. Другой вариант представлен полуторасторонней вложенной мини-ПЦР, при которой STA также может быть выполнена с мультиплексным набором вложенных прямых праймеров и одного специфичного по отношению к маркеру обратного праймера (или нескольких специфичных по отношению к маркеру обратных праймеров).
Отметим, что во всех этих вариантах идентичность прямого праймера и обратного праймера может быть взаимозаменяемой. Отметим, что согласно некоторым вариантам осуществления вложенный вариант может быть с тем же успехом проведен без начальной подготовки библиотеки, включающей добавление маркеров адаптера, и этапа универсальной амплификации. Отметим, что согласно некоторым вариантам осуществления могут быть предусмотрены дополнительные раунды ПЦР с дополнительными прямыми и/или обратными праймерами и этапами амплификации; эти дополнительные этапы могут быть особенно полезны, если желательно повысить процент молекул ДНК, соответствующих целевым локусам.
Вложенные технологические процессы
Существует много способов выполнения амплификации с различной степенью вложения и с различной степенью мультиплексирования. На фиг. 9 представлена схема технологических операций с некоторыми возможными технологическими процессами. Отметим, что использование 10000-плексной ПЦР приведено только в качестве примера; такие схемы технологических операций будут работать с тем же успехом для других степеней мультиплексирования.
Петлевые адаптеры лигирования
При добавлении универсальных маркированных адаптеров, например, с целью получения библиотеки для секвенирования, существует ряд способов лигирования адаптеров. Один способ заключается в том, чтобы снабдить ДНК образца тупыми концами, присоединить А-хвост и лигировать адаптеры, которые имеют выступающий Т-конец. Существует ряд других способов лигировать адаптеры. Существует также ряд адаптеров, которые могут быть лигированы. Например, может быть использован Y-адаптер; указанный адаптер состоит из двух цепей ДНК, при этом одна цепь содержит двуцепочечную область и область, характеризующуюся областью прямого праймера, и в которых другая цепь, характеризующаяся двуцепочечной областью, которая комплементарна двуцепочечной области первой цепи, и областью с обратным праймером. Двуцепочечные области при отжиге могут содержать выступающий Т-конец для лигирования с двуцепочечной ДНК с выступающим А-концом.
Согласно варианту осуществления адаптер может представлять собой петлю ДНК, в которой концевые области комплементарны, и где петлевая область содержит маркированную область прямого праймера (LFT), маркированную область обратного праймера (LRT) и сайт расщепления между ними (см. фиг. 10). 101 относится к двуцепочечной целевой ДНК с тупыми концами. 102 относится к целевой ДНК с А-хвостом. 103 относится к петлевому адаптеру лигирования с выступающим Т-концом «Т» и сайтом расщепления «Z». 104 относится к целевой ДНК с добавленными петлевыми адаптерами лигирования. 105 относится к целевой ДНК с добавленными адаптерами лигирования, расщепленной по сайту расщепления. LFT относится к прямому маркеру адаптера лигирования, a LRT относится к обратному маркеру адаптера лигирования. Комплементарная область может заканчиваться на выступающем Т-конце или на других структурах, которые могут использоваться для лигирования с целевой ДНК. Сайт расщепления может быть серией урацилов для расщепления UNG или последовательностью, которая может быть распознана и расщеплена ферментом рестрикции или другим способом расщепления, или просто базовой амплификацией. Такие адаптеры могут быть использованы для приготовления любых библиотек, например, для секвенирования. Эти адаптеры могут быть использованы в комбинации с любыми другими описанными в настоящем документе способами, например, способами амплификации мини-ПЦР.
Внутренне маркированные праймеры
При использовании секвенирования для определения аллеля, присутствующего в заданном полиморфном локусе, считывание последовательности, как правило, начинается выше (в 5'-направлении) сайта связывания праймера (а), а затем продолжается до полиморфного сайта (X). Маркеры, как правило, скомпонованы, как показано на фиг. 11 слева. 101 относится к одноцепочечной целевой ДНК с исследуемым полиморфным локусом в «X» и праймером «а» с добавленным маркером «b». Чтобы избежать неспецифичной гибридизации, сайт связывания праймера (область целевой ДНК, комплементарная «а»), как правило, состоит из 18-30 пар оснований. Длина последовательности маркера «b» составляет, как правило, приблизительно 20 пар оснований; теоретически они могут быть длиннее, чем приблизительно 15 пар оснований, хотя многие пользуются последовательностями праймеров, которые продаются компаниями, выпускающими платформы секвенирования. Расстояние «d» между «а» и «X» может составлять по меньшей мере 2 пары оснований с тем, чтобы избежать смещения числа аллелей. При выполнении мультиплексной ПЦР-амплификации с использованием раскрытых в настоящем документе способов или других способов, когда необходимо тщательное конструирование праймеров для того, чтобы избежать избыточного взаимодействия между праймерами, окно допустимых расстояний «d» между «а» и «X» может достаточно сильно варьировать: от 2 п.о. до 10 п.о., от 2 п.о. до 20 п.о., от 2 п.о. до 30 п.о. или даже от 2 п.о. до более 30 п.о. Следовательно, при использовании конфигурации праймеров, показанной на фиг. 11 слева, считывание последовательностей должно составлять минимум 40 п.о. для получения считываний, достаточно длинных для измерения полиморфного локуса, и в зависимости от длин «а» и «d» может потребоваться увеличение считываний последовательностей до 60 или 75 п.о. Как правило, чем длиннее считывания последовательностей, тем выше стоимость и больше время секвенирования данного числа считываний, следовательно, минимизация необходимой длины считывания может сэкономить и время, и деньги. Кроме того, поскольку, в среднем, основания, которые считываются в начале считывания, считываются точнее, чем основания, которые считываются позже, уменьшение необходимой длины считывания последовательности может также увеличить точность измерений полиморфной области.
Согласно варианту осуществления, называемому «внутренне маркированными праймерами», сайт связывания праймера (а) расщепляют на множество сегментов (а', а'', а'''…), а маркер последовательности (b) локализован в сегменте ДНК, который находится посредине между двумя связывающими сайтами праймера, как показано на фиг. 11, 103. Такая конфигурация позволяет секвенатору выполнять более короткие считывания последовательностей. Согласно варианту осуществления а'+а'' должно составлять по меньшей мере приблизительно 18 пар оснований и может составлять 30, 40, 50, 60, 80, 100 или более 100 пар оснований. Согласно варианту осуществления а'' должен составлять по меньшей мере приблизительно 6 пар оснований и согласно варианту осуществления он составляет от приблизительно 8 до 16 пар оснований. При всех прочих равных факторах использование внутренне маркированных праймеров может сократить необходимую длину считывания последовательностей по меньшей мере на 6 пар оснований, не менее чем на 8 пар оснований, 10 пар оснований, 12 пар оснований, 15 пар оснований и даже на 20 или 30 пар оснований. Это может дать существенный выигрыш в стоимости, времени и точности. Пример внутренне маркированных праймеров представлен на фиг. 12.
Праймеры с областью, связывающей адаптеры лигирования
Одна из проблем с фрагментированной ДНК состоит в том, что поскольку фрагменты короткие, вероятность того, что полиморфизм расположен близко к концу цепи ДНК, выше, чем для длинной цепи (например, 101, фиг. 10). Поскольку захват полиморфизма с помощью ПЦР требует наличия сайта связывания праймера приемлемой длины по обе стороны от полиморфизма, значительное число цепей ДНК с целевым полиморфизмом будет пропущено вследствие недостаточного перекрытия между праймером и целевым связывающим сайтом. Согласно варианту осуществления целевая ДНК 101 может содержать присоединенные адаптеры лигирования 102, а целевой праймер 103 может содержать область (cr), комплементарную маркеру адаптера лигирования (It), присоединенному в 5'-направлении от сконструированной для связывания области (а) (см. фиг. 13); таким образом, в случаях, если связывающая область (область 101, которая комплементарна а) короче 18 пар оснований, как правило, требуемых для гибридизации, область (cr) в праймере, которая комплементарна маркеру библиотеки, способна увеличить энергию связывания до значения, при которой ПЦР может продолжаться. Отметим, что любая специфичность, которая утрачивается из-за более короткой связывающей области, может быть достигнута для других праймеров ПЦР с приемлемо длинными целевыми связывающими областями. Отметим, что этот вариант осуществления может быть использован в комбинации с прямой ПЦР или любыми другими описанными в настоящем документе способами, такими как вложенная ПЦР, полувложенная ПЦР, гемивложенная ПЦР, односторонняя вложенная, или полувложенная, гемивложенная ПЦР, или другие протоколы ПЦР.
При использовании данных секвенирования для определения плоидности в комбинации с аналитическим способом, который включает сравнение наблюдаемых данных аллелей с ожидаемыми аллельными распределениями для различных гипотез, каждое дополнительное считывание с аллелей с небольшой глубиной секвенирования даст больше информации, чем считывание с аллеля с большой глубиной секвенирования. Следовательно, в идеале, нужно добиваться однородной глубины секвенирования (DOR), когда для всех локусов имеются аналогичные количества репрезентативных считываний последовательности. Следовательно, желательно минимизировать дисперсию DOR. Согласно варианту осуществления можно понизить коэффициент дисперсии DOR (который может быть определен как стандартное отклонение DOR/среднее значение DOR) путем увеличения времени отжига. Согласно некоторым вариантам осуществления время отжига может составлять более 2 минут, более 4 минут, более 10 минут, более 30 минут, более одного часа или даже больше. Поскольку отжиг представляет собой равновесный процесс, не существует предела для улучшения дисперсии DOR путем увеличения времени отжига. Согласно варианту осуществления повышение концентрации праймеров может снизить дисперсию DOR.
Примеры способов полногеномной амплификации
Согласно некоторым вариантам осуществления способ согласно настоящему раскрытию может включать амплификацию ДНК, например, применение полногеномного метода для амплификации образца нуклеиновой кислоты перед амплификацией исключительно целевых локусов. Амплификация ДНК, процесс преобразования небольшого количества генетического материала в большее количество генетического материала, содержащего аналогичный набор генетических данных, может проводиться с применением разнообразных способов, включая, но не ограничиваясь указанным, полимеразную цепную реакцию (ПЦР). Одним из способов амплификации ДНК является полногеномная амплификация (WGA). Существует ряд доступных методов WGA: опосредованная лигированием ПЦР (ОЛ-ПЦР), ПЦР с использованием вырожденных олигонуклеотидных праймеров (DOP-PCR, или ДОП-ПЦР) и амплификация с множественным смещением цепей (MDA). При ОЛ-ПЦР короткие последовательности ДНК, называемые адаптерами, лигируют по тупым концам ДНК. Указанные адаптеры содержат универсальные амплификационные последовательности, которые применяют для амплификации ДНК посредством ПЦР. При ДОП-ПЦР случайные праймеры, которые также содержат универсальные амплификационные последовательности, применяют в первом раунде отжига и ПЦР. Затем используют второй раунд ПЦР для дальнейшей амплификации последовательностей универсальными праймерными последовательностями. При MDA используется полимераза phi-29, которая представляет собой высокопроцессивный неспецифичный фермент, который реплицирует ДНК и использовался для анализа единичных клеток. Основными ограничениями при амплификации материала из одной клетки являются (1) необходимость использования крайне разбавленных концентраций ДНК или очень небольшого объема реакционной смеси и (2) трудность надежного отделения ДНК от белков всего генома. Тем не менее, полногеномная амплификация единичных клеток успешно использовалась для разнообразных применений на протяжении многих лет. Существуют другие способы амплификации ДНК из образца ДНК. Амплификация ДНК преобразует исходный образец ДНК в образец ДНК, содержащий аналогичный набор последовательностей, но в значительно большем количестве. В некоторых случаях амплификация может не требоваться.
Согласно некоторым вариантам осуществления ДНК может быть амплифицирована с помощью метода универсальной амплификации, такого как WGA или MDA. Согласно некоторым вариантам осуществления ДНК может быть амплифицирована с помощью целевой амплификации, например, с применением направленной ПЦР или зондов циркуляризации. Согласно некоторым вариантам осуществления ДНК может быть преимущественно обогащена с применением способа целевой амплификации, или способа, который приводит к полному или частичному разделению нужной и ненужной ДНК, например, способов захвата гибридизацией. Согласно некоторым вариантам осуществления ДНК может быть амплифицирована посредством применения комбинации способа универсальной амплификации и способа преимущественного обогащения. Более полные описания некоторых из указанных способов приведены в различных разделах настоящего документа.
Примеры способов обогащения и секвенирования
Согласно варианту осуществления раскрытый в настоящем документе способ предусматривает технику селективного обогащения, сохраняющую относительные аллельные частоты, которые присутствуют в исходном образце ДНК в каждом из целевых локусов (например, каждом полиморфном локусе) из набора целевых локусов (например, полиморфных локусов). Хотя обогащение целесообразно, в частности, для способов анализа полиморфных локусов, указанные способы обогащения могут быть, если требуется, легко адаптированы для неполиморфных локусов. Согласно некоторым вариантам осуществления техника амплификации и/или селективного обогащения может включать ПЦР, например, опосредованную лигированием ПЦР, захват фрагментов путем гибридизации, молекулярные инверсионные зонды или другие зонды циркуляризации. Согласно некоторым вариантам осуществления способы амплификации или селективного обогащения могут включать применение зондов, отличающееся тем, что при корректной гибридизации с целевой последовательностью 3-конец или 5-конец нуклеотидного зонда отделен от полиморфного сайта аллеля небольшим количеством нуклеотидов. Указанное разделение снижает преимущественную амплификацию одного аллеля, называемую смещением числа аллелей. В этом заключается улучшение по сравнению со способами, которые предусматривают такое применение зондов, при котором 3-конец или 5-конец корректно гибридизованного зонда является непосредственно смежным или расположен очень близко к полиморфному сайту аллеля. Согласно варианту осуществления зонды, в которых область гибридизации может содержать или заведомо содержит полиморфный сайт, исключаются. Полиморфные сайты в сайте гибридизации могут обуславливать неравномерную гибридизацию или в целом ингибировать гибридизацию в некоторых аллелях, что приводит к преимущественной амплификации определенных аллелей. Указанные варианты осуществления являются улучшением по сравнению с другими способами, которые предусматривают целевую амплификацию и/или селективное обогащение, за счет того, что они надежнее сохраняют исходные аллельные частоты образца в каждом полиморфном локусе, и если образец является чистым геномным образцом от одного индивидуума, и если он представляет собой смесь от нескольких индивидуумов.
Применение техники обогащения образца ДНК по набору целевых локусов с последующим секвенированием в качестве части способа пренатального неинвазивного определения аллелей или определения плоидности может обеспечивать ряд неожиданных преимуществ. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, указанный способ включает измерение генетических данных для применения с основанным на информатике способом, таким как PARENTAL SUPPORTтм (PS). Конечным результатом некоторых вариантов осуществления является получение дающих основания для принятия определенных мер генетических данных эмбриона или плода. Существует множество способов, которые могут использоваться для измерения генетических данных индивидуума и/или родственных индивидуумов в качестве части осуществляемых способов. Согласно варианту осуществления в настоящем документе раскрывается способ обогащения по концентрации набора целевых аллелей, при этом указанный способ включает один или несколько из следующих этапов: целевая амплификация генетического материала, добавление специфичных в отношении локусов олигонуклеотидных зондов, лигирование определенных цепей ДНК, выделение наборов требуемой ДНК, удаление нежелательных компонентов реакции, обнаружение определенных последовательностей ДНК посредством гибридизации и обнаружение последовательности одной или множества цепей ДНК с применением способов секвенирования ДНК. В некоторых случаях цепи ДНК могут относиться к целевому генетическому материалу, в некоторых случаях они могут относиться к праймерам, в некоторых случаях они могут относиться к синтезированным последовательностям или их комбинациям. Указанные этапы могут проводиться в различном порядке.
Например, этап универсальной амплификации ДНК перед целевой амплификацией может обеспечивать ряд преимуществ, таких как устранение риска возникновения эффекта «бутылочного горлышка» и уменьшение смещения числа аллелей. ДНК может быть смешана с олигонуклеотидным зондом, способным гибридизироваться с двумя соседними областями целевой последовательности, с одной с каждой стороны. После гибридизации концы зонда могут быть соединены добавлением полимеразы, средства для лигирования, и любых необходимых реагентов, обеспечивающих циркуляризацию зонда. После циркуляризации может быть добавлена экзонуклеаза для расщепления нециркуляризованного генетического материала, с последующим выявлением циркуляризованного зонда. ДНК может быть смешана с ПЦР-праймерами, способными гибридизоваться с двумя соседними областями целевой последовательности, с одной с каждой стороны. После гибридизации концы зонда могут быть соединены добавлением полимеразы, средства для лигирования, и любых необходимых для завершения ПЦР-амплификации реагентов. Амплифицированная или неамплифицированная ДНК может быть целью для зондов гибридного захвата, нацеленных на набор локусов; после гибридизации зонд может быть локализован и выделен из смеси для получения смеси ДНК, обогащенной по целевым последовательностям.
Применение способа нацеливания на определенные локусы с последующим секвенированием в качестве части способа определения аллелей или определения плоидности может обеспечивать ряд неожиданных преимуществ. Некоторые возможные способы нацеливания на ДНК или преимущественного обогащения ДНК включают применение зондов циркуляризации, связанных инвертированных зондов (LIP, MIP), способы захвата гибридизацией, такие как SURESELECT и стратегии целевой ПЦР или амплификации опосредованной лигированием ПЦР.
Согласно некоторым вариантам осуществления способ согласно настоящему раскрытию включает измерение генетических данных для применения со способом на основе информатики, таким как PARENTAL SUPPORTтм (PS), описанный ниже в настоящем документе. PARENTAL SUPPORTтм представляет собой метод обработки генетических данных на основе информатики, аспекты которого описаны в настоящем документе. Конечным результатом некоторых из вариантов осуществления являются дающие основания для принятия определенных мер генетические данные эмбриона или плода, после получения которых принимается клиническое решение, базирующееся на указанных дающих основания для принятия мер данных. Алгоритмы, лежащие в основе метода PS, учитывают измеренные генетические данные целевого индивидуума, часто - эмбриона или плода, и измеренные генетические данные родственных индивидуумов, и обеспечивают повышенную точность определения генетического статуса целевого индивидуума. Согласно варианту осуществления измеренные генетические данные используются в контексте осуществления определений плоидности при пренатальной генетической диагностике. Согласно варианту осуществления измеренные генетические данные используются в контексте осуществлений определения плоидности или аллельных признаков в эмбрионах при оплодотворении in vitro. Существует множество способов, которые могут быть использованы для измерения генетических данных индивидуума и/или родственных индивидуумов в вышеупомянутых контекстах. Различные способы включают ряд этапов, которые часто задействуют амплификацию генетического материала, добавление олигонуклеотидных зондов, лигирование конкретных цепей ДНК, выделение наборов нужной ДНК, удаление нежелательных компонентов реакции, обнаружение определенных последовательностей ДНК посредством гибридизации, обнаружение последовательности одной или множества цепей ДНК с применением способов секвенирования ДНК. В некоторых случаях цепи ДНК могут относиться к целевому генетическому материалу, в некоторых случаях они могут относиться к праймерам, в некоторых случаях они могут относиться к синтезированным последовательностям или их комбинациям. Указанные этапы могут проводиться в различном порядке.
Отметим, что теоретически возможно нацеливание на любое число локусов в геноме, от 1 локуса до значительно превышающего 1000000 числа локусов. Если образец ДНК подвергается нацеливанию, а затем секвенируется, образец будет обогащен по процентному содержанию аллелей, которые считываются секвенатором, относительно их природной концентрации в указанном образце. Степень обогащения может принимать любые значения от 1% (или даже менее) до 10-кратной, 100-кратной, 1000-кратной или даже характеризоваться многомиллионной кратностью. В геноме человека содержится приблизительно 3 миллиарда пар оснований, и нуклеотиды, включающие приблизительно 75 млн полиморфных локусов. Чем больше число локусов, на которые осуществляют нацеливание, тем меньшая степень обогащения возможна. Чем меньше число локусов, на которые осуществляют нацеливание, тем большая степень обогащения возможна, и тем большая глубина секвенирования может быть достигнута на указанных локусах для заданного числа считываний последовательностей.
Согласно варианту осуществления, раскрытому в настоящем описании, нацеливание или преимущественное обогащение может быть полностью сфокусировано на SNP. Согласно варианту осуществления нацеливание или преимущественное обогащение может быть сфокусировано на любом полиморфном сайте. Доступен ряд коммерческих продуктов для нацеливания для обогащения экзонов. Неожиданным образом, нацеливание исключительно на SNP или исключительно на полиморфные локусы является, в частности, благоприятным при использовании способа NPD, который основан на распределениях аллелей. Также в опубликованных источниках описаны способы NPD с использованием секвенирования, например, в патенте США №7888017, где задействован анализ числа считываний, при этом подсчет считываний фокусируется на подсчете считываний, которые картируются с определенной хромосомой, при этом анализируемые считывания последовательностей не сфокусированы на областях генома, которые являются полиморфными. В таких методиках, не фокусирующихся на полиморфных аллелях, нацеливание или преимущественное обогащение набора аллелей не будет давать настолько благоприятный эффект.
Согласно варианту осуществления настоящего раскрытия можно применять способ нацеливания, направленный на SNP, для обогащения генетического образца в полиморфных областях генома. Согласно варианту осуществления возможно сфокусироваться на небольшом количестве SNP, например, от 1 до 100 SNP, или на большем количестве, например, от 100 до 1000, от 1000 до 10000, от 10000 до 100000 или более 100000 SNP. Согласно варианту осуществления возможно сфокусироваться на одной или небольшом количестве хромосом, которые коррелируют с рождениями живых трисомиков, например, на хромосомах 13, 18, 21, X и Y, или некоторой их комбинации. Согласно варианту осуществления возможно обогащение целевых SNP с небольшой кратностью, например, в 1,01-100 раз, или с большей кратностью, например, от 100 раз до 1000000 раз или даже более чем в 1000000 раз. Согласно варианту осуществления, раскрытому в настоящем описании, может быть использован способ нацеливания для создания образца ДНК, который преимущественно обогащают по полиморфным областях генома. Согласно варианту осуществления возможно использовать указанный способ для создания смеси ДНК с любыми из указанных характеристик, при этом смесь ДНК содержит материнскую ДНК, а также свободноплавающую плодную ДНК. Согласно варианту осуществления возможно использовать этот способ для создания смеси ДНК, которая характеризуется любой комбинацией указанных факторов. Например, описанный в настоящем документе способ может быть использован для получения смеси ДНК, которая содержит материнскую ДНК и плодную ДНК, и которая преимущественно обогащается ДНК, соответствующей 200 SNP, все из которых расположены в любой из хромосом 18 или 21, и обогащаются в среднем в 1000 раз. Согласно другому примеру возможно использовать этот способ для создания смеси ДНК, которая преимущественно обогащена по 10000 SNP, все или почти все из которых расположены в хромосомах 13, 18, 21, X и Y, и среднее обогащение локусами превышает 500-кратное. Любые описанные в настоящем документе способы нацеливания могут быть использованы для создания смесей ДНК, преимущественно обогащенных определенными локусами.
Согласно некоторым вариантам осуществления способ согласно настоящему раскрытию также включает измерение ДНК в смешанной фракции с применением высокопроизводительного секвенатора ДНК, отличающийся тем, что ДНК в указанной смешанной фракции содержит непропорциональное число последовательностей из одной или нескольких хромосомах, при этом указанные одна или несколько хромосом выбраны из группы, включающей хромосому 13, хромосому 18, хромосому 21, хромосому X, хромосому Y и их комбинации.
В настоящем документе описаны три способа: мультиплексная ПЦР, целевой захват гибридизацией и связанные инвертированные зонды (LIP), которые могут применяться для получения и анализа измерений по достаточному числу полиморфных локусов в образце материнской плазмы для обнаружения плодной анеуплоидии; это не подразумевает исключения других способов селективного обогащения целевых локусов. С равным успехом могут использоваться другие способы без отступления от сути способа. В каждом случае анализируемый полиморфизм может включать однонуклеотидные полиморфизмы (SNP), небольшие инсерционно-делеционные полиморфизмы или STR. Предпочтительный способ включает применение SNP. Каждый подход обеспечивает получение данных о частоте аллелей; данные частоты аллелей для каждого целевого локуса и/или совместного распределения частот аллелей для указанных локусов могут быть проанализированы для определения плоидности плода. Каждый способ характеризуется собственными ограничениями из-за ограниченности исходного материал и того факта, что материнская плазма состоит из смеси материнской и плодной ДНК. Указанный способ может быть скомбинирован с другими подходами для достижения более точного определения. Согласно варианту осуществления указанный способ может быть скомбинирован со способом подсчета последовательностей, таким как описанный в патенте США №7888017. Описанные подходы также могут быть использованы для неинвазивного определения отцовства по образцам плазмы матери плода. Кроме того, каждый способ может применяться на других смесях ДНК или чистых образцах ДНК для обнаружения присутствия или отсутствия анеуплоидных хромосом, для генотипирования большого числа SNP в расщепленных образцах ДНК, для выявления вариаций числа копий сегмента (CNV), для обнаружения других представляющих интерес генотипических состояний или некоторой их комбинации.
Точное измерение отельных распределений в образце
Для оценки распределения аллелей в образце могут быть использованы современные методы секвенирования. Один такой способ включает случайный выбор последовательностей из пула ДНК, называемый секвенированием «методом дробовика». Доля конкретного аллеля в данных секвенирования, как правило, очень невелика и может быть определена с применением простой статистики. Геном человека содержит приблизительно 3 миллиарда пар оснований. Таким образом, если при используемом методе секвенирования считывается 100 пар оснований, конкретный аллель будет измерен приблизительно один раз на каждые 30 миллионов считываний последовательностей.
Согласно варианту осуществления способ согласно настоящему раскрытию используют для определения присутствия или отсутствия двух или более разных гаплотипов, которые содержат одинаковый набор локусов в образце ДНК по измеренным аллельным распределениям локусов указанной хромосомы. Указанные разные гаплотипы могут представлять две разных гомологичных хромосомы одного индивидуума, три разных гомологичных хромосомы трисомного индивидуума, три разных гомологичных гаплотипа матери и плода, при этом один из указанных гаплотипов является общим для матери и плода, 3 или 4 гаплотипа матери и плода, при этом один или два гаплотипа являются общими для матери и плода, или другие комбинации. Аллели, полиморфные при всех гаплотипах, обычно более информативны, хотя любые аллели, по которым мать и отец не оба гомозиготны, позволят получить подходящую информацию путем измерения аллельных распределений, помимо информации, доступной при простом анализе числа считываний.
Секвенирование такого образца «методом дробовика», однако, крайне неэффективно, так как дает многочисленные последовательности для областей, не полиморфных для разных гаплотипов в указанном образце, или для хромосом, не представляющих интерес, и, таким образом, не дает информации о доле целевых гаплотипов. В настоящем документе описаны способы, специфично нацеленные на сегменты ДНК в образце, которые, скорее всего, являются полиморфными в геноме, и/или способы преимущественного обогащения такими сегментами ДНК в указанном образце, для увеличения объема информации об аллелях, полученной с применением секвенирования. Отметим, что для того, чтобы измеренные аллельные распределения в обогащенном образце на самом деле отражали фактические количества, присутствующие у целевого индивидуума, критически важно отсутствие или незначительный уровень преимущественного обогащения по одному аллелю относительно другого аллеля в заданных локусах в целевых сегментах. Современные известные в данной области техники способы нацеливания на полиморфные аллели сконструированы таким образом, чтобы обеспечивать надежное обнаружение по меньшей мере некоторых из присутствующих аллелей. Однако указанные способы не предназначены для измерения несмещенных аллельных распределений полиморфных аллелей, присутствующих в исходной смеси. Неочевидно, что какой-либо конкретный способ целевого обогащения обеспечит получение обогащенного образца, в котором измеренные аллельные распределения будут точно представлять аллельные распределения, характерные для исходного неамплифицированного образца, чем любой другой способ. Хотя теоретически можно ожидать, что многие методы обогащения могут обеспечить достижение указанной цели, рядовому специалисту в данной области техники будет понятно, что при современных методах амплификации, нацеливания и других методах преимущественного обогащения присутствует немалый вклад стохастической или детерминистической стандартной ошибки (смещения). Один вариант осуществления описанного в настоящем документе способа позволяет амплифицировать множество аллелей, присутствующих в смеси ДНК, которые соответствуют заданному локусу в геноме, или преимущественно обогащать ими образец таким образом, что степень обогащения каждым из аллелей практически одинакова. Другими словами, указанный способ позволяет в целом увеличить относительные количества аллелей, присутствующих в смеси, с сохранением по существу тех же отношений между аллелями, соответствующими каждому локусу, что и в исходной смеси ДНК. Некоторые описанные способы преимущественного обогащения локусов могут приводить к смещениям числа аллелей, превышающим 1%, превышающим 2%, превышающим 5% и даже превышающим 10%. Такое преимущественное обогащение может быть обусловлено смещением захвата, когда используется захват методом гибридизации, или смещением амплификации, которая может быть незначительной в каждом цикле, но значительно усугубиться за 20, 30 или 40 циклов. Для целей раскрытого изобретения сохранение отношения по существу на том же уровне означает, что отношение аллелей в исходной смеси, поделенное на отношение аллелей в конечной смеси, составляет от 0,95 до 1,05, от 0,98 до 1,02, от 0,99 до 1,01, от 0,995 до 1,005, от 0,998 до 1,002, от 0,999 до 1,001 или от 0,9999 до 1,0001. Отметим, что расчет аллельных отношений, представленный в настоящем документе, не может быть использован для определения состояния плоидности целевого индивидуума, и может служить только метрикой для оценки смещения подсчета аллелей.
Согласно варианту осуществления, после того как смесь была преимущественно обогащена по набору целевых локусов, она может быть секвенирована с применением любого из инструментов для секвенирования предыдущего, современного или следующего поколения, секвенирующих клональный образец (образец, полученный из одной молекулы; примеры включают ILLUMINA GAIIx, ILLUMINA HiSeq, LIFE ТЕХНОЛОГИЙ SOLiD, 5500XL). Отношения могут оцениваться посредством секвенирования специфичных аллелей в пределах целевой области. Указанные считывания последовательностей могут быть проанализированы и подсчитаны в соответствии с типом аллеля, и, соответственно, могут быть определены отношения разных аллелей. Для вариаций длиной в одно или несколько оснований обнаружение аллелей проводится с помощью секвенирования, и важно, чтобы считывание последовательности перекрывало исследуемый аллель, для оценки аллельного состава захваченной молекулы. Общее число захваченных молекул, анализируемых в генотипе, может быть увеличено посредством увеличения длины считывания последовательности. Полное секвенирование всех молекул гарантирует получение максимального количества данных, доступного в обогащенном пуле. Однако в настоящее время секвенирование является дорогим методом, и способ, позволяющий измерять аллельные распределения с применением меньшего числа считываний последовательностей, представлял бы значительную ценность. Кроме того, существуют технические ограничения для максимальной возможной длины считывания, а также ограничения точности по мере увеличения длины считывания. Длина наиболее подходящих аллелей составляет одно или несколько оснований, однако теоретически может быть использован любой аллель, длина которого меньше длины считывания последовательности. Хотя встречаются разнообразные вариации аллелей, примеры, представленные в настоящем документе, фокусируются на SNP или вариациях, включающих всего несколько соседних пар оснований. Вариации большего размера, такие как вариации числа копий сегмента, во многих случаях могут быть обнаружены по объединениям указанных вариаций меньшего размера, поскольку дуплицируются целые коллекции SNP, внутренних для данного сегмента. Варианты большего размера, чем несколько оснований, такие как STR, требуют отдельного рассмотрения, и некоторые способы нацеливания будут работать, тогда как другие - нет.
Существуют многочисленные способы нацеливания, которые могут быть использованы для специфичного выделения и обогащения одним или множеством вариантных положений в геноме. Как правило, они основаны на использовании инвариантной последовательности, фланкирующей вариантную последовательность. Известны источники, где описано нацеливание в контексте секвенирования, при этом субстратом является материнская плазма (см., например, Liao et al., Clin. Chem. 2011; 57 (1): pp. 92-101). Однако в указанных подходах используются зонды для нацеливания на экзоны, и они не фокусируются на нацеливании на полиморфные области генома. Согласно варианту осуществления способ согласно настоящему раскрытию включает применение зондов для нацеливания, которые фокусируются исключительно или почти исключительно на полиморфных областях. Согласно варианту осуществления способ согласно настоящему раскрытию включает применение зондов для нацеливания, которые фокусируются исключительно или почти исключительно на SNP. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, целевые полиморфные сайты состоят по меньшей мере на 10% из SNP, по меньшей мере на 20% из SNP, по меньшей мере на 30% из SNP, по меньшей мере на 40% из SNP, по меньшей мере на 50% из SNP, по меньшей мере на 60% из SNP, по меньшей мере на 70% из SNP, по меньшей мере на 80% из SNP, по меньшей мере на 90% из SNP, по меньшей мере на 95% из SNP, по меньшей мере на 98% из SNP, по меньшей мере на 99% из SNP, по меньшей мере на 99,9% из SNP или только из SNP.
Согласно варианту осуществления способ согласно настоящему раскрытию может использоваться для определения генотипов (композиций оснований, составляющих ДНК в конкретных локусах) и относительных долей указанных генотипов в смеси ДНК молекул, которые могут происходить от одного или ряда генетически различных индивидуумов. Согласно варианту осуществления способ согласно настоящему раскрытию может использоваться для определения генотипов набора полиморфных локусов и относительных отношений количеств разных аллелей, присутствующих в этих локусах. Согласно варианту осуществления полиморфные локусы могут состоять полностью из SNP. Согласно варианту осуществления полиморфные локусы могут содержать SNP, единичные тандемные повторы и другие полиморфизмы. Согласно варианту осуществления способ согласно настоящему раскрытию могут использоваться для определения относительных распределений аллелей в наборе полиморфных локусов в смеси ДНК, отличающейся тем, что она содержит ДНК, происходящую от матери, и ДНК, происходящую от плода. Согласно варианту осуществления совокупные аллельные распределения могут быть определены в смеси ДНК, выделенной из крови беременной женщины. Согласно варианту осуществления аллельные распределения в наборе локусов могут использоваться для определения состояния плоидности одной или нескольких хромосом вынашиваемого плода.
Согласно варианту осуществления смесь молекул ДНК может быть получена из ДНК, экстрагированной из множества клеток одного индивидуума. Согласно варианту осуществления исходная коллекция клеток, из которых получена ДНК, может содержать смесь диплоидных или гаплоидных клеток с одинаковым генотипом или разными генотипами, если указанный индивидуум является мозаиком (гаметическим или соматическим). Согласно варианту осуществления смесь молекул ДНК также может быть получена из ДНК, экстрагированной из единичных клеток. Согласно варианту осуществления смесь молекул ДНК также может быть получена из ДНК, экстрагированной из смеси двух или более клеток одного и того же индивидуума или разных индивидуумов. Согласно варианту осуществления смесь молекул ДНК может быть получена из ДНК, выделенной из биологического материала, который уже высвобожден из клеток, такого как плазма крови, которая, как известно, содержит бесклеточную ДНК. Согласно варианту осуществления указанный биологический материал может представлять собой смесь ДНК от одного или нескольких индивидуумов, как в случае беременности, когда, как было показано, в указанной смеси присутствует плодная ДНК. Согласно варианту осуществления указанный биологический материал может быть получен из смеси клеток, которые были обнаружены в материнской крови, при этом некоторые из указанных клеток происходят от плода. Согласно варианту осуществления указанный биологический материал может представлять собой клетки крови беременной, которая была обогащена плодными клетками.
Зонды циркуляризации
Некоторые варианты осуществления изобретения согласно настоящему раскрытию включают применение «связанных инвертированных зондов» (LIP), которые ранее были описаны в литературе, для амплификации целевых локусов до или после амплификации с применением праймеров, не являющихся LIP, в способах мультиплексной ПЦР согласно настоящему изобретению. LIP представляет собой общий термин, относящийся к технологиям, которые включают создание кольцевой молекулы ДНК, при этом зонды сконструированы так, чтобы гибридизоваться с целевой областью ДНК по обе стороны целевого аллеля, таким образом, что при добавлении подходящих полимераз и/или лигаз, и при наличии подходящих условий, буферов и других реагентов, комплементарная инвертированная область ДНК всего целевого аллеля дополняется с образованием кольцевой петли ДНК, захватывающей информацию, присутствующую в целевом аллеле. LIP могут также называться пре-циркуляризованными зондами, зондами прециркуляризации или зондами циркуляризации. Зонд LIP может представлять собой линейную молекулу ДНК длиной от 50 до 500 нуклеотидов, и, согласно варианту осуществления, длиной от 70 до 100 нуклеотидов; согласно некоторым вариантам осуществления зонд может быть более длинным или более коротким, чем описанные в настоящем документе. Другие варианты осуществления настоящего раскрытия включают различные варианты осуществления технологии LIP, такие как зонды типа «висячий замок» (Padlock) и молекулярные инверсионные зонды (MIP).
Один из способов нацеливания на конкретные локализации для секвенирования заключается в синтезировании зондов, в которых 3'- и 5'-концы отжигаются с целевой ДНК в локализациях, примыкающих к целевой области по обе стороны, инвертированным образом, так, что добавление ДНК-полимеразы и ДНК-лигазы приводит к удлинению от 3'-конца за счет добавления оснований к одноцепочечному зонду, комплементарному целевой молекуле (заполнение гэпа), с последующим лигированием нового 3'-конца с 5'-концом исходного зонда, что приводит к образованию кольцевой молекулы ДНК, которая может быть затем отделена от сопутствующей ДНК. Концы зонда сконструированы так, чтобы фланкировать представляющую интерес целевую область. Один аспект указанного подхода обычно называется MIPS и использовался в сочетании с матричными технологиями для определения природы заполняемой последовательности. Одним из недостатком применения MIP в контексте измерения аллельных отношений является то, что этапы гибридизации, циркуляризации и амплификации происходят с неодинаковой скоростью для разных аллелей в одних и тех же локусах. Это приводит к тому, что измеренные отношения аллелей не являются репрезентативными с отношении фактических отношений аллелей в исходной смеси.
Согласно варианту осуществления зонды циркуляризации конструируют таким образом, что область зонда, которая сконструирована для гибридизации выше (в 5'-направлении) от целевого полиморфного локуса, и область зонда, которая сконструирована для гибридизации ниже (в 3-направлении) от целевого полиморфного локуса, ковалентно соединены остовом, не являющимся нуклеиновой кислотой. Указанный остов может представлять собой любую биосовместимую молекулу или комбинацию биосовместимых молекул. Некоторые примеры подходящих биосовместимых молекул представлены поли(этиленгликолем), поликарбонатами, полиуретанами, полиэтиленами, полипропиленами, сульфоновыми полимерами, силиконом, целлюлозой, фторполимерами, акриловыми соединениями, блок-сополимерами стирола и другими блок-сополимерами.
Согласно варианту осуществления, раскрытому в настоящем описании, указанный подход был модифицирован с целью облегчения секвенирования как средства исследования заполняемой последовательности. Для сохранения исходной пропорций аллелей исходного образца необходимо принять во внимание по меньшей мере одно ключевое соображение. Вариабельные положения различных аллелей в области заполнения гэпа не должны быть расположены слишком близко к сайтам связывания зонда, поскольку может происходить смещение инициации ДНК-полимеразой, что приведет к перепаду в содержании вариантов. Другое соображение заключается в том, что в связывающих сайтах зонда могут присутствовать дополнительные вариации, которые коррелируют с вариациями в области заполнения гэпа, что может приводить к неодинаковой амплификации разных аллелей. Согласно варианту осуществления, раскрытому в настоящем описании, 3' концы и 5' концы пре-циркуляризованного зонда сконструированы так, чтобы гибридизоваться с основаниями, расположенными на расстоянии одного или нескольких положений от вариантных положений (полиморфных сайтов) целевого аллеля. Число оснований между полиморфным сайтом (SNP или иным) и основанием, для гибридизации с которым сконструирован 3'-конец и/или 5'-конец пре-циркуляризованного зонда, может составлять одно основание, может составлять 2 основания, может составлять 3 основания, может составлять 4 основания, может составлять 5 основания, может составлять 6 оснований, может составлять от 7 до 10 оснований, может составлять от 11 до 15 оснований, или может составлять от 16 до 20 оснований, от 20 до 30 оснований, или от 30 до 60 оснований. Прямой и обратный праймеры могут быть сконструированы так, чтобы гибридизоваться на расстоянии разного числа оснований от полиморфного сайта. Зонды циркуляризации могут быть синтезированы в больших количествах; благодаря современным технологиям синтеза ДНК возможен синтез и, потенциально, объединение очень больших количеств зондов, что позволяет одновременно исследовать многие локусы. Сообщалось о работе более чем с 300000 зондов. В двух следующих работах описан способ, задействующий зонды циркуляризации, который может использоваться для измерения геномных данных целевого индивидуума: Porreca et al., Nature Methods, 2007 4(11), pp. 931-936.; а также Turner et al., Nature Methods, 2009, 6 (5), pp. 315-316. Способы, описанные в указанных источниках, могут использоваться в комбинации с другими способами, описанными в настоящем документе. Определенные этапы способа согласно двум указанным источникам могут использоваться в комбинации с другими этапами других способов, описанных в настоящем документе.
Согласно некоторым вариантам осуществления описанных в настоящем документе способов генетический материал целевого индивидуума необязательно амплифицируют, с последующей гибридизацией пре-циркуляризованных зондов, заполнением основаниями гэпа между двумя концами гибридизованных зондов, лигированием указанных двух концов с образованием циркуляризованного зонда и амплификацией циркуляризованного зонда, с применением, например, амплификации по типу катящегося кольца. После того, как генетическая информация нужного целевого аллеля захвачена подходящим образом сконструированными олигонуклеотидными зондами циркуляризации, например, в системе LIP, генетическую последовательность циркуляризованных зондов можно измерить для получения данных о нужной последовательности. Согласно варианту осуществления подходящим образом сконструированные олигонуклеотидные зонды могут быть циркуляризованы непосредственно в неамплифицированный генетический материал целевого индивидуума и затем амплифицированы. Отметим, что для амплификации исходного генетического материала или циркуляризованных LIP может быть использован ряд процедур амплификации, в том числе амплификация по типу катящегося кольца, MDA или другие протоколы амплификации. Для измерения генетической информации целевого генома могут быть использованы различные способы, например, использование высокопроизводительного секвенирования, секвенирования по Сэнгеру, других способов секвенирования, захвата гибридизацией, захвата циркуляризацией, мультиплексной ПЦР, других способов гибридизации и их комбинаций.
После того, как генетический материал индивидуума измерен с использованием одного из вышеупомянутых способов или их комбинации, для определения состояния плоидности одной или нескольких хромосом индивидуума и/или генетического статуса одного аллеля или набора аллелей, в частности, аллелей, коррелирующих с представляющим интерес заболеванием или генетическим статусом, может быть использован способ, основанный на информатике, такой как PARENTAL SUPPORTтм наряду с приемлемыми генетическими измерениями. Отметим, что было описано применение LIP для мультиплексного захвата генетических последовательностей с последующим генотипированием с секвенированием. Однако данные секвенирования, полученные в результате основанной на LIP стратегии амплификации генетического материала, присутствующего в единичной клетке, небольшом количестве клеток или во внеклеточной ДНК, не использовались в целях определения состояния плоидности целевого индивидуума.
Применение основанного на информатике способа для определения состояния плоидности индивидуума по генетическим данным, измеренным посредством матриц гибридизации, таких как матрица INFINIUM от ILLUMINA, или генного чипа AFFYMETRIX, было описано в документах, цитируемых в других разделах настоящего документа. Однако описанный в настоящем документе способ демонстрирует улучшения по сравнению с ранее описанными в литературе способами. Например, основанный на LIP подход с последующим высокопроизводительным секвенированием неожиданным образом обеспечивает лучшие данные генотипирования, благодаря подходу, характеризующемуся лучшей способностью к мультиплексированию, лучшей специфичностью захвата, лучшей однородностью и незначительным смещением числа аллелей. Увеличение мультиплексирования позволяет проводить нацеливание на большее количество аллелей, что обеспечивает более точные результаты. Лучшая однородность позволяет измерить большее число целевых аллелей, что обеспечивает более точные результаты. Более низкие частоты смещения числа аллелей приводят к более низким частотам неправильных определений, что обеспечивает более точные результаты. Более точные результаты обеспечивают улучшение клинических исходов и лучшее медицинское обслуживание.
Важно отметить, что LIP могут быть использованы в качестве способа нацеливания на конкретные локусы в образце ДНК для генотипирования посредством способов, отличных от секвенирования. Например, LIP могут быть использованы для нацеливания на ДНК для генотипирования с применением матриц SNP или других основанных на ДНК или РНК микроматриц.
Опосредованная лигированием ПЦР
Опосредованная лигированием ПЦР может использоваться для амплификации целевых локусов до или после ПЦР-амплификации с применением праймеров, которые не лигированы. Опосредованная лигированием ПЦР представляет собой метод ПЦР, используемый для проведения преимущественного обогащения образца ДНК путем амплификации одного или множества локусов в смеси ДНК, предусматривающий получение набора пар праймеров, при этом каждый праймер в паре содержит специфичную по отношению к цели последовательность и нецелевую последовательность, причем указанная специфичная по отношению к цели последовательность предпочтительно сконструирована для отжига с целевой областью, одной в 5'-направлении и одной в 3'-направлении от полиморфного сайта, которые могут быть отделены от полиморфного сайта 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11-20, 21-30, 31-40, 41-50, 51-100 или более чем 100 основаниями; полимеризацию ДНК от 3-конца прямого праймера для заполнения одноцепочечной области между ним и 5-концом обратного праймера нуклеотидами, комплементарными целевой молекуле; лигирование последнего полимеризованного основания прямого праймера со смежным 5-концевым основанием обратного праймера; и амплификацию только полимеризованных и лигированных молекул с применением нецелевых последовательностей, содержащихся на 5-конце прямого праймера и 3-конце обратного праймера. Пары праймеров для распознавания разных целей могут быть смешаны в одной и той же реакции. Нецелевые последовательности служат в качестве универсальных последовательностей, так что все пары праймеров, которые были успешно полимеризованы и лигированы, могут быть амплифицированы с помощью одной пары амплификационных праймеров.
Захват гибридизацией
Согласно некоторым вариантам осуществления способ согласно настоящему раскрытию может включать применение любых из следующих способов захвата гибридизацией помимо применения мультиплексной ПЦР для амплификации целевых локусов. Преимущественное обогащение по конкретному набору последовательностей в целевом геноме может быть реализовано несколькими способами. В других разделах настоящего документа приводится описание того, как LIP могут быть использованы для нацеливания на конкретный набор последовательностей, однако во всех указанных вариантах применения с тем же успехом и для тех же целей могут быть использованы другие способы нацеливания и/или преимущественного обогащения. Один из примеров другого способа нацеливания представлен методом захвата гибридизацией. Некоторые примеры коммерческих способов захвата гибридизацией технологий включают SURE SELECT от AGILENT и TruSeq от ILLUMINA. При захвате гибридизацией набору олигонуклеотидов, комплементарных или в основном комплементарных нужным целевым последовательностям, позволяют гибридизоваться со смесью ДНК, а затем физически отделяют от указанной смеси. После того как нужные последовательности гибридизованы с нацеливаемыми олигонуклеотидами, эффект физического извлечения нацеливаемых олигонуклеотидов состоит также в извлечении целевых последовательностей. После того как гибридизованные олигонуклеотиды извлечены, они могут быть нагреты до температуры, превышающей их температуру плавления, и могут быть амплифицированы. Некоторые способы физического извлечения нацеливаемых олигонуклеотидов состоят в ковалентном связывании нацеливаемых олигонуклеотидов на твердой подложке, например, магнитных гранулах или чипе. Другой способ физического извлечения нацеливаемых олигонуклеотидов состоит в ковалентном связывании их с молекулярным фрагментом, обладающим высоким сродством к другому молекулярному фрагменту. Примером такой молекулярной пары являются биотин и стрептавидин, используемые, например, в SURE SELECT. Соответственно, указанные целевые последовательности могут быть ковалентно присоединены к молекуле биотина, и после гибридизации твердая подложка со прикрепленным стрептавидином может использоваться для «опускания» (pull-down) биотинилированных олигонуклеотидов, которые гибридизованы с целевыми последовательностями.
Гибридный захват включает гибридизацию зондов, комплементарных представляющих интерес целям, с целевыми молекулами. Зонды гибридного захвата изначально разрабатывались для нацеливания и обогащения больших фракций генома при относительной однородности целей. При таком применении было важно, чтобы все цели были амплифицированы с достаточной однородностью, чтобы все области можно было выявить секвенированием, однако сохранению пропорций аллелей исходного образца внимание не уделялось. После захвата присутствующие в образце аллели могут быть определены прямым секвенированием захваченных молекул. Эти данные считываний при секвенировании могут быть проанализированы и количественно оценены в соответствии с типом аллелей. Однако при использовании существующей технологии измеренные аллельные распределения в захваченных последовательностях, как правило, не отражают исходные аллельные распределения.
Согласно варианту осуществления обнаружение аллелей проводят посредством секвенирования. Для идентификации аллеля в полиморфном сайте важно, чтобы считывание при секвенировании захватывало требуемый аллель, для оценки аллельного состава указанной захваченной молекулы. Поскольку длина молекул захвата часто варьирует, невозможно гарантировать перекрытие вариантных положений, если не секвенируется вся молекула. Однако по соображениям стоимости, а также ввиду технических ограничений, касающихся максимально возможной длины и точности считываний при секвенировании, секвенирование всей молекулы нецелесообразно. Согласно варианту осуществления длина считываемого фрагмента может быть увеличена от приблизительно 30 до приблизительно 50 или до приблизительно 70 оснований, что может значительно увеличить число считываний, перекрывающих вариантные положения в составе целевых последовательностей.
Другой способ повышения числа считываний, исследующих представляющее интерес положение, заключается в уменьшении длины зонда, при условии, что это не приводит к смещению для исходных обогащенных аллелей. Длина синтезированного зонда должна быть достаточной для того, чтобы два зонда, сконструированных таким образом, чтобы гибридизоваться с двумя разными аллелями, присутствующими в одном локусе, гибридизовались практически с равной аффинностью с разными аллелями в исходном образце. В настоящее время для известных в данной области техники способов описаны зонды, длина которых, как правило, составляет более 120 оснований. Согласно настоящему варианту осуществления, если аллель представляет собой одно или несколько оснований, длина зондов захвата может составлять менее чем приблизительно 110 оснований, менее чем приблизительно 100 оснований, менее чем приблизительно 90 оснований, менее чем приблизительно 80 оснований, менее чем приблизительно 70 оснований, менее чем приблизительно 60 оснований, менее чем приблизительно 50 оснований, менее чем приблизительно 40 оснований, менее чем приблизительно 30 оснований и менее чем приблизительно 25 оснований, и указанная длина достаточна для обеспечения равного обогащения всеми аллелями. Если смесь ДНК, которая должна быть обогащена с использованием методики гибридного захвата, представляет собой смесь, содержащую свободноплавающую ДНК, выделенную из крови, например, материнской крови, средняя длина ДНК достаточно мала, составляя, как правило, менее 200 оснований. Использование более коротких зондов повышает вероятность того, что зонды гибридного захвата будут захватывать нужные фрагменты ДНК. Более длинные вариации могут требовать более длинных зондов. Согласно варианту осуществления длина представляющих интерес вариаций составляет одно (SNP) или несколько оснований. Согласно варианту осуществления целевые области в геноме могут быть преимущественно обогащены с применением зондов гибридного захвата, причем длина указанных зондов гибридного захвата составляет менее 90 оснований, и может составлять менее 80 оснований, менее 70 оснований, менее 60 оснований, менее 50 оснований, менее 40 оснований, менее 30 оснований или менее 25 оснований. Согласно варианту осуществления для повышения шанса секвенирования нужного аллеля, длина зонда, сконструированного для того, чтобы гибридизоваться с областями, фланкирующими локализацию полиморфного аллеля, может быть уменьшена от более чем 90 оснований до приблизительно 80 оснований, или до приблизительно 70 оснований, или до приблизительно 60 оснований, или до приблизительно 50 оснований, или до приблизительно 40 оснований, или до приблизительно 30 оснований, или до приблизительно 25 оснований.
Существует минимальное перекрытие между синтезированным зондом и целевой молекулой, обеспечивающее захват. Такой синтезированный зонд можно сделать настолько коротким, насколько возможно, но все же длиннее, чем указанное минимальное необходимое перекрытие. Эффект использования более короткого зонда для нацеливания на полиморфную область заключается в большем количестве молекул, перекрывающих область целевого аллеля. Состояние фрагментации исходных молекул ДНК также влияет на число считываний, которые будут перекрывать целевые аллели. Некоторые образцы ДНК, такие как образцы плазмы, уже фрагментированы вследствие биологических процессов, протекающих in vivo. Однако образцы с более длинными фрагментами получают преимущество при фрагментировании перед секвенированием препарата библиотеки и обогащением. Если и зонды, и фрагменты короткие (~60-80 пар оснований), максимальная специфичность может быть достигнута только для относительно небольшого количества считываний последовательности, поскольку не удается перекрыть представляющую интерес критическую область.
Согласно варианту осуществления условия гибридизации могут быть скорректированы для максимальной однородности захвата разных аллелей, присутствующих в исходном образце. Согласно варианту осуществления температуры гибридизации снижают для сведения к минимуму различий смещения гибридизации между аллелями. В способах, известных в данной области техники, избегают использования более низких температур для гибридизации, так как снижение температуры увеличивает вероятность гибридизации зондов с непредусмотренными целями. Тем не менее, если целью является сохранение отношений аллелей с максимальной точностью, подход с использованием более низких температур гибридизации обеспечивает оптимально точные отношения аллелей, несмотря на тот факт, что на современном уровне техники рекомендовано воздерживаться от такого подхода. Температура гибридизации также может быть повышена для достижения большего перекрытия между целью и синтезированным зондом так, что захватываются только цели с существенным перекрытием целевой области. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, температуру гибридизации снижают от нормальной температуры гибридизации до приблизительно 40°C, до приблизительно 45°C, до приблизительно 50°C, до приблизительно 55°C, до приблизительно 60°C, до приблизительно 65 или до приблизительно 70°C.
Согласно варианту осуществления зонды гибридного захвата могут быть сконструированы таким образом, что область зонда захвата с ДНК, которая комплементарна ДНК, присутствующей в областях, фланкирующих полиморфный аллель, не примыкает непосредственно к полиморфному сайту. Вместо этого зонд захвата может быть сконструирован таким образом, что область указанного зонда захвата, сконструированная для гибридизации с ДНК, фланкирующей полиморфный сайт цели, отделена от части зонда захвата, которая будет контактировать с полиморфным сайтом посредством вандерваальсовых взаимодействий, небольшим расстоянием, эквивалентным по длине одному основанию или небольшому числу оснований. Согласно варианту осуществления зонд гибридного захвата сконструирован так, чтобы гибридизоваться с областью, которая фланкирует полиморфный аллель, но не пересекает его; такой зонд может быть назван фланкирующим зондом захвата. Длина фланкирующего зонда захвата может составлять менее чем приблизительно 120 оснований, менее чем приблизительно ПО оснований, менее чем приблизительно 100 оснований, менее чем приблизительно 90 оснований, и может составлять менее чем приблизительно 80 оснований, менее чем приблизительно 70 оснований, менее чем приблизительно 60 оснований, менее чем приблизительно 50 оснований, менее чем приблизительно 40 оснований, менее чем приблизительно 30 оснований или менее чем приблизительно 25 оснований. Область генома, которая является целью фланкирующего зонда захвата, может быть отделена от полиморфного локуса 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11-20 или более чем 20 парами оснований.
Описано скрининговое тестирование заболеваний, основанное на целевом захвате, с использованием захвата целевых последовательностей. Персонализированный захват целевых последовательностей аналогичен предлагаемому в настоящее время компаниями AGILENT (SURE SELECT), ROCHE-NIMBLEGEN или ILLUMINA. Могут быть сконструированы персонализованные зонды захвата с целью обеспечения захвата различных типов мутаций. Для точковых мутаций достаточно одного или нескольких зондов, перекрывающих точковую мутацию, для захвата и секвенирования мутации.
Для небольших инсерций или делеций одного или нескольких зондов, перекрывающих мутацию, может быть достаточно для захвата и секвенирования фрагментов, содержащих указанную мутацию. Гибридизация может быть менее эффективной при разной эффективности захвата, ограниченной зондами, сконструированными, как правило, для эталонной последовательности генома. Для обеспечения захвата фрагментов, содержащих мутацию, можно конструировать два зонда, один из которых соответствует нормальному аллелю, а второй - мутантному аллелю. Более длинный зонд может усиливать гибридизацию. Множественные перекрывающиеся зонды могут усиливать захват. Наконец, помещение зонда в непосредственной близости от мутации, но без ее перекрывания, может дать относительно сходную эффективность захвата нормального и мутантного аллелей.
Для простых тандемных повторов (STR) маловероятно, чтобы зонд, перекрывающий указанные высоковариабельные сайты, хорошо захватывал фрагмент. Для усиления захвата зонд можно разместить в непосредственной близости от вариабельного сайта, но без его перекрывания. Фрагмент можно впоследствии секвенировать обычным образом для определения длины и состава STR.
Для крупных делеций может подходить серия перекрывающихся зондов, обычный подход, применяемый в настоящее время в системах захвата экзонов. Однако при этом подходе может быть затруднительным определение того, гетерозиготен индивидуум или нет. Нацеливание на SNP и их оценка в пределах захваченной области потенциально могут отражать утрату гетерозиготности в рамках данной области, что будет свидетельствовать о том, что индивидуум является носителем. Согласно варианту осуществления можно разместить неперекрывающиеся или единичные зонды в пределах потенциально делетированной области и использовать число захваченных фрагментов как меру гетерозиготности. В том случае, если индивидуум является носителем крупной делеции, предполагается, что половина фрагментов будет доступна для захвата по сравнению с неделетированным (диплоидным) эталонным локусом. Следовательно, число считываний, полученных из делетированных областей, должно составлять приблизительно половину числа считываний, полученных из нормального диплоидного локуса. Суммируя и усредняя глубину секвенирования последовательности от нескольких единичных зондов в пределах потенциально делетированной области, можно усилить сигнал и улучшить достоверность диагноза. Два указанных подхода, нацеливание на SNP для идентификации утраты гетерозиготности и использование нескольких единичных зондов с целью измерения количества исходных фрагментов из этого локуса, также могут быть использованы в комбинации. Любая из этих стратегий или они обе могут применяться в комбинации с другими стратегиями для достижения лучшего результата.
Если во время тестирования cfDNA плода мужского пола, на что указывает присутствие фрагментов Y-хромосомы, захваченных и секвенированных в одном и том же тесте, выявляется Х-сцепленная доминантная мутация, если мать и отец не поражены, или доминантная мутация, если мать не поражена, это будет указывать на повышенный риск для плода. Выявление двух мутантных рецессивных аллелей одного и того же гена у плода от здоровой матери означает, что плод унаследовал один мутантный аллель от отца, и, потенциально, второй мутантный аллель от матери. Во всех случаях при последующем наблюдении может быть назначено тестирование с помощью амниоцентеза или взятия пробы ворсин хориона.
Основанный на принципе целевого захвата скрининг заболеваний может быть скомбинирован с основанным на принципе целевого захвата неинвазивным пренатальным диагностическим тестом на анеуплоидию.
Существует ряд способов уменьшения вариабельности глубины секвенирования (DOR): например, можно увеличить концентрации праймеров, использовать более длинные зонды целевой амплификации, или провести большее число циклов STA (например, более 25, более 30, более 35 или даже более 40)
Примеры способов определения числа молекул ДНК в образце.
В настоящем документе описан способ определения числа молекул ДНК в образце путем получения уникально идентифицируемой молекулы для каждой из исходных молекул ДНК в образце во время первого цикла амплификации ДНК. В настоящем документе описана процедура для достижения указанной цели с последующим секвенированием единичной молекулы или клональным секвенированием.
Указанный подход предусматривает нацеливание на один или несколько конкретных локусов и получение маркированной копии оригинальных молекул таким образом, что большинство или все маркированные молекулы из каждого целевого локуса будут содержать уникальный маркер, и их можно будет различать при секвенировании указанного штрихкода с использованием клонального секвенирования или секвенирования единичных молекул. Каждый уникальный секвенированный штрихкод представляет уникальную молекулу в исходном образце. Одновременно данные секвенирования используются для установления локуса, из которого происходит молекула. С использованием этой информации можно определить число уникальных молекул в исходном образце для каждого локуса.
Указанный способ может использоваться в любых вариантах применения, где требуется количественная оценка числа молекул в исходном образце. Кроме того, число уникальных молекул одной или нескольких целей может быть связано с числом уникальных молекул одной или нескольких других целей для определения относительного числа копий, аллельного распределения или аллельного отношения. Как вариант, число копий, установленное для различных целей, может быть смоделировано по распределению, чтобы идентифицировать наиболее вероятное число копий в исходных целях. Варианты применения включают, не ограничиваясь перечисленными, обнаружение инсерций и делеций, например, присутствующих у носителей мышечной дистрофии Дюшенна; количественное определение делеций или дупликаций сегментов хромосом, таких как наблюдаемые при вариантах числа копий; числа копий хромосом в образцах от рожденных индивидуумов; числа копий хромосомы в образцах от нерожденных индивидуумов, таких как эмбрионы или плоды.
Указанный способ может быть скомбинирован с одновременной оценкой вариаций, содержащихся в целевой последовательности. Он может использоваться для определения числа молекул, представляющих каждый аллель в исходном образце. Указанный способ определения числа копий может быть скомбинирован с оценкой SNP или других вариаций последовательностей для определения числа копий хромосом рожденных и нерожденных индивидуумов; различения и количественного определения копий локусов, которые содержат вариации коротких последовательностей, но в которых ПЦР может амплифицировать множество целевых областей, например, при обнаружении носительства спинальной мышечной атрофии; определение числа копий разных источников молекул из образцов, содержащих смеси материала различных индивидуумов, например, при определении анеуплоидии плода по свободноплавающей ДНК, полученной из материнской плазмы.
Согласно варианту осуществления способ, касающийся единичного целевого локуса, может включать один или несколько следующих этапов: (1) Конструирование стандартной пары олигомеров для ПЦР-амплификации конкретного локуса. (2) Добавление во время синтеза последовательности определенных оснований с минимальной комплементарностью или некомплементарной относительно целевого локуса или генома к 5'-концу одного из специфичных по отношению к цели олигомеров. Указанная последовательность, называемая «хвостом», представляет собой известную последовательность, предназначена для последующей амплификации, и за ней следует последовательность случайных нуклеотидов. Указанные случайные нуклеотиды содержат случайную область. Указанная случайная область содержит образованную случайным образом последовательность нуклеиновых кислот, которые вероятностно различаются у молекулы каждого зонда. Следовательно, после синтеза пул олигомеров с хвостами состоит из коллекции олигомеров, начинающихся с известной последовательности с последующей неизвестной последовательностью, которая отличается у молекул, после которой следует специфичная по отношению к цели последовательность. (3) проведение одного раунда амплификации (денатурация, отжиг, удлинение) с применением только содержащего «хвост» олигомера. (4) добавление экзонуклеазы в реакцию, эффективно останавливающее реакцию ПЦР, и инкубация реакционной смеси при подходящей температуре для удаления прямых одноцепочечных олигонуклеотидов, которые не отжигаются с матрицей и удлиняются с образованием двуцепочечного продукта. (5) Инкубация реакционной смеси при высокой температуре для денатурации экзонуклеазы и элиминации ее активности. (6) Добавление в реакцию нового олигонуклеотида, комплементарного хвосту олигомера, использованного в первой реакции, наряду с другим специфичным по отношению к цели олигомером для обеспечения ПЦР-амплификации продукта, полученного в первом раунде ПЦР. (7) Продолжение амплификации для образования достаточного количества продукта для последующего клонального секвенирования. (8) Измерение амплифицированного продукта ПЦР несколькими способами, например, клональным секвенированием, перед получением достаточного для охвата последовательности числа оснований.
Согласно варианту осуществления способ согласно настоящему раскрытию включает нацеливание на множество локусов, параллельно или иным образом. Праймеры для разных целевых локусов могут быть получены независимо и смешаны для получения мультиплексных пулов ПЦР. Согласно варианту осуществления исходные образцы можно разделить на субпулы, и в каждом субпуле проведено нацеливание на различные локусы до рекомбинирования и секвенирования. Согласно варианту осуществления этап маркирования и ряд циклов амплификации могут быть проведены до подразделения пула для обеспечения эффективного нацеливания на все цели перед расщеплением и для улучшения последующей амплификации путем продолжения амплификации с использованием меньших наборов праймеров в разделенных субпулах.
Одним примером применения, для которого, в частности, подходит указанная технология, является неинвазивная пренатальная диагностика анеуплоидии, где отношение аллелей в определенном локусе или распределение аллелей в ряде локусов может быть использовано для определения числа копий хромосомы, присутствующих у плода. В указанном контексте желательно амплифицировать ДНК, присутствующую в изначальном образце, с сохранением при этом относительных количеств различных аллелей. В некоторых обстоятельствах, в частности, в тех случаях, когда имеется очень небольшое количество ДНК, например, менее 5000 копий генома, менее 1000 копий генома, менее 500 копий генома и менее 100 копий генома, можно столкнуться с явлением, называемым «эффектом бутылочного горлышка». Указанное явление наблюдается, если в изначальном образце имеется небольшое количество копий любого данного аллеля, и смещение амплификации может привести к тому, что в амплифицированном пуле ДНК отношения этих аллелей значительно отличаются от отношений, характерных для исходной смеси ДНК. Применяя уникальный или почти уникальный набор штрихкодов для каждой цепи ДНК перед стандартной ПЦР-амплификацией, можно исключить n-1 копий ДНК из набора n идентичных молекул секвенированной ДНК, происходящей от одной и той же исходной молекулы.
Например, представим гетерозиготный SNP в геноме индивидуума и смесь ДНК указанного индивидуума, при этом в исходном образце ДНК присутствует по десять молекул каждого аллеля. После амплификации может присутствовать 100000 молекул ДНК, соответствующих указанному локусу. Вследствие стохастических процессов отношение ДНК может принимать любое значение от 1:2 до 2:1, однако, поскольку каждая из исходных молекул была маркирована уникальным маркером, можно установить, что ДНК в амплифицированном пуле происходит точно от 10 молекул ДНК каждого аллеля. Указанный способ, следовательно, дает возможность более точно измерить относительные количества каждого аллеля, чем способ, при котором не используется этот подход. Для способов, при которых желательно минимизировать относительное смещение числа аллелей, указанный способ обеспечит получение более точных данных.
Связь секвенированного фрагмента с целевым локусом может обеспечиваться несколькими способами. Согласно варианту осуществления из целевого фрагмента получают последовательность, имеющую достаточную длину для захвата штрихкода молекулы, а также содержащую достаточное число уникальных оснований, соответствующих целевой последовательности, что позволяет однозначно идентифицировать целевой локус. Согласно другому варианту осуществления праймер молекулярного штрихкодирования, который содержит случайно образованный молекулярный штрихкод, может также содержать специфичный в отношении локуса штрихкод (штрихкод локуса), который идентифицирует цель, с которой он должен быть связан. Указанный штрихкод локуса будет идентичен для всех праймеров молекулярного штрихкодирования для каждой индивидуальной цели и, следовательно, для всех полученных в результате ампликонов, но будет отличаться для всех других целей. Согласно варианту осуществления описанный в настоящем документе способ маркирования может комбинироваться с протоколом одностороннего вложения.
Согласно варианту осуществления конструирование и получение праймеров молекулярного штрихкодирования может быть на практике сведено к следующему: праймеры молекулярного штрихкодирования могут состоять из последовательности, не комплементарной целевой последовательности, с последующей случайной областью молекулярного штрихкода, за которой следует специфичная по отношению к цели последовательность. Последовательность, расположенная в 5'-направлении от молекулярного штрихкода, может быть использована для последующей ПЦР-амплификации и может содержать последовательности, подходящие для преобразования ампликона в библиотеку для секвенирования. Случайная последовательность молекулярного штрихкода может быть получена несколькими способами. Предпочтительным способом является синтез маркирующего молекулу праймера таким образом, чтобы включить все четыре основания в реакцию во время синтеза области штрихкода. Все или различные комбинации оснований могут быть определены с использованием кодов неопределенности ДНК IUPAC (IUPAC DNA). Таким образом, синтезированная коллекция молекул будет содержать случайную смесь последовательностей в области молекулярного штрихкода. Длина области штрихкода будет определять количество праймеров, содержащих уникальные штрихкоды. Число уникальных последовательностей связано с длиной области штрихкода как NL, где N представляет собой число оснований, как правило, 4, a L представляет собой длину штрихкода. Штрихкод из пяти оснований может дать до 1024 уникальных последовательностей; штрихкод из восьми оснований может дать до 65536 уникальных штрихкодов. Согласно варианту осуществления ДНК может быть измерена способом секвенирования, при котором данные последовательности представляют последовательность единичной молекулы. Могут быть предусмотрены способы, в которых единичные молекулы секвенируют непосредственно, или способы, в которых единичные молекулы амплифицируют с образованием клонов, выявляемых с помощью инструмента секвенирования, но все же представляют единичные молекулы, что называется в настоящем документе клональным секвенированием.
Примеры способов и реагентов для количественного определения продуктов амплификации
Количественное определение конкретных представляющих интерес последовательностей нуклеиновых кислот, как правило, проводят с помощью техник количественной ПЦР в реальном времени, таких как TAQMAN (LIFE TECHNOLOGIES), зондов INVADER (THIRD WAVE TECHNOLOGIES) и т.п. Такие техники обладают многочисленными недостатками, такими как ограниченная пригодность для одновременного анализа множества последовательностей параллельно (мультиплексирование) и возможность получения точных количественных данных исключительно в узком возможном диапазоне циклов амплификации (например, если зависимость логарифма количества продуктов ПЦР-амплификации от числа циклов находится в линейном диапазоне). Техники секвенирования ДНК, в частности высокопроизводительные техники секвенирования нового поколения (часто называемые техниками массового параллельного секвенирования), такие как используемые в MYSEQ (ILLUMINA), HISEQ (ILLUMINA), ION TORRENT (LIFE TECHNOLOGIES), GENOME ANALYZER ILX (ILLUMINA), GS FLEX + (ROCHE 454) и т.д., могут использоваться для количественного определения числа копий представляющей интерес последовательности, присутствующей в образце, с получением таким образом количественной информации относительно исходных материалов, например, о числе копий или уровнях транскрипции. Высокопроизводительные генетические секвенаторы позволяют использовать штрихкодирование (т.е. маркирование образцов особыми последовательностями нуклеиновых кислот) для идентификации конкретных образцов от индивидуумов, что позволяет проводить одновременный анализ множества образцов за один прогон секвенатора ДНК. Количество секвенирований заданной области генома при подготовке библиотеки (или другого представляющего интерес состава с нуклеиновыми кислотами) (число считываний) пропорционально числу копий указанной последовательности в представляющем интерес геноме (или уровню экспрессии для составов, содержащих кДНК). Однако при подготовке и секвенировании генетических библиотек (и аналогичных полученных из генома составов) могут быть внесены различные стандартные ошибки (смещения), мешающие получению точных количественных показателей для представляющей интерес последовательность нуклеиновой кислоты. Например, разные последовательности нуклеиновых кислот могут амплифицироваться с разной эффективностью во время этапа амплификации нуклеиновых кислот при подготовке генетической библиотеки или подготовке образцов.
Проблема различающейся эффективности амплификации может быть уменьшена за счет применения определенных вариантов осуществления рассматриваемого изобретения. Рассматриваемое изобретение включает различные способы и композиции, относящиеся к применению стандартов для включения в способы амплификации, которые могут использоваться для повышения точности количественного определения. Настоящее изобретение может применяться, помимо других областей, при обнаружении анеуплоидии у плода путем анализа свободноплавающей плодной ДНК в материнской крови, согласно описанию в настоящем документе и описаниям в патенте США №8008018; патенте США №7332277; опубликованной заявке РСТ WO 2012/078792 A2; и опубликованной заявке РСТ WO 2011/146632 A1, помимо прочих источников; каждый из перечисленных источников полностью включен в настоящий документ посредством ссылки. Варианты осуществления настоящего изобретения также подходят для обнаружения анеуплоидии полученных in vitro эмбрионов. Коммерчески значимые анеуплоидии, которые могут быть обнаружены, включают анеуплоидии хромосом человека 13, 18, 21, X и Y.
Варианты осуществления настоящего изобретения могут использоваться как для нуклеиновых кислот человека, так и для нуклеиновых кислот, не принадлежащих человеку, и могут применяться для нуклеиновых кислот как животного, так и растительного происхождения. Варианты осуществления настоящего изобретения могут также использоваться для обнаружения и/или количественного определения аллелей при других генетических расстройствах, характеризующихся делециями или инсерциями. Аллели, содержащие делеции, могут быть обнаружены у предполагаемых носителей представляющего интерес аллеля.
Один из вариантов осуществления рассматриваемого изобретения включает стандарты, которые присутствуют в известном количестве (относительном или абсолютном). Например, рассмотрим генетическую библиотеку, полученную из генетического источника, который является диплоидным по хромосоме 8 (содержащей локус А) и триплоидным по хромосоме 21 (содержащей локус В). Из указанного образца может быть получена генетическая библиотека, которая будет содержать последовательности в количествах, представляющих собой функцию от числа хромосом, присутствующих в указанном образце, например, 200 копий локуса А и 300 копий локуса В. Однако, если локус А амплифицируется значительно более эффективно, чем локус В, после ПЦР могут присутствовать 60000 копий ампликона А и 30000 копий ампликона В, соответственно, что маскирует истинное число копий хромосом исходного геномного образца при анализе с применением высокопроизводительного секвенирования ДНК (или других техник количественного определения нуклеиновых кислот). Для уменьшения указанной проблемы используют стандартную последовательность для локуса А, при этом указанная стандартная последовательность амплифицируется по существу с той же эффективностью, что и локус А. Аналогичным образом, создают стандартную последовательность для локуса В, при этом указанная стандартная последовательность амплифицируется по существу с той же эффективностью, что и локус В. Стандартную последовательность для локуса А и стандартную последовательность для локуса В добавляют в смесь перед использованием ПЦР (или других техник амплификации). Указанные стандартные последовательности присутствуют в известных количествах, относительных или абсолютных. Таким образом, если в смесь в приведенном выше примере добавить 1:1 смесь стандартной последовательности А и стандартной последовательности В (перед амплификацией), будет синтезировано 3000 копий ампликона стандарта А и 1000 копий ампликона стандарта В, что указывает 3-кратно более эффективную амплификацию локуса А по сравнению с амплификацией локуса В при одной и той же совокупности условий.
Согласно различным вариантам осуществления одна или несколько выбранных областей генома, содержащая(ие) представляющий интерес SNP (или другой полиморфизм) может(гут) быть специфически амплифицированы и затем секвенированы. Указанная специфичная по отношению к цели амплификация может проводиться при получении генетической библиотеки для секвенирования. Указанная библиотека может содержать многочисленные целевые области для амплификации. Согласно некоторым вариантам осуществления имеется по меньшей мере 10; 100, 500; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 представляющих интерес областей. Примеры таких библиотек описаны в настоящем документе и могут быть найдены в заявке на патент США №2012/0270212, поданной 18 ноября 2011 г. и включенной в настоящий документ полностью посредством ссылки.
Многие техники высокопроизводительного секвенирования ДНК секвенирование требуют модификации исходного генетического материала, например, лигирования универсальных сайтов праймирования и/или штрихкодов для получения библиотек для облегчения клональной амплификации небольших фрагментов нуклеиновых кислот перед последующим проведением реакций секвенирования. Согласно некоторым вариантам осуществления одну или несколько стандартных последовательностей добавляют во время получения генетической библиотеки, или добавляют к компоненту-предшественнику генетической библиотеки до амплификации указанной библиотеки. Стандартные последовательности могут быть выбраны таким образом, чтобы имитировать (отличаясь при этом по последовательности нуклеиновых оснований) целевые геномные фрагменты, подготавливаемые для секвенирования с применением высокопроизводительной техники генетического секвенирования. Согласно одному варианту осуществления стандартная последовательность может быть идентична целевому геномному фрагменту за исключением 1, 2, 3, 4-10 или 11-20 нуклеотидов. Согласно некоторым вариантам осуществления, если целевая генетическая последовательность содержит SNP, стандартная последовательность может быть идентична указанному SNP, за исключением нуклеотида в положении полиморфного основания, который может быть выбрано из 4 нуклеотидов, не встречающихся в природе в указанной локализации. Стандартные последовательности могут использоваться при высокомультиплексном анализе множества целевых локусов (таких как полиморфные локусы). Стандартные последовательности могут быть добавлены во время процесса получения библиотеки (до амплификации) в известных количествах (относительных или абсолютных) для получения стандартного показателя для большей точности определения количества представляющей интерес целевой последовательности в указанном образце для анализа. Комбинация информации относительно известных количеств стандартных последовательностей в сочетании с информацией относительно уровня плоидности формируемой библиотеки для секвенирования, полученной из генома с ранее установленным уровнем плоидности, например, по имеющимся данным, диплоидным по всем аутосомным хромосомам, могут использоваться для калибровки характеристик амплификации каждой стандартной последовательности относительно соответствующей целевой последовательности, с учетом вариаций между партиями смесей, содержащих множество стандартных последовательностей. Учитывая, что часто необходим одновременный анализ значительного числа локусов, целесообразно получение смеси, содержащей большой набор стандартных последовательностей. Варианты осуществления настоящего изобретения включают смеси, содержащие несколько стандартных последовательностей. В идеальном варианте количество каждой стандартной последовательности в указанной смеси известное с высокой степенью точности. Тем не менее, добиться указанного идеального варианта крайне сложно, поскольку на практике существует значительное количество вариаций количества каждой стандартной последовательности в смеси, в частности, в смесях, содержащих значительное число разных синтетических олигонуклеотидов. Указанные вариации обусловлены многочисленными причинами, например, вариациями эффективности реакции синтеза олигонуклеотидов in vitro от партии к партии, неточностями при измерении объемов, вариациями при пипеточном дозировании. Кроме того, указанные вариации могут возникать в разных партиях, теоретически содержащих совершенно одинаковый набор стандартных последовательностей в абсолютно равных количествах. Соответственно, целесообразно калибровать каждую партию стандартных последовательностей независимым образом. Партии стандартных последовательностей могут быть откалиброваны относительно эталонных геномов с известным хромосомным составом. Партии стандартных последовательностей могут быть откалиброваны посредством секвенирования партии стандартных последовательностей с включением в протокол секвенирования минимального этапа амплификации или без этапа амплификации. Варианты осуществления настоящего изобретения включают откалиброванные смеси разных стандартных последовательностей. Другие варианты осуществления настоящего изобретения включают способы калибровки смесей разных стандартных последовательностей, и откалиброванные смеси других стандартных последовательностей, полученных с помощью рассматриваемых способов.
Различные варианты осуществления рассматриваемых смесей стандартных последовательностей и способов их применения могут включать по меньшей мере 10; 100, 500; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 или более стандартных последовательностей, а также различные промежуточные количества. Число стандартных последовательностей может быть равно числу целевых последовательностей, отобранных для анализа при получении целевой библиотеки для секвенирования ДНК. При этом согласно некоторым вариантам осуществления может быть целесообразным использовать число стандартных последовательностей меньшее, чем число целевых областей в конструируемой библиотеке. Может быть целесообразным использовать более низкое число для того, чтобы не столкнуться с пределами мощности секвенирования используемого высокопроизводительного секвенатора ДНК. Число стандартных последовательностей может составлять 50% или менее от числа целевых областей, 40% или менее от числа целевых областей, 30% или менее от числа целевых областей, 20% или менее от числа целевых областей, 10% или менее от числа целевых областей, 5% или менее от числа целевых областей, 1% или менее от числа целевых областей, а также различные промежуточные значения. Например, если генетическую библиотеку создают с применением 15000 пар праймеров, нацеленных на конкретный содержащий SNP локусов, подходящая смесь, содержащая 1500 стандартных последовательностей, соответствующих 1500 из 15000 целевых локусов, может быть добавлена перед этапом амплификации при конструировании библиотек.
Количество стандартных последовательностей, добавляемых при конструировании библиотек, может значительно варьировать в разных вариантах осуществления. Согласно некоторым вариантам осуществления количество каждой стандартной последовательности может быть приблизительно равно предсказанному количеству целевой последовательности, присутствующей в образце геномного материала, используемого для подготовки библиотеки. Согласно другим вариантам осуществления количество каждой стандартной последовательности может быть больше или меньше, чем предсказанное количество целевой последовательности, присутствующей в образце геномного материала, используемого для подготовки библиотеки. Хотя исходные относительные количества целевой последовательности и стандартной последовательности не являются критически важными для реализации настоящего изобретения, предпочтительно, чтобы указанное количество попадало в диапазон значений от 100-кратно превышающих количество целевой последовательности до 100-кратно меньших, чем количество целевой последовательности, присутствующей в образце геномного материала, используемого для подготовки библиотеки. Избыточные количества стандарта также могут задействовать слишком большой процент мощности секвенирования секвенатора ДНК за определенный прогон аппарата. Использование слишком малого количества стандартных последовательностей дает недостаточно данных, чтобы подходить для анализа вариаций эффективности амплификации.
Могут быть выбраны стандартные последовательности, в значительной степени сходные по последовательности нуклеиновых оснований амплифицированным представляющим интерес областям; предпочтительно, стандартная последовательность содержит точно такие же связывающие сайты праймеров, что и анализируемая геномная область, т.е. «целевая последовательность». Стандартная последовательность должна быть отличима от соответствующей целевой последовательности по определенному локусу. Для удобства указанная отличимая область стандартной последовательности будет называться «маркерной последовательностью». Согласно некоторым вариантам осуществления область маркерной последовательности целевых последовательностей содержит полиморфную область, например, SNP, и может быть фланкирована с двух сторон связывающими праймеры областями. Стандартная последовательность может быть выбрана так, чтобы в значительной степени соответствовать по содержанию GC соответствующей целевой последовательности. Согласно некоторым вариантам осуществления связывающие праймеры области стандартной последовательности фланкированы универсальными сайтами праймирования. Указанные универсальные сайты праймирования выбирают так, чтобы они соответствовали универсальным сайтам праймирования, используемым в геномной библиотеке для анализа. Согласно другим вариантам осуществления стандартные последовательности не содержат универсальных сайтов праймирования, и универсальные сайты праймирования добавляют во время создания библиотеки. Стандартные последовательности, как правило, представлены в одноцепочечной форме. Определяют стандартную последовательность для соответствующей целевой последовательности и используют специфичные в отношении последовательности реагенты для амплификации целевой последовательности. Согласно некоторым вариантам осуществления целевая последовательность содержит представляющий интерес полиморфизм, например, SNP, делецию или инсерцию, присутствующий в образце нуклеиновой кислоты для анализа. Стандартная последовательность представляет собой синтетический полинуклеотид, аналогичный по последовательности нуклеиновых оснований целевой последовательности, но, тем не менее, отличимая от целевой последовательности за счет по меньшей мере одного другого нуклеинового основания, что обеспечивает механизм различения последовательностей ампликонов, полученных из стандартной последовательности, и последовательностей ампликонов, полученных из целевой последовательности. Стандартные последовательности выбирают так, чтобы они обладали по существу такими же свойствами при амплификации, что и соответствующая целевая последовательность, при амплифицировании с тем же набором реагентов для амплификации, например, праймерами для ПЦР. Согласно некоторым вариантам стандартные последовательности могут содержать те же последовательности сайтов связывания праймеров, что и соответствующие целевые последовательности. Согласно другим вариантам осуществления стандартные последовательности могут содержать последовательности сайтов связывания праймеров, отличные от соответствующих целевых последовательностей. Согласно некоторым вариантам осуществления могут быть выбраны стандартные последовательности для получения ампликонов, которые имеют ту же длину, что и ампликоны, полученные из соответствующих целевых последовательностей. Согласно другим вариантам осуществления могут быть выбраны стандартные последовательности для получения ампликонов, которые имеют немного другие длины по сравнению с длиной ампликонов, полученных из соответствующих целевых последовательностей.
После завершения реакций амплификации библиотеку секвенируют на высокопроизводительном секвенаторе ДНК, при этом индивидуальные молекулы клонально амплифицируют и секвенируют. Подсчитывают число считываний последовательностей для каждого аллеля целевой последовательности, также подсчитывают число считываний последовательностей для стандартной последовательности, соответствующей целевой последовательности. Указанный процесс также проводят по меньшей мере для одной другой пары целевых последовательностей и соответствующих стандартных последовательностей. Рассматривая, например, локус А, получают XA1 считываний для аллеля 1 локуса А; получают ХA2 считываний для аллеля 2 локуса А, и ХAC считываний для стандартной последовательности А. Отношение (XA1+ХA2) к ХAC определяют для каждого представляющего интерес локуса. Как уже обсуждалось, процесс может выполняться на эталонном геноме, например, геноме, который, как известно, диплоиден по всем хромосомам. Процесс может повторяться многократно для обеспечения значительного числа считываний для определения среднего числа считываний и стандартного отклонения для числа считываний. Процесс проводят со смесью, содержащей значительное число разных стандартных последовательностей, соответствующих разным локусам. Предположив, что (1) XA1+ХA2 соответствует известному числу хромосом, например, 2 для нормального генома человека женского пола и (2) стандартные последовательности обладают свойствами при амплификации (и детектируемостью), аналогичными соответствующим им природным локусам, могут быть определены относительные количества разных стандартных последовательностей в мультиплексной стандартной смеси. Откалиброванную мультиплексную смесь стандартных последовательностей затем можно использовать для коррекции с учетом вариабельности эффективности амплификации разных локусов в реакции мультиплексной амплификации.
Другие варианты осуществления настоящего изобретения включают способы и композиции для подсчета числа копий конкретных представляющих интерес генов, включая дупликации и мутантные гены, характеризующиеся обширными делециями, которые будут мешать количественному определению посредством секвенирования. При обнаружении аллелей, содержащих такие делеции, при секвенировании будут возникать проблемы. Для уменьшения указанной проблемы могут использоваться стандартные последовательности, включенные в процесс амплификации.
Согласно одному из вариантов осуществления настоящего изобретения целевая последовательность для анализа представляет собой ген, у которого имеется форма дикого типа (т.е. функциональная) и мутантная форма, характеризующаяся делецией. Примерами таких генов является SMN1, аллель, содержащий делецию, ответственную за генетическое заболевание, спинальную мышечную атрофию (SMA). Он представляет интерес для выявления индивидуума-носителя мутантной формы указанного гена с помощью техник высокопроизводительного генетического секвенирования. Применение таких техник для обнаружения делеционных мутаций может быть проблематичным, что обусловлено, среди прочих причин, отсутствием наблюдаемых при секвенировании последовательностей, (в отличие от обнаружения одноточечных мутаций, или SNP). Такие варианты осуществления задействуют (1) пару праймеров для амплификации, специфических в отношении представляющего интерес гена, при этом указанные праймеры для амплификации амплифицируют представляющий интерес ген (или его часть) и не амплифицируют в существенной степени мутантный аллель, (2) стандартную последовательность, соответствующую аллелю дикого типа представляющего интерес гена (т.е. целевой последовательности), но отличающуюся по меньшей мере одним детектируемым нуклеиновым основанием, (3) пару праймеров для амплификации, специфических в отношении второй целевой последовательности, которая служит в качестве эталонной последовательности, и (4) стандартную последовательность, соответствующую эталонной последовательности.
Согласно одному из вариантов осуществления настоящего изобретения предложен способ измерения числа копий представляющего интерес гена, при этом в представляющем интерес гене имеется один значимый аллель, который содержит делецию. Способ может задействовать реагент для амплификации, специфический в отношении представляющего интерес гена, например, ПЦР-праймеры, специфические в отношении представляющего интерес гена, путем амплификации по меньшей мере части указанного представляющего интерес гена, или представляющего интерес гена полностью, или области, смежной с представляющим интерес генов, при этом без амплификации содержащего делецию аллеля представляющего интерес гена. Кроме того, рассматриваемый способ задействует стандартную последовательность, соответствующую представляющему интерес гену, причем указанная стандартная последовательность отличается по меньшей мере одним нуклеотидом от указанного представляющего интерес гена (таким образом, последовательность стандартной последовательности можно легко отличить от встречающегося в природе представляющего интерес гена). Как правило, стандартная последовательность содержит жит те же сайты связывания праймеров, что и представляющий интерес ген, так что любые различия амплификации представляющего интерес гена и стандартной последовательности, соответствующей представляющему интерес гену, минимизированы. Реакция также включает реагенты для амплификации специфической в отношении эталонной последовательности. Эталонная последовательность представляет собой последовательность с известным (или по меньшей мере предположительно известным) числом копий в подлежащем анализу геноме. Реакция также включает стандартную последовательность, соответствующую эталонной последовательности. Как правило, стандартная последовательность, соответствующая эталонной последовательности, содержит те же сайты связывания праймеров, что и эталонной последовательности, так что любые различия амплификации эталонной последовательности и стандартной последовательности, соответствующей эталонной последовательности, минимизированы.
Примеры образцов нуклеиновой кислоты
Согласно некоторым вариантам осуществления генетический образец может быть получен, выделен и/или очищен. Существует ряд известных в данной области техники стандартных процедур для выполнения указанных задач. Согласно некоторым вариантам осуществления образец может быть центрифугирован для разделения разных слоев. Согласно некоторым вариантам осуществления ДНК может быть выделена с применением фильтрации. Согласно некоторым вариантам осуществления получение ДНК может включать амплификацию, разделение, очистку хроматографией, разделение жидкостей, выделение, преимущественное обогащение, преимущественную амплификацию, целевую амплификацию, или любую из ряда других техник, либо известных в данной области техники, либо описанных в настоящем документе.
Согласно некоторым вариантам осуществления раскрытый в настоящем документе способ может быть использован в ситуациях, когда имеется очень небольшое количество ДНК, например, при оплодотворении in vitro, или в ситуациях, требующих судебно-технической экспертизы, когда доступны одна или небольшое количество клеток (как правило менее чем 10 клеток, менее чем 20 клеток или менее чем 40 клеток.) Согласно указанным вариантам осуществления раскрытый в настоящем документе способ служит для определения плоидности по небольшому количеству ДНК, которая не загрязнена другой ДНК, однако при этом определение плоидности сильно затруднено из-за небольшого количества ДНК. Согласно некоторым вариантам осуществления раскрытый в настоящем документе способ может быть использован в ситуациях, когда целевая ДНК загрязнена ДНК другого индивидуума, например, в материнской крови в контексте пренатальной диагностики, при тестировании на отцовство или тестировании продуктов оплодотворения. Некоторые другие ситуации, при которых, в частности, благоприятным будет использование указанных способов, включают тестирование злокачественных заболеваний, при котором имеется только одна или небольшое количество клеток среди большого количества нормальных клеток. Генетические измерения, используемые как часть указанных способов, могут быть выполнены в любом образце, содержащем ДНК или РНК, например, не ограничиваясь перечисленным, в крови, плазме, физиологических жидкостях, моче, волосах, слезе, слюне, ткани, коже, ногтях, бластомерах, эмбрионах, амниотической жидкости, образцах ворсин хориона, кале, желчи, лимфе, цервикальной слизи, сперме или других клетках или материалах, содержащих нуклеиновые кислоты. Согласно варианту осуществления раскрытый в настоящем документе способ может быть реализован со такими способами обнаружения нуклеиновых кислот, как секвенирование, микроматрицы, количественная ПЦР, цифровая ПЦР или другие способы, используемые для измерения нуклеиновых кислот. Если по какой-либо причине это будет сочтено желательным, могут быть рассчитаны отношения вероятностей числа аллелей в локусе, и отношения числа аллелей могут быть использованы для определения состояния плоидности в комбинации с некоторыми из описанных в настоящем документе способов, при условии, что указанные способы совместимы. Согласно некоторым вариантам осуществления раскрытый в настоящем документе способ включает вычисление на компьютере, аллельных отношений во множестве полиморфных локусов по измерениям ДНК, выполненным на обработанных образцах. Согласно некоторым вариантам осуществления раскрытый в настоящем документе способ включает вычисление на компьютере аллельных отношений во множестве полиморфных локусов по измерениям ДНК, выполненным на обработанных образцах, наряду с любой комбинацией других раскрытых в настоящем описании улучшений.
Согласно некоторым вариантам осуществления указанный способ может использоваться для генотипирования единичной клетки, небольшого количества клеток, от 2 до 5 клеток, от 6 до 10 клеток, от 10 до 20 клеток, от 20 до 50 клеток, от 50 до 100 клеток, от 100 до 1000 клеток, или небольшого количества внеклеточной ДНК, например, от 1 до 10 пг, от 10 до 100 пг, от 100 пг до 1 нг, от 1 до 10 нг, от 10 до 100 нг или от 100 нг до 1 мкг.
Примеры исследований экспрессии РНК
Способы мультиплексной ПЦР согласно настоящему изобретению могут использоваться для увеличения числа целевых локусов, которые могут оцениваться во время экспериментального профилирования генной экспрессии. Например, может проводиться одновременный мониторинг уровней экспрессии тысяч генов для определения того, присутствует ли у субъекта последовательность (такая как полиморфизм или другая мутация), связанная с заболеванием (например, раковым заболеванием) или повышенным риском заболевания. Указанные способы могут использоваться для идентификации последовательностей (таких как полиморфизмы или другие мутации), связанных с повышенным или пониженным риском заболевания, например, ракового заболевания, путем сравнения генной экспрессии (например, экспрессии мРНК конкретных аллелей) в образцах от пациентов, у которых имеется или отсутствует указанное заболевание. Дополнительно может определяться эффект конкретных вариантов лечения, заболеваний или стадий развития на генную экспрессию. Аналогичным образом, указанные способы могут использоваться для идентификации генов, экспрессия которых изменяется в ответ на патогены или другие организмы путем сравнения генной экспрессии в инфицированных и неинфицированных клетках или тканях. В указанных способах число считываний при секвенировании может быть скорректировано с учетом частот анализируемых полиморфизмов, таким образом, чтобы провести достаточно считываний для обнаружения полиморфизмов в случае их присутствия.
Согласно некоторым вариантам осуществления образец, содержащий РНК (такую как мРНК), амплифицируют с применением обратной транскриптазы (RT), и полученную ДНК (такую как кДНК) затем амплифицируют с применением ДЕК-полимеразы (ПЦР). Этапы RT и ПЦР могут проводиться последовательно в одном и том же реакционном объеме, либо отдельно. В указанном способе полимеразной цепной реакции с обратной транскрипцией (ОТ-ПЦР) могут использоваться любые из библиотек праймеров согласно настоящему изобретению. Согласно различным вариантам осуществления обратную транскрипцию осуществляют с применением олиго-dT, случайных праймеров, смеси олиго-dT и случайных праймеров, или праймеров, специфичных в отношении целевых локусов. Чтобы избежать амплификации загрязняющей геномной ДНК, праймеры для ОТ-ПЦР могут быть сконструированы таким образом, что часть одного праймера гибридизуется с 3'-концом одного экзона, а другая часть указанного праймера гибридизуется с 5'-концом смежного экзона. Такие праймеры отжигаются с кДНК, синтезированной из сплайсированных мРНК, но не с геномной ДНК. Для обнаружения амплификации загрязняющей ДНК пары праймеров для ОТ-ПЦР могут быть сконструированы таким образом, чтобы фланкировать область, которая содержит по меньшей мере один интрон. Продукты, амплифицированные из кДНК (без интронов) имеют меньший размер, чем амплифицированные из геномной ДНК (содержащей интроны). Разницу в размере продуктов используют для обнаружения присутствия загрязняющей ДНК. Согласно некоторым вариантам осуществления, если известна только последовательность мРНК, выбирают участки для отжига праймеров на расстоянии по меньшей мере 300-400 пар оснований, поскольку существует вероятность, что фрагменты указанного размера эукариотической ДНК содержат точки сплайсинга. Как вариант, образец может быть обработан ДНКазой для разрушения загрязняющей ДНК. Примеры способов тестирования на отцовство
Способы мультиплексной ПЦР согласно настоящему изобретению могут использоваться для повышения точности тестирования на отцовство, поскольку за один прием может быть проанализировано значительное количество целевых локусов (см., например, публикацию США №2012/0122701, которая была подана 22 декабря 2011 г., полностью включенную в настоящий документ посредством ссылки). Например, указанный способ мультиплексной ПЦР может обеспечить анализ тысяч полиморфных локусов (таких как SNP) для применения в алгоритме PARENTAL SUPPORT, описанном в настоящем документе, для определения того, является ли предполагаемый отец биологическим отцом плода. Согласно некоторым вариантам осуществления указанный способ включает (i) одновременную амплификацию множества полиморфных локусов, включающего по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных полиморфных локусов из генетического материала от предполагаемого отца,, в результате чего получают первый набор амплифицированных продуктов; (ii) одновременную амплификацию соответствующего множества полиморфных локусов в смешанном образце ДНК, происходящем из образца крови беременной матери, в результате чего получают второй набор амплифицированных продуктов; при этом указанный смешанный образец ДНК содержит плодную ДНК и материнскую ДНК; (iii) определение на компьютере вероятности того, что предполагаемый отец является биологическим отцом указанного плода, с применением генотипических измерений на основе первого и второго наборов амплифицированных продуктов; и (iv) определение того, является ли предполагаемый отец биологическим отцом указанного плода с использованием определенной вероятности того, что предполагаемый отец является биологическим отцом указанного плода. Согласно различным вариантам осуществления указанный способ также включает одновременную амплификацию соответствующего множества полиморфных локусов из генетического материала матери для получения третьего набора амплифицированных продуктов; при этом вероятность того, что предполагаемый отец является биологическим отцом указанного плода, определяют с применением генотипических измерений на основе первого, второго и третьего наборов амплифицированных продуктов.
Примеры способов определения характеристик и отбора эмбрионов
Способы мультиплексной ПЦР согласно настоящему изобретению могут использоваться для улучшения отбора эмбрионов для оплодотворения in vitro за счет обеспечения анализа тысяч целевых локусов за один прием (см., например, публикацию США №2011/0092763, которая была подана 27 мая 2008 г., 22 декабря 2011 г., полностью включенную в настоящий документ посредством ссылки). Например, указанный способ мультиплексной ПЦР может обеспечивать анализ тысяч полиморфных локусов (таких как SNP) для применения в алгоритме PARENTAL SUPPORT, описанном в настоящем документе, для отбора эмбриона из набора эмбрионов для оплодотворения in vitro.
Согласно некоторым вариантам осуществления в настоящем изобретении предложены способы установления относительных вероятностей того, что каждый эмбрион из группы эмбрионов будет развиваться желаемым образом. Согласно некоторым вариантам осуществления указанный способ включает приведение в контакт образца от каждого эмбриона с библиотекой праймеров, которые одновременно гибридизуются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов, в результате чего получают реакционную смесь для каждого эмбриона, при это каждый из указанных образцов получен из одной или нескольких клеток эмбриона. Согласно некоторым вариантам осуществления каждую реакционную смесь подвергают воздействию условий реакции удлинения праймеров, в результате чего получают продукты амплификации. Согласно некоторым вариантам осуществления указанный способ включает определение на компьютере одной или несколько характеристик по меньшей мере одной клетки из каждого эмбриона на основе амплифицированных продуктов; и установление на компьютере относительных вероятностей того, что каждый эмбрион будет развиваться желаемым образом, на основании указанной одной или нескольких характеристик указанной по меньшей мере одной клетки для каждого эмбриона. Согласно некоторым вариантам осуществления указанный способ включает применение способа на основе информатики для определения по меньшей мере одной характеристики, такого как алгоритм PARENTAL SUPPORT, описанный в настоящем документе. Согласно некоторым вариантам осуществления указанная характеристика включает состояние плоидности. Согласно некоторым вариантам осуществления указанная характеристика выбрана из группы, состоящей из анеуплоидности, эуплоидности, мозаицизма, нуллисомии, моносомии, однородительской дисомии, трисомии, тетрасомии, вида анеуплоидии, трисомии ошибки несовпадающих копий, трисомии ошибки совпадающих копий, анеуплоидии материнского происхождения, анеуплоидии отцовского происхождения, присутствия или отсутствия связанного с заболеванием гена, хромосомной идентичности любой анеуплоидной хромосомы, анормального генетического состояния, делеции или дупликации, вероятности характеристики и их комбинаций. Указанная характеристика может быть связана с хромосомой, взятой из группы, состоящей из хромосомы 1, хромосомы 2, хромосомы 3, хромосомы 4, хромосомы 5, хромосомы 6, хромосомы 7, хромосомы 8, хромосомы 9, хромосомы 10, хромосомы 1, хромосомы 12, хромосомы 13, хромосомы 14, хромосомы 15, хромосомы 16, хромосомы 17, хромосомы 18, хромосомы 19, хромосомы 20, хромосомы 21, хромосомы 22, Х-хромосомы или Y-хромосомы и их комбинаций. Примеры способов пренатальной диагностики
Способы мультиплексной ПЦР согласно настоящему изобретению могут использоваться для улучшения способов пренатальной диагностики, таких как определение статуса плоидности плодных хромосом. С учетом значительного числа целевых локусов, которые могут быть амплифицированы одновременно, возможны более точные определения.
Согласно варианту осуществления в настоящем описании раскрыты способы ex vivo определения статуса плоидности хромосомы у вынашиваемого плода по генотипическим данным, измеренным в смешанном образце ДНК (т.е. ДНК от матери плода и ДНК от плода) и необязательно по генотипическим данным измеренным в образце генетического материала матери и также, возможно, отца, при это указанное определение выполняют с применением модели совместного распределения для создания набора ожидаемых аллельных распределений для разных возможных состояний плоидности плода с учетом родительских генотипических данных, и сравнение ожидаемых аллельных распределений с фактическими аллельными распределениями, измеренными в смешанном образце, и выбор состояния плоидности, для которого ожидаемый паттерн аллельного распределения наиболее точно соответствует наблюдаемому паттерну аллельного распределения. Согласно варианту осуществления указанный смешанный образец получен из материнской крови, или материнской сыворотки или плазмы. Согласно варианту осуществления указанный смешанный образец ДНК может быть преимущественно обогащен по целевым локусам (например, множеству полиморфных локусов). Согласно варианту осуществления указанное преимущественное обогащение выполняют таким способом, чтобы минимизировать смещение числа аллелей. Согласно варианту осуществления настоящее описание относится к содержащей ДНК композиции, которая была преимущественно обогащена по множеству локусов таким образом, что смещение числа аллелей незначительна. Согласно варианту осуществления аллельное(ые) распределение(я) измеряют посредством секвенирования ДНК из смешанного образца. Согласно варианту осуществления модель совместного распределения предполагает, что аллели распределяются в соответствии с биномиальным распределением. Согласно варианту осуществления получают набор ожидаемых совокупных аллельных распределений для генетически связанных локусов с учетом существующих частот рекомбинации из разных источников, например, с применением данных международного консорциума НарМар.
Согласно варианту осуществления в настоящем описании предложены способы неинвазивной пренатальной диагностики (NPD), в частности, определения статуса анеуплоидии плода, посредством рассмотрения измерений аллелей во множестве полиморфных локусов в генотипических данных, измеренных для смесей ДНК, при этом определенные измерения аллелей указывают на анеуплоидный плод, тогда как другие измерения аллелей указывают на эуплоидный плод. Согласно варианту осуществления генотипические данные измеряют посредством секвенирования смесей ДНК, полученных из материнской плазмы. Согласно варианту осуществления образец ДНК может быть преимущественно обогащен молекулами ДНК, которые соответствуют множеству локусов, для которых рассчитывают аллельные распределения. Согласно варианту осуществления измеряют образец ДНК, содержащий исключительно или почти исключительно генетический материал матери, и, возможно, также образец ДНК, содержащий исключительно или почти исключительно генетический материал от отца. Согласно варианту осуществления генетические измерения для одного или обоих родителей наряду с оценкой доли плода применяют для создания множества ожидаемых аллельных распределений, соответствующих разным возможным исходным генетическим статусам указанного плода; ожидаемые аллельные распределения могут быть названы гипотезами. Согласно варианту осуществления генетические данные матери не определяют путем измерения генетического материала, который является исключительно или почти исключительно материнскую по своей природе, а устанавливают по генетическим измерениям, выполняемым на материнской плазме, которая содержит смесь материнской и плодной ДНК. Согласно некоторым вариантам осуществления гипотезы могут включать плоидность указанного плода по одной или нескольким хромосомам, информацию о том, от каких родителей были унаследованы какие сегменты каких хромосом плода, и комбинации перечисленного. Согласно некоторым вариантам осуществления состояние плоидности указанного плода определяют путем сравнения наблюдаемых измерений аллелей с другими гипотезами, при этом по меньшей мере некоторые из указанных гипотез соответствуют разным состояниям плоидности, и отбора состояния плоидности, которое соответствует гипотезе, наиболее вероятно истинной с учетом наблюдаемых измерений аллелей. Согласно варианту осуществления указанный способ включает применение данных измерений аллелей для одного или всех измеренных SNP, независимо от того, гомозиготны или гетерозиготны указанные локусы, и таким образом не предполагает использование аллелей в локусах, которые только гетерозиготны. Указанный способ может не подходить для ситуаций, когда генетические данные относятся только к одному полиморфному локусу. Указанный способ целесообразен, в частности, если генетические данные содержат данные для более чем десяти полиморфных локусов на целевую хромосому, или более чем 20 полиморфных локусов. Указанный способ целесообразен, в частности, если генетические данные содержат данные для более чем 50 полиморфных локусов на целевую хромосому, более чем 100 полиморфных локусов или более чем 200 полиморфных локусов на целевую хромосому. Согласно некоторым вариантам осуществления генетические данные могут содержать данные для более чем 500 полиморфных локусов на целевую хромосому, более чем 1000 полиморфных локусов, более чем 2000 полиморфных локусов, или более чем 5000 полиморфных локусов на целевую хромосому.
Согласно варианту осуществления раскрытый в настоящем документе способ обеспечивает количественную меру числа независимых наблюдений каждого аллеля в полиморфном локусе. Это отличается от большинства способов, таких как микроматрицы или качественная ПЦР, которые обеспечивают информацию об отношении двух аллелей, но не определяют количество независимых наблюдений каждого аллеля. В способах, которые обеспечивают количественную информацию относительно числа независимых наблюдений, в вычислениях плоидности используется только отношение, при этом сама по себе количественная информация для использования не подходит. Чтобы проиллюстрировать важность сохранения информации о числе независимых наблюдений, рассмотрим модельный локус с двумя аллелями, А и В. В первом эксперименте наблюдаются двадцать аллелей А и двадцать аллелей В, во втором эксперименте наблюдаются 200 аллелей А и 200 аллелей В. В обоих экспериментах отношение (А/(А+В)) равняется 0,5, однако второй эксперимент предоставляет больше информации об определении частоты аллеля А или В, чем первый. Некоторые описанные другими авторами способы включают усреднение или суммирование аллельных отношений (канальных отношений) (т.е. хi/уi) по индивидуальному аллелю и анализ указанного отношения, либо путем сравнения его с эталонной хромосомой, либо с применением с использованием принципа относительно ожидаемого поведения этого отношения в конкретных ситуациях. Взвешивание аллелей не предусмотрено в способах, предполагающих, что можно обеспечить приблизительно одинаковое количество продукта ПЦР для каждого аллеля, и что все аллели должны вести себя одинаковым образом. Такой способ обладает рядом недостатков, и, что более важно, исключает применение ряда улучшений, описанных в настоящем раскрытии.
Согласно варианту осуществления раскрытый в настоящем документе способ явным образом моделирует распределения частоты аллелей, ожидаемые при дисомии, а также множество распределений частоты аллелей, которые могут ожидаться в случаях трисомии, возникающей в результате нерасхождения в ходе мейоза I, нерасхождения в ходе мейоза II и/или нерасхождения в ходе митоза на ранних стадиях развития плода. Чтобы проиллюстрировать важность этого, представим случай отсутствия кроссинговеров: нерасхождение в ходе мейоза I приводит к трисомии, при которой два разных гомолога унаследованы от одного родителя; наоборот, нерасхождение в ходе мейоза II или в ходе раннего митоза в развитии плода дает в результате две копии одного и того же гомолога от одного родителя. Каждый сценарий приведет в результате к различным ожидаемым частотам аллелей в каждом полиморфном локусе, а также во всех совместно рассматриваемых локусах из-за генетического сцепления. Кроссинговеры, которые приводят к обмену генетическим материалом между гомологами, делают паттерн наследования более сложным; согласно варианту осуществления способ в соответствии с настоящим изобретением предусматривает для этого использование информации о степени рекомбинации, помимо физического расстояния между локусами. Согласно варианту осуществления для обеспечения лучшего различения нерасхождения при мейозе I и нерасхождения при мейозе II или митотического нерасхождения, способ в соответствии с настоящим изобретением предусматривает включение в модель повышения вероятности кроссинговера по мере увеличения расстояния от центромеры. Нерасхождение в мейозе II и митотическое нерасхождение можно отличить за счет того, что митотические нерасхождение, как правило, приводит к возникновению идентичных или почти идентичных копий одного гомолога, тогда как два гомолога, образующихся после нерасхождения в мейозе II, часто различаются из-за одного или нескольких кроссинговеров в ходе гаметогенеза.
Согласно некоторым вариантам осуществления раскрытый в настоящем документе способ включает сравнение наблюдаемых измерений аллелей с теоретической гипотезой, соответствующей возможной генетической анеуплоидии плода, и не включает этап количественного определения отношения аллелей в гетерозиготном локусе. Если число локусов ниже, чем приблизительно 20, определение плоидности, выполненное с применением способа, включающего количественное определение отношения аллелей в гетерозиготном локусе, и определение плоидности, выполненное с применением способа, включающего сравнение наблюдаемых измерений аллелей с теоретическими гипотезами аллельного распределения, соответствующими возможным генетическим статусам плода, может дать аналогичный результат. Однако если число локусов превышает 50, указанные два способа, вероятно, дадут существенно различающиеся результаты; если число локусов превышает 400, превышает 1000 или превышает 2000, указанные два способа с высокой вероятностью дадут результаты, характеризующиеся возрастающими существенными различиями. Указанные различия обусловлены тем, что способ, который включает количественное определение отношения аллелей в гетерозиготном локусе без независимого измерения плотности каждого аллеля и суммирования или усреднения отношений, исключает применение методик, включающих применение модели совместного распределения, проведение анализа сцепления, применение модели биномиального распределения и/или других усовершенствованных статистических методов, тогда как при применении способа, включающего сравнение наблюдаемых измерений аллелей с теоретическими гипотезами аллельного распределения, соответствующими возможным генетическим статусам плода, могут быть задействованы указанные техники, способные существенно повысить точность определения.
Согласно варианту осуществления раскрытый в настоящем документе способ включает определение того, свидетельствует ли распределение наблюдаемых измерений аллелей об эуплоидии или анеуплоидии плода, с применением модели совместного распределения. Применение модели совместного распределения представляет отличие и значительное улучшение от способов, которые определяют степени гетерозиготности путем обработки полиморфных локусов независимо, заключающееся в том, что полученные определения отличаются существенно более высокой точностью. Без связи с какой-либо конкретной теорией считается, что одна из причин более высокой точности заключается в том, что модель совместного распределения учитывает сцепление между SNP и вероятность кроссинговеров, которые происходят в ходе мейоза, дающего начало гаметам, формирующим эмбрион, который развивается в плод. Целью использования концепции сцепления при создании ожидаемого распределения измерений аллелей для одной или нескольких гипотез является получение ожидаемых распределений измерений аллелей, которые соответствуют действительности в значительно больше степени, чем без использования сцепления. Например, представим, что имеется два SNP, 1 и 2, расположенные рядом друг с другом, и мать характеризуется как «А» по SNP 1 и «А» по SNP 2 в гомологе 1, а также как «В» по SNP 1 и «В» по SNP 2 в гомологе 2. Если отец характеризуется как «А» по обоим SNP в обоих гомологах, и В измеряется для плодного SNP 1, это показывает, что гомолог 2 был унаследован плодом, и поэтому существует намного более высокая вероятность того, что В присутствует у плода в SNP 2. Модель, учитывающая сцепление, будет это предсказывать, а не учитывающая сцепление модель - нет. Как вариант, если мать представляет собой АВ в SNP 1 и АВ в расположенном рядом SNP 2, могут быть использованы две гипотезы, соответствующие материнской трисомии в этой локализации: одна предусматривает ошибку совпадающих копий (нерасхождение в мейозе II или митозе на ранней стадии развития плода), а другая предусматривает ошибку несовпадающих копий (нерасхождение в мейозе I). В случае трисомии с ошибкой совпадающих копий, если плод унаследовал плод АА от матери в SNP 1, указанный плод со значительно большей вероятностью унаследует либо АА, либо ВВ от матери в SNP 2, но не АВ. В случае ошибки несовпадающих копий плод унаследует АВ от матери по обоим SNP. Гипотезы аллельного распределения, полученные способом установления плоидности, учитывающим сцепление, могут обеспечить такие прогнозы, и таким образом соответствуют фактическим аллельным измерениям в значительно более высокой степени, чем при способе установления плоидности без учета сцепления. Отметим, что подход с учетом сцепления невозможен при использовании способа, основанного на вычислении аллельных отношений и объединении указанных аллельных отношений.
Считается, что одна из причин того, что определения плоидности с использованием способа, включающего сравнение наблюдаемых измерений аллелей с теоретическими гипотезами, соответствующими возможным генетическим статусам плода, обладают более высокой точностью, заключается в том, что при использовании секвенирования для измерения аллелей, указанный способ способен собрать больше информации из данных от аллелей, если общее число считываний невелико, чем другие способы; например, способ, основанный на вычислении и объединении аллельных отношений будет давать непропорционально взвешенный стохастический шум. Например, представим ситуацию, включающую измерение аллелей с применением секвенирования, и при этом имеется набор локусов, в котором выявлено только 5 считываний последовательностей для каждого локуса. Согласно варианту осуществления для каждого из указанных аллелей данные можно сравнивать с гипотетическим аллельным распределением и присваивать вес в соответствии с числом считываний последовательностей; таким образом данные указанных измерений будут надлежащим образом взвешены и включены в общее определение. В этом заключается отличие от способа, который предусматривает количественное определение отношения аллелей в гетерозиготном локусе, поскольку указанный способ позволяет рассчитать только отношения 0%, 20%, 40%, 60%, 80% или 100% как возможные аллельные отношения; ни одно из них не может быть близким к ожидаемым аллельным отношениям. В последнем случае вычисленные аллельные отношения должны быть либо отброшены из-за недостаточных считываний, либо они будут характеризоваться непропорциональным взвешиванием и внесением стохастического шума в определение, что снизит точность определения. Согласно варианту осуществления измерения отдельных аллелей могут быть обработаны как независимые измерения, при этом взаимосвязь между измерениями, выполненными в аллелях одного и того же локуса, не отличается от взаимосвязи между измерениями, выполненными в аллелях разных локусов.
Согласно варианту осуществления раскрытый в настоящем документе способ (названный способом RC) включает определение того, указывает ли распределение наблюдаемых измерений аллелей на эуплоидию или анеуплоидию плода, без сравнения каких-либо метрик с наблюдаемыми аллельными измерениями на эталонной хромосоме, которая, как ожидается, является дисомной. Это является значительным улучшением по сравнению с такими способами, как способы с использованием секвенирования «методом дробовика», которые выявляют анеуплоидию путем оценки пропорции случайно секвенированных фрагментов из рассматриваемых хромосом относительно одной или нескольких предполагаемых дисомных эталонных хромосом. Указанный способ RC дает некорректные результаты, если предполагаемая дисомная эталонная хромосома фактически не является дисомной. Это может происходить в случаях, если анеуплоидия является более существенной, чем трисомия одной хромосомы, или если плод является триплоидным, и все аутосомы являются трисомными. В случае триплоидного (69, XXX) плода женского пола дисомные хромосомы фактически вообще отсутствуют. Описанный в настоящем документе способ не требует эталонной хромосомы и может корректно идентифицировать трисомные хромосомы в случае триплоидного плода женского пола. Модель совместного распределения может быть адаптирована для каждой хромосомы, гипотезы, доли ребенка и уровня шума, в отсутствие чего-либо из: данных эталонной хромосомы, оценки общей доли ребенка или заданной эталонной гипотезы.
Согласно варианту осуществления раскрытый в настоящем документе способ демонстрирует, как наблюдение распределений аллелей в полиморфных локусах может быть использовано для определения состояния плоидности плода с большей точностью, чем в известных в данной области техники способах. Согласно варианту осуществления в указанном способе применяется целевое секвенирование для получения смешанных материнского/плодного генотипов и необязательно генотипов матери и/или отца по множеству SNP с установлением сначала различных ожидаемых распределений частоты аллелей при различных гипотезах, последующим наблюдением количественной информации об аллелях, полученной в материнской/плодной смеси, и оценкой того, какая гипотеза лучше всего подходит к этим данным; при этом генетический статус, соответствующий гипотезе с лучшим соответствием данным, называется корректным генетическим статусом. Согласно варианту осуществления в раскрытом в настоящем документе способе также используется степень соответствия для установления достоверности того, что определенный генетический статус является корректным генетическим статусом. Согласно варианту осуществления раскрытый в настоящем документе способ включает применение алгоритмов анализа распределения аллелей, присутствующих в локусах, которые имеют разные родительские контексты, и сравнение наблюдаемых аллельных распределений с ожидаемыми аллельными распределениями для разных состояний плоидности при разных родительских контекстах (разных паттернах родительских генотипов). В этом заключается отличие и улучшение относительно способов, в которых не применяются методы, позволяющие оценить число независимых случаев присутствия каждого аллеля в каждом локусе в смешанном материнском/плодном образце. Согласно варианту осуществления раскрытый в настоящем документе способ включает определение того, свидетельствует ли распределение наблюдаемых измерений аллелей об эуплоидии или анеуплоидии плода, с использованием наблюдаемых аллельных распределений, измеренных в локусах, где мать гетерозиготна. В этом заключается отличие и улучшение относительно способов, в которых не применяются наблюдаемые аллельные распределения в локусах, по которым мать является гетерозиготной, поскольку в тех случаях, когда ДНК преимущественно не обогащена или преимущественно обогащена локусами, которые не являются высокоинформативными для указанного конкретного целевого индивидуума согласно имеющимся сведениям, это позволяет применять приблизительно в два раза больше данных генетических измерений из набора данных последовательностей при определении плоидности, что приводит к большей точности определения.
Согласно варианту осуществления в раскрытом в настоящем документе способе применяется модель совместного распределения, которая предполагает, что аллельные частоты в каждом локусе являются полиномиальными (и, соответственно, биномиальными, если SNP биаллельны) по своей природе. Согласно некоторым вариантам осуществления модель совместного распределения использует бета-биномиальные распределения. Если применение техники измерения, такой как секвенирование, обеспечивает количественную меру для каждого аллеля, присутствующего в каждом локусе, биномиальная модель может быть использована для каждого локуса и степени исходных частот аллелей, и достоверность этой частоты может быть проверена. С помощью известных в данной области техники способов получения признаков плоидности по аллельным отношениям или способов, в которых не учитывается количественная информация для аллелей, наблюдаемое отношение не может быть установлено с уверенностью. Предложенный в настоящем описании способ включает отличие и улучшение по сравнению со способами расчета аллельных отношений и объединения указанных отношений для получения признака плоидности, поскольку любой способ, который включает вычисление аллельного отношения в конкретном локусе с последующим объединение указанных отношений, обязательно предполагает, что измеренные интенсивности или подсчеты, указывающие на количество ДНК от любого заданного аллеля или локуса, будут распределяться по Гауссу. Раскрытый в настоящем документе способ не включает вычисление аллельных отношений. Согласно некоторым вариантам осуществления раскрытый в настоящем документе способ может предусматривать включение в модель числа наблюдений каждого аллеля во множестве локусов. Согласно некоторым вариантам осуществления раскрытый в настоящем документе способ может включать вычисление собственно ожидаемых распределений, позволяя применение модели совместного биномиального распределения, которая может быть более точной, чем любая модель, предполагающая распределение измерений аллелей по Гауссу. Вероятность того, что модель биномиального распределения будет существенно более точной, чем распределение по Гауссу, увеличивается по мере возрастания числа локусов. Например, если исследуется менее 20 локусов, вероятность того, что модель биномиального распределения будет подходить значительно лучше, невелика. Однако при применении более чем 100, или, в частности, более чем 400, или, в частности, более чем 1000, или, в частности, более чем 2000 локусов модель биномиального распределения с очень высокой вероятностью будет существенно более точной, чем модель распределения по Гауссу, обеспечивая, таким образом, более точное определение плоидности. Вероятность того, что модель биномиального распределения будет существенно более точной, чем распределение по Гауссу, также повышается с повышением числа наблюдений в каждом локусе. Например, при наблюдении менее 10 отдельных последовательностей в каждом локусе вероятность того, что модель биномиального распределения будет подходить существенно лучше, невелика. Однако, если для каждого локуса используется более 50 считываний последовательности, или, в частности, более чем 100 считываний последовательности, или, в частности, более чем 200 считываний последовательности, или, в частности, более чем 300 считываний последовательности, модель биномиального распределения с очень высокой вероятностью будет существенно более точной, чем модель распределения по Гауссу, обеспечивая, таким образом, более точное определение плоидности.
Согласно варианту осуществления раскрытый в настоящем документе способ включает секвенирование для измерения числа случаев каждого аллеля в каждом локусе в образце ДНК. Каждая считанная последовательность может быть картирована с конкретным локусом и обработан как бинарная считанная последовательность; как вариант, в считанную последовательность может быть включена вероятность идентичности считанной последовательности и/или картирования, что дает вероятностную считанную последовательность, то есть вероятное целое или дробное число считанных последовательностей, которые картируются с заданными локусами. Применение бинарных подсчетов или вероятностных подсчетов позволяет использовать биномиальное распределение для каждого набора измерений, что обеспечивает расчет доверительного интервала по числу подсчетов. Такая возможность применения биномиального распределения позволяет получить более точные оценки плоидности и более точные доверительные интервалы. В этом заключается улучшение и отличие относительно способов, в которых используются интенсивности для измерения количества присутствующего аллеля, например, способов, в которых используются микроматрицы, или способов, в которых осуществляются измерения с использованием устройств для считывания флуоресценции для измерения интенсивности флуоресцентно меченой ДНК в электрофорезных полосах.
Согласно варианту осуществления в раскрытом в настоящем документе способе используются аспекты представленного набора данных для определения параметров оцениваемого распределения частот аллелей для указанного набора данных. В этом заключается улучшение по сравнению со способами, в которых используется обучающий набор данных или предварительные наборы данных для установления параметров настоящих ожидаемых распределений частот аллелей или возможных ожидаемых аллельных отношений. Это обусловлено тем, что существуют разные наборы условий, связанные с отбором и измерением каждого генетического образца, и, соответственно, способ, где используются данные из текущего набора данных для определения параметров модели совместного распределения, которая будет использована при определении плоидности для данного образца, будет характеризоваться тенденцией к большей точности.
Согласно варианту осуществления раскрытый в настоящем документе способ включает определение того, свидетельствует ли распределение наблюдаемых аллельных измерений об эуплоидии или анеуплоидии плода, с применением методики максимального правдоподобия. В применении методики максимального правдоподобия заключается существенное улучшение и отличие по сравнению со способами, где используется методика отклонения простой гипотезы, поскольку итоговые определения выполняются со значительно более высокой точностью. Одной из причин является то, что методики отклонения простой гипотезы устанавливают пороги отсечения на основе только одного распределения измерений, а не двух, а это означает, что указанные пороги, как правило, не являются оптимальными. Другой причиной является то, что методика максимального правдоподобия обеспечивает оптимизацию порога отсечения для каждого отдельного образца вместо определения порога отсечения, подлежащего использованию для всех образцов независимо от конкретных характеристик каждого отдельного образца. Другая причина заключается в том, что применение методики максимального правдоподобия позволяет производить расчет достоверности для каждого признака плоидности. Возможность осуществления расчета достоверности для каждого признака позволяет практикующему специалисту выяснить, какие признаки являются точными, а какие с большей вероятностью являются ошибочными. Согласно некоторым вариантам осуществления с методикой оценки максимального правдоподобия могут быть скомбинированы разнообразные способы увеличения точности признаков плоидности. Согласно варианту осуществления методика оценки максимального правдоподобия может использоваться в комбинации со способом, описанным в патенте США №7888017. Согласно варианту осуществления методика оценки максимального правдоподобия может использоваться в комбинации со способом применения целевой ПЦР-амплификации для амплификации ДНК в смешанном образце с последующим секвенированием и анализом с применением способа подсчета числа считываний, например, используемого TANDEM DIAGNOSTICS, который был представлен на Международном конгрессе генетики человека - 2011 (International Congress of Human Genetics 2011) в Монреале в октябре 2011 г. Согласно варианту осуществления раскрытый в настоящем документе способ включает оценку доли плода ДНК в смешанном образце и использование указанной оценки для расчета как признака плоидности, так и достоверности признака плоидности. Отметим, что в этом заключается несходство и отличие от способов, где используется оценка доли плода в качестве скрининга достаточной доли плода, с последующим получением признака плоидности с помощью методики отклонения простой гипотезы, которая не учитывает долю плода, а также не позволяет рассчитать достоверность признака.
Согласно варианту осуществления раскрытый в настоящем документе способ учитывает тенденцию данных к появлению шума и ошибок, путем включения вероятности в каждое измерение. Применение методик оценки максимального правдоподобия для выбора корректной гипотезы из множества гипотез, которые были получены с использованием данных измерения с включенными оценками вероятности, повышает вероятность того, что некорректные измерения будут игнорироваться, а корректные измерения будут использоваться при расчетах, что приведет к получению признака плоидности. Точнее говоря, указанный способ систематически снижает влияние данных, измеренных некорректно, на определение плоидности. В этом заключается улучшение по сравнению со способами, где все данные считаются одинаково корректным, и или способами, где выбивающиеся данные произвольно исключают из расчетов для определения признака плоидности. Существующие способы, использующие измерения канальных отношений, как заявлено, могут быть расширены для множества SNP за счет усреднения канальных отношений индивидуальных SNP. Отсутствие взвешивания индивидуальных SNP по ожидаемой дисперсии измерений на основании качества SNP и наблюдаемой глубины секвенирования снижает точность итоговых статистических данных, что приводит к существенному снижению точности определения признака плоидности, в частности, в спорных случаях.
Согласно варианту осуществления раскрытый в настоящем документе способ не предполагает знание того, какие SNP или другие полиморфные локусы у плода гетерозиготны. Указанный способ позволяет получить признак плоидности в тех случаях, когда отцовская генотипическая информация недоступна. В этом заключается улучшение по сравнению со способами, где заранее требуется информация о том, какие SNP гетерозиготны, для надлежащего отбора целевых локусов, или для интерпретации генетических измерений, проведенных на образце смешанной плодной/материнской ДНК.
Применение описанных в настоящем документе способов, в частности, целесообразно для таких образцов, где доступно небольшое количество ДНК или невысок процент плодной ДНК. Это обусловлено соответствующей более высокой частотой выпадения аллелей в случаях, когда доступно только небольшое количество ДНК и/или соответствующей более высокой частоту выпадения аллеля плода, когда процент плодной ДНК в смешанном образце плодной и материнской ДНК невысок. Высокая частота выпадения аллеля, означающая, что значительный процент аллелей у целевого индивидуума не был измерен, приводит к недостаточно точным расчетам долей плода и недостаточно точному определению плоидности. Поскольку в раскрытых в настоящем документе способах может использоваться модель совместного распределения, которая учитывает сцепления в паттернах наследования между SNP, могут быть выполнены существенно более точные определения плоидности. Описанные в настоящем документе способы позволяют проводить точное определение плоидности при наличии в смеси менее чем 40%, менее чем 30%, менее чем 20%, менее чем 10%, менее чем 8% и даже менее чем 6% молекул плодной ДНК.
Согласно варианту осуществления возможно определение состояния плоидности индивидуума на основе измерений, если ДНК этого индивидуума смешана с ДНК родственного индивидуума. Согласно варианту осуществления указанная смесь ДНК представляет собой свободноплавающую ДНК, присутствующую в материнской плазме, которая может включать ДНК от матери с известным кариотипом и известным генотипом, и которая может быть смешана с ДНК плода, с неизвестным кариотипом и неизвестным генотипом. Возможно использование известной генотипической информации от одного или обоих родителей для предсказания множества потенциальных генетических статусов ДНК в смешанном образце для разных состояний плоидности, разных хромосомных вкладов от каждого из родителей у плода, и, необязательно, разных долей плодной ДНК в указанной смеси. Каждый потенциальный состав может быть назван гипотезой. Затем может быть определено состояние плоидности указанного плода путем рассмотрения фактических измерений и определения того, какие из потенциальных составов являются наиболее вероятными с учетом наблюдаемых данных.
Вышеуказанные пункты дополнительно обсуждаются в различных разделах настоящего документа.
Неинвазивная пренатальная диагностика (NPD)
Способ неинвазивной пренатальной диагностики включает ряд этапов. Некоторые из этапов могут включать: (1) получение генетического материала от плода; (2) обогащение генетического материала указанного плода, который может присутствовать в смешанном образце, ex vivo; (3) амплификация генетического материала, ex vivo; (4) преимущественное обогащение конкретными локусами генетического материала, ex vivo; (5) измерение генетического материала, ex vivo; и (6) анализ генотипических данных на компьютере и ех vivo. Способы осуществления указанных шести и других релевантных этапов описаны в настоящем документе. По меньшей мере некоторые из этапов способа не проводятся непосредственно на организме. Согласно варианту осуществления раскрытое в настоящем описании изобретение относится к способам лечения и диагностики, применяемым для тканей и других биологических материалов, извлеченных и отделенных от организма. По меньшей мере некоторые из этапов способа реализуются на компьютере.
Некоторые варианты осуществления изобретения согласно настоящему раскрытию позволяют клиническому специалисту определить генетический статус плода, вынашиваемого матерью, неинвазивным образом, так что отсутствует риск для здоровья ребенка, обусловленный отбором генетического материала плода, и не требуется подвергать мать инвазивной процедуре. Кроме того, согласно определенным аспектам раскрываемое изобретение позволяет определять генетический статус плода с высокой точностью, существенно большей, чем, например, точность неинвазивного скрининга на основе анализа компонентов материнской сыворотки, например, тройного теста, широко используемого в пренатальной практике.
Высокая точность описанных в настоящем документе способов является результатом применения описанного в настоящем документе способа анализа генотипических данных на основе информатики. Современные технологические достижения обеспечили возможность измерения больших количеств генетической информации в генетическом образце с использованием таких способов, как высокопроизводительное секвенирование и матрицы генотипирования. Раскрытые в настоящем документе способы позволяют клиническому специалисту в большей степени использовать преимущества больших количеств данных и осуществлять более точную диагностику генетического статуса плода. Подробные описания некоторых вариантов осуществления приведены ниже. Различные варианты осуществления могут включать разные комбинации вышеупомянутых этапов. Различные комбинации разных вариантов осуществления разных этапов могут быть использованы взаимозаменяемо.
Согласно варианту осуществления у беременной матери берут образец крови, и свободноплавающая ДНК в плазме крови матери, которая содержит смесь ДНК материнского происхождения и ДНК плодного происхождения, выделяют и используют для определения статуса плоидности плода. Согласно варианту осуществления раскрытый в настоящем документе способ включает преимущественное обогащение последовательностей ДНК в смеси ДНК, которые соответствуют полиморфным аллелям таким образом, что аллельные отношения и/или аллельные распределения остаются в основном постоянными после обогащения. Согласно варианту осуществления раскрытый в настоящем документе способ включает высокоэффективную целевую основанную на ПЦР амплификацию таким образом, что очень высокий процент полученных молекул соответствует целевым локусам. Согласно варианту осуществления раскрытый в настоящем документе способ включает секвенирование смеси ДНК, которая содержит и ДНК материнского происхождения, и ДНК плодного происхождения. Согласно варианту осуществления раскрытый в настоящем документе способ включает применение измеренных аллельных распределений для определения состояния плоидности плода, вынашиваемого матерью. Согласно варианту осуществления раскрытый в настоящем документе способ включает сообщение информации относительно определенного состояния плоидности клиническому специалисту. Согласно варианту осуществления раскрытый в настоящем документе способ включает осуществление клинического действия, например, проведение последующего инвазивного тестирования, такого как биопсия ворсин хориона или амниоцентез, подготовка к рождению ребенка с трисомией или добровольное прерывание беременности трисомным плодом.
Настоящая заявка ссылается на заявку на выдачу патента США на изобретение с серийным №11/603406, которая была подана 28 ноября 2006 г. (публикацию патентного документа США №20070184467); заявку на выдачу патента США на изобретение с серийным №12/076348, которая была подана 17 марта 2008 г. (публикацию патентного документа США №20080243398); заявку РСТ с серийным №PCT/US09/52730, которая была подана 4 августа 2009 г. (публикацию РСТ №WO/2010/017214); заявку РСТ с серийным №PCT/US10/050824, которая была подана 30 сентября 2010 г. (публикацию РСТ №WO/2011/041485), заявку на выдачу патента США на изобретение с серийным №13/110685, которая была подана 18 мая 2011 г., и заявку РСТ с серийным №РСТ/12/58578, которая была подана 3 октября 2012; каждый из указанных источников полностью включен в настоящий документ посредством ссылки. Некоторые термины, используемые в настоящей заявке, могут иметь предпосылки в этих ссылках. Некоторые из описанных в настоящем документе концепций могут быть более понятны в свете концепций, изложенных в указанных источниках.
Скрининг материнской крови, содержащей свободноплавающую плодную ДНК
Описанные в настоящем документе способы могут использоваться для содействия определению генотипа ребенка, плода или другого целевого индивидуума, если генетический материал цели обнаруживается в присутствии некоторого количества другого генетического материала. Согласно некоторым вариантам осуществления генотип может относиться к состоянию плоидности одной или множества хромосом, может относиться к одному или множеству связанных с заболеванием аллелей или какой-либо их комбинации. В настоящем описании обсуждение сфокусировано на определении генетического статуса плода в случаях, когда плодная ДНК обнаруживается в материнской крови, однако указанный пример не предназначен для ограничения возможных контекстов для возможного применения указанного способа. Кроме того, указанный способ может подходить для применения в тех случаях, когда количество целевой ДНК составляет любую долю от нецелевой ДНК; например, количество целевой ДНК может составлять любое значение в диапазоне от 0,000001 до 99,999999% от присутствующей ДНК. Кроме того, нецелевая ДНК не обязательно должна принадлежать одному индивидууму или не обязательно даже родственному индивидууму, при условии, что известны генетические данные некоторых или всех релевантных нецелевых индивидуумов. Согласно варианту осуществления раскрытый в настоящем документе способ может использоваться для определения генотипических данных плода по материнской крови, которая содержит плодную ДНК. Он может также использоваться в случае, когда в матке беременной женщины находится несколько плодов, или если в образце может присутствовать другая загрязняющая ДНК, например, от других уже рожденных сиблингов.
Указанная техника может использовать явление, заключающееся в попадании плодных клеток крови в материнский кровоток через ворсины плаценты. Как правило, в материнский кровоток таким путем попадает небольшое количество плодных клеток (недостаточное для получения позитивного результата теста Клейхауэра-Бетке на фетоматеринское кровосмешение). Плодные клетки могут быть отсортированы и проанализированы с помощью разнообразных техник для поиска конкретных последовательностей ДНК, при этом отсутствует риск, неизбежно связанный с инвазивными процедурами. Указанная техника может также использовать явление свободноплавающей плодной ДНК, поступающей в материнский кровоток благодаря высвобождению ДНК при апоптозе плацентарной ткани, если рассматриваемая плацентарная ткань содержит ДНК того же генотипа, что и плод. Было показано, что свободноплавающая ДНК, присутствующая в материнской плазме, содержит до 30-40% плодной ДНК.
Согласно варианту осуществления от беременной женщины может быть получена кровь. Исследования показали, что материнская кровь может содержать небольшое количество свободноплавающей ДНК плода, помимо свободноплавающей ДНК материнского происхождения. Кроме того, также могут присутствовать безъядерные плодные клетки крови, содержащие ДНК плодного происхождения, помимо многочисленных клеток крови материнского происхождения, которые, как правило, не содержат ядерную ДНК. Существует множество известных в данной области техники способов выделения плодной ДНК или создания фракций, обогащенных плодной ДНК. Например, было продемонстрировано получение с помощью хроматографии определенных фракций, которые обогащены плодной ДНК.
После того как образец материнской крови, плазмы или другой жидкости, взятый относительно неинвазивным способом и содержащий некоторое количество плодной ДНК, клеточной или свободноплавающей, обогащенной по плодной ДНК относительно материнской ДНК или содержащей исходные их пропорции, получен, ДНК, присутствующая в указанном образце, может быть генотипирована. Согласно некоторым вариантам осуществления кровь может забираться с использованием иглы для забора крови из вены, например, из подкожной медиальной вены руки. Описанный в настоящем документе способ может использоваться для определения генотипических данных плода. Например, он может использоваться для определения состояния плоидности по одной или нескольких хромосом, он может использоваться для определения идентичности одного или нескольких SNP, включая инсерций, делеции и транслокации. Он может использоваться для определения одного или нескольких гаплотипов, в том числе для определения того, от какого родителя происходят одна или несколько генотипических характеристик.
Отметим, что указанный способ будет работать с любыми нуклеиновыми кислотами, которые могут использоваться для любых способов генотипирования и/или секвенирования, таких как платформа INFINIUM ARRAY от ILLUMINA, GENECHIP от AFFYMETRIX, GENOME ANALYZER от ILLUMINA или SOLID SYSTEM от LIFE TECHNOLGIES. Сюда включены экстрагированная свободноплавающая ДНК из плазмы или продукты ее амплификации (например, путем полногеномной амплификации, ПЦР); геномная ДНК из других типов клеток (например, лимфоцитов человека из цельной крови) или продукты ее амплификации. Для подготовки ДНК подходит любой способ экстрагирования или очистки, позволяющий получить геномную ДНК, подходящую для одной из указанных платформ. Указанный способ будет работать с тем же успехом и на образцах РНК. Согласно варианту осуществления хранение образцов может осуществляться таким образом, чтобы минимизировать разложение (например, при температуре ниже температуры замерзания, приблизительно при -20 C, или при более низкой температуре). Parental Support
Некоторые варианты осуществления могут быть использованы в комбинации с методом PARENTAL SUPPORTтм (PS), варианты осуществления которого описаны в заявке на выдачу патента США №11/603406 (публикации патентного документа США №20070184467), заявке на выдачу патента США №12/076348 (публикации патентного документа США №20080243398), заявке на выдачу патента США №13/110685, заявке РСТ PCT/US09/52730 (публикации РСТ №WO/2010/017214) и заявке РСТ №PCT/US10/050824 (публикации РСТ №WO/2011/041485), которые полностью включены в настоящий документ посредством ссылки. PARENTAL SUPPORTтм представляет собой основанный на информатике метод, который может быть использован для анализа генетических данных. Согласно некоторым вариантам осуществления раскрытые в настоящем документе способы могут рассматриваться как часть метода PARENTAL SUPPORтм. Согласно некоторым вариантам осуществления метод PARENTAL SUPPORTтм представляет собой совокупность методов, которые могут быть использованы для определения генетических данных целевого индивидуума с высокой точностью, по одной клетке или небольшому количеству клеток указанного индивидуума, или по смеси ДНК, содержащей ДНК от целевого индивидуума и ДНК от одного или множества других индивидуумов, в частности, для определения связанных с заболеванием аллелей, других представляющих интерес аллелей и/или состояния плоидности одной или нескольких хромосом целевого индивидуума. PARENTAL SUPPORTтм может относиться к любому из этих способов. PARENTAL SUPPORTтм является примером основанного на информатике способа. Примеры вариантов осуществления способа PARENTAL SUPPORTтм проиллюстрированы фиг. 29-31G и описаны в эксперименте 19.
Метод PARENTAL SUPPORTтм позволяет использовать известные родительские генетические данные, т.е. генетические данные гаплотипа и/или диплоидности матери и/или отца, наряду с информацией о механизме мейоза и неполным измерением целевой ДНК, и, возможно, одного или нескольких родственных индивидуумов, вместе с популяционными частотами кроссинговера, для восстановления in silico генотипа на множестве аллелей и/или и/или состояния плоидности эмбриона, или любой целевой клетки(клеток) и целевой ДНК с локализацией ключевых локусов с высокой степенью достоверности. Метод PARENTAL SUPPORTтм позволяет реконструировать не только однонуклеотидные полиморфизмы (SNP), которые были измерены неудовлетворительно, но также инсерций и делеции, и SNP или целые области ДНК, которые вообще не были измерены. Кроме того, метод PARENTAL SUPPORTтм позволяет измерять множественные связанные с заболеванием локусы, а также проводить скрининг анеуплоидии по единичной клетке. Согласно некоторым вариантам осуществления метод PARENTAL SUPPORTтм может использоваться для характеристики одной или нескольких клеток эмбриона, биопсированных в ходе цикла IVF, для определения генетического состояния указанной одной или нескольких клеток.
Метод PARENTAL SUPPORTтм позволяет очистить генетические данные от шума. Это может быть реализовано путем определения корректных генных аллелей в целевом геноме (эмбрионе) с использованием генотипа родственных индивидуумов (родителей) в качестве эталона. В частности, применение PARENTAL SUPPORTтм может быть целесообразным, если доступно только небольшое количество генетического материала (например, PGD) и прямые измерения генотипов неизбежно искажаются из-за ограниченных количеств генетического материала. В частности, применение PARENTAL SUPPORTтм может быть целесообразным, если только небольшая доля доступного генетического материала происходит от целевого индивидуума (например, NPD), и при этом прямые измерения генотипов неизбежно искажаются из-за сигнала загрязняющей ДНК другого индивидуума. Метод PARENTAL SUPPORTтм позволяет реконструировать высокоточные упорядоченные последовательности диплоидных аллелей эмбриона вместе с числом копий сегментов хромосом, несмотря на то, что обычные неупорядоченные диплоидные измерения могут характеризоваться высокими степенями выпадений аллелей, ложных считываний, вариабельного смещения амплификации и других ошибок. Для метода могут использоваться и базовая генетическая модель, и базовая модель ошибок измерения. Генетическая модель может определять как вероятности аллелей на каждом SNP, так и вероятности кроссинговера между SNP. Вероятности аллелей могут быть смоделированы в каждом SNP на основе данных, полученных от родителей, и модели вероятностей кроссинговера между SNP на основе данных, полученных из базы данных НарМар, разработанной в рамках международного проекта НарМар. При наличии надлежащей базовой генетической модели и модели ошибок измерения может быть использована оценка апостериорного максимума (MAP) с модификациями для вычислительной эффективности, для получения корректных упорядоченных значений аллелей в каждом SNP эмбриона.
Вышеописанные техники в некоторых случаях позволяют определить генотип индивидуума при наличии очень небольшого количества ДНК, происходящей от указанного индивидуума. Это может быть ДНК из одной или небольшого количества клеток, или ДНК из небольшого количества плодной ДНК, присутствующей в материнской крови.
Гипотезы
В контексте указанного раскрытия гипотеза относится к возможному генетическому статусу. Она может относиться к возможному состоянию плоидности. Она может относиться к возможному аллельному состоянию. Множество гипотез может относиться к совокупности возможных генетических статусов, совокупности возможных аллельных состояний, совокупности возможных состояний плоидности, или их комбинациям. Согласно некоторым вариантам осуществления множество гипотез может быть создано таким образом, что одна гипотеза из указанного множества соответствует фактическому генетическому статусу любого заданного индивидуума. Согласно некоторым вариантам осуществления множество гипотез может быть создано таким образом, что каждый возможный генетический статус может быть описан по меньшей мере одного гипотезой из указанного множества. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, один из аспектов способа заключается в определении того, какая гипотеза соответствует фактическому генетическому статусу рассматриваемого индивидуума.
Согласно другому варианту осуществления раскрываемого изобретения один этап включает создание гипотезы. Согласно некоторым вариантам осуществления указанная гипотеза может представлять собой гипотезу числа копий. Согласно некоторым вариантам осуществления она может включать гипотезу относительно того, какие сегменты хромосомы каждого из родственных индивидуумов генетически соответствуют каким сегментам других родственных индивидуумов, если такое соответствие имеется. Создание гипотезы может относиться к установлению границ переменных таким образом, чтобы весь набор возможных рассматриваемых генетических статусов охватывался этими переменными.
«Гипотеза числа копий», также называемая «гипотезой плоидности» или «гипотезой состояния плоидности», может относиться к гипотезе относительно возможного состояния плоидности для копии определенной хромосомы, типа хромосомы или участка хромосомы у целевого индивидуума. Она может также относиться к состоянию плоидности более чем одного типа хромосом индивидуума. Множество гипотез числа копий может относиться к множеству гипотез, в котором каждая гипотеза соответствует отличному возможному состоянию плоидности индивидуума. Множество гипотез может относиться к совокупности возможных состояний плоидности, совокупности возможных вкладов родительских гаплотипов, а совокупности возможных процентных долей плодной ДНК в смешанном образце, или их комбинациям.
В норме у индивидуума имеется по одной хромосоме каждого типа от каждого из родителей. Однако из-за ошибок, происходящих при мейозе и митозе, у индивидуума может присутствовать 0, 1, 2 или более хромосом определенного типа от каждого из родителей. На практике редко встречается более двух определенных хромосом от одного из родителей. Во вариантах осуществления, раскрытых в настоящем описании, рассматривается только возможность гипотез, согласно которым от одного из родителей получены 0, 1 или 2 копии определенной хромосомы; для рассмотрения большего или меньшего возможного количества копий, происходящий от одного родителя, потребуется тривиальное расширение. Согласно некоторым вариантам осуществления для определенной хромосомы существует девять возможных гипотез: три возможные гипотезы, предполагающие наличие 0, 1 или 2 хромосом материнского происхождения, умноженные на три возможные гипотезы, предполагающие наличие 0, 1 или 2 хромосом отцовского происхождения. Пусть (m, f) относятся к гипотезе, где m - количество определенной хромосомы, унаследованное от матери, и f - количество определенной хромосомы, унаследованное от отца. Таким образом, указанные девять гипотез представлены следующими: (0,0), (0,1), (0,2), (1,0), (1,1), (1,2), (2,0), (2,1) и (2,2). Они могут быть также записаны как Н00, H01, Н02, Н10, Н12, Н20, H21 и Н22. Разные гипотезы соответствуют разным состояниям плоидности. Например, (1,1) относится к нормальной дисомной хромосоме; (2,1) относится к материнской трисомии и (0,1) относится к отцовской моносомии. Согласно некоторым вариантам осуществления случай, когда две хромосомы унаследованы от одного родителя и одна хромосома унаследована от другого родителя, могут дополнительно разбиваться на два варианта: первый, при котором указанные две хромосомы идентичны (ошибка совпадающих копий), и второй, при котором указанные две хромосомы гомологичны, но не идентичны (ошибка несовпадающих копий). Согласно указанным вариантам осуществления существует 16 возможных гипотез. Следует понимать, что могут быть использованы другие совокупности гипотез и другие количества гипотез.
Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, гипотеза плоидности относится к гипотезе относительно того, какая хромосома от других родственных индивидуумов соответствует хромосоме, присутствующей в геноме целевого индивидуума. Согласно некоторым вариантам осуществления в основе способа лежит тот факт, что родственные индивидуумы предположительно обладают общими блоками гаплотипа, и, используя измеренные генетические данные родственных индивидуумов в сочетании с информацией о том, какие блоки гаплотипа имеют соответствие между целевым индивидуумом и родственным индивидуумом, можно сделать заключение о корректности генетических данных для целевого индивидуума с большей достоверностью, чем при использовании исключительно генетических измерений целевого индивидуума. Таким образом, согласно некоторым вариантам осуществления гипотеза плоидности может относиться не только к числу хромосом, но и к тому, какие хромосомы у родственных индивидуумов идентичны или практически идентичны одной или нескольким хромосомам целевого индивидуума.
После того как определено множество гипотез, обработка входных генетических данных с помощью алгоритмов позволяет вывести определенную статистическую вероятность для каждой из рассматриваемых гипотез. Вероятности различных гипотез могут быть определены путем математического расчета, для каждой из различных гипотез, значения вероятности, согласно одной или нескольким экспертным методикам, алгоритмам и/или способам, описанным в других разделах настоящего документа, с использованием соответствующих генетических данных в качестве входных данных.
После проведения оценки вероятности различных гипотез согласно нескольким техникам, они могут быть скомбинированы. Это может означать, для каждой гипотезы, умножение вероятностей, определенных при помощи каждой из техник. Произведение вероятностей гипотез можно нормализовать. Отметим, что одна гипотеза плоидности относится к одному возможному состоянию плоидности для хромосомы.
Процесс «комбинирования вероятностей», также называемый « комбинированием гипотез» или комбинированием результатов применения экспертных техник, представляет собой концепцию, которая должна быть знакома специалистам в области линейной алгебры. Один из возможных способов комбинирования вероятностей заключается в следующем. При применении экспертной техники для оценки множества гипотез для заданного набора генетических данных, конечный продукт способа представляет собой набор вероятностей, связанных, взаимно однозначным образом, с каждой гипотезой указанного множества гипотез. При комбинировании набора вероятностей, определенных с помощью первой экспертной техники, каждая из которых связана с одной из гипотез набора, с набором вероятностей, определенных с помощью второй экспертной методики, каждая из которых связана с тем же самым набором гипотез, два указанных набора вероятностей перемножают. Это означает, что, для каждой гипотезы из множества, две вероятности, связанные с указанной гипотезой, определенные с применением двух два экспертных способов, перемножаются, и соответствующее произведение представляет собой итоговую вероятность. Указанный способ может быть распространен на любое количество экспертных техник. Если используется только одна экспертная техника, итоговые вероятности совпадают с входными вероятностями. Если используется более чем две экспертных техники, соответствующие вероятности могут перемножаться одновременно. Произведения могут быть нормализованы, чтобы сумма вероятностей гипотез во множестве гипотез составляла 100%.
Согласно некоторым вариантам осуществления, в том случае, если комбинированные вероятности для определенной гипотезы превышают комбинированные вероятности для любой другой гипотезы, может считаться, что указанная гипотеза определена как наиболее вероятная. Согласно некоторым вариантам осуществления гипотеза может быть определена как наиболее вероятная, и состояние плоидности или другой генетический статус может быть установлен, если нормализованная вероятность выше пороговой. Согласно варианту осуществления это может означать, что число и идентичность хромосом, которые связаны с этой гипотезой, могут быть установлены в качестве состояния плоидности. Согласно варианту осуществления, это может означать, что идентичность аллелей, связанная с указанной гипотеза, может быть установлена в качестве аллельного состояния. Согласно некоторым вариантам осуществления порог может находиться в диапазоне от приблизительно 50% до приблизительно 80%. Согласно некоторым вариантам осуществления порог может находиться в диапазоне от приблизительно 80% до приблизительно 90%. Согласно некоторым вариантам осуществления порог может находиться в диапазоне от приблизительно 90% до приблизительно 95%. Согласно некоторым вариантам осуществления порог может находиться в диапазоне от приблизительно 95% до приблизительно 99%. Согласно некоторым вариантам осуществления порог может находиться в диапазоне от приблизительно 99% до приблизительно 99,9%. Согласно некоторым вариантам осуществления пороговое значение может превышать приблизительно 99,9%.
Родительские контексты
«Родительский контекст» относится к генетическому статусу определенного аллеля на каждой из двух релевантных хромосом для одного или обоих родителей цели. Отметим, что, согласно варианту осуществления, родительский контекст не относится к аллельному состоянию указанной цели, а относится к аллельному состоянию родителей. Родительский контекст для определенного SNP может состоять из 4 пар оснований, двух отцовских и двух материнских; они могут быть одинаковыми или отличаться друг от друга. Он, как правило, записывается как «m1m2|f1f2,» где m1 и m2 представляют генетический статус определенного SNP на двух материнских хромосомах, и f1 и f2 представляют генетический статус определенного SNP на двух отцовских хромосомах. Согласно некоторым вариантам осуществления родительский контекст может быть записан как «f1f2|m1m2.». Отметим, что нижние индексы «1» и «2» относятся к генотипу в заданном аллеле первой и второй хромосом; также отметим, что выбор того, какую хромосому указать как «1», а какую как «2», может быть произвольным.
Отметим, что в настоящем описании А и В часто используются для общего представления идентичностей пар оснований; А или В могут в равной степени представлять С (цитозин), G (гуанин), А (аденин) или Т (тимин). Например, если в заданном основанном на SNP аллеле генотип матери содержит Т в указанном SNP на одной хромосоме и G в указанном SNP на гомологичной хромосоме, а генотип отца в указанном аллеле содержит G в указанном SNP в обеих гомологичных хромосомах, можно сказать, что аллель целевого индивидуума характеризуется родительским контекстом АВ|ВВ; также можно сказать, что аллель характеризуется родительским контекстом АВ|АА. Отметим, что, теоретически, любой из четырех возможных нуклеотидов может встречаться в заданном аллеле, и, соответственно, возможно, например, что мать имеет генотип AT, и отец имеет генотип GC в заданном аллеле. Однако, эмпирические данные указывают на то, что в большинстве случаев в заданном аллеле наблюдаются только две из четырех возможных пар оснований. Возможно, например, при использовании единичных тандемных повторов наличие более двух родительских, более четырех и даже более десяти контекстов. В настоящем раскрытии обсуждение предполагает, что в заданном аллеле будут наблюдаться только две возможные пары оснований, хотя раскрытые в настоящем документе варианты осуществления могут быть модифицированы с учетом тех случаев, когда эта гипотеза не принимается.
«Родительский контекст» может относиться к набору или подгруппе целевых SNP, которые характеризуются одинаковым родительским контекстом. Например, если нужно измерить 1000 аллелей на определенной хромосоме целевого индивидуума, то контекст АА|ВВ может относиться к набору всех аллелей в группе из 1000 аллелей, при этом генотип матери целевого индивидуума гомозиготен, и генотип отца указанной цели гомозиготен, но материнский генотип и отцовский генотип в этом локусе различны. Если родительские данные не фазированы, и, соответственно, АВ=ВА, тогда существует девять возможных родительских контекстов: АА|АА, АА|АВ, АА|ВВ, АВ|АА, АВ|АВ, АВ|ВВ, ВВ|АА, ВВ|АВ, и ВВ|ВВ. Если родительские данные фазированы, и, соответственно, АВ≠ВА, существует 16 разных возможных родительских контекстов: АА|АА, АА|АВ, АА|ВА, АА|ВВ, АВ|АА, АВ|АВ, АВ|ВА, АВ|ВВ, ВА|АА, ВА|АВ, ВА|ВА, ВА|ВВ, ВВ|АА, ВВ|АВ, ВВ|ВА и ВВ|ВВ. Каждый аллель SNP на хромосоме, за исключением некоторых SNP в половых хромосомах, характеризуется одним из этих родительских контекстов. Набор SNP, в котором родительский контекст для одного родителя является гетерозиготным, может называться гетерозиготным контекстом.
Применение родительских контекстов в NPD
Неинвазивная пренатальная диагностика является важной техникой, которая может использоваться для определения генетического статуса плода по полученному неинвазивным способом генетическому материалу, например, взятому из крови беременной матери. Кровь может быть разделена, выделена плазма, и затем выделена ДНК плазмы. Для выделения ДНК приемлемой длины может быть использован отбор по размеру. ДНК может быть преимущественно обогащена по набору локусов. Затем указанная ДНК может быть измерена с применением ряда способов, таких как гибридизация с матрицей для генотипирования и измерение флуоресценции, или секвенирование на высокопроизводительном секвенаторе.
Существует ряд способов для применения данных последовательности при использовании секвенирования для определения плоидности плода в контексте неинвазивной пренатальной диагностики. Наиболее распространенный способ может подразумевать использование данных последовательности для простого подсчета числа считываний, которые картируются с определенной хромосомой. Например, представим, что нужно определить состояние плоидности хромосомы 21 у плода. Представим также, что ДНК в образце состоит из 10% ДНК плодного происхождения и 90% ДНК материнского происхождения. В этом случае следует найти среднее число считываний на хромосоме, которая, предположительно, может быть дисомной, например, хромосоме 3, и сравнить его с числом считываний на хромосоме 21, при этом считывания приводятся в соответствие с числом пар оснований в этой хромосоме, которые являются частью уникальной последовательности. Если плод является эуплоидным, можно ожидать, что количество ДНК на единицу генома будет приблизительно равным во всех локализациях (с учетом стохастических вариаций). С другой стороны, если плод является трисомным по хромосоме 21, можно ожидать, что будет присутствовать немного большее количество ДНК на генетическую единицу из хромосомы 21, чем из других локализаций в геноме. В частности, можно ожидать, что в смеси будет присутствовать приблизительно на 5% больше ДНК из хромосомы 21. Если для измерения ДНК используется секвенирование, можно ожидать приблизительно на 5% больше однозначно картирующихся считываний для хромосомы 21 на уникальный сегмент, чем для других хромосом. Можно использовать наблюдаемое количество ДНК из конкретной хромосомы, превышающее определенный порог при приведении к числу последовательностей, однозначно картирующихся с указанной хромосомой, в качестве основы для диагностики анеуплоидии. Другой способ, который может быть использован для выявления анеуплоидии, аналогичен вышеописанному, за исключением того, что могут быть учтены родительские контексты.
При рассмотрении аллелей для нацеливания можно учитывать вероятность того, что некоторые родительские контексты, вероятно, будут более информативными, чем другие. Например, АА|ВВ и симметричный контекст ВВ|АА являются наиболее информативными контекстами, поскольку известно, что плод является носителем аллеля, отличного от материнского. По причине симметричности оба контекста, и АА|ВВ, и ВВ|АА, могут называться АА|ВВ. Другим набором информативных родительских контекстов являются АА|АВ и ВВ|АВ, поскольку в указанных случаях плод с 50% вероятностью несет аллель, который отсутствует у матери. Из соображений симметрии оба контекста, и АА|АВ, и ВВ|АВ, могут называться АА|АВ. Третьим набором информативных родительских контекстов является АВ|АА и АВ|ВВ, поскольку в указанных случаях плод несет известный отцовской аллель, и этот аллель также присутствует в материнском геноме. Из соображений симметрии оба контекста, и АВ|АА, и АВ|ВВ, могут называться АВ|АА. Четвертым родительским контекстом является АВ|АВ, при котором аллельное состояние плода неизвестно, и, каким бы ни было аллельное состояние, оно подразумевает, что мать имеет те же аллели. Пятым родительским контекстом является АА|АА, при котором мать и отец гетерозиготны.
Различные воплощения раскрытых в настоящем документе вариантов осуществления
В настоящем описании раскрыты способы определения состояния плоидности целевого индивидуума. Указанный целевой индивидуум может представлять собой бластомер, эмбрион или плод. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, способ определения состояния плоидности одного или нескольких хромосом у целевого индивидуума может включать любые из описанных в настоящем документе этапов и их комбинации:
Согласно некоторым вариантам осуществления источником генетического материала для применения при определении генетического статуса плода могут быть плодные клетки, такие как ядросодержащие плодные эритроциты, выделенные из материнской крови. Указанный способ может включать получение образца крови от беременной матери. Указанный способ может включать выделение плодного эритроцита с применением визуальных техник, основанных на идее, что определенная комбинация цветов уникально связана с ядросодержащим эритроцитом, и аналогичная комбинация цветов не связана с любой другой присутствующей в материнской крови клеткой. Комбинация цветов, связанных с ядросодержащими эритроцитами, может включать красный цвет гемоглобина вокруг ядра, причем указанный цвет можно сделать более выраженным с помощью окрашивания, и цвет ядерного материала, который можно окрасить, например, в голубой цвет. Путем выделения клеток из материнской крови и распределения их по предметному стеклу, и затем идентификации точек, где виден как красный (от гемоглобина), так и голубой (от ядерного материала) цвет, можно идентифицировать расположение ядросодержащих эритроцитов. Затем можно экстрагировать указанные ядросодержащие эритроциты с использованием микроманипулятора, использовать техники генотипирования и/или секвенирования для измерения аспектов генотипа генетического материала в указанных клетках.
Согласно варианту осуществления ядросодержащий эритроцит может быть окрашен красителем, который флуоресцирует только в присутствии плодного гемоглобина, но не материнского гемоглобина, и таким образом будет устранена неоднозначность происхождения ядросодержащего эритроцита от матери или плода. Некоторые варианты осуществления изобретения согласно настоящему раскрытию могут включать окрашивание или иную маркировку ядерного материала. Некоторые варианты осуществления согласно настоящему раскрытию могут включать специфичную маркировку плодного ядерного материала с использованием специфичных к плодным клеткам антител.
Существует множество других способов выделения плодных клеток из материнской крови или плодной ДНК из материнской крови, или обогащения образцов плодного генетического материала в присутствии материнского генетического материала. Некоторые из указанных способов перечислены в настоящем документе, но это не должно расцениваться как исчерпывающий перечень. Для удобства в настоящем документе перечислены некоторые подходящие техники: использование флуоресцентно-меченых или меченых иным образом антител, эксклюзионная хроматография, магнитные или иным образом меченые аффинные метки, эпигенетические различия, такие как дифференциальное метилирование материнских и плодных клеток в конкретных аллелях, центрифугирование в градиенте плотности с последующим истощением по CD45/14 и положительный отбор по CD71 из отрицательных по CD45/14 клеток, одинарные или двойные градиенты Перколла с разной осмоляльностью, или специфичный по отношению к галактозе лектиновый метод.
Согласно варианту осуществления, раскрытому в настоящем описании, целевой индивидуум представляет собой плод, и различные генотипические измерения проводят на множестве образцов ДНК от плода. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, образцы плодной ДНК получены из выделенных плодных клеток, при этом указанные плодные клетки могут быть смешаны с материнскими клетками. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, образцы плодной ДНК получены из свободноплавающей плодной ДНК, при этом указанная плодная ДНК может быть смешана со свободноплавающей материнской ДНК. Согласно некоторым вариантам осуществления образцы плодной ДНК могут быть получены из материнской плазмы или материнской крови, которая содержит смесь материнской ДНК и плодной ДНК. Согласно некоторым вариантам осуществления плодная ДНК может быть смешана с материнской ДНК в соотношении материнской/плодной ДНК, варьирующем в диапазоне от 99,9:0,1% до 99:1%; от 99:1% до 90:10%; от 90:10% до 80:20%; от 80:20% до 70:30%; от 70:30% до 50:50%; от 50:50% до 10:90%; или от 10:90% до 1:99%; от 1:99% до 0,1:99,9%.
Генетические данные целевого индивидуума и/или родственного индивидуума могут быть преобразованы из молекулярного состояния в электронное состояние путем измерения подходящего генетического материала с использованием инструментов и/или техник из группы, включающей, не ограничиваясь перечисленным, микроматрицы для генотипирования и высокопроизводительное секвенирование. Некоторые способы высокопроизводительного секвенирования включают секвенирование ДНК по методу Сэнгера, пиросеквенирование, платформу SOLEXA от ILLUMINA, GENOME ANALYZER от ILLUMINA или платформу для секвенирования 454 от APPLIED BIOSYSTEM, платформу TRUE SINGLE MOLECULE SEQUENCING от HELICOS, метод секвенирования с использованием электронного микроскопа от HALCYON MOLECULAR или любой другой способ секвенирования. Все указанные способы физически преобразуют генетические данные, хранящиеся в образце ДНК, в набор генетических данных, которые, как правило, до обработки хранятся в запоминающем устройстве.
Генетические данные соответствующего индивидуума могут быть измерены путем анализа веществ, выбранных из группы, включающей, не ограничиваясь перечисленными, массу диплоидной ткани индивидуума, одну или несколько диплоидных клеток индивидуума, одну или несколько гаплоидных клеток индивидуума, один или несколько бластомеров целевого индивидуума, внеклеточный генетический материал, присутствующий у индивидуума, внеклеточный генетический материал индивидуума, присутствующий в материнской крови, клетки индивидуума, присутствующие в материнской крови, один или несколько эмбрионов, образованных из гамет(ы) родственного индивидуума, один или несколько бластомеров, взятых из такого эмбриона, внеклеточный генетический материал, присутствующий у родственного индивидуума, генетический материал, который, как известно, происходит от родственного индивидуума, и их комбинации.
Согласно некоторым вариантам осуществления множество гипотез, включающее по меньшей мере одну гипотезу состояния плоидности, может быть создано для каждого представляющего интерес типа хромосом целевого индивидуума. Каждая из гипотез состояния плоидности может относиться к одному возможному состоянию плоидности хромосомы или сегмента хромосомы целевого индивидуума. Множество гипотез может включать некоторые или все возможные состояния плоидности, которыми предположительно может характеризоваться хромосома целевого индивидуума. Некоторые из возможных состояний плоидности могут включать нуллисомию, моносомию, дисомию, однородительскую дисомию, эуплоидию, трисомию, совпадающую трисомию, несовпадающую трисомию, материнскую трисомию, отцовскую трисомию, тетрасомию, сбалансированную (2:2) тетрасомию, несбалансированную (3:1) тетрасомию, пентасомию, гексасомию, другую анеуплоидию и их комбинации. Любое из указанных состояний анеуплоидии может представлять собой смешанную или частичную анеуплоидию, такую как несбалансированные транслокации, сбалансированные транслокации, Робертсоновские транслокации, рекомбинации, делеции, вставки, кроссинговеры и их комбинации.
Согласно некоторым вариантам осуществления информация об определенном состоянии плоидности может быть использована для принятия клинического решения. Эта информация, которая, как правило, хранится в виде физической структуры в запоминающем устройстве, затем может быть преобразована в отчет. Затем согласно отчету могут быть приняты соответствующие меры. Например, клиническое решение может заключаться в прерывании беременности; как вариант, клиническое решение может заключаться в продолжении беременности. Согласно некоторым вариантам осуществления клиническое решение может включать вмешательство, предназначенное для уменьшения тяжести фенотипического проявления генетического расстройства, или решение о принятии соответствующих мер для подготовки к рождению ребенка с особыми потребностями.
Согласно варианту осуществления настоящего раскрытия любой из описанных в настоящем документе способов может быть модифицирован для получения нескольких целей от одного и того же целевого индивидуума, например, получения нескольких образцов крови от одной беременной матери. Это может повышать точность модели, так как многократные генетические измерения могут обеспечить больше данных для определения целевого генотипа. Согласно варианту осуществления один набор целевых генетических данных служил в качестве сообщаемых первичных данных, а другой служил в качестве данных для двойной проверки первичных целевых генетических данных. Согласно варианту осуществления несколько наборов генетических данных, каждый из которых измерен в генетическом материале, взятом от целевого индивидуума, рассматриваются параллельно, и, таким образом, оба набора целевых генетических данных служат для обеспечения определения того, какая часть родительских генетических данных, измеренных с высокой точностью, составляет геном плода.
Согласно варианту осуществления указанный способ может использоваться с целью тестирования на отцовство. Например, при наличии основанной на SNP генотипической информации матери, а также мужчины, который может быть или может не быть генетическим отцом, и измеренной генотипической информации из смешанного образца возможно определить, действительно ли генотипическая информация мужчины подтверждает, что он фактически является генетическим отцом вынашиваемого плода. Простой способ осуществления указанного способа заключается в простом рассмотрении контекстов, где мать является АА, а вероятный отец является АВ или ВВ. В указанных случаях можно ожидать, что вклад отца будет наблюдаться в половине (АА|АВ) или во всех (АА|ВВ) случаях, соответственно. С учетом указанных ожидаемых выпадений аллелей (ADO) несложно определить, коррелируют ли наблюдаемые SNP плода с SNP вероятного отца.
Одним из вариантов осуществления настоящего изобретения может быть следующий: беременная женщина хочет знать, поражен ли вынашиваемый плод синдромом Дауна и/или муковисцидозом, и не хочет продолжать беременность в случае, если ребенок поражен каким-либо из указанных состояний. Врач берет у нее образец крови и окрашивает гемоглобин одним маркером, так, что он становится отчетливо красным, и ядерный материал другим маркером так, что он становится отчетливо синим. Так как известно, что материнские эритроциты, как правило, являются безъядерными, тогда как значительная доля плодных клеток содержит ядро, врач может визуально выделить ряд ядросодержащих эритроцитов путем идентификации клеток, где виден и красный, и синий цвет. Врач захватывает указанные клетки с предметного стекла микроманипулятором и отправляет в лабораторию, где амлифицируются и генотипируются десять индивидуальных клеток. Используя генетические измерения, с помощью метода PARENTAL SUPPORTтм возможно определить, что шесть из десяти клеток являются клетками крови матери, и четыре из десяти клеток являются плодными клетками. Если у беременной матери уже есть рожденный ребенок, PARENTAL SUPPORTтм можно также использовать для определения того, что плодные клетки отличаются от клеток рожденного ребенка, путем получения достоверных аллельных признаков в плодных клетках и выявления того, что они несходны с признаками рожденного ребенка. Отметим, что концепция указанного способа аналогична тестированию на отцовство согласно варианту осуществления настоящего изобретения. Генетические данные, измеренные в плодных клетках, могут иметь крайне неудовлетворительное качество из-за сложности генотипирования единичных клеток, в том числе содержать многочисленные выпадения аллелей. Клинический специалист может использовать измеренную плодную ДНК наряду с достоверными измерениями ДНК родителей для выведения заключений относительно аспектов генома плода с высокой точностью с помощью PARENTAL SUPPORTтм, преобразуя таким образом генетические данные, содержащиеся в генетическом материале плода, в предсказанный генетический статус указанного плода, сохраняемый на компьютере. Клинический специалист может определить как состояние плоидности указанного плода, так и присутствие или отсутствие совокупности связанных с заболеванием генов, представляющих интерес. Выясняется, что плод эуплоиден и не является носителем муковисцидоза, и мать принимает решение о продолжении беременности.
Согласно варианту осуществления, раскрытому в настоящем описании, беременная мать хочет знать, поражен ли вынашиваемый плод какой-либо аномалией целых хромосом. Она посещает лечащего врача и сдает образец крови, и она и ее супруг сдают образцы ДНК в виде буккальных мазков. Сотрудник лаборатории генотипирует родительскую ДНК с применением протокола MDA для амплификации родительской ДНК, и матриц INFINIUM от ILLUMINA для измерения генетических данных родителей по значительному числу SNP. Затем сотрудник лаборатории осаждает кровь центрифугированием, отбирает плазму и выделяет образец свободноплавающей ДНК с использованием эксклюзионной хроматографии. Как вариант, сотрудник лаборатории использует одно или несколько флуоресцентных антител, например, антитело, специфичное в отношении плодного гемоглобина, для выделения ядросодержащего плодного эритроцита. Затем сотрудник лаборатории берет выделенный или обогащенный плодный генетический материал и амплифицирует его с применением библиотеки 70-мерных олигонуклеотидов, соответствующим образом сконструированных так, что два конца каждого олигонуклеотида соответствуют фланкирующим последовательностям по обеим сторонам целевого аллеля. При добавлении полимеразы, лигазы и подходящих реагентов происходит циркуляризация олигонуклеотидов с заполнением гэпов, захватывающая требуемый аллель. Добавляется экзонуклеаза, инактивируется нагреванием, и продукты используются непосредственно в качестве шаблона для ПЦР-амплификации. Продукты ПЦР секвенируют на ILLUMINA GENOME ANALYZER. Считывания последовательности используют в качестве входных данных для метода PARENTAL SUPPORTтм, с помощью которого затем прогнозируют состояние плоидности плода.
Согласно другому варианту осуществления семейная пара, в которой мать беременна и находится в старшем репродуктивном возрасте, хочет знать, имеется ли у вынашиваемого плода синдром Дауна, синдром Тернера, синдром Прадера-Вилли или какие-то другие аномалии целых хромосом. Акушер-гинеколог берет образцы крови у матери и отца. Кровь отправляют в лабораторию, где технический специалист центрифугирует материнский образец для выделения плазмы и лейкоцитарной пленки. ДНК лейкоцитарной пленки и образец отцовской крови преобразуют путем амплификации, и генетические данные, закодированные в амплифицированном генетическом материале, далее преобразуют из молекулярных генетических данных в электронные генетические данные посредством обработки генетического материала на высокопроизводительном секвенаторе для измерения родительских генотипов. Образец плазмы преимущественно обогащают по набору локусов с применением способа 5000-плексной гемивложенной направленной ПЦР. Из смеси фрагментов ДНК получают библиотеку ДНК, подходящую для секвенирования. Затем ДНК секвенируют с применением способа высокопроизводительного секвенирования, например, с помощью GAIIx GENOME ANALYZER от ILLUMINA. Секвенирование преобразует информацию, которая молекулярно закодирована в ДНК, в информацию, которая закодирована в электронном виде в аппаратных средствах компьютера. Техника на основе информатики, включающая раскрытые в настоящем документе варианты осуществления, такая как PARENTAL SUPPORTтм, может использоваться для определения состояния плоидности плода. Это может включать вычисление на компьютере вероятностей числа аллелей во множестве полиморфных локусов по измерениям ДНК, выполненным в подготовленном образце; создание на компьютере множества гипотез плоидности, каждая из которых относится к отличному возможному состоянию плоидности хромосомы; построение на компьютере модели совместного распределения для ожидаемого числа аллелей во множестве полиморфных локусов в хромосоме для каждой гипотезы плоидности; определение на компьютере относительной вероятности каждой из гипотез плоидности с использованием модели совместного распределения и числа аллелей, измеренных в подготовленном образце; и прогнозирование состояния плоидности плода путем отбора состояния плоидности, соответствующего гипотезе с наибольшей вероятностью. Таким образом определяют, что у плода имеется синдром Дауна. Отчет распечатывают или посылают в электронном виде акушеру-гинекологу беременной женщины, который сообщает диагноз указанной женщине. Женщина, ее супруг и врач встречаются и обсуждают существующие возможности. Пара принимает решение о прерывании беременности на основании информации о том, что плод поражен трисомным состоянием.
Согласно варианту осуществления, компания может принять решение о предложении использовать технологию диагностики, разработанную для обнаружения анеуплоидии у вынашиваемого плода по образцу материнской крови. Предлагаемый ими продукт может включать посещение матерью лечащего акушера-гинеколога, который может взять у нее образец крови. Акушер-гинеколог может также взять генетический образец от отца указанного плода. Клинический специалист может выделить плазму из материнской крови и очистить ДНК из плазмы. Клинический специалист может также выделить слой лейкоцитарной пленки из материнской крови и получить из указанной лейкоцитарной пленки ДНК. Клинический специалист может также получить ДНК из отцовского генетического образца. Клинический специалист может использовать техники молекулярной биологии, раскрытые в настоящем описании, для добавления универсальных маркеров амплификации ДНК в ДНК, полученную из образца плазмы. Клинический специалист может амплифицировать универсально маркированную ДНК. Клинический специалист может провести преимущественное обогащение ДНК с применением ряда техник, включая захват гибридизацией и направленную ПЦР. Целевая ПЦР может включать вложенную, гемивложенную или полувложенную, или любой другой способ, который обеспечивает эффективное обогащение полученной из плазмы ДНК. Целевая ПЦР может быть массивно-мультиплексной, например, с 10000 праймеров в одном реакционном объеме, при этом указанные праймеры нацелены на SNP на хромосомах 13, 18, 21, Х и в тех локусах, которые присутствуют и в Х-, и в Y-, и необязательно также в других хромосомах. Селективное обогащение и/или амплификация может включать маркирование каждой индивидуальной молекулы разными маркерами, молекулярными штрихкодами, маркерами для амплификации и/или маркерами для секвенирования. Клинический специалист может затем секвенировать образец плазмы, и также, возможно, провести подготовку материнской и/или отцовской ДНК. Молекулярно- биологические этапы могут быть выполнены либо полностью, либо частично с помощью диагностического бокса. Данные последовательности могут быть загружены в отдельный компьютер или вычислительную платформу другого типа, такую как задействованные в «облачной среде». Указанная вычислительная платформа может рассчитывать число аллелей в целевых полиморфных локусах на основе измерений, выполненных секвенатором. Указанная вычислительная платформа может создавать множество гипотез плоидности, касающихся нуллисомии, моносомии, дисомии, совпадающей трисомии и несовпадающей трисомии для каждой из хромосом 13, 18, 21, X и Y. Указанная вычислительная платформа может построить модель совместного распределения для ожидаемого числа аллелей в целевых локусах на хромосоме для каждой гипотезы плоидности для каждой гипотезы плоидности в каждой из пяти исследуемых хромосом. Указанная вычислительная платформа может определить вероятность того, что каждая из гипотез плоидность истинна, с применением модели совместного распределения и числа аллелей, измеренного на преимущественно обогащенной ДНК, полученной из образца плазмы. Указанная вычислительная платформа может определять признаки состояния плоидности плода для каждой из хромосом 13, 18, 21, X и Y путем выбора состояния плоидности, соответствующего релевантной гипотезе с максимальной вероятностью. Может быть составлен отчет, содержащий информацию о признаках состояний плоидности, и отправлен акушеру-гинекологу в электронном виде, отображаемом на устройстве вывода, или же акушеру-гинекологу может быть передан распечатанный экземпляр указанного отчета. Акушер-гинеколог может информировать пациентку и, необязательно, отца указанного плода, и они могут принять решение о возможном клиническом действии, с выбором наиболее желательного.
Согласно другому варианту осуществления беременная женщина, далее называемая «матерью», может решить, что ей необходимо знать о наличии или отсутствии у вынашиваемого(их) ею плода(ов) каких-либо генетических аномалий или других состояний. Она может желать подтверждения отсутствия каких-либо значительных аномалий перед принятием решения о продолжении беременности. Она может обратиться к своему акушеру-гинекологу, который может взять у нее образец крови. Он также может взять генетический образец, такой как буккальный мазок с ее щеки. Он также может взять генетический образец у отца плода, такой как буккальный мазок, образец спермы или образец крови. Он может передать указанные образцы клиническому специалисту. Указанный клинический специалист может провести обогащение по фракции свободноплавающей плодной ДНК в образце материнской крови. Клинический специалист может провести обогащение по фракции безъядерных плодных клеток крови в образце материнской крови. Клинический специалист может использовать различные аспекты способов, описанных в настоящем документе, для определения генетических данных плода. Указанные генетические данные могут включать состояние плоидности указанного плода и/или идентичность одного или нескольких связанных с заболеванием аллелей у плода. Может быть составлен отчет, обобщающий результаты пренатальной диагностики. Указанный отчет может быть передан и отправлен по почте врачу, который может сообщить матери о генетическом статусе плода. Мать может принять решение о прерывании беременности на основании факта наличия одной или нескольких хромосомных или генетических аномалий, или нежелательных состояний, у плода. Она также может принять решение о сохранении беременности на основании факта отсутствия у плода каких-либо значительных хромосомных или генетических аномалий, или любых представляющих интерес генетических состояний.
Другой пример может включать беременную женщину, прошедшую процедуру искусственного оплодотворения спермой донора и забеременевшую. Она хочет минимизировать риск того, что у вынашиваемого плода имеется генетическое заболевание. Специалист (флеботомист) берет у нее кровь из вены; описанные в настоящем раскрытии методики используются для выделения трех ядросодержащих плодных красных кровяных клеток; также берут образец ткани матери и генетического отца. Генетический материал плода, матери и отца амплифицируют надлежащим образом и генотипируют с использованием INFINIUM BEADARRAY от ILLUMINA; с помощью описанных в настоящем документе способов родительский и плодный генотип очищают и фазируют с высокой точностью, а также определяют плоидность плода. Плод признается эуплоидным; по реконструированному плодному генотипу прогнозируют фенотипические предрасположенности, составляют отчет и передают лечащему врачу матери для определения возможных наилучших клинических решений.
Согласно варианту осуществления необработанный генетический материал матери и отца преобразуют путем амплификации в количество ДНК, аналогичной по последовательности, но представленной в большем количестве. Затем путем способа генотипирования генотипические данные, которые закодированы нуклеиновыми кислотами, преобразуются в генетические измерения, которые могут храниться в физическом и/или электронном виде в запоминающем устройстве, таком как описанные выше. Релевантные алгоритмы, входящие в алгоритм PARENTAL SUPPORTтм, соответствующие части которого подробно обсуждаются в настоящем документе, переносят в компьютерную программу с использованием языка программирования. Затем путем выполнения компьютерной программы аппаратными средствами компьютера физически закодированные биты и байты, образующие паттерн, который представляет необработанные данные измерения, преобразуют в паттерн, который представляет высокодостоверное определение плоидности плода. Подробности этого преобразования будут зависеть от самих данных, а также от компьютерного языка и системы аппаратных средств, используемых для реализации описанного в настоящем документе способа. Затем данные, которые физически сконфигурированы для представления высококачественного определения плоидности плода, преобразуют в отчет, который может быть передан практикующему врачу. Такое преобразование может быть выполнено с использованием принтера или компьютерного дисплея. Отчет может представлять собой распечатку на бумаге или ином подходящем носителе, а также быть представлен в электронном виде. В случае электронного отчета он может быть преобразован, может храниться физически в запоминающем устройстве с размещением в компьютере, доступном практикующему врачу; он также может быть отображаться на экране таким образом, чтобы его можно было прочитать. В случае отображения на экране данные могут быть преобразованы в считываемый формат путем физического преобразования пикселей на устройстве отображения. Преобразование может быть выполнено путем физической активизации электронов на фосфоресцентном экране, путем изменения электрического заряда, что физически изменяет прозрачность определенного набора пикселей на экране, который может располагаться перед подложкой, которая испускает или поглощает фотоны. Указанное преобразование может быть выполнено путем изменения наномасштабной ориентации молекул в жидком кристалле, например, от неметической до холестерической или смектической фазы, в определенном наборе пикселей. Указанное преобразование может быть реализовано с помощью электрического тока, стимулирующего испускание фотонов определенным набором пикселей из множества светоизлучающих диодов, образующих информативный паттерн. Указанное преобразование может быть реализовано любым другим способом, используемым для отображения информации, таким как компьютерный экран, или любое другое устройство вывода или способ передачи информации. Затем практикующий врач может действовать согласно отчету таким образом, что данные отчета преобразуются в действие. Указанное действие может заключаться в продолжении или прерывании беременности, в этом случае вынашиваемый плод с генетической аномалией преобразуют в неживой плод. Перечисленные в настоящем документе преобразования могут быть сгруппированы таким образом, чтобы, например, было возможно преобразовать генетический материал беременной матери и отца посредством ряда описанных в настоящем раскрытии этапов в медицинское решение, заключающееся в абортировании плода с генетическими аномалиями или решение, заключающееся в продолжении беременности. Как вариант, возможно преобразовать набор генотипических измерений в отчет, который будет содействовать лечению беременной пациентки лечащим врачом.
Согласно варианту осуществления, раскрытому в настоящем документе, способ, описанный в настоящем документе, может использоваться для определения состояния плоидности плода даже в том случае, если мать является суррогатной матерью, т.е. беременной женщиной, не являющейся биологической матерью вынашиваемого плода. Согласно варианту осуществления, раскрытому в настоящем документе, способ, описанный в настоящем документе, может использоваться для определения состояния плоидности плода с применением только образца материнской крови, без необходимости использования отцовского генетического образца.
Некоторые из математических методов в раскрытых в настоящем документе вариантах осуществления обеспечивают создание гипотезы, касающейся ограниченного числа состояний анеуплоидии. В некоторых случаях предполагается, например, что только 0, 1 или 2 хромосомы происходят от каждого из родителей. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, математические выводы могут быть расширены с учетом других форм анеуплоидии, таких как квадросомия, при которой три хромосомы происходят от одного родителя, пентасомия, гексасомия и т.д., без изменения основных принципов настоящего изобретения. В то же время, можно сосредоточиться на меньшем количестве состояний плоидности, например, только на трисомии и дисомии. Отметим, что определения плоидности, которые указывают на отличное от целого число хромосом, могут указывать на мозаицизм в образце генетического материала.
Согласно некоторым вариантам осуществления генетическая аномалия представляет собой вид анеуплоидии, например, синдром Дауна (или трисомия 21), синдром Эдвардса (трисомия 18), синдром Патау (трисомия 13), синдром Тернера (45Х), синдром Клайнфельтера (индивидуум мужского пола с 2-мя Х-хромосомами), синдром Прадера-Вилли и синдром Ди-Джорджи (UPD 15). Врожденные расстройства, такие как перечисленные в предыдущем предложении, обычно являются нежелательными, и информация о том, что плод поражен одной или несколькими фенотипическими аномалиями, может составить основу решения о прерывании беременности, о принятии необходимых мер для подготовки к рождению ребенка с особыми потребностями или об использовании определенного терапевтического подхода для уменьшения тяжести хромосомной аномалии.
Согласно некоторым вариантам осуществления способы, описанные в настоящем документе, могут использоваться на очень раннем гестационном сроке, например, на сроке, составляющем всего четыре недели, на сроке, составляющем всего пять недель, на сроке, составляющем всего шесть недель, на сроке, составляющем всего семь недель, на сроке, составляющем всего восемь недель, на сроке, составляющем всего девять недель, на сроке, составляющем всего десять недель, на сроке, составляющем всего одиннадцать недель, и на сроке, составляющем всего двенадцать недель.
Согласно некоторым вариантам осуществления раскрытый в настоящем документе способ используется в контексте преимплантационной генетической диагностики (PGD) для отбора эмбриона при оплодотворении in vitro, при этом целевым индивидуумом является эмбрион, и родительские генотипические данные могут быть использованы для осуществления определений плоидности эмбриона по данным секвенирования по биопсии одной или двух клеток от трехдневного эмбриона или по биопсии трофектодермы от пятидневного или шестидневного эмбриона. В условиях PGD измеряют только ДНК ребенка и тестируют только небольшое количество клеток, как правило, от одной до пяти, но также и до десяти, двадцати или пятидесяти. Общее число исходных копий аллелей А и В (в SNP) затем тривиальным образом определяют по генотипу ребенка и числу клеток. При NPD число исходных копий очень велико, и поэтому аллельное отношение после ПЦР, предположительно, будет точно отражать исходное отношение. Тем не менее, малое количество исходных копий при PGD означает, что загрязнение и недостаточная эффективность ПЦР нетривиально влияют на аллельное отношение после ПЦР. Этот эффект может быть более важным, чем глубина секвенирования, для прогнозирования вариаций аллельного отношения, измеренного после секвенирования. Распределение измеренного аллельного отношения с учетом известного генотипа ребенка может быть получено с помощью моделирования процесса ПЦР методом Монте-Карло на основе эффективности зонда ПЦР и вероятности загрязнения. С учетом распределения аллельных отношений для каждого возможного генотипа ребенка могут быть рассчитаны вероятности различных гипотез согласно описанию для NIPD.
Оценка с использованием способа максимального правдоподобия
Большинство известных в данной области техники способов обнаружения присутствия или отсутствия биологического явления или медицинского состояния включают применение теста отклонения одной гипотезы, при котором измеряют показатель, с которым коррелирует состояние, и если показатель находиться по одну сторону от заданного порогового значения, то состояние присутствует, а если показатель попадает по другую сторону от порогового значения, состояние отсутствует.В тесте отклонения одной гипотезы при выборе между нулевой и альтернативной гипотезами учитывается только распределение, соответствующее нулевой гипотезе,. Без учета распределения, соответствующего альтернативной гипотезе, специалист не может оценить вероятность каждой гипотезы, принимая во внимание данные наблюдений, и вследствие этого не может рассчитать достоверность при прогнозировании. Следовательно, тест отклонения одной гипотезы дает ответ «да» или «нет» без знания достоверности, связанной с конкретным случаем.
Согласно некоторым вариантам осуществления раскрытый в настоящем документе способ позволяет выявлять присутствие или отсутствие фенотипа или генотипа, например, хромосомной аномалии, медицинского состояния с использованием способа максимального правдоподобия. Таким образом достигается существенное улучшение по сравнению со способом, где используется метод отклонения одной гипотезы, поскольку пороговое значение для определения отсутствия или присутствия состояния может быть скорректировано надлежащим образом для каждого случая. Это особенно уместно для диагностических методик, целью которых является определение наличия или отсутствия анеуплоидии у вынашиваемого плода, исходя из генетических данных, полученных для смеси ДНК плода и матери, обнаруживаемой в свободноплавающей ДНК, присутствующей в плазме крови матери. Это обусловлено тем, что, поскольку доля ДНК плода в полученной из плазмы крови фракции меняется, изменяется оптимальное пороговое значение для выявления анеуплоидии в противоположность эуплоидии. Поскольку доля ДНК плода падает, распределение данных, которое связано анеуплоидией, становится все более подобным распределению данных, которое связанно с эуплоидией.
Способ оценки максимального правдоподобия задействует распределения, связанные с каждой гипотезой, для оценки правдоподобия данных с учетом условий для каждой гипотезы. Указанные обусловленные вероятности можно затем преобразовать в прогноз и достоверность гипотезы. Аналогичным образом, в способе оценки с использованием апостериорного максимума применяются те же самые обусловленные вероятности, что и при оценке максимального правдоподобия, но он также включает априорные распределения в популяции при выборе наилучшей гипотезы и определении достоверности.
Таким образом, использование методики оценки максимального правдоподобия (MLE) или очень близкой методики апостериорного максимума (MAP) дает два преимущества. Во-первых, она повышает вероятность верного прогнозирования; во-вторых, позволяет рассчитать достоверность для каждого прогноза. Согласно варианту осуществления выбор состояния плоидности, соответствующего гипотезе, имеющей наибольшую вероятность, проводят с использованием оценок, полученных способом максимального правдоподобия или апостериорного максимума. Согласно варианту осуществления раскрыт способ определения состояния плоидности вынашиваемого плода, который включает использование любого способа, известного в настоящее время в данной области техники, в котором используется методика отклонения одной гипотезы, и переформулирование его таким образом, чтобы в нем использовались методики MLE или MAP. Некоторые примеры способов, которые могут быть существенно усовершенствованы за счет применения указанных методик, можно найти в патентах США №8008018, №7888017 или №7332277.
Согласно варианту осуществления описан способ определения присутствия или отсутствия анеуплоидии плода в образце материнской плазмы, содержащем плодную и материнскую геномную ДНК, включающий получение образца материнской плазмы; измерение фрагментов ДНК, присутствующей в указанном образце плазмы, на высокопроизводительном секвенаторе; картирование последовательностей с хромосомой и определение числа считанных последовательностей, которые картируются с каждой хромосомой; вычисление доли плодной ДНК в образце плазмы; вычисление ожидаемого распределения количества целевой хромосомы, которое, как ожидается, будет присутствовать, если вторая целевая хромосома является эуплоидной, и одного или нескольких ожидаемых распределений, которые будут ожидаться, если указанная хромосома анеуплоидна, с использованием доли плода и числа считанных последовательностей, которые картируются с одной или несколькими эталонными хромосомами, предположительно эуплоидными; и применение MLE или MAP для определения того, какое из распределений наиболее вероятно будет корректным, с определением таким образом наличия или отсутствия анеуплоидии у плода. Согласно варианту осуществления измерение ДНК из плазмы может включать проведение массивно-параллельного секвенирования «методом дробовика». Согласно варианту осуществления измерение ДНК из образца плазмы может включать секвенирование ДНК, которая была преимущественно обогащена, например, посредством целевой амплификации, по множеству полиморфных или неполиморфных локусов. Может быть сконструировано множество локусов для нацеливания на одну или небольшое количество хромосом, предположительно являющихся анеуплоидными, и одну или небольшое количество эталонных хромосом. Цель преимущественного обогащения заключается в повышении количества считанных последовательностей, которые являются информативными для определения плоидности.
Способы прогнозирования плоидности на основе информатики
В настоящем документе описан способ определения состояния плоидности плода с учетом определенных данных секвенирования. Согласно некоторым вариантам осуществления эти данные секвенирования получают на секвенаторе с высокой пропускной способностью. Согласно некоторым вариантам осуществления данные секвенирования можно получить с использованием ДНК, которая происходит из свободноплавающей ДНК, выделенной из крови матери, где свободноплавающая ДНК содержит некоторое количество ДНК материнского происхождения и некоторое количество ДНК фетального/плацентарного происхождения. В этом разделе будет описан один вариант осуществления настоящего раскрытия, в котором определяют статус плоидности плода, исходя из предположения, что доля ДНК плода в смеси, которая подвергается анализу, неизвестна и будет оценена на основе данных. Также будет описан вариант осуществления, отличающийся тем, что долю ДНК плода («долю фетальной ДНК») или процент ДНК плода в смеси можно измерить с помощью другого способа, и, как предполагается, она известна при определении статуса плоидности плода. Согласно некоторым вариантам осуществления долю ДНК плода можно рассчитать с использованием только данных генотипирования, полученных с помощью измерений, выполненных на отдельном образце крови матери, который представляет собой смесь ДНК плода и матери. Согласно некоторым вариантам осуществления долю можно также рассчитать с использованием установленного с помощью измерений или известного из другого источника генотипа матери, и/или установленного с помощью измерений или известного из другого источника генотипа отца. Согласно другому варианту осуществления статус плоидности плода можно определить исключительно на основе рассчитанной доли плодной ДНК для исследуемой хромосомы в сравнении с рассчитанной долей ДНК плода для эталонной хромосомы, предположительно дисомной.
В предпочтительном варианте осуществления в качестве примера предположим, что в отношении конкретной хромосомы мы наблюдаем и анализируем N SNP, для которых мы имеем:
- Набор данных NR, полученных с помощью измерений при секвенировании свободноплавающей ДНК, S=(si,...,sNR). Поскольку в данном способе используются данные, полученные с помощью измерений SNP, все данные секвенирования, которые соответствуют неполиморфным локусам, можно не принимать во внимание. В упрощенном варианте, где мы имеем число аллелей (А, В) при каждом SNP, где А и В соответствуют двум аллелям, присутствующим в данном локусе, S можно записать в виде S=((a1,b1), …, (aN, bN)), где аi представляет собой число аллеля А при SNP i, bi представляет собой число аллеля В при SNP i, и Σi=1:N(ai+bi)=NR
- Данные родителей включают
- генотипы, полученные с использованием микроматрицы для выявления SNP или другой платформы для генотипирования на основе плотности аллеля: мать M=(m1, …, mN), отец F=(f1, …fN), где mi, fi∈G(AA, AB, ВВ).
- И/ИЛИ данные о последовательностях, полученные с помощью измерений: измерения NRM для матери SM=(sm1, …, smnrm), измерения NRF для отца SF=(sf1, …, sfnrf). Аналогично вышеизложенному упрощению, если мы имеем число аллелей (А, В) на каждый SNP, SM=((am1,bm1), …, (amN, bmN)), SF=((af1,bf1), …, (afN, bfN))
В совокупности, данные для ребенка от матери и отца обозначены как D=(M, F, SM, SF, S). Отметим, что данные родителей являются желательными и повышают точность алгоритма, но НЕ являются необходимыми, в особенности, данные отца. Это означает, что даже в отсутствие данных для матери и/или отца возможно получение высокоточного результата в отношении количества копий.
Возможно получение наилучшей оценки количества копий (Н*) путем максимального увеличения логарифмизированной вероятности данных LIK(D|H) при всех рассматриваемых гипотезах (Н). В частности, возможно определение относительной вероятности каждой из гипотез плоидности с использованием модели совместного распределения и числа аллелей в подготовленном образце, и использования этих относительных вероятностей для определения гипотезы, которая наиболее вероятно будет верной, следующим образом:
Подобным образом, вероятность апостериорной гипотезы с учетом данных можно записать в виде:
где priorprob(H) представляет собой априорную вероятность, заданную для каждой гипотезы Н на основании построенной модели и априорных данных.
Также возможно использование априорных данных для получения оценки апостериорного максимума:
Согласно варианту осуществления гипотезы числа копий, которые могут рассматриваться, представлены следующими:
- Моносомия:
- материнская Н10 (одна копия от матери)
- отцовская Н01 (одна копия от отца)
- Дисомия: HI 1 (по одной копии от матери и отца)
- Простая трисомия, случаи кроссинговера не рассматриваются:
- материнская: Н21_совпадающая (две идентичные копии от матери, одна копия от отца), Н21_несовпадающая (ОБЕ копии от матери, одна копия от отца)
- отцовская: Н12_ совпадающая (одна копия от матери, две идентичные копии от отца), Н12_несовпадающая (одна копия от матери, обе копии от отца)
- Сложная трисомия, с учетом случаев кроссинговера (применение модели совместного распределения):
- материнская Н21 (две копии от матери, одна от отца),
- отцовская HI2 (одна копия от матери, две копии от отца)
Согласно другим вариантам осуществления могут рассматриваться другие состояния плоидности, такие как нуллисомия (Н00), однородительская дисомия (Н20 и Н02) и тетрасомия (Н04, Н13, Н22, Н31 и Н40).
При отсутствии кроссинговера каждая трисомия, появившаяся в ходе митоза, мейоза I или мейоза II, будет представлять собой одну из совпадающих или несовпадающих трисомий. Вследствие кроссинговера истинная трисомия обычно является сочетанием двух вышеуказанных. Вначале описан способ получения значений вероятности гипотезы для гипотез простой трисомии. Затем описан способ получения значений вероятности гипотезы для гипотез сложной трисомии, сочетающий значения вероятности для отдельных SNP (однонуклеотидный полиморфизм) со случаями кроссинговера.
LIK(D\H) для гипотезы простой трисомии
Согласно варианту осуществления LIK(D|H) для гипотез простой трисомии можно определить следующим образом. Для гипотез простой трисомии Н, LIK(H), логарифм значения вероятности гипотезы Н для целой хромосомы, можно рассчитать в виде суммы логарифмов значений вероятности для отдельных SNP, предполагая известную или выведенную долю ДНК ребенка cf. Согласно варианту осуществления можно вывести cf, исходя из данных.
Эта гипотеза не предполагает какой-либо связи между SNP и, таким образом, не задействует модель совместного распределения.
Согласно некоторым вариантам осуществления логарифмизированную вероятность можно определить в расчете на один SNP. При конкретном SNP i, предполагая гипотезу плоидности плода Н и процент ДНК плода cf, логарифмизированная вероятность для наблюдаемых данных D определена как:
где m представляет собой возможные истинные генотипы матери, f представляет собой возможные истинные генотипы отца, где m,f∈{АА, АВ, ВВ}, и с представляет собой возможные генотипы ребенка с учетом гипотезы Н. В частности, для моносомии с ∈{А, В}, для дисомии с ∈{АА, АВ, ВВ}, для трисомии с ∈{AAA, ААВ, ABB, ВВВ}.
Априорная частота генотипа: p(m|i) представляет собой общую априорную вероятность генотипа матери m при SNP i, исходя из конкретной частоты в популяции для SNP I, обозначаемой pAi. В частности
р(АА|рАi)=(рАi)2, p(AB|pAi)=2(pAi)*(1-pAi), p(BB|pAi)=(1-pAi)2
Вероятность генотипа отца, p(fji), может быть определена аналогичным образом.
Вероятность истинного генотипа ребенка: p(c|m,f,H) представляет собой вероятность получения истинного генотипа ребенка=с с учетом генотипов родителей m, f и предположения гипотезы Н, которую можно легко рассчитать. Например, для совпадающей по H11, Н21 и несовпадающей по Н21 p(c|m, f, H) указаны ниже.
Вероятность данных: P(D|m,f, с, H, i, cf) представляет собой вероятность заданных данных D при SNP i с учетом истинного генотипа матери m, истинного генотипа отца f, истинного генотипа ребенка с, гипотезы Н и доли ДНК ребенка cf. Ее можно разбить на вероятности для данных матери, отца и ребенка следующим образом:
P(D|m, f, с, H, cf, i)=P(SM|m, i)P(M|m, i)P(SF|f, i)P(F|f, i)P(S|m, с, H, cf, i)
Вероятность данных для матриц SNP матери: Вероятность данных для матриц SNP матери генотипа mi при SNP i при сравнении с истинным генотипом т, при предположении, что данные в отношении SNP в генотипах, полученные с помощью микроматриц, являются верными, представляет собой просто
Вероятность данных последовательностей матери: вероятность данных последовательностей матери при SNP i, в случае числа аллелей с Si=(ami,bmi), без включенных дополнительного шума или ошибки представляет собой биномиальную вероятность выраженную функцией, определенной как P(SM|m,i)=Px|m(ami), где X|m~Binom(pm(A), ami+bmi) с pm(A), определенным как
Вероятность данных отца: аналогичное уравнение применяется для вероятности данных отца.
Отметим, что возможно определение генотипа ребенка без данных от родителей, особенно данных от отца. Например, если данные для генотипа отца F недоступны, можно просто использовать P(F|f, i)=1. Если недоступны данные последовательностей отца SF, можно просто использовать P(SF|f, i)=l.
Согласно некоторым вариантам осуществления указанный способ включает построение модели совместного распределения для ожидаемого числа аллелей во множестве полиморфных локусов на хромосоме для каждой гипотезы плоидности; один способ достижения такого результата приведен в данном описании. Вероятность данных для несвязанной ДНК плода: P(S|m, с, Н, cf, i) представляет собой вероятность для данных последовательностей несвязанной ДНК плода при SNP i с учетом истинного генотипа матери т, истинного генотипа ребенка с, гипотезы о количестве копий ДНК ребенка Н и предполагаемой доле ДНК ребенка cf. Фактически, она представляет собой вероятность для данных секвенирования S при SNP i с учетом истинной вероятности содержания А при SNP i μ(m, с, cf, Н)
P(S|m, с, Н, cf, i)=P(S|μ(m, с, cf, Н), i)
Для числа аллелей, где Si=(ai, bi) без дополнительного шума или ошибки во включенных данных,
P(S|μ(m,c,cf,H),i)=Px(ai)
где X~Binom(p(A), ai+bi) при р(А)=μ(m, c, cf, Н). В более сложном случае, где точное выравнивание и число аллелей (А, В) при SNP неизвестны, P(S|μ(m, с, cf, Н), i) представляет собой сочетание интегрированных биномиальных функций.
Истинная вероятность содержания А: μ(m, с, cf, Н), истинная вероятность содержания А при SNP i в данной смеси ДНК матери/ребенка при предположении, что истинный генотип матери = m, истинный генотип ребенка = с, и суммарная доля ДНК ребенка = cf, определяется как
где #A(g)=количество А в генотипе g, nm=2 представляет сомию матери и nс представляет собой плоидность ребенка при гипотезе Н (1 для моносомии, 2 для дисомии, 3 для трисомии).
Использование модели совместного распределения: LIK(D|H) для гипотезы сложной трисомии
Согласно некоторым вариантам осуществления указанный способ включает построение модели совместного распределения для ожидаемых чисел аллелей во множестве полиморфных локусов на хромосоме для каждой гипотезы плоидности; один способ достижения такого результата представлен в данном описании. Во многих случаях трисомия обычно не является исключительно совпадающей или несовпадающей, вследствие случаев кроссинговера, так что в данном разделе получены результаты для гипотез сложной трисомии по Н21 (материнской трисомии) и по H12 (отцовской трисомии), которая сочетает совпадающую и несовпадающую трисомию, с учетом возможных случаев кроссинговера.
В случае трисомии при отсутствии случаев кроссинговера, трисомия может быть просто совпадающей или несовпадающей трисомией. При совпадающей трисомии ребенок наследует две копии сегмента идентичной хромосомы от одного родителя. При несовпадающей трисомии ребенок наследует одну копию сегмента каждой гомологичной хромосомы от указанного родителя. Вследствие кроссинговера некоторые сегменты хромосомы могут иметь совпадающую трисомию, а другие части могут иметь несовпадающую трисомию. В данном разделе описано построение модели совместного распределения степеней гетерозиготности для набора аллелей, то есть ожидаемых чисел аллелей в ряде локусов при одной или нескольких гипотезах.
Предположим, что при SNP i, LIK(D|Hm,i) представляет собой аппроксимацию гипотезы совпадающей трисомии Нm, и LIK(D|Hu,i) представляет собой аппроксимацию гипотезы несовпадающей трисомии Нu и pc(i) = вероятность кроссинговера между SNP i-1 и i. Таким образом, полную вероятность можно рассчитать в виде:
LIK(D|H)=ΣE LIK(D|E, 1:N)
где LIK(D|E, 1:N) представляет собой вероятность принятия гипотезы E для SNP 1:N. Е =гипотеза для последнего SNP, Е ∈(Нm,Нu). Рекурсивно можно вычислить:
LIK(D|E, 1:i)=LIK(D|E,i) + log (exp(LIK(D|E, 1:i-1)) * (l-pc(i))
+exp(LIK(D|~E,l:i-l))
где ~E представляет собой гипотезу, отличную от Е (не Е), где рассматриваемыми гипотезами являются Нm и Нu. В частности, можно рассчитать значение вероятности 1:i SNP, исходя из значений вероятности от 1 до (i-1) SNP либо при той же гипотезе л отсутствии кроссинговера, либо при противоположной гипотезе и кроссинговере, умноженных на значения вероятности SNP i.
Для SNP 1, i=l, LIK(D|E, 1:1)=LIK(D|E, 1).
Для SNP 2, i=2, LIK(D|E, 1:2)=LIK(D|E, 2)+log (exp(LIK(D|E, 1)) * (l-pc(2)) + exp(LIK(D|~E, l)) * pc(2)),
и т.д. для i=3:N.
Согласно некоторым вариантам осуществления можно определить долю ребенка. Доля ребенка может относиться к содержанию в смеси ДНК последовательностей, которые происходят от ребенка. В контексте неинвазивной пренатальной диагностики доля ребенка может относиться к содержанию в плазме крови матери последовательностей, которые происходят из плода или части плаценты с генотипом плода. Она может относиться к доле ребенка в образце ДНК, который был получен из плазмы крови матери и может быть обогащен ДНК плода. Одной из целей определения доли ребенка в образце ДНК заключается в использовании этих данных в алгоритме, позволяющем определять признаки плоидности плода, таким образом, доля ребенка может относиться к какому-либо образцу ДНК, анализируемому с помощью секвенирования с целью неинвазивной пренатальной диагностики.
Некоторые из алгоритмов, представленных в данном раскрытии и являющихся частью способа неинвазивной пренатальной диагностики анеуплоидии, предполагают наличие известной доли ребенка, что не всегда соответствует действительности. Согласно варианту осуществления можно найти наиболее вероятную долю ребенка путем максимального увеличения значения вероятности для дисомии в выбранных хромосомах при наличии или в отсутствии данных от родителей.
В частности, предположим, что LIK(D|H11, cf, chr) = логарифм значения вероятности, которое описано выше, для гипотезы дисомии и для доли ребенка cf в хромосоме chr. Для выбранных хромосом в Cset (набор хромосом) (обычно 1:16), предположительно эуплоидных, суммарное значение вероятности представляет собой:
Наиболее вероятное значение доли ребенка (cf*)is derived as cf*=argmaxcf LIK(cf).
Возможно использование любого набора хромосом. Также возможно получение значения доли ребенка без предположения эуплоидии в эталонных хромосомах. С использованием этого способа возможно определение доли ребенка в любых из следующих ситуаций: (1) имеются данные матриц для родителей и данные секвенирования «методом дробовика» для материнской плазмы; (2) имеются данные матриц для родителей и данные целевого секвенирования для материнской плазмы; (3) имеются данные целевого секвенирования для обоих родителей и материнской плазмы; (4) имеются данные целевого секвенирования и для матери, и для фракции материнской плазмы; (5) имеются данные целевого секвенирования для фракции материнской плазмы; (6) другие комбинации измерений долей родителей и ребенка.
Согласно некоторым вариантам осуществления способ на основе информатики может включать выпадения данных; это может приводить к определений плоидности с более высокой точностью. В других местах в данном документе предполагалось, что вероятность получения А является непосредственной функцией истинного генотипа матери, истинного генотипа ребенка, доли ребенка в смеси и числа копий ДНК ребенка. Также возможно, что аллели матери или ребенка могут выпадать, например, вместо измерения характерного для ребенка истинного АВ в смеси возможен случай, когда измеряются только последовательности, картирующиеся с аллелем А. Можно обозначить частоту выпадения аллеля у родителей с данными, полученными с использованием анализа генома Illumina dpg, выпадения аллеля у родителей для данных последовательностей dps и частоту выпадения аллеля у ребенка для данных последовательностей dcs. Согласно некоторым вариантам осуществления предполагается, что частота выпадения аллеля у матери равна нулю, а частоты выпадения аллея у ребенка являются относительно низкими; в этом случае выпадения не оказывают значительного отрицательного воздействия на результаты. Согласно некоторым вариантам осуществления вероятность выпадений аллеля может быть значительно большей, что окажет значительный эффект на прогнозируемый признак плоидности. Для такого случая выпадения аллелей были включены в алгоритм, представленный ниже:
Выпадения для данных матриц SNP родителей: для данных генома матери М предположим, что генотип после выпадения представляет собой та, тогда
где как и ранее, и P(md|m) представляет собой вероятность генотипа md после возможного выпадения с учетом истинного генотипа т, определенного ниже, для частоты выпадения d.
Аналогичное уравнение применяют к данным матриц SNP отца.
Выпадения данных для последовательностей родителей: для данных последовательностей матери SM
где P(md|m) определено как в предыдущем разделе и вероятность P(x|md)(ami), исходя из биномиального распределения, определена так же, как и ранее в разделе о вероятности данных для родителей. Аналогичное уравнение применяют для данных последовательностей отца.
Выпадения данных последовательностей свободноплавающей ДНК:
где P(S|μ(md, cd, cf, H), i) соответствует определению в разделе о вероятности данных для свободноплавающей ДНК.
Согласно варианту осуществления р(md|m) представляет собой вероятность наблюдаемого материнского генотипа md, при истинном материнском генотипе m, при предположении о частоте выпадения dps, и p(cd|c) представляет собой вероятность наблюдаемого генотипа ребенка cd, при истинном генотипе ребенка с, при предположении о частоте выпадения dcs. Если nАТ = число аллелей А в истинном генотипе с, nAD = число аллелей А в наблюдаемом генотипе сd, где nАТ≥nAD, и, аналогичным образом, nВТ = число аллелей В в истинном генотипе с, nВD = число аллелей В в наблюдаемом генотипе cd, где nВТ≥nВD и d = частота выпадения, тогда
Согласно варианту осуществления способ на основе информатики может включать случайное смещение и стандартное смещение. В идеальных условиях отсутствует смещение выборки или случайный шум (дополнительно к вариации в биномиальном распределении) при подсчете числа последовательностей, в расчете на один SNP. В частности, при SNP i, для материнского генотипа m, истинного генотипа ребенка с и доли ребенка cf, и X = количество А в наборе считанных последовательностей (А+В) для SNP i, X функционирует как X~Binomial(p, А+В), где р=μ(m, с, cf, Н) = истинная вероятность содержания А.
Согласно варианту осуществления способ на основе информатики может включать случайное смещение. Поскольку это частый случай, предположим, что смещение возникает при измерениях, так что вероятность получения А на указанном SNP равна q, немного отличающемуся от p, определенного выше. То, насколько p отличается от q, зависит от точности способа измерения и ряда других факторов, и может быть количественно определено с помощью расчета стандартных отклонений q от р. Согласно варианту осуществления возможно моделирование q как характеризующегося бета-распределением с параметрами α, β зависящими от среднего значения указанного распределения с центром в р и определенного установленного стандартного отклонения s. В частности, это дает X|q~Bin(q, Di), где q~Beta(α,β). Если допустить, что E(q)=р, V(q)=s2, и параметры α, β можно получить в виде α=pN, β=(1-p)N, где
Это определение бета-биномиального распределения, где выборку получают из биномиального распределения с переменным параметром q, при этом q следует бета-распределению со средним значением р. Таким образом, в ситуации с отсутствием смещения по SNP i вероятность данных о последовательностях родителей (SM), при предположении об истинном генотипе матери (т), при числе аллеля А по SNP i для матери (ami) и числе аллеля В по SNP i для матери (bmi) можно рассчитать как:
P(SM|m,i)=PX|m(ami), где X|m~Binom(pm(A), ami+bmi)
Далее, при включении случайного смещения со стандартным отклонением s уравнение приобретает вид:
X|m~BetaBinom(pm(A), ami+bmi,s)
В случае отсутствия смещения вероятность для данных, полученных с использованием секвенирования ДНК плазмы крови матери, (S), предполагая истинный генотип матери (m), истинный генотип ребенка (с), долю ДНК ребенка (cf), предполагая гипотезу для статуса плоидности ребенка Н, с учетом данных о числе аллеля А, полученных с использованием секвенирования свободноплавающей ДНК, по SNP i (аi) и данных о числе аллеля В, полученных с использованием секвенирования свободноплавающей ДНК, по SNP i (bi) можно рассчитать как:
P(S|m,c,cf,H,i)=Рх(аi)
где X~Binom(p(A), ai+bi) при р(А)=μ(m, с, cf, Н).
Согласно варианту осуществления, включающему случайное смещение со стандартным отклонением s, указанное выражение приобретает вид X~BetaBinom(p(A),ai+bi,s), где величину дополнительной вариации определяют с помощью параметра отклонения s или, эквивалентно, N. Чем меньше значение s (или чем больше значение N), тем ближе данное распределение к нормальному биномиальному распределению. Можно оценить величину смещения, то есть оценить вышеуказанное значение N, исходя из однозначных контекстов АА|АА, ВВ|ВВ, АА|ВВ, ВВ|АА, и использовать оценку
Согласно варианту осуществления способ на основе информатики может учитывать смещение из расчета на SNP. Вследствие появления артефактов в процессе секвенирования некоторые SNP могут характеризоваться стабильно более низкими или более высокими значениями числа аллелей вне зависимости от истинной величины содержания аллеля А. Предположим, что SNP i стабильно прибавляет смещение на процент wi к числу аллеля А. Согласно некоторым вариантам осуществления указанное смещение можно оценить, исходя из набора данных режима обучения, полученных при таких же условиях, и прибавить к оценке данных секвенирования для родителей в виде:
P(SM|m,i)=PX|m(ami), где X|m~BetaBinom(pm(A)+wi, ami+bmi,s)
и с оценкой вероятности данных секвенирования свободноплавающей ДНК в виде:
P(S|m, с, cf, Н, i)=Px(ai) где X~BetaBinom(p(A)+wi,ai+bi,s),
Согласно некоторым вариантам осуществления способ можно записать так, чтобы специально учитывать дополнительный шум, различное качество образцов, различное качество SNP и случайные смещения выборки. Пример такой записи приведен в настоящем документе. Указанный способ, как было показано, является особенно полезным применительно к данным, полученным с использованием протокола для массивно-мультиплексной мини-ПЦР, и его использовали в экспериментах 7-13. Способ включает несколько этапов, каждый из которых учитывает отдельный вид шума и/или смещения в конечной модели:
(1) Предположим, что первый образец, который содержит смесь ДНК матери и плода, содержит исходное количество молекул ДНК с размером = N0, обычно в диапазоне 1000-40000, где р = истинный % от эталонных значений
(2) При амплификации с использованием универсальных адаптеров для лигирования предположим, что Ni молекул включены в образец; обычно N1~N0/2 молекул, и учитывается случайное смещение выборки. Амплифицированный образец может содержать количество молекул N2, где N2>>N1. Пусть X1 представляет количество локусов сравнения (в расчете на SNP) без включенных в образец молекул N1 при вариации в p1=X1/N1, что учитывает случайное смещение выборки в остальной части протокола. Это смещение выборки учитывается в модели путем использования бета-биномиального (ВB) распределения вместо использования модели простого биномиального распределения. Параметр N для бета-биномиального распределения может быть оценен позже в расчете на образец, исходя из данных режима обучения после поправки на выброс и смещение при амплификации для SNP с 0<p<1. Выброс представляет собой тенденцию к неверному прочтению SNP.
(3) Этап амплификации будет увеличивать любое аллельное смещение, обуславливая появление смещения амплификации вследствие возможной неравномерной амплификации. Предположим, что один аллель в локусе амплифицируется f раз, а другой аллель в данном локусе амплифицируется g раз, где f=geb и где b=0 указывает на отсутствие смещения. Показатель погрешности, b, центрирован в 0 и указывает на то, насколько больше или меньше амплифицируется аллель А в сравнении с аллелем В для конкретного SNP. Показатель b может различаться для разных SNP. Показатель смещения b можно оценить в расчете на SNP, например, исходя из данных обучающего режима.
(4) Этап секвенирования включает секвенирование образца амплифицированных молекул. На этом этапе может иметь место выброс, представляющий собой ситуацию, когда SNP считывается неверно. Выброс может происходить из-за ряда проблем, и может приводить в результате к считыванию SNP не как корректного аллеля А, а другого аллеля В, находящегося в данном локусе, или как аллеля С или D, которые обычно не обнаруживаются в указанном локусе. Предположим, что при секвенировании измерены данные последовательностей для ряда молекул ДНК из амплифицированного образца с размером N3, где N3<N2. Согласно некоторым вариантам осуществления N3 может находиться в диапазоне от 20000 до 100000; от 100000 до 500000; от 500000 до 4000000; от 4000000 до 20000000 или от 20000000 до 100000000. Каждая молекула в образце характеризуется вероятностью pg корректного считывания, при котором она будет корректно выявляться как аллель А. Образец будет прочитан некорректно, как аллель, не связанный с исходной молекулой, с вероятностью l-pg, и будет выглядеть, как аллель А с вероятностью рr, как аллель В с вероятностью рm или как аллель С или аллель D с вероятностью рo, где pr+pm+po=l. Параметры pg, pr, рm, рo оценивают в расчете на SNP, исходя из данных обучающего режима.
Различные протоколы могут включать аналогичные этапы с вариациями на молекулярно-биологических этапах, приводящими в результате к различным уровням случайности выборки, разным уровням амплификации и разному смещению при выбросе. Представленная ниже модель может с равным успехом применяться в каждом из указанных случаев. Модель для количества ДНК в образце из расчета на SNP имеет вид:
Х3~BetaBinomial (L(F(p,b),pr,pg), N*H(p,b)
где p = истинное количество эталонной ДНК, b = смещение в расчете на SNP, и, как описано выше, pg представляет собой вероятность корректного считывания, рr представляет собой вероятность того, что считываемый фрагмент (считываемая последовательность) прочтен некорректно, но по случайному стечению обстоятельств похож на корректный аллель, в случае неправильного считывания, согласно описанию выше, и:
F(p,b)=peb/(peb+(l-p)), H(p,b)=(ebp+(l-p))2/eb, L(p,pr,pg)=p*pg+pr*(l-pg).
Согласно некоторым вариантам осуществления в способе используется бета-биномиальное распределение вместо простого биномиального распределения; что учитывает случайное смещение выборки. Показатель N бета-биномиального распределения оценивают в расчете на образец при необходимости. Использование поправки на смещение F(p,b), H(p,b), вместо просто p, учитывает смещение при амплификации. Показатель b смещения оценивают в расчете на SNP, исходя из данных режима обучения, полученных заблаговременно.
Согласно некоторым вариантам осуществления в способе используется поправка на выброс L(p,pr,pg) вместо просто p; она учитывает смещение при выбросе, то есть изменение SNP и качества образца. Согласно некоторым вариантам осуществления параметры pg, рr, рo оценивают в расчете на SNP, исходя из данных режима обучения, полученных заблаговременно. Согласно некоторым вариантам осуществления параметры pg, рr, рo можно обновлять при обработке текущего образца без остановки процесса с тем, чтобы учесть изменяющееся качество образца.
Модель, описанная в настоящем документе, является достаточно общей и может учитывать как различающееся качество образцов, так и различающееся качество SNP. Разные образцы и SNP обрабатывают по-разному, например, согласно некоторым вариантам осуществления используют бета-биномиальные распределения, где среднее значение и дисперсия являются функцией исходного количества ДНК, а также качества образца и SNP. Базовое моделирование
Рассмотрим один SNP, где ожидаемое аллельное отношение, присутствующих в плазме крови, представляет собой г (исходя из генотипов матери и плода). Ожидаемое аллельное отношение определено как ожидаемая доля аллелей А в объединенной ДНК матери и плода. Для генотипа матери gm и генотипа ребенка gc ожидаемое аллельное отношение задается уравнением 1 при предположении, что генотипы представлены в той же мере, что и аллельные отношения.
Результат наблюдений по SNP состоит из ряда картируемых считываний, соответствующих каждому присутствующему аллелю, па и пь, сумма которых дает глубину секвенирования d. Предположим, что пороговые значения уже были применены к вероятностям картирования и оценкам phred, таким образом, картирование и наблюдаемые аллели можно рассматривать как достоверные. Оценка phred представляет собой численную меру, которая относится к вероятности того, что конкретное измерение для конкретного основания является ошибочным. Согласно варианту осуществления, если данные для основания получены путем секвенирования, оценку phred можно рассчитать, исходя из отношения интенсивности свечения красителя, соответствующей определяемому основанию и интенсивности свечения красителя для других оснований. Простейшей моделью для определения вероятности результатов наблюдения является биномиальное распределение, которое предполагает, что каждый из d считываний независимо взят из большого пула, который характеризуется аллельным отношением r. Уравнение 2 описывает указанную модель.
Биномиальную модель можно распространить несколькими способами. Если генотипы матери и плода представляют собой либо «все А», либо «все В», ожидаемое аллельное отношение в ДНК плазмы крови будет составлять 0 или 1, и вероятность, выражаемая биномиальной функцией, не будет четко определена. На практике иногда наблюдают неожиданные аллели. Согласно варианту осуществления является возможным использование скорректированного аллельного отношения
Базовая модель для ответа по одному SNP будет определяться как F(a, b, gc, gm, f) (3), или вероятность наблюдения na=а и nb=b с учетом генотипов матери и плода, которая также зависит от доли плодной ДНК в соответствии с уравнением 1. Функциональной формой F может быть биномиальное распределение, бета-биномиальное распределение или аналогичные функции, согласно обсуждению выше.
Согласно варианту осуществления долю ребенка можно определить следующим образом. Оценку максимального правдоподобия для доли плода f при пренатальном тестировании можно получить без использования информации от родителей. Это может быть уместно в тех случаях, когда генетические данные родителей недоступны, например, когда номинальный отец не является фактическим генетическим отцом плода. Долю плода оценивают на основе набора SNP, где генотип матери представлен 0 или 1, что дает набор из всего двух возможных генотипов плода. Определим So как набор SNP с генотипом матери 0, и S1 как набор SNP с генотипом матери 1. Возможные генотипы плода при S0 представлены 0 и 0,5, что дает в результате набор возможных аллельных отношений R0(f)={0,f/2}. Аналогичным образом, R1(f)={l-f/2, 1}. Указанный способ можно тривиальным образом расширить с включением SNP, где материнский генотип представлен 0,5, но эти SNP будут менее информативны вследствие большего набора возможных аллельных отношений.
Определим Na0 и Nb0 как векторы, образованные nas и nbs для SNP s в S0, и аналогичным образом Na1 и Nb1, для S1. Оценка максимального правдоподобия
Предположив, что число аллелей для каждого SNP является независимым и основано на аллельном отношении для SNP в ДНК плазмы крови, вероятности можно выразить в виде произведений для SNP в каждом наборе (5).
Зависимость от f укладывается в наборы возможных аллельных отношений R0(f) и R1(f). Вероятность SNP P(nas, nbs|f) можно аппроксимировать, предполагая зависимость генотипа с максимальным правдоподобием от f. При достаточно высокой доле плода и глубине секвенирования выбор генотипа с максимальным правдоподобием будет иметь высокую достоверность. Например, при доле плода 10% и глубине секвенирования 1000 рассмотрим SNP, где генотип матери - 0. Ожидаемые аллельные отношения составляют 0% и 5%, что будет легко различимо при достаточно большой глубине секвенирования. Подстановка оценки генотипа ребенка в уравнении 5 приводит в результате к законченному уравнению (6) для оценки доли плодной ДНК
Доля плода должна находиться в диапазоне [0, 1] и, таким образом, можно легко осуществить оптимизацию с помощью одномерного поиска с заданными ограничениями.
При малой глубине секвенирования или высоком уровне шума может быть предпочтительным не предполагать генотип с максимальным правдоподобием, что может привести к искусственно завышенным значениям достоверности. Другим способом может быть суммирование по возможным генотипам при каждом SNP, что дает следующее выражение (7) для P(na, nb|f) при SNP в S0. Априорная вероятность Р(r) может считаться постоянной для R0(f), или она может зависеть от частот в популяции. Распространение на группу S1 является тривиальным.
Согласно некоторым вариантам осуществления значения вероятности могут быть получены следующим образом. Достоверность можно рассчитать исходя из вероятности данных двух гипотез Ht и Hf. Вероятность каждой гипотезы получают на основе модели ответа, оцененной доли плодной ДНК, генотипов матери, частоты аллеля в популяции и числа аллелей в плазме крови.
Определим следующие обозначения:
Предположив, что данные наблюдений для каждого SNP независимы и основаны на аллельном отношении в плазме крови, значение вероятности для гипотезы отцовства представляет собой произведение значений вероятности при SNP. В следующих уравнениях получают значение вероятности для одного SNP. Уравнение 8 представляет собой общее выражение для вероятности любой гипотезы h, которая будет затем разбита на конкретные случаи Ht и Hf
В случае Ht предполагаемый отец является истинным отцом, и генотипы плода наследуются из генотипов матери и генотипов предполагаемого отца в соответствии с уравнением 9
*****P(na, nb|Ht,Gm,Gtf,f)=Y.gce(fifi.s,i)F{na.nb.9c.9m.nP(fic=9c\Gm>Gtf,Ht) (9)=SSce(0,0.5,l) ^(na>пЪ>9c 9m>f)G(9c Gm, Gtf)
В случае Hf предполагаемый отец не является истинным отцом. Наилучшая оценка для истинных генотипов отца задается частотами в популяции для каждого SNP. Следовательно, значения вероятности для генотипов ребенка определяют по известным генотипам матери и частотам в популяции, как в уравнении 10.
Достоверность Ср для правильно установленного отцовства рассчитывают как произведение по SNP двух значений вероятности с использованием правила Байеса (11).
Модель максимального правдоподобия с использованием доли плодной ДНК в процентах
Определение статуса плоидности плода путем измерения свободноплавающей ДНК, содержащейся в сыворотке крови матери, или путем измерения генотипического материала в любом смешанном образце, является неординарной задачей. Существует ряд способов, например, проведение анализа количества считываний, где основанием для предположения является то, что если плод является трисомиком по конкретной хромосоме, то общее количество ДНК от этой хромосомы, присутствующей в материнской крови, будет повышено по сравнению с эталонной хромосомой. Одним способом выявления трисомии у таких плодов является нормализация количества ДНК, ожидаемого для каждой хромосомы, например, в соответствии с количеством SNP в анализируемом наборе, которые соответствуют заданной хромосоме, или в соответствии с количеством однозначно картируемых частей хромосомы. После того как данные, полученные с помощью измерений, нормализованы, любые хромосомы, для которых измеренное количество ДНК превышает определенное пороговое значение, определяют как трисомические. Этот подход описан у Fan, и др. PNAS, 2008; 105 (42); pp. 16266-16271, а также у Chiu и др. BMJ 2011; 342: с7401. В статье Chiu и др. нормализацию выполняли путем расчета оценки Z следующим образом:
оценка Z процентного содержания хромосомы 21 в условиях теста = ((процентное содержание хромосомы 21 в условиях теста) - (среднее значение процентного содержания хромосомы 21 в сравниваемых контролях)) / (стандартное отклонение процентного содержания хромосомы 21 в сравниваемых контролях).
В этих способах статус плоидности плода определяют с использованием способа отклонения одной гипотезы. Однако им свойственны определенные существенные недостатки. Поскольку указанные способы определения плоидности плода инвариантны в отношении процентного содержания ДНК плода в образце, в них используется одна точка отсечения; результатом являются неоптимальные показатели точности определения, и случаи, где процентное содержание ДНК плода в смеси относительно невелико, имеют худшие показатели точности.
Согласно варианту осуществления способ согласно настоящему раскрытию используют для определения статуса плоидности плода, при этом способ включает учет доли плодной ДНК в образце. Согласно другому варианту осуществления настоящего раскрытия способ включает использование оценок максимального правдоподобия. Согласно варианту осуществления способ согласно настоящему раскрытию включает расчет процента ДНК, которая является фетальной или плацентарной по происхождению, в образце. Согласно варианту осуществления пороговое значение для прогнозирования анеуплоидии адаптивно корректируют, исходя из рассчитанного процента ДНК плода. Согласно некоторым вариантам осуществления способ оценки процентного содержания ДНК фетального происхождения в смеси ДНК включает получение смешанного образца, который содержит генетический материал от матери и генетический материал от плода, получение генетического образца от отца плода, измерение ДНК в смешанном образце, измерение ДНК в образце от отца и расчет процентного содержания ДНК фетального происхождения в смешанном образце с использованием результатов, полученных с помощью измерений ДНК в смешанном образце и в образце от отца.
Согласно варианту осуществления настоящего раскрытия долю ДНК плода или процентное содержание плодной ДНК в смеси можно измерить. Согласно некоторым вариантам осуществления указанную долю можно рассчитать, используя только генотипические измерения непосредственно образца плазмы крови матери, который представляет собой смесь плодной и материнской ДНК. Согласно некоторым вариантам осуществления долю можно также рассчитать с использованием установленного с помощью измерений или известного из другого источника генотипа матери и/или установленного с помощью измерений или известного из другого источника генотипа отца. Согласно некоторым вариантам осуществления процент плодной ДНК можно рассчитать, используя измерения, выполненные на смеси плодной и материнской ДНК, в сочетании с информацией о родительских контекстах. Согласно варианту осуществления долю плодной ДНК можно рассчитать с использованием частот в популяции для коррекции модели в отношении вероятности при измерениях конкретного аллеля.
Согласно варианту осуществления настоящего раскрытия можно рассчитать достоверность для точности определения состояния плоидности плода. Согласно варианту осуществления достоверность гипотезы с наибольшим правдоподобием (Hmaj0r) может быть рассчитана как (1-Hmajor)/Σ (для всех Н). Можно определить достоверность гипотезы, если известны распределения для всех гипотез. Определение распределения для всех гипотез возможно, если известна информация о генотипах родителей. Возможен расчет достоверности определения плоидности, если известно ожидаемое распределение данных для эуплоидного плода и ожидаемое распределение данных для анеуплоидного плода. Возможен расчет этих ожидаемых распределений, если известны данные генотипов родителей. Согласно варианту осуществления может быть использована информация о распределении тестовых статистических показателей для гипотезы нормальности и гипотезы аномалии, как для определения надежности прогноза, так и для уточнения порогового значения для более надежного получения признака. Это целесообразно, в частности, если количество и/или процент плодной ДНК в смеси невелики. Это поможет избежать ситуации, когда фактически анеуплоидный плод будет считаться эуплоидным, поскольку тестовые статистические показатели, например, для Z, не превышают порогового значения, которое определено на основе порогового значения, оптимизированного для случая более высокого процента плодной ДНК.
Согласно варианту осуществления способ, раскрытый в настоящем документе, можно применять для определения анеуплоидии у плода путем определения количества копий целевых хромосом матери и ребенка в смеси генетического материала матери и плода. Способ может включать получение ткани матери, содержащей генетический материал как матери, так и плода; согласно некоторым вариантам осуществления этой тканью матери может быть плазма крови матери или ткань, выделенная из крови матери. Указанный способ может также включать получение смеси генетического материала матери и плода из указанной ткани матери путем обработки вышеупомянутой ткани матери. Указанный способ может включать распределение полученного генетического материала на множество реакционных образцов, чтобы в произвольном порядке получить индивидуальные реакционные образцы, которые содержат целевую последовательность из целевой хромосомы, и индивидуальные реакционные образцы, которые не содержат целевую последовательность из целевой хромосомы, например для проведения на образце секвенирования с высокой пропускной способностью. Указанный способ включает анализ целевых последовательностей в генетическом материале, присутствующем или отсутствующем в указанных индивидуальных реакционных образцах, с получением первого ряда бинарных результатов, представляющих наличие или отсутствие предположительно эуплоидной хромосомы плода в реакционных образцах, и второго ряда бинарных результатов, представляющих наличие или отсутствие возможно анеуплоидной хромосомы плода в реакционных образцах. Любой из ряда бинарных результатов можно рассчитать, например, с помощью методики на основе информатики, которая подсчитывает количество считанных последовательностей, которые картируются с конкретной хромосомой, конкретной областью хромосомы, конкретным локусом или набором локусов. Указанный способ может включать нормализацию ряда бинарных событий, исходя из длины хромосомы, длины области хромосомы или количества локусов в наборе. Указанный способ может включать в себя расчет ожидаемого распределения в ряду бинарных результатов для предположительно эуплоидной хромосомы плода в реакционных образцах с использованием первого ряда. Указанный способ может включать в себя расчет ожидаемого распределения в ряду бинарных результатов для предположительно анеуплоидной хромосомы плода в реакционных образцах с использованием первого ряда и оцененной доли плодной ДНК, присутствующей в смеси, например, путем умножения ожидаемого распределения числа считанных последовательностей из ряда бинарных результатов для предположительно эуплоидной хромосомы плода на (1+n/2), где n представляет собой оценку доли плодной ДНК. Согласно некоторым вариантам осуществления считанные последовательности при секвенировании можно рассматривать как вероятностные результаты картирования, а не бинарные результаты; указанный способ будет давать большую точность, но требует больших вычислительных мощностей. Долю ДНК плода можно оценить с помощью множества способов, некоторые из которых описаны в других местах в данном раскрытии. Указанный способ может включать использование метода максимального правдоподобия для определения соответствия второго ряда ситуации, когда возможно анеуплоидная хромосома плода является эуплоидной или является анеуплоидной. Указанный способ может включать прогнозирование статуса плоидности плода как статуса плоидности, который соответствует гипотезе с максимальным правдоподобием корректности с учетом измеренных данных.
Отметим, что модель максимального правдоподобия можно использовать для повышения точности любого способа, с помощью которого определяют статус плоидности плода. Аналогичным образом, можно рассчитать достоверность для любого способа, с помощью которого определяют статус плоидности плода. Использование модели максимального правдоподобия будет приводить к улучшению точности любого способа, в котором определение плоидности выполняют с использованием методики с отклонением одной гипотезы. Модель максимального правдоподобия можно использовать для любого способа, где распределение значений правдоподобия можно рассчитать как для случая, соответствующего норме, так и для случая, соответствующего аномалии. Использование модели максимального правдоподобия подразумевает возможность расчета достоверности для прогноза плоидности.
Дальнейшее обсуждение способа
Согласно варианту осуществления в способе, раскрытом в настоящем документе, используют количественную меру числа независимых наблюдений для каждого аллеля в полиморфном локусе, причем он не включает расчет соотношения аллелей. Он отличается от таких способов, как некоторые способы на основе микроматриц, с помощью которых получают информацию о соотношении двух аллелей в локусе, но не определяют количественно число независимых наблюдений какого-либо аллеля. Некоторые известные в данной области техники способы могут обеспечить количественную информацию в отношении числа независимых наблюдений, но при расчетах, приводящих к определению плоидности, используют только аллельные отношения и не используют количественную информацию. Чтобы проиллюстрировать важность сохранения информации о числе независимых наблюдений, рассмотрим примерный локус с двумя аллелями, А и В. В первом эксперименте наблюдают двадцать аллелей А и двадцать аллелей В, во втором эксперименте наблюдают 200 аллелей А аллели и 200 аллелей В. В обоих экспериментах соотношение (А/(А+В)) является равным 0,5, однако второй эксперимент дает больше информации о достоверности частоты аллеля А или В, чем первый. В указанном способе вместо использования соотношений аллелей используют количественные данные для более точного моделирования наиболее вероятных частот аллеля в каждом полиморфном локусе.
Согласно варианту осуществления в данных способах создают генетическую модель для объединения данных измерений от многих полиморфных локусов для лучшего различения трисомии от дисомии, а также для определения типа трисомии. Кроме того, в данном способе учитывается информация о генетическом сцеплении для повышения точности способа. Это отличается от некоторых способов, известных в данной области техники, где соотношения аллелей усредняют по всем полиморфным локусам в хромосоме. В способе, раскрытом в настоящем документе, подробно моделируются распределения частоты аллеля, ожидаемые при дисомии, также как и при трисомии, возникающей в результате нерасхождения в ходе мейоза I, нерасхождения в ходе мейоза II и нерасхождения в ходе митоза на ранних стадиях развития плода. Для иллюстрации важности этого, отметим, что при отсутствии кроссинговеров нерасхождение в мейозе I приведет к трисомии, при которой два различных гомолога унаследованы от одного родителя; нерасхождение в мейозе II или в митозе на ранних стадиях развития плода приведет к двум копиям одного и того же гомолога от одного родителя. Каждый сценарий приводит к различным ожидаемым частотам аллелей в каждом полиморфном локусе, а также во всех физически сцепленных локусах (то есть локусах на одной хромосоме), рассматриваемых совместно. Случаи кроссинговера, которые приводят в результате к обмену генетического материала между гомологами, делают характер наследования более сложным, однако указанный способ компенсирует это за счет использования информации о генетическом сцеплении, то есть информации об уровне рекомбинации и физическом расстоянии между локусами. Для лучшего установления различий между нерасхождением в мейозе I и нерасхождением в мейозе II или митозе в указанном способе в модель включена возрастающую вероятность кроссинговера с возрастанием расстояния от центромеры. Нерасхождение в мейозе II и в митозе можно отличить на основании того факта, что нерасхождение в митозе, как правило, приводит в результате к идентичным или почти идентичным копиям одного гомолога, тогда как два гомолога, присутствующие после нерасхождения в мейозе II, часто отличаются вследствие одного или нескольких случаев кроссинговера в ходе гаметогенеза.
Согласно варианту осуществления в способе согласно настоящему раскрытию можно не определять гаплотипы родителей, если предполагается дисомия. Согласно варианту осуществления в случае трисомии указанный способ может включать определение гаплотипов одного или обоих родителей с использованием того факта, что в плазме крови содержатся две копии от одного родителя, и информацию относительно фазы родителя можно получить, отметив, какие две копии были унаследованы от изучаемого родителя. В частности, ребенок может унаследовать либо две одинаковые копии родительской хромосомы (совпадающая трисомия), либо обе копии родительской хромосомы (несовпадающая трисомия). Для каждого SNP специалист в данной области техники может рассчитать вероятность совпадающей трисомии и несовпадающей трисомии. В способе прогнозирования плоидности, в котором не используется модель сцепления, учитывающая случаи кроссинговера, будет рассчитываться общая вероятность трисомии как простое средневзвешенное значение для совпадающей и несовпадающей трисомий по всем хромосомам. Тем не менее, из-за биологических механизмов, которые приводят к ошибке нерасхождения и кроссинговеру, трисомия в хромосоме может меняться с совпадающей на несовпадающую (и наоборот) только в тех случаях, когда имеет место кроссинговер. Представленный способ вероятностно учитывает вероятность кроссинговера, обеспечивая прогнозирование плоидности с большей точностью, чем способы, которые этого не учитывают.
Согласно варианту осуществления эталонную хромосому используют для определения доли ребенка и величины уровня шума или распределения вероятности. Согласно варианту осуществления долю ребенка, уровень шума и/или распределение вероятности определяют с использованием только генетической информации, доступной для хромосомы, статус плоидности которой определяют.Указанный способ работает без эталонной хромосомы, также как и без установления конкретного значения доли ребенка или уровня шума. Это является существенным улучшением и отличием от способов, известных в данной области техники, где генетические данные для эталонной хромосомы являются необходимыми для калибровки доли ребенка и поведения хромосом.
Согласно варианту осуществления, если эталонная хромосома не является необходимой для определения доли плода, определение гипотезы выполняют следующим образом:
Согласно алгоритму, включающему эталонную хромосому, как правило, предполагается, что эталонная хромосома дисомна, и затем можно либо (а) установить наиболее вероятное значение доли ребенка и произвольный уровень шума N, исходя из данного предположения и данных для эталонной хромосомы:
А затем свести к
LIK(D|H)=LIK(D|H,cfr*,N*)
либо (b) оценить распределение доли ДНК ребенка и уровня шума, исходя из данного предположения и данных для эталонной хромосомы. В частности, не устанавливается всего одно значение для cfr и N, а задается вероятность p(cfr, N) для более широкого диапазона возможных значений cfr, N:
p(cfr,N)~LIK(D(ref. chrom)|H11,cfr,N) * priorprob(cfr, N)
где priorprob(cfr, N) представляет собой априорную вероятность для конкретного значения доли ребенка и уровня шума, определенную на основе доступной информации и экспериментов, при необходимости, одинаковую для диапазона cfr, N. Таким образом, можно записать:
Оба вышеописанных способа дают хорошие результаты.
Отметим, что в некоторых случаях использование эталонной хромосомы не является желательным, возможным или целесообразным. В таком случае можно получить наилучший прогноз плоидности отдельно для каждой хромосомы. В частности:
p(cfr, N|H) может быть определена как указано выше, отдельно для каждой хромосомы, предполагая гипотезу Н, не только дисомию для эталонной хромосомы. Используя указанный способ, возможно установить заданные значения параметров как шума, так и доли ребенка, установить заданное значение для любого из указанных параметров или задавать оба параметра в вероятностной форме, для каждой хромосомы и каждой гипотезы.
Измерения ДНК имеют тенденцию к присутствию шума и/или ошибок, особенно измерения в тех случаях, когда количество ДНК невелико, или если ДНК присутствует в смеси с загрязняющей ДНК. Указанный шум приводит в результате к менее точным генотипическим данным и менее точному прогнозированию плоидности. Согласно некоторым вариантам осуществления базовое моделирование или какой-либо другой способ моделирования шума можно использовать для противодействия неблагоприятным воздействиям шума на определение плоидности. В данном способе используется совместная модель для обоих каналов, которая учитывает случайный шум, обусловленный количеством поступающей ДНК, качеством ДНК и/или качеством протокола.
Это отличается от некоторых способов, известных в данной области техники, где определение плоидности выполняют с использованием отношения плотностей аллеля в локусе. Этот способ заранее исключает точное моделирование шума при SNP. В частности, ошибки при измерениях, как правило, не зависят специфически от измеряемого в канале отношения плотности, что сокращает модель до использования одномерной информации. Точное моделирование шума, качества в канале и взаимодействия каналов требует двумерной совместной модели, которая не может быть создана с использованием аллельных отношений.
В частности, перевод информации от двух каналов в отношение г, где f(x,y) представляет собой г=х/у, не подходит для точного моделирования шума и смещения. Шум для конкретного SNP не является функцией отношения, то есть шум (х,у)≠f(x,y), а фактически является совместной функцией обоих каналов. Например, в биномиальной модели шум для измеренного отношения характеризуется дисперсией r(1-r)/(х+у), которая не является функцией исключительно r. В такой модели, куда включены любое(ой) смещение или шум в канале, предположим, что для SNP i наблюдаемое в канале X значение представляет собой x=aiX+bi, где X представляет собой истинное значение для канала, bi представляет дополнительное смещение в канале и случайный шум. Аналогичным образом, предположим, что y=c1Y+di. Наблюдаемое соотношение r=х/у не способно точно предсказать истинное соотношение X/Y или смоделировать остаточный шум, поскольку (aiX+bi)/(ciY+di) не является функцией X/Y.
Способ, раскрытый в данном документе, описывает эффективный метод моделирования шума и смещения с использованием совместных биномиальных распределений для всех каналов измерения по отдельности. Соответствующие уравнения можно найти в настоящем документе в других разделах, где идет речь о смещении в расчете на SNP, показателях P(good) и P(ref|bad), P(mut|bad), которые эффективно корректируют поведение SNP. Согласно варианту осуществления в способе согласно настоящему раскрытию используется бета-биномиальное распределение, при котором избегается ограничение, заключающееся в учете только аллельных отношений; вместо этого моделируется характер изменения на основании подсчитанных значений по обоим каналам.
Согласно варианту осуществления раскрытый в настоящем документе способ позволяет прогнозировать плоидность вынашиваемого плода по генетическим данным, полученным для материнской плазмы с использованием всех доступных измерений. Согласно варианту осуществления раскрытый в настоящем документе способ позволяет прогнозировать плоидность вынашиваемого плода по генетическим данным, полученным для материнской плазмы, путем измерений только для подгруппы родительских контекстов. В некоторых известных в данной области техники способах используются исключительно измеренные генетические данные, где родительский контекст относится к контексту АА|ВВ, то есть когда оба родителя гомозиготны по определенному локусу, но по разным аллелям. Одной из проблем, связанных с этим способом, является то, что из контекста АА|ВВ происходит небольшая доля полиморфных локусов, как правило, менее 10%. Согласно варианту осуществления раскрытого в настоящем описании способа в указанном способе не используется генетические измерения материнской плазмы для локусов с родительским контекстом АА|ВВ. Согласно варианту осуществления в настоящем способе используются измерения для плазмы только для полиморфных локусов с родительским контекстом АА|АВ, АВ|АА и АВ|АВ.
Некоторые способы, известные в данной области техники, включают усреднение аллельных отношений от SNP в контексте АА|ВВ, при наличии генотипов обоих родителей, и, как заявлено, прогнозируют плоидность, исходя из среднего аллельного отношения для указанных SNP. Указанному способу свойственна существенная неточность вследствие различающегося поведения SNP. Отметим, что указанный способ предполагает, что известны генотипы обоих родителей. Напротив, согласно некоторым вариантам осуществления предложенный в настоящем описании способ задействует модель совместного распределения для каналов, не предполагающую наличия данных от каждого из родителей, и не предполагающую одинакового характера изменения SNP. Согласно некоторым вариантам осуществления предложенный в настоящем описании способ учитывает различное поведение/вес SNP. Согласно некоторым вариантам осуществления предложенный в настоящем описании способ не требует знания генотипов одного или обоих родительских генотипов. Пример того, как предложенный в настоящем описании способ обеспечивает это, приводится ниже.
Согласно некоторым вариантам осуществления логарифмизированная вероятность гипотезы может быть определена из расчета на SNP. Для конкретного SNP i при предположении гипотезы плоидности плода Н и процента плодной ДНК cf логарифмизированная вероятность наблюдаемых данных D определена как:
где m представляет собой возможные истинные генотипы матери, f представляет собой возможные истинные генотипы отца, где m,f∈{АА,АВ,ВВ}, и где с представляет собой возможные генотипы ребенка с учетом гипотезы Н. В частности, для моносомии с {А, В}, для дисомии с G {АА,АВ,ВВ}, для трисомии с ∈{ААА,ААВ,АВВ,ВВВ}. Отметим, что включение данных о генотипе родителей, как правило, приводит в результате к более точным определениям плоидности, однако данные о генотипе родителей не являются необходимыми для того, чтобы Указанный способ работал хорошо.
Некоторые способы, известные в данной области техники, включают усреднение аллельных отношений для SNP, по которым мать гомозиготна, но другой аллель обнаруживается при измерениях в плазме (контексты либо АА|АВ, либо АА|ВВ) и, как заявлено, определяют признаки плоидности, исходя из среднего соотношения аллелей для этих SNP. Указанный способ предназначен для случаев, когда генотип отца является недоступным. Отметим, что не вполне ясно, насколько точно можно утверждать, что плазма гетерозиготна по конкретному SNP в отсутствие гомозиготного противоположного отцовского контекста ВВ: для случаев с низким значением доли ДНК ребенка видимое присутствие аллеля В может означать просто наличие шума; кроме того, видимое отсутствие аллеля В может представлять собой просто выпадение аллеля при проведении измерений для плода. Даже в том случае, когда действительно можно определить гетерозиготность плазмы, указанный способ не позволяет различать родительские трисомии. В частности, для SNP, где мать соответствует АА, а в плазме крови измерено некоторое количество В, в том случае, если отец соответствует GG, генотип ребенка в результате представляет собой AGG, что дает среднее содержание А 33% (при доле ДНК ребенка = 100%). Однако в том случае, если отец соответствует AG, полученный в результате генотип ребенка может представлять собой AGG при совпадающей трисомии, что дает содержание А 33%, или AAG при несовпадающей трисомии, со сдвигом среднего содержания А до 66%. С учетом того, что многие трисомии имеют место в хромосомах с кроссинговером, хромосома в целом может характеризоваться любым показателем, от отсутствия несовпадающей трисомии до полной несовпадающей трисомии, и указанное содержание может принимать любые значения от 33 до 66%. При простой дисомии доля должна составлять около 50%. Без использования модели сцепления или точной модели ошибки среднего указанный способ будет пропускать много случаев отцовской трисомии. В отличие от этого способ, раскрытый в настоящем документе, назначает вероятности родительского генотипа для каждого кандидатного родительского генотипа, исходя из доступной информации о генотипе и частоты в популяции, и не обязательно требует знания родительских генотипов. Кроме того, способ, раскрытый в настоящем документе, способен обнаруживать трисомию даже при отсутствии генотипических данных родителей, или при наличии генотипических данных родителей и позволяет вводить поправки путем идентификации точек возможного кроссинговера от совпадающей к несовпадающей трисомии с применением модели сцепления.
В некоторых способах, известных в данной области техники, заявлен способ усреднения соотношений аллелей для SNP, если не известен ни генотип отца, ни генотип матери, и определения признаков плоидности, исходя из среднего отношения по этим SNP. Однако способ достижения этих результатов не раскрыт. Способ, раскрытый в настоящем документе, дает возможность точно определять признаки плоидности в такой ситуации; практическое применение раскрыто в других разделах настоящего документа, с использованием метода получения совместной вероятности с максимальным правдоподобием, и необязательно использует модели шума и смещения для SNP, а также модель сцепления.
Некоторые способы, известные в данной области техники, включают усреднение аллельных отношений и, как заявлено, определяют признаки плоидности, исходя из среднего аллельного отношения для одного или нескольких SNP. Однако такие способы не используют концепцию сцепления. Способам, раскрытые в настоящем документе, не свойственны указанные недостатки.
Использование длины последовательности в качестве априорного показателя для определения происхождения ДНК
Сообщалось, что распределение длин последовательностей для материнской и плодной ДНК отличается, причем ДНК плода обычно короче. Согласно варианту осуществления настоящего раскрытия можно использовать имеющуюся информацию в эмпирической форме и построить априорное распределение для ожидаемой длины ДНК как матери (Р(Х| матери), так и плода (Р(Х| плода)). Предположим, что имеется новая, не идентифицированная последовательность ДНК с длиной х; можно задать вероятность того, что данная последовательность ДНК является либо ДНК матери, либо ДНК плода, исходя из априорного значения вероятности х того, что последовательность принадлежит либо матери, либо ребенку. В частности, если Р(х|матери)>Р(х|плода), то последовательность ДНК можно классифицировать как принадлежащую матери, причем Р(х|матери) = Р(х|матери)/[(Р(х|матери) + Р(х| плода)], и если р(х|матери)<р(х|плода), то последовательность ДНК можно классифицировать как принадлежащую плоду, Р(х| плода) = Р(х| плода)/[(Р(х|матери)+Р(х| плода)]. Согласно варианту осуществления настоящего раскрытия можно определить распределения значений длин последовательностей матери и плода, которые являются специфическими для образца, путем рассмотрения последовательностей, которые можно указать как принадлежащие матери или плоду с высокой вероятностью, и тогда такое специфическое для образца распределение можно использовать в качестве ожидаемого распределения размера для такого образца.
Переменная глубина секвенирования для сведения к минимуму затрат на секвенирование
Во многих клинических испытаниях, касающихся диагностики, например у Chiu и др. BMJ 2011; 342: с7401, устанавливают протокол с рядом параметров и затем тот же протокол выполняют с теми же параметрами в отношении каждого из пациентов, принимающих участие в испытании. В случае определения статуса плоидности у вынашиваемого матерью плода с использованием секвенирования для проведения измерений на генетическом материале подходящим параметром будет количество считываний. Количество считываний может относиться к количеству фактических считываний, количеству предполагаемых считываний, неполным дорожкам, полным дорожкам или полным проточным ячейкам в секвенаторе. В этих исследованиях количество считываний, как правило, устанавливают на уровне, который будет гарантировать, что для всех или почти всех образцов будет достигнут желаемый уровень точности. В настоящее время секвенирование является дорогостоящей технологией со стоимостью приблизительно 200 долларов за 5 картированных миллионов считанных последовательностей, и, хотя цена падает, любой способ, который позволит проводить диагностику на основе секвенирования с аналогичным уровнем точности, но при меньшем количестве считываний, несомненно, сэкономит значительные средства.
Точность определения плоидности, как правило, зависит от ряда факторов, включая количество считываний и долю ДНК плода в смеси. Точность, как правило, является более высокой, когда доля ДНК плода в смеси выше. В то же время, точность, как правило, выше, если количество считываний больше. Можно получить два случая для ситуации, когда статус плоидности определяют со сравнимыми значениями точности, где в первом случае присутствует более низкая доля ДНК плода в смеси, чем во втором, и большее количество считываний получено при секвенировании в первом случае, чем во втором. Можно использовать оцененную долю ДНК плода в смеси в качестве ориентира при определении количества считываний, необходимого для достижения заданного уровня точности.
Согласно варианту осуществления настоящего раскрытия можно провести анализ набора образцов, в котором разные образцы в наборе секвенируют с различными значениями глубины секвенирования, где количество считываний, проанализированных в каждом из образцов, выбирают с тем, чтобы достичь заданного уровня точности с учетом рассчитанной доли плодной ДНК в каждой смеси. Согласно варианту осуществления настоящего раскрытия это может включать в себя проведение измерения смешанного образца для определения доли плодной ДНК в смеси; эту оценку доли плодной ДНК можно выполнить с использованием секвенирования, ее можно выполнить с использованием технологии TAQMAN, ее можно выполнить с использованием количественной ПЦР (количественной ПЦР), ее можно выполнить с использованием микроматриц для выявления SNP, ее можно выполнить с использованием любого способа, с помощью которого можно установить различия между различными аллелями в заданных локусах. Необходимость оценки доли плодной ДНК можно исключить путем включения гипотез, которые распространяются на все или выбранный набор значений доли плодной ДНК в наборе гипотез, которые рассматривают при сравнении с фактическими данными, полученными с помощью измерений. После определения доли плодной ДНК в смеси можно определить количество прочитанных последовательностей для каждого образца.
Согласно варианту осуществления настоящего раскрытия 100 беременных женщин посещают своих лечащих акушеров-гинекологов; у них берут образцы крови в пробирки для забора крови со средством, препятствующим лизису, и/или каким-либо средством для инактивации ДНКазы. Каждая из женщин забирает домой набор для отца вынашиваемого плода; отец сдает образец слюны. Оба набора генетических материалов для всех 100 пар отсылают обратно в лабораторию, где материнскую кровь осаждают центрифугированием и выделяют лейкоцитарную пленку, а также плазму. Плазма содержит смесь ДНК матери, а также происходящую из плаценты ДНК. Лейкоцитарную пленку матери и кровь отца генотипируют с использованием матриц для SNP, и на ДНК в образцах плазмы матери нацеливают зонды гибридизации SURESELECT. Расщепленную ДНК с зондами используют для создания 100 маркированных библиотек, по одной на каждый материнский образец, при этом каждый образец маркирован особым маркером. Часть каждой библиотеки извлекают, все указанные части смешивают и добавляют на две дорожки секвенатора ДНК ILLUMINA HISEQ в мультиплексном режиме; каждая дорожка дает в результате примерно 50 миллионов картируемых считанных последовательностей, дает в результате примерно 100 картируемых считанных последовательностей на 100 мультиплексированных смесей или примерно 1 миллион считываний на образец. Считывания последовательностей использовали для определения доли плодной ДНК в каждой смеси. 50 образцов содержали более 15% ДНК плода в смеси, и 1 миллиона считываний было достаточно для определения статуса плоидности у плодов с достоверностью 99,9%.
Из оставшихся смесей 25 содержали от 10% до 15% плодной ДНК; часть каждой из полученных соответствующих библиотек из этих смесей объединяли и прогоняли по одной дорожке на HISEQ, получая дополнительные 2 миллиона считываний для каждого образца. Два набора данных секвенирования для каждой из смесей с 10-15% ДНК плода складывали, и получали в результате 3 миллиона считываний на образец, что было достаточным для определения статуса плоидности у этих плодов с достоверностью 99,9%.
Из числа оставшихся смесей 13 содержали от 6% до 10% плодной ДНК; часть каждой из полученных соответствующих библиотек из этих смесей объединяли и прогоняли по одной дорожке на HISEQ, получая дополнительные 4 миллиона считываний для каждого образца. Два набора данных секвенирования для каждой из смесей с 6-10% ДНК плода складывали, и получали в сумме 5 миллионов считываний на смесь, что было достаточным для определения статуса плоидности у этих плодов с достоверностью 99,9%.
Из числа оставшихся смесей 8 содержали от 4% до 6% плодной ДНК; часть каждой из полученных соответствующих библиотек из этих смесей объединяли и прогоняли по одной дорожке на HISEQ, получая дополнительные 6 миллионов считываний для каждого образца. Два набора данных секвенирования для каждой из смесей с 4-6% ДНК плода складывали, и получали в сумме 7 миллионов считываний на смесь, что было достаточным для определения статуса плоидности у этих плодов с достоверностью 99,9%.
Из оставшихся четырех смесей все содержали от 2% до 4% плодной ДНК; часть каждой из полученных соответствующих библиотек из этих смесей объединяли и прогоняли по одной дорожке на HISEQ, получая дополнительные 12 миллионов считываний для каждого образца. Два набора данных секвенирования для каждой из смесей с 2-4% ДНК плода складывали, и получали в сумме 13 миллионов считываний на смесь, что было достаточным для определения статуса плоидности у этих плодов с достоверностью 99,9%.
Указанный способ требует шести дорожек для секвенирования на аппарате HISEQ для достижения точности 99,9% на 100 образцах. Если бы такое же количество прогонов было необходимо для каждого образца, для гарантии точности 99,9% каждого определения плоидности потребовалось бы 25 дорожек для секвенирования, и если бы частота отсутствия признака или частота ошибки 4% была допустимой, ее можно было бы достичь с 14 дорожками для секвенирования.
Использование необработанных данных генотипирования
Существует ряд способов, с помощью которых можно осуществлять NPD (неинвазивную пренатальную генетическую диагностику) с использованием генетической информации плода, полученной с помощью измерений плодной ДНК, присутствующей в материнской крови. Некоторые из этих способов включают проведение измерений плодной ДНК с использованием матриц для SNP, некоторые способы включают нецелевое секвенирование и некоторые способы включают целевое секвенирование. Целевое секвенирование может быть нацелено на SNP, оно может быть нацелено на STR (короткие концевые повторы), оно может быть нацелено на другие полиморфные локусы, оно может быть нацелено на неполиморфные локусы или на их комбинацию. Некоторые из указанных способов могут включать использование коммерческого или проприетарного идентификатора аллелей, прогнозирующего идентичность аллелей, исходя из данных интенсивности, которые поступают от сенсоров в аппарате, выполняющем измерение. Например, система ILLUMINA INFINiUM или система для микроматричного анализа AFFYMETRIX GENECHIP включает гранулы или микрочипы с присоединенными последовательностями ДНК, которые могут гибридизоваться с комплементарными сегментами ДНК; при гибридизации происходит изменение флуоресцентных свойств сенсорной молекулы, которое можно детектировать. Также существуют способы секвенирования, например геномный секвенатор ILLUMINA SOLEXA GENOME SEQUENCER или геномный секвенатор ABI SOLID GENOME SEQUENCER, в которых секвенируют генетическую последовательность фрагментов ДНК; при удлинении цепи ДНК, комплементарной секвенируемой цепи, идентификационную информацию для продолжаемого нуклеотида, как правило, детектируют через флуоресцентную или радиоизотопную метку, прикрепленную к комплементарному нуклеотиду. Во всех этих способах генотипические данные или данные секвенирования, как правило, определяют на основе флуоресцентных или других сигналов или их отсутствия. Указанные системы, как правило, объединены с пакетами низкоуровневого программного обеспечения, которое прогнозирует наличие конкретных аллелей (вторичные генетические данные), исходя из аналоговых выходных данных устройства детекции флуоресценции или другого детектирующего устройства (первичные генетические данные). Например, для определенного аллеля на матрице для SNP программное обеспечение даст прогноз, например, того, что определенный SNP присутствует или не присутствует, если измеренная интенсивность флуоресценции выше или ниже определенного порогового значения. Аналогичным образом, выходные данные секвенатора представляют собой хроматограмму, которая показывает уровень флуоресценции, выявленный для каждого из красителей, и программное обеспечение будет давать прогноз того, что определенная пара оснований представляет собой А или Т, или С или G. Секвенаторы с высокой пропускной способностью, как правило, выполняют серию таких измерений, называемую «считанной последовательностью», представляющим наиболее вероятную структуру последовательности ДНК, которая была секвенирована. Непосредственный аналог выводимых данных хроматограммы определен в данном описании как первичные генетические данные, а прогнозы для пар оснований/SNP, производимые программным обеспечением, рассмотрены в данном описании как вторичные генетические данные. Согласно варианту осуществления первичные данные относятся к необработанным интенсивностным данным, которые представляют собой выходные данные платформы для генотипирования без обработки, при этом платформа для генотипирования может относиться к матрице для SNP или к платформе для секвенирования. Вторичные генетические данные относятся к обработанным генетическим данным, то есть выполненному прогнозированию аллеля, или представлению данных секвенирования в виде пар оснований и/или картированию с геномом считанных последовательностей, полученных при секвенировании.
Многие более высокоуровневые приложения используют указанные прогнозы для аллелей, прогнозы для SNP и считанные последовательности, то есть вторичные генетические данные, которые производит программное обеспечение для генотипирования. Например, DNA NEXUS, ELAND или MAQ берут полученные при секвенировании считанные последовательности и картируют с геномом. Например, в контексте неинвазивной пренатальной диагностики сложные методы на основе информатики, такие как PARENTAL SUPPORTтм, может максимально использовать большое количество прогнозов для SNP для определения генотипа индивидуума. Также, в контексте преимплантационной генетической диагностики, можно рассмотреть набор считанных последовательностей, картированных с геномом, и взяв нормализованное число считанных последовательностей, которые можно картировать с каждой хромосомой или частью хромосомы, можно определить статус плоидности индивидуума. Применительно к неинвазивной пренатальной диагностике можно взять набор считываний для последовательности, которые были измерены в присутствующей в плазме крови матери ДНК, и картировать их с геномом. Затем можно взять нормализованное число считанных последовательностей, которые картируются с каждой хромосомой или частью хромосомы, и использовать эти данные для определения статуса плоидности индивидуума. Например, можно сделать вывод, что хромосомы, которые характеризуются непропорционально большим числом считываний, являются трисомными у плода, вынашиваемого матерью, у которой брали кровь.
Однако в реальности исходные выходные данные измерительных приборов представляют собой аналоговый сигнал. Когда определенная пара оснований прогнозируется программным обеспечением, которое связано с программным обеспечением для секвенирования, например, программное обеспечение может указывать пару оснований Т, тогда как в действительности указание представляет собой прогноз, который, как предполагает программное обеспечение, является наиболее вероятным. В некоторых случаях, однако, прогноз может иметь низкую достоверность, например, аналоговый сигнал может указывать, что конкретная пара оснований с вероятностью только 90% представляет собой Т, а с вероятностью 10% представляет собой А. В другом примере прогнозирующее генотип программное обеспечение, которое связано с ридером матриц для SNP, может прогнозировать, что определенный аллель представляет собой G. Однако в действительности исходный аналоговый сигнал может указывать на существование только 70% вероятности того, что аллель представляет собой G, и 30% вероятности того, что аллель представляет собой Т. В указанных случаях, если высокоуровневые приложения используют прогнозы для генотипа и прогнозы для секвенирования, выполняемые низкоуровневым программным обеспечением, они теряют некоторое количество информации. Таким образом, первичные генетические данные, измеренные непосредственно с помощью платформы для генотипирования, могут быть «грязнее» вторичных генетических данных, определенных с помощью прикладных пакетов программного обеспечения, но содержат больше информации. Многие считанные последовательности исключают при картировании с геномом вторичных генетических данных последовательностей, поскольку некоторые основания не прочитываются с достаточной ясностью и/или картирование не является однозначным. При использовании первичных генетических данных для считываний последовательностей все или многие из указанных считываний, которые могли быть исключены при первоначальном преобразовании во вторичные генетические данные для считанной последовательности, могут быть использованы посредством применения к ним вероятностного метода.
Согласно варианту осуществления настоящего раскрытия высокоуровневое программное обеспечение не использует аллельные признаки, прогнозы для SNP или считанные последовательности, которые выполняются низкоуровневым программным обеспечением. Вместо этого высокоуровневое программное обеспечение основывает свои расчеты на аналоговых сигналах, непосредственно измеряемых платформой для генотипирования. Согласно варианту осуществления настоящего раскрытия способ на основе информатики, такой как PARENTAL SUPPORTтм, модифицируют с тем, чтобы его способность реконструировать генетические данные эмбриона/ плода/ ребенка давала возможность непосредственного использования первичных генетических данных, которые измеряются платформой для генотипирования. Согласно варианту осуществления настоящего раскрытия с помощью способа на основе информатики, такого как PARENTAL SUPPORTтм, можно получать признаки аллелей и/или признаки количества копий хромосомы с использованием первичных генетических данных и без использования вторичных генетических данных. Согласно варианту осуществления настоящего раскрытия все генетические прогнозы, прогнозы для SNP, считанные последовательности, результаты картирования последовательности обрабатывают вероятностным методом, используя необработанные данные интенсивности, измеренные непосредственно платформой для генотипирования, а не путем превращения первичных генетических данных во вторичные генетические прогнозы. Согласно варианту осуществления данные, полученные с помощью измерений ДНК из подготовленного образца, используемые при расчете вероятности числа аллелей и определении относительной вероятности каждой гипотезы, включают первичные генетические данные.
Согласно некоторым вариантам осуществления способ может повышать точность генетических данных целевого индивидуума, включающие генетические данные по меньшей мере одного родственного индивидуума, при это указанный способ включает получение первичных генетических данных, специфических для генома целевого индивидуума, и генетических данных, специфических для генома (геномов) родственного индивидуума (индивидуумов), создание набора из одной или нескольких гипотез, касающихся, потенциально, того, какие сегменты каких хромосом от родственного индивидуума (индивидуумов) соответствуют таким сегментам в геноме целевого индивидуума, определение вероятности каждой из гипотез с учетом первичных генетических данных целевого индивидуума и генетических данных родственного индивидуума (индивидуумов) и использование вероятностей, связанных с каждой гипотезой, для определения наиболее вероятного состояния имеющегося генетического материала целевого индивидуума. Согласно некоторым вариантам осуществления с помощью способа можно определить количество копий сегмента хромосомы в геноме целевого индивидуума, при этом способ включает создание набора гипотез количества копий о том, какое количество копий сегмента хромосомы присутствует в геноме целевого индивидуума, включение первичных генетических данных от целевого индивидуума и генетической информации от одного или нескольких родственных индивидуумов в набор данных, оценка характеристик полученного платформой ответного сигнала, связанного с набором данных, где ответный сигнал, полученный платформой, может изменяться от одного эксперимента к другому, вычисление обусловленных вероятностей гипотезы каждого количества копий с учетом набора данных и характеристик ответного сигнала, полученного платформой, и определение числа копий сегмента хромосомы, исходя из наиболее вероятной гипотезы количества копий. Согласно варианту осуществления с помощью способа согласно настоящему раскрытию можно определить состояние плоидности для по меньшей мере одной хромосомы у целевого индивидуума, при этом способ включает получение первичных генетических данных от целевого индивидуума и от одного или нескольких родственных индивидуумов, создание набора из по меньшей мере одной гипотезы статуса плоидности для каждой из хромосом целевого индивидуума, использование одной или нескольких экспертных методик для определения статистической вероятности каждой гипотезы статуса плоидности в наборе для каждой используемой экспертной методики с учетом полученных генетических данных, объединение статистических вероятностей для каждой гипотезы статуса плоидности, которые определены с помощью одной или нескольких экспертных методик, и определение статуса плоидности для каждой из хромосом у целевого индивидуума, исходя из объединенных статистических вероятностей для каждой гипотезы статуса плоидности. Согласно варианту осуществления с помощью способа согласно настоящему раскрытию можно определить аллельный статус в наборе аллелей у целевого индивидуума, и у одного или обоих родителей целевого индивидуума, и необязательно у одного или нескольких родственных индивидуумов, при этом способ включает получение первичных генетических данных от целевого индивидуума, и от одного или обоих родителей, и от любых родственных индивидуумов, создание набора из по меньшей мере одной гипотезы в отношении аллеля для целевого индивидуума, и для одного или обоих родителей, и необязательно для одного или нескольких родственных индивидуумов, где гипотезы описывают возможные аллельные статусы в наборе аллелей, определение статистической вероятности для каждой гипотезы в отношении аллеля в наборе гипотез с учетом полученных генетических данных и определение аллельного статуса для каждого из аллелей в наборе аллелей целевого индивидуума, и для одного или обоих родителей, и необязательно для одного или нескольких родственных индивидуумов, исходя из статистических вероятностей каждой из гипотез в отношении аллеля.
Согласно некоторым вариантам осуществления генетические данные от смешанного образца могут включать данные секвенирования, при этом данные секвенирования могут не быть однозначно картированы с геномом человека. Согласно некоторым вариантам осуществления генетические данные от смешанного образца могут содержать данные секвенирования, при этом указанные данные секвенирования картируются с множеством локализаций в геноме, где каждый возможный результат картирования связан с вероятностью того, что данное картирование является верным. Согласно некоторым вариантам осуществления не предполагается, что считанные последовательности связаны с конкретным положением в геноме. Согласно некоторым вариантам осуществления считанные последовательности связаны с множеством положений в геноме и связанной вероятностью нахождения в указанном положении. Способ подсчета для определения числа копий хромосом
Согласно одному аспекту в настоящем изобретении предложены способы тестирования на анормальное распределение плодной хромосомы путем сравнения числа маркеров последовательности, выравниваемых по разным хромосомам (см., например, патент США №8296076, поданный 20 апреля 2012 г., полностью включенный в настоящий документ посредством ссылки). Как известно в данной области техники, термин «маркер последовательности» относится к относительно короткой (например, 15-100) последовательности нуклеиновой кислоты, которая может использоваться для идентификации определенной большей последовательности, например, быть картирована с хромосомой, или геномной областью, или геномом. Согласно некоторым вариантам осуществления указанный способ включает (i) приведение в контакт образца, который включает смесь материнской и плодной ДНК, с библиотекой праймеров, которые одновременно гибридизуются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных целевых локусов, в результате чего получают реакционную смесь; при этом указанные целевые локусы взяты из множества разных хромосом; и при этом указанное множество разных хромосом содержит по меньшей мере одну первую хромосому, предположительно имеющую анормальное распределение в указанном образце, и по меньшей мере одну вторую хромосому, предположительно имеющую нормальное распределение в указанном образце; (ii) помещение реакционной смеси в условия реакции удлинения праймеров, в результате чего получают продукты амплификации; (iii) секвенирование амплифицированных продуктов для получения множества маркеров последовательности, выравнивающихся с целевыми локусами; при этом указанные маркеры последовательности имеют достаточную длину, чтобы соответствовать конкретному целевому локусу; (iv) определение на компьютере соответствия множества маркеров последовательности соответствующим им целевым локусам; (v) определение на компьютере числа маркеров последовательности, выравнивающихся с целевыми локусами первой хромосомы, и числа маркеров последовательности, выравнивающихся с целевыми локусами второй хромосомы; и (vi) сравнение величин, полученных на этапе (v), для определения наличия или отсутствия анормального распределения первой хромосомы.
Согласно одному аспекту в настоящем изобретении предложены способы обнаружения наличия или отсутствия анеуплоидии плода путем сравнения относительной частоты целевых ампликонов между хромосомами (см., например, публикацию РСТ №WO 2012/103031, поданную 23 января 2012 г, полностью включенную в настоящий документ посредством ссылки). Согласно некоторым вариантам осуществления указанный способ включает (i) приведение в контакт образца, который включает смесь материнской и плодной ДНК, с библиотекой праймеров, которые одновременно гибридизуются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных неполиморфных целевых локусов, в результате чего получают реакционную смесь; при этом указанные целевые локусы взяты из множества разных хромосом; (ii) помещение реакционной смеси в условия реакции удлинения праймеров, в результате чего получают амплифицированные продукты, которые включают целевые ампликоны; (iii) количественное определение на компьютере относительной частоты целевых ампликонов из первой и второй представляющих интерес хромосом; (iv) сравнение на компьютере относительной частоты целевых ампликонов из первой и второй представляющих интерес хромосом; и (v) идентификацию наличия или отсутствия анеуплоидии на основании сравниваемых относительных частот первой и второй представляющих интерес хромосом. Согласно некоторым вариантам осуществления первая хромосома представляет собой хромосому, предположительно являющуюся эуплоидной. Согласно некоторым вариантам осуществления вторая хромосома представляет собой хромосому, предположительно являющуюся анеуплоидной
Комбинирование способов пренатальной диагностики
Существует множество способов, подходящих для пренатальной диагностики или пренатального скрининга анеуплоидии или других генетических дефектов. В различных разделах настоящего документа, а также в заявке на выдачу патента США на изобретение с серийным №11/603406, которая была подана 28 ноября 2006 г.; заявке на выдачу патента США на изобретение с серийным №12/076348, которая была подана 17 марта 2008 г., и заявке РСТ с серийным №PCT/S09/52730, описан один из таких способов, где использованы генетические данные родственных индивидуумов для повышения точности определения или оценки генетических данных целевого индивидуума, такого как плод. Другие способы, используемые для пренатальной диагностики, включают измерение уровней определенных гормонов в материнской крови, при этом указанные гормоны коррелируют с различными генетическими аномалиями. Пример подобных анализов называется тройным тестом, в котором в материнской крови измеряются уровни нескольких (обычно двух, трех, четырех или пути) разных гормонов. В случае, если для определения вероятности определенного конечного результата применяется несколько способов, причем ни один из указанных способов сам по себе не является исчерпывающим, можно комбинировать информацию, полученную с применением указанных способов, для получения более точного прогноза, чем обеспечиваемый любым из индивидуальных способов. В тройном тесте комбинирование информации по трем разным гормонам позволяет в результате дать более точный прогноз генетических аномалий, чем тот, который можно получить на основании уровней отдельных гормонов.
В настоящем документе раскрывается способ получения более точных прогнозов относительно генетического статуса плода, в частности, возможности существования у плода генетических аномалий, который включает комбинирование прогнозов генетических аномалий у плода, причем указанные прогнозы получают с использованием ряда способов. «Более точный» способ может относиться к способу диагностики аномалии, дающему меньше ложноотрицательных результатов при определенном уровне ложноположительных результатов. В предпочтительном варианте осуществления согласно настоящему раскрытию один или несколько прогнозов получают на основе генетических данных, известных для плода, при этом генетические сведения были получены с использованием способа PARENTAL SUPPORTтм, то есть с использованием генетических данных родственных плоду индивидуумов для определения генетических данных плода с большей точностью. Согласно некоторым вариантам осуществления генетические данные могут включать состояния плоидности плода. Согласно некоторым вариантам осуществления генетические данные могут относиться к набору признаков аллелей в геноме плода. Согласно некоторым вариантам осуществления некоторые из прогнозов могут быть получены с применением тройного теста. Согласно некоторым вариантам осуществления некоторые из прогнозов могут быть получены с применением измерений уровней других гормонов в материнской крови. Согласно некоторым вариантам осуществления прогнозы, полученные с помощью рассмотренных способов диагностики, можно комбинировать с прогнозами, полученными с помощью рассмотренных способов скрининга. Согласно некоторым вариантам осуществления указанный способ включает измерение в материнской крови уровней альфа-фетопротеина (AFP). Согласно некоторым вариантам осуществления указанный способ включает измерение в материнской крови уровней неконъюгированного эстриола (UE3). Согласно некоторым вариантам осуществления указанный способ включает измерение в материнской крови уровней бета-хорионического гонадотропина человека (beta-hCG). Согласно некоторым вариантам осуществления указанный способ включает измерение в материнской крови уровней инвазивного трофобластического антигена (ITА). Согласно некоторым вариантам осуществления указанный способ включает измерение в материнской крови уровней ингибина. Согласно некоторым вариантам осуществления указанный способ включает измерение в материнской крови уровней ассоциированного с беременностью протеина А плазмы (РАРР-А). Согласно некоторым вариантам осуществления указанный способ включает измерение в материнской крови уровней других гормонов или сывороточных маркеров. Согласно некоторым вариантам осуществления некоторые из прогнозов могут быть получены с применением других способов. Согласно некоторым вариантам осуществления некоторые из прогнозов могут быть получены с использованием полностью интегрированного теста, например, комбинирующего ультразвуковое исследование, анализ крови на сроке беременности приблизительно 12 недель и второй анализ на сроке приблизительно 16 недель.). Согласно некоторым вариантам осуществления указанный способ включает измерение прозрачности шейной складки (NT) у плода. Согласно некоторым вариантам осуществления указанный способ включает использование измеренных уровней вышеупомянутых гормонов для прогнозирования. Согласно некоторым вариантам осуществления указанный способ включает комбинацию вышеупомянутых способов.
Существует множество способов комбинирования прогнозов, например, можно преобразовать результаты измерений гормонов в кратное медианы (МоМ) и затем в отношения правдоподобия (LR). Аналогичным образом, другие измерения можно трансформировать в LR с применением смешанной модели распределений показателя NT. LR для NT и биохимических маркеров можно умножить на риск, связанный с возрастом и вынашиванием для получения значений риска различных состояний, таких как трисомия 21. Частоты обнаружения (DR) и частоты ложноположительных результатов (FPR) можно рассчитать, взяв соотношения рисков выше заданного порогового значения риска.
Согласно варианту осуществления способ получения признаков плоидности включает комбинирование относительных вероятностей каждой из гипотез плоидности, определенных с применением модели совместного распределения, и вероятностей числа аллелей с относительными вероятностями каждой из гипотез плоидности, которые рассчитывают с применением статистических методов из других способов определения оценки рисков трисомии плода, включая, но не ограничиваясь перечисленными: анализ числа считываний, сравнение степеней гетерозиготности, статистические показатели, доступные только при использовании родительской генетической информации, вероятность нормализованных сигналов генотипа для определенных родительских контекстов, статистические показатели, которые рассчитывают с применением оцененной доли плода в первом образце или подготовленном образце и их комбинации.
Другой способ может включать ситуацию с измеряемыми уровнями четырех гормонов, когда известно распределение вероятности для этих гормонов: p(x1, х2, х3, х4|е) для случая эуплоидии и р(х1, х2, х3, х4|а) для случая анеуплоидии. Затем можно измерить распределение вероятности для измерений ДНК, g(y|e) и g(y|a) для случаев эуплоидии и анеуплоидии, соответственно. Предполагая, что они являются независимыми с учетом предположения об эуплоидии/анеуплоидии, можно объединить их в виде p(x1, х2, х3, х4|a)g(y|a) и p(x1, х2, х3, x4|e)g(y|e), и затем умножить каждую на априорные р(а) и р(е) при заданном возрасте матери. Затем можно выбрать максимальное значение.
Согласно варианту осуществления можно задействовать центральную предельную теорему, чтобы предположить, что распределение в g(y|a или е) является гауссовым, и измерить среднее значение и стандартное отклонение, учитывая множество образцов. Согласно другому варианту осуществления можно предположить, что они не являются независимыми, учитывая результат, и собрать достаточно образцов для оценки совместного распределения p(x1, х2, х3, х4|a или е).
Согласно варианту осуществления состояние плоидности целевого индивидуума определяют как состояние плоидности, связанное с гипотезой, вероятность которой максимальна. В некоторых случаях одна гипотеза будет иметь нормализованную, совместную вероятность, превышающую 90%. Каждая гипотеза связана с одним состоянием плоидности или с совокупностью состояний плоидности, и состояние плоидности, связанное с гипотезой, нормализованная совместная вероятность которой превышает 90%, или какую-либо другую пороговую величину, такую как 50%, 80%, 95%, 98%, 99% или 99,9%, может быть выбрано в качестве порогового для признания гипотезы определенным состоянием плоидности.
ДНК детей от предыдущих беременностей в материнской крови
Одна из трудностей для неинвазивной пренатальной диагностики заключается в том, чтобы отличить плодные клетки от текущей беременности от плодных клеток от предыдущих беременностей. Есть мнение, что генетический материал от предыдущих беременностей спустя какое-то время исчезает, но убедительные доказательства представлены не были. Согласно варианту осуществления, раскрытому в настоящем описании, возможно определение плодной ДНК отцовского происхождения, присутствующей в материнской крови (то есть ДНК, унаследованной плодом от отца) с применением метода PARENTAL SUPPORTтм (PS) и информации об отцовском геноме. Указанный способ может задействовать фазированную родительскую генетическую информацию. Родительский генотип может быть фазирован по нефазированной генотипической информации с использованием генетических данных от родителей (например, измеренных генетических данных спермы деда) или генетических данных других рожденных детей, или образца материала выкидыша. Также возможно фазирование нефазированной генетической информации с применением фазирования на основе НарМар или гаплотипирования отцовских клеток. Было продемонстрировано успешное гаплотипирование путем остановки клеток в фазе митоза, когда хромосомы имеют вид плотных пучков, и перенесения отдельных хромосом в отдельные лунки с применением микрофлюидики. Согласно другому варианту осуществления могут использоваться фазированные данные родительского гаплотипа для обнаружения присутствия более чем одного гомолога от отца, что указывает на присутствие в крови генетического материала более чем одного ребенка. Сфокусировав внимание на хромосомах, предположительно эуплоидных у плода, можно исключить возможность того, что у плода имеется трисомия. Также возможно определение того, что плодная ДНК происходит не от отца вынашиваемого в текущий момент плода, в этом случае можно использовать другие способы, такие как тройной тест, для прогнозирования генетических аномалий.
Могут существовать и другие источники плодного генетического материала, получаемого отличными от взятия крови способами. В случае плодного генетического материала, присутствующего в материнской крови, имеется две основных категории: (1) целые плодные клетки, например, ядросодержащие плодные эритроциты или эритробласты, и (2) свободноплавающая плодная ДНК. В случае целых плодных клеток имеются некоторые данные, свидетельствующие, что плодные клетки могут оставаться в материнской крови на протяжении длительного периода времени, таким образом, что возможно получение от беременной женщины клетки, которая содержит ДНК ребенка или плода от предыдущей беременности. Существуют также данные, указывающие на выведение свободноплавающей плодной ДНК из системы в течение нескольких недель. Одной из сложных задач является определение индивидуума, чей генетический материал содержится в клетке, то есть необходимо убедиться, что измеряемый генетический материал не относится к плоду от предыдущей беременности. Согласно варианту осуществления, раскрытому в настоящем описании, информация о материнском генетическом материале может использоваться для подтверждения того, что рассматриваемый генетический материал не является материнским генетическим материалом. Существует ряд способов достижения указанной цели, включая способы на основе информатики, такие как PARENTAL SUPPORTтм, согласно описанию в настоящем документе или в любом из патентов, на которые приведены ссылки в настоящем документе.
Согласно варианту осуществления, раскрытому в настоящем описании, кровь, полученная от беременной матери, может быть разделена на фракцию, содержащую свободноплавающую плодную ДНК, и фракцию, содержащую ядросодержащие эритроциты. Свободноплавающая ДНК может необязательно быть обогащенной; для указанной ДНК может быть получена генотипическая информация. Исходя из полученной генотипической информации для свободноплавающей ДНК, можно использовать информацию о материнском генотипе для определения аспектов плодного генотипа. Указанные аспекты могут относиться к состоянию плоидности и/или набору идентификационных характеристик (идентичностей) для аллелей. Затем индивидуальные ядросодержащие эритроциты могут быть генотипированы с применением способов, описанных в различных разделах настоящего документа и в других цитируемых патентах, в частности, упоминаемых в первом разделе настоящего документа. Информация о материнском геноме позволяет определить, является или нет конкретная одиночная клетка крови генетически материнской. Далее, аспекты плодного генотипа, определенные согласно описанию выше, позволят определить, происходит ли указанная одиночная клетка крови генетически от плода, вынашиваемого в настоящее время. В сущности, указанный аспект раскрываемого изобретения позволяет использовать генетическую информацию матери, и, возможно, генетическую информацию других родственных индивидуумов, например, отца, наряду с генетической информацией, полученной из свободноплавающей ДНК, присутствующей в материнской крови, для определения того, является ли выделенная ядросодержащая клетка, присутствующая в материнской крови, (а) генетически материнской, (b) происходящей генетически от плода, вынашиваемого в настоящее время, или (с) происходящей генетически от плода от предыдущей беременности.
Пренатальное определение анеуплоидии половых хромосом
В известных в данной области техники способах при попытках определить пол вынашиваемого плода по крови матери использовался тот факт, что в плазме матери присутствует свободноплавающая плодная ДНК (fffDNA). В том случае, если могут быть выявлены Y-специфичные локусы в материнской плазме, это означает, что вынашиваемый плод мужского пола. Тем не менее, при использовании известных в данной области техники способов отсутствие выявленных Y-специфичных локусов в плазме не всегда гарантированно означает, что вынашиваемый плод женского пола, поскольку в некоторых случаях количество fffDNA слишком мало для того, чтобы можно было гарантировать, что в случае плода мужского пола будут выявлены Y-специфичные локусы.
В настоящем документе представлен новый способ, который не требует измерения Y-специфичных нуклеиновых кислот, т.е. ДНК из локусов исключительно отцовского происхождения. В раскрытом ранее методе PARENTAL SUPPORT для определения состояния плоидности вынашиваемого плода используются данные частоты кроссинговера, родительские генотипические данные и методики информатики. Пол плода - это просто состояние плоидности половых хромосом плода. Ребенок женского пола имеет генотип XX, а ребенок мужского пола - генотип XY. Описанный в настоящем документе способ также дает возможность определить состояние плоидности плода. Отметим, что определение пола является фактически синонимом определения плоидности половых хромосом; в случае определения пола часто формулируется предположение, что ребенок эуплоидный, следовательно, возможных гипотез становится меньше.
Раскрытый в настоящем документе способ включает изучение локусов, которые являются общими и для X, и для Y хромосом, для создания базового уровня по показателю ожидаемого количества присутствующей плодной ДНК для плода. Затем области, специфичные только для Х-хромосомы, могут быть изучены для определения того, является ли плод женского или мужского пола. В случае мужского пола ожидается наличие меньшего количества плодной ДНК из локусов, специфичных для Х-хромосомы, чем количество ДНК из локусов, специфичных и для Х-, и для Y-хромосом. Напротив, в случае плодов женского пола ожидается, что количество ДНК для каждой из указанных групп будет одинаковым. Исследуемая ДНК может быть измерена любой методикой, которая количественно определяет количество ДНК, присутствующей в образце, например, количественная ПЦР, матрицы SNP, матрицы генотипирования или секвенирование. Для ДНК, которая принадлежит исключительно одному индивидууму, ожидается увидеть следующее:
В случае, если ДНК плода смешана с ДНК матери, и доля плодной ДНК в смеси представляет собой F, а доля материнской ДНК в смеси представляет собой М, так что F+M=100%, ожидается увидеть следующее:
В случае, если F и М известны, можно вычислить ожидаемые отношения и наблюдаемые данные можно сравнить с ожидаемыми данными. В случае, если М и F неизвестны, порог может быть выбран на основании накопленных данных. В обоих случаях измеренное количество ДНК в локусах, специфичных и для X, и для Y, может быть использовано в качестве базового уровня, и тест на определение пола плода может быть основан на количестве ДНК, наблюдаемом в локусах, специфичных только для Х-хромосомы. Если указанное количество меньше базового уровня приблизительно на ½ F или на величину, которая уменьшает его до значений ниже предустановленного порога, считают, что плод мужского пола; если указанное количество приблизительно равно базовому уровню или не ниже на величину, уменьшающую его до значений ниже предустановленного порога, считают, что плод женского пола.
Согласно другому варианту осуществления можно рассматривать только те локусы, которые являются общими и для Х-, и для Y-хромосом, часто называемые Z-хромосомой. Поднабор локусов в Z-хромосоме всегда обозначается А для Х-хромосомы и В для Y-хромосомы. Если выясняется, что SNP из Z-хромосомы имеют В-генотип, то считается, что плод мужского пола; если выясняется, что SNP из Z-хромосомы имеют только А-генотип, то считается, что плод женского пола. Согласно другому варианту осуществления можно рассматривать локусы, которые обнаруживаются только в Х-хромосоме. Контексты, такие как АА|В являются особенно информативными, поскольку присутствие В указывает на то, что плод получил Х-хромосому от отца. Контексты, такие как АВ|В также информативны, поскольку ожидается увидеть, что В присутствует в количестве в 2 раза меньшем, как часто наблюдается в случае, если плод женского пола, в отличие от плода мужского пола. Согласно другому варианту осуществления можно рассматривать SNP в Z-хромосоме, при этом в Х- и Y-хромосомах присутствуют как аллель А, так и аллель В, и при этом известно, какие SNP происходят из отцовской Y-хромосомы, и какие из отцовской Х-хромосомы.
Согласно варианту осуществления можно амплифицировать однонуклеотидные положения, которые, как известно, варьируют между гомологичными нерекомбинирующимися областями (HNR), общими для Y- и Х-хромосом. Последовательность в пределах такой области HNR в основном идентична между Х- и Y-хромосомами. Внутри этой идентичной области имеются однонуклеотидные положения, которые, будучи инвариантными среди Х-хромосом и среди Y хромосом в популяции, различны у Х- и Y-хромосом. Каждый анализ ПЦР может амплифицировать последовательность из локусов, присутствующих и в Х-, и в Y-хромосомах. В каждой амплифицированной последовательности будет одно основание, которое может быть выявлено с использованием секвенирования или некоторых других способов.
Согласно варианту осуществления пол плода можно установить по плодной свободноплавающей ДНК, присутствующей в материнской плазме, способ включает некоторые или все следующие этапы: 1) конструирование праймеров для ПЦР (для обычной или мини-ПЦР, при необходимости с мультиплексированием), амплифицирующих варианты X/Y однонуклеотидных положений в области HNR, 2) получение материнской плазмы, 3) ПЦР-амплификация целей из материнской плазмы с использованием матриц ПЦР для HNR X/Y, 4) секвенирование ампликонов, 5) проверка данных секвенирования на предмет присутствия Y-аллеля в одной или нескольких амплифицированных последовательностях. Присутствие одного или нескольких таких аллелей будет свидетельствовать о том, что плод мужского пола. Отсутствие всех Y-аллелей во всех ампликонах указывает на то, что плод женского пола.
Согласно варианту осуществления можно использовать целевое секвенирование для измерения ДНК в материнской плазме и/или родительских генотипов. Согласно варианту осуществления можно игнорировать все последовательности, которые явно происходят из отцовских источников ДНК. Например, в контексте АА|АВ можно подсчитать число А-последовательностей и проигнорировать все В-последовательности. Чтобы определить степень гетерозиготности для вышеупомянутого алгоритма, можно сравнить число наблюдаемых А-последовательностей с ожидаемым числом общих последовательностей для данного зонда. Существует много способов, с помощью которых можно рассчитать ожидаемое число последовательностей для каждого зонда на образец. Согласно варианту осуществления можно использовать накопленные данные для определения доли всех считываний последовательностей, принадлежащей каждому специфичному зонду, а затем использовать эту эмпирическую долю в комбинации с общим числом считываний последовательностей для оценки числа последовательностей по каждому зонду. Другой подход может заключаться в нацеливании на некоторые известные гомозиготные аллели и в последующем использовании накопленных данных для того, чтобы соотнести число считываний по каждому зонду с числом считываний известных гомозиготных аллелей. Для каждого образца затем можно измерить число считываний гомозиготных аллелей, а затем использовать это измерение вместе с эмпирически выведенными взаимосвязями для оценки числа считываний последовательностей по каждому зонду.
Согласно некоторым вариантам осуществления можно определить пол плода путем объединения прогнозов, выполненных несколькими способами. Согласно некоторым вариантам осуществления несколько способов выбраны из описанных в настоящем раскрытии способов. Согласно некоторым вариантам осуществления по меньшей мере один из нескольких способов выбран из описанных в настоящем раскрытии способов.
Согласно некоторым вариантам осуществления описанный в настоящем документе способ может быть использован для определения состояния плоидности вынашиваемого плода. Согласно варианту осуществления в способе получения признаков плоидности используются локусы, специфичные для Х-хромосомы или общие и для Х-, и для Y-хромосом, но не используются какие-либо Y-специфичные локусы. Согласно варианту осуществления в способе получения признаков плоидности используется что-либо одно или более из перечисленного: локусы, специфичные для Х-хромосомы, локусы, общие и для Х-, и для Y-хромосом, и локусы, специфичных для Y-хромосомы. Согласно варианту осуществления, если отношения половых хромосом сходны, например, 45,Х (синдром Тернера), 46,ХХ (нормальная женщина) и 47,ХХХ (трисомия X), установление различий может быть выполнено путем сравнения аллельных распределений с ожидаемыми аллельными распределениями в соответствии с различными гипотезами. Согласно другому варианту осуществления это может быть выполнено путем сравнения относительного числа считываний последовательностей для половых хромосом с одной или множеством эталонных хромосом, которые предположительно эуплоидны. Также отметим, что эти способы могут быть расширены для включения случаев анеуплоидии.
Скрининг моногенных заболеваний
Согласно варианту осуществления способ определения состояния плоидности плода может быть расширен для обеспечения возможности одновременного тестирования на моногенные заболевания. При диагностике моногенных заболеваний используются те же целевые подходы, что и для тестирования на анеуплоидию, и требуются дополнительные специфичные цели. Согласно варианту осуществления диагностика моногенного NPD осуществляется посредством анализа сцепления. Во многих случаях прямое тестирование образца cfDNA не является надежным, поскольку присутствие материнской ДНК делает практически невозможным определение наследования плодом мутации матери. Выявление уникального аллеля отца менее проблематично, но оно полностью информативно только, если заболевание является доминантным признаком, и отец является носителем, что ограничивает практическую ценность указанного подхода. Согласно варианту осуществления способ включает ПЦР или связанные с ней способы амплификации.
Согласно некоторым вариантам осуществления способ включает фазирование анормального аллеля с окружающими очень тесно сцепленными SNP у родителей с использованием информации о родственниках первой степени родства. Затем может быть использован метод PARENTAL SUPPORT для данных целевого секвенирования, полученных по этим SNP, для определения того, какие гомологи, нормальные или анормальные, плод унаследовал от обоих родителей. При условии, что SNP в достаточной степени сцеплены, наследование генотипа плодом может быть установлено с большой надежностью. Согласно некоторым вариантам осуществления способ включает (а) добавление набора локусов SNP для плотного фланкирования конкретного набора распространенных заболеваний в соответствующий настоящему изобретению мультиплексный пул для тестирования на анеуплоидию; (b) надежное фазирование аллелей из этих добавленных SNP с нормальными и анормальными аллелями на основе генетических данных о разных родственниках и (с) реконструкцию гаплотипа плода или набора фазированных аллелей SNP в унаследованных материнских и отцовских гомологах в области, окружающей локус заболевания, с целью установления генотипа плода. Согласно некоторым вариантам осуществления к набору полиморфных локусов, используемых для тестирования на анеуплоидию, добавляют дополнительные зонды, которые тесно сцеплены со связанным с заболеванием локусом.
Реконструкция диплотипа плода затруднительна, потому что образец представляет собой смесь материнской и плодной ДНК. Согласно некоторым вариантам осуществления способ включает относительную информацию для фазирования SNP и аллелей заболевания, затем учитывает физическое расстояние SNP и данные о рекомбинации, исходя из вероятности рекомбинации специфичных локализаций, и данные, наблюдаемые по генетическим измерениям материнской плазмы, для получения наиболее вероятного генотипа плода.
Согласно варианту осуществления ряд дополнительных зондов в расчете на связанный с заболеванием локус включают в набор целевых полиморфных локусов; число дополнительных зондов на связанный с заболеванием локус может составлять от 4 до 10, от 11 до 20, от 21 до 40, от 41 до 60, от 61 до 80, или их комбинации.
Фазирование диплоидных данных родителей может быть сложным, и существует ряд способов его реализации. Некоторые обсуждаются в настоящем раскрытии, другие описаны подробнее в других раскрытиях (см., например, публикацию РСТ №WO2009105531, которая была подана 9 февраля 2009, и публикацию РСТ №WO2010017214, которая была подана 4 августа 2009 г., каждая из которых включена в настоящий документ посредством ссылки полностью). Согласно одному варианту осуществления родитель может быть фазирован косвенным образом, посредством измерения ткани родителя, которая является гаплоидной, например путем измерения одного или нескольких сперматозоидов или яйцеклеток. Согласно одному варианту реализации родитель может быть фазирован косвенным образом с применением измеренных генотипических данных родственника первой степени родства, например, родителя родителя(ей) или сиблингов. Согласно одному варианту осуществления родитель может быть фазирован с применением разведений, при этом ДНК разводят в одной или нескольких лунках, до состояния, предположительно соответствующего содержанию не более чем приблизительно одной копии каждого гаплотипа в каждой лунке с последующим измерением ДНК в указанной одной или нескольких лунках. Согласно одному варианту осуществления родительский генотип может быть фазирован путем применения компьютерных программ, использующих данные частот гаплотипов в популяциях для определения наиболее вероятной фазы. Согласно одному варианту осуществления родитель может быть фазирован, если известны фазированные данные гаплотипа для другого родителя наряду с нефазированными генетическими данными одного или нескольких генетических потомков указанных родителей. Согласно некоторым вариантам осуществления указанные генетические потомки родителей могут представлять собой один или несколько эмбрионов, плодов и/или рожденных детей. Некоторые из указанных способов и другие способы фазирования одного или обоих родителей подробнее раскрыты, например, в публикации США №2011/0033862, которая была подана 19 августа 2010 г.; публикации США №2011/0178719, которая была подана 3 февраля 2011 г.; публикации США №2007/0184467, которая была подана 22 ноября 2006 г.; публикации США №2008/0243398, которая была подана 17 марта 2008 г., каждая из которых полностью включена в настоящий документ посредством ссылки.
Реконструкция плодного генома
Согласно одному аспекту в настоящем изобретении предложены способы определения гаплотипа плода. Согласно различным вариантам осуществления указанный способ позволяет определить, какие полиморфные локусы (например, SNP) были унаследованы плодом, и реконструировать то, какие гомологи (в том числе образованные в результате рекомбинации) присутствуют у указанного плода (и таким образом интерполировать последовательность между полиморфными локусами). Если требуется, может быть реконструирован по существу весь геном указанного плода. Если в геноме указанного плода остается некоторая неоднозначность (например, на отрезках с кроссинговером), указанная неоднозначность может быть минимизирована, если это требуется, путем анализа дополнительных полиморфных локусов. Согласно различным вариантам осуществления выбирают полиморфные локусы, покрывающие одну или несколько хромосом с плотностью, обеспечивающей уменьшение любой неоднозначности до нужного уровня. Указанный способ имеет существенные преимущества при применении для обнаружения полиморфизмов или других представляющих интерес мутаций у плода, поскольку позволяет их обнаружение на основании сцепления (например, присутствия сцепленных полиморфных локусов в геноме плода) а не путем направленного обнаружения полиморфизма или другой представляющей интерес мутации в геноме плода. Например, если родитель является носителем мутации, связанной с муковисцидозом (CF), может быть проанализирован образец нуклеиновой кислоты, который содержит материнскую ДНК от матери плода и плодную ДНК от плода, для определения того, включает ли плодная ДНК гаплотип, содержащий мутацию CF. В частности, могут быть проанализированы полиморфные локусы для определения того, включает ли плодная ДНК гаплотип, содержащий мутацию CF, без необходимости обнаружения самой мутации CF в плодной ДНК.
Согласно некоторым вариантам осуществления указанный способ включает определение родительского гаплотипа (например, гаплотипа матери или отца плода). Согласно некоторым вариантам осуществления указанное определение проводят без использования данных родственника матери или отца. Согласно некоторым вариантам осуществления родительский гаплотип определяют с применением метода разведений с последующим генотипированием или секвенированием SNP согласно описанию в настоящем документе и в других источниках (см., например, публикацию США №2011/0033862, которая была подана 19 августа 2010, полностью включенную в настоящий документ посредством ссылки). Поскольку ДНК разводят, маловероятно, что в одной фракции (или пробирке) присутствует более чем один гаплотип. Соответственно, фактически в пробирке может присутствовать одна молекула ДНК, что позволит определить гаплотип по единственной молекуле ДНК. Согласно некоторым вариантам осуществления указанный способ включает разделение образца ДНК на множество фракций таким образом, что по меньшей мере одна из указанных фракций включает одну хромосому или один сегмент хромосомы из пары хромосом, и генотипирование (например, определение присутствия двух или более полиморфных локусов) образца ДНК проводят по меньшей мере в одной из указанных фракций, таким образом определяя родительский гаплотип. Согласно некоторым вариантам осуществления генотипирование включает секвенирование (например, секвенирование «методом дробовика»). Согласно некоторым вариантам осуществления генотипирование включает применение матрицы SNP для обнаружения полиморфных локусов, например, по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных полиморфных локусов. Согласно некоторым вариантам осуществления генотипирование включает применение мультиплексной ПЦР. Согласно некоторым вариантам осуществления указанный способ включает приведение в контакт указанного образца во фракции с библиотекой праймеров, которые одновременно гибридизуются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных полиморфных локусов (таких как SNP), в результате чего получают реакционную смесь; и помещение реакционной смеси в условия реакции удлинения праймеров, в результате чего получают амплифицированные продукты, которые измеряют с использованием высокопроизводительного секвенатора, для получения данных секвенирования.
Согласно некоторым вариантам осуществления гаплотип матери определяют с помощью любых из описанных в настоящем документе способов с применением данных родственника матери. Согласно некоторым вариантам осуществления гаплотип отца определяют с помощью любых из описанных в настоящем документе способов с применением данных родственника отца. Согласно некоторым вариантам осуществления гаплотип определяют как для отца, так и для матери. Согласно некоторым вариантам осуществления матрицу SNP используют для определения присутствия по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных полиморфных локусов в образце ДНК от матери (или отца) и родственника матери (или отца). Согласно некоторым вариантам осуществления указанный способ включает приведение образца ДНК от матери (или отца) и/или родственника матери (или отца) в контакт с библиотекой праймеров, которые одновременно гибридизуются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных полиморфных локусов (таких как SNP), в результате чего получают реакционную смесь; и помещение реакционной смеси в условия реакции удлинения праймеров, в результате чего получают амплифицированные продукты, которые измеряют с использованием высокопроизводительного секвенатора для получения данных секвенирования. Родительский гаплотип может быть определен на основе матрицы SNP или данных секвенирования. Согласно некоторым вариантам осуществления родительские данные могут быть фазированы с помощью способов, описанных или упоминаемых где-либо в настоящем документе.
Указанные данные родительского гаплотипа могут использоваться для определения того, унаследовал ли плод родительский гаплотип. Согласно некоторым вариантам осуществления образец нуклеиновой кислоты, который включает материнскую ДНК от матери плода и плодную ДНК от плода, анализируют с применением матрицы SNP для обнаружения по меньшей мере 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных полиморфных локусов. Согласно некоторым вариантам осуществления образец нуклеиновой кислоты, который включает материнскую ДНК от матери плода и плодную ДНК от плода, анализируют путем приведения указанного образца в контакт с библиотекой праймеров, которые одновременно гибридизуются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 4000; 50000; 75000; или 100000 разных полиморфных локусов (таких как SNP), в результате чего получают реакционную смесь. Согласно некоторым вариантам осуществления указанную реакционную смесь подвергают воздействию условий реакции удлинения праймеров, в результате чего получают продукты амплификации. Согласно некоторым вариантам осуществления указанные амплифицированные продукты измеряют с использованием высокопроизводительного секвенатора для получения данных секвенирования. Согласно различным вариантам осуществления матрицу SNP или данные секвенирования используют для определения родительского гаплотипа с применением данных относительно вероятности кроссинговера хромосом, в различных локализациях в хромосоме (например, с применением данных о рекомбинации, которые можно найти, например, в базе данных НарМар для получения оценки риска рекомбинации для любого интервала) для моделирования зависимости между полиморфными аллелями на хромосоме. Согласно некоторым вариантам подсчет числа аллелей в полиморфных локусах проводят на компьютере на основе данных секвенирования. Согласно некоторым вариантам осуществления множество гипотез плоидности, каждая из которых касается отличного возможного состояния плоидности хромосомы, создают на компьютере; модель (например, модель совместного распределения) для ожидаемого числа аллелей в полиморфных локусах на указанной хромосоме строят на компьютере для каждой гипотезы плоидности; относительную вероятность каждой из гипотез плоидности определяют на компьютере с применением модели совместного распределения и числа аллелей; и состояние плоидности указанного плода определяют путем отбора состояния плоидности, соответствующего гипотезе, имеющей наибольшую вероятность. Согласно некоторым вариантам осуществления построение модели совместного распределения для числа аллелей и этап определения относительной вероятности каждой гипотезы осуществляют с применением способа, не требующего применения эталонной хромосомы.
Согласно некоторым вариантам осуществления плодный гаплотип определяют для одной или нескольких хромосом, взятых из группы, состоящей из хромосом 13, 18, 21, X и Y. Согласно некоторым вариантам осуществления плодный гаплотип определяют для всех плодных хромосом. Согласно различным вариантам осуществления с помощью указанного способа определяют по существу весь геном указанного плода. Согласно некоторым вариантам осуществления гаплотип определяют для по меньшей мере 30, 40, 50, 60, 70, 80, 90 или 95% генома указанного плода. Согласно некоторым вариантам осуществления определение гаплотипа указанного плода включает информацию о том, какой аллель присутствует по меньшей мере в 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; или 100000 разных полиморфных локусов.
Состав ДНК
При выполнении основанного на методах информатики анализа полученных для смеси плодной и материнской крови данных секвенирования для выявления геномной информации, принадлежащей плоду, например, состояния плоидности плода, может быть целесообразным измерение аллельных распределений в наборе аллелей. К сожалению, во многих случаях, например, при попытках определения состояния плоидности плода по смеси ДНК, присутствующей в образце плазмы крови матери, количество доступной ДНК недостаточно для непосредственного измерения аллельных распределений в смеси с высокой достоверностью. В таких случаях амплификация смеси ДНК обеспечивает количество молекул ДНК, достаточное для измерения нужных аллельных распределений с высокой достоверностью. Однако современные способы амплификации, как правило, используемые для амплификации ДНК для секвенирования, очень часто дают выраженное смещение, то есть не амплифицируют оба аллеля полиморфного локуса в равной степени. Амплификация со смещением может приводить к тому, что аллельные распределения будут существенно отличаться от аллельных распределений в исходной смеси. Для большинства задач нет необходимости в высокоточных измерениях относительных количеств аллелей, присутствующих в полиморфных локусах. Напротив, согласно варианту осуществления, раскрытому в настоящем описании, предпочтительными являются способы амплификации или обогащения, обеспечивающие специфическое обогащение полиморфными аллелями и сохранение аллельных распределений.
В настоящем документе описан ряд способов, которые могут быть использованы для преимущественного обогащения образца ДНК по множеству локусов таким образом, чтобы минимизировать смещение числа аллелей. В некоторых примерах используются зонды циркуляризации для нацеливания на множество локусов, при этом 3'-концы и 5'-концы пре-циркуляризованных зондов сконструированы так, чтобы гибридизоваться с основаниями, которые расположены на расстоянии одного или нескольких положений от полиморфных сайтов целевого аллеля. Другой пример заключается в использовании зондов ПЦР, в которых 3'-конец зонда ПЦР сконструирован для гибридизации с основаниями, которые расположены на расстоянии одного или нескольких положений от полиморфных сайтов целевого аллеля. Другой пример заключается в использовании подхода расщепления и объединения для создания смесей ДНК, в которых преимущественно обогащенные локусы обогащены с незначительным смещением числа аллелей при отсутствии недостатков прямого мультиплексирования. Другой пример заключается в использовании подхода гибридного захвата, при котором зонды захвата сконструированы так, что область зонда захвата, которая конструируется для гибридизации с ДНК, фланкирующей полиморфный сайт цели, отделена от полиморфного сайта одним основанием или небольшим количеством оснований.
В том случае, если измеренные аллельные распределения в наборе полиморфных локусов используют для определения состояния плоидности индивидуума, желательно сохранить относительные количества аллелей в образце ДНК в процессе его подготовки для генетических измерений. Указанная подготовка может включать амплификацию WGA, целевую амплификацию, методики селективного обогащения, методики гибридного захвата, зонды циркуляризации или другие способы, предназначенные для амплификации количества ДНК и/или селективного увеличения числа молекул ДНК, которые соответствуют определенным аллелям.
Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложен набор ДНК-зондов, сконструированных для нацеливания на локусы, которые имеют максимальные частоты минорных аллелей. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложен набор зондов, которые сконструированы для нацеливания на области, где локусы характеризуются максимальным правдоподобием того, что плод имеет высокоинформативный SNP в указанных локусах. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложен набор зондов, которые сконструированы для нацеливания на локусы, при этом указанные зонды оптимизированы для данной подгруппы популяции. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложен набор зондов, которые сконструированы для нацеливания на локусы, при этом указанные зонды оптимизированы для данной смеси подгрупп популяции. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложен набор зондов, которые сконструированы для нацеливания на локусы, при этом указанные зонды оптимизированы для определенной пары родителей, происходящих из различных подгрупп популяции, которые характеризуются различными профилями частот минорных аллелей. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложена циркуляризованная цепь ДНК, которая содержит по меньшей мере одну пару оснований, которая отжигается с фрагментом ДНК плодного происхождения. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложена циркуляризованная цепь ДНК, которая содержит по меньшей мере одну пару оснований, которая отжигается с фрагментом ДНК плацентарного происхождения. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложена циркуляризованная цепь ДНК, которая циркуляризована при отжиге по меньшей мере некоторых нуклеотидов с ДНК плодного происхождения. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложена циркуляризованная цепь ДНК, которая циркуляризована при отжиге по меньшей мере некоторых нуклеотидов с ДНК плацентарного происхождения. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложен набор зондов, при этом некоторые из указанных зондов нацелены на единичные тандемные повторы, и некоторые из указанных зондов нацелены на однонуклеотидные полиморфизмы. Согласно некоторым вариантам осуществления локусы выбирают с целью неинвазивной пренатальной диагностики. Согласно некоторым вариантам осуществления указанные зонды применяют с целью неинвазивной пренатальной диагностики. Согласно некоторым вариантам осуществления нацеливание на локусы осуществляют с применением способа, который может включать зонды циркуляризации, MIP, зонды для захвата гибридизацией, зонды на матрице SNP или их комбинации. Согласно некоторым вариантам осуществления указанные зонды применяют в качестве зондов циркуляризации, MIP, зондов для захвата гибридизацией, зондов на матрице SNP или их комбинаций. Согласно некоторым вариантам осуществления локусы секвенируются с целью неинвазивной пренатальной диагностики.
В том случае, если относительная информативность последовательности выше при комбинировании с соответствующими родительскими контекстами, доведение до максимума числа считываний последовательностей, которые содержат SNP с известным родительским контекстом, может дать максимальную информативность набора считываний последовательностей в смешанном образце. Согласно варианту осуществления число считываний последовательностей, которые содержат SNP с известными родительскими контекстами, может быть увеличено использованием количественной ПЦР для преимущественной амплификации конкретных последовательностей. Согласно варианту осуществления число считываний последовательностей, которые содержат SNP с известными родительскими контекстами, может быть увеличено с использованием зондов циркуляризации (например, MIP) для преимущественной амплификации конкретных последовательностей. Согласно варианту осуществления число считываний последовательностей, которые содержат SNP с известными родительскими контекстами, может быть увеличено методом захвата гибридизацией (например, SURESELECT) для преимущественной амплификации конкретных последовательностей. Для увеличения числа считываний последовательностей, которые содержат SNP с известными родительскими контекстами, могут быть использованы различные способы. Согласно варианту осуществления нацеливание может быть выполнено путем лигирования с удлинением, лигированием без удлинения, захватом гибридизацией или ПЦР.
В образце фрагментированной геномной ДНК доля последовательностей ДНК уникально картируется с индивидуальными хромосомами; другие последовательности ДНК могут быть обнаружены в различных хромосомах. Отметим, что ДНК, присутствующая в плазме, как материнской, так и плодной по происхождению, как правило, фрагментирована, часто длиной до 500 пар оснований. В типичном геномном образце приблизительно 3,3% картируемых последовательностей будут картироваться с хромосомой 13; 2,2% картируемых последовательностей будут картироваться с хромосомой 18; 1,35% картируемых последовательностей будут картироваться с хромосомой 21; 4,5% картируемых последовательностей будут картироваться с хромосомой X в случае женского пола; 2,25% картируемых последовательностей будут картироваться с хромосомой X (в случае мужского пола); и 0,73% картируемых последовательностей будут картироваться с хромосомой Y (в случае мужского пола). Указанные хромосомы у плода будут анеуплоидными с наибольшей вероятностью. Также, среди коротких последовательностей приблизительно 1 из 20 последовательностей будет содержать SNP, при использовании SNP, содержащихся в dbSNP. С учетом того, что многие SNP еще не открыты, эта пропорция может быть намного выше.
Согласно варианту осуществления, раскрытому в настоящем описании, способы нацеливания могут быть использованы для увеличения в образце ДНК доли ДНК, которая картируется с данной хромосомой, так, что эта доля значительно превосходит приведенные выше процентные отношения, которые типичны для геномных образцов. Согласно варианту осуществления, раскрытому в настоящем описании, способы нацеливания могут быть использованы для увеличения доли ДНК в образце ДНК таким образом, что процентное отношение последовательностей, которые содержат SNP, значительно больше тех, что могут быть обнаружены в типичных геномных образцах. Согласно варианту осуществления, раскрытому в настоящем описании, способы нацеливания могут быть использованы для нацеливания на ДНК хромосомы или набора SNP в смеси материнской и плодной ДНК в целях пренатальной диагностики.
Отметим, что был описан способ (патент США №7888017) определения анеуплоидии плода путем подсчета числа считанных последовательностей, которые картируются с исследуемой хромосомой, и сравнения их с числом считанных последовательностей, которые картируются с эталонной хромосомой, и использования предположения о том, что избыточное количество считываний в исследуемой хромосоме соответствует триплоидности плода по указанной хромосоме. В указанных способах пренатальной диагностики не используется нацеливание какого-либо типа, и не описано использование нацеливания для пренатальной диагностики.
Применение способов нацеливания при секвенировании смешанного образца позволяет достичь определенного уровня точности с меньшим числом считываний последовательностей. Точность может относиться к чувствительности, может относиться к специфичности или может относиться к их комбинации. Желаемый уровень точности может составлять от 90% до 95%; он может составлять от 95% до 98%; он может составлять от 98% до 99%; он может составлять от 99% до 99,5%; он может составлять от 99,5% до 99,9%; он может составлять от 99,9% до 99,99%; он может составлять от 99,99% до 99,999%, он может составлять от 99,999% до 100%. Уровни точности выше 95% могут считаться высокой точностью.
На существующем уровне техники существует ряд опубликованных способов, которые демонстрируют, как можно определить состояние плоидности плода по смешанному образцу материнской и плодной ДНК, например: G.J. W. Liao и др. Clinical Chemistry 2011; 57 (1) pp. 92-101. Указанные способы фокусируются на тысячах локализаций в каждой хромосоме. Количество локализаций в хромосоме, на которые может проводиться нацеливание при сохранении высокой точности определения плоидности плода, для заданного числа считываний последовательностей из смешанного образца ДНК является неожиданно низким. Согласно варианту осуществления, раскрытому в настоящем описании, точное определение плоидности может быть выполнено путем применения целевого секвенирования, с применением любого способа нацеливания, например количественной ПЦР, лиганд-опосредованной ПЦР, других методов ПЦР, захвата гибридизацией или зондов циркуляризации, при этом число локусов для нацеливания в хромосоме может составлять от 5000 до 2000 локусов; может составлять от 2000 до 1000 локусов; может составлять от 1000 до 500 локусов; может составлять от 500 до 300 локусов; может составлять от 300 до 200 локусов; может составлять от 200 до 150 локусов; может составлять от 150 до 100 локусов; может составлять от 100 до 50 локусов; может составлять от 50 и 20 локусов; может составлять от 20 до 10 локусов. В оптимальном варианте оно может составлять от 100 до 500 локусов. Высокий уровень точности может быть достигнут за счет нацеливания на небольшое число локусов и выполнения неожиданно малого числа считываний последовательностей. Число считываний может составлять от 100 млн до 50 млн считываний; число считываний может составлять от 50 млн до 20 млн считываний; число считываний может составлять от 20 млн до 10 млн считываний; число считываний может составлять от 10 млн до 5 млн считываний; число считываний может составлять от 5 млн до 2 млн считываний; число считываний может составлять от 2 млн до 1 млн; число считываний может составлять от 1 млн до 500000; число считываний может составлять от 500000 до 200000; число считываний может составлять от 200000 до 100000; число считываний может составлять от 100000 до 50000; число считываний может составлять от 50000 до 20 000; число считываний может составлять от 20000 до 10000; число считываний может составлять менее 10000. Для больших количеств вводимой ДНК требуется меньшее число считываний.
Согласно некоторым вариантам осуществления предложена композиция, содержащая смесь ДНК плодного происхождения и ДНК материнского происхождения, при этом процент последовательностей, которые уникально картируются с хромосомой 13, превышает 4%, превышает 5%, превышает 6%, превышает 7%, превышает 8%, превышает 9%, превышает 10%, превышает 12%, превышает 15%, превышает 20%, превышает 25% или превышает 30%. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложена композиция, содержащая смесь ДНК плодного происхождения и ДНК материнского происхождения, при этом процент последовательностей, которые уникально картируются с хромосомой 18, превышает 3%, превышает 4%, превышает 5%, превышает 6%, превышает 7%, превышает 8%, превышает 9%, превышает 10%, превышает 12%, превышает 15%, превышает 20%, превышает 25% или превышает 30%. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложена композиция, содержащая смесь ДНК плодного происхождения и ДНК материнского происхождения, при этом процент последовательностей, которые уникально картируются с хромосомой 21, превышает 2%, превышает 3%, превышает 4%, превышает 5%, превышает 6%, превышает 7%, превышает 8%, превышает 9%, превышает 10%, превышает 12%, превышает 15%, превышает 20%, превышает 25% или превышает 30%. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложена композиция, содержащая смесь ДНК плодного происхождения и ДНК материнского происхождения, при этом процент последовательностей, которые уникально картируются с хромосомой X, превышает 6%, превышает 7%, превышает 8%, превышает 9%, превышает 10%, превышает 12%, превышает 15%, превышает 20%, превышает 25% или превышает 30%. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложена композиция, содержащая смесь ДНК плодного происхождения и ДНК материнского происхождения, при этом процент последовательностей, которые уникально картируются с хромосомой Y превышает 1%, превышает 2%, превышает 3%, превышает 4%, превышает 5%, превышает 6%, превышает 7%, превышает 8%, превышает 9%, превышает 10%, превышает 12%, превышает 15%, превышает 20%, превышает 25% или превышает 30%.
Согласно некоторым вариантам осуществления описана композиция, содержащая смесь ДНК плодного происхождения и ДНК материнского происхождения, при этом процент последовательностей, которые уникально картируются с хромосомой и содержат по меньшей мере один однонуклеотидный полиморфизм, превышает 0,2%, превышает 0,3%, превышает 0,4%, превышает 0,5%, превышает 0,6%, превышает 0,7%, превышает 0,8%, превышает 0,9%, превышает 1%, превышает 1,2%, превышает 1,4%, превышает 1,6%, превышает 1,8%, превышает 2%, превышает 2,5%, превышает 3%, превышает 4%, превышает 5%, превышает 6%, превышает 7%, превышает 8%, превышает 9%, превышает 10%, превышает 12%, превышает 15% или превышает 20%, и при этом указанную хромосому выбирают из группы 13, 18, 21, X или Y. Согласно некоторым вариантам осуществления, раскрытым в настоящем описании, предложена композиция, содержащая смесь ДНК плодного происхождения и ДНК материнского происхождения, при этом процент последовательностей, которые уникально картируются с хромосомой и содержат по меньшей мере один однонуклеотидный полиморфизм из набора однонуклеотидных полиморфизмов, превышает 0,15%, превышает 0,2%, превышает 0,3%, превышает 0,4%, превышает 0,5%, превышает 0,6%, превышает 0,7%, превышает 0,8%, превышает 0,9%, превышает 1%, превышает 1,2%, превышает 1,4%, превышает 1,6%, превышает 1,8%, превышает 2%, превышает 2,5%, превышает 3%, превышает 4%, превышает 5%, превышает 6%, превышает 7%, превышает 8%, превышает 9%, превышает 10%, превышает 12%, превышает 15% или превышает 20%, при этом указанную хромосому берут из группы хромосом 13, 18, 21, X и Y, и при этом число однонуклеотидных полиморфизмов в наборе однонуклеотидных полиморфизмов составляет от 1 до 10, от 10 до 20, от 20 до 50, от 50 до 100, от 100 до 200, от 200 до 500, от 500 до 1000, от 1000 до 2000, от 2000 до 5000, от 5000 до 10000, от 10000 до 20000, от 20000 до 50000, и от 50000 до 100000.
Теоретически, каждый цикл амплификации удваивает количество присутствующей ДНК; однако в реальности степень амплификации несколько ниже двух. Теоретически амплификация, в том числе целевая амплификация, приведет к амплификации смеси ДНК без смещения; в реальности, однако, различные аллели имеют тенденцию амплифицироваться в разной степени. При амплификации ДНК степень смещения числа аллелей, как правило, возрастает с числом этапов амплификации. Согласно некоторым вариантам осуществления описанные в настоящем документе способы предусматривают амплификацию ДНК с низким уровнем смещения числа аллелей. Поскольку смещение числа аллелей усугубляется с каждым дополнительным циклом, можно определить смещение числа аллелей на цикл путем вычисления корня степени n общего смещения, где n представляет собой логарифм по основанию 2 степени обогащения. Согласно некоторым вариантам осуществления предложена композиция, содержащая вторую смесь ДНК, причем указанная вторая смесь ДНК преимущественно обогащена по множеству полиморфных локусов из первой смеси ДНК, и степень обогащения составляет по меньшей мере 10, по меньшей мере 100, по меньшей мере 1000, по меньшей мере 10000, по меньшей мере 100000 или по меньшей мере 1000000, и при этом отношение аллелей во второй смеси ДНК в каждом локусе отличается от отношения аллелей в указанном локусе в первой смеси ДНК, в среднем, менее чем на 1000%, 500%, 200%, 100%, 50%, 20%, 10%, 5%, 2%, 1%, 0,5%, 0,2%, 0,1%, 0,05%, 0,02% или 0,01%. Согласно некоторым вариантам осуществления предложена композиция, содержащая вторую смесь ДНК, причем указанная вторая смесь ДНК была преимущественно обогащена по множеству полиморфных локусов из первой смеси ДНК, при этом смещение числа аллелей на цикл для множества полиморфных локусов составляет, в среднем, менее чем 10%, 5%, 2%, 1%, 0,5%, 0,2%, 0,1%, 0,05% или 0,02%. Согласно некоторым вариантам осуществления множество полиморфных локусов содержит по меньшей мере 10 локусов, по меньшей мере 20 локусов, по меньшей мере 50 локусов, по меньшей мере 100 локусов, по меньшей мере 200 локусов, по меньшей мере 500 локусов, по меньшей мере 1000 локусов, по меньшей мере 2000 локусов, по меньшей мере 5000 локусов, по меньшей мере 10000 локусов, по меньшей мере 20000 локусов, или по меньшей мере 50000 локусов.
Некоторые варианты осуществления
Согласно некоторым вариантам осуществления раскрывается способ генерирования отчета, раскрывающего установленный статус плоидности хромосомы вынашиваемого плода, включающий: получение первого образца, который содержит ДНК матери плода и ДНК плода; получение генотипических данных одного или обоих родителей плода; подготовку первого образца путем выделения ДНК с тем, чтобы получить подготовленный образец; измерение ДНК в подготовленном образце во множестве полиморфных локусов; вычисление на компьютере числа аллелей или вероятностей подсчета числа аллелей во множестве полиморфных локусов по измерениям ДНК, выполненным в подготовленном образце; создание на компьютере множества гипотез плоидности, касающихся ожидаемых вероятностей числа аллелей во множестве полиморфных локусов в хромосоме для различных возможных состояний плоидности хромосомы; построение на компьютере модели совместного распределения вероятности числа аллелей каждого полиморфного локуса в хромосоме для каждой гипотезы плоидности с использованием генотипических данных одного или обоих родителей плода; определение на компьютере относительной вероятности каждой гипотезы плоидности с использованием модели совместного распределения и вероятностей числа аллелей, вычисленных для подготовленного образца; установления состояния плоидности плода путем отбора состояния плоидности, соответствующего гипотезе с наибольшей вероятностью; и составление отчета, раскрывающего установленный статус плоидности.
Согласно некоторым вариантам осуществления используется способ определения состояния плоидности множества вынашиваемых плодов у множества соответствующих матерей, дополнительно включающий определение процента ДНК плодного происхождения в каждом из подготовленных образцов; при этом этап измерения ДНК в подготовленном образце осуществляется посредством секвенирования ряда молекул ДНК в каждом из подготовленных образцов, причем секвенируется больше молекул ДНК из подготовленных образцов, которые содержат меньшую долю плодной ДНК, чем из тех подготовленных образцов, которые содержат большую долю плодной ДНК.
Согласно некоторым вариантам осуществления используется способ определения состояния плоидности множества вынашиваемых плодов у множества соответствующих матерей, при котором измерение ДНК в подготовленном образце осуществляется для каждого из плодов путем секвенирования первой фракции подготовленного образца ДНК, в результате чего получают первый набор измерений, дополнительно включающий: осуществление первого определения относительной вероятности для каждой из гипотез плоидности для каждого плода с учетом первого набора измерений ДНК; повторное секвенирование второй фракции подготовленного образца от тех плодов, для которых первое определение относительной вероятности для каждой гипотезы плоидности показывает, что гипотеза плоидности, соответствующая анеуплоидному плоду, характеризуется значимой, но не доказательной вероятностью, в результате чего получают второй набор измерений; осуществление второго определения относительной вероятности для гипотез плоидности плодов с использованием второго набора измерений и необязательно также первого набора измерений и установление состояний плоидности плодов, вторые образцы которых были повторно секвенированы, путем отбора состояния плоидности, соответствующего гипотезе с наибольшей вероятностью, установленной при втором определении относительной вероятности.
Согласно некоторым вариантам осуществления раскрывается композиция, в которую входит: образец преимущественно обогащенной ДНК, при этом образец преимущественно обогащенной ДНК преимущественно обогащен множеством полиморфных локусов из первого образца ДНК, при этом первый образец ДНК состоял из смеси материнской ДНК и плодной ДНК, полученной из материнской плазмы, причем коэффициент обогащения равен меньшей мере 2, и при этом смещение числа аллелей между первым образцом и преимущественно обогащенным образцом в среднем выбрано из группы, состоящей из менее чем 2%, менее чем 1%, менее чем 0,5%, менее чем 0,2%, менее чем 0,1%, менее чем 0,05%, менее чем 0,02% и менее чем 0,01%. Согласно некоторым вариантам осуществления раскрывается способ получения образца такой преимущественно обогащенной ДНК.
В некотором варианте осуществления раскрывается способ определения наличия или отсутствия анеуплоидии плода по образцу материнской ткани, содержащему плодную и материнскую геномную ДНК, включающий: (а) получение смеси плодной и материнской геномной ДНК из указанного образца материнской ткани; (b) селективное обогащение смеси плодной и материнской ДНК множеством полиморфных аллелей; (с) распределение селективно обогащенных фрагментов из смеси плодной и материнской геномной ДНК, полученной на этапе (а) с получением реакционных образцов, содержащих единичную молекулу геномной ДНК, или амплификации продуктов единичной молекулы геномной ДНК; (d) выполнение массивно-параллельного секвенирования ДНК избирательно обогащенных фрагментов геномной ДНК в реакционных образцах этапа (с) для определения последовательности указанных селективно обогащенных фрагментов; (е) идентификацию хромосом, к которым принадлежат полученные на этапе (d) последовательности; (f) анализ данных этапа (d) для определения i) числа фрагментов геномной ДНК этапа (d), принадлежащих по меньшей мере одной первой целевой хромосоме, которая предположительно является диплоидной как у матери, так и у плода, и ii) числа фрагментов геномной ДНК этапа (d), принадлежащих второй целевой хромосоме, при этом предполагается, что указанная вторая хромосома у плода анеуплоидна; (g) вычисление ожидаемого распределения числа фрагментов геномной ДНК из этапа (d) для второй целевой хромосомы, если вторая целевая хромосома эуплоидна, с использованием числа, установленного на этапе (f) в части i); (h) вычисление ожидаемого распределения числа фрагментов геномной ДНК из этапа (d) для второй целевой хромосомы, если вторая целевая хромосома анеуплоидна, с использованием первого числа, установленного на этапе f) в части i), и оценки доли плодной ДНК, присутствующей в смеси этапа (b); и (i) использование метода максимального правдоподобия или метода оценки апостериорного максимума для определения, является ли число фрагментов геномной ДНК, установленное на этапе f) в части ii), с большей вероятностью частью распределения, рассчитанного на этапе g), или распределения, рассчитанного на этапе h); благодаря чему устанавливается присутствие или отсутствие анеуплоидии плода.
Примеры способов диагностики раковых заболеваний
Отметим, что, как было продемонстрировано, ДНК, происходящая из ракового новообразования, которое имеется в организме хозяина, может быть обнаружена в крови хозяина. Таким же образом, что и генетический диагноз по измерению смешанной ДНК, присутствующей в материнской крови, генетический диагноз также хорошо может быть проведен по измерениям смешанной ДНК, присутствующей в крови хозяина. Генетические диагнозы могут включать состояния анеуплоидии или генные мутации. Любые заявленные в настоящем раскрытии притязания, включающие определение состояния плоидности или генетического статуса плода по измерениям, выполненным на крови матери, могут равным образом включать и определение состояния плоидности или генетического статуса ракового новообразования по измерениям, выполненным на крови хозяина.
Согласно некоторым вариантам осуществления способ согласно настоящему раскрытию позволяет определять статус плоидности ракового новообразования, при этом указанный способ включает получение смешанного образца, который содержит генетический материал хозяина и генетический материал ракового новообразования; измерение ДНК в указанном смешанном образце; вычисление доли ДНК ракового происхождения в смешанном образце; и определение статуса плоидности ракового новообразования с применением измерений, выполненных на указанном смешанном образце, и рассчитанной доли. Согласно некоторым вариантам осуществления способ может дополнительно предусматривать введение противоракового терапевтического средства на основании определения состояния плоидности ракового новообразования. Согласно некоторым вариантам осуществления способ может дополнительно предусматривать введение противоракового терапевтического средства на основании определения состояния плоидности ракового новообразования, при этом указанное противораковое терапевтическое средство выбрано из группы, включающей фармацевтическое средство, биологическое терапевтическое средство, терапевтическое средство на основе антитела и их комбинацию.
Примеры способов практического применения
Любой из вариантов осуществления, раскрытых в настоящем документе, можно реализовать в цифровой электронной схеме, интегральной схеме, специально сконструированных ASIC (специализированных интегральных микросхемах), компьютерном аппаратном средстве, аппаратно реализованном программном обеспечении, программном обеспечении или в их комбинациях. Аппарат в соответствии с раскрытыми в настоящем документе вариантами осуществления может быть реализован в виде компьютерного программного продукта, материально воплощенного в машиночитаемом устройстве хранения данных для выполнения программируемым процессором; и этапы способа в соответствии с раскрытыми в настоящем документе вариантами осуществления могут быть осуществлены программируемым процессором, выполняющим программу из инструкций с осуществлением функций в соответствии с раскрытыми в настоящем документе вариантами осуществления, обрабатывающим входные данные и генерирующим выходные данные. Раскрытые в настоящем документе варианты осуществления могут быть реализованы предпочтительным образом в одной или нескольких компьютерных программах, выполнимых и/или интерпретируемых программируемой системой, включающей по меньшей мере один программируемый процессор, специализированный или многоцелевой, присоединенный, для получения данных и инструкций и для передачи данных и инструкций, к системе хранения данных; по меньшей мере одному устройству ввода данных; и по меньшей мере одному устройству вывода данных. Каждая компьютерная программа может быть реализована на высокоуровневом процедурном или объектно-ориентированном языке программирования, или на языке ассемблера или машинном языке, если это необходимо; в любом случае язык может быть компилируемым и интерпретируемым языком. Компьютерную программу можно использовать в любом виде, в том числе в виде независимой программы или в виде модуля, компонента, стандартной подпрограммы или другой единицы, подходящей для применения в вычислительной среде. Компьютерная программа может использоваться для выполнения или интерпретации на одном компьютере или на нескольких компьютерах в одном местоположении, или может распространяться по многим местоположениям, взаимосвязанным с помощью коммуникационной сети.
Машиночитаемая среда хранения информации в настоящем документе относится к физическому или материальному хранению (в противоположность сигналам) и включает без ограничения не сохраняющие информацию при отключении питания и сохраняющие информацию при отключении питания, съемные и несъемные носители, реализуемые в любом способе и технологии материального хранения информации, например, считываемые компьютером инструкции, структуры данных, модули программ или другие данные. Машиночитаемая среда хранения информации включает, не ограничиваясь перечисленными, RAM (запоминающее устройство с произвольным доступом), ROM (постоянное запоминающее устройство), EPROM (перепрограммируемое постоянное запоминающее устройство), EEPROM (электрически стираемое программируемое постоянное запоминающее устройство), флэш-память или другие твердотельные запоминающие устройства, созданные по другой технологии, CD-ROM (постоянное запоминающее устройство на основе компакт-диска), DVD (цифровой многофункциональный диск) или другие оптические устройства хранения данных, магнитные кассеты, магнитную ленту, запоминающее устройство на магнитном диске или другие магнитные запоминающие устройства, или любую другую физическую или материальную среду, которую можно использовать для материального хранения необходимой информации, данных или инструкций, и к которым может иметь доступ компьютер или процессор.
Любой из способов, описанных в настоящем документе, может включать вывод данных в физическом формате, например, на экране компьютера или в распечатанном на бумаге виде. Следует понимать, что способы, описанные в пояснениях к любому из вариантов осуществления в разделах настоящего документа, могут быть скомбинированы с выводом данных, на которые может производиться воздействие, в формате, на который может воздействовать врач. Помимо этого, описанные способы могут быть скомбинированы с фактическим выполнением клинического решения, которое приведет в результате к клиническому лечению, или с выполнением клинического решения не предпринимать каких-либо действий. Некоторые варианты осуществления, описанные в настоящем документе в отношении определения генетических данных, касающихся целевого индивидуума, могут быть скомбинированы с решением о выборе одного или нескольких эмбрионов для переноса в условиях IVF (экстракорпоральное оплодотворение), необязательно в сочетании с процессом переноса эмбриона в матку будущей матери. Некоторые из вариантов осуществления, описанных в настоящем документе в отношении определения генетических данных, касающихся целевого индивидуума, могут быть скомбинированы с уведомлением медицинским работником о возможной хромосомной аномалии или ее отсутствии, необязательно в сочетании с решением о проведении аборта или об отсутствии необходимости проведения аборта в отношении плода, в случае пренатальной диагностики. Некоторые из вариантов осуществления, описанные в настоящем документе, могут быть скомбинированы с выводом данных, на которые может быть произведено воздействие, и выполнением клинического решения, которое приведет к клиническому лечению, или выполнением клинического решения не предпринимать каких-либо действий.
Примеры диагностических боксов
Согласно варианту осуществления, в настоящем описании раскрывается диагностический бокс, подходящий для частичного или полного выполнения любых способов раскрытых в настоящем описании. Согласно варианту осуществления указанный диагностический бокс может быть размещен в кабинете врача, в лаборатории больницы или в любом приемлемом месте, разумно близком к пункту наблюдения за пациентом. С помощью бокса весь способ может быть полностью автоматизированы, или указанный бокс может требовать выполнения одного или ряда этапов вручную техническим специалистом. Согласно варианту осуществления бокс может предоставлять возможность анализа по меньшей мере генотипических данных, полученных на материнской плазме. Согласно варианту осуществления бокс может быть связан со средствами передачи измеренных диагностическим боксом генотипических данных во внешний вычислительный центр, который затем может анализировать генотипические данные и, возможно, также создавать отчет. Указанный диагностический бокс может включать роботизированный модуль, который способен перемещать водные или жидкие образцы из одного контейнера в другой. Он может содержать ряд реагентов, как твердых, так и жидких. Он может содержать высокопроизводительный секвенатор. Он может содержать компьютер.
Экспериментальный раздел
Раскрытые в настоящем документе варианты осуществления иллюстрируются в следующих примерах, которые изложены с целью разъяснения раскрытия и не должны рассматриваться как какое-либо ограничение объема раскрытия, определенного формулой изобретения, которая следует далее. Следующие примеры приведены, чтобы обеспечить специалистам в данной области полное раскрытие и описание с использованием описанных вариантов осуществления, и не предназначены для ограничения объема раскрытия, а также не должны означать, что нижеприведенные эксперименты являются всеми или единственными выполняемыми экспериментами. Были предприняты усилия по обеспечению точности в отношении используемых показателей (например, количеств, температуры и т.д.), но должны быть учтены некоторые экспериментальные погрешности и отклонения. Если не указано иное, под частями понимаются объемные части, а температура выражается в градусах Цельсия. Следует понимать, что вариации в описанных способах могут быть выполнены без изменения фундаментальных аспектов, проиллюстрированных экспериментами.
Эксперимент 1
Цель заключалась в демонстрации того, что байесовский алгоритм оценивания максимального правдоподобия (MLE), использующий генотипы родителей для расчета доли плода, улучшает точность неинвазивной пренатальной диагностики трисомии по сравнению с опубликованными способами.
Модельные данные секвенирования для материнской cfDNA получали путем выборочного исследования считываний, полученных для трисомии-21 и соответствующих линий материнских клеток. Частоты корректно определенных признаков дисомии и трисомии определяли на основании 500 моделирований при разной доле плода согласно опубликованному способу (Chiu и др. BMJ 2011; 342:c7401) и в соответствии с основанным на MLE алгоритмом в соответствии с настоящим изобретением. Проверяли моделирования, получив 5 миллионов показаний методом «дробовика» от четырех беременных матерей и соответствующих отцов, собранных согласно протоколу, одобренному IRB. Генотипы родителей получали на матрице 290К SNP (см. фиг. 14).
При моделировании основанный на MLE подход позволял достигнуть 99,0%-ной точности при доле плода, составляющей всего 9%, и зарегистрированных уровней достоверности, хорошо согласующихся с общей точностью. Авторы проверяли указанные результаты с использованием четырех реальных образцов, для которых все признаки были определены корректно с рассчитанной достоверностью, превосходящей 99%. С другой стороны, применение авторами описанного Chiu и др. алгоритма требовало присутствия доли плода 18% для достижения 99,0% точности; при 9% плодной ДНК достигалась точность всего 87,8%.
Определение доли плода в родительских генотипах с применением основанного на MLE подхода позволяло достичь большей точности, чем с помощью опубликованных алгоритмов, при вероятных в первом триместре и раннем периоде 2-го триместра долях плода. Более того, с помощью раскрытого в настоящем документе способа получали метрику достоверности, которая являлась ключевой в определении надежности результата, особенно при низких долях плода, при котором определять плоидность особенно сложно. В опубликованных методах используются способы с меньшим порогом точности для установления плоидности, основанные на больших наборах подготовительных данных по дисомии, подход, который предопределяет частоту ложных положительных результатов. Кроме того, без метрики достоверности опубликованные методы не исключают риска получения ложноотрицательных результатов, когда для различения признака количество плодной cfDNA недостаточно. Согласно некоторым вариантам осуществления рассчитывается оценка достоверности для установленного состояния плоидности.
Эксперимент 2
Целью являлось улучшение неинвазивного определения плодной трисомии 18, 21 и X, в частности, в образцах, содержащих небольшое количество доли плода с использованием подхода целевого секвенирования в комбинации с генотипами родителей и данными НарМар по байесовскому алгоритму оценки максимального правдоподобия (MLE).
Материнские образцы от четырех эуплоидных и двух положительных по трисомии беременностей, и образцы от соответствующих отцов получали согласно протоколу, одобренному IRB, от пациентов с известным кариотипом плода. Материнскую cfDNA экстрагировали из плазмы и получали приблизительно 10 миллионов считываний последовательностей после преимущественного обогащения ДНК целевыми специфичными SNP. Образцы родителей секвенировали аналогичным образом для получения генотипов.
Описанный алгоритм корректно определял признаки дисомии хромосом 18 и 21 во всех эуплоидных образцах и нормальные хромосомы в анеуплоидных образцах. Корректными были установленные признаки трисомии 18 и 21, а также число копий X-хромосомы в плодах мужского и женского пола. Достоверность, полученная при применении этого алгоритма, превышала 98% во всех случаях.
Описанным способом точно регистрировали плоидность всех протестированных хромосом в шести образцах, включая образцы, содержащие менее 12% плодной ДНК, что соответствует примерно 30% в образцах 1-го и раннего 2-го триместров. Ключевое различие между данным алгоритмом MLE и опубликованными методами заключается в том, что он максимально использует родительские генотипы и данные НарМар для улучшения точности и генерирования метрики достоверности. При низких долях плода все способы становятся менее точными; важно корректно идентифицировать образцы в условиях недостатка плодной cfDNA для надежного определения признака. В других методах использовали специфичные по отношению к Y-хромосоме зонды для оценки доли плода плодов мужского пола, но сопутствующее генотипирование родителей давало возможность оценки доли плода для плодов обоих полов. Другое ограничение, присущее опубликованным методов с использованием нецелевого секвенирования методом «дробовика», состоит в том, что точность определения плоидности варьирует у хромосом вследствие различий в таких факторах, как обогащение по GC. Подход непосредственного целевого секвенирования по большей части не зависит от таких вариаций хромосомного масштаба и дает более устойчивую характеристику у хромосом.
Эксперимент 3
Целью являлось определение детектируемости трисомии с высокой достоверностью у триплоидного плода с использованием новых методов информатики для анализа локусов SNP в свободноплавающей плодной ДНК из материнской плазмы.
После патологических показаний ультразвукового исследования у беременной пациентки брали 20 мл крови. После центрифугирования из лейкоцитарной пленки экстрагировали материнскую ДНК (DNEASY, QIAGEN); бесклеточную ДНК экстрагировали из плазмы (QIAAMP QIAGEN). Целевое секвенирование применяли на локусах SNP в хромосомах 2, 21 и X в обоих образцах ДНК. Байесовским оцениванием максимального правдоподобия выбирали наиболее вероятную гипотезу из набора всех возможных состояний плоидности. Указанный способ определяет долю плодной ДНК, состояние плоидности и явную достоверность определения плоидности. Предположения относительно плоидности эталонной хромосомы не формулировали. В диагностике использовали тестовую статистику, которая не зависит от количества считываний последовательностей, что соответствует существующему уровню техники.
Способ в соответствии с настоящим изобретением позволял точно диагностировать трисомию по хромосомам 2 и 21. Оцененная доля ребенка составляла 11,9% [CI 11,7-12,1]. Считалось, что плод имеет одну материнскую и две отцовские копии хромосом 2 и 21 с эффективной достоверностью 1 (вероятность ошибки <10-30). Указанный результат достигался при 92600 и 258100 считываниях на хромосомах 2 и 21, соответственно.
Это первая демонстрация неинвазивной пренатальной диагностики трисомии хромосом по крови матери при триплоидности плода, подтвержденной исследованием кариотипа в метафазе. Существующие способы неинвазивной диагностики не позволяют определить анеуплоидию в таком образце. Современные способы основаны на увеличении количества считываний последовательностей на трисомной хромосоме по сравнению со считываниями на дисомных эталонных хромосомах; однако для триплоидного плода отсутствует дисомный эталон. Кроме того, существующие способы не позволяют определять плоидность с аналогичной высокой достоверностью при указанной доле плодной ДНК и при указанном количестве считываний последовательностей. Указанный способ несложно расширить для применения на всех 24 хромосомах.
Эксперимент 4
Следующий протокол использовали для 800-плексной амплификации ДНК, выделенной из материнской плазмы при эуплоидной беременности, а также геномной ДНК из линии триплоидных по хромосоме 21 клеток с использованием стандартной ПЦР (т.е. вложение не использовалось). Подготовка библиотеки и амплификация включали однопробирочное получение тупых концов с последующим присоединением А-хвоста. Адаптерное лигирование проводили с использованием набора для лигирования, входящего в комплект набора SURESELECT от AGILENT, и ПЦР осуществляли в течение 7 циклов. Затем выполняли 15 циклов STA (95°C в течение 30 секунд; 72°C в течение 1 минуты; 60°C в течение 4 минут; 65°C в течение 1 минуты; 72°C в течение 30 секунд) с использованием 800 пар различных праймеров, целями которых являлись SNP в хромосомах 2, 21 и X. Реакция проводили при концентрации праймеров 12,5 нМ. Затем ДНК секвенировали на секвенсоре IIGAX от ILLUMINA. Выход секвенатора составлял 1,9 миллиона считанных последовательностей, из которых 92% картировалось с геномом; из картирующихся с геномом считанных последовательностей более 99% картировалось с одной из областей, на которые нацеливали целевые праймеры. Указанные показатели по существу совпадали для ДНК плазмы и геномной ДНК. На фиг. 15 показано отношение двух аллелей для ~780 SNP, обнаруживаемых секвенатором в геномной ДНК, взятой из линии клеток с подтвержденной трисомией по хромосоме 21. Отметим, что отношения аллелей в настоящем документе представлены графически для облегчения визуализации, поскольку распределение аллелей сложно непосредственно оценить визуально. Кружками отмечены SNP в дисомных хромосомах, звездочками отмечены SNP в трисомной хромосоме. На фиг. 16 по-другому представлены те же данные, что и на фиг X, на которой по оси Y отложено относительное количество А и В, измеренное для каждого SNP, а по оси X число SNP, при этом SNP сгруппированы по хромосоме. На фиг. 16 SNP от 1 до 312 обнаруживали в хромосоме 2, SNP от 313 до 605 обнаруживали в хромосоме 21, которая является трисомной, и SNP от 606 до 800 обнаруживали в Х-хромосоме. Данные по хромосомам 2 и X показывают, что это дисомные хромосомы, поскольку относительные количества последовательностей группируются по трем кластерам: АА вверху графика, ВВ внизу графика, и АВ в середине графика. Данные по хромосоме 21, которая является трисомной, показывают наличие четырех кластеров: AAA наверху графика, ААВ около линии 0,65 (2/3), ABB около линии 0,35 (1/3), и ВВВ внизу графика.
На фиг. 17A-D представлены данные того же 800-плексного протокола, но измеренные на ДНК, которую амплифицировали из четырех образцов плазмы, взятых у беременных женщин. Для этих четырех образцов предполагали увидеть семь кластеров точек: (1) вдоль верхней части графика расположены те локусы, по которым и мать, и плод являются АА, (2) несколько ниже верхней части графика находятся локусы, по которым мать является АА, а плод является АВ, (3) несколько выше линии 0,5 расположены локусы, по которым мать является АВ, а плод является АА, (4) вдоль линии 0,5 находятся локусы, по которым и мать, и плод являются АВ, (5) несколько ниже линии 0,5 находятся локусы, по которым мать является АВ, а плод является ВВ, (6) несколько выше нижней части графика расположены локусы, по которым мать является ВВ, а плод является АВ, (1) по нижней части графика находятся локусы, по которым и мать, и плод являются ВВ. Чем меньше доля плода, тем меньше расхождения между кластерами (1) и (2), между кластерами (3), (4) и (5), а также между кластерами (6) и (7). Расхождение ожидается, если половина ДНК имеет плодное происхождение. Например, если ДНК на 20% плодная и на 80% материнская, прогнозировали, что кластеры от (1) до (7) центрированы на 1,0, 0,9, 0,6, 0,5, 0,4, 0,1 и 0,0, соответственно; см., например, фиг. 17D, POOLl_BC5_ref_rate. Если ДНК на 8% плодная, а на 92% материнская, ожидается, что кластеры от (1) до (7) центрированы на 1,00, 0,96, 0,54, 0,50, 0,46, 0,04 и 0,00, соответственно; см., например, фиг. 17, POOLl_BC2_ref_rate. Если плодная ДНК не обнаружена, ожидается отсутствие кластеров (2), (3), (5) или (6); как вариант, можно сказать, что расхождение нулевое, и, следовательно, кластеры (1) и (2) расположены один поверх другого, как и (3), (4) и (5), а также (6) и (7); см., например, фиг. 17С, POOLl_BC7_ref_rate. Отметим, что доля плода для фиг. 17А, POOLlBClrefrate, составляла приблизительно 25%.
Эксперимент 5
Большинство способов амплификации ДНК и измерений дает некоторое смещение числа аллелей, при этом два аллеля, которые, как правило, присутствуют в локусе, выявляются с плотностью или в количествах, не соответствующих фактическим количествам аллелей в образце ДНК. Например, у одного индивидуума в гетерозиготном локусе ожидается отношение двух аллелей 1:1, что является теоретическим отношением, ожидаемым для гетерозиготного локуса; однако, вследствие смещения числа аллелей, наблюдается соотношение 55:45 или даже 60:40. Также отметим, что в контексте секвенирования, если глубина секвенирования низкая, простой стохастический шум может привести к значительному смещению числа аллелей. Согласно варианту осуществления можно смоделировать поведение каждого SNP, так что если наблюдается смещение для конкретных аллелей, это смещение можно скорректировать. На фиг. 18 представлена часть данных, которую можно объяснить дисперсией биномиального распределения, до и после внесения поправки на смещение. На фиг. 18 звездочками обозначено смещение числа аллелей, наблюдаемое в необработанных данных секвенирования для 800-плексного эксперимента; кружками обозначено смещение числа аллелей после введение поправки на смещение. Отметим, что в отсутствие смещения числа аллелей данные предположительно будут располагаться вдоль линии х=у. Аналогичный набор данных получали при амплификации ДНК с использованием 150-плексной целевой амплификации; после введения поправки на смещение полученные данные располагались очень близко к линии 1:1.
Эксперимент б
Универсальная амплификация ДНК с использованием лигированных адаптеров с праймерами, специфичными по отношению к маркерам адаптеров, при которой время отжига праймеров и удлинения ограничено несколькими минутами, обладает эффектом обогащения более короткими цепями ДНК. Большинство протоколов библиотек, предназначенных для создания приемлемых для секвенирования библиотек ДНК, предусматривают такой этап, и примеры протоколов опубликованы и хорошо известны специалистам в данной области. Согласно некоторым вариантам осуществления настоящего изобретения адаптеры с универсальным маркером лигировали с ДНК плазмы и амплифицировали с использованием праймеров, специфичных по отношению к маркеру адаптеров. Согласно некоторым вариантам осуществления универсальным маркером может быть тот же маркер, который использовали для секвенирования, он может быть универсальным маркером только для ПЦР-амплификации, или он может представлять собой набор маркеров. Поскольку плодная ДНК, как правило, короткая, в то время как материнская ДНК может быть как короткой, так и длинной, этот способ позволяет обогатить смесь по содержанию плодной ДНК. Свободноплавающая ДНК, предположительно происходящая из апоптотических клеток, которая содержит и плодную, и материнскую ДНК, короткая - чаще всего ее длина составляет менее 200 пар оснований. Клеточная ДНК, высвобождаемая при лизисе клеток, обычном явлении после флеботомии, как правило, почти полностью материнская, а также достаточно длинная - чаще всего ее длина превышает 500 пар оснований. Таким образом, в образцах крови, которые оставляли на период более нескольких минут, содержится смесь короткой (плодной + материнской) и более длинной (материнской) ДНК. Проведение универсальной амплификации с относительно коротким периодом удлинения в образце материнской плазмы с последующей целевой амплификацией обычно увеличивает относительное содержание плодной ДНК по сравнению с содержанием в ДНК плазмы, которую амплифицировали с использованием только целевой амплификации. Это видно на фиг. 19, на которой представлен измеренный процент плодной ДНК при введении ДНК плазмы (вертикальная ось), по сравнению с измеренным процентом плодной ДНК при введении ДНК плазмы из библиотеки, подготовленной в соответствии с протоколом получения библиотек GAIIx от ILLUMINA. Все точки располагаются ниже линии, что указывает на то, что этап приготовления библиотеки включает обогащение ДНК плодного происхождения. Два образца плазмы, которые были красными, что свидетельствует о гемолизе, и, следовательно, предположительно содержавшие повышенное количество длинной материнской ДНК, высвобождаемой в результате лизиса клеток, показали особенно значительное обогащение по плодной ДНК, если целевой амплификации предшествовала подготовка библиотеки. Раскрытый в настоящем документе способ целесообразен, в частности, в случаях гемолиза или в какой-либо другой ситуации, в которой происходит лизис клеток, содержащих относительно длинные цепи загрязняющей ДНК, что обуславливает загрязнение длинной ДНК смешанного образца короткой ДНК. Как правило, относительно короткое время отжига и удлинения составляет от 30 секунд до 2 минут, хотя может быть сокращено до 5 или 10 секунд или менее, или продлено до 5 или 10 минут.
Эксперимент 7
Следующий протокол использовали для проведения 1200-плексной амплификации ДНК, выделенной из материнской плазмы при эуплоидной беременности, а также геномной ДНК из линии триплоидных по хромосоме 21 клеток с использованием протокола прямой ПЦР и полувложенного подхода. Подготовка библиотеки и амплификация включала однопробирочное получение тупых концов с последующим присоединением А-хвостов. Адаптерное лигирование проводили с использованием модификации набора для лигирования, входящего в комплект набора SURESELECT от AGILENT, а ПЦР проводили в течение 7 циклов. В пуле целевых праймеров содержалось 550 анализируемых фрагментов для SNP хромосомы 21 и 325 анализируемых фрагментов для SNP каждой из хромосом 1 и X. Оба протокола включали 15 циклов STA (95°C в течение 30 секунд; 72°C в течение 1 минуты; 60°C в течение 4 минут; 65°C в течение 30 секунд; 72°C в течение 30 секунд) при концентрации праймеров 16 нМ. Протокол полувложенной ПЦР включал вторую амплификацию из 15 циклов STA (95°C в течение 30 секунд; 72°C в течение 1 минуты; 60°C в течение 4 минут; 65°C в течение 30 секунд; 72°C в течение 30 секунд) с использованием концентрации внутреннего прямого маркера 29 нМ и концентрации обратного маркера 1 мкМ или 0,1 мкМ. Затем ДНК секвенировали на секвенаторе IIGAX от ILLUMINA. При протоколе прямой ПЦР 73% считанных последовательностей картировались с геномом; при протоколе полувложенной ПЦР 97,2% считанных последовательностей картировались с геномом. Следовательно, полувложенный протокол позволял получить приблизительно на 30% больше информации, предположительно в основном благодаря устранению праймеров, которые с максимальной вероятностью образовали бы димеры праймеров.
Вариабельность глубины секвенирования имеет тенденцию к повышению при использовании полувложенного протокола в сравнении с использованием протоколом прямой ПЦР (см. Фиг. 20), при этом ромбами обозначена глубина секвенирования для локусов, исследованных по полувложенному протоколу; квадратами обозначают глубину секвенирования для локусов, исследованных без вложения. SNP распределены по глубине секвенирования, обозначенной ромбами, так что все ромбы укладываются в кривую, в то время как квадраты распределяются слабо связанным образом; SNP расположены произвольным образом, и на глубину секвенирования указывает высота точки, а не ее расположение по горизонтали.
Согласно некоторым вариантам осуществления описанные в настоящем документе способы могут обеспечивать прекрасные показатели дисперсии глубины секвенирования (DOR). Например, в одном варианте данного эксперимента (фиг. 21) с использованием 1200-плексной прямой ПЦР-амплификации геномной ДНК из 1200 анализируемых фрагментов: 1186 анализируемых фрагментов характеризовались DOR более 10; средняя глубина секвенирования составляла 400; 1063 анализируемых фрагмента (88,6%) характеризовались глубиной секвенирования от 200 до 800, идеальным окном, при котором число считываний для каждого аллеля достаточно высоко для получения значимых данных и в то же время не настолько высоко, чтобы предельная полезность указанных считываний была слишком мала. Только 12 аллелей характеризовались более высокой глубиной секвенирования с самым высоким значением при 1035 считываниях. Стандартное отклонение DOR составляло 290, среднее значение DOR составляло 453, коэффициент дисперсии DOR составлял 64%, всего получали 950000 считываний, и 63,1% считанных последовательностей картировалось с геномом. В другом эксперименте (фиг. 22) с использованием 1200-плексного полувложенного протокола DOR была выше. Стандартное отклонение DOR составляло 583, среднее значение DOR составляло 630, коэффициент дисперсии DOR составлял 93%, всего получали 870000 считываний, и 96,3% считанных последовательностей картировалось с геномом. Отметим, что в обоих случаях SNP расположены по глубине секвенирования для матери так, что кривая отражает глубину секвенирования для матери. Дифференциация между ребенком и отцом не является значимой; имеется только тренд, значимый для целей настоящего объяснения.
Эксперимент 8
В эксперименте использовали протокол полувложенной 1200-плексной ПЦР для амплификации ДНК из одной клетки и из трех клеток. Этот эксперимент подходит для пренатального тестирования на анеуплоидию с использованием плодных клеток, выделенных из крови матери, или для преимплантационной генетической диагностики с использованием биопсированных бластомеров или образцов трофэктодермы. По 1 клетке и по 3 клетки от 2 индивидуумов (46 XY и 47 ХХ+21) использовали в 3 повторах для каждого состояния. Анализировали хромосомы 1, 21 и X. Использовали три различных способа лизиса: ARCTURUS, MPERv2 и щелочной лизис. Секвенирование проводили с мультиплексированием 48 образцов на одной дорожке секвенирования. Алгоритм давал корректные признаки плоидности для каждой из трех хромосом и для каждой повторности.
Эксперимент 9
В одном эксперименте четыре образца материнской плазмы подготавливали и амплифицировали с использованием полувложенного 9600-плексного протокола. Образцы готовили следующим образом: до 40 мл крови матери центрифугировали с целью выделения лейкоцитарной пленки и плазмы. Геномную ДНК матери получали из лейкоцитарной пленки, а отцовскую ДНК получали из образца крови или образца слюны. Бесклеточную ДНК из материнской плазмы выделяли с использованием набора CIRCULATING NUCLEIC ACID от QIAGEN и элюировали в 45 мкл ТЭ-буфера в соответствии с инструкциями производителя. Универсальные адаптеры лигирования присоединяли к концу каждой молекулы в 35 мкл очищенной ДНК плазмы, и библиотеки амплифицировали в течение 7 циклов с использованием праймеров, специфичных по отношению к адаптерам. Библиотеки очищали с помощью гранул AGENCOURT AMPURE и элюировали в 50 мкл воды.
Амплифицировали 3 мкл ДНК в течение 15 циклов STA (95°C в течение 10 минут для начальной активации полимеразы, затем 15 циклов при 95°C в течение 30 секунд; 72°C в течение 10 секунд; 65°C в течение 1 минуты; 60°C в течение 8 минут; 65°C в течение 3 минут и 72°C в течение 30 секунд; и финальное удлинение при 72°C в течение 2 минут) с использованием концентрации 9600 специфичных по отношению к целям маркированных обратных праймеров 14,5 нМ и концентрации одного специфичного к адаптеру библиотеки прямого праймера 500 нМ.
Протокол полувложенной ПЦР предусматривал вторую амплификацию разведенного продукта первых STA в течение 15 циклов STA (95°C в течение 10 минут для начальной активации полимеразы, затем 15 циклов при 95°C в течение 30 секунд; 65°С в течение 1 минуты; 60°C в течение 5 минут; 65°C в течение 5 минут и 72°C в течение 30 секунд; и финальное удлинение при 72°C в течение 2 минут) с использованием концентрации обратного маркера 1000 нМ и концентрации 16,6 нМ каждого из 9600 специфичных по отношению к целям прямых праймеров.
Затем аликвоту продуктов STA амплифицировали стандартной ПЦР в течение 10 циклов с 1 мкМ специфичных по отношению к маркеру прямых праймеров и обратных праймеров со штрихкодом для получения библиотек секвенирования со штрихкодом. Аликвоту из каждой библиотеки смешивали с библиотеками различных штрихкодов и очищали с использованием спин-колонки.
Таким образом в однолуночных реакциях использовали 9600 праймеров; праймеры были сконструированы для нацеливания на SNP в хромосомах 1, 2, 13, 18, 21, X и Y. Затем ампликоны секвенировали с использованием секвенатора GAIIX от ILLUMINA. Секвенатором генерировали приблизительно 3,9 миллиона считываний на образец, из них 3,7 миллиона считанных последовательностей картировались с геномом (94%), и из них 2,9 миллиона считанных последовательностей (74%) картировались с целевым SNP со средней глубиной секвенирования 344 и медианой глубины секвенирования 255. Доля плода в четырех образцах составляла 9,9%, 18,9%, 16,3% и 21,2%.
Значимые образцы материнской и отцовской геномной ДНК амплифицировали с использованием полувложенного 9600-плексного протокола и секвенировали. Полувложенный протокол отличается тем, что в нем используются 9600 внешних прямых праймеров и маркированных обратных праймеров при концентрации 7,3 нМ в первой STA. Условия термоциклирования и состав второй STA и штрихкодирующей ПЦР были такими же, как и в полувложенном протоколе.
Данные секвенирования анализировали с использованием раскрытых в настоящем документе методов информатики и определяли состояние плоидности для шести хромосом плода, чья ДНК присутствовала в 4 образцах материнской плазмы. Признаки плоидности для всех 28 хромосом в наборе определялись корректно с достоверностью выше 99,2%, за исключением одной хромосомы, плоидность которой была прогнозирована корректно, но с достоверностью 83%.
На фиг. 23 показана глубина секвенирования при 9600-плексном полувложенном подходе вместе с глубиной секвенирования при 1200-плексном полувложенном подходе, описанном в эксперименте 7, хотя количество SNP с глубиной секвенирования более 100, более 200 и более 400 было существенно выше, чем при 1200-плексном протоколе. Число считываний при 90-м процентиле может быть разделено на число считываний при 10-м процентиле для получения безразмерной метрики, которая служит показателем однородности глубины секвенирования; чем меньше число, тем более однородна (является более узкой) глубина секвенирования. Среднее отношение 90-го процентиля к 10-ому процентилю составляло 11,5 для способа, использованного в эксперименте 9, и 5, 6 - для способа, использованного в эксперименте 7. Более узкая глубина секвенирования для протокола данной плексности предпочтительнее для эффективности секвенирования, поскольку требуется меньшее число считываний последовательностей, чтобы обеспечить, что определенное процентное отношение считываний находится выше порога числа считываний.
Эксперимент 10
В одном эксперименте четыре образца материнской плазмы готовили и амплифицировали с использованием полувложенного 9600-плексного протокола. Детали эксперимента 10 были очень сходны с экспериментом 9, включая идентичность четырех образцов, за исключением вложенного протокола. Признаки плоидности для всех 28 хромосом набора определялись корректно с достоверностями выше 99,7%. 7,6 миллиона (97%) считанных последовательностей картировались с геномом, а 6,3 миллиона (80%) считанных последовательностей картировались с целевым SNP. Средняя глубина секвенирования составляла 751, а медиана глубины секвенирования составляла 396.
Эксперимент 11
В одном эксперименте три образца материнской плазмы разделяли на пять равных частей, и каждую порцию амплифицировали с использованием 2400 мультиплексных праймеров (четыре части) или 1200 мультиплексных праймеров (одна часть) по полувложенному протоколу с использованием в целом 10800 праймеров. После амплификации части объединяли для секвенирования. Детали эксперимента 11 были очень сходны с экспериментом 9, за исключением протокола вложения и подхода расщепления и объединения. Признаки плоидности для всех 21 хромосом набора определялись корректно с достоверностями выше 99,7%, за исключением одного пропущенного признака, для которого достоверность составляла 83%. 3,4 миллиона считанных последовательностей картировались с целевым SNP, средняя глубина секвенирования составляла 404, и медиана глубины секвенирования составляла 258.
Эксперимент 12
В одном эксперименте четыре образца материнской плазмы разделяли на четыре равные части, и каждую часть амплифицировали с использованием 2400 мультиплексных праймеров и амплифицировали с использованием полувложенного протокола; всего использовали 9600 праймеров. После амплификации части объединяли для секвенирования. Детали эксперимента 12 были очень сходны с экспериментом 9, за исключением протокола вложения и подхода расщепления и объединения. Признаки плоидности для всех 28 хромосом набора определялись корректно, с достоверностями выше 97%, за исключением одного пропущенного признака, для которого достоверность составляла 78%. 4,5 миллиона считанных последовательностей картировались с целевым SNP, средняя глубина секвенирования составляла 535, а медиана глубины секвенирования составляла 412.
Эксперимент 13
В одном эксперименте четыре образца материнской плазмы приготовили и амплифицировали с использованием 9600-плексного трижды полувложенного протокола, с общим числом 9600 праймеров. Детали эксперимента 12 были очень сходны с экспериментом 9, за исключением протокола вложения, который предусматривал три раунда амплификации; три раунда предусматривали 15, 10 и 15 циклов STA, соответственно. Признаки плоидности для 27 из 28 хромосом набора определялись корректно с достоверностями выше 99,9%, за исключением одной хромосомы, плоидность которой была прогнозирована корректно с достоверностью 94,6% и одного пропущенного признака, для которого достоверность составляла 80,8%. 3,5 миллиона считанных последовательностей картировались с целевыми SNP, средняя глубина секвенирования составляла 414, а медиана глубины секвенирования составляла 249.
Эксперимент 14
В одном эксперименте 45 наборов клеток амплифицировали с использованием 1200-плексного полувложенного протокола, секвенировали и для трех хромосом определяли плоидность. Отметим, что этот эксперимент был предназначен для моделирования условий выполнения преимплантационной генетической диагностики на одноклеточных биоптатах, полученных от 3-дневных эмбрионов, или биоптатах трофэктодермы, полученных от 5-дневных эмбрионов. Помещали 15 индивидуальных единичных клеток и 30 агрегатов из трех клеток в 45 индивидуальных реакционных пробирок для проведения обшей сложностью 45 реакций, при этом в каждой реакции участвовали клетки только одной клеточной линии, но в разных реакциях участвовали клетки различных клеточных линий. Клетки обрабатывали в 5 мкл отмывочного буфера, лизировали добавлением 5 мкл лизирующего буфера ARCTURUS PICOPURE (от APPLIED BIOSYSTEMS) и инкубировали при 56°C в течение 20 минут и при 95°С в течение 10 минут.
ДНК единичных/трех клеток амплифицировали в течение 25 циклов STA (95°C в течение 10 минут для начальной активации полимеразы, затем 25 циклов при 95°C в течение 30 секунд; 72°C в течение 10 секунд; 65°C в течение 1 минуты; 60°C в течение 8 минут; 65°C в течение 3 минут и 72°C в течение 30 секунд; и финальное удлинение при 72°C в течение 2 минут) с использованием концентрации 1200 специфичных по отношению к целям прямых и маркированных обратных праймеров 50 нМ.
Полувложенный протокол ПЦР предусматривал три параллельные вторые амплификации разведенного продукта первых STA в течение 20 циклов STA (95°C в течение 10 минут для начальной активации полимеразы, затем 15 циклов при 95°C в течение 30 секунд; 65°C в течение 1 минуты; 60°C в течение 5 минут; 65°C в течение 5 минут и 72°C в течение 30 секунд; и финальное удлинение при 72°C в течение в течение 2 минут) с использованием концентрации обратных специфичных по отношению к маркеру праймеров 1000 нМ и концентрации 60 нМ для каждого из 400 специфичных по отношению к целям «вложенных» прямых праймеров. Таким образом, в трех параллельных 400-плексных реакциях амплифицировали всего 1200 целей, амплифицированных в первой STA.
Затем аликвоту продуктов STA амплифицировали методом стандартной ПЦР в течение 15 циклов с 1 мкМ специфичных по отношению к маркеру прямых праймеров и обратных праймеров со штрихкодом для получения библиотек со штрихкодом для секвенирования. Аликвоту каждой библиотеки смешивали с библиотеками различных штрихкодов и очищали на спин-колонке.
Таким образом, использовали 1200 праймеров в реакциях с участием единичных клеток; праймеры конструировали для нацеливания на SNP хромосом 1, 21 и X. Затем ампликоны секвенировали с использованием секвенатора GAIIX от ILLUMINA. С помощью секвенатора генерировали приблизительно 3,9 миллиона считываний на образец, при этом от 500000 до 800000 миллионов считанных последовательностей картировались с геномом (от 74% до 94% всех считанных последовательностей на образец).
Релевантные образцы материнской и отцовской геномной ДНК из клеточных линий анализировали с использованием того же полувложенного 1200-плексного пула анализируемых фрагментов по аналогичному протоколу с меньшим количеством циклов и 1200-плексной второй STA, и секвенировали.
Данные секвенирования анализировали с использованием раскрытых в настоящем документе методов информатики и для образцов определяли признаки плоидности по трем хромосомам.
На фиг. 24 представлены нормализованные отношения глубины секвенирования (вертикальная ось) для шести образцов по трем хромосомам (1 = хромосома 1; 2 = хромосома 21; 3 = хромосома X). Отношения выравнивали по числу считанных последовательностей, картирующихся с данной хромосомой, нормализовали и делили на усредненное по трем лункам число считанных последовательностей, картирующихся с данной хромосомой, при этом в каждой лунке находилось три клетки 46XY. Предполагали, что три набора точек замера, соответствующих клеткам 46XY, имели отношения 1:1. Предполагали, что три набора точек замера, соответствующих клеткам 47ХХ+21, имели отношения 1:1 для хромосомы 1, 1,5:1 для хромосомы 21 и 2:1 для Х-хромосомы.
На фиг. 25 представлены аллельные отношения в графическом виде для трех хромосом (1, 21, X) по трем реакциям. Область внизу слева показывает реакцию на трех клетках 46XY. Область слева - это аллельные отношения для хромосомы 1, средняя область - это аллельные отношения для хромосомы 21, и правая область - это аллельные отношения для Х-хромосомы. Для клеток 46XY для хромосомы 1 ожидались отношения 1, 0,5 и 0, соответствующие генотипам SNP АА, АВ и ВВ. Для клеток 46XY для хромосомы 21 ожидались отношения 1, 0,5 и 0, соответствующие генотипам SNP АА, АВ и ВВ. Для клеток 46XY для Х-хромосомы ожидались отношения 1 и 0, соответствующие генотипам SNP А и В. Область внизу справа показывает реакцию на трех клетках 47ХХ+21. Аллельные отношения сегрегированы по хромосомам, как в нижней левой части графика. Для клеток 47ХХ+21 для хромосомы 1 ожидались отношения 1, 0,5 и 0, соответствующие генотипам SNP АА, АВ и ВВ. Для клеток 47ХХ+21 для хромосомы 21 ожидались отношения 1, 0,67, 0,33 и 0, соответствующие генотипам SNP AAA, ААВ, ABB и ВВВ. Для клеток 47ХХ+21 для X-хромосомы ожидались отношения 1, 0,5 и 0, соответствующие генотипам SNP АА, АВ, и ВВ. График вверху справа строили на основании данных реакции с 1 нг геномной ДНК из клеточной линии 47ХХ+21. На фиг. 26 представлены те же графики, что и на фиг. 25, но для реакций, проведенных только на одной клетке. На графике слева представлена реакция с клеткой 47ХХ+21; на графике справа представлена реакция с клеткой 46ХХ.
Из графиков, показанных на фиг. 25 и фиг. 26, видно, что имеется два кластера точек для хромосом, в которых ожидается видеть отношения 1 и 0; три кластера точек для хромосом, в которых ожидается видеть отношения 1, 0,5 и 0, а также четырех кластеров точек для хромосом, в которых ожидается видеть отношения 1, 0,67, 0,33 и 0. С помощью алгоритма PARENTAL SUPPORT стало возможным получение корректных признаков по всем трем хромосомам для всех 45 реакций.
Эксперимент 15
В одном из экспериментов получали образцы материнской плазмы и амплифицировали с применением гемивложенного 19 488-плексного протокола. Указанные образцы получали следующим образом: до 20 мл материнской крови центрифугировали для выделения лейкоцитарной пленки и плазмы. Геномную ДНК в материнском образце получали из лейкоцитарной пленки, а отцовскую ДНК получали из образца крови или слюны. Бесклеточную ДНК материнской плазмы выделяли с применением набора CIRCULATING NUCLEIC ACID от QIAGEN и элюировали в 50 мкл ТЭ-буфера в соответствии с инструкциями производителя. Универсальные адаптеры лигирования добавляли к концу каждой молекулы 40 мкл очищенной ДНК плазмы и библиотеки амплифицировали в течение 9 циклов с применением специфических в отношении адаптеров праймеров. Библиотеки очищали на гранулах AGENCOURT AMPURE и элюировали в 50 мкл буфера для суспендирования ДНК.
6 мкл ДНК амплифицировали в течение 15 циклов STAR 1 (95°C на протяжении 10 мин для начальной активации полимеразы, с последующими 15 циклами при 96°C на протяжении 30 с; 65°C на протяжении 1 мин; 58°C на протяжении 6 мин; 60°C на протяжении 8 мин; 65°C на протяжении 4 мин и 72°C на протяжении 30 с; и конечное удлинение при 72°C на протяжении 2 мин) с использованием концентрации 7,5 нМ 19 488 специфичных в отношении цели маркированных обратных праймеров и одного специфичного в отношении адаптеров библиотеки прямого праймера в концентрации 500 нМ.
Протокол гемивложенной ПЦР включал вторую амплификацию разбавленного продукта STAR 1 в течение 15 циклов (STAR 2) (95°C на протяжении 10 мин для начальной активации полимеразы, с последующими 15 циклами при 95°C на протяжении 30 с; 65°C на протяжении 1 мин; 60°C на протяжении 5 мин; 65°C на протяжении 5 мин и 72°C на протяжении 30 с; и конечное удлинение при 72°C на протяжении 2 мин) с использованием концентрации обратного маркера 1000 нМ и концентрации 20 нМ для каждого из 19488 специфичных в отношении цели прямых праймеров.
Затем аликвоту продуктов STAR 2 амплифицировали посредством 12 циклов стандартной ПЦР с 1 мкМ специфичных в отношении маркеров прямых и штрихкодированных обратных праймеров для получения штрихкодированных библиотек для секвенирования. Аликвоту каждой библиотеки смешивали с библиотеками разных штрихкодов и очищали на спин-колонке.
Указанным образом использовали 19488 праймеров для однолуночных реакций; указанные праймеры были сконструированы для нацеливания на SNP, присутствующие на хромосомах 1, 2, 13, 18, 21, X и Y. Затем ампликоны секвенировали на секвенаторе ILLUMINA GAIIX. Для образцов плазмы на секвенаторе получали приблизительно 10000 000 считываний, при этом 9,4-9,6 млн считанных последовательностей картировались с геномом (94-96%), из которых 99,95% картировались с целевым SNP со средним значением глубины секвенирования 460 и медианой глубины секвенирования 350. Для сравнения, идеально равномерное распределение выглядело бы так: 10 млн считываний / 19488 целей = 513 считываний/цель. Для димеров праймеров 30000 считываний соответствовали секвенированным димерам праймеров (0,3% считываний, полученных на секвенаторе). Для геномных образцов 99,4-99,7% считанных последовательностей картировались с геномом, из них 99,99% картировались с целевым SNP, и 0,1% считываний, полученных на секвенаторе, соответствовали димерам праймеров.
Для образцов плазмы при 10000000 считанных последовательностях, как правило, амплифицируются и секвенируются по меньшей мере 19350 из 19488 целевых SNP (99,3%). Для образцов ДНК с 2 млн считанных последовательностей, как правило, амплифицируются и секвенируются по меньшей мере 19000 целевых SNP (97,5%). Более низкие значения могут быть обусловлены шумовым сигналом, поскольку число считываний ниже и секвенатор пропускает часть амплифицированных продуктов. Если требуется, число считанных последовательностей может быть увеличено для увеличения количества целевых SNP, которые амплифицируются и секвенируются.
Релевантные образцы геномной ДНК матери и отца амплифицировали с применением полувложенных 19 488 внешних прямых праймеров и маркированных обратных праймеров в концентрации 7,5 нМ с использованием STAR 1. Условия термоциклирования, состав STAR 2 и ПЦР штрихкодирования были такими же, как и для гемивложенного протокола.
Средняя доля плода в 407 образцах была определена как 14,8%. Данные секвенирования анализировали с применением способа на основе информатики, раскрытом в настоящем документе, и прогнозировали состояние плоидности по четырем хромосомах (13, 18, 21, Y) для плодов, ДНК которых присутствовала в 378 из 407 образцов материнской плазмы, и по хромосоме X в 375 из 407 образцов материнской плазмы. Признаки плоидности для всех 1887 хромосом в наборе определялись корректно, с достоверностью выше 90%. 1882 из 1887 прогнозов имели достоверность более 95%; и 1862 из 1887 прогнозов имели достоверность более 99%.
Проводили аналогичный контрольный эксперимент с применением воды вместо ДНК, экстрагированной из плазмы, в протоколе ПЦР плазмы. На основании шести таких экспериментальных испытаний, 5-6% считанных последовательностей соответствовали димерам праймеров. Другие считанные последовательности объяснялись фоновым шумом. Указанный эксперимент демонстрирует, что даже в отсутствие образца нуклеиновой кислоты с целевыми локусами для гибридизации праймеров (вместо гибридизации с другими праймерами и образования амплифицированных димеров праймеров) образуется незначительное количество димеров праймеров.
Эксперимент 16
Следующий эксперимент иллюстрирует пример способа конструирования и отбора библиотеки праймеров, которая может использоваться в любом из способов мультиплексной ПЦР согласно настоящему изобретению. Цель заключается в отборе праймеров из исходной библиотеки кандидатных праймеров, которые можно использовать для одновременной амплификации значительного числа целевых локусов (или поднабора целевых локусов) в ходе одной реакции. Праймеры для исходного набора кандидатных целевых локусов не нужно конструировать или отбирать для каждого целевого локуса. Предпочтительно, праймеры конструируют и отбирают для значительной части наиболее желательных целевых локусов.
Этап 1
Набор кандидатных целевых локусов (таких как SNP) выбирали на основании общедоступной информация о требуемых параметрах целевых локусов, таких как частота SNP в целевой популяции или степень гетерозиготности SNP (интернет-адрес: ncbi.nlm.nih.gov/projects/SNP/; Sherry ST, Ward МН, Kholodov М, и др. dbSNP: the NCBI database of genetic variation. Nucleic Acids Res. 2001 Jan 1; 29 (1): 308-11; каждый из указанных источников включен полностью посредством ссылки). Для каждого кандидатного локуса конструировали один или несколько пар ПЦР-праймеров с применением программы Primer3 (интернет-адрес: primer3.sourceforge.net; Hbprimer3, версия 2.2.3, полностью включенный в настоящий документ посредством ссылки). Если осуществимых вариантов конструкции ПЦР-праймеров для конкретного локуса нет, указанный целевой локус исключали из дальнейшего рассмотрения.
Если требуется, может быть рассчитана «оценка целевого локуса» (более высокая оценка является более благоприятной) для большей части или для всех целевых локусов, например, оценка целевых локусов, рассчитанная на основании средневзвешенного значения различных требуемых параметров целевых локусов. Указанным параметрам может быть присвоен разный вес на основании их важности для конкретного применения, предусматриваемого для праймеров. Примеры параметров включают степень гетерозиготности целевого локуса, распространенность заболевания, связанную с последовательностью (например, полиморфизмом) в целевом локусе, пенетрантность заболевания, связанную с последовательностью (например, полиморфизмом) в целевом локусе, специфичность кандидатного(ых) праймера(ов), используемого(ых) для амплификации целевого локуса, размер кандидатного(ых) праймера(ов), используемого(ых) для амплификации целевого локуса, и размер целевого ампликона.
Этап 2
Рассчитывали показатель термодинамического взаимодействия между всеми праймерами для всех остальных целевых локусов этапа 1 (см., например, источники: Allawi, Н.Т. & SantaLucia, J., Jr. (1998), "Thermodynamics of Internal C-T Mismatches in DNA", Nucleic Acids Res. 26, 2694-2701; Peyret, N., Seneviratne, P.A., Allawi, H.T. & SantaLucia, J., Jr. (1999), "Nearest-Neighbor Thermodynamics and NMR of DNA Sequences with Internal A-A, C-C, G-G, and T-T Mismatches", Biochemistry 38, 3468-3477; Allawi, H. T. & SantaLucia, J., Jr. (1998), "Nearest-Neighbor Thermodynamics of Internal A-C Mismatches in DNA: Sequence Dependence and pH Effects", Biochemistry 37, 9435-9444.; Allawi, H.T. & SantaLucia, J., Jr. (1998), "Nearest Neighbor Thermodynamic Parameters for Internal G-A Mismatches in DNA", Biochemistry 37, 2170-2179;; и Allawi, H.T. & SantaLucia, J., Jr. (1997), "Thermodynamics and NMR of Internal G-T Mismatches in DNA", Biochemistry 36, 10581-10594; MultiPLX 2.1 (Kaplinski L, Andreson R, Puurand T, Remm M. MultiPLX: automatic grouping and evaluation of PCR primers. Bioinformatics. 2005 Apr 15; 21 (8): 1701-2, каждый из которых полностью включен в настоящий документ посредством ссылки). Указанный этап приводит к получению двумерной матрицы показателей взаимодействия. Показатель взаимодействия предсказывает вероятность возникновения димеров праймеров, содержащих два взаимодействующих праймера. Указанный показатель (interactionscore) рассчитывали следующим образом:
interaction_score = max(- deltaG_2, 0,8*(- deltaG_l))
где
deltaG_2 = энергия Гиббса (энергия, необходимая для разрушения димера) для димера, удлиняемого при ПЦР с обоих концов, т.е. 3' - конец каждого праймера отжигается с другим праймером; и
deltaG_l = энергия Гиббса для димера, удлиняемого при ПЦР по меньшей мере с одного конца.
Этап 3:
Затем для каждого целевого локуса, при существовании более чем одной конструкции пары праймеров, выбирали одну конструкцию с применением следующего способа:
1. Для каждой конструкции пары праймеров для локуса находили наихудшую (максимальную) оценку взаимодействия для двух праймеров в указанной конструкции и всех праймеров из всех конструкций для всех остальных целевых локусов.
2. Выбирали конструкцию с наилучшей (минимальной) из наихудших оценок взаимодействия.
Этап 4
Строили граф таким образом, чтобы каждый узел представлял один локус и соответствующую ему конструкцию пары праймеров (например, задача нахождения клики максимального размера). Между каждой парой узлов строили одну грань. Назначали вес для каждой грани, равный наихудшей (максимальной) оценке взаимодействия между праймерами, связанными с двумя узлами, соединенными гранью.
Этап 5
При необходимости для каждой пары конструкций для двух разных целевых локусов, где один праймер из одной конструкции и один праймер из другой конструкции отжигаются с перекрывающимися целевыми областями, добавляли дополнительную грань между узлами для указанных двух конструкций. Вес указанных граней приравнивали к максимальному весу, назначенному на этапе 4. Соответственно, Этап 5 предотвращает присутствие в библиотеке праймеров, которые будут отжигаются с перекрывающимися целевыми областями, и, соответственно, мешать друг другу, во время реакции мультиплексной ПЦР.
Этап 6
Стартовый порог для оценки взаимодействия рассчитывали следующим образом: weight_threshold = max(edge weight)-0,05*(max(edge_weight)-min(edge_weight)) где
max(edge_weight) представляет собой максимальный вес грани на графе; и
min(edge_weight) представляет собой минимальный вес грани на графе.
Стартовые границы для порога устанавливали следующим образом:
max_weight_threshold = max(edge_weight)
min_weight_threshold = min(edge_weight)
Этап 7
Строили новый граф, состоящий из того же набора узлов, что и граф на этапе 5, включающий только грани, вес который превышал показатель weight_threshold. Соответственно, на этом этапе игнорируются взаимодействия с оценками, равными или меньшими, чем weight_threshold.
Этап 8
Узлы (и все грани, соединенные с удаленными узлами) удаляли из графа этапа 7, до удаления всех граней. Узлы удаляли с многократным применением следующей процедуры:
1. Находили узел максимального порядка (с максимальным числом граней). При наличии более чем одного такого узла выбор делали произвольно.
2. Определяли набор узлов, состоящий из выбранного описанным выше образом узла и всех узлов, соединенных с ним, но исключая любые узлы, которые имеют меньший порядок, чем узел, выбранный описанным выше образом.
3. Выбирали из набора узел, соответствующий самой низкой оценке для целевых локусов (более низкая оценка соответствует менее желательной) из полученных на этапе 1. Удаляли этот узел из графа.
Этап 9
Если число узлов, остающихся на графе, соответствует требуемому числу целевых локусов для пула мультиплексной ПЦР (в пределах приемлемого допуска), реализацию способа продолжали на этапе 10.
Если на графе оставалось слишком много или слишком мало узлов, выполняли бинарный поиск для определения того, какие пороговые значения будут давать требуемое число узлов, остающихся на графах. Если на графе имелось слишком много узлов, границы порогового веса (weight threshold) корректировали следующим образом:
max_weight_threshold = weightthreshold
Или же (если на графе слишком мало узлов) границы порогового веса корректировали следующим образом:
minweightthreshold = weightthreshold Затем порог веса корректировали следующим образом: weightthreshold = (maxweightthreshold+min_weight_threshold) / 2 Повторяли этапы 7-9.
Этап 10
Конструкции пар праймеров, связанных с узлами, остающимися на графе, отбирали для библиотеки праймеров. Указанная библиотека праймеров может использоваться в любых способах согласно настоящему изобретению.
Если требуется, указанный способ конструирования и отбора праймеров можно применять для библиотек праймеров, где для амплификации целевого локуса используют только один праймер (а не пары праймеров). В этом случае узел представляет один праймер на один целевой локус (а не пару праймеров).
Эксперимент 17
На фиг. 27 представлено графическое сравнение двух библиотек праймеров, сконструированных с применением способов согласно настоящему изобретению. На указанном графике приведено число локусов с частотами конкретных минорных аллелей, на которые нацелен каждый праймер библиотеки. Во время отбора «нового пула» библиотеки сохранялось больше праймеров. Указанный библиотека позволяет амплифицировать большее число целевые локусы, в частности, целевых локусов с относительно большими частотами минорных аллелей (которые являются более информативными аллелями для некоторых способов согласно настоящему изобретению, таких как обнаружение хромосомных аномалий плода).
Указанные библиотеки праймеров использовали в следующем способе мультиплексной ПЦР. Кровь (20-40 мл) от каждого субъекта собирали в две пробирки для ДНК 4 CELL-FREEтм (Streck). Плазму (минимум 7 мл) выделяли из каждого образца с применением протокола двойного центрифугирования при 2000 g на протяжении 20 минут, затем при 3220 g на протяжении 30 минут, с извлечением супернатанта после первого цикла центрифугирования. cfDNA выделяли из 7-20 мл плазмы с применением набора от QIAGEN QIAamp Circulating Nucleic Acid и элюировали в 45 мкл ТЭ-буфере. Чистую материнскую геномную ДНК выделяли из лейкоцитарной пленки, полученной после первого центрифугирования; чистую отцовскую геномную ДНК получали аналогичным образом из образца крови, слюны или буккального соскоба.
Образцы материнской cfDNA, материнской геномной ДНК и отцовской геномной ДНК преамплифицировали в течение 15 циклов с применением 11000 специфичных в отношении цели анализов; переносили аликвоту во вторую реакцию ПЦР из 15 циклов с применением вложенных праймеров. Наконец, получали образцы для секвенирования, добавляя штрихкодированные маркеры в третьем включающем 12 циклов раунде ПЦР. Соответственно, амплифицировали 11000 целей в ходе одной реакции; указанные цели включали SNP, присутствующие на хромосомах 13, 18, 21, X и Y. Затем ампликоны секвенировали с применением секвенатора ILLUMINA GAIIx или HISEQ. Родительские генотипы секвенировали с меньшей глубиной секвенирования (-20% от глубины секвенирования cfDNA), чем плодные генотипы.
Эксперимент 18
Если требуется, размер и количество продуктов ПЦР могут быть проанализированы с применением стандартных способов, например, на анализаторе Agilent Technologies 2100 Bioanalyzer (фиг. 28А-М). Например, в 2400-плексных (фиг. 28B-28G) и 19 488-плексных экспериментах (фиг. 28Н-28М) использовали способы прямой ПЦР без вложенных реакций, описанные в настоящем документе. Количество праймера составляло 10 нМ для фиг. 28В-28D и 28H-28J. Количество праймера составляло 1 нМ для фиг. 28E-28G и 28К-28М. Количество вводимой ДНК составляло 24 нг для фиг. 28В, 28Е, 28Н и 28К; 80 нг для фиг. 28С, 28F, 281 и 28L; и 250 нг для фиг. 28D, 28G, 28J и 28М. Большее количество вводимой ДНК приводило к большей доле требуемого продукта размером 180 п.о. Пик, соответствующий 140 п.о., представляет собой продукт димеров праймеров.
Эксперимент 19
Исследование для подтверждения концепции продемонстрировало обнаружение Т13, Т18, Т21, 45,Х и 47,XXY с одинаково высокой точностью во всех хромосомах.
Пациенты
Ожидающие ребенка пары регистрировались в определенных пренатальных центрах согласно протоколам, одобренным экспертным советом организации в соответствии с местным законодательством. Критерии включения предусматривали: возраст по меньшей мере 18 лет, гестационный срок по меньшей мере девять недель, одноплодную беременность и подписанное информированное согласие. У беременных матерей брали образцы крови; у отцов брали образцы крови или буккальные образцы. Образцы от 2 беременностей с Т13 (синдром Патау), 2 с Т18 (синдром Эдвардса), 2 с Т21 (синдром Дауна), 2 с 45,Х, 2 с 47,XXY, и 90 нормальных беременностей выбирали перед тестированием из когорты -500 женщин для исследования того, какие хромосомные аномалии выявляет способ. Нормальный плодный кариотип подтверждали с помощью молекулярного кариотипирования для тех образцов, для которых была доступна ткань ребенка после рождения. Эуплоидные образцы получали перед инвазивным тестированием от женщин с низкой степенью риска. Анеуплоидные образцы получали по меньшей мере через 7 дней после инвазивного тестирования и анеуплоидию подтверждали с применением цитогенетического кариотипирования или флуоресцентной гибридизации in situ, проводимых независимыми лабораториями.
Подготовка образцов и мультиплексная ПЦР
Для получения данных, представленных на фиг. 30А-Е, 30G, 30Н, и 31A-31G, подготовку образцов и 19488-плексную ПЦР выполняли согласно описанию для эксперимента 15. Для получения данных, представленных на фиг. 30F, подготовку образцов и 11000-плексную ПЦР выполняли согласно описанию для эксперимента 17.
Методика и анализ данных
Указанный алгоритм учитывает родительские генотипы и данные о частоте кроссинговеров (например, данные из базы НарМар) для расчета ожидаемых аллельных распределений для 19 488 полиморфных локусов для очень значительного числа возможных состояний плоидности плода, и при различных долях плодной cfDNA (фиг. 29А-29С). В отличие от способов, основанных на аллельных отношениях, он также учитывает дисбаланс сцепления, и использует негауссовы модели данных для описания ожидаемого распределения измерений аллелей в SNP с учетом наблюдаемых характеристик платформы и смещения амплификации. Затем он сравнивает различные предсказанные аллельные распределения с фактическими аллельными распределениями, измеренными в образце cfDNA (фиг. 29С) и вычисляет вероятность каждой гипотезы (моносомии, дисомии или трисомии, для которых имеются многочисленные гипотезы, основанные на различных потенциальных кроссинговерах) на основе данных секвенирования. Указанный алгоритм суммирует вероятности каждой из индивидуальных гипотез моносомии, дисомии или трисомии (фиг. 29D) и прогнозирует состояние плоидности с максимальной общей вероятностью в соответствии с числом копий и долей плода (фиг. 29Е). Хотя кариотипы образцов не маскировали от лабораторных исследователей, алгоритм прогнозировал состояния плоидности без вмешательства человека и по сути был маскирован.
Интерпретация данных
Графические представления полученных данных
Для определения состояния плоидности представляющих интерес хромосом указанный алгоритм учитывает распределение считываний последовательностей из каждых двух возможных аллелей в 3000-4000 SNP на хромосому. Важно отметить, что указанный алгоритм осуществляет прогнозирование плоидности с использованием подхода, который сам по себе не обеспечивает визуализацию. Соответственно, в иллюстративных целях данные представлены в настоящем документе упрощенно, в виде отношений двух наиболее вероятных аллелей, названных А и В, чтобы можно было более легко визуализировать релевантные тренды. Указанное упрощенное представление не учитывает некоторые из особенностей алгоритма. Например, два важных аспекта указанного алгоритма, которые невозможно проиллюстрировать с применением способа визуализации, демонстрирующего аллельные отношения, заключаются в: 1) способности использовать дисбаланс сцепления, т.е. влияние, которое измерение в одном SNP оказывает на вероятную идентичность соседнего SNP, и 2) применение негауссовых моделей данных, описывающих ожидаемое распределение измерений аллелей в SNP с учетом характеристик платформы и смещения амплификации. Также отметим, что указанный алгоритм учитывает только два наиболее распространенных аллеля для каждого SNP, игнорируя другие возможные аллели.
Графические представления на фиг. 30А-30Н включают образцы, в которых присутствует 2, 1 или 3 плодных хромосомы. Как правило, это указывает на эуплоидность (фиг. 30А-30С). моносомию (фиг. 30D) и трисомию (фиг. 30Е-30Н), соответственно. На всех графиках каждая зона представляет один SNP, при этом целевые SNP нанесены на график последовательно слева направо для одной хромосомы вдоль горизонтальных осей. Вертикальные оси отображают число считываний аллеля А как доли от общего числа считываний для обоих аллелей А и В для указанного SNP. Отметим, что измерения проводятся на выделенной из материнской крови тотальной cfDNA, и указанная cfDNA включает как материнскую, так и плодную cfDNA; соответственно, каждая зона представляет комбинацию вклада плодной и материнской ДНК для этого SNP. Таким образом, увеличение доли материнской cfDNA от 0% до 100% будет постепенно сдвигать некоторые зоны вверх или вниз на графиках, в зависимости от материнского и плодного генотипов. Это более подробно описывается ниже с использованием соответствующих графиков.
Если требуется облегчить визуализацию, зоны могут быть маркированы цветом в соответствии с материнским генотипом, так как материнский генотип вносит больший вклад в локализацию каждой зоны, и большинство трисомий наследуется от матери; указанная маркировка облегчает визуализацию состояний плоидности. В частности, SNP, в которых материнский генотип соответствует АА, могут быть маркированы красным, те, для которых материнский генотип соответствует АВ, могут быть маркированы зеленым, и те, для которых материнский генотип соответствует ВВ, могут быть маркированы голубым.
Во всех случаях обнаруживается, что SNP, которые гомозиготны по аллелю А (АА) и у матери, и у плода, жестко связаны с верхним пределом графиков, так как доля считываний аллеля А значительна ввиду того, что аллели В должны отсутствовать. И напротив, обнаруживается, что SNP, гомозиготные по аллелю В и у матери, и у плода жестко связаны с нижним пределом графиков, так как доля считываний аллеля А невелика ввиду того, что должны присутствовать только аллели В. Зоны, которые жестко не связаны с верхними и нижними пределами графиков, представляют SNP, по которым мать, плод или оба они гетерозиготны; указанные зоны подходят для идентификации плоидности плода, однако также могут быть информативными для определения наследования от отца/матери. Указанные зоны разделяются на основании как материнского и плодного генотипов, так и доли плода, и, таким образом, точное расположение каждой индивидуальной зоны вдоль оси У зависит как от стехиометрии, так и от доли плода. Например, локусы, по которым мать является АА и плод является АВ, предположительно будут характеризоваться разным уровнем считываний для аллеля А, и, соответственно, разным расположением вдоль оси У, в зависимости от доли плода.
Присутствует две хромосомы
На фиг. 30А-30С представлены данные, указывающие на присутствие двух хромосом, если образец полностью материнский (плодная cfDNA отсутствует, фиг. 30А), содержит умеренную долю плодной cfDNA (фиг. 30В) или содержит значительную долю плодной cfDNA (фиг. 30С).
На фиг. 30А представлены данные, полученные из cfDNA, выделенной из крови женщины, которая не беременна. Если плодная cfDNA отсутствует и образец содержит только материнскую cfDNA, графики представляют исключительно эуплоидный материнский генотип; отличительный паттерн включает «кластеры» зон: красный кластер, жестко связанный с верхней частью графика (SNP, где материнский генотип соответствует АА), голубой кластер, жестко связанный с нижней частью графика (SNP, где материнский генотип соответствует ВВ), и один центральный зеленый кластер (SNP, где материнский генотип соответствует АВ) (цвет не показан).
При наличии плодной cfDNA расположение зон сдвигается таким образом, что кластеры разделяются на разрозненные «полосы». Отметим, что для образцов с долей плода, составляющей 0%, сгруппированные зоны называют «кластерами» (как на фиг. 30А), а для всех образцов с долей плода >0%, сгруппированные зоны называют «полосами» (как на фиг. 30B-30J). Если доля плода достаточно высока, указанные разрозненные полосы хорошо видны. В частности, на фиг. 30В и 30С продемонстрирован характерный паттерн, связанный с двумя плодными хромосомами, присутствующими при умеренной и высокой долях плода, соответственно. Указанный паттерн включает три центральные зеленые полосы, которые соответствуют SNP, гетерозиготным у матери, и две «периферические» полосы, каждая как в верхней (красный), та и в нижней части (голубой) графиков, которые соответствуют SNP, гомозиготным у матери (цвет не показан).
На фиг. 30В представлены данные, полученные из cfDNA, выделенной из образца плазмы от женщины, вынашивающей эуплоидный плод, с долей плодной cfDNA 12%. В этом случае кластеры зон, жестко связанных с верхней частью и нижней частью графика, разделяются на две разрозненные полосы каждая: одну красную и одну голубую внешние периферические полосы, которые остается жестко связанный с верхним или нижним пределом графиков, и одну красную и одну голубую внутренние периферические полосы, которая отделена от пределов графиков (цвет не показан). Указанные внутренние периферические полосы, сосредоточенные вокруг 0,92 и 0,08, представляют SNP, по которым материнский генотип соответствует АА и плодный генотип соответствует АВ (маркированы красным), и SNP, по которым материнский генотип соответствует ВВ и плодный генотип соответствует АВ (маркированы голубым), соответственно. Центральный кластер зеленой зоны расширяется, но при указанной доле плода разделение на отдельные полосы не является легкозаметным.
При высокой доле плодной cfDNA типичный паттерн, который указывает на присутствие двух хромосом (трио зеленых полос, а также две красные и две голубые периферические полосы), очевидно выражен (цвет не показан). На фиг. 30С представлены данные, полученные из образца плазмы женщины, вынашивающей эуплоидный плод, с долей плодной cfDNA, составляющей 26%. В этом случае периферические полосы разделены таким образом, что внутренняя полоса сдвинута к центру графика из-за измененных уровней аллелей В в результате увеличения доли плодной cfDNA. Важно, что при более высоких долях плода разделение центрального зеленого кластера на три отдельных полосы очевидно выражено. Указанное центральное трио полос, в этом случае группирующихся вокруг 0,37, 0,50 и 0,63, соответствует тем SNP, для которых материнский генотип соответствует АВ, а плодный генотип соответствует АА (верхняя часть), АВ (середина) и ВВ (нижняя часть).
Указанные отличительные паттерны, а именно, три зеленых полосы и 4 периферические полосы (две красных и две голубых), указывают на присутствие двух хромосом, как при аутосомной эуплоидности, или Х-хромосомы у плода женского пола (XX).
Присутствует одна хромосома
Если плод наследует единственную хромосому, и, соответственно, только один аллель, гетерозиготность для указанного плода невозможна. Таким образом, единственно возможная идентичность плодных SNP соответствует А или В. Соответственно, унаследованным от матери моносомным хромосомам свойственен характерный паттерн из двух центральных зеленых полос, которые представляют SNP, по которым мать гетерозиготна, и только по одной периферической красной и голубой полосе, которые представляют SNP, по которым мать гомозиготна, и которые остаются жестко связанными с верхним и нижним пределами графиков (1 и 0), соответственно (фиг. 30D) (цвет не показан). Отметим отсутствие внутренних периферических полос.Указанный паттерн указывает на присутствие одной хромосомы, как при унаследованной от матери аутосомной моносомии, или Х-хромосомы у плода мужского пола (XY).
Присутствует три хромосомы
Имеется три характерных паттерна трисомных хромосом. Первый паттерн указывает на унаследованную от матери мейотическую трисомию, мейотическую ошибку, при которой плод наследует две гомологичные неидентичные хромосомы от матери (фиг. 30Е); указанный паттерн включает две центральные зеленые полосы и по две периферические красные и голубые полосы (цвет не показан). Второй паттерн указывает на унаследованную от отца мейотическую трисомию, при которой плод наследует две гомологичные неидентичные хромосомы от отца (фиг. 30Р); указанный паттерн включает 4 центральных зеленых полосы и по три периферических красных и голубых полосы (цвет не показан). Третий паттерн указывает либо на унаследованную от матери (фиг. 30С), либо унаследованную от отца (фиг. 30Н) митотическую трисомию, митотическую ошибку, при которой плод наследует две идентичные хромосомы либо от матери, либо от отца; указанный паттерн включает 4 центральные зеленые полосы и по две периферических красных и голубых полосы. Унаследованные от матери и отца митотические трисомии можно различить по расположению фланкирующих красных и голубых полос, так как красная и голубая внутренние периферические полосы (не связанные с пределами графиков) располагаются ближе к центру при унаследованной от отца митотической трисомии (цвет не показан). Это обусловлено отцовским вкладом идентичных хромосом. Отметим, что полученные нами ранее результаты указывают на то, что на стадии бластомера 66,7% унаследованных от матери трисомий являются мейотическими, и только 10,2% трисомий унаследованы от отца.
Для Y-хромосомы способ PS предполагает наличие множества разных гипотез: присутствие 0, 1 или 2 хромосом. Так как отсутствует материнский вклад в считывания последовательностей в каждом локусе, и поскольку гетерозиготные локусы невозможны (в случае двух Y-хромосом обязательно присутствуют две идентичные хромосомы), полосы остаются тесно связанными с верхней частью (аллели А) или нижней частью (аллели В) графика (данные не показаны), и анализ сильно упрощается, основываясь на количественных данных о числе аллелей. Отметим, что, поскольку указанный способ исследует SNP, в нем используются гомологичные нерекомбинантные SNP из Y-хромосомы, с получением таким образом данных и для X, и для Y для одной пары зондов.
Идентификация анеуплоидии
Идентификация аутосомных анеуплоидий с применением указанного способа визуализации на основе графиков является несложной при условии достаточной доли плода, и требует только идентификации графиков, соответствующих анормальному числу хромосом, согласно описанию выше. Сочетание информации о числе копий Х- и Y-хромосом определяет, присутствуют ли анеуплоидии половых хромосом. В частности, на графиках, представляющих плод с генотипом 47,ХХХ, будет наблюдаться типичный «трех-хромосомный» паттерн, и на графиках, представляющих плод с генотипом 47,XXY, будет наблюдаться типичный «двух-хромосомный» паттерн для Х-хромосомы, кроме того, аллельные считывания будут указывать на присутствие одной Y-хромосомы. Указанный способ позволяет аналогичным образом прогнозировать 47,XYY, когда «однохромосомный» паттерн указывает на присутствие единственной Х-хромосомы, а аллельные считывания указывают на присутствие двух Y-хромосом. Плод с генотипом 45,Х будет иметь типичный «однохромосомный» паттерн для Х-хромосомы, и данные будут указывать на наличие 0 Y-хромосом.
Эффекты доли плода
Как уже обсуждалось выше, число считываний последовательностей плода вносит вклад в точное расположение каждой зоны вдоль оси У на графиках. Так как доля плода влияет на пропорцию считываний от плода и от матери, она также будет влиять на расположение каждой зоны. При высокой доле плодной cfDNA (как правило, более -20%), как на фиг. 30С-30Е и фиг. 30G и 30Н, очевидно выражено, что, хотя кластеризация зон основана в основном на материнском генотипе, присутствие плодной ДНК из аллелей, генотип которых отличается от материнского генотипа, преобразует указанные кластеры во множество отдельных полос. Однако по мере уменьшения доли плода (как на фиг. 30В и 30F), зоны перемещаются обратно в направлении краев и центра графика, что приводит к образованию более плотных кластеров. В частности, набор периферических красных полос, где материнский генотип соответствует АА, перемещается обратно в направлении верхней части графика; набор периферических голубых полос, где материнский генотип соответствует ВВ, перемещается обратно в направлении нижней части; набор центральных зеленых полос, где мать гетерозиготна, конденсируется в единственный кластер в центре графика (ср. фиг. 30В и 30С) (цвет не показан). Хотя анеуплоидия визуально не выражена очевидным образом при использовании указанной техники визуализации для случаев с небольшой долей плода, указанный алгоритм позволяет идентифицировать состояния плоидности при очень незначительной доле плода, например, доле плода, составляющей 3%. Это возможно за счет того, что статистический метод сравнивает наблюдаемые данные с высокоточными моделями данных, которые предсказывают аллельные распределения для определенного набора параметров образца (включая, например, число копий, родительские генотипы и долю плода). Точность модели данных является критически важной в случае низкой доли плода, так как различия между аллельными распределениями для разных состояний плоидности пропорциональны доле плода. Кроме того, указанный алгоритм позволяет определять, что набор данных не содержит достаточно данных для надежного определения плоидности плода.
Результаты
Считанные последовательности, которые картируются с целевыми SNP, считали информативными и использовали для алгоритма. Результаты секвенирования отображали более чем 95% целевых локусов. Графики визуализации основных определений плоидности приведены на фиг. 31A-31G. На фиг. 31А представлен эуплоидный образец. В этом случае хромосомы 13, 18, и 21 демонстрируют типичный «двух-хромосомный» паттерн (согласно описанию в настоящем документе). Он включает трио центральных зеленых полос и две красные и две голубые периферические полосы. В сочетании с двумя центральными зелеными полосами для Х-хромосомы и присутствием полос, соответствующих Y-хромосоме, по периферии графиков, это указывает на эуплоидный генотип XY (цвет не показан).
Наиболее распространенные аутосомные трисомии, Т13, Т18, и Т21, представлены на графиках на фиг. 31В, 31С, и 31D, соответственно. В частности, на фиг. 31В представлен образец Т13. В этом случае хромосомы 18 и 21 демонстрируют типичный «двух-хромосомный» паттерн, хромосома X демонстрирует типичный «однохромосомный» паттерн и присутствуют считывания с Y-хромосомы. В совокупности это указывает на дисомию на хромосомах 18 и 21, и идентифицирует плодный генотип XY. Однако хромосома 13 демонстрирует типичный «трех-хромосомный» паттерн - характерным образом. Аналогичным образом, на фиг. 31С представлен образец Т18, и на фиг. 31D представлен образец Т21.
Указанный способ позволяет также обнаруживать анеуплоидии половых хромосом, в том числе 45,Х (фиг. 31Е), 47,XXY (фиг. 31F) и 47,XYY (фиг. 31G). Отметим, что указанный способ прогнозирует число копий на хромосомах 13, 18, 21, X и Y; общее число хромосом устанавливают исходя из предположения о дисомии по всем остальным хромосомам. Соответствующие Х-хромосоме области графика, представляющего образец 45,Х, отражают присутствие единственной хромосомы. При этом отсутствие считываний с Y-хромосомы, в сочетании с «двух-хромосомным» паттерном для хромосом 13, 18 и 21, указывает на генотип 45,X. Напротив, образцы 47,XXY дают график, указывающий на присутствие двух Х-хромосом. Данные также указывают на считывания для аллелей Y-хромосомы. В сочетании с присутствием двух копий хромосом 13, 18 и 21 это указывает на генотип 47,XXY. На генотип 47,XYY указывает присутствие «однохромосомного» паттерна для Х-хромосомы и считывания, указывающие на присутствие двух Y-хромосом.
Обсуждение
Указанный способ выявлял Т13, Т18, Т21, 45,Х, 47,XXY, и 47,XYY неинвазивным образом по материнской крови. В указанном способе исследуется cfDNA материнской плазмы посредством целевой мультиплексной ПЦР-амплификации и высокопроизводительного секвенирования 19488 SNP. В сочетании с применяемыми в способе сложными анализами с применением информатики, учитывающими родительскую генотипическую информацию и многочисленные параметры образца, включая долю плода и качества ДНК, это позволяет более надежно обнаруживать плодный сигнал и производит высокоточное прогнозирование плоидности для всех пяти хромосом, связанных с семью наиболее распространенными типами врожденной анеуплоидии (Т13, Т18, Т21, 45,Х, 47,ХХХ, 47,XXY и 47,XYY). Указанный способ обеспечивает ряд клинических преимуществ по сравнению с существующими способами, в том числе существенно больший клинический охват и специфичную в отношении конкретных образцов расчетную точность (аналогичную персонализированной оценке рисков).
Повышенный клинический охват
Указанный способ обеспечивает приблизительно 2-кратное улучшение отслеживания анеуплоидии по сравнению с клинически доступными методиками NIPT, учитывая его способность точно обнаруживать аутосомные трисомии и анеуплоидии половых хромосом. Представленный в настоящем документе способ является единственным неинвазивным тестом, который прогнозирует плоидность половых хромосом с высокой точностью. Предварительные эксперименты со смешиванием ДНК и анализ отдельных образцов плазмы в ходе наших тестовых испытаний позволяют предположить, что указанный способ обнаруживает большую группу аномалий половых хромосом, включая 47,ХХХ. Представленный в настоящем документе способ также выявляет анеуплоидии хромосом 13, 18 и 21 с высокой чувствительностью и специфичностью, и, предположительно, при наличии праймеров подходящей конструкции позволит выявлять число копий также и для остальных хромосом.
Специфичная в отношении конкретного образца расчетная точность
Важно отметить, что в указанном способе рассчитывается точность определения плоидности для конкретного образца на каждой хромосоме в каждом образце. Точности, рассчитанные с применением указанного способа, как ожидается, будут существенно снижать уровни некорректного определения за счет идентификации и маркировки индивидуальных образцов с ДНК неудовлетворительного качества или низкой долей плода, что предположительно приведет к низкой точности результатов теста. Напротив, способы массивно-параллельного секвенирования на основе «метода дробовика» (MPSS) дают положительный или отрицательный прогноз, используя тест отклонения одной гипотезы, и оценка их точности основана на опубликованном исследовании когорты, а не на характеристиках индивидуального образца, для которых предполагается так же точность, что и для когорты. Однако индивидуальные точности для образцов, показатели которых попадают в «хвост» распределения когорты, могут существенно различаться. Это усугубляется при незначительной доле плода, как на раннем гестационном сроке, или в случае образцов с низким качеством ДНК. Указанные образцы, как правило, не идентифицируются и не помечаются для дальнейшего исследования, что может приводить к пропущенным признакам. Настоящий способ, однако, учитывает многие параметры, включая долю плода и ряд качественных показателей ДНК, при определении каждого признака числа копий хромосомы с подсчетом точности определения указанного признака для конкретного образца. Это позволяет с помощью указанного способа идентифицировать индивидуальные образцы с низкой точностью и пометить их для дальнейшего исследования. Ожидается, что это практически полностью устранит пропущенные признаки, в частности, на ранних сроках беременности, когда доля плода, как правило, невелика. Предполагается, что отсутствие признака значительно более предпочтительно, чем пропущенный признак, поскольку отсутствие признака означает просто необходимость повторного взятия образцов и повторного анализа.
Преобразование расчетных точностей в традиционные показатели оценки рисков
Указанный способ может обеспечивать корректировку оценки риска анеуплоидии у беременных женщин из групп высокого риска, при это указанная корректировка оценки риска учитывает априорный риск (Benn Р, Cuckle Н, Pergament Е. Non-invasive prenatal diagnosis for Down syndrome: the paradigm will shift, but slowly. Ultrasound Obstet Gynecol 2012; 39: 127-130, полностью включенный в настоящий документ посредством ссылки). Хотя настоящий способ обеспечивает индивидуализированное определение расчетной точности для каждого пациента, для клинического применения указанные точности могут быть преобразованы в традиционные показатели оценки рисков, которые также отражают риск анеуплоидной беременности, но выражены в долях. Традиционные способы оценки рисков учитывают различные параметры, включая связанный с возрастом матери риск и уровни биохимических маркеров в сыворотке, обеспечивая получение показателя оценки рисков, при превышении которого риск считается высоким и матери рекомендуется пройти последующие инвазивные диагностические процедуры. Указанный способ существенно уточняет указанную оценку рисков, соответственно, снижая уровни как ложноположительных, так и ложноотрицательных результатов, и обеспечивая более точную оценку индивидуального материнского риска. Расчетная точность в настоящем документе представляет собой вероятность того, что прогноз плоидности корректен, и выражается в виде процента, однако расчетные точности, использованные в эксперименте 19, не включают связанный с возрастом риск. Поскольку расчет оценки рисков, как правило, включает оценку связанного с возрастом риска, рассчитанные точности и традиционные способы оценки рисков не являются взаимозаменяемыми; они должны быть скомбинированы для преобразования в традиционную оценку рисков. Связанный с возрастом риск и рассчитанную точность комбинируют с помощью следующей формулы:
где R1 представляет собой оценку рисков согласно расчету с применением настоящего способа, и R2 представляет собой оценку рисков согласно расчету с применением скрининга в первом триместре.
Способы, основанные на SNP, устраняют проблемы, связанные с вариациями при амплификации
Недостаток, присущий способам подсчета, используемым в некоторых других способах, заключается в том, что они определяют состояние плоидности плода путем измерения отношения числа считанных последовательностей, картирующихся с представляющей интерес хромосомой (например, хромосомой 21) с числом считанных последовательностей, картирующихся с эталонной хромосомой. Хромосомы с высоким или низким содержанием GC, в том числе хромосомы 13, X и Y, амплифицируются с высокой вариабельностью. Это может приводить к вариациям сигнала, сравнимых по интенсивности с интенсивностью сигнала от плодной cfDNA, что может мешать прогнозированию числа копий из-за изменения соотношения числа считываний аллеля с представляющей интерес хромосомы и считываний с эталонной хромосомы. Это может приводить к низкой точности для хромосом 13, X и Y. Важно, что указанная проблема усугубляется при низких долях плодной cfDNA, которые, как правило, наблюдаются на ранних гестационных сроках.
Напротив, способы на основе SNP не полагаются на стабильные уровни амплификации хромосом, и, таким образом, предположительно будут давать одинаково точные результаты во всех хромосомах. Поскольку в настоящем способе рассматриваются, в частности, относительные подсчитанные количества разных аллелей в полиморфных локусах, которые по определению отличаются только одним нуклеотидом, он не требует применения эталонных хромосом, что позволяет избежать проблем, связанных вариациями при амплификации от хромосомы к хромосоме, присущих способам, основанным на количественном определении считываний последовательностей. В отличие от количественных способов, для которых требуются эуплоидные эталонные хромосомы, настоящий способ, как ожидается, позволит обнаруживать триплоидию, а также нейтральные относительно числа копий аномалии, такие как однородительская дисомия.
Важность раннего обнаружения
Важно, что общая распространенность анеуплоидии половых хромосом при рождении выше, чем распространенность наиболее распространенных аутосомных анеуплоидий (фиг. 32). Однако в настоящее время не существует способов рутинного неинвазивного скрининга для надежного обнаружения аномалий половых хромосом. Соответственно, аномалии половых хромосом, как правило, обнаруживают в пренатальном периоде случайно, при рутинном тестировании на синдром Дауна или другие аутосомные анеуплоидии; значительная часть случаев вообще пропускается. Ранее и точное выявление критически важно для многих из указанных расстройств, в случаях, когда терапевтическое вмешательство улучшает клинический исход. Так, синдром Тернера часто не диагностируется до пубертатного возраста, хотя его общая распространенность при рождении составляет 1 случай на 2500 детей женского пола. Терапия гормонами роста, как известно, предотвращает низкорослость, обусловленную указанным расстройством, однако лечение существенно более эффективно, если его начинают до возраста 4-х лет. Кроме того, заместительная терапия эстрогенами может стимулировать развитие вторичных половых признаков у пациентов с синдромом Тернера, но при этом терапию необходимо начинать до наступления пубертатного периода, раньше, чем обычно обнаруживается указанный синдром. В совокупности, все это свидетельствует о недооценке важности раннего рутинного и безопасного выявления анеуплоидии половых хромосом. Указанный способ представляет собой первый подход, который потенциально можно использовать для рутинного скрининга на аномалии половых хромосом.
Дополнительные варианты применения
Поскольку в указанном способе используется направленная амплификация, он уникальным образом подходит для обнаружения субмикроскопических аномалий, таких как микроделеции и микродупликации. Хотя было показано, что нецелевые способы, такие как MPSS, позволяют обнаруживать синдром микроделеций Ди-Джорджи, для этого требуется достаточно высокий уровень охвата генома, так что указанный подход становится нецелесообразным. Это обусловлено тем, что нецелевая амплификации будет на несколько порядков менее эффективной для субмикроскопических областей, так как очень небольшая доля считываний при секвенировании будет информативной. Кроме того, тот факт, что доступные в настоящее время способы не позволяют точно идентифицировать состояния плоидности половых хромосом, подразумевает, что разнообразные проблемы будут возникать также и при их использовании при амплификации более коротких хромосомных сегментов.
Аналогичным образом, основанные на SNP способы позволяют выявлять UPD-расстройства, представляющие собой нейтральные относительно числа копий аномалии, которые не поддаются обнаружению ни с помощью современных неинвазивных способов, основанных на подсчетах, ни с помощью традиционных инвазивных способов, таких как амниоцентез и CVS, основанных на цитогенетическом кариотипировании и/или флуоресцентной гибридизации in situ. Это обусловлено тем, что способы на основе SNP позволяют, уникальным образом, различать индивидуальные гаплотипы, тогда как в клинически доступных способах на основе MPSS и направленных способах амплифицируются неполиморфные локусы и, соответственно, с их помощью невозможно определить, например, происходят ли представляющие интерес хромосомы от одного родителя. Это означает, что указанные микроделеции/микродупликации и UPD-синдромы, включая синдромы Прадера-Вилли, Ангельмана и Беквита-Видемана, как правило, не диагностируются пренатально, и часто сначала неправильно диагностируются в постнатальном периоде. Это существенно задерживает терапевтическое вмешательство. Кроме того, поскольку указанный способ нацелен на SNP, он также облегчает реконструкцию родительского гаплотипа, позволяя обнаруживать наследование плодом индивидуальных связанных с заболеванием локусов (Kitzman JO, Snyder MW, Ventura M, и др. Noninvasive whole-genome sequencing of a human fetus. Sci Transl Med 2012; 4: 137ra76, полностью включенный в настоящий документ посредством ссылки).
Результаты, представленные в настоящем документе, подтверждают расширенную область применения указанного способа для идентификации пренатальной анеуплоидии. В частности, посредством амплификации и секвенирования 19488 SNP с помощью указанного способа возможно определение число копий на хромосомах 13, 18, 21, X, и Y, и как ожидается, уникальным образом, обнаружение других хромосомных аномалий, таких как триплоидия и UPD, не выявляемых какими-либо другими клинически доступными неинвазивными методами. Повышенный клинический охват и высокая специфическая точность расчета для конкретных образцов позволяют предполагать, что указанный способ может обеспечить перспективное дополнение к инвазивному тестированию для обнаружения плодных хромосомных анеуплоидий.
Все патенты, заявки на выдачу патентов и опубликованные ссылки, цитируемые в настоящем документе, тем самым включены посредством ссылки во всей полноте. Несмотря на то, что способы в настоящем раскрытии описаны применительно к конкретным вариантам его осуществления, следует понимать, что возможна дополнительная модификация. Кроме того, предполагается, что настоящая заявка охватывает любые варианты, применения или переработки способов согласно настоящему раскрытию, в том числе отступления от настоящего раскрытия, которые являются известной или обычной практикой в области техники, к которой принадлежат способы согласно настоящему раскрытию, входящие в объем приложенной формулы изобретения. Например, любые раскрытые в настоящем документе способы для ДНК могут быть легко адаптированы для РНК путем включения этапа обратной транскрипции для преобразования РНК в ДНК. Примеры, в которых используются полиморфные локусы для иллюстрации, могут быть легко, если это потребуется, адаптированы для амплификации неполиморфных локусов.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБЫ НЕИНВАЗИВНОГО ПРЕНАТАЛЬНОГО УСТАНОВЛЕНИЯ ПЛОИДНОСТИ | 2011 |
|
RU2671980C2 |
СПОСОБЫ НЕИНВАЗИВНОГО ПРЕНАТАЛЬНОГО УСТАНОВЛЕНИЯ ОТЦОВСТВА | 2011 |
|
RU2620959C2 |
ОБНАРУЖЕНИЕ МУТАЦИЙ И ПЛОИДНОСТИ В ХРОМОСОМНЫХ СЕГМЕНТАХ | 2015 |
|
RU2717641C2 |
НЕИНВАЗИВНЫЙ ДИАГНОСТИЧЕСКИЙ ТЕСТ ДНК ДЛЯ ОБНАРУЖЕНИЯ АНЕУПЛОИДИИ | 2012 |
|
RU2638456C2 |
СПОСОБЫ ВЫЯВЛЕНИЯ И МОНИТОРИНГА РАКА ПУТЕМ ПЕРСОНАЛИЗИРОВАННОГО ВЫЯВЛЕНИЯ ЦИРКУЛИРУЮЩЕЙ ОПУХОЛЕВОЙ ДНК | 2019 |
|
RU2811503C2 |
СПОСОБ ОПРЕДЕЛЕНИЯ ГАПЛОТИПИЧЕСКОГО ПОЛИМОРФИЗМА УЧАСТКА АУТОСОМНОЙ ДНК ИНДИВИДУУМА | 2010 |
|
RU2432398C1 |
СПОСОБ ОТБОРА ЖИВОТНЫХ ПО ПРИЗНАКАМ, НАСЛЕДУЕМЫМ ПО МЕХАНИЗМУ РОДИТЕЛЬСКОГО ИМПРИНТИНГА | 1999 |
|
RU2262229C2 |
Способ преимплантационного генетического тестирования наследственных множественных остеохондром типа 1 | 2022 |
|
RU2795824C1 |
Способ преимплантационного генетического тестирования Гемофилии А | 2022 |
|
RU2795796C1 |
Способ преимплантационного генетического тестирования синдрома Смита-Лемли-Опица | 2023 |
|
RU2816650C1 |
Представлен способ амплификации и секвенирования целевых локусов в образце нуклеиновой кислоты. Способ включает (a) приведение образца нуклеиновой кислоты, содержащего целевые локусы, в контакт с библиотекой тестовых праймеров, содержащей по меньшей мере 1000 разных тестовых праймеров, при этом концентрация каждого тестового праймера составляет менее 20 нМ; (b) амплификация реакционной смеси с помощью полимеразной цепной реакции (ПЦР), при этом ПЦР включает этап отжига с продолжительностью более 10 минут; при этом одновременно амплифицируют по меньшей мере 1000 разных целевых локусов и при этом (i) менее 20% амплифицированных продуктов представлено димерами тестовых праймеров, (ii) по меньшей мере 80% амплифицированных продуктов представлено целевыми ампликонами и (iii) амплифицируется по меньшей мере 80% целевых локусов; и (c) секвенирование амплифицированных продуктов. Изобретение позволяет увеличить производительность анализа при одновременном повышении его чувствительности и специфичности. 17 з.п. ф-лы, 53 ил., 5 табл.
1. Способ амплификации и секвенирования целевых локусов в образце нуклеиновой кислоты, включающий:
(a) приведение образца нуклеиновой кислоты, содержащего целевые локусы, в контакт с библиотекой тестовых праймеров, содержащей по меньшей мере 1000 разных тестовых праймеров, с целью получения реакционной смеси в одном реакционном объеме; при этом концентрация каждого тестового праймера в реакционной смеси составляет менее 20 нМ;
(b) амплификация реакционной смеси с помощью полимеразной цепной реакции (ПЦР) с целью получения амплифицированных продуктов, содержащих целевые ампликоны, при этом ПЦР включает этап отжига с продолжительностью более 10 минут; при этом одновременно амплифицируют по меньшей мере 1000 разных целевых локусов и при этом (i) менее 20% амплифицированных продуктов представлено димерами тестовых праймеров, (ii) по меньшей мере 80% амплифицированных продуктов представлено целевыми ампликонами и (iii) амплифицируется по меньшей мере 80% целевых локусов; и
(c) секвенирование амплифицированных продуктов;
при этом метод не включает использование микроматрицы.
2. Способ по п. 1, отличающийся тем, что амплифицируют по меньшей мере 5000 разных целевых локусов.
3. Способ по п. 1, отличающийся тем, что каждая пара праймеров включает прямой праймер и обратный праймер, которые гибридизуются с одним и тем же целевым локусом; при этом длина целевого ампликона составляет менее 100 нуклеотидов.
4. Способ по п. 1, отличающийся тем, что тестовые праймеры содержат 5'-область, являющуюся специфической в отношении целевого локуса, внутреннюю область, не являющуюся специфической в отношении целевого локуса и образующую петлевую структуру, и 3'-область, являющуюся специфической в отношении того же целевого локуса.
5. Способ по п. 1, отличающийся тем, что тестовые праймеры выбирают из библиотеки кандидатных праймеров по меньшей мере на основании способности указанных кандидатных праймеров образовывать димеры праймеров.
6. Способ по п. 1, отличающийся тем, что образец содержит материнскую ДНК от беременной матери плода и плодную ДНК; и при этом способ включает определение присутствия или отсутствия хромосомных аномалий плода на основе данных секвенирования.
7. Способ по п. 1, отличающийся тем, что указанные целевые локусы представлены в геноме человека или указанные целевые локусы содержат однонуклеотидные полиморфизмы человека.
8. Способ по п. 1, отличающийся тем, что образец нуклеиновой кислоты содержит ДНК из опухоли, трансплантата или плода.
9. Способ по п. 1, отличающийся тем, что образец нуклеиновой кислоты содержит ДНК из одной клетки.
10. Способ по п. 1, отличающийся тем, что менее 10% амплифицированных продуктов представлено димерами тестовых праймеров.
11. Способ по п. 1, отличающийся тем, что менее 1% амплифицированных продуктов представлено димерами тестовых праймеров.
12. Способ по п. 1, отличающийся тем, что по меньшей мере 90% амплифицированных продуктов представлено целевыми ампликонами.
13. Способ по п. 1, отличающийся тем, что по меньшей мере 95% амплифицированных продуктов представлено целевыми ампликонами.
14. Способ по п. 1, отличающийся тем, что амплифицируется по меньшей мере 90% целевых локусов.
15. Способ по п. 1, отличающийся тем, что амплифицируется по меньшей мере 95% целевых локусов.
16. Способ по п. 2, отличающийся тем, что амплифицируется по меньшей мере 10000 различных целевых локусов.
17. Способ по п. 2, отличающийся тем, что амплифицируется по меньшей мере 20000 различных целевых локусов.
18. Способ по п. 4, отличающийся тем, что длина целевого ампликона составляет от 50 до 100 нуклеотидов.
US 20120122701 A1, 17.05.2012 | |||
PEIDONG SHEN et al., High-quality DNA sequence capture of 524 disease candidate genes, PNAS, April 19, 2011, Vol.108, No.16, 6549-6554 | |||
SIMON FREDRIKSSON et al., Multiplex amplification of all coding sequences within 10 cancer genes by Gene-Collector, Nucleic Acids Research, 2007, Vol.35, No.7, e47 | |||
Пресс для формовки полуфабрикатов из обрезков кожи | 1929 |
|
SU15913A1 |
Авторы
Даты
2018-04-17—Публикация
2012-11-21—Подача