Область техники, к которой относится изобретение
[0001] Изобретение относится к неинвазивным способам обнаружения генетической аномалии у плода с помощью секвенирования ДНК в пробах беременных женщин. Более конкретно, настоящее изобретение относится к анализу данных с целью устранения GC сдвига, возникающего при амплификации и секвенировании образцов ДНК. Настоящее изобретение также относится к статистическому анализу для обнаружения генетических аномалий плода, таких как хромосомные нарушения, включая анеуплоидию.
Уровень техники
[0002] Стандартные способы предродовой диагностики с применением таких инвазивных процедур, как биопсия ворсин хориона и амниоцентез, представляют потенциальные риски, как для плода, так и для матери. Доступен неинвазивный скрининг анеуплоидии плода с применением маркеров материнской сыворотки и ультразвука, однако он обладает ограниченной чувствительностью и специфичностью (Kagan, et al., Human Reproduction (2008) 23:1968-1975; Malone, et al., N Engl J Med (2005) 353:2001-2011).
[0003] Недавние исследования продемонстрировали, что неинвазивное обнаружение анеуплоидии плода может быть выполнено при массово-параллельном секвенировании молекул ДНК в плазме беременных женщин. Эмбриональная ДНК была обнаружена и количественно определена в материнской плазме и сыворотке (Lo, et al., Lancet (1997) 350:485 487; Lo, et al., Am. J. hum. Genet. (1998) 62:768-775). В материнском кровотоке присутствует множество типов эмбриональных клеток, включая эмбриональные гранулоциты, лимфоциты, ядерные эритроциты и трофобластные клетки (Pertl and Bianchi, Obstetrics and Gynecology (2001) 98:483-490). Эмбриональная ДНК может быть обнаружена в сыворотке на седьмой неделе беременности, при этом ее содержание растет с увеличением срока беременности. Эмбриональная ДНК, присутствующая в материнской сыворотке и плазме, сопоставима по концентрации с ДНК, полученной в протоколах выделения эмбриональных клеток.
[0004] Циркулирующую эмбриональную ДНК использовали для определения пола плода (Lo, et al., Am. J. hum. Genet. (1998) 62:768-775). Кроме того, при использовании эмбриональной ДНК обнаружили резус D генотип плода. Впрочем, диагностические и клинические применения циркулирующей эмбриональной ДНК ограничены генами, которые присутствуют у плода, но не присутствуют у матери (Pertl and Bianchi, Obstetrics and Gynecology (2001) 98:483-490). Таким образом, сохраняется потребность в неинвазивном способе, который позволяет определять последовательность эмбриональной ДНК и обеспечивает окончательный диагноз хромосомных нарушений у плода.
[0005] Открытие эмбриональных клеток и внеклеточных эмбриональных нуклеиновых кислот в материнской крови за несколько прошедших десятилетий и применение высокопроизводительного шотган-секвенирования бесклеточной ДНК материнской плазмы позволило обнаружить небольшие изменения в представлении хромосом, вносимые анеуплоидным плодом в пробу материнской плазмы. Было достигнуто неинвазивное обнаружение трисомии по хромосомам 13, 18 и 21 при беременности.
[0006] Впрочем, как показывают некоторые исследования, GC сдвиг, вводимый при амплификации и секвенировании, накладывает практическое ограничение на чувствительность обнаружения анеуплоидии. Сдвиг GC может быть введен при подготовке образца и в процессе секвенирования, при различных условиях, таких как состав реактивов, плотность и температура кластера, что приводит к различиям при анализе молекул ДНК с разным GC составом и существенной вариации данных секвенирования для хромосом, которые являются GC-богатыми или GC-бедными.
[0007] Для повышения чувствительности были разработаны способы исключения эффекта GC сдвига. Fan и Quake создали способ вычислительного удаления GC сдвига путем присвоения веса каждой GC плотности на основе локального GC содержания в геноме, повышения числа считываний, отображенных в каждой корзине, при умножении соответствующего веса (Fan and Quake PLoS ONE (2010) 5:e10439). Впрочем, данный способ сталкивается с трудностями в случае нарушений, связанных с половой хромосомой, в особенности при нарушениях, связанных с Y хромосомой, по причине того, что процесс может вызывать некоторое искажение данных, что влияет на точность обнаружения.
[0008] В настоящей заявке описывается способ вычислительного устранения GC сдвига для получения более высокой чувствительности при обнаружении генетических аномалий у плода, позволяющий также избежать искажения данных. Данный способ обеспечивает определение параметров, используемых для статистического теста в соответствии с GC составом. Кроме того, в диагноз вводили расчетную эмбриональную фракцию в соответствии с бинарной гипотезой, которая показала более высокую чувствительность и специфичность. Настоящий способ также указывает на возможность повышения чувствительности неинвазивного обнаружения эмбрионального генетического нарушения с предварительной установкой точности для материнской пробы, содержащей малую фракцию эмбриональной ДНК, при секвенировании большего числа полинуклеотидных фрагментов. Повторный анализ материнской плазмы в последующие недели беременности также может повышать чувствительность диагностики.
Сущность изобретения
[0009] Настоящее изобретение направлено на способы неинвазивного обнаружения эмбриональных генетических нарушений с помощью крупномасштабного секвенирования нуклеотидов из материнского биологического образца. Также предложены способы удаления GC сдвига из результатов секвенирования вследствие различий в GC составе хромосомы.
[0010] Таким образом, в одном из аспектов настоящая заявка относится к способу установления отношения между глубиной покрытия и GC содержанием хромосомы, включающему: получение данных последовательности множества полинуклеотидных фрагментов, покрывающих указанную хромосому более чем из одного образца; отнесение указанных фрагментов к хромосомам на основании указанных данных последовательности; вычисление глубины покрытия и GC содержания указанной хромосомы на основе указанных данных последовательности для каждого образца; и определение отношения между глубиной покрытия и GC содержанием указанной хромосомы.
[0011] В одном из вариантов осуществления полинуклеотидные фрагменты имеют длину в пределах от приблизительно 10 до приблизительно 1000 п.н. В другом варианте осуществления полинуклеотидные фрагменты имеют длину в пределах от приблизительно 15 до приблизительно 500 п.н. В еще одном варианте осуществления полинуклеотидные фрагменты имеют длину в пределах от приблизительно 20 до приблизительно 200 п.н. В еще одном другом варианте осуществления полинуклеотидные фрагменты имеют длину в пределах от приблизительно 25 до приблизительно 100 п.н. В дополнительном варианте осуществления полинуклеотидные фрагменты имеют длину приблизительно 35 п.н.
[0012] В одном из вариантов осуществления данные последовательности получают при параллельном геномном секвенировании. В другом варианте осуществления отнесение фрагмента к хромосомам выполняют путем сравнения последовательности фрагментов с референсной геномной последовательностью человека. Референсная геномная последовательность человека может быть любыми подходящими и/или опубликованными сборками человеческого генома, такими как hg18 или hg19. Фрагменты, которые отнесены более чем к одной хромосоме или не отнесены ни к одной хромосоме, можно не учитывать.
[0013] В одном из вариантов осуществления глубина покрытия хромосомы является отношением между числом фрагментов, которые отнесены к хромосоме, и числом референсных уникальных чтений хромосомы. В другом варианте осуществления глубина покрытия нормализована. В еще одном варианте осуществления нормализация вычислена в зависимости от покрытия всех других аутосом. В еще одном варианте осуществления нормализация вычислена в зависимости от покрытия всех других хромосом.
[0014] В одном из вариантов осуществления отношение определяется формулой:
в которой f(GCi,j) является функцией отношения между нормализованной глубиной покрытия и соответствующим GC содержанием образца i, хромосомы j, εi,j является остатком образца i, хромосомы j. В некоторых вариантах осуществления отношение между глубиной покрытия и GC содержанием вычисляют с применением локальной полиномиальной регрессии. В некоторых вариантах осуществления отношение может быть несильным линейным отношением. В некоторых вариантах осуществления отношение определяют с применением алгоритма loess.
[0015] В некоторых вариантах осуществления способ дополнительно включает вычисление аппроксимированной глубины покрытия согласно формуле:
.
[0016] В некоторых вариантах осуществления способ дополнительно включает вычисление стандартной вариации согласно формуле:
,
в которой ns обозначает число референсных образцов.
[0017] В некоторых вариантах осуществления способ дополнительно включает вычисление t-статистики Стьюдента согласно формуле:
.
[0018] В одном из вариантов осуществления GC содержание хромосомы является средним GC содержанием всех фрагментов, которые отнесены к хромосоме. GC содержание фрагмента может быть вычислено при делении числа G/C нуклеотидов во фрагменте на общее количество нуклеотидов в фрагменте. В другом варианте осуществления GC содержание хромосомы является совокупным GC содержанием референсных уникальных чтений хромосомы.
[0019] В некоторых вариантах осуществления используют по меньшей мере 2, 5, 10, 20, 50, 100, 200, 500 или 1000 образцов. В некоторых вариантах осуществления хромосома является хромосомой 1, 2,..., 22, X или Y.
[0020] В одном из вариантов осуществления образцы получены от беременных индивидов женского пола. В другом варианте осуществления образцы получены от индивидов мужского пола. В еще одном варианте осуществления образцы получены и от беременных индивидов женского пола, и от индивидов мужского пола.
[0021] В некоторых вариантах осуществления образцы являются биологическими образцами. В некоторых вариантах осуществления образцы являются пробами периферической крови.
[0022] Также настоящая заявка относится к способу определения генетической аномалии плода, включающему: a) получение данных последовательности множества полинуклеотидных фрагментов из образца; b) отнесение указанных фрагментов к хромосомам на основе указанных данных последовательности; c) вычисление глубины покрытия и GC содержания хромосомы на основе указанных данных последовательности; d) вычисление аппроксимированной глубины покрытия указанной хромосомы с применением указанного GC содержания указанной хромосомы и установленного отношения между глубиной покрытия и GC содержанием указанной хромосомы; и e) сравнение указанной аппроксимированной глубины покрытия с указанной глубиной покрытия указанной хромосомы, где различие между ними указывает на генетическую аномалию плода.
[0023] В некоторых вариантах осуществления способ дополнительно включает этап f) определения пола плода. Пол плода может быть определен согласно следующей формуле:
,
в которой cr.ai,x и cr.ai,y представляют собой нормализованное относительное покрытие хромосом X и Y, соответственно.
[0024] В некоторых вариантах осуществления способ дополнительно включает этап g) оценки эмбриональной фракции. Эмбриональная фракция может быть вычислена согласно следующей формуле:
,
в которой ĉri,Yf=f(GCi,Yf) является аппроксимированной глубиной покрытия, вычисленной из отношения глубины покрытия хромосомы Y и соответствующего GC содержание образцов, полученных от беременных женщин с плодом женского пола, ĉri,Ym=f(GCi,Ym) относится к аппроксимированной глубине покрытия, вычисленной из отношения глубины покрытия Y хромосомы и соответствующего GC содержания индивидов мужского пола. Альтернативно, эмбриональная фракция может быть вычислена согласно следующей формуле:
,
в которой ĉri,Xf=f(GCi,Xf) является аппроксимированной глубиной покрытия, вычисленной из отношения глубины покрытия хромосомы X и соответствующего GC содержания образцов, полученных от беременных женщин с плодом женского пола, ĉri,Ym=f(GCi,Ym) относится к аппроксимированной глубине покрытия, вычисленной из отношения глубины покрытия X хромосомы и соответствующего GC содержания образцов, полученных от индивидов мужского пола. Кроме того, эмбриональная фракция может быть вычислена согласно следующей формуле:
,
в которой ĉri,Xf=f(GCi,Xf) является аппроксимированной глубиной покрытия, вычисленной из отношения глубины покрытия хромосомы X и соответствующего GC содержания образцов, полученных от беременных женщин с плодом женского пола, ĉri,Yf=f(GCi,Yf) относится к аппроксимированной глубине покрытия, вычисленной из отношения глубины покрытия Y хромосомы и соответствующего GC содержания образцов, полученных от беременных женщин с плодом женского пола, ĉri,Xm=f(GCi,Xm) относится к аппроксимированной глубине покрытия, вычисленной из отношения глубины покрытия X хромосомы и соответствующего GC содержания образцов, полученных от индивидов мужского пола, ĉri,Ym=f(GCi,Ym) относится к аппроксимированной глубине покрытия, вычисленной из отношения глубины покрытия Y хромосомы и соответствующего GC содержания у индивидов мужского пола.
[0025] В одном из вариантов осуществления генетическая аномалия является хромосомной аномалией. В другом варианте осуществления генетическая аномалия является анеуплоидией. В еще одном варианте осуществления эмбриональная анеуплоидия является нарушением по аутосомам, выбранным из группы, состоящей из трисомии по хромосомам 13, 18 и 21. В еще одном варианте осуществления эмбриональная анеуплоидия является нарушением по половой хромосоме, выбранным из группы, состоящей из XO, XXX, XXY и XYY.
[0026] В некоторых вариантах осуществления сравнение указанной аппроксимированной глубины покрытия с указанной глубиной покрытия хромосомы проводится с применением статистического критерия проверки гипотезы, где одна гипотеза состоит в том, что плод является эуплоидным (H0), а другая гипотеза состоит в том, что плод является анеуплоидным (H1). Статистика может быть вычислена для обеих гипотез. В некоторых вариантах осуществления t-статистику Стьюдента вычисляют для H0 и H1 согласно формуле:
, и , соответственно, где fxy является эмбриональной фракцией. В некоторых вариантах осуществления логарифмическое отношение вероятностей t1 и t2 вычисляют согласно следующей формуле: Li,j=log(p(t1i,j,степень|D))/log(p(t2i,j,степень|T)), в которой степень относится к степени свободы t-распределения, D относится к диплоидии, T относится к трисомии и p(t1i,j,степень|*),*=D,T обозначает условную плотность вероятности с учетом степени t-распределения.
[0027] В одном из вариантов осуществления пол плода является женским, и t-статистику Стьюдента вычисляют согласно следующей формуле: , в которой ĉri,Yf = f(GCi,Yf) является аппроксимированной глубиной покрытия, вычисленной из отношения глубины покрытия X хромосомы и соответствующего GC содержания образцов, полученных от беременных женщин с плодом женского пола. В некоторых вариантах осуществления |t1|>3,13 указывает, что плод может быть XXX или XO. В некоторых вариантах осуществления |t1|>5 указывает, что плод является XXX или XO.
[0028] В другом варианте осуществления пол плода является мужским, и t-статистику Стьюдента вычисляют согласно следующей формуле: , в которой ĉri,Xf = f(GCi,Xf) является аппроксимированной глубиной покрытия, вычисленной из отношения глубины покрытия X хромосомы и соответствующего GC содержания образцов, полученных от беременных женщин с плодом женского пола. В некоторых вариантах осуществления |t2|>3,13 указывает, что плод может быть XXY или XYY. В некоторых вариантах осуществления |t2|>5 указывает, что плод является XXY или XYY.
[0029] Также настоящая заявка относится к способу определения генетической аномалии плода, включающему: a) получение данных последовательности множества полинуклеотидных фрагментов, покрывающих хромосому из более чем одного нормального образца; b) отнесение указанных фрагментов к хромосомам на основе указанных данных последовательности; c) вычисление глубины покрытия и GC содержания указанной хромосомы на основе указанных данных последовательности из указанных нормальных образцов; d) определение отношения между глубиной покрытия и GC содержанием указанной хромосомы; e) получение данных последовательности множества полинуклеотидных фрагментов из биологического образца; f) отнесение указанных фрагментов к хромосомам на основе на указанных данных последовательности из указанного биологического образца; g) вычисление глубины покрытия и GC содержания указанной хромосомы на основе указанных данных последовательности из указанного биологического образца; h) вычисление аппроксимированной глубины покрытия указанной хромосомы с применением указанного GC содержания указанной хромосомы и указанного отношения между глубиной покрытия и GC содержанием указанной хромосомы; и i) сравнение указанной аппроксимированной глубины покрытия с указанной глубиной покрытия указанной хромосомы, где различие между ними указывает на генетическую аномалию плода.
[0030] В другом аспекте настоящая заявка относится к машиночитаемому носителю, включающему множество инструкций для выполнения предродовой диагностики генетической аномалии плода, которая включает следующие этапы: a) получение данных последовательности множества полинуклеотидных фрагментов из образца; b) отнесение указанных полинуклеотидных фрагментов к хромосомам на основе указанных данных последовательности; c) вычисление глубины покрытия и GC содержания хромосомы на основе указанных данных последовательности; d) вычисление аппроксимированной глубины покрытия указанной хромосомы с применением указанного GC содержания указанной хромосомы и установленного отношения между глубиной покрытия и GC содержанием указанной хромосомы; и e) сравнение указанной аппроксимированной глубины покрытия с указанной глубиной покрытия указанной хромосомы, где различие между ними указывает на генетическую аномалию.
[0031] В еще одном аспекте настоящая заявка относится к системе для определения генетической аномалии плода, включающей: a) средства для получения данных последовательности множества полинуклеотидных фрагментов из образца; и b) машиночитаемый носитель, включающий множество инструкций для выполнения предродовой диагностики генетической аномалии плода. В некоторых вариантах осуществления система дополнительно включает биологический образец, полученный от беременного индивида женского пола, где биологический образец включает множество полинуклеотидных фрагментов.
Краткое описание фигур
[0032] На Фиг.1 показан схематический процесс вычисления глубины покрытия и GC содержания при использовании данных последовательности полинуклеотидных фрагментов.
[0033] На Фиг.2 представлена корреляция нормализованной глубины покрытия и GC содержания при использовании данных из 300 референсных случаев. Нормализованная глубина покрытия для каждого случая отложена в зависимости от соответствующего секвенированного GC содержания. Кресты обозначают случаи с эуплоидным плодом женского пола, квадраты обозначают случаи с эуплоидным плодом мужского пола. Сплошная линия является аппроксимирующей линией глубины покрытия и GC содержания.
[0034] На Фиг.3 представлена тенденция между нормализованной глубиной покрытия и соответствующим GC содержанием при расположении хромосом с возрастанием характерного GC содержания. Характерное возрастающее GC содержание каждой хромосомы в данном случае относится к среднему GC содержанию секвенированных маркеров данной хромосомы из 300 референсных случаев.
[0035] На Фиг.4 показаны различные составы GC класса для каждой хромосомы. GC содержание каждого чтения 35 п.н. референсных уникальных считываний вычисляли для каждой хромосомы, GC содержание классифицировали по 36 уровням, при этом процент каждого уровня вычисляли как GC состав каждой хромосомы. Затем хромосомы представляли графически посредством теплокарты и кластеризовали иерархически.
[0036] На Фиг.5 показано, что сдвиг секвенирования вводит корреляцию, показанную на Фиг.2, посредством ручного моделированием процесса выбора секвенатора.
[0037] На Фиг.6 построена зависимость стандартной вариации от общего количества секвенированных полинуклеотидных фрагментов. В 150 образцах корректированная стандартная вариация каждой хромосомы показывает линейное отношение с обратным квадратным корнем числа уникальных чтений.
[0038] На Фиг.7 показаны Q-Q графики остатка каждой хромосомы, вычисленного с помощью Формулы 3. Линейные отношения показаны с нормальным распределением.
[0039] На Фиг.8 показана гистограмма глубины покрытия Y хромосомы. Имеется два пика, что подразумевает то, пол случаев можно отличить по глубине покрытия Y хромосомы. Кривая является распределением относительной глубины покрытия Y хромосомы, оцененной при оценке плотности ядра с помощью Гауссова ядра.
[0040] На Фиг.9 показана диаграмма процесса диагностики 903 образцов, анализируемых на наличие хромосомной аномалии плода.
[0041] На Фиг.10 показан результат анеуплоидии: случаи трисомии 13, 18, 21 и XO, XXY, XYY и нормальные случаи. На Фиг.10A показаны графики зависимости нормализованной глубины покрытия от GC содержания хромосом 13, 18 и 21. На Фиг.10B показаны графики хромосом X и Y. Круги обозначают нормальные плоды женского пола относительно глубины покрытия с GC содержанием, точки обозначают нормальные плоды мужского пола. Сплошная линия является аппроксимирующей линией относительного покрытия и GC содержания, штриховые линии соответствуют абсолютному t-значению 1, пунктирные линии соответствуют абсолютному t-значению 2 и штрихпунктирные линии соответствуют абсолютному t-значению 3.
[0042] На Фиг.11 сравнивается достоверность различных диагностических подходов.
[0043] На Фиг.12 показано отношение между фракцией эмбриональной ДНК и гестационным сроком. Фракция эмбриональной ДНК в материнской плазме коррелирует с гестационным сроком. Фракцию эмбриональной ДНК оценивали по X и Y вместе. Существует статистически значимая корреляция между средней фракцией эмбриональной ДНК и гестационным сроком (P<0,001). Нужно отметить, что значение R2, которое представляет собой квадрат коэффициента корреляции, является малым. Минимальная фракция составляет 3,49%.
[0044] На Фиг.13 показано отношение между стандартной вариацией и числом случаев, требуемым для обнаружения. Стандартные вариации, вычисленные по Формуле 5 для каждой хромосомы изменяются при разном количестве образцов. Стандартная вариация становится постоянной, когда число образцов превышает 100.
[0045] На Фиг.14 показано предполагаемое число уникальных чтений для обнаружения анеуплоидии плода в бесклеточной плазме как функция фракции эмбриональной ДНК. Оценки основаны на уровне доверительного t-значения не меньше 3 для анеуплоидии по хромосомам 13, 18, 21 и X, и даже Y (из отношения между X и Y) которые имеют различную длину. При уменьшении фракции эмбриональной ДНК общее требуемое количество шотган-последовательностей возрастает. При производительности секвенирования 4 миллиона считываемых последовательностей на канал проточной ячейки, трисомия 21 может быть обнаружена, если 3,5% бесклеточной ДНК является эмбриональной. Анеуплоидию хромосомы X было нелегко обнаружить, когда фракция и число уникальных считываний являются малыми, например, 4% и 5 миллионов считываний. Каждая хромосома требует определенный уровень фракции эмбриональной ДНК и число уникальных считываний, что может быть обусловлено GC структурой хромосомы.
[0046] На Фиг.15 показан контурный график чувствительности, построенный по объему данных и гестационному сроку (недели) для обнаружения трисомии по хромосоме 13 для плодов женского пола, для каждой гестационной недели и каждой точки объема данных.
[0047] На Фиг.16 показан контурный график чувствительности, построенный по объему данных и гестационному сроку (недели) для обнаружения трисомии по хромосоме 18 для плодов женского пола, для каждой гестационной недели и каждой точки объема данных.
[0048] На Фиг.17 показан контурный график чувствительности, построенный по объему данных и гестационному сроку (недели) для обнаружения трисомии по хромосоме 21 для плодов женского пола, для каждой гестационной недели и каждой точки объема данных.
[0049] На Фиг.18 показан контурный график чувствительности, построенный по объему данных и гестационному сроку (недели) для обнаружения трисомии по хромосоме X для плодов женского пола, для каждой гестационной недели и каждой точки объема данных.
[0050] На Фиг.19 показан контурный график чувствительности, построенный по объему данных и гестационному сроку (недели) для обнаружения трисомии по хромосоме 13 мужчины. Для каждой гестационной недели и каждой точки объема данных сначала вычисляют эмпирическое распределение фракции эмбриональной ДНК и стандартную вариацию для данного объема данных и сравнивают фракцию, оцениваемую по XY или Y, затем вычисляют чувствительность каждого типа анеуплоидии.
[0051] На Фиг.20 показан контурный график чувствительности, построенный по объему данных и гестационному сроку (недели) для обнаружения трисомии по хромосоме 18 мужчины.
[0052] На Фиг.21 показан контурный график чувствительности, построенный по объему данных и гестационному сроку (недели) для обнаружения трисомии по хромосоме 21 мужчины.
Подробное описание изобретения
[0053] Настоящее изобретение направлено на способы неинвазивного обнаружения генетических аномалий у плода с применением крупномасштабного секвенирования полинуклеотидных фрагментов из материнского биологического образца. Также предложены способы устранения GC сдвига из результатов секвенирования, который обусловлен различиями в GC содержании хромосомы, на основе отношения между глубиной покрытия хромосомы и соответствующим GC содержанием. Таким образом, в настоящей заявке предложен способ вычислительной коррекции референсных параметров, используемых при вычислении t-критерия Стьюдента, по GC содержанию с помощью локально взвешенной полиномиальной регрессии для аппроксимации глубины покрытия хромосомы каждого образца в зависимости от GC содержания полинуклеотидных фрагментов.
[0054] Также в настоящей заявке предложен способ определения генетической аномалии плода с применением статистического анализа при помощи статистического критерия проверки гипотезы. Кроме того, предложены способы вычисления стандартов контроля качества данных (DQC), полезных при определении количества клинических образцов, требуемого для достижения некоторого уровня статистической значимости.
I. Определения
[0055] Если не определено иное, все технические и научные термины, используемые в настоящей заявке, имеют такое же значение, под которым они обычно понимаются средним специалистом в данной области, к которой относится настоящее изобретение. Все патенты, заявки, опубликованные заявки и другие публикации, указанные в настоящем описании, полностью включены в качестве ссылки. Если определение, приведенное в данном разделе, противоречит или иным образом не соответствует определению, приводимому в патентах, заявках, опубликованных заявках и других публикациях, которые включены в настоящую заявку в качестве ссылки, определение, приведенное в данном разделе, преобладает над определением, которое включено в настоящую заявку в качестве ссылки.
[0056] Используемые в оригинальном тексте настоящего описания формы единственного числа включают множественные ссылки, если не указано иное. Например, димер включает один или более димеров.
[0057] Термин "хромосомная аномалия" относится к отклонению между структурой рассматриваемой хромосомы и нормальной гомологичной хромосомы. Термин "нормальный" относится к доминирующему кариотипу или характеру исчерченности, обнаруживаемому у здоровых представителей определенного вида. Хромосомная аномалия может быть числовой или структурной и включает, без ограничения, анеуплоидию, полиплоидию, инверсию, трисомию, моносомию, дупликацию, делецию, делецию части хромосомы, присоединение, присоединение части хромосомы, вставку, фрагмент хромосомы, область хромосомы, хромосомную перестройку и транслокацию. Хромосомная аномалия может коррелировать с присутствием патологического состояния или с предрасположенностью к развитию патологического состояния. Как определено в настоящей заявке, однонуклеотидный полиморфизм ("SNP") не является хромосомной аномалией.
[0058] Моносомия X (XO, полное отсутствие хромосомы X) является наиболее распространенным типом синдрома Шерешевского-Тернера, встречающимся от 1 из 2500 до 1 из 3000 рождающихся девочек (Sybert and McCauley N Engl J Med (2004) 351:1227-1238). Синдром XXY является состоянием, при котором лица мужского пола имеют дополнительную хромосому X, существующую примерно у 1 из 1000 мужчин (Bock, Understanding Klinefelter Syndrome: A Guide for XXY Males and Their Families. NIH Pub. No. 93-3202 (1993)). Синдром XYY представляет собой анеуплоидию половых хромосом, при которой мужчина имеет дополнительную хромосому Y, что приводит в общей сложности к 47 хромосомам вместо обычных 46, затрагивая 1 из 1000 рождающихся мужчин, потенциально приводя к мужскому бесплодию (Aksglaede, et al., J Clin Endocrinol Metab (2008) 93:169-176).
[0059] Синдром Шерешевского-Тернера охватывает несколько состояний, из которых наиболее распространенной является X моносомия (XO, полное отсутствие половой хромосомы, тельца Барра). Обычно женщины имеют две хромосомы X, но при синдроме Шерешевского-Тернера одна из таких половых хромосом отсутствует. При встречаемости от 1 из 2000 до 1 из 5000 фенотипических женщин, синдром проявляется рядом способов. Синдром Клайнфельтера является состоянием, при котором представители мужского пола имеют дополнительную X хромосому. У людей синдром Клайнфельтера является наиболее общим распространенным хромосомным нарушением и вторым наиболее часто встречающимся состоянием, вызванным присутствием дополнительных хромосом. Такое нарушение присутствует примерно у 1 из 1000 мужчин. Синдром XYY - анеуплоидия половых хромосом, при которой мужчина получает дополнительную Y хромосому, что в общей сложности приводит к 47 хромосомам вместо обычных 46. Это производит кариотип 47 XYY. Такое нарушение является обычно бессимптомным и затрагивает 1 из 1000 мужчин при рождении, потенциально приводя к мужскому бесплодию.
[0060] Трисомия 13 (синдром Патау), трисомия 18 (синдром Эдварда) и трисомия 21 (синдром Дауна) являются наиболее клинически важными аутосомными трисомиями, при этом вопрос их обнаружения всегда горячо обсуждался. Обнаружение вышеуказанного хромосомного нарушения у плода имеет большое значение в предродовой диагностике (Ostler, Diseases of the eye and skin: a color atlas. Lippincott Williams & Wilkins. pp. 72. ISBN 9780781749992 (2004); Driscoll and Gross N Engl J Med (2009) 360: 2556-2562; Kagan, et al., Human Reproduction (2008) 23:1968-1975).
[0061] Термин "референсные уникальные чтения" относится к фрагментам хромосомы, которые имеют уникальную последовательность. Таким образом, такие фрагменты могут быть однозначно отнесены к одному хромосомному положению. Референсные уникальные чтения хромосомы могут быть сконструированы на основе опубликованной референсной геномной последовательности, такой как hg18 или hg19.
[0062] Термины "полинуклеотид", "олигонуклеотид", "нуклеиновая кислота" и "молекула нуклеиновой кислоты" используются в настоящем описании попеременно для обозначения полимерной формы нуклеотидов любой длины, и могут включать рибонуклеотиды, дезоксирибонуклеотиды, их аналоги или их смеси. Данный термин относится только к первичной структуре молекулы. Таким образом, термин включает три-, дву- и однонитевую дезоксирибонуклеиновую кислоту ("ДНК"), а также три-, дву- и однонитевую рибонуклеиновую кислоту ("РНК"). Он также включает модифицированные, например, алкилированием и/или кэпированием, и немодифицированные формы полинуклеотида. Более конкретно, термины "полинуклеотид", "олигонуклеотид", "нуклеиновая кислота" и "молекула нуклеиновой кислоты" включают полидезоксирибонуклеотиды (содержащие 2-дезокси-D-рибозу), полирибонуклеотиды (содержащие D-рибозу), включая тРНК, рРНК, шРНК и мРНК, сплайсированную или несплайсированную, и любой другой тип полинуклеотида, который является N- или C-гликозидом пуринового или пиримидинового основания, и другие полимеры, содержащие ненуклеотидный каркас, например, полиамидные (например, пептиднуклеиновые кислоты ("ПНК")) и полиморфолиновые (доступные от Anti-Virals, Inc, Corvallis, OR., под наименованием NeuGene®) полимеры, а также другие синтетические сиквенс-специфические полимеры нуклеиновых кислот, если такие полимеры содержат нуклеиновые основания в такой конфигурации, которая обеспечивает спаривание оснований и стэкинг-взаимодействие оснований, присутствующее в ДНК и РНК. Таким образом, данные термины включают, например, 3'-дезокси-2',5'-ДНК, олигодезоксирибонуклеотид N3'-P5' фосфорамидаты, 2'-O-алкил-замещенную РНК, гибриды ДНК и РНК, или ПНК и ДНК, или РНК, а также включают известные типы модификаций, например, метки, алкилирование, "кэпы", замену одного или более нуклеотидов аналогом, межнуклеотидные модификации, такие как, например, модификации с незаряженными связями (например, метилфосфонаты, фосфотриэфиры, фосфорамидаты, карбаматы и т.д.), с отрицательно заряженными связями (например, фосфоротиоаты, фосфородитионаты и т.д.), и с положительно заряженными связями (например, аминоалкилфосфорамидаты, аминоалкилфосфотриэфиры), модификации, содержащие боковые цепи, такие как, например, белки (включая ферменты (например, нуклеазы), токсины, антитела, сигнальные пептиды, поли-L-лизин и т.д.), модификации интеркаляторами (например, акридином, псораленом и т.д.), модификации, которые содержат хелаты (например, металлы, радиоактивные металлы, бор, окислительные металлы и т.д.), модификации, которые содержат алкилирующие агенты, модификации с измененными связями (например, альфа-аномерные нуклеиновые кислоты и т.д.), а также немодифицированные формы полинуклеотида или олигонуклеотида.
[0063] "Массивно-параллельное секвенирование" означает способы секвенирования миллионов фрагментов нуклеиновых кислот, например, с использованием закрепления случайно фрагментированной геномной ДНК на плоской, оптически прозрачной поверхности и твердофазной амплификации для создания проточной ячейки секвенирования высокой плотности с миллионами кластеров, каждый из которых содержит ~1000 копий матрицы на кв. см. Указанные матрицы секвенируют при использовании технологии четырехцветного ДНК секвенирования с процессе синтеза. См. продукты, предлагаемые Illumina, Inc., San Diego, Calif. Используемое в настоящее время секвенирование, предпочтительно, проводят без этапа предварительной амплификации или клонирования, но его можно объединить со способами на основе амплификации в микрожидкостном чипе с реакционными камерами для ПЦР и для микроскопического секвенирования на основе матрицы. Для идентификации последовательности как принадлежащей определенной хромосоме человека необходимы данные случайной последовательности длиной всего лишь приблизительно 30 п.н. Более длинные последовательности могут позволить уникально идентифицировать более специфичные мишени. В данном случае, получали большое количество чтений 35 п.н. Дальнейшее описание способа массивно-параллельного секвенирования можно найти в статье Rogers and Ventner, Nature (2005) 437:326-327.
[0064] Используемый в настоящей заявке "биологический образец" относится к любому образцу, полученному из живого или вирусного источника, или другого источника макромолекул и биомолекул, и включает любой тип клеток или ткань индивида, от которого может быть получена нуклеиновая кислота или белок, или другая макромолекула. Биологический образец может быть образцом, полученным непосредственно из биологического источника или образцом, который обработан. Например, выделенные нуклеиновые кислоты, которые амплифицируются, составляют биологический образец. Биологические образцы включают, без ограничения, образцы жидкости тела, такие как кровь, плазму, сыворотку, спинномозговую жидкость, синовиальную жидкость, мочу и пот, ткани и органы животных и растений, а также обработанные образцы, полученные из них.
[0065] Следует понимать, что аспекты и варианты осуществления изобретения, описанного в настоящей заявке, включают "состоящий" и/или "состоящий по существу из" аспектов и вариантов осуществления.
[0066] Другие объекты, преимущества и признаки настоящего изобретения станут очевидными из следующего описания, рассматриваемого в сочетании с сопровождающими фигурами.
II. Установление отношения между глубиной покрытия и GC содержанием
[0067] Настоящая заявка относится к способу установления отношения между глубиной покрытия и GC содержанием хромосомы, включающему: получение данных последовательности множества полинуклеотидных фрагментов, покрывающих указанную хромосому и другую хромосому из более чем одного образца; отнесение указанных фрагментов к хромосомам на основе указанных данных последовательности; вычисление глубины покрытия и GC содержания указанной хромосомы на основе указанных данных последовательности для каждого образца; и определение отношения между глубиной покрытия и GC содержанием указанной хромосомы. Этапы операции могут быть выполнены в любом порядке. В некоторых вариантах осуществления способ может быть выполнен в неопределенном порядке: a) получение данных последовательности множества полинуклеотидных фрагментов, покрывающих указанную хромосому из более чем одного образца; b) отнесение указанных фрагментов к хромосомам на основе указанных данных последовательности; c) вычисление глубины покрытия и GC содержания указанной хромосомы на основе указанных данных последовательности для каждого образца; и d) определение отношения между глубиной покрытия и GC содержанием указанной хромосомы.
[0068] Для вычисления глубины покрытия и GC содержания положения хромосомы данные последовательности полинуклеотидных фрагментов получают с помощью секвенирования ДНК матрицы, полученной из образца. В одном варианте осуществления ДНК матрица содержит как материнскую ДНК, так и эмбриональную ДНК. В другом варианте осуществления ДНК матрица получена из крови беременной женщины. Кровь может быть забрана с использованием любой стандартной методики забора крови, включая, помимо прочего, прокол вены. Например, кровь может забрана из вены на внутреннем сгибе локтевого сустава или на тыльной стороне руки. Пробы крови могут быть забраны у беременной женщины в любое время в течение беременности. Например, пробы крови могут быть забраны у женщин на 1-4, 4-8, 8-12, 12-16, 16-20, 20-24, 24-28, 28-32, 32-36, 36-40 или 40-44 неделе беременности и предпочтительно между 8-28 неделями беременности.
[0069] Полинуклеотидные фрагменты относят к положению хромосомы на основе данных последовательности. Референсную геномную последовательность используют для получения референсного уникального чтения. Используемый выше термин "референсные уникальные чтения" относится ко всем уникальным полинуклеотидным фрагментам, которые были отнесены к определенному геномному положению на основе референсной геномной последовательности. В некоторых вариантах осуществления референсные уникальные чтения имеют одинаковую длину, например, приблизительно 10, 12, 15, 20, 25, 30, 35, 40, 50, 100, 200, 300, 500 или 1000 п.н. В некоторых других вариантах осуществления сборки гена человека hg18 или hg19 могут использоваться в качестве референсной геномной последовательности. Положение хромосомы может быть смежным окном на хромосоме, имеющим длину приблизительно 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000 т.п.н. или более. Положение хромосомы также может быть одиночной хромосомой.
[0070] Используемый в настоящей заявке термин "глубина покрытия" относится к отношению между числом фрагментов, которое относят к положению хромосомы, и числом референсных уникальных чтений положения хромосомы согласно следующей формуле:
в которой ni,j является числом уникальных чтений последовательности, картированных на хромосоме j в образце i; Ci,j является глубиной покрытия хромосомы j в образце i; Nj является числом референсных уникальных чтений в хромосоме j.
[0071] В некоторых вариантах осуществления полинуклеотидные фрагменты, которые не были отнесены к одному положению хромосомы или отнесены к нескольким положениям хромосомы, исключают. В некоторых вариантах осуществления глубину покрытия нормализуют с учетом глубины покрытия другого положения хромосомы, другой хромосомы, среднего значения всех других аутосом, среднего значения всех других хромосом или среднего значения всех хромосом. В некоторых вариантах осуществления среднюю глубину покрытия 22 аутосом применяют в качестве константы нормализации для учета различий в общем количестве чтений последовательности, полученных для различных образцов:
где cri,j обозначает относительную глубину покрытия хромосомы j в образце i. В дальнейшем "относительная глубина покрытия" для каждой хромосомы относится к нормализованному значению и используется для сравнения различных образцов, а также для последующего анализа.
[0072] GC содержание положения хромосомы может быть вычислено по среднему проценту GC положения хромосомы на основе уникальных референсных чтений в положении хромосомы или на секвенированных полинуклеотидных фрагментов, которые отнесены к положению хромосомы. Содержание GC хромосомы может быть вычислено с применением следующей формулы:
GCi,chrj=no.GCi/no.BASEi в которой i обозначает образец i, j обозначает хромосому j, NGCi,j обозначает число G и C ДНК оснований, а BASEi,j обозначает число оснований ДНК в хромосоме j в образце i.
[0073] Глубина покрытия и GC содержание могут быть основаны на данных последовательности полинуклеотидных фрагментов, полученных из одного образца или из множества образцов. Для установления отношения между глубиной покрытия и GC содержанием положения хромосомы, вычисление может быть основано на данных последовательности полинуклеотидных фрагментов, полученных по меньшей мере из 1, 2, 5, 10, 20, 50, 100, 200, 500 или 1000 образцов.
[0074] В некоторых вариантах осуществления отношение между глубиной покрытия и GC содержанием является несильным линейным отношением. Алгоритм Loess или локально взвешенная полиномиальная регрессия может применяться для оценки нелинейных отношений (корреляций) между парами значений, как, например, между глубиной покрытия и GC содержанием.
III. Определение генетической аномалии плода
[0075] Также настоящая заявка относится к способу определения генетической аномалии плода, включающему: a) получение данных последовательности множества полинуклеотидных фрагментов из образца; b) отнесение указанных фрагментов к хромосомам на основе указанных данных последовательности; c) вычисление глубины покрытия и GC содержания хромосомы на основе указанных данных последовательности; d) вычисление аппроксимированной глубины покрытия указанной хромосомы с применением указанного GC содержания указанной хромосомы и установленного отношения между глубиной покрытия и GC содержанием указанной хромосомы; и e) сравнение указанной аппроксимированной глубины покрытия с указанной глубиной покрытия указанной хромосомы, где различие между ними указывает на генетическую аномалию плода.
[0076] Способы могут применяться для обнаружения хромосомных аномалий у плода и особенно полезны для обнаружения анеуплоидии, полиплоидии, моносомии, трисомии, трисомии 21, трисомии 13, трисомии 14, трисомии 15, трисомии 16, трисомии 18, трисомии 22, триплоидии, тетраплоидии и нарушений, связанных с половыми хромосомами, включая XO, XXY, XYY и XXX. Также можно сфокусироваться на определенных областях в пределах человеческого генома согласно существующим способам, чтобы идентифицировать частичные моносомии и частичные трисомии. Например, способы могут включать данные анализа последовательности в определенном скользящем по хромосоме "окне", например, в виде смежных, неперекрывающихся областей длиной 50 т.п.н., расположенных на хромосоме. Среди прочих были описаны частичные трисомии 13q, 8p (8p23.1), 7q, дистального 6p, 5p, 3q (3q25.1), 2q, 1q (1q42.1 и 1q21-qter), частичная Xpand моносомия 4q35.1. Например, частичные дупликации длинного плеча хромосомы 18 могут привести к синдрому Эдвардса в случае дупликации 18q21.1-qter (Mewar, et al., Am J Hum Genet. (1993) 53:1269-78).
[0077] В некоторых вариантах осуществления эмбриональную фракцию оценивают на основе данных последовательности, полученных для полинуклеотидных фрагментов из образца. Глубина покрытия, и GC содержание хромосом X и Y могут использоваться для оценки эмбриональной фракции. В некоторых вариантах осуществления пол плода определяют на основе данных последовательности, полученных для полинуклеотидных фрагментов из образца. Глубина покрытия, и GC содержание хромосом X и Y могут использоваться для определения пола плода.
[0078] В некоторых вариантах осуществления сравнение указанной аппроксимированной глубины покрытия с указанной глубиной покрытия хромосомы проводят с помощью статистического критерия проверки гипотезы, где одна гипотеза состоит в том, что плод является эуплоидным (H0), а другая гипотеза состоит в том, что плод является анеуплоидным (H1). В некоторых вариантах осуществления t-статистику Стьюдента вычисляют для обеих гипотез как t1 и t2, соответственно. В некоторых вариантах осуществления вычисляют отношение логарифма вероятности t1 и t2. В некоторых вариантах осуществления отношение логарифма вероятности >1 указывает на трисомию плода.
IV. Машиночитаемый носитель и система диагностики генетической аномалии плода
[0079] В другом аспекте настоящая заявка относится к машиночитаемому носителю, включающему множество инструкций для выполнения предродовой диагностики генетической аномалии плода, которая включает следующие этапы: a) получение указанных данных последовательности; b) отнесение указанных полинуклеотидных фрагментов к хромосомам на основе указанных данных последовательности; c) вычисление глубины покрытия и GC содержания указанной хромосомы на основе указанных данных последовательности; d) вычисление аппроксимированной глубины покрытия указанной хромосомы с применением указанного GC содержания указанной хромосомы и установленного отношения между глубиной покрытия и GC содержанием указанной хромосомы; и e) сравнение указанной аппроксимированной глубины покрытия с указанной глубиной покрытия указанной хромосомы, где различие между ними указывает на генетическую аномалию.
[0080] В еще одном аспекте настоящая заявка относится к системе для определения анеуплоидии плода, включающей: a) средство для получения данных последовательности из указанных полинуклеотидных фрагментов; и b) машиночитаемый носитель, включающий множество инструкций для выполнения предродовой диагностики генетической аномалии у плода. В некоторых вариантах осуществления система дополнительно включает биологический образец, полученный от беременной женщины, где биологический образец включает множество полинуклеотидных фрагментов.
[0081] Квалифицированным специалистам в данной области будет очевидно, что может использоваться множество различных способов секвенирования и вариаций. В одном из вариантов осуществления секвенирование выполняют при использовании массивно-параллельного секвенирования. Массивно-параллельное секвенирование, например, выполняемое на платформе 454 (Roche) (Margulies, et al., Nature (2005) 437:376-380), Illumina Genome Analyzer (или платформа Solexa™) или SOLiD System (Applied Biosystems) или технология секвенирования Helicos True Single Molecule DNA sequencing (Harris, et al., Science (2008) 320:106-109), технология секвенирования одной молекулы в режиме реального времени (SMRT™, Pacific Biosciences) и секвенирование в нанопорах (Soni and Meller, Clin Chem (2007) 53:1996-2001) позволяют производить секвенирование множества молекул нуклеиновой кислоты, выделенных из образца с высокими порядками мультиплексирования в параллельном режиме (Dear, Brief Funct Genomic Proteomic (2003) 1:397-416). Каждая из таких платформ секвенирует клонированные или даже неамплифицированные одиночные молекулы фрагментов нуклеиновой кислоты. Коммерческое оборудование для секвенирования может применяться при получении данных последовательности полинуклеотидных фрагментов.
V. Примеры
[0082] Следующие примеры представлены для иллюстрации, но не ограничения изобретения.
Анализ факторов, влияющих на чувствительность обнаружения: GC сдвиг и пол
[0083] Схематическая структура процедуры вычисления глубины покрытия и GC содержания показана на Фиг.1. Использовали программу для получения референсных уникальных чтений при нарезке референсных последовательностей hg18 в 1-мер (1-мер в данном случае является чтением, получаемым при искусственном разбиении из референсной последовательности человека с такой же длиной "1", как у секвенирующих чтений образца), и собирали такой уникальный 1-мер, как и референсные уникальные чтения. Во-вторых, картировали чтения секвенированного образца на референсных уникальных чтениях каждой хромосомы. В-третьих, удаляли выбросы, применяя квинтильный способ исключения выбросов для получения чистого набора данных. Наконец, рассчитали глубину покрытия каждой хромосомы для каждого образца и GC содержание секвенированных уникальных чтений, картированных на каждой хромосоме для каждого образца.
[0084] С целью исследования, каким образом GC содержание влияет на получаемые данные, выбирали 300 эуплоидных случаев с результатом кариотипа и наносили их глубину покрытия и соответствующее GC содержание секвенированных чтений на график, который показал сильную корреляцию между ними, при этом ранее о данном явлении не сообщали (Фиг.2). На Фиг.2 глубина покрытия четко коррелировала с GC содержанием и демонстрировала очевидную тенденцию к понижению в некоторых хромосомах, таких как 4, 13 и т.д., с одновременной тенденцией к повышению в других хромосомах, таких как 19, 22 и т.д. Все хромосомы были расположены в порядке возрастания их характерного GC содержания, при этом тенденция к понижению присутствует в группе хромосом с более низким GC содержанием, тогда как тенденция к повышению наблюдается в группе хромосом с более высоким GC содержанием, как показано на Фиг.3. Это может интерпретироваться таким образом, что если полинуклеотидные фрагменты, секвенированные для одного образца, имеют более высокое GC содержание, чем у другого образца, глубина покрытия, представляющая данный образец, будет падать, подобно глубине покрытия другого образца в группе хромосом с более низким GC содержанием, и расти в группе хромосом с более высоким GC содержанием.
[0085] Возможным объяснением тенденции такого разного изменения в группах хромосом с различным GC содержанием являются различия в GC составе в различных хромосомах, показанных на Фиг.4, в сочетании с GC сдвигом, вводимым в процессе секвенирования. GC содержание каждого 35-мерного референсного уникального чтения для каждой хромосомы используется при классификации GC содержания на 36 уровней. Процент каждого уровня, как и GC состав каждой хромосомы, вычисляли и затем использовали для построения теплокарты с помощью программы Heatmap2. При использовании хромосомы 13 в качестве примера, ее большая часть состоит из сегментов последовательности с более низким GC содержанием, а ее малая часть состоит из сегментов последовательности с более высоким GC содержанием. Если условия в ходе секвенирования или процесса ПЦР благоприятны для сегментов последовательности с более высоким GC содержанием, то относительно большую часть хромосомы 13 с низким GC содержанием будет сложно секвенировать, что в результате приведет к тому, что глубина покрытия хромосомы 13 данного образца будет снижаться. В сравнении, в группе с более высоким GC содержанием, например, как в хромосоме 19, глубина покрытия хромосомы 19 данного образца становится выше, поскольку большая часть хромосомы 19 имеет более высокое GC содержание, предпочтительное для секвенатора. Независимо от присутствия в той или иной хромосоме, GC бедные и GC богатые сегменты сложно секвенировать, но влияние, вводимое GC сдвигом, отличается для различных хромосом с разным GC составом. Каждую референсную хромосому разделяли на корзины по 1 т.п.н., при этом в корзине вычисляли GC содержание каждого референсного уникального чтения. GC содержание каждой корзины в форме правильного интервала [0,3, 0,6] делили на размер шага 0,001, и вычисляли относительное покрытие в каждом интервале. На Фиг.5 показаны графики относительного покрытия и GC содержания для каждой хромосомы.
[0086] Влияние пола плода на данные анализировали при использовании независимого двухвыборочного t-критерия. Никакого значимого различия между аутосомами не выявляли, за исключением половых хромосом с приблизительно равным GC содержанием, однако наблюдали очевидное различие в UR% между женщинами и мужчинами (Chiu et al., (2008) Proc Natl Acad Sci USA 105:20458-20463), что предполагает отсутствие необходимости дифференцировать пол плода при обнаружении аутосомной анеуплоидии, но при обнаружении анеуплоидии по половым хромосомам, например, XO, XYY и т.д., прежде всего необходимо различать пол плода.
Статистическая модель
[0087] Используя описанное выше явление, пытались применить локальный полином для аппроксимации отношения между глубиной покрытия и соответствующим GC содержанием. Глубина покрытия состоит из функции GC и остатка нормального распределения согласно следующему:
где f(GCi,j) обозначает функцию отношения между глубиной покрытия и соответствующим GC содержанием образца i, хромосомы j, εi,j обозначает остаток для образца i, хромосомы j.
[0088] Между глубиной покрытия и соответствующим GC содержанием присутствует несильное линейное отношение, таким образом, применяли алгоритм Loess для аппроксимации глубины покрытия с соответствующим GC содержанием, из которого вычисляли значение, важное для данной модели, то есть, аппроксимированную глубина покрытия:
С аппроксимированной глубиной покрытия, стандартная вариация и t Стьюдента вычисляли согласно следующей Формуле 6 и Формуле 7:
Оценка эмбриональной фракции
[0089] По причине того, что эмбриональная фракция является очень важной для настоящего обнаружения, перед процедурой анализа оценивали эмбриональную фракцию. Как указывали выше, секвенировали 19 взрослых мужчин, и при сравнении их глубины покрытия с глубиной покрытия для случаев, несущих плод женского пола, обнаружили, что для мужчин глубина покрытия X хромосомы составляет почти 1/2 глубина покрытия для женщин, а глубина покрытия Y хромосомы для мужчин почти на 0,5 больше, чем у женщин. Таким образом, можно оценить эмбриональную фракцию в зависимости от глубины покрытия хромосомы X и Y согласно Формуле 8, Формуле 9 и Формуле 10, также с учетом GC корреляции:
где ĉr i,Xf = f(GCi,Xf) является аппроксимированной глубиной покрытия в зависимости от регрессионной корреляции глубины покрытия хромосомы X и соответствующего GC содержания для случаев с плодом женского пола, ĉr i,Yf = f(GCi,Yf) относится к аппроксимированной глубине покрытия в зависимости от регрессионной корреляции глубины покрытия Y хромосомы и соответствующего GC содержания для случаев с плодом женского пола, и ĉr i,Xm = f(GCi,Xm) относится к аппроксимированной глубине покрытия в зависимости от регрессионной корреляции глубины покрытия X хромосомы и соответствующего GC содержания у взрослых мужчин, ĉr i,Ym = f(GCi,Ym) относится к аппроксимированной глубине покрытия в зависимости от регрессионной корреляции глубины покрытия Y хромосомы и соответствующего GC содержания у взрослых мужчин. Для простого вычисления, приведенные и равны, и и равны.
Вычисление остатка для каждой хромосомы
[0090] На Фиг.6 показано, что на стандартную вариацию (см. Формулу 3) для каждой хромосомы при определенном общем количестве уникальных чтений влияет количество участвующих референсных случаев. Стандартная вариация увеличивается только когда количество выбранных случаев превышало 150, при условии, что для каждого случая было секвенировано 1,7 миллиона из общего количества уникальных чтений. Впрочем, стандартная вариация отличалась для разных хромосом. После учета GC сдвига, настоящий способ имел умеренную стандартную вариацию по хромосоме 13 (0,0063), хромосоме 18 (0,0066) и хромосоме 21 (0,0072). Стандартная вариация X хромосомы была выше, чем у вышеуказанных хромосом, что потребовало бы большего количества стратегий для точного обнаружения аномалий.
[0091] На Фиг.7 показан Q-Q график, где остаток сводили к нормальному распределению, что подразумевает важность вычисления t Стьюдента.
Дифференцирование пола плода
[0092] Для обнаружения нарушения половой хромосомы лучше всего различать пол плода. Существовала два заметных пика при исследовании распределения частоты глубины покрытия хромосомы Y в наших 300 случаях, что указало на возможность отличить пол по глубине покрытия Y хромосомы. Случаи с глубиной покрытия меньше 0,04 могут рассматриваться как вынашивание плода женского пола, тогда как случаи с глубиной покрытия больше 0,051 расценивали как вынашивание плода мужского пола, а в пределах 0,04-0,051 - как неопределенный пол, Фиг.8. Для таких сомнительных по полу и анеуплоидных случаев использовали логистическую регрессию для предсказания их пола согласно Формуле 11 (Fan, et al., Proc Natl Acad Sci USA (2008) 42:16266-16271):
в которой cr.a i,x и cr.a i,y нормализованы относительно покрытия X и Y, соответственно.
[0093] При сравнении с результатом кариотипа данный способ дифференцирования пола плода был эффективен в 300 референсных случаях, показав 100% точность, тогда как ошибочно был определен один случай при выполнении на наборе из 901 случаев, при этом глубина покрытия хромосомы Y данного ошибочного случая находилась в пределах 0,04-0,051.
Эффективность диагностики подхода t-критерия GC корреляции
Подбор образцов
[0094] 903 участника предварительно набирали в Народном госпитале Шеньчженя и Шенчьженьском центре здоровья матери и ребенка с их результатами кариотипа. Одобрения были получены от экспертных советов каждого учреждения, в которых проводили набор, при этом все участники давали информированное письменное согласие. Возраст матери и недели беременности регистрировали при заборе крови. 903 случая включали 2 случая трисомии 13, 15 случаев трисомии 18, 16 случаев трисомии 21, 3 случая XO, 2 случая XXY и 1 случай XYY. Их распределение результатов кариотипа показано на Фиг.9.
Секвенирование ДНК материнской плазмы
[0095] Периферическую венозную кровь (5 миллилитров) забирали у каждой участвующей беременной женщины в пробирки с ЭДТА и центрифугировали при 1600 g в течение 10 минут в 4 часа. Плазму переносили в микроцентрифужные пробирки и повторно центрифугировали при 16000 g в течение 10 минут для удаления остаточных клеток. Бесклеточную плазму хранили при 80°C до выделения ДНК. Каждый образец плазмы замораживали и размораживали только один раз.
[0096] Для массивно-параллельного геномного секвенирования всю экстрагированную ДНК из 600 μл материнской плазмы использовали для конструирования ДНК библиотеки согласно модифицированному способу Illumina. Вкратце, концевую достройку фрагментов ДНК материнской плазмы проводили с использованием T4 ДНК-полимеразы, полимеразы Klenow™ и T4 полинуклеотидкиназы. Коммерчески доступные адаптеры (Illumina) лигировали к фрагментам ДНК после присоединения концевых A-остатков. Затем ДНК с лигированными адаптерами дополнительно амплифицировали с помощью ПЦР с 17 циклами при использовании стандартных мультиплексных праймеров. Набор Agencourt AMPure™ 60 ml Kit (Beckman) использовали для очистки продуктов ПЦР. Распределение размера библиотек секвенирования анализировали с использованием набора DNA 1000 на 2100 Bioanalyzer™ (Agilent) и анализировали количественно с помощью ПЦР в реальном времени. Затем библиотеки секвенирования с различным индексом объединяли в одну по равному количеству перед кластерной станцией на Illumina GA II™ (секвенирование с одного конца).
[0097] 19 образцов эуплоидных мужчин секвенировали для последующего анализа с целью оценки эмбриональной фракции ДНК. Один новый подход t-критерия GC корреляции разработали для диагностики трисомии 13, трисомии 18, трисомии 21 и аномалий половых хромосом. Затем указанный новый способ сравнивали с другими двумя способами, указанными ниже, по эффективности диагностики.
Обнаружение анеуплоидии плода, такой как трисомия 13, 18 и 21
[0098] Для определения, отклонялось ли число копий хромосомы в случае пациента от нормального, глубину покрытия хромосомы сравнивали с глубиной покрытия хромосомы всех других референсных случаев. Все предыдущее исследование имело только одну нулевую гипотезу. Бинарные гипотезы вводили при первом использовании двух нулевых гипотез. Одна нулевая гипотеза (H0: плод эуплоидный) являлась предположением, что средняя глубина покрытия распределения случая пациента и средняя глубина покрытия всего нормального референсного распределения были равны, что означает, что случай пациента был эуплоидным, если такая нулевая гипотеза принята. При использовании t-критерия Стьюдента, t1 может быть вычислено согласно Формуле 12:
Другая нулевая гипотеза (H1: плод анеуплоидный) состояла в том, что средняя глубина покрытия распределения случая пациента с примерной эмбриональной фракцией была равна средней глубине покрытия распределения анеуплоидных случаев с такой же эмбриональной фракцией, что означает, что данный случай пациента является анеуплоидным, если данная нулевая гипотеза принята. t-статистику Стьюдента, t2 вычисляли согласно Формуле 13:
|t1|>3 и |t2|<3 указывают на анеуплоидный случай в большинстве случаев, особенно тогда, когда распределения между эуплоидными случаями и анеуплоидными случаями полностью различаются, тогда как при другом условии, например, при недостаточной точности или недостаточной эмбриональной фракции и так далее |t1| может быть меньше 3, но при этом плод будет аномальным. При объединении t1 и t2 можно принимать более точное решение, поэтому использовали отношение логарифмов вероятностей t1 и t2 согласно Формуле 14:
в которой Li,j является отношением логарифмов вероятности. Если отношение больше 1, то можно сделать вывод, что плод может иметь трисомию.
[0099] Но для случаев с плодами женского пола было сложно оценить их эмбриональную фракцию, поэтому ее было невозможно вычислить. Однако можно привести референсное значение (RV) фракции 7% согласно эмпирическому распределению эмбриональной фракции.
[0100] Исследовали 903 случая, 866 из них несли эуплоидные плоды, из которых случайно отбирали 300 случаев для разработки подхода GC корреляции t Стьюдента. Кроме того, в данном исследовании участвовали 2 случая трисомии 13, 12 случаев трисомии 18, 16 случаев трисомии 21, 4 XO (состоящих из 3 случаев XO и 1 химеры 45, xo/46, случая xx (27:23)), 2 случаев XXY и случая 1XYY. После выравнивания получили среднее для 1,7 миллионов из данных (SD=306185) уникальных выровненных чтений на случай без мисматчей. С применением данного недавно разработанного t-критерия Стьюдента с GC корреляцией успешно идентифицировали все случаи T13 (2 из 2), и при этом правильно классифицировали 901 из 901 случая без трисомии 13 (Фиг.10A). Чувствительность и специфичность данного подхода составили 100% и 100% (Таблица 1).
[0101] Что касается трисомии 18, смогли правильно идентифицировать 12 из 12 случаев трисомий 18 и 888 из 891 случаев без трисомии 18 (Фиг.10A). Чувствительность и специфичность данного подхода составили 100% и 99,66%, соответственно. В отношении трисомии 21, 16 из 16 случаев трисомии 21 и 16 из 16 случаев без трисомии 21 также смогли правильно обнаружить (Фиг.10A). Чувствительность и специфичность данного подхода составили 100% и 100%, соответственно.
Обнаружение XO, XXX, XXY, XYY
[0102] Выше рассматривали обнаружение трисомии для аутосом, нарушения по половой хромосоме, такие как XO, XXX, XXY и XYY также можно обнаружить с помощью настоящего способа.
[0103] Сначала пол подтверждали путем гендерного деференцирования. Если подтверждали, что анализируемый случай несет плод женского пола, Стьюдент-t значение t1 t1i,X = (cr i,X - ĉr i,Xf)/std Xf требовалось вычислить для обнаружения XXX или XO, где cr i,X и std Xf такие же, как в Формуле 10; если t1 больше 3,13 или меньше -3,13, данный случай может являться XXX или XO. Но с учетом того, что точность была ограничена большим отклонением глубины покрытия для хромосомы X, образцы плазмы снова забирали и повторяли эксперимент, чтобы получить более достоверное решение, когда |t1|<5 даже если |t1|>3,13. Подтверждали, что |t1|>5 был анеуплоидией в данном случае. Все процессы обнаружения предполагали, что данные удовлетворяли стандартному контролю качества.
[0104] Если подтверждали, что анализируемый образец несет плод мужского пола, эмбриональную фракцию ДНК оценивали сначала по Y и X. При этом могли экстраполировать аппроксимированную глубину покрытия для хромосомы X с эмбриональной фракцией ДНК, оцениваемой только по глубине покрытия хромосомы Y, и можно было вычислить t2. t2i =(cr i,x -(1-fy i/2)·ĉr i,Xf)/std Xf. Если t2 слишком большое (больше 5) или слишком маленькое (меньше -5), плод может быть XXY или XYY. Кроме того, интервал между эмбриональными фракциями, оцениваемыми по X и Y, независимо обеспечит данные для обнаружения нарушений, связанных с половыми хромосомами.
[0105] При обнаружении XO были обнаружены 3 из 4 случаев XO, и случай, который не удалось идентифицировать, был химерным случаем (Фиг.10B). Чувствительность и специфичность данного подхода составляли 75% (100%, если игнорировать химерный случай) и 99,55%, соответственно. Что касается случаев XXY, были успешно идентифицированы все 2 случая, при этом были правильно классифицированы 901 из 901 не-XXY случая (Фиг.10B) с чувствительностью 100% и специфичностью 100%. В отношении случая XYY, его также идентифицировали правильно (Фиг.10B), а чувствительность и специфичность составили 100% и 100%, соответственно.
[0106] Для оценки того, обладал ли настоящий новый подход какими-либо преимуществами по сравнению с другими двумя описанными подходами, z-оценкой и z-оценкой с GC коррекцией, все три указанных подхода применяли для анализа 900 случаев и таких же 300 случаев в качестве референсного набора для всех указанных подходов. Точность измерения всегда выражали в доверительном значении (CV). В настоящем исследовании, CV стандартного способа z-оценки выше, чем у других способов, в отношении клинически значимой хромосомы 18 и 21 (Фиг.11), что приводит к более низкому уровню чувствительности в отношении трисомии 18 и 21 (Таблица 1).
Сравнение чувствительности и специфичности различных способов
(# случаев)
[0107] В отношении способа z-оценки с GC коррекцией, значение CV хромосомы 13 составляет 0,0066 со 100% уровнем чувствительности и 100% уровнем специфичности. Что касается нового способа стьюдент t GC корреляции, описанного в настоящей заявке, значение CV хромосомы 13 составляет 0,0063 со 100% уровнем чувствительности и 100% уровнем специфичности. В хромосоме 18 CV двух указанных подходов составила 0,0062 и 0,0066, соответственно, со 100% чувствительностью, а уровни специфичности для них составили 99,89% и 99,96%, соответственно. Эффективность при сравнении CV двух данных подходов для хромосомы 21 была подобной: 0,0088 и 0,0072, соответственно. Оба показали одинаковый уровень чувствительности 100% в исследовании на малом наборе случаев и достигали одинакового 100% уровня специфичности. И два указанных способа были более эффективными по сравнению со стандартным подходом z-оценки. Настоящий новый подход с GC корреляцией не только был сопоставим с подходом GC коррекции, показав хорошую эффективность, но также он обладал преимуществом при обнаружении аномалий половых хромосом, таких как XO, XXY и XYY. Представленные данные показывают, что в процессе GC коррекции было сложно различать пол плода по отклонению данных, представляющих половые хромосомы, вводимые при исправлении числа маркерных последовательностей путем умножения весового фактора, поэтому обнаружение нарушения, связанного с половой хромосомой, оказалось сложным.
Теоретическая эффективность подхода t-критерия GC корреляции с учетом объема данных, срока беременности и фракции эмбриональной ДНК
[0108] Измерение анеуплоидии остается сложным из-за высокого фона материнской ДНК (Fan, et al., Proc Natl Acad Sci USA (2008) 42:16266-16271) и произвольно малая фракция эмбриональной ДНК являлась наиболее существенным фактором ограничения для обнаружения анеуплоидии способом массивно-параллельного секвенирования геномом (MPGS) на настоящий момент. Впрочем, до появления MPGS в клиническом определении минимальной фракции эмбриональной ДНК не было никакого крупного прорыва, в особенности для плодов женского пола, при этом единственным клиническим показателем, позволяющим определить фракцию эмбриональной ДНК, был срок беременности. Ранее сообщали, что между фракцией эмбриональной ДНК и гестационным возрастом плода существует статистически значимая корреляция (Lo, et al., Am. J. Human Genet. (1998) 62:768-775). В настоящем исследовании для изучения отношения между расчетной фракцией эмбриональной ДНК и гестационным возрастом плода строили график (Фиг.12) фракции эмбриональной ДНК всех участвующих случаев с плодами мужского пола (в общей сложности 427 случаев), связанный с оценочной Формулой 10. Расчетная фракция эмбриональной ДНК для каждого образца коррелирует с гестационным возрастом плода (P меньше 0,0001). Также показано, что даже при гестационном возрасте 20 было 4 случая из 65 с фракцией эмбриональной ДНК меньше 5%, что неблагоприятно влияло на точность обнаружения. Для оценки способа оценки эмбриональной фракции выбирали некоторые случаи, иерархически распределенные в расчетной эмбриональной фракции, а затем с помощью Q-ПЦР вычисляли другую относительную эмбриональную фракцию. Затем получали стандартную кривую корреляции, продемонстрировавшую сильную корреляцию между ними, что продемонстрировало, что оценка эмбриональной фракции настоящим способом является достоверной.
[0109] Между тем, глубина секвенирования (общее количество уникальных чтений) была другим существенным фактором, влияющим на точность обнаружения анеуплоидии, заключающейся в значении стандартной вариации. Стандартная вариация для каждой хромосомы, используемая в настоящем подходе GC корреляции могла быть зафиксирована на некотором уровне глубины секвенирования, когда число референсных случаев достигает 150 (Фиг.13). Для исследования, какое влияние глубина секвенирования оказывает на стандартную вариацию для каждой хромосомы, секвенировали 150 случаев не только на нашем уровне 1,7 миллионов, но и на другом уровне глубины секвенирования с общим количеством уникальных чтений, достигающим 5 миллионов (SD=1,7 миллион). В зависимости от двух указанных наборов, обнаружили, что стандартная дисперсия линейна в отношении к обратному квадратному корню общего количества уникальных чтений, продемонстрированного на Фиг.6.
[0110] В отношении данной фракции эмбриональной ДНК можно было оценить общее количество уникальных чтений, требуемое в настоящем способе для обнаружения отклонения числа копий хромосомы от нормального при t1 равном 3 (Фиг.14). Это показало, что чем меньше фракция эмбриональной ДНК, тем большая глубина секвенирования требуется. При наборе 1,7 миллионов уникальных чтений данный подход позволяет обнаруживать анеуплоидию плода по хромосоме 13 и X с фракцией эмбриональной ДНК более 4,5% и анеуплоидию плода по хромосоме 21 и 18 более 4%; тогда как при референсном наборе 5 миллионов данный подход позволял обнаруживать трисомию 18 и трисомию 21 даже в случае фракции эмбриональной ДНК приблизительно 3%. Если необходимо идентифицировать плод с нарушением по X хромосоме, например, XXX или XO, с эмбриональной фракцией приблизительно 4%, требуемое общее уникальное число в таких случаях и соответствующих референсных случаях должно достигать 5 миллионов. Если эмбриональная ДНК составляет меньше 3,5%, необходима глубина секвенирования 20M. А если бы фракция эмбриональной ДНК была меньше, то обнаружение стало бы невероятным и настолько сложным, что предложили другую стратегию, то есть, требовалось повторно отбирать плазму беременной женщины, проводить заново эксперимент и повторно анализировать данные, когда гестационный возраст плода увеличивался, с большей вероятностью того, что фракция эмбриональной ДНК повысится с увеличением гестационного возраста плода. И такая стратегия также может применяться к образцам, подозреваемым на малое содержание фракции эмбриональной ДНК.
[0111] Даже несмотря на то, что настоящий подход достаточно эффективен, он не убедителен без большого набора аномальных случаев. Для оценки чувствительности данного подхода Стьюдент t GC корреляции, применяемого в настоящей заявке, опубликовали теоретическую чувствительность с учетом различного гестационного возраста и различной глубины секвенирования.
[0112] Вычисляли теоретическую чувствительность анеуплоидию в следующих этапах. Сначала применяли регрессионный анализ для аппроксимации фракции эмбриональной ДНК с гестационным возрастом плода , где является аппроксимирующим средним для фракции эмбриональной ДНК в i-том гестационном возрасте gsai, и расчетное аппроксимированное распределение фракции эмбриональной ДНК при использовании оценки плотности гауссова ядра (Birke, (2008) Journal of Statistical Planning and Inference 139:2851-2862) главным образом относится к расчетной фракции эмбриональной ДНК с распределением на 19 и 20 неделе беременности перед экстраполяцией распределения эмбриональной фракции ДНК на другие недели согласно отношению между фракцией эмбриональной ДНК и гестационным возрастом плода
,
где является аппроксимирующей плотностью вероятности фракции эмбриональной ДНК в i-том гестационном возрасте, где X является данными для 19 и 20 недель беременности (Фиг.12). Следующим шагом оценивали стандартную дисперсию в соответствии с общим количеством уникальных чтений, как описано выше:
[0113] Впрочем, вывод заявителей относительно консервативен по причине того, что довольно сложно добиться распределения, бесконечно приближенного к реальному распределению фракции эмбриональной ДНК наряду с гестационным возрастом плода, особенно при малом гестационном возрасте на небольшой выборке.
Ссылки
название | год | авторы | номер документа |
---|---|---|---|
Способ неинвазивного пренатального скрининга анеуплоидий плода | 2019 |
|
RU2712175C1 |
СПОСОБ НЕИНВАЗИВНОЙ ДИАГНОСТИКИ АНЕУПЛОИДИЙ ПЛОДА МЕТОДОМ СЕКВЕНИРОВАНИЯ | 2014 |
|
RU2543155C1 |
СПОСОБ НЕИНВАЗИВНОЙ ПРЕНАТАЛЬНОЙ ДИАГНОСТИКИ АНЕУПЛОИДИЙ ПЛОДА | 2014 |
|
RU2583830C2 |
СПОСОБ НЕИНВАЗИВНОЙ ПРЕНАТАЛЬНОЙ ДИАГНОСТИКИ АНЕУПЛОИДИЙ ПЛОДА | 2015 |
|
RU2627673C2 |
НЕИНВАЗИВНЫЙ ДИАГНОСТИЧЕСКИЙ ТЕСТ ДНК ДЛЯ ОБНАРУЖЕНИЯ АНЕУПЛОИДИИ | 2012 |
|
RU2638456C2 |
СПОСОБ ОПРЕДЕЛЕНИЯ АНЕУПЛОИДИИ ПЛОДА В ОБРАЗЦЕ КРОВИ БЕРЕМЕННОЙ ЖЕНЩИНЫ | 2021 |
|
RU2777072C1 |
ТЕХНОЛОГИЯ ОПРЕДЕЛЕНИЯ АНЕУПЛОИДИИ МЕТОДОМ СЕКВЕНИРОВАНИЯ | 2012 |
|
RU2529784C2 |
СПОСОБЫ И СИСТЕМЫ ДЛЯ ОПРЕДЕЛЕНИЯ ТОГО, ЯВЛЯЕТСЯ ЛИ ГЕНОМ АНОМАЛЬНЫМ | 2011 |
|
RU2599419C2 |
СПОСОБ ОПРЕДЕЛЕНИЯ ИСТОЧНИКА АНЕУПЛОИДНЫХ КЛЕТОК ПО КРОВИ БЕРЕМЕННОЙ ЖЕНЩИНЫ | 2016 |
|
RU2674700C2 |
Способ определения кариотипа плода беременной женщины на основании секвенирования гибридных прочтений, состоящих из коротких фрагментов внеклеточной ДНК | 2019 |
|
RU2717023C1 |
Предложенная группа изобретений относится к области медицины. Предложены способ, машиночитаемый носитель и система для определения генетической аномалии плода, которая представляет собой анеуплоидию. Из образца периферической крови беременной женщины получают последовательности множества полинуклеотидных фрагментов, соотносят их с хромосомами путем сравнения с референсной геномной последовательностью человека, вычисляют глубину покрытия и GC содержание хромосомы и сравнивают глубину покрытия хромосомы с аппроксимированной глубиной покрытия, где различие между ними указывает на анеуплоидию. Предложенная группа изобретений обеспечивает эффективные средства и методы для неинвазивного обнаружения анеуплоидии плода. 3 н. и 10 з.п. ф-лы, 21 ил., 1 табл., 1 пр.
1. Способ определения генетической аномалии плода, которая представляет собой анеуплоидию, который включает:
a) получение данных последовательности множества полинуклеотидных фрагментов из образца,
где указанный образец является пробой периферической крови, полученной у беременной женщины, содержащей как материнскую ДНК, так и эмбриональную ДНК;
b) отнесение указанных фрагментов к хромосомам на основе указанной информации о последовательности
путем сравнения последовательности фрагментов с референсной геномной последовательностью человека,
где референсная геномная последовательность используется для получения референсных уникальных чтений, где референсные уникальные чтения представляют собой уникальные полинуклеотидные фрагменты, которые отнесены к одному хромосомному положению на основании референсной геномной последовательности;
c) вычисление глубины покрытия и GC содержания хромосомы на основе указанной в стадии (b) информации о последовательности;
где глубина покрытия хромосомы представляет собой отношение между числом фрагментов, которые отнесены к хромосоме, и числом референсных уникальных чтений хромосомы;
d) вычисление аппроксимированной глубины покрытия указанной хромосомы с применением указанного GC содержания указанной хромосомы и установленного отношения между глубиной покрытия и GC содержанием указанной хромосомы,
где способ установления отношения между глубиной покрытия и GC содержанием хромосомы, включает:
(i) получение данных о последовательности множества полинуклеотидных фрагментов, покрывающих указанную хромосому и другую хромосому из более чем одного образца;
где указанный образец является образцом периферической крови, содержащим геномную ДНК;
(ii) отнесение указанных фрагментов к хромосомам на основе указанных данных последовательности;
(iii) вычисление глубины покрытия и GC содержания указанной хромосомы на основе указанных данных последовательности для каждого образца; и
(iv) определение отношения между глубиной покрытия и GC содержанием указанной хромосомы, и
е) сравнение указанной аппроксимированной глубины покрытия с указанной глубиной покрытия указанной в стадии (с) хромосомы, где различие между ними указывает на генетическую аномалию плода,
где генетической анамолией плода является хромосомная анеуплоидия.
2. Способ по п. 1, в котором стадия (а) дополнительно включает получение данных о последовательности множества полинуклеотидных фрагментов из образца,
где глубину покрытия нормализуют с учетом различий в общем количестве чтений последовательности, полученных для различных образцов,
где глубину покрытия нормализуют с учетом глубины покрытия другого положения хромосомы, другой хромосомы, среднего значения всех других хромосом или среднего значения всех хромосом.
3. Способ по п. 1 или 2, в котором на стадии (с) GC содержание хромосомы является средним GC содержанием всех фрагментов, которые отнесены к указанной хромосоме.
4. Способ по п. 2, дополнительно включающий определение пола плода в соответствии с формулой
в которой cr.ai,x и cr.ai,y нормализованы относительно покрытия X и Y, соответственно.
5. Способ по п. 2, где
сравнение указанной аппроксимированной глубины покрытия с указанной глубиной покрытия указанной в стадии (с) хромосомы проводится с применением статистического критерия проверки гипотезы, где одна гипотеза состоит в том, что плод является эуплоидным (Н0), а другая гипотеза состоит в том, что плод является анеуплоидным (H1).
6. Способ по п. 5, в котором статистика может быть вычислена для обеих гипотез и где статистика представляет собой t-статистику Стьюдента.
7. Способ по п. 6, в котором t-статистику Стьюдента вычисляют для Н0 и H1 согласно формулам
соответственно, где ƒxy является эмбриональной фракцией,
i обозначает образец,
j обозначает хромосому,
где ƒ(GCi,j) обозначает функцию отношения между глубиной покрытия и соответствующим GC содержанием образца i, хромосомы j, εi,j обозначает остаток для образца i, хромосомы j,
и представляет собой аппроксимированную глубину покрытия, и
stdj представляет собой стандартную вариацию согласно формуле
в которой ns обозначает число референсных образцов.
8. Способ по п. 7, где логарифмическое отношение вероятностей t1 и t2 вычисляют согласно следующей формуле:
где Li,j представляет собой логарифмическое отношение,
где степень относится к степени свободы t-распределения,
D относится к диплоидии,
Т относится к трисомии и
обозначает условную плотность вероятности с учетом степени t-распределения,
логарифмическое отношение >1 указывает на трисомию плода.
9. Способ по любому из пп. 1-8 для использования в определении у плода аутосомной анеуплоидии.
10. Способ по п. 9, в котором анеуплоидия плода выбрана из группы, состоящей из трисомии 13, 18 и 21.
11. Способ по п. 4 для использования в определении анеуплоидии половых хромосом, где анеуплоидия половых хромосом выбрана из группы, состоящей из ХО, XXX, XXY и XYY.
12. Машиночитаемый носитель для определения генетической аномалии плода, которая представляет собой анеуплоидию, содержащий множество инструкций для выполнения способа по любому из пп. 1-11.
13. Система для определения генетической аномалии плода, которая представляет собой анеуплоидию, содержащая средства для проведения способа по любому из пп. 1-11.
Приспособление для суммирования отрезков прямых линий | 1923 |
|
SU2010A1 |
Приспособление для суммирования отрезков прямых линий | 1923 |
|
SU2010A1 |
FAN H.C | |||
et al | |||
Sensitivity of Noninvasive Prenatal Detection of Fetal Aneuploidy from Maternal Plasma Using Shotgun Sequencing Is Limited Only by Counting Statistics | |||
PLoS One | |||
Приспособление для суммирования отрезков прямых линий | 1923 |
|
SU2010A1 |
Найдено из Интернет: URL: |
Авторы
Даты
2016-07-10—Публикация
2011-06-29—Подача