Область техники, к которой относится изобретение

Настоящее изобретение относится к секвенированию следующего поколения и идентификации олигонуклеотидов в способах мультиплексирования.

Уровень техники

Индексные последовательности, также называемые штрихкодами, обычно используются как короткие последовательности нуклеотидов, которые добавляются к фрагментам в библиотеке таким образом, чтобы фрагменты из одного образца ассоциировались с уникальным непустым набором штрихкодов. Это позволяет смешивать и секвенировать многочисленные образцы вместе, снижая затраты на секвенирование и увеличивая производительность (параллельное секвенирование или мультиплексирование). Эта процедура представлена на фиг. 1. В левой части фиг. 1 показаны три образца (эллипсоиды), каждый из которых содержит набор фрагментов (фигурные линии). Во время мультиплексирования штрихкоды BC1, BC2 и BC3 добавляются к фрагментам в образце один, два и три, соответственно, и фрагменты штрихкода смешиваются вместе. Таким образом, на фиг. 1 непустой набор штрихкодов, ассоциированных с образцом, состоит из одного штрихкода. Это наиболее распространенная ситуация при мультиплексировании, в результате которой между штрихкодами и образцами возникает взаимно однозначное соотношение. После секвенирования мультиплексированной библиотеки исследуется последовательность штрихкода каждого фрагмента. Если последовательность соответствует нуклеотидной последовательности штрихкода BC1, BC2 или BC3, нештрихкодовая последовательность фрагмента относится к образцу один, два и три, соответственно. Этот процесс присвоения последовательностей фрагментов образцам в соответствии с их ассоциированной последовательностью штрихкода называется демультиплексированием.

Синтез штрихкода, подготовка библиотеки и секвенирование могут внести ошибки в последовательность штрихкода, и поэтому демультиплексирование может привести к неправильному присвоению фрагментов образцам. Во избежание загрязнения образцов последовательностями фрагментов из других образцов, штрихкоды обычно разрабатываются таким образом, чтобы свести к минимуму вероятность преобразования друг в друга. Этого можно добиться, максимизируя количество изменений, необходимых для преобразования одного штрихкода в другой, или, другими словами, максимизируя расстояние между штрихкодами. Так как достижимое расстояние между штрихкодами увеличивается с уменьшением количества образцов, набор штрихкодов для эксперимента должен быть оптимизирован в зависимости от количества образцов в эксперименте. Расстояние между штрихкодами можно дополнительно увеличить за счет увеличения длины штрихкода. Однако это происходит за счет уменьшения длины секвенируемого фрагмента, так как ограничено общее количество секвенированных нуклеотидов для штрихкода и фрагмента. Следовательно, длина штрихкода для эксперимента должна быть выбрана таким образом, чтобы требуемый уровень перекрестного загрязнения был достигнут без ненужной потери длины последовательности фрагментов.

Если расстояние между штрихкодами является достаточно большим, незначительные ошибки все же могут привести к присвоению, которое, вероятно, является правильным. Они называются штрихкодами с исправлением ошибок и обычно используют способ оценки расстояния, который очень напоминает количество изменений нуклеотидов, которые могут произойти в физическом образце (смотри, например, Buschmann et al. [1], Hawkins et al. [3], WO 2016/018960 А1). Другие подходы, которые решают другие проблемы, которые могут помешать правильному присвоению, такие как скачкообразный переход индекса, представляют собой использование двойных индексов (смотри MacConaill [5] и WO 2018/136248 A1).

В документе WO 2018/204423 A1 раскрыт цветовой баланс индексных последовательностей путем спаривания A и C с G и T (или U).

В документе WO 2011/100617 A1 раскрыты индексные последовательности, которые не имеют 4 или более смежных идентичных подблоков.

Сущность изобретения

Несмотря на различные попытки улучшить штрихкоды, остается потребность в создании олигонуклеотидов с улучшенной индексной последовательностью, которые имеют оптимальную различимость, позволяющую выполнять присвоение даже в случае ошибок. Эти штрихкоды должны максимизировать эту различимость для имеющегося образца, используемого практикующим специалистом, но при этом допускать компромисс с эффективностью, учитывая повышенные усилия и затраты на каждый нуклеотид, который необходимо секвенировать.

В настоящем изобретении предложен набор олигонуклеотидов, содержащих индексные последовательности, причем набор содержит множество поднаборов олигонуклеотидов с разными индексными последовательностями,

где индексные последовательности поднабора олигонуклеотидов отличаются друг от друга по меньшей мере ненулевым количеством изменений последовательностей;

и где набор содержит по меньшей мере 2 иерархических уровня поднаборов,

где индексные последовательности поднабора более высокого уровня являются элементами поднабора более низкого уровня, и где индексные последовательности поднабора более низкого уровня отличаются друг от друга меньшим минимальным количеством изменений последовательностей по сравнению с индексными последовательностями поднабора более высокого уровня; и где олигонуклеотиды присваиваются одному или нескольким поднаборам.

Настоящее изобретение дополнительно предоставляет способ выработки набора олигонуклеотидов, содержащего множество поднаборов олигонуклеотидов с поднабором индексных последовательностей, содержащий этапы выработки первого поднабора олигонуклеотидов с индексными последовательностями с первым секвенциальным расстоянием друг от друга в пределах первого поднабора, где секвенциальное расстояние представляет собой количественную величину изменений последовательностей, которая преобразует одну последовательность в другую, или монотонно убывающую функцию вероятности изменений последовательностей, которая преобразует одну последовательность в другую, вырабатывая второй поднабор путем включения первого поднабора и добавления дополнительных олигонуклеотидов с индексными последовательностями со вторым секвенциальным расстоянием друг от друга в пределах второго поднабора, где второе секвенциальное расстояние является меньшим секвенциальным расстоянием, чем первое секвенциальное расстояние.

Настоящее изобретение дополнительно предоставляет способ присвоения секвенирующих прочтений образцу олигонуклеотидов, содержащий этапы

а) получение образцов олигонуклеотидов из множества образцов,

b) выбор поднабора олигонуклеотидных индексных последовательностей из набора согласно изобретению, где поднабор выбирается вместо другого поднабора на основе большего секвенциального расстояния между индексными последовательностями друг от друга в пределах выбранного поднабора; где секвенциальное расстояние представляет собой количественную величину изменений последовательностей, которая преобразует одну последовательность в другую, или монотонно убывающую функцию вероятности изменений последовательностей, которая преобразует одну последовательность в другую, и где выбранный поднабор имеет по меньшей мере такое же количество различных индексных последовательностей, как и количество образцов на этапе а), с) добавление индексных последовательностей из упомянутого поднабора в каждый олигонуклеотид образца, где индексные последовательности указывают на образец, d) определение последовательности образцовых олигонуклеотидов или фрагментов образцовых олигонуклеотидов и определение индексной последовательности, e) присвоение последовательности с полученным прочтением образцу на основе определенной индексной последовательности или на основе индексной последовательности, которая имеет наименьшее секвенциальное расстояние до определенной индексной последовательности, где, если две или более индексных последовательностей имеют одинаковое наименьшее расстояние, то упомянутое полученное прочтение отбрасывается; где при необходимости секвенциальное расстояние не превышает заданного значения согласно критерию.

Последующее подробное описание и предпочтительные варианты осуществления применимы ко всем аспектам изобретения и могут комбинироваться друг с другом без ограничений, за исключением случаев, когда это явно указано. Например, набор согласно изобретению может быть получен способом выработки; набор может быть подходящим для способа присвоения секвенирующих прочтений. Предпочтительные варианты осуществления и аспекты определены в формуле изобретения.

Краткое описание чертежей

Фиг. 1 - мультиплексирование, секвенирование и демультиплексирование. Фрагменты (фигурные линии) в трех образцах (эллипсоиды) отмечены индексными последовательностями BC1, BC2 и BC3.

Фиг. 2 - вложенные наборы штрихкодов. Меньшие наборы индексных последовательностей (поднаборы более высокого уровня) содержатся в более крупных наборах индексных последовательностей (поднаборах более низкого уровня). Увеличение размера набора штрихкодов уменьшает расстояние между штрихкодами.

Фиг. 3 - вложенные последовательности штрихкодов. Расширение индексных последовательностей увеличивает расстояние между штрихкодами и сохраняет вложенную структуру наборов индексных последовательностей.

Фиг. 4 - схема алгоритма динамического программирования для вычисления расстояний Левенштейна.

Фиг. 5 - схема вычисления обратной вероятности.

Фиг. 6 - распределение B₁, B₂, B₃, B₄ на 8x12-луночном планшете.

Фиг. 7 - схема последовательности считывания и индексирования для двойной индексации (i7/i5).

Фиг. 8 - позиционное распределение нуклеотидов для B_1C |B₁| = 4.

Фиг. 9 - позиционное распределение нуклеотидов для B_2C |B₂| = 8.

Фиг. 10 - позиционное распределение нуклеотидов для B_3C |B₃| = 16.

Фиг. 11 - позиционное распределение нуклеотидов для B_4C |B₄| = 24.

Фиг. 12 - матрица подсчета для эксперимента с двойным индексом, в ходе которого измеряется перекрестное загрязнение, зависящее от поставщика синтеза.

Подробное описание изобретения

Используемый в данном документе термин «штрихкод» относится к «индексной последовательности», которая представляет собой последовательность нуклеотидов, способную и используемую для идентификации последовательностей (обычно в олигонуклеотидах или их секвенирующих прочтениях), которые помечены этими индексными последовательностями. В наборах и поднаборах согласно изобретению эти индексные последовательности включены в олигонуклеотиды, и, таким образом, олигонуклеотиды имеют нуклеотидную последовательность упомянутой индексной последовательности. Олигонуклеотиды могут содержать дополнительные нуклеотиды или не содержать их. Обычно олигонуклеотиды используются для мечения других нуклеиновых кислот образца путем присоединения, и, таким образом, полученный олигонуклеотид имеет больше нуклеиновых кислот. Кроме того, можно также метить другие фрагменты, такие как белки, такие как антитела или ферменты, или гранулы или частицы, такие как наночастицы, или клетки или химические соединения, такие как лекарства, путем присоединения к ним.

Настоящее изобретение предоставляет набор олигонуклеотидов, содержащих индексные последовательности, причем набор содержит множество поднаборов олигонуклеотидов с разными индексными последовательностями. Индексные последовательности поднабора олигонуклеотидов отличаются друг от друга по меньшей мере ненулевым количеством изменений последовательностей. Такие изменения последовательности можно оценивать секвенциальным расстоянием, как будет более подробно описано ниже. Используя терминологию секвенциального расстояния, можно также утверждать, что секвенциальное расстояние индексных последовательностей не равно нулю. Это расстояние может быть равным 1 или более в расстояниях, которые указаны как целые числа или ненулевая дробь или функция дроби (например, вероятности изменения последовательности). Набор содержит по меньшей мере 2 (то есть 2 или более) иерархических уровня поднаборов, где индексные последовательности поднабора более высокого уровня являются элементами поднабора более низкого уровня. Это означает, что набор содержит первый поднабор и по меньшей мере один дополнительный (второй или более) поднабор, который содержит элементы первого поднабора. Первый поднабор считается поднабором более высокого уровня, и когда термин «первый» представляет собой первый из всех поднаборов, даже самый высокий поднабор. Это означает, что поднаборы более низкого уровня содержат больше элементов (индексов последовательностей), чем поднаборы более высокого уровня. При включении большего количества элементов расстояние между всеми этими элементами (минимальное расстояние или наименьшее расстояние) уменьшается, если длина индексной последовательности остается неизменной. Соответственно, в наборе согласно изобретению индексные последовательности поднабора более низкого уровня отличаются друг от друга меньшим минимальным количеством изменений последовательностей по сравнению с индексными последовательностями поднабора более высокого уровня.

Термин «минимальное количество изменений последовательностей» относится к наименьшему количеству изменений последовательностей, которое присутствует для всех возможных изменений последовательностей между любыми двумя элементами поднабора.

Олигонуклеотиды набора присваиваются одному или нескольким поднаборам. Это означает, что пользователь знает, к какому поднабору принадлежит каждая индексная последовательность (или олигонуклеотид). Такое присвоение можно осуществить физически, например, путем помещения олигонуклеотидов в контейнеры, которые помечены или упорядочены в соответствии с присвоением поднабора.

Структура поднабора согласно изобретению также называется «вложенными наборами», так как один поднабор вложен в другой поднабор (или является его элементом). Например, индексные последовательности первого поднабора могут содержаться в упомянутом первом поднаборе, а также во втором поднаборе, к которому также принадлежат дополнительные индексные последовательности, не найденные в первом поднаборе.

Эта вложенная иерархия поднаборов позволяет предоставлять несколько поднаборов индексных последовательностей, которые имеют разные размеры. Под «размером поднабора» понимается количество различных индексных последовательностей в упомянутом поднаборе. Эти поднаборы различных размеров позволяют избежать множественных наборов физических штрихкодов для различных их применений в зависимости от потребности в разных размерах. Практикующий специалист, который использует вложенные наборы согласно изобретению, может выбирать из ряда поднаборов, чтобы соответствовать требованиям практикующего специалиста к размеру, например количеству образцов, которые должны быть индивидуально помечены индексными последовательностями. Выбирая поднабор более высокого уровня - насколько это возможно в зависимости от требований к размеру из-за количества образцов - практикующий специалист может оптимизировать расстояние между индексными последовательностями и, таким образом, повысить качество присвоения помеченных объектов, таких как прочтения или фрагменты последовательности, образцу.

Качество присвоения по существу означает конфиденциальность присвоения и возможность присвоить определенную индексную последовательность образцу, даже если эта определенная последовательность не идентична индексным последовательностям упомянутого образца, например, путем присвоения упомянутой расходящейся определенной последовательности образцу, если он имеет наименьшее расстояние до правильной индексной последовательности этого образца (исправление ошибок) по сравнению с другими индексными последовательностями других образцов. Этот тип исправления ошибок известен в технике - смотри ссылку [1]. Термин «индексная последовательность этого образца» означает безошибочную индексную последовательность, которая была присвоена образцу практикующим специалистом, например, путем связывания олигонуклеотидов с индексной последовательностью с образцовыми нуклеиновыми кислотами. Таким образом, качество присвоения является свойством для оценки неправильного присвоения и перекрестного загрязнения.

Еще одним аспектом, влияющим на качество присвоения, помимо предоставления размеров поднаборов для соответствия потребностям образца, является длина индексной последовательности. Для некоторых простых образцов или надежных измерительных установок требуется лишь небольшое расстояние между индексными последовательностями, в то время как для других более сложных образцов или подверженных ошибкам измерительных установок требуются большие расстояния. Так как определение каждого нуклеотида индексной последовательности увеличивает стоимость (особенно в способах крупномасштабного мультиплексирования), поэтому желательно измерять только такое количество нуклеотидов индексной последовательности, которое необходимо или приемлемо для данного применения. Чтобы также удовлетворить потребность в гибком выборе длин индексных последовательностей, в предпочтительных вариантах осуществления изобретения предусмотрены индексные последовательности, которые также полезны тогда, когда для присвоения используется только часть индексной последовательности или усеченная индексная последовательность. Для решения этой задачи эти усеченные индексные последовательности корректируются в пределах поднабора, чтобы поддерживать надежное расстояние.

Усеченные индексные последовательности представляют собой части индексных последовательностей, которые подходят для поддержания желаемого расстояния друг от друга усеченными индексными последовательностями одного и того же поднабора. Это свойство, присущее части более крупной последовательности, также называется «вложенной последовательностью», относящейся к последовательности внутри последовательности. Это не следует путать с упомянутыми выше вложенными поднаборами, которые относятся к поднаборам внутри других поднаборов.

Свойства усеченной, вложенной индексной последовательности позволяют использовать всю индексную последовательность в экспериментах, которые могут быть удовлетворены более короткими индексными последовательностями, а также использовать в экспериментах, которым требуются более длинные индексные последовательности. Таким образом, практикующему специалисту нужен только один такой универсальный набор. На практике для эксперимента пользователь обычно выбирает штрихкоды из наименьшего из вложенных наборов, превышающих количество образцов, и секвенирует столько нуклеотидов штрихкодов (индексных последовательностей), сколько необходимо для достижения требуемого (низкого) уровня перекрестного загрязнения. Вложенные наборы штрихкодов получают увеличение расстояния между штрихкодами для меньших наборов и для более длинных последовательностей. Это гарантирует то, что пользователь всегда выберет оптимальную конфигурацию среди всех возможных комбинаций вложенных наборов и последовательностей.

Соответственно, в вариантах изобретения каждая индексная последовательность поднабора содержит усеченную индексную последовательность, и усеченные индексные последовательности по меньшей мере одного поднабора отличаются по меньшей мере ненулевым количеством изменений друг от друга усеченной индексной последовательности (расстоянием между штрихкодами) в упомянутом поднаборе.

Предпочтительно, чтобы минимальное количество изменений последовательностей между усеченными индексными последовательностями поднабора было больше, чем минимальное количество изменений последовательностей индексных последовательностей в поднаборе за вычетом разности между индексными последовательностями и усеченными индексными последовательностями, или в другой более общей формулировке предпочтительно, чтобы секвенциальное расстояние (которое поясняется в данном документе) между усеченными индексными последовательностями поднабора было больше, чем секвенциальное расстояние индексных последовательностей в поднаборе, за вычетом разности между длиной индексных последовательностей и усеченными индексными последовательностями. Эта формулировка по существу означает, что нуклеотиды, которые не учитываются в индексной последовательности для получения усеченной индексной последовательности (выраженной в виде разности длин), не должны быть сильными определителями секвенциального расстояния, и это означает, что оставшиеся нуклеотиды в усеченных индексных последовательностях имеют сильное влияние на секвенциальное расстояние. Обычно такая структура в пределах (вложенной) индексной последовательности устанавливается заранее и сообщается практикующему специалисту, чтобы практикующий специалист знал, какие нуклеотиды должны быть определены в качестве усеченной индексной последовательности. Предпочтительно, чтобы усеченная индексная последовательность состояла из непрерывных нуклеотидов индексной последовательности. Особенно предпочтительно, чтобы укороченная индексная последовательность содержала конец 3' или 5' индексной последовательности.

Что касается вложенных поднаборов, концепция усеченных индексных последовательностей может применяться несколько раз, предоставляя несколько последовательностей вложенных индексов. Это означает, что можно получить более одного уровня усечения. В случае нескольких этапов усечения каждая усеченная индексная последовательность имеет определенное расстояние друг от друга с другой усеченной индексной последовательностью того же самого уровня в пределах поднабора. Может быть 1, 2, 3, 4, 5 или более уровней усеченных индексных последовательностей, из которых 2 являются предпочтительными, так как они могут быть хорошо приспособлены к обычным длинам индексных последовательностей.

Конечно, вложенные последовательности могут быть объединены со структурой вложенного набора. Структура уровней для поднаборов остается прежней. Таким образом, усеченные индексные последовательности поднабора более высокого уровня являются элементами усеченных индексных последовательностей поднабора более низкого уровня. Из-за различий в размерах поднаборов усеченные индексные последовательности поднабора более низкого уровня могут отличаться меньшим минимальным количеством изменений последовательностей друг от друга, чем усеченные индексные последовательности поднабора более высокого уровня.

Существуют различные способы определения секвенциального расстояния, как описано в ссылках, упомянутых выше в разделе «Уровень техники». Можно использовать любой из этих способов. В частности, согласно изобретению изменения последовательности предпочтительно выбирают из нуклеотидных замен, делеций и вставок. Минимальное количество изменений последовательностей соответствует минимальному количеству этих изменений последовательностей, необходимых для замены любой индексные последовательности на другую индексную последовательность. Может существовать множество путей для замены одной последовательности на другую, тогда как «расстояние» относится к кратчайшим путям, то есть с наименьшими (минимальными) изменениями. Это может быть один путь или несколько путей, если несколько путей имеют одинаковое минимальное расстояние. Дополнительный вариант расстояния, который можно использовать согласно изобретению для количественной оценки величины изменений последовательностей, которая преобразует одну последовательность в другую, представляет собой сумму отдельных расстояний отдельных путей изменений, которые преобразуют одну последовательность в другую. Такую сумму можно использовать для всех путей данного изменения. Пути должны быть прямыми путями от одной последовательности к другой без обходных путей, таких как изменения, которые нейтрализуют друг друга.

Секвенциальные расстояния, описанные в данной области техники (смотри раздел «Уровень техники»), представляют собой, например, расстояние Хэмминга, расстояние Левенштейна или расстояние Левенштейна между последовательностями (Sequence-Levenshtein distance). Эти расстояния можно использовать согласно изобретению для количественной оценки расстояния или определения величины (или количества) изменений последовательностей, которая преобразует одну последовательность в другую. Расстояние Хэмминга - это по существу подсчет замен. Расстояние Левенштейна рассчитывается с использованием вставок, делеций (вместе «инделов») и замен. Предпочтительно использовать расстояние Левенштейна между последовательностями (ссылка [1]). Расстояние Левенштейна между последовательностями - это вариант расстояния Левенштейна, который также учитывает вставки и замены, но сохраняет длину индекса всякий раз, когда происходит вставка или делеция. Это означает, что вставка и делеция будут считаться не более чем одним изменением. Делеция может и не привести к изменению в том случае, если удален последний нуклеотид в последовательности, и следующий нуклеотид вне рамки, который теперь перемещается в рамку, идентичен удаленному нуклеотиду. Аналогичным образом, вставка идентичного нуклеотида в последний нуклеотид в последовательности может не проявляться как изменение и не приводить к появлению расстояния. В отличие от этого, расстояние Левенштейна рассматривает делецию в контексте олигонуклеотидной последовательности, где за индексной последовательностью следуют другие нуклеотиды (такие как адаптер или произведенное прочтение) как два изменения: первое - удаление удаленного нуклеотида, и второе - смещение следующего нуклеотида в рамку индекса последовательности, так как сравнивается вся длина индекса последовательности, и это смещение считается еще одним различием между сравниваемыми последовательностями (смотри [3], фиг. 1 для различий между расстоянием Хэмминга, расстоянием Левенштейна и расстоянием Левенштейна между последовательностями). Другими терминами для расстояния Левенштейна между последовательностями являются расстояние FREE Левенштейна, модифицированное расстояние Левенштейна или расстояние Левенштейна с фиксированной рамкой (расстояние Левенштейна ff). Например, ссылаясь на пример в дополнении к ссылке [3], в котором расстояние Левенштейна между последовательностями называется «FREE-дивергенция», последовательности TAGA и ACGC имеют расстояние, равное 3, в соответствии со следующими изменениями:

где «ins.» - вставка, «sub.» - замена и «del.» -делеция (каждое из которых также упоминается как «редакции» или «изменения»); вертикальные черты («|») показывают конец рамки штрихкода, хотя этап усечения не произойдет до тех пор, пока не будут внесены все фактические изменения. Эти смещения по длине рамки приводят к нарушению неравенства треугольника. Способы определения расстояния, которые не учитывают эти смещения за пределы и внутрь рамки индексной последовательности (или усеченной индексной последовательности), могут привести к определению расстояния, которое не отражает фактические изменения при преобразовании одной последовательности в другую. В этом примере расстояние между TAGA и TACG будет равно 1 (вставка C); как и расстояние между TACG и ACGC (делеция T со смещением 3'C в рамку). Однако расстояние между TAGA и ACGC не равно 1+1=2, а равно 3, как показано выше (нарушение неравенства треугольника). Здесь вне рамки происходит подстановка, которая может учитываться в одних способах определения расстояния, но не учитываться в других. Хотя работают оба типа измерений расстояния, так как они дают сравнимое указание расстояния между последовательностями, некоторые оценки расстояния, используемые согласно изобретению, используют изменения последовательности вне рамки индексной последовательности (или усеченной индексной последовательности), которые смещаются в рамку индексной последовательности (или усеченной индексной последовательности) для более близкого сходства с естественными процессами преобразования одной последовательности в другую (по разным причинам, таким как вставки, делеции и замены во время выполнения способов секвенирования). Это было бы дополнительным этапом для вышеупомянутого расстояния Хэмминга, расстояния Левенштейна и расстояния Левенштейна между последовательностями. С другой стороны, расстояние Левенштейна между последовательностями (фиксированная рамка) имеет процедурные преимущества и является предпочтительным способом. Затем на этапах исправления ошибок обычно рассматривается возможное нарушение неравенства треугольника (что означает, что сумма частичных расстояний не обязательно равна полному расстоянию). Другой последовательностью вне рамки индексной последовательности, которую можно считать аналогичной нуклеотидам со смещением рамки самой индексной последовательности, являются нуклеотиды или последовательности, следующие за индексной последовательностью. Они могут быть известны, например, в случае последовательности адаптера, которая следует за индексной последовательностью.

В общем, во всех вариантах осуществления изобретения изменения последовательности могут быть количественно определены как секвенциальное расстояние, которое представляет собой количество замен нуклеотидов или вероятность изменений. Каждое возможное изменение можно рассчитать либо как целое число, либо как его вероятность. Такая вероятность может зависеть от платформы, или может использоваться заданная вероятность, например, исходя из средних значений. Например, вероятность может быть выведена из частот естественных мутаций, которые, например, происходят в секвенаторе. Например, вероятности замен, вставок и делеций могут составлять 0,002, 0,00002 и 0,0005, соответственно, в этом порядке.

В предпочтительных вариантах осуществления изобретения вероятность изменений равна максимальной вероятности или сумме вероятностей. В некоторых случаях несколько серий изменений (называемых также «путями») могут привести к преобразованию одной (индексной) последовательности в другую. В таком случае путь с наибольшей (максимальной) вероятностью может предоставить подходящую оценку в качестве секвенциального расстояния. В качестве альтернативы, можно сложить вероятности нескольких путей, чтобы получить сумму вероятностей, которая также является подходящей оценкой для использования в качестве секвенциального расстояния. Предпочтительно использовать сумму вероятностей изменений нуклеотидов, которые преобразуют одну последовательность в другую.

Следует отметить, что взаимность между сравнением вероятностей и целочисленным количеством изменений последовательностей является обратной, тогда как большое количество изменений последовательностей соответствует большому расстоянию; в этом случае низкая вероятность коррелирует с большим расстоянием (а высокая вероятность коррелирует с маленьким расстоянием). Соответственно, ссылаясь на взаимосвязь уровней, как упомянуто выше, индексные последовательности поднабора более низкого уровня отличаются более высокой вероятностью изменения последовательностей друг от друга, чем индексные последовательности поднабора более высокого уровня. Кроме того, усеченные индексные последовательности поднабора более низкого уровня могут также отличаться более высокой вероятностью изменения последовательности, чем усеченные индексные последовательности поднабора более высокого уровня.

Конечно, для сохранения одного и того же направления соотношения (выше-выше; ниже-ниже) можно использовать функцию вероятности, которая меняет порядок или направленность вероятности. Такие функции являются монотонно убывающими функциями вероятности. Конечно, это просто еще одно представление вероятности, и соотношения основных вероятностей (или средних или сумм) остаются прежними. Тем не менее, в предпочтительных вариантах осуществления вероятность изменений количественно определяется с помощью монотонно убывающей функции вероятности. Такой функцией является, например, отрицательный логарифм или отрицательная вероятность (меняющая свой знак, порядок или направление), например, в 1-P (где P - вероятность, включающая в себя среднее или максимальное значение, как указано выше). Предпочтительно вероятность оценивается как такая монотонно убывающая функция от максимальной вероятности или суммы вероятностей, предпочтительно суммы вероятностей, изменений нуклеотидов, которые преобразуют одну последовательность в другую. Такие изменения нуклеотидов могут представлять собой серию изменений, если для преобразования одной последовательности в другую требуется более одного изменения.

В таком случае изменения соотношений уровней с индексными последовательностями поднабора более низкого уровня отличаются более низкой монотонно убывающей функцией вероятности изменений последовательностей друг от друга, чем индексные последовательности поднабора более высокого уровня. Кроме того, усеченные индексные последовательности поднабора более низкого уровня могут также отличаться более низкой монотонно убывающей функцией вероятности изменения последовательности, чем усеченные индексные последовательности поднабора более высокого уровня.

Набор согласно изобретению (и то, как он выбирается в способе согласно изобретению) предпочтительно определяется соотношением расстояний между индексными последовательностями поднабора, где расстояние Левенштейна между последовательностями, то есть расстояние между индексными последовательностями поднабора более высокого уровня, больше не менее чем на 1, предпочтительно на 2, 3, 4, 5, 6, 7 или более, чем расстояние Левенштейна между последовательностями, то есть расстояние между индексными последовательностями поднабора более низкого уровня.

При использовании других расстояний можно также указать, что расстояние Левенштейна между индексными последовательностями поднабора более высокого уровня больше не менее чем на 1, предпочтительно на 2, 3, 4, 5, 6, 7 или более, чем расстояние Левенштейна между индексными последовательностями поднабора более низкого уровня; или расстояние Хэмминга между индексными последовательностями поднабора более высокого уровня больше не менее чем на 1, предпочтительно на 2, 3, 4, 5, 6, 7 или более, чем расстояние Хэмминга между индексными последовательностями поднабора более низкого уровня.

При использовании суммы вероятностей или максимальной вероятности (со значениями в диапазоне от 0 до 1) предпочтительно, чтобы сумма вероятностей или максимальная вероятность преобразования одного индекса последовательности в другой в поднаборе более низкого уровня была больше не менее чем на 0,00001, предпочтительно не менее 0,0001, или не менее 0,001, или более, чем вероятность между индексными последовательностями поднабора более высокого уровня. Эта разность суммы вероятностей или максимальной вероятности между уровнями может зависеть от используемой платформы и может составлять от 0,00001 до 0,9. Если логарифм по основанию «е» (натуральный логарифм) используется для того, чтобы -log(P) использовался для определения разности расстояний между уровнями, то значение предпочтительно находится в диапазоне от 0,1 до 10.

Для абсолютных расстояний в пределах уровня предпочтительно, чтобы расстояние Левенштейна между последовательностями между индексными последовательностями поднабора самого высокого уровня составляло не менее 4, например 4, 5, 6, 7, 8 или более. Затем следующий более низкий уровень будет в том случае, когда разность между уровнями, равная 1, будет иметь расстояние Левенштейна между последовательностями между индексными последовательностями не менее 3 и так далее для следующих уровней. То же самое относится и к другим целочисленным расстояниям (Левенштейна, Хэмминга). Предпочтительно, чтобы поднабор самого низкого уровня в наборе имел расстояние Левенштейна между последовательностями, Левенштейна или Хэмминга между его индексными последовательностями не менее 1, предпочтительно 2 или 3.

Так как более длинные индексные последовательности допускают большие расстояния, предпочтительно обеспечивать минимальную длину. Конечно, более короткие индексные последовательности также имеют преимущество, то есть более низкие затраты, как упоминалось выше. Таким образом, выбирается компромисс. Предпочтительно индексные последовательности имеют длину не менее 4, например 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16 нуклеотидов в смежной последовательности. Особенно предпочтительной является длина нуклеотидов, равная не менее 6. Поднабор самого высокого уровня также является самым маленьким (наименьшее количество элементов). Каждый последующий поднабор более низкого уровня имеет больше элементов, но обычно меньшие расстояния. В предпочтительных вариантах осуществления поднабор самого высокого уровня содержит не менее 2, например 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 или более различных индексных последовательностей. Предпочтительно он содержит не менее 4-х различных индексных последовательностей.

Важно, чтобы структура поднабора была видна практикующему специалисту, то есть, чтобы индексные последовательности относились к поднабору, которому они принадлежат. Например, олигонуклеотиды (с индексной последовательностью) могут быть отнесены к поднабору путем помещения в контейнер, который помечен идентификатором поднабора. Идентификатор может быть размещен на контейнере или на носителе информации, например, в руководстве, в электронном или физическом виде. Контейнер может представлять собой лунку в луночном планшете.

В дополнительных предпочтительных вариантах осуществления, последовательности индексных последовательностей могут быть оптимизированы, например, для лучшей стабильности или возможности секвенирования. Распространенными концепциями являются оптимизация содержания GC и/или избежание нуклеотидных повторов. Особенно предпочтительной является балансировка распределения всех нуклеотидов генетического кода по различным индексным последовательностям в пределах поднабора. Нуклеотидами генетического кода являются A, T или U, G, C. Обычно используется один из T и U, причем преимущественно используется T, поэтому «T или U» также записывается как «T (U)». Таким образом, в индексной последовательности обычно находятся 4 различных типа нуклеотидов. T находится в DNA, U в RNA. Олигонуклеотиды могут представлять собой, например, ДНК или РНК и/или содержать модифицированные нуклеотиды, такие как LNA.

Предпочтительно индексные последовательности имеют содержание G/C от 20% до 80%, или от 30% до 70% или даже от 40% до 60%.

Предпочтительно индексные последовательности не содержат повторов одного и того же нуклеотида длиной не менее 3, то есть не содержат гомополимерных троек.

Предпочтительно избегать последовательности GGC в некоторых установках, особенно для секвенирования на основе Illumina, так как это мотив ошибки на основе Illumina (ссылка [3]).

Особенно предпочтительно, чтобы индексные последовательности поднабора имели сбалансированное распределение нуклеотидов, где количество совместно используемых нуклеотидов в одной и той же позиции в индексных последовательностях между различными индексными последовательностями не превышает 0,5-кратного количества индексных последовательностей в упомянутом поднаборе. В этом критерии используется сумма (количество совместно используемых нуклеотидов на позицию), и она сравнивается, соответственно, ее с кратным (например, 0,5) числом индексных последовательностей в поднаборе (размером поднабора). Количество совместно используемых нуклеотидов в одной и той же позиции означает, что для каждой позиции, например, нуклеотида (nt) 1, nt 2, nt 3 и т.д., тип нуклеотида (A, T(U), G или C) подсчитывается по всем индексным последовательностям. Таким образом, когда рассматривается больше индексных последовательностей, число увеличивается. Следовательно, значение критерия (0,5 или ниже, например, от 0 до 0,5) также умножается на количество рассматриваемых индексных последовательностей. Это эквивалентно использованию средних значений, соответствующих частотам, которые сравниваются со значением 0,5 в качестве предпочтительной максимальной частоты. Это означает, что количество совместно используемых нуклеотидов в одной и той же позиции затем делится на количество рассматриваемых индексных последовательностей. Это среднее значение также называется частотой нуклеотидов (в расчете на одну позицию). Примеры таких частот для каждого нуклеотида показаны на фиг. 8-11. Идеально сбалансированные нуклеотиды означают, что каждый нуклеотид, выбранный из A, T(U), G, C, распределен равномерно, то есть частота составляет одну четверть или 0,25 для всех позиций. Однако такая оптимальная балансировка не всегда возможна, так как должен также выполняться критерий для секвенциального расстояния. Следовательно, необходимы отклонения купола от идеальной балансировки. Это значение может быть высоким для поднаборов с маленькими размерами, так как отклонение одной индексной последовательности от среднего значения может означать большее отклонение от 0,25 (например, на фиг. 8 показано распределение в поднаборе из 4 индексных последовательностей). Для больших поднаборов, как правило, можно приблизиться к желаемому значению 0,25. В предпочтительных вариантах осуществления это значение критерия или частота составляет 0,4 или менее, например, в диапазоне от 0,1 до 0,4, особенно предпочтительно для поднабора с размером 8 или более.

В качестве дополнения или альтернативы предпочтительно, когда при не менее 50% позиций индексных последовательностей частота нуклеотидов для всех индексных последовательностей поднабора для каждого типа нуклеотидов составляет 0,5 или менее, например, от 0 до 0,5, предпочтительно составляет 0,4 или менее, например от 0,1 до 0,4.

Конкретные предпочтительные варианты осуществления наборов согласно изобретению содержат индексные последовательности (или олигонуклеотиды, содержащие эти индексные последовательности), выбранные из любой из SEQ ID NO: 1-784, предпочтительно из SEQ ID NO: 1-208. В наборе содержатcя предпочтительно не менее 10, предпочтительно не менее 15, не менее 20, не менее 30, не менее 40, не менее 50, не менее 60, не менее 70, не менее 80 из SEQ ID NO: от 1 до 784, предпочтительно из SEQ ID NO: от 1 до 208.

Настоящее изобретение дополнительно предоставляет способ выработки набора олигонуклеотидов согласно изобретению, содержащего множество поднаборов олигонуклеотидов с поднабором индексных последовательностей. Все, что раскрыто для набора, также применимо к способу, например, получен набор с этими параметрами или параметры используются и выбираются в способе, таком как раскрытые способы определения секвенциального расстояния.

Способ содержит этапы выработки поднабора олигонуклеотидов первого или более высокого уровня с индексными последовательностями с секвенциальным расстоянием первого или более высокого уровня применительно друг к другу в пределах поднабора первого или более высокого уровня, где секвенциальное расстояние представляет собой количественную величину изменений последовательностей, которая преобразует одну последовательность в другую, или монотонно убывающая функция вероятности изменений последовательностей, которая преобразует одну последовательность в другую, как указано выше, вырабатывая поднабор второго или более низкого уровня путем включения поднабора первого или более высокого уровня и добавления дополнительных олигонуклеотидов с индексными последовательностями с секвенциальным расстоянием другу в пределах поднабора второго или более низкого уровня, где секвенциальное расстояние второго или более низкого уровня меньше, чем секвенциальное расстояние первого или более высокого уровня.

Термины «поднабор более высокого уровня» и «первый поднабор» могут использоваться как синонимы и относиться к относительной взаимосвязи между поднаборами. Преимущество использования числовых значений состоит в том, что они также относятся к уровням, которые находятся ниже второго поднабора, например к третьему поднабору, который содержит индексы последовательности второго поднабора (и, следовательно, также первого) и дополнительные индексы последовательности. Следовательно, требования к их секвенциальному расстоянию, вероятно, будут ниже, чем для второго уровня. Эта установка соответствует набору, содержащему по меньшей мере 3 иерархических уровня поднаборов, что является предпочтительным вариантом осуществления для всех аспектов изобретения. 3 иерархических уровня по терминологии «более высоки-более низкий» означают, что существует первая взаимосвязь между более высоким (1-м) и более низким (2-м) уровнями, как уже отмечалось, и затем еще одна вторая взаимосвязь, где этот более низкий уровень (2-йуровень) становится более высоким уровнем для следующего более низкого уровня (3-гоуровня).

Набор согласно изобретению может иметь 2, 3, 4, 5, 6, 7, 8 или более иерархических уровней, то есть первый, второй, третий, четвертый, пятый, шестой, седьмой, восьмой или дополнительные уровни, где каждый поднабор уровней в этом порядке содержит индексные последовательности уровня поднабора до и после индексных последовательностей, как уже отмечалось для первого и второго уровня (или более высокого и более низкого уровня), соответственно.

В предпочтительных вариантах осуществления способ содержит выработку поднабора более низкого уровня путем включения поднабора более высокого уровня и добавления дополнительных олигонуклеотидов с индексными последовательностями с меньшим секвенциальным расстоянием друг от друга, чем для поднабора более высокого уровня в поднаборе более низкого уровня. Аналогичным образом, способ может содержать выработку третьего поднабора путем включения второго поднабора и добавления дополнительных олигонуклеотидов с индексными последовательностями с третьим секвенциальным расстоянием в пределах третьего поднабора, где третье секвенциальное расстояние является меньшим секвенциальным расстоянием, чем второе секвенциальное расстояние. По мере необходимости этот способ может применяться к любому другому иерархическому уровню поднаборов.

Этап выработки первого, второго (или следующего) поднабора индексных последовательностей может содержать для одного, или нескольких или каждого поднабора этап выбора индексных последовательностей из пула различных индексных последовательностей-кандидатов. Согласно данному варианту осуществления пул индексных последовательностей вырабатывается в качестве кандидатов для включения в поднаборы. Эти кандидаты обычно имеют желаемую длину индексных последовательностей, но не имеют выбранных секвенциальных расстояний в пуле кандидатов. Упомянутый пул содержит несколько индексных последовательностей-кандидатов в количестве, достаточном для заполнения поднабора. Обычно число по меньшей мере в два раза превышающее размер поднабора, предоставляется в качестве пула, чтобы гарантировать то, что доступно достаточное количество вариантов индексных последовательностей для обеспечения необходимых секвенциальных расстояний и при необходимости других критериев, описанных в данном документе, для поднабора. Предпочтительно пул индексных последовательностей имеет по меньшей мере в 2 раза, более предпочтительно в 3, 4, 5, 6, 7, 8, 9, 10 или более раз больше элементов, чем поднабор. Индексные последовательности пула могут быть случайными или могут удовлетворять некоторым другим критериям, таким как выбранное содержание GC, например, отсутствие тройных гомополимеров. Затем кандидаты добавляются в поднабор во время его построения, где соблюдаются критерии для секвенциальных расстояний (и другие критерии, такие как балансировка, если это необходимо). Если критерии не выполняются, то из пула выбираются другие индексы-кандидаты последовательности. Если этого недостаточно, могут быть выработаны и, соответственно, использованы новые индексы-кандидаты последовательности и/или новые пулы.

Предпочтительно выработка первого и/или второго поднабора (или дополнительных аналогичных поднаборов) содержит выбор индексных последовательностей, которые содержат усеченные индексные последовательности, и усеченные индексные последовательности по меньшей мере одного поднабора отличаются по меньшей мере ненулевым количеством изменений последовательностей от каждой другой усеченной индексной последовательности в упомянутом поднаборе. Ненулевое количество изменений последовательностей может представлять собой секвенциальное расстояние, равное 1, 2, 3, 4, 5, 6, 7, 8 или более, особенно предпочтительно расстояние Хэмминга, Левенштейна или Левенштейна между последовательностями, или вероятность изменений, как это указано выше. Предпочтительно усеченные индексные последовательности по меньшей мере одного поднабора отличаются по меньшей мере на количество изменений последовательностей, превышающее 1, от каждой другой усеченной индексной последовательности в упомянутом поднаборе. В отношении усеченных поднаборов применяется то же самое, как описано выше. Они позволяют использовать в способе присвоения секвенирующих прочтений только частичную последовательность (соответствующую усеченной последовательности), в то время как заданное требование к секвенциальному расстоянию между всеми усеченными последовательностями поднабора все еще выполняется, как описано выше.

В дополнительных предпочтительных вариантах осуществления корректируемые последовательности вырабатываются для индексной последовательности поднабора, где упомянутые корректируемые последовательности имеют секвенциальное расстояние, которое составляет менее половины секвенциального расстояния между индексными последовательностями упомянутого поднабора, и где корректируемые последовательности различных индексных последовательностей в упомянутом поднаборе не перекрываются. Такие корректируемые последовательности в индексных последовательностях также присутствуют в наборе согласно изобретению. Корректируемые последовательности - это последовательности, которые могут ассоциироваться только с одной индексной последовательностью. Это делает последовательность «корректируемой». Таким образом, корректируемая последовательность является представлением ошибочно определенной последовательности, которая имеет одну или несколько ошибок секвенирования, но когда эта последовательность является корректируемой, ее по-прежнему можно присвоить («декодировать») одной индексной последовательности. В способе выработки индексных последовательностей для поднабора в данном документе учитывается то, что вокруг каждой индексной последовательности существует множество корректируемых последовательностей, которые по-прежнему приводят к одному присвоению при использовании набора согласно изобретению. Это множество также называется «сферой декодирования», используя аналогию объема последовательностей с заданным расстоянием до индексной последовательности в центре сферы. Для того, чтобы выполнить присвоение одной (и только одной) индексной последовательности, расстояние должно быть меньше половины секвенциального расстояния между индексными последовательностями упомянутого поднабора. Это не всегда будет так, учитывая возможность нарушения упомянутого выше неравенства треугольника. Соответственно, поднабор может учитывать эту возможность отдельно для критерия расстояния между индексными последовательностями и максимизировать количество корректируемых последовательностей или уменьшать количество последовательностей, которые могут быть присвоены более чем одной, например, двум или более индексным последовательностям с равным (не корректируемым) расстоянием. Это также называется оптимизацией сферы декодирования, что означает уменьшение или минимизацию перекрытия двух или более таких сфер. Это можно сделать, выбрав различные индексные последовательности для данного поднабора.

В предпочтительном варианте выработка поднабора содержит выбор индексных последовательностей путем добавления индексной последовательности-кандидата и оценки секвенциального расстояния индексного расстояния-кандидата до всех других ранее существовавших индексных последовательностей в поднаборе. Индексная последовательность-кандидат добавляется к индексным последовательностям поднабора, если он удовлетворяет заданному требованию к секвенциальному расстоянию, такому как любое свойство секвенциального расстояния, как обсуждалось выше. Индексная последовательность-кандидат может быть или не может быть из вышеупомянутого пула. В общем, в данном варианте осуществления утверждается, что индексные последовательности-кандидаты добавляются поэтапно во время построения поднабора, где индексные последовательности добавляются одна за другой. Индексная последовательность-кандидат сравнивается с другими ранее существовавшими индексными последовательностями в поднаборе, если они существуют (очевидно, это не делается для первой индексной последовательности, добавленной в поднабор). Когда сравнение приводит к выполнению требования к расстоянию и, возможно, других требований, в поднабор добавляется кандидат индексные последовательности. Этот процесс может быть выполнен для других поднаборов или даже для поднаборов-кандидатов. Поднабор-кандидат рассматривается как поднабор, но может быть не включен в набор, если также вырабатываются другие поднаборы-кандидаты одного и того же размера. Затем обычно поднабор-кандидат добавляется в поднабор, если он лучше другого поднабора-кандидата. Улучшением может быть любой критерий, упомянутый выше, например улучшенная балансировка.

Такое требование к балансировке, которое предпочтительно выполняется, является любым из упомянутых выше, где индексная последовательность-кандидат предпочтительно содержит не менее 50% своих позиций типа нуклеотидов генетического кода с наименьшей частотой в соответствующей позиции в ранее существовавших индексных последовательностях поднабора. Этот критерий предпочтительно применяется по меньшей мере к 25% индексных последовательностей-кандидатов, которые добавляются в поднабор последними. Как упоминалось выше, оценка частоты не имеет смысла при рассмотрении только одной индексной последовательности и имеет небольшое значение для небольших поднаборов в процессе выработки, к которым добавляются дополнительные индексные последовательности или кандидаты. Балансировка лучше всего достигается тогда, когда поднабор имеет почти желаемый размер, например, когда он составляет 75% или более от своего размера, то есть на этом этапе оцениваются оставшиеся 25%. Особенно предпочтительно, когда по этому критерию оценивается последняя индексная последовательность, добавленная в поднабор.

В предпочтительных вариантах осуществления индексная последовательность-кандидат выбирается из пула индексных последовательностей-кандидатов, где элементы пула индексных последовательностей-кандидатов выполняют заданное требование к секвенциальному расстоянию для каждого другого элемента пула. Кроме того, индексная последовательность-кандидат пула добавляется к индексным последовательностям поднабора тогда, когда сумма расстояний частоты каждого типа нуклеотидов генетического кода до 0,25 в каждой позиции является наименьшей для индексной последовательности-кандидата по сравнению с другими индексными последовательностями-кандидатами в пуле. Расстояние частоты каждого типа нуклеотида генетического кода до 0,25 в каждой позиции может быть измерено как сумма абсолютных значений разности, или, что предпочтительнее, квадрата или возведенной в степень разности между частотой каждого нуклеотида и 0,25 в каждой позиции, или как мера вероятностного расстояния между частотой каждого нуклеотида и 0,25 в каждой позиции, где возможными мерами вероятностного расстояния будет дивергенция Кульбака-Лейблера или Дженсена-Шеннона. Это абсолютное значение разностей является еще одним предпочтительным вариантом балансировки, как обсуждалось выше. Частота 0,25 была бы оптимальной балансировкой (при выполнении для каждой позиции), но она редко достигается. Чем ближе частоты нуклеотидов индекса последовательности к 0,25, тем лучше сбалансирован поднабор.

Еще один предпочтительный критерий балансировки, используемый в способе (и обнаруженный в наборе), состоит в том, что по меньшей мере в 50% позиций индексных последовательностей частота нуклеотидов для всех индексных последовательностей поднабора для каждого типа нуклеотидов составляет 0,5 или менее. Предпочтительные варианты вариантов балансировки описаны выше.

В предпочтительных вариантах осуществления способ выработки набора согласно изобретению содержит выработку множества поднаборов-кандидатов, каждый из которых имеет заданное количество элементов (индексные последовательности). Эти конкурирующие поднаборы-кандидаты с одинаковым размером сравниваются друг с другом, и один из них выбирается для включения в набор, называемый поднабором. Способ предпочтительно содержит выбор поднабора-кандидата в качестве поднабора для набора, когда упомянутый поднабор-кандидат имеет наименьшее среднее значение по всем индексным последовательностям для соответствующего поднабора-кандидата суммы абсолютных значений разностей частот каждого типа нуклеотидов генетического кода в каждой позиции до 0,25. Так, для каждого поднабора-кандидата средние абсолютные значения разностей частот каждого типа нуклеотидов генетического кода до 0,25 для каждой позиции суммируются для всех его индексных последовательностей. Поднабор-кандидат, который имеет более низкое значение (то есть меньшее различие означает лучшую сбалансированность - смотри выше), выбирается для включения в поднабор. Предпочтительно, чтобы поднабор-кандидат выбирался с наименьшим значением. Если учитывать и другие критерии, балансировка может оказаться самой низкой или даже наихудшей. Предпочтительно один выбранный поднабор-кандидат находится среди лучшей половины (в соответствии с меньшим значением в этой формулировке) рассматриваемых поднаборов-кандидатов. Выбор может применяться для полных поднаборов-кандидатов, но он также может быть очевиден во время построения, например, когда индексы-кандидаты последовательности добавляются последовательно, как упомянуто выше, когда во время упомянутого построения становится очевидным, что данный поднабор-кандидат не приведет к хорошему значению. Такие поднаборы-кандидаты с худшими характеристиками могут быть исключены из дальнейшего рассмотрения.

В качестве альтернативы или в комбинации, способ может содержать выработку множества поднаборов-кандидатов, каждый из которых имеет заданное количество элементов (индексные последовательности), и выбор поднабора-кандидата в качестве поднабора для набора, где упомянутый поднабор-кандидат выбирается путем исключения других поднаборов-кандидатов,

где поднабор-кандидат исключается тогда, когда в способе, который содержит добавление кандидатов-индексных последовательностей из пула индексных последовательностей-кандидатов к поднабору-кандидату и при необходимости дополнительное добавление сравнительных индексных последовательностей, кандидат-поднабор имеет более высокое среднее значение во всех своих суммах индексных последовательностей абсолютных значений разностей частот каждого типа нуклеотидов генетического кода в каждой позиции до 0,25 по сравнению с другим поднабором или поднабором-кандидатом.

Такой выбранный поднабор затем добавляется к набору. Фраза «поднабор-кандидат имеет более высокую среднюю во всех своих суммах индексных последовательностей абсолютных значений разностей частот каждого типа нуклеотидов генетического кода в каждой позиции до 0,25 по сравнению с другим поднабором или поднабором-кандидатом» пояснена выше. Сравнение со сравнительными индексными последовательностями означает, что, когда поднабор-кандидат вырабатывается путем последовательного добавления индексов последовательностей и индексов-кандидатов последовательностей, то этот поднабор или поднаборы-кандидаты приведут к полному поднабору желаемого размера только тогда, когда последний индекс последовательности или индекс-кандидат последовательности будет добавлен для рассмотрения. Для лучшей оценки промежуточных добавленных индексов-кандидатов последовательности могут быть добавлены дополнительные сравнительные индексные последовательности для заполнения поднабора или поднабора-кандидата до его желаемого размера. Критерии, особенно критерии балансировки, затем рассчитываются для индекса-кандидата последовательности применительно к каждому другому индексу последовательности и сравнительному индексу последовательности. Таким образом, эти сравнительные индексные последовательности позволяют смоделировать полный поднабор для поднабора-кандидата без использования в поднаборе или поднаборе-кандидате. Конечно, они могут быть добавлены к нему, если они выбраны в качестве индекса-кандидата последовательности на следующем этапе. Способ может содержать удаление поднаборов-кандидатов из дальнейшего рассмотрения на каждом этапе последовательного построения поднабора-кандидата, если критерий балансировки хуже, чем у других поднаборов-кандидатов или ранее существовавших поднаборов. Предпочтительно по меньшей мере один поднабор-кандидат исключается на каждом этапе добавления одного индекса последовательности к поднабору-кандидату.

Настоящее изобретение дополнительно предоставляет способ использования набора согласно изобретению для мечения фрагментов, таких как олигонуклеотид, белок, частица, такая как наночастица, химических соединений, особенно низкомолекулярных соединений размером 5 кДа или меньше и т.д. Настоящее изобретение предоставляет способ идентификации меченых фрагментов путем определения последовательности индексной последовательности, которая была присоединена к ним, и сопоставления определенной последовательности с известной индексной последовательностью набора. В частности, настоящее изобретение предоставляет способ присвоения секвенирующих прочтений (то есть определенных последовательностей) образцу олигонуклеотидов, содержащий этапы:

а) получения образцовых олигонуклеотидов из множества образцов,

b) выбора поднабора олигонуклеотидных индексных последовательностей из набора согласно изобретению, где поднабор выбирается вместо другого поднабора на основе большего секвенциального расстояния между индексными последовательностями друг от друга в пределах выбранного поднабора; где секвенциальное расстояние представляет собой количественную величину изменений последовательностей, которая преобразует одну последовательность в другую, или монотонно убывающую функцию вероятности изменений последовательностей, которая преобразует одну последовательность в другую, и где выбранный поднабор имеет по меньшей мере такое же количество различных индексных последовательностей, как и количество образцов на этапе а),

c) добавления индексных последовательностей из упомянутого поднабора к каждому его образцовому олигонуклеотиду (который может быть фрагментом или продуктом фрагментации), где индексные последовательности указывают образец,

d) определения последовательности образцовых олигонуклеотидов или фрагментов образцовых олигонуклеотидов и определение индексной последовательности,

e) присвоения последовательности с полученным прочтением образцу на основе определенной индексной последовательности или на основе индексной последовательности, которая имеет наименьшее секвенциальное расстояние в определенной индексной последовательности, где, если две или более индексных последовательностей имеют одинаковое наименьшее расстояние, то упомянутое полученное прочтение отбрасывается; где при необходимости секвенциальное расстояние не превышает заданного значения согласно критерию.

Способ направлен на сохранение в образце ассоциации олигонуклеотидов, последовательность которых определена. Таким образом, индексные последовательности являются метками, идентифицирующими выборочную ассоциацию. Это позволяет одновременно определять последовательности многих олигонуклеотидов из нескольких образцов параллельно (мультиплекс), так как ассоциация образца поддерживается информацией метки (определяющей индексную последовательность). Разумеется, способ применим к любым меченым фрагментам, и не только к олигонуклеотидам. Ассоциация прочтений олигонуклеотидов является наиболее распространенной для поднаборов согласно изобретению.

Нет необходимости использовать весь набор, но можно использовать только один из его поднаборов до тех пор, пока поднабор имеет необходимое количество индексных последовательностей (размер). Конечно, можно использовать весь набор, который по существу представляет собой поднабор самого низкого уровня с наибольшим размером, доступным в наборе. На этапе а) определяется количество образцов, которые должны быть помечены по-разному. Ссылка на образцы означает, конечно, образцы, которые должны быть выделены в способе. На этапе b) выбирается поднабор из набора, который может вмещать в себя это количество образцов, то есть размер поднабора равен по меньшей мере количеству образцов. Для наилучшего использования предложенной в изобретении структуры поднабора и для оптимизации секвенциального расстояния между индексными последовательностями поднабора поднабор выбирается вместо другого поднабора на основе большего секвенциального расстояния между индексными последовательностями друг от друга в пределах выбранного поднабора. Секвенциальное расстояние для наборов определено и описано выше. Этот этап означает, что, если возможно, то есть если позволяет размер поднабора, поднабор с большими секвенциальными расстояниями между его элементами выбирается вместо другого поднабора с меньшим секвенциальным расстоянием между его элементами. В предпочтительных вариантах осуществления этап b) содержит выбор олигонуклеотидов с индексными последовательностями из набора согласно изобретению, где выбирается поднабор олигонуклеотидов с наибольшим секвенциальным расстоянием индексных последовательностей в поднаборе. То есть выбирается наилучший поднабор с наибольшим расстоянием, если позволяет размер поднабора. Выбранный поднабор должен иметь по меньшей мере такое же количество различных индексных последовательностей, как и количество образцов на этапе а), которые необходимо идентифицировать или различить. Другой поднабор может использоваться в других экспериментах или оставаться избыточным.

Этап с) содержит добавление индексных последовательностей из упомянутого поднабора к каждому его образцовому олигонуклеотиду. «Добавление» означает присоединение, которое присоединяет индексные последовательности (в виде олигонуклеотидов) к образцовым олигонуклеотидам или фрагментам, поэтому это присоединение поддерживается для присвоения данных секвенирования. Обычно используется ковалентное присоединение. В случае олигонуклеотидов это может содержать лигирование. Образцовый олигонуклеотид может быть фрагментом или продуктом фрагментации более крупного полинуклеотида. Возможен любой способ подготовки образца. Ради простоты изобретение относится только к продукту приготовления, который будет идентифицирован, например, на этапе секвенирования. Этот этап секвенирования может быть этапом мультиплексирования, как указано выше, когда многие олигонуклеотиды из разных образцов объединяются вместе, и, следовательно, на этом этапе необходимо мечение. Любое приготовление образцовых фрагментов на этапах, когда образцы все еще хранятся отдельно, не требует мечения, специфичного для образца. Например, дополнительная фрагментация без меток (индексных последовательностей) может выполняться отдельно для каждого образца.

Этап d) содержит определение последовательности образцовых олигонуклеотидов или фрагментов образцовых олигонуклеотидов и определение индексной последовательности. Эти последовательности (индексная последовательность и последовательность образцового олигонуклеотида) обычно определяются вместе, так как обычно они находятся после этапа с) на одной и той же объединенной молекуле олигонуклеотида. Определенная последовательность, которая соответствует «последовательности образцового олигонуклеотида», также упоминается как «прочтение» или «секвенирующее прочтение». Помимо ошибок секвенирования или повреждений нуклеотидов во время приготовления, эта определенная последовательность должна соответствовать последовательности образцового олигонуклеотида из образца на этапе а).

Этап e) содержит присвоение полученной/определенной последовательности прочтения образцу на основе определенной индексной последовательности или на основе индексной последовательности, которая имеет наименьшее секвенциальное расстояние в определенной индексной последовательности, где, если две или более индексных последовательностей имеют одинаковое наименьшее расстояние, после чего упомянутое полученное прочтение отбрасывается. Определенная индексная последовательность может идеально безошибочно соответствовать индексной последовательности известного поднабора. Преимущество набора согласно изобретению состоит в том, что даже в случае разностей с ошибками, такими как ошибки секвенирования или повреждения во время приготовления, определенная индексная последовательность, полученная на этапе d), может быть присвоена известной индексной последовательности поднабора и, следовательно, образцу, который помечает ее с использованием «исправления ошибок», как описано выше. То есть из-за больших секвенциальных расстояний между индексными последовательностями поднабора во время сингамии и большой сферы декодирования, многочисленные различные определенные последовательности могут быть присвоены индексной последовательности, несмотря на различия (то есть по существу также расстояниям до индексной последовательности). Это присвоение обычно выбирает ближайшую индексную последовательность, то есть ту, которая находится на наименьшем расстоянии от определенной индексной последовательности. Если более чем одна индексная последовательность показывает ближайшее расстояние, то есть однозначное присвоение невозможно, то прочтение может оказаться непригодным для использования и может быть отброшено. Предпочтительно это присвоение отличающейся определенной последовательности имеет значение отсечки, означающее, что секвенциальное расстояние не превышает заданного значения согласно критерию. Если расстояние превышает такую отсечку, то прочтение также может быть отброшено. Такой отсечкой может быть расстояние 3, 4, 5, 6 или 7 согласно любому способу измерения расстояния, как раскрыто выше, таким как расстояние Хэмминга, расстояние Левенштейна или расстояние Левенштейна между последовательностями.

Предпочтительно секвенируемые олигонуклеотиды содержат по меньшей мере индексную последовательность, последовательность образцового олигонуклеотида и при необходимости дополнительно последовательность адаптера и при необходимости универсальный идентификатор. Адаптер может представлять собой последовательность, которая используется для гибридизации праймеров с олигонуклеотидом. Обычно эта последовательность является одной и той же для всех олигонуклеотидов. Универсальный идентификатор может идентифицировать эксперимент по секвенированию или запуск мультиплексирования и может быть специфичным для него, но по-прежнему может быть универсальным для всех олигонуклеотидов, секвенируемых вместе. Предпочтительно олигонуклеотид содержит по меньшей мере две индексные последовательности. Данный вариант осуществления также называется двойной индексацией (когда используются две индексные последовательности) или множественной индексацией. Двойное или множественное индексирование позволяет дополнительно идентифицировать или исправлять ошибки, в частности, оно позволяет идентифицировать ошибки из-за скачка индекса (который также называется «скачком штрихкода»), то есть когда одна индексная последовательность присоединяется к олигонуклеотиду неправильного образца, который она не должна метить (смотри ссылку [5] в перечне ссылок). Когда используются две или более индексных последовательностей, они обычно выбираются из разных групп индексных последовательностей, таких как наборы или поднаборы. Обычно эти группы обозначаются как «i7» и «i5» или «левый штрихкод» и «правый штрихкод». Например, согласно изобретению индексные последовательности «i7» могут быть выбраны из SEQ ID NO: 1-104 и SEQ ID NO: 209-496, и индексные последовательности «i5» могут быть выбраны из SEQ ID NO: 105-208 и SEQ ID NO: 497-784 или наоборот.

В дополнительных предпочтительных вариантах осуществления определение последовательности нуклеотидов индексной последовательности содержит определение последовательности всей индексной последовательности или ее части, где предпочтительно определяется частичная индексная последовательность в случае, если секвенциальное расстояние от частичной индексной последовательности до других частичных индексных последовательностей в одном и том же поднаборе больше, чем ненулевое значение согласно критерию. Части индексных последовательностей могут находиться на достаточном расстоянии друг от друга, чтобы можно было выполнить присвоение - конечно, определенной последовательности без ошибок, но в некоторых случаях также и последовательности с исправлением ошибок, как упомянуто выше. Частичная индексная последовательность предпочтительно представляет собой последовательность смежных нуклеотидов индексной последовательности. Она может быть на 1, 2, 3, 4, 5, 6 или более нуклеотидов короче индексной последовательности. Предпочтительно она по-прежнему имеет длину не менее 4, 5, 6, 7, 8, 9, 10 или более нуклеотидов. Присвоение с частичными последовательностями работает так же, как и для полных индексных последовательностей, в том смысле, что частичная последовательность сравнивается с соответствующей частью индексной последовательности. В предпочтительных вариантах осуществления индексные последовательности имеют усеченные последовательности, которые имеют концептуальное секвенциальное расстояние, как описано выше. Как было отмечено, усеченные индексные последовательности индексных последовательностей также имеют отрегулированное секвенциальное расстояние, которое поддерживается для всех усеченных индексных последовательностей поднабора, и это означает то, что во время использования набора можно определить или учесть только ту частичную последовательность, которая соответствует усеченной индексной последовательности. Соответственно, в особенно предпочтительных вариантах осуществления частичная индексная последовательность имеет свойства секвенциального расстояния усеченной индексной последовательности, как описано выше.

Настоящее изобретение также выигрывает от использования компьютеров. Любой способ может быть выполнен на компьютере, особенно при проектировании индексных последовательностей, усеченных индексных последовательностей, поднаборов и набора и дальнейшем его использовании, например, при присвоение определенных последовательностей индексным последовательностям и поднаборам, как это описано в данном документе. Таким образом, любой способ изобретения может быть реализован на компьютере. Настоящее изобретение также предоставляет компьютерный программный продукт, содержащий инструкции, которые, при выполнении программы компьютером, предписывают компьютеру выполнять любой способ изобретения или его этапы, в частности те, которые указаны в этом абзаце. Настоящее изобретение также предоставляет машиночитаемый носитель информации, содержащий эти инструкции.

В последующем описании изобретения используется подробная практическая терминология. Конечно, это описание и его части могут быть объединены с любым из общих элементов, описанных выше.

1. Вложенные наборы штрихкодов

Вложенный набор B штрихкодов содержит S ≥ 1 вложенных поднаборов B₁⊂B₂⊂…⊂B_S, так что расстояние между штрихкодами внутри B_i увеличивается для меньших наборов штрихкодов. Если расстояние между штрихкодами b,b' задано в виде d(b,b') и d_i = d(B_i) = min_b,b'_Bid(b,b'), то d₁ > d₂ > …> d_S. Общая схема того, как может быть выработан такой вложенный набор штрихкодов, представлена ниже. Допустим, что является длиной штрихкодов и выбрана такая последовательность расстояний, что d₁ > d₂ > …> d_S. Начнем с выработки набора штрихкодов B₁ с минимальным расстоянием между штрихкодами, равным d₁. В некоторых случаях это может быть достигнуто с использованием лексикографического поиска [2]. Если d₁ выбрано слишком большим, может оказаться невозможным найти непустое, B₁ состоящее из штрихкодов длиной n. Затем выбирается другое d₁. Однако в дальнейшем предполагается, что последовательность d₁, …, d_S была помечена таким образом, что d₁ является первым расстоянием, для которого можно найти непустое B₁. Так как, d₁ > d₂ набор B₁ штрихкодов может использоваться в качестве начального набора при поиске B₂, который, опять же, может использоваться в качестве начального набора при поиске для B₃ и т.д. Этот процесс показан на фиг. 2. В данном документе B₁ состоит из 4 штрихкодов с меткой 1 с минимальным расстоянием между штрихкодами d₁. B₂ получается путем использования B₁ в качестве начального набора и добавления 4 штрихкодов с меткой 2. Для B₂ имеем d₁ > d₂. Наконец, B₃ получается путем использования B₂ в качестве начального набора и добавления 16 штрихкодов с меткой 3. Это дает d₁ > d₂ > d₃ и B₁ ⊂ B₂ ⊂ B₃. Точный способ получения B_i+1 из B_i зависит от меры расстояния штрихкода и желаемых свойств наборов штрихкодов B_i. Чтобы гарантировать определенные уровни перекрестного загрязнения, может также потребоваться проверка других предпочтительных свойств B_i в дополнение к d(B_i) = d_i. Подробности относительно этого будут обсуждены в разделе 4.1.

2. Вложенные последовательности штрихкодов

Выбор поднабора соответствующего размера делает вложенный набор штрихкодов адаптируемым к количеству образцов в эксперименте. Чтобы сделать набор штрихкодов адаптируемым к требуемому уровню перекрестного загрязнения, мы, кроме того, разработали наши наборы штрихкодов таким образом, чтобы последовательность штрихкода могла быть расширена до определенной длины с гарантированным увеличением минимального расстояния между штрихкодами. Затем нерасширенная последовательность соответствует усеченной или частичной индексной последовательности, а расширенная последовательность -индексной последовательности. В дополнение к этому, расширенные наборы штрихкодов сохраняют вложенную структуру, где поднаборы в расширенном наборе штрихкодов состоят из расширенных штрихкодов в поднаборах исходного набора штрихкодов. Что касается вложенных поднаборов, то процесс расширения штрихкода можно применять несколько раз для получения вложенных последовательностей штрихкода. Это означает, что может существовать более одного уровня усечения. В случае нескольких этапов усечения, каждая усеченная индексная последовательность имеет определенное расстояние для каждой другой усеченной индексной последовательностью одного и того же уровня в пределах поднабора. Общая структура вложенного набора штрихкодов с вложенными последовательностями штрихкодов показана на фиг. 3. Исходный набор штрихкодов в левой части графика, обозначенный B и с минимальным расстоянием d(B) между штрихкодами, имеет структуру, аналогичную набору B₃, показанному на фиг. 2. На фиг. 3 показано, что расширение последовательностей B с помощью последовательности нуклеотидов на концах штрихкода, обозначенных стрелкой, помеченной как «EXT» для расширения, сохраняет штрихкодов вложенную структуру поднабора в новом наборе при минимальном расстоянии между штрихкодами . В общем, имеем с . Шаблон для получения вложенных наборов штрихкодов с вложенными последовательностями штрихкодов приведен ниже. Во-первых, мы выбираем количество поднаборов и количество подпоследовательностей . Последнее равно количеству расширений плюс один. Затем мы определяем длины штрихкодов для . Так как последующие расширения увеличивают длину штрихкода, нам требуется . Далее мы определяем расстояния между штрихкодами для поднаборов и подпоследовательностей . Нам требуется , так как увеличение размера набора штрихкодов уменьшает расстояние между штрихкодами, и нам требуется , так как расширение последовательностей штрихкодов увеличивает расстояние между штрихкодами. Мы ищем набор штрихкодов длиной , которая удовлетворяет равенству для . Здесь функция является противоположной функции , то есть удаляет последние нуклеотиды из последовательностей длиной с , где - оператор тождественности. Затем мы ищем набор штрихкодов длиной с и для . Продолжаем таким образом, пока не найдем все . Этот поиск похож на тот, который обсуждался в разделе 1, за исключением того, что мы ищем последовательности штрихкодов длиной , а не , которые должны удовлетворять равенству не только для , но и для всех . Из можно вывести и , полагая и для . В дальнейшем мы будем обозначать вложенный набор штрихкодов с вложенными последовательностями как , где и .

3. Меры секвенциального расстояния

Расстояние между штрихкодами должно отражать частоту, с которой штрихкод меняется на штрихкод . Так как это связано со подобием последовательностей и , секвенциальное расстояние часто выбирается равным минимальному количеству операций, преобразующих последовательность в последовательность . Операции, рассматриваемые на таком секвенциальном расстоянии, зависят от типов ошибок, ожидаемых при обработке штрихкода. Если ожидаются только замены, то является расстоянием Хэмминга, смотри раздел 3.1. Если дополнительно учитываются вставки и удаления, то является расстоянием Левенштейна или связанным с ним расстоянием, смотри разделы 3.2 и 3.3. Так как совпадения между последовательностями также могут быть подсчитаны с учетом секвенциального расстояния, мы в дальнейшем будем включать совпадения в качестве операций, когда будем ссылаться на типы ошибок или классы ошибок.

В разделе 3.4 - вероятность того, что преобразуется в . В отличие от секвенциального расстояния, не является минимальным количеством операций преобразования в . Скорее, это сумма вероятностей всех преобразований, которые заменяют на . В качестве альтернативы можно также установить на среднее или максимальное значение вероятности всех преобразований, заменяющих на . Преимущество использования в качестве расстояния между штрихкодами состоит в том, что высокая/малая вероятность соответствует высокой/малой частоте преобразования. Это не всегда имеет место в случае секвенциального расстояния, так как штрихкоды с большим расстоянием могут заменяться друг на друга чаще, чем штрихкоды с малым расстоянием, например, если типы ошибок имеют разные вероятности.

3.1. Расстояние Хэмминга

Расстояние Хэмминга между двумя последовательностями равно количеству замен, которые преобразуют в . Это идентично количеству позиций, в которых различаются последовательности и . Штрихкоды и , например, различаются в позициях 3 и 7, и поэтому их расстояние Хэмминга равно 2. Расстояние Хэмминга является в правильном математическом смысле расстоянием, то есть оно обладает симметрией , подчиняется неравенству треугольника , и равенство эквивалентно равенству .

3.2. Расстояние Левенштейна

Расстояние Левенштейна между и равно минимальному количеству замен, вставок и делеций, необходимых для преобразования в . Это количество можно рассчитать с помощью алгоритма динамического программирования, как показано на фиг. 4. Здесь и обозначают i-й нуклеотид последовательности и , обозначающие строки и столбцы матрицы . Имеется дополнительная строка и столбец, помеченные перед строкой и столбцом . Далее мы будем индексировать строки и столбцы как с помощью, , так и с помощью . Следовательно, мы имеем . Изначально содержит одно значение . График в середине фиг. 4 показывает, что получено из и . Переходы в из и соответствуют вставке и делеции, соответственно. Переход из в соответствует совпадению, если , и в противном случае замене. Матричный элемент можно рассчитать следующим образом

(1)

где - скобка Айверсона, равная , если утверждение внутри истинно, и на противном случае. Аргументы в (1) с несуществующими элементами в , то есть для и , удаляются из уравнения. Алгоритм динамического программирования, представленный в уравнении (1), выполняется построчно с начала и до конца. Это делается для всех строк в последовательности, начиная со строки . Для строки и столбца это означает, что . После завершения выполнения алгоритма расстояние Левенштейна содержится в . Уравнение (1) показывает, что штрафы за вставки, делеции и замены равны . Эти штрафы могут быть изменены, если определенные типы ошибок являются более дорогостоящими или частыми, чем другие. Если вставки и делеции имеют одинаковый вес, расстояние Левенштейна является симметричным, в противном случае оно является несимметричным. Остальные свойства расстояния в математическом смысле всегда выполняются.

3.3. Расстояние Левенштейна с фиксированной рамкой

Обычное расстояние Левенштейна не является идеальным для измерения расстояния между штрихкодами, так как рамка последовательности для штрихкодов имеет постоянную ширину. Это означает, что если ожидается штрихкод длиной n секвенсор всегда будет считывать n нуклеотидов. В результате, если штрихкод имеет вставку, последний нуклеотид штрихкода смещается за пределы рамки последовательности штрихкода и, следовательно, не записывается. Если отсутствующий последний нуклеотид штрихкода считается ошибкой делеции, как в случае с расстоянием Левенштейна, то каждая вставка, которая не компенсируется делецией, будет считаться как 2 ошибки. Аналогично, делеция, не смещенная вставкой, будет считаться как 2 ошибки, так как нуклеотид, который входит в рамку в конце, будет интерпретирован как вставка. Это искусственное увеличение расстояния между штрихкодами может привести к неправильному выводу о том, что два штрихкода не похожи друг на друга и, следовательно, маловероятно, что они превратятся друг в друга, хотя на самом деле они похожи и вероятность скачкообразного изменения штрихкода является высокой. Таким образом, более подходящим расстоянием ошибки является вариант расстояния Левенштейна, в котором учитывается, что размер рамки последовательности штрихкода является фиксированным. Это расстояние, которое по-разному называют FREE-дивергенцией [3], расстоянием Левенштейна между последовательностями [1] или просто модифицированным расстоянием Левенштейна [4, 6], можно получить, присвоив вес 0 вставкам и делециям в последней строке и столбце матрицы , показанной на фиг. 4. Следовательно, вставки, входящие в рамку секвенирования после окончания штрихкода, не считаются ошибками, как и делеции, происходящие из-за того, что был достигнут конец рамки секвенирования. Это расстояние Левенштейна с фиксированной рамкой (ff-Levenshtein) не является правильной метрикой, так как оно не удовлетворяет неравенству треугольника. Это означает, что если два штрихкода имеют расстояние 3, может существовать другой штрихкод с расстоянием 1 от них обоих [3]. В этом случае расстояние между штрихкодами, равное 3, не гарантирует, что набор штрихкодов может исправить одну ошибку.

3.4. Вероятностное расстояние перехода последовательности

Подобие последовательностей, измеряемое по минимальному количеству операций, необходимых для преобразования последовательностей друг в друга, не всегда прямо коррелирует с частотой, с которой последовательности заменяются друг на друга. Последовательности с большим расстоянием Левенштейна, например, могут чаще преобразовываться друг в друга, чем последовательности с малым расстоянием Левенштейна, если операции, влияющие на преобразование в первом случае, происходят чаще, чем операции во втором случае. Поэтому вместо того, чтобы выработать наборы штрихкодов на основе минимального количества операций, целесообразно оптимизировать штрихкоды в отношении частоты или вероятности выполнения этих операций. Этот подход будет реализован в этом разделе путем исследования расстояний между штрихкодами на основе вероятностей переходов последовательностей (STP).

Далее мы будем использовать сокращения и для совпадений, замен, вставок и делеций, соответственно. Учитывая распределение с вероятностей при , вероятность того, что последовательность изменится на последовательность , может быть рассчитана путем модификации алгоритма, показанного на фиг. 4. В этом случае инициируется при , и получается следующим образом:

(2)

Как и прежде, члены в правой части (2) с неопределенным значением в , то есть для и , игнорируются. После завершения алгоритма имеем . В дальнейшем будет обозначать одно из: и ассоциированный с ним переход между элементами . Таким образом, и для и , тогда как для . и будет обозначать первый и второй компоненты . В (2) - вероятность вставки после , и - вероятность замены на . Таким образом, из уравнения (2) получаем

(3)

где не зависит от , и является однородным по всем возможным заданным нуклеотидам и . Например, для все 4 нуклеотида могут быть вставлены после и, таким образом, . Для , с другой стороны, для и . Если (3) не выполняется или множители в правой части (3) неравномерны, то необходимо заменить на более подходящее распределение вероятностей. Аналогично расстоянию Левенштейна с фиксированной рамкой, можно избежать наказания за вставки и делеции вне рамки последовательности, установив и в последней строке и столбце . Если за штрихкодом всегда следует определенная последовательность , например, последовательность адаптера, то можно добавить в , чтобы получить комбинированную последовательность , для которой может быть рассчитана вероятность перехода, как и раньше. Однако необходимо отметить, что матрица для вычисления не является квадратной, и что конечным результатом является элемент в последней строке и столбце , то есть . Используя STP , мы определяем расстояние между и , которое должно удовлетворять равенству . Это гарантирует, что увеличение расстояния всегда соответствует уменьшению вероятности, которая преобразуется в . По сравнению с секвенциальным расстоянием значения для являются не целыми числами, и действительными числами, большими или равными нулю. Расстояние является симметричным, если . Эквивалентность обычно не будет истинной, так как только в случае, если , что требует того, чтобы . В дополнение к этому, неравенство треугольника является неверно, так как не выполняется в общем случае.

Оценка вероятностей классов ошибок

В этом разделе описывается оценка вероятностей класса ошибок для записей в матрице с учетом набора последовательностей , полученных путем секвенирования штрихкодов в наборе штрихкодов. Для этой цели показана вероятность выравниваний с . Выравнивание с представляет собой путь через матрицу, начинающийся в и заканчивающийся в , так что за элементом по пути следует , где . В дальнейшем и будут обозначать вероятность того, что преобразуется в с выравниванием, содержащим или не содержащим , соответственно. Далее мы будем обозначать вероятность того, что преобразуется в с выравниванием, содержащим с последующей операцией . Эти вероятности будут рассчитаны с использованием следующей факторизации.

(4)

где означает, что выравнивание начинается с . Для расчета обратимся к алгоритму расчета . Для этого матрица размером инициируется , и рассчитывается следующим образом:

(5)

Этот алгоритм действует построчно справа налево и от последней к первой строке. Эта процедура показана на фиг. 5. После завершения алгоритма имеем

(6)

Так как все пути в начинаются при , из этого следует, что . Из (4) следует, что

(7)

и, кроме того,

(8)

Мы используем (7) и (8) для оценки вероятности вслед за . Для этой цели предположим, что - это набор последовательностей, полученных путем упорядочивания штрихкодов в наборе штрихкодов. Мы начинаем с начальной оценки и вычисляем итеративно

(9)

Мы обнаружили, что эта процедура сходится к правильному решению, если не слишком далеко от решения. Уравнение (9) вычисляет вероятность для каждой комбинации . Для расчета вероятности после -ой позиции используем следующую итерационную схему.

(10)

Как и в уравнении (9), мы обнаружили, что (10) сходится к правильному решению, если не слишком далеко от него. Наконец, для расчета общей вероятности наблюдения при выравнивании с мы использовали следующую итеративную процедуру.

(11)

Как и в (9) и (10), мы также обнаружили, что (11) сходится к правильному решению. Так как (10) и (11) накапливают данные для нескольких комбинаций , этим процедурам для сходимости требуется меньше данных, чем в (9). Процедура (11) нужна меньше всего, так как она накапливает данные для всех комбинаций .

4. Выработка набора штрихкодов

4.1. Сведение к минимуму перекрестного загрязнения

Перекрестное загрязнение происходит тогда, когда последовательность , считанная для штрихкода , совпадает с последовательностью другого штрихкода , или когда считывается последовательность, не являющаяся штрихкодом, которая исправлена на неправильный штрихкод. Первый тип перекрестного загрязнения, также называемый скачком штрихкода, особенно проблематичен, так как его невозможно обнаружить. Штрихкод, который преобразуется в другой штрихкод, кажется пользователю неотличимым от штрихкода, в который он преобразовался. Скачкообразное изменение штрихкода можно уменьшить путем поиска штрихкодов, находящихся на большом расстоянии друг от друга. В случае секвенциального расстояния большое расстояние гарантирует, что штрихкоды непохожи и требуют большого количества ошибок для преобразования друг в друга. В случае расстояния STP большое расстояние между штрихкодами напрямую связано с низкой вероятностью скачкообразного изменения штрихкода. Как правило, перед выработкой набора штрихкодов указывается минимальное расстояние между штрихкодами (MIB). Затем выработка начинается с начального набора штрихкодов , который может состоять из одного случайного штрихкода или заданного набора штрихкодов, смотри раздел 4.2. Исходный набор штрихкодов расширяется за счет добавления штрихкода при и для всех . Эти два неравенства будем называть условием MIB. Если расстояние является симметричным, необходимо проверить только одно из неравенств в условии MIB. Чтобы найти следующий элемент для добавления к , последовательно проверяются элементы в - дополнение к . В данном документе дополнением называется множество всех последовательностей одинаковой длины, элементы которых не содержатся в . Порядок, в котором проверяются элементы в , может быть случайным или следовать особому порядку , такому как лексикографический порядок [2], или быть комбинацией случайного и упорядоченного. Если все в рассмотрены, последовательность, в которой обрабатываются, не имеет значения. Если удовлетворяет условию MIB, он добавляется в набор потенциальных штрихкодов . Как только удовлетворяет требуемым свойствам, например, то, что он не пустой или что его нельзя увеличить в размерах, то выбирается с помощью другой, возможно, случайной, процедуры и добавляется в . На этом этапе могут уже быть выполнены все требования к , предъявляемые к набору штрихкодов, например достаточный размер, в случае которого поиск будет завершен. Этот поиск штрихкода можно кратко изложить следующим образом.

Алгоритм 1 поиска

1. Указать длину штрихкода , и .

2. Инициировать набор штрихкодов со случайным штрихкодом или с заданным набором штрихкодов.

3. Инициировать , набор возможных штрихкодов, при .

4. Исследовать последовательности , где - дополнение в множестве последовательностей длиной , то есть набор всех последовательностей длиной , не содержащихся в . Если и для всех , добавить в набор потенциальных штрихкодов . Повторять этот этап до тех пор, пока не будет удовлетворять требуемым свойствам или не будут проверены все элементы .

5. Если не удовлетворяет требуемым свойствам, завершить процедуру.

6. Выбрать и добавить в . Если удовлетворяет требуемым свойствам, завершить процедуру, в противном случае перейти к этапу 3.

Если мы ищем вложенные наборы штрихкодов с вложенными последовательностями, вышеупомянутая процедура должна быть изменена. В данном документе мы будем использовать обозначения из раздела 2, то есть - количество поднаборов, и - количество подпоследовательностей. В предыдущем алгоритме длина штрихкода заменяется на длины штрихкодов, и минимальное расстояние между штрихкодами (MIB) заменяется на расстояния между штрихкодами, где , и . Кроме того, условие MIB должно выполняться для всех и . Как отмечалось в разделе 2, поиск вложенных наборов штрихкодов осуществляется путем поиска наборов штрихкодов длиной . В частности, последовательность считается потенциальным штрихкодом-кандидатом для только в том случае, если и для всех и . Модифицированная версия описанного выше поиска штрихкодов для вложенных наборов штрихкодов с вложенными последовательностями теперь выглядит следующим образом.

Алгоритм 2 поиска

1. Указать количество поднаборов , количество подпоследовательностей и длиной штрихкодов и для и при , и расстояния между штрихкодами при и .

2. Установить и инициировать набор штрихкодов со случайным штрихкодом длиной или с заданным набором штрихкодов длиной .

3. Инициировать , набор возможных штрихкодов, при .

4. Исследовать последовательности , где - дополнение в множестве последовательностей длиной . Если и для и все , добавить в набор потенциальных штрихкодов . Повторять этот этап до тех пор, пока не будет выполнены требуемые условия или не будут проверены все элементы .

5. Если не удовлетворяет требуемым условиям, перейти к этапу 7.

6. Выбрать и добавить в . Если удовлетворяет требованиям для набора , перейти к этапу 7. В противном случае перейти к этапу 3.

7. Присвоить и: если , установить и перейти к этапу 3, если , установить и для , затем завершить процедуру.

Следует отметить, что наборы штрихкодов, произведенные алгоритмом 2 поиска, содержат, для и , наборы штрихкодов, произведенные алгоритмом 1 поиска. Для и алгоритм 2 поиска производит вложенные наборы штрихкодов без вложенных последовательностей, и для алгоритм 2 поиска производит вложенные последовательности без вложенных поднаборов. Следовательно, алгоритм 2 поиска можно использовать для выборочной выработки наборов штрихкодов с несколькими вложенными поднаборами и/или последовательностями.

Далее мы будем ссылаться на набор вложенных штрихкодов с поднаборами, подпоследовательностями с длинами , где является расстоянием типа DTYPE, как DTYPE-S(). Следовательно, если был разработан для расстояния ff-Levenshtein при и , и , вложенный набор штрихкодов будет упоминаться как ff-Levenshtein-5(8,10,12). Если , мы будем использовать DNAME(), а не DNAME-1(), чтобы обратиться к набору штрихкодов с длиной . Следовательно, Hamming(6) относится к набору штрихкодов длиной 6, который был разработан для расстояния Хэмминга.

Второй тип перекрестного загрязнения, упомянутый в начале этого раздела, является результатом ложного исправления ошибок. Здесь считанная последовательность (определенная последовательность) для штрихкода неверна и не совпадает с другим штрихкодом. Ошибка возникает тогда, когда нештрихкодовая последовательность назначается неправильному штрихкоду с помощью процедуры исправления ошибок. Набор последовательностей, скорректированных в штрихкоде b, является сферой декодирования штрихкода. Следовательно, чтобы гарантировать надлежащее исправление по меньшей мере минимального количества ошибок (MEC), необходимо проверить, что последовательности, выработанные с ошибками вплоть до MEC из штрихкода b, лежат в сфере b декодирования, и что сферы декодирования для разных штрихкодов не перекрываются. Нештрихкодовые последовательности c обычно исправляются на штрихкод с минимальным расстоянием. Если расстояние d подчиняется неравенству треугольника и , подразумевается, что . Следовательно, если d является симметричным, и c был выработан из b с не более чем ошибками, то c лежит только в сфере b декодирования. Если расстояние d не симметрично, как в случае расстояния Левенштейна с неравными весами вставок и делеций, то необходимо дополнительно проверить то, выполняется ли неравенство . Это подразумевает то, что , и, таким образом, лежит только в сфере декодирования. Для расстояния, которое не подчиняется неравенству треугольника, этого обычно недостаточно, чтобы гарантировать, что было получено из с не более чем ошибками. Например, для расстояния Левенштейна с фиксированной рамкой можно найти последовательности и , такие что , но и , смотри [3]. Таким образом, в этом случае при , и сферы декодирования перекрываются. Следовательно, если неравенство треугольника не выполняется, обычно необходимо непосредственно проверять, что сферы декодирования не перекрываются. В дальнейшем мы всегда будем предполагать, что нештрихкодовая последовательность исправляется на с наименьшим расстоянием. Далее мы будем обозначать сферой с радиусом вокруг , которая является набором , и писать для сферы с радиусом вокруг набора штрихкодов. Поиск наборов штрихкодов в [3] осуществляется путем поиска с и , таких что . Эту процедуру можно кратко изложить следующим образом.

Алгоритм 3 поиска

1. Указать длину штрихкода и при .

2. Инициировать набор штрихкодов со случайным штрихкодом или с заданным набором штрихкодов. Если сфера декодирования неизвестна, вычислить сферу .

3. Инициировать , набор возможных штрихкодов, при .

4. Исследовать последовательности , где -дополнение в множестве последовательностей длиной . Если и для всех и , добавить в набор потенциальных штрихкодов . Повторять этот этап до тех пор, пока не будет удовлетворять требуемым свойствам или не будут проверены все элементы .

5. Если не удовлетворяет требуемым свойствам, завершить процедуру.

6. Выбрать и добавить в . Если удовлетворяет требуемым свойствам, завершить процедуру, в противном случае перейти к этапу 3.

Этот поиск штрихкода в вычислительном отношении более затратен, чем алгоритм 1 поиска. Это связано с тем, что вычисление требует вычисления расстояния для всех последовательностей в . Для вложенных наборов штрихкодов с вложенными последовательностями приведенный выше алгоритм необходимо адаптировать следующим образом. Во-первых, необходимо определить расстояния таким образом, чтобы для и . Для этих расстояний мы требуем, чтобы исправление ошибок отображало последовательность длиной в , если и . В более общем случае мы требуем, чтобы . Полный алгоритм приведен ниже.

Алгоритм 4 поиска

1. Указать количество поднаборов , количество подпоследовательностей и с длинами штрихкодов для и при , и расстояния между штрихкодами при и . Кроме того, указать расстояния исправления ошибок при .

2. Установить и инициировать набор штрихкодов со случайным штрихкодом длиной или с заданным набором штрихкодов длиной . Вычислить сферы декодирования для .

3. Инициировать , набор возможных штрихкодов, при .

4. Исследовать последовательности , где -дополнение в множестве последовательностей длиной . Если и для и все , и если, кроме того, для , добавить в набор потенциальных штрихкодов . Повторять этот этап до тех пор, пока не будет удовлетворять требуемым условия или не будут проверены все элементы .

5. Если не удовлетворяет требуемым условиям, перейти к этапу 7.

6. Выбрать и добавить в . Если удовлетворяет требованиям для набора , перейти к этапу 7. В противном случае перейти к этапу 3.

7. Присвоить и: если , установить и перейти к этапу 3, если , установить и для , затем завершить процедуру.

Аналогично алгоритму 2 поиска алгоритм поиска 4 можно также использовать для выборочной выработки наборов штрихкодов с несколькими вложенными поднаборами и/или последовательностями путем соответствующего выбора параметров и .

Вложенные наборы штрихкодов при , и могут быть выработаны без точного определения и на этапе 1 в алгоритмах 2 и 4 поиска. Соответствующий алгоритм поиска приведен ниже, где мы будем использовать обозначения и . Последнее можно интерпретировать как расстояние от до .

Алгоритм 5 поиска

1. Указать количество поднаборов , количество расширений и для и длины штрихкодов при .

2. Установить и инициировать набор штрихкодов со случайным штрихкодом длиной . Инициировать , набор штрихкодов, которые необходимо исключить из поиска, при .

3. Присвоить .

4. Если , перейти к этапу 6.

5. Установить . Если и для , перейти к этапу 6, в противном случае установить и перейти к этапу 3, если только .

6. Установить , , и . Если , установить , и перейти к этапу 3, в противном случае завершить процедуру.

Описанная выше процедура вырабатывает последовательность вложенных наборов штрихкодов при . Максимум на этапе 3 вышеприведенного алгоритма может быть не уникальным. В этом случае необходимо выбрать из множества всех с максимальным расстоянием от . Это происходит, в частности, когда расстояние , такое как секвенциальное расстояние, принимает конечное число значений. Если значения являются непрерывными, как для расстояния STP, максимум на этапе 3 и, таким образом, , будут в общем уникальны.

4.2. Предотвращение нежелательных штрихкодовых последовательностей

Существуют различные ситуации, в которых может потребоваться удалить последовательности из набора возможных штрихкодов. Это, например, относится к случаю, когда последовательность имеет низкую эффективность амплификации. Штрихкодирование образца с такой последовательностью может привести к тому, что образец получит значительно меньшую долю полосы, чем другие мультиплексные образцы. Во избежание такой последовательности, поиск штрихкода в разделе 4.1 должен быть немного изменен. Вместо того, чтобы проверять все последовательности , или в или , соответственно, следует проверять только или , а не те последовательности, которые должны быть исключены. Другая ситуация, вызывающая проблемы при демультиплексировании, возникает тогда, когда секвенирование вырабатывает неправильные, но частые последовательности, не ассоциированные ни с одним штрихкодом. Такие последовательности могут, например, появляться тогда, когда индекс не связан должным образом с фрагментом. В этом случае некоторые секвенсоры часто вырабатывать последовательность, почти полностью состоящую из G. Такие искусственные последовательности, не ассоциированные со штрихкодом, будут иметь негативное влияние на исправление ошибок, если они будут присвоены ближайшему штрихкоду. Во избежание этой проблемы, такие искусственные последовательности не должны содержаться в сфере декодирования любого штрихкода. Если искусственные последовательности сами по себе могут иметь варианты, то сфера вокруг искусственных последовательностей, содержащих эти варианты, не должна пересекаться со сферой декодирования любого штрихкода. Эту проблему можно решить, добавив искусственные последовательности (последовательности сравнительных индексов) к начальному набору штрихкодов, из которых поиск в разделе 4 вырабатывает полные наборы штрихкодов. Это гарантирует, что сферы декодирования результирующих штрихкодов не перекрываются сферами декодирования искусственных последовательностей. После завершения поиска штрихкода искусственные последовательности удаляются из окончательного набора штрихкодов. В качестве искусственных последовательностей перед началом поиска штрихкода можно добавлять последовательности, полностью состоящие из A, C, G или T, к набору штрихкодов.

4.3. Позиционное балансирование нуклеотидов

Набор штрихкодов, используемый для мультиплексирования образцов при прогоне RNA-Seq, должен иметь сбалансированное распределение нуклеотидов в каждой позиции штрихкода. Неравномерное распределение может привести к низким показателям качества или низкой скорости полосовой фильтрации. Для достижения сбалансированного распределения нуклеотидов для образцов при прогоне RNA-Seq с вложенным набором штрихкодов необходимо выбрать соответствующий набор штрихкодов при из , где . Для получения такого набора можно использовать следующий способ выбора. Этот способ позволяет оценить все возможные поднаборы, удовлетворяющие с помощью поиска A. Для часто используемых номеров образцов, мультиплексированных при прогоне RNA-Seq, мы использовали этот способ выбора для получения вложенного набора штрихкодов при . Начнем с выбора из , где . Далее выбираем из , где таким образом, чтобы . Так как многочисленные могут удовлетворять выражению , возможно, что для некоторых . Таким образом, такой вложенный набор штрихкодов представляет собой небольшую вариацию концепции, рассмотренной до сих пор.

Распределение нуклеотидов набора штрихкодов в позиции задано в виде , где . Если не используются, то это распределение будет записано просто как . Мы измеряем расстояние между двумя позиционными распределениями и нуклеотидов следующим образом: и обозначаем расстоянием до равномерного позиционного распределения нуклеотидов (UPND), то есть . Чтобы найти набор штрихкодов размером в другом наборе штрихкодов, мы используем следующий поиск A. Предположим, что поднабор при уже выбран. Мы хотим найти нижнюю границу для , учитывая, что . Штрихкодовая последовательность , дающая наименьшее значение , содержит в каждой позиции нуклеотид с наименьшей частотой в , то есть . Если не является единственно возможным, то он выбирается случайным образом из всех , минимизирующих . Нуклеотидная последовательность не обязательно содержится в . Следовательно, добавление одного штрихкода из в позволяет потенциально получить расстояние от UPND, которое больше, чем . Если установить , и , то повторное применение этой конструкции дает последовательности штрихкодовых последовательностей. Мы используем в качестве нижней границы для расстояния от UPND для поднабора при . В нашем поиске A мы используем первый подход для глубины. Чтобы найти размер с минимальным расстоянием , мы последовательно вырабатываем все поднаборы штрихкодов размером . Поднаборы размера сами по себе вырабатываются путем добавления одного штрихкода за другим. Когда новый штрихкод добавляется к поднабору , мы вычисляем нижнюю границу выше для , заданного таким образом, чтобы . Если эта оценка лежит выше или равна расстоянию для набора размером , для которого расстояние до UPND уже рассчитано, то и все поднаборы, содержащие , удаляются из поиска. Это значительно сокращает количество наборов штрихкодов, которые необходимо проверить, и позволяет во многих случаях найти набор штрихкодов при и минимальное значение .

5. Размещение штрихкодов на луночных планшетах.

Как упоминалось во введении, наборы штрихкодов используются для экспериментов с различным количеством образцов. Если пользователь имеет не более образцов, он будет использовать штрихкоды из набора . Если имеется более чем и не более образцов, будут использоваться штрихкоды из набора . Минимальное количество штрихкодов, которое может, по меньшей мере теоретически, иметь UPND, равно 4. Следовательно, должно содержать не менее 4 штрихкодов. Так как количество образцов в эксперименте часто кратно 8, разумно требовать, чтобы для , где - целое положительное число. Чтобы сделать пипетирование таких наборов штрихкодов более удобным или легко автоматизируемым, целесообразно размещать их на луночных планшетах таким образом, чтобы штрихкоды были сгруппированы вместе. Возможное размещение на луночном планшете размером 8x12, где наборы штрихкодов размером 4, 8, 16, 24, 96 сгруппированы в столбцы, показано на фиг. 6. Здесь лунки A1-D1 содержат штрихкоды в , лунки A1-H1 содержат штрихкоды в , столбцы 1 и 2 содержат штрихкоды в , и столбцы 1, 2 и 3 содержат штрихкоды в . Полный набор штрихкодов во всех лунках составляет . Если наборы штрихкодов могут быть расширены до , то штрихкоды длиной в содержатся в лунках луночного планшета и сгруппированы таким образом, как это описано для .

6. Уменьшение и количественная оценка перекрестного загрязнения с помощью двойных индексов.

Штрихкоды могут использоваться как одиночные или двойные индексы на секвенаторе Illumina [5]. При одноиндексном прогоне RNA-Seq штрихкод получается из набора штрихкодов (например, выбранный из SEQ ID NO: 1-104 и SEQ ID NO: 209-496), «индекс i7», перед адаптером P7. При двухиндексном прогоне второй штрихкод получается из другого набора штрихкодов (например, выбранного из SEQ ID NO: 105-208 и SEQ ID NO: 497-784), «индекс i5», перед адаптером P5. Эта настройка показана на фиг. 7. Здесь штрихкодовые последовательности - и наборы штрихкодов могут быть идентичными. На фиг. 7 показано, что и секвенируются в одном и том же направлении, как прочтение 1 и прочтение 2, производя последовательности и , где потенциально и . Доля будет называться чистотой прогона RNA-Seq. Для мультиплексирования образцов при двухиндексном прогоне RNA-Seq необходимо выбрать поднабор кортежей штрихкодов того же размера, что и количество образцов. Затем каждый образец при прогоне RNA-Seq помечается уникальной комбинацией штрихкодов. Чтобы свести к минимуму перекрестное загрязнение, следует выбирать таким образом, чтобы и , при этом подразумевается, что и . Такой набор будет называться уникальным компонентным двухиндексным набором штрихкодов (UCDI). UCDI гарантирует, что скачкообразный переход штрихкода либо в , либо в приведет к выработке кортежа штрихкодов, не содержащегося в . Таким образом, для UCDI можно обнаружить скачкообразный переход одного штрихкода. Это является преимуществом по сравнению с одноиндексными прогонами RNA-Seq, в которых скачкообразные переходы штрихкода не обнаруживаются. Однако UCDI не может скорректировать скачкообразный переход одного штрихкода, так как для и он имеет место, и в общем случае невозможно утверждать то, выполняются ли условия или . Как следствие, фрагменты с ассоциированными и должны быть удалены из дальнейшего последующего анализа. Кортеж получается в любом из трех взаимоисключающих случаев,

1.

2.

3.

Следовательно, вероятность наблюдения представляет собой сумму вероятностей описанных выше случаев. В достаточно чистом прогоне RNA-Seq одновременный скачкообразный переход двух штрихкодов крайне маловероятен, и поэтому можно пренебречь вероятностью того, что . Аналогичным образом, подразумевает, что , и подразумевает, что . Следовательно, для достаточно чистого прогона RNA-Seq вероятность того, что , приблизительно определяется следующей суммой:

(12)

Следовательно, верхний порог для вероятности скачкообразного перехода штрихкода в и определяется выражением

(13)

Здесь означает, что и могут использоваться взаимозаменяемо. Верхняя граница в (13) является точной, только в том случае, если одно из равно нулю. Это означает, что за все ошибки отвечает только один набор штрихкодов. Однако на практике более вероятно то, что оба набора штрихкодов вносят одинаковый вклад в наблюдаемые ошибки, и поэтому вероятности в левой части (13) будут ближе к половине правой части (13). Для уравнение (13) принимает вид:

(14)

Левая часть (14) представляет собой вероятность того, что скачкообразный переход штрихкода происходит в или , в то время как правая часть (14) может быть оценена путем демультиплексирования прогона RNA-Seq по отношению ко всем комбинациям штрихкодов в и вычисления соотношения в кортежах при . Следовательно, двухиндексный прогон RNA-Seq можно использовать для получения верхней границы вероятности скачкообразного перехода штрихкода в эксперименте с одним индексом. Вероятность наблюдения скачкообразного перехода штрихкода в двухиндексном прогоне RNA-Seq с использованием штрихкодов из является произведением вероятностей , удовлетворяющих уравнению (12). Это произведение становится максимальным в том случае, если . Следовательно, вероятность наблюдения скачкообразного перехода штрихкода при двухиндексном прогоне RNA-Seq ограничивается выражением:

(15)

Если за демультиплексированием (то есть присвоением секвенирующих прочтений образцам или индексным последовательностям) следует исправление ошибок, вероятность одновременного скачкообразного перехода штрихкода и увеличивается. Таким образом, уравнение (12), где обозначают последовательности, полученные исправлением ошибок, будет неточным. Однако, так как верхняя граница для скачкообразного перехода штрихкода с одним индексом является довольно консервативной, мы используем (14) в этом случае в качестве верхней границы. Таким образом, прогон RNA-Seq с UCDI можно использовать для:

1. Обнаружения, но не исправления скачкообразного перехода штрихкода одного штрихкода после секвенирования или исправления ошибок.

2. Получения верхней границы для вероятности скачкообразного перехода штрихкода с одним индексом (14) и с двойным индексом (15) после секвенирования или исправления ошибок. Правая часть неравенства (14) получена путем демультиплексирования по отношению ко всем кортежам штрихкодов в и вычисления соотношения в наборе всех , где представляют собой индексы i7/5 после упорядочивания или исправления ошибок.

Предпочтительно настоящее изобретение определяется следующими пронумерованными вариантами осуществления, которые, конечно, могут быть дополнительно объединены с любым аспектом или вариантом осуществления или вариантами, описанными в данном документе:

1. Набор олигонуклеотидов, содержащий индексные последовательности, и где набор содержит множество поднаборов олигонуклеотидов с разными индексными последовательностями, где индексные последовательности поднабора олигонуклеотидов отличаются друг от друга по меньшей мере ненулевым количеством изменений последовательностей; и где набор содержит не менее 2-х иерархических уровней поднаборов, где индексные последовательности поднабора более высокого уровня являются элементами поднабора более низкого уровня, и где индексные последовательности поднабора более низкого уровня отличаются друг от друга меньшим минимальным количеством изменений последовательностей, чем индексные последовательности поднабора более высокого уровня; и где олигонуклеотиды присваиваются одному или нескольким поднаборам.

2. Набор по п. 1, в котором каждая индексная последовательность поднабора содержит усеченную индексную последовательность, и усеченные индексные последовательности по меньшей мере одного поднабора отличаются по меньшей мере ненулевым количеством изменений последовательностей от каждой другой усеченной индексной последовательности в упомянутом поднаборе; предпочтительно, когда минимальное количество изменений последовательностей между усеченными индексными последовательностями поднабора больше, чем минимальное количество изменений последовательностей индексных последовательностей в поднаборе за вычетом разности между длиной индексных последовательностей и усеченных индексных последовательностей.

3. Набор по п. 2, в котором усеченные индексные последовательности поднабора более высокого уровня являются элементами усеченных индексных последовательностей поднабора более низкого уровня, и где усеченные индексные последовательности поднабора более низкого уровня отличаются друг от друга меньшим минимальным количеством последовательности по сравнению с усеченными индексными последовательностями поднабора более высокого уровня.

4. Набор по любому из пп. 1-3, где изменения последовательностей выбираются из нуклеотидных замен, делеций и вставок, и где минимальное количество изменений последовательностей соответствует минимальному количеству, необходимому для замены любой индексной последовательности на другую индексную последовательность.

5. Набор по любому из пп. 1-4, в котором изменения последовательности количественно оцениваются как секвенциальное расстояние, которое представляет собой количество замен нуклеотидов или вероятность изменений.

6. Набор по п. 5, в котором величина секвенциального расстояния представляет собой расстояние Хэмминга, расстояние Левенштейна или расстояние Левенштейна между последовательностями, предпочтительно расстояние Левенштейна между последовательностями.

7. Набор по п. 5, в котором вероятность изменений представляет собой максимальную вероятность или сумму вероятностей, предпочтительно сумму вероятностей нуклеотидных изменений, которые преобразуют одну последовательность в другую.

8. Набор по п. 5 или 7, где индексные последовательности поднабора более низкого уровня отличаются друг от друга более высокой вероятностью изменения последовательностей по сравнению с индексными последовательностями поднабора более высокого уровня, и предпочтительно, где в зависимости от варианта осуществления 2 усеченные индексные последовательности поднабора более низкого уровня отличаются более высокой вероятностью изменения последовательности, чем усеченные индексные последовательности поднабора более высокого уровня.

9. Набор по п. 5, где вероятность изменений количественно определяется монотонно убывающей функцией вероятности, предпочтительно отрицательным логарифмом или отрицательной вероятностью, где вероятность предпочтительно оценивается по максимальной вероятности или сумме вероятностей, предпочтительно по сумме вероятностей, изменений нуклеотидов, которые преобразуют одну последовательность в другую.

10. Набор по п. 6, в котором расстояние Левенштейна между последовательностями между индексными последовательностями поднабора более высокого уровня больше не менее чем на 1, предпочтительно на 2, чем расстояние Левенштейна между последовательностями между индексными последовательностями поднабора более низкого уровня.

11. Набор по п. 6 или 10, в котором расстояние Левенштейна между последовательностями между индексными последовательностями поднабора самого высокого уровня равно не менее 4.

12. Набор по любому из пп. 1-11, в котором индексные последовательности имеют длину не менее 4, предпочтительно не менее 6, нуклеотидов, и/или поднабор самого высокого уровня содержит не менее 2, предпочтительно не менее 4, различных индексных последовательностей.

13. Набор по любому из пп. 1-12, в котором олигонуклеотиды присваиваются поднабору путем помещения их в контейнер, который помечается идентификатором поднабора; предпочтительно, когда контейнер представляет собой лунку в луночном планшете.

14. Набор по любому из пп. 1-13, в котором индексные последовательности имеют содержание G/C от 30% до 70%; и/или где индексные последовательности не содержат повторов одного и того же нуклеотида длиной не менее 3; и/или где индексные последовательности поднабора имеют сбалансированное распределение нуклеотидов, где количество совместно используемых нуклеотидов в одной и той же позиции в индексных последовательностях между различными индексными последовательностями не более чем в 0,5 раза превышает количество индексных последовательностей в упомянутом поднаборе, или где в не менее 50% позиций индексных последовательностей, частота для всех индексных последовательностей поднабора для каждого типа нуклеотидов составляет 0,5 или менее.

15. Способ выработки набора олигонуклеотидов, содержащего множество поднаборов олигонуклеотидов с поднабором индексных последовательностей, содержащий этапы:

выработку первого поднабора олигонуклеотидов с индексными последовательностями с первым секвенциальным расстоянием друг от друга в пределах первого поднабора, где секвенциальное расстояние представляет собой количественное количество изменений последовательностей, которые преобразуют одну последовательность в другую, или монотонно убывающую функцию вероятности изменений последовательности, которая преобразует одну последовательность в другую,

выработку второго поднабора путем включения первого поднабора и добавления дополнительных олигонуклеотидов с индексными последовательностями со вторым секвенциальным расстоянием друг от друга во втором поднаборе, где второе секвенциальное расстояние является меньшим секвенциальным расстоянием, чем первое секвенциальное расстояние.

16. Способ по п. 15, в котором этап формирования первого и второго поднабора индексных последовательностей содержит для каждого поднабора выбор набора индексных последовательностей из пула различных индексных последовательностей.

17. Способ по п. 15 или 16, в котором выработка первого и/или второго поднабора содержит выбор индексных последовательностей, которые содержат усеченные индексные последовательности, и усеченные индексные последовательности по меньшей мере одного поднабора отличаются по меньшей мере ненулевым количеством изменений последовательностей, предпочтительно отличаются по меньшей мере количеством изменений последовательностей, превышающим 1, от каждой другой последовательности с усеченным индексом в упомянутом поднаборе.

18. Способ по любому из пп. 15-17, в котором корректируемые последовательности вырабатываются для индексной последовательности поднабора, где упомянутые корректируемые последовательности имеют секвенциальное расстояние, которое составляет менее половины секвенциального расстояния между индексными последовательностями упомянутого поднабора, и где корректируемые последовательности различных индексных последовательностей в упомянутом поднаборе не перекрываются.

19. Способ по любому из пп. 15-18, содержащий выработку поднабора более низкого уровня путем включения поднабора более высокого уровня и добавления дополнительных олигонуклеотидов с индексными последовательностями с меньшим секвенциальным расстоянием, чем для поднабора более высокого уровня, друг к другу в пределах поднабора более низкого уровня.

20. Способ по любому из пп. 15-19, содержащий выработку третьего поднабора путем включения второго поднабора и добавления дополнительных олигонуклеотидов с индексными последовательностями с третьим секвенциальным расстоянием друг от друга в пределах третьего поднабора, где третье секвенциальное расстояние является меньшим секвенциальным расстоянием, чем второе секвенциальное расстояние.

21. Способ по любому из пп. 15-20, в котором выработка поднабора содержит выбор индексных последовательностей путем добавления индексной последовательности-кандидата и оценку секвенциального расстояния индексного расстояния-кандидата во всех других ранее существовавших индексных последовательностях в поднаборе; и добавление индексной последовательности- кандидата к индексным последовательностям поднабора, если она удовлетворяет заданному требованию к секвенциальному расстоянию.

22. Способ по п. 21, в котором индексная последовательность-кандидат содержит не менее 50% своих позиций типа нуклеотидов генетического кода с наименьшей частотой в соответствующей позиции в ранее существовавших индексных последовательностях поднабора.

23. Способ по п. 21 или 22, в котором индексная последовательность-кандидат выбирается из пула индексных последовательностей-кандидатов, где элементы пула индексных последовательностей-кандидатов выполняют заданное требование к секвенциальному расстоянию для каждого другого элемента пула, и где индексная последовательность-кандидат пула добавляется к индексным последовательностям поднабора тогда, когда сумма абсолютных значений разностей частот каждого нуклеотидного типа генетического кода в каждой позиции до 0,25 является наименьшей для индексной последовательности-кандидата по сравнению с другими кандидатами индексной последовательности пула.

24. Способ по п. 23, в котором критерии, изложенные в п. 22, применяются по меньшей мере к 25% индексных последовательностей-кандидатов, которые добавляются в поднабор последними.

25. Способ по п. 23 или 24, в котором пул индексных последовательностей содержит по меньшей мере в 2 раза больше элементов, чем поднабор.

26. Способ по любому из пп. 21-25, в котором по меньшей мере в 50% позиций индексных последовательностей частота для всех индексных последовательностей поднабора для каждого типа нуклеотидов составляет 0,5 или менее.

27. Способ по любому из пп. 21-26, содержащий выработку множества поднаборов-кандидатов, каждый из которых имеет заданное количество элементов, как в способах по любому из пп. 21-26, и выбор поднабора-кандидата в качестве поднабора, когда упомянутый поднабор-кандидат имеет наименьшее среднее значение по всем индексным последовательностям для соответствующего поднабора-кандидата суммы абсолютных значений разностей частот каждого нуклеотидного типа генетического кода в каждой позиции до 0,25.

28. Способ по любому из пп. 21-27, содержащий выработку множества поднаборов-кандидатов, каждый из которых имеет заданное количество элементов, как в способах по любому из пп. 21-27, и выбор поднабора-кандидата в качестве поднабора, где упомянутый поднабор-кандидат выбирается путем исключения других поднаборов-кандидатов,

где поднабор-кандидат исключается тогда, когда в способе, который содержит добавление кандидатов-индексных последовательностей из пула индексных последовательностей-кандидатов к поднабору-кандидату и при необходимости дополнительное добавление сравнительных индексных последовательностей, кандидат-поднабор имеет более высокое среднее значение во всех своих суммах индексных последовательностей абсолютных значений разностей частот каждого нуклеотидного типа генетического кода в каждой позиции до 0,25 по сравнению с другим поднабором или поднабором-кандидатом

29. Способ присвоения секвенирующих прочтений образцу олигонуклеотидов, содержащий этапы

а) получение образцов олигонуклеотидов из множества образцов,

b) выбор поднабора последовательностей олигонуклеотидных индексов из набора по любому из пп. 1-14 или из набора, который может быть получен или получен способом по любому из пп. 15-28, где поднабор выбирается из другого поднабора на основе большего секвенциального расстояния между индексными последовательностями друг от друга в пределах выбранного поднабора; где секвенциальное расстояние представляет собой количественную величину изменений последовательностей, которая преобразует одну последовательность в другую, или монотонно убывающую функцию вероятности изменений последовательностей, которая преобразует одну последовательность в другую, и где выбранный поднабор имеет по меньшей мере такое же количество различных индексных последовательностей, как и количество образцов на этапе а),

c) добавление индексных последовательностей из упомянутого поднабора в каждый олигонуклеотид образца, где индексные последовательности указывают образец,

d) определение последовательности образцовых олигонуклеотидов или фрагментов образцовых олигонуклеотидов и определение индексной последовательности,

e) присвоение последовательности с полученным прочтением образцу на основе определенной индексной последовательности или на основе индексной последовательности, которая имеет наименьшее секвенциальное расстояние до определенной индексной последовательности, где, если две или более индексных последовательностей имеют одинаковое наименьшее расстояние, то упомянутое полученное прочтение отбрасывается; где при необходимости секвенциальное расстояние не превышает заданного значения согласно критерию.

30. Способ по п. 29, в котором этап b) содержит выбор олигонуклеотидов с индексными последовательностями из набора по любому из пп. 1-14 или набора, который может быть получен или получен с помощью способа по любому из пп. 15-28, где выбирается поднабор олигонуклеотидов с наибольшим секвенциальным расстоянием между индексными последовательностями в поднаборе, который имеет по меньшей мере такое же количество различных индексных последовательностей, как и количество образцов на этапе а).

31. Способ по п. 29 или 30, в котором определение последовательности нуклеотидов индексной последовательности содержит определение последовательности всей индексной последовательности или ее части, где предпочтительно определяется частичная индексная последовательность в случае, если секвенциальное расстояние от одной частичной индексной последовательности до другой частичной индексной последовательности в одном том же поднаборе больше, чем ненулевое значение согласно критерию.

32. Способ по п. 31, в котором частичная индексная последовательность имеет свойства секвенциального расстояния усеченной индексной последовательности согласно варианту осуществления 2 или 3.

Настоящее изобретение далее определяется следующими примерами, не ограничиваясь этими вариантами осуществления изобретения.

Примеры

Пример 1. Выработка сбалансированных по нуклеотидам наборов штрихкодов ff-Levenshtein-7(8,10,12)

Для получения наборов штрихкодов в этом разделе мы использовали алгоритм 4 поиска, описанный выше в разделе 4.1, с фиксированным расстоянием Левенштейна в качестве секвенциального расстояния. На этапе 1 алгоритма мы устанавливаем , и , и , в результате чего получается набор штрихкодов ff-Levenshtein-5(8,10,12). Далее, мы выбрали для расстояний между штрихкодами и при , и и расстояния исправления ошибок , где возвращает наибольшее целое число, меньшее . Эти расстояния между штрихкодами и исправления ошибок можно найти в таблице 1. Набор потенциальных штрихкодов в алгоритме 4 поиска требовался для выполнения . Следовательно, первая последовательность, удовлетворяющая требованиям расстояния на этапе 4, была добавлена к набору штрихкодов на этапе 6. Так как расстояние Левенштейна с фиксированной рамкой и позиционное распределение нуклеотидов не зависят от алфавита последовательности, мы первоначально создали наборы штрихкодов из алфавита 0, 1, 2, 3. Во избежание последовательностей штрихкодов, состоящих полностью из одного нуклеотида, а также подобных последовательностей, мы инициировали наш набор штрихкодов при . После завершения поиска эти последовательности были удалены из набора штрихкодов. Это привело к вложенным наборам штрихкодов, из которых мы выбрали вложенные наборы штрихкодов со сбалансированным распределением нуклеотидов и поднаборами размеров 4, 8, 16, 24, 96, 768, 9216, таким образом, получив набор штрихкодов ff-Levenshtein-7(8,10,12). Выбор производился по алгоритму, описанному в разделе 4.3. Порядок, в котором элементы дополнения обрабатывались на этапе 4 алгоритма 4 поиска, выбирался случайным образом. Таким образом, повторения алгоритма давали разные результаты. Таким образом, мы выработали 245 наборов штрихкодов, из которых был выбран окончательный набор. Среди при мы выбрали вложенный набор штрихкодов, чьи распределения нуклеотидов имели минимальное расстояние от равномерного позиционного распределения нуклеотидов. Как и прежде, мы установили . На последнем этапе мы рассмотрели пары различных отображений из алфавита в , получив пары наборов штрихкодов, и рассчитали температуру плавления всех гомо- и димеров. В итоге мы выбрали пару наборов штрихкодов с наименьшими температурами плавления и выбрали один из наборов штрихкодов как «индексы i7», и другой как «индексы i5». Обозначения i5 и i7 относятся к двойным индексам, добавленным к разным участкам олигонуклеотида, который необходимо пометить (смотри фиг. 7 и ссылку [5]). Количество элементов и расстояние между штрихкодами вложенных поднаборов в конечном наборе ff-Levenshtein-7(8,10,12) приведены в таблице 1 для вложенных последовательностей длиной 8, 10 и 12 нуклеотидов. Длины 8 и 10 вложены в большую(ие) последовательность(и).

Таблица 1. Размер и расстояние между штрихкодами поднаборов в ff-Leveshtein-7(8,10,12).

8nt 10nt 12nt i |B_i| j |B'_j| d_i,3 f_i,3 d_i,2 f_i,2 d_i,1 f_i,1 1 4 1 6 5 2 6 2 7 3 2 8 2 25 4 1 5 2 6 2 3 16 2 25 4 1 5 2 6 2 4 24 2 25 4 1 5 2 6 2 5 96 3 104 3 1 4 1 5 2 6 768 4 835 2 0 3 1 4 1 7 9216 5 9545 1 0 2 0 3 1

104 индексные последовательности i7 и i5 в длиной 12 содержатся в списке последовательностей. SEQ ID NO: от 1 до 104 представляют собой индексные последовательности i7, и SEQ ID NO: от 105 до 208 представляют собой индексные последовательности i5. Ассоциация между порядковыми номерами и поднаборами , штрихкодов представлена в таблице 2. Это ясно показывает вложенную структуру поднаборов. Подпоследовательностями в этих индексах являются первые 8 и 10 нуклеотидов, что демонстрирует вложенную структуру подпоследовательностей в ff-Levenshtein-7(8,10,12).

Таблица 2. Порядковые номера штрихкодов в поднаборах.

Для набора i7:

i B_i j B'_j 1 SEQ ID NO: 1-4 1 SEQ ID NO: 1-4, 9, 10 2 SEQ ID NO: 1-8 2 SEQ ID NO: 1-25 3 SEQ ID NO: 1-16 2 SEQ ID NO: 1-25 4 SEQ ID NO: 1-24 2 SEQ ID NO: 1-25 5 SEQ ID NO: 1-96 3 SEQ ID NO: 1-104

Для набора i5:

i B_i j B'_j 1 SEQ ID NO: 105-108 1 SEQ ID NO: 105-108, 113, 114 2 SEQ ID NO: 105-112 2 SEQ ID NO: 105-129 3 SEQ ID NO: 105-120 2 SEQ ID NO: 105-129 4 SEQ ID NO: 105-128 2 SEQ ID NO: 105-129 5 SEQ ID NO: 105-200 3 SEQ ID NO: 105-208

На фиг. 7, 8, 9 и 10 показано позиционное распределение нуклеотидов для , , и . Здесь ось x представляет позицию штрихкода, , и ось y представляет , долю нуклеотида в позиции . Каждая из 4-х линий на этих фигурах представляет долю одного из 4 нуклеотидов . Для , который содержит 4 штрихкода, является однородным, если в каждой позиции каждый нуклеотид встречается ровно в одном штрихкоде. Если распределен неравномерно по позиции , то по меньшей мере один из нуклеотидов не содержится ни в одном из 4-х штрихкодов в позиции и, следовательно, в. Следовательно, на фиг. 8 показано, что распределен неравномерно в 8 позициях. Таким образом, в этих позициях присутствуют только один нуклеотид и остальные нуклеотиды. Этого достаточно для получения хороших показателей качества на двухцветных секвенаторах Illumina, которые требуют наличия A или C и дополнительно G или T [5] в каждой позиции. На фиг. 8, 9 и 10 показано, что для , и все нуклеотиды присутствуют во всех позициях, так как линии на этих графиках никогда не равны нулю. Для , который содержит 8 штрихкодов, на фиг. 9 показано, что в 8 позициях один нуклеотид встречается только один раз. Для , при , на фиг. 10 показано одна позиция, в котором один нуклеотид встречается только дважды. На фиг. 11 показаны для при две позиции, в которых один нуклеотид встречается четыре раза, и другая позиция, в которой два нуклеотида встречаются четыре раза. Эти позиции являются позициями , где наиболее сильно отклоняется от равномерного распределения. В целом это показывает, что распределение приближается к равномерному распределению с увеличением .

Пример 2/ Перекрестное загрязнение в прогонах RNA-Seq с наборами штрихкодов Hamming(6) и ff-Levenshtein-7(8,10,12)

Для экспериментов в этом разделе мы синтезировали 96 штрихкодов длиной 12 в из сбалансированного по нуклеотидам набора штрихкодов ff-Levenshtein-7(8,10.12) из примера 1. Далее мы синтезировали 96 штрихкодов длиной 6, которые имели минимальное расстояние Хэмминга, равное 3. Следовательно, этот набор может исправить одну замену. Мы синтезировали оба набора штрихкодов как индексы i5 и i7 и использовали их как уникальные двойные индексы (UDI) для мечения 96 образцов коммерчески доступной универсальной эталонной RNA человека (UHRR) в двух прогонах RNA-Seq с двойным индексом. UDI - это UCDI с дополнительным требованием относительно того, чтобы файлы . Впоследствии мы демультиплексировали каждый прогон по отношению ко всем 96 кортежам штрихкодов i5/i7 соответствующих UDI и оценили частоту скачкообразных переходов штрихкодов, а также скорости перекрестного загрязнения после исправления ошибок. Далее мы рассчитали чистоту, то есть долю . В случае набора ff-Levenshtein-7(8,10,12) мы провели этот анализ для всех длин штрихкода 8, 10 и 12. Результаты можно найти в таблице 3. Это показывает, что без исправления ошибок частота появления ошибок для ff-Levenshtein-7(8,10,12) является почти одинаковой для длины 8, 10 и 12 и составляет 0,01%, в то время как чистота является самой высокой для длины 8 при 93,028% и самой низкой для длины 12 при 90,913%. Снижение чистоты с увеличением длины штрихкода ассоциировано с тем, что более длинные последовательности имеют больше шансов содержать ошибку. По сравнению с ff-Levenshtein-7(8,10,12), для Hamming(6) частота появления ошибок значительно выше и составляет 0,244%. Это увеличение по сравнению с ff-Levenshtein-7(8,10,12) в 24 раза является не только результатом более короткой длины штрихкода, но и из-за другого расстояния, используемого для дизайна штрихкода. По сравнению с расстоянием ff-Levenshtein наборы штрихкодов, разработанные с учетом расстояния Хэмминга, не гарантируют разумного расстояния между штрихкодами после вставок и делеций. Это также можно увидеть при исправлении одиночной ошибки для Хэмминга (6), что увеличивает частоту появления ошибок примерно от 7 до 1,5%. Для сравнения, при исправлении одной ошибки для ff-Levenshtein-7(8,10,12) частота появления ошибок на длине 12 остается неизменной на уровне 0,01%, и чистота увеличивается до 97,013%. Для ff-Levenshtein-7(8,10,12) и длины 10 частота появления ошибок немного увеличивается, и для ff-Levenshtein-7(8,10,12) и длины 8 частота появления ошибок увеличивается в 10 раз до 0,1%. Это показывает, что если необходимо исправить одну ошибку, рекомендуется использовать штрихкод длиной не менее 10 для ff-Levenshtein-7(8,10,12). С другой стороны, если необходимо выбрать длину штрихкода 12, рекомендуется выполнить исправление ошибок, так как это повысит чистоту до того же уровня, что и для длины штрихкода 8 и 10. Исправление 2 ошибок, что возможно только для ff- Левенштейна (12), приводит лишь к небольшому повышению чистоты за счет более чем двукратного увеличения частоты появления ошибок до 0,024%. Следовательно, исправление двух ошибок с ff-Levenshtein-7(8,10,12) и длиной 12 является нецелесообразным. В целом результаты экспериментов в таблице 3 показывают, что перекрестное загрязнение для ff-Levenshtein-7(8,10,12) значительно ниже, чем для Hamming(6), в то время как чистота увеличивается. Кроме того, результаты показывают, что все длины штрихкода ff-Levenshtein-7(8,10,12) могут использоваться для мультиплексирования образцов при прогоне RNA-Seq.

Таблица 3. Ошибка и чистота (%) для Hamming(6) (H(6)) и ff-Levenshtein-7(8,10,12) с длиной 8 (ff-L(8)), 10 (ff-L(10)) и 12 (ff-L(12)) без исправления ошибок и с исправлением 1 ошибки (1c) и 2 ошибок (2c).

Н(6) Н(6) 1с ff-L(8) ff-L(10) ff-L(12) ff-L(8)1с ff-L(10)1с ff-L(12)1c ff-L(12)2с Ошибка 0,244 1,564 0,010 0,009 0,009 0,110 0,015 0,010 0,024 Чистота 90.025 95,711 93.028 91,953 90,913 97.590 97,251 97.013 97,768

Пример 3. Количественная оценка различных типов перекрестного загрязнения с низким уровнем ff-Levenshtein-5(8,10,12)

В этом разделе представлены результаты экспериментов по оценке перекрестного загрязнения на разных этапах синтеза индекса, подготовки библиотеки и секвенирования. Чтобы измерить ожидаемые низкие уровни перекрестного загрязнения, мы выбрали 12 штрихкодов из 25 штрихкодов в ff-Levenshtein-5(8,10,12) из примера 1. Выбранный набор штрихкодов содержал все штрихкоды в , и в результате 6 штрихкодов имели расстояние ff-Levenshtein, равное 7, для длины штрихкода 12, в то время как все 12 штрихкодов имели расстояние ff-Levenshtein, равное 6. Мы разделили этот набор штрихкодов на 3 набора из 4 штрихкодов, которые были синтезированы 3 поставщиками синтеза олигонуклеотидов как штрихкоды i5 и i7. Мы использовали штрихкоды как уникальные двойные индексы при . Такие наборы уникальных двойных индексов также называются уникальными двойными индексами (UDMI) [5]. В нашем эксперименте мы пометили 9 образцов UHRR в разделе 3.2 с 3 UDMI каждого поставщика синтеза. Остальные 3 UDMI, по одному для каждого поставщика, никогда не трогались. Этот экспериментальный дизайн позволяет оценить перекрестное загрязнение на сайте поставщика синтеза, так как обнаружение пропущенного штрихкода после демультиплексирования показывает, что этот штрихкод оказался в неправильной пробирке перед доставкой. Как и в примере 2, мы демультиплексировали по отношению ко всем кортежам из 96 штрихкодов в ff-Levenshtein-7(8,10,12). Это дало нам счетную матрицу со строками и столбцами, помеченными и . Различные типы перекрестного загрязнения соответствуют разным областям в этой матрице, которые показаны на фиг. 12. Подсчеты в области C соответствуют кортежам штрихкодов, где по меньшей мере один из , не появился ни на одном этапе эксперимента. Таким образом, подсчеты в области C количественно определяют частоту, с которой прогон RNA-Seq случайным образом вырабатывает индекс i5 или i7 в наборе штрихкодов. Область B содержит кортежи штрихкодов, где оба и были синтезированы, но по меньшей мере один из них никогда не использовался в эксперименте. Таким образом, подсчеты в области B количественно определяют кумулятивное случайное перекрестное загрязнение и перекрестное загрязнение на сайте поставщика синтеза. Область A содержит кортежи , где как , так и были синтезированы и использовались в эксперименте. Таким образом, недиагональные элементы в области А количественно определяют кумулятивное случайное, зависящее от места, и экспериментальное перекрестное загрязнение. Экспериментальное перекрестное загрязнение содержит, среди прочего, перекрестное загрязнение из-за ошибок при обращении, лабораторных условий и экспериментальных ошибок, зависящих от поставщика. Последнее может быть, например, результатом нестабильности синтезированных последовательностей во время секвенирования. Различия в экспериментальной ошибке, зависящей от поставщика синтеза, отражаются различиями в недиагональных подсчетах в областях P1, P2 и P3, которые содержат кортежи штрихкодов, выработанные поставщиком 1, 2 и 3. Из областей в матрице подсчета на фиг. 12 мы получили количественные значения перекрестного загрязнения в таблице 4. Из-за небольших уровней перекрестного загрязнения значения в таблице 4 даны в частях на миллион. Строки в таблице 4 помечены областью, в которой было измерено перекрестное загрязнение. Метка строки «Cdiag» означает количество перекрестного загрязнения по диагонали области «C». Метка «A-nonP» означает независимое от поставщика экспериментальное перекрестное загрязнение. Мы оцениваем последнее путем вычитания поставщика, зависящего от общего экспериментального перекрестного загрязнения. Во избежание недооценки независимого от поставщика экспериментального перекрестного загрязнения, мы предполагаем, что наименьшее перекрестное загрязнение, измеренное для любого поставщика, является полностью результатом независимых от поставщика факторов. С другой стороны, мы предполагаем, что различия между экспериментальным перекрестным загрязнением, зависящим от поставщика, полностью являются результатом факторов, зависящих от поставщика. Таким образом, в таблице 4 мы вычисляем независимое от поставщика экспериментальное перекрестное загрязнение как .

Таблица 4. Количество (частей на миллион) различных типов перекрестного загрязнения, зависящего от поставщика синтеза

ff-L(8) ff-L(10) ff-L(12) С 52,565 0,072 0,000 Cdiag 16,741 0,000 0,000 Б 0,019 0,003 0,003 А 18,840 14,599 11,904 Р1 1,367 1,197 1,095 Р2 0,382 0,339 0,283 Р3 5,256 3,857 3,122 A-nonP 12,981 10,223 8,253 Всего 71,424 14,674 11,907

В таблице 4 показано, что общее перекрестное загрязнение значительно увеличивается при уменьшении длины штрихкода до 8. Для длины 10 и 12 штрихкодов общее перекрестное загрязнение меньше приблизительно в 5 и 6 раз, соответственно. Основной вклад в это увеличение вносит большая случайная ошибка (C) для длины 8 штрихкода. В таблице 4 также показано, что общее перекрестное загрязнение на сайте поставщика (B) является незначительным. Однако экспериментальное перекрестное загрязнение заметно различается между поставщиками. По сравнению с поставщиком 2 (P2) экспериментальное перекрестное загрязнение для поставщиков 1 (P1) и 3 (P3) выше примерно в 4 и 11 раз, соответственно. Независимое от поставщика экспериментальное перекрестное загрязнение (A-nonP) для всех длин штрихкодов близко к 69% от общей суммы за вычетом случайного перекрестного загрязнения, что указывает на то, что 69% неслучайного перекрестного загрязнения в этом эксперименте вносится источниками, независящими от поставщика.

В целом, результаты, приведенные в этом примере, показывают, что набор штрихкодов ff-Levenshtein-5(8,10,12) можно использовать с длинами 8, 10 и 12 штрихкодов для количественной оценки низких уровней перекрестного загрязнения. Это является необходимой предпосылкой для выявления и уменьшения различных источников перекрестного загрязнения.

Список литературы

[1] Buschmann and Bystrykh. BMC Bioinformatics, 14:272, 2013

[2] Conway and Sloane. IEEE Trans. Inf. Theor., 32(3):337-348, 1986

[3] Hawkins et al. PNAS, 115(27): E6217-E6226, 2018

[4] WO 2018/204423 A1

[5] MacConaill et al. BMC Genomics, 19(1):30-30, 2018

[6] WO 2018/136248 A1

[7] WO 2018/204423 A1

[8] WO 2011/100617 A1

Все ссылки включены в настоящее описание путем ссылки.

--->

СПИСОК ПОСЛЕДОВАТЕЛЬНОСТЕЙ

<110> LEXOGEN GMBH

<120> Index sequences for multiplex parallel sequencing

<130> R 77289

<150> EP19214355.0

<151> 2019-12-09

<160> 784

<210> 1

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 1

aaacgttcat cc 12

<210> 2

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 2

ttgtccgata tg 12

<210> 3

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 3

cgggaacccg ca 12

<210> 4

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 4

gtttaaaggc ag 12

<210> 5

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 5

tcctctcttc ta 12

<210> 6

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 6

ccaaagaggg at 12

<210> 7

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 7

gaagggtaaa gc 12

<210> 8

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 8

agtctcagca aa 12

<210> 9

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 9

gcactgacgc ta 12

<210> 10

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 10

cccaattttg cc 12

<210> 11

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 11

cagataatac gt 12

<210> 12

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 12

aggtggttct ac 12

<210> 13

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 13

agaggccgaa ca 12

<210> 14

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 14

cttaccgggt ac 12

<210> 15

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 15

tgctaaatta gt 12

<210> 16

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 16

tacgcccacg tg 12

<210> 17

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 17

atcgacttgt gt 12

<210> 18

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 18

ctatgcaagc tg 12

<210> 19

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 19

aaccctggga ag 12

<210> 20

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 20

tattggcggc ct 12

<210> 21

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 21

ccgggcgtca tg 12

<210> 22

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 22

gatttccccc ga 12

<210> 23

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 23

attatatctg aa 12

<210> 24

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 24

tcaacaaccg gt 12

<210> 25

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 25

tggagactgg gc 12

<210> 26

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 26

ctgtagtcgc ca 12

<210> 27

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 27

acaggactct gg 12

<210> 28

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 28

atttttaggg cc 12

<210> 29

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 29

ttatcactcc tt 12

<210> 30

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 30

cactagtttc gt 12

<210> 31

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 31

gcctaataca ac 12

<210> 32

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 32

acgatacgcc aa 12

<210> 33

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 33

ccgacggacc at 12

<210> 34

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 34

gaattcgtat ac 12

<210> 35

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 35

gacccgtctt ga 12

<210> 36

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 36

caccagagat at 12

<210> 37

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 37

aaaatcccag tt 12

<210> 38

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 38

tacggtatag aa 12

<210> 39

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 39

gcatccatgc at 12

<210> 40

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 40

gagtcggtgg ca 12

<210> 41

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 41

caccttcggt tg 12

<210> 42

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 42

ctctttaaac aa 12

<210> 43

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 43

gcgtgttaac gc 12

<210> 44

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 44

gtgagtagta gt 12

<210> 45

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 45

tgccatgttc gg 12

<210> 46

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 46

aaatgtagtg ag 12

<210> 47

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 47

tgtggggtga tt 12

<210> 48

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 48

gagcacgcga gc 12

<210> 49

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 49

taattacaaa ga 12

<210> 50

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 50

aagttgcggg ta 12

<210> 51

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 51

ccgttgaagg gg 12

<210> 52

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 52

aaactaactg tc 12

<210> 53

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 53

gctagctcag at 12

<210> 54

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 54

cgagtttatc ag 12

<210> 55

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 55

agcaaaggat gt 12

<210> 56

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 56

tcgagtcccg ga 12

<210> 57

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 57

ttccaaaaaa tg 12

<210> 58

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 58

tcctagcgat tt 12

<210> 59

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 59

taaccagcac tt 12

<210> 60

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 60

tttgtggaca cg 12

<210> 61

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 61

ttgcgttctc aa 12

<210> 62

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 62

atcggaaaat tc 12

<210> 63

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 63

actaagcgcg tg 12

<210> 64

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 64

ccgccctatt tc 12

<210> 65

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 65

cttaatgata tc 12

<210> 66

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 66

tgttttgcta ac 12

<210> 67

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 67

gaaaatttac gc 12

<210> 68

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 68

ttgacagcgt cg 12

<210> 69

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 69

cctggtactt tc 12

<210> 70

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 70

gtcaggctgc gt 12

<210> 71

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 71

ctctccatcg aa 12

<210> 72

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 72

gcgccgggtc cc 12

<210> 73

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 73

tataagggaa tg 12

<210> 74

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 74

attcctgagt ta 12

<210> 75

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 75

cccaccgtaa gc 12

<210> 76

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 76

aatagctttt tc 12

<210> 77

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 77

gtaccgaacc cg 12

<210> 78

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 78

ttccccgttt ag 12

<210> 79

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 79

acccgaacga gc 12

<210> 80

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 80

aagccacccc cg 12

<210> 81

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 81

atgcattgcc ct 12

<210> 82

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 82

aggcttaatc gg 12

<210> 83

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 83

ttaggacgca aa 12

<210> 84

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 84

cgaccactac cg 12

<210> 85

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 85

cgggtagggc gt 12

<210> 86

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 86

aatgaccgta gg 12

<210> 87

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 87

attcaacctc ta 12

<210> 88

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 88

caaggtcccc tt 12

<210> 89

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 89

gatagaaaca cc 12

<210> 90

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 90

gtggcaccac tt 12

<210> 91

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 91

agcttctttt cc 12

<210> 92

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 92

tcgtctggcc gt 12

<210> 93

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 93

atccgccagg at 12

<210> 94

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 94

tgaggcattt gg 12

<210> 95

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 95

gacattattc tt 12

<210> 96

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 96

taagatcgat ta 12

<210> 97

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 97

gtttgacttt at 12

<210> 98

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 98

aaaacatgcg tt 12

<210> 99

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 99

caaattggaa cg 12

<210> 100

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 100

atgggctaga ca 12

<210> 101

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 101

gcgcgaagtt ga 12

<210> 102

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 102

ccattgtcta aa 12

<210> 103

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 103

tcccggctaa aa 12

<210> 104

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 104

gtcaaatgtc ct 12

<210> 105

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 105

cccagttact aa 12

<210> 106

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 106

ttgtaagctc tg 12

<210> 107

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 107

agggccaaag ac 12

<210> 108

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 108

gtttcccgga cg 12

<210> 109

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 109

taatatatta tc 12

<210> 110

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 110

aacccgcggg ct 12

<210> 111

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 111

gccgggtccc ga 12

<210> 112

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 112

cgtatacgac cc 12

<210> 113

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 113

gacatgcaga tc 12

<210> 114

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 114

aaaccttttg aa 12

<210> 115

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 115

acgctcctca gt 12

<210> 116

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 116

cggtggttat ca 12

<210> 117

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 117

cgcggaagcc ac 12

<210> 118

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 118

attcaagggt ca 12

<210> 119

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 119

tgatcccttc gt 12

<210> 120

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 120

tcagaaacag tg 12

<210> 121

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 121

ctagcattgt gt 12

<210> 122

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 122

atctgaccga tg 12

<210> 123

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 123

ccaaatgggc cg 12

<210> 124

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 124

tcttggagga at 12

<210> 125

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 125

aagggagtac tg 12

<210> 126

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 126

gctttaaaaa gc 12

<210> 127

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 127

cttctctatg cc 12

<210> 128

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 128

taccaccaag gt 12

<210> 129

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 129

tggcgcatgg ga 12

<210> 130

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 130

atgtcgtaga ac 12

<210> 131

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 131

cacggcatat gg 12

<210> 132

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 132

ctttttcggg aa 12

<210> 133

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 133

ttctacataa tt 12

<210> 134

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 134

acatcgttta gt 12

<210> 135

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 135

gaatcctcac ca 12

<210> 136

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 136

cagctcagaa cc 12

<210> 137

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 137

aagcaggcaa ct 12

<210> 138

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 138

gccttagtct ca 12

<210> 139

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 139

gcaaagtatt gc 12

<210> 140

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 140

acaacgcgct ct 12

<210> 141

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 141

cccctaaacg tt 12

<210> 142

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 142

tcaggtctcg cc 12

<210> 143

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 143

gactaactga ct 12

<210> 144

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 144

gcgtaggtgg ac 12

<210> 145

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 145

acaattaggt tg 12

<210> 146

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 146

atatttccca cc 12

<210> 147

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 147

gagtgttcca ga 12

<210> 148

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 148

gtgcgtcgtc gt 12

<210> 149

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 149

tgaactgtta gg 12

<210> 150

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 150

ccctgtcgtg cg 12

<210> 151

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 151

tgtggggtgc tt 12

<210> 152

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 152

gcgacagagc ga 12

<210> 153

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 153

tccttcaccc gc 12

<210> 154

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 154

ccgttgaggg tc 12

<210> 155

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 155

aagttgccgg gg 12

<210> 156

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 156

cccatccatg ta 12

<210> 157

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 157

gatcgatacg ct 12

<210> 158

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 158

agcgtttcta cg 12

<210> 159

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 159

cgacccggct gt 12

<210> 160

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 160

tagcgtaaag gc 12

<210> 161

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 161

ttaacccccc tg 12

<210> 162

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 162

taatcgagct tt 12

<210> 163

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 163

tccaacgaca tt 12

<210> 164

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 164

tttgtggcac ag 12

<210> 165

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 165

ttgagttata cc 12

<210> 166

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 166

ctaggcccct ta 12

<210> 167

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 167

catccgagag tg 12

<210> 168

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 168

aagaaatctt ta 12

<210> 169

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 169

attcctgctc ta 12

<210> 170

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 170

tgttttgatc ca 12

<210> 171

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 171

gcccctttca ga 12

<210> 172

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 172

ttgcacgagt ag 12

<210> 173

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 173

aatggtcatt ta 12

<210> 174

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 174

gtacggatga gt 12

<210> 175

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 175

atataactag cc 12

<210> 176

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 176

gagaagggta aa 12

<210> 177

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 177

tctccgggcc tg 12

<210> 178

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 178

cttaatgcgt tc 12

<210> 179

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 179

aaacaagtcc ga 12

<210> 180

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 180

cctcgatttt ta 12

<210> 181

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 181

gtcaagccaa ag 12

<210> 182

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 182

ttaaaagttt cg 12

<210> 183

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 183

caaagccagc ga 12

<210> 184

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 184

ccgaacaaaa ag 12

<210> 185

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 185

ctgacttgaa at 12

<210> 186

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 186

cggattccta gg 12

<210> 187

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 187

ttcggcagac cc 12

<210> 188

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 188

agcaacatca ag 12

<210> 189

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 189

agggtcggga gt 12

<210> 190

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 190

cctgcaagtc gg 12

<210> 191

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 191

cttaccaata tc 12

<210> 192

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 192

accggtaaaa tt 12

<210> 193

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 193

gctcgcccac aa 12

<210> 194

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 194

gtggacaaca tt 12

<210> 195

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 195

cgattatttt aa 12

<210> 196

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 196

tagtatggaa gt 12

<210> 197

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 197

ctaagaacgg ct 12

<210> 198

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 198

tgcggacttt gg 12

<210> 199

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 199

gcacttctta tt 12

<210> 200

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 200

tccgctagct tc 12

<210> 201

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 201

gtttgcattt ct 12

<210> 202

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 202

ccccactgag tt 12

<210> 203

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 203

acccttggcc ag 12

<210> 204

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 204

ctgggatcgc ac 12

<210> 205

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 205

gagagccgtt gc 12

<210> 206

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 206

aacttgtatc cc 12

<210> 207

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 207

taaaggatcc cc 12

<210> 208

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 208

gtaccctgta at 12

<210> 209

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 209

agtattatgc cc 12

<210> 210

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 210

agcacactta ca 12

<210> 211

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 211

agaatgtcga ca 12

<210> 212

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 212

aagtaacagc tt 12

<210> 213

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 213

tagactctga ct 12

<210> 214

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 214

atagacgatc cc 12

<210> 215

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 215

tcatgccgaa ct 12

<210> 216

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 216

cgtcgaatat gg 12

<210> 217

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 217

atgacccaga tg 12

<210> 218

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 218

atttggccga tt 12

<210> 219

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 219

agtggcgcaa gc 12

<210> 220

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 220

cgccttttag gg 12

<210> 221

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 221

ctcggtgatc gt 12

<210> 222

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 222

ccgtgtgctg aa 12

<210> 223

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 223

atcctgtgcc ta 12

<210> 224

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 224

tctaatctga cg 12

<210> 225

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 225

agtggataag tt 12

<210> 226

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 226

tgccctcaaa cc 12

<210> 227

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 227

ctcccctgtg ac 12

<210> 228

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 228

gtatgcggta gc 12

<210> 229

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 229

ccactacatc tt 12

<210> 230

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 230

ctaaacttct tg 12

<210> 231

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 231

gcagatatgg ta 12

<210> 232

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 232

tctgcttgag gt 12

<210> 233

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 233

gaaatgtgaa gg 12

<210> 234

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 234

caaacgctga gg 12

<210> 235

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 235

gctactttgg gg 12

<210> 236

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 236

agaaattggc at 12

<210> 237

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 237

ctgccaacac ga 12

<210> 238

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 238

ccaaatcctt cg 12

<210> 239

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 239

cgcccaaata tc 12

<210> 240

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 240

tttatcgtta at 12

<210> 241

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 241

acgtcaacgt cc 12

<210> 242

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 242

tcaggtaaac tt 12

<210> 243

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 243

agagtattag ag 12

<210> 244

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 244

tacatggcca ct 12

<210> 245

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 245

gcaggttctc gt 12

<210> 246

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 246

cgatgataac gg 12

<210> 247

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 247

agttctacgg ac 12

<210> 248

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 248

tctcagattc at 12

<210> 249

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 249

actgtcccgc ta 12

<210> 250

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 250

atgacggtga gc 12

<210> 251

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 251

gaccgtgcgc aa 12

<210> 252

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 252

tactcgtgct gt 12

<210> 253

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 253

gttcataatc ac 12

<210> 254

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 254

agagaagcgt ta 12

<210> 255

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 255

aggacatcgg ac 12

<210> 256

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 256

tgcgttaact ct 12

<210> 257

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 257

aacttgtaaa ta 12

<210> 258

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 258

tatcctactc at 12

<210> 259

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 259

ccacgagcac tg 12

<210> 260

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 260

gcgttcgatg aa 12

<210> 261

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 261

ttagctatct tg 12

<210> 262

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 262

aggtcctggg ga 12

<210> 263

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 263

acttcgtcca gt 12

<210> 264

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 264

tagtgcttct aa 12

<210> 265

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 265

gccggaggtc tg 12

<210> 266

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 266

gttcgatcag ta 12

<210> 267

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 267

ccagaagtta tt 12

<210> 268

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 268

catagggagg gg 12

<210> 269

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 269

caggcgcgaa ga 12

<210> 270

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 270

cccgatagta ca 12

<210> 271

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 271

agcccgcgtc gt 12

<210> 272

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 272

tggccatacg ta 12

<210> 273

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 273

aagcggcaga gg 12

<210> 274

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 274

tacgcagtac aa 12

<210> 275

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 275

tctgtaattg ca 12

<210> 276

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 276

taccattcgc ag 12

<210> 277

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 277

cgcaagccct cg 12

<210> 278

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 278

cacgcgatgg gc 12

<210> 279

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 279

cacacaaggg ag 12

<210> 280

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 280

ttagtgttaa aa 12

<210> 281

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 281

taggggacat ca 12

<210> 282

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 282

gaaagatcgc cg 12

<210> 283

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 283

gaacgagaat gt 12

<210> 284

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 284

gcctcctccg tg 12

<210> 285

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 285

ctgatgtgag ag 12

<210> 286

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 286

attgatcaag ct 12

<210> 287

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 287

agacgggcac aa 12

<210> 288

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 288

ccctgcttac ga 12

<210> 289

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 289

ttaatgcgtg at 12

<210> 290

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 290

gtgctaatgg ga 12

<210> 291

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 291

cttaacacat aa 12

<210> 292

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 292

aaaaacggca gg 12

<210> 293

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 293

tgtttgagtc gg 12

<210> 294

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 294

tgcccgacag gt 12

<210> 295

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 295

aacgaatctg ta 12

<210> 296

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 296

gtcatccgtt tt 12

<210> 297

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 297

ataactctcc tc 12

<210> 298

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 298

tagaatacgg tt 12

<210> 299

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 299

acgttttgat tc 12

<210> 300

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 300

cgacctgaac gg 12

<210> 301

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 301

agtgtgaccg gt 12

<210> 302

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 302

ttataagccg tc 12

<210> 303

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 303

tattgaactc ca 12

<210> 304

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 304

cagttcctaa cc 12

<210> 305

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 305

acattcaagt gc 12

<210> 306

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 306

gcgacgctcg ta 12

<210> 307

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 307

cgtgatttaa ag 12

<210> 308

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 308

acctacagac ct 12

<210> 309

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 309

gtttattcag tg 12

<210> 310

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 310

gctcaccctc tt 12

<210> 311

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 311

acctgatgta tt 12

<210> 312

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 312

agttatgtgc ag 12

<210> 313

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 313

tcggctcaca ag 12

<210> 314

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 314

gctgcataca ag 12

<210> 315

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 315

gccccacatg at 12

<210> 316

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 316

aaagcctatc ac 12

<210> 317

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 317

ctatgttttt gc 12

<210> 318

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 318

cacgggtcag aa 12

<210> 319

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 319

gcgtaggcaa ga 12

<210> 320

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 320

tgtcgcaacg gc 12

<210> 321

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 321

atctcattat gg 12

<210> 322

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 322

gagatcagtc ag 12

<210> 323

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 323

ttcgaaccga ga 12

<210> 324

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 324

ctcactccgc cc 12

<210> 325

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 325

tttgcaaagc cg 12

<210> 326

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 326

cttgtaacga gt 12

<210> 327

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 327

gagtgtctga gg 12

<210> 328

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 328

acggcgccag gg 12

<210> 329

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 329

gtaagcacgt at 12

<210> 330

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 330

aagtctttgt cg 12

<210> 331

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 331

gacttcaatc ga 12

<210> 332

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 332

tctagacaaa gt 12

<210> 333

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 333

gatgcgctcc tt 12

<210> 334

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 334

gtactcccaa tg 12

<210> 335

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 335

tagcgaatat ct 12

<210> 336

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 336

gcattgcgaa tt 12

<210> 337

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 337

atggctggct ca 12

<210> 338

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 338

tatcaatacc cg 12

<210> 339

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 339

tcataaaggc ca 12

<210> 340

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 340

tgtgccctat aa 12

<210> 341

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 341

aggcaagaac gt 12

<210> 342

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 342

gtgcggccga gt 12

<210> 343

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 343

gcggagcacc ca 12

<210> 344

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 344

cgctcggtgg ga 12

<210> 345

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 345

accctagatc gc 12

<210> 346

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 346

cagaacgaat cc 12

<210> 347

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 347

ccgcaatgaa ct 12

<210> 348

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 348

tgagaggggt tc 12

<210> 349

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 349

catacttatt tg 12

<210> 350

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 350

catcgacgta cg 12

<210> 351

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 351

gccatctata ga 12

<210> 352

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 352

gcctctgaac ta 12

<210> 353

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 353

cccaggcagc tt 12

<210> 354

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 354

tagcccgggg ca 12

<210> 355

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 355

cacgtaccag tc 12

<210> 356

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 356

aatccggcgc ac 12

<210> 357

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 357

cctctcgaca tt 12

<210> 358

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 358

actgcgatcg tc 12

<210> 359

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 359

gtccaactca aa 12

<210> 360

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 360

tttcttcctc gc 12

<210> 361

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 361

tagccgttgt ac 12

<210> 362

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 362

gacgatcctc ac 12

<210> 363

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 363

gtgcttgcaa ac 12

<210> 364

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 364

cagtgaggta ct 12

<210> 365

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 365

tagtttaggg tg 12

<210> 366

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 366

ttttcgggat gg 12

<210> 367

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 367

gattacatga ga 12

<210> 368

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 368

ttcaacggta ag 12

<210> 369

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 369

aaggtagatg cg 12

<210> 370

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 370

ttcacgaatg ct 12

<210> 371

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 371

attcccttgg ta 12

<210> 372

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 372

agctccgatg cc 12

<210> 373

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 373

cgcaactaga ag 12

<210> 374

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 374

tatggttacc ag 12

<210> 375

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 375

gctacgagag ag 12

<210> 376

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 376

tggcggcggc ga 12

<210> 377

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 377

agatggcaac cc 12

<210> 378

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 378

agtaaccaca gc 12

<210> 379

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 379

ccttttgtac cc 12

<210> 380

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 380

ataagaagtg cc 12

<210> 381

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 381

aatcggagta ga 12

<210> 382

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 382

gcagtaagct gt 12

<210> 383

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 383

cgcggcacga ta 12

<210> 384

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 384

ctgcagctac tt 12

<210> 385

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 385

acagggggtg tc 12

<210> 386

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 386

gatccaagag gg 12

<210> 387

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 387

gacagtcgag ag 12

<210> 388

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 388

gttggagaaa ta 12

<210> 389

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 389

tcactctagg at 12

<210> 390

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 390

ttaataaacg ta 12

<210> 391

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 391

ttgatattcg ca 12

<210> 392

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 392

cgttggctcg cg 12

<210> 393

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 393

cgtctgtctt ca 12

<210> 394

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 394

aacagtgtca cc 12

<210> 395

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 395

gcgattaaat ca 12

<210> 396

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 396

cggagccgac cg 12

<210> 397

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 397

gtatagttgc ga 12

<210> 398

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 398

cgagcatcgg gt 12

<210> 399

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 399

tgactaccgt aa 12

<210> 400

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 400

ctttcatgtc tc 12

<210> 401

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 401

gcacctagcg gc 12

<210> 402

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 402

ctccgtctag ag 12

<210> 403

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 403

gtcgctagcc ag 12

<210> 404

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 404

ttcggttgta ta 12

<210> 405

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 405

gcggtatcat ca 12

<210> 406

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 406

taaagcgtac gc 12

<210> 407

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 407

ttcttacgca ag 12

<210> 408

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 408

acgcgcggac ta 12

<210> 409

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 409

agctataaga tc 12

<210> 410

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 410

gtaatggcaa ca 12

<210> 411

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 411

tccatttgat gc 12

<210> 412

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 412

cagggatttc ca 12

<210> 413

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 413

caatcaatgg ac 12

<210> 414

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 414

cgattctgat tg 12

<210> 415

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 415

tgggtcttcg cc 12

<210> 416

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 416

gtcgtcgaac gc 12

<210> 417

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 417

gaagtgcccc ca 12

<210> 418

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 418

gccgggaata ag 12

<210> 419

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 419

actttggaat ag 12

<210> 420

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 420

ttctggtccc ag 12

<210> 421

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 421

aacttaattt ct 12

<210> 422

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 422

tcgaagtgct gt 12

<210> 423

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 423

tcgcaacacg ct 12

<210> 424

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 424

gtatcttgtc ac 12

<210> 425

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 425

catgaagagg cg 12

<210> 426

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 426

tacgagctgg tt 12

<210> 427

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 427

cccttactgt ga 12

<210> 428

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 428

tccggtgcat tt 12

<210> 429

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 429

gccaaggtgc ta 12

<210> 430

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 430

cttccgcaaa ct 12

<210> 431

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 431

cggaagggaa cc 12

<210> 432

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 432

cgccgcgtta ag 12

<210> 433

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 433

ccttctagtt at 12

<210> 434

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 434

ttgtgaaaca tt 12

<210> 435

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 435

ccagtcctga ct 12

<210> 436

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 436

tccttaaccc gt 12

<210> 437

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 437

tgaaacgcgc aa 12

<210> 438

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 438

cgtccttgat cc 12

<210> 439

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 439

actggcagcg gg 12

<210> 440

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 440

cgttcacagc cg 12

<210> 441

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 441

tgaatcctcg ag 12

<210> 442

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 442

tgcgtcgcct ta 12

<210> 443

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 443

tctgaccaga aa 12

<210> 444

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 444

tattccgtcc aa 12

<210> 445

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 445

agatttcgct ac 12

<210> 446

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 446

caatgctcaa tt 12

<210> 447

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 447

tctttgcccc at 12

<210> 448

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 448

ctatatacgc gg 12

<210> 449

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 449

ccttagcaaa tc 12

<210> 450

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 450

tcgtactaat cg 12

<210> 451

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 451

gagcccctgc tc 12

<210> 452

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 452

gttgctgtcc ac 12

<210> 453

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 453

cgtgggaatg tc 12

<210> 454

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 454

atcatggata gg 12

<210> 455

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 455

gacttagccc ct 12

<210> 456

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 456

tcgtgtatga ct 12

<210> 457

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 457

aatgtcatgc at 12

<210> 458

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 458

ccccgttctt at 12

<210> 459

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 459

tgggatattt ac 12

<210> 460

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 460

tccctgtcat cg 12

<210> 461

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 461

ttaaagtaga gt 12

<210> 462

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 462

gcacttgtat cc 12

<210> 463

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 463

ctagttgcgc at 12

<210> 464

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 464

gttctttgct ga 12

<210> 465

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 465

tatatttctt at 12

<210> 466

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 466

ctgaaacagg gg 12

<210> 467

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 467

gagggttgct aa 12

<210> 468

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 468

ctagggtgcc ag 12

<210> 469

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 469

cggtcattcg cg 12

<210> 470

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 470

gatgtattgg tt 12

<210> 471

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 471

cctagagtag gt 12

<210> 472

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 472

caagaaacca cg 12

<210> 473

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 473

tgtggaagga at 12

<210> 474

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 474

tgcgtatggt tg 12

<210> 475

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 475

acgggtgatc ac 12

<210> 476

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 476

accgttggtg ac 12

<210> 477

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 477

atcagctgat aa 12

<210> 478

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 478

gctatcggct gg 12

<210> 479

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 479

agacagctaa ag 12

<210> 480

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 480

gaggtccaca ta 12

<210> 481

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 481

gtcctgcact gg 12

<210> 482

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 482

cttgagcctt aa 12

<210> 483

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 483

acacacacta gc 12

<210> 484

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 484

agggactccc tt 12

<210> 485

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 485

aaggacaata tt 12

<210> 486

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 486

atacatatat at 12

<210> 487

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 487

cctatgcttc ct 12

<210> 488

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 488

cggctggact gc 12

<210> 489

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 489

accctcataa gg 12

<210> 490

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 490

tagtagccgc ac 12

<210> 491

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 491

gatcatctgg aa 12

<210> 492

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 492

gagttataaa tt 12

<210> 493

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 493

gtgtccttac at 12

<210> 494

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 494

cgaatgcaga aa 12

<210> 495

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 495

cgagagattg at 12

<210> 496

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 496

accggctcga cc 12

<210> 497

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 497

cgtcttctga aa 12

<210> 498

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 498

cgacacattc ac 12

<210> 499

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 499

cgcctgtagc ac 12

<210> 500

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 500

ccgtccacga tt 12

<210> 501

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 501

tcgcatatgc at 12

<210> 502

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 502

ctcgcagcta aa 12

<210> 503

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 503

tactgaagcc at 12

<210> 504

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 504

agtagcctct gg 12

<210> 505

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 505

ctgcaaacgc tg 12

<210> 506

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 506

ctttggaagc tt 12

<210> 507

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 507

cgtggagacc ga 12

<210> 508

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 508

agaattttcg gg 12

<210> 509

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 509

ataggtgcta gt 12

<210> 510

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 510

aagtgtgatg cc 12

<210> 511

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 511

ctaatgtgaa tc 12

<210> 512

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 512

tatcctatgc ag 12

<210> 513

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 513

cgtggctccg tt 12

<210> 514

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 514

tgaaataccc aa 12

<210> 515

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 515

ataaaatgtg ca 12

<210> 516

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 516

gtctgaggtc ga 12

<210> 517

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 517

aacatcacta tt 12

<210> 518

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 518

atcccattat tg 12

<210> 519

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 519

gacgctctgg tc 12

<210> 520

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 520

tatgattgcg gt 12

<210> 521

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 521

gccctgtgcc gg 12

<210> 522

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 522

acccagatgc gg 12

<210> 523

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 523

gatcatttgg gg 12

<210> 524

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 524

cgcccttgga ct 12

<210> 525

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 525

atgaaccaca gc 12

<210> 526

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 526

aaccctaatt ag 12

<210> 527

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 527

agaaaccctc ta 12

<210> 528

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 528

tttctagttc ct 12

<210> 529

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 529

cagtaccagt aa 12

<210> 530

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 530

tacggtccca tt 12

<210> 531

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 531

cgcgtcttcg cg 12

<210> 532

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 532

tcactggaac at 12

<210> 533

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 533

gacggttata gt 12

<210> 534

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 534

agctgctcca gg 12

<210> 535

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 535

cgttatcagg ca 12

<210> 536

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 536

tatacgctta ct 12

<210> 537

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 537

catgtaaaga tc 12

<210> 538

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 538

ctgcaggtgc ga 12

<210> 539

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 539

gcaagtgaga cc 12

<210> 540

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 540

tcatagtgat gt 12

<210> 541

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 541

gttactccta ca 12

<210> 542

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 542

cgcgccgagt tc 12

<210> 543

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 543

cggcactagg ca 12

<210> 544

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 544

tgagttccat at 12

<210> 545

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 545

ccattgtccc tc 12

<210> 546

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 546

tctaatcata ct 12

<210> 547

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 547

aacagcgaca tg 12

<210> 548

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 548

gagttagctg cc 12

<210> 549

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 549

ttcgatctat tg 12

<210> 550

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 550

cggtaatggg gc 12

<210> 551

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 551

cattagtaac gt 12

<210> 552

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 552

tcgtgattat cc 12

<210> 553

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 553

gaaggcggta tg 12

<210> 554

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 554

gttagctacg tc 12

<210> 555

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 555

aacgccgttc tt 12

<210> 556

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 556

actcgggcgg gg 12

<210> 557

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 557

acggagagcc gc 12

<210> 558

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 558

aaagctcgtc ac 12

<210> 559

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 559

cgaaagagta gt 12

<210> 560

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 560

tggaactcag tc 12

<210> 561

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 561

ccgaggacgc gg 12

<210> 562

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 562

tcagacgtca cc 12

<210> 563

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 563

tatgtccttg ac 12

<210> 564

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 564

tcaacttaga cg 12

<210> 565

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 565

agaccgaaat ag 12

<210> 566

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 566

acagagctgg ga 12

<210> 567

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 567

acacaccggg cg 12

<210> 568

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 568

ttcgtgttcc cc 12

<210> 569

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 569

tcggggcact ac 12

<210> 570

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 570

gcccgctaga ag 12

<210> 571

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 571

gccagcgcct gt 12

<210> 572

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 572

gaataataag tg 12

<210> 573

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 573

atgctgtgcg cg 12

<210> 574

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 574

cttgctaccg at 12

<210> 575

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 575

cgcagggaca cc 12

<210> 576

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 576

aaatgattca gc 12

<210> 577

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 577

ttcctgagtg ct 12

<210> 578

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 578

gtgatcctgg gc 12

<210> 579

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 579

attccacact cc 12

<210> 580

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 580

cccccaggac gg 12

<210> 581

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 581

tgtttgcgta gg 12

<210> 582

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 582

tgaaagcacg gt 12

<210> 583

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 583

ccagcctatg tc 12

<210> 584

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 584

gtactaagtt tt 12

<210> 585

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 585

ctccatataa ta 12

<210> 586

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 586

tcgcctcagg tt 12

<210> 587

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 587

cagttttgct ta 12

<210> 588

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 588

agcaatgcca gg 12

<210> 589

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 589

cgtgtgcaag gt 12

<210> 590

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 590

ttctccgaag ta 12

<210> 591

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 591

tcttgccata ac 12

<210> 592

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 592

acgttaatcc aa 12

<210> 593

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 593

cacttaccgt ga 12

<210> 594

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 594

gagcagatag tc 12

<210> 595

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 595

agtgctttcc cg 12

<210> 596

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 596

caatcacgca at 12

<210> 597

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 597

gtttcttacg tg 12

<210> 598

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 598

gatacaaata tt 12

<210> 599

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 599

caatgctgtc tt 12

<210> 600

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 600

cgttctgtga cg 12

<210> 601

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 601

taggatacac cg 12

<210> 602

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 602

gatgactcac cg 12

<210> 603

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 603

gaaaacactg ct 12

<210> 604

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 604

cccgaatcta ca 12

<210> 605

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 605

atctgttttt ga 12

<210> 606

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 606

acagggtacg cc 12

<210> 607

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 607

gagtcggacc gc 12

<210> 608

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 608

tgtagaccag ga 12

<210> 609

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 609

ctatacttct gg 12

<210> 610

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 610

gcgctacgta cg 12

<210> 611

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 611

ttagccaagc gc 12

<210> 612

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 612

atacataaga aa 12

<210> 613

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 613

tttgacccga ag 12

<210> 614

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 614

attgtccagc gt 12

<210> 615

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 615

gcgtgtatgc gg 12

<210> 616

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 616

caggagaacg gg 12

<210> 617

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 617

gtccgacagt ct 12

<210> 618

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 618

ccgtatttgt ag 12

<210> 619

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 619

gcattaccta gc 12

<210> 620

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 620

tatcgcaccc gt 12

<210> 621

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 621

gctgagataa tt 12

<210> 622

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 622

gtcataaacc tg 12

<210> 623

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 623

tcgagcctct at 12

<210> 624

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 624

gacttgagcc tt 12

<210> 625

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 625

ctggatggat ac 12

<210> 626

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 626

tctacctcaa ag 12

<210> 627

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 627

tactcccgga ac 12

<210> 628

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 628

tgtgaaatct cc 12

<210> 629

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 629

cggaccgcca gt 12

<210> 630

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 630

gtgaggaagc gt 12

<210> 631

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 631

gaggcgacaa ac 12

<210> 632

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 632

agataggtgg gc 12

<210> 633

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 633

caaatcgcta ga 12

<210> 634

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 634

acgccagcct aa 12

<210> 635

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 635

aagacctgcc at 12

<210> 636

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 636

tgcgcggggt ta 12

<210> 637

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 637

actcattctt tg 12

<210> 638

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 638

actagcagtc ag 12

<210> 639

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 639

gaactatctc gc 12

<210> 640

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 640

gaatatgcca tc 12

<210> 641

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 641

aaacggacga tt 12

<210> 642

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 642

tcgaaagggg ac 12

<210> 643

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 643

acagtcaacg ta 12

<210> 644

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 644

cctaaggaga ca 12

<210> 645

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 645

aatatagcac tt 12

<210> 646

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 646

catgagctag ta 12

<210> 647

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 647

gtaaccatac cc 12

<210> 648

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 648

tttattaata ga 12

<210> 649

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 649

tcgaagttgt ca 12

<210> 650

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 650

gcagctaata ca 12

<210> 651

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 651

gtgattgacc ca 12

<210> 652

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 652

acgtgcggtc at 12

<210> 653

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 653

tcgtttcggg tg 12

<210> 654

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 654

ttttagggct gg 12

<210> 655

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 655

gcttcactgc gc 12

<210> 656

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 656

ttaccaggtc cg 12

<210> 657

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 657

ccggtcgctg ag 12

<210> 658

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 658

ttacagcctg at 12

<210> 659

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 659

cttaaattgg tc 12

<210> 660

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 660

cgataagctg aa 12

<210> 661

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 661

agaccatcgc cg 12

<210> 662

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 662

tctggttcaa cg 12

<210> 663

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 663

gatcagcgcg cg 12

<210> 664

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 664

tggaggagga gc 12

<210> 665

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 665

cgctggacca aa 12

<210> 666

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 666

cgtccaacac ga 12

<210> 667

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 667

aattttgtca aa 12

<210> 668

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 668

ctccgccgtg aa 12

<210> 669

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 669

cctaggcgtc gc 12

<210> 670

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 670

gacgtccgat gt 12

<210> 671

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 671

agaggacagc tc 12

<210> 672

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 672

atgacgatca tt 12

<210> 673

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 673

cacgggggtg ta 12

<210> 674

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 674

gctaaccgcg gg 12

<210> 675

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 675

gcacgtagcg cg 12

<210> 676

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 676

gttggcgccc tc 12

<210> 677

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 677

tacatatcgg ct 12

<210> 678

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 678

ttcctcccag tc 12

<210> 679

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 679

ttgctcttag ac 12

<210> 680

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 680

agttggatag ag 12

<210> 681

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 681

agtatgtatt ac 12

<210> 682

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 682

ccacgtgtac aa 12

<210> 683

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 683

gagcttccct ac 12

<210> 684

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 684

aggcgaagca ag 12

<210> 685

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 685

gtctcgttga gc 12

<210> 686

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 686

agcgactagg gt 12

<210> 687

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 687

tgcatcaagt cc 12

<210> 688

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 688

atttactgta ta 12

<210> 689

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 689

gacaatcgag ga 12

<210> 690

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 690

ataagtatcg cg 12

<210> 691

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 691

gtagatcgaa cg 12

<210> 692

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 692

ttaggttgtc tc 12

<210> 693

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 693

gaggtctact ac 12

<210> 694

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 694

tcccgagtca ga 12

<210> 695

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 695

ttattcagac cg 12

<210> 696

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 696

cagagaggca tc 12

<210> 697

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 697

cgatctccgc ta 12

<210> 698

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 698

gtcctggacc ac 12

<210> 699

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 699

taactttgct ga 12

<210> 700

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 700

acgggcttta ac 12

<210> 701

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 701

acctacctgg ca 12

<210> 702

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 702

agcttatgct tg 12

<210> 703

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 703

tgggtattag aa 12

<210> 704

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 704

gtagtagcca ga 12

<210> 705

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 705

gccgtgaaaa ac 12

<210> 706

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 706

gaagggcctc cg 12

<210> 707

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 707

catttggcct cg 12

<210> 708

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 708

ttatggtaaa cg 12

<210> 709

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 709

ccattccttt at 12

<210> 710

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 710

tagccgtgat gt 12

<210> 711

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 711

tagaccacag at 12

<210> 712

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 712

gtctattgta ca 12

<210> 713

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 713

actgccgcgg ag 12

<210> 714

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 714

tcagcgatgg tt 12

<210> 715

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 715

aaattcatgt gc 12

<210> 716

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 716

taaggtgact tt 12

<210> 717

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 717

gaaccggtga tc 12

<210> 718

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 718

attaagaccc at 12

<210> 719

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 719

aggccgggcc aa 12

<210> 720

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 720

agaagagttc cg 12

<210> 721

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 721

aattatcgtt ct 12

<210> 722

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 722

ttgtgcccac tt 12

<210> 723

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 723

aacgtaatgc at 12

<210> 724

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 724

taattccaaa gt 12

<210> 725

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 725

tgcccagaga cc 12

<210> 726

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 726

agtaattgct aa 12

<210> 727

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 727

catggacgag gg 12

<210> 728

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 728

agttacacga ag 12

<210> 729

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 729

tgcctaatag cg 12

<210> 730

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 730

tgagtagaat tc 12

<210> 731

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 731

tatgcaacgc cc 12

<210> 732

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 732

tcttaagtaa cc 12

<210> 733

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 733

cgctttagat ca 12

<210> 734

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 734

acctgatacc tt 12

<210> 735

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 735

tatttgaaaa ct 12

<210> 736

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 736

atctctcaga gg 12

<210> 737

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 737

aattcgaccc ta 12

<210> 738

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 738

tagtcatcct ag 12

<210> 739

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 739

gcgaaaatga ta 12

<210> 740

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 740

gttgatgtaa ca 12

<210> 741

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 741

agtgggcctg ta 12

<210> 742

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 742

ctactggctc gg 12

<210> 743

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 743

gcattcgaaa at 12

<210> 744

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 744

tagtgtctgc at 12

<210> 745

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 745

cctgtactga ct 12

<210> 746

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 746

aaaagttatt ct 12

<210> 747

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 747

tgggctcttt ca 12

<210> 748

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 748

taaatgtact ag 12

<210> 749

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 749

ttcccgtcgc gt 12

<210> 750

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 750

gacattgtct aa 12

<210> 751

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 751

atcgttgaga ct 12

<210> 752

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 752

gttatttgat gc 12

<210> 753

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 753

tctctttatt ct 12

<210> 754

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 754

atgcccacgg gg 12

<210> 755

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 755

gcgggttgat cc 12

<210> 756

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 756

atcgggtgaa cg 12

<210> 757

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 757

aggtacttag ag 12

<210> 758

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 758

gctgtcttgg tt 12

<210> 759

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 759

aatcgcgtcg gt 12

<210> 760

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 760

accgcccaac ag 12

<210> 761

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 761

tgtggccggc ct 12

<210> 762

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 762

tgagtctggt tg 12

<210> 763

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 763

cagggtgcta ca 12

<210> 764

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 764

caagttggtg ca 12

<210> 765

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 765

ctacgatgct cc 12

<210> 766

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 766

gatctaggat gg 12

<210> 767

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 767

cgcacgatcc cg 12

<210> 768

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 768

gcggtaacac tc 12

<210> 769

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 769

gtaatgacat gg 12

<210> 770

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 770

attgcgaatt cc 12

<210> 771

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 771

cacacacatc ga 12

<210> 772

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 772

cgggcataaa tt 12

<210> 773

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 773

ccggcacctc tt 12

<210> 774

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 774

ctcactctct ct 12

<210> 775

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 775

aatctgatta at 12

<210> 776

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 776

aggatggcat ga 12

<210> 777

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 777

caaatactcc gg 12

<210> 778

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 778

tcgtcgaaga ca 12

<210> 779

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 779

gctactatgg cc 12

<210> 780

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 780

gcgttctccc tt 12

<210> 781

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 781

gtgtaattca ct 12

<210> 782

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 782

agcctgacgc cc 12

<210> 783

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 783

agcgcgcttg ct 12

<210> 784

<211> 12

<212> DNA

<213> Artificial Sequence

<220>

<223> index sequence

<400> 784

caaggatagc aa 12

<---

Изобретение относится к области молекулярной биологии. Описан набор олигонуклеотидов, содержащий индексные последовательности для мультиплексного параллельного секвенирования. Также описаны способ получения указанного набора олигонуклеотидов и способ присвоения секвенирующих прочтений образцу олигонуклеотидов. Технический результат заключается в максимальной различимости индексных последовательностей при компромиссе с эффективностью с учётом усилий и затрат для каждого секвенируемого нуклеотида. 3 н. и 12 з.п. ф-лы, 12 ил., 4 табл., 3 пр.

1. Набор олигонуклеотидов для идентификации олигонуклеотидов, содержащий индексные последовательности, причем набор содержит множество поднаборов олигонуклеотидов с разными индексными последовательностями,

где индексные последовательности поднабора олигонуклеотидов отличаются друг от друга по меньшей мере ненулевым количеством изменений последовательностей;

и где набор содержит не менее 2-х иерархических уровней поднаборов,

где индексные последовательности поднабора более высокого уровня являются элементами поднабора более низкого уровня, и где поднабор более низкого уровня содержит больше индексных последовательностей, чем поднабор более высокого уровня,

и где индексные последовательности поднабора более низкого уровня отличаются друг от друга меньшим минимальным количеством изменений последовательностей по сравнению с индексными последовательностями поднабора более высокого уровня;

и где олигонуклеотиды присваиваются одному или нескольким поднаборам.

2. Набор по п. 1, в котором каждая из индексных последовательностей поднабора содержит усеченную индексную последовательность, и усеченные индексные последовательности по меньшей мере одного поднабора отличаются по меньшей мере ненулевым количеством изменений последовательностей от каждой другой усеченной индексной последовательности в пределах упомянутого поднабора; предпочтительно, когда минимальное количество изменений последовательностей между усеченными индексными последовательностями поднабора больше, чем минимальное количество изменений последовательностей индексных последовательностей в поднаборе за вычетом разности между длиной индексных последовательностей и усеченных индексных последовательностей.

3. Набор по п. 2, в котором усеченные индексные последовательности поднабора более высокого уровня являются элементами усеченных индексных последовательностей поднабора более низкого уровня, и где усеченные индексные последовательности поднабора более низкого уровня отличаются друг от друга меньшим минимальным количеством изменений последовательностей по сравнению с усеченными индексными последовательностями поднабора более высокого уровня.

4. Набор по любому из пп. 1-3, в котором изменения последовательности выбираются из нуклеотидных замен, делеций и вставок, и где минимальное количество изменений последовательностей соответствует минимальному количеству, необходимому для замены любой индексной последовательности на другую индексную последовательность.

5. Набор по любому из пп. 1-4, в котором изменения последовательности количественно оцениваются как секвенциальное расстояние, которое представляет собой количество изменений нуклеотидов или вероятность изменений; предпочтительно, где величина секвенциального расстояния представляет собой расстояние Хэмминга, расстояние Левенштейна или расстояние Левенштейна между последовательностями, предпочтительно расстояние Левенштейна между последовательностями; или предпочтительно, где вероятность изменений является максимальной вероятностью или суммой вероятностей, такой как сумма вероятностей нуклеотидных изменений, которые преобразуют одну последовательность в другую.

6. Набор по п. 5, в котором изменения последовательности количественно определены как расстояние Левенштейна между последовательностями, и расстояние Левенштейна между последовательностями между индексными последовательностями поднабора самого высокого уровня равно не менее 4.

7. Набор по любому из пп. 1-6, в котором индексные последовательности имеют длину не менее 4 нуклеотида, и/или поднабор самого высокого уровня содержит не менее 2 различных индексных последовательностей.

8. Набор по любому из пп. 1-7, в котором олигонуклеотиды присваиваются к поднабору путем помещения в контейнер, который помечается идентификатором поднабора; предпочтительно, когда контейнер представляет собой лунку в луночном планшете.

9. Набор по любому из пп. 1-8, в котором индексные последовательности имеют содержание G/C от 30% до 70%; и/или где индексные последовательности не содержат повторов одного и того же нуклеотида длиной не менее 3; и/или где индексные последовательности поднабора имеют сбалансированное распределение нуклеотидов, где количество совместно используемых нуклеотидов в одной и той же позиции в индексных последовательностях между различными индексными последовательностями не превышает 0,5 кратного количества количество индексных последовательностей в упомянутом поднаборе, или где в не менее 50% позиций индексных последовательностей частота для всех индексных последовательностей поднабора для каждого типа нуклеотидов составляет 0,5 или менее.

10. Способ получения набора олигонуклеотидов, содержащего множество поднаборов олигонуклеотидов с поднабором индексных последовательностей, содержащий этапы

создание первого поднабора олигонуклеотидов с индексными последовательностями с первым секвенциальным расстоянием друг от друга в пределах первого поднабора, где секвенциальное расстояние представляет собой количественную величину изменений последовательностей, которая преобразует одну последовательность в другую, или монотонно убывающую функцию вероятности изменений последовательностей, которая преобразует одну последовательность в другую,

создание второго поднабора путем включения первого поднабора и добавления дополнительных олигонуклеотидов с индексными последовательностями со вторым секвенциальным расстоянием друг к другу во втором поднаборе, причем второе секвенциальное расстояние является меньшим секвенциальным расстоянием, чем первое секвенциальное расстояние, в результате чего вторая подгруппа содержит олигонуклеотиды с индексными последовательностями, которые не являются частью первого поднабора.

11. Способ по п. 10, в котором создание первого и/или второго поднабора содержит выбор индексных последовательностей, которые содержат усеченные индексные последовательности, и усеченные индексные последовательности по меньшей мере одного поднабора отличаются по меньшей мере ненулевым количеством изменений последовательностей от каждой другой усеченной индексной последовательности в упомянутом поднаборе.

12. Способ по п. 10 или 11, в котором создание поднабора содержит выбор индексных последовательностей путем добавления индексной последовательности-кандидата и оценки секвенциального расстояния кандидата расстояния индекса до всех других ранее существовавших индексных последовательностей в поднаборе; и добавление индексной последовательности-кандидата к индексным последовательностям поднабора, если выполнено заданное требование к секвенциальному расстоянию.

13. Способ по пп. 10, 11 или 12, в котором индексная последовательность-кандидат выбирается из пула индексных последовательностей-кандидатов, где элементы пула индексных последовательностей-кандидатов выполняют заданное требование к секвенциальному расстоянию для каждого другого элемента пула, и где индексная последовательность-кандидат пула добавляется к индексным последовательностям поднабора тогда, когда сумма абсолютных значений разностей частот каждого нуклеотидного типа генетического кода в каждой позиции до 0,25 является наименьшей для индексной последовательности-кандидата по сравнению с другими кандидатами индексной последовательности пула.

14. Способ по любому из пп. 10-13, содержащий создание множества поднаборов-кандидатов, каждый из которых имеет заданное количество элементов, как в способах по пп. 10-13, и выбор поднабора-кандидата в качестве поднабора тогда, когда упомянутый поднабор-кандидат имеет наименьшее среднее значение по всем индексным последовательностям для соответствующего поднабора кандидата суммы абсолютных значений разностей частот каждого нуклеотидного типа генетического кода в каждой позиции до 0,25; или

содержащий создание множества поднаборов-кандидатов, каждый из которых имеет заданное количество элементов, как в способах по пп. 10-13, и выбор поднабора-кандидата в качестве поднабора, где упомянутый поднабор-кандидат выбирается путем исключения других поднаборов-кандидатов,

где поднабор-кандидат исключается тогда, когда в способе, который содержит добавление индексных последовательностей-кандидатов из пула индексных последовательностей-кандидатов к поднабору-кандидату и при необходимости дополнительное добавление сравнительных индексных последовательностей, кандидат-поднабор имеет более высокое среднее значение во всех своих суммах индексных последовательностей абсолютных значений разностей частот каждого нуклеотидного типа генетического кода в каждой позиции до 0,25 по сравнению с другим поднабором или поднабором-кандидатом.

15. Способ присвоения секвенирующих прочтений образцу олигонуклеотидов, содержащий этапы

а) получение из множества образцов олигонуклеотидов образцов,

b) выбор поднабора олигонуклеотидных индексных последовательностей из набора по любому из пп. 1-9 или набора, который получен способом по любому из пп. 10-14, где поднабор выбирается вместо другого поднабора на основе большего секвенциального расстояния между индексными последовательностями друг от друга в выбранном поднаборе; где секвенциальное расстояние представляет собой количественную величину изменений последовательностей, которая преобразует одну последовательность в другую, или монотонно убывающую функцию вероятности изменений последовательностей, которая преобразует одну последовательность в другую, и где выбранный поднабор имеет по меньшей мере такое же количество различных индексных последовательностей, как и количество образцов на этапе а),

c) добавление индексных последовательностей из упомянутого поднабора в каждый олигонуклеотид образца, где индексные последовательности указывают образец,

d) определение последовательности олигонуклеотидов образцов или фрагментов олигонуклеотидов образцов и определение индексной последовательности,

e) присвоение последовательности с полученным прочтением образцу на основе определенной индексной последовательности или на основе индексной последовательности, которая имеет наименьшее секвенциальное расстояние до определенной индексной последовательности, где, если две или более индексных последовательностей имеют одинаковое наименьшее расстояние, то упомянутое полученное прочтение отбрасывается; где при необходимости секвенциальное расстояние не превышает заданного значения согласно критерию.

название	год	авторы	номер документа
АНТИСМЫСЛОВЫЕ ОЛИГОНУКЛЕОТИДЫ К АЛЬФА-СИНУКЛЕИНУ И ИХ ПРИМЕНЕНИЯ	2019	Хагедорн, Петер Олсон, Ричард Е. Какас, Анджела М. Енсен, Марианн Лербек Браун, Джеффри М. Мередит, Джр., Джере Е. Пендри, Аннапурна Макдональд, Айвар М. Джилл, Мартин	RU2773197C2
Набор синтетических олигонуклеотидов для одновременного генотипирования 63 ДНК-маркеров, ассоциированных с группой крови АВ0, основными гаплогруппами Y-хромосомы, цветом радужной оболочки глаза, волос, кожи и половой принадлежностью, методом ПЦР с последующей гибридизацией	2020	Ивановский Иван Дмитриевич Фесенко Денис Олегович	RU2740575C1
КОМПОНЕНТЫ СИСТЕМЫ CRISPR-CAS, СПОСОБЫ И КОМПОЗИЦИИ ДЛЯ МАНИПУЛЯЦИИ С ПОСЛЕДОВАТЕЛЬНОСТЯМИ	2013	Чжан, Фэн Бикард, Девид, Оливье Цун, Лэ Кокс, Девид Бенджамин, Туриц Хсю, Патрик Цзян, Вэньянь Линь, Шауйлян Марраффини, Лучано Платт, Рэндол, Джеффри Ран, Фэй Санджана, Невилл, Эспи	RU2796549C2
СПОСОБ АМПЛИФИКАЦИИ И ИДЕНТИФИКАЦИИ НУКЛЕИНОВЫХ КИСЛОТ	2019	Гёпель, Ивонне Моль, Памела Реда, Торстен Зайтц, Александр	RU2811465C2
Способ идентификации личности и установления родства с помощью InDel полиморфизмов и набор синтетических олигонуклеотидов для их генотипирования	2020	Ивановский Иван Дмитриевич Фесенко Денис Олегович	RU2738752C1
ВЫСОКОПРОИЗВОДИТЕЛЬНОЕ СЕКВЕНИРОВАНИЕ ОДИНОЧНОЙ КЛЕТКИ СО СНИЖЕННОЙ ОШИБКОЙ АМПЛИФИКАЦИИ	2019	Стимерс, Фрэнк, Дж. Шендьюре, Джей Инь, И	RU2744175C1
НАПРАВЛЯЕМАЯ РНК РЕГУЛЯЦИЯ ТРАНСКРИПЦИИ	2014	Чёрч, Джордж М. Мали, Прашант Г. Эсвельт, Кевин М.	RU2756865C2
ОПРЕДЕЛЕНИЕ НУКЛЕИНОВЫХ КИСЛОТ ПУТЕМ АМПЛИФИКАЦИИ, ОСНОВАННОЙ НА ВСТРАИВАНИИ В ЦЕПЬ	2014	Ебойгбодин Кевин Бруммер Мирко	RU2694976C1
КОМПОЗИЦИИ ОЛИГОНУКЛЕОТИДОВ И СПОСОБЫ С НИМИ	2016	Варгиз Чандра Мина Сврзикапа Ненад Мохапатра Сусован Франсиз Кристофер Дж. Вердин Грегори Л. Соколовска Анна	RU2830607C2
ГЕНОМНАЯ ИНЖЕНЕРИЯ	2021	Чёрч, Джордж М. Ян, Лухан Каргол, Марк Гуэль Ян, Джойс Личи	RU2812848C2

WO 2018204423 A1, 08.11.2018
US 2019085384 A1, 21.03.2019
WO 2018226293 A1, 13.12.2018
СПОСОБ ВЫЯВЛЕНИЯ МУТАЦИЙ В СЛОЖНЫХ СМЕСЯХ ДНК	2014	Зарецкий Андрей Ростиславович	RU2613489C2
TILO BUSCHMANN et al., "Levenshtein error-correcting barcodes for multiplexed DNA sequencing", BMC BIOINFORMATICS, v
Паровоз для отопления неспекающейся каменноугольной мелочью	1916	Драго С.И.	SU14A1
Печь для непрерывного получения сернистого натрия	1921	Настюков А.М. Настюков К.И.	SU1A1
Паровоз с приспособлением для автоматического регулирования подвода и распределения топлива в его топке	1919	Шелест А.Н.	SU272A1

ИНДЕКСНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ ДЛЯ МУЛЬТИПЛЕКСНОГО ПАРАЛЛЕЛЬНОГО СЕКВЕНИРОВАНИЯ Российский патент 2025 года по МПК C12Q1/68 C12Q1/6869

Описание патента на изобретение RU2840942C1

Похожие патенты RU2840942C1

Иллюстрации к изобретению RU 2 840 942 C1

Реферат патента 2025 года ИНДЕКСНЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ ДЛЯ МУЛЬТИПЛЕКСНОГО ПАРАЛЛЕЛЬНОГО СЕКВЕНИРОВАНИЯ

Формула изобретения RU 2 840 942 C1

Документы, цитированные в отчете о поиске Патент 2025 года RU2840942C1

RU 2 840 942 C1