Показать метаданные Скрыть метаданные

(19)

(11)

2 737 537

(13)

(51)

МПК

C12N15/113(2010-01-01)

C12N15/10(2006-01-01)

(21) (22)

Заявка

2018101666, 2016-06-17

(24)

Дата начала отсчета патента

2016-06-17

(22)

дата подачи заявки

2016-06-17

(45)

опубликовано

2020-12-01

(72)

авторы

Чжан, ФэнЦече, БерндГутенберг, Йонатан, С.Абудайе, Омар, О.Слеймейкер, Йан

(73)

патентообладатели

Те Брод Инститьют Инк.Массачусетс Инститьют Оф ТекнолоджиПрезидент Энд Феллоуз Оф Харвард Коллидж

(56)

Документы, цитированные в отчете о поиске

CN 103261213 A, 21.08.2013US 8361725 B2, 29.01.2013US 8697359 B1, 15.04.2014.

НОВЫЕ ФЕРМЕНТЫ И СИСТЕМЫ CRISPR Российский патент 2020 года по МПК C12N15/113 C12N15/10

Описание патента на изобретение RU2737537C2

Родственные заявки и включение посредством ссылки

Настоящая заявка заявляет преимущество и приоритет предварительной заявки на патент США 62/181739, поданной 18 июня 2015 года; предварительной заявки на патент США 62/193507, поданной 16 июля 2015 года, предварительной заявки на патент США 62/201542, поданной 5 августа 2015 года, предварительной заявки на патент США 62/205733, поданной 16 августа 2015 года, предварительной заявки на патент США 62/232067, поданной 24 сентября 2015 года, заявки на патент США с порядковым № 14/975085, поданной 18 декабря 2015 года и заявки на европейский патент № 16150428.7.

Вышеупомянутые заявки и все документы, цитируемые в них или при их рассмотрении ("документы, цитируемые в заявке"), и все документы, цитируемые или приводимые в качестве ссылки в документах, цитируемых в данном документе, вместе с любыми инструкциями производителя, описаниями, спецификациями продукта и технологическими картами для любых продуктов, упомянутых в данном документе или в любом документе, включенном в данный документ посредством ссылки, настоящим включены в данный документ посредством ссылки и могут быть использованы при осуществлении настоящего изобретения на практике. Более конкретно, все документы, приводимые в качестве ссылки, включены посредством ссылки в такой же мере, как если бы конкретно и отдельно было указано, что каждый отдельный документ включен посредством ссылки.

Заявление в отношении финансируемого из федерального бюджета исследования

Настоящее изобретение было выполнено при поддержке правительства в рамках гранта № MH100706, выданного Национальными институтами здоровья. Правительство обладает определенными правами на настоящее изобретение.

Перечень последовательностей

Настоящая заявка содержит перечень последовательностей, который был подан в электронном виде в формате ASCII и настоящим включен посредством ссылки во всей своей полноте. Указанная копия в формате ASCII, созданная 17 декабря 2015 года, имеет название 47627.05.2123_SL.txt и размер 2467205 байт.

Область изобретения

Настоящее изобретение в целом относится к системам, способам и композициям, применяемым для контроля экспрессии генов, включающего нацеливание на последовательность, как, например, внесение изменений в транскрипты генов или редактирование нуклеиновых кислот, при которых могут применяться векторные системы, близкие к коротким палиндромным повторам, регулярно расположенным группами (CRISPR), и их компоненты.

Предпосылки изобретения

Недавние достижения в технологиях секвенирования генома и способах анализа значительно ускорили возможность каталогизации и картирования генетических факторов, ассоциированных с широким разнообразием биологических функций и заболеваний. Технологии точного нацеливания на геном необходимы для обеспечения возможности систематичного обратного конструирования казуальных генетических изменений путем обеспечения селективного внесения изменений в отдельные генетические элементы, а также для продвижения применений в области синтетической биологии, биотехнологии и медицины. Хотя технологии редактирования генома, такие как оригинальные ферменты с "цинковыми пальцами", эффекторы, подобные транскрипционным активаторам (TALE), или хоминг-мегануклеазы, доступны для осуществления нацеленного внесения изменений в геном, все еще существует потребность в новых технологиях конструирования генома, в которых используются новые стратегии и молекулярные механизмы, и которые являются доступными, простыми в осуществлении, масштабируемыми и характеризуются возможностью нацеливания на несколько местоположений в геноме эукариотического организма. Это обеспечит главный ресурс для новых применений в конструировании генома и биотехнологии.

Системы CRISPR-Cas, обеспечивающие адаптивный иммунитет бактерий и архей, демонстрируют чрезвычайное разнообразие состава белков и структуры локусов генома. Локусы системы CRISPR-Cas содержат более 50 семейств генов, и при этом отсутствуют строго универсальные гены, что указывает на быструю эволюцию и чрезвычайное разнообразие структуры локусов. На настоящий момент путем внедрения многоэтапного подхода имеется исчерпывающая идентификация генов cas из приблизительно 395 профилей для 93 белков Cas. Классификация включает сигнатуры генных профилей с сигнатурами структуры локуса. Предложена новая классификация систем CRISPR-Cas, в которой эти системы в широком смысле разделены на два класса, класс 1 с мультисубъединичными эффекторными комплексами и класс 2 с односубъединичными эффекторными модулями, в качестве примера которых приводится белок Cas9. Можно разрабатывать новые эффекторные белки, ассоциированные с системами CRISPR-Cas класса 2, в качестве мощных инструментов для конструирования генома, и важным является прогнозирование предполагаемых новых эффекторных белков и их конструирование и оптимизация.

Цитирование или идентификация любого документа в настоящей заявке не является признанием того, что такой документ предлагается в качестве известного уровня техники для настоящего изобретения.

Краткое описание изобретения

Существует актуальная потребность в альтернативных и надежных системах и методиках для нацеливания на нуклеиновые кислоты или полинуклеотиды (например, ДНК, или РНК, или любой их гибрид или производное) с широким спектром применений. Настоящее изобретение удовлетворяют данную потребность и обеспечивает связанные с этим преимущества. Добавление новых систем нацеливания на ДНК или РНК по настоящей заявке к спектру технологий для геномного и эпигеномного нацеливания может преобразовать исследование и внесение изменений или редактирование специфических целевых сайтов на прямое обнаружение, анализ и манипуляцию. Чтобы эффективно использовать системы нацеливания на ДНК или РНК по настоящей заявке для геномного или эпигеномного нацеливания без вредных эффектов, важно понимать аспекты конструирования и оптимизации этих инструментов для нацеливания на ДНК или РНК.

В настоящем изобретении предусмотрен способ модифицирования последовательностей, ассоциированных с представляющим интерес целевым локусом или находящихся в нем, причем способ включает доставку в указанный локус не встречающейся в природе или сконструированной композиции, содержащей предполагаемый эффекторный белок CRISPR-Cas V типа и один или несколько компонентов на основе нуклеиновой кислоты, где эффекторный белок образует комплекс с одним или несколькими компонентами на основе нуклеиновой кислоты, и после связывания указанного комплекса с представляющим интерес локусом эффекторный белок индуцирует модификацию последовательностей, ассоциированных с представляющим интерес целевым локусом или находящихся в нем. В предпочтительном варианте осуществления модификация представляет собой введение разрыва нити. В предпочтительном варианте осуществления последовательности, ассоциированные с представляющим интерес целевым локусом или находящиеся в нем, предусматривают ДНК, а эффекторный белок кодируется локусом CRISPR-Cas подтипа V-A или локусом CRISPR-Cas подтипа V-B.

Будет понятно, что термины фермент Cas, фермент CRISPR, белок CRISPR, белок Cas и CRISPR Cas в целом используют взаимозаменяемо, и при всех упоминаниях в данном документе относятся по аналогии к новым эффекторным белкам CRISPR, дополнительно описываемым в настоящей заявке, если не очевидно иное, как, например, с помощью специальной ссылки на Cas9. Эффекторные белки CRISPR, описанные в данном документе, предпочтительно представляют собой эффекторные белки Cpf1.

В настоящем изобретении предусмотрен способ модифицирования последовательностей, ассоциированных с представляющим интерес целевым локусом или находящихся в нем, причем способ включает доставку к указанным последовательностям, ассоциированным с локусом или находящихся в нем, не встречающейся в природе или сконструированной композиции, содержащей эффекторный белок Cpf1 и один или несколько компонентов на основе нуклеиновой кислоты, где эффекторный белок Cpf1 образует комплекс с одним или несколькими компонентами на основе нуклеиновой кислоты, и после связывания указанного комплекса с представляющим интерес локусом эффекторный белок индуцирует модификацию последовательностей, ассоциированных с представляющим интерес целевым локусом или находящихся в нем. В предпочтительном варианте осуществления модификация представляет собой введение разрыва нити. В предпочтительном варианте осуществления эффекторный белок Cpf1 образует комплекс с одним компонентом на основе нуклеиновой кислоты; преимущественно компонентом на основе сконструированной или не встречающейся в природе нуклеиновой кислоты. Индукция модификации последовательностей, ассоциированных с представляющим интерес целевым локусом или находящихся в нем, может представлять собой осуществляемую эффекторным белком Cpf1 и направляемую нуклеиновой кислотой. В предпочтительном варианте осуществления один компонент на основе нуклеиновой кислоты представляет собой РНК CRISPR (crRNA). В предпочтительном варианте осуществления один компонент на основе нуклеиновой кислоты представляет собой зрелую crRNA или направляющую РНК, где зрелая crRNA или направляющая РНК содержат спейсерную последовательность (или направляющую последовательность) и последовательность прямого повтора или их производные. В предпочтительном варианте осуществления спейсерная последовательность или ее производное содержат затравочную последовательность, где затравочная последовательность является критически важной для распознавания и/или гибридизации с последовательностью в целевом локусе. В предпочтительном варианте осуществления затравочная последовательность направляющей РНК FnCpf1 находится примерно в пределах первых 5 нуклеотидов на 5'-конце спейсерной последовательности (или направляющей последовательности). В предпочтительном варианте осуществления разрыв нити представляет собой ступенчатый разрез с "липким" 5'-концом. В предпочтительном варианте осуществления последовательности, ассоциированные с представляющим интерес целевым локусом или находящиеся в нем, предусматривают линейную или сверхспирализованную ДНК.

Аспекты настоящего изобретения относятся к комплексам эффекторного белка Cpf1 с одним или несколькими компонентами на основе не встречающейся в природе, или сконструированной, или модифицированной, или оптимизированной нуклеиновой кислоты. В предпочтительном варианте осуществления компонент на основе нуклеиновой кислоты комплекса может предусматривать направляющую последовательность, связанную с последовательностью прямого повтора, где последовательность прямого повтора содержит одну или несколько "петель-на-стебле" или оптимизированных вторичных структур. В предпочтительном варианте осуществления минимальная длина прямого повтора составляет 16 нуклеотидов, и он содержит одну "петлю-на-стебле". В дополнительных вариантах осуществления длина прямого повтора составляет более 16 нуклеотидов, предпочтительно более 17 нуклеотидов, и он содержит более одной "петли-на-стебле" или оптимизированных вторичных структур. В предпочтительном варианте осуществления прямой повтор можно модифицировать так, чтобы он содержал один или несколько белок-связывающих РНК-аптамеров. В предпочтительном варианте осуществления могут быть включены один или несколько аптамеров, как, например, часть оптимизированной вторичной структуры. Такие аптамеры могут быть способны связывать белок оболочки бактериофага. Белок оболочки бактериофага может быть выбран из группы, содержащей Qβ, F2, GA, fr, JP501, MS2, M12, R17, BZ13, JP34, JP500, KU1, M11, MX1, TW18, VK, SP, FI, ID2, NL95, TW19, AP205, φCb5, φCb8r, φCb12r, φCb23r, 7s и PRR1. В предпочтительном варианте осуществления белок оболочки бактериофага представляет собой MS2. В настоящем изобретении также предусмотрен компонент на основе нуклеиновой кислоты комплекса, длина которого составляет 30 или более, 40 или более или 50 или более нуклеотидов.

В настоящем изобретении предусмотрены способы редактирования генома, где способ включает два или более раундов нацеливания и расщепления под действием эффекторного белка Cpf1. В определенных вариантах осуществления первый раунд предусматривает расщепление под действием эффекторного белка Cpf1 последовательностей, ассоциированных с целевым локусом вдали от затравочной последовательности, а второй раунд предусматривает расщепление под действием эффекторного белка Cpf1 последовательностей в целевом локусе. В предпочтительных вариантах осуществления настоящего изобретения первый раунд нацеливания эффекторного белка Cpf1 приводит к образованию вставки/делеции, а второй раунд нацеливания эффекторного белка Cpf1 может подвергаться репарации посредством репарации с помощью гомологичной рекомбинации (HDR). В наиболее предпочтительном варианте осуществления настоящего изобретения один или несколько раундов нацеливания эффекторного белка Cpf1 приводит к ступенчатому расщеплению, которое может подвергаться репарации с помощью вставки матрицы для репарации.

В настоящем изобретении предусмотрены способы редактирования генома или модифицирования последовательностей, ассоциированных с представляющим интерес целевым локусом или находящихся в нем, где способ включает введение комплекса эффекторного белка Cpf1 в любой требуемый тип клеток, прокариотическую или эукариотическую клетку, при этом комплекс эффекторного белка Cpf1 эффективно функционирует с целью интеграции вставки ДНК в геном эукариотической или прокариотической клетки. В предпочтительных вариантах осуществления клетка представляет собой эукариотическую клетку, а геном представляет собой геном млекопитающего. В предпочтительных вариантах осуществления интеграция вставки ДНК облегчается с помощью механизмов вставки гена на основе негомологичного соединения концов (NHEJ). В предпочтительных вариантах осуществления вставка ДНК представляет собой экзогенно вводимую ДНК-матрицу или матрицу для репарации. В одном предпочтительном варианте осуществления экзогенно вводимая ДНК-матрица или матрица для репарации доставляются с комплексом эффекторного белка Cpf1 или одного компонента или полинуклеотидным вектором для экспрессии компонента комплекса. В более предпочтительном варианте осуществления эукариотическая клетка представляет собой неделящуюся клетку (например, неделящуюся клетку, в которой редактирование генома с помощью HDR представляет собой особенную сложность). В предпочтительных способах редактирования генома в клетках человека эффекторные белки Cpf1 могут включать без ограничения эффекторные белки FnCpf1, AsCpf1 и LbCpf1.

В настоящем изобретении также предусмотрен способ модифицирования представляющего интерес целевого локуса, причем способ включает доставку в указанный локус не встречающейся в природе или сконструированной композиции, содержащей эффекторный белок C2c1 и один или несколько компонентов на основе нуклеиновой кислоты, где эффекторный белок C2c1 образует комплекс с одним или несколькими компонентами на основе нуклеиновой кислоты, и после связывания указанного комплекса с представляющим интерес локусом эффекторный белок индуцирует модификацию представляющего интерес целевого локуса. В предпочтительном варианте осуществления модификация представляет собой введение разрыва нити.

В таких способах представляющий интерес целевой локус может содержаться в молекуле ДНК in vitro. В предпочтительном варианте осуществления молекула ДНК представляет собой плазмиду.

В таких способах представляющий интерес целевой локус может содержаться в молекуле ДНК в пределах клетки. Клетка может быть прокариотической клеткой или эукариотической клеткой. Клетка может быть клеткой млекопитающего. Клетка млекопитающего может быть клеткой отличного от человека примата, быка, свиньи, грызуна или мыши. Клетка может быть эукариотической клеткой от организма, отличного от млекопитающего, например, птицы, рыбы или креветки. Клетка также может быть растительной клеткой. Растительная клетка может происходить из сельскохозяйственного растения, такого как маниока, кукуруза, сорго, пшеница или рис. Растительная клетка также может происходить из водоросли, дерева или овощной культуры. Модификация, введенная в клетку с помощью настоящего изобретения, может быть такой, что клетка и потомство клетки изменяются для улучшения продуцирования биологических продуктов, таких как антитело, крахмал, спирт или другой желаемый клеточный продукт. Модификация, введенная в клетку с помощью настоящего изобретения, может быть такой, что клетка и потомство клетки будут включать в себя изменение, которое меняет продуцируемый биологический продукт.

В настоящем изобретении предусмотрен способ модифицирования представляющего интерес целевого локуса, причем способ включает доставку в указанный локус не встречающейся в природе или сконструированной композиции, содержащей эффекторный белок CRISPR-Cas VI типа и один или несколько компонентов на основе нуклеиновой кислоты, где эффекторный белок образует комплекс с одним или несколькими компонентами на основе нуклеиновой кислоты, и после связывания указанного комплекса с представляющим интерес локусом эффекторный белок индуцирует модификацию представляющего интерес целевого локуса. В предпочтительном варианте осуществления модификация представляет собой введение разрыва нити.

В предпочтительном варианте осуществления представляющий интерес целевой локус предусматривает ДНК.

В таких способах представляющий интерес целевой локус может содержаться в молекуле ДНК в пределах клетки. Клетка может быть прокариотической клеткой или эукариотической клеткой. Клетка может быть клеткой млекопитающего. Клетка млекопитающего может представлять собой клетку отличного от человека млекопитающего, например, представителя приматов, бычьих, овечьих, свиных, псовых, грызунов, Leporidae, как, например, обезьяны, коровы, овцы, свиньи, собаки, кролика, крысы или мыши. Клетка может представлять собой эукариотическую клетку от организма, отличного от млекопитающего, как, например, клетку домашней птицы (например, курицы), позвоночной рыбы (например, лосося) или моллюсков и ракообразных (например, устрицы, двустворчатых моллюсков, омара, креветки). Клетка также может быть растительной клеткой. Растительная клетка может быть получена от однодольного или двудольного растения, или от сельскохозяйственного или зернового растения, такого как маниока, кукуруза, сорго, соя, пшеница, овес или рис. Растительная клетка также может быть получена от водоросли, дерева или продуктивного растения, фрукта или овоща (например, деревьев, таких как цитрусовые деревья, например, деревья апельсина, грейпфрута или лимона; деревья персика или нектарина; деревья яблони или груши; орехоплодные деревья, такие как деревья миндаля, или грецкого ореха, или фисташки; пасленовых растений; растений из рода Brassica; растений из рода Lactuca; растений из рода Spinacia; растений из рода Capsicum; хлопчатника, табака, спаржи, моркови, капусты кочанной, брокколи, цветной капусты, томата, баклажана, перца, салата, шпината, земляники, черники, малины, ежевики, винограда, кофе, какао и т.д.).

В любом из описанных способов представляющий интерес целевой локус может представлять собой представляющий интерес локус генома или эпигеномный локус. В любом из описанных способов комплекс может доставляться с множественными направляющими для множественного применения. В любом из описанных способов можно применять более одного белка(белков).

В предпочтительных вариантах осуществления настоящего изобретения биохимическое, или in vitro, или in vivo расщепление последовательностей, ассоциированных с представляющим интерес целевым локусом или находящихся в нем, происходит без последовательности предполагаемой трансактивирующей crRNA (tracr RNA), например, расщепление с помощью эффекторного белка FnCpf1. В других вариантах осуществления настоящего изобретения расщепление может происходить с последовательностью предполагаемой трансактивирующей crRNA (tracr RNA), например, расщепление с помощью других эффекторных белков семейства CRISPR, однако после оценки локуса FnCpf1 заявители сделали вывод, что при расщеплении целевой ДНК с помощью комплекса эффекторного белка Cpf1 не требуется tracrRNA. Заявители определили, что комплексов эффекторного белка Cpf1, содержащих только эффекторный белок Cpf1 и crRNA (направляющая РНК, содержащая последовательность прямого повтора и направляющую последовательность), было достаточно для расщепления целевой ДНК. Соответственно, в настоящем изобретении предусмотрены способы модифицирования представляющего интерес целевого локуса, описанного в данном документе выше, где эффекторный белок представляет собой белок Cpf1, и эффекторный белок образует комплекс с целевой последовательностью без присутствия tracr-последовательности.

В любом из описанных способов эффекторный белок (например, Cpf1) и компоненты на основе нуклеиновой кислоты могут обеспечиваться с помощью одной или нескольких полинуклеотидных молекул, кодирующих белок и/или компонент(компоненты) на основе нуклеиновой кислоты, и где одна или несколько полинуклеотидных молекул функционально сконфигурированы для обеспечения экспрессии белка и/или компонента(компонентов) на основе нуклеиновой кислоты. Одна или несколько полинуклеотидных молекул могут содержать один или несколько регуляторных элементов, функционально сконфигурированных для обеспечения экспрессии белка и/или компонента(компонентов) на основе нуклеиновой кислоты. Одна или несколько полинуклеотидных молекул могут содержаться в одном или нескольких векторах. Настоящее изобретение охватывает такую(такие) полинуклеотидную(полинуклеотидные) молекулу(молекулы), например, такие полинуклеотидные молекулы функционально сконфигурированы для обеспечения экспрессии белка и/или компонента(компонентов) на основе нуклеиновой кислоты, а также такой(такие) вектор(векторы).

В любом из описанных способов разрыв нити может представлять собой однонитевой разрыв или двунитевой разрыв.

Регуляторные элементы могут предусматривать индуцируемые промоторы. Полинуклеотиды и/или векторные системы могут предусматривать индуцируемые системы.

В любом из описанных способов одна или несколько полинуклеотидных молекул могут содержаться в системе доставки, или один или несколько векторов могут содержаться в системе доставки.

В любом из описанных способов не встречающаяся в природе или сконструированная композиция может доставляться с помощью липосом, частиц (например, наночастиц), экзосом, микровезикул, генной пушки или одного или нескольких векторов, например, молекул нуклеиновой кислоты или вирусных векторов.

В настоящем изобретении также предусмотрена не встречающаяся в природе или сконструированная композиция, которая представляет собой композицию с характеристиками, обсуждаемыми в данном документе или определяемыми в любом из способов, описанных в данном документе.

В настоящем изобретении также предусмотрена векторная система, содержащая один или несколько векторов, причем один или несколько векторов содержат одну или несколько полинуклеотидных молекул, кодирующих компоненты не встречающейся в природе или сконструированной композиции, которая представляет собой композицию c характеристиками, обсуждаемыми в данном документе или определяемыми в любом из способов, описанных в данном документе.

В настоящем изобретении также предусмотрена система доставки, содержащая один или несколько векторов или одну или несколько полинуклеотидных молекул, причем один или несколько векторов или полинуклеотидных молекул предусматривают одну или несколько полинуклеотидных молекул, кодирующих компоненты не встречающейся в природе или сконструированной композиции, которая представляет собой композицию c характеристиками, обсуждаемыми в данном документе или определяемыми в любом из способов, описанных в данном документе.

В настоящем изобретении также предусмотрены не встречающаяся в природе или сконструированная композиция, или один или несколько полинуклеотидов, кодирующих компоненты указанной композиции, или вектор или системы доставки, содержащие один или несколько полинуклеотидов, кодирующих компоненты указанной композиции, для применения в терапевтическом способе лечения. Терапевтический способ лечения может предусматривать редактирование гена или генома или генную терапию.

Настоящее изобретение также охватывает компьютерные способы и алгоритмы для прогнозирования новых систем CRISPR-Cas класса 2 и идентификации компонентов в них.

В настоящем изобретении также предусмотрены способы и композиции, где один или несколько аминокислотных остатков эффекторного белка могут быть модифицированы, например, он является сконструированным или не встречающимся в природе эффекторным белком или Cpf1. В одном варианте осуществления модификация может предусматривать мутацию одного или нескольких аминокислотных остатков эффекторного белка. Одна или несколько мутаций могут находиться в одном или нескольких каталитически активных доменах эффекторного белка. Эффекторный белок может характеризоваться сниженной или отмененной нуклеазной активностью по сравнению с эффекторным белком, у которого отсутствует указанная одна или несколько мутаций. Эффекторный белок может не управлять расщеплением одной или другой нити ДНК или РНК в представляющем интерес целевом локусе. Эффекторный белок может не управлять расщеплением одной из нитей ДНК или РНК в представляющем интерес целевом локусе. В предпочтительном варианте осуществления одна или несколько мутаций могут предусматривать две мутации. В предпочтительном варианте осуществления один или несколько аминокислотных остатков модифицированы в эффекторном белке Cpf1, например, сконструированном или не встречающемся в природе эффекторном белке или Cpf1. В предпочтительном варианте осуществления эффекторный белок Cpf1 представляет собой эффекторный белок FnCpf1. В предпочтительном варианте осуществления один или несколько модифицированных или мутированных аминокислотных остатков представляют собой D917A, E1006A или D1255A в соответствии с нумерацией аминокислотных положений в эффекторном белке FnCpf1. В дополнительных предпочтительных вариантах осуществления один или несколько мутированных аминокислотных остатков представляют собой D908A, E993A, D1263A в соответствии с аминокислотными положениями в AsCpf1 или LbD832A, E925A, D947A или D1180A в соответствии с аминокислотными положениями в LbCpf1.

В настоящем изобретении также предусмотрено, что одна или несколько мутаций или две или более мутаций находятся в каталитически активном домене эффекторного белка, предусматривающем домен RuvC. В некоторых вариантах осуществления настоящего изобретения домен RuvC может предусматривать домен RuvCI, RuvCII или RuvCIII или каталитически активный домен, который гомологичен домену RuvCI, RuvCII или RuvCIII и т. д. или любому соответствующему домену, описываемому в любом из способов, описанных в данном документе. Эффекторный белок может содержать один или несколько гетерологичных функциональных доменов. Один или несколько гетерологичных функциональных доменов могут предусматривать один или несколько доменов, представляющих собой сигнал ядерной локализации (NLS). Один или несколько гетерологичных функциональных доменов могут предусматривать по меньшей мере два или более доменов NLS. Один или несколько доменов NLS могут быть расположены на конце эффекторного белка (например, Cpf1), или вблизи, или в непосредственной близости от него, а в случае двух или более NLS каждый из двух может быть расположен на конце эффекторного белка (например, Cpf1), или рядом, или в непосредственной близости от него. Один или несколько гетерологичных функциональных доменов могут предусматривать один или несколько доменов активации транскрипции. В предпочтительном варианте осуществления домен активации транскрипции может предусматривать VP64. Один или несколько гетерологичных функциональных доменов могут предусматривать один или несколько доменов репрессии транскрипции. В предпочтительном варианте осуществления домен репрессии транскрипции предусматривает домен KRAB или домен SID (например, SID4X). Один или несколько гетерологичных функциональных доменов могут предусматривать один или несколько нуклеазных доменов. В предпочтительном варианте осуществления нуклеазный домен предусматривает Fok1.

В настоящем изобретении также предусмотрено, что один или несколько гетерологичных функциональных доменов характеризуются одной или несколькими из следующих видов активности: метилазной активностью, деметилазной активностью, активностью в отношении активации транскрипции, активностью в отношении репрессии транскрипции, активностью фактора освобождения транскрипта, активностью модификации гистонов, нуклеазной активностью, активностью расщепления однонитевой РНК, активностью расщепления двухнитевой ДНК, активностью расщепления однонитевой ДНК, активностью расщепления двухнитевой ДНК и активностью связывания нуклеиновой кислоты. По меньшей мере один или несколько гетерологичных функциональных доменов могут быть расположены на амино-конце эффекторного белка или вблизи него, и/или где по меньшей мере один или несколько гетерологичных функциональных доменов могут быть расположены на кабокси-конце эффекторного белка или вблизи него. Один или несколько гетерологичных функциональных доменов могут быть слиты с эффекторным белком. Один или несколько гетерологичных функциональных доменов могут быть привязаны к эффекторному белку. Один или несколько гетерологичных функциональных доменов могут быть связаны с эффекторным белком с помощью линкерного фрагмента.

В настоящем изобретении также предусмотрен эффекторный белок (например, Cpf1), предусматривающий эффекторный белок (например, Cpf1) от организма из рода, включающего Streptococcus, Campylobacter, Nitratifractor, Staphylococcus, Parvibaculum, Roseburia, Neisseria, Gluconacetobacter, Azospirillum, Sphaerochaeta, Lactobacillus, Eubacterium, Corynebacter, Carnobacterium, Rhodobacter, Listeria, Paludibacter, Clostridium, Lachnospiraceae, Clostridiaridium, Leptotrichia, Francisella, Legionella, Alicyclobacillus, Methanomethyophilus, Porphyromonas, Prevotella, Bacteroidetes, Helcococcus, Letospira, Desulfovibrio, Desulfonatronum, Opitutaceae, Tuberibacillus, Bacillus, Brevibacilus, Methylobacterium или Acidaminococcus.

В настоящем изобретении также предусмотрен эффекторный белок (например, Cpf1), предусматривающий эффекторный белок (например, Cpf1) от организма S. mutans, S. agalactiae, S. equisimilis, S. sanguinis, S. pneumonia; C. jejuni, C. coli; N. salsuginis, N. tergarcus; S. auricularis, S. carnosus; N. meningitides, N. gonorrhoeae; L. monocytogenes, L. ivanovii; C. botulinum, C. difficile, C. tetani, C. sordellii.

Эффекторный белок может предусматривать химерный эффекторный белок, содержащий первый фрагмент из первого ортолога эффекторного белка (например, Cpf1) и второй фрагмент из второго ортолога эффекторного белка (например, Cpf1), и где первый и второй ортологи эффекторного белка являются различными. По меньшей мере один из первого и второго ортологов эффекторного белка (например, Cpf1) может предусматривать эффекторный белок (например, Cpf1) от организма, включающего Streptococcus, Campylobacter, Nitratifractor, Staphylococcus, Parvibaculum, Roseburia, Neisseria, Gluconacetobacter, Azospirillum, Sphaerochaeta, Lactobacillus, Eubacterium, Corynebacter, Carnobacterium, Rhodobacter, Listeria, Paludibacter, Clostridium, Lachnospiraceae, Clostridiaridium, Leptotrichia, Francisella, Legionella, Alicyclobacillus, Methanomethyophilus, Porphyromonas, Prevotella, Bacteroidetes, Helcococcus, Letospira, Desulfovibrio, Desulfonatronum, Opitutaceae, Tuberibacillus, Bacillus, Brevibacilus, Methylobacterium или Acidaminococcus; например, химерный эффекторный белок, содержащий первый фрагмент и второй фрагмент, где каждый из первого и второго фрагментов выбран из Cpf1 организма, включающего Streptococcus, Campylobacter, Nitratifractor, Staphylococcus, Parvibaculum, Roseburia, Neisseria, Gluconacetobacter, Azospirillum, Sphaerochaeta, Lactobacillus, Eubacterium, Corynebacter, Carnobacterium, Rhodobacter, Listeria, Paludibacter, Clostridium, Lachnospiraceae, Clostridiaridium, Leptotrichia, Francisella, Legionella, Alicyclobacillus, Methanomethyophilus, Porphyromonas, Prevotella, Bacteroidetes, Helcococcus, Letospira, Desulfovibrio, Desulfonatronum, Opitutaceae, Tuberibacillus, Bacillus, Brevibacilus, Methylobacterium или Acidaminococcus, где первый и второй фрагменты происходят не от одной и той же бактерии; например, химерный эффекторный белок, содержащий первый фрагмент и второй фрагмент, где каждый из первого и второго фрагментов выбран из Cpf1 S. mutans, S. agalactiae, S. equisimilis, S. sanguinis, S. pneumonia; C. jejuni, C. coli; N. salsuginis, N. tergarcus; S. auricularis, S. carnosus; N. meningitides, N. gonorrhoeae; L. monocytogenes, L. ivanovii; C. botulinum, C. difficile, C. tetani, C. sordellii; Francisella tularensis 1, Prevotella albensis, Lachnospiraceae bacterium MC2017 1, Butyrivibrio proteoclasticus, Peregrinibacteria bacterium GW2011_GWA2_33_10, Parcubacteria bacterium GW2011_GWC2_44_17, Smithella sp. SCADC, Acidaminococcus sp. BV3L6, Lachnospiraceae bacterium MA2020, Candidatus Methanoplasma termitum, Eubacterium eligens, Moraxella bovoculi 237, Leptospira inadai, Lachnospiraceae bacterium ND2006, Porphyromonas crevioricanis 3, Prevotella disiens и Porphyromonas macacae, где первый и второй фрагменты происходят не от одной и той же бактерии.

В предпочтительных вариантах осуществления настоящего изобретения эффекторный белок происходит из локуса Cpf1 (в данном документе такие эффекторные белки также обозначаются как "Cpf1p"), например, белка Cpf1 (и такой эффекторный белок, или белок Cpf1, или белок, происходящий из локуса Cpf1, также называются "ферментом CRISPR"). Локусы Cpf1 включают без ограничения локусы Cpf1 видов бактерий, приведенных на фигуре 64. В более предпочтительном варианте осуществления Cpf1p происходит от вида бактерий, выбранного из Francisella tularensis 1, Prevotella albensis, Lachnospiraceae bacterium MC2017 1, Butyrivibrio proteoclasticus, Peregrinibacteria bacterium GW2011_GWA2_33_10, Parcubacteria bacterium GW2011_GWC2_44_17, Smithella sp. SCADC, Acidaminococcus sp. BV3L6, Lachnospiraceae bacterium MA2020, Candidatus Methanoplasma termitum, Eubacterium eligens, Moraxella bovoculi 237, Leptospira inadai, Lachnospiraceae bacterium ND2006, Porphyromonas crevioricanis 3, Prevotella disiens и Porphyromonas macacae. В определенных вариантах осуществления Cpf1p происходит от вида бактерий, выбранного из Acidaminococcus sp. BV3L6, Lachnospiraceae bacterium MA2020. В определенных вариантах осуществления эффекторный белок происходит от подвида Francisella tularensis 1, включая без ограничения Francisella tularensis subsp. Novicida.

В дополнительных вариантах осуществления настоящего изобретения мотив, смежный с протоспейсером (PAM), или PAM-подобный мотив управляют связыванием комплекса эффекторного белка с представляющим интерес целевым локусом. В предпочтительном варианте осуществления настоящего изобретения PAM представляет собой 5' TTN, где N представляет собой A/C/G или T, а эффекторный белок представляет собой FnCpf1p. В другом предпочтительном варианте осуществления настоящего изобретения PAM представляет собой 5' TTTV, где V представляет собой A/C или G, а эффекторный белок представляет собой AsCpf1, LbCpf1 или PaCpf1p. В определенных вариантах осуществления PAM представляет собой 5' TTN, где N представляет собой A/C/G или T, эффекторный белок представляет собой FnCpf1p, а PAM расположен выше 5'-конца протоспейсера. В определенных вариантах осуществления настоящего изобретения PAM представляет собой 5' CTA, где эффекторный белок представляет собой FnCpf1p, а PAM расположен выше 5'-конца протоспейсера или целевого локуса. В предпочтительных вариантах осуществления настоящего изобретения предусмотрен расширенный диапазон нацеливания для нуклеаз, осуществляющих направляемое РНК редактирование генома, где PAM с высоким содержанием T из семейства Cpf1 обеспечивают возможность нацеливания и редактирования геномов с высоким содержанием AT.

В определенных вариантах осуществления фермент CRISPR является сконструированным, и он может содержать одну или несколько мутаций, которые снижают или устраняют нуклеазную активность. Аминокислотные положения в домене RuvC FnCpf1p включают без ограничения D917A, E1006A, E1028A, D1227A, D1255A, N1257A, D917A, E1006A, E1028A, D1227A, D1255A и N1257A. Заявители также идентифицировали предполагаемый второй нуклеазный домен, который наиболее похож на суперсемейство нуклеаз PD-(D/E)XK и HincII-подобную эндонуклеазу. Точечные мутации, которые необходимо получить в данном предполагаемом нуклеазном домене для значительного снижения нуклеазной активности, включают без ограничения N580A, N584A, T587A, W609A, D610A, K613A, E614A, D616A, K624A, D625A, K627A и Y629A. В предпочтительном варианте осуществления мутация в домене RuvC FnCpf1p представляет собой D917A или E1006A, где мутация D917A или E1006A полностью инактивирует активность расщепления ДНК у эффекторного белка FnCpf1. В другом варианте осуществления мутация в домене RuvC FnCpf1p представляет собой D1255A, где мутированный эффекторный белок FnCpf1 характеризуется значительно сниженной нуклеолитической активностью.

Аминокислотные положения в домене RuvC AsCpf1p включают без ограничения 908, 993 и 1263. В предпочтительном варианте осуществления мутация в домен RuvC AsCpf1p представляет собой D908A, E993A и D1263A, где мутации D908A, E993A и D1263A полностью инактивируют активность расщепления ДНК у эффекторного белка AsCpf1. Аминокислотные положения в домене RuvC LbCpf1p включают без ограничения 832, 947 или 1180. В предпочтительном варианте осуществления мутация в домене RuvC LbCpf1p представляет собой LbD832A, E925A, D947A или D1180A, где мутации LbD832A, E925A, D947A или D1180A полностью инактивируют активность расщепления ДНК у эффекторного белка LbCpf1.

Мутации также можно осуществлять в соседних остатках, например, в аминокислотах вблизи указываемых выше остатков, которые принимают участие в нуклеазной активности. В некоторых вариантах осуществления инактивируется только домен RuvC, а в других вариантах осуществления инактивируется другой предполагаемый нуклеазный домен, где комплекс эффекторного белка функционирует как никаза и расщепляет только одну нить ДНК. В предпочтительном варианте осуществления другой предполагаемый нуклеазный домен представляет собой домен HincII-подобной эндонуклеазы. В некоторых вариантах осуществления два варианта FnCpf1, AsCpf1 или LbCpf1 (каждый из которых представляет собой отличающуюся никазу) применяются для повышения специфичности, два варианта никазы применяются для расщепления ДНК в мишени (где обе никазы расщепляют нить ДНК, при этом сводятся к минимуму или устраняются нецелевые модификации, при которых расщепляется и впоследствии подвергается репарации только одна нить ДНК). В предпочтительных вариантах осуществления эффекторный белок Cpf1 расщепляет последовательности, ассоциированные с представляющим интерес целевым локусом или находящиеся в нем, в виде гомодимера, содержащего две молекулы эффекторного белка Cpf1. В предпочтительном варианте осуществления гомодимер может содержать две молекулы эффекторного белка Cpf1, содержащие свою мутацию в их соответствующих доменах RuvC.

Настоящее изобретение предусматривает способы применения двух или более никаз, в частности, подход двойной или сдвоенной никазы. В некоторых аспектах и вариантах осуществления могут доставляться никазы одного типа FnCpf1, AsCpf1 или LbCpf1, например, модифицированная FnCpf1, AsCpf1 или LbCpf1 или модифицированная никаза FnCpf1, AsCpf1 или LbCpf1, описываемые в данном документе. Это приводит к тому, что целевая ДНК связывается двумя никазами FnCpf1. В дополнение также предусматривается, что можно применять различные ортологи, например, никазу FnCpf1, AsCpf1 или LbCpf1 на одной нити (например, кодирующей нити) ДНК и ортолог на некодирующей или противоположной нити ДНК. Ортолог может представлять собой без ограничения никазу Cas9, такую как никаза SaCas9 или никаза SpCas9. Может иметь преимущество применение двух различных ортологов, для которых требуются различные PAM, и они также могут иметь отличающиеся требования к направляющим, обеспечивая таким образом больший контроль для пользователя. В определенных вариантах осуществления расщепление ДНК будет предусматривать по меньшей мере четыре типа никаз, где каждый тип направляется на отличающуюся последовательность целевой ДНК, где каждая пара вводит первый однонитевой разрез в одну нить ДНК, а вторая вводит однонитевой разрез во вторую нить ДНК. В таких способах по меньшей мере две пары однонитевых разрывов вводятся в целевую ДНК, при этом после введения первой и второй пар однонитевых разрывов целевые последовательности между первой и второй парами однонитевых разрывов вырезаются. В определенных вариантах осуществления один или оба ортолога являются контролируемыми, т. е. индуцируемыми.

В определенных вариантах осуществления настоящего изобретения направляющая РНК или зрелая crRNA предусматривает, состоит, по сути, из или состоит из последовательности прямого повтора и направляющей последовательности или спейсерной последовательности. В определенных вариантах осуществления направляющая РНК или зрелая crRNA предусматривает, состоит, по сути, из или состоит из последовательности прямого повтора, связанной с направляющей последовательностью или спейсерной последовательностью. В определенных вариантах осуществления направляющая РНК или зрелая crRNA содержит 19 нуклеотидов частичного прямого повтора, за которыми следуют 20-30 нуклеотидов направляющей последовательности или спейсерной последовательности, преимущественно приблизительно 20 нуклеотидов, 23-25 нуклеотидов или 24 нуклеотида. В определенных вариантах осуществления эффекторный белок представляет собой эффекторный белок FnCpf1, AsCpf1 или LbCpf1, и требуется направляющая последовательность длиной по меньшей мере 16 нуклеотидов, чтобы достигнуть обнаруживаемого расщепления ДНК, и направляющая последовательность длиной минимум 17 нуклеотидов, чтобы достичь эффективного расщепления ДНК in vitro. В определенных вариантах осуществления последовательность прямого повтора расположена выше (т. е. в направлении 5') направляющей последовательности или спейсерной последовательности. В предпочтительном варианте осуществления затравочная последовательность (т. е. последовательность, критически важная для распознавания и/или гибридизации с последовательностью в целевом локусе) направляющей РНК для FnCpf1, AsCpf1 или LbCpf1 находится примерно в пределах первых 5 нуклеотидов на 5'-конце направляющей последовательности или спейсерной последовательности.

В предпочтительных вариантах осуществления настоящего изобретения зрелая crRNA содержит "петлю-на-стебле", или оптимизированную структуру "петля-на-стебле", или оптимизированную вторичную структуру. В предпочтительных вариантах осуществления зрелая crRNA содержит "петлю-на-стебле" или оптимизированную структуру "петля-на-стебле" в последовательности прямого повтора, где "петля-на-стебле" или оптимизированная структура "петля-на-стебле" важна для активности расщепления. В определенных вариантах осуществления зрелая crRNA предпочтительно содержит одну "петлю-на-стебле". В определенных вариантах осуществления последовательность прямого повтора предпочтительно содержит одну "петлю-на-стебле". В определенных вариантах осуществления активность расщепления комплекса эффекторного белка является модифицированной за счет введения мутаций, которые воздействую на дуплексную структуру РНК "петля-на-стебле". В предпочтительных вариантах осуществления можно вводить мутации, которые поддерживают РНК-дуплекс в "петле-на-стебле", в результате чего сохраняется активность расщепления комплекса эффекторного белка. В других предпочтительных вариантах осуществления можно вводить мутации, которые нарушают дуплексную структуру РНК в "петле-на-стебле", в результате чего активность расщепления комплекса эффекторного белка полностью отменяется.

В настоящем изобретении также предусмотрена нуклеотидная последовательность, кодирующая эффекторный белок, которая является кодон-оптимизированной для экспрессии в эукариотическом организме или эукариотической клетке в любом из способов или композиций, описанных в данном документе. В одном варианте осуществления настоящего изобретения кодон-оптимизированный эффекторный белок представляет собой FnCpf1p, AsCpf1 или LbCpf1, и он является кодон-оптимизированным для функциональности в эукариотической клетке или организме, например, такой клетке или организме, упоминаемом в других разделах данного документа, например, без ограничения клетке дрожжей, или клетке или организме млекопитающего, в том числе клетке мыши, клетке крысы и клетке человека, или эукариотическом организме, отличном от человека, например, в растении.

В определенных вариантах осуществления настоящего изобретения по меньшей мере один сигнал ядерной локализации (NLS) прикреплен к последовательностям нуклеиновой кислоты, кодирующим эффекторные белки Cpf1. В предпочтительных вариантах осуществления прикреплены по меньшей мере один или несколько C-концевых или N-концевых NLS (и, следовательно, молекула(молекулы) нуклеиновой кислоты, кодирующая(кодирующие) эффекторный белок Cpf1, может предусматривать кодирование NLS, вследствие чего экспрессированный продукт имеет прикрепленный(прикрепленные) или присоединенный(присоединенные) NLS). В предпочтительном варианте осуществления C-концевой NLS прикреплен для оптимальной экспрессии и нацеливания в ядро в эукариотических клетках, предпочтительно клетках человека. В предпочтительном варианте осуществления кодон-оптимизированный эффекторный белок представляет собой FnCpf1p, AsCpf1 или LbCpf1, а длина спейсера направляющей РНК составляет от 15 до 35 нуклеотидов. В определенных вариантах осуществления длина спейсера направляющей РНК составляет по меньшей мере 16 нуклеотидов, как, например, по меньшей мере 17 нуклеотидов. В определенных вариантах осуществления длина спейсера составляет от 15 до 17 нуклеотидов, от 17 до 20 нуклеотидов, от 20 до 24 нуклеотидов, например, 20, 21, 22, 23 или 24 нуклеотида, от 23 до 25 нуклеотидов, например, 23, 24 или 25 нуклеотидов, от 24 до 27 нуклеотидов, 27-30 нуклеотидов, 30-35 нуклеотидов, или 35 нуклеотидов или больше. В определенных вариантах осуществления настоящего изобретения кодон-оптимизированный эффекторный белок представляет собой FnCpf1p, а длина прямого повтора направляющей РНК составляет по меньшей мере 16 нуклеотидов. В определенных вариантах осуществления кодон-оптимизированный эффекторный белок представляет собой FnCpf1p, а длина прямого повтора направляющей РНК составляет от 16 до 20 нуклеотидов, например, 16, 17, 18, 19 или 20 нуклеотидов. В определенных предпочтительных вариантах осуществления длина прямого повтора направляющей РНК составляет 19 нуклеотидов.

Настоящее изобретение также охватывает способы доставки множественных компонентов на основе нуклеиновой кислоты, где каждый компонент на основе нуклеиновой кислоты является специфичным к отличающемуся представляющему интерес целевому локусу, за счет чего обеспечивается модифицирование множественных представляющих интерес целевых локусов. Компонент на основе нуклеиновой кислоты комплекса может содержать один или несколько белок-связывающих РНК-аптамеров. Один или несколько аптамеров могут быть способны связывать белок оболочки бактериофага. Белок оболочки бактериофага может быть выбран из группы, содержащей Qβ, F2, GA, fr, JP501, MS2, M12, R17, BZ13, JP34, JP500, KU1, M11, MX1, TW18, VK, SP, FI, ID2, NL95, TW19, AP205, φCb5, φCb8r, φCb12r, φCb23r, 7s и PRR1. В предпочтительном варианте осуществления белок оболочки бактериофага представляет собой MS2. В настоящем изобретении также предусмотрен компонент на основе нуклеиновой кислоты комплекса, длина которого составляет 30 или более, 40 или более или 50 или более нуклеотидов.

Настоящее изобретение также охватывает клетки, компоненты и/или системы по настоящему изобретению со следовыми количествами катионов, присутствующих в клетках, компонентах и/или системах. Преимущественно катион представляет собой магний, как, например, Mg²⁺. Катион может присутствовать в следовом количестве. Предпочтительный диапазон может составлять от приблизительно 1 мМ до приблизительно 15 мМ в случае катиона, который преимущественно представляет собой Mg²⁺. Предпочтительная концентрация может составлять приблизительно 1 мМ для клеток, компонентов и/или систем, полученных от человека, и от приблизительно 10 мМ до приблизительно 15 мМ для клеток, компонентов и/или систем, полученных от бактерий. См., например, Gasiunas et al., PNAS, опубликован онлайн 4 сентября 2012 года, www.pnas.org/cgi/doi/10.1073/pnas.1208507109.

Соответственно, целью настоящего изобретения не является охват в пределах настоящего изобретения любого ранее известного продукта, способа получения продукта или способа применения продукта, так что заявители оставляют за собой право и настоящим раскрывают отказ от прав на любой ранее известный продукт, процесс или способ. Следует дополнительно отметить, что настоящее изобретение не предназначено охватывать в пределах объема настоящего изобретения любой продукт, способ получения продукта или способ применения продукта, который не соответствует письменному описанию и требованиям достаточного раскрытия сути изобретения USPTO (первый пункт § 112 статьи 35 USC) или EPO (статья 83 EPC), так что заявители оставляют за собой право и настоящим объявляют отказ от прав на любой ранее описанный продукт, способ получения продукта или способ применения продукта. При осуществлении настоящего изобретения на практике предпочтительным является соответствие статье 53(c) EPC и правилу 28(b), а также (c) EPC. Ничто из содержащегося в данном документе не должно истолковываться как обязательство.

Следует отметить, что в данном раскрытии, и в частности в формуле изобретения и/или параграфах, такие термины, как "содержит", "содержащийся", "содержащий" и т. п., могут иметь значение, приписываемое им в патентном законодательстве США, например, они могут означать "включает", "включенный", "включающий" и т. п., и что такие термины, как "состоящий, по сути, из" и "состоит, по сути, из" имеют значение, приписываемое им в патентном законодательстве США.

Эти и другие варианты осуществления раскрыты или являются очевидными, исходя из следующего подробного описания, а также охвачены им.

Краткое описание графических материалов

Новые признаки настоящего изобретения изложены с характерными особенностями в прилагаемой формуле изобретения. Лучшее понимание признаков и преимуществ настоящего изобретения будет получено при ссылке на следующее подробное описание, в котором изложены иллюстративные варианты осуществления, в которых используются принципы настоящего изобретения, и на сопутствующие графические материалы.

На фиг. 1A-1B изображена новая классификация систем CRISPR-Cas. Класс 2 включает мультисубъединичные комплексы crRNA-эффектор (Cascade), а класс 2 включает односубъединичные комплексы crRNA-эффектор (Cas9-подобные).

На фиг. 2 представлена молекулярная структура CRISPR-Cas.

На фиг. 3A-3D представлены структуры комплексов эффекторов I и III типов: общая структура/общее происхождение, несмотря на существенную дивергенцию последовательности.

На фиг. 4 показана CRISPR-Cas в качестве системы, в центре которой расположен мотив распознавания РНК (RRM).

На фиг. 5A-5D показана филогения Cas1, где главным аспектом эволюции CRISPR-Cas оказывается рекомбинация адаптационного и crRNA-эффекторного модулей.

На фиг. 6 показан полный набор CRISPR-Cas, в частности, распределение типов/подтипов CRISPR-Cas среди архей и бактерий.

На фиг. 7 изображен конвейерный алгоритм идентификации кандидатов Cas.

На фиг. 8A-8D изображена организация полных локусов систем класса 2.

На фиг. 9A-9B изображено соседство C2c1.

На фиг. 10A-10C изображено дерево Cas1.

На фиг. 11A-11B изображена организация доменов у семейств класса 2.

На фиг. 12A-12B изображены участки гомологии с TnpB у белков класса 2 (SEQ ID NO: 246-428 соответственно, по порядку).

На фиг. 13A-13B изображено соседство C2c2.

На фиг. 14A-14E изображен мотив HEPN RxxxxH в семействе C2c2 (SEQ ID NO: 429-1032 соответственно, по порядку).

На фиг. 15 изображен C2C1: 1. Alicyclobacillus acidoterrestris ATCC 49025 (SEQ ID NO: 1034-1037 соответственно, по порядку).

На фиг. 16 изображен C2C1: 4. Desulfonatronum thiodismutans штамма MLF-1 (SEQ ID NO: 1038-1041 соответственно, по порядку).

На фиг. 17 изображен C2C1: 5. Opitutaceae bacterium TAV5 (SEQ ID NO: 1042-1045 соответственно, по порядку).

На фиг. 18 изображен C2C1: 7. Bacillus thermoamylovorans штамма B4166 (SEQ ID NO: 1046-1049 соответственно, по порядку).

На фиг. 19 изображен C2C1: 9. Bacillus sp. NSP2.1 (SEQ ID NO: 1050-1053 соответственно, по порядку).

На фиг. 20 изображен C2C2: 1. Lachnospiraceae bacterium MA2020 (SEQ ID NO: 1054-1057 соответственно, по порядку).

На фиг. 21 изображен C2C2: 2. Lachnospiraceae bacterium NK4A179 (SEQ ID NO: 1058-1064 соответственно, по порядку).

На фиг. 22 изображен C2C2: 3. [Clostridium] aminophilum DSM 10710 (SEQ ID NO: 1065-1068 соответственно, по порядку).

На фиг. 23 изображен C2C2: 4. Lachnospiraceae bacterium NK4A144 (SEQ ID NO: 1069 и 1070 соответственно, по порядку).

На фиг. 24 изображен C2C2: 5. Carnobacterium gallinarum DSM 4847 (SEQ ID NO: 1071-1074 соответственно, по порядку).

На фиг. 25 изображен C2C2: 6. Carnobacterium gallinarum DSM 4847 (SEQ ID NO: 1075-1081 соответственно, по порядку).

На фиг. 26 изображен C2C2: 7. Paludibacter propionicigenes WB4 (SEQ ID NO: 1082).

На фиг. 27 изображен C2C2: 8. Listeria seeligeri serovar 1/2b (SEQ ID NO: 1083-1086 соответственно, по порядку).

На фиг. 28 изображен C2C2: 9. Listeria weihenstephanensis FSL R9-0317 (SEQ ID NO: 1087).

На фиг. 29 изображен C2C2: 10. Listeria bacterium FSL M6-0635 (SEQ ID NO: 1088 и 1091 соответственно, по порядку).

На фиг. 30 изображен C2C2: 11. Leptotrichia wadei F0279 (SEQ ID NO: 1092).

На фиг. 31 изображен C2C2: 12. Leptotrichia wadei F0279 (SEQ ID NO: 1093-1099 соответственно, по порядку).

На фиг. 32 изображен C2C2: 14. Leptotrichia shahii DSM 19757 (SEQ ID NO: 1100-1103 соответственно, по порядку).

На фиг. 33 изображен C2C2: 15. Rhodobacter capsulatus SB 1003 (SEQ ID NO: 1104 и 1105 соответственно, по порядку).

На фиг. 34 изображен C2C2: 16. Rhodobacter capsulatus R121 (SEQ ID NO: 1106 и 1107 соответственно, по порядку).

На фиг. 35 изображен C2C2: 17. Rhodobacter capsulatus DE442 (SEQ ID NO: 1108 и 1109 соответственно, по порядку).

На фиг. 36 изображено дерево DR.

На фиг. 37 изображено дерево C2C2.

На фиг. 38A-38BB показано выравнивание последовательностей ортологов Cas-Cpf1 (SEQ ID NO: 1033 и 1110-1166 соответственно, по порядку).

На фиг. 39A-39B показан обзор выравнивания локусов Cpf1.

На фиг. 40A-40X показана конструкция вектора PACYC184 FnCpf1 (PY001) (SEQ ID NO: 1167 и SEQ ID NO: 1168-1189 соответственно, по порядку).

На фиг. 41A-41I показана последовательность гуманизированного PaCpf1 с нуклеотидной последовательностью под SEQ ID NO: 1190 и белковой последовательностью под SEQ ID NO: 1191.

На фиг. 42 изображен анализ с пробой на PAM.

На фиг. 43 изображена схема эндогенного локуса FnCpf1. pY0001 представляет собой остов pACY184 (от NEB) с частичным локусом FnCpf1. Локус FnCpf1 подвергали ПЦР-амплификации тремя частями и клонировали в pACYC184, разрезанный с помощью Xba1 и Hind3, с применением сборки по Гибсону. PY0001 содержит эндогенный локус FnCpf1 из 255 п. о. в направлении 3' от последовательности ацетилтрансферазы до четвертой спейсерной последовательности. Только спейсеры 1-3 являются потенциально активными, поскольку спейсер 4 больше не фланкирован прямыми повторами.

На фиг. 44 изображены библиотеки PAM, которые раскрыты под SEQ ID NO: 1192-1195 соответственно, по порядку. Обе библиотеки PAM (левые и правые) находятся в pUC19. Сложность библиотеки левых PAM составляет 48 ~ 65 т.о., а сложность библиотеки правых PAM составляет 47 ~ 16 т. о. Обе библиотеки получали с представлением, составляющим > 500.

На фиг. 45A-4E изображен компьютерный анализ для скрининга PAM FnCpf1. После секвенирования подвергнутой скринингу ДНК участки, соответствующие либо левому PAM, либо правому PAM, экстрагировали. Для каждого образца число PAM, присутствующих в секвенированной библиотеке, сравнивали с числом экстрагированных PAM в данной библиотеке (4^8 для левой библиотеки, 4^7 для правой). На фиг. 44A изображена левая библиотека, показывающая истощение PAM. Для количественной оценки данного истощения рассчитывали показатель обогащения. Для обоих состояний (контрольный pACYC или pACYC, содержащий FnCpf1) показатель рассчитывали для каждого PAM в библиотеке как . Нанесение распределения на график показывает небольшое обогащение для контрольного образца и обогащение для обоих биологических повторов. На фиг. 44B-44D изображены распределения показателей PAM. На фиг. 44E показано, что собирали PAM с показателем, превышающим 8, и распределения частот наносили на график для выявления PAM 5' YYN.

На фиг. 46 изображен анализ RNAseq локуса Cpf1 Francisella tolerances, который показывает, что локус CRISPR активно экспрессируется. В дополнение к генам Cpf1 и Cas на высоком уровне транскрибируются два небольших некодирующих транскрипта, которые могут быть предполагаемыми tracrRNA. Также экспрессируется массив CRISPR. Как предполагаемые tracrRNA, так и массив CRISPR транскрибируются в том же направлении, что и гены Cpf1 и Cas. В данном случае все РНК-транскрипты, идентифицированные с помощью эксперимента RNAseq, картированы относительно локуса. После дополнительной оценки локуса FnCpf1 заявители сделали вывод, что для расщепления целевой ДНК под действием комплекса эффекторного белка Cpf1 не требуется tracrRNA. Заявители определили, что комплексов эффекторного белка Cpf1, содержащих только эффекторный белок Cpf1 и crRNA (направляющая РНК, содержащая последовательность прямого повтора и направляющую последовательность), было достаточно для расщепления целевой ДНК.

На фиг. 47 изображено увеличение масштаба массива CRISPR c Cpf1. Можно было идентифицировать много различных коротких транскриптов. На данном графике все идентифицированные РНК-транскрипты картированы относительно локуса Cpf1.

На фиг. 48 изображена идентификация двух предполагаемых tracrRNA после отбора транскриптов, длина которых составляет менее 85 нуклеотидов.

На фиг. 49 изображено увеличение масштаба предполагаемой tracrRNA 1 (SEQ ID NO: 1196) и массива CRISPR.

На фиг. 50 изображено увеличение масштаба предполагаемой tracrRNA 2, которая раскрыта под SEQ ID NO: 1197-1203 соответственно, по порядку.

На фиг. 51 изображены предполагаемые последовательности crRNA (повтор обозначен голубым цветом, спейсер обозначен черным цветом) (SEQ ID NO: 1205 и 1206 соответственно, по порядку).

На фиг. 52 показана схема анализа для подтверждения прогнозируемого PAM FnCpf1 in vivo.

На фиг. 53 показаны клетки, несущие локус FnCpf1, и контрольные клетки, трансформированные с помощью pUC19, кодирующего эндогенный спейсер 1 с PAM 5' TTN.

На фиг. 54 показаны схема, указывающая положения последовательности предполагаемой tracrRNA в локусе FnCpf1, crRNA (SEQ ID NO: 1207) и вектор pUC с протоспейсером.

На фиг. 55 представлен гель, на котором показан ПЦР-фрагмент с PAM TTa и последовательностью протоспейсера 1 после инкубации в клеточном лизате.

На фиг. 56 представлен гель, на котором показан pUC-спейсер 1 с различными PAM после инкубации в клеточном лизате.

На фиг. 57 представлен гель, на котором показаны результаты расщепления с помощью BasI после инкубации в клеточном лизате.

На фиг. 58 представлен гель, на котором показаны результаты расщепления трех предполагаемых последовательностей crRNA (SEQ ID NO: 1208).

На фиг. 59 представлен гель, на котором показаны результаты тестирования спейсеров различной длины относительно части целевой ДНК, содержащей целевой сайт: 5'-TTAgagaagtcatttaataaggccactgttaaaa-3' (SEQ ID NO: 1209). Результаты показывают, что crRNA 1-7 опосредовали успешное расщепление целевой ДНК in vitro под действием FnCpf1. crRNA 8-13 не способствовали расщеплению целевой ДНК. SEQ ID NO: 1210-1248 раскрыты соответственно по порядку.

На фиг. 60 представлена схема с указанием минимального локуса FnCpf1.

На фиг. 61 представлена схема с указанием минимальной направляющей Cpf1 (SEQ ID NO: 1249).

На фиг. 62A-62E изображен компьютерный анализ для скрининга PAM PaCpf1. После секвенирования подвергнутой скринингу ДНК участки, соответствующие либо левому PAM, либо правому PAM, экстрагировали. Для каждого образца число PAM, присутствующих в секвенированной библиотеке, сравнивали с числом экстрагированных PAM в данной библиотеке (4^7). (фиг. 62A) Для левой библиотеки показано очень слабое истощение PAM. Для количественной оценки данного истощения рассчитывали показатель обогащения. Для обоих состояний (контрольный pACYC или pACYC, содержащий PaCpf1) показатель рассчитывали для каждого PAM в библиотеке как

показатель.

Нанесение распределения на график показывает небольшое обогащение для контрольного образца и обогащение для обоих биологических повторов. На фиг. 62B-62D изображены распределения показателей PAM. На фиг. 62E показано, что собирали все PAM с показателем, превышающим 4,5, и распределения частот наносили на график, что выявило PAM 5' TTTV, где V представляет собой A, или C, или G.

На фиг. 63 показана карта вектора с последовательностью PaCpf1, кодон-оптимизированной для человека, который изображен как CBh-NLS-huPaCpf1-NLS-3xHA-pA.

На фиг. 64A-64B показано филогенетическое дерево 51 локуса Cpf1 у различных бактерий. Выделение рамкой указывает на №№ эталонных генов: 1-17. Ортологи с рамкой/пронумерованные тестировали в отношении активности расщепления in vitro с прогнозируемой зрелой crRNA; ортологи с рамкой вокруг их номера проявляли активность в анализе in vitro.

На фиг. 65A-65H показаны подробные сведения, относящиеся к последовательности Cpf1 Lachnospiraceae bacterium MC2017 1, кодон-оптимизированной для человека, с длиной гена, составляющей 3849 нуклеотидов (эталон. № 3 на фиг. 64). Фиг. 65A. Индекс адаптации кодонов (CAI). Распределение частоты использования кодонов по всей длине последовательности гена. Считается, что CAI, составляющий 1,0, является отличным для организма, в котором требуется экспрессия, а CAI, составляющий > 0,8, считается таким же хорошим с точки зрения высокого уровня экспрессии гена. Фиг. 65B. Частота оптимальных кодонов (FOP). Процентное распределение кодонов в рассчитанных группах качества кодонов. Значение, составляющее 100, установлено для кодонов с наиболее высокой частотой использования для данной аминокислоты в организме, в котором требуется экспрессия. Фиг. 65C. Корректировка содержания GC. Идеальный диапазон процентного содержания GC составляет 30-70%. Пики % содержания GC в окне размером 60 п.о. были удалены. Фиг. 65D. Рестриктазы и цис-действующие элементы. Фиг. 65E. Удаление повторяющихся последовательностей. Фиг. 65F-G. Оптимизированная последовательность (длина оптимизированной последовательности: 3849, GC% 54,70) (SEQ ID NO: 1250). Фиг. 65H. Белковая последовательность (SEQ ID NO: 1251).

На фиг. 66A-66H показаны подробные сведения, относящиеся к последовательности Cpf1 Butyrivibrio proteoclasticus, кодон-оптимизированной для человека, с длиной гена, составляющей 3873 нуклеотида (эталон. № 4 на фиг. 64). Фиг. 66A. Индекс адаптации кодонов (CAI). Распределение частоты использования кодонов по всей длине последовательности гена. Считается, что CAI, составляющий 1,0, является отличным для организма, в котором требуется экспрессия, а CAI, составляющий > 0,8, считается таким же хорошим с точки зрения высокого уровня экспрессии гена. Фиг. 66B. Частота оптимальных кодонов (FOP). Процентное распределение кодонов в рассчитанных группах качества кодонов. Значение, составляющее 100, установлено для кодонов с наиболее высокой частотой использования для данной аминокислоты в организме, в котором требуется экспрессия. Фиг. 66C. Корректировка содержания GC. Идеальный диапазон процентного содержания GC составляет 30-70%. Пики % содержания GC в окне размером 60 п. о. были удалены. Фиг. 66D. Рестриктазы и цис-действующие элементы. Фиг. 66E. Удаление повторяющихся последовательностей. Фиг. 66F-G. Оптимизированная последовательность (длина оптимизированной последовательности: 3873, GC% 54,05) (SEQ ID NO: 1252). Фиг. 66H. Белковая последовательность (SEQ ID NO: 1253).

На фиг. 67A-67H показаны подробные сведения, относящиеся к последовательности Cpf1 Peregrinibacteria bacterium GW2011_GWA2_33_10, кодон-оптимизированной для человека, с длиной гена, составляющей 4581 нуклеотид (эталон. № 5 на фиг. 64). Фиг. 67A. Индекс адаптации кодонов (CAI). Распределение частоты использования кодонов по всей длине последовательности гена. Считается, что CAI, составляющий 1,0, является отличным для организма, в котором требуется экспрессия, а CAI, составляющий > 0,8, считается таким же хорошим с точки зрения высокого уровня экспрессии гена. Фиг. 67B. Частота оптимальных кодонов (FOP). Процентное распределение кодонов в рассчитанных группах качества кодонов. Значение, составляющее 100, установлено для кодонов с наиболее высокой частотой использования для данной аминокислоты в организме, в котором требуется экспрессия. Фиг. 67C. Корректировка содержания GC. Идеальный диапазон процентного содержания GC составляет 30-70%. Пики % содержания GC в окне размером 60 п.о. были удалены. Фиг. 67D. Рестриктазы и цис-действующие элементы. Фиг. 67E. Удаление повторяющихся последовательностей. Фиг. 67F-G. Оптимизированная последовательность (длина оптимизированной последовательности: 4581, GC% 50,81) (SEQ ID NO: 1254). Фиг. 67H. Белковая последовательность (SEQ ID NO: 1255).

На фиг. 68A-68H показаны подробные сведения, относящиеся к последовательности Cpf1 Parcubacteria bacterium GW2011_GWC2_44_17, кодон-оптимизированной для человека, с длиной гена, составляющей 4206 нуклеотидов (эталон. № 6 на ФИГ. 64). Фиг. 68A. Индекс адаптации кодонов (CAI). Распределение частоты использования кодонов по всей длине последовательности гена. Считается, что CAI, составляющий 1,0, является отличным для организма, в котором требуется экспрессия, а CAI, составляющий > 0,8, считается таким же хорошим с точки зрения высокого уровня экспрессии гена. Фиг. 68B. Частота оптимальных кодонов (FOP). Процентное распределение кодонов в рассчитанных группах качества кодонов. Значение, составляющее 100, установлено для кодонов с наиболее высокой частотой использования для данной аминокислоты в организме, в котором требуется экспрессия. Фиг. 68C. Корректировка содержания GC. Идеальный диапазон процентного содержания GC составляет 30-70%. Пики % содержания GC в окне размером 60 п. о. были удалены. Фиг. 68D. Рестриктазы и цис-действующие элементы. Фиг. 68E. Удаление повторяющихся последовательностей. Фиг. 68F-G. Оптимизированная последовательность (длина оптимизированной последовательности: 4206, GC% 52,17) (SEQ ID NO: 1256). Фиг. 68H. Белковая последовательность (SEQ ID NO: 1257).

На фиг. 69A-69H показаны подробные сведения, относящиеся к последовательности Cpf1 Smithella sp. SCADC, кодон-оптимизированной для человека, с длиной гена, составляющей 3900 нуклеотидов (эталон. № 7 на фиг. 64). Фиг. 69A. Индекс адаптации кодонов (CAI). Распределение частоты использования кодонов по всей длине последовательности гена. Считается, что CAI, составляющий 1,0, является отличным для организма, в котором требуется экспрессия, а CAI, составляющий > 0,8, считается таким же хорошим с точки зрения высокого уровня экспрессии гена. Фиг. 69B. Частота оптимальных кодонов (FOP). Процентное распределение кодонов в рассчитанных группах качества кодонов. Значение, составляющее 100, установлено для кодонов с наиболее высокой частотой использования для данной аминокислоты в организме, в котором требуется экспрессия. Фиг. 69C. Корректировка содержания GC. Идеальный диапазон процентного содержания GC составляет 30-70%. Пики % содержания GC в окне размером 60 п.о. были удалены. Фиг. 69D. Рестриктазы и цис-действующие элементы. Фиг. 69E. Удаление повторяющихся последовательностей. Фиг. 69F-G. Оптимизированная последовательность (длина оптимизированной последовательности: 3900, GC% 51,56) (SEQ ID NO: 1258). Фиг. 69H. Белковая последовательность (SEQ ID NO: 1259).

На фиг. 70A-70H показаны подробные сведения, относящиеся к последовательности Cpf1 Acidaminococcus sp. BV3L6, кодон-оптимизированной для человека, с длиной гена, составляющей 4071 нуклеотид (эталон. № 8 на фиг. 64). Фиг. 70A. Индекс адаптации кодонов (CAI). Распределение частоты использования кодонов по всей длине последовательности гена. Считается, что CAI, составляющий 1,0, является отличным для организма, в котором требуется экспрессия, а CAI, составляющий > 0,8, считается таким же хорошим с точки зрения высокого уровня экспрессии гена. Фиг. 70B. Частота оптимальных кодонов (FOP). Процентное распределение кодонов в рассчитанных группах качества кодонов. Значение, составляющее 100, установлено для кодонов с наиболее высокой частотой использования для данной аминокислоты в организме, в котором требуется экспрессия. Фиг. 70C. Корректировка содержания GC. Идеальный диапазон процентного содержания GC составляет 30-70%. Пики % содержания GC в окне размером 60 п. о. были удалены. Фиг. 70D. Рестриктазы и цис-действующие элементы. Фиг. 70E. Удаление повторяющихся последовательностей. Фиг. 70F-G. Оптимизированная последовательность (длина оптимизированной последовательности: 4071, GC% 54,89) (SEQ ID NO: 1260). Фиг. 70H. Белковая последовательность (SEQ ID NO: 1261).

На фиг. 71A-71H показаны подробные сведения, относящиеся к последовательности Cpf1 Lachnospiraceae bacterium MA2020, кодон-оптимизированной для человека, с длиной гена, составляющей 3768 нуклеотидов (эталон. № 9 на фиг. 64). Фиг. 71A. Индекс адаптации кодонов (CAI). Распределение частоты использования кодонов по всей длине последовательности гена. Считается, что CAI, составляющий 1,0, является отличным для организма, в котором требуется экспрессия, а CAI, составляющий > 0,8, считается таким же хорошим с точки зрения высокого уровня экспрессии гена. Фиг. 71B. Частота оптимальных кодонов (FOP). Процентное распределение кодонов в рассчитанных группах качества кодонов. Значение, составляющее 100, установлено для кодонов с наиболее высокой частотой использования для данной аминокислоты в организме, в котором требуется экспрессия. Фиг. 71C. Корректировка содержания GC. Идеальный диапазон процентного содержания GC составляет 30-70%. Пики % содержания GC в окне размером 60 п. о. были удалены. Фиг. 71D. Рестриктазы и цис-действующие элементы. ФИГ. 71E. Удаление повторяющихся последовательностей. Фиг. 71F-G. Оптимизированная последовательность (длина оптимизированной последовательности: 3768, GC% 51,53) (SEQ ID NO: 1262). Фиг. 71H. Белковая последовательность (SEQ ID NO: 1263).

На фиг. 72A-72H показаны подробные сведения, относящиеся к последовательности Cpf1 Candidatus Methanoplasma termitum, кодон-оптимизированной для человека, с длиной гена, составляющей 3864 нуклеотида (эталон. № 10 на фиг. 64). Фиг. 72A. Индекс адаптации кодонов (CAI). Распределение частоты использования кодонов по всей длине последовательности гена. Считается, что CAI, составляющий 1,0, является отличным для организма, в котором требуется экспрессия, а CAI, составляющий > 0,8, считается таким же хорошим с точки зрения высокого уровня экспрессии гена. Фиг. 72B. Частота оптимальных кодонов (FOP). Процентное распределение кодонов в рассчитанных группах качества кодонов. Значение, составляющее 100, установлено для кодонов с наиболее высокой частотой использования для данной аминокислоты в организме, в котором требуется экспрессия. Фиг. 72C. Корректировка содержания GC. Идеальный диапазон процентного содержания GC составляет 30-70%. Пики % содержания GC в окне размером 60 п.о. были удалены. Фиг. 72D. Рестриктазы и цис-действующие элементы. Фиг. 72E. Удаление повторяющихся последовательностей. Фиг. 72F-G. Оптимизированная последовательность (длина оптимизированной последовательности: 3864, GC% 52,67) (SEQ ID NO: 1264). Фиг. 72H. Белковая последовательность (SEQ ID NO: 1265).

На фиг. 73A-73H показаны подробные сведения, относящиеся к последовательности Cpf1 Eubacterium eligens, кодон-оптимизированной для человека, с длиной гена, составляющей 3996 нуклеотидов (эталон. № 11 на Фиг. 64). Фиг. 73A. Индекс адаптации кодонов (CAI). Распределение частоты использования кодонов по всей длине последовательности гена. Считается, что CAI, составляющий 1,0, является отличным для организма, в котором требуется экспрессия, а CAI, составляющий > 0,8, считается таким же хорошим с точки зрения высокого уровня экспрессии гена. Фиг. 73B. Частота оптимальных кодонов (FOP). Процентное распределение кодонов в рассчитанных группах качества кодонов. Значение, составляющее 100, установлено для кодонов с наиболее высокой частотой использования для данной аминокислоты в организме, в котором требуется экспрессия. Фиг. 73C. Корректировка содержания GC. Идеальный диапазон процентного содержания GC составляет 30-70%. Пики % содержания GC в окне размером 60 п. о. были удалены. Фиг. 73D. Рестриктазы и цис-действующие элементы. Фиг. 73E. Удаление повторяющихся последовательностей. Фиг. 73F-G. Оптимизированная последовательность (длина оптимизированной последовательности: 3996, GC% 50,52) (SEQ ID NO: 1266). Фиг. 73H. Белковая последовательность (SEQ ID NO: 1267).

На фиг. 74A-74H показаны подробные сведения, относящиеся к последовательности Cpf1 Moraxella bovoculi 237, кодон-оптимизированной для человека, с длиной гена, составляющей 4269 нуклеотидов (эталон. № 12 на фиг. 64). Фиг. 74A. Индекс адаптации кодонов (CAI). Распределение частоты использования кодонов по всей длине последовательности гена. Считается, что CAI, составляющий 1,0, является отличным для организма, в котором требуется экспрессия, а CAI, составляющий > 0,8, считается таким же хорошим с точки зрения высокого уровня экспрессии гена. Фиг. 74B. Частота оптимальных кодонов (FOP). Процентное распределение кодонов в рассчитанных группах качества кодонов. Значение, составляющее 100, установлено для кодонов с наиболее высокой частотой использования для данной аминокислоты в организме, в котором требуется экспрессия. Фиг. 74C. Корректировка содержания GC. Идеальный диапазон процентного содержания GC составляет 30-70%. Пики % содержания GC в окне размером 60 п.о. были удалены. Фиг. 74D. Рестриктазы и цис-действующие элементы. Фиг. 74E. Удаление повторяющихся последовательностей. Фиг. 74F-G. Оптимизированная последовательность (длина оптимизированной последовательности: 4269, GC% 53,58) (SEQ ID NO: 1268). Фиг. 74H. Белковая последовательность (SEQ ID NO: 1269).

На фиг. 75A-75H показаны подробные сведения, относящиеся к последовательности Cpf1 Leptospira inadai, кодон-оптимизированной для человека, с длиной гена, составляющей 3939 нуклеотидов (эталон. № 13 на фиг. 64). Фиг. 75A. Индекс адаптации кодонов (CAI). Распределение частоты использования кодонов по всей длине последовательности гена. Считается, что CAI, составляющий 1,0, является отличным для организма, в котором требуется экспрессия, а CAI, составляющий > 0,8, считается таким же хорошим с точки зрения высокого уровня экспрессии гена. Фиг. 75B. Частота оптимальных кодонов (FOP). Процентное распределение кодонов в рассчитанных группах качества кодонов. Значение, составляющее 100, установлено для кодонов с наиболее высокой частотой использования для данной аминокислоты в организме, в котором требуется экспрессия. Фиг. 75C. Корректировка содержания GC. Идеальный диапазон процентного содержания GC составляет 30-70%. Пики % содержания GC в окне размером 60 п.о. были удалены. Фиг. 75D. Рестриктазы и цис-действующие элементы. Фиг. 75E. Удаление повторяющихся последовательностей. Фиг. 75F-G. Оптимизированная последовательность (длина оптимизированной последовательности: 3939, GC% 51,30) (SEQ ID NO: 1270). Фиг. 75H. Белковая последовательность (SEQ ID NO: 1271).

На фиг. 76A-76H показаны подробные сведения, относящиеся к последовательности Cpf1 Lachnospiraceae bacterium ND2006, кодон-оптимизированной для человека, с длиной гена, составляющей 3834 нуклеотида (эталон. № 14 на фиг. 64). Фиг. 76A. Индекс адаптации кодонов (CAI). Распределение частоты использования кодонов по всей длине последовательности гена. Считается, что CAI, составляющий 1,0, является отличным для организма, в котором требуется экспрессия, а CAI, составляющий > 0,8, считается таким же хорошим с точки зрения высокого уровня экспрессии гена. Фиг. 76B. Частота оптимальных кодонов (FOP). Процентное распределение кодонов в рассчитанных группах качества кодонов. Значение, составляющее 100, установлено для кодонов с наиболее высокой частотой использования для данной аминокислоты в организме, в котором требуется экспрессия. Фиг. 76C. Корректировка содержания GC. Идеальный диапазон процентного содержания GC составляет 30-70%. Пики % содержания GC в окне размером 60 п. о. были удалены. Фиг. 76D. Рестриктазы и цис-действующие элементы. Фиг. 76E. Удаление повторяющихся последовательностей. Фиг. 76F-G. Оптимизированная последовательность (длина оптимизированной последовательности: 3834, GC% 51,06) (SEQ ID NO: 1272). Фиг. 76H. Белковая последовательность (SEQ ID NO: 1273).

На фиг. 77A-77H показаны подробные сведения, относящиеся к последовательности Cpf1 Porphyromonas crevioricanis 3, кодон-оптимизированной для человека, с длиной гена, составляющей 3930 нуклеотидов (эталон. № 15 на фиг. 64). Фиг. 77A. Индекс адаптации кодонов (CAI). Распределение частоты использования кодонов по всей длине последовательности гена. Считается, что CAI, составляющий 1,0, является отличным для организма, в котором требуется экспрессия, а CAI, составляющий > 0,8, считается таким же хорошим с точки зрения высокого уровня экспрессии гена. Фиг. 77B. Частота оптимальных кодонов (FOP). Процентное распределение кодонов в рассчитанных группах качества кодонов. Значение, составляющее 100, установлено для кодонов с наиболее высокой частотой использования для данной аминокислоты в организме, в котором требуется экспрессия. Фиг. 77C. Корректировка содержания GC. Идеальный диапазон процентного содержания GC составляет 30-70%. Пики % содержания GC в окне размером 60 п. о. были удалены. Фиг. 77D. Рестриктазы и цис-действующие элементы. Фиг. 77E. Удаление повторяющихся последовательностей. Фиг. 77F-G. Оптимизированная последовательность (длина оптимизированной последовательности: 3930, GC% 54,42) (SEQ ID NO: 1274). Фиг. 77H. Белковая последовательность (SEQ ID NO: 1275).

На фиг. 78A-78H показаны подробные сведения, относящиеся к последовательности Cpf1 Prevotella disiens, кодон-оптимизированной для человека, с длиной гена, составляющей 4119 нуклеотидов (эталон. № 16 на фиг. 64). Фиг. 78A. Индекс адаптации кодонов (CAI). Распределение частоты использования кодонов по всей длине последовательности гена. Считается, что CAI, составляющий 1,0, является отличным для организма, в котором требуется экспрессия, а CAI, составляющий > 0,8, считается таким же хорошим с точки зрения высокого уровня экспрессии гена. Фиг. 78B. Частота оптимальных кодонов (FOP). Процентное распределение кодонов в рассчитанных группах качества кодонов. Значение, составляющее 100, установлено для кодонов с наиболее высокой частотой использования для данной аминокислоты в организме, в котором требуется экспрессия. Фиг. 78C. Корректировка содержания GC. Идеальный диапазон процентного содержания GC составляет 30-70%. Пики % содержания GC в окне размером 60 п. о. были удалены. Фиг. 78D. Рестриктазы и цис-действующие элементы. Фиг. 78E. Удаление повторяющихся последовательностей. Фиг. 78F-G. Оптимизированная последовательность (длина оптимизированной последовательности: 4119, GC% 51,88) (SEQ ID NO: 1276). Фиг. 78H. Белковая последовательность (SEQ ID NO: 1277).

На фиг. 79A-79H показаны подробные сведения, относящиеся к последовательности Cpf1 Porphyromonas macacae, кодон-оптимизированной для человека, с длиной гена, составляющей 3888 нуклеотидов (эталон. № 17 на фиг. 64). Фиг. 79A. Индекс адаптации кодонов (CAI). Распределение частоты использования кодонов по всей длине последовательности гена. Считается, что CAI, составляющий 1,0, является отличным для организма, в котором требуется экспрессия, а CAI, составляющий > 0,8, считается таким же хорошим с точки зрения высокого уровня экспрессии гена. Фиг. 79B. Частота оптимальных кодонов (FOP). Процентное распределение кодонов в рассчитанных группах качества кодонов. Значение, составляющее 100, установлено для кодонов с наиболее высокой частотой использования для данной аминокислоты в организме, в котором требуется экспрессия. Фиг. 79C. Корректировка содержания GC. Идеальный диапазон процентного содержания GC составляет 30-70%. Пики % содержания GC в окне размером 60 п. о. были удалены. Фиг. 79D. Рестриктазы и цис-действующие элементы. Фиг. 79E. Удаление повторяющихся последовательностей. Фиг. 79F-G. Оптимизированная последовательность (длина оптимизированной последовательности: 3888, GC% 53,26) (SEQ ID NO: 1278). Фиг. 79H. Белковая последовательность (SEQ ID NO: 1279).

На фиг. 80A-80I показаны последовательности прямого повтора (DR) для каждого ортолога (со ссылкой на нумерацию эталон. № 3-17 на фиг. 64) и их прогнозируемая структура укладки. SEQ ID NO: 1280-1313 соответственно раскрыты по порядку.

На фиг. 81 показано расщепление ПЦР-ампликона локуса Emx1 человека. SEQ ID NO: 1314-1318 соответственно раскрыты по порядку.

На фиг. 82A-82B показан эффект усечения 5' DR на активность расщепления. На фиг. 82A показан гель, на котором представлены результаты расщепления с указанием усечений 5' DR. На фиг. 82B показано графическое изображение crDNA deltaDR5, у которой разрушается "петля-на-стебле" на 5'-конце. Это указывает на то, что "петля-на-стебле" на 5'-конце важна для активности расщепления. SEQ ID NO: 1319-1324 соответственно раскрыты по порядку.

На фиг. 83 показан эффект несовпадения crRNA-ДНК-мишень на эффективность расщепления. SEQ ID NO: 1325-1335 соответственно раскрыты по порядку.

На фиг. 84 показано расщепление ДНК с применением очищенного Cpf1 Francisella и Prevotella. Раскрыта SEQ ID NO: 1336.

На фиг. 85A-85B показаны графические изображения вторичных структур DR. На фиг. 85A показана вторичная структура DR FnCpf1 (SEQ ID NO: 1337) ("петля-на-стебле" выделена). На фиг. 85B показана вторичная структура DR PaCpf1 (SEQ ID NO: 1338) ("петля-на-стебле" выделена, она является идентичной за исключением отличия по одному основанию в участке петли).

На фиг. 86 показано дополнительное описание анализа RNAseq локуса FnCp1.

На фиг. 87A-87B показана схема последовательностей зрелой crRNA. На фиг. 87A показаны последовательности зрелой crRNA для FnCpf1. На фиг. 87B показаны последовательности зрелой crRNA для PaCpf1. SEQ ID NO: 1339-1342 соответственно раскрыты по порядку.

На фиг. 88 показано расщепление ДНК с применением FnCpf1 Francisella novicida, кодон-оптимизированной для человека. Верхняя полоска соответствует нерасщепленному полноразмерному фрагменту (606 п.о.). Ожидаемые продукты расщепление размером ~345 п.о. и ~261 п.о. обозначены треугольниками.

На фиг. 89 показан анализ ортологов in vitro, демонстрирующий расщепление под действием ортологов Cpf1.

На фиг. 90A-90C показаны PAM, полученные компьютерным образом на основании анализа разрезания in vitro.

На фиг. 91 показано, что разрезание под действием Cpf1 происходит ступенчатым образом с "липкими" 5'-концами. SEQ ID NO: 1343-1345 соответственно раскрыты по порядку.

На фиг. 92 показан эффект длины спейсера на разрезание. SEQ ID NO: 1346-1352 соответственно раскрыты по порядку.

На фиг. 93 показаны данные SURVEYOR относительно опосредованного FnCpf1 образования вставок/делеций в клетках HEK293T.

На фиг. 94A-94F показан процессинг транскриптов, когда участки локуса FnCpf1 подвергались делеции, в сравнении с процессингом транскриптов в локусе FnCpf1 дикого типа. На фиг. 95B, 95D и 95F увеличен масштаб процессированного спейсера. SEQ ID NO: 1353-1401 соответственно раскрыты по порядку.

На фиг. 95A-95E показано, что локус Cpf1 CRISPR Francisella tularensis subsp. novicida U112 обеспечивает иммунитет от трансформации плазмидами, содержащими протоспейсеры, фланкированные PAM 5'-TTN. На фиг. 95A показана организация двух локусов CRISPR, обнаруженных у Francisella tularensis subsp. novicida U112 (NC_008601). Показано сравнение организации доменов у FnCas9 и FnCpf1. На фиг. 95B представлена схематическая иллюстрация анализа истощения плазмид для обнаружения положения и идентичности PAM. Компетентные E. coli, несущие либо плазмиду с гетерологичным локусом FnCpf1 (pFnCpf1), либо пустой контрольный вектор, трансформировали с помощью библиотеки плазмид, содержащих совпадающий протоспейсер, фланкированный рандомизированными последовательностями 5' или 3' PAM, и проводили отбор с помощью антибиотика для истощения плазмид, несущих успешно подвергаемый нацеливанию PAM. Плазмиды из выживших колоний экстрагировали и секвенировали для определения поверженных истощению последовательностей PAM. На фиг. 95C-95D показаны логотипы последовательностей для PAM FnCpf1, как определено с помощью анализа истощения плазмид. Высота буквы в положении определяется количеством информации; планки погрешностей показывают 95% байесовский доверительный интервал. На фиг. 95E показано, что E. coli, несущие pFnCpf1, демонстрируют устойчивое противодействие плазмидам, несущим PAM 5'-TTN (n = 3, планки погрешностей представляют среднее ± S.E.M.).

На фиг. 96A-96C показано, что гетерологичная экспрессия FnCpf1 и массива CRISPR в E. coli является достаточной для опосредования интерференции в отношении плазмидной ДНК и созревания crRNA. С помощью секвенирования малых РНК Francisella tularensis subsp. novicida U112 (фиг. 96A) обнаружили транскрипцию и процессинг массива CRISPR c FnCpf1. Зрелая crRNA начинается с частичного прямого повтора длиной 19 нуклеотидов, за которым следует 23-25 нуклеотидов спейсерной последовательности. С помощью секвенирования малых РНК E. coli, трансформированной с помощью плазмиды, несущей управляемый синтетическим промотором FnCpf1 и массив CRISPR (фиг. 96B), показано, что процессинг crRNA не зависит от генов Cas и других элементов последовательности в локусе FnCpf1. На фиг. 96C изображены E. coli, несущие различные усечения локуса FnCpf1 CRISPR, и показано, что только FnCpf1 и массив CRISPR требуются для интерференции в отношении плазмидной ДНК (n = 3, планки погрешностей показывают среднее ± S.E.M.). Раскрыта SEQ ID NO: 1580.

На фиг. 97A-97E показано, что FnCpf1 нацеливается с помощью crRNA для расщепления ДНК in vitro. На фиг. 97A представлена схема комплекса нацеливания на ДНК на основе FnCpf1 и crRNA. Сайты расщепления обозначены красными стрелочками (SEQ ID NO: 1402 и 1403 соответственно раскрыты по порядку). FnCpf1 и crRNA отдельно опосредовали направляемое РНК расщепление целевой ДНК зависимым от crRNA и Mg²⁺ способом (фиг. 97B). На фиг. 97C показано, что FnCpf1 расщепляет как линейную, так и сверхспирализованную ДНК. На фиг. 97D показано, что на записях секвенирования по Сэнгеру мишени, расщепленной под действием FnCpf1, обнаруживаются ступенчатые "липкие" концы (SEQ ID NO: 1404 и 1406 соответственно раскрыты по порядку). Не обусловленное матрицей добавление дополнительного аденина, обозначенного как N, является артефактом, связанным с полимеразой, применяемой при секвенировании. Рид обратного праймера представлен как обратно комплементарная последовательность для лучшей визуализации. На фиг. 97E показано, что расщепление зависит от образования пар оснований в 5' PAM. FnCpf1 может распознавать только PAM в ДНК с правильно образованными парами оснований по Уотсону-Крику.

На фиг. 98A-98B показано, что каталитические остатки в C-концевом домене RuvC FnCpf1 необходимы для расщепления ДНК. На фиг. 98A показана структура доменов FnCpf1, при этом выделены каталитические остатки RuvC. Каталитические остатки идентифицировали на основании гомологии последовательности с RuvC Thermus thermophilus (PDB ID: 4EP5). На фиг. 98B изображен нативный гель TBE PAGE, на котором показано, что мутация каталитических остатков (D917A и E1006A) в RuvC FnCpf1 и мутация каталитического остатка (D10A) в RuvC SpCas9 предотвращает двухнитевое расщепление ДНК. На денатурирующем геле TBE-мочевина PAGE показано, что мутация каталитических остатков (D917A и E1006A) в RuvC FnCpf1 предотвращает активность однонитевого разрыва ДНК, тогда как мутация каталитического остатка (D10A) в RuvC SpCas9 приводит к однонитевому разрыву целевого сайта.

На фиг. 99A-99E показаны требования к crRNA для проявления нуклеазной активности FnCpf1 in vitro. На фиг. 99A показан эффект длины спейсера на активность расщепления у FnCpf1. На фиг. 99B показан эффект несовпадений crRNA-целевая ДНК на активность расщепления у FnCpf1. На фиг. 99C продемонстрирован эффект длины прямого повтора на активность расщепления у FnCpf1. На фиг. 99D показано, что активность расщепления у FnCpf1 зависит от вторичной структуры в стеблевой части структуры РНК прямого повтора. На фиг. 99E показано, что на активность расщепления у FnCpf1 не влияют мутации петлевой части, но она чувствительна к мутации в наиболее 3'-дальнем основании в прямом повторе. SEQ ID NO: 1407-1433 соответственно раскрыты по порядку.

На фиг. 100A-100F представлен анализ разнообразия и функции семейства белков Cpf1. На фиг. 100A-100B показано филогенетическое сравнение 16 ортологов Cpf1, выбранных для функционального анализа. Консервативные последовательности показаны темно-серым цветом. Выделены домен RuvC, мостиковая спираль и цинковый палец. На фиг. 100C показано выравнивание прямых повторов из 16 белков семейства Cpf1. Последовательности, которые удаляются после созревания crRNA, показаны серым цветом. Неконсервативные основания показаны красным цветом. Стеблевой дуплекс выделен серым цветом. На фиг. 100D изображено прогнозирование с помощью RNAfold (Lorenz et al., 2011) последовательности прямого повтора в зрелой crRNA. Показаны результаты прогнозирования для FnCpf1 вместе с тремя наименее консервативными ортологами. На фиг. 100E показано, что ортологи crRNA с подобными последовательностями прямого повтора способны функционировать с FnCpf1 с опосредованием расщепления целевой ДНК. На фиг. 100F показаны последовательности PAM для 8 белков семейства Cpf1, идентифицированные с применением расщепления in vitro плазмидной библиотеки, содержащей рандомизированные PAM, фланкирующие протоспейсер. SEQ ID NO: 1434-1453 соответственно раскрыты по порядку.

На фиг. 101A-101E показано, что Cpf1 опосредует устойчивое редактирование генома в линиях клеток человека. На фиг. 101A представлена схема, на которой показана экспрессия индивидуальных белков семейства Cpf1 в клетках HEK 293FT с применением векторов экспрессии, управляемых промотором CMV. Соответствующая crRNA экспрессировалась с применением ПЦР-фрагмента, содержащего промотор U6, слитый с последовательностью crRNA. Трансфицированные клетки анализировали с применением либо анализа с помощью нуклеазы Surveyor, либо нацеленного глубокого секвенирования. На фиг. 101B (вверху) изображена последовательность crRNA 3, нацеливающейся на DNMT1, и на ридах секвенирования (внизу) показаны типичные вставки/делеции. На фиг. 101B раскрыты SEQ ID NO 1454-1465 соответственно, по порядку. На фиг. 101C представлено сравнение активности расщепления in vitro и in vivo. Целевой участок DNMT1 подвергали ПЦР-амплификации и фрагмент генома применяли для тестирования расщепления, опосредованного Cpf1. Для всех 8 белков семейства Cpf1 показано расщепление ДНК in vitro (вверху). Кандидаты 7 - AsCpf1 и 13 - Lb3Cpf1 облегчали устойчивое образование вставок/делеций в клетках человека (внизу). На фиг. 101D показаны целевые последовательности для Cpf1 и SpCas9 в локусе DNMT1 человека (SEQ ID NO: 1466-1473 соответственно раскрыты по порядку). На фиг. 101E представлено сравнение эффективности редактирования генома под действием Cpf1 и SpCas9. Целевые сайты соответствуют последовательностям, показанным на фиг. 101D.

На фиг. 102A-102D показан анализ истощения плазмид in vivo для идентификации PAM для FnCpf1. (См. также фиг. 95). Фиг. 102A. Трансформация E. coli, несущей pFnCpf1, с помощью библиотеки плазмид, несущих рандомизированные последовательности 5' PAM. Ряд плазмид подвергались истощению. На графике показаны уровни истощения, ранжированные по порядку. Истощение измеряют как отрицательный log₂ кратного соотношения нормализованного содержания относительно E. coli, несущих контрольный pACYC184. PAM с пороговым значением, превышающим 3,5, применяли для получения логотипов последовательностей. Фиг. 102B. Трансформация E. coli, несущей pFnCpf1, с помощью библиотеки плазмид, несущих рандомизированные последовательности 3' PAM. Ряд плазмид подвергались истощению. На графике показаны уровни истощения, ранжированные по порядку. Истощение измеряют как отрицательный log₂ кратного соотношения нормализованного содержания относительно E. coli, несущих контрольный pACYC184, и PAM с пороговым значением, превышающим 3,5, применяли для получения логотипов последовательностей. Фиг. 102C. Исходная библиотека плазмид, несущих рандомизированные последовательности 5' PAM. На графике показаны уровни истощения, ранжированные по порядку. Истощение измеряют как отрицательный log₂ кратного соотношения нормализованного содержания относительно E. coli, несущих контрольный pACYC184. PAM с пороговым значением, превышающим 3,5, применяли для получения логотипов последовательностей. Фиг. 102D. Число уникальных PAM, преодолевших граничное значение значимости для парных комбинаций оснований в положениях 2 и 3 в 5' PAM.

На фиг. 103A-103D показана очистка белка FnCpf1. (См. также фиг. 97). На фиг. 103A изображен акриламидный гель с FnCpf1, окрашенный Кумасси голубым, на котором показана последовательная очистка. Полоска с размером молекул, немного превышающим 160 кДа, элюируемая из колонки Ni-NTA, совпадает с размером продукта слияния MBP-FnCpf1 (189,7 кДа). После добавления протеазы TEV появлялась полоска с меньшей молекулярной массой, совпадающая со свободным FnCpf1 размером 147 кДа. Фиг. 103B. Эксклюзионная гель-фильтрация FnCpf1. FnCpf1 элюировался с размером, составляющим примерно 300 кДа (62,65 мл), что позволяет предположить, что Cpf1 может существовать в растворе в виде димера. На фиг. 103C показаны белковые стандарты, применяемые для калибровки колонки Superdex 200. BDex = голубой декстран (свободный объем), Ald = альдолаза (158 кДа), Ov = овальбумин (44 кДа), RibA = рибонуклеаза A (13,7 кДа), Apr = апротинин (6,5 кДа). Фиг. 103D. Калибровочная кривая колонки Superdex 200. K_a рассчитывают как (элюирующий объем - свободный объем)/(геометрический объем колонки - свободный объем). Стандарты наносили на график и аппроксимировали к логарифмической кривой.

На фиг. 104A-104E показаны паттерны расщепления под действием FnCpf1. (См. также фиг. 97). На записях секвенирования по Сэнгеру ДНК-мишеней, расщепленных под действием FnCpf1, обнаруживаются ступенчатые "липкие" концы. Не обусловленное матрицей добавление дополнительного аденина, обозначенного как N, является артефактом, связанным с полимеразой, применяемой при секвенировании. Записи секвенирования по Сэнгреу показаны для различных PAM TTN с протоспейсером 1 (фиг. 104A), протоспейсером 2 (фиг. 104B) и протоспейсером 3 (фиг. 104C) и мишеней DNMT1 и EMX1 (фиг. 104D). Последовательность (-)-нити является обратно комплементарной, чтобы показать последовательность лучшей нити. Сайты расщепления обозначены красными треугольниками. Более маленькие треугольники обозначают предполагаемые альтернативные сайты расщепления. На фиг. 104E показан эффект несовпадения дистального от PAM остатка при взаимодействии crRNA-целевая ДНК на активность расщепления у FnCpf1. SEQ ID NO: 1474-1494 соответственно раскрыты по порядку.

На фиг. 105A-105B показано выравнивание аминокислотных последовательностей FnCpf1 (SEQ ID NO: 1495), AsCpf1 (SEQ ID NO: 1496) и LbCpf1 (SEQ ID NO: 1497). (См. также фиг. 100). Остатки, которые являются консервативными, выделены красным фоном, а консервативные мутации выделены рамкой и красным шрифтом. Результат прогнозирования вторичной структуры выделен выше (FnCpf1) и ниже (LbCpf1) выравнивания. Альфа-спирали показаны в виде волнистого символа, а бета-нити показаны как черточки. Белковые домены, идентифицированные на фиг. 95A, также выделены.

На фиг. 106A-106D представлены карты локусов генома бактерий, соответствующих 16 белкам семейства Cpf1, выбранных для проведения экспериментов с млекопитающими. (См. также фиг. 100). На фиг. 106A-106D раскрыты SEQ ID NO: 1498-1513 соответственно по порядку.

На фиг. 107A-107E показано определение характеристик белков семейства Cpf1 in vitro. На фиг. 107A представлена схема скрининга PAM in vitro с применением белков семейства Cpf1. Библиотеку плазмид, несущих рандомизированные последовательности 5' PAM, подвергали расщеплению под действием индивидуальных белков семейства Cpf1 и их соответствующих crRNA. Нерасщепленную плазмидную ДНК очищали и секвенировали для идентификации специфических мотивов PAM, которые подвергали истощению. На фиг. 107B указано число уникальных последовательностей, преодолевших граничное значение значимости для парных комбинаций оснований в положениях 2 и 3 в 5' PAM для 7 - AsCpf1. На фиг. 107C указано число уникальных PAM, преодолевших граничное значение значимости для тройных комбинаций оснований в положениях 2, 3 и 4 в 5' PAM для 13 - LbCpf1. На фиг. 107D-107E показаны записи секвенирования по Сэнгеру мишени, расщепленной под действием 7 - AsCpf1 (фиг. 107E), и мишени, расщепленной под действием 13 - LbCpf1 (фиг. 107F), и показаны ступенчатые "липкие" концы. Не обусловленное матрицей добавление дополнительного аденина, обозначенного как N, является артефактом, связанным с полимеразой, применяемой при секвенировании. Сайты расщепления обозначены красными треугольниками. Более маленькие треугольники обозначают предполагаемые альтернативные сайты расщепления. На фиг. 107D-E раскрыты SEQ ID NO: 1514-1519 соответственно, по порядку.

На фиг. 108A-108F указана эффективность редактирования генома клеток человека в дополнительных локусах. На гелях из анализа Surveyor показана количественная оценка эффективности образования вставок/делеций, достигнутой каждым белком семейства Cpf1 в целевых сайтах 1 (фиг. 108A), 2 (фиг. 108B) и 4 (фиг. 108C) DNMT1. На фиг. 108A-108C указана эффективность редактирования генома клеток человека в дополнительных локусах и секвенирование по Сэнгегу подвергнутых расщеплению целевых сайтов DNMT. На гелях из анализа Surveyor показана количественная оценка эффективности образования вставок/делеций, достигнутой каждым белком семейства Cpf1 в целевых сайтах 1 (фиг. 108D) и 2 (фиг. 108E) EMX1. Распределения образования вставок/делеций для AsCpf1 и LbCpf1 и целевых сайтов 2, 3 и 4 DNMT1 (фиг. 108F). Сине-зеленые столбики обозначают общий охват вставок/делеций; голубые столбики обозначают распределение вставок/делеций на 3'-концах. Для каждой мишени последовательность PAM обозначена красным цветом, а целевая последовательность обозначена светло-голубым цветом.

На фиг. 109A-109C изображено, что с помощью компьютерного анализа первичной структуры нуклеаз Cpf1 выявили три отличающихся участка. Первый, C-концевой RuvC-подобный домен, который является единственным охарактеризованным функциональным доменом. Второй, N-концевой альфа-спиральный участок, и третий, участок со смешанной альфа- и бета-структурой, расположенный между RuvC-подобным доменом и альфа-спиральным участком.

На фиг. 110A-110E изображено выравнивание Rad50 AsCpf1 (PDB 4W9M). SEQ ID NO: 1520 и 1521 соответственно раскрыты по порядку. На фиг. 110C изображено выравнивание RuvC AsCpf1 (PDB 4LD0). SEQ ID NO: 1522 и 1523 соответственно раскрыты по порядку. На фиг. 110D-110E изображено выравнивание AsCpf1 и FnCpf1, с помощью которого идентифицируют домен Rad50 в FnCpf1. SEQ ID NO: 1524 и 1525 соответственно раскрыты по порядку.

На фиг. 111 изображена структура Rad50 (4W9M) в комплексе с ДНК. Остатки, взаимодействующие с ДНК, выделены (красным цветом).

На фиг. 112 изображена структура RuvC (4LD0) в комплексе со структурой Холлидея. Остатки, взаимодействующие с ДНК, выделены красным цветом.

На фиг. 113 изображен BLAST-поиск для выравнивания AsCpf1 с участком сайт-специфической рекомбиназы XerD. Участком активного сайта XerD является LYWTGMR (SEQ ID NO: 1), при этом R представляет собой каталитический остаток. SEQ ID NO: 1526-1527 соответственно раскрыты по порядку.

На фиг. 114 изображено, что участок является консервативным у ортологов Cpf1 (желтый прямоугольник), и хотя R не является консервативным, высококонсервативная аспарагиновая кислота (оранжевый прямоугольник) находится просто на C-конце этого участка и вблизи консервативного участка (голубой прямоугольник) с абсолютно консервативным аргинином. Аспарагиновая кислота представляет собой D732 в LbCpf1. SEQ ID NO: 1204 и 1528-1579 соответственно раскрыты по порядку.

На фиг. 115A показан эксперимент, в котором высевали по 150000 клеток HEK293T на лунку 24-луночного планшета за 24 ч. до трансфекции. Клетки трансфицировали с помощью 400 нг плазмиды с huAsCpf1 и 100 нг плазмиды с тандемными направляющими, содержащей одну направляющую последовательность, направленную на GRIN28, и одну, направленную на EMX1, размещенные тандемно за промотором U6, с применением Lipofectamin2000. Клетки собирали через 72 ч. после трансфекции и активность AsCpf1, опосредованную тандемными направляющими, оценивали с применением анализа с помощью нуклеазы SURVEYOR.

На фиг. 115B продемонстрировано образование вставок/делеций как в GRIN28, так и в гене EMX1.

На фиг. 116 показано расщепление под действием FnCpf1 и массива при возрастающих концентрациях EDTA (и снижающихся концентрациях Mg2+). Буфер представляет собой 20 мМ Tris-HCl, pH 7 (комнатная температура), 50 мМ KCl и включает ингибитор мышиной РНКазы для предотвращения разрушения РНК, вследствие возможных следовых количеств неспецифической РНКазы, внесенной в ходе очистки белка.

Фигуры приведены в данном документе только с целью иллюстрации, и они необязательно изображены в масштабе.

Подробное описание изобретения

В настоящей заявке описаны новые направляемые РНК эндонуклеазы (например, эффекторные белки Cpf1), которые функционально отличны от систем CRISPR-Cas9, описанных ранее, и, следовательно, терминология элементов, ассоциированных с этими новыми эндонуклеазами, в данном документе соответственно модифицирована. Cpf1-ассоциированные массивы CRISPR, описанные в данном документе, процессируются в зрелые crRNA без потребности в дополнительной tracrRNA. crRNA, описанные в данном документе, содержат спейсерную последовательность (или направляющую последовательность) и последовательность прямого повтора, и комплекса Cpf1p-crRNA самого по себе достаточно для эффективного расщепления целевой ДНК. Затравочная последовательность, описанная в данном документе, например, затравочная последовательность направляющей РНК для FnCpf1, находится примерно в пределах первых 5 нуклеотидов на 5'-конце спейсерной последовательности (или направляющей последовательности), и мутации в пределах затравочной последовательности негативно влияют на активность расщепления у комплекса эффекторного белка Cpf1.

В целом, система CRISPR характеризуется элементами, которые содействуют образованию комплекса CRISPR в сайте целевой последовательности (также называемой протоспейсер в контексте эндогенной системы CRISPR). В контексте образования комплекса CRISPR "целевая последовательность" обозначает последовательность, для нацеливания на которую разрабатывается направляющая последовательность, например, чтобы обладать комплементарностью, при этом гибридизация между целевой последовательностью и направляющей последовательностью содействует образованию комплекса CRISPR. Отрезок направляющей последовательности, на протяжении которого комплементарность с целевой последовательностью важна для активности расщепления, обозначается в данном документе как затравочная последовательность. Целевая последовательность может предусматривать любой полинуклеотид, как, например, полинуклеотиды ДНК или РНК, и она содержится в пределах представляющего интерес целевого локуса. В некоторых вариантах осуществления целевая последовательность расположена в ядре или цитоплазме клетки. Описанное в данном документе настоящее изобретение охватывает новые эффекторные белки систем CRISPR-Cas класса 2, из которых в качестве примера эффекторного белка приводится Cas9, и, следовательно, термины, используемые в настоящей заявке для описания новых эффекторных белков, могут перекликаться с терминами, используемыми для описания системы CRISPR-Cas9.

Локусы CRISPR-Cas включают более чем 50 семейств генов, и при этом отсутствуют строго универсальные гены. По этой причине невозможно построить единое эволюционное дерево и для идентификации новых семейств нужно применять дифференцированный подход. На настоящий момент имеется исчерпывающая идентификация генов cas из 395 профилей для 93 белков Cas. Классификация включает сигнатуры генных профилей с сигнатурами структуры локуса. Новая классификация систем CRISPR-Cas предложена на фиг. 1. Класс 1 включает мультисубъединичные комплексы crRNA-эффектор (Cascade), а класс 2 включает односубъединичные комплексы crRNA-эффектор (Cas9-подобные). На фиг. 2 представлена молекулярная структура CRISPR-Cas. На фиг. 3 представлены структуры комплексов эффекторов I и III типов: общая структура/общее происхождение, несмотря на существенную дивергенцию последовательности. На фиг. 4 показана CRISPR-Cas в качестве системы, в центре которой расположен мотив распознавания РНК (RRM). На фиг. 5 показана филогения Cas1, где главным аспектом эволюции CRISPR-Cas оказывается рекомбинация адаптационного и crRNA-эффекторного модулей. На фиг. 6 показан полный набор CRISPR-Cas, в частности, распределение типов/подтипов CRISPR-Cas среди архей и бактерий.

Действие системы CRISPR-Cas обычно делится на три стадии: (1) адаптация или интеграция спейсера, (2) процессинг первичного транскрипта локуса CRISPR (pre-crRNA) и созревание crRNA, которая включает спейсер и вариабельные участки, соответствующие 5'- и 3'-фрагментам повторов CRISPR, и (3) ДНК- (или РНК-) интерференция. Двух белков, Cas1 и Cas2, которые присутствуют в подавляющем большинстве известных систем CRISPR-Cas, достаточно для вставки спейсеров в кассеты CRISPR. Эти два белка образуют комплекс, который требуется для данного процесса адаптации; причем эндонуклеазная активность Cas1 требуется для интеграции спейсера, в то время как Cas2, по-видимому, выполняет неферментативную функцию. Комплекс Cas1-Cas2 представляет высококонсервативный модуль "обработки информации" CRISPR-Cas, который, по-видимому, является квазиавтономным от остальной части системы. (См. Annotation and Classification of CRISPR-Cas Systems. Makarova KS, Koonin EV. Methods Mol Biol. 2015;1311:47-75).

Описанные ранее системы класса 2, а именно II типа и предполагаемого V типа, состояли только из трех или четырех генов в опероне cas, а именно генов cas1 и cas2, составляющих адаптационный модуль (пара генов cas1-cas2 не вовлечена в интерференцию), одного мультидоменного эффекторного белка, который отвечает за интерференцию, но также принимает участие в процессинге и адаптации pre-crRNA, и зачастую четвертого гена с неохарактеризованными функциями, который является необязательным по меньшей мере в некоторых системах II типа (и в некоторых случаях четвертый ген представляет собой cas4 (биохимические или in silico доказательства показывают, что Cas4 представляет собой нуклеазу суперсемейства PD-(DE)xK с C-концевым кластером из трех остатков цистеина; он обладает экзонуклеазной активностью в отношении 5'-ssDNA) или csn2, который кодирует инактивированную АТФазу). В большинстве случаев массив CRISPR и ген для отличающейся молекулы РНК, известной как tracrRNA, транс-кодируемая малая РНК CRISPR, расположены вблизи оперонов cas класса 2. tracrRNA является частично гомологичной повторам в пределах соответствующего массива CRISPR, и она необходима для процессинга pre-crRNA, который катализируется РНКазой III, универсальным ферментом бактерий, который не ассоциирован с локусом CRISPR-Cas.

Cas1 является наиболее консервативным белком, который присутствует в большинстве систем CRISPR-Cas и меняется медленнее, чем остальные белки Cas. Соответственно, филогению Cas1 использовали в качестве руководства для классификации системы CRISPR-Cas. Биохимические или in silico доказательства показывают, что Cas1 представляет собой металлозависимую дезоксирибонуклеазу. Удаление Cas1 в E. coli приводит к повышенной чувствительности к повреждению ДНК и нарушенной сегрегации хромосом, как описано в "A dual function of the CRISPR-Cas system in bacterial antivirus immunity and DNA repair", Babu M et al. Mol Microbiol 79:484-502 (2011). Биохимические или in silico доказательства показывают, что Cas 2 представляет собой РНКазу, специфичную к участкам с высоким содержанием U, и является двухнитевой ДНКазой.

Аспекты настоящего изобретения относятся к идентификации и конструированию новых эффекторных белков, ассоциированных с системами CRISPR-Cas класса 2. В предпочтительном варианте осуществления эффекторный белок предусматривает односубъединичный эффекторный модуль. В дополнительном варианте осуществления эффекторный белок является функциональный в прокариотических или эукариотических клетках для применений in vitro, in vivo или ex vivo. Один аспект настоящего изобретения охватывает компьютерные способы и алгоритмы для прогнозирования новых систем CRISPR-Cas класса 2 и идентификации компонентов в них.

В одном варианте осуществления компьютерный способ идентификации новых локусов CRISPR-Cas класса 2 включает следующие стадии: выявление всех контигов, кодирующих белок Cas1; идентификация всех прогнозируемых белок-кодирующих генов в пределах 20 т. о. от гена cas1; сравнение идентифицированных генов с профилями, специфическими для белка Cas, и прогнозирование массивов CRISPR; отбор неклассифицированных кандидатных локусов CRISPR-Cas, содержащих белки из более чем 500 аминокислот (>500 aa); анализ отобранных кандидатов с применением PSI-BLAST и HHPred, за счет чего обеспечивается выделение и идентификация новых локусов CRISPR-Cas класса 2. В дополнение к вышеупомянутым стадиям может проводиться дополнительный анализ кандидатов путем поиска в метагеномных базах данных дополнительных гомологов.

В одном аспекте выявление всех контигов, кодирующих белок Cas1, осуществляют с помощью GenemarkS, которая является программой для прогнозирования генов, дополнительно описанной в "GeneMarkS: a self-training method for prediction of gene starts in microbial genomes. Implications for finding sequence motifs in regulatory regions." John Besemer, Alexandre Lomsadze and Mark Borodovsky, Nucleic Acids Research (2001) 29, pp 2607-2618, включенном в данный документ посредством ссылки.

В одном аспекте идентификацию всех прогнозируемых белок-кодирующих генов проводят путем сравнения идентифицированных генов с профилями, специфическими для белка Cas, и аннотации их в соответствии с базой данных консервативных доменов (CDD) от NCBI, которая представляет собой ресурс для аннотации белков, который состоит из набора хорошо аннотированных моделей множественного выравнивания последовательностей для древних доменов и полноразмерных белков. Они доступны в виде позиционных весовых матриц (PSSM) для быстрой идентификации консервативных доменов в белковых последовательностях с помощью RPS-BLAST. Содержимое CDD включает NCBI-подтвержденные домены, информацию о 3D-структуре которых применяют для точного определения границ доменов и понимания взаимоотношений последовательность/структура/функция, а также модели доменов, импортированные из ряда внешних баз данных (Pfam, SMART, COG, PRK, TIGRFAM). В дополнительном аспекте массивы CRISPR прогнозировали с применением программы PILER-CR, которая представляет собой общедоступное программное обеспечение для нахождения повторов CRISPR, как описано в "PILER-CR: fast and accurate identification of CRISPR repeats", Edgar, R.C., BMC Bioinformatics, Jan 20;8:18(2007), включенном в данный документ посредством ссылки.

В дополнительном аспекте индивидуальный анализ осуществляют с применением PSI-BLAST (позиционно-итеративное средство поиска основного локального выравнивания). PSI-BLAST дает позиционную весовую матрицу (PSSM) или профиль на основании множественного выравнивания последовательностей из выявленных последовательностей, превышающих данное весовое граничное значение c применением поиска BLAST белок-белок. Эту PSSM применяют для дополнительного поиска новых совпадений в базе данных и ее обновляют для последующих итераций с этими новыми выявленными последовательностями. Таким образом, PSI-BLAST обеспечивает средства для выявления отдаленного родства между белками.

В другом аспекте индивидуальный анализ осуществляют с применением HHpred, способа поиска в базах данных последовательностей и прогнозирования структуры, который настолько же прост в применении, как BLAST или PSI-BLAST, и который в то же время является намного более чувствительным в поиске отдаленных гомологов. Фактически, чувствительность HHpred сравнима с наиболее мощными доступными в настоящее время серверами для прогнозирования структуры. HHpred представляет собой первый сервер, который основан на парном сравнении профилей с помощью скрытых Марковских моделей (HMM). В то время как большинство традиционных способов поиска последовательностей проводят поиск в базах данных последовательностей, таких как UniProt или NR, HHpred проводит поиск в базах данных выравниваний, таких как Pfam или SMART. Это значительно сокращает список хитов до числа семейств последовательностей вместо беспорядочной массы отдельных последовательностей. Все главные общедоступные профили и базы данных выравниваний доступны через HHpred. HHpred принимает в качестве вводимой информации одну запрашиваемую последовательность или множественное выравнивание. В течение всего нескольких минут она выдает результаты поиска в легко читаемом формате, напоминающий таковой у PSI-BLAST. Параметры поиска включают локальное или глобальное выравнивание и балльную оценку сходства вторичной структуры. HHpred может проводить парное выравнивание запрашиваемой-матричной последовательностей, слитые множественные выравнивания запрашиваемых-матричной последовательностей (например, для промежуточных поисков), а также модели 3D-структуры, рассчитанные с помощью программного обеспечения MODELLER на основании выравниваний HHpred.

Термин "система нацеливания на нуклеиновую кислоту", где нуклеиновая кислота представляет собой ДНК или РНК, а в некоторых аспектах также может обозначать гибриды ДНК-РНК или их производные, совокупно обозначает транскрипты и другие элементы, вовлеченные в экспрессию или управляющие активностью генов, ассоциированных с нацеливающимся на ДНК или РНК CRISPR ("Cas"), которые могут включать последовательности, кодирующие нацеливающийся на ДНК или РНК белок Cas и нацеливающуюся на ДНК или РНК направляющую РНК, предусматривающую последовательность РНК CRISPR (crRNA) и (в случае системы CRISPR-Cas9, но не во всех системах) последовательность трансактивирующей РНК системы CRISPR-Cas (tracrRNA) или другие последовательности и транскрипты из локуса CRISPR для нацеливания на ДНК или РНК. В Cpf1-системах направляемой РНК эндонуклеазы, нацеливающейся на ДНК, описанных в данном документе, последовательность tracrRNA не требуется. В целом, система нацеливания на РНК характеризуется элементами, которые способствуют образованию комплекса нацеливания на РНК в сайте целевой последовательности РНК. В контексте образования комплекса нацеливания на ДНК или РНК "целевая последовательность" обозначает последовательность ДНК или РНК, относительно которой разрабатывается нацеливающаяся на ДНК или РНК направляющая РНК таким образом, чтобы обладать комплементарностью, при этом гибридизация между целевой последовательностью и нацеливающейся на РНК направляющей РНК содействует образованию комплекса нацеливания на РНК. В некоторых вариантах осуществления целевая последовательность расположена в ядре или цитоплазме клетки.

В одном аспекте настоящего изобретения новые системы нацеливания на ДНК, также называемые CRISPR-Cas для нацеливания на ДНК или система нацеливания на ДНК на основе CRISPR-Cas по настоящей заявке, основаны на идентифицированных белках Cas V типа (например, подтипа V-A и подтипа V-B), в случае которых не требуется получение индивидуальных белков для нацеливания на специфические последовательности ДНК, а скорее один эффекторный белок или фермент может быть запрограммирован молекулой РНК на распознавание специфической ДНК-мишени, другими словами, фермент может быть рекрутирован к специфической ДНК-мишени с помощью указанной молекулы РНК. Аспекты настоящего изобретения, в частности, относятся к направляемым РНК системам нацеливания Cpf1 CRISPR.

В одном аспекте настоящего изобретения новые системы нацеливания на РНК, также называемые CRISPR-Cas для нацеливания на РНК или РНК или система нацеливания на РНК на основе CRISPR-Cas по настоящей заявке, основаны на идентифицированных белках Cas VI типа, в случае которых не требуется получение индивидуальных белков для нацеливания на специфические последовательности РНК, а скорее один фермент может быть запрограммирован молекулой РНК для распознавания специфической РНК-мишени, другими словами, фермент может быть рекрутирован к специфической РНК-мишени с помощью указанной молекулы РНК.

Системы нацеливания на нуклеиновую кислоту, векторные системы, векторы и композиции, описанные в данном документе, можно использовать в различных применениях для нацеливания на нуклеиновую кислоту, изменения или модифицирования синтеза продукта гена, такого как белок, расщепления нуклеиновых кислот, редактирования нуклеиновых кислот, сплайсинга нуклеиновых кислот; направленного перемещения целевых нуклеиновых кислот, отслеживания целевых нуклеиновых кислот, выделения целевых нуклеиновых кислот, визуализации целевых нуклеиновых кислот и т. д.

Используемое в данном документе выражение "белок Cas" или "фермент CRISPR" обозначают любой белок, представленный в новой классификации систем CRISPR-Cas. В преимущественном варианте осуществления настоящее изобретение охватывает эффекторные белки, идентифицированные в локусах CRISPR-Cas V типа, например, локусах, кодирующих Cpf1, обозначенных подтипом V-A. В настоящее время локусы подтипа V-A охватывают cas1, cas2, отдельный ген, обозначенный как cpf1, и массив CRISPR. Cpf1 (CRISPR-ассоциированный белок Cpf1, подтип PREFRAN) представляет собой крупный белок (приблизительно 1300 аминокислот), который содержит домен RuvC-подобной нуклеазы, гомологичный соответствующему домену Cas9, вместе с эквивалентом характерного кластера Cas9 с высоким содержанием аргинина. Однако у Cpf1 отсутствует HNH-нуклеазный домен, который присутствует у всех белков Cas9, а RuvC-подобный домен граничит с последовательностью Cpf1, в отличие от Cas9, где он содержит длинные вставки, включающие домен HNH. Соответственно, в конкретных вариантах осуществления фермент CRISPR-Cas содержит только домен RuvC-подобной нуклеазы.

Ген Cpf1 встречается в геномах нескольких разных бактерий, как правило, в том же локусе, что и гены cas1, cas2 и cas4 и кассета CRISPR (например, FNFX1_1431-FNFX1_1428 из Francisella cf. novicida Fx1). Таким образом, общее устройство этой предполагаемой новой системы CRISPR-Cas, по-видимому, аналогично системе типа II-B. Более того, подобно Cas9, белок Cpf1 содержит легко идентифицируемый C-концевой участок, который гомологичен транспозону ORF-B и включает активную RuvC-подобную нуклеазу, участок с высоким содержанием аргинина и "цинковый палец" (отсутствует у Cas9). Однако, в отличие от Cas9, Cpf1 также присутствует в некоторых геномах без сопутствующего CRISPR-Cas, и его относительно большое сходство с ORF-B позволяет предположить, что он, вероятно, представляет собой компонент транспозона. Было высказано предположение, что если бы это была истинная система CRISPR-Cas, а Cpf1 являлся функциональным аналогом Cas9, они представляли собой новый тип CRISPR-Cas, а именно V тип (см. Annotation and Classification of CRISPR-Cas Systems. Makarova KS, Koonin EV. Methods Mol Biol. 2015;1311:47-75). Однако, как описано в данном документе, Cpf1 обозначен как относящийся к подтипу V-A, чтобы отличать его от C2c1p, который не имеет идентичную структуру доменов и, следовательно, обозначается как относящийся к подтипу V-B.

В преимущественном варианте осуществления настоящее изобретение охватывает композиции и системы, содержащие эффекторные белки, идентифицированные в локусах Cpf1, обозначенных подтипом V-A.

Аспекты настоящего изобретения также охватывают способы и варианты применения композиций и систем, описываемых в данном документе, в конструировании генома, например, для изменения или манипуляции с экспрессией одного или нескольких генов или одного или нескольких продуктов генов в прокариотических или эукариотических клетках in vitro, in vivo или ex vivo.

В вариантах осуществления настоящего изобретения термины "зрелая crRNA" и "направляющая РНК" используются взаимозаменяемо, как и в цитируемых выше документах, таких как WO 2014/093622 (PCT/US2013/074667). В целом, направляющая последовательность представляет собой любую полинуклеотидную последовательность, характеризующуюся достаточной комплементарностью с целевой полинуклеотидной последовательностью для гибридизации с целевой последовательностью и управления специфичным к последовательности связыванием комплекса CRISPR с целевой последовательностью. В некоторых вариантах осуществления степень комплементарности между направляющей последовательностью и ее соответствующей целевой последовательностью при оптимальном выравнивании с применением подходящего алгоритма выравнивания составляет приблизительно или более чем приблизительно 50%, 60%, 75%, 80%, 85%, 90%, 95%, 97,5%, 99% или больше. Оптимальное выравнивание можно определять с применением любого подходящего алгоритма для выравнивания последовательностей, к неограничивающим примерам которого относится алгоритм Смита-Ватермана, алгоритм Нидлмана-Вунша, алгоритмы, основанные на преобразовании Барроуза-Уилера (например, Burrows Wheeler Aligner), ClustalW, Clustal X, BLAT, Novoalign (Novocraft Technologies; доступный на сайте www.novocraft.com), ELAND (Illumina, Сан-Диего, Калифорния), SOAP (доступный на сайте soap.genomics.org.cn) и Maq (доступный на сайте maq.sourceforge.net). В некоторых вариантах осуществления длина направляющей последовательности составляет приблизительно или более чем приблизительно 5, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 35, 40, 45, 50, 75 или более нуклеотидов. В некоторых вариантах осуществления длина направляющей последовательности составляет менее чем приблизительно 75, 50, 45, 40, 35, 30, 25, 20, 15, 12 или менее нуклеотидов. Предпочтительно длина направляющей последовательности составляет 10-30 нуклеотидов. Способность направляющей последовательности управлять специфичным к последовательности связыванием комплекса CRISPR с целевой последовательностью можно оценить с помощью любого подходящего анализа. Например, компоненты системы CRISPR, достаточные для образования комплекса CRISPR, в том числе направляющая последовательность, подлежащая тестированию, могут обеспечиваться в клетке-хозяине, имеющей соответствующую целевую последовательностью, как, например, с помощью трансфекции векторами, кодирующими компоненты последовательности CRISPR, с последующей оценкой предпочтительного расщепления в пределах целевой последовательности, как, например, с помощью анализа с использованием нуклеазы Surveyor, описываемого в данном документе. Аналогично, расщепление целевой полинуклеотидной последовательности можно определять в пробирке путем обеспечения целевой последовательности, компонентов комплекса CRISPR, в том числе направляющей последовательности, подлежащей тестированию, и контрольной направляющей последовательности, отличной от тестируемой направляющей последовательности, и сравнения связывания или степени расщепления целевой последовательности в случае реакций с тестируемой и контрольной направляющей последовательностью. Возможны и другие анализы, и они могут быть выполнены специалистами в данной области. Направляющая последовательность может быть выбрана для целенаправленного воздействия на любую целевую последовательность. В некоторых вариантах осуществления целевая последовательность является последовательностью в пределах генома клетки. Иллюстративные целевые последовательности включают последовательности, которые являются уникальными в целевом геноме.

В целом и на протяжении данного описания термин "вектор" обозначает молекулу нуклеиновой кислоты, способную переносить другую нуклеиновую кислоту, с которой она была связана. Векторы включают без ограничения молекулы нуклеиновой кислоты, которые являются однонитевыми, двухнитевыми или частично двухнитевыми; молекулы нуклеиновой кислоты, которые содержат один или несколько свободных концов, не содержат свободных концов (например, кольцевые); молекулы нуклеиновой кислоты, которые содержат ДНК, РНК или и ту, и другую; и другие разновидности полинуклеотидов, известные из уровня техники. Одним типом вектора является "плазмида", которая означает кольцевую петлю двухнитевой ДНК, в которую можно встраивать дополнительные сегменты ДНК, как, например, с помощью стандартных методик молекулярного клонирования. Другим типом вектора является вирусный вектор, где полученные из вируса последовательности ДНК или РНК присутствуют в векторе для упаковки в вирус (например, ретровирусы, ретровирусы с дефектной системой репликации, аденовирусы, аденовирусы с дефектной системой репликации и аденоассоциированные вирусы). Вирусные векторы также включают полинуклеотиды, переносимые вирусом для трансфекции в клетку-хозяина. Определенные векторы способны к автономной репликации в клетке-хозяине, в которую они введены (например, бактериальные векторы с бактериальной точкой начала репликации и эписомные векторы для млекопитающих). Другие векторы (например, векторы для млекопитающих, отличные от эписомных) интегрируются в геном клетки-хозяина после введения в клетку-хозяина и, таким образом, реплицируются вместе с геномом хозяина. Более того, определенные векторы способны управлять экспрессией генов, с которыми они функционально связаны. Такие векторы в данном документе обозначены как "векторы экспрессии". Векторы для экспрессии в эукариотической клетке и обеспечивающие таковую в ней могут обозначаться в данном документе как "векторы экспрессии у эукариот". Общепринятые пригодные для методик рекомбинантной ДНК векторы экспрессии часто находятся в форме плазмид.

Рекомбинантные векторы экспрессии могут содержать нуклеиновую кислоту по настоящему изобретению в форме, подходящей для экспрессии нуклеиновой кислоты в клетке-хозяине, что означает, что рекомбинантные векторы экспрессии включают один или несколько регуляторных элементов, которые могут быть выбраны с учетом клеток-хозяев, которые предполагается применять для экспрессии, которые функционально связаны с последовательностью нуклеиновой кислоты, экспрессия которой предполагается. В контексте рекомбинантного вектора экспрессии предполагается, что выражение "функционально связанный" обозначает то, что представляющая интерес нуклеотидная последовательность связана с регуляторным(регуляторными) элементом(элементами), так что обеспечивается возможность экспрессии нуклеотидной последовательности (например, в системе транскрипции/трансляции in vitro или в клетке-хозяине при введении вектора в клетку-хозяина).

Предполагается, что термин "регуляторный элемент" подразумевает промоторы, энхансеры, сайты внутренней посадки рибосомы (IRES) и другие элементы контроля экспрессии (например, сигналы терминации транскрипции, такие как сигналы полиаденилирования и поли-U-последовательности). Такие регуляторные элементы описаны, например, в Goeddel, GENE EXPRESSION TECHNOLOGY: METHODS IN ENZYMOLOGY 185, Academic Press, San Diego, Calif. (1990). Регуляторные элементы включают такие элементы, которые управляют конститутивной экспрессией нуклеотидной последовательности во многих типах клеток-хозяев, и такие элементы, которые управляют экспрессией нуклеотидной последовательности только в определенных клетках-хозяевах (например, тканеспецифичные регуляторные последовательности). Тканеспецифичный промотор может управлять экспрессией преимущественно в представляющей интерес целевой ткани, такой как мышца, нейрон, кость, кожа, кровь, конкретных органах (например, печени, поджелудочной железе) или определенных типах клеток (например, лимфоцитах). Регуляторные элементы также могут управлять экспрессией зависимым от времени образом, как, например, зависимым от клеточного цикла или зависимым от стадии развития образом, который также может быть или может не быть тканеспецифичным или специфичным к типу клеток. В некоторых вариантах осуществления вектор содержит один или несколько промоторов pol III (например, 1, 2, 3, 4, 5 или более промоторов pol III), один или несколько промоторов pol II (например, 1, 2, 3, 4, 5 или более промоторов pol II), один или несколько промоторов pol I (например, 1, 2, 3, 4, 5 или более промоторов pol I) или их комбинации. Примеры промоторов pol III включают без ограничения промоторы U6 и H1. Примеры промоторов pol II включают без ограничения ретровирусный промотор LTR вируса саркомы Рауса (RSV) (необязательно с энхансером RSV), промотор цитомегаловируса (CMV) (необязательно с энхансером CMV) [см., например, Boshart et al, Cell, 41:521-530 (1985)], промотор SV40, промотор гена дигидрофолатредуктазы, промотор гена β-актина, промотор гена глицерофосфаткиназы (PGK) и промотор EF1α. Также термином "регуляторный элемент" охватываются энхансерные элементы, такие как энхансеры WPRE; CMV; сегмент R-U5' в LTR из HTLV-I (Mol. Cell. Biol., Vol. 8(1), p. 466-472, 1988); энхансер SV40; а также интронная последовательность между экзонами 2 и 3 гена β-глобина кролика (Proc. Natl. Acad. Sci. USA., Vol. 78(3), p. 1527-31, 1981). Специалистам в данной области техники будет понятно, что конфигурация вектора экспрессии может зависеть от таких факторов, как выбор клетки-хозяина, подлежащей трансформации, требуемый уровень экспрессии и т. п. Вектор можно вводить в клетки-хозяева с получением, таким образом, транскриптов, белков или пептидов, в том числе слитых белков или пептидов, кодируемых нуклеиновыми кислотами, которые описаны в данном документе (например, транскриптов коротких палиндромных повторов, регулярно расположенных группами (CRISPR), белков, ферментов, их мутантных форм, их слитых белков и т. п.).

Преимущественные векторы включают лентивирусы и аденоассоциированные вирусы, и типы таких векторов также могут быть выбраны для нацеливания на определенные типы клеток.

Используемый в данном документе термин "crRNA", или "направляющая РНК", или "одиночная направляющая РНК", или "sgRNA", или "один или несколько компонентов на основе нуклеиновой кислоты" эффекторного белка локуса CRISPR-Cas типа V предусматривает любую полинуклеотидную последовательность, характеризующуюся достаточной комплементарностью с целевой последовательностью нуклеиновой кислоты, чтобы гибридизироваться с целевой последовательностью нуклеиновой кислоты и управлять специфичным к последовательности связыванием комплекса нацеливания на нуклеиновую кислоту с целевой последовательностью нуклеиновой кислоты. В некоторых вариантах осуществления при оптимальном выравнивании с применением подходящего алгоритма выравнивания степень комплементарности составляет приблизительно или более чем приблизительно 50%, 60%, 75%, 80%, 85%, 90%, 95%, 97,5%, 99% или больше. Оптимальное выравнивание можно определять с применением любого подходящего алгоритма для выравнивания последовательностей, к неограничивающим примерам которого относится алгоритм Смита-Ватермана, алгоритм Нидлмана-Вунша, алгоритмы, основанные на преобразовании Барроуза-Уилера (например, Burrows Wheeler Aligner), ClustalW, Clustal X, BLAT, Novoalign (Novocraft Technologies; доступный на сайте www.novocraft.com), ELAND (Illumina, Сан-Диего, Калифорния), SOAP (доступный на сайте soap.genomics.org.cn) и Maq (доступный на сайте maq.sourceforge.net). Способность направляющей последовательности (в рамках направляющей РНК для нацеливания на нуклеиновую кислоту) управлять специфичным к последовательности связыванием комплекса нацеливания на нуклеиновую кислоту с целевой последовательностью нуклеиновой кислоты можно оценивать с помощью любого подходящего анализа. Например, компоненты системы CRISPR для нацеливания на нуклеиновую кислоту, достаточные для образования комплекса нацеливания на нуклеиновую кислоту, в том числе направляющая последовательность, подлежащая тестированию, могут обеспечиваться в клетке-хозяине, имеющей соответствующую целевую последовательность нуклеиновой кислоты, как, например, с помощью трансфекции векторами, кодирующими компоненты комплекса нацеливания на нуклеиновую кислоту, с последующей оценкой предпочтительного нацеливания (например, расщепления) в пределах целевой последовательности нуклеиновой кислоты, как, например, с помощью анализа с использованием нуклеазы Surveyor, описываемого в данном документе. Аналогично, расщепление целевой последовательности нуклеиновой кислоты можно определять в пробирке путем обеспечения целевой последовательности нуклеиновой кислоты, компонентов комплекса нацеливания на нуклеиновую кислоту, в том числе направляющей последовательности, подлежащей тестированию, и контрольной направляющей последовательности, отличной от тестируемой направляющей последовательности, и сравнения связывания или степени расщепления целевой последовательности в случае реакций с тестируемой и контрольной направляющей последовательностью. Возможны и другие анализы, и они могут быть выполнены специалистами в данной области. Направляющая последовательность и, следовательно, направляющая РНК для нацеливания на нуклеиновую кислоту, может быть выбрана для нацеливания на любую целевую последовательность нуклеиновой кислоты. Целевая последовательность может представлять собой ДНК. Целевая последовательность может представлять собой любую последовательность РНК. В некоторых вариантах осуществления целевая последовательность может представлять собой последовательность в пределах молекулы РНК, выбранной из группы, состоящей из матричной RNA (мРНК), pre-mRNA, рибосомальной РНК (rRNA), транспортной РНК (tRNA), микро-РНК (miRNA), малой интерферирующей РНК (siRNA), малой ядерной РНК (snRNA), малой ядрышковой РНК (snoRNA), двухнитевой РНК (dsRNA), некодирующей РНК (ncRNA), длинной некодирующей РНК (lncRNA) и малой цитоплазматической РНК (scRNA). В некоторых предпочтительных вариантах осуществления целевая последовательность может представлять собой последовательность в пределах молекулы РНК, выбранной из группы, состоящей из мРНК, pre-mRNA и rRNA. В некоторых предпочтительных вариантах осуществления целевая последовательность может представлять собой последовательность в пределах молекулы РНК, выбранной из группы, состоящей из ncRNA и lncRNA. В некоторых более предпочтительных вариантах осуществления целевая последовательность может представлять собой последовательность в пределах молекулы мРНК или молекулы pre-mRNA.

В некоторых вариантах осуществления направляющая РНК для нацеливания на нуклеиновую кислоту выбраны для снижения доли вторичной структуры в пределах направляющей РНК для нацеливания на РНК. В некоторых вариантах осуществления приблизительно или менее чем приблизительно 75%, 50%, 40%, 30%, 25%, 20%, 15%, 10%, 5%, 1% или меньше нуклеотидов направляющей РНК для нацеливания на нуклеиновую кислоту участвуют в самокомплементарном образовании пар оснований при оптимальном сворачивании. Оптимальное сворачивание можно определить с помощью любого подходящего алгоритма сворачивания полинуклеотида. Некоторые программы основаны на вычислении минимальной свободной энергии Гиббса. Примером одного такого алгоритма является mFold, который описан Zuker и Stiegler (Nucleic Acids Res. 9 (1981), 133-148). Другим примером алгоритма сворачивания является доступный в режиме онлайн веб-сервер RNAfold, разработанный в Институте теоретической химии при Венском университете, использующий алгоритм прогнозирования структуры на основе центроидного способа (см., например, A.R. Gruber et al., 2008, Cell 106(1): 23-24; и PA Carr and GM Church, 2009, Nature Biotechnology 27(12): 1151-62).

Последовательность "tracrRNA" или аналогичные термины включают любую полинуклеотидную последовательность, которая характеризуется достаточной комплементарностью с последовательностью crRNA для возможности гибридизации. Как указано в данном документе выше, в вариантах осуществления настоящего изобретения tracrRNA не требуется для активности расщепления у комплексов эффекторного белка Cpf1.

Заявители также осуществили эксперимент-пробу для проверки нацеливания и способности расщепления ДНК у белка V типа/VI типа, такого как Cpf1/C2c1/C2c2. Данный эксперимент очень похож на аналогичную работу по гетерологичной экспрессии StCas9 в E. coli (Sapranauskas, R. et al. Nucleic Acids Res 39, 9275-9282 (2011)). Заявители вводили плазмиду, содержащую как PAM, так и ген устойчивости, в гетерологичную E. coli, и затем высевали в присутствии соответствующего антибиотика. Если в плазмиде происходило расщепление ДНК, заявители не наблюдали выживших колоний.

Более подробно, анализ в отношении ДНК-мишени проводится следующим образом. В данном анализе применяли два штамма E.coli. Один несет плазмиду, которая кодирует локус эндогенного эффекторного белка из бактериального штамма. Другой штамм несет пустую плазмиду (например, pACYC184, контрольный штамм). Все возможные последовательности PAM размером 7 или 8 п. о. присутствовали в плазмиде, придающей устойчивость к антибиотику (pUC19 с геном устойчивости к ампициллину). PAM располагается сразу за последовательностью протоспейсера 1 (ДНК-мишень для первого спейсера в локусе эндогенного эффекторного белка). Клонировали две библиотеки PAM. Одну составляли 8 случайных п. о. в направлении 5' от протоспейсера (например, всего 65536 различных последовательностей PAM = сложность). Другую библиотеку составляли 7 случайных п. о. в направлении 3' от протоспейсера (например, общая сложность составляла 16384 различных PAM). Обе библиотеки клонировали так, чтобы получить в среднем 500 плазмид из расчета на один возможный PAM. Тестируемый штамм и контрольный штамм трансформировали с помощью библиотеки 5'PAM и 3'PAM в ходе отдельных трансформаций и трансформированные клетки высевали отдельно на чашки с ампициллином. Распознавание и последующее разрезание/противодействие плазмиде придает клетке чувствительность к ампициллину и предотвращает рост. Примерно через 12 ч. после трансформации все колонии, образованные тестируемым и контрольным штаммами, собирали и плазмидную ДНК выделяли. Плазмидную ДНК использовали в качестве матрицы для ПЦР-амплификации и последующего глубокого секвенирования. Представление всех PAM в нетрансформированных библиотеках показало ожидаемое представление PAM в трансформированных клетках. Представление всех PAM, обнаруженное в контрольных штаммах, показало фактическое представление. Представление всех PAM в тестируемом штамме показало, какие PAM не распознаются ферментом, а сравнение с контрольным штаммом позволило выделить последовательность подвергнутого истощению PAM.

В некоторых вариантах осуществления систем CRISPR-Cas9 степень комплементарности между последовательностью tracrRNA и последовательностью crRNA определяют по всей длине более короткой из двух при оптимальном выравнивании. Как описано в данном документе, в вариантах осуществления настоящего изобретения tracrRNA не требуется. В некоторых вариантах осуществления ранее описанных систем CRISPR-Cas (например, систем CRISPR-Cas9), структуры химерных синтетических направляющих РНК (sgRNA) могут включать дуплексную структуру длиной по меньшей мере 12 п. о. между crRNA и tracrRNA, однако в системах Cpf1 CRISPR, описанных в данном документе, такие химерные РНК (chi-RNA) не являются возможными, поскольку система не использует tracrRNA.

Для сведения к минимуму токсичности и нецелевого эффекта будет важно контролировать концентрацию доставляемой направляющей РНК для нацеливания на нуклеиновую кислоту. Оптимальные концентрации направляющей РНК для нацеливания на нуклеиновую кислоту можно определить путем тестирования различных концентраций на клеточной модели или модели отличного от человека животного-эукариотического организма и применения глубокого секвенирования для анализа степени модификации в потенциальных нецелевых локусах генома. Для доставки in vivo следует выбрать концентрацию, дающую наиболее высокий уровень целевой модификации при сведении к минимуму уровня нецелевой модификации. Систему нацеливания на нуклеиновую кислоту получают преимущественно из системы CRISPR V типа/VI типа. В некоторых вариантах осуществления один или несколько элементов системы нацеливания на нуклеиновую кислоту получены из конкретного организма, содержащего эндогенную систему нацеливания на РНК. В предпочтительных вариантах осуществления настоящего изобретения система нацеливания на РНК представляет собой систему CRISPR V типа/VI типа. В конкретных вариантах осуществления фермент Cas V типа/VI типа для нацеливания на РНК представляет собой Cpf1/C2c1/C2c2. Неограничивающие примеры белков Cas включают Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas6, Cas7, Cas8, Cas9 (также известный как Csn1 и Csx12), Cas10, Csy1, Csy2, Csy3, Cse1, Cse2, Csc1, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx15, Csf1, Csf2, Csf3, Csf4, их гомологи или их модифицированные варианты. В вариантах осуществления белок V типа/VI типа, такой как Cpf1/C2c1/C2c2, упоминаемый в данном документе, также охватывает гомологичный или ортологичный белок для белка V типа/VI типа, такого как Cpf1/C2c1/C2c2. Термины "ортологичный" (также в данном документе называемый "ортолог") и "гомологичный" (также в данном документе называемый "гомолог") хорошо известны из уровня техники. В качестве дополнительного руководства, "гомологичный" белок, как используется в данном документе, представляет собой белок того же вида, который выполняет ту же или подобную функцию, что и белок, которому он гомологичен. Гомологичные белки могут, но не обязательно должны быть структурно родственными, или они являются только частично структурно родственными. "Ортологичный" белок, как используется в настоящем документе, представляет собой белок от другого вида, который выполняет ту же или подобную функцию, что и белок, которому он ортологичен. Ортологичные белки могут, но не обязательно должны быть структурно родственными, или они являются только частично структурно родственными. Гомологи и ортологи могут быть идентифицированы с помощью моделирования гомологии (см., например, Greer, Science vol. 228 (1985) 1055, и Blundell et al. Eur J Biochem vol 172 (1988), 513) или "структурного BLAST" (Dey F, Cliff Zhang Q, Petrey D, Honig B. Toward a "structural BLAST": using structural relationships to infer function. Protein Sci. 2013 Apr;22(4):359-66. doi: 10.1002/pro.2225.). См. также Shmakov et al. (2015) в рамках применения в области локусов CRISPR-Cas. Гомологичные белки могут, но не обязательно должны быть структурно родственными, или они являются только частично структурно родственными. В конкретных вариантах осуществления гомолог или ортолог Cpf1, упоминаемого в данном документе, характеризуется гомологией или идентичностью последовательности, составляющими по меньшей мере 80%, более предпочтительно по меньшей мере 85%, еще более предпочтительно по меньшей мере 90%, как, например, по меньшей мере 95%, с Cpf1. В дополнительных вариантах осуществления гомолог или ортолог Cpf1, упоминаемого в данном документе, характеризуется идентичностью последовательности, составляющей по меньшей мере 80%, более предпочтительно по меньшей мере 85%, еще более предпочтительно по меньшей мере 90%, как, например, по меньшей мере 95%, с Cpf1 дикого типа. Если Cpf1 имеет одну или несколько мутаций (мутированный), то гомолог или ортолог указанного Cpf1, упоминаемого в данном документе, характеризуется идентичностью последовательности, составляющей по меньшей мере 80%, более предпочтительно по меньшей мере 85%, еще более предпочтительно по меньшей мере 90%, как, например, по меньшей мере 95%, с мутированным Cpf1.

- В одном варианте осуществления белок Cas V типа может представлять собой ортолог, происходящий от организма из рода, который включает без ограничения Acidaminococcus sp, Lachnospiraceae bacterium или Moraxella bovoculi; в конкретных вариантах осуществления белок Cas V типа может представлять собой ортолог, происходящий от организма из вида, который включает без ограничения Acidaminococcus sp. BV3L6; Lachnospiraceae bacterium ND2006 (LbCpf1) или Moraxella bovoculi 237. В конкретных вариантах осуществления гомолог или ортолог Cpf1, упоминаемого в данном документе, характеризуется гомологией или идентичностью последовательности, составляющими по меньшей мере 80%, более предпочтительно по меньшей мере 85%, еще более предпочтительно по меньшей мере 90%, как, например, по меньшей мере 95%, с одной или несколькими последовательностями Cpf1, раскрытыми в данном документе. В дополнительных вариантах осуществления гомолог или ортолог Cpf, упоминаемого в данном документе, характеризуется идентичностью последовательности, составляющей по меньшей мере 80%, более предпочтительно по меньшей мере 85%, еще более предпочтительно по меньшей мере 90%, как, например, по меньшей мере 95%, с FnCpf1, AsCpf1 или LbCpf1 дикого типа.

- В конкретных вариантах осуществления белок Cpf1 по настоящему изобретению характеризуется гомологией или идентичностью последовательности, составляющими по меньшей мере 60%, более конкретно, по меньшей мере 70, как, например, по меньшей мере 80%, более предпочтительно по меньшей мере 85%, еще более предпочтительно по меньшей мере 90%, как, например, по меньшей мере 95%, с FnCpf1, AsCpf1 или LbCpf1. В дополнительных вариантах осуществления белок Cpf1, упоминаемый в данном документе, характеризуется идентичностью последовательности, составляющей по меньшей мере 60%, как, например, по меньшей мере 70%, более конкретно по меньшей мере 80%, более предпочтительно по меньшей мере 85%, еще более предпочтительно по меньшей мере 90%, как, например, по меньшей мере 95%, с AsCpf1 или LbCpf1 дикого типа. В конкретных вариантах осуществления белок Cpf1 по настоящему изобретению характеризуется менее чем 60% идентичностью последовательности с FnCpf1. Специалисту в данной области будет понятно, что это подразумевает усеченные формы белка Cpf1, при этом идентичность последовательности определяют по длине усеченной формы.

Некоторые способы идентификации ортологов ферментов системы CRISPR-Cas могут предусматривать идентификацию tracr-последовательностей в представляющих интерес геномах. Идентификация tracr-последовательностей может заключаться в следующих стадиях: поиска прямых повторов или парных tracr-последовательностей в базе данных для идентификации участка CRISPR, содержащего фермент CRISPR; поиска гомологичных последовательностей в участке CRISPR, фланкирующем фермент CRISPR как в смысловом, так и в антисмысловом направлениях; поиска терминаторов транскрипции и вторичных структур; идентификации какой-либо последовательности, которая не является прямым повтором или парной tracr-последовательностью, но характеризуется более чем 50% идентичностью в отношении прямого повтора или парной tracr-последовательности, в качестве потенциальной tracr-последовательности; получения потенциальной tracr-последовательности и анализа на предмет ассоциированных с ней последовательностей терминатора транскрипции. В данной системе с помощью данных по секвенированию РНК обнаружили, что потенциальные tracrRNA, идентифицированные компьютерным способом, экспрессировались только на очень низком уровне, что позволило предположить, что tracrRNA может не быть необходимой для функционирования системы согласно настоящему изобретению. После дополнительной оценки локуса FnCpf1 и добавления результатов расщепления in vitro заявители сделали вывод, что для расщепления целевой ДНК под действием комплекса эффекторного белка Cpf1 не требуется tracrRNA. Заявители определили, что комплексов эффекторного белка Cpf1, содержащих только эффекторный белок Cpf1 и crRNA (направляющая РНК, содержащая последовательность прямого повтора и направляющую последовательность), было достаточно для расщепления целевой ДНК.

Следует понимать, что любое из функциональных свойств, описанных в данном документе, может быть сконструировано в ферментах CRISPR от других ортологов, включая химерные ферменты, содержащие фрагменты из множественных ортологов. Примеры таких ортологов описываются в других разделах данного документа. Таким образом, химерные ферменты могут содержать фрагменты из ортологов фермента CRISPR, происходящих от организмов из рода, который включает без ограничения Corynebacter, Sutterella, Legionella, Treponema, Filifactor, Eubacterium, Streptococcus, Lactobacillus, Mycoplasma, Bacteroides, Flaviivola, Flavobacterium, Sphaerochaeta, Azospirillum, Gluconacetobacter, Neisseria, Roseburia, Parvibaculum, Staphylococcus, Nitratifractor, Mycoplasma и Campylobacter. Химерный фермент может содержать первый фрагмент и второй фрагмент, и при этом фрагменты могут быть из ортологов фермента CRISPR, происходящих от организмов из родов, упоминаемых в данном документе, или из видов, упоминаемых в данном документе; преимущественно фрагменты получены из ортологов фермента CRISPR от различных видов.

В вариантах осуществления эффекторный белок V типа/VI типа для нацеливания на РНК, в частности белок Cpf1/C2c1/C2c2, упоминаемый в данном документе, также охватывает функциональный вариант Cpf1/C2c1/C2c2 или его гомолога или ортолога. "Функциональный вариант" белка, как используется в данном документе, обозначает вариант такого белка, который сохраняет, по меньшей мере частично, активность этого белка. Функциональные варианты могут включать мутантов (которые могут представлять собой мутанты, полученные в результате вставки, делеции или замещения), в том числе полиморфов и т. п. Также функциональные варианты включают продукты слияния такого белка с другими, обычно не родственными, нуклеиновой кислотой, белком, полипептидом или пептидом. Функциональные варианты могут встречаться в природе или могут быть получены человеком. Преимущественные варианты осуществления могут предусматривать сконструированный или не встречающийся в природе эффектoрный белок V типа/VI типа для нацеливания на РНК, например, Cpf1/C2c1/C2c2 или его ортолог или гомолог.

В одном варианте осуществления молекула(молекулы) нуклеиновой кислоты, кодирующая(кодирующие) эффекторный белок V типа/VI типа для нацеливания на РНК, в частности Cpf1/C2c1/C2c2 или его ортолог или гомолог, может(могут) являться кодон-оптимизированной(оптимизированными) для экспрессии в эукариотической клетке. Эукариотический организм может быть таким, как обсуждается в данном документе. Молекула(молекулы) нуклеиновой кислоты может(могут) быть сконструированной(сконструированными) или не встречающейся(не встречающимися) в природе.

В одном варианте осуществления эффекторный белок V типа/VI типа для нацеливания на РНК, в частности Cpf1/C2c1/C2c2 или его ортолог или гомолог, может содержать одну или несколько мутаций (и, следовательно, молекула(молекулы) нуклеиновой кислоты, кодирующая(кодирующие) их, может(могут) иметь мутацию(мутации)). Мутации могут быть искусственно введенными мутациями и могут включать в себя без ограничения одну или несколько мутаций в каталитическом домене. Примеры каталитических доменов в отношении фермента Cas9 могут включать в себя без ограничения домены RuvC I, RuvC II, RuvC III и HNH.

В одном варианте осуществления белок V типа/VI типа, такой как Cpf1/C2c1/C2c2 или его ортолог или гомолог, можно применять как универсальный белок, связывающий нуклеиновую кислоту, с помощью слияния с функциональным доменом или обеспечения функциональной связи с ним. Иллюстративные функциональные домены могут включать без ограничения инициатор трансляции, активатор трансляции, репрессор трансляции, нуклеазы, в частности рибонуклеазы, сплайсосому, гранулы, индуцируемый/контролируемый светом домен или химически индуцируемый/контролируемый домен.

В некоторых вариантах осуществления немодифицированный эффекторный белок для нацеливания на нуклеиновую кислоту может характеризоваться активностью расщепления. В некоторых вариантах осуществления эффекторный белок для нацеливания на РНК может управлять расщеплением одной или обеих нитей нуклеиновой кислоты (ДНК или РНК) в определенном положении целевой последовательностью или вблизи нее, как, например, в пределах целевой последовательности и/или в последовательности, комплементарной целевой последовательности, или в последовательностях, ассоциированных с целевой последовательностью. В некоторых вариантах осуществления эффекторный белок для нацеливания на нуклеиновую кислоту может управлять расщеплением одной или обеих нитей ДНК или РНК в пределах приблизительно 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 50, 100, 200, 500 или более пар оснований от первого или последнего нуклеотида целевой последовательности. В некоторых вариантах осуществления расщепление может быть ступенчатым, т. е. образующим липкие концы. В некоторых вариантах осуществления расщепление представляет собой ступенчатый разрез с "липким" 5'-концом. В некоторых вариантах осуществления расщепление представляет собой ступенчатый разрез с "липким" 5'-концом из 1-5 нуклеотидов, предпочтительно 4 или 5 нуклеотидов. В некоторых вариантах осуществления сайт расщепления удален от PAM, например, расщепление происходит после 18-гонуклеотида на не подвергаемой нацеливанию нити и после 23-гонуклеотида на подвергаемой нацеливанию нити (фигура 97A). В некоторых вариантах осуществления сайт расщепления располагается после 18-гонуклеотида (считая от PAM) на не подвергаемой нацеливанию нити и после 23-гонуклеотида (считая от PAM) на подвергаемой нацеливанию нити (фигура 97A). В некоторых вариантах осуществления вектор кодирует эффекторный белок для нацеливания на нуклеиновую кислоту, который может быть мутированным по сравнению с соответствующим ферментом дикого типа, так что у мутированного эффекторного белка для нацеливания на нуклеиновую кислоту отсутствует способность расщеплять одну или обе нити ДНК или РНК в целевом полинуклеотиде, содержащем целевую последовательность. В качестве дополнительного примера можно подвергать мутированию два или более каталитических доменов белка Cas (например, RuvC I, RuvC II и RuvC III или домен HNH из белка Cas9) с получением мутированного белка Cas, у которого практически полностью отсутствует активность расщепления ДНК. Как описано в данном документе, соответствующие каталитические домены эффекторного белка Cpf1 также могут быть подвергнуты мутированию с получением мутированного эффекторного белка Cpf1, у которого полностью отсутствует активность расщепления ДНК или который характеризуется значительно сниженной активностью расщепления ДНК. В некоторых вариантах осуществления может считаться, что у эффекторного белка для нацеливания на нуклеиновую кислоту практически полностью отсутствует активность расщепления РНК, если активность расщепления РНК у мутированного фермента составляет не более чем приблизительно 25%, 10%, 5%, 1%, 0,1%, 0,01% или меньше относительно активности расщепления нуклеиновой кислоты у немутированной формы фермента; примером может служить случай, когда активность расщепления нуклеиновой кислоты у мутированной формы отсутствует или несущественна по сравнению с немутированной формой. Эффекторный белок может быть идентифицирован со ссылкой на общий класс ферментов, обладающих гомологией с самой большой нуклеазой с множественными нуклеазными доменами системы CRISPR V типа/VI типа. Наиболее предпочтительно, эффекторный белок представляет собой белок V типа/VI типа, такой как Cpf1/C2c1/C2c2. В дополнительных вариантах осуществления эффекторный белок представляет собой белок V типа. Под происходящим заявители подразумевают, что в основе происходящего фермента главным образом лежит фермент дикого типа в том смысле, что он характеризуется высокой степенью гомологии последовательности с этим ферментом, но он был некоторым образом подвергнут мутации (модифицирован), как известно из уровня техники или описано в данном документе.

Опять-таки, будет понятно, что термины Cas, и фермент CRISPR, и фермент CRISPR, и белок Cas в целом используются взаимозаменяемо, и при всех упоминаниях в данном документе относятся по аналогии к новым эффекторным белкам CRISPR, дополнительно описанным в настоящей заявке, если не очевидно иное, как, например, с помощью специальной ссылки на Cas9. Как упоминается выше, большинство нумераций остатков, используемых в данном документе, относятся к эффекторному белку из локуса CRISPR V типа/VI типа. Однако следует учитывать, что настоящее изобретение включает намного больше эффекторных белков из других видов микроорганизмов. В определенных вариантах осуществления присутствие эффекторных белков может быть постоянным, или их присутствие можно индуцировать, или их присутствие зависит от условий, или их можно вводить или доставлять. Оптимизацию эффекторного белка можно применять для усиления функции или для проявления новых функций, при этом можно получать химерные эффекторные белки. И, как описано в данном документе, эффекторные белки могут быть модифицированы для применения в качестве универсальных белков, связывающих нуклеиновую кислоту.

Как правило, в контексте системы нацеливания на нуклеиновую кислоту образование комплекса нацеливания на нуклеиновую кислоту (содержащего направляющую РНК, гибридизированную с целевой последовательностью и находящуюся в комплексе с одним или несколькими эффекторными белками для нацеливания на нуклеиновую кислоту) приводит к расщеплению одной или обеих нитей ДНК или РНК в целевой последовательности или рядом с ней (например, в пределах 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50 или более пар оснований). Используемый в данном документе термин "последовательность(последовательности), ассоциированная(ассоциированные) с представляющим интерес целевым локусом" относится к последовательностям рядом с окружающим пространством целевой последовательности (например, в пределах 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50 или больше пар оснований от целевой последовательности, при этом целевая последовательность содержится в пределах представляющего интерес целевого локуса).

Примером кодон-оптимизированной последовательности в данном случае является последовательность, оптимизированная для экспрессии в эукариотическом организме, например, человека (т. е. которая является оптимизированной для экспрессии у человека), или для экспрессии в другом эукариотическом организме, животном или млекопитающем, как обсуждается в данном документе; см., например, последовательность SaCas9, кодон-оптимизированную для человека, в WO 2014/093622 (PCT/US2013/074667) в качестве примера кодон-оптимизированной последовательности (исходя из сведений из уровня техники и настоящего изобретения, проведение оптимизации кодонов в кодирующей молекуле(молекулах) нуклеиновой кислоты, в частности, эффекторного белка (например, Cpf1), находится в пределах компетентности специалиста в данной области). Хотя это является предпочтительным, следует иметь в виду, что возможны другие примеры и что известна оптимизация кодонов для вида-хозяина, отличного от человека, или оптимизация кодонов для конкретных органов. В некоторых вариантах осуществления фермент-кодирующая последовательность, которая кодирует белок Cas для нацеливания на ДНК/РНК, является кодон-оптимизированной для экспрессии в конкретных клетках, таких как эукариотические клетки. Эукариотические клетки могут быть клетками конкретного организма или полученными из него, как, например, клетками растения или млекопитающего, в том числе без ограничения человека, или отличного от человека эукариотического организма, или животного, или млекопитающего, обсуждаемых в данном документе, например, мыши, крысы, кролика, собаки, крупного рогатого скота или отличного от человека млекопитающего или примата. В некоторых вариантах осуществления могут исключаться способы модифицирования генетической идентичности зародышевой линии человека и/или способы модификации генетической идентичности животных, которые, вероятно, могут причинить им страдания без какой-либо значительной медицинской пользы для человека или животного, а также животные, являющиеся результатом таких способов. В целом, оптимизация кодонов означает способ модифицирования последовательности нуклеиновой кислоты для повышения уровня экспрессии в представляющих интерес клетках-хозяевах путем замещения по меньшей мере одного кодона (например, приблизительно или более чем приблизительно 1, 2, 3, 4, 5, 10, 15, 20, 25, 50 или более кодонов) нативной последовательности на кодоны, которые чаще или наиболее часто используют в генах такой клетки-хозяина, при этом с сохранением нативной аминокислотной последовательности. Разные виды проявляют определенное "предпочтение" в отношении конкретных кодонов определенной аминокислоты. "Предпочтение" кодонов (различия в частоте использования кодонов между организмами) зачастую соотносится с эффективностью трансляции матричной РНК (mRNA), которая, в свою очередь, как полагают, зависит, среди прочего, от свойств кодонов, которые транслируются, и доступности конкретных молекул транспортной РНК (tRNA). Преобладание выбранных tRNA в клетке, как правило, указывает на кодоны, используемые наиболее часто при синтезе пептидов. Соответственно, гены можно приспособить для оптимальной экспрессии генов в данном организме за счет оптимизации кодонов. Таблицы частоты использования кодонов общедоступны, например, в "Базе данных частот использования кодонов", доступной в интернете по адресу www.kazusa.orjp/codon/, и эти таблицы можно адаптировать различными способами. См., Nakamura, Y., et al. "Codon usage tabulated from the international DNA sequence databases: status for the year 2000" Nucl. Acids Res. 28:292 (2000). Также доступны компьютерные алгоритмы для оптимизации кодонов определенной последовательности для экспрессии в определенной клетке-хозяине, как, например, Gene Forge (Aptagen; Джакобус, Пенсильвания). В некоторых вариантах осуществления один или несколько кодонов (например, 1, 2, 3, 4, 5, 10, 15, 20, 25, 50 или более или все кодоны) в последовательности, кодирующей белок Cas для нацеливания на ДНК/РНК, соответствуют наиболее часто используемому кодону для конкретной аминокислоты. Что касается частоты использования кодонов у дрожжей, стоит сослаться на онлайн базу данных генома дрожжей, доступную в интернете по адресу http://www.yeastgenome.org/community/codon_usage.shtml или Codon selection in yeast, Bennetzen and Hall, J Biol Chem. 1982 Mar 25;257(6):3026-31. Что касается частоты использования кодонов у растений, включая водоросли, стоит сослаться на Codon usage in higher plants, green algae, and cyanobacteria, Campbell and Gowri, Plant Physiol. 1990 Jan; 92(1): 1-11; а также Codon usage in plant genes, Murray et al, Nucleic Acids Res. 1989 Jan 25;17(2):477-98; или Selection on the codon bias of chloroplast and cyanelle genes in different plant and algal lineages, Morton BR, J Mol Evol. 1998 Apr;46(4):449-59.

В некоторых вариантах осуществления вектор кодирует эффекторный белок для нацеливания на нуклеиновую кислоту, такой как эффекторный белок V типа/VI типа для нацеливания на РНК, в частности Cpf1/C2c1/C2c2 или его ортолог или гомолог, содержащий одну или несколько последовательностей ядерной локализации (NLS), как, например, приблизительно или более чем приблизительно 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более NLS. В некоторых вариантах осуществления эффекторный белок для нацеливания на РНК содержит приблизительно или более чем приблизительно 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более NLS на амино-конце или рядом с ним, приблизительно или более чем приблизительно 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более NLS на карбокси-конце или рядом с ним, или их комбинацию (например, ни одной или по меньшей мере одну или несколько NLS на амино-конце и ни одной или одну или несколько NLS на карбокси-конце). В тех случаях, когда присутствуют более одной NLS, каждая может быть выбрана независимо от других, так что одна NLS может присутствовать в более чем одной копии и/или в комбинации с одной или несколькими другими NLS, присутствующими в одной или нескольких копиях. В некоторых вариантах осуществления считается, что NLS находится рядом с N- или C-концом в тех случаях, когда наиболее близкая аминокислота NLS находится в пределах приблизительно 1, 2, 3, 4, 5, 10, 15, 20, 25, 30, 40, 50 или более аминокислот вдоль полипетидной цепи от N- или C-конца. Неограничивающие примеры NLS включают последовательность NLS, происходящую из NLS из большого Т-антигена вируса SV40 с аминокислотной последовательностью PKKKRKV(SEQ ID NO: 2); NLS из нуклеоплазмина (например, двусоставная NLS из нуклеоплазмина с последовательностью KRPAATKKAGQAKKKK (SEQ ID NO: 3)); NLS из c-myc с аминокислотной последовательностью PAAKRVKLD (SEQ ID NO: 4) или RQRRNELKRSP (SEQ ID NO: 5); NLS из hRNPA1 M9 с последовательностью NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY (SEQ ID NO: 6); последовательности RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV (SEQ ID NO: 7) домена IBB из импортина-альфа; последовательностей VSRKRPRP (SEQ ID NO: 8) и PPKKARED (SEQ ID NO: 9) белка T миомы; последовательности POPKKKPL (SEQ ID NO: 10) p53 человека; последовательности SALIKKKKKMAP (SEQ ID NO: 11) c-abl IV мыши; последовательностей DRLRR (SEQ ID NO: 12) и PKQKKRK (SEQ ID NO: 13) из NS1 вируса гриппа; последовательности RKLKKKIKKL (SEQ ID NO: 14) из дельта-антигена вируса гепатита; последовательности REKKKFLKRR (SEQ ID NO: 15) из белка Mx1 мыши; последовательности KRKGDEVDGVDEVAKKKSKK (SEQ ID NO: 16) из поли(АДФ-рибоза)-полимеразы человека и последовательности RKCLQAGMNLEARKTKK (SEQ ID NO: 17) рецепторов стероидных гормонов глюкокортикоидов (человека). В целом, одна или несколько NLS являются достаточно эффективными, чтобы управлять накоплением белка Cas для нацеливания на ДНК/РНК в обнаруживаемом количестве в ядре эукариотической клетки. В целом, степень проявления активности ядерной локализации может быть результатом следующего: числа NLS в эффекторном белке для нацеливания на нуклеиновую кислоту, конкретного(конкретных) используемого(используемых) NLS или комбинации этих факторов. Обнаружение накопления в ядре можно выполнять с помощью любой подходящей методики. Например, с белком для нацеливания на нуклеиновую кислоту может быть слит обнаруживаемый маркер таким образом, чтобы можно было визуализировать данное местоположение в клетке, как, например, в комбинации со средствами для обнаружения местоположения в ядре (например, окрашивающим средством, специфичным к ядру, таким как DAPI). Ядра клеток также можно выделять из клеток, причем их содержимое затем можно анализировать с помощью любого подходящего способа для обнаружения белка, как, например, иммуногистохимического анализа, вестерн-блоттинга или анализа активности фермента. Накопление в ядре также можно определить опосредованно, как, например, с помощью анализа эффекта образования комплекса нацеливания на нуклеиновую кислоту (например, анализа в отношении расщепления ДНК или РНК или мутации в целевой последовательности или анализа в отношении активности экспрессии генов, измененной вследствие образования комплекса нацеливания на РНК и/или активности белка Cas для нацеливания на ДНК или РНК) по сравнению с контролем, который не подвергали воздействию белка Cas для нацеливания на нуклеиновую кислоту или комплекса нацеливания на нуклеиновую кислоту или подвергали воздействию белка Cas для нацеливания на нуклеиновую кислоту, у которого отсутствуют один или несколько NLS. В предпочтительных вариантах осуществления комплексов и систем эффекторного белка Cpf1, описанного в данном документе, кодон-оптимизированные эффекторные белки Cpf1 содержат NLS, прикрепленный к C-концу белка. В определенных вариантах осуществления с белком Cas могут быть слиты другие метки локализации, такие как без ограничения для определения локализации Cas в определенных сайтах в клетке, таких как органеллы, как, например, в митохондриях, пластидах, хлоропласте, везикулах, комплексе Гольджи, (ядерной или клеточной) мембранах, рибосомах, ядрышке, ER, цитоскелете, вакуолях, центросоме, нуклеосоме, гранулах, центриолях и т. д.

В некоторых вариантах осуществления один или несколько векторов, управляющих экспрессией одного или нескольких элементов системы нацеливания на нуклеиновую кислоту, вводят в клетку-хозяина, так что экспрессия элементов системы нацеливания на нуклеиновую кислоту управляет образованием комплекса нацеливания на нуклеиновую кислоту на одном или нескольких целевых сайтах. Например, каждый из эффекторного фермента для нацеливания на нуклеиновую кислоту, и направляющей РНК для нацеливания на нуклеиновую кислоту могут быть функционально связаны с отдельными регуляторными элементами в отдельных векторах. РНК системы нацеливания на нуклеиновую кислоту могут быть доставлены в трансгенное по эффекторному белку для нацеливания на нуклеиновую кислоту животное или млекопитающее, например, животное или млекопитающее, у которого конститутивно, или индуцируемо, или в зависимости от условия экспрессируется эффекторный белок для нацеливания на нуклеиновую кислоту; или животное или млекопитающее, у которого иным образом экспрессируется эффекторный белок для нацеливания на нуклеиновую кислоту или которое имеет клетки, содержащие эффекторный белок для нацеливания на нуклеиновую кислоту, как, например, вследствие предварительного введения в них вектора или векторов, кодирующих и экспрессирующих in vivo эффекторный белок для нацеливания на нуклеиновую кислоту. Альтернативно, два или более элементов, которые экспрессируются за счет одного и того же или разных регуляторных элементов, можно объединять в один вектор, при этом один или несколько дополнительных векторов обеспечивают любые компоненты системы нацеливания на нуклеиновую кислоту, не включенные в первый вектор, при этом компоненты системы нацеливания на нуклеиновую кислоту, которые объединены в одном векторе, могут быть расположены в любой подходящей ориентации, как, например один элемент расположен в направлении 5' ("выше") относительно второго элемента или в направлении 3' ("ниже") относительно него. Кодирующая последовательность одного элемента может быть расположена на одной и той же или противоположной нити по отношению к кодирующей последовательности второго элемента и ориентирована в одном и том же или противоположном направлении. В некоторых вариантах осуществления один промотор управляет экспрессией транскрипта, кодирующего эффекторный белок для нацеливания на нуклеиновую кислоту и направляющую РНК для нацеливания на нуклеиновую кислоту, встроенных в одну или несколько интронных последовательностей (например, каждая в отдельном интроне, две или более по меньшей мере в одном интроне или все в одном интроне). В некоторых вариантах осуществления эффекторный белок для нацеливания на нуклеиновую кислоту и направляющая РНК для нацеливания на нуклеиновую кислоту могут быть функционально связаны с одним и тем же промотором и экспрессироваться от такового. Средства доставки, векторы, частицы, наночастицы, составы и их компоненты для экспрессии одного или нескольких элементов системы нацеливания на нуклеиновую кислоту являются такими, как используемые в вышеизложенных документах, таких как WO 2014/093622 (PCT/US2013/074667). В некоторых вариантах осуществления вектор содержит один или несколько сайтов встраивания, как, например, последовательность узнавания рестрикционной эндонуклеазой (также называемая "сайтом клонирования"). В некоторых вариантах осуществления один или несколько сайтов встраивания (например, приблизительно или более чем приблизительно 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или больше сайтов встраивания) находятся выше и/или ниже одного или нескольких элементов последовательности одного или нескольких векторов. В тех случаях, когда применяются множественные отличающиеся направляющие последовательности, можно использовать одну экспрессионную конструкцию, чтобы нацеливать активности нацеливания на нуклеиновую кислоту на множественные отличающиеся соответствующие целевые последовательности в клетке. Например, один вектор может содержать приблизительно или более чем приблизительно 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20 или более направляющих последовательностей. В некоторых вариантах осуществления векторы, содержащие приблизительно или более чем приблизительно 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более таких направляющих последовательностей, могут быть получены и необязательно доставлены в клетку. В некоторых вариантах осуществления вектор содержит регуляторный элемент, функционально связанный с фермент-кодирующей последовательностью, которая кодирует эффекторный белок для нацеливания на нуклеиновую кислоту. Эффекторный белок для нацеливания на нуклеиновую кислоту или направляющая РНК или направляющие РНК для нацеливания на нуклеиновую кислоту могут доставляться отдельно; и преимущественно по меньшей мере один из них доставляется с помощью комплекса на основе частицы. мРНК эффекторного белка для нацеливания на нуклеиновую кислоту можно доставлять перед доставкой направляющей РНК для нацеливания на нуклеиновую кислоту, чтобы обеспечить время для экспрессии эффекторного белка для нацеливания на нуклеиновую кислоту. мРНК эффекторного белка для нацеливания на нуклеиновую кислоту может быть введена за 1-12 часов (предпочтительно за приблизительно 2-6 часов) до введения направляющей РНК для нацеливания на нуклеиновую кислоту. Альтернативно мРНК эффекторного белка для нацеливания на нуклеиновую кислоту и направляющая РНК для нацеливания на нуклеиновую кислоту могут быть введены вместе. Преимущественно вторую бустерную дозу направляющей РНК можно вводить через 1-12 часов (предпочтительно через около 2-6 часов) после первого введения мРНК эффекторного белка для нацеливания на нуклеиновую кислоту + направляющей РНК. Введение дополнительных доз мРНК эффекторного белка для нацеливания на нуклеиновую кислоту и/или направляющей РНК может быть пригодным для достижения наиболее эффективных уровней модификации генома.

В одном аспекте настоящего изобретения предусмотрены способы применения одного или нескольких элементов системы нацеливания на нуклеиновую кислоту. Комплекс нацеливания на нуклеиновую кислоту по настоящему изобретению обеспечивает эффективное средство для модифицирования целевой ДНК или РНК (одно- или двухнитевой, линейной или сверхспирализированной). Комплекс нацеливания на нуклеиновую кислоту по настоящему изобретению обладает широкой применимостью, включая модифицирование (например, осуществление делеции, встраивания, транслокации, инактивации, активации) целевой ДНК или РНК во множестве типов клеток. Сам по себе комплекс нацеливния на нуклеиновую кислоту по настоящему изобретению имеет широкий спектр применений, например, в генной терапии, скрининге лекарственных средств, диагностике и прогнозировании заболеваний. Иллюстративный комплекс нацеливания на нуклеиновую кислоту содержит эффекторный белок для нацеливания на ДНК или РНК в комплексе с направляющей РНК, гибридизированной с целевой последовательностью в представляющем интерес целевом локусе.

В одном варианте осуществления настоящего изобретения предусмотрен способ расщепления целевой РНК. Способ может включать модифицирование целевой РНК с применением комплекса нацеливания на нуклеиновую кислоту, который связывается с целевой РНК и осуществляет расщепление указанной целевой РНК. В одном варианте осуществления комплекс нацеливания на нуклеиновую кислоту по настоящему изобретению при введении в клетку может образовывать разрыв (например, одно- или двухнитевой разрыв) в последовательности РНК. Например, способ можно применять для расщепления РНК, ответственной за развитие заболевания, в клетке. Например, в клетку может быть введена экзогенная РНК-матрица, содержащая последовательность, подлежащую интеграции, фланкированную последовательностью, расположенной выше, и последовательностью, расположенной ниже. Последовательности, расположенные выше и ниже, характеризуются сходством последовательности с каждой стороной сайта интеграции в РНК. При необходимости донорной РНК может быть мРНК. Экзогенная РНК-матрица содержит последовательность, подлежащую интеграции (например, мутированную РНК). Последовательность, предназначенная для интеграции, может представлять собой последовательность, эндогенную или экзогенную по отношению к клетке. Примеры последовательности, подлежащей интеграции, включают в себя РНК, кодирующую белок, или некодирующую РНК (например, microRNA). Таким образом, последовательность, предназначенная для интеграции, может быть функционально связанной с соответствующей регуляторной последовательностью или соответствующими регуляторными последовательностями. Альтернативно последовательность, подлежащая интеграции, может обеспечивать регуляторную функцию. Последовательности, расположенные выше и ниже в экзогенной РНК-матрице, выбирают таким образом, чтобы способствовать рекомбинации между последовательностью РНК, представляющей интерес, и донорной РНК. Последовательность, расположенная выше, представляет собой последовательность РНК, которая обладает сходством последовательности с последовательностью РНК, расположенной выше подвергаемого нацеливанию сайта интеграции. Аналогично, последовательность, расположенная ниже, представляет собой последовательность РНК, которая обладает сходством последовательности с последовательностью РНК, расположенной ниже подвергаемого нацеливанию сайта интеграции. Последовательности, расположенные выше и ниже в экзогенной РНК-матрице, могут характеризоваться 75%, 80%, 85%, 90%, 95% или 100% идентичностью последовательности с подвергаемой нацеливанию последовательностью РНК. Предпочтительно, последовательности, расположенные выше и ниже в экзогенной РНК-матрице, характеризуются приблизительно 95%, 96%, 97%, 98%, 99% или 100% идентичностью последовательности с подвергаемой нацеливанию последовательностью РНК. В некоторых способах последовательности, расположенные выше и ниже в экзогенной РНК-матрице, характеризуются приблизительно 99% или 100% идентичностью последовательности с подвергаемой нацеливанию последовательностью РНК. Последовательность, расположенная выше или ниже, может содержать от приблизительно 20 п. о. до приблизительно 2500 п. о., например приблизительно 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000, 2100, 2200, 2300, 2400 или 2500 п. о. В некоторых способах иллюстративная последовательность, расположенная выше или ниже, имеет от приблизительно 200 п. о. до приблизительно 2000 п. о., от приблизительно 600 п. о. до приблизительно 1000 п. о. или, более конкретно, от приблизительно 700 п. о. до приблизительно 1000 п. о. В некоторых способах экзогенная РНК-матрица может дополнительно содержать маркер. Такой маркер может облегчать скрининг в отношении подвергаемых нацеливанию интеграций. Примеры подходящих маркеров включают сайты рестрикции, флуоресцентные белки или селектируемые маркеры. Экзогенную РНК-матрицу по настоящему изобретению можно сконструировать с применением методик рекомбинации (см., например, Sambrook et al., 2001, и Ausubel et al., 1996). В способе модифицирования целевой РНК посредством интеграции экзогенной РНК-матрицы разрыв (например, двух- или однонитевой разрыв в двух- или однонитевой ДНК или РНК) вводится в последовательность ДНК или РНК с помощью комплекса нацеливания на нуклеиновую кислоту, при этом разрыв подвергается репарации с помощью гомологичной рекомбинации с экзогенной РНК-матрицей, так что матрица интегрируется в РНК-мишень. Наличие двухнитевого разрыва способствует интеграции матрицы. В других вариантах осуществления настоящего изобретения предусмотрен способ модифицирования экспрессии РНК в эукариотической клетке. Способ предусматривает повышение или снижение уровня экспрессии целевого полинуклеотида с помощью комплекса нацеливания на нуклеиновую кислоту, который связывается с ДНК или РНК (например, мРНК или pre-mRNA). В некоторых способах целевую РНК можно инактивировать для осуществления модификации экспрессии в клетке. Например, после связывания комплекса нацеливания на РНК с целевой последовательностью в клетке целевая РНК инактивируется, вследствие чего последовательность не транслируется, при этом не вырабатывается закодированный белок или последовательность не функционирует так, как последовательность дикого типа. Например, последовательность, кодирующая белок или микроРНК, может быть инактивирована, вследствие чего не образуется белок, или microRNA или транскрипт pre-microRNA. Целевой РНК для комплекса нацеливания на РНК может быть любая РНК, эндогенная или экзогенная по отношению к эукариотической клетке. Например, целевой РНК может быть РНК, находящаяся в ядре эукариотической клетки. Целевой РНК может быть последовательность (например, мРНК или pre-mRNA), кодирующая продукт гена (например, белок), или некодирующая последовательность (например, ncRNA, lncRNA, tRNA или rRNA). Примеры целевой РНК включают последовательность, ассоциированную с биохимическим путем передачи сигнала, например, РНК, ассоциированную с биохимическим путем передачи сигнала. Примеры целевой РНК включают ассоциированную с заболеванием РНК. "Ассоциированная с заболеванием" РНК обозначает любую РНК, которая обеспечивает продукты трансляции на аномальном уровне или в аномальной форме в клетках, происходящих из пораженных заболеванием тканей, по сравнению с тканями или клетками от контроля без заболевания. Это может быть РНК, транскрибированная с гена, который начинает экспрессироваться на аномально высоком уровне; это может быть РНК, транскрибированная с гена, который начинает экспрессироваться на аномально низком уровне, при этом измененная экспрессия коррелирует с появлением и/или прогрессированием заболевания. Ассоциированная с заболеванием РНК также обозначает РНК, транскрибированную с гена, несущего мутацию(мутации) или генетическое изменение, которое напрямую отвечает за этиологию заболевания или находится в неравновесном сцеплении с геном(генами), ответственным(ответственными) за это. Транслированные продукты могут быть известны или неизвестны и могут присутствовать на нормальном или аномальном уровне. Целевой РНК для комплекса нацеливания на РНК может быть любая РНК, эндогенная или экзогенная по отношению к эукариотической клетке. Например, целевой РНК может быть РНК, находящаяся в ядре эукариотической клетки. Целевой РНК может быть последовательность (например, мРНК или pre-mRNA), кодирующая продукт гена (например, белок), или некодирующая последовательность (например, ncRNA, lncRNA, tRNA или rRNA).

В некоторых вариантах осуществления способ может включать обеспечение связывания комплекса нацеливания на нуклеиновую кислоту с целевой ДНК или РНК для осуществления расщепления указанной целевой ДНК или РНК, за счет чего осуществляется модифицирование целевой ДНК или РНК, где комплекс нацеливания на нуклеиновую кислоту содержит эффекторный белок для нацеливания на нуклеиновую кислоту в комплексе с направляющей РНК, гибридизированной с целевой последовательностью в пределах указанной целевой ДНК или РНК. В одном аспекте настоящего изобретения предусмотрен способ модифицирования экспрессии ДНК или РНК в эукариотической клетке. В некоторых вариантах осуществления способ включает обеспечение связывания комплекса нацеливания на нуклеиновую кислоту с ДНК или РНК, так что указанное связывание приводит к повышенной или сниженной экспрессии указанной ДНК или РНК; где комплекс нацеливания на нуклеиновую кислоту содержит эффекторный белок для нацеливания на нуклеиновую кислоту в комплексе с направляющей РНК. Аналогичные соображения и условия распространяются на способы модифицирования целевой ДНК или РНК, изложенные выше. Фактически, эти варианты отбора образцов, культивирования и повторного введения охватываются аспектами настоящего изобретения. В одном аспекте настоящего изобретения предусмотрены способы модифицирования целевой ДНК или РНК в эукариотической клетке, которые могут осуществляться in vivo, ex vivo или in vitro. В некоторых вариантах осуществления способ включает отбор клетки или популяции клеток у человека или отличного от человека животного и модификацию клетки или клеток. Культивирование можно осуществлять на любой стадии ex vivo. Клетку или клетки можно даже повторно вводить отличному от человека животному или в растение. Что касается повторно вводимых клеток, особенно предпочтительно, чтобы эти клетки являлись стволовыми клетками.

Действительно, в любом аспекте настоящего изобретения комплекс нацеливания на нуклеиновую кислоту может содержать эффекторный белок для нацеливания на нуклеиновую кислоту в комплексе с направляющей РНК, гибридизированной с целевой последовательностью.

Настоящее изобретение относится к конструированию и оптимизации систем, способов и композиций, применяемых для контроля экспрессии гена, предусматривающих нацеливание на последовательность ДНК или РНК, которые связаны с системой нацеливания на нуклеиновую кислоту и ее компонентами. В преимущественных вариантах осуществления эффекторный фермент представляет собой белок V типа/VI типа, такой как Cpf1/C2c1/C2c2. Преимущество способов по настоящему изобретению заключается в том, что система CRISPR сводит к минимуму или исключает нецелевое связывание и возникающие в результате этого побочные эффекты. Это достигается за счет использования систем, устроенных так, чтобы характеризоваться высокой степенью специфичности к последовательности целевой ДНК или РНК.

Что касается комплекса или системы нацеливания на нуклеиновую кислоту, предпочтительно, чтобы последовательность crRNA имела одну или несколько "петель-на-стебле" или шпилек, и ее длина составляла 30 или более нуклеотидов, 40 или более нуклеотидов или 50 или более нуклеотидов; при этом длина последовательность crRNA составляет от 10 до 30 нуклеотидов, а эффекторный белок для нацеливания на нуклеиновую кислоту представляет собой фермент Cas V типа/VI типа. В определенных вариантах осуществления длина последовательности crRNA составляет от 42 до 44 нуклеотида, а белок Cas для нацеливания на нуклеиновую кислоту представляет собой Cpf1 из Francisella tularensis subsp.novocida U112. В определенных вариантах осуществления crRNA содержит, состоит, по сути, из или состоит из 19 нуклеотидов прямого повтора и от 23 до 25 нуклеотидов спейсерной последовательности, а белок Cas для нацеливания на нуклеиновую кислоту представляет собой Cpf1 из Francisella tularensis subsp.novocida U112.

Применение двух различных аптамеров (каждый из которых ассоциирован с отдельной направляющей РНК для нацеливания на нуклеиновую кислоту) обеспечивает возможность применения продукта слияния активатор-адаптерный белок и продукта слияния репрессор-адаптерный белок с различными направляющими РНК для нацеливания на нуклеиновую кислоту, чтобы активировать экспрессию одной ДНК или РНК, в то же время подвергая репрессии другую. Их, вместе с их различными направляющими РНК, можно вводить вместе или практически вместе при подходе мультиплексирования. Одновременно можно применять множество таких модифицированных направляющих РНК для нацеливания на нуклеиновую кислоту, например, 10, или 20, или 30 и т. д., при этом необходимо доставить только одну (или по меньшей мере минимальное количество) молекулу эффекторного белка, поскольку сравнительно небольшое количество молекул эффекторного белка можно применять с большим количеством модифицированных направляющих. Адаптерный белок может быть ассоциирован (предпочтительно связан или слит) с одним или несколькими активаторами или одним или несколькими репрессорами. Например, адаптерный белок может быть ассоциирован с первым активатором и вторым активатором. Первый и второй активаторы могут быть одинаковыми, но предпочтительно они являются различными активаторами. Можно применять три или более или даже четыре или более активаторов (или репрессоров), но размер упаковки может служить ограничением, так что количество не превышает 5 различных функциональных доменов. Предпочтительно применяются линкеры, а не прямое слияние с адаптерным белком, при этом с адаптерным белком ассоциированы два или более функциональных домена. Подходящие линкеры могут включать линкер GlySer.

Также предусмотрено, что комплекс эффекторный белок для нацеливания на нуклеиновую кислоту-направляющая РНК в целом может быть ассоциирован с двумя или более функциональными доменами. Например, два или более функциональных доменов могут быть ассоциированы с эффекторным белком для нацеливания на нуклеиновую кислоту, или два или более функциональных доменов могут быть ассоциированы с направляющей РНК (с помощью одного или нескольких адаптерных белков), или один или несколько функциональных доменов могут быть ассоциированы с эффекторным белком для нацеливания на нуклеиновую кислоту и один или несколько функциональный доменов могут быть ассоциированы с направляющей РНК (с помощью одного или нескольких адаптерных белков).

Продукт слияния между адаптерным белком и активатором или репрессором может включать линкер. Например, можно применять линкеры GlySer, GGGS (SEQ ID NO: 18). Их можно применять в виде повторов по 3 ((GGGGS)₃(SEQ ID NO: 19)) или 6 (SEQ ID NO: 20), 9 (SEQ ID NO: 21) или даже 12 (SEQ ID NO: 22) или более для обеспечения подходящей длины, в случае необходимости. Линкеры можно применять между направляющими РНК и функциональным доменом (активатором или репрессором) или между белком Cas для нацеливания на нуклеиновую кислоту(Cas) и функциональным доменом (активатором или репрессором). Линкеры применяют для конструирования молекулы с достаточной степенью "механической гибкости".

Настоящее изобретение охватывает комплекс нацеливания на нуклеиновую кислоту, содержащий эффекторный белок для нацеливания на нуклеиновую кислоту и направляющую РНК, где эффекторный белок для нацеливания на нуклеиновую кислоту содержит по меньшей мере одну мутацию, вследствие чего эффекторный белок для нацеливания на нуклеиновую кислоту характеризуется не более чем 5% активности эффекторного белка для нацеливания на нуклеиновую кислоту, не имеющего по меньшей мере одной мутации и необязательно по меньшей мере одной или нескольких последовательностей ядерной локализации; направляющая РНК предусматривает направляющую последовательность, способную к гибридизации с целевой последовательностью представляющей интерес РНК в клетке; и где эффекторный белок для нацеливания на нуклеиновую кислоту ассоциирован с двумя или более функциональными доменами; или по меньшей мере одна петля направляющей РНК модифицирована путем вставки отличающейся(отличающихся) последовательности(последовательностей) РНК, которая(которые) связывается(связываются) с одним или несколькими адаптерными белками, и где адаптерный белок ассоциирован с двумя или более функциональными доменами; или белок Cas для нацеливания на нуклеиновую кислоту ассоциирован с одним или несколькими функциональными доменами, и по меньшей мере одна петля направляющей РНК модифицирована путем вставки отличающейся(отличающихся) последовательности(последовательностей) РНК, которая(которые) связывается(связываются) с одним или несколькими адаптерными белками, и где адаптерный белок ассоциирован с одним или несколькими функциональными доменами.

В одном аспекте настоящего изобретения предусмотрен способ получения модельной эукариотической клетки, содержащей мутированный ген, ответственный за развитие заболевания. В некоторых вариантах осуществления ген, ответственный за развитие заболевания, представляет собой любой ген, ассоциированный с повышением риска наличия или развития заболевания. В некоторых вариантах осуществления способ включает (a) введение одного или нескольких векторов в эукариотическую клетку, где один или несколько векторов управляют экспрессией одного или нескольких из: фермента Cpf1 и защищенной направляющей РНК, предусматривающей направляющую последовательность, связанную с последовательностью прямого повтора; и (b) обеспечение связывания комплекса CRISPR с целевым полинуклеотидом для осуществления расщепления целевого полинуклеотида в пределах указанного гена, ответственного за развитие заболевания, где комплекс CRISPR содержит фермент Cpf1 в комплексe с направляющей РНК, предусматривающей последовательность, которая гибридизируется с целевой последовательностью в пределах целевого полинуклеотида, с получением тем самым модельной эукариотической клетки, содержащей мутированный ген, ответственный за развитие заболевания. В некоторых вариантах осуществления указанное расщепление предусматривает расщепление одной или двух нитей в определенном положении целевой последовательности с помощью указанного фермента Cpf1. В некоторых вариантах осуществления указанное расщепление приводит к сниженной транскрипции целевого гена. В некоторых вариантах осуществления способ дополнительно включает репарацию указанного расщепленного целевого полинуклеотида с помощью механизмов генной вставки на основе негомологичного соединения концов (NHEJ) с применением экзогенной полинуклеотидной матрицы, где указанная репарация приводит к мутации, предусматривающей вставку, делецию или замену одного или нескольких нуклеотидов в указанном целевом полинуклеотиде. В некоторых вариантах осуществления указанная мутация приводит к изменению одной или нескольких аминокислот при экспрессии белка с гена, содержащего целевую последовательность.

В одном аспекте настоящего изобретения предусмотрены способы, обсуждаемые в данном документе, где хозяином является эукариотическая клетка. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, где хозяином является клетка млекопитающего. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, где хозяином является клетка эукариотического организма, отличного от человека. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, где клеткой эукариотического организма, отличного от человека, является клетка млекопитающего, отличного от человека. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, где клетка млекопитающего, отличного от человека, может представлять собой, включая без ограничения клетку представителя приматов, бычьих, овечьих, свиньих, псовых, грызунов, Leporidae, как, например, обезьяны, коровы, овцы, свиньи, собаки, кролика, крысы или мыши. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, причем клетка может представлять собой эукариотическую клетку от организма, отличного от млекопитающего, как, например, клетку домашней птицы (например, курицы), позвоночной рыбы (например, лосося) или моллюсков и ракообразных (например, устрицы, двустворчатых моллюсков, омара, креветки). В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, причем клеткой эукариотического организма, отличного от человека, является растительная клетка. Растительная клетка может быть получена от однодольного или двудольного растения, или от сельскохозяйственного или зернового растения, такого как маниока, кукуруза, сорго, соя, пшеница, овес или рис. Растительная клетка также может быть получена от водоросли, дерева или продуктивного растения, фрукта или овоща (например, деревьев, таких как цитрусовые деревья, например, деревья апельсина, грейпфрута или лимона; деревья персика или нектарина; деревья яблони или груши; орехоплодные деревья, такие как деревья миндаля, или грецкого ореха, или фисташки; пасленовых растений; растений из рода Brassica; растений из рода Lactuca; растений из рода Spinacia; растений из рода Capsicum; хлопчатника, табака, спаржи, моркови, капусты кочанной, брокколи, цветной капусты, томата, баклажана, перца, салата, шпината, земляники, черники, малины, ежевики, винограда, кофе, какао и т.д.).

В одном аспекте настоящего изобретения предусмотрен способ разработки биологически активного средства, которое модулирует событие передачи сигнала в клетке, ассоциированное с геном, ответственным за развитие заболевания. В некоторых вариантах осуществления ген, ответственный за развитие заболевания, представляет собой любой ген, ассоциированный с повышением риска наличия или развития заболевания. В некоторых вариантах осуществления способ включает (a) приведение тестируемого соединения в контакт с модельной клеткой по любому из описанных выше вариантов осуществления; и (b) обнаружение изменения считываемого показания, что указывает на снижение или возрастание события передачи сигнала в клетке, ассоциированного с указанной мутацией в указанном гене, ответственном за развитие заболевания, с получением тем самым указанного биологически активного средства, которое модулирует указанное событие передачи сигнала в клетке, ассоциированное с указанным геном, ответственным за развитие заболевания.

В одном аспекте настоящего изобретения предусмотрен способ отбора клетки или нескольких клеток путем введения одной или нескольких мутаций в ген в одной или нескольких клетках, причем способ включает введение одного или нескольких векторов в клетку(клетки), где один или несколько векторов управляют экспрессией одного или нескольких из Cpf1, направляющей последовательности, связанной с последовательностью прямого повтора, и матрицы редактирования; где матрица редактирования содержит одну или несколько мутаций, которые прекращают расщепление Cpf1; обеспечение гомологичной рекомбинации матрицы редактирования с целевым полинуклеотидом в клетке(клетках), подлежащей(подлежащих) отбору; обеспечение связывания комплекса CRISPR-Cas на основе Cpf1 с целевым полинуклеотидом для осуществления расщепления целевого полинуклеотида в пределах указанного гена, где комплекс CRISPR-Cas на основе Cpf1 содержит Cpf1 в комплексе с (1) направляющей последовательностью, которая гибридизируется с целевой последовательностью в пределах целевого полинуклеотида, и (2) последовательностью прямого повтора, где связывание комплекса CRISPR-Cas на основе Cpf1 с целевым полинуклеотидом индуцирует гибель клетки, тем самым обеспечивая возможность отбора одной или нескольких клеток, в которые были введены одна или несколько мутаций; при этом предусматривается split-Cpf1 по настоящему изобретению. В другом предпочтительном варианте настоящего изобретения клетка, подлежащая отбору, может представлять собой эукариотическую клетку. Аспекты настоящего изобретения предусматривают отбор специфических клеток без необходимости наличия маркера отбора или двухстадийного способа, который может включать систему негативного отбора. В конкретных вариантах осуществления модельная эукариотическая клетка содержится в модельном эукариотическом организме.

В одном аспекте настоящего изобретения предусмотрен рекомбинантный полинуклеотид, содержащий направляющую последовательность ниже последовательности прямого повтора, где направляющая последовательность при экспрессии управляет специфичным к последовательности связыванием комплекса CRISPR-Cas на основе Cpf1 с соответствующей целевой последовательностью, присутствующей в эукариотической клетке. В некоторых вариантах осуществления целевой последовательностью является вирусная последовательность, присутствующая в эукариотической клетке. В некоторых вариантах осуществления целевая последовательность представляет собой протоонкоген или онкоген.

В одном аспекте настоящего изобретения предусмотрена векторная система или эукариотическая клетка-хозяин, содержащие (a) первый регуляторный элемент, функционально связанный с последовательностью прямого повтора и одним или несколькими сайтами встраивания для встраивания одной или нескольких направляющих последовательностей (включая любые из модифицированных направляющих последовательностей, описываемых в данном документе) ниже последовательности DR, где при экспрессии направляющая последовательность управляет специфичным к последовательности связыванием комплекса CRISPR-Cas на основе Cpf1 с целевой последовательностью в эукариотической клетке, где комплекс CRISPR-Cas на основе Cpf1 содержит Cpf1 (включая любой из модифицированных ферментов, описываемых в данном документе) в комплексе с направляющей последовательностью, которая гибридизируется с целевой последовательностью (и необязательно последовательностью DR); и/или (b) второй регуляторный элемент, функционально связанный с фермент-кодирующей последовательностью, которая кодирует указанный фермент Cpf1, содержащий последовательность ядерной локализации и/или NES. В некоторых вариантах осуществления клетка-хозяин содержит компоненты (a) и (b). В некоторых вариантах осуществления компонент (a), компонент (b) или компоненты (a) и (b) стабильно интегрированы в геном эукариотической клетки-хозяина. В некоторых вариантах осуществления компонент (a) дополнительно содержит две или более направляющих последовательностей, функционально связанных с первым регуляторным элементом, где при экспрессии каждая из двух или более направляющих последовательностей управляет специфичным к последовательности связыванием комплекса CRISPR-Cas на основе Cpf1 со своей целевой последовательностью в эукариотической клетке. . В некоторых вариантах осуществления фермент CRISPR содержит одну или несколько последовательностей ядерной локализации и/или последовательностей ядерного экспорта или NES, характеризующихся достаточной эффективностью, чтобы управлять накоплением указанного фермента CRISPR в обнаруживаемом количестве в ядре эукариотической клетки и/или за его пределами. В некоторых вариантах осуществления фермент Cpf1 получен из Cpf1 Francisella tularensis 1, Francisella tularensis subsp. novicida, Prevotella albensis, Lachnospiraceae bacterium MC2017 1, Butyrivibrio proteoclasticus, Peregrinibacteria bacterium GW2011_GWA2_33_10, Parcubacteria bacterium GW2011_GWC2_44_17, Smithella sp. SCADC, Acidaminococcus sp. BV3L6, Lachnospiraceae bacterium MA2020, Candidatus Methanoplasma termitum, Eubacterium eligens, Moraxella bovoculi 237, Leptospira inadai, Lachnospiraceae bacterium ND2006, Porphyromonas crevioricanis 3, Prevotella disiens или Porphyromonas macacae, включая любые модифицированные ферменты, описываемые в данном документе, и он может включать дополнительное изменение или мутацию Cpf1 и может представлять собой химерный Cpf1. . В некоторых вариантах осуществления фермент CRISPR кодон-оптимизирован для экспрессии в эукариотической клетке. В некоторых вариантах осуществления фермент CRISPR управляет расщеплением одной или двух нитей в определенном положении целевой последовательности. В предпочтительном варианте осуществления разрыв нити представляет собой ступенчатый разрез с "липким" 5'-концом. В некоторых вариантах осуществления Cpf1 не обладает активностью расщепления нити ДНК (например, характеризуется не более чем 5% нуклеазной активности по сравнению с ферментом дикого типа или ферментом без мутации или изменения, которые снижают нуклеазную активность). В некоторых вариантах осуществления первый регуляторный элемент является промотором полимеразы III. В некоторых вариантах осуществления второй регуляторный элемент является промотором полимеразы II. В некоторых вариантах осуществления минимальная длина прямого повтора составляет 16 нуклеотидов, и он содержит одну "петлю-на-стебле". В дополнительных вариантах осуществления длина прямого повтора составляет более 16 нуклеотидов, предпочтительно более 17 нуклеотидов, и он содержит более одной "петли-на-стебле" или оптимизированных вторичных структур. В некоторых вариантах осуществления длина направляющей последовательности составляет по меньшей мере 16, 17, 18, 19, 20, 25 нуклеотидов, или 16-30, или 16-25, или 16-20 нуклеотидов.

Модифицированные ферменты Cpf1

С помощью компьютерного анализа первичной структуры нуклеаз Cpf1 выявили три отличающихся участка (фигура 1). Первый, C-концевой RuvC-подобный домен, который является единственным охарактеризованным функциональным доменом. Второй, N-концевой альфа-спиральный участок, и третий, участок со смешанной альфа- и бета-структурой, расположенный между RuvC-подобным доменом и альфа-спиральным участком.

Несколько небольших отрезков из неструктурированных участков прогнозируются в первичной структуре Cpf1. Неструктурированные участки, которые подвергаются воздействию растворителя и не являются консервативными в пределах разных ортологов Cpf1, представляют собой предпочтительные стороны для разделений и вставок небольших белковых последовательностей (фигура 2 и 3). Кроме того, эти стороны можно использовать для создания химерных белков между ортологами Cpf1.

На основании приведенной выше информации можно получать мутантов, что подразумевает инактивацию фермента или которые модифицируют нуклеазу, обеспечивающую двухнитевой разрыв, придавая ей активность никазы. В альтернативных вариантах осуществления данную информацию применяют для разработки ферментов со сниженными нецелевыми эффектами (описаны в других разделах данного документа).

В случае определенных описанных выше ферментов Cpf1 фермент является модифицированным с помощью мутации одного или нескольких остатков, включая без ограничения положения D917, E1006, E1028, D1227, D1255A, N1257 согласно положениям в белке FnCpf1 или любом соответствующем ортологе. В одном аспекте настоящего изобретения предусмотрена обсуждаемая в данном документе композиция, где фермент Cpf1 является инактивированным ферментом, который содержит одну или несколько мутаций, выбранных из группы, состоящей из D917A, E1006A, E1028A, D1227A, D1255A, N1257A, D917A, E1006A, E1028A, D1227A, D1255A и N1257A согласно положениям в белке FnCpf1 или соответствующим положениям в ортологе Cpf1. В одном аспекте настоящего изобретения предусмотрена обсуждаемая в данном документе композиция, где фермент CRISPR содержит D917, или E1006 и D917, или D917 и D1255 согласно положениям в белке FnCpf1 или соответствующим положениям в ортологе Cpf1.

В случае определенных описанных выше ферментов Cpf1 фермент модифицируют с помощью мутации одного или нескольких остатков (в домене RuvC), включая без ограничения положения R909, R912, R930, R947, K949, R951, R955, K965, K968, K1000, K1002, R1003, K1009, K1017, K1022, K1029, K1035, K1054, K1072, K1086, R1094, K1095, K1109, K1118, K1142, K1150, K1158, K1159, R1220, R1226, R1242, и/или R1252 в соответствии с нумерацией аминокислотных положений AsCpf1 (Acidaminococcus sp. BV3L6).

В случае определенных описанных выше не встречающихся в природе ферментов CRISPR фермент модифицируют с помощью мутации одного или нескольких остатков (в домене RAD50), включая без ограничения положения K324, K335, K337, R331, K369, K370, R386, R392, R393, K400, K404, K406, K408, K414, K429, K436, K438, K459, K460, K464, R670, K675, R681, K686, K689, R699, K705, R725, K729, K739, K748 и/или K752 в соответствии с нумерацией аминокислотных положений AsCpf1 (Acidaminococcus sp. BV3L6).

В случае определенных ферментов Cpf1 фермент модифицируют с помощью мутации одного или нескольких остатков, включая без ограничения положения R912, T923, R947, K949, R951, R955, K965, K968, K1000, R1003, K1009, K1017, K1022, K1029, K1072, K1086, F1103, R1226, и/или R1252 в соответствии с нумерацией аминокислотных положений AsCpf1 (Acidaminococcus sp. BV3L6).

В определенных вариантах осуществления фермент Cpf1 модифицируют с помощью мутации одного или нескольких остатков, включая без ограничения положения R833, R836, K847, K879, K881, R883, R887, K897, K900, K932, R935, K940, K948, K953, K960, K984, K1003, K1017, R1033, R1138, R1165, и/или R1252 в соответствии с нумерацией аминокислотных положений LbCpf1 (Lachnospiraceae bacterium ND2006).

В определенных вариантах осуществления фермент Cpf1 модифицируют с помощью мутации одного или нескольких остатков, включая без ограничения положения K15, R18, K26, Q34, R43, K48, K51, R56, R84, K85, K87, N93, R103, N104, T118, K123, K134, R176, K177, R192, K200, K226, K273, K275, T291, R301, K307, K369, S404, V409, K414, K436, K438, K468, D482, K516, R518, K524, K530, K532, K548, K559, K570, R574, K592, D596, K603, K607, K613, C647, R681, K686, H720, K739, K748, K757, T766, K780, R790, P791, K796, K809, K815, T816, K860, R862, R863, K868, K897, R909, R912, T923, R947, K949, R951, R955, K965, K968, K1000, R1003, K1009, K1017, K1022, K1029, A1053, K1072, K1086, F1103, S1209, R1226, R1252, K1273, K1282, и/или K1288 в соответствии с нумерацией аминокислотных положений AsCpf1 (Acidaminococcus sp. BV3L6).

В определенных вариантах осуществления фермент модифицируют с помощью мутации одного или нескольких остатков, включая без ограничения положения K15, R18, K26, R34, R43, K48, K51, K56, K87, K88, D90, K96, K106, K107, K120, Q125, K143, R186, K187, R202, K210, K235, K296, K298, K314, K320, K326, K397, K444, K449, E454, A483, E491, K527, K541, K581, R583, K589, K595, K597, K613, K624, K635, K639, K656, K660, K667, K671, K677, K719, K725, K730, K763, K782, K791, R800, K809, K823, R833, K834, K839, K852, K858, K859, K869, K871, R872, K877, K905, R918, R921, K932, I960, K962, R964, R968, K978, K981, K1013, R1016, K1021, K1029, K1034, K1041, K1065, K1084, и/или K1098 в соответствии с нумерацией аминокислотных положений FnCpf1 (Francisella novicida U112).

В определенных вариантах осуществления фермент модифицируют с помощью мутации одного или нескольких остатков, включая без ограничения положения K15, R18, K26, K34, R43, K48, K51, R56, K83, K84, R86, K92, R102, K103, K116, K121, R158, E159, R174, R182, K206, K251, K253, K269, K271, K278, P342, K380, R385, K390, K415, K421, K457, K471, A506, R508, K514, K520, K522, K538, Y548, K560, K564, K580, K584, K591, K595, K601, K634, K640, R645, K679, K689, K707, T716, K725, R737, R747, R748, K753, K768, K774, K775, K785, K787, R788, Q793, K821, R833, R836, K847, K879, K881, R883, R887, K897, K900, K932, R935, K940, K948, K953, K960, K984, K1003, K1017, R1033, K1121, R1138, R1165, K1190, K1199, и/или K1208 в соответствии с нумерацией аминокислотных положений LbCpf1 (Lachnospiraceae bacterium ND2006).

В определенных вариантах осуществления фермент модифицируют с помощью мутации одного или нескольких остатков, включая без ограничения положения K14, R17, R25, K33, M42, Q47, K50, D55, K85, N86, K88, K94, R104, K105, K118, K123, K131, R174, K175, R190, R198, I221, K267, Q269, K285, K291, K297, K357, K403, K409, K414, K448, K460, K501, K515, K550, R552, K558, K564, K566, K582, K593, K604, K608, K623, K627, K633, K637, E643, K780, Y787, K792, K830, Q846, K858, K867, K876, K890, R900, K901, M906, K921, K927, K928, K937, K939, R940, K945, Q975, R987, R990, K1001, R1034, I1036, R1038, R1042, K1052, K1055, K1087, R1090, K1095, N1103, K1108, K1115, K1139, K1158, R1172, K1188, K1276, R1293, A1319, K1340, K1349, и/или K1356 в соответствии с нумерацией аминокислотных положений MbCpf1 (Moraxella bovoculi 237).

Деактивированный/инактивированный белок Cpf1

Если белок Cpf1 характеризуется нуклеазной активностью, белок Cpf1 можно модифицировать, чтобы он характеризовался сниженной нуклеазной активностью, например, инактивация нуклеазы составляет по меньшей мере 70%, по меньшей мере 80%, по меньшей мере 90%, по меньшей мере 95%, по меньшей мере 97%, или 100% относительно фермента дикого типа; или, иными словами, фермент Cpf1 характеризуется преимущественно приблизительно 0% нуклеазной активностью относительно немутированного фермента Cpf1 или фермента дикого типа, или фермента CRISPR, или не более приблизительно 3%, или приблизительно 5%, или приблизительно 10% нуклеазной активностью относительно немутированного фермента Cpf1 или фермента дикого типа, например, немутированного фермента Cpf1 или фермента Cpf1 или ферментов дикого типа из Francisella novicida U112 (FnCpf1), Acidaminococcus sp. BV3L6 (AsCpf1), Lachnospiraceae bacterium ND2006 (LbCpf1) или Moraxella bovoculi 237 (фермент MbCpf1 Cpf1 или фермент CRISPR). Это возможно путем введения мутаций в нуклеазные домены Cpf1 и его ортологов.

Более конкретно, инактивированные ферменты Cpf1 включают ферменты, мутированные по аминокислотным положениям As908, As993, As1263 из AsCpf1 или соответствующим положениям в ортологах Cpf1. В дополнение, инактивированные ферменты Cpf1 включают ферменты, мутированные по аминокислотному положению Lb832, 925, 947 или 1180 из LbCpf1 или соответствующим положениям в ортологах Cpf1. Более конкретно, инактивированные ферменты Cpf1 включают ферменты, содержащие одну или несколько мутаций AsD908A, AsE993A, AsD1263A из AsCpf1 или соответствующие мутации в ортологах Cpf1. В дополнение, инактивированные ферменты Cpf1 включают ферменты, содержащие одну или несколько мутаций LbD832A, E925A, D947A или D1180A из LbCpf1 или соответствующие мутации в ортологах Cpf1.

Инактивированный фермент Cpf1 CRISPR может быть ассоциирован (например, посредством образования слитого белка) с одним или несколькими функциональными доменами, в том числе, например, с одним или несколькими доменами из группы, содержащей, состоящей, по сути, из или состоящей из доменов с метилазной активностью, деметилазной активностью, активностью в отношении активации транскрипции, активностью в отношении репрессии транскрипции, активностью фактора освобождения транскрипта, активностью в отношении модификации гистонов, активностью расщепления РНК, активностью расщепления ДНК, активностью связывания нуклеиновой кислоты и молекулярных переключателей (например, индуцируемых светом). Предпочтительными доменами являются Fok1, VP64, P65, HSF1, MyoD1. В случае, когда предусматривается Fok1, преимущественно, чтобы предусматривались множественные функциональные домены Fok1 для обеспечения функционального димера, и чтобы разрабатывались gRNA, обеспечивающие надлежащее расстояние для функционального применения (Fok1), как конкретно описано в Tsai et al. Nature Biotechnology, Vol. 32, Number 6, June 2014). В адаптерном белке можно использовать известные линкеры для прикрепления таких функциональных доменов. В некоторых случаях преимущественным является дополнительное обеспечение по меньшей мере одного NLS. В некоторых случаях предпочтительно положение NLS на N-конце. При включении более чем одного функционального домена функциональные домены могут быть одинаковыми или разными.

В целом, размещение одного или нескольких функциональных доменом в инактивированном ферменте Cpf1 обеспечивает корректную пространственную ориентацию функционального домена для воздействия на мишень с присущим функциональным эффектом. Например, если функциональный домен представляет собой активатор транскрипции (например, VP64 или p65), то активатор транскрипции размещается в пространственной ориентации, которая позволяет ему влиять на транскрипцию мишени. Подобным образом, репрессор транскрипции будет размещаться преимущественно, чтобы воздействовать на транскрипцию мишени, а нуклеаза (например, Fok1) будет размещаться преимущественно для расщепления или частичного расщепления мишени. Могут быть предусмотрены положения, отличные от N-/C-конца фермента CRISPR.

Дестабилизированный Cpf1

В определенных вариантах осуществления эффекторный белок (фермент CRISPR; Cpf1) в соответствии с настоящим изобретением, как описано в данном документе, ассоциирован с доменом дестабилизации (DD) или слит с ним. В некоторых вариантах осуществления DD представляет собой ER50. Соответствующий стабилизирующий лиганд для такого DD в некоторых вариантах осуществления представляет собой 4HT. Таким образом, в некоторых вариантах осуществления один из по меньшей мере одного DD представляет собой ER50, а стабилизирующий лиганд для него представляет собой 4HT или CMP8. В некоторых вариантах осуществления DD представляет собой DHFR50. Соответствующий стабилизирующий лиганд для такого DD в некоторых вариантах осуществления представляет собой TMP. Таким образом, в некоторых вариантах осуществления один из по меньшей мере одного DD представляет собой DHFR50, а стабилизирующий лиганд для него представляет собой TMP. В некоторых вариантах осуществления DD представляет собой ER50. Соответствующий стабилизирующий лиганд для такого DD в некоторых вариантах осуществления представляет собой CMP8. Следовательно, CMP8 может быть стабилизирующим лигандом, являющимся альтернативой 4HT в системе ER50. Хотя возможно, чтобы CMP8 и 4HT могли/должны были применяться конкурентным образом, некоторые типы клеток могут быть более восприимчивыми к одному или другому из этих двух лигандов, и на основании настоящего раскрытия и информации из уровня техники специалист сможет применять CMP8 и/или 4HT.

В некоторых вариантах осуществления один или два DD могут быть слиты с N-концом фермента CRISPR, и один или два DD слиты с C-концом фермента CRISPR. В некоторых вариантах осуществления с ферментом CRISPR ассоциированы по меньшей мере два DD, и при этом DD являются одинаковыми DD, т. е. DD являются гомологичными. Таким образом, оба (или два или более) из DD могут быть DD ER50. Это является предпочтительным в некоторых вариантах осуществления. Альтернативно, оба (или два или более) из DD могут быть DD DHFR50. Это также является предпочтительным в некоторых вариантах осуществления. В некоторых вариантах осуществления с ферментом CRISPR ассоциированы по меньшей мере два DD, и при этом DD являются разными DD, т. е. DD являются гетерологичными. Таким образом, один из DD может представлять собой ER50, тогда как один или несколько из DD или любых других DD могут представлять собой DHFR50. Наличие двух или более DD, которые являются гетерологичными, может быть предпочтительным, поскольку может обеспечивать больший уровень контроля разрушения. Тандемное слияние более чем одного DD на N- или C-конце может усиливать разрушение; и такое тандемное слияние может представлять собой, например, ER50-ER50-C2c2 или DHFR-DHFR-Cpf1. Предусматривается, что высокие уровни разрушения будут наблюдаться в отсутствие обоих стабилизирующих лигандов, промежуточные уровни разложения могут наблюдаться в отсутствие одного стабилизирующего лиганда и в присутствии другого (или иного) стабилизирующего лиганда, тогда как низкие уровни разрушения могут наблюдаться в присутствии обоих (или двух или более) стабилизирующих лигандов. Контроль также может быть обеспечен наличием N-концевого DD ER50 и C-концевого DD DHFR50.

В некоторых вариантах осуществления продукт слияния фермента CRISPR с DD содержит линкер между DD и ферментом CRISPR. В некоторых вариантах осуществления линкер представляет собой линкер GlySer. В некоторых вариантах осуществления фермент DD-CRISPR дополнительно содержит по меньшей мере один сигнал ядерного экспорта (NES). В некоторых вариантах осуществления фермент DD-CRISPR содержит два или более NES. В некоторых вариантах осуществления фермент DD-CRISPR содержит по меньшей мере один сигнал ядерной локализации (NLS). Он может присутствовать наряду с NES. В некоторых вариантах осуществления фермент CRISPR содержит, или состоит, по сути, из, или состоит из сигнала локализации (ядерного импорта или экспорта), в виде линкера между ферментом CRISPR и DD или его части. Метки HA или Flag также охватываются настоящим изобретением в качестве линкеров. Заявители применяют NLS и/или NES в качестве линкера, а также применяют глицин-сериновые линкеры как короткие GS до (GGGGS)₃.

Дестабилизирующие домены являются универсальными для придания нестабильности широкому диапазону белков; см., например, Miyazaki, J Am Chem Soc. Mar 7, 2012; 134(9): 3942-3945, включенный в данный документ посредством ссылки. CMP8 или 4-гидрокситамоксифен могут представлять собой дестабилизирующие домены. В более широком смысле, термочувствительный мутант DHFR млекопитающих (DHFRts), дестабилизирующий остаток по правилу N-конца, как оказалось, стабилен при пермиссивной температуре, но нестабилен при 37°C. Добавление метотрексата, высокоаффинного лиганда для DHFR млекопитающих, к клеткам, экспрессирующим DHFRts, частично ингибировало разрушение белка. Это было важным доказательством того, что низкомолекулярный лиганд может стабилизировать белок, в ином случае предназначенный для разрушения в клетках. Производное рапамицина применяли для стабилизации нестабильного мутанта домена FRB в mTOR (FRB*) и восстановления функция слитой киназы, GSK-3β.6,7. Эта система продемонстрировала, что зависимая от лиганда стабильность является привлекательной стратегией для регуляции функции специфического белка в сложной биологической среде. Система для контроля активности белка может включать DD, становящийся функциональным при возникновении комплементации убиквитина с помощью индуцированной рапамицином димеризации белка, связывающего FK506, и FKBP12. Можно сконструировать мутантов FKBP12 человека или белка ecDHFR, которые будут метаболически нестабильны в отсутствии их высокоаффинных лигандов, Shield-1 или триметоприма (TMP) соответственно. Эти мутанты представляют собой некоторые из возможных дестабилизирующих доменов (DD), применимых при осуществлении настоящего изобретения на практике, и нестабильность DD в виде слияния с ферментом CRISPR обеспечивает разрушение белка CRISPR в виде полного слитого белка под действием протеасомы. Shield-1 и TMP связывают и стабилизируют DD дозозависимым образом. Домен связывания лиганда эстрогенового рецептора (ERLBD, остатки 305-549 в ERS1) также может быть сконструирован как дестабилизирующий домен. Поскольку сигнальный путь эстрогенового рецептора вовлечен в ряд заболеваний, таких как рак молочной железы, этот путь был широко изучен, и были разработаны многочисленные агонисты и антагонисты эстрогенового рецептора. Таким образом, известны совместимые пары ERLBD и лекарственных средств. Существуют лиганды, которые связываются с мутантой формой, а не формой дикой типа ERLBD. Путем применения одного из этих мутантных доменов, кодирующих три мутации (L384M, M421G, G521R)12, возможно регулировать стабильность DD, происходящего из ERLBD, с применением лиганда, который не нарушает эндогенные сети, чувствительные к эстрогену. Дополнительная мутация (Y537S) может быть введена для дополнительной дестабилизации ERLBD и для конфигурации его в качестве потенциального кандидата DD. Такой тетра-мутант является предпочтительной разработкой DD. Мутант ERLBD может быть слит с ферментом CRISPR, и его стабильность можно регулировать или нарушать с применением лиганда, при условии что фермент CRISPR имеет DD. Другим DD может быть метка размером 12 кДа (107 аминокислот) на основе мутированного белка FKBP, стабилизируемого лигандом Shield1; см., например, Nature Methods 5, (2008). Например, DD может представлять собой модифицированный связывающий FK506 белок 12 (FKBP12), который связывается и обратимо стабилизируется синтетической биологически инертной малой молекулой Shield-1; см., например, Banaszynski LA, Chen LC, Maynard-Smith LA, Ooi AG, Wandless TJ. A rapid, reversible, and tunable method to regulate protein function in living cells using synthetic small molecules. Cell. 2006;126:995-1004; Banaszynski LA, Sellmyer MA, Contag CH, Wandless TJ, Thorne SH. Chemical control of protein stability and function in living mice. Nat Med. 2008;14:1123-1127; Maynard-Smith LA, Chen LC, Banaszynski LA, Ooi AG, Wandless TJ. A directed approach for engineering conditional protein stability using biologically silent small molecules. The Journal of biological chemistry. 2007;282:24866-24872; и Rodriguez, Chem Biol. Mar 23, 2012; 19(3): 391-398, все из которых включены в данный документ посредством ссылки и могут быть использованы при осуществлении настоящего изобретения на практике в выборе DD для ассоциации с ферментом CRISPR для осуществления настоящего изобретения на практике. Как можно видеть, информация из уровня техники включает целый ряд DD, и DD можно ассоциировать с ферментом CRISPR, например, сливать преимущественно с помощью линкера, в результате чего DD можно стабилизировать в присутствии лиганда, а в случае его отсутствия DD может становиться дестабилизированным, в результате чего полностью дестабилизируется фермент CRISPR, или DD может быть стабилизированным в отсутствие лиганда, а когда лиганд присутствует DD может становиться дестабилизированным; при этом DD обеспечивает возможность регуляции и контроля фермента CRISPR и, следовательно, комплекса или системы CRISPR-Cas - условно говоря, включение или выключение, с обеспечением тем самым средства для регуляции или контроля системы, например, в in vivo или in vitro окружении. Например, если представляющий интерес белок экспрессируется в виде продукта слияния с меткой DD, то он дестабилизируется и быстро разрушается в клетке, например, с помощью протеасом. Таким образом, отсутствие стабилизирующего лиганда приводит к разрушению Cas, ассоциированного с DD. Если с представляющим интерес белком сливают новый DD, его нестабильность предается представляющему интерес белку, что приводит к быстрому разрушению всего слитого белка. Пиковая активность Cas иногда выгодна для снижения нецелевых эффектов. Таким образом, короткие всплески высокой активности являются предпочтительными. Настоящее изобретение может обеспечивать такие пики. В некотором смысле система является индуцируемой. В некотором другом смысле система подвергается репрессии в отсутствие стабилизирующего лиганда и вновь активируется в присутствии стабилизирующего лиганда.

Мутации ферментов, снижающие нецелевые эффекты

В одном аспекте настоящего изобретения предусмотрен не встречающийся в природе или сконструированный фермент CRISPR, предпочтительно фермент CRISPR класса 2, предпочтительно фермент CRISPR V или VI типов, описанный в данном документе, такой как предпочтительно, но без ограничения, Cpf1, описанный в других разделах данного документа, с одной или несколькими мутациями, приводящими к сниженным нецелевым эффектам, т. е. улучшенные ферменты CRISPR для применения в осуществлении модификаций в целевом локусе, но у которых снижена или устранена активность в отношении нецелевых локусов, как, например, будучи в комплексе с направляющими РНК, а также улучшенные ферменты CRISPR для повышения активность ферментов CRISPR, как, например, будучи в комплексе с направляющими РНК. Следует понимать, что мутированные ферменты, описываемые в данном документе ниже, можно применять в любом из способов в соответствии с настоящим изобретением, как описано в других разделах данного документа. Любые из способов, продуктов, композиций и вариантов применения, описываемых в других разделах данного документа, равным образом применимы в случае мутированных ферментов CRISPR, как дополнительно подробно описанного ниже. Следует понимать, что в аспектах и вариантах осуществления, описываемых в данном документе, при ссылке или включении Cpf1 в качестве фермента CRISPR, для восстановления функциональной системы CRISPR-Cas предпочтительно не требуется tracr-последовательность или система не зависит от нее, и/или прямой повтор расположен в направлении 5' (выше) от направляющей (целевой или спейсерной) последовательности.

С целью дополнительного руководства приводятся следующие конкретные аспекты и варианты осуществления.

Авторы настоящего изобретения неожиданно установили, что можно проводить модификации ферментов CRISPR, что обеспечивает сниженную нецелевую активность по сравнению с немодифицированными ферментами CRISPR и/или повышенную целевую активность по сравнению с немодифицированными ферментами CRISPR. Таким образом, в определенных аспектах настоящего изобретения в данном документе предусмотрены улучшенные ферменты CRISPR, которые можно применять в целом ряде применений, связанных с модификациями генов. Также в данном документе предусмотрены комплексы, композиции и системы CRISPR, а также способы и варианты применения, все из которых предусматривают модифицированные ферменты CRISPR, раскрытые в данном документе.

В настоящем изобретении термин "Cas" может означать "Cpf1" или фермент CRISPR. В контексте настоящего изобретения Cpf1 или фермент CRISPR является мутированным или модифицированным, "в результате чего фермент в комплексе CRISPR характеризуется сниженной способностью модифицировать один или несколько нецелевых локусов по сравнению с немодифицированным ферментом" (или подобные выражения); и при чтении настоящего описания подразумевается, что термины "Cpf1", или "Cas", или "фермент CRISPR и т. д. включают мутированный или модифицированный Cpf1, или Cas, или фермент CRISPR в соответствии с настоящим изобретением, т. e."в результате этого фермент в комплексе CRISPR характеризуется сниженной способностью модифицировать один или несколько нецелевых локусов по сравнению с немодифицированным ферментом" (или подобные выражения).

В одном аспекте предусмотрен сконструированный белок Cpf1, определяемый в данном документе, такой как Cpf1, где белок объединяется в комплекс с молекулой нуклеиновой кислоты, предусматривающей РНК, с образованием комплекса CRISPR, при этом находясь в комплексе CRISPR, молекула нуклеиновой кислоты нацеливается на один или несколько целевых полинуклеотидных локусов, причем белок содержит по меньшей мере одну модификацию по сравнению с немодифицированным Cpf1, и где комплекс CRISPR, содержащий модифицированный белок, характеризуется измененной активностью в сравнении с комплексом, содержащим немодифицированный белок Cpf1. Следует понимать, что при ссылке в данном документе на "белок" CRISPR, белок Cpf1 предпочтительно представляет собой модифицированный фермент CRISPR (например, с повышенной или сниженной (или отсутствующей) ферментативной активностью), как, например, без ограничения включающий Cpf1. Термин "белок CRISPR" может использоваться взаимозаменяемо с "фермент CRISPR", независимо от того, был ли белок CRISPR изменен, как, например, характеризуется повышенной или сниженной (или отсутствующей) ферментативной активностью по сравнению с белком CRISPR дикого типа.

В одном аспекте измененная активность сконструированного белка CRISPR предусматривает измененное свойство связывания в отношении молекулы нуклеиновой кислоты, предусматривающей РНК, или целевых полинуклеотидных локусов, измененную кинетику связывания в отношении молекулы нуклеиновой кислоты, предусматривающей РНК, или целевых полинуклеотидных локусов, или измененную специфичность связывания в отношении молекулы нуклеиновой кислоты, предусматривающей РНК, или целевых полинуклеотидных локусов в сравнении с нецелевыми полинуклеотидными локусами.

В некоторых вариантах осуществления немодифицированный Cas характеризуется активностью расщепления ДНК, подобно Cpf1. В некоторых вариантах осуществления Cas управляет расщеплением одной или обеих нитей в определенном положении целевой последовательности, как, например, в пределах целевой последовательности и/или в пределах последовательности, комплементарной целевой последовательности. В некоторых вариантах осуществления Cas управляет расщеплением одной или обеих нитей в пределах приблизительно 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 50, 100, 200, 500 или более пар оснований от первого или последнего нуклеотида целевой последовательности. В некоторых вариантах осуществления вектор кодирует Cas, который является мутированным по сравнению с соответствующим ферментом дикого типа, так что мутированный Cas не обладает способностью расщеплять одну или обе нити целевого полинуклеотида, содержащего целевую последовательность. В некоторых вариантах осуществления считается, что у фермента Cas практически полностью отсутствует активность расщепления ДНК, если активность расщепления ДНК у мутированного фермента составляет не более чем приблизительно 25%, 10%, 5%, 1%, 0,1%, 0,01% или меньше относительно активности расщепления ДНК у немутированной формы фермента; примером может служить случай, когда активность расщепления ДНК у мутированной формы отсутствует или несущественна по сравнению с немутированной формой. Таким образом, Cas может содержать одну или несколько мутаций и может применяться в качестве универсального ДНК-связывающего белка, слитого или не слитого с функциональным доменом. Мутации могут представлять собой мутации, введенные искусственным образом, или мутации приобретения или потери функции. В одном аспекте настоящего изобретения фермент Cas может быть слит с белком, например TAG, и/или индуцируемым/контролируемым доменом, таким как химически индуцируемый/контролируемый домен. В настоящем изобретении Cas может представлять собой химерные белки Cas, например, Cas, характеризующийся усиленной функцией ввиду того, что он является химерой. Химерные белки Cas могут представлять собой новые Cas, содержащие фрагменты из более чем одного встречающегося в природе Cas. Они могут содержать продукты слияния N-концевого(концевых) фрагмента(фрагментов) одного гомолога Cas9 с C-концевым(концевыми) фрагментом(фрагментами) другого гомолога Cas. Cas может доставляться в клетку в форме мРНК. Экспрессия Cas может находиться под контролем индуцируемого промотора. Очевидно, что цель настоящего изобретения заключается в том, чтобы не охватывать известные мутации. Действительно, фраза "в результате чего фермент в комплексе CRISPR характеризуется сниженной способностью модифицировать один или несколько нецелевых локусов по сравнению немодифицированным ферментом, и/или в результате чего фермент в комплексе CRISPR характеризуется повышенной способностью модифицировать один или несколько целевых локусов по сравнению с немодифицированным ферментом" (или подобная в отношении экспрессии) не подразумевает охват мутаций, которые приводят только к никазе или нефункциональному Cas, или известных мутаций Cas9. ОДНАКО, это не означает, что модификацию(модификации) или мутацию(мутации) по настоящему изобретению "в результате которых фермент в комплексе CRISPR характеризуется сниженной способностью модифицировать один или несколько нецелевых локусов по сравнению с немодифицированным ферментом, и/или в результате которых фермент в комплексе CRISPR характеризуется повышенной способностью модифицировать один или несколько целевых локусов по сравнению с немодифицированным ферментом" (или подобные выражения) нельзя комбинировать с мутациями, которые приводят к тому, что фермент является никазой или он является нефункциональным. Такой нефункциональный фермент может представлять собой улучшенное средство, связывающее молекулу нуклеиновой кислоты. И такая никаза может представлять собой улучшенную никазу. Например, изменение нейтральной(нейтральных) аминокислоты(аминокислот) в бороздке и/или возле нее, и/или других заряженных остатков в других определенных положениях в Cas, которые находятся в непосредственной близости от нуклеиновой кислоты (например, ДНК, cDNA, РНК, gRNA), на положительно заряженную(заряженные) аминокислоту(аминокислоты) может приводить к следующему "в результате чего фермент в комплексе CRISPR характеризуется сниженной способность модифицировать один или несколько нецелевых локусов по сравнению с немодифицированным ферментом и/или в результате чего фермент в комплексе CRISPR характеризуется повышенной способностью модифицировать один или несколько целевые локусов по сравнению с немодифицированным ферментом", например, к большему числу разрезов. Поскольку это могут быть как усиленные целевые, так и нецелевые разрезы (сверхрежущий Cpf1), применение такого фермента с тем, что известно из уровня техники как усеченная направляющая или усеченные sgRNA (см., например, Fu et al., "Improving CRISPR-Cas nuclease specificity using truncated guide RNAs", Nature Biotechnology 32, 279-284 (2014) doi:10.1038/nbt.2808, получен 17 ноября 2013 года, принят 06 января 2014 года, опубликован онлайн 26 января 2014 года, исправлен онлайн 29 января 2014 года), для обеспечения усиленной целевой активности без повышения числа нецелевых разрезов, или для получения сверхрежущих никаз, или для комбинирования с мутацией, которая обеспечивает нефункциональный Cas для сверхсвязывающего средства.

В определенных вариантах осуществления измененная активность сконструированного белка Cpf1 предусматривает повышенную эффективность нацеливания или сниженное нецелевое связывание. В определенных вариантах осуществления измененная активность сконструированного белка Cpf1 предусматривает модифицированную активность расщепления.

В определенных вариантах осуществления измененная активность предусматривает измененное свойство связывания в отношении молекулы нуклеиновой кислоты, предусматривающей РНК, или целевых полинуклеотидных локусов, измененную кинетику связывания в отношении молекулы нуклеиновой кислоты, предусматривающей РНК, или целевых полинуклеотидных локусов, или измененную специфичность связывания в отношении молекулы нуклеиновой кислоты, предусматривающей РНК, или целевых полинуклеотидных локусов в сравнении с нецелевыми полинуклеотидными локусами.

В определенных вариантах осуществления измененная активность предусматривает повышенную эффективность нацеливания или сниженное нецелевое связывание. В определенных вариантах осуществления измененная активность предусматривает модифицированную активность расщепления. В определенных вариантах осуществления измененная активность предусматривает повышенную активность расщепления в отношении целевых полинуклеотидных локусов. В определенных вариантах осуществления измененная активность предусматривает сниженную активность расщепления в отношении целевых полинуклеотидных локусов. В определенных вариантах осуществления измененная активность предусматривает сниженную активность расщепления в отношении нецелевых полинуклеотидных локусов. В определенных вариантах осуществления измененная активность предусматривает повышенную активность расщепления в отношении нецелевых полинуклеотидных локусов.

Соответственно, в определенных вариантах осуществления наблюдается повышенная специфичность в отношении целевых полинуклеотидных локусов по сравнению с нецелевыми полинуклеотидными локусами. В других вариантах осуществления наблюдается сниженная специфичность в отношении целевых полинуклеотидных локусов по сравнению с нецелевыми полинуклеотидными локусами.

В одном аспекте настоящего изобретения измененная активность сконструированного белка Cpf1 предусматривает измененную кинетику хеликазы.

В одном аспекте настоящего изобретения сконструированный белок Cpf1 содержит модификацию, которая изменяет связывание белка с молекулой нуклеиновой кислоты, предусматривающей РНК, или нитью, содержащей целевые полинуклеотидные локусы, или нитью, содержащей нецелевые полинуклеотидные локусы. В одном аспекте настоящего изобретения сконструированный белок Cpf1 содержит модификацию, которая изменяет образование комплекса CRISPR.

В определенных вариантах осуществления модифицированный белок Cpf1 содержит модификацию, которая изменяет нацеливание молекулы нуклеиновой кислоты на полинуклеотидный локус. В определенных вариантах осуществления модификация предусматривает мутацию в участке белка, который связывается с молекулой нуклеиновой кислоты. В определенных вариантах осуществления модификация предусматривает мутацию в участке белка, который связывается с нитью целевого полинуклеотидного локуса. В определенных вариантах осуществления модификация предусматривает мутацию в участке белка, который связывается с нитью нецелевого полинуклеотидного локуса. В определенных вариантах осуществления модификация или мутация предусматривают сниженный положительный заряд в участке белка, который связывается с молекулой нуклеиновой кислоты, предусматривающей РНК, или нитью целевого полинуклеотидного локуса, или нитью нецелевого полинуклеотидного локуса. В определенных вариантах осуществления модификация или мутация предусматривают сниженный отрицательный заряд в участке белка, который связывается с молекулой нуклеиновой кислоты, предусматривающей РНК, или нитью целевого полинуклеотидного локуса, или нитью нецелевого полинуклеотидного локуса. В определенных вариантах осуществления модификация или мутация предусматривают повышенный положительный заряд в участке белка, который связывается с молекулой нуклеиновой кислоты, предусматривающей РНК, или нитью целевого полинуклеотидного локуса, или нитью нецелевого полинуклеотидного локуса. В определенных вариантах осуществления модификация или мутация предусматривают повышенный отрицательный заряд в участке белка, который связывается с молекулой нуклеиновой кислоты, предусматривающей РНК, или нитью целевого полинуклеотидного локуса, или нитью нецелевого полинуклеотидного локуса. В определенных вариантах осуществления модификация или мутация повышают стерическое несоответствие между белком и молекулой нуклеиновой кислоты, предусматривающей РНК, или нитью целевого полинуклеотидного локуса, или нитью целевого полинуклеотидного локуса. В определенных вариантах осуществления модификация или мутация предусматривают замену Lys, His, Arg, Glu, Asp, Ser, Gly или Thr. В определенных вариантах осуществления модификация или мутация предусматривают замену на Gly, Ala, Ile, Glu или Asp. В определенных вариантах осуществления модификация или мутация предусматривают аминокислотную замену в связывающей бороздке.

В одном аспекте настоящего изобретения предусмотрен:

не встречающийся в природе фермент CRISPR, определяемый в данном документе, такой как Cpf1, где

фермент объединяется в комплекс с направляющей РНК с образованием комплекса CRISPR,

при этом находясь в комплексе CRISPR, направляющая РНК нацеливается на один или несколько целевых полинуклеотидных локусов, и фермент изменяет полинуклеотидные локусы, и

фермент содержит по меньшей мере одну модификацию,

в результате чего фермент в комплексе CRISPR характеризуется сниженной способностью модифицировать один или несколько нецелевых локусов по сравнению с немодифицированным ферментом, и/или в результате чего фермент в комплексе CRISPR характеризуется повышенной способностью модифицировать один или несколько целевых локусов по сравнению с немодифицированным ферментом.

В любом таком не встречающемся в природе ферменте CRISPR модификация может предусматривать модификацию одного или нескольких аминокислотных остатков фермента.

В любом таком не встречающемся в природе ферменте CRISPR модификация может предусматривать модификацию одного или нескольких аминокислотных остатков, расположенных в участке, который содержит остатки, которые являются положительно заряженными в немодифицированном ферменте.

В любом таком не встречающемся в природе ферменте CRISPR модификация может предусматривать модификацию одного или нескольких аминокислотных остатков, которые являются положительно заряженными в немодифицированном ферменте.

В любом таком не встречающемся в природе ферменте CRISPR модификация может предусматривать модификацию одного или нескольких аминокислотных остатков, которые не являются положительно заряженными в немодифицированном ферменте.

Модификация может предусматривать модификацию одного или нескольких аминокислотных остатков, которые являются незаряженными в немодифицированном ферменте.

Модификация может предусматривать модификацию одного или нескольких аминокислотных остатков, которые являются отрицательно заряженными в немодифицированном ферменте.

Модификация может предусматривать модификацию одного или нескольких аминокислотных остатков, которые являются гидрофобными в немодифицированном ферменте.

Модификация может предусматривать модификацию одного или нескольких аминокислотных остатков, которые являются полярными в немодифицированном ферменте.

В случае определенных из описанных выше не встречающихся в природе ферментов CRISPR модификация может предусматривать модификацию одного или нескольких остатков, расположенных в бороздке.

В случае некоторых из описанных выше не встречающихся в природе ферментов CRISPR модификация предусматривает модификацию одного или нескольких остатков, где один или несколько остатков предусматривают аргинин, гистидин или лизин.

В случае любого из описанных выше не встречающихся в природе ферментов CRISPR фермент может быть модифицирован с помощью мутации указанного одного или нескольких остатков.

В случае определенных из описанных выше не встречающихся в природе ферментов CRISPR фермент модифицирован с помощью мутации указанного одного или нескольких остатков, и при этом мутация предусматривает замену остатка в немодифицированном ферменте на аланиновый остаток.

В некоторых вариантах осуществления фермент CRISPR, такой как предпочтительно фермент Cpf1, получен из Cpf1 Francisella tularensis 1, Francisella tularensis subsp. novicida, Prevotella albensis, Lachnospiraceae bacterium MC2017 1, Butyrivibrio proteoclasticus, Peregrinibacteria bacteriu GW2011_GWA2_33_10, Parcubacteria bacterium GW2011_GWC2_44_17, Smithella sp. SCADC, Acidaminococcus sp. BV3L6, Lachnospiraceae bacterium MA2020, Candidatus Methanoplasma termitum, Eubacterium eligens, Moraxella bovoculi 237, Leptospira inadai, Lachnospiraceae bacterium ND2006, Porphyromonas crevioricanis 3, Prevotella disiens или Porphyromonas macacae (например, Cpf1 одного из этих организмов, модифицированного, как описано в данном документе), и он может включать дополнительные мутации или изменения или может быть химерным Cpf1.

В определенных вариантах осуществления белок Cpf1 содержит один или несколько доменов, представляющих собой сигнал ядерной локализации (NLS). В определенных вариантах осуществления белок Cpf1 содержит по меньшей мере два или более NLS.

В определенных вариантах осуществления белок Cpf1 предусматривает химерный белок CRISPR, содержащий первый фрагмент от первого ортолога CRISPR и второй фрагмент от второго ортолога CIRSPR, и при этом первый и второй ортологи CRISPR являются различными.

В определенных вариантах осуществления фермент является модифицированным или содержит модификацию, например, содержит, состоит, по сути, из или состоит из модификации с помощью мутации любого из остатков, перечисленных в данном документе, или соответствующего остатка в соответственном ортологе; или фермент содержит, состоит, по сути, из или состоит из модификации в любом одном (одиночная), двух (двойная), трех (тройная), четырех (четверная) или большем числе положений в соответствии с раскрытием на протяжении всей настоящей заявки, или соответствующем остатке или положении в ортологе фермента CRISPR, например, фермент содержит, состоит, по сути, из или состоит из модификации в любом из остатков Cpf1, процитированных в данном документе, или соответствующем остатке или положении в ортологе фермента CRISPR. В таком ферменте каждый остаток может быть модифицирован с помощью замены на аланиновый остаток.

Заявители недавно описали способ получения ортологов Cas9 с усиленной специфичностью (Slaymaker et al. 2015 "Rationally engineered Cas9 nucleases with improved specificity"). Данную стратегию можно применять для усиления специфичности ортологов Cpf1. Основными остатками для проведения мутагенеза предпочтительно являются все положительно заряженные остатки в пределах домена RuvC. Дополнительные остатки представляют собой положительно заряженные остатки, которые являются консервативными у различных ортологов.

В определенных вариантах осуществления специфичность Cpf1 может быть улучшена путем мутирования остатков, которые стабилизируют не подвергаемую нацеливанию нить ДНК.

В случае определенных описанных выше не встречающихся в природе ферментов Cpf1 фермент модифицируют с помощью мутации одного или нескольких остатков (в домене RuvC), включая без ограничения положения R909, R912, R930, R947, K949, R951, R955, K965, K968, K1000, K1002, R1003, K1009, K1017, K1022, K1029, K1035, K1054, K1072, K1086, R1094, K1095, K1109, K1118, K1142, K1150, K1158, K1159, R1220, R1226, R1242, и/или R1252 в соответствии с нумерацией аминокислотных положений AsCpf1 (Acidaminococcus sp. BV3L6).

В случае определенных описанных выше не встречающихся в природе ферментов Cpf1 фермент модифицируют с помощью мутации одного или нескольких остатков (в домене RAD50), включая без ограничения положения K324, K335, K337, R331, K369, K370, R386, R392, R393, K400, K404, K406, K408, K414, K429, K436, K438, K459, K460, K464, R670, K675, R681, K686, K689, R699, K705, R725, K729, K739, K748 и/или K752 в соответствии с нумерацией аминокислотных положений AsCpf1 (Acidaminococcus sp. BV3L6).

В случае определенных описанных выше не встречающихся в природе ферментов Cpf1 фермент модифицируют с помощью мутации одного или нескольких остатков, включая без ограничения положения R912, T923, R947, K949, R951, R955, K965, K968, K1000, R1003, K1009, K1017, K1022, K1029, K1072, K1086, F1103, R1226 и/или R1252 в соответствии с нумерацией аминокислотных положений AsCpf1 (Acidaminococcus sp. BV3L6).

В определенных вариантах осуществления фермент модифицируют с помощью мутации одного или нескольких остатков, включая без ограничения положения R833, R836, K847, K879, K881, R883, R887, K897, K900, K932, R935, K940, K948, K953, K960, K984, K1003, K1017, R1033, R1138, R1165 и/или R1252 в соответствии с нумерацией аминокислотных положений LbCpf1 (Lachnospiraceae bacterium ND2006).

В определенных вариантах осуществления фермент Cpf1 модифицируют с помощью мутации одного или нескольких остатков, включая без ограничения положения K15, R18, K26, R34, R43, K48, K51, K56, K87, K88, D90, K96, K106, K107, K120, Q125, K143, R186, K187, R202, K210, K235, K296, K298, K314, K320, K326, K397, K444, K449, E454, A483, E491, K527, K541, K581, R583, K589, K595, K597, K613, K624, K635, K639, K656, K660, K667, K671, K677, K719, K725, K730, K763, K782, K791, R800, K809, K823, R833, K834, K839, K852, K858, K859, K869, K871, R872, K877, K905, R918, R921, K932, I960, K962, R964, R968, K978, K981, K1013, R1016, K1021, K1029, K1034, K1041, K1065, K1084, и/или K1098 в соответствии с нумерацией аминокислотных положений FnCpf1 (Francisella novicida U112).

В определенных вариантах осуществления фермент Cpf1 модифицируют с помощью мутации одного или нескольких остатков, включая без ограничения положения K15, R18, K26, K34, R43, K48, K51, R56, K83, K84, R86, K92, R102, K103, K116, K121, R158, E159, R174, R182, K206, K251, K253, K269, K271, K278, P342, K380, R385, K390, K415, K421, K457, K471, A506, R508, K514, K520, K522, K538, Y548, K560, K564, K580, K584, K591, K595, K601, K634, K640, R645, K679, K689, K707, T716, K725, R737, R747, R748, K753, K768, K774, K775, K785, K787, R788, Q793, K821, R833, R836, K847, K879, K881, R883, R887, K897, K900, K932, R935, K940, K948, K953, K960, K984, K1003, K1017, R1033, K1121, R1138, R1165, K1190, K1199, и/или K1208 в соответствии с нумерацией аминокислотных положений LbCpf1 (Lachnospiraceae bacterium ND2006).

В любом из не встречающихся в природе ферментов CRISPR:

одиночное несовпадение может находиться между целевой и соответствующей последовательностью одного или нескольких нецелевых локусов; и/или

два, три или четыре или более несовпадений могут находиться между целевой и соответствующей последовательностью одного или нескольких нецелевых локусов, и/или

где (ii) указанные два, три или четыре или более несовпадения являются смежными.

В случае любого из не встречающихся в природе ферментов CRISPR фермент в комплексе CRISPR может характеризоваться сниженной способностью модифицировать один или несколько нецелевых локусов по сравнению с немодифицированным ферментом, и при этом фермент в комплексе CRISPR характеризуется повышенной способностью модифицировать указанные целевые локусы по сравнению с немодифицированным ферментом.

В случае любого из не встречающихся в природе ферментов CRISPR, когда он находится в комплексе CRISPR, относительная разница модифицирующей способности фермента в отношении целевого и по меньшей мере одного нецелевого локуса может быть увеличена по сравнению с относительной разницей для немодифицированного фермента.

В случае любого из не встречающихся в природе ферментов CRISPR фермент CRISPR может содержать одну или несколько дополнительный мутаций, где одна или несколько дополнительных мутаций находятся в одном или нескольких каталитически активных доменах.

В случае таких не встречающихся в природе ферментов CRISPR фермент CRISPR может характеризоваться сниженной или отмененной нуклеазной активностью в сравнении с ферментом, у которого отсутствует указанная одна или несколько дополнительных мутаций.

В случае некоторых таких не встречающихся в природе ферментов CRISPR фермент CRISPR не управляет расщеплением одной или другой нити ДНК в определенном положении целевой последовательности.

Если фермент CRISPR содержит одну или несколько дополнительных мутаций в одном или нескольких каталитически активных доменах, одна или несколько дополнительных мутаций может находиться в каталитически активном домене фермента CRISPR, содержащего RuvCI, RuvCII или RuvCIII.

Без ограничения теорией, в одном аспекте настоящего изобретения описаны способы и мутации, предусмотренные для улучшения конформационной перегруппировки доменов в ферменте CRISPR (например, доменов Cpf1) в положения, которые обеспечивают расщепление в целевых сайтах, и избегание таких конформационных состояний в случае нецелевых сайтов. Ферменты CRISPR расщепляют целевую ДНК с помощью целого ряда координированных стадий. Вначале PAM-взаимодействующий домен распознает последовательность PAM на 5'-конце целевой ДНК. После связывания PAM первые 10-12 нуклеотидов целевой последовательности (затравочная последовательность) проверяют на комплементарность gRNA:ДНК, причем данный процесс обусловлен разделением ДНК-дуплекса. Если нуклеотиды затравочной последовательности комплементарны gRNA остальная часть ДНК расплетается и полноразмерная gRNA гибридизируется с целевой нитью ДНК. nt-борозки могут стабилизировать не подвергаемую нацеливанию нить ДНК и облегчать раскручивание благодаря неспецифическим взаимодействиям с положительными зарядами фосфатного остова ДНК. Взаимодействия РНК:cDNA и фермент CRISPR:ncDNA управляют раскручиванием ДНК, конкурирующим с повторной гибридизацией cDNA:ncDNA. Другие домены фермента CRISPR могут воздействовать на конформацию нуклеазных доменов, также как, например, линкеры, соединяющие различные домены. Соответственно, предусмотренные способы и мутации охватывают без ограничения RuvCI, RuvCIII, RuvCIII и линкеры. Конформационные изменения, например, в Cpf1, вызванные связыванием целевой ДНК, включая взаимодействия с затравочной последовательностью и взаимодействия с целевой и не подвергаемой нацеливанию нитью ДНК, определяют будут ли домены расположены так, чтобы запустить нуклеазную активность. Таким образом, мутации и способы, предусмотренные в данном документе, демонстрируют и обеспечивают модификации, которые выходят за пределы распознавания PAM и образования пар оснований между РНК-ДНК.

В одном аспекте настоящего изобретения предусмотрены нуклеазы CRISPR, определяемые в данном документе, такие как Cpf1, которые предусматривают улучшенное равновесие, смещенное в направлении конформаций, ассоциированных с активностью расщепления, при вовлечении в целевые взаимодействия, и/или улучшенное равновесие, смещенное в обратную сторону от конформаций, ассоциированных с активностью расщепления, при вовлечении в нецелевые взаимодействия. В одном аспекте настоящего изобретения предусмотрены нуклеазы Cas (например, Cpf1) с улучшенной функцией редактирования, т. е. нуклеаза Cas (например, Cpf1), которая принимает конформацию, обеспечивающую нуклеазную активность в отношении целевого сайта, и при этом такая конформация характеризуется повышенной невыгодностью в отношении нецелевого сайта. Sternberg et al., Nature 527(7576):110-3, doi: 10.1038/nature15544, опубликована онлайн 28 октября 2015 года; электронная публикация 28 октября 2015 года, применяли эксперименты по Ферстеровским резонансным переносом энергии (FRET) для обнаружения относительной ориентации каталитических доменов Cas (например, Cpf1) при связывании с целевой и нецелевой ДНК, и которые можно экстраполировать на ферменты CRISPR по настоящему изобретению (например, Cpf1).

В настоящем изобретении также предусмотрены способы и мутации для модулирования нуклеазной активности и/или специфичности с применением модифицированных направляющих РНК. Как уже обсуждалось, целевая нуклеазная активность может быть повышенной или сниженной. Также, нецелевая нуклеазная активность может быть повышенной или сниженной. Кроме того, может быть повышена или снижена специфичность в отношении целевой активности в сравнении с нецелевой активностью. Модифицированные направляющие РНК включают без ограничения усеченные направляющие РНК, нефункциональные направляющие РНК, химически модифицированные направляющие РНК, направляющие РНК, ассоциированные с функциональными доменами, модифицированные направляющие РНК, содержащие функциональные домены, модифицированные направляющие РНК, содержащие аптамеры, модифицированные направляющие РНК, содержащие адапторные белки, и направляющие РНК, содержащие добавленные или модифицированные петли. В некоторых вариантах осуществления один или несколько функциональных доменов связываются с нефункциональными gRNA (dRNA). В некоторых вариантах осуществления комплекс dRNA с ферментом CRISPR управляет регуляцией гена с помощью функционального домена в локусе гена, тогда как gRNA управляет расщеплением гена с помощью фермента CRISPR в другом локусе. В некоторых вариантах осуществления dRNA отбирают для обеспечения максимальной селективности регуляции для представляющего интерес генного локуса по сравнению с нецелевой регуляцией. В некоторых вариантах осуществления dRNA отбирают для обеспечения максимальной регуляции целевого гена и минимального целевого расщепления.

Для целей следующего обсуждения эталоном функционального домена может быть функциональный домен, ассоциированный с ферментом CRISPR, или функциональный домен, ассоциированный с адаптерным белком.

При осуществлении настоящего изобретения на практике петли в gRNA могут быть увеличены без перекрывания с белком Cas (например, Cpf1) путем вставки отличающейся(отличающихся) петли(петель) РНК или отличающейся(отличающихся) последовательности(последовательностей), которая(которые) могут рекрутировать адаптерные белки, которые могут связываться с отличающейся(отличающимися) петлей(петлями) РНК или отличающейся(отличающимися) последовательностью(последовательностями). Адаптерные белки могут включать без ограничения комбинации ортогональный связывающий РНК белок/аптамер, которые встречаются во множестве белков оболочки бактериофагов. Перечень таких белков оболочки включает без ограничения Qβ, F2, GA, fr, JP501, M12, R17, BZ13, JP34, JP500, KU1, M11, MX1, TW18, VK, SP, FI, ID2, NL95, TW19, AP205, φCb5, φCb8r, φCb12r, φCb23r, 7s и PRR1. Такие адаптерные белки или ортогональные связывающие РНК белки могут дополнительно ректурировать эффекторные белки или продукты слияния, которые содержат один или несколько функциональных доменов. В некоторых вариантах осуществления функциональный домен может быть выбран из группы, состоящей из домена транспозазы, домена интегразы, домена рекомбиназы, домена резольвазы, домена инвертазы, домена протеазы, домена ДНК-метилтрансферазы, домена ДНК-гидроксилметилазы, домена ДНК-деметилазы, домена гистонацетилазы, домена гистондеацетилазы, нуклеазного домена, репрессорного домена, активаторного домена, доменов сигнала ядерной локализации, домена регуляторного белка транскрипции (или вовлечения транскрипционного комплекса), ассоциированного с активностью клеточного поглощения домена, домена связывания нуклеиновой кислоты, домена представления антитела, модифицирующих гистоны ферментов, рекрутера модифицирующих гистоны ферментов; ингибитора модифицирующих гистоны ферментов, гистонметилтрансферазы, гистондеметилазы, гистонкиназы, гистонфосфатазы, гистонрибозилазы, гистондерибозилазы, гистонубиквитиназы, гистондеубиквитиназы, гистонбиотиназы и протеазы гистонового хвоста. В некоторых предпочтительных вариантах осуществления функциональным доменом является домен активации транскрипции, такой как без ограничения VP64, p65, MyoD1, HSF1, RTA, SET7/9 или гистонацетилтрансфераза. В некоторых вариантах осуществления функциональный домен представляет собой домен репрессии транскрипции, предпочтительно KRAB. В некоторых вариантах осуществления домен репрессии транскрипции представляет собой SID или конкатемеры SID (например, SID4X). В некоторых вариантах осуществления функциональный домен представляет собой домен эпигенетического модифицирования, так что обеспечивается фермент эпигенетического модифицирования. В некоторых вариантах осуществления функциональный домен представляет собой домен активации, который может представлять собой домен активации P65. В некоторых вариантах осуществления функциональных домен представляет собой дезаминазу, такую как цитидиндезаминазу. Цитидиндезаминаза может быть направлена на целевую нуклеиновую кислоту, туда, где она управляет превращением цитидина в уридин, что приводит в результате к заменам C на T (G на A в комплементарной нити). В таком варианте осуществления нуклеотидные замены могут быть осуществлены без расщепления ДНК.

В одном аспекте настоящего изобретения также предусмотрены способы и мутации для модулирования активности связывания и/или специфичности связывания Cas (например, Cpf1). В определенных вариантах осуществления применяют белки Cas (например, Cpf1), у которых отсутствует нуклеазная активность. В определенных вариантах осуществления используют модифицированные направляющие РНК, которые содействуют связыванию, но не нуклеазной активности нуклеазы Cas (например, Cpf1). В таких вариантах осуществления целевое связывание может быть повышенным или сниженным. Также, в таких вариантах осуществления нецелевое связывание может быть повышенным или сниженным. Более того, может быть повышена или снижена специфичность в отношении целевого связывания в сравнении с нецелевым связыванием.

В конкретных вариантах осуществления снижение нецелевого расщепления обеспечивается путем дестабилизации разделения нитей, более конкретно путем введения в фермент Cpf1 мутаций, снижающих положительный заряд в участках, взаимодействующих с ДНК (описываемых в данном документе и также приведенных в качестве примера для Cas9 в Slaymaker et al. 2016 (Science, 1;351(6268):84-8). В дополнительных вариантах осуществления снижение нецелевого расщепления обеспечивается путем введения в фермент Cpf1 мутаций, которые влияют на взаимодействие между целевой нитью и последовательностью направляющей РНК, более конкретно нарушают взаимодействия между Cpf1 и фосфатным остовом целевой нити ДНК таким образом, чтобы сохранить целевую специфическую активность, но снизить нецелевую активность (как описано для Cas9 в Kleinstiver et al. 2016, Nature, 28;529(7587):490-5). В конкретных вариантах осуществления нецелевая активность снижается за счет модифицированного Cpf1, при этом взаимодействие как c подвергаемой нацеливанию нитью, так и с не подвергаемой нацеливанию нитью является модифицированным по сравнению с Cpf1 дикого типа.

Способы и мутации, которые можно использовать в различных комбинациях для повышения или снижения активности и/или специфичности целевой в сравнении с нецелевой активностью, или повышения или снижения связывания и/или специфичности целевого в сравнении с нецелевым связыванием, можно применять, чтобы компенсировать или усилить влияние мутаций или модификаций, выполненных для содействия другим эффектам. Такие мутации или модификации, выполненные для содействия другим эффектам, включают мутации или модификацию в Cas (например, Cpf1) и/или мутацию или модификацию, выполненную в направляющей РНК. В определенных вариантах осуществления способы и мутации применяют с химически модифицированными направляющими РНК. Примеры химических модификаций направляющих РНК включают без ограничения введение 2′-O-метила (M), 2′-O-метил-3′-фосфоротиоата (MS) или 2′-O-метил-3′-тио-PACE (MSP) в один или несколько концевых нуклеотидов. Такие химически модифицированные направляющие РНК могут предусматривать повышенную стабильность и повышенную активность по сравнению с немодифицированными направляющими РНК, хотя целевая в сравнении с нецелевой специфичность не является предсказуемой. (См., Hendel, 2015, Nat Biotechnol. 33(9):985-9, doi: 10.1038/nbt.3290, опубликована онлайн 29 июня 2015 года). Химически модифицированные направляющие РНК также включают без ограничения РНК с фосфоротиоатными связями и нуклеотиды закрытых нуклеиновых кислот (LNA), содержащие метиленовый мостик между атомами углерода 2' и 4' в кольце рибозы. Способы и мутации по настоящему изобретению применяют для модулирования нуклеазной активности и/или связывания Cas (например, Cpf1) с химически модифицированными направляющими РНК.

В одном аспекте настоящего изобретения предусмотрены способы и мутации для модулирования связывания и/или специфичности связывания белков Cas (например, Cpf1) согласно настоящему изобретению, как определено в данном документе, которые содержат функциональные домены, такие как нуклеазы, активаторы транскрипции, репрессоры транскрипции и т. п. Например, можно получить белок Cas (например, Cpf1) с отсутствием нуклеазной активности или с измененной или сниженной нуклеазной активностью путем введения мутаций, таких как, например, мутации в Cpf1, описанные в других разделах данного документа, и они включают, например, D917A, E1006A, E1028A, D1227A, D1255A, N1257A, D917A, E1006A, E1028A, D1227A, D1255A и N1257A в соответствии с аминокислотными положениями в домене RuvC FnCpf1p; или, например, N580A, N584A, T587A, W609A, D610A, K613A, E614A, D616A, K624A, D625A, K627A и Y629A в соответствии с предполагаемым вторым нуклеазным доменом, описываемым в других разделах данного документа. Белки Cas (например, Cpf1), лишенные нуклеазной активности, пригодны для РНК-направляемой зависимой от целевой последовательности доставки функциональных доменов. В настоящем изобретении предусмотрены способы и мутации для модулирования связывания белков Cas (например, Cpf1). В одном варианте осуществления функциональный домен предусматривает VP64, обеспечивающий РНК-направляемый фактор транскрипции. В другом варианте осуществления функциональный домен предусматривает Fok I, обеспечивающий РНК-направляемую нуклеазную активность. Здесь следует упомянуть публикацию заявки на патент США 2014/0356959, публикацию заявки на патент США 2014/0342456, публикацию заявки на патент США 2015/0031132, и Mali, P. et al., 2013, Science 339(6121):823-6, doi: 10.1126/science.1232033, опубликованную онлайн 3 января 2013 года, и в идеях, изложенных в данном документе, настоящее изобретение подразумевает способы и материалы этих документов, применяемые в сочетании с идеями, изложенными в данном документе. В определенных вариантах осуществления целевое связывание является повышенным. В определенных вариантах осуществления нецелевое связывание является сниженным. В определенных вариантах осуществления целевое связывание является сниженным. В определенных вариантах осуществления нецелевое связывание является повышенным. Соответственно, в настоящем изобретении также предусмотрено повышение или снижение специфичности целевого связывания в сравнении с нецелевым связыванием у функционализированных связывающих белков Cas (например, Cpf1).

Применение Cas (например, Cpf1) в качестве РНК-направляемого связывающего белка не ограничивается Cas (например, Cpf1) с отсутствием нуклеазной активности. Ферменты Cas (например, Cpf1), имеющие нуклеазную активность, также могут функционировать как РНК-направляемые связывающие белки при применении с определенными направляющими РНК. Например, короткие направляющие РНК и направляющие РНК, содержащие нуклеотиды, не совпадающие с мишенью, могут содействовать управляемому РНК связыванию Cas (например, Cpf1) с целевой последовательностью с небольшим расщеплением мишени или его отсутствием. (См., например, Dahlman, 2015, Nat Biotechnol. 33(11):1159-1161, doi: 10.1038/nbt.3390, опубликованный онлайн 05 октября 2015 года). В одном аспекте настоящего изобретения предусмотрены способы и мутации для модулирования связывания белков Cas (например, Cpf1), которые имеют нуклеазную активность. В определенных вариантах осуществления целевое связывание является повышенным. В определенных вариантах осуществления нецелевое связывание является сниженным. В определенных вариантах осуществления целевое связывание является сниженным. В определенных вариантах осуществления нецелевое связывание является повышенным. В определенных вариантах осуществления имеется повышенная или сниженная специфичность целевого связывания в сравнении с нецелевым связыванием. В определенных вариантах осуществления нуклеазная активность направляющей РНК-фермента Cas (например, Cpf1) также модулирована.

Для активности и специфичности расщепления является важным образование гетеродуплекса РНК-ДНК на протяжении всего целевого участка, а не только участка затравочной последовательности, ближайшего к PAM. Так, усеченные направляющие РНК проявляют сниженную активность и специфичность расщепления. В одном аспекте настоящего изобретения предусмотрены способ и мутации для повышения активности и специфичности расщепления с применением измененных направляющих РНК.

В настоящем изобретении также продемонстрировано, что модификации специфичности нуклеазы Cas (например, Cpf1) могут быть выполнены в сочетании с модификациями в отношении диапазона нацеливания. Могут быть разработаны мутанты Cas (например, Cpf1), которые характеризуются повышенной специфичностью в отношении мишени, а также имеют модификации, обеспечивающие распознавание PAM, например, путем выбора мутаций, который изменяют специфичность в отношении PAM и комбинирования этих мутаций с мутациями nt-бороздки, которые повышают (или, в случае необходимости, снижают) специфичность в отношении целевых последовательностей в сравнении с нецелевыми последовательностями. В одном таком варианте осуществления остаток домена PI подвергают мутированию для обеспечения распознавания требуемой последовательности PAM, при этом одну или несколько аминокислот nt-бороздки подвергают мутированию для изменения специфичности в отношении мишени. Способы и модификации Cas (например, Cpf1), описанные в данном документе, можно применять для противодействия потере специфичности, происходящей в результате изменения распознавания PAM, усиления возрастания специфичности, происходящего в результате изменения распознавания PAM, противодействия возрастанию специфичности, происходящему в результате изменения распознавания PAM, или усиления потери специфичности, происходящей в результате изменения распознавания PAM.

Способы и мутации можно применять в отношении любого фермента Cas (например, Cpf1) с измененным распознаванием PAM. Неограничивающими примерами включаемых PAM являются описанные в других разделах данного документа.

В дополнительных вариантах осуществления способов и мутаций применяют модифицированные белки.

В случае любого из не встречающихся в природе ферментов CRISPR фермент CRISPR может содержать один или несколько гетерологичных функциональных доменов.

Один или несколько гетерологичных функциональных доменов могут предусматривать один или несколько доменов, представляющих собой сигнал ядерной локализации (NLS). Один или несколько гетерологичных функциональных доменов могут предусматривать по меньшей мере два или более NLS.

Один или несколько гетерологичных функциональных доменов могут предусматривать один или несколько доменов активации транскрипции. Домен активации транскрипции может предусматривать VP64.

Один или несколько гетерологичных функциональных доменов могут предусматривать один или несколько доменов репрессии транскрипции. Домен репрессии транскрипции может предусматривать домен KRAB или домен SID.

Один или несколько гетерологичных функциональных доменов могут предусматривать один или несколько нуклеазных доменов. Один или несколько нуклеазных доменов могут предусматривать Fok1.

Один или несколько гетерологичных функциональных доменов могут характеризоваться одной или несколькими из следующих видов активности: метилазной активностью, деметилазной активностью, активностью в отношении активации транскрипции, активностью в отношении репрессии транскрипции, активностью фактора освобождения транскрипта, активностью в отношении модификации гистонов, нуклеазной активностью, активностью расщепления однонитевой РНК, активностью расщепления двухнитевой РНК, активностью расщепления однонитевой ДНК, активностью расщепления двухнитевой ДНК и активностью связывания нуклеиновой кислоты.

По меньшей мере один или несколько гетерологичных функциональных доменов могут быть расположены на амино-конце фермента или вблизи него и/или на карбокси-конце фермента или вблизи него.

Один или несколько гетерологичных функциональных доменов могут быть слиты с ферментом CRISPR, или связаны с ферментом CRISPR, или присоединены к ферменту CRISPR с помощью линкерного фрагмента.

В случае любого из не встречающихся в природе ферментов CRISPR фермент CRISPR может предусматривать фермент CRISPR от организма из рода, включающего Francisella tularensis 1, Francisella tularensis subsp. novicida, Prevotella albensis, Lachnospiraceae bacterium MC2017 1, Butyrivibrio proteoclasticus, Peregrinibacteria bacterium GW2011_GWA2_33_10, Parcubacteria bacterium GW2011_GWC2_44_17, Smithella sp. SCADC, Acidaminococcus sp. BV3L6, Lachnospiraceae bacterium MA2020, Candidatus Methanoplasma termitum, Eubacterium eligens, Moraxella bovoculi 237, Leptospira inadai, Lachnospiraceae bacterium ND2006, Porphyromonas crevioricanis 3, Prevotella disiens, или Porphyromonas macacae (например, Cpf1 одного из данных организмов, модифицированный, как описано в данном документе), и он может включать дополнительные мутации или изменения или представлять собой химерный Cas (например, Cpf1).

В случае любого из не встречающихся в природе ферментов CRISPR фермент CRISPR может предусматривать химерный фермент Cas (например, Cpf1), содержащий первый фрагмент от первого ортолога Cas (например, Cpf1) и второй фрагмент от второго ортолога Cas (например, Cpf1), и при этом первый и второй ортологи Cas (например, Cpf1) являются различными. По меньшей мере один из первого и второго ортологов Cas (например, Cpf1) может предусматривать Cas (например, Cpf1) от организма, включающего Francisella tularensis 1, Francisella tularensis subsp. novicida, Prevotella albensis, Lachnospiraceae bacterium MC2017 1, Butyrivibrio proteoclasticus, Peregrinibacteria bacterium GW2011_GWA2_33_10, Parcubacteria bacterium GW2011_GWC2_44_17, Smithella sp. SCADC, Acidaminococcus sp. BV3L6, Lachnospiraceae bacterium MA2020, Candidatus Methanoplasma termitum, Eubacterium eligens, Moraxella bovoculi 237, Leptospira inadai, Lachnospiraceae bacterium ND2006, Porphyromonas crevioricanis 3, Prevotella disiens, или Porphyromonas macacae.

В случае любого из не встречающихся в природе ферментов CRISPR нуклеотидная последовательность, кодирующая фермент CRISPR может быть подвергнута кодон-оптимизации для экспрессии в эукариотическом организме.

В случае любого из не встречающихся в природе ферментов CRISPR клетка может представлять собой эукариотическую клетку или прокариотическую клетку; причем комплекс CRISPR является функциональным в клетке, и при этом фермент комплекса CRISPR характеризуется сниженной способностью модифицировать один или несколько нецелевых локусов в клетке по сравнению с немодифицированным ферментом, и/или при этом фермент в комплексе CRISPR характеризуется усиленной способностью модифицировать один или нескольких целевых локусов по сравнению с немодифицированным ферментом.

Соответственно, в одном аспекте настоящего изобретения предусмотрена эукариотическая клетка, содержащая сконструированный белок CRISPR или систему, определяемые в данном документе.

В определенных вариантах осуществления способы, описываемые в данном документе, могут включать обеспечение трансгенной по Cas (например, Cpf1) клетки, в которой одна или несколько нуклеиновых кислот, кодирующих одну или несколько направляющих РНК, обеспечивают или вводят функционально связанными в клетку с регуляторным элементом, содержащим промотор одного или нескольких представляющих интерес генов. Используемый в данном документе термин "трансгенная по Cas клетка" обозначает клетку, такую как эукариотическая клетка, в геном которой был интегрирован ген Cas. Природа, тип или происхождение клетки конкретно не ограничиваются в соответствии с настоящим изобретением. Также способ, посредством которого трансген Cas вводят в клетку, может отличаться и может представлять собой любой способ, известный из уровня техники. В определенных вариантах осуществления трансгенную по Cas клетку получают путем введения трансгена Cas в выделенную клетку. В определенных других вариантах осуществления трансгенную по Cas клетку получают путем выделения клеток из трансгенного по Cas организма. В качестве примера и без ограничения, трансгенная по Cas клетка, упоминаемая в данном документе, может быть получена из трансгенного по Cas эукариота, такого как эукариота с нокином по Cas. Ссылка делается на WO 2014/093622 (PCT/US13/74667), который включен в данный документ посредством ссылки. Способы из публикаций заявок на патенты США №№ 20120017290 и 20110265198, закрепленных за Sangamo BioSciences, Inc., относящиеся к нацеливанию на локус Rosa, можно модифицировать для использования системы CRISPR-Cas по настоящему изобретению. Способы из публикации заявки на патент США № 20130236946, закрепленной за Cellectis, относящиеся к нацеливанию на локус Rosa, можно также модифицировать для использования системы CRISPR-Cas по настоящему изобретению. В качестве дополнительного примера ссылка делается на Platt et. al. (Cell; 159(2):440-455 (2014)), где описана мышь с нокином по Cas9, которая включена в данный документ посредством ссылки и которую можно экстраполировать на ферменты CRISPR по настоящему изобретению, определяемые в данном документе. Трансген Cas может дополнительно содержать кассету Lox-Stop-polyA-Lox (LSL), за счет чего обеспечивается возможность индуцирования экспрессии Cas с помощью Cre-рекомбиназы. Альтернативно трансгенная по Cas клетка может быть получена путем введения трансгена Cas в выделенную клетку. Системы доставки для трансгенов хорошо известны из уровня техники. В качестве примера, трансген Cas может быть доставлен, например, в эукариотическую клетку посредством доставки с помощью вектора (например, AAV, аденовируса, лентивируса), и/или частицы, и/или наночастицы, как также описывается в других разделах данного документа.

Специалисту в данной области будет понятно, что клетка, такая как трансгенная по Cas клетка, упоминаемая в данном документе, может содержать дополнительные изменения в геноме помимо наличия интегрированного гена Cas или мутаций, возникающих за счет специфического в отношении последовательности действия Cas при образовании комплекса с РНК, способной направлять Cas в целевой локус, таких как, например, одна или несколько онкогенных мутаций, как в качестве примера и без ограничения описано у Platt et al. (2014), Chen et al. (2014) или Kumar et al. (2009).

В настоящем изобретении также предусмотрена композиция, содержащая сконструированный белок CRISPR, описываемый в данном документе, такая как описана в данном разделе.

В настоящем изобретении также предусмотрена не встречающаяся в природе, сконструированная композиция, содержащая комплекс CRISPR-Cas, содержащий любой не встречающийся в природе фермент CRISPR, описанный выше.

В одном аспекте настоящего изобретения предусмотрена векторная система, содержащая один или несколько векторов, где один или несколько векторов содержат:

a) первый регуляторный элемент, функционально связанный с нуклеотидной последовательностью, кодирующей сконструированный белок CRISPR, определяемый в данном документе; и необязательно

b) второй регуляторный элемент, функционально связанный с одной или несколькими нуклеотидными последовательностями, кодирующими одну или несколько молекул нуклеиновой кислоты, предусматривающих направляющую РНК, содержащую направляющую последовательность, последовательность прямого повтора, необязательно, где компоненты (a) и (b) находятся в одном и том же или в разных векторах.

В настоящем изобретении также предусмотрена не встречающаяся в природе, сконструированная композиция, содержащая:

систему доставки, функционально сконфигурированную с возможностью доставки компонентов комплекса CRISPR-Cas или одной или нескольких полинуклеотидных последовательностей, предусматривающих или кодирующих указанные компоненты, в клетку, и где указанный комплекс CRISPR-Cas является функциональным в клетке,

компоненты комплекса CRISPR-Cas или одну или несколько кодирующих полинуклеотидных последовательностей для транскрипции и/или трансляции в клетке, причем компоненты комплекса CRISPR-Cas предусматривают:

(I) не встречающийся в природе фермент CRISPR (например, сконструированный Cpf1), описываемый в данном документе;

(II) направляющую РНК для CRISPR-Cas, содержащую:

направляющую последовательность и

последовательность прямого повтора,

где фермент в комплексе CRISPR характеризуется сниженной способностью модифицировать один или несколько нецелевых локусов по сравнению с немодифицированным ферментом, и/или в результате чего фермент в комплексе CRISPR характеризуется повышенной способностью модифицировать один или несколько целевых локусов по сравнению с немодифицированным ферментом.

В одном аспекте настоящего изобретения также предусмотрена система, содержащая сконструированный белок CRISPR, описываемый в данном документе, такая как описана в данном разделе.

В случае любой такой композиции система доставки может предусматривать дрожжевую систему, систему на основе липофекции, систему на основе микроинъекции, систему на основе биолистики, виросомы, липосомы, иммунолипосомы, поликатионы, конъюгаты липид:нуклеиновая кислота или искусственные вирионы, определяемые в других разделах данного документа.

В случае любых таких композиций система доставки может предусматривать векторную систему, содержащую один или несколько векторов, и где компонент (II) содержит первый регуляторный элемент, функционально связанный с полинуклеотидной последовательностью, которая содержит направляющую последовательность, последовательность прямого повтора, и, необязательно, где компонент (I) содержит второй регуляторный элемент, функционально связанный с полинуклеотидной последовательностью, кодирующей фермент CRISPR.

В случае любых таких композиций система доставки может предусматривать векторную систему, содержащую один или несколько векторов, и где компонент (II) содержит первый регуляторный элемент, функционально связанный с направляющей последовательностью и последовательностью прямого повтора, и где компонент (I) содержит второй регуляторный элемент, функционально связанный с полинуклеотидной последовательностью, кодирующей фермент CRISPR.

В случае любых таких композиций композиция может предусматривать более одной направляющей РНК, и каждая направляющая РНК имеет свою мишень, в результате чего происходит мультиплексирование.

В случае любых таких композиций полинуклеотидная(полинуклеотидные) последовательность(последовательности) может(могут) находиться на одном векторе.

В настоящем изобретении также предусмотрена сконструированная не встречающаяся в природе векторная система на основе коротких палиндромных повторов, регулярно расположенных группами (CRISPR)-CRISPR-ассоциированного (Cas) (CRISPR-Cas), содержащая один или несколько векторов, содержащих:

a) первый регуляторный элемент, функционально связанный с нуклеотидной последовательностью, кодирующей не встречающийся в природе фермент CRISPR любой из конструкций по настоящему изобретению, изложенных в данном документе; и

b) второй регуляторный элемент, функционально связанный с одной или несколькими нуклеотидными последовательностями, кодирующими одну или несколько направляющих РНК, причем направляющая РНК содержит направляющую последовательность, последовательность прямого повтора,

где

компоненты (a) и (b) находятся в одном и том же или разных векторах,

образуется комплекс CRISPR;

направляющая РНК нацеливается на целевые полинуклеотидные локусы и фермент изменяет полинуклеотидные локусы, и

фермент в комплексе CRISPR характеризуется сниженной способностью модифицировать один или несколько нецелевых локусов по сравнению с немодифицированным ферментом, и/или в результате чего фермент в комплексе CRISPR характеризуется повышенной способностью модифицировать один или несколько целевых локусов по сравнению с немодифицированным ферментом.

В случае такой системы компонент (II) может содержать первый регуляторный элемент, функционально связанный с полинуклеотидной последовательностью, которая содержит направляющую последовательность, последовательность прямого повтора, и где компонент (II) может содержать второй регуляторный элемент, функционально связанный с полинуклеотидной последовательностью, кодирующей фермент CRISPR. В случае такой системы, если применимо, направляющая РНК может предусматривать химерную РНК.

В случае такой системы компонент (I) может содержать первый регуляторный элемент, функционально связанный с направляющей последовательностью и последовательностью прямого повтора, и где компонент (II) может содержать второй регуляторный элемент, функционально связанный с полинуклеотидной последовательностью, кодирующей фермент CRISPR. Такая система может содержать более одной направляющей РНК, и каждая направляющая РНК имеет свою мишень, в результате чего происходит мультиплексирование. Компоненты (a) и (b) могут быть расположены на одном и том же векторе.

В случае любой из таких систем, содержащих векторы, один или несколько векторов могут предусматривать один или несколько вирусных векторов, таких как один или несколько ретровирусных, лентивирусных, аденовирусных векторов, векторов на основе аденоассоциированного вируса или вируса простого герпеса.

В случае любой из таких систем, содержащих регуляторные элементы, по меньшей мере один из указанных регуляторных элементов может предусматривать тканеспецифичный промотор. Тканеспецифичный промотор может управлять экспрессией в клетке крови млекопитающего, в клетке печени млекопитающего или в глазу млекопитающего.

В случае любой из описанных выше композиций или систем последовательность прямого повтора может содержать один или несколько РНК-аптамеров, взаимодействующих с белком. Один или несколько аптамеров могут находиться в тетра-петле. Один или несколько аптамеров могут быть способны связывать белок оболочки бактериофага MS2.

В случае любой из описанных выше композиций или систем клетка может представлять собой эукариотическую клетку или прокариотическую клетку; где комплекс CRISPR является функциональным в клетке, и в результате этого фермент комплекса CRISPR характеризуется сниженной способностью модифицировать один или несколько нецелевых локусов в клетке по сравнению с немодифицированным ферментом и/или в результате этого фермент в комплексе CRISPR характеризуется повышенной способностью модифицировать один или несколько целевых локусов по сравнению с немодифицированным ферментом.

В настоящем изобретении также предусмотрен комплекс CRISPR любой из описанных выше композиций или из любой из описанных выше систем.

В настоящем изобретении также предусмотрен способ модифицирования представляющего интерес локуса в клетке, включающий приведение клетки в контакт с любым из описанных в данном документе сконструированных ферментов CRISPR (например, сконструированным Cpf1), композициями или любыми из описанных в данном документе системами или векторными системами, или где клетка содержит любой из описанных в данном документе комплексов CRISPR, присутствующих в клетке. В случае таких способов клетка может быть прокариотической или эукариотической клеткой, предпочтительно эукариотической клеткой. В случае таких способов организм может содержать клетку. В случае таких способов организм может не представлять собой человека или другое животное.

Любой такой способ может осуществляться ex vivo или in vitro.

В определенных вариантах осуществления нуклеотидная последовательность, кодирующая по меньшей мере одну из указанной направляющей РНК или белка Cas, функционально связана в клетке с регуляторным элементом, предусматривающим промотор представляющего интерес гена, в результате чего экспрессия по меньшей мере одного компонента системы CRISPR-Cas управляется промотором представляющего интерес гена. Подразумевается, что "функционально связанный" означает, что нуклеотидная последовательность, кодирующая направляющую РНК и/или Cas, связана с регуляторным(регуляторными) элементом(элементами) таким способом, который обеспечивает возможность экспрессии нуклеотидной последовательности, как также указано в других разделах данного документа. Термин "регуляторные элементы" также описан в других разделах данного документа. В соответствии с настоящим изобретением регуляторный элемент предусматривает промотор представляющего интерес гена, как, например, предпочтительно промотор представляющего интерес эндогенного гена. В определенных вариантах осуществления промотор находится в своем эндогенном положении в геноме. В таких вариантах осуществления нуклеиновая кислота, кодирующая CRISPR и/или Cas, находится под транскрипционным контролем промотора представляющего интерес гена в своем нативном положении в геноме. В других определенных вариантах осуществления промотор обеспечивается на (отдельной) молекуле нуклеиновой кислоты, такой как вектор или плазмида, или другой внехромосомной нуклеиновой кислоте, т. е. промотор не обеспечивается в своем нативном положении в геноме. В определенных вариантах осуществления промотор интегрирован в геном в ненативном положении в геноме.

Любой такой способ указанного модифицирования может предусматривать модулирование экспрессия гена. Указанное модулирование экспрессии гена может предусматривать активацию экспрессии гена и/или репрессию экспрессии гена. Соответственно, в одном аспекте настоящего изобретения предусмотрен способ модулирования экспрессии гена, где способ включает введение в клетку сконструированного белка CRISPR или системы, описываемых в данном документе.

В настоящем изобретении также предусмотрен способ лечения заболевания, нарушения или инфекции у индивидуума, нуждающегося в этом, включающий введение эффективного количества любого из сконструированных ферментов CRISPR (например, сконструированного Cpf1), композиций, систем или комплексов CRISPR, описываемых в данном документе. Заболевание, нарушение или инфекция могут предусматривать вирусную инфекцию. Вирусная инфекция может представлять собой инфекцию, вызванную HBV.

В настоящем изобретении также предусмотрено применение любого из сконструированных ферментов CRISPR (например, сконструированного Cpf1), композиций, систем или комплексов CRISPR, описанных выше, для редактирования гена или генома.

В настоящем изобретении также предусмотрен способ изменения экспрессии представляющего интерес локуса генома в клетке млекопитающего, включающий приведение клетки в контакт со сконструированными ферментами CRISPR (например, сконструированным Cpf1), композициями, системами или комплексами CRISPR, описываемыми в данном документе, и с доставкой тем самым CRISPR-Cas (вектора) и обеспечением возможности образования комплекса CRISPR-Cas и связывания с мишенью, и определение того, подверглась ли изменению экспрессия локуса генома, как, например, наблюдается ли повышение или снижение экспрессии или модификация продукта гена.

В настоящем изобретении также предусмотрены любые сконструированные ферменты CRISPR (например, сконструированный Cpf1), композиции, системы или комплексы CRISPR, описанные выше, для применения в качестве терапевтического средства. Терапевтическое средство может предназначаться для редактирования гена или генома, или генной терапии.

В определенных вариантах осуществления активность сконструированных ферментов CRISPR (например, сконструированный Cpf1), описываемых в данном документе, предусматривает расщепление геномной ДНК, необязательно приводящее к сниженной транскрипции гена.

В одном аспекте настоящего изобретения предусмотрена выделенная клетка с измененной экспрессией локуса генома, полученная в результате способа, описываемого в данном документе, где экспрессия изменена в сравнении с клеткой, которая не была подвергнута способу изменения экспрессии локуса генома. В связанном аспекте настоящего изобретения предусмотрена линия клеток, основанная такой клеткой.

доставку в HSC, например, путем приведения HSC в контакт с частицей, содержащей не встречающуюся в природе или сконструированную композицию, содержащую:

I. полинуклеотидную последовательность направляющей РНК (gRNA) системы CRISPR-Cas, содержащую:

(a) направляющую последовательность, способную гибридизироваться с целевой последовательностью в HSC,

(b) последовательность прямого повтора, и

II. фермент CRISPR, необязательно содержащий по меньшей мере одну или несколько последовательностей ядерной локализации,

где направляющая последовательность управляет специфичным к последовательности связыванием комплекса CRISPR с целевой последовательностью, и

где комплекс CRISPR содержит фермент CRISPR в комплексе с (1) направляющей последовательностью, которая гибридизирутеся с целевой последовательностью; и

способ также может необязательно включать доставку матрицы для HDR, например, посредством указанной частицы, приводимой в контакт с HSC, которая содержит матрицу для HDR, или посредством приведения HSC в контакт с другой частицей, содержащей матрицу для HDR, где матрица для HDR обеспечивает экспрессию нормальной или менее абберантной формы белка; где "нормальная" относится к дикому типу, а "абберантная" может обозначать экспрессию белка, которая приводит к возникновению патологического состояния или болезненного состояния; и

необязательно способ может включать выделение или получение HSC из организма или организма, отличного от человека, необязательно размножение популяции HSC, осуществление контакта частицы(частиц) с HSC c получением популяции модифицированных HSC, необязательно размножение популяции модифицированных HSC и необязательно введение модифицированных HSC в организм или организм, отличный от человека.

В одном аспекте настоящего изобретения предусмотрен способ модифицирования организма или организма, отличного от человека, путем манипуляции с целевой последовательностью в представляющем интерес локусе генома, например в HSC, например, где представляющий интерес локус генома ассоциирован с мутацией, ассоциированной с абберантной экспрессией белка или с болезненным состоянием или течением заболевания, включающий доставку в HSC, например, путем приведения HSC в контакт с частицей, содержащей не встречающуюся в природе или сконструированную композицию, содержащую: I. (a) направляющую последовательность, способную гибридизироваться с целевой последовательностью в HSC, и (b) по меньшей мере одну или несколько последовательностей прямого повтора, и II. фермент CRISPR, необязательно имеющий одну или несколько NLS, и при этом направляющая последовательность управляет специфичным к последовательности связыванием комплекса CRISPR c целевой последовательностью, и где комплекс CRISPR содержит фермент CRISPR в комплексе с направляющей последовательностью, которая гибридизируется с целевой последовательностью; и

Доставка может представлять собой доставку одного или нескольких полинуклеотидов, кодирующих какой-либо один или несколько или все из CRISPR-комплексов, преимущественно связанных с одним или несколькими регуляторными элементами для экспрессии in vivo, например, посредством частицы(частиц), (содержащей)содержащих вектор, содержащий полинуклеотид(полинуклеотиды), функционально связанный(связанные) с регуляторным(регуляторными) элементом(элементами). Любая или все из полинуклеотидной последовательности, кодирующей фермент CRISPR, направляющую последовательность, последовательность прямого повтора, могут представлять собой РНК. Следует иметь в виду, что если ссылаются на полинуклеотид, который представляет собой РНК, и, как говорят, "содержит" элемент, такой как последовательность прямого повтора, то последовательность РНК включает данный элемент. Если полинуклеотид представляет собой ДНК и, как говорят, содержит элемент, такой как последовательность прямого повтора, то последовательность ДНК транскрибируется или может быть транскрибирована в РНК, содержащую элемент, о котором идет речь. Если элемент представляет собой белок, как, например, фермент CRISPR, то упоминаемая последовательность ДНК или РНК транслируется или может быть транслирована (а в случае ДНК сначала транскрибируется).

В определенных вариантах осуществления настоящего изобретения предусмотрен способ модифицирования организма, например, млекопитающего, включая человека, или отличного от человека млекопитающего или организма путем манипуляции с целевой последовательностью в представляющем интерес локусе генома HSC, например, где представляющий интерес локус генома ассоциирован с мутацией, ассоциированной с абберантной экспрессией белка или с болезненным состоянием или течением заболевания, включающий доставку, например, путем приведения не встречающейся в природе или сконструированной композиция в контакт с HSC, где композиция содержит одну или несколько частиц, содержащих вирусный, плазмидный вектор(векторы) или вектор(векторы) на основе молекул нуклеиновой кислоты (например, РНК), функционально кодирующие композицию для их экспрессии, где композиция содержит: (A) I. первый регуляторный элемент, функционально связанный с полинуклеотидной последовательностью РНК системы CRISPR-Cas, где полинуклеотидная последовательность содержит (a) направляющую последовательность, способную гибридизироваться с целевой последовательностью в эукариотической клетке, (b) последовательность прямого повтора, и II. второй регуляторный элемент, функционально связанный с фермент-кодирующей последовательностью, которая кодирует фермент CRISPR, содержащий по меньшей мере одну или несколько последовательностей ядерной локализации (или необязательно по меньшей мере одну или несколько последовательностей ядерной локализации, поскольку в некоторых вариантах осуществления может не предусматриваться NLS), где (a), (b) и (c) расположены в 5'-3'-ориентации, где компоненты I и II находятся в одном и том же или разных векторах системы, где будучи транскрибированной, направляющая последовательность управляет специфическим к последовательности связыванием комплекса CRISPR с целевой последовательностью, и где комплекс CRISPR содержит фермент CRISPR в комплексе с направляющей последовательностью, которая гибридизирована с целевой последовательностью, или (B) не встречающуюся в природе или сконструированную композицию, содержащую векторную систему, содержащую один или несколько векторов, содержащих I. первый регуляторный элемент, функционально связанный с (a) направляющей последовательностью, способной гибридизироваться с целевой последовательностью в эукариотической клетке, и (b) по меньшей мере одной или несколькими последовательностями прямого повтора, II. второй регуляторный элемент, функционально связанный с фермент-кодирующей последовательностью, которая кодирует фермент CRISPR, и необязательно, если применимо, компоненты I и II находятся в одном и том же или разных векторах системы, где будучи транскрибированной, направляющая последовательность управляет специфичным к последовательности связыванием комплекса CRISPR с целевой последовательностью, и где комплекс CRISPR содержит фермент CRISPR в комплексе с направляющей последовательностью, которая гибридизирована с целевой последовательностью; причем способ также может необязательно включать доставку матрицы для HDR, например, посредством указанной частицы, приводимой в контакт с HSC, которая содержит матрицу для HDR, или посредством приведения HSC в контакт с другой частицей, содержащей матрицу для HDR, где матрица для HDR обеспечивает экспрессию нормальной или менее абберантной формы белка; где "нормальная" относится к дикому типу, а "абберантная" может обозначать экспрессию белка, которая приводит к возникновению патологического состояния или болезненного состояния; и необязательно способ может включать выделение или получение HSC от организма или организма, отличного от человека, необязательно размножение популяции HSC, осуществление контакта частицы(частиц) с HSC с получением популяции модифицированных HSC, необязательно размножение популяции модифицированных HSC и необязательно введение модифицированных HSC в организм или организм, отличный от человека. В некоторых вариантах осуществления компоненты I, II и III находятся в одном и том же векторе. В других вариантах осуществления компоненты I и II находятся в одном и том же векторе, тогда как компонент III находится в другом векторе. В других вариантах осуществления компоненты I и III находятся в одном и том же векторе, тогда как компонент II находится в другом векторе. В других вариантах осуществления компоненты II и III находятся в одном и том же векторе, тогда как компонент I находится в другом векторе. В других вариантах осуществления каждый из компонентов I, II и III находится в отдельных векторах. В настоящем изобретении также предусмотрена вирусная или плазмидная векторная система, описанная в данном документе.

Под манипуляцией с целевой последовательностью заявители также подразумевают эпигенетическую манипуляцию с целевой последовательностью. Она может осуществляться в отношении состояния хроматина целевой последовательности, как, например, путем модификации состояния метилирования целевой последовательности (т. е. добавление или устранение метилирования, или паттернов метилирования, или CpG-островков), модификации гистонов, повышения или снижения доступности целевой последовательности, или путем активации укладки в 3D-структуру. Следует иметь в виду, что если ссылаются на способ модифицирования организма или млекопитающего, включая человека или отличного от человека млекопитающего или организма, путем манипуляции с целевой последовательностью в представляющем интерес локусе генома, то он может применяться в отношении организма (или млекопитающего) в целом или всего лишь одной клетки или популяции клеток из этого организма (если организм является многоклеточным). Например, в случае человека заявители предусматривают, inter alia, одну клетку или популяцию клеток, и их предпочтительно можно модифицировать ex vivo и затем вводить обратно. В этом случае может быть необходим биоптат или другой образец ткани или биологической жидкости. Стволовые клетки также являются особенно предпочтительными в этом отношении. Но, разумеется, также предусматриваются варианты осуществления in vivo. И настоящее изобретение является особенно преимущественным в отношении HSC.

В некоторых вариантах осуществления настоящее изобретение охватывает способ модифицирования организма или организма, отличного от человека, путем манипуляции с первой и второй целевыми последовательностями на противоположных нитях ДНК-дуплекса в представляющем интерес локусе генома в HSC, например, где представляющий интерес локус генома ассоциирован с мутацией, ассоциированной с абберантной экспрессией белка или с болезненным состоянием или течением заболевания, предусматривающей доставку, например, путем приведения HSC в контакт с частицей(частицами), (содержащей)содержащими не встречающуюся в природе или сконструированную композицию, содержащую:

I. первую полинуклеотидную последовательность РНК системы CRISPR-Cas (например, Cpf1), где первая полинуклеотидная последовательность содержит:

(a) первую направляющую последовательность, способную гибридизироваться с первой целевой последовательностью,

(b) первую последовательность прямого повтора, и

II. вторую полинуклеотидную последовательность направляющей РНК системы CRISPR-Cas (например, Cpf1), где вторая полинуклеотидная последовательность содержит:

(a) вторую направляющую последовательность, способную гибридизироваться со второй целевой последовательностью,

(b) вторую последовательность прямого повтора, и

III. полинуклеотидную последовательность, кодирующую фермент CRISPR, содержащий по меньшей мере одну или несколько последовательностей ядерной локализации и содержащий одну или несколько мутаций, где (a), (b) и (c) расположены в 5'-3'-ориентации; или

IV. продукт(продукты) экспрессии одной или нескольких из I. - III., например, первую и вторую последовательности прямого повтора, фермент CRISPR;

где, будучи транскрибированными, первая и вторая направляющие последовательности управляют специфичным к последовательности связыванием первого и второго комплексов CRISPR с первой и второй целевыми последовательностями соответственно, где первый комплекс CRISPR содержит фермент CRISPR в комплексе с (1) первой направляющей последовательностью, которая гибридизирована с первой целевой последовательностью, где второй комплекс CRISPR содержит фермент CRISPR в комплексе с (1) второй направляющей последовательностью, которая гибридизирована со второй целевой последовательностью, где полинуклеотидная последовательность, кодирующая фермент CRISPR, представляет собой ДНК или РНК, и где первая направляющая последовательность управляет расщеплением одной нити ДНК-дуплекса возле первой целевой последовательности, а вторая направляющая последовательность управляет расщеплением другой нити возле второй целевой последовательности, индуцируя двухнитевой разрыв, за счет чего обеспечивается модифицирование организма или организма, отличного от человека; и при этом способ также может необязательно включать доставку матрицы для HDR, например, посредством частицы, приводимой в контакт с HSC, которая содержит матрицу для HDR, или посредством приведения HSC в контакт с другой частицей, содержащей матрицу для HDR, где матрица для HDR обеспечивает экспрессию нормальной или менее абберантной формы белка; где "нормальная" относится к дикому типу, а "абберантная" может обозначать экспрессию белка, которая приводит к возникновению патологического состояния или болезненного состояния; и при этом необязательно способ может включать выделение или получение HSC из организма или организма, отличного от человека, необязательно размножение популяции HSC, осуществление контакта частицы(частиц) с HSC с получением популяции модифицированных HSC, необязательно размножение популяции модифицированных HSC и необязательно введение модифицированных HSC в организм или организм, отличный от человека. В некоторых способах по настоящему изобретению любая или все из полинуклеотидной последовательности, кодирующей фермент CRISPR, первой и второй направляющих последовательностей, первой и второй последовательностей прямого повтора. В дополнительных вариантах осуществления настоящего изобретения полинуклеотиды, кодирующие последовательность, кодирующую фермент CRISPR, первую и вторую направляющие последовательности, первую и вторую последовательности прямого повтора, представляют собой РНК и доставляются с помощью липосом, наночастиц, экзосом, микровезикул или генной пушки; но преимущественно, чтобы доставка осуществлялась посредством частицы. В определенных вариантах осуществления настоящего изобретения первая и вторая последовательности прямого повтора характеризуются 100% идентичностью. В некоторых вариантах осуществления полинуклеотиды могут содержаться в векторной системе, содержащей один или несколько векторов. В предпочтительных вариантах осуществления первый фермент CRISPR имеет одну или несколько мутаций, вследствие которых фермент является ферментом, вносящим однонитевой разрыв в комплементарную нить, а второй фермент CRISPR имеет одну или несколько мутаций, вследствие которых фермент является ферментом, вносящим однонитевой разрыв в некомплементарную нить. Альтернативно первый фермент может являться ферментом, вносящим однонитевой разрыв в некомплементарную нить, а второй фермент может являться ферментом, вносящим однонитевой разрыв в комплементарную нить. В предпочтительных способах по настоящему изобретению первая направляющая последовательность, управляющая расщеплением одной нити ДНК-дуплекса возле первой целевой последовательности, и вторая направляющая последовательность, управляющая расщеплением другой нити возле второй целевой последовательности, приводят к образованию "липкого" 5'-конца. В вариантах осуществления настоящего изобретения "липкий" 5'-конец содержит не более 200 пар оснований, предпочтительно не более 100 пар оснований или более предпочтительно не более 50 пар оснований. В вариантах осуществления настоящего изобретения "липкий" 5'-конец содержит по меньшей мере 26 пар оснований, предпочтительно по меньшей мере 30 пар оснований или более предпочтительно 34-50 пар оснований.

В некоторых вариантах осуществления настоящее изобретение охватывает способ модифицирования организма или организма, отличного от человека, путем манипуляции с первой и второй целевыми последовательностями на противоположных нитях ДНК-дуплекса в представляющем интерес локусе генома, например, в HSC, например, где представляющий интерес локус генома ассоциирован с мутацией, ассоциированной с абберантной экспрессией белка или с болезненным состоянием или течением заболевания, включающий доставку, например, путем приведения HSC в контакт с частицей(частицами), содержащей(содержащими) не встречающуюся в природе или сконструированную композицию, содержащую:

I. первый регуляторный элемент, функционально связанный с

(a) первой направляющей последовательностью, способной гибридизироваться с первой целевой последовательностью, и

(b) по меньшей мере одной или несколькими последовательностями прямого повтора,

II. второй регуляторный элемент, функционально связанный со

(a) второй направляющей последовательностью, способной гибридизироваться со второй целевой последовательностью, и

(b) по меньшей мере одной или несколькими последовательностями прямого повтора,

III. третий регуляторный элемент, функционально связанный с фермент-кодирующей последовательностью, которая кодирует фермент CRISPR (например, Cpf1), и

V. продукт(продукты) экспрессии одной или нескольких из I. - IV., например, первую и вторую последовательности прямого повтора, фермент CRISPR;

где компоненты I, II, III и IV расположены в одном и том же или разных векторах системы, при этом будучи транскрибированными, первая и вторая направляющие последовательности управляют специфичным к последовательности связыванием первого и второго комплексов CRISPR с первой и второй целевыми последовательностями соответственно, где первый комплекс CRISPR содержит фермент CRISPR в комплексе с (1) первой направляющей последовательностью, которая гибридизирована с первой целевой последовательностью, где второй комплекс CRISPR содержит фермент CRISPR в комплексе со второй направляющей последовательностью, которая гибридизирована со второй целевой последовательностью, где полинуклеотидная последовательность, кодирующая фермент CRISPR, представляет собой ДНК или РНК, и где первая направляющая последовательность управляет расщеплением одной нити ДНК-дуплекса возле первой целевой последовательности, а вторая направляющая последовательность управляет расщеплением другой нити возле второй целевой последовательности, индуцируя двухнитевой разрыв, за счет чего осуществляется модифицирование организма или организма, отличного от человека; и при этом способ также может необязательно включать доставку матрицы для HDR, например, посредством указанной частицы, приводимой в контакт с HSC, которая содержит матрицу для HDR, или посредством приведения HSC в контакт с другой частицей, содержащей матрицу для HDR, где матрица для HDR обеспечивает экспрессию нормальной или менее абберантной формы белка; где "нормальная" относится к дикому типу, а "абберантная" может обозначать экспрессию белка, которая приводит к возникновению патологического состояния или болезненного состояния; и при этом необязательно способ может включать выделение или получение HSC из организма или организма, отличного от человека, необязательно размножение популяции HSC, осуществление контакта частицы(частиц) с HSC с получением популяции модифицированных HSC, необязательно размножение популяции модифицированных HSC и необязательно введение модифицированных HSC в организм или организм, отличный от человека.

В настоящем изобретении также предусмотрена векторная система, описанная в данном документе. Система может содержать один, два, три или четыре различных вектора. Компоненты I, II, III и IV, таким образом, могут находиться в одном, двух, трех или четырех разных векторах, и в данном документе предусмотрены все комбинации возможных местоположений компонентов, например, компоненты I, II, III и IV могут находиться в одном и том же векторе; каждый из компонентов I, II, III и IV может находиться в отдельных векторах; компоненты I, II, III и IV могут находиться в общей сложности в двух или трех разных векторах, при этом предусмотрены все комбинации местоположений и т. п. В некоторых способах по настоящему изобретению любая или все из полинуклеотидной последовательности, кодирующей фермент CRISPR, первой и второй направляющих последовательностей, первой и второй последовательностей прямого повтора, представляет собой/представляют собой РНК. В дополнительных вариантах осуществления настоящего изобретения первая и вторая последовательности прямого повтора характеризуются 100% идентичностью. В предпочтительных вариантах осуществления первый фермент CRISPR имеет одну или несколько мутаций, вследствие которых фермент является ферментом, вносящим однонитевой разрыв в комплементарную нить, а второй фермент CRISPR имеет одну или несколько мутаций, вследствие которых фермент является ферментом, вносящим однонитевой разрыв в некомплементарную нить. Альтернативно первый фермент может являться ферментом, вносящим однонитевой разрыв в некомплементарную нить, а второй фермент может являться ферментом, вносящим однонитевой разрыв в комплементарную нить. В дополнительном варианте осуществления настоящего изобретения один или несколько вирусных векторов доставляются посредством липосом, наночастиц, экзосом, микровезикул или генной пушки; но доставка с помощью частиц является преимущественной.

В предпочтительных способах по настоящему изобретению первая направляющая последовательность, управляющая расщеплением одной нити ДНК-дуплекса возле первой целевой последовательности, и вторая направляющая последовательность, управляющая расщеплением другой нити возле второй целевой последовательности, обуславливают образование "липкого" 5'-выступающего конца. В вариантах осуществления настоящего изобретения "липкий" 5'-конец содержит не более 200 пар оснований, предпочтительно не более 100 пар оснований или более предпочтительно не более 50 пар оснований. В вариантах осуществления настоящего изобретения "липкий" 5'-конец содержит по меньшей мере 26 пар оснований, предпочтительно по меньшей мере 30 пар оснований или более предпочтительно 34-50 пар оснований.

В некоторых вариантах осуществления настоящее изобретение охватывает способ модифицирования представляющего интерес локуса генома, например в HSC, например, где представляющий интерес локус генома ассоциирован с мутацией, ассоциированной с абберантной экспрессией белка или с болезненным состоянием или течением заболевания, путем введения в HSC, например, путем приведения HSC в контакт с частицей(частицами), содержащей(содержащими) белок Cas с одной или несколькими мутациями и две направляющие РНК, которые нацеливаются на первую нить и вторую нить молекулы ДНК соответственно в HSC, в результате чего направляющие РНК нацеливаются на молекулу ДНК, а белок Cas вносит однонитевой разрыв в каждую из первой нити и второй нити молекулы ДНК, в результате чего мишень в HSC изменяется; и, где белок Cas и две направляющие РНК не встречаются в природе вместе, и при этом способ необязательно может также включать доставку матрицы для HDR, например, посредством указанной частицы, приводимой в контакт с HSC, которая содержит матрицу для HDR, или посредством приведения HSC в контакт с другой частицей, содержащей матрицу для HDR, где матрица для HDR обеспечивает экспрессию нормальной или менее абберантной формы белка; где "нормальная" относится к дикому типу, а "абберантная" может обозначать экспрессию белка, которая приводит к возникновению патологического состояния или болезненного состояния; и при этом необязательно способ может включать выделение или получение HSC из организма или организма, отличного от человека, необязательно размножение популяции HSC, осуществление контакта частицы(частиц) с HSC получением популяции модифицированных HSC, необязательно размножение популяции модифицированных HSC и необязательно введение модифицированных HSC в организм или организм, отличный от человека. В предпочтительных способах по настоящему изобретению белок Cas вносит однонитевой разрыв в каждую из первой нити и второй нити молекулы ДНК, что приводит к образованию "липкого" 5'-конца. В вариантах осуществления настоящего изобретения "липкий" 5'-конец содержит не более 200 пар оснований, предпочтительно не более 100 пар оснований или более предпочтительно не более 50 пар оснований. В вариантах осуществления настоящего изобретения "липкий" 5'-конец содержит по меньшей мере 26 пар оснований, предпочтительно по меньшей мере 30 пар оснований или более предпочтительно 34-50 пар оснований. В одном аспекте настоящего изобретения белок Cas является кодон-оптимизированным для экспрессии в эукариотической клетке, предпочтительно в клетке млекопитающего или клетке человека. Аспекты настоящего изобретения относятся к снижению экспрессии продукта гена, или к дополнительному введению полинуклеотидной матрицы в молекулу ДНК, кодирующую продукт гена, или к точному вырезанию вставочной последовательности путем обеспечения повторной гибридизации и лигирования двух "липких" 5’-концов, или к изменению активности или функционирования продукта гена, или к повышению экспрессии продукта гена. В одном варианте осуществления настоящего изобретения продукт гена представляет собой белок.

a) первый регуляторный элемент, функционально связанный с каждой из двух направляющих РНК системы CRISPR-Cas, которые нацеливаются на первую нить и вторую нить соответственно двухнитевой молекулы ДНК HSC, и

b) второй регуляторный элемент, функционально связанный с белком Cas (например, Cpf1), или

c) продукт экспрессии(продукты экспрессии) a) или b),

где компоненты (a) и (b) находятся в одном и том же или разных векторах системы, в результате чего направляющие РНК нацеливаются на молекулу ДНК HSC, а белок Cas вносит однонитевой разрыв в каждую из первой нити и второй нити молекулы ДНК HSC; и где белок Cas и две направляющие РНК не встречаются в природе вместе; и при этом способ необязательно может также включать доставку матрицы для HDR, например, посредством указанной частицы, приводимой в контакт с HSC, которая содержит матрицу для HDR, или посредством приведения HSC в контакт с другой частицей, содержащей матрицу для HDR, где матрица для HDR обеспечивает экспрессию нормальной или менее абберантной формы белка; где "нормальная" относится к дикому типу, а "абберантная" может обозначать экспрессию белка, которая приводит к возникновению патологического состояния или болезненного состояния; и при этом необязательно способ может включать выделение или получение HSC из организма или организма, отличного от человека, необязательно размножение популяции HSC, осуществление контакта частицы(частиц) с HSC с получением популяции модифицированных HSC, необязательно размножение популяции модифицированных HSC и необязательно введение модифицированных HSC в организм или организм, отличный от человека. В аспектах настоящего изобретения направляющие РНК могут содержать направляющую последовательность, слитую с последовательностью прямого повтора. Аспекты настоящего изобретения относятся к снижению экспрессии продукта гена, или к дополнительному введению полинуклеотидной матрицы в молекулу ДНК, кодирующую продукт гена, или к точному вырезанию вставочной последовательности путем обеспечения повторной гибридизации и лигирования двух "липких" 5’-концов, или к изменению активности или функционирования продукта гена, или к повышению экспрессии продукта гена. В одном варианте осуществления настоящего изобретения продукт гена представляет собой белок. В предпочтительных вариантах осуществления настоящего изобретения векторы системы являются вирусными векторами. В дополнительном варианте осуществления векторы системы доставляют посредством липосом, наночастиц, экзосом, микровезикул или генной пушки; причем частицы являются предпочтительными. В одном аспекте настоящего изобретения предусмотрен способ модифицирования целевого полинуклеотида в HSC. В некоторых вариантах осуществления способ включает обеспечение связывания комплекса CRISPR с целевым полинуклеотидом для осуществления расщепления указанного целевого полинуклеотида, за счет чего обеспечивается модифицирование целевого полинуклеотида, где комплекс CRISPR содержит фермент CRISPR в комплексе с направляющей последовательностью, гибридизированной с целевой последовательностью в пределах указанного целевого полинуклеотида, где указанная направляющая последовательность связана с последовательностью прямого повтора. В некоторых вариантах осуществления указанное расщепление предусматривает расщепление одной или двух нитей в определенном положении целевой последовательности с помощью указанного фермента CRISPR. В некоторых вариантах осуществления указанное расщепление приводит к сниженной транскрипции целевого гена. В некоторых вариантах осуществления способ дополнительно включает репарацию указанного расщепленного целевого полинуклеотида с помощью гомологичной рекомбинации с экзогенной полинуклеотидной матрицей, где указанная репарация приводит к возникновению мутации, предусматривающей вставку, делецию или замену одного или нескольких нуклеотидов в указанном целевом полинуклеотиде. В некоторых вариантах осуществления указанная мутация приводит к изменению одной или нескольких аминокислот в белке, экспрессируемом с гена, содержащего целевую последовательность. В некоторых вариантах осуществления способ дополнительно включает доставку одного или нескольких векторов или продукта(продуктов) их экспрессии, например, посредством частицы(частиц), например, в указанную HSC, где один или несколько векторов управляют экспрессией одного или нескольких из фермента CRISPR, направляющей последовательности, связанной с последовательностью прямого повтора. В некоторых вариантах осуществления указанные векторы доставляются, например, в HSC, находящуюся в организме субъекта. В некоторых вариантах осуществления указанное модифицирование происходит в указанной HSC, находящей в культуре клеток. В некоторых вариантах осуществления способ дополнительно включает выделение указанной HSC из организма субъекта перед проведением указанного модифицирования. В некоторых вариантах осуществления способ дополнительно включает возвращение указанных HSC и/или клеток, происходящих из них, указанному субъекту.

В одном аспекте настоящего изобретения предусмотрен способ получения, например, HSC, содержащей мутированный ген, ответственный за развитие заболевания. В некоторых вариантах осуществления ген, ответственный за развитие заболевания, является любым геном, ассоциированным с повышением риска наличия или развития заболевания. В некоторых вариантах осуществления способ включает (a) введение одного или нескольких векторов или продукта(продуктов) их экспрессии, например, посредством частицы(частиц) в HSC, где один или несколько векторов управляют экспрессией одного или нескольких из: фермента CRISPR, направляющей последовательности, связанной с парной последовательностью прямого повтора; и (b) обеспечение связывания комплекса CRISPR с целевым полинуклеотидом для осуществления расщепления целевого полинуклеотида в указанном гене, ответственном за развитие заболевания, где комплекс CRISPR содержит фермент CRISPR в комплексе с направляющей последовательностью, которая гибридизирована с целевой последовательностью в целевом полинуклеотиде, и необязательно, если применимо, с получением тем самым HSC, содержащей мутированный ген, ответственный за развитие заболевания. В некоторых вариантах осуществления указанное расщепление предусматривает расщепление одной или двух нитей в определенном положении целевой последовательности с помощью указанного фермента CRISPR. В некоторых вариантах осуществления указанное расщепление приводит к сниженной транскрипции целевого гена. В некоторых вариантах осуществления способ дополнительно включает репарацию указанного расщепленного целевого полинуклеотида с помощью гомологичной рекомбинации с экзогенной полинуклеотидной матрицей, где указанная репарация приводит к возникновению мутации, предусматривающей вставку, делецию или замену одного или нескольких нуклеотидов в указанном целевом полинуклеотиде. В некоторых вариантах осуществления указанная мутация приводит к изменению одной или нескольких аминокислот при экспрессии белка с гена, содержащего целевую последовательность. В некоторых вариантах осуществления модифицированную HSC вводят животному с получением тем самым животной модели.

В одном аспекте настоящего изобретения предусмотрены способы модифицирования целевого полинуклеотида, например, в HSC. В некоторых вариантах осуществления способ включает обеспечение связывания комплекса CRISPR с целевым полинуклеотидом для осуществления расщепления указанного целевого полинуклеотида, за счет чего обеспечивается модифицирование целевого полинуклеотида, где комплекс CRISPR содержит фермент CRISPR в комплексе с направляющей последовательностью, гибридизированной с целевой последовательностью в пределах указанного целевого полинуклеотида, где указанная направляющая последовательность связана с последовательностью прямого повтора. В других вариантах осуществления настоящего изобретения предусмотрен способ модифицирования экспрессии полинуклеотида в эукариотической клетке, которая происходит, например, из HSC. Способ включает повышение или снижение экспрессии целевого полинуклеотида с помощью применения комплекса CRISPR, который связывается с полинуклеотидом в HSC; преимущественно комплекс CRISPR доставляется посредством частицы(частиц).

В некоторых способах целевой полинуклеотид можно инактивировать для осуществления модифицирования экспрессии, например, в HSC. Например, после связывания комплекса CRISPR с целевой последовательностью в клетке целевой полинуклеотид инактивируется, вследствие чего последовательность не транскрибируется, при этом не вырабатывается кодируемый белок или последовательность не функционирует так, как последовательность дикого типа.

В некоторых вариантах осуществления РНК из системы CRISPR-Cas, например, направляющая или gRNA, может быть модифицирована; например, включать аптамер или функциональный домен. Аптамер представляет собой синтетический олигонуклеотид, который связывается со специфической целевой молекулой; к примеру, молекулой нуклеиновой кислоты, которая была сконструирована благодаря повторным раундам in vitro отбора или SELEX (систематическая эволюция лигандов с помощью экспоненциального обогащения) для связывания с различными молекулярными мишенями, такими как малые молекулы, белки, нуклеиновые кислоты и даже клетки, ткани и организмы. Аптамеры являются пригодными в том, что они обеспечивают свойства молекулярного распознавания, что делает их конкурентами антител. В дополнение к их способности дифференциального распознавания, аптамеры предоставляют преимущества в сравнении с антителами, включая то, что при применении в терапевтических целях они вызывают небольшую иммуногенность или не вызывают ее. Соответственно, при осуществлении настоящего изобретения на практике, любое или оба из фермента или РНК могут включать функциональный домен.

В некоторых вариантах осуществления функциональный домен представляет собой домен активации транскрипции, предпочтительно VP64. В некоторых вариантах осуществления функциональный домен представляет собой домен репрессии транскрипции, предпочтительно KRAB. В некоторых вариантах осуществления домен репрессии транскрипции представляет собой SID или конкатемеры SID (например, SID4X). В некоторых вариантах осуществления функциональный домен представляет собой домен эпигенетического модифицирования, так что обеспечивается фермент эпигенетического модифицирования. В некоторых вариантах осуществления функциональный домен представляет собой домен активации, который может представлять собой домен активации P65. В некоторых вариантах осуществления функциональный домен предусматривает нуклеазную активность. В одном таком варианте осуществления функциональный домен предусматривает Fok1.

В настоящем изобретении также предусмотрена in vitro или ex vivo клетка, содержащая любое из модифицированных ферментов CRISPR, композиций, систем или комплексов, описанных выше, или из любого из способов, описанных выше. Клетка может быть эукариотической клеткой или прокариотической клеткой. В настоящем изобретении также предусмотрено потомство таких клеток. В настоящем изобретении также предусмотрен продукт любой такой клетки или любого такого потомства, где продукт представляет собой продукт указанного одного или нескольких целевых локусов, модифицированных с помощью модифицированного фермента CRISPR из комплекса CRISPR. Продукт может представлять собой пептид, полипептид или белок. Некоторые такие продукты могут быть модифицированы с помощью модифицированного фермента CRISPR из комплекса CRISPR. В случае некоторых таких модифицированных продуктов продукт целевого локуса физически отличается от продукта указанного целевого локуса, который не был модифицирован с помощью указанного модифицированного фермента CRISPR.

В настоящем изобретении также предусмотрена полинуклеотидная молекула, содержащая полинуклеотидную последовательность, кодирующую любой из не встречающихся в природе ферментов CRISPR, описанный выше.

Любой такой полинуклеотид может дополнительно содержать один или несколько регуляторных элементов, которые функционально связаны с полинуклеотидной последовательностью, кодирующей не встречающийся в природе фермент CRISPR.

В случае любого такого полинуклеотида, который содержит один или несколько регуляторных элементов, один или несколько регуляторных элементов могут быть функционально сконфигурированы с возможностью экспрессии не встречающегося в природе фермента CRISPR в эукариотической клетке. Эукариотическая клетка может представлять собой клетку человека. Эукариотическая клетка может представлять собой клетку грызуна, необязательно клетку мыши. Эукариотическая клетка может представлять собой клетку дрожжей. Эукариотическая клетка может представлять собой клетку яичника китайского хомячка (CHO). Эукариотическая клетка может представлять собой клетку насекомого.

В настоящем изобретении также предусмотрен вектор экспрессии, содержащий любую из описанных выше полинуклеотидных молекул. В настоящем изобретении также предусмотрена такая полинуклеотидная молекула(молекулы), к примеру, такие полинуклеотидные молекулы, функционально сконфигурированные для обеспечения экспрессии белка и/или компонента(компонентов) на основе нуклеиновой кислоты, а также такой вектор(векторы).

В настоящем изобретении дополнительно предусмотрен способ получения мутаций в Cas (например, Cpf1) или мутированного или модифицированного Cas (например, Cpf1), который является ортологом ферментов CRISPR в соответствии с настоящим изобретением, как описано в данном документе, включающий определение аминокислоты(аминокислот), которые в таком ортологе могут находиться в непосредственной близости или могут касаться молекулы нуклеиновой кислоты, например, ДНК, РНК, gRNA и т. д., и/или аминокислоты(аминокислот), аналогичных или соответствующих идентифицированной в данном документе аминокислоте(аминокислотам) в ферментах CRISPR в соответствии с настоящим изобретением, как описано в данном документе, для осуществления модификации и/или мутации, и синтеза, или получения, или экспрессии ортолога, содержащего, состоящего из или состоящего, по сути, из модификации(модификаций) и/или мутации(мутаций), или осуществления мутирования, как обсуждается в данном документе, например, путем модифицирования, например, изменения или мутирования, нейтральной аминокислоты в заряженную, например положительно заряженную аминокислоту, например, из аланина, например, в лизин. Модифицированный таким образом ортолог можно применять в системах CRISPR-Cas; и молекулу(молекулы) нуклеиновой кислоты, экспрессирующую(экспрессирующие) его, можно применять в векторе или других системах доставки, которые доставляют молекулы или кодируют компоненты системы CRISPR-Cas, как обсуждается в данном документе.

В одном аспекте настоящего изобретения предусмотрены эффективная целевая активность и сведенная к минимуму нецелевая активность. В одном аспекте настоящего изобретения предусмотрено эффективное целевое расщепление с помощью белка CRISPR и сведенное к минимуму нецелевое расщепление под действием белка CRISPR. В одном аспекте настоящего изобретения предусмотрено направленно-специфичное связывание белка CRISPR в генном локусе без расщепления ДНК. В одном аспекте настоящего изобретения предусмотрены эффективное управляемое направляющей последовательностью целевое связывание белка CRISPR в генном локусе и сведенное к минимуму нецелевое связывание белка CRISPR. Соответственно, в одном аспекте настоящего изобретения предусмотрена специфичная к мишени генная регуляция. В одном аспекте настоящего изобретения предусмотрено направленно-специфичное связывание фермента CRISPR в генном локусе без расщепления ДНК. Соответственно, в одном аспекте настоящего изобретения предусмотрено расщепление в одном генном локусе и генная регуляция в другом генном локусе с применением одного фермента CRISPR. В одном аспекте настоящего изобретения предусмотрена ортогональная активация и/или ингибирование и/или расщепление нескольких мишеней с применением одного или нескольких белков и/или ферментов CRISPR.

В другом аспекте настоящего изобретения предусмотрен способ функционального скрининга генов в геноме в пуле клеток ex vivo или in vivo, включающий введение или экспрессию библиотеки, содержащей несколько направляющих РНК (gRNA) системы CRISPR-Cas, и где скрининг дополнительно предусматривает применение фермента CRISPR, где комплекс CRISPR является модифицированным, чтобы содержать гетерологичный функциональный домен. В одном аспекте настоящего изобретения предусмотрен способ скрининга генома, включающий введение хозяину библиотеки или ее экспрессию у хозяина in vivo. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, дополнительно включающий введение хозяину активатора или его экспрессию у хозяина. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, где активатор прикреплен к белку CRISPR. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, где активатор прикреплен к N-концу или C-концу белка CRISPR. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, где активатор прикреплен к петле gRNA. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, дополнительно включающий введение хозяину репрессора или его экспрессию у хозяина. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, где скрининг предусматривает воздействие на активацию гена, ингибирование гена или расщепление в локусе, и выявление указанного.

В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, где хозяином является эукариотическая клетка. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, где хозяином является клетка млекопитающего. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, где хозяином является клетка эукариотического организма, отличного от человека. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, где клеткой эукариотического организма, отличного от человека, является клетка млекопитающего, отличного от человека. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, где клетка млекопитающего, отличного от человека, может представлять собой, включая без ограничения клетку представителя приматов, бычьих, овечьих, свиньих, псовых, грызунов, Leporidae, как, например, обезьяны, коровы, овцы, свиньи, собаки, кролика, крысы или мыши. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, причем клетка может представлять собой эукариотическую клетку от организма, отличного от млекопитающего, как, например, клетку домашней птицы (например, курицы), позвоночной рыбы (например, лосося) или моллюсков и ракообразных (например, устрицы, двустворчатых моллюсков, омара, креветки). В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, причем клеткой эукариотического организма, отличного от человека, является растительная клетка. Растительная клетка может быть получена от однодольного или двудольного растения, или от сельскохозяйственного или зернового растения, такого как маниока, кукуруза, сорго, соя, пшеница, овес или рис. Растительная клетка также может быть получена от водоросли, дерева или продуктивного растения, фрукта или овоща (например, деревьев, таких как цитрусовые деревья, например, деревья апельсина, грейпфрута или лимона; деревья персика или нектарина; деревья яблони или груши; орехоплодные деревья, такие как деревья миндаля, или грецкого ореха, или фисташки; пасленовых растений; растений из рода Brassica; растений из рода Lactuca; растений из рода Spinacia; растений из рода Capsicum; хлопчатника, табака, спаржи, моркови, капусты кочанной, брокколи, цветной капусты, томата, баклажана, перца, салата, шпината, земляники, черники, малины, ежевики, винограда, кофе, какао и т.д.).

В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, включающий доставку комплексов CRISPR-Cas, или их компонента(компонентов), или молекулы(молекул) нуклеиновой кислоты, кодирующей их, где указанная молекула(молекулы) нуклеиновой кислоты функционально связаны с регуляторной последовательностью(последовательностями) и экспрессируются in vivo. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, где экспрессия in vivo осуществляется с помощью лентивируса, аденовируса или AAV. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, где доставка осуществляется с помощью частицы, наночастицы, липида или пептида, проникающих в клетку (CPP).

В конкретных вариантах осуществления интерес может представлять нацеливание комплекса CRISPR-Cas в хлоропласт. Во многих случаях это нацеливание может достигаться с помощью присутствия N-концевого удлинения, называемого транзитный пептид хлоропласта (CTP) или транзитный пептид пластиды. Хромосомные трансгены из бактериальных источников должны иметь последовательность, кодирующую последовательность CTP, слитую с последовательностью, кодирующей экпрессируемый полипептид, если экпрессируемый полипептид должен быть компартментализован в растительную плазмиду (например, хлоропласт). Соответственно, направление экзогенного полипептида в хлоропласт зачастую 1 осуществляется посредством функционального связывания полинуклеотидной последовательности, кодирующей последовательность CTP, с 5'-участком полинуклеотида, кодирующего экзогенный полипептид. CTP удаляется на стадии процессинга во время транслокации в пластиду. На эффективность процессинга, однако, может воздействовать аминокислотная последовательность CTP и ближайшие последовательности на NH2-конце пептида. Другими элементами для нацеливания в хлоропласт, которые были описаны, являются сигнальная последовательность cab-m7 маиса (патент США № 7022896, WO 97/41228), сигнальная последовательность глутатион-редуктазы гороха (WO 97/41228) и CTP, описанный в US2009029861.

В одном аспекте настоящего изобретения предусмотрена пара комплексов CRISPR-Cas, при этом каждый из них содержит направляющую РНК (gRNA), предусматривающую направляющую последовательность, способную гибридизироваться с целевой последовательностью в представляющем интерес локусе генома в клетке, где по меньшей мере одна петля каждой sgRNA является модифицированной путем вставки отличающейся(отличающихся) последовательности(последовательностей) РНК, которая(которые) связывается(связываются) с одним или несколькими адаптерными белками, и где адаптерный белок ассоциирован с одним или несколькими функциональными доменами, где каждая gRNA из каждого CRISPR-Cas содержит функциональный домен, характеризующийся активностью расщепления ДНК. В одном аспекте настоящего изобретения предусмотрены парные комплексы CRISPR-Cas, обсуждаемые в данном документе, где активность расщепления ДНК обусловлена нуклеазой Fok1.

В одном аспекте настоящего изобретения предусмотрен способ разрезания целевой последовательности в представляющем интерес локусе генома, включающий доставку в клетку комплексов CRISPR-Cas, или их компонента(компонентов), или молекулы(молекул) нуклеиновой кислоты, кодирующей их, где указанная молекула(молекулы) нуклеиновой кислоты функционально связаны с регуляторной последовательностью(последовательностями) и экспрессируются in vivo. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, где доставка осуществляется с помощью лентивируса, аденовируса или AAV. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, или парные комплексы CRISPR-Cas, обсуждаемые в данном документе, где целевая последовательность для первого комплекса из пары находится на первой нити двухнитевой ДНК, а целевая последовательность для второго комплекса из пары находится на второй нити двухнитевой ДНК. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, или парные комплексы CRISPR-Cas, обсуждаемые в данном документе, где целевые последовательности первого и второго комплексов расположены близко друг от друга, так что ДНК разрезается таким способом, который облегчает репарацию с помощью гомологичной рекомбинации. В одном аспекте способ, изложенный в данном документе, может дополнительно включать введение в клетку ДНК-матрицы. В одном аспекте способа, изложенного в данном документе, могут подразумеваться парные комплексы CRISPR-Cas, изложенные в данном документе, где каждый комплекс CRISPR-Cas имеет фермент CRISPR, который является мутированным, так что он характеризуется не более, чем приблизительно 5% нуклеазной активности фермента CRISPR, который не является мутированным.

В одном аспекте настоящего изобретения предусмотрены библиотека, способ или комплекс, обсуждаемые в данном документе, где gRNA является модифицированной так, что она имеет по меньшей мере одну некодирующую функциональную петлю, например, где по меньшей мере одна некодирующая функциональная петля является репрессорной; например, где по меньшей мере одна некодирующая функциональная петля содержит Alu.

В одном аспекте настоящего изобретения предусмотрен способ изменения или модифицирования экспрессии продукта гена. Указанный способ может включать введение в клетку, содержащую и экспрессирующую молекулу ДНК, кодирующую продукт гена, сконструированной не встречающейся в природе системы CRISPR-Cas, содержащей белок Cas и направляющую РНК, которая нацеливается на молекулу ДНК, в результате чего направляющая РНК нацеливается на молекулу ДНК, кодирующую продукт гена, а белок Cas расщепляет молекулу ДНК, кодирующую продукт гена, в результате чего экспрессия продукта гена является измененной; и где белок Cas и направляющая РНК не встречаются в природе вместе. Настоящее изобретение дополнительно охватывает белок Cas, который является кодон-оптимизированным для экспрессии в эукариотической клетке. В предпочтительном варианте осуществления эукариотическая клетка является клеткой млекопитающего, и в более предпочтительном варианте осуществления клетка млекопитающего является клеткой человека. В дополнительном варианте осуществления настоящего изобретения экспрессия продукта гена является сниженной.

В одном аспекте настоящего изобретения предусмотрены измененные клетки и потомство таких клеток, а также продукты, производимые клетками. Белки и системы CRISPR-Cas (например, Cpf1) по настоящему изобретению применяют для получения клеток, содержащих модифицированный целевой локус. В некоторых вариантах осуществления способ может включать обеспечение связывания комплекса нацеливания на нуклеиновую кислоту с целевой ДНК или РНК для осуществления расщепления указанной целевой ДНК или РНК, за счет чего осуществляется модифицирование целевой ДНК или РНК, где комплекс нацеливания на нуклеиновую кислоту содержит эффекторный белок для нацеливания на нуклеиновую кислоту в комплексе с направляющей РНК, гибридизированной с целевой последовательностью в пределах указанной целевой ДНК или РНК. В одном аспекте настоящего изобретения предусмотрен способ репарации локуса гена в клетке. В другом аспекте настоящего изобретения предусмотрен способ модифицирования экспрессии ДНК или РНК в эукариотической клетке. В некоторых вариантах осуществления способ включает обеспечение связывания комплекса нацеливания на нуклеиновую кислоту с ДНК или РНК, так что указанное связывание приводит к повышенной или сниженной экспрессии указанной ДНК или РНК; где комплекс нацеливания на нуклеиновую кислоту содержит эффекторный белок для нацеливания на нуклеиновую кислоту в комплексе с направляющей РНК. Аналогичные соображения и условия распространяются на способы модифицирования целевой ДНК или РНК, изложенные выше. Фактически, эти варианты отбора образцов, культивирования и повторного введения охватываются аспектами настоящего изобретения. В одном аспекте настоящего изобретения предусмотрены способы модифицирования целевой ДНК или РНК в эукариотической клетке, которые могут осуществляться in vivo, ex vivo или in vitro. В некоторых вариантах осуществления способ включает отбор клетки или популяции клеток у человека или отличного от человека животного и модификацию клетки или клеток. Культивирование можно осуществлять на любой стадии ex vivo. Такие клетки могут представлять собой без ограничения растительные клетки, клетки животного, конкретные типы клеток любого организма, в том числе стволовые клетки, иммунные клетки, T-клетку, B-клетки, дендритные клетки, клетки сердечно-сосудистой системы, эпителиальные клетки, стволовые клетки и т. п. Клетки могут быть модифицированными в соответствии с настоящим изобретением для получения продуктов гена, например, в контролируемых количествах, которые могут быть повышенными или сниженными, в зависимости от применения, и/или мутированными. В определенных вариантах осуществления локус гена в клетке является репарированным. Клетку или клетки можно даже повторно вводить отличному от человека животному или в растение. Что касается повторно вводимых клеток, может быть предпочтительным, чтобы эти клетки являлись стволовыми клетками.

В одном аспекте настоящего изобретения предусмотрены клетки, которые временно содержат системы CRISPR или их компоненты. Например, белки или ферменты CRISPR, а также нуклеиновые кислоты, временно обеспечиваются в клетке, и локус гена изменяется, после чего происходит снижение количества одного или нескольких компонентов системы CRISPR. Впоследствии клетки, потомство клеток и организмы, которые содержат клетки, которые приобрели генетическое изменение, опосредованное CRISPR, содержат сниженные количества одного или нескольких компонентов системы CRISPR, или более не содержат один или несколько компонентов системы CRISPR. Одним неограничивающим примером является самоинактивирующаяся система CRISPR-Cas, такая как дополнительно описанная в данном документе. Таким образом, в настоящем изобретении предусмотрены клетки, и организмы, и потомство клеток и организмов, которые содержат один или несколько генетических локусов, измененных под действием системы CRISPR-Cas, но, по сути, не содержащие один или несколько компонентов системы CRISPR. В определенных вариантах осуществления компоненты системы CRISPR фактически отсутствуют. Такие клетки, ткани и организмы преимущественно содержат требуемое или выбранное генетическое изменение, но утратили компоненты CRISPR-Cas или их остатки, которые потенциально могли бы действовать неспецифически, что привело бы к вопросам, касающимся безопасности, или затрудняло бы разрешение регуляторного органа. Помимо прочего, в настоящем изобретении предусмотрены продукты, производимые клетками, организмами и потомство клеток и организмов.

Системы CRISPR-Cas на основе индуцируемого Cpf1 ("Split-Cpf1")

В одном аспекте настоящего изобретения предусмотрена не встречающаяся в природе или сконструированная система CRISPR-Cas на основе индуцируемого Cpf1, содержащая:

первую слитую конструкцию на основе Cpf1, к которой прикреплена первая половинка индуцируемого димера, и

вторую слитую конструкцию на основе Cpf1, к которой прикреплена вторая половинка индуцируемого димера,

где первая слитая конструкция на основе Cpf1 функционально связана с одним или несколькими сигналами ядерной локализации,

где вторая слитая конструкция на основе Cpf1 функционально связана с одним или несколькими сигналами ядерного экспорта,

где приведение в контакт с источником энергии, являющимся индуктором, обеспечивает сведение первой и второй половинок индуцируемого димера вместе,

где сведение первой и второй половинок индуцируемого димера вместе позволяет первой и второй слитым конструкциям на основе Cpf1 образовать функциональную систему CRISPR-Cas на основе Cpf1,

где система CRISPR-Cas на основе Cpf1 содержит направляющую РНК (gRNA), предусматривающую направляющую последовательность, способную гибридизироваться с целевой последовательностью в представляющем интерес локусе генома в клетке, и

где функциональная система CRISPR-Cas на основе Cpf1 связывается с целевой последовательностью и необязательно редактирует локус генома для изменения экспрессии генов.

В одном аспекте настоящего изобретения в системе CRISPR-Cas на основе индуцируемого Cpf1 индуцируемый димер представляет собой, или содержит, или состоит, по сути, из, или состоит из индуцируемого гетеродимера. В одном аспекте в системе CRISPR-Cas на основе индуцируемого Cpf1 первая половинка, или первая часть, или первый фрагмент индуцируемого гетеродимера представляет собой, или содержит, или состоит из, или состоит, по сути, из FKBP, необязательно FKBP12. В одном аспекте настоящего изобретения в системе CRISPR-Cas на основе индуцируемого Cpf1 вторая половинка, или вторая часть, или второй фрагмент индуцируемого гетеродимера представляет собой, или содержит, или состоит из, или состоит, по сути, из FRB. В одном аспекте настоящего изобретения в системе CRISPR-Cas на основе индуцируемого Cpf1 порядок расположения в первой слитой конструкции на основе Cpf1 представляет собой, или содержит, или состоит из, или состоит, по сути, из N'-концевая часть Cpf1-FRB-NES. В одном аспекте настоящего изобретения в системе CRISPR-Cas на основе индуцируемого Cpf1 порядок расположения первой слитой конструкции на основе Cpf1 представляет собой, или содержит, или состоит, по сути, из, или состоит из NES-N'-концевая часть Cpf1-FRB-NES. В одном аспекте настоящего изобретения в системе CRISPR-Cas на основе индуцируемого Cpf1 порядок расположения во второй слитой конструкции на основе Cpf1 представляет собой, или содержит, или состоит, по сути, из, или состоит из C'-концевая часть Cpf1-FKBP-NLS. В одном аспекте настоящего изобретения предусмотрена система CRISPR-Cas на основе индуцируемого Cpf1, в которой порядок расположения во второй слитой конструкции на основе Cpf1 представляет собой, или содержит, или состоит из, или состоит, по сути, из NLS-C'-концевая часть Cpf1-FKBP-NLS. В одном аспекте в системе CRISPR-Cas на основе индуцируемого Cpf1 может присутствовать линкер, который отделяет часть Cpf1 от половинки, или части, или фрагмента индуцируемого димера. В одном аспекте в системе CRISPR-Cas на основе индуцируемого Cpf1 источник энергии, являющийся индуктором, представляет собой, или содержит, или состоит, по сути, из, или состоит из рапамицина. В одном аспекте в системе CRISPR-Cas на основе индуцируемого Cpf1 индуцируемый димер представляет собой индуцируемый гомодимер. В одном аспекте в системе CRISPR-Cas на основе индуцируемого Cpf1 - Cpf1 представляет собой FnCpf1. В одном аспекте в системе CRISPR-Cas на основе индуцируемого Cpf1 один или несколько функциональных доменов ассоциированы с одной или обеими частями Cpf1, например, функциональные домены необязательно включают активатор транскрипции, транскрипционный элемент или нуклеазу, такую как нуклеаза Fok1. В одном аспекте системы CRISPR-Cas на основе индуцируемого Cpf1 функциональная система CRISPR-Cas на основе Cpf1 связывается с целевой последовательностью, и при этом фермент представляет собой нефункциональный Cpf1, который необязательно характеризуется нуклеазной активностью, сниженной по меньшей мере на 97% или 100% (или характеризуется не более чем 3% и преимущественно 0% нуклеазной активностью) по сравнению с Cpf1, не имеющим по меньшей мере одной мутации. Настоящее изобретение дополнительно охватывает полинуклеотид, кодирующий систему CRISPR-Cas на основе индуцируемого Cpf1, обсуждаемую в данном документе, и он предусмотрен в одном аспекте настоящего изобретения.

В одном аспекте настоящего изобретения предусмотрен вектор для доставки первой слитой конструкции на основе Cpf1, к которой прикреплена первая половинка, или часть, или фрагмент индуцируемого димера, и которая функционально связана с одним или несколькими сигналами ядерной локализации, в соответствии с обсуждаемым в данном документе. В одном аспекте настоящего изобретения предусмотрен вектор для доставки второй слитой конструкции на основе Cpf1, к которой прикреплена вторая половинка, или часть, или фрагмент индуцируемого димера, и которая функционально связана с одним или несколькими сигналами ядерного экспорта.

В одном аспекте настоящего изобретения предусмотрен вектор для доставки как первой слитой конструкции на основе Cpf1, к которой прикреплена первая половинка, или часть, или фрагмент индуцируемого димера, и которая функционально связана с одним или несколькими сигналами ядерной локализации, обсуждаемыми в данном документе; так и второй слитой конструкции на основе Cpf1, к которой прикреплена вторая половинка, или часть, или фрагмент индуцируемого димера, и которая функционально связана с одним или несколькими сигналами ядерного экспорта, обсуждаемыми в данном документе.

В одном аспекте вектор может представлять отдельную плазмиду или кассету экспрессии.

В одном аспекте настоящего изобретения предусмотрены эукариотическая клетка-хозяин или линия клеток, трансформированные с помощью любого из векторов, обсуждаемых в данном документе, или экспрессирующие систему CRISPR-Cas на основе индуцируемого Cpf1, обсуждаемую в данном документе.

В одном аспекте настоящего изобретения предусмотрен трансгенный организм, трансформированный с помощью любого из векторов, обсуждаемых в данном документе, или экспрессирующий систему CRISPR-Cas на основе индуцируемого Cpf1, обсуждаемую в данном документе, или его потомство. В одном аспекте настоящего изобретения предусмотрен модельный организм, который конститутивно экспрессирует систему CRISPR-Cas на основе индуцируемого Cpf1, обсуждаемую в данном документе.

первую слитую конструкцию на основе Cpf1, к которой прикреплена первая половинка индуцируемого гетеродимера, и

вторую слитую конструкцию на основе Cpf1, к которой прикреплена вторая половинка индуцируемого гетеродимера,

где вторая слитая конструкция на основе CPf1 функционально связана с сигналом ядерного экспорта,

где приведение в контакт с источником энергии, являющимся индуктором, обеспечивает сведение первой и второй половинок индуцируемого гетеродимера вместе,

где сведение первой и второй половинок индуцируемого гетеродимера вместе позволяет первой и второй слитым конструкциям на основе Cpf1 образовать функциональную систему CRISPR-Cas на основе Cpf1,

где функциональная система CRISPR-Cas на основе Cpf1 редактирует локус генома для изменения экспрессии генов.

В одном аспекте настоящего изобретения предусмотрен способ лечения субъекта, нуждающегося в этом, включающий индуцирование редактирования генов путем трансформации субъекта с помощью полинуклеотида, обсуждаемого в данном документе, или любого из векторов, обсуждаемых в данном документе, и введение субъекту источника энергии, являющегося индуктором. Настоящее изобретение охватывает пути применения такого полинуклеотида или вектора в изготовлении лекарственного препарата, например, такого лекарственного препарата, предназначенного для лечения субъекта или для такого способа лечения субъекта. Настоящее изобретение охватывает полинуклеотид, обсуждаемый в данном документе, или любой из векторов, обсуждаемых в данном документе, для применения в способе лечения субъекта, нуждающегося в этом, предусматривающем индуцирование редактирования генов, где способ дополнительно включает введение субъекту источника энергии, являющегося индуктором. В одном аспекте в способе также обеспечивается матрица для репарации, например, доставляемая вектором, содержащим указанную матрицу для репарации.

В настоящем изобретении также предусмотрен способ лечения субъекта, нуждающегося в этом, включающий индуцирование активации или репрессии транскрипции путем трансформации субъекта с помощью полинуклеотида, обсуждаемого в данном документе, или любого из векторов, обсуждаемых в данном документе, где указанные полинуклеотид или вектор кодируют или содержат каталитически неактивный Cpf1 и один или несколько ассоциированных c ним функциональных доменов, обсуждаемых в данном документе; при этом способ дополнительно включает введение субъекту источника энергии, являющегося индуктором. В настоящем изобретении также предусмотрен полинуклеотид, обсуждаемый в данном документе, или любой из векторов, обсуждаемых в данном документе, для применения в способе лечения субъекта, нуждающегося в этом, включающем индуцирование активации или репрессии транскрипции, где способ дополнительно включает введение субъекту источника энергии, являющегося индуктором.

Соответственно, настоящее изобретение охватывает, помимо прочего, гомодимеры, а также гетеродимеры, нефункциональный Cpf1 или Cpf1, характеризующийся фактически отсутствием нуклеазной активности, например, из-за мутации, системы или комплексы, в которых присутствуют одна или несколько NLS и/или одна или несколько NES; функциональный(функциональные) домен(домены), связанный(связанные) со split-Cpf1; способы, в том числе способы лечения, и пути применения.

Следует понимать, что когда в данном документе ссылаются на Cpf1, белок Cpf1 или фермент Cpf1, то под ними подразумевают split-Cpf1 по настоящему изобретению. В одном аспекте настоящего изобретения предусмотрен способ изменения или модифицирования экспрессии продукта гена. Указанный способ может включать введение в клетку, содержащую и экспрессирующую молекулу ДНК, кодирующую продукт гена, сконструированной не встречающейся в природе системы CRISPR-Cas на основе Cpf1, содержащей белок Cpf1 и направляющую РНК, которая нацеливается на молекулу ДНК, в результате чего направляющая РНК нацеливается на молекулу ДНК, кодирующую продукт гена, а белок Cpf1 расщепляет молекулу ДНК, кодирующую продукт гена, в результате чего изменяется экспрессия продукта гена; и где белок Cpf1 и направляющая РНК не встречаются в природе вместе. Настоящее изобретение охватывает направляющую РНК, предусматривающую направляющую последовательность, связанную с последовательностью прямого повтора (DR). Настоящее изобретение дополнительно охватывает белок Cpf1, который является кодон-оптимизированным для экспрессии в эукариотической клетке. В предпочтительном варианте осуществления эукариотическая клетка является клеткой млекопитающего, и в более предпочтительном варианте осуществления клетка млекопитающего является клеткой человека. В дополнительном варианте осуществления настоящего изобретения экспрессия продукта гена является сниженной.

В одном аспекте настоящего изобретения предусмотрена сконструированная не встречающаяся в природе система CRISPR-Cas на основе Cpf1, содержащая белок Cpf1 и направляющую РНК, которая нацеливается на молекулу ДНК, кодирующую продукт гена в клетке, в результате чего направляющая РНК нацеливается на молекулу ДНК, кодирующую продукт гена, а белок Cpf1 расщепляет молекулу ДНК, кодирующую продукт гена, в результате чего изменяется экспрессия продукта гена; и где белок Cpf1 и направляющая РНК не встречаются в природе вместе; при этом предусматривается split-Cpf1 по настоящему изобретению. Настоящее изобретение охватывает направляющую РНК, предусматривающую направляющую последовательность, связанную с последовательностью DR. Настоящее изобретение дополнительно охватывает белок Cpf1, который является кодон-оптимизированным для экспрессии в эукариотической клетке. В предпочтительном варианте осуществления эукариотическая клетка является клеткой млекопитающего, и в более предпочтительном варианте осуществления клетка млекопитающего является клеткой человека. В дополнительном варианте осуществления настоящего изобретения экспрессия продукта гена является сниженной.

В другом аспекте настоящего изобретения предусмотрена сконструированная не встречающаяся в природе векторная система, содержащая один или несколько векторов, содержащих первый регуляторный элемент, функционально связанный с направляющей РНК системы CRISPR-Cas на основе Cpf1, которая нацеливается на молекулу ДНК, кодирующую продукт гена, и второй регуляторный элемент, функционально связанный с белком Cpf1; при этом предусматривается split-Cpf1 по настоящему изобретению. Компоненты (a) и (b) могут быть расположены в одном и том же или разных векторах системы. Направляющая РНК нацеливается на молекулу ДНК, кодирующую продукт гена в клетке, а белок Cpf1 расщепляет молекулу ДНК, кодирующую продукт гена, в результате чего изменяется экспрессия продукта гена; и где белок Cpf1 и направляющая РНК не встречаются в природе вместе. Настоящее изобретение охватывает направляющую РНК, предусматривающую направляющую последовательность, связанную с последовательностью DR. Настоящее изобретение дополнительно охватывает белок Cpf1, который является кодон-оптимизированным для экспрессии в эукариотической клетке. В предпочтительном варианте осуществления эукариотическая клетка является клеткой млекопитающего, и в более предпочтительном варианте осуществления клетка млекопитающего является клеткой человека. В дополнительном варианте осуществления настоящего изобретения экспрессия продукта гена является сниженной.

В некоторых вариантах осуществления комплекс CRISPR-Cas на основе Cpf1 содержит одну или несколько последовательностей ядерной локализации, характеризующихся достаточной эффективностью, чтобы управлять накоплением указанного комплекса CRISPR-Cas на основе Cpf1 в обнаруживаемом количестве в ядре эукариотической клетки. Не вдаваясь в теорию полагают, что последовательность ядерной локализации не является необходимой для активности комплекса CRISPR-Cas на основе Cpf1 у эукариот, но включение таких последовательностей повышает активность системы, особенно в отношении нацеливания на молекулы нуклеиновой кислоты в ядре.

В некоторых вариантах осуществления фермент Cpf1 представляет собой Cpf1 от видов бактерий, выбранных из группы, состоящей из Francisella tularensis 1, Francisella tularensis subsp. novicida, Prevotella albensis, Lachnospiraceae bacterium MC2017 1, Butyrivibrio proteoclasticus, Peregrinibacteria bacterium GW2011_GWA2_33_10, Parcubacteria bacterium GW2011_GWC2_44_17, Smithella sp. SCADC, Acidaminococcus sp. BV3L6, Lachnospiraceae bacterium MA2020, Candidatus Methanoplasma termitum, Eubacterium eligens, Moraxella bovoculi 237, Leptospira inadai, Lachnospiraceae bacterium ND2006, Porphyromonas crevioricanis 3, Prevotella disiens и Porphyromonas macacae, и может включать мутированный CPf1, происходящий из этих организмов. Фермент может быть гомологом или ортологом Cpf1. В некоторых вариантах осуществления Cpf1 является кодон-оптимизированным для экспрессии в эукариотической клетке. В некоторых вариантах осуществления Cpf1 управляет расщеплением одной или двух нитей в определенном положении целевой последовательности. В предпочтительном варианте осуществления разрыв нити представляет собой ступенчатый разрез с "липким" 5'-концом. В некоторых вариантах осуществления первый регуляторный элемент является промотором полимеразы III. В некоторых вариантах осуществления второй регуляторный элемент является промотором полимеразы II. В некоторых вариантах осуществления минимальная длина прямого повтора составляет 16 нуклеотидов, и он содержит одну "петлю-на-стебле". В дополнительных вариантах осуществления длина прямого повтора составляет более 16 нуклеотидов, предпочтительно более 17 нуклеотидов, и он содержит более одной "петли-на-стебле" или оптимизированных вторичных структур.

В одном аспекте настоящего изобретения предусмотрена эукариотическая клетка-хозяин, содержащая (a) первый регуляторный элемент, функционально связанный с последовательностью прямого повтора и одним или несколькими сайтами встраивания для встраивания одной или нескольких направляющих последовательностей ниже последовательности DR, где при экспрессии направляющая последовательность управляет специфичным к последовательности связыванием комплекса CRISPR-Cas на основе Cpf1 с целевой последовательностью в эукариотической клетке, где комплекс CRISPR-Cas на основе Cpf1 содержит Cpf1 в комплексе с (1) направляющей последовательностью, которая гибридизируется с целевой последовательностью, и (2) последовательностью DR; и/или (b) второй регуляторный элемент, функционально связанный с фермент-кодирующей последовательностью, которая кодирует указанный фермент Cpf1, содержащий последовательность ядерной локализации. В некоторых вариантах осуществления клетка-хозяин содержит компоненты (a) и (b); при этом предусматривается split-Cpf1 по настоящему изобретению. В некоторых вариантах осуществления компонент (a), компонент (b) или компоненты (a) и (b) стабильно интегрированы в геном эукариотической клетки-хозяина. В некоторых вариантах осуществления компонент (a) дополнительно содержит две или более направляющих последовательностей, функционально связанных с первым регуляторным элементом, где при экспрессии каждая из двух или более направляющих последовательностей управляет специфичным к последовательности связыванием комплекса CRISPR-Cas на основе Cpf1 со своей целевой последовательностью в эукариотической клетке. В некоторых вариантах осуществления CPf1 является кодон-оптимизированным для экспрессии в эукариотической клетке. В некоторых вариантах осуществления Cpf1 управляет расщеплением одной или двух нитей в определенном положении целевой последовательности. В предпочтительном варианте осуществления разрыв нити представляет собой ступенчатый разрез с "липким" 5'-концом. В некоторых вариантах осуществления Cpf1 не обладает активностью расщепления нитей ДНК. В некоторых вариантах осуществления первый регуляторный элемент является промотором полимеразы III. В некоторых вариантах осуществления минимальная длина прямого повтора составляет 16 нуклеотидов, и он содержит одну "петлю-на-стебле". В дополнительных вариантах осуществления длина прямого повтора составляет более 16 нуклеотидов, предпочтительно более 17 нуклеотидов, и он содержит более одной "петли-на-стебле" или оптимизированных вторичных структур. В одном аспекте настоящего изобретения предусмотрен эукариотический организм, отличный от человека; предпочтительно многоклеточный эукариотический организм, содержащий эукариотическую клетку-хозяина в соответствии с любым из описанных вариантов осуществления. В других аспектах настоящего изобретения предусмотрен эукариотический организм, предпочтительно многоклеточный эукариотический организм, содержащий эукариотическую клетку-хозяина в соответствии с любым из описанных вариантов осуществления. В некоторых вариантах осуществления этих аспектов организм может представлять собой животное; например, млекопитающее. Также организм может представлять собой членистоногое, такое как насекомое. Организм также может представлять собой растение. Кроме того, организм может представлять собой гриб.

В одном аспекте настоящего изобретения предусмотрен набор, содержащий один или несколько компонентов, описанных в данном документе. В некоторых вариантах осуществления набор содержит векторную систему и инструкции по применению набора. В некоторых вариантах осуществления векторная система содержит (a) первый регуляторный элемент, функционально связанный с последовательностью прямого повтора и одним или несколькими сайтами встраивания для встраивания одной или нескольких направляющих последовательностей ниже последовательности DR, где при экспрессии направляющая последовательность управляет специфичным к последовательности связыванием комплекса CRISPR-Cas на основе Cpf1 с целевой последовательностью в эукариотической клетке, где комплекс CRISPR-Cas на основе Cpf1 содержит Cpf1 в комплексе с (1) направляющей последовательностью, которая гибридизируется с целевой последовательностью, и (2) последовательностью DR; и/или (b) второй регуляторный элемент, функционально связанный с кодирующей фермент последовательностью, которая кодирует указанный фермент Cpf1, содержащий последовательность ядерной локализации, и преимущественно он предусматривает split-Cpf1 по настоящему изобретению. В некоторых вариантах осуществления набор содержит компоненты (a) и (b), находящиеся в одном и том же или разных векторах системы. В некоторых вариантах осуществления компонент (a) дополнительно содержит две или более направляющих последовательностей, функционально связанных с первым регуляторным элементом, где при экспрессии каждая из двух или более направляющих последовательностей управляет специфичным к последовательности связыванием комплекса CRISPR-Cas на основе Cpf1 со своей целевой последовательностью в эукариотической клетке. В некоторых вариантах осуществления Cpf1 содержит одну или несколько последовательностей ядерной локализации, характеризующихся достаточной эффективностью, чтобы управлять накоплением указанного Cpf1 в обнаруживаемом количестве в ядре эукариотической клетки. В некоторых вариантах осуществления фермент Cpf1 представляет собой Cpf1 от видов бактерий, выбранных из группы, состоящей из Francisella tularensis 1, Francisella tularensis subsp. novicida, Prevotella albensis, Lachnospiraceae bacterium MC2017 1, Butyrivibrio proteoclasticus, Peregrinibacteria bacterium GW2011_GWA2_33_10, Parcubacteria bacterium GW2011_GWC2_44_17, Smithella sp. SCADC, Acidaminococcus sp. BV3L6, Lachnospiraceae bacterium MA2020, Candidatus Methanoplasma termitum, Eubacterium eligens, Moraxella bovoculi 237, Leptospira inadai, Lachnospiraceae bacterium ND2006, Porphyromonas crevioricanis 3, Prevotella disiens и Porphyromonas macacae, и может включать мутированный CPf1, происходящий из этих организмов. Фермент может быть гомологом или ортологом Cpf1. В некоторых вариантах осуществления Cpf1 является кодон-оптимизированным для экспрессии в эукариотической клетке. В некоторых вариантах осуществления Cpf1 управляет расщеплением одной или двух нитей в определенном положении целевой последовательности. В предпочтительном варианте осуществления разрыв нити представляет собой ступенчатый разрез с "липким" 5'-концом. В некоторых вариантах осуществления фермент CRISPR не обладает активностью расщепления нитей ДНК. В некоторых вариантах осуществления минимальная длина прямого повтора составляет 16 нуклеотидов, и он содержит одну "петлю-на-стебле". В дополнительных вариантах осуществления длина прямого повтора составляет более 16 нуклеотидов, предпочтительно более 17 нуклеотидов, и он содержит более одной "петли-на-стебле" или оптимизированных вторичных структур.

В одном аспекте настоящего изобретения предусмотрен способ модифицирования целевого полинуклеотида в эукариотической клетке. В некоторых вариантах осуществления способ включает обеспечение связывания комплекса CRISPR-Cas на основе Cpf1 с целевым полинуклеотидом для осуществления расщепления указанного целевого полинуклеотида, за счет чего обеспечивается модифицирование целевого полинуклеотида, где комплекс CRISPR-Cas на основе Cpf1 содержит Cpf1 в комплексе с направляющей последовательностью, гибридизированной с целевой последовательностью в пределах указанного целевого полинуклеотида, где указанная направляющая последовательность связана с последовательностью прямого повтора. В некоторых вариантах осуществления указанное расщепление предусматривает расщепление одной или двух нитей в определенном положении целевой последовательности с помощью указанного Cpf1; при этом предусматривается split-Cpf1 по настоящему изобретению. В некоторых вариантах осуществления указанное расщепление приводит к сниженной транскрипции целевого гена. В некоторых вариантах осуществления способ дополнительно включает репарацию указанного расщепленного целевого полинуклеотида с помощью гомологичной рекомбинации с экзогенной полинуклеотидной матрицей, где указанная репарация приводит к возникновению мутации, предусматривающей вставку, делецию или замену одного или нескольких нуклеотидов в указанном целевом полинуклеотиде. В некоторых вариантах осуществления указанная мутация приводит к изменению одной или нескольких аминокислот в белке, экспрессируемом с гена, содержащего целевую последовательность. В некоторых вариантах осуществления способ дополнительно включает доставку одного или нескольких векторов в указанную эукариотическую клетку, где один или несколько векторов управляют экспрессией одного или нескольких из Cpf1 и направляющей последовательности, связанной с последовательностью DR. В некоторых вариантах осуществления указанные векторы доставляются в эукариотическую клетку в субъекте. В некоторых вариантах осуществления указанное модифицирование происходит в указанной эукариотической клетке в культуре клеток. В некоторых вариантах осуществления способ дополнительно включает выделение указанной эукариотической клетки из организма субъекта перед проведением указанного модифицирования. В некоторых вариантах осуществления способ дополнительно включает возвращение указанной эукариотической клетки и/или клеток, происходящих из нее, указанному субъекту.

В одном аспекте настоящего изобретения предусмотрен способ модифицирования экспрессии полинуклеотида в эукариотической клетке. В некоторых вариантах осуществления способ включает обеспечение связывания комплекса CRISPR-Cas на основе Cpf1 с полинуклеотидом, так что указанное связывание приводит к повышенной или сниженной экспрессии указанного полинуклеотида; где комплекс CRISPR-Cas на основе Cpf1 содержит Cpf1 в комплексе с направляющей последовательностью, гибридизирующейся с целевой последовательностью в пределах указанного полинуклеотида, где указанная направляющая последовательность связана с последовательностью прямого повтора; при этом предусматривается split-Cpf1 по настоящему изобретению. В некоторых вариантах осуществления способ дополнительно включает доставку одного или нескольких векторов в указанные эукариотические клетки, где один или несколько векторов управляют экспрессией одного или нескольких из Cpf1 и направляющей последовательности, связанной с последовательностью DR.

В одном аспекте настоящего изобретения предусмотрен способ получения модельной эукариотической клетки, содержащей мутированный ген, ответственный за развитие заболевания. В некоторых вариантах осуществления ген, ответственный за развитие заболевания, представляет собой любой ген, ассоциированный с повышением риска наличия или развития заболевания. В некоторых вариантах осуществления способ включает (a) введение одного или нескольких векторов в эукариотическую клетку, где один или несколько векторов управляют экспрессией одного или нескольких из Cpf1 и направляющей последовательности, связанной с последовательностью прямого повтора; и (b) обеспечение связывания комплекса CRISPR-Cas на основе Cpf1 с целевым полинуклеотидом для осуществления расщепления целевого полинуклеотида в пределах указанного гена, ответственного за развитие заболевания, где комплекс CRISPR-Cas на основе Cpf1 содержит Cpf1 в комплексе с (1) направляющей последовательностью, которая гибридизируется с целевой последовательностью в пределах целевого полинуклеотида, и (2) последовательностью DR, с получением тем самым модельной эукариотической клетки, содержащей мутированный ген, ответственный за развитие заболевания; при этом предусматривается split-Cpf1 по настоящему изобретению. В некоторых вариантах осуществления указанное расщепление предусматривает расщепление одной или двух нитей в определенном положении целевой последовательности с помощью указанного Cpf1. В предпочтительном варианте осуществления разрыв нити представляет собой ступенчатый разрез с "липким" 5'-концом. В некоторых вариантах осуществления указанное расщепление приводит к сниженной транскрипции целевого гена. В некоторых вариантах осуществления способ дополнительно включает репарацию указанного расщепленного целевого полинуклеотида с помощью гомологичной рекомбинации с экзогенной полинуклеотидной матрицей, где указанная репарация приводит к возникновению мутации, предусматривающей вставку, делецию или замену одного или нескольких нуклеотидов в указанном целевом полинуклеотиде. В некоторых вариантах осуществления указанная мутация приводит к изменению одной или нескольких аминокислот при экспрессии белка с гена, содержащего целевую последовательность.

В одном аспекте настоящего изобретения предусмотрен способ разработки биологически активного средства, которое модулирует событие передачи сигнала в клетке, ассоциированное с геном, ответственным за развитие заболевания. В некоторых вариантах осуществления ген, ответственный за развитие заболевания, представляет собой любой ген, ассоциированный с повышением риска наличия или развития заболевания. В некоторых вариантах осуществления способ включает (a) приведение тестируемого соединения в контакт с модельной клеткой по любому из описанных вариантов осуществления; и (b) обнаружение изменения считываемого показания, что указывает на снижение или возрастание события передачи сигнала в клетке, ассоциированного с указанной мутацией в указанном гене, ответственном за развитие заболевания, с получением тем самым указанного биологически активного средства, которое модулирует указанное событие передачи сигнала в клетке, ассоциированное с указанным геном, ответственным за развитие заболевания.

В данном документе встречается фраза "при этом предусматривается split-Cpf1 по настоящему изобретению" или подобное выражение; и они указывают на то, что Cpf1 в вариантах осуществления, представленных в данном документе, может представлять собой split-Cpf1, обсуждаемый в данном документе.

В одном аспекте настоящее изобретение относится к не встречающейся в природе или сконструированной системе CRISPR-Cas на основе индуцируемого Cpf1, содержащей первую слитую конструкцию на основе Cpf1, к которой прикреплена первая половинка индуцируемого гетеродимера, и вторую слитую конструкцию на основе Cpf1, к которой прикреплена вторая половинка индуцируемого гетеродимера, где первая слитая конструкция на основе CPf1 функционально связана с одним или несколькими сигналами ядерной локализации, где вторая слитая конструкция на основе CPf1 функционально связана с сигналом ядерного экспорта, где приведение в контакт с источником энергии, являющимся индуктором, обеспечивает сведение первой и второй половинок индуцируемого гетеродимера вместе, где сведение первой и второй половинок индуцируемого гетеродимера вместе позволяет первой и второй слитым конструкциям на основе Cpf1 образовать функциональную систему CRISPR-Cas на основе Cpf1, где система CRISPR-Cas на основе Cpf1 содержит направляющую РНК (gRNA), содержащую направляющую последовательность, способную гибридизироваться с целевой последовательностью в представляющем интерес локусе генома в клетке, и где функциональная система CRISPR-Cas на основе Cpf1 редактирует локус генома для изменения экспрессии генов. В одном варианте осуществления настоящего изобретения первая половинка индуцируемого гетеродимера представляет собой FKBP12, а вторая половинка индуцируемого гетеродимера представляет собой FRB. В другом варианте осуществления настоящего изобретения источником энергии, являющимся индуктором, является рапамицин.

Источником энергии, являющимся индуктором, можно считать просто индуктор или димеризующее средство. Термин "источник энергии, являющийся индуктором" используется по всему данному документу для согласованности. Источник энергии, являющийся индуктором, (или индуктор) действует с восстановлением Cpf1. В некоторых вариантах осуществления источник энергии, являющийся индуктором, обеспечивает сведение двух частей Cpf1 вместе за счет действия двух половинок индуцируемого димера. Две половинки индуцируемого димера, следовательно, сводятся вместе в присутствии источника энергии, являющегося индуктором. Без источника энергии, являющегося индуктором, две половинки димера не будут образовывать димер (димеризоваться).

Таким образом, две половинки индуцируемого димера взаимодействуют с источником энергии, являющимся индуктором, с димеризацией в димер. В свою очередь, это обеспечивает восстановление Cpf1 путем сведения первой и второй частей Cpf1 вместе.

Каждая из слитых конструкций на основе фермента CRISPR содержит одну часть split-Cpf1. Они сливаются, предпочтительно посредством линкера, такого как линкер GlySer, описываемый в данном документе, с одной из двух половин димера. Две половинки димера могут быть, по сути, двумя одинаковыми мономерами, которые вместе образуют гомодимер, или они могут быть разными мономерами, которые вместе образуют гетеродимер. Таким образом, два мономера можно рассматривать как одну половинку полного димера.

Cpf1 является разделенным в том смысле, что две части фермента Cpf1, по сути, составляют функциональный Cpf1. Такой Cpf1 может функционировать как фермент, редактирующий геном (при образовании комплекса с целевой ДНК и направляющей), такой как никаза или нуклеаза (расщепляющая обе нити ДНК), или он может представлять собой нефункциональный Cpf1, который в сущности представляет собой ДНК-связывающий белок с очень небольшой каталитической активностью или с отсутствием таковой, как правило, из-за мутации(мутаций) в его каталитических доменах.

Две части split-Cpf1 можно рассматривать как N'-концевую часть и C'-концевую часть split-Cpf1. Слияние, как правило, происходит в точке разделения Cpf1. Другими словами, С'-конец N'-концевой части split-Cpf1 сливают с одной из половинок димера, тогда как N'-конец C'-концевой части сливают с другой половинкой димера.

Cpf1 не подлежит разделению в том смысле, что разрыв образуется заново. Точку разделения, как правило, разрабатывают in silico и клонируют в конструкции. Вместе две части split-Cpf1, N'-концевая и C'-концевая части, образуют полный Cpf1, содержащий предпочтительно по меньшей мере 70% или больше аминокислот дикого типа (или нуклеотидов, кодирующих их), предпочтительно по меньшей мере 80% или больше, предпочтительно по меньшей мере 90% или больше, предпочтительно по меньшей мере 95% или больше, и наиболее предпочтительно по меньшей мере 99% или больше аминокислот дикого типа (или нуклеотидов, кодирующих их). Может быть возможным некоторое урезание, и при этом предусматриваются мутанты. Нефункциональные домены могут быть полностью удалены. Важно то, что две части могут быть сведены вместе, и что требуемая функция Cpf1 возобновляется или восстанавливается.

Димер может быть гомодимером или гетеродимером.

Один или несколько, предпочтительно два, NLS можно применять в функциональной связи с первой конструкцией на основе Cpf1. Один или несколько, предпочтительно два, NES можно применять в функциональной связи с первой конструкцией на основе Cpf1. NLS и/или NES предпочтительно фланкируют слияние split-Cpf1-димера (т. e. половинку димера), т. e. один NLS может быть расположен на N'-конце первой конструкции на основе Cpf1, и один NLS может быть на C'-конце первой конструкции на основе Cpf1. Аналогично, один NES может быть расположен на N'-конце второй конструкции на основе Cpf1, и один NES может быть на C'-конце второй конструкции на основе Cpf1. Если ссылаются на N'- или C'-концы, следует понимать, что они соответствуют 5'- и 3'-концам в соответствующей нуклеотидной последовательности.

Предпочтительный порядок расположения заключается в том, что первая конструкция на основе Cpf1 устроена так: 5'-NLS-(N'-концевая часть Cpf1)-линкер-(первая половинка димера)-NLS-3'. Предпочтительный порядок расположения заключается в том, что вторая конструкция на основе Cpf1 устроена так: 5'-NES-(вторая половинка димера)-линкер-(C'-концевая часть Cpf1)-NES-3'. Подходящий промотор предпочтительно находится выше каждой из этих конструкций. Две конструкции можно доставлять отдельно или вместе.

В некоторых вариантах осуществления один или все из NES, находящиеся в функциональной связи со второй конструкцией на основе CPf1, могут быть заменены на NLS. Однако это, как правило, может не являться предпочтительным, и в других вариантах осуществления сигнал локализации, находящийся в функциональной связи со второй конструкцией на основе Cpf1, представляет собой один или несколько NES.

Также следует понимать, что NES может быть функционально связан с N'-концевым фрагментом split-Cpf1, и что NLS может быть функционально связан с C'-концевым фрагментом split-Cpf1. Однако порядок расположения, при котором NLS функционально связан с N'-концевым фрагментом split-Cpf1, а NES функционально связан с С'-концевым фрагментом split-Cpf1, может быть предпочтительным.

NES функционирует так, чтобы переместить вторую слитую конструкцию на основе Cpf1 за пределы ядра, по меньшей мере до тех пор, пока будет обеспечиваться источник энергии, являющийся индуктором (например, по меньшей мере до тех пор, пока обеспечивается источник энергии для выполнения индуктором своей функции). Присутствие индуктора стимулирует димеризацию двух продуктов слияния на основе Cpf1 в цитоплазме и делает термодинамически выгодным перемещение в ядро димеризованных первого и второго продуктов слияния на основе Cpf1. Без ограничения теорией, заявители полагают, что NES обеспечивает изоляцию второго продукта слияния на основе Cpf1 в цитоплазме (т. e. вне ядра). NLS в первом продукте слияния на основе Cpf1 обеспечивает его локализацию в ядре. В обоих случаях, заявители используют NES или NLS для сдвига равновесия (равновесия ядерного транспорта) в требуемом направлении. Димеризация, как правило, происходит вне ядра (очень небольшая часть может происходить в ядре), и NLS в димеризованном комплексе сдвигают равновесие ядерного транспорта к ядерной локализации, так что димеризованный и, следовательно, восстановленный Cpf1 проникает в ядро.

Фактически, заявители способны восстанавливать функцию split-Cpf1. Для доказательства концепции применяли транзиентную трансфекцию, и димеризация происходила в фоновом режиме в присутствии источника энергии, являющегося индуктором,. Никакой активности не наблюдали в случае отдельных фрагментов Cpf1. Затем для разработки этого обеспечивали стабильную экспрессию посредством лентивирусной доставки, и было показано, что подход со split-Cpf1 может быть применимым.

Такой подход со split-Cpf1 по настоящему изобретению является полезным, поскольку он обеспечивает возможность обеспечения индуцируемой активности Cpf1, таким образом обеспечивая возможность временного контроля. Более того, для снижения фоновой активности самособирающихся комплексов можно применять разные последовательности локализации (т. e. NES и NLS, что является предпочтительным). Тканеспецифичные промоторы, например, один для каждой из первой и второй слитых конструкций на основе Cpf1, также можно использовать для нацеливания, специфичного к определенной ткани, с обеспечением таким образом пространственного контроля. Два разных тканеспецифичных промотора можно использовать, чтобы обеспечить при необходимости более высокую степень контроля. Тот же подход можно использовать для специфичных к стадии промоторов, или можно применять смесь специфичных к стадии промоторов и тканеспецифичных промоторов, при этом одна из первой и второй слитых конструкций на основе Cpf1 находится под контролем (т. e. функционально связана или содержит) тканеспецифичного промотора, тогда как другая из первой и второй слитых конструкций на основе Cpf1 находится под контролем (т. e. функционально связана или содержит) специфичного к стадии промотора.

Система CRISPR-Cas на основе индуцируемого Cpf1 содержит одну или несколько последовательностей ядерной локализации (NLS), описываемых в данном документе, например, функционально связанные с первой слитой конструкцией на основе Cpf1. Эти последовательности ядерной локализации в идеальном случае характеризуются достаточной эффективностью, чтобы управлять накоплением указанной первой слитой конструкции на основе Cpf1 в обнаруживаемом количестве в ядре эукариотической клетки. Не вдаваясь в теорию полагают, что последовательность ядерной локализации не является необходимой для активности комплекса CRISPR-Cas на основе Cpf1 у эукариот, но включение таких последовательностей повышает активность системы, особенно в отношении нацеливания на молекулы нуклеиновой кислоты в ядре, и содействует функционированию системы из 2 частей согласно настоящему изобретению.

Подобным образом, вторая слитая конструкция на основе Cpf1 функционально связана с последовательностью ядерного экспорта (NES). На самом деле, она может быть связана с одной или несколькими последовательностями ядерного экспорта. Другими словами, число последовательностей экспорта, используемых со второй слитой конструкцией на основе Cpf1, предпочтительно составляет 1, или 2, или 3. Как правило, 2 являются предпочтительными, но 1 достаточна, и поэтому является предпочтительной в некоторых вариантах осуществления. Подходящие примеры NLS и NES известны из уровня техники. Например, предпочтительным сигналом ядерного экспорта (NES) является человеческий белок тирозинкиназа 2. Предпочтительные сигналы будут видоспецифичными.

Если используется система FRB и FKBP, то FKBP предпочтительно фланкируется последовательностями ядерной локализации (NLS). Если используется система FRB и FKBP, то предпочтительный порядок расположения представляет собой N'-концевой Cpf1-FRB-NES: C'-концевой Cpf1-FKBP-NLS. Таким образом, первая слитая конструкция на основе Cpf1 будет содержать C'-концевую часть Cpf1, а вторая слитая конструкция Cpf1 будет содержать N'-концевую часть Cpf1.

Другой полезный аспект настоящего изобретения заключается в том, что она может быть быстро активизироваться, т. е. имеет быструю реакцию. Без ограничения теорией полагают, что активность Cpf1 может быть индуцирована посредством димеризации имеющихся (уже присутствующих) слитых конструкций (за счет приведения в контакт с источником энергии, являющимся индуктором) быстрее, чем посредством экспрессии (в частности, трансляции) новых слитых конструкций. Таким образом, первая и вторая слитые конструкции на основе Cpf1 могут экспрессироваться в целевой клетке заблаговременно, т. е. до того, как потребуется активность Cpf1. Затем активность Cpf1 может временно контролироваться, а потом быстро устанавливаться путем добавления источника энергии, являющегося индуктором, который в идеале действует быстрее (с димеризацией гетеродимера и обеспечением тем самым активности Cpf1), чем посредством экспрессии (в том числе индукции транскрипции) Cpf1, доставленного, например, вектором.

Термины "Cpf1" или "фермент Cpf1" и "фермент CRISPR" используются в данном документе взаимозаменяемо, если не является очевидным иное.

Заявители продемонстрировали, что CPf1 может быть разделен на два компонента, которые при сведении вновь вместе восстанавливают функциональную нуклеазу. С использованием чувствительных к рапамицину доменов димеризации заявители получили химически индуцируемый Cpf1 для временного контроля опосредованного Cpf1 редактирования генома и модулирования транскрипции. Другими словами, заявители продемонстрировали, что Cpf1 можно сделать химически индуцируемым путем разделения на два фрагмента, и что чувствительные к рапамицину домены димеризации можно использовать для контролируемой повторной сборки Cpf1. Заявители показали, что повторно собранный Cpf1 может использоваться для опосредования редактирования генома (посредством нуклеазной/никазной активности), а также для модулирования транскрипции (в качестве ДНК-связывающего домена, так называемого "нефункционального Cpf1").

Таким образом, использование чувствительных к рапамицину доменов димеризации является предпочтительным. Повторная сборка Cpf1 является предпочтительной. Повторная сборка может определяться путем восстановления активности связывания. Если Cpf1 представляет собой никазу или индуцирует двухнитевой разрыв, то проводят подходящее процентное сравнение с диким типом, как описывается в данном документе.

Обработка рапамицином может продолжаться 12 дней. Доза может составлять 200 нM. Такое время обработки и/или молярная дозировка является примером соответствующей дозы для линий клеток эмбриональной почки человека 293FT (HEK293FT), и ее также можно использовать для других линий клеток. Эта схема может быть экстраполирована для терапевтического применения in vivo, например, в мг/кг. Однако в данном случае также предусматривается, что также используется стандартная дозировка для введения рапамицина субъекту. Под "стандартной дозировкой" подразумевают дозировку при обычном терапевтическом применении рапамицина или первичном показании (т. e. дозу, используемую при введении рапамицина для предупреждения отторжения органа).

Следует отметить, что предпочтительным порядком расположения частей Cpf1, содержащих FRB/FKBP, является отдельные части, и они являются неактивными до тех пор, пока индуцируемая рапамицином димеризация FRB и FKBP не приведет к повторной сборке функциональной полноразмерной нуклеазы Cpf1. Таким образом, предпочтительно, чтобы первая слитая конструкция на основе Cpf1, к которой прикреплена первая половина индуцируемого гетеродимера, доставлялась отдельно и/или локализовалась отдельно от второй слитой конструкции на основе Cpf1, к которой присоединена первая половина индуцируемого гетеродимера.

Для обеспечения изоляции фрагмента Cpf1(N)-FRB в цитоплазме, где существует меньшая вероятность димеризации с фрагментом Cpf1(C)-FKBP, локализуемым в ядре, предпочтительно использовать в Cpf1(N)-FRB одну последовательность ядерного экспорта (NES) из человеческой протеинтирозинкиназы 2 (Cpf1(N)-FRB-NES). В присутствии рапамицина Cpf1(N)-FRB-NES димеризуется с Cpf1(C)-FKBP-2xNLS с восстановлением полного белка Cpf1, что сдвигает равновесие ядерного транспорта в направлении ядерного импорта и обеспечивает возможность нацеливания на ДНК.

Высокая дозировка Cpf1 может увеличить частоту образования вставок-делеций в нецелевых (OT) последовательностях, которые характеризуются небольшим числом несовпадений с направляющей нитью. Такие последовательности являются особенно восприимчивыми, если несовпадения являются несмежными и/или находятся за пределами затравочного участка направляющей. Соответственно, временной контроль активности Cpf1 можно применять для снижения дозировки в экспериментах с длительной экспрессией, и это, следовательно, приводит к сниженному образованию нецелевых вставок/делеций по сравнению с конститутивно активным Cpf1.

Доставка с помощью вирусов является предпочтительной. В частности, предусматривается вектор доставки на основе лентивируса или AAV. Заявители получили конструкцию split-Cpf1 на основе лентивируса, подобную плазмиде lentiCRISPR. Части разделенного фермента должны быть достаточно маленькими, чтобы соответствовать ограничению по размеру AAV, составляющему ~4,7 т. о.

Заявители продемонстрировали, что стабильную низкокопийную экспрессию split-Cpf1 можно использовать для индуцирования значительного количества вставок/делеций в целевом локусе без образования значительного числа мутаций в нецелевых сайтах. Заявители клонировали фрагменты Cpf1 (2 части на основе разделения 5, описываемого в настоящем документе).

Также можно использовать нефункциональный Cpf1, содержащий домен трансактивации VP64, например, добавленный к Cpf1(C)-FKBP-2xNLS (нефункциональный Cpf1(C)-FKBP-2xNLS-VP64). Эти фрагменты восстанавливают каталитически неактивный продукт слияния Cpf1-VP64 (нефункциональный Cpf1-VP64). Активация транскрипции индуцируется под действием VP64 в присутствии рапамицина для индукции димеризации продукта слияния Cpf1(C)-FKBP и продукта слияния Cpf1(N)-FRB. Другими словами, заявители тестировали возможность индукции разделенного нефункционального Cpf1-VP64 и показали, что активация транскрипции индуцируется нефункциональным split-Cpf1-VP64 в присутствии рапамицина. Таким образом, индуцируемый Cpf1 по настоящему изобретению может быть ассоциирован с одним или несколькими функциональными доменами, такими как активатор или репрессор транскрипции или нуклеаза (такая как Fok1). Функциональный домен может быть связан или слит с одной частью split-Cpf1.

Предпочтительный порядок расположения заключается в том, что первая конструкция на основе Cpf1 устроена так: 5'-первый сигнал локализации-(N'-концевая часть CPf1)-линкер-(первая половинка димера)-первый сигнал локализации-3', и вторая конструкция на основе Cpf1 устроена так: 5'-второй сигнал локализации-(вторая половинка димера)-линкер-(C'-концевая часть Cpf1)-второй сигнал локализации-функциональный домен-3'. В данном случае функциональный домен помещен на 3'-конце второй конструкции на основе Cpf1. Альтернативно, функциональный домен может быть помещен на 5'-конце первой конструкции на основе Cpf1. Один или несколько функциональных доменов можно использовать на 3'-конце, или 5'-конце, или на обоих концах. Подходящий промотор предпочтительно находится выше каждой из этих конструкций. Две конструкции можно доставлять отдельно или вместе. Сигналами локализации могут быть NLS или NES, при условии, что они не смешаны в каждой конструкции.

В одном аспекте настоящего изобретения предусмотрена система CRISPR-Cas на основе индуцируемого Cpf1, где Cpf1 характеризуется нуклеазной активностью, сниженной по меньшей мере на 97% или 100% по сравнению с ферментом Cpf1, не имеющим по меньшей мере одной мутации.

Соответственно, также предпочтительно, чтобы Cpf1 представлял собой нефункциональный Cpf1. В идеальном случае, разделение всегда должно быть таким, чтобы каталитический(каталитические) домен(домены) не был(были) затронуты. Значение нефункционального Cpf1 состоит в том, что происходит связывание с ДНК, но не происходит расщепление или не проявляется никазная активность.

В одном аспекте настоящего изобретения предусмотрена система CRISPR-Cas на основе индуцируемого Cpf1, обсуждаемая в данном документе, где с Cpf1 ассоциированы один или несколько функциональных доменов. Такой функциональный домен может быть ассоциирован (т. e. связан или слит) с одной или обеими частями split-Cpf1. Он может быть ассоциирован с каждой из двух частей split-Cpf1. Следовательно, они могут быть представлены, как правило, в виде части первой и/или второй слитых конструкций на основе Cpf1, в виде продуктов слияния в пределах этой конструкции. Функциональные домены, как правило, сливают посредством линкера, такого как линкер GlySer, обсуждаемый в данном документе. Один или несколько функциональных доменов могут представлять собой домен активации или домен репрессии транскрипции. Хотя они могут представлять собой разные домены, предпочтительно, чтобы все функциональные домены являлись либо активаторами, либо репрессорами, и чтобы не использовалась смесь двух.

Домен активации транскрипции может предусматривать VP64, p65, MyoD1, HSF1, RTA или SET7/9.

В одном аспекте настоящего изобретения предусмотрена система CRISPR-Cas на основе индуцируемого Cpf1, обсуждаемая в данном документе, где домен репрессии транскрипции представляет собой домен KRAB.

В одном аспекте настоящего изобретения предусмотрена система CRISPR-Cas на основе индуцируемого Cpf1, обсуждаемая в данном документе, где один или несколько функциональных доменов, ассоциированных с адаптерным белком, характеризуются одной или несколькими видами активности, предусматривающими метилазную активность, деметилазную активность, активность в отношении активации транскрипции, активность в отношении репрессии транскрипции, активность фактора освобождения транскрипта, активность в отношении модификации гистонов, активность расщепления РНК, активность расщепления ДНК, активность интеграции ДНК или активность связывания нуклеиновой кислоты.

Домены, модифицирующие гистоны, также являются предпочтительными в некоторых вариантах осуществления. Иллюстративные домены, модифицирующие гистоны, обсуждаются ниже. Домены транспозазы, домены механизма HR (гомологичной рекомбинации), домены рекомбиназы и/или домены интегразы также являются предпочтительными в качестве функциональных доменов по настоящему изобретению. В некоторых вариантах осуществления активность интеграции ДНК имеют домены механизма HR, домены интегразы, домены рекомбиназы и/или домены транспозазы.

В одном аспекте настоящего изобретения предусмотрена система CRISPR-Cas на основе индуцируемого Cpf1, обсуждаемая в данном документе, где активность расщепления ДНК обеспечивается нуклеазой.

В одном аспекте настоящего изобретения предусмотрена система CRISPR-Cas на основе индуцируемого Cpf1, обсуждаемая в данном документе, где нуклеаза предусматривает нуклеазу Fok1.

Применение таких функциональных доменов, которые являются предпочтительными для системы на основе split-Cpf1 по настоящему изобретению, также подробно обсуждается в Konermann et al. ("Genome-scale transcriptional activation with an engineered CRISPR-Cas9 complex", опубликованной в Nature 11 декабря 2014 г.).

Система по настоящему изобретению может применяться с любой направляющей.

В определенных вариантах осуществления могут применяться модифицированные направляющие. Особенно предпочтительными являются направляющие в соответствии с идеями вышеупомянутой статьи Konermann, опубликованной в Nature 11 декабря 2014 г. Эти направляющие модифицированы тем, что добавлены связывающиеся с белком части РНК (такие как аптамеры). Такая(такие) часть(части) может(могут) замещать часть направляющей. Соответствующие домены связывающего РНК белка могут использоваться для последующего распознавания РНК и рекрутирования функциональных доменов, таких как описываемые в данном документе, к направляющей. Они, прежде всего, предназначены для применения с нефункциональным Cpf1, что приводит к активации или репрессии транскрипции или расщеплению ДНК посредством нуклеаз, таких как Fok1. Применение таких направляющих в комбинации с нефункциональным Cpf1 является эффективным, и оно особенно эффективно, если сам Cpf1 также ассоциирован со своим собственным функциональным доменом, обсуждаемым в данном документе. Если нефункциональный Cpf1 (с ассоциированным своим собственным функциональным доменом или без него) индуцируется с восстановлением в соответствии с настоящим изобретением, т. e. представляет собой split-Cpf1, то данный инструмент является особенно пригодным.

Направляющая РНК (gRNA), также предпочтительная для применения в соответствии с настоящим изобретением, может содержать направляющую последовательность, способную гибридизироваться с целевой последовательностью в представляющем интерес локусе генома в клетке, где gRNA модифицирована путем вставки отличающейся(отличающихся) последовательности(последовательностей) РНК, которая(которые) связывается(связываются) с одним или несколькими адаптерными белками, и где адаптерный белок ассоциирован с одним или несколькими функциональными доменами. Cpf1 может содержать по меньшей мере одну мутацию, вследствие которой фермент Cpf1 характеризуется не более чем 5% нуклеазной активности фермента Cpf1, не имеющего по меньшей мере одной мутации; и/или по меньшей мере одну или несколько последовательностей ядерной локализации. Также предусмотрена не встречающаяся в природе или сконструированная композиция, содержащая одну или несколько направляющих РНК (gRNA), содержащих направляющую последовательность, способную гибридизироваться с целевой последовательностью в представляющем интерес локусе генома в клетке, фермент Cpf1, содержащий по меньшей мере одну или несколько последовательностей ядерной локализации, где фермент CPf1 содержит по меньшей мере одну мутацию, вследствие которой фермент Cpf1 характеризуется не более чем 5% нуклеазной активности фермента Cpf1, не имеющего по меньшей мере одной мутации, где по меньшей мере одна gRNA модифицирована путем вставки отличающейся(отличающихся) последовательности(последовательностей) РНК, которая(которые) связывается(связываются) с одним или несколькими адаптерными белками, и где адаптерный белок ассоциирован с одним или несколькими функциональными доменами.

gRNA предпочтительно модифицирована путем вставки отличающейся(отличающихся) последовательности(последовательностей) РНК, которая(которые) связывается(связываются) с одним или несколькими адаптерными белками. Вставка отличающейся(отличающихся) последовательности(последовательностей) РНК, которая(которые) связывается(связываются) с одним или несколькими адаптерными белками, предпочтительно представляет собой аптамерную последовательность или две или более аптамерные последовательности, специфичные в отношении одного и того же адаптерного белка или разных адаптерных белков. Адаптерный белок предпочтительно предусматривает MS2, PP7, Qβ, F2, GA, fr, JP501, M12, R17, BZ13, JP34, JP500, KU1, M11, MX1, TW18, VK, SP, FI, ID2, NL95, TW19, AP205, φCb5, φCb8r, φCb12r, φCb23r, 7s, PRR1. Могут быть пригодны линии клеток, стабильно экспрессирующие, помимо прочего, нефункциональный split-Cpf1.

Заявители продемонстрировали, что Cpf1 может быть разделен на два отличающихся фрагмента, которые при сведении вновь вместе с помощью химической индукции восстанавливают функциональную полноразмерную нуклеазу Cpf1. Структура split-Cpf1 будет пригодной для ряда применений. Например, split-CPf1 может обеспечивать возможность осуществления генетических стратегий, направленных на ограничение активности CPf1 популяциями клеток, находящихся на границах, путем помещения каждого фрагмента под контроль разных тканеспецифичных промоторов. Кроме того, также можно использовать различные индуцируемые химическими веществами домены димеризации, как, например, APA и гиббереллин.

Источником энергии, являющимся индуктором, предпочтительно является химическая индукция.

Положением или местоположением разделения является точка, в которой первая часть фермента Cpf1 отделяется от второй части. В некоторых вариантах осуществления первая часть будет содержать или кодировать от 1 до X аминокислоты, тогда как вторая часть будет содержать или кодировать от X+1 аминокислоты до конца. В данном примере нумерация является непрерывной, но это не всегда может быть необходимо, поскольку аминокислоты (или нуклеотиды, кодирующие их) могут быть урезаны с конца любого из разделенных концов при условии, что сохраняются достаточная активность связывания ДНК и, при необходимости, активность никазы или расщепления ДНК, например, по меньшей мере 40%, 50%, 60%, 70%, 80%, 90% или 95% активности по сравнению с Cpf1 дикого типа.

Иллюстративная нумерация, представленная в данном документе, может приводится относительно белка дикого типа, предпочтительно FnCpf1 дикого типа. Однако предусматривается, что могут использоваться мутанты Cpf1 дикого типа, такие как белка FnCpf1. Нумерация также может не полностью соответствовать нумерации FnCpf1, поскольку, например, можно использовать некоторые N'- или C'-концевые усечения или делеции, но это можно решить с помощью стандартных инструментов выравнивания последовательностей. Ортологи также предпочтительны как инструмент выравнивания последовательностей.

Таким образом, положение разделения может быть выбрано средним специалистом в данной области, например, на основании данных о кристаллической структуре и/или результатов компьютерного прогнозирования структуры.

Например, с помощью компьютерного анализа первичной структуры нуклеаз Cpf1 выявили три отличающихся участка (фиг. 1). Первый, C-концевой RuvC-подобный домен, который является единственным охарактеризованным функциональным доменом. Второй, N-концевой альфа-спиральный участок, и третий, участок со смешанной альфа- и бета-структурой, расположенный между RuvC-подобным доменом и альфа-спиральным участком. Несколько небольших отрезков из неструктурированных участков прогнозируются в первичной структуре Cpf1. Неструктурированные участки, которые подвергаются воздействию растворителя и не являются консервативными в пределах разных ортологов Cpf1, могут представлять собой предпочтительные стороны для разделений (фиг. 2 и фиг. 3).

В нижеприведенной таблице представлены неограничивающие потенциальные участки разделения в As и LbCpf1. Сайт разделения в пределах такого участка может быть подходящим.

Участок разделения AsCpf1 LbCpf1 1 575-588 566-571 2 631-645 754-757 3 653-664 - 4 818-844 -

Для мутантов Cpf1 Fn, As и Lb должно быть совершенно очевидно, что соответствующее положение для потенциального сайта разделения, например, основывается на выравнивании последовательностей. Для отличных от Fn, As и Lb ферментов можно использовать кристаллическую структуру ортолога, если существует относительно высокая степень гомологии между ортологом и предполагаемым Cpf1, или можно использовать компьютерное прогнозирование.

В идеальном случае положение разделения должно быть расположено в пределах участка или петли. Предпочтительно, положение разделения находится там, где прерывание аминокислотной последовательности не приводит к частичному или полному разрушению структурного элемента (например, альфа-спиралей или бета-складчатых структур). Неструктурированные участки (участки, которые не обнаруживаются в кристаллической структуре, поскольку эти участки недостаточно структурированы, чтобы "застывать" в кристалле) часто являются предпочтительными вариантами. Заявители могут, например, проводить разделения в неструктурированных участках, которые доступны на поверхности Cpf1.

Заявители могут придерживаться следующей процедуры, которая представлена в качестве предпочтительного примера и в качестве руководства. Поскольку неструктурированные участки не обнаруживаются в кристаллической структуре, заявители сопоставляют окружающую аминокислотную последовательность в кристалле с первичной аминокислотной последовательностью Cpf1. Каждый неструктурированный участок может состоять, например, из приблизительно 3-10 аминокислот, которые не обнаруживаются в кристалле. Следовательно, заявители выполняют разделение между этими аминокислотами. Для включения большего количества потенциальных сторон разделения заявители включают разделения, расположенные в петлях вне Cpf1, с использованием тех же критериев, что и с неструктурированными участками.

В некоторых вариантах осуществления положение разделения находится во внешней петле Cpf1. В других предпочтительных вариантах осуществления положение разделения находится в неструктурированном участке Cpf1. Неструктурированный участок, как правило, представляет собой очень гибкую внешнюю петлю, структуру которой сложно определить по рентгенограмме кристалла.

После идентификации положения разделения можно разрабатывать подходящие конструкции.

Как правило, NES располагается на N'-конце первой части разделяемой аминокислотной последовательности (или на 5'-конце нуклеотида, кодирующего ее). В таком случае, NLS располагается на С'-конце второй части разделяемой аминокислотной последовательности (или на 3'-конце нуклеотида, кодирующего ее). Таким образом, первая слитая конструкция на основе Cpf1 может быть функционально связана с одним или несколькими сигналами ядерного экспорта, а вторая слитая конструкция на основе Cpf1 может быть функционально связана с сигналом ядерной локализации.

Разумеется, может предусматриваться обратный порядок расположения, при котором NLS располагается на N'-конце первой части разделяемой аминокислотной последовательности (или на 5'-конце нуклеотида, кодирующего ее). В таком случае, NES располагается на С'-конце второй части разделяемой аминокислотной последовательности (или на 3'-конце нуклеотида, кодирующего ее). Таким образом, первая слитая конструкция на основе Cpf1 может быть функционально связана с одним или несколькими сигналами ядерной локализации, а вторая слитая конструкция на основе Cpf1 может быть функционально связана с сигналом ядерного экспорта.

Разделения, которые обеспечивают то, что две части (каждая сторона разделения) имеют примерно одинаковую длину, могут быть полезны для целей упаковки. Например, считается, что легче поддерживать стехиометрию между обеими частями, когда транскрипты имеют примерно одинаковый размер.

В некоторых примерах N- и C-концевые части Cpf1, кодон-оптимизированного для человека, такого как FnCpf1, сливают с доменами димеризации FRB и FKBP соответственно. Такой порядок расположения может быть предпочтительным. Их можно поменять (т. е. N'-конец с FKBP и C'-конец с FRB).

Линкеры, как, например, (GGGGS)₃, предпочтительно используют в данном документе для отделения фрагмента Cpf1 от домена димеризации. (GGGGS)₃ является предпочтительным, поскольку он является относительно длинным линкером (15 аминокислот). Глициновые остатки являются наиболее гибкими, а сериновые остатки повышают вероятность того, что линкер будет находится на внешней стороне белка. (GGGGS)₆, (GGGGS)₉ или (GGGGS)₁₂ предпочтительно можно использовать в качестве альтернатив. Другими предпочтительными альтернативами являются (GGGGS)₁, (GGGGS)₂, (GGGGS)₄, (GGGGS)₅, (GGGGS)₇, (GGGGS)₈, (GGGGS)₁₀ или (GGGGS)₁₁.

Например, (GGGGS)₃ может быть включен между N'-концевым фрагментом Cpf1 и FRB. Например, (GGGGS)₃ может быть включен между FKB и C'-концевым фрагментом Cpf1.

Доступны альтернативные линкеры, но считается, что очень гибкие линкеры лучше обеспечивают максимальную возможность объединения 2 частей Cpf1 и, таким образом, восстановления активности Cpf1. Одной альтернативой является то, что NLS нуклеоплазмина можно использовать в качестве линкера.

Линкер также можно использовать между Cpf1 и любым функциональным доменом. Опять-таки, в данном случае можно использовать линкер (GGGGS)₃ (или его варианты с 6, 9 или 12 повторами) или можно использовать NLS нуклеоплазмина в качестве линкера между CPf1 и функциональным доменом.

Предусматриваются альтернативы системы FRB/FKBP. Например, система ABA и гиббереллина.

Соответственно, предпочтительными примерами семейства FKBP являются любые из следующих индуцируемых систем: FKBP, который димеризуется с кальциневрином А (CNA) в присутствии FK506; FKBP, который димеризуется с CyP-Fas в присутствии FKCsA; FKBP, который димеризуется с FRB в присутствии рапамицина; GyrB, который димеризуется с GryB в присутствии кумермицина; GAI, который димеризуется с GID1 в присутствии гиббереллина; или Snap-tag, который димеризуется с HaloTag в присутствии HaXS.

Альтернативы в самом семействе FKBP также являются предпочтительными. Например, FKBP, который гомодимеризуется (т. е. один FKBP димеризуется с другим FKBP) в присутствии FK1012. Таким образом, также предусмотрена не встречающаяся в природе или сконструированная система CRISPR-Cas на основе индуцируемого Cpf1, содержащая:

первую слитую конструкцию на основе Cpf1, к которой прикреплена первая половинка индуцируемого гомодимера, и

вторую слитую конструкцию на основе Cpf1, к которой прикреплена вторая половинка индуцируемого гомодимера,

где вторая слитая конструкция на основе Cpf1 функционально связана с (необязательно одним или несколькими) сигналом(сигналами) ядерного экспорта,

где приведение в контакт с источником энергии, являющимся индуктором, обеспечивает сведение первой и второй половинок индуцируемого гомодимера вместе,

где сведение первой и второй половинок индуцируемого гомодимера вместе позволяет первой и второй слитым конструкциям на основе CPf1 образовать функциональную систему CRISPR-Cas на основе Cpf1,

В одном варианте осуществления гомодимер предпочтительно представляет собой FKBP, а источник энергии, являющийся индуктором, предпочтительно представляет собой FK1012. В другом варианте осуществления гомодимер предпочтительно представляет собой GryB, а источник энергии, являющийся индуктором, предпочтительно представляет собой кумермицин. В другом варианте осуществления гомодимер предпочтительно представляет собой ABA, а источник энергии, являющийся индуктором, предпочтительно представляет собой гиббереллин.

В других вариантах осуществления димер является гетеродимером. Предпочтительными примерами гетеродимеров являются любые из следующих индуцируемых систем: FKBP, который димеризуется с кальциневрином А (CNA) в присутствии FK506; FKBP, который димеризуется с CyP-Fas в присутствии FKCsA; FKBP, который димеризуется с FRB в присутствии рапамицина в присутствии кумермицина; GAI, который димеризуется с GID1 в присутствии гиббереллина; или Snap-tag, который димеризуется с HaloTag в присутствии HaXS.

Заявители использовали FKBP/FRB, поскольку он хорошо охарактеризован, и оба домена являются достаточно маленькими (<100 аминокислот) для содействия упаковке. Более того, рапамицин использовался долгое время и его побочные эффекты хорошо известны. Крупные домены димеризации (>300 аминокислот) также должны работать, но для обеспечения восстановления Cpf1 могут потребоваться более длинные линкеры.

У Paulmurugan и Gambhir (Cancer Res, August 15, 2005 65; 7413) обсуждаются базовые сведения о системе FRB/FKBP/рапамицин. Другим полезным документом является статья Crabtree et al. (Chemistry & Biology 13, 99-107, Jan 2006).

В данном примере конструируют один вектор, кассету экспрессии (плазмиду). gRNA находится под контролем промотора U6. Используют два разных разделения Cpf1. Конструкция split-Cpf1 основывается на первой слитой конструкции на основе Cpf1, фланкированной NLS, с FKBP, слитым с C'-концевой частью split-Cpf1 посредством линкера GlySer; и второй слитой конструкции на основе Cpf1, фланкированной NES, с FRB, слитым с N'-концевой частью split-Cpf1 посредством линкера GlySer. Для разделения первой и второй слитых конструкций на основе Cpf1 используют P2A, разделяющееся при транскрипции. Split-Cpf1 демонстрирует образование вставок/делеций, подобное таковому у дикого типа, в присутствии рапамицина, но значительно более низкий уровень образования вставок/делеций, чем у дикого типа, в отсутствие рапамицина.

Соответственно, предусматривается один вектор. Вектор содержит:

первую слитую конструкцию на основе Cpf1, к которой прикреплена первая половинка индуцируемого димера, и

вторую слитую конструкцию на основе Cpf1, к которой прикреплена вторая половинка индуцируемого димера,

где вторая слитая конструкция на основе CPf1 функционально связана с одним или несколькими сигналами ядерного экспорта,

где сведение первой и второй половинок индуцируемого гетеродимера вместе позволяет первой и второй слитым конструкциям на основе CPf1 образовать функциональную систему CRISPR-Cas на основе Cpf1,

где функциональная система CRISPR-Cas на основе Cpf1 связывается с целевой последовательностью и необязательно редактирует локус генома для изменения экспрессии генов. Эти элементы предпочтительно представлены в одной конструкции, например, в кассете экспрессии.

Первая слитая конструкция на основе Cpf1 предпочтительно фланкирована по меньшей мере одним сигналом ядерной локализации на каждом конце. Вторая слитая конструкция на основе CPf1 предпочтительно фланкирована по меньшей мере одним сигналом ядерного экспорта на каждом конце.

Также предусмотрен способ лечения субъекта, нуждающегося в этом, включающий индуцирование редактирования генов путем трансформации субъекта с помощью полинуклеотида, кодирующего систему, или любого из векторов согласно настоящему изобретению и введение субъекту источника энергии, являющегося индуктором. Также может предусматриваться подходящая матрица для репарации, например, доставляемая вектором, содержащим указанную матрицу для репарации.

Также предусмотрен способ лечения субъекта, нуждающегося в этом, включающий индуцирование активации или репрессии транскрипции путем трансформации субъекта с помощью полинуклеотида, кодирующего систему согласно настоящему изобретению, или любого из векторов согласно настоящему изобретению, где указанные полинуклеотид или вектор кодируют или содержат каталитически неактивный Cpf1 и один или несколько ассоциированных с ним функциональных доменов; при этом способ дополнительно включает введение субъекту источника энергии, являющегося индуктором.

Также предусмотрены композиции, содержащие систему согласно настоящему изобретению, для применения в указанном способе лечения. Также предусмотрено применение системы согласно настоящему изобретению в изготовлении лекарственного препарата для таких способов лечения.

Примеры состояний, которые можно лечить с помощью системы согласно настоящему изобретению, описаны в данном документе или в документах, цитируемых в данном документе.

Один вектор может содержать средство, разделяющее транскрипты, например, P2A. P2A разделяет транскрипт на два с отделением первой и второй слитых конструкций на основе CPf1. Разделение происходит из-за "рибосомного пропуска". По сути, рибосома пропускает аминокислоту в ходе трансляции, что разрывает цепь белка и дает в результате два отдельных полипептида/белка. Один вектор также пригоден для применений, при которых низкая фоновая активность не представляет проблему, но при этом желательна высокая индуцируемая активность.

Одним примером может быть образование клональных линий эмбриональных стволовых клеток. Обычной процедурой является транзиентная трансфекция плазмидами, кодирующими CPf1 wt или никазы Cpf1. Эти плазмиды обеспечивают образование молекул Cpf1, которые остаются активными в течение нескольких дней и характеризуются более высокой вероятностью нецелевой активности. Использование одного вектора экспрессии для split-Cpf1 позволяет ограничить "высокую" активность Cpf1 более коротким промежутком времени (например, путем применения одной дозы индуктора, такого как рапамицин). Без непрерывных (ежесуточных) обработок индуктором (например, рапамицином) активность отдельных векторов экспрессии split-Cpf1 является низкой и обеспечивает сниженную вероятность возникновения нежелательных нецелевых эффектов.

Пик активности индуцированного Cpf1 полезен в некоторых вариантах осуществления и может быть наиболее легко вызван с использованием одного вектора доставки, но это также возможно с помощью двойной векторной системы (каждый вектор доставляет одну половинку split-Cpf1). Пик может представлять собой высокую активность и длиться в течение короткого срока, как правило, продолжительности действия индуктора.

Соответственно, предусмотрен способ получения клональных линий эмбриональных стволовых клеток, включающий трансфекцию одной или нескольких эмбриональных стволовых клеток с помощью полинуклеотида, кодирующего систему согласно настоящему изобретению, или одного из векторов согласно настоящему изобретению для экспрессии split-Cpf1 согласно настоящему изобретению и введение в одну или несколько стволовых клеток источника энергии, являющегося индуктором, согласно настоящему изобретению или приведение их в контакт с ним для индуцирования восстановления Cpf1. Может предусматриваться матрица для репарации.

Как и во всех способах, описанных в данном документе, следует понимать, что будут необходимы подходящие gRNA или направляющие.

Если функциональные домены и подобные "ассоциированы" с одной или другой частью фермента, то они, как правило, являются продуктами слияния. Термин "ассоциированный с" используется в данном документе в отношении того, как одна молекула "связывается" по отношению к другой, например, между частями Cpf1 и функциональным доменом. В случае таких белок-белковых взаимодействий эту ассоциацию можно рассматривать с точки зрения распознавания как распознавание антителом эпитопа. Альтернативно один белок может быть ассоциирован с другим белком посредством слияния обоих, например, одна субъединица является слитой с другой субъединицей. Слияние обычно происходит путем добавления одной аминокислотной последовательности к другой, например, посредством сплайсинга нуклеотидных последовательностей, которые кодируют каждый белок или субъединицу. Альтернативно, по сути, это можно рассматривать как связывание двух молекул или прямую связь, например, белок слияния. В любом случае слитый белок может включать линкер между двумя представляющими интерес субъединицами (т. е. между ферментом и функциональным доменом или между адаптерным белком и функциональным доменом). Таким образом, в некоторых вариантах осуществления часть CPf1 ассоциирована с функциональным доменом за счет связывания с ним. В других вариантах осуществления CPf1 ассоциирован с функциональным доменом ввиду того, что двое слиты вместе необязательно посредством промежуточного линкера. Примеры линкеров включают линкеры GlySer, обсуждаемые в данном документе.

Другие примеры индукторов включают свет и гормоны. Что касается света, индуцируемые димеры могут быть гетеродимерами и включать первую индуцируемую светом половинку димера и вторую (и комплементарную) индуцируемую светом половинку димера. Предпочтительным примером первой и второй индуцируемых светом половинок димера является система CIB1 и CRY2. Домен CIB1 является гетеродимерным партнером по связыванию чувствительного к свету криптохрома 2 (CRY2).

В другом примере чувствительная к синему свету система димеризации Magnet (pMag и nMag) может быть слита с двумя частями белка split-Cpf1. В ответ на стимуляцию светом pMag и nMag димеризуются и происходит повторная сборка Cpf1. Например, такая система описывается в связи с Cas9 у Nihongaki et al. (Nat. Biotechnol. 33, 755-790, 2015).

В настоящем изобретении подразумевается то, что источником энергии, являющимся индуктором, может быть тепло, ультразвук, электромагнитная энергия или химическое вещество. В предпочтительном варианте осуществления настоящего изобретения источником энергии, являющимся индуктором, может быть антибиотик, малая молекула, гормон, производное гормона, стероид или производное стероида. В более предпочтительном варианте осуществления источником энергии, являющимся индуктором, может быть абсцизовая кислота (ABA), доксициклин (DOX), кумат, рапамицин, 4-гидрокситамоксифен (4OHT), эстроген или экдизон. В настоящем изобретении предусматривается то, что по меньшей мере один "переключатель" может быть выбран из группы, состоящей из индуцируемых на основе антибиотиков систем, индуцируемых на основе электромагнитной энергии систем, индуцируемых на основе малых молекул систем, индуцируемых на основе ядерных рецепторов систем и индуцируемых на основе гормонов систем. В более предпочтительном варианте осуществления по меньшей мере один переключатель может быть выбран из группы, состоящей из индуцируемых тетрациклином (Tet)/DOX систем, индуцируемых светом систем, индуцируемых ABA систем, систем на основе куматного репрессора/оператора, индуцируемых 4OHT/эстрогеном систем, индуцируемых на основе экдизона систем и индуцируемых FKBP12/FRAP (комплекс FKBP12-рапамицин) систем. Такие индукторы также обсуждаются в данном документе и в заявке PCT/US2013/051418, включенной в данный документ посредством ссылки.

В целом, любое применение, которое может касаться Cpf1, будь то фермент дикого типа, никаза или нефункциональный Cpf1 (с ассоциированными функциональными доменами или без них), может быть осуществлено с использованием подхода split-Cpf1 согласно настоящему изобретению. Преимуществом остается индуцируемый характер активности Cpf1.

В качестве дополнительного примера могут быть получены продукты слияния split-CPf1 с флуоресцентными белками, такими как GFP. Это позволит визуализировать локусы генома (см. "Dynamic Imaging of Genomic Loci in Living Human Cells by an Optimized CRISPR/Cas System" Chen B. et al. Cell 2013), но индуцируемым образом. Таким образом, в некоторых вариантах осуществления одна или несколько частей Cpf1 могут быть ассоциированы (и, в частности, слиты с) флуоресцентным белком, например, GFP.

Дополнительные эксперименты касаются того, существует ли разница в нецелевом разрезании среди Cpf1 дикого типа (wt) и split-Cpf1 при аналогичном уровне нецелевого разрезания. Для этого заявители использовали транзиентную трансфекцию плазмидами с Cpf1 wt и split-Cpf1 и осуществляли сбор в разные моменты времени. Заявители определяли нецелевую активацию после выявления ряда образцов, в которых целевое разрезание составляло +/- 5%. Заявители получали линии клеток со стабильной экспрессией Cpf1 wt или split-Cpf1 без направляющих (с применением лентивируса). После отбора с помощью антибиотика направляющие доставляли с помощью отдельного лентивируса и осуществляли сбор в разные моменты времени для измерения целевого/нецелевого разрезания.

Заявители ввели дестабилизирующую последовательность (PEST, см. "Use of mRNA- and protein-destabilizing elements to develop a highly responsive reporter system" Voon DC et al. Nucleic Acids Research 2005) в фрагмент FRB(N)Cpf1-NES для облегчения более быстрого разрушения и, следовательно, для снижения стабильности комплекса нефункциональный split-Cpf1-VP64.

Такие дестабилизирующие последовательности, описываемые в других разделах данного описания (в том числе PEST), могут быть предпочтительными для применения с системами split-Cpf1.

Получали линии клеток, стабильно экспрессирующие нефункциональный split-Cpf1-VP64 и MS2-p65-HSF1 + направляющая. Скрининг на предмет устойчивости к PLX может демонстрировать, что необратимая, регулируемая во времени активация транскрипции может быть применима в скринингах лекарственных средств. Этот подход может быть преимущественным, если активация нефункционального split-Cpf1-VP64 является необратимой.

В одном аспекте настоящего изобретения предусмотрена не встречающаяся в природе или сконструированная система CRISPR-Cas на основе Cpf1, которая может содержать по меньшей мере один "переключатель", при этом активность указанной системы CRISPR-Cas на основе Cpf1 контролируется в отношении "переключателя" путем приведения в контакт по меньшей мере с одним источником энергии, являющимся индуктором. В одном варианте осуществления настоящего изобретения контроль в отношении по меньшей мере одного "переключателя" или активности указанной системы CRISPR-Cas на основе Cpf1 может быть активирован, усилен, прекращен или подавлен. Приведение в контакт по меньшей мере с одним источником энергии, являющимся индуктором, может приводить в результате к первому эффекту и второму эффекту. Первый эффект может представлять собой одно или несколько из ядерного импорта, ядерного экспорта, привлечения вторичного компонента (такого как эффекторная молекула), конформационного изменения (белка, ДНК или РНК), расщепления, высвобождения молекулы-карго (такой как защищенная молекула или кофактор), ассоциации или диссоциации. Второй эффект может представлять собой одно или несколько из активации, усиления, прекращения или подавления контроля в отношении по меньшей мере одного "переключателя" или активности указанной системы CRISPR-Cas на основе Cpf1. В одном варианте осуществления первый эффект и второй эффект могут проявляться в виде каскада.

В другом аспекте настоящего изобретения система CRISPR-Cas на основе Cpf1 может дополнительно содержать по меньшей мере один или несколько из сигнала ядерной локализации (NLS), сигнала ядерного экспорта (NES), функционального домена, гибкого линкера, мутации, делеции, изменения или усечения. Одно или несколько из NLS, NES или функционального домена могут быть активированными в зависимости от условий или инактивированными. В другом варианте осуществления мутацией может быть одна или несколько из мутации в гомологичном участке фактора транскрипции, мутации в ДНК-связывающем домене (как, например, подвергнутые мутации основные остатки в структуре основная спираль-петля-спираль), мутации в эндогенном NLS или мутации в эндогенном NES. В настоящем изобретении подразумевается то, что источником энергии, являющимся индуктором, может быть тепло, ультразвук, электромагнитная энергия или химическое вещество. В предпочтительном варианте осуществления настоящего изобретения источником энергии, являющимся индуктором, может быть антибиотик, малая молекула, гормон, производное гормона, стероид или производное стероида. В более предпочтительном варианте осуществления источником энергии, являющимся индуктором, может быть абсцизовая кислота (ABA), доксициклин (DOX), кумат, рапамицин, 4-гидрокситамоксифен (4OHT), эстроген или экдизон. В настоящем изобретении предусматривается то, что по меньшей мере один "переключатель" может быть выбран из группы, состоящей из индуцируемых на основе антибиотиков систем, индуцируемых на основе электромагнитной энергии систем, индуцируемых на основе малых молекул систем, индуцируемых на основе ядерных рецепторов систем и индуцируемых на основе гормонов систем. В более предпочтительном варианте осуществления по меньшей мере один переключатель может быть выбран из группы, состоящей из индуцируемых тетрациклином (Tet)/DOX систем, индуцируемых светом систем, индуцируемых ABA систем, систем на основе куматного репрессора/оператора, индуцируемых 4OHT/эстрогеном систем, индуцируемых на основе экдизона систем и индуцируемых FKBP12/FRAP (комплекс FKBP12-рапамицин) систем.

Аспекты контроля, подробно описываемые в данной заявке, относятся по меньшей мере к одному или нескольким "переключателям". Термин "переключатель", используемый в данном документе, обозначает систему или набор компонентов, которые действуют согласовано с обеспечением изменения, охватывающего все аспекты биологической функции, такие как активация, подавление, усиление или прекращение этой функции. В одном аспекте термин "переключатель" охватывает "генетические переключатели", которые содержат основные компоненты в виде белков, регулирующих гены, и специфические последовательности ДНК, которые эти белки распознают. В одном аспекте "переключатели" относятся к индуцируемым и репрессируемым системам, используемым в регуляции генов. В целом, индуцируемая система может быть неактивна до тех пор, пока не будет присутствовать определенная молекула (называемая индуктором), которая обеспечивает экспрессию гена. Считается, что молекула "индуцирует экспрессию". Способ, с помощью которого это осуществляется, зависит от механизмов контроля, а также от различий в типе клетки. Репрессируемая система является активной до тех пор, пока отсутствует определенная молекула (называемая корепрессор), которая подавляет экспрессию гена. Считается, что молекула "репрессирует экспрессию". Способ, с помощью которого это осуществляется, зависит от механизмов контроля, а также от различий в типе клетки. Термин "индуцируемый", используемый в данном документе, может охватывать все аспекты "переключателя" независимо от задействованного молекулярного механизма. Соответственно, "переключатель", как подразумевается в настоящем изобретении, может включать без ограничения индуцируемые на основе антибиотиков системы, индуцируемые на основе электромагнитной энергии системы, индуцируемые на основе малых молекул системы, индуцируемые на основе ядерных рецепторов системы и индуцируемые на основе гормонов системы. В предпочтительных вариантах осуществления "переключателем" может быть индуцируемая тетрациклином (Tet)/DOX система, индуцируемые светом системы, индуцируемая абсцизовой кислотой система, система на основе куматного репрессора/оператора, индуцируемая 4OHT/эстрогеном система, индуцируемые на основе экдизона системы и индуцируемая FKBP12/FRAP (комплексом FKBP12-рапамицин) система.

Система CRISPR-Cas на основе Cpf1 согласно настоящему изобретению может быть разработана для модулирования или изменения экспрессии отдельных эндогенных генов точным в пространственном и временном отношении способом. Система CRISPR-Cas на основе Cpf1 может быть разработана так, чтобы связываться с промоторной последовательностью представляющего интерес гена для изменения экспрессии гена. Cpf1 может быть разделен надвое, при этом одну половинку сливают с одной половинкой гетеродимера криптохрома (криптохрома-2 или CIB1), тогда как оставшуюся часть криптохрома сливают с другой половинкой Cpf1. В некоторых аспектах транскрипционный эффекторный домен также может быть включен в систему CRISPR-Cas на основе Cpf1. Эффекторные домены могут быть либо активаторами, такими как VP16, VP64 или p65, либо репрессорами, такими как KRAB, EnR или SID. В нестимулированном состоянии одна половинка белка Cpf1-криптохром-2 локализуется в промоторном участке представляющего интерес гена, но не связывается с CIB1-эффекторным белком. При стимуляция светом синего спектра криптохром-2 активируется, подвергается конформационному изменению и открывает свой домен связывания. CIB1, в свою очередь, связывается с криптохромом-2, что приводит в результате к локализации второй половинки Cpf1 в промоторном участке представляющего интерес гена и инициированию редактирования генома, которое может приводить к сверхэкспрессии или сайленсингу гена. Аспекты LITE дополнительно описываются в Liu, H et al., Science, 2008, и Kennedy M et al., Nature Methods 2010, содержание которых включено в данный документ посредством ссылки во всей своей полноте.

Активаторные и репрессорные домены, которые могут дополнительно модулировать функцию, могут быть выбраны на основании видов, эффективности, механизма, продолжительности, размера или любого ряда других параметров. Предпочтительные эффекторные домены включают без ограничения домен транспозазы, домен интегразы, домен рекомбиназы, домен резольвазы, домен инвертазы, домен протеазы, домен ДНК-метилтрансферазы, домен ДНК-деметилазы, домен гистонацетилазы, домен гистондеацетилазы, нуклеазный домен, репрессорный домен, активаторный домен, домены сигнала ядерной локализации, домен рекрутирования транскрипционного белка, домен, ассоциированный с активностью клеточного поглощения, домен связывания нуклеиновой кислоты или домен презентации антитела.

Существует несколько разных способов получения индуцируемых систем: 1. система на основе ABI-PYL, индуцируемая абсцизовой кислотой (ABA) (см., например, веб-сайт stke.sciencemag.org/cgi/content/abstract/sigtrans;4/164/rs2), 2. система на основе FKBP-FRB, индуцируемая рапамицином (или родственными химическими соединениями на основе рапамицина) (см., например, веб-сайт nature.com/nmeth/journal/v2/n6/full/nmeth763.html), 3. система на основе GID1-GAI, индуцируемая гиббереллином (GA) (см., например, веб-сайт nature.com/nchembio/journal/v8/n5/full/nchembio.922.html).

Другая система, предусматриваемая настоящим изобретением, представляет собой химически индуцируемую систему, основанную на изменении субклеточной локализации. Заявители также предусматривают индуцируемую систему CRISPR-Cas на основе Cpf1, сконструированную для нацеливания на представляющий интерес локус генома, при этом фермент Cpf1 разделен на две слитых конструкции, которые дополнительно связаны с разными частями чувствительного к химическим веществам или энергии белка. Такой чувствительный к химическим веществам или энергии белок будет приводить к изменению субклеточной локализации одной из половинок фермента CPf1 (т. е. транспорту одной из половинок фермента Cpf1 из цитоплазмы в ядро клеток) при связывании химического вещества или при переносе энергии на чувствительный к химическим веществам или энергии белок. Такой транспорт слитых конструкций из одних субклеточных компартментов или органелл, в которых его активность ограничивается из-за отсутствия субстрата для восстановленной системы Cpf1 CRISPR-Cas, в другие, в которых субстрат присутствует, позволит компонентам объединяться и восстанавливать функциональную активность, а затем вступать в контакт с требуемым для них субстратом (т. е. геномной ДНК в ядре клетки млекопитающего) и приводить к активации или подавлению экспрессии целевого гена.

Предусматриваются другие индуцируемые системы, такие как без ограничения регуляция тяжелыми металлами [Mayo KE et al., Cell 1982, 29:99-108; Searle PF et al., Mol Cell Biol 1985, 5:1480-1489, и Brinster RL et al., Nature (London) 1982, 296:39-42], стероидными гормонами [Hynes NE et al., Proc Natl Acad Sci USA 1981, 78:2038-2042; Klock G et al., Nature (London) 1987, 329:734-736, и Lee F et al., Nature (London) 1981, 294:228-232.], тепловым шоком [Nouer L: Heat Shock Response. Boca Raton, FL: CRC; 1991], и были разработаны другие реагенты [Mullick A, Massie B: Transcription, translation and the control of gene expression. в Encyclopedia of Cell Technology, под ред.: Speir RE. Wiley; 2000:1140-1164, и Fussenegger M, Biotechnol Prog 2001, 17:1-51]. Однако в случае таких индуцируемых промоторов млекопитающих существуют ограничения, такие как "утечка" при "выключенном" состоянии и плейотропные эффекты индукторов (теплового шока, тяжелых металлов, глюкокортикоидов и т. д.). Было предложено применение гормонов насекомых (экдизона), с надеждой снизить противодействие клеточными процессам в клетках млекопитающих [No D et al., Proc Natl Acad Sci USA 1996, 93:3346-3351]. В другой превосходной системе в качестве индуктора применяется рапамицин [Rivera VM et al., Nat Med 1996, 2:1028-1032], но роль рапамицина в качестве иммуносупрессора была главным ограничением его применения in vivo и, поэтому, было необходимо найти биологически инертное соединение [Saez E et al., Proc Natl Acad Sci USA 2000, 97:14512-14517] для контроля экспрессии гена.

В конкретных вариантах осуществления системы редактирования генов, описанные в данном документе, помещены под контроль "пароля-выключателя", который представляет собой механизмы, которые эффективно уничтожают клетку-хозяина, если условия в клетке изменяются. Этого достигают путем введения гибридных факторов семейства LacI-GalR, для включения которых требуется присутствие IPTG (Chan et al. 2015 Nature Nature Chemical Biology doi:10.1038/nchembio.1979), которые можно применять для управления геном, кодирующим фермент, критически важный для выживания клетки. Путем комбинирования различных факторов транскрипции, чувствительных к различным химическим веществам, может генерироваться "код". Такую систему можно применять для пространственного и временного контроля степени индуцируемых CRISPR генетических модификаций, которые могут представлять интерес в различных областях техники, включая применение в терапии, и также могут представлять интерес для предотвращения "ускользания" ГМО-организмов из предполагаемой среды.

Самоинактивирующиеся системы

Как только все копии гена в геноме клетки подвергли редактированию, дальнейшая экспрессия CRISRP/Cpf1 в такой клетке более не требуется. В действительности, поддержание экспрессии было бы нежелательным в случае нецелевых эффектов в сайтах генома, не предназначенных для редактирования и т. д. Таким образом, целесообразной была бы ограниченная во времени экспрессия. Индуцируемая экспрессия предоставляет одно решение проблемы, но помимо нее заявители предусматривают самоинактивирующуюся систему CRISPR-Cpf1, которая основана на применении некодирующей направляющей целевой последовательности в самом векторе, несущем CRISPR. Таким образом, после того как экспрессия началась, система CRISPR будет вызывать собственное разрушение, но перед тем как разрушение завершится, у нее будет достаточно времени для редактирования геномных копий целевого гена (для чего, с точки зрения нормальной точечной мутации в диплоидной клетке, потребуется не более двух редактирований). Вкратце, самоинактивирующаяся система CRISPR-Cas включает в себя дополнительную РНК (т. e. направляющую РНК), которая нацеливает кодирующую последовательность для самого фермента CRISPR или которая нацеливает одну или несколько некодирующих направляющих целевых последовательностей, комплементарных уникальным последовательностям, присутствующим в одной или нескольких из следующих:

(a) в промоторе, управляющем экспрессией элементов некодирующей РНК,

(b) в промоторе, управляющем экспрессией гена Cpf1,

(c) в последовательности в 100 п. о. инициирующего трансляцию стартового ATG-кодона в кодирующей последовательности Cpf1,

(d) в инвертированном концевом повторе (iTR) вирусного вектора для доставки, например, в геноме AAV.

Более того, такую РНК можно доставлять посредством вектора, например, отдельного вектора или того же вектора, который кодирует комплекс CRISPR. Когда введение осуществляют при помощи отдельного вектора, то РНК CRISPR, которая целенаправленно воздействует на экспрессию Cpf1, можно вводить последовательно или одновременно. При последовательном введении РНК CRISPR, которая целенаправленно воздействует на экспрессию Cpf1, можно доставлять после РНК CRISPR, которая предназначена, например, для редактирования генов или рекомбинации генов. Данный период может быть периодом, исчисляемым в минутах (например, 5 минут, 10 минут, 20 минут, 30 минут, 45 минут, 60 минут). Данный период может быть периодом, исчисляемым в часах (например, 2 часа, 4 часа, 6 часов, 8 часов, 12 часов, 24 часа). Данный период может быть периодом, исчисляемым в днях (например, 2 дня, 3 дня, 4 дня, 7 дней). Данный период может быть периодом, исчисляемым в неделях (например, 2 недели, 3 недели, 4 недели). Данный период может быть периодом, исчисляемым в месяцах (например, 2 месяца, 4 месяца, 8 месяцев, 12 месяцев). Данный период может быть периодом, исчисляемым в годах (например, 2 года, 3 года, 4 года). Таким путем фермент Cas связывается с первой gRNA, способной гибридизироваться с первой мишенью, такой как представляющие интерес локус или локусы генома, и выполняет функцию(функции), требующиеся для системы CRISPR-Cas (например, рекомбинацию генов); и впоследствии фермент Cpf1 может затем связываться со второй gRNA, способной гибридизироваться с последовательностью, содержащей по меньшей мере часть кассеты Cpf1 или CRISPR. Если gRNA целенаправленно воздействует на последовательности, кодирующие экспрессию белка Cpf1, фермент блокируется, а система становится самоинактивирующейся. Аналогичным образом РНК CRISPR, которая целенаправленно воздействует на экспрессию Cpf1, введенного посредством, например, липосомы, липофекции, наночастиц, микровезикул, что объясняется в данном документе, можно вводить последовательно или одновременно. Проще говоря, самоинактивацию можно применять для инактивации одной или нескольких направляющих РНК, используемых для нацеливания на одну или несколько мишеней.

В ряде аспектов обеспечивается одиночная gRNA, которая способна гибридизироваться с последовательностью, расположенной ниже стартового кодона фермента CRISPR, при этом после определенного периода времени происходит потеря экспрессии фермента CRISPR. В некоторых аспектах предусмотрены одна или несколько gRNA, которые способны гибридизироваться с одной или несколькими кодирующими или некодирующими участками полинуклеотида, кодирующего систему CRISPR-Cas, при этом после определенного периода времени происходит инактивация одной или нескольких, или в ряде случаев, всех систем CRISPR-Cas. В некоторых аспектах системы и не ограничиваясь теорией клетка может содержать множество комплексов CRISPR-Cas, где первое подмножество комплексов CRISPR содержит первую gRNA, способную целенаправленно воздействовать на подлежащие редактированию локус или локусы генома, а второе подмножество комплексов CRISPR содержит по меньшей мере одну вторую gRNA, способную целенаправленно воздействовать на полинуклеотид, кодирующий систему CRISPR-Cas, где первое подмножество комплексов CRISPR-Cas опосредует редактирование целевых локуса или локусов генома, а второе подмножество комплексов CRISPR впоследствии инактивирует систему CRISPR-Cas, инактивируя тем самым в дальнейшем экспрессию CRISPR-Cas в клетке.

Таким образом, настоящее изобретение относится к системе CRISPR-Cas, содержащей один или несколько векторов для доставки в эукариотическую клетку, где вектор(векторы) кодирует(кодируют): (i) фермент CRISPR, в частности, Cpf1; (ii) первую направляющую РНК, способную гибридизироваться с целевой последовательностью в клетке; и (iii) вторую направляющую РНК, способную гибридизироваться с одной или несколькими целевыми последовательностями в векторе, который кодирует фермент CRISPR, где при экспрессии в клетке первая направляющая РНК управляет специфическим к последовательности связыванием первого комплекса CRISPR с целевой последовательностью в клетке; вторая направляющая РНК управляет специфическим к последовательности связыванием второго комплекса CRISPR с целевой последовательностью в векторе, который кодирует фермент CRISPR; при этом комплексы CRISPR содержат фермент CRISPR, связанный с направляющей РНК, при этом направляющая РНК может гибридизироваться со своей целевой последовательностью; а второй комплекс CRISPR инактивирует систему CRISPR-Cas для предупреждения дальнейшей экспрессии клеткой фермента CRISPR.

Дополнительные характеристики вектора(векторов), закодированных ферментов, направляющих последовательностей и т. д. раскрыты в других разделах данного документа. Система может кодировать (i) фермент CRISPR, в частности, Cpf1; (ii) первую gRNA, содержащую последовательность, способную гибридизироваться с первой целевой последовательностью в клетке, (iii) вторую направляющую РНК, способную гибридизироваться с вектором, который кодирует фермент CRISPR. Проще говоря, фермент может включать в себя одну или несколько NLS и т. д.

Разные кодирующие последовательности (фермент CRISPR, направляющие РНК) можно ввести в отдельный вектор или во множество векторов. Например, возможным является кодирование фермента в одном векторе, а последовательностей разных РНК в другом векторе, или кодирование фермента и одной gRNA в одном векторе, а остальной gRNA в другом векторе, или любая другая комбинация. В целом, предпочтительной является система, использующая всего один или два разных вектора.

При использовании множества векторов возможной является их доставка в неравных количествах, а в идеальном варианте с избытком вектора, который кодирует первую направляющую РНК, связанную со второй направляющей РНК, способствуя тем самым задержке конечной инактивации системы CRISPR до момента прохождения редактирования генома.

Первая направляющая РНК может целенаправленно воздействовать на любую представляющую интерес целевую последовательность в геноме, что описано в других частях в данном документе. Вторая направляющая РНК нацеливается на любую последовательность в векторе, который кодирует фермент CRISPR Cas9, и тем самым инактивирует экспрессию фермента, обусловленную данным вектором. Таким образом, целевая последовательность в векторе должна быть способна к инактивации экспрессии. Подходящие целевые последовательности могут находиться, например, рядом с инициирующим трансляцию стартовым кодоном кодирующей последовательности Cpf1 или в его пределах, в некодирующей последовательности в промоторе, управляющем экспрессией элементов некодирующей РНК, в пределах промотора, управляющего экспрессией гена Cpf1, в пределах 100 п. о. инициирующего трансляцию стартового ATG-кодона в кодирующей последовательности Cpf1, и/или в пределах инвертированного концевого повтора (iTR) вирусного вектора для доставки, например, в геноме AAV. Двухнитевой разрыв рядом с данным участком может индуцировать сдвиг рамки в кодирующей последовательности Cpf1, вызывая потерю экспрессии белка. Альтернативой целевой последовательности для "самоинактивирующейся" направляющей РНК было бы нацеливание на редактирование/инактивацию регуляторных участков/последовательностей, которые необходимы для экспрессии системы CRISPR-Cpf1 или для стабильности вектора. К примеру, если нарушена структура промотора для кодирующей последовательности Cpf1, тогда транскрипция будет подавляться или предупреждаться. Проще говоря, если вектор включает в себя последовательности, обеспечивающие репликацию, поддержание или стабильность, тогда можно целенаправленно воздействовать на эти последовательности. К примеру, в векторе на основе AAV приемлемая целевая последовательность находится в пределах iTR. Другими приемлемыми для нацеливания последовательностями могут быть промоторные последовательности, сайты полиаденилирования и т. д.

Более того, если направляющие РНК экспрессируются в формате массива, тогда "самоинактивирующиеся" направляющие РНК, целенаправленно воздействующие одновременно на оба промотора, в результате приведут к вырезанию вставочных нуклеотидов в пределах экспрессионной конструкции CRISPR-Cas, вызывая фактически полную инактивацию. Проще говоря, вырезание вставочных нуклеотидов будет являться результатом целенаправленного воздействия направляющих РНК на оба ITR или одновременного целенаправленного воздействия на два или более компонентов CRISPR-Cas. Как поясняется в данном документе, самоинактивация в целом применима с системами CRISPR-Cpf1 для обеспечения регуляции CRISPR-Cpf1. Например, как поясняется в данном документе, самоинактивацию можно задействовать для CRISPR-опосредованной репарации мутаций, например, нарушений, обусловленных экспансией, как поясняется в данном документе. Результат такой самоинактивации заключается во временной активности CRISPR-опосредованной репарации.

Добавление не воздействующих целенаправленно нуклеотидов к 5'-концу (например, 1-10 нуклеотидов, предпочтительно 1-5 нуклеотидов) "самоинактивирующиейся" направляющей РНК можно использовать для задержки ее процессирования и/или изменения ее эффективности в качестве средства для обеспечения редактирования в целевом локусе генома перед выключением CRISPR-Cpf1.

В одном аспекте самоинактивирующейся системы AAV-CRISPR-Cpf1 плазмиды, которые совместно экспрессируют одну или несколько gRNA, целенаправленно воздействующих на представляющие интерес последовательности в геноме (например, 1-2, 1-5, 1-10, 1-15, 1-20, 1-30), можно создавать с "самоинактивирующимися" gRNA, которые целенаправленно воздействуют на последовательность LbCpf1 в сконструированном стартовом ATG-сайте или рядом с ним (например, в пределах 5 нуклеотидов, в пределах 15 нуклеотидов, в пределах 30 нуклеотидов, в пределах 50 нуклеотидов, в пределах 100 нуклеотидов). На регуляторную последовательность в участке промотора U6 также можно целенаправленно воздействовать при помощи gRNA. U6-контролируемые gRNA можно сконструировать в формате массива с тем, чтобы одновременно могли высвобождаться множество последовательностей gRNA. При первичной доставке в целевые ткань/клетки (клетка слева) gRNA начинают накапливаться, в то же время в ядре повышаются уровни Cpf1. Cpf1 объединяется в комплексы со всеми gRNA для опосредования редактирования генома и самоинактивации плазмид, несущих CRISPR-Cpf1.

Один аспект самоинактивирующейся системы CRISPR-Cpf1 представляет собой экспрессию в отдельном формате или в формате тандемного массива от 1 до 4 или более разных направляющих последовательностей; например, до приблизительно 20 или приблизительно 30 направляющих последовательностей. Каждая отдельная самоинактивирующаяся направляющая последовательность может целенаправленно воздействовать на разные мишени. Такие последовательности могут процессироваться, например, из транскрипта одной химерной pol3. Можно применять промоторы рol3, такие как промоторы U6 или H1. Промоторы рol2 упомянуты во всем данном документе. Последовательности с инвертированными концевыми повторами (iTR) могут фланкировать промотор Pol3 - gRNA - промотор Pol2 - Cpf1.

В одном аспекте химерный транскрипт в формате тандема представляет собой одну или несколько направляющих последовательностей, которые редактируют одну или несколько мишеней, тогда как одна или несколько самоинактивирующихся направляющих последовательностей инактивируют систему CRISPR/Cpf1. Таким образом, например, описываемая система CRISPR-Cpf1 для репарации нарушений, обусловленных экспансией, можно непосредственно объединять с самоинактивирующейся системой CRISPR-Cpf1, описанной в данном документе. Такая система может, например, иметь две направляющие последовательности, направленные на целевой участок для репарации, а также по меньшей мере третью направляющую последовательность, управляющую самоинактивацией CRISPR-Cpf1. Ссылаются на заявку с порядковым № PCT/US2014/069897 под названием "Композиции и способы применения систем CRISPR-Cas при связанных с нуклеотидными повторами нарушениях", опубликованную 12 декабря 2014 г. как WO/2015/089351.

Редактирование генов или изменение целевых локусов с помощью Cpf1

Двухнитевой разрыв или однонитевой разрыв в одной из нитей преимущественно должен находиться достаточно близко к целевому положению так, чтобы происходила коррекция. В одном варианте осуществления расстояние составляет не более 50, 100, 200, 300, 350 или 400 нуклеотидов. Без ограничения какой-либо теорией, полагают, что разрыв должен находиться достаточно близко к целевому положению, так чтобы разрыв находился в участке, который подвергается опосредованному экзонуклеазой удалению в ходе конечной резекции. Если расстояние между целевым положением и разрывом слишком большое, то мутация не может быть включена в конечную резекцию и, поэтому, не может быть исправлена, поскольку только последовательность матричной нуклеиновой кислоты может быть использована для коррекции последовательности в участке конечной резекции.

В одном варианте осуществления, при котором направляющая РНК и молекула V типа/VI типа, в частности, Cpf1/C2c1/C2c2 или его ортолог или гомолог, предпочтительно нуклеаза Cpf1, индуцирует двухнитевой разрыв с целью индуцирования опосредованной HDR коррекции, при этом сайт расщепления находится на расстоянии 0-200 п. о. (например, 0-175, 0-150, 0-125, 0-100, 0-75, 0-50, 0-25, 25-200, 25-175, 25-150, 25-125, 25-100, 25-75, 25-50, 50-200, 50-175, 50-150, 50-125, 50-100, 50-75, 75-200, 75-175, 75-150, 75-125, 75-100 п. о.) от целевого положения. В одном варианте осуществления сайт расщепления находится на расстоянии 0-100 п. о. (например, 0-75, 0-50, 0-25, 25-100, 25-75, 25-50, 50-100, 50-75 или 75-100 п. о.) от целевого положения. В следующем варианте осуществления две или более направляющих РНК, образующих комплекс с Cpf1 или его ортологом или гомологом, можно применять для индуцирования мультиплексных разрывов для индуцирования опосредованной HDR коррекции.

Гомологическое плечо должно протягиваться по меньшей мере до участка, в котором может произойти конечная резекция, например, чтобы позволить резецированному однонитевому "липкому" концу находить комплементарный участок в донорной матрице. Вся длина может быть ограничена параметрами, такими как размер плазмиды или пределы упаковки вируса. В одном варианте осуществления гомологическое плечо может не протягиваться до повторяющихся элементов. Типичная длина гомологического плеча составляет по меньшей мере 50, 100, 250, 500, 750 или 1000 нуклеотидов.

Целевое положение, используемое в данном документе, относится к сайту в целевой нуклеиновой кислоте или целевом гене (например, хромосоме), который модифицирован зависимым от V типа/VI типа, в частности, Cpf1/C2c1/C2c2 или его ортолога или гомолога, предпочтительно молекулы Cpf1 процессом. Например, целевым положением может быть модифицированное расщепление молекулой Cpf1 целевой нуклеиновой кислоты и модификация, направленная на матричную нуклеиновую кислоту, например, коррекция целевого положения. В одном варианте осуществления целевым положением может быть сайт между двумя нуклеотидами, например, смежными нуклеотидами, в целевой нуклеиновой кислоте, в который добавляют один или несколько нуклеотидов. Целевое положение может содержать один или несколько нуклеотидов, которые изменяются, например, корректируются, матричной нуклеиновой кислотой. В одном варианте осуществления целевое положение находится в целевой последовательности (например, в последовательности, с которой связывается направляющая РНК). В одном варианте осуществления целевое положение находится выше или ниже целевой последовательности (например, последовательности, с которой связывается направляющая РНК).

Матричная нуклеиновая кислота, как данный термин используется в данном документе, относится к последовательности нуклеиновой кислоты, которую можно применять в конъюгации с молекулой V типа/VI типа, в частности, с Cpf1/C2c1/C2c2 или его ортологом или гомологом, предпочтительно с молекулой Cpf1 и молекулой направляющей РНК для изменения структуры целевого положения. В одном варианте осуществления целевую нуклеиновую кислоту модифицируют для обеспечения некоторой части или всей последовательности матричной нуклеиновой кислоты, как правило, в сайте(сайтах) расщепления или рядом с таковым(таковыми). В одном варианте осуществления матричная нуклеиновая кислота является однонитевой. В альтернативном варианте осуществления матричная нуклеиновая кислота является двухнитевой. В одном варианте осуществления матричной нуклеиновой кислотой является ДНК, например, двухнитевая ДНК. В альтернативном варианте осуществления матричная нуклеиновая кислота является однонитевой.

В одном варианте осуществления матричная нуклеиновая кислота изменяет структуру целевого положения путем участия в гомологичной рекомбинации. В одном варианте осуществления матричная нуклеиновая кислота изменяет последовательность целевого положения. В одном варианте осуществления матричная нуклеиновая кислота приводит к включению модифицированного или не встречающегося в природе основания в целевую нуклеиновую кислоту.

Матричная последовательность может подвергаться опосредованной или катализируемой разрывом рекомбинации с целевой последовательностью. В одном варианте осуществления матричная нуклеиновая кислота может включать в себя последовательность, которая соответствует сайту в целевой последовательности, который расщепляется опосредованным Cpf1 событием расщепления. В варианте осуществления матричная нуклеиновая кислота может включать в себя последовательность, которая соответствует как первому сайту в целевой последовательности, который расщепляется при первом опосредованном Cpf1 событии, так и второму сайту в целевой последовательности, который расщепляется при втором опосредованном Cpf1 событии.

В определенных вариантах осуществления матричная нуклеиновая кислота может включать в себя последовательность, которая приводит к изменению в кодирующей последовательности транслируемой последовательности, например, последовательность, которая приводит к замене одной аминокислоты на другую в белковом продукте, например, с трансформированием мутантного аллеля в аллель дикого типа, с трансформированием аллеля дикого типа в мутантный аллелль, и/или к введению стоп-кодона, вставки аминокислотного остатка, делеции аминокислотного остатка или нонсенс-мутации. В определенных вариантах осуществления матричная нуклеиновая кислота может включать в себя последовательность, которая приводит к изменению в некодирующей последовательности, например, к изменению в экзоне или в 5'- или 3'-нетранслируемом или нетранскрибируемом участке. Такие изменения включают в себя изменение в контрольном элементе, например, в промоторе, энхансере, и изменение в цис-действующем или транс-действующем контрольном элементе.

Матричную нуклеиновую кислоту, обладающую гомологичностью с целевым положением в целевом гене, можно применять для изменения структуры целевой последовательности. Матричную последовательность можно применять для изменения нежелательной структуры, например, нежелательного или мутантного нуклеотида. Матричная нуклеиновая кислота может включать в себя последовательность, которая при интегрировании приводит к снижению активности положительного контрольного элемента; повышению активности положительного контрольного элемента; снижению активности отрицательного контрольного элемента; повышению активности отрицательного контрольного элемента; снижению экспрессии гена; повышению экспрессии гена; повышению устойчивости к нарушению или заболеванию; повышению устойчивости к проникновению вируса; исправлению мутации или изменению нежелательного аминокислотного остатка, обеспечению, усилению, отмене или снижению биологического свойства продукта гена, например, повышению ферментативной активности фермента, или усилению способности продукта гена взаимодействовать с другой молекулой.

Матричная нуклеиновая кислота может включать в себя последовательность, которая приводит к изменению в последовательности 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 или более нуклеотидов целевой последовательности. В варианте осуществления матричная нуклеиновая кислота может иметь длину 20 +/-10, 30 +/-10, 40 +/-10, 50 +/-10, 60 +/-10, 70 +/-10, 80 +/-10, 90 +/-10, 100 +/-10, 110 +/-10, 120 +/-10, 130 +/-10, 140 +/-10, 150 +/-10, 160 +/-10, 170 +/-10, 180 +/-10, 190 +/-10, 200 +/-10, 210 +/-10 или 220+/-10 нуклеотидов. В варианте осуществления матричная нуклеиновая кислота может иметь длину 30 +/-20, 40 +/-20, 50 +/-20, 60 +/-20, 70 +/-20, 80 +/-20, 90 +/-20, 100 +/-20, 110 +/-20, 120 +/-20, 130 +/-20, 140 +/-20, 150 +/-20, 160 +/-20, 170 +/-20, 180 +/-20, 190 +/-20, 200 +/-20, 210 +/-20 или 220 +/-20 нуклеотидов. В варианте осуществления матричная нуклеиновая кислота имеет длину 10-1000, 20-900, 30-800, 40-700, 50-600, 50-500, 50-400, 50-300, 50-200 или 50-100 нуклеотидов.

Матричная нуклеиновая кислота содержит следующие компоненты: [5'-гомологичное плечо]-[последовательность замены]-[3'-гомологичное плечо]. Гомологичные плечи обеспечивают рекомбинацию в хромосоме, замещая таким образом нежелательный элемент, например, мутацию или сигнатуру, последовательностью замены. В варианте осуществления гомологичные плечи фланкируют наиболее дистальные сайты расщепления. В варианте осуществления 3'-конец 5'-гомологичного плеча представляет собой положение рядом с 5'-концом последовательности замены. В варианте осуществления 5'-гомологичное плечо может протягиваться по меньшей мере на 10, 20, 30, 40, 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1500 или 2000 нуклеотидов 5' от 5'-конца последовательности замены. В варианте осуществления 5'-конец 3'-гомологичного плеча представляет собой положение рядом с 3'-концом последовательности замены. В одном варианте осуществления 3'-гомологичное плечо может протягиваться по меньшей мере на 10, 20, 30, 40, 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1500 или 2000 нуклеотидов 3' от 3'-конца последовательности замены.

В определенных вариантах осуществления одно или оба гомологичных плеча могут быть укорочены, чтобы избежать включения некоторых повторяющихся элементов последовательности. Например, 5'-гомологичное плечо может быть укорочено, чтобы избежать повторяющегося элемента последовательности. В других вариантах осуществления 3'-гомологичное плечо может быть укорочено, чтобы избежать повторяющегося элемента последовательности. В некоторых вариантах осуществления оба 5'- и 3'-гомологичных плеча могут быть укорочены, чтобы избежать включения некоторых повторяющихся элементов последовательности.

В определенных вариантах осуществления матричные нуклеиновые кислоты для коррекции мутации можно разработать для применения в качестве однонитевого олигонуклеотида. При использовании однонитевого олигонуклеотида длина 5'- и 3'-гомологичных плеч может варьировать до приблизительно 200 пар оснований (п. о.), например, может составлять по меньшей мере 25, 50, 75, 100, 125, 150, 175 или 200 п. о.

Система комплекса с эффекторным белком Cpf1 способстовала негомологичному соединению концов

В определенных вариантах осуществления индуцируемое нуклеазой негомологичное соединение концов (NHEJ) можно применять для целевых ген-специфических нокаутов. Индуцируемое нуклеазой NHEJ также может быть использовано для удаления (например, делеции) последовательности в представляющем интерес гене. Как правило, NHEJ репарирует двухнитевой разрыв в ДНК путем соединения двух концов вместе; однако, как правило, оригинальная последовательность восстанавливается, только если два совместимых конца, точно так же, как если бы они были образованы двухнитевым разрывом, лигированы в полной мере. Концы ДНК двухнитевого разрыва зачастую подвергаются ферментативному процессированию, что приводит к добавлению или удалению нуклеотидов на одной или обеих нитях перед повторным соединением концов. Это приводит в результате к наличию вставочных и/или делеционных (инсерционно-делеционных) мутаций в последовательности ДНК на сайте репарации путем NHEJ. Две третьих таких мутаций, как правило, изменяют рамку считывания и, поэтому, продуцируют нефункциональный белок. Кроме того, мутации, которые сохраняют рамку считывания, но которые вставляют или удаляют значительную часть последовательности, могут нарушать функциональность белка. Это зависит от локуса, поскольку мутации в критических функциональных доменах, вероятно, менее переносимы, чем мутации в некритических участках белка. Мутации по типу вставок/делеций, созданные NHEJ, непредсказуемы по своей природе; однако на данном сайте разрыва некоторые инсерционно-делеционные последовательности являются предпочтительными и чрезмерно представлены в популяции, вероятно, из-за небольших участков микрогомологии. Длины делеций могут широко варьировать; чаще всего в диапазоне 1-50 п. о., но они могут свободно превысить 50 п. о., например, они могут свободно достичь более чем приблизительно 100-200 п. о. Вставки, как правило, короче и зачастую включают в себя короткие повторы последовательностей, непосредственно окружающие сайт разрыва. Однако можно получить крупные вставки, и в этих случаях вставленная последовательность часто проходит к другим участкам генома или к плазмидной ДНК, присутствующей в клетках.

Поскольку NHEJ является мутагенным процессом, оно также может быть использовано для удаления небольших мотивов последовательностей, при условии, что не требуется образование определенной финальной последовательности. Если двухнитевой разрыв намечается рядом с короткой целевой последовательностью, то мутации по типу делеции, вызванные репарацией путем NHEJ, часто охватывают и, поэтому, удаляют нежелательные нуклеотиды. Для делеции более крупных сегментов ДНК введение двух двухнитевых разрывов, по одному с каждой стороны последовательности, может приводить к NHEJ между концами с удалением всей вставочной последовательности. Оба из этих подходов можно применять для удаления определенных последовательностей ДНК; однако, допускающая ошибки природа NHEJ все равно может приводить к мутациям по типу вставок/делеций в сайте репарации.

Как двухнитевая расщепляющая молекула V типа/VI типа, в частности, Cpf1/C2c1/C2c2 или его ортолог или гомолог, предпочтительно молекулы Cpf1, так и однонитевая или никазная молекула V типа/VI типа, в частности, Cpf1/C2c1/C2c2 или его ортолог или гомолог, предпочтительно молекулы Cpf1, могут быть применимы в способах и композициях, описываемых в данном документе, для создания опосредованных NHEJ вставок/делеций. NHEJ-опосредованные вставки/делеции, нацеленные на ген, например, кодирующий участок, например, ранний кодирующий участок представляющего интерес гена, могут быть применимы для нокаута (т. е. для устранения экспрессии) представляющего интерес гена. Например, ранний кодирующий участок представляющего интерес гена включает в себя последовательность сразу после сайта начала транскрипции, в первом экзоне кодирующей последовательности или в пределах 500 п. о. сайта начала транскрипции (например, менее 500, 450, 400, 350, 300, 250, 200, 150, 100 или 50 п. о.).

В одном варианте осуществления, в котором направляющая РНК и молекула V типа/VI типа, в частности, Cpf1/C2c1/C2c2 или его ортолог или гомолог, предпочтительно нуклеаза Cpf1, образует двухнитевой разрыв для индуцирования опосредованных NHEJ вставок/делеций, направляющая РНК может быть сконфигурирована для размещения одного двухнитевого разрыва в непосредственной близости к нуклеотиду целевого положения. В одном варианте осуществления сайт расщепление может находиться в пределах 0-500 п. о. от целевого положения (например, менее 500, 400, 300, 200, 100, 50, 40, 30, 25, 20, 15, 10, 9, 8, 7, 6, 5, 4, 3, 2 или 1 п. о. от целевого положения).

В одном варианте осуществления, в котором две направляющие РНК, образующие комплекс с молекулами V типа/VI типа, в частности, Cpf1/C2c1/C2c2 или его ортологом или гомологом, предпочтительно с никазами Cpf1, индуцируют два однонитевых разрыва для индуцирования опосредованных NHEJ вставок/делеций, две направляющих РНК могут быть сконфигурированы для размещения двух однонитевых разрывов для обеспечения репарации путем NHEJ нуклеотида целевого положения.

Комплексы эффекторного белка Cpf1 могут доставлять функциональные эффекторы

В отличие от нокаута гена, опосредованного CRISPR-Cas, который окончательно устраняет экспрессию путем мутации гена на уровне ДНК, нокдаун с помощью CRISPR-Cas позволяет временно сократить экспрессию гена с использованием искусственных факторов транскрипции. Мутирование ключевых остатков в обоих доменах расщепления ДНК белка Cpf1, такого как белок FnCpf1 (например, мутации D917A и H1006A белка FnCpf1 или D908A, E993A, D1263A в случае белка AsCpf1 или D832A, E925A, D947A или D1180A в случае белка LbCpf1) приводит к образованию каталитически неактивного Cpf1. Кристаллически неактивный Cpf1 объединяется в комплекс с направляющей РНК и локализуется с последовательностью ДНК, определяемой этим нацеливающимся доменом направляющей РНК, однако, он не расщепляет целевую ДНК. Слияние неактивного белка Cpf1, такого как белок FnCpf1 (например, мутации D917A и H1006A) с эффекторным доменом, например, доменом репрессии транскрипции, облегчает рекрутирование эффектора на какой-либо сайт ДНК, определяемый направляющей РНК. В определенных вариантах осуществления Cpf1 может быть слит с доменом транскрипционного подавления и рекрутирован в промоторный участок гена. В частности, для подавления гена в данном документе предусматривается, что блокирование сайта связывания эндогенного фактора транскрипции будет способствовать подавлению экспрессии гена. В другом варианте осуществления неактивный Cpf1 может быть слит с модифицирующим хроматин белком. Изменение состояния хроматина может приводить к пониженной экспрессии целевого гена.

В одном варианте осуществления молекула направляющей РНК может быть нацелена на известные отвечающие за транскрипцию элементы (например, промоторы, энхансеры и т. д.), известные расположенные выше активирующие последовательности и/или последовательности с неизвестной или известной функцией, которые, как предполагается, способны контролировать экспрессию целевой ДНК.

В некоторых способах целевой полинуклеотид можно инактивировать для осуществления модификации экспрессии в клетке. Например, после связывания комплекса CRISPR с целевой последовательностью в клетке целевой полинуклеотид инактивируется, вследствие чего последовательность не транскрибируется, при этом не вырабатывается кодируемый белок или последовательность не функционирует так, как последовательность дикого типа. Например, последовательность, кодирующая белок или microRNA, может быть инактивирована, вследствие чего белок не образуется.

В определенных вариантах осуществления фермент CRISPR содержит одну или несколько мутаций, выбранных из группы, состоящей из D917A, E1006A и D1225A, и/или одна или несколько мутаций находятся в домене RuvC фермента CRISPR или представляют собой другую мутацию, обсуждаемую в данном документе. В некоторых вариантах осуществления фермент CRISPR имеет одну или несколько мутаций в каталитическом домене, где при транскрипции последовательность прямого повтора образует одну "петлю-на-стебле", а направляющая последовательность управляет специфичным к последовательности связыванием комплекса CRISPR с целевой последовательностью, и где фермент дополнительно содержит функциональный домен. В некоторых вариантах осуществления функциональный домен представляет собой домен активации транскрипции, предпочтительно VP64. В некоторых вариантах осуществления функциональный домен представляет собой домен репрессии транскрипции, предпочтительно KRAB. В некоторых вариантах осуществления домен репрессии транскрипции представляет собой SID или конкатемеры SID (например, SID4X). В некоторых вариантах осуществления функциональный домен представляет собой домен эпигенетического модифицирования, так что обеспечивается фермент эпигенетического модифицирования. В некоторых вариантах осуществления функциональный домен представляет собой домен активации, который может представлять собой домен активации P65.

Доставка комплекса эффекторного белка Cpf1 или его компонентов

Благодаря использованию данного раскрытия и сведений из уровня техники, систему CRISPR-Cas, особенно новые системы CRISPR, описанные в данном документе, или ее компоненты, или ее молекулы нуклеиновой кислоты (в том числе, например, матрицу для HDR), или молекулы нуклеиновой кислоты, кодирующие или представляющие собой ее компоненты, можно доставлять с помощью системы доставки, описываемой в данном документе как в целом, так и в подробностях.

Векторная доставка, например, доставка с помощью плазмиды, вируса. Фермент CRISPR, например Cpf1, и/или любую из РНК по настоящему изобретению, например направляющую РНК, можно доставлять с помощью любого подходящего вектора, например плазмиды или вирусных векторов, таких как аденоассоциированный вирус (AAV), лентивирус, аденовирус или другие типы вирусных векторов или их комбинации. Cpf1 и одну или несколько направляющих РНК можно упаковать в один или несколько векторов, например, плазмидный или вирусный векторы. В некоторых вариантах осуществления вектор, например, плазмидный или вирусный вектор, доставляют в представляющую интерес ткань посредством, например, внутримышечной инъекции, тогда как в других случаях доставка осуществляется посредством внутривенного, трансдермального, интраназального, перорального, трансмукозального или других способов доставки. Такая доставка может осуществляться в виде однократной дозы или многократных доз. Специалисту в данной области понятно, что фактическая доза, подлежащая доставке согласно данному документу, может в значительной степени варьировать в зависимости от ряда факторов, таких как выбор вектора, целевые клетка, организм или ткань, общее состояние субъекта, подлежащего лечению, степень требуемой трансформации/модификации, путь введения, способ введения, тип требуемой трансформации/модификации и т. п.

Такая доза может дополнительно содержать, например, носитель (воду, солевой раствор, этанол, глицерин, лактозу, сахарозу, фосфат кальция, желатин, декстран, агар, пектин, арахисовое масло, кунжутное масло и т. д.), разбавитель, фармацевтически приемлемый носитель (например, фосфатно-солевой буфер), фармацевтически приемлемый наполнитель и/или другие соединения, известные из уровня техники. Доза может дополнительно содержать одну или несколько фармацевтически приемлемых солей, таких как, например, соль неорганической кислоты, такая как гидрохлорид, гидробромид, фосфат, сульфат и т. д.; и соли органических кислот, такие как ацетаты, пропионаты, малонаты, бензоаты и т. д. Дополнительно в ней также могут присутствовать вспомогательные вещества, такие как смачивающие или эмульгирующие средства, буферные вещества, поддерживающие pH, гели или гелеобразующие материалы, ароматизаторы, красители, микросферы, полимеры, суспендирующие средства и т. д. Кроме того, также могут присутствовать один или несколько других традиционных фармацевтических ингредиентов, таких как консерванты, увлажнители, суспендирующие средства, поверхностно-активные вещества, антиоксиданты, средства против слеживания, заполнители, хелатообразователи, средства для нанесения покрытий, химические стабилизаторы и т. д., особенно если лекарственная форма представляет собой форму, подлежащую восстановлению. Подходящие иллюстративные ингредиенты включают микрокристаллическую целлюлозу, натрий-карбоксиметилцеллюлозу, полисорбат 80, фенилэтиловый спирт, хлорбутанол, сорбат калия, сорбиновую кислоту, диоксид серы, пропилгаллат, парабены, этилванилин, глицерин, фенол, парахлорфенол, желатин, альбумин и их комбинацию. Подробное обсуждение фармацевтически приемлемых наполнителей доступно в REMINGTON'S PHARMACEUTICAL SCIENCES (Mack Pub. Co., N.J. 1991), включенном в данный документ посредством ссылки.

В одном варианте осуществления согласно данному документу доставку осуществляют посредством аденовируса, который может находиться в однократной бустерной дозе, содержащей по меньшей мере 1 x 10⁵ частиц (также называемых единицами частиц, pu) аденовирусного вектора. В одном варианте осуществления согласно данному документу доза предпочтительно составляет по меньшей мере приблизительно 1 x 10⁶ частиц (например, приблизительно 1 x 10⁶ - 1 x 10¹² частиц), более предпочтительно по меньшей мере приблизительно 1 x 10⁷ частиц, более предпочтительно по меньшей мере приблизительно 1 x 10⁸ частиц (например, приблизительно 1 x 10⁸ - 1 x 10¹¹ частиц или приблизительно 1 x 10⁸ - 1 x 10¹² частиц) и наиболее предпочтительно по меньшей мере приблизительно 1 x 10⁰ частиц (например, приблизительно 1 x 10⁹ - 1 x 10¹⁰ частиц или приблизительно 1 x 10⁹ - 1 x 10¹² частиц) или даже по меньшей мере приблизительно 1 x 10¹⁰ частиц (например, приблизительно 1 x 10¹⁰ - 1 x 10¹² частиц) аденовирусного вектора. Альтернативно доза содержит не более чем приблизительно 1 x 10¹⁴ частиц, предпочтительно не более чем приблизительно 1 x 10¹³ частиц, еще более предпочтительно не более чем приблизительно 1 x 10¹² частиц, еще более предпочтительно не более чем приблизительно 1 x 10¹¹ частиц и наиболее предпочтительно не более чем приблизительно 1 x 10¹⁰ частиц (например, не более чем приблизительно 1 x 10⁹ частиц). Таким образом, доза может включать в себя однократную дозу аденовирусного вектора, например, с приблизительно 1 x 10⁶ единиц частиц (pu), приблизительно 2 x 10⁶ pu, приблизительно 4 x 10⁶ pu, приблизительно 1 x 10⁷ pu, приблизительно 2 x 10⁷ pu, приблизительно 4 x 10⁷ pu, приблизительно 1 x 10⁸ pu, приблизительно 2 x 10⁸ pu, приблизительно 4 x 10⁸ pu, приблизительно 1 x 10⁹ pu, приблизительно 2 x 10⁹ pu, приблизительно 4 x 10⁹ pu, приблизительно 1 x 10¹⁰ pu, приблизительно 2 x 10¹⁰ pu, приблизительно 4 x 10¹⁰ pu, приблизительно 1 x 10¹¹ pu, приблизительно 2 x 10¹¹ pu, приблизительно 4 x 10¹¹ pu, приблизительно 1 x 10¹² pu, приблизительно 2 x 10¹² pu или приблизительно 4 x 10¹² pu аденовирусного вектора. См., например, аденовирусные векторы в патенте США № 8454972 B2 Nabel, et. al., выданном 4 июня 2013 г.; включенном в данный документ посредством ссылки, и дозы в столбце 29, строках 36-58 данного патента. В одном варианте осуществления согласно данному документу аденовирус доставляется посредством многократных доз.

В одном варианте осуществления согласно данному документу доставку осуществляют посредством AAV. Полагают, что терапевтически эффективная доза для in vivo доставки AAV человеку находится в диапазоне от приблизительно 20 до приблизительно 50 мл солевого раствора, содержащего от приблизительно 1 x 10¹⁰ до приблизительно 1 x 10¹⁰ функциональных частиц AAV/мл раствора. Дозу можно скорректировать для уравновешивания терапевтической пользы и любых побочных эффектов. В одном варианте осуществления согласно данному документу доза AAV, как правило, находится в диапазоне концентраций от приблизительно 1 x 10⁵ до 1 x 10⁵⁰ геномов AAV, от приблизительно 1 x 10⁸ до 1 x 10²⁰ геномов AAV, от приблизительно 1 x 10¹⁰ до приблизительно 1 x 10¹⁶ геномов или от приблизительно 1 x 10¹¹ до приблизительно 1 x 10¹⁶ геномов AAV. Доза для человека может составлять приблизительно 1 x 10¹³ геномов AAV. Такие концентрации можно доставлять в дозе от приблизительно 0,001 мл до приблизительно 100 мл, от приблизительно 0,05 до приблизительно 50 мл или от приблизительно 10 до приблизительно 25 мл раствора носителя. Другие эффективные дозы может без труда установить средний специалист в данной области посредством стандартных испытаний с построением кривых зависимости "доза-эффект". См., например, патент США № 8404658 B2 Hajjar, et al., выданный 26 марта 2013 г., в столбце 27, строках 45-60.

В одном варианте осуществления согласно данному документу доставку осуществляют посредством плазмиды. В таких композициях с плазмидами доза должна представлять собой количество плазмид, достаточное для вызывания эффекта. Например, подходящие количества плазмидной ДНК в композициях с плазмидами могут составлять от приблизительно 0,1 до приблизительно 2 мг или от приблизительно 1 мкг до приблизительно 10 мкг из расчет на индивидуума весом 70 кг. Плазмиды по настоящему изобретению в общем будут содержать (i) промотор; (ii) последовательность, кодирующую фермент CRISPR, функционально связанную с указанным промотором; (iii) селектируемый маркер; (iv) точку начала репликациии и (v) расположенный ниже нее терминатор транскрипции, функционально связанный с (ii). Плазмида может также кодировать компоненты РНК комплекса CRISPR, но наряду с этим один или несколько из них могут кодироваться другим вектором.

Дозы в данном документе определяются в расчете на индивидуума со средним весом 70 кг. Частота введения находится в пределах компетенции практикующего врача или ветеринара (например, доктора, ветеринарного врача) или ученого, являющегося специалистом в данной области. Также отмечено, что вес используемых в эксперименте мышей, как правило, составляет приблизительно 20 г, что при проведении экспериментов с мышами пропорционально индивидууму весом 70 кг.

Доза, применяемая для композиций, предусмотренных в данном документе, включает дозы для повторного введения или повторного дозирования. В конкретных вариантах осуществления введение повторяется в течение периода нескольких недель, месяцев или лет. Для получения оптимального режима дозирования могут быть выполнены подходящие анализы. Повторное введение может способствовать применению более низкой дозы, которая может положительно влиять на нецелевые модификации.

В некоторых вариантах осуществления молекулы РНК по настоящему изобретению доставляют в липосомных составах или составах на основе Lipofectin и им подобных, и их можно получить с помощью способов, хорошо известных специалистам в данной области. Такие способы описаны, например, в патентах США №№ 5593972, 5589466 и 5580859, включенных в данный документ посредством ссылки. Были разработаны системы доставки, специально предназначенные для повышения эффективности и улучшения доставки siRNA в клетки млекопитающих (см., например, Shen et al FEBS Let. 2003, 539:111-114; Xia et al., Nat. Biotech. 2002, 20:1006-1010; Reich et al., Mol. Vision. 2003, 9: 210-216; Sorensen et al., J. Mol. Biol. 2003, 327: 761-766; Lewis et al., Nat. Gen. 2002, 32: 107-108 и Simeoni et al., NAR 2003, 31, 11: 2717-2724), и их можно применять в настоящем изобретении. Недавно siRNA успешно применили для ингибирования экспрессии генов у приматов (см., например, Tolentino et al., Retina 24(4):660), и их также можно применять в настоящем изобретении.

И действительно, доставка РНК также является применимым способом доставки in vivo. Возможно доставлять Cpf1 и gRNA (и, например, матрицу для HR-репарации) в клетки с помощью липосом или наночастиц. Таким образом, доставка фермента CRISPR, такого как Cpf1, и/или доставка РНК по настоящему изобретению может осуществляться в форме РНК и посредством микровезикул, липосом, или частиц, или наночастиц. Например, мРНК Cpf1 и gRNA могут быть упакованы в липосомные частицы для доставки in vivo. Реагенты для липосомной трансфекции, такие как Lipofectamine от Life Technologies, и другие реагенты, имеющиеся в продаже, могут эффективно доставлять молекулы РНК в печень.

Также являются предпочтительными другие средства доставки РНК, в том числе доставка РНК посредством частиц (Cho, S., Goldberg, M., Son, S., Xu, Q., Yang, F., Mei, Y., Bogatyrev, S., Langer, R. and Anderson, D., Lipid-like nanoparticles for small interfering RNA delivery to endothelial cells, Advanced Functional Materials, 19: 3112-3118, 2010) или экзосом (Schroeder, A., Levins, C., Cortez, C., Langer, R., and Anderson, D., Lipid-based nanotherapeutics for siRNA delivery, Journal of Internal Medicine, 267: 9-21, 2010, PMID: 20059641). И действительно, как было показано, экзосомы являются особенно применимыми в доставке siRNA, системы, в некоторой степени сходной с системой CRISPR. Например, El-Andaloussi S, et al. ("Exosome-mediated delivery of siRNA in vitro and in vivo." Nat Protoc. 2012 Dec;7(12):2112-26. doi: 10.1038/nprot.2012.131. электронная публикация от 15 ноября 2012 г.) описывают как экзосомы, являющиеся перспективными инструментами доставки лекарственных средств через различные биологические барьеры, можно приспособить для доставки siRNA in vitro и in vivo. Данный подход заключается в создании нацеленных экзосом посредством трансфекции вектором экспрессии, содержащим экзосомный белок, слитый с пептидным лигандом. Экзосомы затем очищают от супернатанта с трансфицированными клетками и характеризуют, а затем в экзосомы загружают РНК. Доставку или введение в соответствии с настоящим изобретением можно осуществлять с помощью экзосом, в частности, без ограничения в головной мозг. Витамин E (α-токоферол) можно конъюгировать с CRISPR-Cas и доставлять в головной мозг вместе с липопротеином высокой плотности (HDL), например, аналогично тому, как это было выполнено Uno et al. (HUMAN GENE THERAPY 22:711-719 (June 2011)) для доставки короткой интерферирующей РНК (siRNA) в головной мозг. Мышам проводили инфузию с помощью осмотических мининасосов (модель 1007D; Alzet, Купертино, Калифорния), наполненных фосфатно-солевым буфером (PBS) или свободной Toc-siBACE или Toc-siBACE/HDL, и соединенных с набором 3 для инфузий в головной мозг (Alzet). Канюлю для инфузий в головной мозг размещали приблизительно на 0,5 мм кзади от брегмы на средней линии для инфузии в дорсальную часть третьего желудочка. Uno et al. обнаружили, что всего 3 нмоль Toc-siRNA с HDL в том же способе ICV инфузии могут индуцировать аналогичную степень целенаправленного снижения. Аналогичная доза CRISPR-Cas, конъюгированной с α-токоферолом и вводимой совместно с HDL, целенаправленно воздействующей на головной мозг, может предусматриваться в настоящем изобретении для людей, например, может предусматриваться в количестве от приблизительно 3 нмоль до приблизительно 3 мкмоль CRISPR-Cas, целенаправленно воздействующей на головной мозг. Zou et al. (HUMAN GENE THERAPY 22:465-475 (April 2011)) описывают способ опосредованной лентивирусами доставки коротких шпилечных РНК, нацеливающихся на PKCγ, для сайленсинга in vivo генов в спинном мозге крыс. Zou et al. вводили приблизительно 10 мкл рекомбинантного лентивируса с титром 1 x 10⁹ трансдуцирующих единиц (TU)/мл с помощью интратекального катетера. Аналогичная доза экспрессируемой CRISPR-Cas в лентивирусном векторе, нацеливающемся на головной мозг, может предусматриваться в настоящем изобретении для людей, например, может предусматриваться приблизительно 10-50 мл CRISPR-Cas, нацеливающейся на головной мозг, в лентивирусе с титром 1 x 10⁹ трансдуцирующих единиц (TU)/мл.

Предварительно собранные рекомбинантные комплексы CRISPR-Cpf1, содержащие Cpf1 и crRNA, могут быть трансфицированы, например, при помощи электропорации, что приводит к высокой частоте мутаций и отсутствию выявляемых нецелевых мутаций. Hur, J.K. et al, Targeted mutagenesis in mice by electroporation of Cpf1 ribonucleoproteins, Nat Biotechnol. 2016 Jun 6. doi: 10.1038/nbt.3596. [Электронная публикация, предшествующая печатной].

Если подразумевают локальную доставку в головной мозг, то этого можно достичь разными способами. Например, материал можно доставлять интрастриатально, например, с помощью инъекции. Инъекцию можно осуществлять стереотаксически посредством краниотомии.

Повышение эффективности NHEJ или HR также способствует доставке. Предпочтительно, чтобы эффективность NHEJ повышали посредством совместной экспрессии ферментов для обработки концов, таких как Trex2 (Dumitrache et al. Genetics. 2011 August; 188(4): 787-797). Предпочтительно, чтобы эффективность HR повышалась путем транзиентного ингибирования компонентов аппарата NHEJ, таких как Ku70 и Ku86. Эффективность HR также можно повысить путем совместной экспрессии прокариотических или эукариотических ферментов гомологичной рекомбинации, таких как RecBCD, RecA.

Упаковка и промоторы

Существуют следующие способы упаковки молекул нуклеиновой кислоты, кодирующих Cpf1 по настоящему изобретению, например ДНК, в векторы, например вирусные векторы, для опосредования модификации генома in vivo.

- Для обеспечения опосредованного NHEJ нокаута гена:

- Один вирусный вектор

- Вектор, содержащий две или более кассет экспрессии:

- промотор-молекула нуклеиновой кислоты, кодирующая Cpf1-терминатор;

- промотор-gRNA1-терминатор;

- промотор-gRNA2-терминатор;

- промотор-gRNA(N)-терминатор (до предельного размера вектора).

- Два вирусных вектора

- вектор 1, содержащий одну кассету экспрессии для управления экспрессией Cpf1:

- Промотор-молекула нуклеиновой кислоты, кодирующая Cpf1-терминатор

- вектор 2, содержащий одну или несколько кассет экспрессии для управления экспрессией одной или нескольких направляющих РНК;

- промотор-gRNA1-терминатор;

- промотор-gRNA(N)-терминатор (до предельного размера вектора).

- Для опосредования репарации с участием гомологичной рекомбинации.

- В дополнение к подходам с одним и двумя вирусными векторами, описанными выше, можно применять дополнительный вектор для доставки матрицы для репарации с участием гомологичной рекомбинации.

Промотор, используемый для управления экспрессии молекулы нуклеиновой кислоты, кодирующей Cpf1, может включать в себя перечисленное ниже.

- ITR AAV может служить в качестве промотора: это является преимущественным для устранения необходимости в дополнительном промоторном элементе (который может занимать пространство в векторе). Освободившееся дополнительное пространство можно задействовать для управления экспрессией дополнительных элементов (gRNA и т. д.). Также активность ITR является относительно более слабой, поэтому ее можно применять для снижения потенциальной токсичности, обусловленной сверхэкспрессией Cpf1.

- Для повсеместной экспрессии промоторы, которые можно применять, включают: CMV, CAG, CBh, PGK, SV40, гены тяжелой или легкой цепей ферритина и т. д.

Для экспрессии в головном мозге или в другом отделе ЦНС можно использовать следующие промоторы: гена синапсина I для всех нейронов, гена CaMKII-альфа для возбуждающих нейронов, GAD67, или GAD65, или VGAT для GABA-эргических нейронов и т. д.

Для экспрессии в печени можно использовать промотор гена альбумина.

Для экспрессии в легких можно использовать SP-B.

Для эндотелиальных клеток можно использовать ICAM.

Для кроветворных клеток можно использовать промотор гена IFN-бета или CD45.

Для остеобластов можно использовать OG-2.

Промотор, используемый для управления направляющей РНК, может включать в себя следующее:

- промоторы Pol III, такие как U6 или H1;

- использование промотора Pol II и интронных кассет для экспрессии gRNA.

Аденоассоциированный вирус (AAV)

Cpf1 и одну или несколько направляющих РНК можно доставлять при помощи аденоассоциированного вируса (AAV), лентивируса, аденовируса или других типов плазмидных или вирусных векторов, в частности, с применением составов и доз согласно, например, патентам США №№ 8454972 (составы, дозы для аденовируса), 8404658 (составы, дозы для AAV) и 5846946 (составы, дозы для плазмидных ДНК) и клиническим испытаниям и публикациям результатов клинических испытаний с использованием лентивируса, AAV и аденовируса. Например, для AAV путь введения, состав и доза могут быть такими, как определено в патенте США № 8454972 и в клинических испытаниях с использованием AAV. Для аденовируса путь введения, состав и доза могут быть такими, как определено в патенте США № 8404658 и в клинических испытаниях с использованием аденовируса. Для доставки с помощью плазмид путь введения, состав и доза могут быть такими, как определено в патенте США № 5846946 и в клинических испытаниях с использованием плазмид. Дозы могут быть определены в расчете на или экстраполированы на индивидуума со средним весом 70 кг (например, взрослый мужчина), и могут быть скорректированы для пациентов, субъектов, млекопитающих с другим весом и другого вида. Частота введения входит в пределы компетенции практикующего врача или ветеринара (например, доктора, ветеринарного врача) и зависит от обычных факторов, в том числе от возраста, пола, общего состояния здоровья, других состояний пациента или субъекта и конкретных рассматриваемых состояний или симптомов. Вирусные векторы можно инъецировать в представляющую интерес ткань. В случае специфичной относительно типа клетки модификации генома, экспрессия Cpf1 может управляться промотором, специфичным к типу клеток. Например, при печеночноспецифической экспрессии может использоваться промотор гена альбумина, а при нейрон-специфической экспрессии (например, для нацеливания на нарушения ЦНС) может использоваться промотор гена синапсина I.

Что касается доставки in vivo, то AAV является преимущественным по сравнению с другими вирусными векторами по двум причинам:

низкая токсичность (она может быть обусловлена способом очистки, не требующим ультрацентрифугирования клеточных частиц, которые могут активировать иммунный ответ) и

низкая вероятность вызова инсерционного мутагенеза, поскольку он не интегрируется в геном хозяина.

AAV имеет предел упаковки, составляющий 4,5 или 4,75 т. о. Это означает, что все из Cpf1, а также промотора и терминатора транскрипции должны помещаться в одном и том же вирусном векторе. Конструкции, размер которых превышает 4,5 или 4,75 т. о., будут обуславливать значительное снижение продуцирования вируса. SpCas9 является достаточно крупным, размер гена самого по себе превышает 4,1 т. о., затрудняя его упаковку в AAV. Следовательно, варианты осуществления настоящего изобретения включают использование более коротких гомологов Cpf1.

Что касается AAV, то AAV может представлять собой AAV1, AAV2, AAV5 или любую их комбинацию. Можно выбрать AAV из AAV с учетом клеток, подлежащих нацеливанию; например, можно выбрать AAV серотипов 1, 2, 5 или гибридный капсид AAV1, AAV2, AAV5 или любую их комбинацию для нацеливания на головной мозг или нейроны; и можно выбрать AAV4 для нацеливания на сердечную ткань. AAV8 применим для доставки в печень. Вышеуказанные промоторы и векторы в данном документе являются предпочтительными по отдельности. Сопоставление определенных серотипов AAV по отношению к определенным клеткам (см. Grimm, D. et al, J. Virol. 82: 5887-5911 (2008)) представлено следующим образом:

Линия клеток AAV-1 AAV-2 AAV-3 AAV-4 AAV-5 AAV-6 AAV-8 AAV-9 Huh-7 13 100 2,5 0,0 0,1 10 0,7 0,0 HEK293 25 100 2,5 0,1 0,1 5 0,7 0,1 HeLa 3 100 2,0 0,1 6,7 1 0,2 0,1 HepG2 3 100 16,7 0,3 1,7 5 0,3 Нет данных Hep1A 20 100 0,2 1,0 0,1 1 0,2 0,0 911 17 100 11 0,2 0,1 17 0,1 Нет данных CHO 100 100 14 1,4 333 50 10 1,0 COS 33 100 33 3,3 5,0 14 2,0 0,5 MeWo 10 100 20 0,3 6,7 10 1,0 0,2 NIH3T3 10 100 2,9 2,9 0,3 10 0,3 Нет данных A549 14 100 20 Нет данных 0,5 10 0,5 0,1 HT1180 20 100 10 0,1 0,3 33 0,5 0,1 Моноциты 1111 100 Нет данных Нет данных 125 1429 Нет данных Нет данных Незрелые DC 2500 100 Нет данных Нет данных 222 2857 Нет данных Нет данных Зрелые DC 2222 100 Нет данных Нет данных 333 3333 Нет данных Нет данных

Лентивирус

Лентивирусы являются сложными ретровирусами, которые обладают способностью инфицировать как митотические, так и постмитотические клетки и экспрессировать в них свои гены. Наиболее известным лентивирусом является вирус иммунодефицита человека (HIV), который использует гликопротеины оболочки других вирусов для нацеливания на широкий спектр типов клеток.

Лентивирусы можно получить следующим образом. После клонирования pCasES10 (которая содержит остов лентивирусной плазмиды-переносчика) HEK293FT, прошедшие малое количество пассажей (p=5), высевали во флакон T-75 до 50% конфлюэнтности за день до трансфекции в DMEM с 10% фетальной бычьей сывороткой и без антибиотиков. Через 20 часов среду заменяли на среду OptiMEM (бессывороточную) и через 4 часа проводили трансфекцию. Клетки трансфицировали с помощью 10 мкг лентивирусной плазмиды-переносчика (pCasES10) и следующих пакующих плазмид: 5 мкг pMD2.G (псевдотип VSV-g) и 7,5 мкг psPAX2 (gag/pol/rev/tat). Трансфекцию проводили в 4 мл OptiMEM со средством доставки на основе катионного липида (50 мкл Lipofectamine 2000 и 100 мкл реагента Plus). Через 6 часов среду заменяли на DMEM, не содержащую антибиотиков, с 10% фетальной бычьей сыворотки. В данных способах при культивировании клеток использовали сыворотку, но использование бессывороточных способов является предпочтительным.

Лентивирус можно очистить следующим способом. Вируссодержащие супернатанты собирали через 48 часов. Супернатанты сперва очищали от дебриса и фильтровали через фильтр с низкой степенью связывания белка (PVDF) на 0,45 мкм. Затем их центрифугировали на ультрацентрифуге в течение 2 часов при 24000 об./мин. Вируссодержащие супернатанты ресуспендировали в 50 мкл DMEM в течение ночи при 4°C. Затем их разделяли на аликвоты и сразу же замораживали при -80°C.

В другом варианте осуществления самоинактивирующиеся лентивирусные векторы с siRNA, нацеленной на общий экзон, который имеет tat/rev HIV, сигналом ядрышковой локализации TAR-ловушкой и специфичным к CCR5 рибозимом в виде головки молотка (см., например, DiGiusto et al. (2010) Sci Transl Med 2:36ra43) можно использовать и/или адаптировать для системы CRISPR-Cas по настоящему изобретению. Не менее 2,5 × 10⁶ клеток CD34+ на килограмм массы пациента можно собирать и предварительно стимулировать в течение 16-20 часов в среде X-VIVO 15 (Lonza), содержащей 2 мкмоля/L-глутамина, фактор стволовых клеток (100 нг/мл), лиганд Flt-3 (Flt-3L) (100 нг/мл) и тромбопоэтин (10 нг/мл) (CellGenix), при плотности 2 × 10⁶ клеток/мл. Предварительно стимулированные клетки можно трансдуцировать лентивирусом при множественности заражения 5 в течение 16-24 часов во флаконах с культурой тканей на 75 см2, покрытых фибронектином (25 мг/см2) (RetroNectin, Takara Bio Inc.).

Лентивирусные векторы были раскрыты в отношении лечения болезни Паркинсона, см., например, публикацию заявки на патент США № 20120295960 и патенты США №№ 7303910 и 7351585. Лентивирусные векторы также были раскрыты в отношении лечения заболеваний глаз, см., например, публикации заявок на патенты США №№ 20060281180, 20090007284, US20110117189; US20090017543; US20070054961, US20100317109. Лентивирусные векторы также были раскрыты в отношении доставки в головной мозг, см., например, публикации заявок на патенты США №№ US20110293571; US20110293571, US20040013648, US20070025970, US20090111106 и патент США № US7259015.

Доставка РНК

Доставка РНК. фермент CRISPR, например Cpf1, и/или любую из РНК по настоящему изобретению, например направляющую РНК, также можно доставлять в форме РНК. С помощью in vitro транскрипции можно получить мРНК Cpf1. Например, мРНК Cpf1 можно синтезировать с помощью кассеты для ПЦР, содержащей следующие элементы: промотор T7_последовательность Козак (GCCACC)-Cpf1-3’-UTR гена бета-глобина-поли(A)-хвост (цепь из 120 адениновых остатков или более). Кассету можно применять для транскрипции полимеразой T7. Направляющие РНК также можно транскрибировать с помощью транскрипции in vitro с кассеты, содержащей промотор T7-GG-последовательность направляющей РНК.

Для повышения экспрессии и снижения возможной токсичности последовательность, кодирующую фермент CRISPR, и/или направляющую РНК можно модифицировать для включения одного или нескольких модифицированных нуклеозидов, например, с использованием псевдо-U или 5-метил-C.

Способы доставки мРНК в настоящее время являются особенно перспективными для доставки в печень.

Многие клинические работы по доставке РНК были сосредоточены на RNAi или антисмысловых РНК, но данные системы можно адаптировать для доставки РНК для осуществления настоящего изобретения. Соответственно, также ниже необходимо ознакомиться с использованной литературой по RNAi и т. д.

Системы доставки и/или составы на основе частиц

Известно, что несколько типов систем доставки и/или составов на основе частиц являются применимыми в разнообразном спектре биомедицинских применений. Частицу обычно определяют как небольшой объект, ведущий себя как целая единица в том, что касается ее транспорта и свойств. Частицы дополнительно классифицируют по диаметру. Крупные частицы охватывают диапазон от 2500 до 10000 нанометров. Тонкодисперсные частицы имеют размер от 100 до 2500 нанометров. Ультрадисперсные частицы или наночастицы, как правило, имеют размер от 1 до 100 нанометров. Основанием для предела в 100 нм является тот факт, что новые свойства, отличающие частицы от насыпного материала, обычно проявляются в критическом линейном масштабе менее 100 нм.

Используемые в данном документе система доставки и/или состав на основе частиц определяют как любые биологическая система доставки/состав, содержащие частицы в соответствии с настоящим изобретением. Частица в соответствии с настоящим изобретением представляет собой любой объект, имеющий наибольший размер (например, диаметр) менее 100 микрон (мкм). В некоторых вариантах осуществления частицы по настоящему изобретению имеют наибольший размер менее 10 мкм. В некоторых вариантах осуществления частицы по настоящему изобретению имеют наибольший размер менее 2000 нанометров (нм). В некоторых вариантах осуществления частицы по настоящему изобретению имеют наибольший размер менее 1000 нанометров (нм). В некоторых вариантах осуществления частицы по настоящему изобретению имеют наибольший размер менее 900 нм, 800 нм, 700 нм, 600 нм, 500 нм, 400 нм, 300 нм, 200 нм или 100 нм. Частицы по настоящему изобретению, как правило, имеют наибольший размер (например, диаметр) 500 нм или менее. В некоторых вариантах осуществления частицы по настоящему изобретению имеют наибольший размер (например, диаметр) 250 нм или менее. В некоторых вариантах осуществления частицы по настоящему изобретению имеют наибольший размер (например, диаметр) 200 нм или менее. В некоторых вариантах осуществления частицы по настоящему изобретению имеют наибольший размер (например, диаметр) 150 нм или менее. В некоторых вариантах осуществления частицы по настоящему изобретению имеют наибольший размер (например, диаметр) 100 нм или менее. В некоторых вариантах осуществления настоящего изобретения применяют меньшие частицы, например, имеющие наибольший размер 50 нм или менее. В некоторых вариантах осуществления частицы по настоящему изобретению имеют наибольший размер, варьирующий в диапазоне от 25 нм до 200 нм.

Определение характеристик частиц (в том числе, например, определение характеристик морфологии, размеров и т. д.) осуществляют с применением ряда различных методик. Стандартными методиками являются электронная микроскопия (TEM, SEM), атомно-силовая микроскопия (AFM), динамическое рассеяние света (DLS), рентгеновская фотоэлектронная спектроскопия (XPS), порошковая рентгеновская дифракция (XRD), инфракрасная спектроскопия с преобразованием Фурье (FTIR), времяпролетная масс-спектрометрия с лазерной десорбцией и ионизацией из матрицы (MALDI-TOF), спектроскопия в ультрафиолетовой и видимой области спектра, двойная поляризационная интерферометрия и ядерный магнитный резонанс (ЯМР). Получение характеристик (измерения размеров) можно проводить в отношении нативных частиц (т. е. до загрузки) или после загрузки молекулы-карго (в данном документе молекула-карго относится, например, к одному или нескольким компонентам системы CRISPR-Cas, например, ферменту или мРНК CRISPR, или направляющей РНК, или к любой их комбинации, и может включать дополнительные носители и/или наполнители) для получения частиц, имеющих оптимальный размер для доставки, для любого применения настоящего изобретения in vitro, ex vivo и/или in vivo. В определенных предпочтительных вариантах осуществления определение характеристик размеров частиц (например, диаметра) основано на измерениях с применением динамического рассеяния лазерного излучения (DLS). Упоминаются патент США № 8709843; патент США № 6007845; патент США № 5855913; патент США № 5985309; патент США № 5543158 и публикация James E. Dahlman and Carmen Barnes et al. Nature Nanotechnology (2014), опубликованная в интернете 11 мая 2014 года, doi:10.1038/nnano.2014.84, касаются частиц, способов их получения и применения, а также их измерения.

Системы доставки на основе частиц в пределах объема настоящего изобретения могут быть представлены в любой форме, в том числе без ограничения в форме твердых, полутвердых, эмульгированных или коллоидных частиц. В силу этого любые системы доставки, описанные в данном документе, в том числе без ограничения, например, системы на основе липидов, липосомы, мицеллы, микровезикулы, экзосомы или генная пушка, могут быть представлены в качестве систем доставки на основе частиц в пределах объема настоящего изобретения.

Частицы

Будет ясно, что упоминание, выполняемое в данном документе на частицы или наночастицы, при необходимости может быть взаимозаменяемым. мРНК и направляющая РНК фермента CRISPR могут быть доставлены одновременно с использованием частиц или липидных оболочек; например, фермент CRISPR и РНК в соответствии с настоящим изобретением, например, в виде комплекса, могут быть доставлены посредством частицы, как в Dahlman et al., WO 2015089419 A2 и документах, цитируемых там, такой как 7C1 (см., например, James E. Dahlman и Carmen Barnes et al. Nature Nanotechnology (2014), опубликованной онлайн 11 мая 2014 г., doi:10.1038/nnano.2014.84), например, частицы для доставки, содержащей липид или липидоид и гидрофильный полимер, например, катионный липид и гидрофильный полимер, например, при этом катионный липид содержит 1,2-диолеоил-3-триметиламмония-пропан (DOTAP) или 1,2-дитетерадеканоил-sn-глицеро-3-фосфохолин (DMPC), и/или при этом гидрофильный полимер содержит этиленгликоль или полиэтиленгликоль (PEG); и/или при этом частица дополнительно содержит холестерин (например, частица из состава 1 = DOTAP 100, DMPC 0, PEG 0, холестерин 0; состава номер 2 = DOTAP 90, DMPC 0, PEG 10, холестерин 0; состава номер 3 = DOTAP 90, DMPC 0, PEG 5, холестерин 5), где частицы образуются с использованием эффективного многостадийного процесса, при котором первый эффекторный белок и РНК смешивают вместе, например, при молярном отношении 1:1, например, при комнатной температуре, например, в течение 30 минут, например, в стерильном не содержащем нуклеазу 1X PBS; и отдельно DOTAP, DMPC, PEG и холестерин, применимые для состава, растворяют в спирте, например, 100% этаноле; и два раствора смешивают вместе с образованием частиц, содержащих комплексы).

мРНК и направляющая РНК нацеливающихся на нуклеиновую кислоту эффекторных белков (таких как белок V типа, например, Cpf1) могут быть доставлены одновременно при помощи частиц или липидных оболочек. Примеры подходящих частиц включают без ограничений описанные в US 9301923.

Например, у Su X, Fricke J, Kavanagh DG, Irvine DJ ("In vitro and in vivo mRNA delivery using lipid-enveloped pH-responsive polymer nanoparticles" Mol Pharm. 2011 Jun 6;8(3):774-87. doi: 10.1021/mp100390w. Epub 2011 Apr 1) описаны биоразлагаемые наночастицы со структурой ядро-оболочка с ядром из сложного поли(β-аминоэфира) (PBAE), окруженным фосфолипидной двуслойной оболочкой. Они были разработаны для доставки мРНК in vivo. Чувствительный к рН компонент PBAE был выбран для содействия разрушению эндосом, тогда как поверхностный липидный слой был выбран для сведения к минимуму токсичности поликатионного ядра. Таким образом, они являются предпочтительными для доставки РНК по настоящему изобретению.

В одном варианте осуществления предусмотрены частицы/наночастицы на основе самособирающихся биоадгезивных полимеров, которые можно использовать для пероральной доставки пептидов, внутривенной доставки пептидов и интраназальной доставки пептидов, во всех случаях в головной мозг. Также предусмотрены другие варианты осуществления, такие как абсорбция при пероральном применении и внутриглазная доставка гидрофобных лекарственных средств. Технология молекулярных оболочек предусматривает сконструированную полимерную оболочку, защищающую и доставляющую в очаг заболевания (см., например, Mazza, M. et al. ACSNano, 2013. 7(2): 1016-1026; Siew, A., et al. Mol Pharm, 2012. 9(1):14-28; Lalatsa, A., et al. J Contr Rel, 2012. 161(2):523-36; Lalatsa, A., et al., Mol Pharm, 2012. 9(6):1665-80; Lalatsa, A., et al. Mol Pharm, 2012. 9(6):1764-74; Garrett, N.L., et al. J Biophotonics, 2012. 5(5-6):458-68; Garrett, N.L., et al. J Raman Spect, 2012. 43(5):681-688; Ahmad, S., et al. J Royal Soc Interface 2010. 7:S423-33; Uchegbu, I.F. Expert Opin Drug Deliv, 2006. 3(5):629-40; Qu, X.,et al. Biomacromolecules, 2006. 7(12):3452-9 и Uchegbu, I.F., et al. Int J Pharm, 2001. 224:185-199). Предусмотрены дозы, составляющие приблизительно 5 мг/кг, которые в зависимости от целевой ткани будут однократными или многократными дозами.

В одном варианте осуществления частицы/наночастицы, которые могут доставлять РНК в раковые клетки для прекращения роста опухолей, разработанные в лаборатории Дэна Андерсона в MIT, можно использовать для системы CRISPR-Cas по настоящему изобретению и/или приспосабливать к ней. В частности, в лаборатории Андерсона были разработаны полностью автоматизированные, комбинаторные системы для синтеза, очистки, определения характеристик и составления новых биоматериалов и наносоставов. См., например, Alabi et al., Proc Natl Acad Sci U S A. 2013 Aug 6;110(32):12881-6; Zhang et al., Adv Mater. 2013 Sep 6;25(33):4641-5; Jiang et al., Nano Lett. 2013 Mar 13;13(3):1059-64; Karagiannis et al., ACS Nano. 2012 Oct 23;6(10):8484-7; Whitehead et al., ACS Nano. 2012 Aug 28;6(8):6922-9 и Lee et al., Nat Nanotechnol. 2012 Jun 3;7(6):389-93.

Заявка на патент США 20110293703 относится к липидоподобным соединениям, также являющимся особенно применимыми при введении полинуклеотидов, которые можно применять для доставки системы CRISPR-Cas по настоящему изобретению. В одном аспекте аминоспиртовые липидоподобные соединения объединяют со средством, подлежащим доставке в клетку или субъекту, с образованием микрочастиц, наночастиц, липосом или мицелл. Средство, подлежащее доставке с помощью частиц, липосом или мицелл, может быть в форме газа, жидкости или твердого вещества, и средство может представлять собой полинуклеотид, белок, пептид или малую молекулу. Аминоспиртовые липидоподобные соединения можно объединять с другими аминоспиртовыми липидоподобными соединениями, полимерами (синтетическими или природными), поверхностно-активными веществами, холестерином, углеводами, белками, липидами и т. д. с образованием частиц. Эти частицы можно затем необязательно объединять с фармацевтическим наполнителем с образованием фармацевтической композиции.

В публикации заявки на патент США № 20110293703 также представлены способы получения аминоспиртовых липидоподобных соединений. Одному или нескольким эквивалентам амина позволяют вступать в реакцию с одним или несколькими эквивалентами соединения с концевыми эпоксидными группами в подходящих условиях с образованием аминоспиртового липидоподобного соединения по настоящему изобретению. В определенных вариантах осуществления все аминогруппы амина полностью реагируют с соединением с концевыми эпоксидными группами с образованием третичных аминов. В других вариантах осуществления все аминогруппы амина не полностью реагируют с соединением с концевыми эпоксидными группами для образования третичных аминогрупп, в результате чего, таким образом, образуются первичные или вторичные аминогруппы аминоспиртового липидоподобного соединения. Эти первичные или вторичные аминогруппы оставляют в существующем состоянии или могут вводить в реакцию с другим электрофилом, таким как другое соединение с концевыми эпоксидными группами. Специалисту в данной области будет понятно, что введение амина в реакцию с меньшим, чем избыточное, количеством соединения с концевыми эпоксидными группами приведет к получению множества различных аминоспиртовых липидоподобных соединений с различным количеством "хвостов". Определенные амины могут быть полностью функционализированными с помощью двух "хвостов" соединений, полученных из эпоксидов, тогда как другие молекулы могут быть не полностью функционализированными с помощью "хвостов" соединений, полученных из эпоксидов. Например, диамин или полиамин может содержать один, два, три или четыре "хвоста" соединений, полученных из эпоксидов, у различных аминофрагментов молекулы, в результате чего образуются первичные, вторичные и третичные аминогруппы. В определенных вариантах осуществления все аминогруппы являются не полностью функционализированными. В определенных вариантах осуществления используют два соединения с концевыми эпоксидными группами одного типа. В других вариантах осуществления используют два или более различных соединений с концевыми эпоксидными группами. Синтез аминоспиртовых липидоподобных соединений осуществляют с помощью растворителя или без него, и синтез можно осуществлять при более высоких температурах, варьирующих в диапазоне 30-100°C, предпочтительно при примерно 50-90°C. Получаемые аминоспиртовые липидоподобные соединения необязательно можно очищать. Например, смесь аминоспиртовых липидоподобных соединений можно очищать с получением аминоспиртового липидоподобного соединения с определенным количеством "хвостов" соединений, полученных из эпоксидов. Или же смесь можно очищать с получением определенного стерео- или региоизомера. Аминоспиртовые липидоподобные соединения можно также алкилировать с помощью алкилгалогенида (например, йодистого метила) или другого алкилирующего средства и/или их можно ацилировать.

В публикации заявки на патент США № 20110293703 также представлены библиотеки аминоспиртовых липидоподобных соединений, полученных согласно способам по настоящему изобретению. Эти аминоспиртовые липидоподобные соединения можно получать и/или подвергать скринингу с применением высокопроизводительных методик, предусматривающих использование дозаторов жидкостей, автоматических манипуляторов, планшетов для микротитрования, компьютеров и т. д. В определенных вариантах осуществления аминоспиртовые липидоподобные соединения подвергают скринингу в отношении их способности к трансфекции полинуклеотидов или других средств (например, белков, пептидов, малых молекул) в клетку.

Публикация заявки на патент США № 20130302401 относится к классу поли(бета-аминоспиртов) (PBAA), получаемых с помощью комбинаторных методик полимеризации. PBAA по настоящему изобретению можно применять в биотехнологии и биомедицинских применениях в качестве покрытий (таких как пленочные покрытия или многослойные пленки для медицинских инструментов или имплантатов), добавок, материалов, наполнителей, средств, предотвращающих биологическое обрастание, средств для формирования микроструктуры и средств для инкапсулирования клеток. В случае применения в качестве поверхностных покрытий эти PBAA вызывают различные уровни воспаления как in vitro, так и in vivo в зависимости от их химических структур. Большое химическое разнообразие этого класса материалов позволяет идентифицировать полимерные покрытия, ингибирующие активацию макрофагов in vitro. Более того, эти покрытия уменьшают рекрутирование воспалительных клеток и уменьшают выраженность фиброза после подкожной имплантации микрочастиц карбоксилированного полистирола. Эти полимеры можно использовать для образования капсул на основе полиэлектролитных комплексов для инкапсулирования клеток. Настоящее изобретение также может иметь много других применений в биологии, таких как получение антимикробных покрытий, доставка ДНК или siRNA и тканевая инженерия с применением стволовых клеток. Идеи, изложенные в публикации заявки на патент США № 20130302401, можно применять по отношению к системе CRISPR-Cas по настоящему изобретению. В некоторых вариантах осуществления могут быть использованы частицы на основе сахара, например GalNAc, как описывается в данном документе и со ссылкой на WO 2014118272 (включенной в данный документ посредством ссылки) и Nair, JK et al., 2014, Journal of the American Chemical Society 136 (49), 16958-16961), а также согласно идеям в данном документе, особенно в отношении применений в доставке для всех частиц, если не очевидно иное.

В другом варианте осуществления предусмотрены липидные наночастицы (LNP). В частности, малые интерферирующие РНК, воздействующие на транстиретин, инкапсулировали в липидные наночастицы и использовали для доставки у людей (см., например, Coelho et al., N Engl J Med 2013;369:819-29), и такую систему можно приспосабливать и применять в отношении системы CRISPR-Cas по настоящему изобретению. Предусмотрены дозы, составляющие от приблизительно 0,01 до приблизительно 1 мг на кг массы тела, вводимые внутривенно. Предусмотрены лекарственные препараты для снижения риска возникновения инфузионных реакций, такие как дексаметазон, ацетаминофен, дифенгидрамин или цетиризин и ранитидин. Также предусмотрены многократные дозы, состоящие из пяти доз по приблизительно 0,3 мг на килограмм, принимаемых каждые 4 недели.

Было показано, что LNP являются высокоэффективными в доставке siRNA в печень (см., например, Tabernero et al., Cancer Discovery, April 2013, Vol. 3, No. 4, pages 363-470) и, таким образом, предусмотрены для доставки в печень РНК, кодирующей CRISPR-Cas. Может быть предусмотрен режим дозирования с приемом приблизительно четырех доз по 6 мг/кг LNP каждые две недели. Tabernero et al. продемонстрировали, что после первых 2 циклов дозирования LNP при 0,7 мг/кг наблюдалась регрессия опухоли, а к концу 6 циклов у пациента достигался частичный ответ с полной регрессией метастазов в лимфатических узлах и значительным уменьшением размеров опухолей в печени. У данного пациента, у которого сохранялась ремиссия и который завершил лечение после получения доз в течение 26 месяцев, полный ответ достигался после приема 40 доз. У двух пациентов с RCC и внепеченочными очагами заболевания, включающими почку, легкое и лимфатические узлы, в которых наблюдалось прогрессирование после предшествующей терапии ингибиторами сигнального пути VEGF, наблюдалась стабилизация заболевания во всех очагах в течение примерно 8-12 месяцев, а пациент с PNET и метастазами в печени продолжал участие в расширенном исследовании в течение 18 месяцев (36 доз) при стабилизации заболевания.

Однако следует принимать во внимание заряд LNP. Так, объединение катионных липидов с отрицательно заряженными липидами индуцирует образование структур, не являющихся двуслойными, которые облегчают внутриклеточную доставку. Поскольку заряженные LNP быстро выводятся из кровотока после внутривенной инъекции, были разработаны ионизируемые катионные липиды со значениями pKa ниже 7 (см., например, Rosin et al, Molecular Therapy, vol. 19, no. 12, pages 1286-2200, Dec. 2011). Отрицательно заряженные полимеры, такие как РНК, можно загружать в LNP при низких значениях pH (например, pH 4), где ионизируемые липиды проявляют положительный заряд. Однако при физиологических значениях pH LNP проявляют низкий поверхностный заряд, совместимый с большими значениями времени пребывания в кровотоке. Основное внимание сосредоточено на четырех видах молекул ионизируемых катионных липидов, а именно 1,2-дилинолеоил-3-диметиламмонийпропане (DLinDAP), 1,2-дилинолеилокси-3-N,N-диметиламинопропане (DLinDMA), 1,2-дилинолеилоксикето-N,N-диметил-3-аминопропане (DLinKDMA) и 1,2-дилинолеил-4-(2-диметиламиноэтил)-[1,3]-диоксолане (DLinKC2-DMA). Было показано, что системы LNP с siRNA, содержащие эти липиды, проявляют существенно отличающиеся свойства сайленсинга генов в гепатоцитах in vivo, при этом их активность изменяется в ряду DLinKC2-DMA>DLinKDMA>DLinDMA>>DLinDAP при использовании модели сайленсинга гена фактора VII (см., например, Rosin et al, Molecular Therapy, vol. 19, no. 12, pages 1286-2200, Dec. 2011). Может быть предусмотрена доза 1 мкг/мл LNP или РНК CRISPR-Cas в LNP или ассоциированная с ней, в особенности для состава, содержащего DLinKC2-DMA.

Получение LNP и инкапсулирование CRISPR-Cas можно применять и/или адаптировать согласно Rosin et al, Molecular Therapy, vol. 19, no. 12, pages 1286-2200, Dec. 2011. Катионные липиды 1,2-дилинолеоил-3-диметиламмонийпропан (DLinDAP), 1,2-дилинолеилокси-3-N,N-диметиламинопропан (DLinDMA), 1,2-дилинолеилоксикето-N,N-диметил-3-аминопропан (DLinK-DMA), 1,2-дилинолеил-4-(2-диметиламиноэтил)-[1,3]-диоксолан (DLinKC2-DMA), (3-o-[2″-(метоксиполиэтиленгликоль 2000)-сукциноил]-1,2-димиристоил-sn-гликоль (PEG-S-DMG) и R-3-[(ω-метоксиполи(этиленгликоль)2000)-карбамоил]-1,2-димиристилоксипропил-3-амин (PEG-C-DOMG) могут быть предоставлены Tekmira Pharmaceuticals (Ванкувер, Канада) или синтезированы. Холестерин можно приобрести у Sigma (Сент-Луис, Миссури). Конкретную РНК CRISPR-Cas можно инкапсулировать в LNP, содержащую DLinDAP, DLinDMA, DLinK-DMA и DLinKC2-DMA (катионный липид:DSPC:холестерин: PEG-S-DMG или PEG-C-DOMG в молярном соотношении 40:10:40:10). При необходимости можно включать в состав 0,2% SP-DiOC18 (Invitrogen, Берлингтон, Канада) для определения клеточного поглощения, внутриклеточной доставки и биораспределения. Инкапсулирование можно осуществлять путем растворения липидных смесей, содержащих катионный липид:DSPC:холестерин:PEG-C-DOMG (молярное соотношение 40:10:40:10), в этаноле до конечной концентрации липидов 10 ммолей/л. Этот раствор липидов в этаноле можно добавлять по каплям к 50 ммолей/л цитрата, pH 4,0, с образованием многослойных везикул до получения конечной концентрации этанола 30% об./об. Крупные однослойные везикулы могут быть образованы после экструзии многослойных везикул через два установленных один над другим поликарбонатных фильтра Nuclepore на 80 нм с помощью экструдера (Northern Lipids, Ванкувер, Канада). Инкапсулирование можно осуществлять путем добавления РНК, растворенной при 2 мг/мл в 50 ммолей/л цитрата, pH 4,0, содержащего этанола 30% об./об., по каплям к экструдированным предварительно сформированным крупным однослойным везикулам и инкубирования при 31°C в течение 30 минут при постоянном перемешивании до конечного весового соотношения РНК/липид 0,06/1 вес/вес. Удаление этанола и нейтрализацию буфера для получения состава проводили путем диализа против фосфатно-солевого буфера (PBS), pH 7,4, в течение 16 часов с помощью диализных мембран Spectra/Por 2 из регенерированной целлюлозы. Распределение наночастиц по размеру можно определить посредством динамического рассеяния света с использованием измерителя размера частиц NICOMP 370, режимов объема везикул/интенсивности рассеянного света и аппроксимации функцией Гаусса (Nicomp Particle Sizing, Санта-Барбара, Калифорния). Размер частиц для всех трех систем LNP может составлять ~70 нм в диаметре. Эффективность инкапсулирования siRNA можно определить путем удаления свободной РНК из образцов, отобранных до или после диализа, с помощью колонок VivaPureD MiniH (Sartorius Stedim Biotech). Инкапсулированную РНК можно экстрагировать из элюированных наночастиц и подвергнуть количественной оценке при 260 нм. Соотношение РНК и липидов определяли путем измерения содержания холестерина в везикулах с помощью ферментативного анализа Cholesterol E от Wako Chemicals USA (Ричмонд, Виргиния). В связи с обсуждением в данном документе LNP и конъюгатов PEG-липид, ПЭГилированные липосомы или LNP являются также подходящими для доставки системы CRISPR-Cas или ее компонентов.

Получение крупных LNP можно применять и/или адаптировать согласно Rosin et al, Molecular Therapy, vol. 19, no. 12, pages 1286-2200, Dec. 2011. Раствор предварительно приготовленной смеси липидов (общая концентрация липидов 20,4 мг/мл) можно получать в этаноле, содержащем DLinKC2-DMA, DSPC и холестерин в молярном соотношении 50:10:38,5. К предварительно приготовленной смеси липидов можно добавлять ацетат натрия в молярном соотношении 0,75:1 (ацетат натрия:DLinKC2-DMA). Липиды затем можно гидрировать путем объединения смеси с 1,85 объема цитратного буфера (10 ммоль/л, pH 3,0) при энергичном перемешивании, вызывая самопроизвольное образование липосом в водном буфере, содержащем 35% этанол. Раствор липосом можно инкубировать при 37°C для обеспечения зависимого от времени увеличения размера частиц. Можно отбирать аликвоты в различные моменты времени в ходе инкубирования для изучения изменений размера липосом посредством динамического рассеяния света (Zetasizer Nano ZS, Malvern Instruments, Вустершир, Великобритания). По достижении желаемого размера частиц к смеси липосом можно добавлять водный раствор конъюгатов PEG-липид (исходный раствор = 10 мг/мл PEG-DMG в 35% (об./об.) этаноле) с получением конечной молярной концентрации PEG 3,5% от общего количества липидов. После добавления конъюгатов PEG-липид липосомы должны сохранять свой размер с эффективным подавлением дальнейшего роста. К пустым липосомам затем можно добавлять РНК при соотношении РНК и общих липидов, составляющим примерно 1:10 (вес:вес.), с последующим инкубированием в течение 30 минут при 37°C с образованием нагруженных LNP. Смесь затем можно подвергнуть диализу в течение ночи в PBS и отфильтровать через фильтрующий шприц с диаметром пор 0,45 мкм.

Конструкции сферических нуклеиновых кислот (SNA™) и другие наночастицы (в частности, наночастицы золота) также предусмотрены в качестве средства доставки системы CRISPR/Cas к предполагаемым мишеням. Репрезентативные данные показывают, что конструкции сферических нуклеиновых кислот (SNA™) AuraSense лекарственных препаратов на основе наночастиц золота, функционализированных нуклеиновыми кислотами, также являются применимыми.

Литературные источники, которые можно использовать совместно с изложенными в данном документе идеями, включают: Cutler et al., J. Am. Chem. Soc. 2011 133:9254-9257, Hao et al., Small. 2011 7:3158-3162, Zhang et al., ACS Nano. 2011 5:6962-6970, Cutler et al., J. Am. Chem. Soc. 2012 134:1376-1391, Young et al., Nano Lett. 2012 12:3867-71, Zheng et al., Proc. Natl. Acad. Sci. USA. 2012 109:11975-80, Mirkin, Nanomedicine 2012 7:635-638 Zhang et al., J. Am. Chem. Soc. 2012 134:16488-1691, Weintraub, Nature 2013 495:S14-S16, Choi et al., Proc. Natl. Acad. Sci. USA. 2013 110(19):7625-7630, Jensen et al., Sci. Transl. Med. 5, 209ra152 (2013) и Mirkin, et al., Small, 10:186-192.

Самособирающиеся наночастицы с РНК можно конструировать с полиэтиленимином (PEI), который ПЭГилирован с пептидным лигандом Arg-Gly-Asp (RGD), прикрепленным к дистальному концу цепи полиэтиленгликоля (PEG). Данную систему использовали, например, в качестве средства для целенаправленного воздействия на сосудистую сеть опухолей, экспрессирующую интегрины, и для доставки siRNA, подавляющей экспрессию рецептора 2 сосудистого эндотелиального фактора роста (VEGF R2), добиваясь тем самым подавления опухолевого ангиогенеза (см., например, Schiffelers et al., Nucleic Acids Research, 2004, Vol. 32, No. 19). Наноплексы можно получать путем смешивания равных объемов водных растворов катионного полимера и нуклеиновой кислоты с получением чистого молярного избытка ионизируемого азота (полимера) относительно фосфата (нуклеиновой кислоты) в диапазоне от 2 до 6. Электростатические взаимодействия между катионными полимерами и нуклеиновой кислотой приводят в результате к образованию полиплексов, характеризующихся распределением частиц по размеру со средним размером, составляющим приблизительно 100 нм, в связи с чем их называют наноплексами. Для доставки в самособирающихся наночастицах согласно Schiffelers et al. предполагается доза, составляющая приблизительно от 100 до 200 мг CRISPR-Cas.

Наноплексы согласно Bartlett et al. (PNAS, September 25, 2007,vol. 104, no. 39) также можно применять в настоящем изобретении. Наноплексы согласно Bartlett et al. получают путем смешивания равных объемов водных растворов катионного полимера и нуклеиновой кислоты с получением чистого молярного избытка ионизируемого азота (полимера) относительно фосфата (нуклеиновой кислоты) в диапазоне от 2 до 6. Электростатические взаимодействия между катионными полимерами и нуклеиновой кислотой приводят в результате к образованию полиплексов, характеризующихся распределением частиц по размеру со средним размером, составляющим приблизительно 100 нм, в связи с чем их называют наноплексами. Конъюгаты DOTA-siRNA согласно Bartlett et al. синтезировали следующим образом. Сложный моно(N-гидроксисукцинимидный эфир) 1,4,7,10-тетраазациклододекан-1,4,7,10-тетрауксусной кислоты (сложный эфир DOTA-NHS) заказывали у Macrocyclics (Даллас, Техас). В микроцентрифужную пробирку добавляли аминомодифицированную смысловую нить РНК со 100-кратным молярным избытком сложного эфира DOTA-NHS в карбонатном буфере (pH 9). Содержимое вводили в реакцию путем перемешивания в течение 4 ч. при комнатной температуре. Конъюгат DOTA-смысловая нить РНК осаждали этанолом, ресуспендировали в воде и отжигали с немодифицированной антисмысловой нитью с получением конъюгата DOTA-siRNA. Все жидкости предварительно обрабатывали с помощью Chelex-100 (Bio-Rad, Геркулес, Калифорния) для удаления следовых количеств металлических примесей. Нацеленные на Tf или ненацеленные наночастицы с siRNA можно получать с помощью поликатионов, содержащих циклодекстрин. Как правило, наночастицы получают в воде при соотношении зарядов 3 (+/-) и концентрации siRNA 0,5 г/литр. Один процент молекул конъюгатов адамантан-PEG на поверхности нацеленных наночастиц модифицировали с помощью Tf (адамантан-PEG-Tf). Наночастицы суспендировали в 5% (вес./об.) растворе глюкозы в качестве носителя для инъекции.

Davis et al. (Nature, Vol 464, 15 April 2010) проводили клиническое испытание с РНК, в котором использовали систему доставки на основе нацеленных наночастиц (регистрационный номер клинического испытания NCT00689065). Пациентам с солидными формами рака, трудно поддающимися стандартным методикам лечения, вводили дозы целенаправленно воздействующих наночастиц в дни 1, 3, 8 и 10 21-дневного цикла посредством 30-минутной внутривенной инфузии. Наночастицы состоят из синтетической системы доставки, содержащей: (1) линейный полимер на основе циклодекстрина (CDP), (2) лиганд, нацеливающийся на белок трансферрин человека (TF), представленный на внешней поверхности наночастиц, который входит в контакт с рецепторами TF (TFR) на поверхности раковых клеток, (3) гидрофильный полимер (полиэтиленгликоль (PEG), используемый для обеспечения стабильности наночастиц в биологических жидкостях), и (4) siRNA, предназначенную для снижения экспрессии RRM2 (последовательность, применяемая в клинической практике, ранее была обозначена как siR2B+5). Давно известно, что в злокачественных клетках повышена экспрессия TFR, а RRM2 является общепризнанной мишенью для противораковой терапии. Было показано, что эти наночастицы (клинический вариант обозначен как CALAA-01) хорошо переносятся в исследованиях с использованием многократных доз у отличных от человека приматов. Даже при том, что отдельному пациенту с хроническим миелоидным лейкозом вводили siRNA посредством доставки с помощью липосом, клиническое испытание Davis et al. является первым испытанием с участием человека, в котором проводят системную доставку siRNA с помощью системы целенаправленной доставки и лечат пациентов с солидным раком. Для того, чтобы выяснить, может ли система целенаправленной доставки обеспечивать эффективную доставку функциональных siRNA в опухоли человека, Davis et al. исследовали биоптаты от трех пациентов из трех различных групп дозирования; пациентов A, B и C, все из которых имели метастазирующую меланому и получали дозы CALAA-01 с 18, 24 и 30 мг м^-2 siRNA соответственно. Аналогичные дозы также могут быть предусмотрены для системы CRISPR-Cas по настоящему изобретению. Доставку по настоящему изобретению можно осуществлять с помощью наночастиц, содержащих линейный полимер на основе циклодекстрина (CDP), лиганд, нацеливающийся на белок трансферрин человека (TF), представленный на внешней поверхности наночастиц, который входит в контакт с рецепторами TF (TFR) на поверхности раковых клеток, и/или гидрофильный полимер (например, полиэтиленгликоль (PEG), применяемый для обеспечения стабильности наночастиц в биологических жидкостях).

В контексте настоящего изобретения предпочтительно, чтобы один или несколько компонентов комплекса CRISPR, например, фермент или мРНК CRISPR или направляющая РНК, были доставлены с помощью наночастиц или липидных оболочек. Вместе с аспектами наночастиц по настоящему изобретению можно применять другие системы доставки или векторы.

В целом, "наночастица" относится к любой частице, имеющей диаметр менее 1000 нм. В определенных предпочтительных вариантах осуществления наночастицы по настоящему изобретению имеют наибольший размер (например, диаметр) 500 нм или менее. В других предпочтительных вариантах осуществления наночастицы по настоящему изобретению имеют наибольший размер, варьирующий в диапазоне от 25 нм до 200 нм. В других предпочтительных вариантах осуществления наночастицы по настоящему изобретению имеют наибольший размер 100 нм или менее. В других предпочтительных вариантах осуществления наночастицы по настоящему изобретению имеют наибольший размер, варьирующий в диапазоне от 35 нм до 60 нм.

Наночастицы, охватываемые настоящим изобретением, могут быть предусмотрены в различных формах, например, в виде твердых наночастиц (например, металла, такого как серебро, золото, железо, титан, неметалла, липидных твердых веществ, полимеров), суспензий наночастиц или их комбинаций. Могут быть получены наночастицы металла, диэлектрика и полупроводника, а также гибридные структуры (например, наночастицы типа ядро/оболочка). Наночастицы, изготовленные из полупроводникового материала, также могут являться меченными квантовыми точками, если они достаточно малы (как правило, менее 10 нм), чтобы происходило квантование уровней энергии электронов. Такие наноразмерные частицы используются в биомедицинских применениях в качестве носителей лекарственных средств или визуализирующих средств и могут быть приспособлены для аналогичных целей в настоящем изобретении.

Были получены полутвердые и мягкие наночастицы, и они находятся в пределах объема настоящего изобретения. Наночастицей-прототипом полутвердой природы является липосома. Различные типы наночастиц-липосом в настоящее время применяют в клинической практике в качестве систем доставки противораковых лекарственных средств и вакцин. Наночастицы, одна полусфера которых является гидрофильной, а другая полусфера - гидрофобной, называются частицами Януса и являются особенно эффективными в стабилизации эмульсий. Они способны к самосборке на поверхностях раздела вода/масло и действовать в качестве твердых поверхностно-активных веществ.

В патенте США № 8709843, включенном в данный документ посредством ссылки, представлена система доставки терапевтических средств для целенаправленной доставки частиц, содержащих терапевтическое средство, в ткани, клетки и внутриклеточные компартменты. Настоящее изобретение относится к подвергнутым нацеливанию частицам, содержащим полимер, конъюгированный с поверхностно-активным веществом, гидрофильным полимером или липидом.

В патенте США № 6007845, включенном в данный документ посредством ссылки, предусмотрены частицы, имеющие ядро из мультиблочного сополимера, образованного путем ковалентного связывания соединения с несколькими функциональными группами с одним или несколькими гидрофобными полимерами и одним или несколькими гидрофильными полимерами, и содержащие биологически активный материал.

В патенте США № 5855913, включенном в данный документ посредством ссылки, предусмотрена композиция в форме частиц, содержащая аэродинамически легкие частицы, имеющие плотность после утряски менее 0,4 г/см3 и средний диаметр от 5 мкм до 30 мкм, содержащие поверхностно-активное вещество на их поверхности, для доставки лекарственных средств в легочную систему.

В патенте США № 5985309, включенном в данный документ посредством ссылки, предусмотрены частицы, содержащие поверхностно-активное вещество и/или гидрофильный или гидрофобный комплекс положительно или отрицательно заряженного терапевтического или диагностического средства и заряженной молекулы, имеющей противоположный заряд, для доставки в легочную систему.

В патенте США № 5543158, включенном в данный документ посредством ссылки, предусмотрены биоразлагаемые инъекционные частицы, имеющие биоразлагаемую твердую сердцевину, содержащую биологически активный материал, и поли(алкиленгликолевые) фрагменты на поверхности.

В WO2012135025 (также опубликованном как US20120251560), включенном в данный документ посредством ссылки, описаны конъюгированные полимеры на основе полиэтиленимина (PEI) и конъюгированные азамакроциклы (совместно именуемые "конъюгированным липополимером" или "липополимерами"). В определенных вариантах осуществления может быть предусмотрено, что такие конъюгированные липополимеры можно применять в случае с системой CRISPR-Cas для осуществления внесения изменений в геном in vitro, ex vivo и in vivo с модификацией экспрессии гена, включающей модулирование экспрессии белка.

В одном варианте осуществления наночастица может представлять собой гибрид липида, модифицированного эпоксидными группами, и полимера, преимущественно 7C1 (см., например, James E. Dahlman and Carmen Barnes et al. Nature Nanotechnology (2014), опубликовано онлайн 11 мая 2014 г., doi:10.1038/nnano.2014.84). C71 синтезировали путем осуществления реакции липидов C15 с концевыми эпоксидными группами с PEI600 в молярном соотношении 14:1 и составляли с C14PEG2000 с получением наночастиц (диаметром от 35 до 60 нм), которые были стабильными в растворе PBS в течение по меньшей мере 40 дней.

Гибрид липида, модифицированного эпоксидными группами, и полимера можно использовать для доставки системы CRISPR-Cas по настоящему изобретению в клетки легких, сердечно-сосудистой системы или почек, однако, специалист в данной области может приспособить систему для доставки в другие целевые органы. Предусмотрена доза, варьирующая в диапазоне от приблизительно 0,05 до приблизительно 0,6 мг/кг. Также предусмотрен прием доз в течение нескольких дней или недель, при этом общая доза составляет приблизительно 2 мг/кг.

Экзосомы

Экзосомы являются эндогенными нановезикулами, переносящими РНК и белки, и которые могут доставлять РНК в головной мозг и другие целевые органы. Для снижения иммуногенности Alvarez-Erviti et al. (2011, Nat Biotechnol 29: 341) использовали аутогенные дендритные клетки для получения экзосом. Нацеливания на головной мозг достигали путем конструирования дендритных клеток, экспрессирующих Lamp2b, мембранный белок экзосом, слитый с нейрон-специфическим пептидом RVG. Очищенные экзосомы нагружали экзогенной РНК путем электропорации. Меченные RVG нацеленные экзосомы, инъецируемые внутривенно, осуществляли специфическую доставку siRNA для GAPDH в нейроны, микроглию, олигодендроциты в головном мозге, обуславливая нокдаун конкретного гена. Предварительное воздействие меченных RVG экзосом не ослабляло выраженность нокдауна, и неспецифическое поглощение в других тканях не наблюдалось. Терапевтические возможности опосредованной экзосомами доставки siRNA были продемонстрированы сильно выраженным нокдауном мРНК (60%) и белка (62%) BACE1, терапевтической мишени при болезни Альцгеймера.

Для получения пула иммунологически инертных экзосом Alvarez-Erviti et al. отбирали костный мозг у инбредных мышей C57BL/6 с гомогенным гаплотипом главного комплекса гистосовместимости (MHC). Поскольку незрелые дендритные клетки вырабатывают большие количества экзосом, лишенных активаторов T-клеток, таких как MHC-II и CD86, Alvarez-Erviti et al. проводили отбор дендритных клеток с помощью гранулоцитарно-макрофагального колониестимулирующего фактора (GM-CSF) в течение 7 дней. Экзосомы очищали от культуральной надосадочной жидкости на следующий день с применением общепринятых протоколов ультрацентрифугирования. Вырабатываемые экзосомы были физически однородными и характеризовались распределением по размеру с пиком при 80 нм в диаметре, как определяли с помощью анализа отслеживания наночастиц (NTA) и электронной микроскопии. Alvarez-Erviti et al. получали 6-12 мкг экзосом (измерено по концентрации белка) на 10⁶ клеток.

Затем Alvarez-Erviti et al. исследовали возможность загрузки модифицированных экзосом экзогенными молекулами-карго с применением протоколов электропорации, приспособленных для применений на наноразмерном уровне. Поскольку электропорация для мембранных частиц в нанометрическом масштабе изучена недостаточно хорошо, для эмпирической оптимизации протокола электропорации использовали неспецифичную меченную Cy5 РНК. Количество инкапсулированной РНК анализировали после ультрацентрифугирования и лизиса экзосом. Электропорация при 400 В и 125 мкФ приводила к наибольшему удержанию РНК и применялась для всех последующих экспериментов.

Alvarez-Erviti et al. вводили по 150 мкг каждой siRNA для BACE1, инкапсулированной в 150 мкг меченных RVG экзосом, нормальным мышам C57BL/6 и сравнивали эффективность нокдауна с таковой в четырех контрольных группах: необработанные мыши, мыши, которым инъецировали только меченные RVG экзосомы, мыши, которым инъецировали siRNA для BACE1, образующую комплекс с реагентом на основе катионных липосом для доставки in vivo, и мыши, которым инъецировали siRNA для BACE1, образующую комплекс с RVG-9R, пептидом RVG, конъюгированным с 9 остатками D-аргинина, который электростатически связывается с siRNA. Образцы кортикальной ткани анализировали через 3 дня после введения, и как у обработанных siRNA-RVG-9R, так и у обработанных меченными RVG экзосомами с siRNA мышей наблюдали значительный нокдаун белка (45%, P < 0,05 и 62%, P < 0,01), обусловленный значительным снижением уровней мРНК BACE1 (66% [+ или -] 15%, P < 0,001 и 61% [+ или -] 13%, P < 0,01 соответственно). Более того, заявители продемонстрировали значительное снижение (55%, P < 0,05) общих уровней [бета]-амилоидного пептида 1-42, основного компонента амилоидных бляшек в патологическом процессе при болезни Альцгеймера у животных, обработанных меченными RVG экзосомами. Наблюдавшееся снижение было большим, чем снижение уровней β-амилоидного пептида 1-40, демонстрируемое у нормальных мышей после внутрижелудочковой инъекции ингибиторов BACE1. Alvarez-Erviti et al. проводили быструю амплификацию 5'-концов кДНК (RACE) в отношении продукта расщепления BACE1, что свидетельствовало об опосредованном RNAi нокдауне с помощью siRNA.

Наконец, Alvarez-Erviti et al. исследовали, индуцируют ли меченные RVG экзосомы с РНК иммунные ответы in vivo, путем определения концентраций IL-6, IP-10, TNFα и IFN-α в сыворотке крови. После обработки экзосомами для всех цитокинов регистрировали незначительные изменения подобно обработке реагентом для трансфекции с siRNA и в отличие от siRNA-RVG-9R, который активно стимулировал секрецию IL-6, что подтверждало иммунологическую инертность как особенность обработки экзосомами. С учетом того, что экзосомы инкапсулируют только 20% siRNA, доставка с помощью меченных RVG экзосом, по-видимому, является более эффективной, чем доставка с помощью RVG-9R, поскольку с использованием в пять раз меньшего количества siRNA без соответствующего уровня стимуляции иммунного ответа достигали сопоставимого нокдауна мРНК и большего нокдауна белка. Данный эксперимент продемонстрировал терапевтические возможности технологии меченных RVG экзосом, которая потенциально подходит для долговременного сайленсинга генов, связанных с нейродегенеративными заболеваниями. Систему доставки на основе экзосом по Alvarez-Erviti et al. можно использовать для доставки системы CRISPR-Cas по настоящему изобретению к терапевтическим мишеням, особенно при нейродегенеративных заболеваниях. В настоящем изобретении может быть предусмотрена доза, составляющая приблизительно 100-1000 мг CRISPR-Cas, инкапсулированных в приблизительно 100-1000 мг меченных RVG экзосом.

El-Andaloussi et al. (Nature Protocols 7, 2112-2126(2012)) раскрывают, как экзосомы, полученные из культивируемых клеток, можно приспособить для доставки РНК in vitro и in vivo. В данном протоколе впервые описано создание нацеленных экзосом посредством трансфекции вектором экспрессии, содержащим экзосомный белок, слитый с пептидным лигандом. Затем El-Andaloussi et al. объясняют, как очищать и характеризовать экзосомы из надосадочной жидкости с трансфицированными клетками. Затем El-Andaloussi et al. подробно описывают важнейшие стадии загрузки РНК в экзосомы. Наконец, El-Andaloussi et al. излагают в общих чертах, как использовать экзосомы для эффективной доставки РНК in vitro и in vivo в головной мозг мышей. Также приведены примеры предполагаемых результатов, в которых опосредованная экзосомами доставка РНК оценивается посредством функциональных анализов и визуализации. Выполнение полного протокола занимает ~3 недели. Доставку или введение согласно настоящему изобретению можно осуществлять с помощью экзосом, полученных из аутогенных дендритных клеток. Среди приведенных в данном документе идей, эту можно использовать в практическом применении настоящего изобретения.

В другом варианте осуществления предполагаются экзосомы плазмы крови согласно Wahlgren et al. (Nucleic Acids Research, 2012, Vol. 40, No. 17 e130). Экзосомы представляют собой наноразмерные везикулы (размером 30-90 нм), вырабатываемые многими типами клеток, в том числе дендритными клетками (DC), B-клетками, T-клетками, тучными клетками, эпителиальными клетками и опухолевыми клетками. Данные везикулы образуются путем внутреннего почкования поздних эндосом, а затем высвобождаются во внеклеточную среду при слиянии с плазматической мембраной. Поскольку в естественных условиях экзосомы переносят РНК между клетками, данное свойство может быть полезным в генной терапии, и согласно данному раскрытию может быть использовано в практическом раскрытии настоящего изобретения.

Экзосомы из плазмы крови могут быть получены путем центрифугирования лейкоцитарной пленки при 900 g в течение 20 мин. для отделения плазмы крови с последующим сбором надосадочных жидкостей культуры клеток, центрифугированием при 300 g в течение 10 мин. для удаления клеток и при 16500 g в течение 30 мин. с последующей фильтрацией через фильтр с диаметром пор 0,22 мм. Экзосомы осаждают путем ультрацентрифугирования при 120000 g в течение 70 мин. Введение siRNA в экзосомы посредством химической трансфекции проводят согласно инструкциям производителя в наборе RNAi Human/Mouse Starter Kit (Quiagen, Хильден, Германия). К 100 мл PBS добавляют siRNA при конечной концентрации 2 ммоля/мл. После добавления реагента для трансфекции HiPerFect смесь инкубируют в течение 10 мин. при КТ. С целью удаления избытка мицелл экзосомы повторно выделяют с помощью латексных частиц с альдегидными/сульфатными группами. Введение CRISPR-Cas в экзосомы посредством химической трансфекции можно проводить аналогично введению siRNA. Экзосомы можно совместно культивировать с моноцитами и лимфоцитами, выделенными из периферической крови здоровых доноров. Таким образом, может быть предусмотрено, чтобы экзосомы, содержащие CRISPR-Cas, можно было вводить в моноциты и лимфоциты и подвергать аутологическому обратному введению в организм человека. Соответственно, доставку или введение согласно настоящему изобретению можно осуществлять с помощью экзосом плазмы крови.

Липосомы

Доставку или введение согласно настоящему изобретению можно осуществлять с помощью липосом. Липосомы являются сферическими везикулярными структурами, содержащими одно- или многослойный липидный бислой, окружающий внутренние водные компартменты, и относительно непроницаемый внешний липофильный фосфолипидный бислой. Липосомы получили значительное внимание в качестве носителей для доставки лекарственных средств, поскольку они являются биологически совместимыми, нетоксичными, могут доставлять как гидрофильные, так и липофильные молекулы лекарственных средств, защищают свою молекулу-карго от разрушения ферментами плазмы крови и переносят свой "груз" через биологические мембраны и гематоэнцефалический барьер (BBB) (для обзора см., например, Spuch and Navarro, Journal of Drug Delivery, vol. 2011, Article ID 469679, 12 pages, 2011. doi:10.1155/2011/469679).

Липосомы можно получать из нескольких различных типов липидов; однако для создания липосом в качестве носителей лекарственных средств чаще всего применяют фосфолипиды. Хотя образование липосом является самопроизвольным при смешивании липидной пленки с водным раствором, его также можно ускорить путем приложения силы в виде встряхивания посредством применения гомогенизатора, ультразвукового диспергатора или экструзионного аппарата (для обзора см., например, Spuch and Navarro, Journal of Drug Delivery, vol. 2011, Article ID 469679, 12 pages, 2011. doi:10.1155/2011/469679).

К липосомам можно добавлять некоторые другие добавки с целью модификации их структуры и свойств. Например, холестерин либо сфингомиелин можно добавлять к смеси липосом в целях содействия стабилизации структуры липосом и предотвращения утечки внутренних молекул-карго липосом. Кроме того, липосомы получают из гидрогенизированного яичного фосфатидилхолина или яичного фосфатидилхолина, холестерина и диацетилфосфата, и их средние размеры везикул доводят до приблизительно 50 и 100 нм. (для обзора см., например, Spuch and Navarro, Journal of Drug Delivery, vol. 2011, Article ID 469679, 12 pages, 2011. doi:10.1155/2011/469679).

Липосомный состав может содержать главным образом природные фосфолипиды и липиды, такие как 1,2-дистеароил-sn-глицеро-3-фосфатидилхолин (DSPC), сфингомиелин, формы яичного фосфатидилхолина и моносиалоганглиозид. Поскольку данный состав состоит только из фосфолипидов, липосомные составы сталкиваются со многими проблемами, одной из которых является нестабильность в плазме. Было предпринято несколько попыток преодоления данных проблем, в частности, посредством манипуляции с липидной мембраной. Одна из этих попыток направлена на манипуляцию с холестерином. Добавление холестерина к традиционным составам уменьшает быстрое высвобождение инкапсулированного биологически активного соединения в плазму крови или 1,2-диолеоил-sn-глицеро-3-фосфоэтаноламин (DOPE) повышает стабильность (для обзора см., например, Spuch and Navarro, Journal of Drug Delivery, vol. 2011, Article ID 469679, 12 pages, 2011. doi:10.1155/2011/469679).

В особенно преимущественном варианте осуществления желательными являются липосомы "троянские кони" (также известные как "молекулярные троянские кони"), и протоколы можно найти на http://cshprotocols.cshlp.org/content/2010/4/pdb.prot5407.long.. Эти частицы обеспечивают доставку трансгена в головной мозг в целом после внутрисосудистой инъекции. Без ограничений полагают, что нейтральные липидные частицы со специфичными антителами, конъюгированными с поверхностью, обеспечивают проникновение через гематоэнцефалический барьер посредством эндоцитоза. Заявитель теоретически допускает использование липосом "троянских коней" для доставки нуклеаз семейства CRISPR в головной мозг посредством внутрисосудистой инъекции, что будет обеспечивать получение животных с трансгенами во всем головном мозге без необходимости в манипуляции с эмбрионами. Для введения in vivo в липосомы может быть предусмотрено приблизительно 1-5 г ДНК или РНК.

В другом варианте осуществления систему CRISPR-Cas или ее компоненты можно вводить в липосомы, такие как стабильная частица из нуклеиновой кислоты и липидов (SNALP) (см., например, Morrissey et al., Nature Biotechnology, Vol. 23, No. 8, August 2005). Предусматриваются ежедневные внутривенные инъекции приблизительно 1, 3 или 5 мг/кг/день специфичной целенаправленно воздействующей CRISPR-Cas в SNALP. Обработку можно осуществлять ежедневно в течение приблизительно трех дней, а затем еженедельно в течение приблизительно пяти недель. В другом варианте осуществления также предусмотрена специфичная CRISPR-Cas, инкапсулированная в SNALP, вводимая посредством внутривенной инъекции в дозах, составляющих приблизительно 1 или 2,5 мг/кг (см., например, Zimmerman et al., Nature Letters, Vol. 441, 4 May 2006). Состав на основе SNALP может содержать липиды 3-N-[(ω-метоксиполи(этиленгликоль)2000)-карбамоил]-1,2-димиристилоксипропиламин (PEG-C-DMA), 1,2-дилинолеилокси-N,N-диметил-3-аминопропан (DLinDMA), 1,2-дистеароил-sn-глицеро-3-фосфохолин (DSPC) и холестерин в молярном процентном соотношении 2:40:10:48 (см., например, Zimmerman et al., Nature Letters, Vol. 441, 4 May 2006).

В другом варианте осуществления было подтверждено, что стабильные частицы из нуклеиновой кислоты и липидов (SNALP) являются эффективными молекулами для доставки в высоковаскуляризированные опухоли печени, происходящие из HepG2, но не в слабо васкуляризированные опухоли печени, происходящие из HCT-116 (см., например, Li, Gene Therapy (2012) 19, 775-780). SNALP-липосомы можно получать путем составления D-Lin-DMA и PEG-C-DMA с дистеароилфосфатидилхолином (DSPC), холестерином и siRNA с использованием соотношения липид/siRNA 25:1 и молярного соотношения холестерин/D-Lin-DMA/DSPC/PEG-C-DMA 48/40/10/2. Полученные в результате SNALP-липосомы имеют размер приблизительно 80-100 нм.

В еще одном варианте осуществления SNALP может содержать синтетический холестерин (Sigma-Aldrich, Сент-Луис, Миссури, США), дипальмитоилфосфатидилхолин (Avanti Polar Lipids, Алабастер, Алабама, США), 3-N-[(ω-метоксиполи(этиленгликоль)2000)карбамоил]-1,2-димиристилоксипропиламин и катионный 1,2-дилинолеилокси-3-N,N-диметиламинопропан (см., например, Geisbert et al., Lancet 2010; 375: 1896-905). Может предусматриваться режим дозирования с приемом приблизительно 2 мг/кг общего количества CRISPR-Cas на дозу, вводимую, например, в виде болюсной внутривенной инфузии.

В еще одном варианте осуществления SNALP может содержать синтетический холестерин (Sigma-Aldrich), 1,2-дистеароил-sn-глицеро-3-фосфохолин (DSPC; Avanti Polar Lipids Inc.), PEG-C-DMA и 1,2-дилинолеилокси-3-(N,N-диметил)аминопропан (DLinDMA) (см., например, Judge, J. Clin. Invest. 119:661-673 (2009)). Составы, используемые для исследований in vivo, могут содержать липиды и РНК в конечном массовом соотношении, составляющем приблизительно 9:1.

Профиль безопасности нанопрепаратов для RNAi был рассмотрен Barros and Gollob из Alnylam Pharmaceuticals (см., например, Advanced Drug Delivery Reviews 64 (2012) 1730-1737). Стабильная частица из нуклеиновой кислоты и липидов (SNALP) содержит четыре различных липида - ионизируемый липид (DLinDMA), который является катионным при низком pH, нейтральный липид-помощник, холестерин и диффундирующий конъюгат полиэтиленгликоль (PEG)-липид. Частица имеет диаметр примерно 80 нм и является электронейтральной при физиологическом значении pH. Во время составления ионизируемый липид служит для конденсации липида с анионной РНК в ходе образования частиц. Будучи положительно заряженным в условиях возрастающей кислотности в эндосомах, ионизируемый липид также опосредует слияние SNALP с мембраной эндосомы, обеспечивая высвобождение РНК в цитоплазму. Конъюгат PEG-липид стабилизирует частицу и уменьшает агрегацию во время составления, а также впоследствии обеспечивает нейтральную гидрофильную наружную поверхность, улучшающую фармакокинетические свойства.

К настоящему времени была начата реализация двух программ клинических исследований с применением составов на основе SNALP с РНК. В Tekmira Pharmaceuticals недавно завершили фазу I однодозового исследования SNALP-ApoB с участием взрослых добровольцев с повышенным уровнем холестерина LDL. ApoB преимущественно экспрессируется в печени и тонкой кишке и является ключевым для сборки и секреции VLDL и LDL. Семнадцать субъектов получали однократную дозу SNALP-ApoB (повышение дозы, охватывающее 7 уровней дозирования). Не наблюдалось свидетельств гепатотоксичности (предполагаемой в качестве возможной дозолимитирующей токсичности на основании доклинических исследований). Один (или два) субъекта при наиболее высокой дозе испытывали симптомы гриппоподобных заболеваний, указывающие на стимуляцию иммунной системы, и было принято решение завершить испытание.

В Alnylam Pharmaceuticals аналогичным образом успешно провели исследование ALN-TTR01, в котором используется технология SNALP, описанная выше, и целенаправленное воздействие на выработку гепатоцитами TTR, как мутантного, так и дикого типа, для лечения опосредованного TTR амилоидоза (ATTR). Были описаны три синдрома при ATTR: семейная амилоидическая полинейропатия (FAP) и семейная амилоидическая кардиомиопатия (FAC) - оба из которых обусловлены аутосомно-доминантными мутациями в TTR; и старческий системный амилоидоз (SSA), обусловленный отложением TTR дикого типа. Недавно завершили I фазу плацебо-контролируемого испытания с повышением однократной дозы ALN-TTR01 с участием пациентов с ATTR. Введение ALN-TTR01 осуществляли в виде 15-минутной IV инфузии 31 пациенту (исследуемое лекарственное средство для 23 и плацебо для 8) в диапазоне доз 0,01-1,0 мг/кг (из расчета по siRNA). Лечение хорошо переносилось без значительного повышения показателей печеночных проб. Инфузионные реакции отмечались у 3 из 23 пациентов при ≥ 0,4 мг/кг; все они реагировали на замедление скорости инфузии и все они продолжали исследование. Минимальные и временные повышения уровней цитокинов IL-6, IP-10 и IL-1ra в сыворотке отмечались у двух пациентов при наиболее высокой дозе 1 мг/кг (как предполагалось на основании доклинических исследований и исследований с участием NHP). Снижение уровня TTR в сыворотке, ожидаемый фармакодинамический эффект ALN-TTR01, наблюдалось при 1 мг/кг.

В еще одном варианте осуществления SNALP можно получить путем солюбилизации катионного липида, DSPC, холестерина и конъюгата PEG-липид, например, в этаноле, например, при молярном соотношении 40:10:40:10 соответственно (см. Semple et al., Nature Biotechnology, Volume 28 Number 2 February 2010, pp. 172-177). Смесь липидов добавляли к водному буферу (50 мМ цитрат, pH 4) с перемешиванием до конечной концентрации этанола и липидов 30% (об./об.) и 6,1 мг/мл соответственно, и ей позволяли уравновешиваться при 22°C в течение 2 мин. перед экструзией. Гидрированные липиды экструдировали через два установленных один над другим фильтра с размером пор 80 нм (Nuclepore) при 22°C с помощью экструдера Lipex (Northern Lipids) до достижения диаметра везикул 70-90 нм, определяемого посредством анализа по методу динамического рассеяния света. Для этого обычно требовалось 1-3 прохождения. Добавляли siRNA (солюбилизированную в водном растворе, содержащем 30% этанол, с 50 мМ цитратом, pH 4) к предварительно уравновешенным (35°C) везикулам со скоростью ~5 мл/мин. при перемешивании. После достижения конечного целевого соотношения siRNA/липиды 0,06 (вес/вес) смесь инкубировали в течение дополнительных 30 мин. при 35°C для обеспечения реорганизации везикул и инкапсулирования siRNA. Этанол затем удаляли, а внешний буфер заменяли на PBS (155 мМ NaCl, 3 мМ Na₂HPO₄, 1 мМ KH₂PO₄, pH 7,5) путем диализа либо тангенциальной поточной диафильтрации. В SNALP инкапсулировали siRNA посредством регулируемого способа по методу ступенчатого разведения. Липидные составляющие KC2-SNALP представляли собой DLin-KC2-DMA (катионный липид), дипальмитоилфосфатидилхолин (DPPC; Avanti Polar Lipids), синтетический холестерин (Sigma) и PEG-C-DMA, используемые в молярном соотношении 57,1:7,1:34,3:1,4. После образования нагруженных частиц SNALP подвергали диализу против PBS и стерилизации путем фильтрации через фильтр с диаметром пор 0,2 мкм перед применением. Средние значения размера частиц составляли 75-85 нм, и 90-95% siRNA были инкапсулированы в липидных частицах. Конечное соотношение siRNA/липиды в составах, используемых для тестирования in vivo, составляло ~0,15 (вес/вес). Системы LNP-siRNA, содержащие siRNA для фактора VII, разбавляли до соответствующих концентраций в стерильном PBS непосредственно перед применением, и составы вводили внутривенно через латеральную хвостовую вену в общем объеме 10 мл/кг. Данный способ и данные системы доставки можно экстраполировать на систему CRISPR-Cas по настоящему изобретению.

Другие липиды

Другие катионные липиды, такие как аминолипид 2,2-дилинолеил-4-диметиламиноэтил-[1,3]-диоксолан (DLin-KC2-DMA), можно использовать для инкапсулирования CRISPR-Cas, или ее компонентов, или кодирующих их молекул нуклеиновых кислот, аналогично siRNA (см., например, Jayaraman, Angew. Chem. Int. Ed. 2012, 51, 8529-8533), и, следовательно, можно применять в практическом осуществлении настоящего изобретения. Может быть предусмотрена предварительно сформированная везикула со следующим составом липидов: аминолипид, дистеароилфосфатидилхолин (DSPC), холестерин и (R)-2,3-бис(октадецилокси)пропил-1-(метоксиполи(этиленгликоль)2000)пропилкарбамат (конъюгат PEG-липид) в молярном соотношении 40/10/40/10 соответственно и с соотношением siRNA для FVII/общее количество липидов, составляющим примерно 0,05 (вес./вес.). Для обеспечения узкого распределения частиц по размеру в диапазоне 70-90 нм и низкого коэффициента полидисперсности 0,11+0,04 (n = 56) частицы можно экструдировать до трех раз через мембраны с диаметром пор 80 нм перед добавлением направляющей РНК. Можно использовать частицы, содержащие высокоактивный аминолипид 16, в которых молярное соотношение четырех липидных компонентов 16, DSPC, холестерина и конъюгата PEG-липид (50/10/38,5/1,5) можно дополнительно оптимизировать для повышения активности in vivo.

Michael S D Kormann et al. ("Expression of therapeutic proteins after delivery of chemically modified mRNA in mice: Nature Biotechnology, Volume:29, Pages: 154-157 (2011)) описывают применение липидных оболочек для доставки РНК. Применение липидных оболочек также является предпочтительным в настоящем изобретении.

В другом варианте осуществления липиды можно составлять с системой CRISPR-Cas по настоящему изобретению или ее компонентом(компонентами) или кодирующей(кодирующими) их молекулой(молекулами) нуклеиновой кислоты с образованием липидных наночастиц (LNP). Липиды включают без ограничения DLin-KC2-DMA4, C12-200 и совместно действующие липиды дистеароилфосфатидилхолин, холестерин и PEG-DMG, которые можно составлять с CRISPR-Cas вместо siRNA (см., например, Novobrantseva, Molecular Therapy-Nucleic Acids (2012) 1, e4; doi:10.1038/mtna.2011.3) с помощью процедуры самопроизвольного образования везикул. Молярное соотношение компонентов может составлять приблизительно 50/10/38,5/1,5 (DLin-KC2-DMA или C12-200/дистеароилфосфатидилхолин/холестерин/PEG-DMG). Конечное весовое соотношение липиды:siRNA может составлять ~12:1 и 9:1 в случае липидных наночастиц (LNP) на основе DLin-KC2-DMA и C12-200 соответственно. Составы могут характеризоваться средними диаметрами частиц ~80 нм при >90% эффективности включения. Может быть предусмотрена доза 3 мг/кг.

Tekmira имеет портфель из примерно 95 семейств патентов-аналогов, выданных в США и за границей, которые направлены на различные аспекты LNP и составы на основе LNP (см., например, патенты США №№ 7982027; 7799565; 8058069; 8283333; 7901708; 7745651; 7803397; 8101741; 8188263; 7915399; 8236943 и 7838658 и европейские патенты №№ 1766035; 1519714; 1781593 и 1664316), все из которых можно применять в настоящем изобретении и/или адаптировать к нему.

Систему CRISPR-Cas, или ее компоненты, или кодирующие их молекулы нуклеиновой кислоты можно доставлять инкапсулированными в микросферах на основе PLGA, таких как дополнительно описанные в опубликованных заявках на патенты США 20130252281, и 20130245107, и 20130244279 (закрепленных за Moderna Therapeutics), которые относятся к аспектам составления композиций, содержащих модифицированные молекулы нуклеиновых кислот, которые могут кодировать белок, предшественник белка или частично или полностью процессированную форму белка или предшественника белка. Состав может характеризоваться молярным соотношением 50:10:38,5:1,5-3,0 (катионный липид:фузогенный липид:холестерин:конъюгат PEG-липид). Конъюгат PEG-липид может быть выбран без ограничения из PEG-C-DOMG, PEG-DMG. Фузогенный липид может представлять собой DSPC. См. также Schrum et al., Delivery and Formulation of Engineered Nucleic Acids, опубликованную заявку на патент США 20120251618.

Технология Nanomerics преодолевает проблемы, связанные с биологической доступностью, для широкого спектра терапевтических средств, в том числе низкомолекулярных гидрофобных лекарственных средств, пептидов и терапевтических средств на основе нуклеиновых кислот (плазмид, siRNA, miRNA). Конкретные пути введения, для которых технология продемонстрировала очевидные преимущества, включают пероральный путь, перенос через гематоэнцефалический барьер, доставку в солидные опухоли, а также в глаз. См., например, Mazza et al., 2013, ACS Nano. 2013 Feb 26;7(2):1016-26; Uchegbu and Siew, 2013, J Pharm Sci. 102(2):305-10 и Lalatsa et al., 2012, J Control Release. 2012 Jul 20; 161(2):523-36.

В публикации заявки на патент США № 20050019923 описаны катионные дендримеры для доставки биологически активных молекул, таких как молекулы полинуклеотидов, пептиды и полипептиды и/или фармацевтические средства, в организм млекопитающего. Дендримеры подходят для обеспечения нацеленной доставки биологически активных молекул, например, в печень, селезенку, легкое, почку или сердце (или даже головной мозг). Дендримеры являются синтетическими 3-мерными макромолекулами, получаемыми ступенчатым способом из простых разветвленных мономерных звеньев, природу и количество функциональных групп которых можно легко регулировать и изменять. Дендримеры синтезируют путем повторяющегося присоединения "строительных блоков" в направлении от сердцевины с несколькими функциональными группами (дивергентный подход к синтезу) или к сердцевине с несколькими функциональными группами (конвергентный подход к синтезу), и каждое присоединение 3-мерной оболочки из "строительных блоков" приводит к образованию дендримеров более высокой генерации. Синтез полипропилениминовых дендримеров начинается с диаминобутановой сердцевины, к которой присоединяют удвоенное количество аминогрупп посредством двойного присоединения по Михаэлю ацетонитрила к первичным аминогруппам с последующим гидрированием нитрильных групп. Это обуславливает удвоение количества аминогрупп. Полипропилениминовые дендримеры содержат 100% протонируемых атомов азота и до 64 концевых аминогрупп (генерация 5, DAB 64). Протонируемые группы обычно представляют собой аминогруппы, способные принимать протоны при нейтральном pH. Применение дендримеров в качестве средств для доставки генов в основном ориентировано на использование полиамидоамина и фосфорсодержащих соединений со смесью из амина/амида или N--P(O₂)S в качестве конъюгирующих единиц соответственно, при этом в работах не сообщалось о применении полипропилениминовых дендримеров низкой генерации для доставки генов. Полипропилениминовые дендримеры также изучали в качестве pH-чувствительных систем с контролируемым высвобождением для доставки лекарственных средств и для инкапсулирования в них "гостевых" молекул в случае химической модификации периферических аминокислотных групп. Также изучали цитотоксичность и взаимодействие полипропилениминовых дендримеров с ДНК, а также эффективность трансфекции с помощью DAB 64.

Публикация заявки на патент США № 20050019923 основана на наблюдении того, что в противоположность более ранним сообщениям, катионные дендримеры, такие как полипропилениминовые дендримеры, проявляют подходящие свойства, такие как специфичное нацеливание и низкая токсичность, для применения в целенаправленной доставке биологически активных молекул, таких как генетический материал. В дополнение, производные катионного дендримера также проявляют подходящие свойства для нацеленной доставки биологически активных молекул. См. также "Биологически активные полимеры", публикация заявки на патент США 20080267903, в которой раскрыто следующее: "Показано, что различные полимеры, в том числе катионные полиаминные полимеры и дендримерные полимеры, обладают антипролиферативной активностью и могут, таким образом, быть применимыми для лечения нарушений, характеризующихся нежелательной пролиферацией клеток, таких как неоплазии и опухоли, воспалительные нарушения (в том числе аутоиммунные нарушения), псориаз и атеросклероз. Полимеры можно применять в отдельности в качестве активных средств или в качестве средств доставки других терапевтических средств, таких как молекулы лекарственных средств или нуклеиновые кислоты, для генной терапии. В таких случаях присущая полимерам собственная противоопухолевая активность может дополнять активность средства, подлежащего доставке. Раскрытия данных патентных публикаций можно использовать совместно с идеями данного документа для доставки системы(систем) CRISPR Cas, или ее компонента(компонентов), или кодирующей(кодирующих) их молекулы(молекул) нуклеиновой кислоты(нуклеиновых кислот).

Белки с избыточным зарядом

Белки с избыточным зарядом представляют собой класс сконструированных или встречающихся в природе белков, которые обычно имеют высокий положительный или отрицательный суммарный теоретический заряд, и их можно использовать в доставке системы(систем) CRISPR Cas, или ее компонента(компонентов), или кодирующей(кодирующих) их молекулы(молекул) нуклеиновой кислоты(нуклеиновых кислот). Белки как с избыточным отрицательным, так и с избыточным положительным зарядом проявляют особое свойство устойчивости к термически или химически индуцированной агрегации. Белки с избыточным положительным зарядом также способны проникать в клетки млекопитающих. Ассоциация молекул-карго, таких как плазмидная ДНК, РНК, с этими белками или другими белками может обеспечивать функциональную доставку данных макромолекул в клетки млекопитающих как in vitro, так и in vivo. В 2007 г. в лаборатории Дэвида Лю сообщили о создании и определении характеристик белков с избыточным зарядом (Lawrence et al., 2007, Journal of the American Chemical Society 129, 10110-10112).

Невирусная доставка РНК и плазмидной ДНК в клетки млекопитающих является значимой как в исследованиях, так и в терапевтических применениях (Akinc et al., 2010, Nat. Biotech. 26, 561-569). Очищенный белок GFP с зарядом +36 (или другой белок с избыточным положительным зарядом) смешивают с РНК в подходящей бессывороточной среде и обеспечивают возможность образования ими комплекса перед добавлением к клеткам. Включение сыворотки на этой стадии ингибирует образование комплексов белок с избыточным зарядом-РНК и снижает эффективность обработки. Следующий протокол был найден эффективным для ряда линий клеток (McNaughton et al., 2009, Proc. Natl. Acad. Sci. USA 106, 6111-6116) (однако, следовало выполнить пилотные эксперименты с варьирующей дозой белка и РНК для оптимизации процедуры для конкретных линий клеток).

(1) За один день до обработки высеять 1 x 10⁵ клеток на лунку в 48-луночный планшет.

(2) В день обработки развести очищенный белок GFP с зарядом +36 в бессывороточной среде до конечной концентрации 200 нМ. Добавить РНК до конечной концентрации 50 нМ. Перемешать в вихревой мешалке и инкубировать при комнатной температуре в течение 10 мин.

(3) Во время инкубирования аспирировать среду от клеток и промыть один раз с помощью PBS.

(4) После инкубирования GFP с зарядом +36 и РНК добавить к клеткам комплексы белок-РНК.

(5) Инкубировать клетки с комплексами при 37°C в течение 4 ч.

(6) После инкубирования аспирировать среду и промыть три раза с помощью 20 ед./мл гепарина в PBS. Инкубировать клетки в сывороточной среде в течение дополнительных 48 ч. или дольше в зависимости от анализа активности.

(7) Анализировать клетки с помощью иммуноблоттинга, qPCR, фенотипического анализа или другого соответствующего способа.

В лаборатории Дэвида Лю дополнительно обнаружили, что GFP с зарядом +36 является эффективным реагентом для доставки плазмид в ряд клеток. Поскольку плазмидная ДНК является более крупной молекулой-карго, чем siRNA, то для образования эффективного комплекса с плазмидами требуется пропорционально больше белка GFP с зарядом +36. Для эффективной доставки плазмид заявители разработали вариант GFP с зарядом +36, несущий C-концевую пептидную метку HA2, известный пептид, разрушающий эндосомы, происходящий из белка гемагглютинина вируса гриппа. Следующий протокол был эффективным для многих клеток, но, как изложено выше, рекомендуется, чтобы дозы плазмидной ДНК и белка с избыточным зарядом были оптимизированы для конкретных линий клеток и путей применения в доставке.

(1) За один день до обработки высеять 1 x 10⁵ клеток на лунку в 48-луночный планшет. (2) В день

обработки разбавить очищенный белок GFP с зарядом þ36 в бессывороточной среде до конечной концентрации 2 мМ. Добавить 1 мг плазмидной ДНК. Перемешать в вихревой мешалке и инкубировать при комнатной температуре в течение 10 мин.

(3) Во время инкубирования аспирировать среду от клеток и промыть один раз с помощью PBS.

(4) После инкубирования GFP с зарядом þ36 и плазмидной ДНК осторожно добавить к клеткам комплексы белок-ДНК.

(5) Инкубировать клетки с комплексами при 37°C в течение 4 ч.

(6) После инкубирования аспирировать среду и промыть с помощью PBS. Инкубировать клетки в сывороточной среде и инкубировать в течение дополнительных 24-48 ч.

(7) При необходимости проанализировать доставку плазмид (например, посредством экспрессии генов, обусловленной плазмидами).

Cм., например, McNaughton et al., Proc. Natl. Acad. Sci. USA 106, 6111-6116 (2009); Cronican et al., ACS Chemical Biology 5, 747-752 (2010); Cronican et al., Chemistry & Biology 18, 833-838 (2011); Thompson et al., Methods in Enzymology 503, 293-319 (2012); Thompson, D.B., et al., Chemistry & Biology 19 (7), 831-843 (2012). Способы применения белков с избыточным зарядом можно применять для доставки системы CRISPR-Cas по настоящему изобретению и/или приспосабливать к ней. Эти системы согласно Доктору Лю и приведенные в данном документе публикации в связи с идеями данного документа можно использовать в доставке системы(систем) CRISPR Cas, или ее компонента(компонентов), или кодирующей(кодирующих) их молекулы(молекул) нуклеиновой кислоты(нуклеиновых кислот).

Пептиды, приникающие в клетку (CPP)

В еще одном варианте осуществления предусмотрены пептиды, проникающие в клетку (CPP), для доставки системы CRISPR-Cas. CPP представляют собой короткие пептиды, способствующие поглощению клетками различных молекул-карго (от наноразмерных частиц до малых химических молекул и крупных фрагментов ДНК). Термин “молекула-карго”, используемый в данном документе, включает без ограничения группу, состоящую из терапевтических средств, диагностических зондов, пептидов, нуклеиновых кислот, антисмысловых олигонуклеотидов, плазмид, белков, частиц, в том числе наночастиц, липосом, хромофоров, малых молекул и радиоактивных материалов. В аспектах настоящего изобретения молекула-карго может также содержать любой компонент системы CRISPR-Cas или всю функциональную систему CRISPR-Cas. В аспектах настоящего изобретения дополнительно представлены способы доставки желаемой молекулы-карго субъекту, включающие: (a) получение комплекса, содержащего пептид, проникающий в клетку, по настоящему изобретению и требуемую молекулу-карго, и (b) пероральное, внутрисуставное, внутрибрюшинное, интратекальное, внутриартериальное, интраназальное, интрапаренхиматозное, подкожное, внутримышечное, внутривенное, накожное, ректальное или местное введение комплекса субъекту. Молекула-карго связана с пептидами химической связью посредством ковалентных связей либо посредством нековалентных взаимодействий.

Функцией CPP является доставка молекулы-карго в клетки, при этом процесс, который обычно происходит посредством эндоцитоза, приводит к доставке молекулы-карго в эндосомы живых клеток млекопитающих. Пептиды, проникающие в клетку, имеют разные размер, аминокислотные последовательности и заряды, но все CPP имеют одну отличительную характеристику, которая представляет собой способность к перемещению через плазматическую мембрану и содействию доставке различных молекул-карго в цитоплазму или органеллу. Перемещение CPP можно подразделить на три основных механизма поступления: прямое прохождение через мембрану, поступление, опосредованное эндоцитозом, и перемещение посредством образования промежуточной структуры. CPP нашли многочисленные применения в медицине в качестве средств для доставки лекарственных средств при лечении различных заболеваний, в том числе рака, и ингибиторов вирусов, а также контрастных веществ для мечения клеток. Примеры последних включают действие в качестве носителя GFP, контрастных веществ для MRI или квантовых точек. CPP обладают большим потенциалом в качестве векторов доставки in vitro и in vivo для применения в научно-исследовательской работе и медицине. CPP обычно имеют такой аминокислотный состав, при котором они характеризуются высокой относительной распространенностью положительно заряженных аминокислот, таких как лизин или аргинин, либо имеют последовательности, характеризующиеся чередующимся расположением полярных/заряженных аминокислот и неполярных гидрофобных аминокислот. Эти два типа структур называются поликатионными или амфипатическими соответственно. Третьим классом CPP являются гидрофобные пептиды, содержащие только неполярные остатки с низким суммарным зарядом или имеющие гидрофобные группы аминокислот, крайне важные для поглощения клетками. Одним из первых обнаруженных CPP был трансактивирующий активатор транскрипции (Tat) вируса иммунодефицита человека 1 (HIV-1), который, как было выявлено, эффективно поглощался из окружающей среды многочисленными типами клеток в культуре. С тех пор количество известных CPP значительно увеличилось, и были созданы низкомолекулярные синтетические аналоги с более эффективными свойствами белковой трансдукции. CPP включают без ограничения пенетратин, Tat (48-60), транспортан и (R-AhX-R4) (Ahx = аминогексаноил).

В патенте США 8372951 представлен CPP, полученный из катионного белка эозинофилов (ECP), проявляющий высокую эффективность проникновения в клетку и низкую токсичность. Также представлены аспекты доставки CPP со своей молекулой-карго позвоночному субъекту. Дополнительные аспекты, касающиеся CPP и их доставки, описаны в патентах США 8575305; 8614194 и 8044019. CPP можно применять для доставки системы CRISPR-Cas или ее компонентов. Эти CPP можно использовать для доставки системы CRISPR-Cas или ее компонентов, что также представлено в рукописи “Gene disruption by cell-penetrating peptide-mediated delivery of Cas9 protein and guide RNA” Suresh Ramakrishna, Abu-Bonsrah Kwaku Dad, Jagadish Beloor, et al. Genome Res. 2014 Apr 2. [Электронная публикация, предшествующая печатной], включенной посредством ссылки во всей своей полноте, где продемонстрировано, что обработка с помощью рекомбинантного белка Cas9 конъюгированного с CPP, и направляющих РНК, образующих комплекс с CPP, приводит к нарушениям функционирования эндогенных генов в линиях клеток человека. В данной статье белок Cas9 был конъюгирован с CPP с помощью тиоэфирной связи, тогда как направляющая РНК образовывала комплекс с CPP с образованием конденсированных положительно заряженных частиц. Было показано, что одновременная и последовательная обработка клеток человека, в том числе эмбриональных стволовых клеток, дермальных фибробластов, клеток HEK293T, клеток HeLa и клеток эмбриональной карциномы, модифицированным Cas9 и направляющей РНК приводила к эффективным нарушениям функционирования генов со снижением частоты нецелевых мутаций по сравнению с трансфекциями плазмидами.

Имплантируемые устройства

В другом варианте осуществления также предполагаются имплантируемые устройства для доставки системы CRISPR Cas, или ее компонента(компонентов), или кодирующей(кодирующих) их молекулы(молекул) нуклеиновой кислоты(нуклеиновых кислот). Например, в публикации заявки на патент США 20110195123 раскрыто имплантируемое медицинское устройство, высвобождающее лекарственное средство локально и в течение длительного периода, в том числе несколько типов такого устройства, реализуемые способы лечения и способы имплантации. Устройство содержит полимерный субстрат, такой как матрица, например, применяемый в качестве корпуса устройства, и лекарственные средства, и в некоторых случаях дополнительные трехмерные подложки-носители, такие как металлы или дополнительные полимеры, и материалы для улучшения видимости и визуализации. Имплантируемое устройство для доставки может быть преимущественным в обеспечении высвобождения локально и в течение длительного периода, где лекарственное средство высвобождается непосредственно во внеклеточный матрикс (ECM) пораженного заболеванием участка, как, например, в случае опухоли, воспаления, дегенерации, или в целях симптоматической терапии, или в пораженные гладкомышечные клетки, или для предупреждения. Одной разновидностью лекарственного средства является РНК, что раскрыто выше, и данную систему можно применять для системы CRISPR-Cas по настоящему изобретению и/или адаптировать к ней. Способы имплантации в некоторых вариантах осуществления представляют собой существующие процедуры имплантации, разработанные и применяемые в настоящее время для других видов лечения, в том числе для брахитерапии и пункционной биопсии. В таких случаях размеры нового имплантата, описанного в настоящем изобретении, аналогичны размерам первоначального имплантата. Как правило, в ходе одной процедуры лечения имплантируют несколько устройств.

В публикации заявки на патент США 20110195123 предусмотрена имплантируемая или вставная система доставки лекарственных средств, в том числе системы, применимые для введения в полость, такую как брюшная полость, и/или для любого другого типа введения, в которой система доставки лекарственных средств не закреплена и не присоединена, содержащая биоустойчивый, и/или разлагаемый, и/или биопоглощаемый полимерный субстрат, который может, например, необязательно представлять собой матрицу. Следует отметить, что термин "вставка" также включает имплантацию. Система доставки лекарственных средств преимущественно реализуется как "Loder", описанная в публикации заявки на патент США 20110195123.

Полимер или множество полимеров, содержащие средство и/или множество средств, являются биосовместимыми, обеспечивая высвобождение средства с контролируемой скоростью, где общий объем полимерного субстрата, такого как матрица, например, в некоторых вариантах осуществления необязательно и предпочтительно не превосходит максимальный объем, позволяющий достигнуть терапевтического уровня средства. В качестве неограничивающего примера, такой объем предпочтительно находится в диапазоне от 0,1 м³ до 1000 мм³, как того требует объем загруженного средства. Loder необязательно может иметь больший размер, например, будучи включенным в состав устройства, размер которого определяется функциональным назначением, например, без ограничения коленного сустава, внутриматочного или шеечного кольца и т.п.

Система доставки лекарственных средств (для доставки композиции) в некоторых вариантах осуществления предназначена для предпочтительного использования разлагаемых полимеров, где основным механизмом высвобождения является объемная эрозия; или же в некоторых вариантах осуществления применяются неразлагаемые или медленно разлагаемые полимеры, где основным механизмом высвобождения является диффузия, а не объемная эрозия, так что их наружная часть функционирует в качестве мембраны, а их внутренняя часть функционирует в качестве депо лекарственного средства, которое практически не подвергается воздействию окружения в течение продолжительного периода (например, от приблизительно недели до приблизительно нескольких месяцев). Также можно необязательно применять комбинации различных полимеров с различными механизмами высвобождения. Градиент концентраций на поверхности предпочтительно эффективно поддерживается постоянным в течение значительного периода в ходе общего периода высвобождения лекарственного средства, и, таким образом, скорость диффузии (называемой "диффузией нулевого порядка") является эффективно постоянной. Под выражением "постоянный" подразумевают скорость диффузии, которая предпочтительно поддерживается выше нижнего порога терапевтической эффективности, но которая, тем не менее, может необязательно характеризоваться начальным всплеском и/или колебаться, например, повышаясь и понижаясь в некоторой степени. Скорость диффузии предпочтительно поддерживается таким образом в течение длительного периода, и до определенного уровня она может считаться постоянной для оптимизации терапевтически эффективного периода, например, эффективного периода сайленсинга.

Система доставки лекарственных средств необязательно и предпочтительно предназначена для защиты нуклеотидного терапевтического средства от разрушения, химического по своей природе или обусловленного воздействием ферментов и других факторов в организме субъекта.

Система доставки лекарственных средств из публикации заявки на патент США № 20110195123 необязательно связана с чувствительными и/или активирующими приборами, функционирующими во время и/или после имплантации устройства посредством неинвазивных и/или минимально инвазивных способов активации и/или ускорения/замедления, например, необязательно в том числе без ограничения способов или устройств с применением термического нагревания и охлаждения, лазерных пучков и ультразвука, в том числе фокусированного ультразвука, и/или RF (радиочастот).

Согласно некоторым вариантам осуществления публикации заявки на патент США № 20110195123 участок для локальной доставки может необязательно включать целевые участки, характеризующиеся высокой аномальной пролиферацией клеток и подавлением апоптоза, в том числе опухоли, очаги активного и/или хронического воспаления и инфекции, включающих аутоиммунные болезненные состояния, ткань с дегенеративными изменениями, включающую мышечную и нервную ткань, очаги хронической боли, участки с дегенеративными изменениями, и местоположения переломов костей, и другие местоположения ран, для усиления регенерации ткани, а также поврежденные сердечные, гладкие и поперечно-полосатые мышцы.

Участок для имплантации композиции или целевой участок предпочтительно характеризуется радиусом, площадью и/или объемом, достаточно малыми для целенаправленной локальной доставки. Например, целевой участок необязательно имеет диаметр в диапазоне от приблизительно 0,1 мм до приблизительно 5 см.

Местоположение целевого участка предпочтительно выбирают для достижения максимальной терапевтической эффективности. Например, композицию системы доставки лекарственных средств (необязательно вместе с устройством для имплантации, описанным выше) необязательно и предпочтительно имплантируют в опухолевое окружение, или рядом с ним, или в кровеносную сеть, связанную с ним.

Например, композицию (необязательно вместе с устройством) необязательно имплантируют в поджелудочную железу, предстательную железу, молочную железу, печень или рядом с ними, через сосок, в сосудистую систему и т. д.

Целевое местоположение необязательно выбирают из группы, содержащей, состоящей фактически из или состоящей из (только в качестве неограничивающих примеров, поскольку любой участок в организме необязательно может подходить для имплантации Loder): 1. участков головного мозга, таких как базальные ганглии, белое и серое вещество, с дегенеративными изменениями подобными таковым при болезни Паркинсона или Альцгеймера; 2. спинного мозга, как в случае бокового амиотрофического склероза (ALS); 3. шейки матки для предупреждения инфекции, обусловленной HPV; 4. суставов с активным и хроническим воспалением; 5. дермы, как в случае псориаза; 6. участков симпатических и чувствительных нервов для обезболивающего эффекта; 7. участков внутрикостной имплантации; 8. участков острой и хронической инфекции; 9. интравагинальных участков; 10. внутреннего уха слуховой системы, лабиринта внутреннего уха, вестибулярной системы; 11. внутритрахеальных участков; 12. внутрисердечных участков; участков коронарных сосудов, эпикардиальных участков; 13. мочевого пузыря; 14. желчевыделительной системы; 15. участков паренхимной ткани, в том числе без ограничения почки, печени, селезенки; 16. лимфатических узлов; 17. слюнных желез; 18. участков десен вокруг зубов; 19. внутрисуставных участков (имплантация в суставы); 20. внутриглазных участков; 21. ткани головного мозга; 22. желудочков головного мозга; 23. полостей, в том числе брюшной полости (например, без ограничения для лечения рака яичника); 24. внутрипищеводных участков и 25. внутрипрямокишечных участков.

Вставка системы (например, устройства, содержащего композицию) необязательно связана с инъекцией материала в ECM в целевом участке и окруженности этого участка для воздействия на локальные pH, и/или температуру, и/или другие биологические факторы, влияющие на диффузию лекарственного средства и/или кинетику лекарственного средства в ECM целевого участка и окруженности такого участка.

Согласно некоторым вариантам осуществления высвобождение указанного средства необязательно может быть связано с чувствительными и/или активирующими приборами, функционирующими до, и/или во время, и/или после вставки посредством неинвазивных, и/или минимально инвазивных, и/или других способов активации и/или ускорения/замедления, включающих способы или устройства с применением лазерных пучков, ионизирующего излучения, термического нагревания и охлаждения, и ультразвука, в том числе фокусированного ультразвука, и/или RF (радиочастот), а также химических активаторов.

Согласно другим вариантам осуществления в публикации заявки на патент США № 20110195123 лекарственное средство предпочтительно содержит РНК, например, для лечения случаев локализованного рака молочной железы, поджелудочной железы, головного мозга, почки, мочевого пузыря, легкого и предстательной железы, описанных ниже. Несмотря на то, что примеры были приведены с RNAi, многие применимые лекарственные средства подлежат инкапсуляции в Loder, и их можно применять в контексте настоящего изобретения, при условии, что такие лекарственные средства можно инкапсулировать в субстрате Loder, таком как, например, матрица, и данную систему можно использовать и/или приспособить для доставки системы CRISPR Cas по настоящему изобретению.

В качестве другого примера конкретного применения, дегенеративные заболевания нервной системы и мышц развиваются в связи с аномальной экспрессией генов. Локальная доставка РНК может иметь терапевтические свойства, препятствующие такой аномальной экспрессии генов. Локальная доставка антиапоптотических, противовоспалительных и антидегенеративных лекарственных средств, в том числе низкомолекулярных лекарственных средств и макромолекул, может также необязательно быть терапевтической. В таких случаях Loder применяют для пролонгированного высвобождения при постоянной скорости и/или посредством выделенного устройства, которое имплантируют отдельно. Все из этого можно применять для системы CRISPR-Cas по настоящему изобретению и/или приспосабливать к ней.

В качестве еще одного примера конкретного применения, психические и когнитивные нарушения лечат с помощью модификаторов генов. Нокдаун гена является возможным методом лечения. Применение Loder для локальной доставки средств в участки центральной нервной системы является возможным методом терапии психических и когнитивных нарушений, в том числе без ограничения психоза, биполярных расстройств, невротических расстройств и расстройств поведения. Loder могут также обеспечивать локальную доставку лекарственных средств, в том числе низкомолекулярных лекарственных средств и макромолекул, при имплантации в конкретные участки головного мозга. Все из этого можно применять для системы CRISPR-Cas по настоящему изобретению и/или приспосабливать к ней.

В качестве другого примера конкретного применения сайленсинг генов медиаторов врожденного и/или приобретенного иммунного ответа в локальных участках обеспечивает предупреждение отторжения трансплантированного органа. Локальная доставка РНК и иммуномодулирующих реагентов с помощью Loder, имплантированного в трансплантированный орган и/или участок имплантации, активирует подавление местного иммунитета в отношении трансплантированного органа путем отвлечения иммунных клеток, таких как CD8. Все из этого можно применять для системы CRISPR-Cas по настоящему изобретению и/или адаптировать к ней.

В качестве другого примера конкретного применения факторы роста сосудов, в том числе VEGF, и ангиогенин, и другие, являются существенно важными для неоваскуляризации. Локальная доставка факторов, пептидов, пептидомиметиков или подавление их репрессоров является важным терапевтическим воздействием; сайленсинг репрессоров и локальная доставка факторов, пептидов, макромолекул и низкомолекулярных лекарственных средств, стимулирующих ангиогенез, с помощью Loder являются терапевтическими мерами в отношении заболевания периферических сосудов, системного заболевания сосудов и заболевания сосудов сердца.

Способ вставки, такой как имплантация, необязательно можно еще применять для других типов имплантации в ткань, и/или для вставок, и/или для отбора образцов тканей необязательно без модификаций или, в альтернативном случае, необязательно лишь с незначительными модификациями таких способов. Такие способы необязательно включают без ограничения способы брахитерапии, биопсию, эндоскопию с применением ультразвуковых технологий и/или без них, такую как ERCP, стереотаксические способы в отношении тканей головного мозга, лапароскопию, в том числе имплантацию с помощью лапароскопа в суставы, органы брюшной полости, стенку мочевого пузыря и полости тела.

Технологию имплантируемого устройства, описанную в данном документе, можно применять с руководствами в данном документе и, таким образом, с помощью данного раскрытия и знаний в данной области систему CRISPR-Cas, или ее компоненты, или ее молекулы нуклеиновой кислоты, или кодируемые или обеспечиваемые компоненты можно доставлять посредством имплантируемого устройства.

Способы персонифицированного скрининга пациентов

Систему нацеливания на нуклеиновую кислоту, которая целенаправленно воздействуют на ДНК, например, на тринуклеотидные повторы, можно применять для проведения скрининга пациентов или образцов пациентов на присутствие таких повторов. Повторы могут представлять собой мишень для РНК системы нацеливания на нуклеиновую кислоту, и если происходит их связывание с системой нацеливания на нуклеиновую кислоту, то связывание можно выявить, что указывает тем самым на присутствие такого повтора. Таким образом, систему нацеливания на нуклеиновую кислоту можно применять для скрининга пациентов или образцов пациентов на присутствие повторов. Пациенту затем можно вводить подходящее соединение(подходящие соединения), направленное(направленные) на состояние; или можно вводить систему нацеливания на нуклеиновую кислоту для связывания с нуклеотидом и осуществления вставки, делеции или мутации и облегчения тяжести состояния.

В настоящем изобретении нуклеиновые кислоты используются для связывания целевых последовательностей ДНК.

мРНК и направляющая РНК эффекторного белка CRISPR

Направляющую РНК и мРНК фермента CRISPR можно также доставлять по отдельности. мРНК фермента CRISPR можно доставлять перед направляющей РНК, чтобы предоставить время для экспрессии фермента CRISPR. За 1-12 часов (предпочтительно за около 2-6 часов) до введения направляющей РНК можно вводить мРНК фермента CRISPR.

Альтернативно мРНК фермента CRISPR и направляющую РНК можно вводить совместно. Вторую бустерную дозу направляющей РНК можно преимущественно вводить через 1-12 часов (предпочтительно примерно через 2-6 часов) после первого введения мРНК фермента CRISPR + направляющей РНК.

Эффекторный белок CRISPR по настоящему изобретению, т. е. эффекторный белок Cpf1 иногда обозначается в данном документе как фермент CRISPR. Будет ясно, что эффекторный белок основан на ферменте или получен из него, поэтому термин "эффекторный белок" определенно включает "фермент" в некоторых вариантах осуществления. Однако будет ясно, что эффекторный белок, как требуется в некоторых вариантах осуществления, может характеризоваться связыванием с ДНК или РНК, но необязательно разрезанием или никированием, в том числе функцией неработающего эффекторного белка Cas.

Введение дополнительных доз мРНК фермента CRISPR и/или направляющей РНК может быть полезным для достижения наиболее эффективных уровней модификации генома. В некоторых вариантах осуществления фенотипическое изменение предпочтительно является результатом модификации генома при осуществлении нацеливания на генетическое заболевание, особенно в способах терапии, и предпочтительно, если обеспечивается матрица для репарации для коррекции или изменения фенотипа.

В некоторых вариантах осуществления заболевания, на которые можно осуществлять нацеливание, включают заболевания, которые обусловлены патогенными дефектами сплайсинга.

В некоторых вариантах осуществления клеточные цели включают в себя гемопоэтические стволовые клетки/клетки-предшественники (CD34+); человеческие T-клетки и клетки глаза (клетки сетчатки), например, фоторецепторные клетки-предшественники.

В некоторых вариантах осуществления гены-мишени включают: ген бета-глобина человека - HBB (для лечения серповидноклеточной анемии, в том числе путем стимуляции конверсии генов (с использованием близкородственного гена HBD в качестве эндогенной матрицы)); CD3 (T-клетки) и CEP920 - сетчатка (глаза).

В некоторых вариантах осуществления заболевания-мишени также включают: рак; серповидноклеточную анемию (обусловленную точечной мутацией); HIV; бета-талассемию; а также офтальмологическое или глазное заболевание, например, врожденный амавроз Лебера (LCA), вызванный дефектом сплайсинга.

В некоторых вариантах осуществления способы доставки включают опосредованную катионным липидом "прямую" доставку комплекса фермент-направляющая (рибонуклеопротеин) и электропорацию плазмидной ДНК.

Способы по настоящему изобретению могут дополнительно предусматривать доставку матриц, таких как матрицы для репарации, которые могут представлять собой dsODN или ssODN, см. ниже. Доставка матриц может осуществляться одновременно или отдельно от доставки какого-либо или всех из фермента CRISPR или направляющей и с помощью одного и того же или различных механизмов доставки. В некоторых вариантах осуществления предпочтительным является то, что матрицу доставляют вместе с направляющей, а также предпочтительно с ферментом CRISPR. Примером может быть вектор на основе AAV.

Способы по настоящему изобретением могут дополнительно предусматривать: (a) доставку в клетку двухнитевого олигодезоксинуклеотида (dsODN), содержащего "липкие" концы, комплементарные "липким" концам, создаваемым с помощью указанного двухнитевого разрыва, где указанный dsODN интегрируется в представляющий интерес локус; или (b) доставку в клетку однонитевого олигодезоксинуклеотида (ssODN), где указанный ssODN действует как матрица репарации с помощью гомологичной рекомбинации указанного двухнитевого разрыва. Способы по настоящему изобретению можно применять для предупреждения или лечения заболевания у индивидуума, при этом необязательно указанное заболевание вызвано дефектом в указанном представляющем интерес локусе. Способы по настоящему изобретению можно выполнять in vivo у индивидуума или ex vivo в отношении клетки, извлеченной из индивидуума, где необязательно указанную клетку возвращают в организм индивидуума.

Для сведения к минимуму токсичности и нецелевого эффекта будет важной регуляция концентрации доставляемых мРНК фермента CRISPR и направляющей РНК. Оптимальные концентрации мРНК фермента CRISPR и направляющей РНК можно определить путем тестирования различных концентраций в клеточной или животной модели и применения глубокого секвенирования для анализа степени модификации в возможных нецелевых локусах генома. Например, для направляющей последовательности, нацеливающейся на 5’-GAGTCCGAGCAGAAGAAGAA-3’ (SEQ ID NO: 23) в гене EMX1 генома человека, можно применять глубокое секвенирование для определения уровня модификации в следующих двух нецелевых локусах, 1: 5'-GAGTCCTAGCAGGAGAAGAA-3' (SEQ ID NO: 24) и 2: 5'-GAGTCTAAGCAGAAGAAGAA-3' (SEQ ID NO: 25). Для доставки in vivo следует выбрать концентрацию, дающую наиболее высокий уровень точной целевой модификации при сведении к минимуму уровня нецелевой модификации.

Индуцируемые системы

В некоторых вариантах осуществления фермент CRISPR может образовывать компонент индуцируемой системы. Индуцируемая природа системы будет обеспечивать возможность пространственно-временного контроля редактирования генов или экспрессии генов с использованием определенной формы энергии. Форма энергии может включать, но без ограничения, электромагнитное излучение, звуковую энергию, химическую энергию и тепловую энергию. Примеры индуцируемой системы включают индуцируемые тетрациклином промоторы (Tet-On или Tet-Off), двугибридные системы активации транскрипции с использованием малых молекул (FKBP, ABA и т. д.) или индуцируемые светом системы (фитохром, домены LOV или криптохром). В одном варианте осуществления фермент CRISPR может быть частью индуцируемого светом транскрипционного эффектора (LITE) для управления изменениями транскрипционной активности специфичным к последовательности образом. Компоненты индуцируемой светом системы могут включать фермент CRISPR, чувствительный к свету гетеродимер цитохрома (например, из Arabidopsis thaliana) и домен активации/репрессии транскрипции. Дополнительные примеры индуцируемых ДНК-связывающих белков и способы их применения представлены в US 61/736465 и US 61/721283, а также WO 2014/018423 А2, которые включены в данный документ посредством ссылки во всей полноте.

Самоинактивирующиеся системы

Как только все копии гена в геноме клетки подвергли редактированию, дальнейшая экспрессия CRISRP/Cpf1p в такой клетке более не требуется. В действительности, поддержание экспрессии было бы нежелательным в случае нецелевых эффектов в сайтах генома, не предназначенных для редактирования и т. д. Таким образом, целесообразной была бы ограниченная во времени экспрессия. Индуцируемая экспрессия предоставляет одно решение проблемы, но помимо нее заявители сконструировали самоинактивирующуюся систему CRISPR, которая основана на применении некодирующей направляющей целевой последовательности в самом векторе, несущем CRISPR. Таким образом, после того как экспрессия началась, система CRISPR-Cas будет вызывать собственное разрушение, но перед тем как разрушение завершится, у нее будет достаточно времени для редактирования геномных копий целевого гена (для чего, с точки зрения нормальной точечной мутации в диплоидной клетке, потребуется не более двух редактирований). Вкратце, самоинактивирующаяся система CRISPR-Cas включает в себя дополнительную РНК (т. e. направляющую РНК), которая нацеливает кодирующую последовательность для самого фермента CRISPR или которая нацеливает одну или несколько некодирующих направляющих целевых последовательностей, комплементарных уникальным последовательностям, присутствующим в одной или нескольких из следующих:

(a) в промоторе, управляющем экспрессией элементов некодирующей РНК,

(b) в промоторе, управляющем экспрессией гена эффекторного белка Cpf1,

(c) в последовательности в 100 п. о. инициирующего трансляцию стартового ATG-кодона в кодирующей последовательности эффекторного белка Cpf1,

(d) в инвертированном концевом повторе (iTR) вирусного вектора для доставки, например, в геноме AAV.

Более того, такую РНК можно доставлять посредством вектора, например, отдельного вектора или того же вектора, который кодирует комплекс CRISPR. Когда введение осуществляют с помощью отдельного вектора, то РНК CRISPR, которая целенаправленно воздействует на экспрессию Cas, можно вводить последовательно или одновременно. При последовательном введении РНК CRISPR, которая целенаправленно воздействует на экспрессию Cas, можно доставлять после РНК CRISPR, которая предназначена, например, для редактирования генов или рекомбинации генов. Данный период может быть периодом, исчисляемым в минутах (например, 5 минут, 10 минут, 20 минут, 30 минут, 45 минут, 60 минут). Данный период может быть периодом, исчисляемым в часах (например, 2 часа, 4 часа, 6 часов, 8 часов, 12 часов, 24 часа). Данный период может быть периодом, исчисляемым в днях (например, 2 дня, 3 дня, 4 дня, 7 дней). Данный период может быть периодом, исчисляемым в неделях (например, 2 недели, 3 недели, 4 недели). Данный период может быть периодом, исчисляемым в месяцах (например, 2 месяца, 4 месяца, 8 месяцев, 12 месяцев). Данный период может быть периодом, исчисляемым в годах (например, 2 года, 3 года, 4 года). Таким путем фермент Cas связывается с первой gRNA, способной гибридизироваться с первой мишенью, такой как представляющие интерес локус или локусы генома, и выполняет функцию(функции), требующуюся(требующиеся) для системы CRISPR-Cas (например, рекомбинацию генов); и впоследствии фермент Cas может затем связываться со второй gRNA, способной гибридизироваться с последовательностью, содержащей по меньшей мере часть кассеты Cas или CRISPR. Если направляющая РНК целенаправленно воздействуют на последовательности, кодирующие экспрессию белка Cas, фермент блокируется, а система становится самоинактивирующейся. Аналогичным образом РНК CRISPR, которая целенаправленно воздействует на экспрессию Cas, введенного посредством, например, липосомы, липофекции, частиц, микровезикул, что объясняется в данном документе, можно вводить последовательно или одновременно. Проще говоря, самоинактивацию можно применять для инактивации одной или нескольких направляющих РНК, используемых для нацеливания на одну или несколько мишеней.

В ряде аспектов обеспечивается одиночная gRNA, которая способна гибридизироваться с последовательностью, расположенной ниже стартового кодона фермента CRISPR, при этом после определенного периода времени происходит потеря экспрессии фермента CRISPR. В ряде аспектов обеспечиваются одна или несколько gRNA, которые способны гибридизироваться с одной или несколькими кодирующими или некодирующими участками полинуклеотида, кодирующего систему CRISPR-Cas, при этом после определенного периода времени происходит инактивация одной или нескольких, или в ряде случаев, всех систем CRISPR-Cas. В некоторых аспектах системы и не ограничиваясь теорией клетка может содержать множество комплексов CRISPR-Cas, где первое подмножество комплексов CRISPR содержит первую направляющую РНК, способную целенаправленно воздействовать на подлежащие редактированию локус или локусы генома, а второе подмножество комплексов CRISPR содержит по меньшей мере одну вторую направляющую РНК, способную целенаправленно воздействовать на полинуклеотид, кодирующий систему CRISPR-Cas, где первое подмножество комплексов CRISPR-Cas опосредует редактирование целевых локуса или локусов генома, а второе подмножество комплексов CRISPR впоследствии инактивирует систему CRISPR-Cas, инактивируя тем самым в дальнейшем экспрессию CRISPR-Cas в клетке.

Таким образом, настоящее изобретение относится к системе CRISPR-Cas, содержащей один или несколько векторов для доставки в эукариотическую клетку, где вектор(векторы) кодирует(кодируют): (i) фермент CRISPR; (ii) первую направляющую РНК, способную гибридизироваться с целевой последовательностью в клетке; (iii) вторую направляющую РНК, способную гибридизироваться с одной или несколькими целевыми последовательностями в векторе, который кодирует фермент CRISPR; где при экспрессии в клетке первая направляющая РНК управляет специфическим к последовательности связыванием первого комплекса CRISPR с последовательностью в клетке; вторая направляющая РНК управляет специфическим к последовательности связыванием второго комплекса CRISPR с целевой последовательностью в векторе, который кодирует фермент CRISPR; при этом комплексы CRISPR содержат фермент CRISPR, связанный с направляющей РНК, таким образом, что направляющая РНК может гибридизироваться со своей целевой последовательностью; а второй комплекс CRISPR комплекс инактивирует систему CRISPR-Cas для предупреждения дальнейшей экспрессии клеткой фермента CRISPR.

Различные кодирующие последовательности (фермент CRISPR и направляющие РНК) можно ввести в отдельный вектор или во множество векторов. Например, возможным является кодирование фермента в одном векторе, а последовательностей разных РНК в другом векторе, или кодирование фермента и одной направляющей РНК в одном векторе, а остальной направляющей РНК в другом векторе, или любая другая комбинация. В целом, предпочтительной является система, использующая всего один или два разных вектора.

Первая направляющая РНК может целенаправленно воздействовать на любую представляющую интерес целевую последовательность в геноме, что описано в других частях в данном документе. Вторая направляющая РНК нацеливается на любую последовательность в векторе, который кодирует фермент CRISPR Cpf1, и тем самым инактивирует экспрессию фермента, обусловленную данным вектором. Таким образом, целевая последовательность в векторе должна быть способна к инактивации экспрессии. Подходящие целевые последовательности могут находиться, например, рядом с инициирующим трансляцию стартовым кодоном кодирующей последовательности Cpf1p или в его пределах, в некодирующей последовательности в промоторе, управляющим экспрессией элементов некодирующей РНК, в пределах промотора, управляющего экспрессией гена Cpf1p, в пределах 100 п. о. инициирующего трансляцию стартового ATG-кодона в кодирующей последовательности Cas, и/или в пределах инвертированного концевого повтора (iTR) вирусного вектора для доставки, например, в геноме AAV. Двухнитевой разрыв рядом с данным участком может индуцировать сдвиг рамки в кодирующей последовательности Cas, вызывая потерю экспрессии белка. Альтернативой целевой последовательности для "самоинактивирующейся" направляющей РНК было бы нацеливание на редактирование/инактивацию регуляторных участков/последовательностей, которые необходимы для экспрессии системы CRISPR-Cpf1 или для стабильности вектора. Например, если нарушена структура промотора для кодирующей последовательности Cas, тогда транскрипция будет подавляться или предупреждаться. Проще говоря, если вектор включает в себя последовательности, обеспечивающие репликацию, поддержание или стабильность, тогда можно целенаправленно воздействовать на эти последовательности. К примеру, в векторе на основе AAV приемлемая целевая последовательность находится в пределах iTR. Другими приемлемыми для нацеливания последовательностями могут быть промоторные последовательности, сайты полиаденилирования и т. д.

Более того, если направляющие РНК экспрессируются в формате массива, тогда "самоинактивирующиеся" направляющие РНК, целенаправленно воздействующие одновременно на оба промотора, в результате приведут к вырезанию вставочных нуклеотидов в пределах экспрессионной конструкции CRISPR-Cas, вызывая фактически полную инактивацию. Проще говоря, вырезание вставочных нуклеотидов будет являться результатом целенаправленного воздействия направляющих РНК на оба ITR или одновременного целенаправленного воздействия на два или более компонентов CRISPR-Cas. Как поясняется в данном документе, самоинактивация в целом применима с системами CRISPR-Cas для обеспечения регуляции CRISPR-Cas. Например, как поясняется в данном документе, самоинактивацию можно задействовать для CRISPR-опосредованной репарации мутаций, например, нарушений, обусловленных экспансией, как поясняется в данном документе. Результат такой самоинактивации заключается во временной активности CRISPR-опосредованной репарации.

Добавление ненацеливающихся нуклеотидов к 5'-концу (например, 1-10 нуклеотидов, предпочтительно 1-5 нуклеотидов) "самоинактивирующиейся" направляющей РНК можно использовать для задержки ее процессирования и/или модифицирования ее эффективности в качестве средства для обеспечения редактирования в целевом локусе генома перед выключением CRISPR-Cas.

В одном аспекте самоинактивирующейся системы AAV-CRISPR-Cas плазмиды, которые совместно экспрессируют одну или несколько направляющих РНК, целенаправленно воздействующих на представляющие интерес последовательности в геноме (например, 1-2, 1-5, 1-10, 1-15, 1-20, 1-30), можно создавать с "самоинактивирующимися" направляющими РНК, которые нацеливаются на последовательность SpCas9 в сконструированном стартовом ATG-сайте или рядом с ним (например, в пределах 5 нуклеотидов, в пределах 15 нуклеотидов, в пределах 30 нуклеотидов, в пределах 50 нуклеотидов, в пределах 100 нуклеотидов). На регуляторную последовательность в участке промотора U6 также можно целенаправленно воздействовать при помощи направляющей РНК. U6-контролируемые направляющие РНК можно сконструировать в формате массива с тем, чтобы одновременно могли высвобождаться множество последовательностей направляющих РНК. При первичной доставке в целевые ткань/клетки (клетка слева) направляющие РНК начинают накапливаться, в то же время в ядре повышаются уровни Cas. Cas формируют комплексы со всеми направляющими РНК для опосредования редактирования генома и самоинактивации плазмид, несущих CRISPR-Cas.

Один аспект самоинактивирующейся системы CRISPR-Cas представляет собой экспрессию в отдельном формате или в формате тандемного массива от 1 до 4 или более разных направляющих последовательностей; например, до приблизительно 20 или приблизительно 30 направляющих последовательностей. Каждая отдельная самоинактивирующаяся направляющая последовательность может целенаправленно воздействовать на разные мишени. Такие последовательности могут процессироваться, например, из транскрипта одной химерной pol3. Можно применять промоторы рol3, такие как промоторы U6 или H1. Промоторы рol2 упомянуты во всем данном документе. Последовательности с инвертированными концевыми повторами (iTR) могут фланкировать промотор Pol3 - направляющую (направляющие) РНК - промотор Pol2 - Cas.

В одном аспекте транскрипт в формате тандема представляет собой одну или несколько направляющих последовательностей, которые редактируют одну или несколько мишеней, тогда как одна или несколько самоинактивирующихся направляющих последовательностей инактивируют систему CRISPR-Cas. Таким образом, например, описываемая система CRISPR-Cas для репарации нарушений, обусловленных экспансией, можно непосредственно объединять с самоинактивирующейся системой CRISPR-Cas, описанной в данном документе. Такая система может, например, иметь две направляющие последовательности, направленные на целевой участок для репарации, а также по меньшей мере третью направляющую последовательность, управляющую самоинактивацией CRISPR-Cas. Ссылаются на заявку с порядковым № PCT/US2014/069897 под названием "Композиции и способы применения систем CRISPR-Cas при связанных с нуклеотидными повторами нарушениях", опубликованную 12 декабря 2014 г. как WO/2015/089351.

Направляющая РНК может представлять собой контрольную направляющую последовательность. Например, ее можно сконструировать для целенаправленного воздействия на последовательность нуклеиновой кислоты, кодирующую сам фермент CRISPR, как описано в US2015232881A1, раскрытие которого включено в данный документ посредством ссылки. В некоторых вариантах осуществления могут быть предусмотрены система или композиция лишь с направляющей РНК, сконструированной для целенаправленного воздействия на последовательность нуклеиновой кислоты, кодирующую фермент CRISPR. Кроме того, могут быть предусмотрены система или композиция с направляющей РНК, сконструированной для целенаправленного воздействия на последовательность нуклеиновой кислоты, кодирующую фермент CRISPR, а также последовательность нуклеиновой кислоты, кодирующую фермент CRISPR, и необязательно второй направляющей РНК, и дополнительно необязательно матрицей для репарации. Вторая направляющая РНК может представлять собой первичную мишень системы или композиции CRISPR (такой как терапевтической, диагностической, для нокдауна и т. д., как определено выше). В этом отношении система или композиция является самоинактивирующейся. Это показано на примере в отношении Cas9 в US2015232881A1 (также опубликованном как WO2015070083 (A1), на который ссылаются в других местах данного документа, и может быть экстраполировано на Cpf1.

Ферменты в соответствии с настоящим изобретением, используемые в подходе мультиплексного (тандемного) нацеливания

Авторы настоящего изобретения показали, что ферменты CRISPR, определяемые в данном документе, могут использовать более одной направляющей РНК без потери активности. Это делает возможным применение ферментов, систем или комплексов CRISPR, определяемых в данном документе, для нацеливания на множественные ДНК-мишени, гены или генные локусы с помощью одного фермента, системы или комплекса, определяемых в данном документе. Направляющие РНК можно располагать тандемно, необязательно разделенными нуклеотидной последовательностью, такой как прямой повтор, определяемый в данном документе. Положение различных направляющих РНК в тандеме не влияет на активность. Следует отметить, что термины "система CRISPR-Cas", "комплекс CRISP-Cas", "комплекс CRISPR" и "система CRISPR" используются взаимозаменяемо. Также термины "фермент CRISPR", "фермент Cas" или "фермент CRISPR-Cas" могут использоваться взаимозаменяемо. В предпочтительных вариантах осуществления указанный фермент CRISPR, фермент CRISP-Cas или фермент Cas представляет собой Cpf1 или любой из его модифицированных или мутированных вариантов, описанных в других разделах данного документа.

В одном аспекте настоящее изобретение относится к не встречающемуся в природе или сконструированному ферменту CRISPR, предпочтительно ферменту CRISPR 2 класса, предпочтительно ферменту CRISPR V или VI типа, описываемому в данном документе, такому как без ограничений Cpf1, описываемый в других разделах данного документа, применяемый для тандемного или мультиплексного нацеливания. Следует понимать, что в таком подходе может применяться любое из ферментов, комплексов или систем CRISPR (или CRISPR-Cas или Cas) в соответствии с настоящим изобретением, описываемых в других разделах данного документа. Любые из способов, продуктов, композиций и вариантов применения, описываемые в других разделах данного документа, равным образом применимы в подходе мультиплексного или тандемного нацеливания, дополнительно подробно описанного ниже. С целью дополнительного руководства приводятся следующие конкретные аспекты и варианты осуществления.

В одном аспекте настоящее изобретение относится к применению фермента, комплекса или системы Cpf1, определяемых в данном документе, для нацеливания на множественные генные локусы. В одном варианте осуществления это можно осуществить путем применения множественных (тандемных или мультиплексных) последовательностей направляющих РНК (gRNA).

В одном аспекте настоящее изобретение относится к способам применения одного или нескольких элементов фермента, комплекса или системы Cpf1, определяемых в данном документе, для тандемного или мультиплексного нацеливания, где указанная система CRISP содержит множественные последовательности направляющей РНК. Предпочтительно указанные последовательности gRNA разделены нуклеотидной последовательностью, такой как прямой повтор, определяемой в других разделах данного документа.

Фермент, система или комплекс Cpf1, определяемые в данном документе обеспечивают эффективные средства для модифицирования множественных целевых полинуклеотидов. Фермент, система или комплекс Cpf1, определяемые в данном документе, характеризуются большим разнообразием применений, включая модифицирование (например, образование делеции, вставки, транслокации, инактивацию, активацию) одного или нескольких целевых полинуклеотидов в множестве типов клеток. В связи с этим, определяемый в данном документе фермент, система или комплекс Cpf1 по настоящему изобретению имеют широкий спектр применений, например, в генной терапии, скрининге лекарственных средств, диагностике и определении прогноза заболевания, включая нацеливание на множественные генные локусы в пределах одной системы CRISPR.

В одном аспекте настоящее изобретение относится к ферменту, системе или комплексу Cpf1, определяемым в данном документе, т. е. комплексу CRISPR-Cas на основе Cpf1, содержащему белок Cpf1, имеющий по меньшей мере один ассоциированный с ним домен дестабилизации, и множественные направляющие РНК, которые нацеливаются на множественные молекулы нуклеиновой кислоты, такие как молекулы ДНК, в результате чего каждая из указанных множественных направляющих РНК специфически нацеливается на свою соответствующую молекулу нуклеиновой кислоты, например, молекулу ДНК. Каждая целевая молекула нуклеиновой кислоты, например, молекула ДНК, может кодировать продукт гена или охватывать генный локус. Следовательно, применение множественных направляющих РНК дает возможность нацеливания на множественные генные локусы или множественные гены. В некоторых вариантах осуществления фермент Cpf1 может расщеплять молекулу ДНК, кодирующую продукт гена. В некоторых вариантах осуществления экспрессия продукта гена изменена. Белок Cpf1 и направляющие РНК не встречаются в природе вместе. Настоящее изобретение охватывает направляющие РНК, предусматривающие расположенные тандемно направляющие последовательности. Настоящее изобретение дополнительно охватывает кодирующие последовательности для белка Cpf1, который является кодон-оптимизированным для экспрессии в эукариотической клетке. В предпочтительном варианте осуществления эукариотическая клетка представляет собой клетку млекопитающего, растительную клетку или клетку дрожжей, и в более предпочтительном варианте осуществления клетка млекопитающего является клеткой человека. Экспрессия продукта гена может быть снижена. Фермент Cpf1 может образовывать часть системы или комплекса CRISPR, которые дополнительно содержат расположенные тандемно направляющие РНК (gRNA), содержащие серию из 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 25, 25, 30 или более чем 30 направляющих последовательностей, при этом каждая способна специфически гибридизироваться с целевой последовательностью в представляющем интерес локусе генома в клетке. В некоторых вариантах осуществления функциональная система или комплекс Cpf1 CRISPR связываются с множественными целевыми последовательностями. В некоторых вариантах осуществления функциональная система или комплекс CRISPR могут редактировать множественные целевые последовательности, например, целевые последовательности могут предусматривать локус генома, а в некоторых вариантах осуществления может быть предусмотрено изменение экспрессии гена. В некоторых вариантах осуществления функциональная система или комплекс CRISPR могут содержать дополнительные функциональные домены. В некоторых вариантах осуществления настоящее изобретение относится к способу изменения или модифицирования экспрессии множественных продуктов гена. Способ может предусматривать введение в клетку, содержащую указанные целевые нуклеиновые кислоты, например молекулы ДНК, или содержащую и экспрессирующую целевую нуклеиновую кислоту, например молекулы ДНК; к примеру, целевые нуклеиновые кислоты могут кодировать продукты гена или обеспечивать экспрессию продуктов гена (например, регуляторные последовательности).

В предпочтительных вариантах осуществления фермент CRISPR, применяемый для мультиплексного нацеливания, представляет собой Cpf1, или система или комплекс CRISPR содержат Cpf1. В некоторых вариантах осуществления фермент CRISPR, применяемый для мультиплексного нацеливания, представляет собой AsCpf1, или система или комплекс CRISPR, применяемые для мультиплексного нацеливания, содержат AsCpf1. В некоторых вариантах осуществления фермент CRISPR представляет собой LbCpf1, или система или комплекс CRISPR содержат LbCpf1. В некоторых вариантах осуществления фермент Cpf1, применяемый для мультиплексного нацеливания, расщепляет обе нити ДНК с образованием двухнитевого разрыва (DSB). В некоторых вариантах осуществления фермент CRISPR, применяемый для мультиплексного нацеливания, представляет собой никазу. В некоторых вариантах осуществления фермент Cpf1, применяемый для мультиплексного нацеливания, представляет собой двойную никазу. В некоторых вариантах осуществления фермент Cpf1, применяемый для мультиплексного нацеливания, представляет собой фермент Cpf1, такой как фермент DD Cpf1, определяемый в других разделах данного документа.

В некоторых общих вариантах осуществления фермент Cpf1, применяемый для мультиплексного нацеливания, связывается с одним или несколькими функциональными доменами. В некоторых более специфических вариантах осуществления фермент CRISPR, применяемый для мультиплексного нацеливания, представляет собой неработающий Cpf1, определяемый в других разделах данного документа.

В одном аспекте настоящего изобретения предусмотрены средства для доставки фермента, системы или комплекса Cpf1 для применения в множественном нацеливании, как определено в данном документе, или полинуклеотидов, определенных в данном документе. Неограничивающие примеры таких средств доставки представляют собой, например, частицу(частицы), доставляющую(доставляющие) компонент(компоненты) комплекса, вектор(векторы), содержащие полинуклеотид(полинуклеотиды), обсуждаемые в данном документе (например, кодирующие фермент CRISPR, обеспечивающие нуклеотиды, кодирующие комплекс CRISPR). В некоторых вариантах осуществления вектором может быть плазмида или вирусный вектор, такой как AAV или лентивирус. Преимущественной может быть транзиентная трансфекция с помощью плазмид, например, клеток HEK, особенно с учетом ограничений по размеру для AAV и того, что, хотя Cpf1 вмещается в AAV, в случае дополнительных направляющих РНК может быть достигнут верхний предел.

Также предусмотрены модель, в которой конститутивно экспрессируется фермент, комплекс или система Cpf1, применяемые в данном документе, для применения в мультиплексном нацеливании. Организм может быть трансгенным и может быть трансфицирован с помощью векторов по настоящему изобретению или может быть потомством организма, трансфицированного таким образом. В дополнительном аспекте настоящего изобретения предусмотрены композиции, содержащие фермент, систему и комплекс CRISPR, определяемые в данном документе, или полинуклеотиды или векторы, описанные в данном документе. Также предусмотрены системы или комплексы CRISPR на основе Cpf1, содержащие множественные направляющие РНК, предпочтительно в формате тандемного расположения. Указанные различные направляющие РНК могут быть разделены нуклеотидными последовательностями, такими как прямые повторы.

Также предусмотрен способ лечения субъекта, например, субъекта, нуждающегося в этом, предусматривающий индицирование редактирования генов путем трансформации субъекта с помощью полинуклеотида, кодирующего систему или комплекс CRISPR на основе Cpf1, или любого из полинуклеотидов или векторов, описанных в данном документе, и введение их субъекту. Также может предусматриваться подходящая матрица для репарации, например, доставляемая вектором, содержащим указанную матрицу для репарации. Также предусмотрен способ лечения субъекта, например, субъекта, нуждающегося в этом, предусматривающий индуцирование активации или репрессии транскрипции множественных целевых генных локусов путем трансформации субъекта с помощью полинуклеотидов или векторов, описанных в данном документе, где указанный полинуклеотид или вектор кодирует или содержит фермент, комплекс или систему Cpf1, содержащие множественные направляющие РНК, предпочтительно расположенные тандемно. В случае осуществления какой-либо обработки ex vivo, например, в культуре клеток, следует понимать, что термин "субъект" можно заменить фразой "клетка или культура клеток".

Также предусмотрены композиции, содержащие фермент, комплекс или систему Cpf1, содержащие множественные направляющие РНК, предпочтительно расположенные тандемно, или полинуклеотид или вектор, кодирующие или содержащие указанный фермент, комплекс или систему Cpf1, содержащие множественные направляющие РНК, предпочтительно расположенные тандемно, для применения в способах лечения, определяемых в других разделах данного документа. Может предусматриваться набор из частей, включающих такие композиции. Также предусмотрено применение указанной композиции в производстве лекарственного препарата для таких способов лечения. В настоящем изобретении также предусмотрено применение системы CRISPR на основе Cpf1 в скрининге, например, скринингах в отношении мутации приобретения функции. Клетки, в которых искусственным путем обеспечивают сверхэкспрессию гена, могут снижать экспрессию гена с течением времени (восстановление равновесия), например, с помощью отрицательных обратных связей. К моменту начала скрининга уровень экспрессии нерегулируемого гена снова может быть снижен. Применение индуцируемого активатора Cpf1 позволяет индуцировать транскрипцию непосредственно перед скринингом и тем самым сводит к минимуму вероятность ложноотрицательных соответствий. В соответствии с этим, путем применения настоящего изобретения в скрининге, например, скринингах в отношении мутации приобретения функции, вероятность ложноотрицательных результатов может быть сведена к минимуму.

В одном аспекте настоящее изобретение относится к сконструированной, не встречающейся в природе системе CRISPR, содержащей белок Cpf1 и множественные направляющие РНК, каждая из которых специфически нацеливается на молекулу ДНК, кодирующую продукт гена в клетке, в результате чего каждая из множественных направляющих РНК нацеливается на свою специфическую молекулу ДНК, кодирующую продукт гена, и белок Cpf1 расщепляет молекулу целевой ДНК, кодирующую продукт гена, в результате чего экспрессия продукта гена изменяется; и где белок CRISPR и направляющие РНК не встречаются в природе вместе. Настоящее изобретение охватывает множественные направляющие РНК, содержащие множественные направляющие последовательности, предпочтительно разделенные нуклеотидной последовательностью, такой как прямой повтор. В одном варианте осуществления настоящего изобретения белок CRISPR представляет собой белок CRISPR-Cas V или VI типа, и в более предпочтительном варианте осуществления белок CRISPR представляет собой белок Cpf1. Настоящее изобретение дополнительно охватывает белок Cpf1, который является кодон-оптимизированным для экспрессии в эукариотической клетке. В предпочтительном варианте осуществления эукариотическая клетка является клеткой млекопитающего, и в более предпочтительном варианте осуществления клетка млекопитающего является клеткой человека. В дополнительном варианте осуществления настоящего изобретения экспрессия продукта гена является сниженной.

В другом аспекте настоящее изобретение относится к сконструированной, не встречающейся в природе векторной системе, содержащей один или несколько векторов, содержащей первый регуляторный элемент, функционально связанный с множественными направляющими РНК системы CRISPR на основе Cpf1, каждая из которых специфически нацеливается на молекулу ДНК, кодирующую продукт гена, и второй регуляторный элемент, функционально связанный с последовательностью, кодирующей белок CRISPR. Оба регуляторных элемента могут находиться в одном и том же векторе или в разных векторах системы. Множественные направляющие РНК нацеливаются на множественные молекулы ДНК, кодирующие множественные продукты гена в клетке, и белок CRISPR может расщеплять множественные молекулы ДНК, кодирующие продукты гена (он может расщеплять одну или обе нити или фактически не проявлять нуклеазную активность), в результате чего экспрессия множественных продуктов гена изменяется; и где белок CRISPR и множественные направляющие РНК не встречаются в природе вместе. В предпочтительном варианте осуществления белок CRISPR представляет собой белок Cpf1, необязательно кодон-оптимизированный для экспрессии в эукариотической клетке. В предпочтительном варианте осуществления эукариотическая клетка представляет собой клетку млекопитающего, растительную клетку или клетку дрожжей, и в более предпочтительном варианте осуществления клетка млекопитающего является клеткой человека. В дополнительном варианте осуществления настоящего изобретения экспрессия каждого из множественных продуктов гена изменена, предпочтительно снижена.

В одном аспекте настоящего изобретения предусмотрена векторная система, содержащая один или несколько векторов. В некоторых вариантах осуществления система содержит: (a) первый регуляторный элемент, функционально связанный с последовательностью прямого повтора и одним или несколькими сайтами встраивания для встраивания одной или нескольких направляющих последовательностей выше или ниже (в зависимости от того, что является подходящим) последовательности прямого повтора, где при экспрессии одна или несколько направляющих последовательностей управляют специфичным к последовательности связыванием комплекса CRISPR с одной или несколькими целевыми последовательностями в эукариотической клетке, где комплекс CRISPR содержит фермент Cpf1 в комплексе с одной или несколькими направляющими последовательностями, которые гибридизируются с одной или несколькими целевыми последовательностями; и (b) второй регуляторный элемент, функционально связанный с кодирующей фермент последовательностью, которая кодирует указанный фермент Cpf1, предпочтительно содержащей по меньшей мере одну последовательность ядерной локализации и/или по меньшей мере одну NES; где компоненты (a) и (b) находятся в одном и том же или разных векторах системы. В некоторых вариантах осуществления компонент (a) дополнительно содержит две или более направляющих последовательностей, функционально связанных с первым регуляторным элементом, где при экспрессии каждая из двух или более направляющих последовательностей управляет специфичным к последовательности связыванием комплекса CRISPR на основе Cpf1 со своей целевой последовательностью в эукариотической клетке. В некоторых вариантах осуществления комплекс CRISPR содержит одну или несколько последовательностей ядерной локализации и/или одну или несколько NES, характеризующихся достаточной эффективностью, чтобы управлять накоплением указанного комплекса CRISPR на основе Cpf1 в обнаруживаемом количестве в ядре эукариотической клетки или за его пределами. В некоторых вариантах осуществления первый регуляторный элемент является промотором полимеразы III. В некоторых вариантах осуществления второй регуляторный элемент является промотором полимеразы II. В некоторых вариантах осуществления длина каждой из направляющих последовательностей составляет по меньшей мере 16, 17, 18, 19, 20, 25 нуклеотидов или 16-30, или 16-25, или 16-20 нуклеотидов.

Рекомбинантные векторы экспрессии могут содержать полинуклеотиды, кодирующие фермент, систему или комплекс Cpf1 для применения в множественном нацеливании, определяемом в данном документе, в форме, подходящей для экспрессии нуклеиновой кислоты в клетке-хозяине, что означает, что рекомбинантные векторы экспрессии включают один или несколько регуляторных элементов, которые могут быть выбраны с учетом клеток-хозяев, которые предполагается применять для экспрессии, которые функционально связаны с последовательностью нуклеиновой кислоты, экспрессия которой предполагается. В контексте рекомбинантного вектора экспрессии предполагается, что выражение "функционально связанный" обозначает то, что представляющая интерес нуклеотидная последовательность связана с регуляторным(регуляторными) элементом(элементами), так что обеспечивается возможность экспрессии нуклеотидной последовательности (например, в системе транскрипции/трансляции in vitro или в клетке-хозяине при введении вектора в клетку-хозяина).

В некоторых вариантах осуществления клетка-хозяин является транзиентно или нетранзиентно трансфицированной с помощью одного или нескольких векторов, содержащих полинуклеотиды, кодирующие фермент, систему или комплекс Cpf1 для применения при множественном нацеливании, определяемом в данном документе. В некоторых вариантах осуществления клетку трансфицируют, когда она находится в естественных условиях в субъекте. В некоторых вариантах осуществления клетка, которую трансфицируют, получена от субъекта. В некоторых вариантах осуществления клетка происходит из клеток, полученных от субъекта, как, например, линии клеток. В данной области техники известен целый ряд линий клеток, применяемых в качестве культуры тканей, и их примеры приведены в других местах данного документа. Линии клеток доступны из множества источников, известных специалистам в данной области (см., например, Американская коллекция типовых культур (ATCC) (Манассас, Вирджиния)). В некоторых вариантах осуществления клетку, трансфицированную с помощью одного или нескольких векторов, содержащих полинуклеотиды, кодирующие фермент, систему или комплекс Cpf1 для применения при множественном нацеливании, определяемом в данном документе, применяют для получения новой линии клеток, содержащей одну или несколько полученных из вектора последовательностей. В некоторых вариантах осуществления клетку, транзиентно трансфицированную с помощью компонентов системы или комплекса CRISPR на основе Cpf1 для применения при множественном нацеливании, описываемом в данном документе (как, например, путем транзиентной трансфекции одного или нескольких векторов, или трансфекции с помощью РНК), и модифицированную при помощи активности системы или комплекса CRISPR на основе Cpf1, применяют для получения новой линии клеток, содержащей клетки, содержащие модификацию, но в которых отсутствует любая другая экзогенная последовательность. В некоторых вариантах осуществления клетки, транзиентно или нетранзиентно трансфицированные с помощью одного или нескольких векторов, содержащих полинуклеотиды, кодирующие фермент, систему или комплекс Cpf1 для применения при множественном нацеливании, определяемом в данном документе, или линии клеток, полученные из таких клеток, применяют в оценке одного или нескольких исследуемых соединений.

Термин "регуляторные элементы" определен в других разделах данного документа.

В одном аспекте настоящее изобретение относится к эукариотической клетке-хозяину, содержащей (a) первый регуляторный элемент, функционально связанный с последовательностью прямого повтора и одним или несколькими сайтами встраивания для встраивания одной или нескольких последовательностей направляющей РНК выше или ниже (в зависимости от того, что является подходящим) последовательности прямого повтора, где при экспрессии направляющая(направляющие) последовательность(последовательности) управляет(управляют) специфичным к последовательности связыванием комплекса CRISPR на основе Cpf1 с соответствующей(соответствующими) целевой(целевыми) последовательностью(последовательностями) в эукариотической клетке, где комплекс CRISPR на основе Cpf1 содержит фермент Cpf1 в комплексе с одной или несколькими направляющими последовательностями, которые гибридизируются с соответствующей(соответствующими) целевой(целевыми) последовательностью(последовательностями); и/или (b) второй регуляторный элемент, функционально связанный с кодирующей фермент последовательностью, которая кодирует указанный фермент Cpf1, содержащий предпочтительно по меньшей мере одну последовательность ядерной локализации и/или NES. В некоторых вариантах осуществления клетка-хозяин содержит компоненты (a) и (b). В некоторых вариантах осуществления компонент (a), компонент (b) или компоненты (a) и (b) стабильно интегрированы в геном эукариотической клетки-хозяина. В некоторых вариантах осуществления компонент (a) дополнительно содержит две или более направляющих последовательностей, функционально связанных с первым регуляторным элементом и необязательно разделенных прямым повтором, где при экспрессии каждая из двух или более направляющих последовательностей управляет специфичным к последовательности связыванием комплекса CRISPR на основе Cpf1 со своей целевой последовательностью в эукариотической клетке. В некоторых вариантах осуществления фермент Cpf1 содержит одну или несколько последовательностей ядерной локализации и/или последовательностей ядерного экспорта или NES, характеризующихся достаточной эффективностью, чтобы управлять накоплением указанного фермента CRISPR в обнаруживаемом количестве в ядре эукариотической клетки и/или за его пределами.

В некоторых вариантах осуществления фермент Cpf1 представляет собой фермент системы CRISPR типа V или VI. В некоторых вариантах осуществления фермент Cpf1 представляет собой фермент Cpf1. В некоторых вариантах осуществления фермент Cpf1 получен из Cpf1 Francisella tularensis 1, Francisella tularensis subsp. novicida, Prevotella albensis, Lachnospiraceae bacterium MC2017 1, Butyrivibrio proteoclasticus, Peregrinibacteria bacterium GW2011_GWA2_33_10, Parcubacteria bacterium GW2011_GWC2_44_17, Smithella sp. SCADC, Acidaminococcus sp. BV3L6, Lachnospiraceae bacterium MA2020, Candidatus Methanoplasma termitum, Eubacterium eligens, Moraxella bovoculi 237, Leptospira inadai, Lachnospiraceae bacterium ND2006, Porphyromonas crevioricanis 3, Prevotella disiens или Porphyromonas macacae, и он может включать дополнительные изменения или мутации Cpf1, определяемые в других разделах данного документа, и он может представлять собой химерный Cpf1. В некоторых вариантах осуществления фермент Cpf1 является кодон-оптимизированным для экспрессии в эукариотической клетке. В некоторых вариантах осуществления фермент CRISPR управляет расщеплением одной или двух нитей в определенном положении целевой последовательности. В некоторых вариантах осуществления первый регуляторный элемент является промотором полимеразы III. В некоторых вариантах осуществления второй регуляторный элемент является промотором полимеразы II. В некоторых вариантах осуществления длина одной или нескольких направляющих последовательностей составляет (или длина каждой составляет) по меньшей мере 16, 17, 18, 19, 20, 25 нуклеотидов, или 16-30, или 16-25, или 16-20 нуклеотидов. При применении множественных направляющих РНК они предпочтительно разделены последовательностью прямого повтора. В одном аспекте настоящего изобретения предусмотрен эукариотический организм, отличный от человека; предпочтительно многоклеточный эукариотический организм, содержащий эукариотическую клетку-хозяина в соответствии с любым из описанных вариантов осуществления. В других аспектах настоящее изобретение предусматривает эукариотический организм, предпочтительно многоклеточный эукариотический организм, содержащий эукариотическую клетку-хозяина согласно любому из описанных вариантов осуществления. В некоторых вариантах осуществления этих аспектов организм может представлять собой животное; например, млекопитающее. Также организм может представлять собой членистоногое, такое как насекомое. Организм также может представлять собой растение. Кроме того, организм может представлять собой гриб.

В одном аспекте настоящее изобретение предусматривает набор, содержащий один или несколько компонентов, описанных в данном документе. В некоторых вариантах осуществления набор содержит векторную систему и инструкции по применению набора. В некоторых вариантах осуществления векторная система содержит (a) первый регуляторный элемент, функционально связанный с последовательностью прямого повтора и одним или несколькими сайтами встраивания для встраивания одной или нескольких направляющих последовательностей выше или ниже (в зависимости от того, что является подходящим) последовательности прямого повтора, где при экспрессии направляющая последовательность управляет специфичным к последовательности связыванием комплекса CRISPR на основе Cpf1 с целевой последовательностью в эукариотической клетке, где комплекс CRISPR на основе Cpf1 содержит фермент Cpf1 в комплексе с направляющей последовательностью, которая гибридизируется с целевой последовательностью; и/или (b) второй регуляторный элемент, функционально связанный с кодирующей фермент последовательностью, которая кодирует указанный фермент Cpf1, содержащий последовательность ядерной локализации. В некоторых вариантах осуществления набор содержит компоненты (a) и (b), находящиеся в одном и том же или разных векторах системы. В некоторых вариантах осуществления компонент (a) дополнительно содержит две или более направляющих последовательностей, функционально связанных с первым регуляторным элементом, где при экспрессии каждая из двух или более направляющих последовательностей управляет специфичным к последовательности связыванием комплекса CRISPR со своей целевой последовательностью в эукариотической клетке. В некоторых вариантах осуществления фермент Cpf1 содержит одну или несколько последовательностей ядерной локализации, характеризующихся достаточной эффективностью, чтобы управлять накоплением указанного фермента CRISPR в обнаруживаемом количестве в ядре эукариотической клетки. В некоторых вариантах осуществления фермент CRISPR представляет собой фермент системы CRISPR V или VI типа. В некоторых вариантах осуществления фермент CRISPR представляет собой фермент Cpf1. В некоторых вариантах осуществления фермент Cpf1 получен из Cpf1 Francisella tularensis 1, Francisella tularensis subsp. novicida, Prevotella albensis, Lachnospiraceae bacterium MC2017 1, Butyrivibrio proteoclasticus, Peregrinibacteria bacterium GW2011_GWA2_33_10, Parcubacteria bacterium GW2011_GWC2_44_17, Smithella sp. SCADC, Acidaminococcus sp. BV3L6, Lachnospiraceae bacterium MA2020, Candidatus Methanoplasma termitum, Eubacterium eligens, Moraxella bovoculi 237, Leptospira inadai, Lachnospiraceae bacterium ND2006, Porphyromonas crevioricanis 3, Prevotella disiens или Porphyromonas macacae (например, модифицированный так, что он имеет по меньшей мере один DD или имеет способность к ассоциации с ним), и он может включать дополнительное изменение или мутацию Cpf1 и может представлять собой химерный Cpf1. В некоторых вариантах осуществления фермент DD-CRISPR является кодон-оптимизированным для экспрессии в эукариотической клетке. В некоторых вариантах осуществления фермент DD-CRISPR управляет расщеплением одной или двух нитей в определенном положении целевой последовательности. В некоторых вариантах осуществления фермент DD-CRISPR не обладает или фактически не обладает активностью расщепления нити ДНК (например, характеризуется не более чем 5% нуклеазной активности по сравнению с ферментом дикого типа или ферментом без мутации или изменения, которые снижают нуклеазную активность). В некоторых вариантах осуществления первый регуляторный элемент является промотором полимеразы III. В некоторых вариантах осуществления второй регуляторный элемент является промотором полимеразы II. В некоторых вариантах осуществления длина направляющей последовательности составляет по меньшей мере 16, 17, 18, 19, 20, 25 нуклеотидов, или 16-30, или 16-25, или 16-20 нуклеотидов.

В одном аспекте настоящее изобретение относится к способу модифицирования множественных целевых полинуклеотидов в клетке-хозяине, такой как эукариотическая клетка. В некоторых вариантах осуществления способ предусматривает обеспечение связывание комплекса CRISPR на основе Cpf1 с множественными целевыми полинуклеотидами, например, для осуществления расщепления указанных множественных целевых полинуклеотидов, тем самым модифицируя множественные целевые полинуклеотиды, где комплекс CRISPR на основе Cpf1 содержит фермент Cpf1 в комплексе с множественными направляющими последовательностями, каждая из которых гибридизируется со специфической целевой последовательностью в пределах указанного целевого полинуклеотида, где указанные множественные направляющие последовательности связаны с последовательностью прямого повтора. В некоторых вариантах осуществления указанное расщепление предусматривает расщепление одной или двух нитей в местоположении каждой целевой последовательности с помощью указанного фермента Cpf1. В некоторых вариантах осуществления указанное расщепление приводит к сниженной транскрипции множественных целевых генов. В некоторых вариантах осуществления способ дополнительно предусматривает репарацию одного или нескольких указанных расщепленных целевых полинуклеотидов с помощью гомологичной рекомбинации с экзогенной полинуклеотидной матрицей, где указанная репарация приводит к мутации, предусматривающей вставку, делецию или замену одного или нескольких нуклеотидов в одном или нескольких указанных целевых полинуклеотидов. В некоторых вариантах осуществления указанная мутация приводит к изменению одной или нескольких аминокислот в белке, экспрессируемом с гена, содержащего одну или несколько целевых последовательностей. В некоторых вариантах осуществления способ дополнительно предусматривает доставку одного или нескольких векторов в указанную эукариотическую клетку, где один или несколько векторов управляют экспрессией одного или нескольких из: фермента Cpf1 и множественных направляющих РНК последовательностей, связанных с последовательностью прямого повтора. В некоторых вариантах осуществления указанные векторы доставляются в эукариотическую клетку в субъекте. В некоторых вариантах осуществления указанное модифицирование происходит в указанной эукариотической клетке в культуре клеток. В некоторых вариантах осуществления способ дополнительно включает выделение указанной эукариотической клетки из организма субъекта перед проведением указанного модифицирования. В некоторых вариантах осуществления способ дополнительно включает возвращение указанной эукариотической клетки и/или клеток, происходящих из нее, указанному субъекту.

В одном аспекте настоящее изобретение относится к способу модифицирования экспрессии множественных полинуклеотидов в эукариотической клетке. В некоторых вариантах осуществления способ предусматривает обеспечение связывания комплекса CRISPR на основе Cpf1 c множественными полинуклеотидами, так что указанное связывание приводит к повышенной или сниженной экспрессии указанных полинуклеотидов; где комплекс CRISPR на основе Cpf1 содержит фермент Cpf1 в комплексе с множественными направляющими последовательностями, каждая из которых специфически гибридизируется с ее собственной целевой последовательностью в пределах указанного полинуклеотида, где указанные направляющие последовательности связаны с последовательностью прямого повтора. В некоторых вариантах осуществления способ дополнительно предусматривает доставку одного или нескольких векторов в указанные эукариотические клетки, где один или несколько векторов управляют экспрессией одного или нескольких из: фермента Cpf1 и множественных направляющих последовательностей, связанных с последовательностями прямого повтора.

В одном аспекте настоящее изобретение относится к рекомбинантному полинуклеотиду, содержащему последовательности множественных направляющих РНК выше или ниже (в зависимости от того, что является подходящим) последовательности прямого повтора, где каждая из направляющих последовательностей при экспрессии управляет специфичным к последовательности связыванием комплекса CRISPR на основе Cpf1 с его соответствующей целевой последовательностью, присутствующей в эукариотической клетке. В некоторых вариантах осуществления целевой последовательностью является вирусная последовательность, присутствующая в эукариотической клетке. В некоторых вариантах осуществления целевая последовательность представляет собой протоонкоген или онкоген.

Аспекты настоящего изобретения охватывают не встречающуюся в природе или сконструированную композицию, которая может содержать направляющую РНК (gRNA), предусматривающую направляющую последовательность, способную гибридизироваться с целевой последовательностью в представляющем интерес локусе генома в клетке, и фермент Cpf1, определяемый в данном документе, который может содержать по меньшей мере одну или более последовательностей ядерной локализации.

Аспект настоящего изобретения охватывает способы модифицирования представляющего интерес локуса генома для изменения экспрессии гена в клетке путем введения в клетку любой из композиций, описанных в данном документе.

Один аспект настоящего изобретения заключается в том, что вышеупомянутые элементы содержатся в одной композиции или содержатся в отдельных композициях. Эти композиции преимущественно могут быть применимы в отношении хозяина для индуцирования функционального эффекта на уровне генома.

Используемый в данном документе термин "направляющая РНК" или "gRNA" имеет значение, применяемое в других разделах данного документа, и предусматривает любую полинуклеотидную последовательность, характеризующуюся достаточной комплементарностью с целевой последовательностью нуклеиновой кислоты, чтобы гибридизироваться с целевой последовательностью нуклеиновой кислоты и управлять специфичным к последовательности связыванием комплекса нацеливания на нуклеиновую кислоту с целевой последовательностью нуклеиновой кислоты. Каждая gRNA может быть разработана с включением множественных связывающих сайтов распознавания (например, аптамеров), специфических в отношении одного и того же или разных адаптерных белков. Каждая gRNA может быть разработана так, чтобы связываться с промоторным участком, расположенным на -1000 - +1 нуклеотидов выше сайта начала транскрипции (т. е. TSS), предпочтительно -200 нуклеотидов. Такое размещение улучшает функциональные домены, которые воздействуют на активацию гена (например, активаторы транскрипции) или ингибирование гена (например, репрессоры транскрипции). Модифицированная gRNA может представлять собой одну или несколько модифицированных gRNA (например, по меньшей мере 1 gRNA, по меньшей мере 2 gRNA, по меньшей мере 5 gRNA, по меньшей мере 10 gRNA, по меньшей мере 20 gRNA, по меньшей мере 30 gRNA, по меньшей мере 50 gRNA), нацеленных на один или несколько целевых локусов, содержащихся в композиции. Указанные последовательности множественных gRNA могут быть расположены тандемно и предпочтительно разделены прямым повтором.

- Таким образом, каждый из gRNA, фермента CRISPR, определяемых в данном документе, могут по отдельности содержаться в композиции, и их можно вводить хозяину по отдельности или совместно. Альтернативно эти компоненты могут обеспечиваться в одной композиции для введения хозяину. Введение хозяину может быть выполнено посредством вирусных векторов, известных специалисту или описываемых в данном документе для доставки хозяину (например, лентивирусного вектора, аденовирусного вектора, вектора на основе AAV). Как объясняется в данном документе, применение различных маркеров отбора (например, для отбора лентивирусной gRNA) и различной концентрации gRNA (например, в зависимости от того, применяются ли множественные gRNA) может быть предпочтительным для индуцирования улучшенного эффекта. Исходя из этой концепции для индукции преобразования в локусе генома подходят несколько вариантов, включая расщепление ДНК, активацию гена или дезактивацию гена. С применением предусмотренных композиций специалист в данной области сможет осуществить эффективное и специфическое нацеливание на один или множественные локусы с помощью одинаковых или различных функциональных доменов для индукции одного или нескольких преобразований в локусе генома. Композиции можно применять в целом ряде способов скрининга библиотек в клетках и функционального моделирования in vivo (например, активации генов lincRNA и идентификации функций; моделирования мутации с приобретением функции; моделирования мутации с потерей функции; применения композиций в соответствии с настоящим изобретением для создания линий клеток и трансгенных животных в целях оптимизации и скрининга).

- Настоящее изобретение охватывает применение композиций по настоящему изобретению для создания и использования трансгенных клеток/животных с зависимой от условия или индуцируемой CRISPR; см, например, Platt et al., Cell (2014), 159(2): 440-455, или патентные публикации согласно PCT, процитированные в данном документе, такие как WO 2014/093622 (PCT/US2013/074667). Например, клетки или животные, такие как отличные от человека животные, например, позвоночные или млекопитающие, такие как грызуны, например, мыши, крысы, или другие лабораторные или внелабораторные животные, например, кошки, собаки, овцы и т.д., могут характеризоваться состоянием "нокин", в результате чего у животного в зависимости от условия или индуцируемо экспрессируется Cpf1, как описано в Platt et al. Таким образом целевая клетка или животное содержат зависимый от условия или индуцируемый (например, в форме Cre-зависимых конструкций) фермент CRISPR (например, Cpf1) (например, в форме Cre-зависимых конструкций), при экспрессии вектора, внедренного в целевую клетку, вектор экспрессирует то, что индуцирует или обеспечивает условие для экспрессии фермента CRISPR (например, Cpf1) в целевой клетке. С применением идей и композиций, определяемых в данном документе, с известным способом создания комплекса CRISPR индуцируемые преобразования генома также являются аспектом настоящего изобретения. Примеры таких индуцируемых преобразований были описаны в других разделах данного документа.

В некоторых вариантах осуществления фенотипическое изменение предпочтительно является результатом модификации генома при осуществлении нацеливания на генетическое заболевание, особенно в способах терапии, и предпочтительно, если обеспечивается матрица для репарации для коррекции или изменения фенотипа.

В некоторых вариантах осуществления заболевания-мишени также включают рак; серповидноклеточную анемию (обусловленную точечной мутацией); HBV, HIV; бета-талассемию; а также офтальмологическое или глазное заболевание, например, врожденный амавроз Лебера (LCA), вызванный дефектом сплайсинга.

Способы, продукты и варианты применения, описанные в данном документе, можно применять для целей, не связанных с терапией. Кроме того, любой из способов, описанных в данном документе, можно применять in vitro и ex vivo.

В одном аспекте предусмотрена не встречающаяся в природе или сконструированная композиция, содержащая:

I. две или более полинуклеотидные последовательности системы CRISPR-Cas, предусматривающие

(a) первую направляющую последовательность, способную гибридизироваться с первой целевой последовательностью в полинуклеотидном локусе,

(b) вторую направляющую последовательность, способную гибридизироваться со второй целевой последовательностью в полинуклеотидном локусе,

II. фермент Cpf1 или вторую полинуклеотидную последовательность, кодирующую его,

где будучи транскрибированными, первая и вторая направляющая последовательности управляют специфичным к последовательности связыванием первого и второго комплекса CRISPR на основе Cpf1 с первой и второй целевой последовательностями соответственно,

где первый комплекс CRISPR содержит фермент Cpf1 в комплексе с первой направляющей последовательностью, которая может гибридизироваться с первой целевой последовательностью,

где второй комплекс CRISPR содержит фермент Cpf1 в комплексе со второй направляющей последовательностью, которая может гибридизироваться со второй целевой последовательностью, и

где первая направляющая последовательность управляет расщеплением одной нити ДНК-дуплекса возле первой целевой последовательности, и вторая направляющая последовательность управляет расщеплением другой нити возле второй целевой последовательности, при этом индуцируется двухнитевой разрыв, с модификацией тем самым организма, или отличного от человеческого, или отличного от животного организма. Аналогично могут быть предусмотрены композиции, содержащие более двух направляющих РНК, например, каждая из которых специфична в отношении одной мишени, и они расположены тандемно в композиции или системе или комплексе CRISPR, описываемых в данном документе.

В другом варианте осуществления Cpf1 доставляется в клетку в виде белка. В другом и особенно предпочтительном варианте осуществления Cpf1 доставляется в клетку в виде белка или в виде нуклеотидной последовательности, кодирующей его. Доставка в клетку в виде белка может включать доставку рибонуклеопротеинового (RNP) комплекса, в котором белок находится в комплексе с множественными направляющими.

В одном аспекте предусмотрены клетки-хозяева и линии клеток, модифицированные с помощью композиций, систем или модифицированных ферментов по настоящему изобретению или содержащие их, в том числе стволовые клетки и их потомство.

В одном аспекте предусмотрены способы клеточной терапии, при которых, например, отдельную клетку или популяцию клеток отбирают или культивируют, где такую клетку или клетки модифицируют или они были модифицированы ex vivo, как описано в данном документе, а затем возвращают (отобранные клетки) или вводят (культивируемые клетки) в организм. Стволовые клетки, будь то эмбриональные, индуцированные плюрипотентные или тотипотентные стволовые клетки, также особенно предпочтительны в этом отношении. Но, разумеется, также предусматриваются варианты осуществления in vivo.

Способы по настоящему изобретению могут дополнительно предусматривать доставку матриц, таких как матрицы для репарации, которые могут представлять собой dsODN или ssODN, см. ниже. Доставка матриц может осуществляться одновременно или отдельно от доставки какого-либо или всех из фермента CRISPR или направляющих РНК и с помощью одного и того же или различных механизмов доставки. В некоторых вариантах осуществления предпочтительно, чтобы матрица доставлялась вместе с направляющими РНК и, предпочтительно, также с ферментом CRISPR. Примером может служить вектор на основе AAV, при этом фермент CRISPR представляет собой AsCpf1 или LbCpf1.

Способы по настоящему изобретению могут дополнительно предусматривать: (a) доставку в клетку двухнитевого олигодезоксинуклеотида (dsODN), содержащего "липкие" концы, комплементарные "липким" концам, создаваемым с помощью указанного двухнитевого разрыва, где указанный dsODN интегрируется в представляющий интерес локус; или (b) доставку в клетку однонитевого олигодезоксинуклеотида (ssODN), где указанный ssODN действует как матрица репарации с помощью гомологичной рекомбинации указанного двухнитевого разрыва. Способы по настоящему изобретению можно применять для предупреждения или лечения заболевания у индивидуума, при этом необязательно указанное заболевание вызвано дефектом в указанном представляющем интерес локусе. Способы по настоящему изобретению можно выполнять in vivo у индивидуума или ex vivo в отношении клетки, извлеченной из индивидуума, где необязательно указанную клетку возвращают в организм индивидуума.

- Настоящее изобретение также охватывает продукты, полученные в результате применения фермента CRISPR, или фермента Cas, или фермента Cpf1, или фермента CRISPR-CRISPR, или системы CRISPR-Cas, или системы CRISPR-Cpf1, для применения в тандеме или при множественном нацеливании, определяемых в данном документе.

Наборы

В одном аспекте настоящее изобретение относится к наборам, содержащим любой один или несколько из элементов, раскрытых в приведенных выше способах и композициях. В некоторых вариантах осуществления набор содержит векторную систему, описываемую в данном документе, и инструкции по применению набора. Элементы могут быть предоставлены отдельно или в комбинациях и могут быть предоставлены в любом подходящем контейнере, как, например, ампуле, флаконе или пробирке. Наборы могут включать gRNA и несвязанную защитную нить, как описано в данном документе. Наборы могут включать gRNA с защитной нитью, связанной по меньшей мере частично с ведущей последовательностью (т. е. pgRNA). Таким образом, наборы могут включать pgRNA в форме частично двунитевой нуклеотидной последовательности, как описано выше. В некоторых вариантах осуществления набор включает инструкции на одном или нескольких языках, например на нескольких языках. Инструкции могут быть специфичными по отношению к вариантам применения и способам, описанным в данном документе.

В некоторых вариантах осуществления набор содержит один или несколько реагентов для применения в способе, в котором используется один или несколько элементов, описанных в данном документе. Реагенты могут быть предоставлены в любом подходящем контейнере. Например, набор может предусматривать один или несколько реакционных буферов или буферов для хранения. Реагенты могут быть предоставлены в форме, которая применима в конкретном анализе, или в форме, которая предусматривает добавление одного или нескольких других компонентов перед применением (например, в форме концентрата или лиофилизированной форме). Буфер может быть любым буфером, в том числе без ограничения буфером с карбонатом натрия, буфером с бикарбонатом натрия, боратным буфером, Tris-буфером, буфером MOPS, буфером HEPES и их комбинациями. В некоторых вариантах осуществления буфер является щелочным. В некоторых вариантах осуществления буфер имеет значение pH от приблизительно 7 до приблизительно 10. В некоторых вариантах осуществления набор содержит один или несколько олигонуклеотидов, соответствующих направляющей последовательности, для встраивания в вектор, чтобы функционально связать направляющую последовательность и регуляторный элемент. В некоторых вариантах осуществления набор содержит матричный полинуклеотид для гомологичной рекомбинации. В некоторых вариантах осуществления набор содержит один или несколько векторов и/или один или несколько полинуклеотидов, описанных в данном документе. Преимущественно набор может предоставлять все элементы систем по настоящему изобретению.

В одном аспекте настоящее изобретение относится к способам применения одного или нескольких элементов системы CRISPR. Комплекс CRISPR по настоящему изобретению обеспечивает эффективные средства модифицирования целевого полинуклеотида. Комплекс CRISPR по настоящему изобретению обладает широкой применимостью, включая модифицирование (например, осуществление делеции, встраивания, транслокации, инактивации, активации) целевого полинуклеотида во множестве типов клеток. Комплекс CRISPR по настоящему изобретению как таковой имеет широкий спектр применений, например, в генной терапии, скрининге лекарственных средств, диагностике и прогнозировании заболеваний. Иллюстративный комплекс CRISPR содержит эффекторый белок CRISPR, образующий комплекс с направляющей последовательностью, гибридизирующейся с целевой последовательностью в целевом полинуклеотиде. В определенных вариантах осуществления последовательность прямого повтора связана с направляющей последовательностью.

В одном варианте осуществления настоящее изобретение относится к способу расщепления целевого полинуклеотида. Способ включает модификацию целевого полинуклеотида с применением комплекса CRISPR, который связывается с целевым полинуклеотидом и осуществляет расщепление указанного целевого полинуклеотида. Как правило, комплекс CRISPR по настоящему изобретению при введении в клетку создает разрыв (например, однонитевой или двухнитевой разрыв) в геномной последовательности. Например, способ можно применять для расщепления гена, ответственного за развитие заболевания, в клетке.

Репарация разрыва, созданного комплексом CRISPR, может осуществляться посредством процесса репарации, например, путем склонного к ошибкам негомологичного соединения концов (NHEJ) или высокоточной репарацией с помощью гомологичной рекомбинации (HDR). В ходе данного процесса репарации в геномную последовательность может быть введен экзогенный матричный полинуклеотид. В некоторых способах процесс HDR используют для модификации геномной последовательности. Например, в клетку вводят экзогенный матричный полинуклеотид, содержащий последовательность, подлежащую интеграции, фланкированную последовательностью, расположенной выше, и последовательностью, расположенной ниже. Последовательности, расположенные выше и ниже, характеризуются сходством последовательности с каждой стороной сайта интеграции в хромосоме.

При необходимости донорный полинуклеотид может представлять собой ДНК, например плазмидную ДНК, бактериальную искусственную хромосому (BAC), искусственную хромосому дрожжей (YAC), вирусный вектор, линейный фрагмент ДНК, ПЦР-фрагмент, "оголенную" нуклеиновую кислоту или нуклеиновую кислоту в комплексе со средством доставки, таким как липосома или полоксамер.

Экзогенный матричный полинуклеотид содержит последовательность, подлежащую интеграции (например, мутированный ген). Последовательность, предназначенная для интеграции, может представлять собой последовательность, эндогенную или экзогенную по отношению к клетке. Примеры последовательности, подлежащей интеграции, включают полинуклеотиды, кодирующие белок или некодирующую РНК (например, microRNA). Таким образом, последовательность, предназначенная для интеграции, может быть функционально связанной с соответствующей регуляторной последовательностью или соответствующими регуляторными последовательностями. Альтернативно последовательность, подлежащая интеграции, может обеспечивать регуляторную функцию.

Последовательности, расположенные выше и ниже в экзогенном матричном полинуклеотиде, выбирают таким образом, чтобы способствовать рекомбинации между хромосомной последовательностью, представляющей интерес, и донорным полинуклеотидом. Последовательность, расположенная выше, представляет собой последовательность нуклеиновой кислоты, которая обладает сходством последовательности с геномной последовательностью, расположенной выше подвергаемого нацеливанию сайта интеграции. Аналогично последовательность, расположенная ниже, представляет собой последовательность нуклеиновой кислоты, которая обладает сходством последовательности с хромосомной последовательностью, расположенной ниже подвергаемого нацеливанию сайта интеграции. Последовательности, расположенные выше и ниже в экзогенном матричном полинуклеотиде, могут характеризоваться 75%, 80%, 85%, 90%, 95% или 100% идентичностью последовательности с подвергаемой нацеливанию геномной последовательностью. Последовательности, расположенные выше и ниже в экзогенном матричном полинуклеотиде, предпочтительно характеризуются 95%, 96%, 97%, 98%, 99% или 100% идентичностью последовательности с подвергаемой нацеливанию геномной последовательностью. В некоторых способах последовательности, расположенные выше и ниже в экзогенном матричном полинуклеотиде, характеризуются приблизительно 99% или 100% идентичностью последовательности с подвергаемой нацеливанию геномной последовательностью.

Последовательность, расположенная выше или ниже, может содержать от приблизительно 20 п. о. до приблизительно 2500 п. о., например приблизительно 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000, 2100, 2200, 2300, 2400 или 2500 п. о. В некоторых способах иллюстративная последовательность, расположенная выше или ниже, имеет от приблизительно 200 п. о. до приблизительно 2000 п. о., от приблизительно 600 п. о. до приблизительно 1000 п. о. или, более конкретно, от приблизительно 700 п. о. до приблизительно 1000 п. о.

В некоторых способах экзогенный матричный полинуклеотид может дополнительно содержать маркер. Такой маркер может облегчать скрининг в отношении подвергаемых нацеливанию интеграций. Примеры подходящих маркеров включают сайты рестрикции, флуоресцентные белки или селектируемые маркеры. Экзогенный матричный полинуклеотид согласно настоящему изобретению можно сконструировать с применением методик рекомбинантной ДНК (см., например, Sambrook et al., 2001 и Ausubel et al., 1996).

В иллюстративном способе модифицирования целевого полинуклеотида посредством интеграции экзогенного матричного полинуклеотида в геномную последовательность вводят двухнитевой разрыв с помощью комплекса CRISPR, осуществляют репарацию разрыва посредством гомологичной рекомбинации с участием экзогенного матричного полинуклеотида, так что матрица интегрируется в геном. Наличие двухнитевого разрыва способствует интеграции матрицы.

В других вариантах осуществления настоящее изобретение относится к способу модификации экспрессии полинуклеотида в эукариотической клетке. Способ включает повышение или снижение экспрессии целевого полинуклеотида с помощью комплекса CRISPR, который связывается с полинуклеотидом.

В некоторых способах регуляторную последовательность можно инактивировать, так что она больше не функционирует в качестве регуляторной последовательности. Используемое в данном документе выражение "регуляторная последовательность" относится к любой последовательности нуклеиновой кислоты, которая оказывает влияние на транскрипцию, трансляцию или доступность последовательности нуклеиновой кислоты. Примеры регуляторной последовательности включают промотор, терминатор транскрипции и энхансер, которые являются регуляторными последовательностями. Инактивированная целевая последовательность может содержать мутацию по типу делеции (т. е. делецию одного или нескольких нуклеотидов), мутацию по типу вставки (т. е. вставку одного или нескольких нуклеотидов) или нонсенс-мутацию (т. е. замену одного нуклеотида на другой нуклеотид, так что вводится стоп-кодон). В некоторых способах инактивация целевой последовательности приводит в результате к "нокауту" целевой последовательности.

Иллюстративные способы применения системы CRISPR Cas

Настоящее изобретение относится к не встречающейся в природе или сконструированной композиции, или одному или нескольким полинуклеотидам, кодирующим компоненты указанной композиции, или вектору или системам доставки, содержащим один или несколько полинуклеотидов, кодирующих компоненты указанной композиции, для применения при модификации целевой клетки in vivo, ex vivo или in vitro, и они могут быть выполнены при помощи способа, который изменяет клетку таким образом, что после модификации потомство или линия клеток клетки, модифицированной при помощи CRISPR, сохраняет измененный фенотип. Модифицированные клетки и потомство могут быть частью многоклеточного организма, такого как растение или животное, с применением ex vivo или in vivo системы CRISPR по отношению к желаемым типам клеток. Изобретение CRISPR может представлять собой терапевтический способ лечения. Терапевтический способ лечения может предусматривать редактирование гена или генома или генную терапию.

Применение инактивированного фермента CRISPR Cpf1 для способов обнаружения, таких как FISH

В одном аспекте настоящее изобретение относится к сконструированной не встречающейся в природе системе CRISPR-Cas, содержащей каталитически неактивный белок Cas, описанный в данном документе, предпочтительно инактивированный Cpf1 (dCpf1), и применению этой системы в способах обнаружения, таких как флуоресцентная гибридизация in situ (FISH). dCpf1, который не обладает способностью выполнять разрывы в двух нитях ДНК, может быть слит с маркером, таким как флуоресцентный белок, такой как усиленный зеленый флуоресцентный белок (eEGFP), и коэкспрессировать с малыми направляющими РНК для нацеливания на перицентрические, центрические и телоцентрические повторы in vivo. Систему dCpf1 можно применять для визуализации повторяющихся последовательностей и отдельных генов в геноме человека. Такие новые варианты применения меченых систем dCpf1 CRISPR-cas могут быть важными в визуализации клеток и изучении функциональной ядерной архитектуры, особенно в случаях с небольшим объемом ядра или сложными 3-D-структурами. (Chen B, Gilbert LA, Cimini BA, Schnitzbauer J, Zhang W, Li GW, Park J, Blackburn EH, Weissman JS, Qi LS, Huang B. 2013. Dynamic imaging of genomic loci in living human cells by an optimized CRISPR/Cas system. Cell 155(7):1479-91. doi: 10.1016/j.cell.2013.12.001.).

Модификация мишени при помощи системы или комплекса CRISPR Cas (например, комплекса Cpf1-РНК)

В одном аспекте настоящее изобретение относится к способам модификации целевого полинуклеотида в эукариотической клетке, что может происходить in vivo, ex vivo или in vitro. В некоторых вариантах осуществления способ включает отбор клетки или популяции клеток у человека или отличного от человека животного и модификацию клетки или клеток. Культивирование можно осуществлять на любой стадии ex vivo. Клетку или клетки можно даже повторно вводить отличному от человека животному или в растение. Что касается повторно вводимых клеток, особенно предпочтительно, чтобы эти клетки являлись стволовыми клетками.

В некоторых вариантах осуществления способ включает обеспечение связывания комплекса CRISPR с целевым полинуклеотидом для осуществления расщепления указанного целевого полинуклеотида, тем самым модифицируя целевой полинуклеотид, где комплекс CRISPR содержит фермент CRISPR в комплексе с направляющей последовательностью, гибридизируемой или способной гибридизироваться с целевой последовательностью в пределах указанного целевого полинуклеотида.

В одном аспекте настоящего изобретения предусмотрен способ модифицирования экспрессии полинуклеотида в эукариотической клетке. В некоторых вариантах осуществления способ включает обеспечение связывания комплекса CRISPR с полинуклеотидом, так что указанное связывание приводит к повышенной или сниженной экспрессии указанного полинуклеотида; где комплекс CRISPR содержит фермент CRISPR в комплексе с направляющей последовательностью, гибридизируемой или способной гибридизироваться с целевой последовательностью в пределах указанного полинуклеотида. Аналогичные факторы и условия распространяются на способы модификации целевого полинуклеотида, как изложено выше. Фактически, эти варианты отбора образцов, культивирования и повторного введения охватываются аспектами настоящего изобретения.

Действительно, в любом аспекте по настоящему изобретению, комплекс CRISPR может содержать фермент CRISPR в комплексе с направляющей последовательностью, гибридизируемой или способной гибридизироваться с целевой последовательностью. Аналогичные факторы и условия распространяются на способы модификации целевого полинуклеотида, как изложено выше.

Таким образом, в любом из не встречающихся в природе ферментов CRISPR, описанных в данном документе, содержится по меньшей мере одна модификация, и тем самым фермент характеризуется определенными улучшенными свойствами. В частности, любой из ферментов способен образовывать комплекс CRISPR с направляющей РНК. При образовании такого комплекса направляющая РНК способна связываться с целевой полинуклеотидной последовательностью, и фермент способен модифицировать целевой локус. Кроме того, фермент в комплексе CRISPR характеризуется сниженной способностью модифицировать один или несколько нецелевых локусов по сравнению с немодифицированным ферментом.

Кроме того, модифицированные ферменты CRISPR, описанные в данном документе, охватывают ферменты, где в комплексе CRISPR фермент характеризуется повышенной способностью модифицировать один или несколько целевых локусов по сравнению с немодифицированным ферментом. Такая функция может быть предусмотрена отдельно или предусмотрена в сочетании с вышеописанной функцией сниженной способности модифицировать один или несколько нецелевых локусов. Любые такие ферменты могут быть предусмотрены с одной из дополнительных модификаций фермента CRISPR, как описано в данном документе, например, в сочетании с активностью, обеспечиваемой одним или несколькими ассоциированными гетерологичными функциональными доменами, любыми дополнительными мутациями с целью снижения нуклеазной активности и т. п.

В предпочтительных вариантах осуществления настоящего изобретения предусмотрен модифицированный фермент CRISPR со сниженной способностью модифицировать один или несколько нецелевых локусов по сравнению с немодифицированным ферментом и повышенной способностью модифицировать один или несколько целевых локусов по сравнению с немодифицированным ферментом. В сочетании с дополнительными модификациями фермента можно достичь существенно усиленной специфичности. Например, предусмотрена комбинация таких предпочтительных вариантов осуществления с одной или несколькими дополнительными мутациями, где одна или несколько дополнительных мутаций находятся в одном или нескольких каталитически активных доменах. Такие дополнительные каталитические мутации могут придавать функциональные свойства никаз, как описано подробно в других частях данного документа. В таких ферментах повышенная специфичность может быть достигнута за счет усиленной специфичности с точки зрения ферментативной активности.

Модификации для снижения нецелевых эффектов и/или повышения целевых эффектов, как описано выше, могут быть выполнены с аминокислотными остатками, расположенными в положительно заряженном участке/бороздке, находящейся между доменами RuvC-III и HNH. Предполагается, что любой из функциональных эффектов, описанных выше, может быть достигнут с помощью модификации аминокислот в вышеупомянутой бороздке, однако также с помощью модификации аминокислот вблизи бороздки или за ее пределами.

Дополнительные функциональные свойства, которые могут быть сконструированы в модифицированных ферментах CRISPR, как описано в данном документе, могут включать следующее. 1. Модифицированные ферменты CRISPR, которые нарушают взаимодействие ДНК и белка без нарушения третичной или вторичной структуры белков. Это включает остатки, которые контактируют с любой частью дуплекса РНК:ДНК. 2. Модифицированные ферменты CRISPR, которые ослабляют взаимодействия между белками, удерживающими Cpf1 в конформации, необходимой для разрезания нуклеазами в ответ на связывание с ДНК (целевые или нецелевые). Например: модификация, которая незначительно ингибирует, но по-прежнему обеспечивает конформацию нуклеазы домена HNH (располагается в поддающемся разрезанию фосфате). 3. Модифицированные ферменты CRISPR, которые усиливают взаимодействия между белками, удерживающими Cpf1 в конформации, ингибирующей активность в ответ на связывание с ДНК (целевые или нецелевые). Например: модификация, которая стабилизирует домен HNH в конформации за пределами поддающегося разрезанию фосфата. Любое такое дополнительное функциональное усиление может быть предусмотрено в комбинации с любой другой модификацией фермента CRISPR, как описано подробно в других местах данного документа.

Любые из описанных в данном документе улучшенных функциональных свойств могут быть выполнены по отношению к любому ферменту CRISPR, такому как фермент Cpf1. Однако предполагается, что любое из функциональных свойств, описанных в данном документе, может быть сконструировано в ферментах Cpf1 от других ортологов, в том числе химерных ферментов, содержащих фрагменты из нескольких ортологов.

Нуклеиновые кислоты, аминокислоты и белки, регуляторные последовательности, векторы и прочие

В настоящем изобретении нуклеиновые кислоты используются для связывания целевых последовательностей ДНК. Это является преимущественным, поскольку получать нуклеиновые кислоты намного легче и дешевле, чем белки, и специфичность может варьировать в зависимости от длины фрагмента, если необходима гомология. Например, не требуется сложное 3-D определение положений многочисленных доменов. Термин "полинуклеотид", "нуклеотид", "нуклеотидная последовательность", "нуклеиновая кислота" и "олигонуклеотид" используют взаимозаменяемо. Они обозначают полимерную форму нуклеотидов любой длины, как дезоксирибонуклеотидов, так и рибонуклеотидов или их аналогов. Полинуклеотиды могут обладать любой пространственной структурой и могут выполнять любую функцию, известную или неизвестную. Неограничивающими примерами полинуклеотидов являются следующие: кодирующие или некодирующие участки гена или фрагмента гена, локусы(локус), определенные(определенный) в результате анализа сцепления, экзоны, интроны, матричная РНК (мРНК), транспортная РНК, рибосомная РНК, короткая интерферирующая РНК (siRNA), короткая шпилечная РНК (shRNA), микроРНК (miRNA), рибозимы, кДНК, рекомбинантные полинуклеотиды, разветвленные полинуклеотиды, плазмиды, векторы, выделенные ДНК любой последовательности, выделенные РНК любой последовательности, нуклеиновые кислоты-зонды и праймеры. Термин также охватывает структуры, подобные нуклеиновым кислотам с синтетическими каркасами, см., например, Eckstein, 1991; Baserga et al., 1992; Milligan, 1993; WO 97/03211; WO 96/39154; Mata, 1997; Strauss-Soukup, 1997 и Samstag, 1996. Полинуклеотид может содержать один или несколько модифицированных нуклеотидов, как, например, метилированные нуклеотиды и аналоги нуклеотидов. При наличии, модификации в нуклеотидную структуру могут быть внесены до или после сборки полимера. Последовательность нуклеотидов может прерываться отличными от нуклеотидов компонентами. Полинуклеотид можно дополнительно модифицировать после полимеризации, как, например, путем соединения с компонентом для мечения. Используемый в данном документе термин "дикий тип" является термином из данной области, понятным специалисту в данной области, и означает типичную форму организма, штамма, гена или характеристики, которая встречаются в природе в отличие от мутантных или вариантных форм. "Дикий тип" может представлять собой основу. Используемый в данном документе термин "вариант" следует понимать как означающее проявление качеств, которые характеризуются паттерном, который отличается от встречающегося в природе. Термины "не встречающийся в природе" или "сконструированный" используют взаимозаменяемо, и они указывают на вмешательство человека. Термины, в тех случаях, когда они касаются молекул нуклеиновых кислот или полипептидов, означают, что молекула нуклеиновой кислоты или полипептид по меньшей мере практически не содержат по меньшей мере один иной компонент, с которым они естественным образом связаны в природе и встречаются в природе. "Комплементарность" означает способность нуклеиновой кислоты образовывать водородную(водородные) связь(связи) с другой последовательностью нуклеиновой кислоты с помощью либо традиционного образования пар по Уотсону-Крику, либо других нетрадиционных типов. Процент комплементарности показывает процентную долю остатков в молекуле нуклеиновой кислоты, которые могут образовывать водородные связи (к примеру, образование пар по Уотсону-Крику) со второй последовательностью нуклеиновой кислоты (к примеру, при этом 5, 6, 7, 8, 9, 10 из 10 будут на 50%, 60%, 70%, 80%, 90% и 100% комплементарны). "Точная комплементарность" означает, что все непрерывные остатки последовательности нуклеиновой кислоты будут связаны водородными связями с таким же количеством непрерывных остатков во второй последовательности нуклеиновой кислоты. Используемое в данном документе выражение "практически комплементарный" означает степень комплементарности, которая составляет по меньшей мере 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 97%, 98%, 99% или 100% в пределах участка из 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 30, 35, 40, 45, 50 или более нуклеотидов, или относится к двум нуклеиновым кислотам, которые гибридизируются при жестких условиях. Используемое в данном документе выражение"жесткие условия" в отношении гибридизации означают условия, при которых нуклеиновая кислота с комплементарностью к целевой последовательности преимущественно гибридизируется с целевой последовательностью и практически не гибридизируется с не подвергаемыми нацеливанию последовательностями. Жесткие условия, как правило, являются зависимыми от последовательности и изменяются в зависимости от ряда факторов. В целом, чем длиннее последовательность, тем выше температура, при которой последовательность специфично гибридизируется со своей целевой последовательностью. Неограничивающие примеры жестких условий описаны подробно в Tijssen (1993), Laboratory Techniques In Biochemistry And Molecular Biology-Hybridization With Nucleic Acid Probes Part I, Second Chapter "Overview of principles of hybridization and the strategy of nucleic acid probe assay", Elsevier, N.Y. Если предполагается полинуклеотидная последовательность, то также предусматриваются комплементарные или частично комплементарные последовательности. Эти последовательности предпочтительно способны гибридизироваться с эталонной последовательностью при условиях высокой жесткости. Как правило, для доведения скорости гибридизации до максимума, выбирают условия гибридизации относительно низкой жесткости: температура на приблизительно 20-25°C ниже температуры точки плавления (T_m). T_m представляет собой температуру, при которой 50% специфичной целевой последовательности гибридизируется с точно комплементарным зондом в растворе при определенной ионной силе и pH. Как правило, если требуется по меньшей мере приблизительно 85% нуклеотидная комплементарность гибридизированных последовательностей, выбирают очень жесткие условия отмывки с температурой на приблизительно 5-15°C ниже, чем T_m. Если требуется по меньшей мере приблизительно 70% нуклеотидная комплементарность гибридизированных последовательностей, выбирают умеренно жесткие условия отмывки с температурой на приблизительно 15-30°C ниже, чем T_m. Высоко пермиссивные (очень низкой жесткости) условия отмывки могут характеризоваться наименьшей температурой на 50°C ниже T_m, что допускает высокий уровень несовпадений между гибридизированными последовательностями. Специалисты в данной области поймут, что другие физические и химические параметры на стадиях гибридизации и отмывки также можно изменять для того, чтобы повлиять на получаемый в результате выявляемый сигнал гибридизации исходя из конкретного уровня гомологии между целевой последовательностью и последовательностью зонда. Предпочтительные условия высокой жесткости предусматривают инкубацию в 50% формамиде, 5×SSC и 1% SDS при 42°C, или инкубацию при 5×SSC и 1% SDS при 65°C с отмывкой в 0,2×SSC и 0,1% SDS при 65°C. "Гибридизация" относится к реакции, в которой один или несколько полинуклеотидов вступают в реакцию с образованием комплекса, который стабилизирован посредством образования водородных связей между основаниями остатков нуклеотидов. Образование водородных связей может происходить по принципу образования пар по Уотсону-Крику, Хугстиновского связывания или посредством любого другого специфичного к последовательности способа. Комплекс может содержать две нити, образующие дуплексную структуру, три или более нитей, образующих многонитевой комплекс, одиночную самогибридизирующуюся нить или любую их комбинацию. Реакция гибридизации может представлять собой стадию в более обширном способе, такую как начальная стадия ПЦР или расщепление полинуклеотида с помощью фермента. Последовательность, способную к гибридизации с данной последовательностью, называют "комплементарной последовательностью" для данной последовательности. Используемый в данном документе термин "локус генома" или "локус" (форма множественного числа локусы) представляет собой конкретное положение гена или последовательности ДНК на хромосоме. "Ген" относится к фрагментам ДНК или РНК, которые кодируют цепь полипептида или РНК, которые играют функциональную роль в организме, и, следовательно, он представляет собой молекулярную единицу наследственности в живых организмах. Для цели настоящего изобретения может считаться, что гены содержат участки, которые регулируют образование продукта гена, независимо от того являются ли регуляторные последовательности смежными с кодирующими и/или транскрибируемыми последовательностями или нет. Соответственно, ген содержит, но без обязательного ограничения, промоторные последовательности, терминаторы, регуляторные последовательности трансляции, например, сайты связывания рибосомы и сайты внутренней посадки рибосомы, энхансеры, сайленсеры, инсуляторы, граничные элементы, точки начала репликации, сайты прикрепления к матриксу и регуляторные участки локуса. Используемый в данном документе термин "экспрессия локуса генома" или "экспрессия гена" относится к процессу, в ходе которого информация гена используется в синтезе функционального продукта гена. Продукты экспрессии генов часто представляют собой белки, но у генов, не кодирующих белки, например генов rRNA или генов tRNA, продукт представляет собой функциональную РНК. Процесс экспрессии генов используется всеми известными живыми организмами - эукариотами (в том числе многоклеточными организмами), прокариотами (бактериями и археями) и вирусами для образования функциональных продуктов, необходимых для выживания. Как используется в данном документе, "экспрессия" гена или нуклеиновой кислоты охватывает не только экспрессию генов в клетках, но также транскрипцию и трансляцию нуклеиновой(нуклеиновых) кислоты(кислот) в системах клонирования и в любом другом контексте. Используемый в данном документе термин "экспрессия" также означает процесс, посредством которого полинуклеотид транскрибируется с ДНК-матрицы (как, например, с образованием мРНК или другого РНК-транскрипта), и/или процесс, с помощью которого транскрибированная мРНК далее транслируется с образованием пептидов, полипептидов или белков. Транскрипты и закодированные полипептиды можно в совокупности называть "продуктом гена". Если полинуклеотид получен из геномной ДНК, то экспрессия может включать сплайсинг мРНК в эукариотической клетке. Термины "полипептид", "пептид" и "белок" используются в данном документе взаимозаменяемо для обозначения полимеров из аминокислот любой длины. Полимер может быть линейным или разветвленным, он может содержать модифицированные аминокислоты, и его структура может прерываться отличными от аминокислот компонентами. Термины также охватывают полимер из аминокислот, который был модифицирован; например, образованием дисульфидных связей, гликозилированием, липидизацией, ацетилированием, фосфорилированием или любой другой манипуляцией, как, например, соединением с компонентом для мечения. Используемое в данном документе выражение "аминокислота" включает природные и/или отличные от природных или синтетические аминокислоты, в том числе глицин и как D-, так и L-оптические изомеры, и аналоги аминокислот, и пептидомиметики. Используемое в данном документе выражение "домен" или "белковый домен" относится к части последовательности белка, которая может существовать и функционировать независимо от остальной части белковой цепи. Как описано в аспектах согласно настоящему изобретению, идентичность последовательности относится к гомологии последовательности. Сравнения гомологии можно проводить на глаз или, что делается чаще, с помощью легко доступных программ для сравнения последовательностей. С помощью этих коммерчески доступных компьютерных программ можно рассчитывать процент (%) гомологии между двумя или более последовательностями, а также можно рассчитывать идентичность последовательности между двумя или более аминокислотными последовательностями или последовательностями нуклеиновых кислот.

В аспектах по настоящему изобретению термин "направляющая РНК" относится к полинуклеотидной последовательности, содержащей предположительную или идентифицированную последовательность crRNA или направляющую последовательность.

Используемый в данном документе термин "дикий тип" является термином из данной области, понятным специалисту в данной области, и означает типичную форму организма, штамма, гена или характеристики, которая встречаются в природе в отличие от мутантных или вариантных форм. "Дикий тип" может представлять собой основу.

Используемый в данном документе термин "вариант" следует понимать как означающее проявление качеств, которые характеризуются паттерном, который отличается от встречающегося в природе.

Термины "не встречающийся в природе" или "сконструированный" используют взаимозаменяемо, и они указывают на вмешательство человека. Термины, в тех случаях, когда они касаются молекул нуклеиновых кислот или полипептидов, означают, что молекула нуклеиновой кислоты или полипептид по меньшей мере практически не содержат по меньшей мере один иной компонент, с которым они естественным образом связаны в природе и встречаются в природе. Во всех аспектах и вариантах осуществления, вне зависимости от того, включают ли они эти термины, ясно, что предпочтительно они могут быть необязательными и, таким образом, предпочтительно включены или не предпочтительно не включены. Кроме того, термины "не встречающийся в природе" и "сконструированный" можно употреблять взаимозаменяемо, и, таким образом, можно использовать по отдельности или в сочетании, и одно или другое может замещать упоминание обоих совместно. В частности, "сконструированный" является предпочтительным вместо "не встречающийся в природе" или "не встречающийся в природе и/или сконструированный".

Значения гомологии последовательности можно получить с помощью любой из ряда компьютерных программ, известных из уровня техники, например, BLAST или FASTA и т. д. Подходящей компьютерной программой для осуществления такого выравнивания является пакет программ GCG Wisconsin Bestfit (Университет Висконсина, США; Devereux et al., 1984, Nucleic Acids Research 12:387). Примеры другого программного обеспечения, с помощью которого можно осуществлять сравнения последовательностей, включают без ограничения пакет программ BLAST (см. Ausubel et al., 1999 ibid - Chapter 18), FASTA (Atschul et al., 1990, J. Mol. Biol., 403-410) и пакет программ GENEWORKS в качестве средств для сравнения. Как в BLAST, так и в FASTA доступны оффлайн- и онлайн-поиск (см. Ausubel et al., 1999 ibid, pages 7-58 - 7-60). Однако предпочтительным является использование программы GCG Bestfit. Процентное значение (%) гомологии последовательности можно рассчитывать для непрерывных последовательностей, т. е. одну последовательность выравнивают с другой последовательностью и каждую аминокислоту или нуклеотид в одной последовательности непосредственно сравнивают с соответствующей аминокислотой или нуклеотидом в другой последовательности, один остаток за один раз. Это называется выравниванием "без гэпов". Как правило, такие выравнивания без гэпов осуществляют только для относительно малого числа остатков. Несмотря на то, что этот способ является очень простым и последовательным, при его применении не учитывается то, что, например, в паре последовательностей, которые в остальном являются идентичными, одна вставка или делеция может привести к тому, что следующие за ней аминокислотные остатки не будут учитываться при выравнивании, что, таким образом, потенциально приводит в результате к значительному уменьшению % гомологии при осуществлении глобального выравнивания. Следовательно, большинство способов сравнения последовательностей разработаны для получения оптимальных выравниваний, в которых учитываются возможные вставки и делеции без наложения чрезмерного штрафа на общую гомологию или балл идентичности. Это достигается путем вставки "гэпов" в выравнивание последовательностей в попытке доведения до максимума локальной гомологии или идентичности. Однако в этих более сложных способах назначаются "штрафы за внесения гэпа" для каждого гэпа, который встречается при выравнивании, таким образом, для одинакового количества идентичных аминокислот выравнивание последовательностей с наименьшим возможным количеством гэпов, что отражает более высокую степень родства между двумя сравниваемыми последовательностями, может привести в результате к более высокому баллу, чем выравнивание с большим количеством гэпов. Как правило, используют "значения аффинного штрафа за внесение гэпа для родственных последовательностей", с использованием которых начисляют относительно высокое значение за существование гэпа и меньший штраф за каждый последующий остаток в гэпе. Это наиболее часто используемая система оценки гэпов. Конечно, высокие штрафы за внесение гэпа могут привести к оптимизированным выравниваниям с меньшим количеством гэпов. В большинстве программ выравнивания допускается изменение штрафов за внесение гэпа. Однако предпочтительно использовать значения по умолчанию при использовании такого программного обеспечения для сравнений последовательностей. Например, при использовании пакета программ GCG Wisconsin Bestfit штраф за внесение гэпа по умолчанию для аминокислотных последовательностей составляет -12 для гэпа и -4 за каждый остаток его продолжения. Для расчета максимального % гомологии, следовательно, изначально требуется получение оптимального выравнивания с учетом штрафов за внесение гэпа. Подходящая компьютерная программа для осуществления такого выравнивания представляет собой пакет программ GCG Wisconsin Bestfit (Devereux et al., 1984 Nuc. Acids Research 12 p387). Примеры другого программного обеспечения, с помощью которого можно осуществлять сравнения последовательностей, включают без ограничения пакет программ BLAST (cм. Ausubel et al., 1999 Short Protocols in Molecular Biology, 4^th Ed. - Chapter 18), FASTA (Altschul et al., 1990 J. Mol. Biol. 403-410) и пакет программ GENEWORKS в качестве инструментов для сравнения. Как в BLAST, так и в FASTA доступны оффлайн- и онлайн-поиск (см. Ausubel et al., 1999, Short Protocols in Molecular Biology, pages 7-58 - 7-60). Однако для некоторых задач предпочтительно использовать программу GCG Bestfit. Новый инструмент под названием BLAST 2 Sequences также доступен для сравнения белковых и нуклеотидных последовательностей (см. FEMS Microbiol Lett. 1999 174(2): 247-50; FEMS Microbiol Lett. 1999 177(1): 187-8 и веб-сайт Национального центра биотехнологической информации на веб-сайте Национальных институтов здравоохранения). Несмотря на то, что конечный % гомологии можно измерять в единицах идентичности, способ выравнивания сам по себе, как правило, не основывается на сравнении пар по типу "все или ничего". Вместо этого, как правило, используется матрица замен со шкалой сходства, с использованием которой назначаются баллы для каждого попарного сравнения на основании химического сходства или эволюционного расстояния. Примером такой матрицы, используемой чаще всего, является матрица BLOSUM62 - матрица по умолчанию для набора программ BLAST. В программах GCG Wisconsin, как правило, используются либо общедоступные значения по умолчанию, либо специальные таблицы сравнения символов, если предоставляются (дополнительные подробности см. в руководстве пользователя). Для некоторых задач предпочтительным является применение общедоступных значений по умолчанию для пакета программ GCG или, в случае другого программного обеспечения, матрицы по умолчанию, например BLOSUM62. Альтернативно процентные значения гомологии можно рассчитывать с использованием функции множественного выравнивания в DNASIS^TM (Hitachi Software) с применением алгоритма, аналогичного CLUSTAL (Higgins DG & Sharp PM (1988), Gene 73(1), 237-244). После того, как программное обеспечение предоставит оптимальное выравнивание, возможно рассчитать % гомологии, предпочтительно % идентичности последовательности. Программное обеспечение, как правило, осуществляет это в ходе сравнения последовательностей и выдает численный результат. Последовательности также могут иметь делеции, вставки или замены аминокислотных остатков, которые приводят к молчащему изменению и приводят в результате к функционально эквивалентному веществу. Преднамеренные аминокислотные замены могут быть сделаны исходя из сходства свойств аминокислот (например, полярность, заряд, растворимость, гидрофобность, гидрофильность и/или амфипатическая природа остатков) и, следовательно, они являются применимыми для того, чтобы сгруппировать аминокислоты в функциональные группы. Аминокислоты можно сгруппировать исходя из свойств только их боковых цепей. Однако, также более полезно включить данные о мутациях. Группы аминокислот, полученные таким образом, вероятно, будут консервативными по структурным причинам. Эти группы могут быть описаны в форме диаграммы Венна (Livingstone C.D. and Barton G.J. (1993) "Protein sequence alignments: a strategy for the hierarchical analysis of residue conservation" Comput. Appl. Biosci. 9: 745-756) (Taylor W.R. (1986) "The classification of amino acid conservation" J. Theor. Biol. 119; 205-218). Консервативные замены могут быть сделаны, например, в соответствии с таблицей, представленной ниже, в которой описывается общепринятая группировка аминокислот в форме диаграммы Венна.

Группа Подгруппа Гидрофобные F W Y H K M I L V A G C Ароматическая F W Y H Алифатическая I L V Полярная W Y H K R E D C S T N Q Заряженная H K R E D Положительно заряженная H K R Отрицательно заряженная E D Небольшая V C A G S P T N D Маленькая A G S

Термины "субъект", "индивидуум" и "пациент" используются в данном документе взаимозаменяемо для обозначения позвоночного, предпочтительно млекопитающего, более предпочтительно человека. Млекопитающие включают без ограничения мышей, обезьян, людей, сельскохозяйственных животных, животных для спорта и домашних животных. Также охватываются ткани, клетки и их потомство биологического организма, полученные in vivo или культивированные in vitro.

Термины "терапевтическое средство", "оказывающее терапевтический эффект средство" или "средство для лечения" используются взаимозаменяемо, и они означают молекулу или соединение, которые оказывают некоторое благоприятное воздействие при введении субъекту. Благоприятное воздействие включает возможность осуществления диагностических определений; облегчение заболевания, симптома, нарушения или патологического состояния; ослабление или предупреждение начала проявления заболевания, симптома, нарушения или состояния; а также общее противодействие заболеванию, симптому, нарушению или патологическому состоянию.

Как используется в данном документе, "лечение", или "осуществление лечения", или "временное ослабление", или "облегчение" используются взаимозаменяемо. Эти термины обозначают подход для получения благоприятных или требуемых результатов, в том числе без ограничения терапевтического эффекта и/или профилактического эффекта. Под терапевтическим эффектом понимают любое терапевтически значимое улучшение или воздействие в отношении одного или нескольких заболеваний, состояний или симптомов, лечение которых осуществляют. Для профилактического эффекта композиции можно вводить субъекту с риском развития конкретного заболевания, состояния или симптома или субъекту, который сообщает об одном или нескольких физиологических симптомах заболевания, даже если заболевание, состояние или симптом могли еще не проявиться.

Термин "эффективное количество" или "терапевтически эффективное количество" означает количество средства, которого достаточно для обеспечения благоприятных или желательных результатов. Терапевтически эффективное количество может изменяться в зависимости от одного или нескольких из: субъекта и болезненного состояния, которые подлежат лечению, веса и возраста субъекта, тяжести болезненного состояния, способа введения и подобного, что специалист в данной области легко может определить. Термин также применим к дозе, с помощью которой можно получить изображение для определения любым одним из способов визуализации, описанных в данном документе. Конкретная доза может изменяться в зависимости от одного или нескольких из: конкретного выбранного средства, режима дозирования, которому следуют, того, вводят ли его в комбинации с другими средствами, выбора времени введения, визуализируемой ткани и физической системы доставки, в которой оно заключено.

Некоторые аспекты настоящего изобретения касаются векторных систем, содержащих один или несколько векторов, или векторов как таковых. Векторы могут быть разработаны для экспрессии транскриптов CRISPR (к примеру, транскриптов нуклеиновых кислот, белков или ферментов) в прокариотических или эукариотических клетках. Например, транскрипты CRISPR могут экспрессироваться в бактериальных клетках, например, Escherichia coli, клетках насекомых (с использованием бакуловирусных векторов экспрессии), клетках дрожжей или клетках млекопитающих. Подходящие клетки-хозяева дополнительно рассматриваются в Goeddel, GENE экспрессия TECHNOLOGY: METHODS IN ENZYMOLOGY 185, Academic Press, San Diego, Calif. (1990). Альтернативно рекомбинантный вектор экспрессии может транскрибироваться и транслироваться in vitro, например, с помощью регуляторных последовательностей промотора T7 и полимеразы T7.

Варианты осуществления согласно настоящему изобретению охватывают последовательности (как полинуклеотидные, так и полипептидные), которые могут содержать гомологичную замену (используемые в данном документе как замена, так и замещение означают обмен существующего аминокислотного остатка или нуклеотида на альтернативный остаток или нуклеотид), которая может происходить, т. е., в случае аминокислот, замену на аналогичную, например, основной на основную, кислой на кислую, полярной на полярную и т. д. Также может происходить негомологичная замена, т. е. остатка из одного класса на остаток из другого или, в альтернативном случае, связанная с включением аминокислот, отличных от природных, например, орнитина (далее в данном документе называемого Z), орнитиндиаминомасляной кислоты (далее в данном документе называемой B), норлейцинорнитина (далее в данном документе называемого O), пиридилаланина, тиенилаланина, нафтилаланина и фенилглицина. Вариантные аминокислотные последовательности могут содержать подходящие спейсерные группы, которые могут быть вставлены между любыми двумя аминокислотными остатками последовательности, в том числе алкильные группы, например, метильную, этильную или пропильную группы, в дополнение к аминокислотным спейсерам, таким как глициновые или β-аланиновые остатки. Другая форма вариации, которая включает присутствие одного или нескольких аминокислотных остатков в пептоидной форме, может быть хорошо понятна специалистам в данной области. Для того, чтобы избежать неопределенности, "пептоидная форма" используется для обозначения вариантных аминокислотных остатков, где замещающая группа для α-углерода расположена на атоме азота остатка, а не на α-углероде. Способы получения пептидов в пептоидной форме известны в данной области, например, Simon RJ et al., PNAS (1992) 89(20), 9367-9371 and Horwell DC, Trends Biotechnol. (1995) 13(4), 132-134.

Моделирование гомологии Соответствующие остатки в других ортологах Cpf1 можно идентифицировать при помощи способов Zhang et al., 2012 (Nature; 490(7421): 556-60) и Chen et al., 2015 (PLoS Comput Biol; 11(5): e1004248)-компьютерного способа белок-белкового взаимодействия (PPI) для прогноза взаимодействий, опосредованных границами домен-мотив. PrePPI (прогнозируемое PPI), структура на основе способа прогнозирования PPI, объединяет структурные доказательства с неструктурными доказательствами с использованием концепции байесовой статистики. Способ включает взятие пары исслудуемых белков и применение структурного выравнивания с целью выявления структурных элементов, которые соответствуют либо по своим экспериментально определенным структурам, либо по гомологичным моделям. Структурное выравнивание дополнительно используют для выявления как расположенных вблизи, так и удаленных структурных соседствующих элементов посредством общих и локальных геометрических связей. Во всех случаях, когда два соседствующих элемента из структурных элементов образуют комплекс, описанный в Protein Data Bank, он определяет матрицу для моделирования взаимодействия между двумя исследуемыми белками. Модели комплекса создают с помощью накладывания структур элементов на их соответствующий структурный соседствующий элемент в матрице. Этот подход дополнительно описан в Dey et al., 2013 (Prot Sci; 22: 359-66).

В определенных аспектах настоящее изобретение охватывает векторы. Как используется в данном документе, "вектор" представляет собой инструмент, который позволяет или облегчает перенос объекта из одной среды в другую. Он представляет собой репликон, такой как плазмида, фаг или космида, в который может быть встроен другой сегмент ДНК для осуществления таким образом репликации встроенного сегмента. Как правило, вектор способен к репликации, если ассоциирован с соответствующими элементами контроля. В целом, термин "вектор" относится к молекуле нуклеиновой кислоты, способной переносить другую нуклеиновую кислоту, с которой она связана. Векторы включают без ограничения молекулы нуклеиновой кислоты, которые являются однонитевыми, двухнитевыми или частично двухнитевыми; молекулы нуклеиновой кислоты, которые содержат один или несколько свободных концов, не содержат свободных концов (например, кольцевые); молекулы нуклеиновой кислоты, которые содержат ДНК, РНК или и ту, и другую; и другие разновидности полинуклеотидов, известные из уровня техники. Одним типом вектора является "плазмида", которая означает кольцевую петлю двухнитевой ДНК, в которую можно встраивать дополнительные сегменты ДНК, как, например, с помощью стандартных методик молекулярного клонирования. Другим типом вектора является вирусный вектор, где полученные из вируса последовательности ДНК или РНК присутствуют в векторе для упаковки в вирус (например, ретровирусы, ретровирусы с дефектной системой репликации, аденовирусы, аденовирусы с дефектной системой репликации и аденоассоциированные вирусы (AAV)). Вирусные векторы также включают полинуклеотиды, переносимые вирусом для трансфекции в клетку-хозяина. Определенные векторы способны к автономной репликации в клетке-хозяине, в которую они введены (например, бактериальные векторы с бактериальной точкой начала репликации и эписомные векторы для млекопитающих). Другие векторы (например, векторы для млекопитающих, отличные от эписомных) интегрируются в геном клетки-хозяина после введения в клетку-хозяина и, таким образом, реплицируются вместе с геномом хозяина. Более того, определенные векторы способны управлять экспрессией генов, с которыми они функционально связаны. Такие векторы в данном документе обозначены как "векторы экспрессии". Общепринятые пригодные для методик рекомбинантной ДНК векторы экспрессии часто находятся в форме плазмид.

Аспекты настоящего изобретения относятся к бицистронным векторам для направляющей РНК и (необязательно модифицированных или мутантных) ферментов CRISPR (например, Cpf1). Бицистронные векторы экспрессии для направляющей РНК и (необязательно модифицированные или мутантные) ферменты CRISPR являются предпочтительными. В целом и в частности, в данном варианте осуществления (необязательно модифицированные или мутантные) ферменты CRISPR предпочтительно управляются промотором CBh. РНК предпочтительно может управляться промотором Pol III, таким как промотор U6. Оптимальным является их сочетание.

В некоторых вариантах осуществления предусмотрена петля в направляющей РНК. Она может представлять собой петлю на стебле или тетра-петлю. Петля предпочтительно представляет собой GAAA, но не ограничивается этой последовательностью, или действительно ее длина составляет только 4 п.о. Действительно, предпочтительные петлеобразующие последовательности для использования в "шпилечных" структурах имеют длину четыре нуклеотида и наиболее предпочтительно имеют последовательность GAAA. Однако, можно применять более длинные или более короткие последовательности петли, а также альтернативные последовательности. Последовательности предпочтительно включают нуклеотидный триплет (например, AAA) и дополнительный нуклеотид (например, C или G). Примеры петлеобразующих последовательностей включают CAAA и AAAG. При осуществлении на практике любых способов, раскрытых в данном документе, подходящий вектор можно вводить в клетку или эмбрион посредством одного или нескольких способов, известных из уровня техники, в том числе без ограничения микроинъекции, электропорации, сонопорации, баллистической трансфекции, трансфекции, опосредованной фосфатом кальция, трансфекции с помощью катионных липидных частиц, липосомной трансфекции, трансфекции с помощью дендримеров, трансфекции посредством теплового шока, трансфекции посредством нуклеофекции, магнитофекции, липофекции, импалефекции, оптической трансфекции, поглощения нуклеиновых кислот, стимулируемого проприетарным средством, и доставки с помощью липосом, иммунолипосом, виросом или искусственных вирионов. В некоторых способах вектор вводят в эмбрион посредством микроинъекции. Можно осуществлять микроинъекцию вектора или векторов в ядро или цитоплазму эмбриона. В некоторых способах вектор или векторы можно вводить в клетку посредством нуклеофекции.

Термин "регуляторный элемент" предназначен для охвата промоторов, энхансеров, сайтов внутренней посадки рибосомы (IRES) и других контролирующих экспрессию элементов (к примеру, сигналы терминации транскрипции, такие как сигналы полиаденилирования и поли-U-последовательности). Такие регуляторные элементы описаны, например, в Goeddel, GENE EXPRESSION TECHNOLOGY: METHODS IN ENZYMOLOGY 185, Academic Press, San Diego, Calif. (1990). Регуляторные элементы включают такие элементы, которые управляют конститутивной экспрессией нуклеотидной последовательности во многих типах клеток-хозяев, и такие элементы, которые управляют экспрессией нуклеотидной последовательности только в определенных клетках-хозяевах (например, тканеспецифичные регуляторные последовательности). Тканеспецифичный промотор может управлять экспрессией преимущественно в представляющей интерес целевой ткани, такой как мышца, нейрон, кость, кожа, кровь, конкретных органах (к примеру, печени, поджелудочной железе) или определенных типах клеток (к примеру, лимфоцитах). Регуляторные элементы также могут управлять экспрессией зависимым от времени образом, как, например, зависимым от клеточного цикла или зависимым от стадии развития образом, который также может быть или может не быть тканеспецифичным или специфичным к типу клеток. В некоторых вариантах осуществления вектор содержит один или несколько промоторов pol III (к примеру, 1, 2, 3, 4, 5 или более промоторов pol III), один или несколько промоторов pol II (к примеру, 1, 2, 3, 4, 5 или более промоторов pol II), один или несколько промоторов pol I (к примеру, 1, 2, 3, 4, 5 или более промоторов pol I) или их комбинации. Примеры промоторов pol III включают без ограничения промоторы U6 и H1. Примеры промоторов pol II включают без ограничения ретровирусный промотор LTR вируса саркомы Рауса (RSV) (необязательно с энхансером RSV), промотор цитомегаловируса (CMV) (необязательно с энхансером CMV) [см., например, Boshart et al, Cell, 41:521-530 (1985)], промотор SV40, промотор гена дигидрофолатредуктазы, промотор гена β-актина, промотор гена глицерофосфаткиназы (PGK) и промотор EF1α. Также термином "регуляторный элемент" охватываются энхансерные элементы, такие как энхансеры WPRE; CMV; сегмент R-U5' в LTR из HTLV-I (Mol. Cell. Biol., Vol. 8(1), p. 466-472, 1988); энхансер SV40; а также интронная последовательность между экзонами 2 и 3 гена β-глобина кролика (Proc. Natl. Acad. Sci. USA., Vol. 78(3), p. 1527-31, 1981). Специалистам в данной области техники будет понятно, что конфигурация вектора экспрессии может зависеть от таких факторов, как выбор клетки-хозяина, подлежащей трансформации, требуемый уровень экспрессии и т. п. Вектор можно вводить в клетки-хозяева с получением, таким образом, транскриптов, белков или пептидов, в том числе слитых белков или пептидов, кодируемых нуклеиновыми кислотами, которые описаны в данном документе (например, транскриптов коротких палиндромных повторов, регулярно расположенных группами (CRISPR), белков, ферментов, их мутантных форм, их слитых белков и т. п.). По отношению к регуляторным последовательностям следует упомянуть заявку на патент США № 10/491026, содержание которой включено в данный документ посредством ссылки в полном объеме. По отношению к промоторам следует упомянуть PCT-публикацию WO 2011/028929 и заявку на патент США № 12/511940, содержание которых включено в данный документ посредством ссылки во их полноте.

Векторы могут быть разработаны для экспрессии транскриптов CRISPR (к примеру, транскриптов нуклеиновых кислот, белков или ферментов) в прокариотических или эукариотических клетках. Например, транскрипты CRISPR могут экспрессироваться в бактериальных клетках, например, Escherichia coli, клетках насекомых (с использованием бакуловирусных векторов экспрессии), клетках дрожжей или клетках млекопитающих. Подходящие клетки-хозяева дополнительно рассматриваются в Goeddel, GENE экспрессия TECHNOLOGY: METHODS IN ENZYMOLOGY 185, Academic Press, San Diego, Calif. (1990). Альтернативно рекомбинантный вектор экспрессии может транскрибироваться и транслироваться in vitro, например, с помощью регуляторных последовательностей промотора T7 и полимеразы T7.

Векторы можно вводить и размножать в прокариоте или прокариотической клетке. В некоторых вариантах осуществления прокариота используют для амплификации копий вектора, который предполагается вводить в эукариотическую клетку, или в качестве промежуточного вектора при получении вектора, который предполагается вводить в эукариотическую клетку (к примеру, путем амплификации плазмиды как части системы упаковки вирусного вектора). В некоторых вариантах осуществления прокариота используют для амплификации копий вектора и экспрессии одной или нескольких нуклеиновых кислот, как, например, для обеспечения источника одного или нескольких белков для доставки в клетку-хозяин или организм-хозяин. Экспрессию белков в прокариотах наиболее часто осуществляют в Escherichia coli с помощью векторов, содержащих конститутивные или индуцируемые промоторы, управляющие экспрессией либо слитых белков, либо белков, отличных от слитых белков. В слитых векторах добавляют некоторое количество аминокислот к белку, закодированному в них, как, например, к амино-концу рекомбинантного белка. Такие слитые векторы могут служить для одной или нескольких целей, как, например: (i) для повышения экспрессии рекомбинантного белка; (ii) для повышения растворимости рекомбинантного белка и (iii) для содействия очистке рекомбинантного белка путем функционирования в качестве лиганда при аффинной очистке. Часто в слитые векторы экспрессии сайт протеолитического расщепления вводят в место соединения слитого фрагмента и рекомбинантного белка для облегчения отделения рекомбинантного белка от слитого фрагмента после очистки слитого белка. Такие ферменты и их когнатные распознающие последовательности включают фактор Xa, тромбин и энтерокиназу. Иллюстративные слитые векторы экспрессии включают pGEX (Pharmacia Biotech Inc; Smith and Johnson, 1988. Gene 67: 31-40), pMAL (New England Biolabs, Беверли, Массачусетс) и pRIT5 (Pharmacia, Пискатауэй, Нью-Джерси), в которых соответственно глутатион-S-трансфераза (GST), мальтоза-связывающий белок E или белок A слиты с целевым рекомбинантным белком. Примеры подходящих индуцируемых не являющихся слитыми векторов экспрессии для E. coli включают pTrc (Amrann et al., (1988) Gene 69:301-315) и pET 11d (Studier et al., GENE EXPRESSION TECHNOLOGY: METHODS IN ENZYMOLOGY 185, Academic Press, San Diego, Calif. (1990) 60-89). В некоторых вариантах осуществления вектор является дрожжевым вектором экспрессии. Примеры векторов для экспрессии в дрожжах Saccharomyces cerivisae включают pYepSec1 (Baldari, et al., 1987. EMBO J. 6: 229-234), pMFa (Kuijan and Herskowitz, 1982. Cell 30: 933-943), pJRY88 (Schultz et al., 1987. Gene 54: 113-123), pYES2 (Invitrogen Corporation, Сан-Диего, Калифорния) и picZ (InVitrogen Corp, Сан-Диего, Калифорния). В некоторых вариантах осуществления вектор управляет экспрессией белка в клетках насекомых с помощью бакуловирусных векторов экспрессии. Бакуловирусные векторы, доступные для экспрессии белков в культивируемых клетках насекомых (к примеру, клетках SF9), включают группу pAc (Smith, et al., 1983. Mol. Cell. Biol. 3: 2156-2165) и группу pVL (Lucklow and Summers, 1989. Virology 170: 31-39).

В некоторых вариантах осуществления вектор способен управлять экспрессией одной или нескольких последовательностей в клетках млекопитающих с помощью вектора экспрессии для млекопитающих. Примеры векторов экспрессии для млекопитающих включают pCDM8 (Seed, 1987. Nature 329: 840) и pMT2PC (Kaufman, et al., 1987. EMBO J. 6: 187-195). При использовании в клетках млекопитающих функции контроля вектора экспрессии, как правило, обеспечиваются одним или несколькими регуляторными элементами. Например, широко используемые промоторы получают из вируса полиомы, аденовируса 2, цитомегаловируса, обезьяньего вируса 40 и других, раскрытых в данном документе и известных из уровня техники. Что касается других подходящих систем экспрессии как для прокариотических, так и для эукариотических клеток, см., к примеру, главы 16 и 17 в Sambrook, et al., MOLECULAR CLONING: A LABORATORY MANUAL. 2nd ed., Cold Spring Harbor Laboratory, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y., 1989.

В некоторых вариантах осуществления рекомбинантные векторы экспрессии для млекопитающих способны управлять экспрессией нуклеиновой кислоты преимущественно в определенном типе клеток (к примеру, тканеспецифичные регуляторные элементы используют для экспрессии нуклеиновой кислоты). Тканеспецифичные регуляторные элементы известны из уровня техники. Неограничивающие примеры подходящих тканеспецифичных промоторов включают промотор гена альбумина (специфичный к печени; Pinkert, et al., 1987. Genes Dev. 1: 268-277), специфичные к лимфоидной ткани промоторы (Calame and Eaton, 1988. Adv. Immunol. 43: 235-275), в частности, промоторы рецепторов T-клеток (Winoto and Baltimore, 1989. EMBO J. 8: 729-733) и иммуноглобулины (Baneiji, et al., 1983. Cell 33: 729-740; Queen and Baltimore, 1983. Cell 33: 741-748), нейрон-специфичные промоторы (к примеру, промотор гена нейрофиламента; Byrne and Ruddle, 1989. Proc. Natl. Acad. Sci. USA 86: 5473-5477), специфичные к клеткам поджелудочной железы промоторы (Edlund, et al., 1985. Science 230: 912-916) и специфичные к клеткам молочной железы промоторы (к примеру, промотор молочной сыворотки; патент США № 4873316 и публикация европейской заявки № 264166). Регулируемые стадией развития промоторы также охвачены, к примеру, промоторы генов hox мыши (Kessel and Gruss, 1990. Science 249: 374-379) и промотор гена α-фетопротеина (Campes and Tilghman, 1989. Genes Dev. 3: 537-546). Что касается этих прокариотических и эукариотических векторов, следует упомянуть патент США № 6750059, содержание которого включено в данный документ посредством ссылки во всей его полноте. Другие варианты осуществления по настоящему изобретению могут относиться к вирусным векторам, которые упоминаются в заявке на патент США № 13/092085, содержание которой включено в данный документ посредством ссылки во всей ее полноте. Тканеспецифичные регуляторные элементы известны из уровня техники и, в связи с этим, следует упомянуть патент США № 7776321, содержание которого включено в данный документ посредством ссылки во всей его полноте. В некоторых вариантах осуществления регуляторный элемент является функционально связанным с одним или несколькими элементами системы CRISPR так, чтобы управлять экспрессией одного или нескольких элементов системы CRISPR. В целом, CRISPR (короткие палиндромные повторы, регулярно расположенные группами), также известные как SPIDR (прерываемые спейсерами прямые повторы), составляют семейство локусов ДНК, которые, как правило, специфичны для определенного вида бактерий. Локус CRISPR включает определенный класс чередующихся коротких повторов последовательностей (SSR), которые были обнаружены у E. coli (Ishino et al., J. Bacteriol., 169:5429-5433 [1987]; и Nakata et al., J. Bacteriol., 171:3553-3556 [1989]), и ассоциированные гены. Подобные чередующиеся SSR были идентифицированы у Haloferax mediterranei, Streptococcus pyogenes, Anabaena и Mycobacterium tuberculosis (см. Groenen et al., Mol. Microbiol., 10:1057-1065 [1993]; Hoe et al., Emerg. Infect. Dis., 5:254-263 [1999]; Masepohl et al., Biochim. Biophys. Acta 1307:26-30 [1996]; и Mojica et al., Mol. Microbiol., 17:85-93 [1995]). Локусы CRISPR, как правило, отличаются от других SSR по структуре повторов, которые были названы короткими повторами с регулярными интервалами (SRSR) (Janssen et al., OMICS J. Integ. Biol., 6:23-33 [2002]; и Mojica et al., Mol. Microbiol., 36:244-246 [2000]). В целом, повторы являются короткими элементами, которые встречаются группами, которые регулярно разделены уникальными вставочными последовательностями с практически постоянной длинной (Mojica et al., [2000], выше). Несмотря на то, что последовательности повторов высоко консервативны между штаммами, некоторое количество чередующихся повторов и последовательностей спейсерных участков, как правило, отличаются от штамма к штамму (van Embden et al., J. Bacteriol., 182:2393-2401 [2000]). Локусы CRISPR идентифицировали у более чем 40 прокариотов (см., например, Jansen et al., Mol. Microbiol., 43:1565-1575 [2002]; и Mojica et al., [2005]), в том числе без ограничения Aeropyrum, Pyrobaculum, Sulfolobus, Archaeoglobus, Halocarcula, Methanobacterium, Methanococcus, Methanosarcina, Methanopyrus, Pyrococcus, Picrophilus, Thermoplasma, Corynebacterium, Mycobacterium, Streptomyces, Aquifex, Porphyromonas, Chlorobium, Thermus, Bacillus, Listeria, Staphylococcus, Clostridium, Thermoanaerobacter, Mycoplasma, Fusobacterium, Azarcus, Chromobacterium, Neisseria, Nitrosomonas, Desulfovibrio, Geobacter, Myxococcus, Campylobacter, Wolinella, Acinetobacter, Erwinia, Escherichia, Legionella, Methylococcus, Pasteurella, Photobacterium, Salmonella, Xanthomonas, Yersinia, Treponema и Thermotoga.

В целом, "система нацеливания на нуклеиновую кислоту", как используется в настоящей заявке, относится собирательно к транскриптам и другим элементам, участвующим в экспрессии или управляющих активностью CRISPR-ассоциированных ("Cas") генов нацеливания на нуклеиновую кислоту (также называемых в данном документе эффекторный белок), в том числе последовательностям, кодирующим белок Cas (эффекторный) нацеливания на нуклеиновую кислоту и направляющую РНК, или другим последовательностям и транскриптам из локуса CRISPR нацеливания на нуклеиновую кислоту. В некоторых вариантах осуществления один или несколько элементов системы нацеливания на нуклеиновую кислоту получены из системы CRISPR типа V/типа VI нацеливания на нуклеиновую кислоту. В некоторых вариантах осуществления один или несколько элементов системы нацеливания на нуклеиновую кислоту получены из конкретного организма, содержащего эндогенную систему CRISPR нацеливания на нуклеиновую кислоту. В целом, система нацеливания на нуклеиновую кислоту характеризуется элементами, которые способствуют образованию комплекса нацеливания на нуклеиновую кислоту в сайте целевой последовательности. В контексте образования комплекса нацеливания на нуклеиновую кислоту "целевая последовательность" относится к последовательности, по отношению к которой направляющая последовательность сконструирована так, чтобы обладать комплементарностью, где гибридизация между целевой последовательностью и направляющей РНК способствует образованию комплекса нацеливания на ДНК или РНК. Полная комплементарность не обязательна при условии, что имеет место достаточная комплементарность для осуществления гибридизации и способствования образованию комплекса нацеливания на нуклеиновую кислоту. Целевая последовательность может содержать полинуклеотиды РНК. В некоторых вариантах осуществления целевая последовательность расположена в ядре или цитоплазме клетки. В некоторых вариантах осуществления целевая последовательность может находиться в органелле эукариотической клетки, например, митохондрии или хлоропласте. Последовательность или матрицу, которую можно применять для рекомбинации в целевом локусе, содержащем целевые последовательности, называют "матрицей редактирования", или "РНК для редактирования" или "последовательностью для редактирования". В аспектах настоящего изобретения экзогенную матричную ДНК можно называть матрицей редактирования. В одном аспекте настоящего изобретения рекомбинация является гомологичной рекомбинацией.

Как правило, в контексте эндогенной системы нацеливания на нуклеиновую кислоту образование комплекса нацеливания на нуклеиновую кислоту (содержащего направляющую РНК, гибридизирующуюся с целевой последовательностью и образующую комплекс с одним или несколькими эффекторными белками для нацеливания на нуклеиновую кислоту) приводит к расщеплению одной или обеих нитей РНК в (к примеру, в пределах 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50 или более пар оснований) целевой последовательности или рядом с ней. В некоторых вариантах осуществления один или несколько векторов, управляющих экспрессией одного или нескольких элементов системы нацеливания на нуклеиновую кислоту, вводят в клетку-хозяина, так что экспрессия элементов системы нацеливания на нуклеиновую кислоту управляет образованием комплекса нацеливания на нуклеиновую кислоту на одном или нескольких целевых сайтах. Например, и эффекторный белок для нацеливания на нуклеиновую кислоту, и направляющая РНК могут быть функционально связаны с отдельными регуляторными элементами на отдельных векторах. Альтернативно два или более элементов, которые экспрессируются за счет одного и того же или разных регуляторных элементов, можно объединять в один вектор, при этом один или несколько дополнительных векторов обеспечивают любые компоненты системы нацеливания на нуклеиновую кислоту, не включенные в первый вектор, при этом компоненты системы нацеливания на нуклеиновую кислоту, которые объединены в одном векторе, могут быть расположены в любой подходящей ориентации, как, например один элемент расположен в направлении 5' ("выше") относительно второго элемента или в направлении 3’ ("ниже") относительно него. Кодирующая последовательность одного элемента может быть расположена на одной и той же или противоположной нити по отношению к кодирующей последовательности второго элемента и ориентирована в одном и том же или противоположном направлении. В некоторых вариантах осуществления один промотор управляет экспрессией транскрипта, кодирующего эффекторный белок для нацеливания на нуклеиновую кислоту и направляющую РНК, встроенных в одну или несколько интронных последовательностей (к примеру, каждая в разном интроне, две или более по меньшей мере в одном интроне или все в одном интроне). В некоторых вариантах осуществления эффекторный белок нацеливания на нуклеиновую кислоту и направляющая РНК функционально связаны с одним и тем же промотором и экспрессированы от такового.

В целом, направляющая последовательность представляет собой любую полинуклеотидную последовательность, характеризующуюся достаточной комплементарностью с целевой полинуклеотидной последовательностью для гибридизации с целевой последовательностью и управления специфичным к последовательности связыванием комплекса нацеливания на нуклеиновую кислоту с целевой последовательностью. В некоторых вариантах осуществления степень комплементарности между направляющей последовательностью и ее соответствующей целевой последовательностью при оптимальном выравнивании с применением подходящего алгоритма выравнивания составляет приблизительно или более чем приблизительно 50%, 60%, 75%, 80%, 85%, 90%, 95%, 97,5%, 99% или больше. Оптимальное выравнивание можно определять с помощью любого подходящего алгоритма для выравниваемых последовательностей, неограничивающие примеры которого включают алгоритм Смита-Ватермана, алгоритм Нидлмана-Вунша, алгоритмы, основанные на преобразовании Барроуза-Уилера (к примеру, Burrows Wheeler Aligner), ClustalW, Clustal X, BLAT, Novoalign (Novocraft Technologies), ELAND (Illumina, Сан-Диего, Калифорния), SOAP (доступный на soap.genomics.org.cn) и Maq (доступный на maq.sourceforge.net). В некоторых вариантах осуществления длина направляющей последовательности составляет приблизительно или более чем приблизительно 5, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 35, 40, 45, 50, 75 или более нуклеотидов. В некоторых вариантах осуществления длина направляющей последовательности составляет менее чем приблизительно 75, 50, 45, 40, 35, 30, 25, 20, 15, 12 или менее нуклеотидов. Способность направляющей последовательности управлять специфичным к последовательности связыванием комплекса нацеливания на нуклеиновую кислоту с целевой последовательностью можно оценить с помощью любого подходящего анализа. Например, компоненты системы нацеливания на нуклеиновую кислоту, достаточные для образования комплекса нацеливания на нуклеиновую кислоту, в том числе направляющая последовательность, подлежащая тестированию, могут быть доставлены в клетку-хозяина с соответствующей целевой последовательностью, как, например, с помощью трансфекции векторами, кодирующими компоненты последовательности нацеливания на нуклеиновую кислоту CRISPR, с последующей оценкой предпочтительного расщепления в пределах целевой последовательности или рядом с ней, как, например, с помощью анализа с использованием нуклеазы Surveyor, описываемого в данном документе. Аналогично расщепление целевой полинуклеотидной последовательности (или последовательности рядом с ней) может быть оценено в пробирке путем обеспечения целевой последовательности, компонентов комплекса нацеливания на нуклеиновую кислоту, в том числе направляющей последовательности, подлежащей тестированию, и контрольной направляющей последовательности, отличной от тестируемой направляющей последовательности, и сравнения связывания или степени расщепления в целевой последовательности или рядом с ней в случае реакций с тестируемой и контрольной направляющей последовательностью. Возможны и другие анализы, и они могут быть выполнены специалистами в данной области.

Направляющая последовательность может быть выбрана для целенаправленного воздействия на любую целевую последовательность. В некоторых вариантах осуществления целевая последовательность представляет собой последовательность в пределах транскрипта или мРНК.

В некоторых вариантах осуществления целевая последовательность является последовательностью в пределах генома клетки.

В некоторых вариантах осуществления направляющая последовательность выбрана для снижения доли вторичной структуры в направляющей последовательности. Вторичную структуру можно определить с помощью любого подходящего алгоритма сворачивания полинуклеотида. Некоторые программы основаны на вычислении минимальной свободной энергии Гиббса. Примером одного такого алгоритма является mFold, который описан Zuker и Stiegler (Nucleic Acids Res. 9 (1981), 133-148). Другим примером алгоритма сворачивания является доступный в режиме онлайн веб-сервер RNAfold, разработанный в Институте теоретической химии при Венском университете, в котором используется алгоритм прогнозирования структуры на основе центроидного способа (см., к примеру, A.R. Gruber et al., 2008, Cell 106(1): 23-24; и PA Carr and GM Church, 2009, Nature Biotechnology 27(12): 1151-62). Дополнительные алгоритмы можно найти в заявке на патент США с серийным номером TBA (номер дела у патентного поверенного 44790.11.2022; общая ссылка BI-2013/004A); включенной в данный документ при помощи ссылки.

В некоторых вариантах осуществления также предусмотрена матрица для рекомбинации. Матрица для рекомбинации может быть компонентом другого вектора, который описан в данном документе, может содержаться в отдельном векторе или предусматриваться в виде отдельного полинуклеотида. В некоторых вариантах осуществления матрица для рекомбинации разработана так, чтобы служить в качестве матрицы при гомологичной рекомбинации, как, например, в пределах целевой последовательности или рядом с ней, надрезанной или расщепленной ферментом с помощью эффекторного белка для нацеливания на нуклеиновую кислоту в качестве части комплекса нацеливания на нуклеиновую кислоту. Матричный полинуклеотид может иметь любую подходящую длину, как, например, приблизительно или более чем приблизительно 10, 15, 20, 25, 50, 75, 100, 150, 200, 500, 1000 нуклеотидов или более. В некоторых вариантах осуществления матричный полинуклеотид комплементарен части полинуклеотида, содержащего целевую последовательность. При оптимальном выравнивании матричный полинуклеотид может перекрываться с одним или несколькими нуклеотидами целевых последовательностей (к примеру, с приблизительно или более чем приблизительно 1, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 60, 70, 80, 90, 100 или более нуклеотидами). В некоторых вариантах осуществления при оптимальном выравнивании матричной последовательности и полинуклеотида, содержащего целевую последовательность, наиболее близкий нуклеотид матричного полинуклеотида находится в пределах приблизительно 1, 5, 10, 15, 20, 25, 50, 75, 100, 200, 300, 400, 500, 1000, 5000, 10000 или более нуклеотидов от целевой последовательности.

В некоторых вариантах осуществления эффекторный белок нацеливания на нуклеиновую кислоту является частью слитого белка, содержащего один или несколько доменов гетерологичного белка (например, приблизительно или более чем приблизительно 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более доменов в дополнение к эффекторному белку нацеливания на нуклеиновую кислоту). В некоторых вариантах осуществления эффекторный белок CRISPR является частью слитого белка, содержащего один или несколько доменов гетерологичного белка (например, приблизительно или более чем приблизительно 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более доменов в дополнение к ферменту CRISPR). Слитый белок, содержащий фермент CRISPR, может содержать любую дополнительную последовательность белка и необязательно линкерную последовательность между любыми двумя доменами. Примеры белковых доменов, которые могут быть слиты с ферментом CRISPR, включают без ограничения эпитопные метки, последовательности из генов-репортеров и белковые домены с одной или несколькими из следующих видов активности: метилазная активность, деметилазная активность, активность в отношении активации транскрипции, активность в отношении репрессии транскрипции, активность фактора освобождения транскрипта, активность в отношении модификации гистонов, активность расщепления РНК и активность связывания нуклеиновой кислоты. Неограничивающие примеры эпитопных меток включают гистидиновые (His) метки, V5-метки, FLAG-метки, метки гемагглютинина вируса гриппа (HA), Myc-метки, VSV-G-метки и тиоредоксиновые (Trx) метки. Примеры генов-репортеров включают без ограничения глутатион-S-трансферазу (GST), пероксидазу хрена (HRP), хлорамфеникол-ацетилтрансферазу (CAT), бета-галактозидазу, бета-глюкуронидазу, люциферазу, зеленый флуоресцентный белок (GFP), HcRed, DsRed, голубой флуоресцентный белок (CFP), желтый флуоресцентный белок (YFP) и автофлуоресцирующие белки, в том числе синий флуоресцентный белок (BFP). Фермент CRISPR может быть слит с последовательностью гена, кодирующей белок или фрагмент белка, которые связываются с молекулами ДНК или связываются с другими клеточными молекулами, в том числе без ограничения связывающий мальтозу белок (MBP), S-метка, продукты слияния Lex A и ДНК-связывающего домена (DBD), продукты слияния GAL4 и ДНК-связывающего домена и продукты слияния белка BP16 вируса простого герпеса (HSV). Дополнительные домены, которые могут образовывать часть слитого белка, содержащего фермент CRISPR, описаны в US20110059502, включенном в данный документ с помощью ссылки. В некоторых вариантах осуществления меченый фермент CRISPR используют для идентификации расположения целевой последовательности.

В некоторых вариантах осуществления фермент CRISPR может образовывать компонент индуцируемой системы. Индуцируемая природа системы будет обеспечивать возможность пространственно-временного контроля редактирования генов или экспрессии генов с использованием определенной формы энергии. Форма энергии может включать, но без ограничения, электромагнитное излучение, звуковую энергию, химическую энергию и тепловую энергию. Примеры индуцируемой системы включают индуцируемые тетрациклином промоторы (Tet-On или Tet-Off), двухгибридные системы активации транскрипции с использованием малых молекул (FKBP, ABA и т. д.) или индуцируемые светом системы (фитохром, домены LOV или криптохром). В одном варианте осуществления фермент CRISPR может быть частью индуцируемого светом транскрипционного эффектора (LITE) для управления изменениями транскрипционной активности специфичным к последовательности образом. Компоненты индуцируемой светом системы могут включать фермент CRISPR, чувствительный к свету гетеродимер цитохрома (например, из Arabidopsis thaliana) и домен активации/репрессии транскрипции. Дополнительные примеры индуцируемых ДНК-связывающих белков и способы их применения представлены в US 61/736465 и US 61/721283 и WO 2014/018423 и US8889418, US8895308, US20140186919, US20140242700, US20140273234, US20140335620, WO2014093635, которые включены в данный документ посредством ссылки во всей полноте.

Доставка

В некоторых аспектах настоящее изобретение относится к способам, включающим доставку в клетку-хозяина одного или нескольких полинуклеотидов, как, например, или одного, или нескольких векторов, которые описаны в данном документе, одного или нескольких их транскриптов и/или одного или нескольких белков, транскрибируемых с них. В некоторых аспектах настоящее изобретение дополнительно предусматривает клетки, полученные с помощью таких способов, и организмы (такие как животные, растения или грибы), содержащие такие клетки или полученные из них. В некоторых вариантах осуществления эффекторный белок для нацеливания на нуклеиновую кислоту в комбинации с (и необязательно образующий комплекс с) направляющей РНК доставляют в клетку. Традиционные способы переноса генов с использованием вирусов и без использования вирусов можно применять для введения нуклеиновых кислот в клетки млекопитающих или целевые ткани. Такие способы можно применять для введения нуклеиновых кислот, кодирующих компоненты системы нацеливания на нуклеиновую кислоту, в клетки в культуре или в организме-хозяине. Системы доставки на основе невирусных векторов включают плазмидные ДНК, РНК (например, транскрипт вектора, описанного в данном документе), "оголенную" нуклеиновую кислоту и нуклеиновую кислоту, образующую комплекс со средством доставки, таким как липосома. Системы доставки на основе вирусного вектора включают ДНК- и РНК-содержащие вирусы, которые имеют либо геномы в эписомальной форме, либо интегрированные геномы после доставки в клетку. В отношении обзора процедур генной терапии см. Anderson, Science 256:808-813 (1992); Nabel & Felgner, TIBTECH 11:211-217 (1993); Mitani & Caskey, TIBTECH 11:162-166 (1993); Dillon, TIBTECH 11:167-175 (1993); Miller, Nature 357:455-460 (1992); Van Brunt, Biotechnology 6(10):1149-1154 (1988); Vigne, Restorative Neurology and Neuroscience 8:35-36 (1995); Kremer & Perricaudet, British Medical Bulletin 51(1):31-44 (1995); Haddada et al., в Current Topics in Microbiology and Immunology, Doerfler and Böhm (eds) (1995); и Yu et al., Gene Therapy 1:13-26 (1994).

Способы отличной от вирусной доставки нуклеиновых кислот включают липофекцию, нуклеофекцию, микроинъекцию, баллистическую трансфекцию, виросомы, липосомы, иммунолипосомы, поликатион или конъюгаты липид:нуклеиновая кислота, "оголенную" ДНК, искусственные вирионы и повышенное с помощью средства поглощение ДНК. Липофекция описана, например, в патентах США №№ 5049386, 4946787 и 4897355, и реагенты для липофекции реализуют в промышленных масштабах (к примеру, Transfectam™ и Lipofectin™). Катионные и нейтральные липиды, которые подходят для эффективной липофекции с узнаванием рецепторов полинуклеотидов, включают липиды из Felgner, WO 91/17424; WO 91/16024. Доставка может осуществляться в клетки (к примеру, введение in vitro или ex vivo) или целевые ткани (к примеру, введение in vivo).

Получение комплексов липид:нуклеиновая кислота, в том числе нацеливающих липосом, таких как иммунолипидные комплексы, хорошо известно специалистам в данной области (см., к примеру, Crystal, Science 270:404-410 (1995); Blaese et al., Cancer Gene Ther. 2:291-297 (1995); Behr et al., Bioconjugate Chem. 5:382-389 (1994); Remy et al., Bioconjugate Chem. 5:647-654 (1994); Gao et al., Gene Therapy 2:710-722 (1995); Ahmad et al., Cancer Res. 52:4817-4820 (1992); патенты США №№ 4186183, 4217344, 4235871, 4261975, 4485054, 4501728, 4774085, 4837028 и 4946787).

При применении систем на основе РНК- или ДНК-содержащих вирусов для доставки нуклеиновых кислот используют преимущества тщательно разработанных способов обеспечения нацеливания вируса на конкретные клетки в организме и перемещения полезных последовательностей вируса в ядро. Вирусные векторы можно вводить непосредственно пациентам (in vivo), или их можно применять для обработки клеток in vitro, и модифицированные клетки можно необязательно вводить пациентам (ex vivo). Традиционные системы на основе вирусов для переноса генов могут включать ретровирусные, лентивирусные, аденовирусные векторы, векторы на основе аденоассоциированного вируса и вируса простого герпеса. Интеграция в геном хозяина возможна с применением способов переноса генов на основе ретровируса, лентивируса и аденоассоциированного вируса, что часто приводит к длительной экспрессии встроенного трансгена. Кроме того, высокие показатели эффективности трансдукции наблюдали у многих различных типов клеток и целевых тканей.

Тропизм ретровируса может быть изменен путем включения чужеродных белков оболочки с расширением возможной целевой популяции целевых клеток. Лентивирусные векторы являются ретровирусными векторами, которые способны трансдуцировать или инфицировать неделящиеся клетки и, как правило, дают высокие вирусные титры. Выбор системы переноса генов на основе ретровирусов, таким образом, будет зависеть от целевой ткани. Ретровирусные векторы состоят из действующих в цис-положении длинных концевых повторов с упаковывающей способностью до 6-10 т. о. чужеродной последовательности. Минимальных действующих в цис-положении LTR достаточно для репликации и упаковки векторов, которые затем используют для интеграции терапевтического гена в целевую клетку с получением постоянной экспрессии трансгена. Широко используемые ретровирусные векторы включают такие векторы, как основанные на вирусе лейкоза мышей (MuLV), вирусе лейкоза гиббонов (GaLV), вирусе иммунодефицита обезьян (SIV), вирусе иммунодефицита человека (HIV) и их комбинациях (см., к примеру, Buchscher et al., J. Virol. 66:2731-2739 (1992); Johann et al., J. Virol. 66:1635-1640 (1992); Sommnerfelt et al., Virol. 176:58-59 (1990); Wilson et al., J. Virol. 63:2374-2378 (1989); Miller et al., J. Virol. 65:2220-2224 (1991); PCT/US94/05700). В применениях, в которых транзиентная экспрессия является предпочтительной, можно применять системы на основе аденовирусов. Аденовирусные векторы способны проявлять очень высокую эффективность трансдукции во многих типах клеток и не требуют деления клеток. С применением таких векторов были получены высокие титры и уровни экспрессии. Такой вектор можно получать в больших количествах в относительно простой системе. Векторы на основе аденоассоциированного вируса ("AAV") также можно использовать для трансдукции в клетки целевых нуклеиновых кислот, к примеру, при получении in vitro нуклеиновых кислот и пептидов и для процедур генной терапии in vivo и ex vivo (см., к примеру, West et al., Virology 160:38-47 (1987); патент США № 4797368; WO 93/24641; Kotin, Human Gene Therapy 5:793-801 (1994); Muzyczka, J. Clin. Invest. 94:1351 (1994). Создание рекомбинантных векторов на основе AAV описано в ряде публикаций, в том числе в патенте США № 5173414; Tratschin et al., Mol. Cell. Biol. 5:3251-3260 (1985); Tratschin, et al., Mol. Cell. Biol. 4:2072-2081 (1984); Hermonat & Muzyczka, PNAS 81:6466-6470 (1984); и Samulski et al., J. Virol. 63:03822-3828 (1989).

Варианты для ДНК/РНК, или ДНК/ДНК, или РНК/РНК, или белок/РНК

В некоторых вариантах осуществления компоненты системы CRISPR могут быть доставлены в различной форме, такой как комбинации ДНК/РНК, или РНК/РНК, или белок/РНК. Например, Cpf1 может быть доставлен в виде кодирующего ДНК полинуклеотида, или кодирующего РНК полинуклеотида, или в виде белка. Направляющая может быть доставлена в виде кодирующего ДНК полинуклеотида или РНК. Предусматриваются все возможные комбинации, в том числе смешанные формы доставки.

В некоторых вариантах осуществления предусматриваются все такие комбинации (ДНК/РНК, или ДНК/ДНК, или РНК/РНК, или белок/РНК).

В определенном варианте осуществления, если Cpf1 доставляют в форме белка, то можно предварительно собрать его одной или несколькими направляющими.

Нанококоны

Кроме того, система CRISPR может быть доставлена с использованием нанококонов, например, как описывается у Sun W et al., Cocoon-like self-degradable DNA nanoclew for anticancer drug delivery., J Am Chem Soc. 2014 Oct 22;136(42):14722-5. doi: 10.1021/ja5088024. Epub 2014 Oct 13. ; или у Sun W et al, Self-Assembled DNA Nanoclews for the Efficient Delivery of CRISPR-Cas9 for Genome Editing., Angew Chem Int Ed Engl. 2015 Oct 5;54(41):12029-33. doi: 10.1002/anie.201506030. Epub 2015 Aug 27.

Практическое осуществление настоящего изобретения предусматривает, если не указано иное, традиционные методики иммунологии, биохимии, химии, молекулярной биологии, микробиологии, клеточной биологии, геномики и технологию рекомбинантной ДНК, которые находятся в пределах квалификации специалиста в данной области. См. Sambrook, Fritsch and Maniatis, MOLECULAR CLONING: A LABORATORY MANUAL, 2nd edition (1989); CURRENT PROTOCOLS IN MOLECULAR BIOLOGY (F. M. Ausubel, et al. eds., (1987)); серия METHODS IN ENZYMOLOGY (Academic Press, Inc.): PCR 2: A PRACTICAL APPROACH (M.J. MacPherson, B.D. Hames and G.R. Taylor eds. (1995)), Harlow and Lane, eds. (1988) ANTIBODIES, A LABORATORY MANUAL и ANIMAL CELL CULTURE (R.I. Freshney, ed. (1987)).

Модели генетических и эпигенетических условий

Способ по настоящему изобретению можно использовать для создания растения, животного или клетки, которые могут быть использованы для моделирования и/или изучения представляющих интерес генетических или эпигенетических условий, например, при помощи модели представляющих интерес мутаций или модели заболевания. Используемое в данном документе выражение "заболевание" относится к заболеванию, нарушению или симптому у субъекта. Например, способ по настоящему изобретению можно применять для создания животного или клетки, которые содержат модификацию одной или нескольких последовательностей нуклеиновой кислоты, ассоциированных с заболеванием, или растения, животного или клетки, в которых изменены экспрессии одной или нескольких последовательностей нуклеиновой кислоты, ассоциированных с заболеванием. Такая последовательность нуклеиновой кислоты может кодировать последовательность белка, ассоциированного с заболеванием, или может представлять собой регуляторную последовательность, ассоциированную с заболеванием. Соответственно, подразумевается, что в вариантах осуществления настоящего изобретения растение, субъект, пациент, организм или клетка могут относиться к субъекту, отличному от человека, пациенту, организму или клетке. Таким образом, настоящее изобретение относится к растению, животному или клетке, полученным с помощью способа по настоящему изобретению, или их потомству. Потомство может представлять собой клон полученного растения или животного, или его можно получить с помощью полового размножения посредством скрещивания с другими индивидами того же вида для придания дополнительных желаемых признаков их потомкам. Клетка может находиться in vivo или ex vivo в случае многоклеточных организмов, в частности, животных или растений. В случае, если клетка находится в культуре, можно получить линию клеток при выполнении соответствующих условий культивирования, и предпочтительно, если клетка соответствующим образом приспособлена для этой цели (например, стволовая клетка). Также предусматриваются линии бактериальных клеток, полученные согласно настоящему изобретению. Следовательно, также предусматриваются линии клеток.

В некоторых способах модель заболевания можно применять для изучения влияния мутаций на животное или клетку и развитие и/или прогрессирование заболевания с применением показателей, обычно используемых при изучении заболевания. Альтернативно такая модель заболевания является применимой для изучения влияния фармацевтически активного соединения на заболевание.

В некоторых способах модель заболевания можно применять для оценки эффективности потенциальной стратегии генной терапии. Таким образом, ассоциированные с заболеванием ген или полинуклеотид можно модифицировать, так что развитие и/или прогрессирование заболевания замедляется или уменьшается. В частности, способ включает модификацию ассоциированных с заболеванием гена или полинуклеотида, так что продуцируется измененный белок, и в результате у животного или клетки наблюдается измененный ответ. Соответственно, в некоторых способах генетически модифицированное животное можно сравнивать с животным, предрасположенным к развитию заболевания, так что можно оценить эффект осуществления генной терапии.

В другом варианте осуществления настоящее изобретение относится к способу получения биологически активного средства, которое модулирует процесс передачи сигнала в клетке, ассоциированный с геном, ответственным за развитие заболевания. Способ включает приведение исследуемого соединения в контакт с клеткой, содержащей один или несколько векторов, которые управляют экспрессией одного или нескольких из: фермента CRISPR и последовательности прямого повтора, связанной с направляющей последовательностью; и обнаружение изменения при считывании, которое свидетельствует об ослаблении или усилении процесса передачи сигнала в клетке, ассоциированного, например, с мутацией в гене, ответственном за развитие заболевания, который содержится в клетке.

Клеточную модель или животную модель можно сконструировать в сочетании со способом по настоящему изобретению для скрининга изменения клеточной функции. Такую модель можно применять для исследования влияния геномной последовательности, модифицированной с помощью комплекса CRISPR по настоящему изобретению, на представляющую интерес клеточную функцию. Например, модель клеточной функции можно применять для исследования воздействия модифицированной геномной последовательности на внутриклеточную передачу сигнала или внеклеточную передачу сигнала. Альтернативно модель клеточной функции можно применять для исследования воздействий модифицированной геномной последовательности на сенсорную чувствительность. В некоторых таких моделях одна или несколько геномных последовательностей, ассоциированных с биохимическим путем передачи сигнала, в модели является модифицированной.

Специально было исследовано несколько моделей заболеваний. Они включают гены CHD8, KATNAL2 и SCN2A, связанные с риском развития аутизма de novo, и ген UBE3A, связанный с синдромным аутизмом (синдром Ангельмана). Эти гены и полученные в результате модели аутизма, разумеется, являются предпочтительными, но служат для того, чтобы продемонстрировать широкую применимость настоящего изобретения по отношению к генам и соответствующим моделям. Измененную экспрессию одной или нескольких геномных последовательностей, ассоциированных с биохимическим путем передачи сигнала, можно определять при помощи анализа различия по уровням мРНК соответствующих генов между исследуемой модельной клеткой и контрольной клеткой, при приведении их в контакт с кандидатным средством. Альтернативно различную экспрессию последовательностей, ассоциированных с биохимическим путем передачи сигнала, определяют посредством выявления различия по уровню кодируемого полипептида или продукта гена.

Для анализа индуцированного определенным средством изменения уровня мРНК-транскриптов или соответствующих полинуклеотидов, нуклеиновую кислоту, которая содержится в образце, вначале экстрагируют в соответствии со стандартными способами из уровня техники. Например, матричную РНК можно выделять с применением различных литических ферментов или химических растворов в соответствии с процедурами, изложенными в Sambrook et al. (1989), или экстрагировать с помощью смол, связывающих нуклеиновые кислоты, в соответствии с прилагаемыми инструкциями, предоставленными производителями. Содержащуюся в экстрагированном образце нуклеиновой кислоты мРНК затем выявляют с помощью методик амплификации или традиционных гибридизационных анализов (например, анализа с помощью нозерн-блоттинга) в соответствии со способами, широко известными из уровня техники или основанными на способах, проиллюстрированных в данном документе.

Для целей настоящего изобретения амплификация означает любой способ с использованием праймера и полимеразы, способной обеспечивать репликацию целевой последовательности с достаточной точностью. Амплификацию можно осуществлять с помощью природных или рекомбинантных ДНК-полимераз, таких как TaqGold™, ДНК-полимераза T7, фрагмент Кленова ДНК-полимеразы E. coli и обратная транскриптаза. Предпочтительным способом амплификации является ПЦР. В частности, выделенную РНК можно подвергать анализу с обратной транскрипцией, который объединен с количественной полимеразной цепной реакцией (RT-PCR), для количественного определения уровня экспрессии последовательности, ассоциированной с биохимическим путем передачи сигнала.

Выявление уровня экспрессии генов можно осуществлять в анализе амплификации в режиме реального времени. В одном аспекте амплифицированные продукты можно непосредственно визуализировать с помощью флуоресцентных ДНК-связывающих средств, в том числе без ограничения ДНК-интеркаляторов и средств, связывающихся с бороздкой спирали ДНК. Поскольку количество интеркаляторов, включенных в двухнитевые молекулы ДНК, как правило, является пропорциональным количеству амплифицированных ДНК-продуктов, можно без труда определить количество амплифицированных продуктов путем количественного определения флуоресценции интеркалирующего красителя с применением традиционных оптических систем из уровня техники. ДНК-связывающий краситель, подходящий для этой задачи, охватывает SYBR зеленый, SYBR синий, DAPI, йодид пропидия, Hoeсhst, SYBR золотой, бромид этидия, акридины, профлавин, акридиновый оранжевый, акрифлавин, фторкумарин, эллиптицин, дауномицин, хлорохин, дистамицин D, хромомицин, хомидий, митрамицин, комплексы рутений-полипиридил, антрамицин и т. п.

В другом аспекте можно использовать другие флуоресцентные метки, например, зонды, специфичные по отношению к последовательности, в реакции амплификации для обеспечения выявления и количественного определения амплифицированных продуктов. Количественная амплификация с использованием зонда основана на специфичном по отношению к последовательности выявлении требуемого амплифицированного продукта. Используются флуоресцентные зонды, специфичные по отношению к мишени (например, зонды TaqMan®), что приводит в результате к увеличению специфичности и чувствительности. Способы осуществления количественной амплификации с использованием зонда являются общепринятыми в данной области и описаны в патенте США № 5210015.

В еще одном аспекте можно осуществлять традиционные гибридизационные анализы с использованием гибридизационных зондов, которые характеризуются гомологией последовательности с последовательностями, ассоциированными с биохимическим путем передачи сигнала. Как правило, в реакции гибридизации зондам дают возможность образовать стабильные комплексы с последовательностями, ассоциированными с биохимическим путем передачи сигнала, которые содержатся в биологическом образце, полученном от исследуемого субъекта. Специалисту в данной области будет понятно, что если антисмысловая нуклеиновая кислота используется в качестве зонда, то целевые полинуклеотиды, представленные в образце, выбирают так, чтобы они были комплементарными последовательностям антисмысловых нуклеиновых кислот. Напротив, если нуклеотидный зонд является смысловой нуклеиновой кислотой, то целевой полинуклеотид выбирают так, чтобы он был комплементарным последовательностям смысловой нуклеиновой кислоты.

Гибридизацию можно осуществлять в условиях различной жесткости. Подходящие условия гибридизации для осуществления на практике настоящего изобретения являются такими, что обеспечивающее распознавание взаимодействие зонда с последовательностями, ассоциированными с биохимическим путем передачи сигнала, является как достаточно специфичным, так и достаточно стабильным. Условия, которые приводят к увеличению жесткости реакции гибридизации, хорошо известны из уровня техники и являются опубликованными. См., например (Sambrook, et al., (1989); Nonradioactive In Situ Hybridization Application Manual, Boehringer Mannheim, second edition). Гибридизационный анализ можно осуществлять с применением зондов, иммобилизованных на любой твердой подложке, в том числе без ограничения нитроцеллюлозной, стеклянной, кремниевой, и ряда ДНК-чипов. Предпочтительный гибридизационный анализ проводят на генных чипах высокой плотности, описанных в патенте США № 5445934.

Для удобного выявления комплексов зонд-мишень, образованных в ходе гибридизационного анализа, осуществляют конъюгирование нуклеотидных зондов с детектируемой меткой. Детектируемые метки, подходящие для применения в настоящем изобретении, включают любую композицию, выявляемую с помощью фотохимических, биохимических, спектроскопических, иммунохимических, электрических, оптических или химических средств. Широкий спектр соответствующих детектируемых меток известен из уровня техники, причем он включает флуоресцентные или хемилюминесцентные метки, метки на основе радиоактивных изотопов, ферментные или другие лиганды. В предпочтительных вариантах осуществления, вероятно, предпочтительной будет флуоресцентная метка или ферментная метка, как, например, дигоксигенин, ß-галактозидаза, уреаза, щелочная фосфатаза или пероксидаза, комплекс авидин/биотин.

Способы выявления, применяемые для выявления или количественного определения интенсивности гибридизации, как правило, будут зависеть от метки, выбранной выше. Например, радиоактивные метки можно выявлять с использованием фотографической пленки или фосфовизуализатора. Флуоресцентные маркеры можно выявлять и количественно определять с использованием фотодетектора для выявления излучаемого света. Ферментные метки, как правило, выявляют посредством снабжения фермента субстратом и измерения количества продукта реакции, образованного при воздействии фермента на субстрат; и, наконец, колориметрические метки выявляют посредством простой визуализации цветной метки.

Индуцированное определенным средством изменение экспрессии последовательностей, ассоциированных с биохимическим путем передачи сигнала, также можно определять посредством исследования соответствующих продуктов генов. Определение уровня белка, как правило, включает a) приведение белка, содержащегося в биологическом образце, в контакт со средством, которое специфично связывается с белком, ассоциированным с биохимическим путем передачи сигнала; и (b) идентификацию любого комплекса средство:белок, образованного таким образом. В одном аспекте данного варианта осуществления средство, которое специфически связывает белок, ассоциированный с биохимическим путем передачи сигнала, представляет собой антитело, предпочтительно моноклональное антитело.

Реакцию осуществляют посредством приведения средства в контакт с образцом белков, ассоциированных с биохимическим путем передачи сигнала, полученным из тестируемых образцов, при условиях, которые обеспечивают возможность образования комплекса между средством и белками, ассоциированными с биохимическим путем передачи сигнала. Образование комплекса можно выявлять непосредственно или опосредованно в соответствии со стандартными процедурами из уровня техники. В способе непосредственного выявления средства снабжают детектируемой меткой и непрореагировавшие средства можно удалять от комплекса; количество оставшейся метки, таким образом, отражает количество образованного комплекса. Для такого способа предпочтительно выбирать метки, которые остаются прикрепленными к средствам даже при жестких условиях отмывки. Предпочтительно, чтобы метка не препятствовала реакции связывания. В альтернативном случае, для процедуры опосредованного выявления можно использовать средство, которое содержит метку, введенную либо химическим, либо ферментативным путем. Требуемая метка, как правило, не препятствует связыванию или стабильности полученного в результате комплекса средство:полипептид. Однако, метка, как правило, разработана так, чтобы она была доступной для эффективного связывания антителом и, следовательно, выработки детектируемого сигнала.

Широкий спектр меток, подходящих для выявления уровней белка, известен из уровня техники. Неограничивающие примеры включают радиоактивные изотопы, ферменты, коллоидные металлы, флуоресцентные соединения, биолюминесцентные соединения и хемилюминесцентные соединения.

Количество комплексов средство:полипептид, образованных в ходе реакции связывания, можно количественно определять с помощью стандартных количественных анализов. Как проиллюстрировано выше, образование комплекса средство:полипептид можно измерить непосредственно по количеству метки, оставшейся в сайте связывания. В альтернативном случае белок, ассоциированный с биохимическим путем передачи сигнала, исследуют в отношении его способности конкурировать с меченым аналогом за участки связывания на специфическом средстве. В этом конкурентном анализе количество захваченной метки является обратно пропорциональным количеству последовательностей белка, ассоциированного с биохимическим путем передачи сигнала, присутствующих в исследуемом образце.

Ряд методик анализа белка, основанных на общих принципах, изложенных выше, доступен из уровня техники. Они включают без ограничения радиоиммунные анализы, ELISA (твердофазные ферментные иммунорадиометрические анализы), "сэндвич"-иммуноанализы, иммунорадиометрические анализы, иммуноанализы in situ (с применением, например, коллоидного золота, фермента или радиоизотопных меток), вестерн-блот анализ, иммунопреципитационные анализы, иммунофлуоресцентные анализы и SDS-PAGE.

Антитела, которые обеспечивают специфичное распознавание или связываются с белками, ассоциированными с биохимическим путем передачи сигнала, являются предпочтительными для осуществления вышеупомянутых анализов белка. При необходимости можно применять антитела, которые обеспечивают распознавание конкретного типа посттрансляционных модификаций (например, модификации, индуцируемые биохимическим путем передачи сигнала). Посттрансляционные модификации включают без ограничения гликозилирование, липидизацию, ацетилирование и фосфорилирование. Эти антитела можно приобрести у коммерческих поставщиков. Например, антитела к фосфотирозину, которые обеспечивают специфичное распознавание фосфорилированных по тирозину белков, доступны от ряда поставщиков, включая Invitrogen и Perkin Elmer. Антитела к фосфотирозину являются особенно применимыми при выявлении белков, которые различным образом фосфорилируются по их тирозиновым остаткам в ответ на стресс ER (эндоплазматического ретикулума). Такие белки включают без ограничения эукариотический фактор инициации трансляции 2 альфа (eIF-2α). Альтернативно эти антитела можно получить с помощью традиционных технологий получения поликлональных или моноклональных антител посредством иммунизации животного-хозяина или клетки, продуцирующей антитела, целевым белком, который характеризуется необходимой посттрансляционной модификацией.

При осуществлении заявленного способа на практике может быть необходимо определить профиль экспрессии белка, ассоциированного с биохимическим путем передачи сигнала, в различных тканях организма, в различных типах клеток и/или в различных субклеточных структурах. Данные исследования можно проводить с применением тканеспецифичных, специфичных к определенным клеткам или специфичных к определенным субклеточным структурам антител, способных связываться с белковыми маркерами, которые преимущественно экспрессируются в определенных тканях, типах клеток или субклеточных структурах.

Измененную экспрессию гена, ассоциированного с биохимическим путем передачи сигнала, также можно определять с помощью исследования изменения активности продукта гена по сравнению с контрольной клеткой. Анализ индуцированного определенным средством изменения активности белка, ассоциированного с биохимическим путем передачи сигнала, будет зависеть от биологической активности и/или исследуемого пути передачи сигнала. Например, если белок представляет собой киназу, изменение его способности фосфорилировать субстрат(субстраты) на последующих стадиях можно определять посредством ряда анализов, известных из уровня техники. Иллюстративные анализы включают без ограничения иммуноблоттинг и иммунопреципитацию с использованием антител, таких как антитела к фосфотирозину, которые обеспечивают распознавание фосфорилированных белков. Кроме того, активность киназы можно выявлять с помощью высокопроизводительных хемилюминесцентных анализов, как, например, анализов AlphaScreen™ (доступный от Perkin Elmer) и eTag™ (Chan-Hui, et al. (2003) Clinical Immunology 111: 162-174).

Если белок, ассоциированный с биохимическим путем передачи сигнала, является частью сигнального каскада, который приводит к колебанию внутриклеточных условий pH, молекулы, чувствительные к pH, например, флуоресцентные pH-чувствительные красители, можно применять в качестве репортерных молекул. В другом примере, если белок, ассоциированный с биохимическим путем передачи сигнала, представляет собой ионный канал, можно отслеживать колебания мембранного потенциала и/или внутриклеточной концентрации ионов. Ряд коммерческих наборов и высокопроизводительных устройств являются особенно подходящими для быстрого и надежного скрининга модуляторов ионных каналов. Иллюстративные инструменты включают FLIPRTM (Molecular Devices, Inc.) и VIPR (Aurora Biosciences). Эти инструменты способны обеспечивать одновременное выявление реакций в более чем 1000 лунках с образцом в микропланшете и обеспечивать измерение в реальном времени и функциональные данные в течение секунды или даже миллисекунды.

При осуществлении на практике любых способов, раскрытых в данном документе, подходящий вектор можно вводить в клетку или эмбрион посредством одного или нескольких способов, известных из уровня техники, в том числе без ограничения микроинъекции, электропорации, сонопорации, баллистической трансфекции, трансфекции, опосредованной фосфатом кальция, трансфекции с помощью катионных липидных частиц, липосомной трансфекции, трансфекции с помощью дендримеров, трансфекции посредством теплового шока, трансфекции посредством нуклеофекции, магнитофекции, липофекции, импалефекции, оптической трансфекции, поглощения нуклеиновых кислот, стимулируемого проприетарным средством, и доставки с помощью липосом, иммунолипосом, виросом или искусственных вирионов. В некоторых способах вектор вводят в эмбрион посредством микроинъекции. Можно осуществлять микроинъекцию вектора или векторов в ядро или цитоплазму эмбриона. В некоторых способах вектор или векторы можно вводить в клетку посредством нуклеофекции.

Примеры целевых полинуклеотидов включают последовательность, ассоциированную с биохимическим путем передачи сигнала, например, ген или полинуклеотид, ассоциированный с биохимическим путем передачи сигнала. Примеры целевых полинуклеотидов включают ассоциированный с заболеванием ген или полинуклеотид. "Ассоциированный с заболеванием" ген или полинуклеотид означает любой ген или полинуклеотид, который обеспечивает продукты транскрипции или трансляции на аномальном уровне или в аномальной форме в клетках, полученных из пораженных заболеванием тканей, по сравнению с тканями или клетками контроля без заболевания. Это может быть ген, который начинает экспрессироваться при аномально высоком уровне; это может быть ген, который начинает экспрессироваться при аномально низком уровне, где измененная экспрессия коррелирует с появлением и/или прогрессированием заболевания. Ассоциированный с заболеванием ген также означает ген, несущий мутацию(мутации) или генетическую вариацию, который непосредственно ответственен или находится в неравновесном сцеплении с геном(генами), ответственным(ответственными) за этиологию заболевания. Транскрибируемые или транслируемые продукты могут быть известными или неизвестными и могут присутствовать на нормальном или аномальном уровне.

Целевым полинуклеотидом для комплекса CRISPR может быть любой полинуклеотид, эндогенный или экзогенный по отношению к эукариотической клетке. Например, целевой полинуклеотид может быть полинуклеотидом, находящимся в ядре эукариотической клетки. Целевой полинуклеотид может быть последовательностью, кодирующей продукт гена (к примеру, белок), или некодирующей последовательностью (к примеру, регуляторным полинуклеотидом или избыточной ДНК). Не вдаваясь в теорию, полагают, что целевая последовательность должна быть ассоциирована с PAM (мотивом, смежным с протоспейсером); то есть короткой последовательностью, узнаваемой комплексом CRISPR. Определенные требования в отношении последовательности и длины PAM различаются в зависимости от применяемого фермента CRISPR, но PAM, как правило, являются последовательностями в 2-5 пар оснований, смежными с протоспейсером (то есть целевой последовательностью). Примеры последовательностей PAM приведены в разделе "Примеры" ниже, и специалист в данной области техники сможет выявить дополнительные последовательности PAM для применения с данным ферментом CRISPR. Кроме того, конструирование взаимодействующего с PAM (PI) домена может обеспечить программирование PAM специфичности, улучшенную точность сайта распознавания цели и повышенную универсальность платформы конструирования генома Cas, например, Cas9. Белки Cas, такие как белки Cas9, можно конструировать с изменением их специфичности в отношении PAM, например, как описывается у Kleinstiver BP et al. Engineered CRISPR-Cas9 nucleases with altered PAM specificities. Nature. 2015 Jul 23;523(7561):481-5. doi: 10.1038/nature14592.

Целевой полинуклеотид для комплекса CRISPR может включать ряд ассоциированных с заболеваниями генов и полинуклеотидов, а также генов и полинуклеотидов, ассоциированных с биохимическими путями передачи сигнала, которые перечислены в предварительных заявках на патент США 61/736527 и 61/748427 с общей ссылкой BI-2011/008/WSGR, номер в реестре 44063-701.101, и BI-2011/008/WSGR, номер в реестре 44063-701.102, соответственно, обе под названием SYSTEMS METHODS AND COMPOSITIONS FOR SEQUENCE MANIPULATION, поданные 12 декабря 2012 г. и 2 января 2013 г. соответственно, и заявку согласно PCT/US2013/074667, под названием DELIVERY, ENGINEERING AND OPTIMIZATION OF SYSTEMS, METHODS AND COMPOSITIONS FOR SEQUENCE MANIPULATION AND THERAPEUTIC APPLICATIONS, поданную 12 декабря 2013 г., каждое содержание из которых включено в данный документ при помощи ссылки во всей их полноте.

Скрининг полногеномного нокаута

Белки и системы CRISPR, описываемые в настоящем документе, можно применять для выполнения эффективных и рентабельных функциональных геномных тестов. В таких тестах можно использовать эффекторный белок CRISPR на основе полногеномных библиотек. Такие тесты и библиотеки могут обеспечить определение функции генов, вовлечение генов клеточных путей, и того, как какое-либо изменение в экспрессии гена может привести к определенному биологическому процессу. Преимущество настоящего изобретения заключается в том, что система CRISPR исключает нецелевое связывание и возникающие в результате этого побочные эффекты. Это достигается при использовании систем, предусматривающих наличие высокой степени специфичности к последовательности в отношении целевой ДНК. В предпочтительных вариантах осуществления настоящего изобретения комплексы эффекторного белка CRISPR представляют собой комплексы эффекторного белка Cpf1.

В вариантах осуществления настоящего изобретения полногеномная библиотека может содержать множество направляющих РНК Cpf1, описываемых в настоящем документе, содержащих направляющие последовательности, которые способны нацеливаться на множество целевых последовательностей во множестве локусов генома в популяции эукариотических клеток. Популяцией клеток может быть популяция эмбриональных стволовых (ES) клеток. Целевой последовательностью в локусе генома может быть некодирующая последовательность. Некодирующей последовательностью может быть интрон, регуляторная последовательность, сайт сплайсинга, 3'-UTR, 5'-UTR или сигнал полиаденилирования. Функция гена одного или нескольких продуктов генов может быть изменена указанным нацеливанием. Нацеливание может приводить к нокауту функции гена. Нацеливание на продукт гена может предусматривать более чем одну направляющую РНК. На продукт гена можно нацеливаться с помощью 2, 3, 4, 5, 6, 7, 8, 9 или 10 направляющих РНК, предпочтительно 3-4 на ген. Нецелевые модификации можно свести к минимуму при использовании ступенчатых двухнитевых разрывов, созданных при помощи комплексов эффекторного белка Cpf1 или при помощи способов, аналогичных используемым в системах CRISPR-Cas9 (см., специфичность нацеливания на ДНК направляемых РНК нуклеаз Cas9. Hsu, P., Scott, D., Weinstein, J., Ran, FA., Konermann, S., Agarwala, V., Li, Y., Fine, E., Wu, X., Shalem, O., Cradick, TJ., Marraffini, LA., Bao, G., & Zhang, F. Nat Biotechnol doi:10.1038/nbt.2647 (2013)), включенную в данный документ посредством ссылки. Нацеливание может предусматривать приблизительно 100 или более последовательностей. Нацеливание может предусматривать приблизительно 1000 или более последовательностей. Нацеливание может предусматривать приблизительно 20000 или более последовательностей. Нацеливание может предусматривать полный геном. Нацеливание может предусматривать панель целевых последовательностей, ориентированных на релевантном или желательном пути. Путь может быть иммунным путем. Путь может быть путем клеточного деления.

Один аспект настоящего изобретения охватывает полногеномную библиотеку, которая может содержать множество направляющих РНК Cpf1, которое может содержать направляющие последовательности, способные нацеливаться на множество целевых последовательностей во множестве локусов генома, где указанное нацеливание приводит к нокауту/нокдауну генной функции. Эта библиотека потенциально может содержать направляющие РНК, которые нацеливаются на каждый без исключения ген в геноме организма.

В некоторых вариантах осуществления по настоящему изобретению организм или субъект является эукариотом (в том числе млекопитающим, в том числе человеком), или эукариотическим организмом, отличным от человека, или отличным от человека животным, или отличным от человека млекопитающим. В некоторых вариантах осуществления организм или субъект является отличным от человека животным и может быть членистоногим, например, насекомым, или может быть нематодой. В некоторых способах по настоящему изобретению организм или субъект является растением. В некоторых способах по настоящему изобретению организм или субъект является млекопитающим или отличным от человека млекопитающим. Отличное от человека млекопитающее может быть, например, грызуном (предпочтительно мышью или крысой), копытным или приматом. В некоторых способах по настоящему изобретению организм или субъект является водорослью, в том числе микроводорослью, или является грибом.

Нокаут/нокдаун генной функции может предусматривать введение в каждую клетку в популяции клеток векторной системы из одного или нескольких векторов, содержащих сконструированную, не встречающуюся в природе систему эффекторного белка Cpf1, содержащую I. белок Cpf1 и II. одну или несколько направляющих РНК, где компоненты I и II могут находиться на одном и том же или на разных векторах системы, вводящей компоненты I и II в каждую клетку, где направляющая последовательность нацеливается на уникальный ген в каждой клетке, где эффекторный белок Cpf1 функционально связан с регуляторным элементом, где при транскрибировании направляющая РНК, содержащая направляющую последовательность, управляет специфичным к последовательности связыванием системы эффекторного белка Cpf1 с целевой последовательностью, соответствующей локусам генома уникального гена с индуцированием расщепления геномного локуса эффекторным белком Cpf1 и подтверждением разных мутаций нокаута/нокдауна во множестве уникальных генов в каждой клетке популяция клеток с образованием тем самым библиотеки клеток с нокаутом/нокдауном гена. Настоящее изобретение предусматривает, что популяцией клеток является популяция эукариотических клеток, а в предпочтительном варианте осуществления популяцией клеток является популяция эмбриональных стволовых (ES) клеток.

Одним или несколькими векторами могут быть плазмидные векторы. Вектором может быть один вектор, содержащий эффекторный белок Cpf1, gRNA и необязательно маркер отбора в целевых клетках. Без углубления в теорию способность одновременно доставлять эффекторный белок Cpf1 и gRNA при помощи одного вектора обеспечивает применение для любого представляющего интерес типа клеток, без необходимости сначала создавать линии клеток, которые экспрессируют эффекторный белок Cpf1. Регуляторным элементом может быть индуцируемый промотор. Индуцируемый промотор может представлять собой доксициклиновый индуцируемый промотор. В некоторых способах по настоящему изобретению экспрессия направляющей последовательности находится под контролем промотора T7 и управляется экспрессией полимеразы T7. Подтверждение различных мутаций нокаута/нокдауна можно осуществлять полноэкзомным секвенированием. Мутация нокаута/нокдауна может быть достигнута в 100 или более уникальных генов. Мутация нокаута/нокдауна может быть достигнута в 1000 или более уникальных генов. Мутация нокаута/нокдауна может быть достигнута в 20000 или более уникальных генов. Мутация нокаута/нокдауна может быть достигнута во всем геноме. Нокаут/нокдаун генной функции может быть достигнут во множестве уникальных генов, которые функционируют в конкретном физиологическом пути или состоянии. Путь или состояние может быть иммунным путем или состоянием. Путь или состояние может быть путем или состоянием клеточного деления.

Настоящее изобретение также относится к набору, который содержит полногеномные библиотеки, упоминаемые в данном документе. Набор может содержать один контейнер, содержащий векторы или плазмиды, содержащие библиотеку в соответствии с настоящим изобретением. Набор также может содержать панель, предусматривающую отбор уникальных направляющих РНК системы эффекторного белка Cpf1, содержащих направляющие последовательности из библиотеки в соответствии с настоящим изобретением, где отбор указывает на конкретное физиологическое состояние. Настоящее изобретение предусматривает то, что нацеливание составляет приблизительно 100 или больше последовательностей, приблизительно 1000 или больше последовательностей или приблизительно 20000 или больше последовательностей или весь геном. Кроме того, панель целевых последовательностей может быть ориентирована на релевантный или желаемый путь, такой как иммунный путь или клеточное деление.

В дополнительном аспекте настоящего изобретения эффекторный белок Cpf1 может содержать одну или несколько мутаций и может применяться в качестве стандартного ДНК-связывающего белка, слитого или не слитого с функциональным доменом. Мутации могут представлять собой мутации, введенные искусственным образом, или мутации приобретения или потери функции. Мутации характеризовали, как описано в данном документе. В одном аспекте настоящего изобретения функциональным доменом может быть домен активации транскрипции, которым может быть VP64. В других аспектах настоящего изобретения функциональным доменом может быть домен репрессии транскрипции, которым может быть KRAB или SID4X. Другие аспекты настоящего изобретения относятся к мутантному эффекторному белку Cpf1, слитому с доменами, которые включают без ограничения активатор транскрипции, репрессор транскрипции, рекомбиназу, транспозазу, фактор ремоделирования гистонов, деметилазу, ДНК-метилтрансферазу, криптохром, домен, индуцируемый/регулируемый светом, или домен, индуцируемый/регулируемый химическими веществами. Некоторые способы в соответствии с настоящим изобретением могут предусматривать индуцирование экспрессии целевых генов. В одном варианте осуществления индуцирование экспрессии путем нацеливания на множество целевых последовательностей во множестве локусов генома в популяции эукариотических клеток осуществляется путем применения функционального домена.

Применительно к осуществлению настоящего изобретения существуют способы, в которых используются комплексы эффекторного белка Cpf1, применяемые в системах CRISPR-Cas9, и ссылаются на:

Genome-Scale CRISPR-Cas9 Knockout Screening in Human Cells. Shalem, O., Sanjana, NE., Hartenian, E., Shi, X., Scott, DA., Mikkelson, T., Heckl, D., Ebert, BL., Root, DE., Doench, JG., Zhang, F. Science Dec 12. (2013). [Epub ahead of print]; опубликовано в окончательной отредактированной форме как: Science. 2014 Jan 3; 343(6166): 84-87.

Shalem et al. описали новый способ исследования функций генов в полногеномном масштабе. Их исследования показали, что доставка библиотеки CRISPR-Cas9 для нокаута в масштабе генома (GeCKO), целенаправленно воздействующей на 18080 генов, с 64751 уникальной направляющей последовательностью обеспечивала скрининг путем как положительного, так и отрицательного отбора в клетках человека. Во-первых, авторы показали применение библиотеки GeCKO для идентификации генов, существенных для жизнеспособности клеток у раковых и плюрипотентных стволовых клеток. Далее, в модели меланомы, авторы провели скрининг генов, утрата функций которых вовлечена в устойчивость к вемурафенибу, терапевтическому средству, ингибирующему мутантную протеинкиназу BRAF. Их исследования показали, что кандидаты высшего ранга включали ранее подтвержденные гены NF1 и MED12, а также новые хиты NF2, CUL3, TADA2B и TADA1. Авторы наблюдали высокий уровень согласованности между независимыми направляющими РНК, осуществляющими нацеливание на один и тот же ген, и высоким показателем подтверждения хитов и, таким образом, продемонстрировали перспективность скрининга с помощью Cas9 в масштабе генома.

Также можно упомянуть в качестве ссылок заявку на патент США № US20140357530 и патентную публикацию PCT № WO2014093701, включенные тем самым в данный документ посредством ссылки. Также ссылаются на пресс-релиз NIH от 22 октября 2015 г. под названием "Researchers identify potential alternative to CRISPR-Cas genome editing tools: New Cas enzymes shed light on evolution of CRISPR-Cas systems", который включен посредстсвом ссылки.

Функциональное изменение и скрининг

В другом аспекте настоящее изобретение предусматривает способ функциональной оценки и скрининга генов. Применение системы CRISPR по настоящему изобретению для точной доставки функциональных доменов, для активации или репрессии генов или для изменения эпигенетического состояния при помощи точного изменения сайта метилирования в конкретном представляющем интерес локусе можно осуществлять с помощью одной или нескольких направляющих РНК, применяемых к одной клетке или популяции клеток, или с помощью библиотеки, применяемой к геному в пуле клеток ex vivo или in vivo, при этом предусматривается введение или экспрессия библиотеки, содержащей множество направляющих РНК (gRNA), и при этом тестирование дополнительно предусматривает применение эффекторного белка Cpf1, где комплекс CRISPR, содержащий эффекторный белок Cpf1, модифицирован с целью содержания гетерологичного функционального домена. В одном аспекте настоящего изобретения предусмотрен способ скрининга генома, включающий введение хозяину библиотеки или ее экспрессию у хозяина in vivo. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, дополнительно включающий введение хозяину активатора или его экспрессию у хозяина. В одном аспекте настоящее изобретение относится к способу, обсуждаемому в данном документе, где активатор присоединяется к эффекторному белку Cpf1. В одном аспекте настоящее изобретение относится к способу, обсуждаемому в данном документе, где активатор прикреплен к N-концу или C-концу эффекторного белка Cpf1. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, где активатор прикреплен к петле gRNA. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, дополнительно включающий введение хозяину репрессора или его экспрессию у хозяина. В одном аспекте настоящеее изобретение относится к способу, обсуждаемому в данном документе, где скрининг предусматривает воздействие на активацию гена, ингибирование гена или расщепление в локусе, и выявление указанного.

В одном аспекте настоящего изобретения предусмотрены эффективная целевая активность и сведенная к минимуму нецелевая активность. В одном аспекте настоящеее изобретение относится к эффективному целевому расщеплению с помощью эффекторного белка Cpf1 и сведенному к минимуму нецелевому расщеплению под действием эффекторного белка Cpf1. В одном аспекте настоящего изобретения предусмотрено направленно-специфичное связывание эффекторного белка Cpf1 в генном локусе без расщепления ДНК. Соответственно, в одном аспекте настоящего изобретения предусмотрена специфичная к мишени генная регуляция. В одном аспекте настоящего изобретения предусмотрено направленно-специфичное связывание эффекторного белка Cpf1 в генном локусе без расщепления ДНК. Соответственно, в одном аспекте настоящее изобретение относится к расщеплению в одном генном локусе и генной регуляции в другом генном локусе с применением одного эффекторного белка Cpf1. В одном аспекте настоящее изобретение относится к ортогональной активации, и/или ингибированию, и/или расщеплению нескольких мишеней с применением одного или нескольких эффекторных белков и/или ферментов Cpf1.

В одном аспекте настоящее изобретение относится к способу, обсуждаемому в данном документе, где хозяином является эукариотическая клетка. В одном аспекте настоящее изобретение относится к способу, обсуждаемому в данном документе, где хозяином является клетка млекопитающего. В одном аспекте настоящее изобретение относится к способу, обсуждаемому в данном документе, где хозяином является эукариотический организм, отличный от человека. В одном аспекте настоящее изобретение относится к способу, обсуждаемому в данном документе, где эукариотическим организмом, отличным от человека, является отличное от человека млекопитающее. В одном аспекте настоящее изобретение относится к способу, обсуждаемому в данном документе, где отличным от человека млекопитающим является мышь. В одном аспекте настоящее изобретение относится к способу, обсуждаемому в данном документе, предусматривающему доставку комплексов эффекторного белка Cpf1, или их компонента(компонентов), или молекулы(молекул) нуклеиновой кислоты, кодирующей их, где указанная(указанные) молекула(молекулы) нуклеиновой кислоты функционально связана(связаны) с регуляторной(регуляторными) последовательностью(последовательностями) и экспрессируется(экспрессируются) in vivo. В одном аспекте настоящее изобретение относится к способу, обсуждаемому в данном документе, где экспрессия in vivo осуществляется с помощью лентивируса, аденовируса или AAV. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, где доставка осуществляется с помощью частицы, наночастицы, липида или пептида, проникающих в клетку (CPP).

В одном аспекте настоящее изобретение относится к паре комплексов CRISPR, содержащих эффекторный белок Cpf1, при этом каждый из них содержит направляющую РНК (gRNA), предусматривающую направляющую последовательность, способную гибридизироваться с целевой последовательностью в представляющем интерес локусе генома в клетке, где по меньшей мере одна петля каждой gRNA является модифицированной путем вставки отличающейся(отличающихся) последовательности(последовательностей) РНК, которая(которые) связывается(связываются) с одним или несколькими адаптерными белками, и где адаптерный белок связывается с одним или несколькими функциональными доменами, где каждая gRNA из каждого комплекса эффекторного белка Cpf1 содержит функциональный домен, характеризующийся активностью расщепления ДНК. В одном аспекте настоящее изобретение относится к парным комплексам эффекторного белка Cpf1, обсуждаемым в данном документе, где активность расщепления ДНК обусловлена нуклеазой Fok1.

В одном аспекте настоящее изобретение относится к способу разрезания целевой последовательности в представляющем интерес локусе генома, включающему доставку в клетку комплексов эффекторного белка Cpf1, или их компонента(компонентов), или молекулы(молекул) нуклеиновой кислоты, кодирующей их, где указанная(указанные) молекула(молекулы) нуклеиновой кислоты функционально связана(связаны) с регуляторной(регуляторными) последовательностью(последовательностями) и экспрессируется(экспрессируются) in vivo. В одном аспекте настоящего изобретения предусмотрен способ, обсуждаемый в данном документе, где доставка осуществляется с помощью лентивируса, аденовируса или AAV. В одном аспекте настоящее изобретение относится к способу, обсуждаемому в данном документе, или парным комплексам эффекторного белка Cpf1, обсуждаемым в данном документе, где целевая последовательность для первого комплекса из пары находится на первой нити двухнитевой ДНК, а целевая последовательность для второго комплекса из пары находится на второй нити двухнитевой ДНК. В одном аспекте настоящее изобретение относится к способу, обсуждаемому в данном документе, или парным комплексам эффекторного белка Cpf1, обсуждаемым в данном документе, где целевые последовательности первого и второго комплексов расположены близко друг от друга, так что ДНК разрезается таким способом, который облегчает репарацию с помощью гомологичной рекомбинации. В одном аспекте способ, изложенный в данном документе, может дополнительно включать введение в клетку ДНК-матрицы. В одном аспекте способа, изложенного в данном документе, могут подразумеваться парные комплексы эффекторного белка Cpf1, изложенные в данном документе, где каждый комплекс эффекторного белка Cpf1 имеет эффекторый фермент Cpf1, который является мутированным, так что он характеризуется не более, чем приблизительно 5% нуклеазной активности эффекторного фермента Cpf1, который не является мутированным.

В одном аспекте настоящего изобретения предусмотрен способ изменения или модифицирования экспрессии продукта гена. Указанный способ может включать введение в клетку, содержащую и экспрессирующую молекулу ДНК, кодирующую продукт гена, сконструированной, не встречающейся в природе системы CRISPR, содержащей эффекторный белок Cpf1 и направляющую РНК, которая нацеливается на молекулу ДНК, в результате чего направляющая РНК нацеливается на молекулу ДНК, кодирующую продукт гена, а эффекторный белок Cpf1 расщепляет молекулу ДНК, кодирующую продукт гена, в результате чего изменяется экспрессия продукта гена; и где эффекторынй белок Cpf1 и направляющая РНК не встречаются в природе вместе. Настоящее изобретение охватывает направляющую РНК, предусматривающую направляющую последовательность, связанную с последовательностью прямого повтора. Настоящее изобретение дополнительно охватывает эффекторный белок Cpf1, который является кодон-оптимизированным для экспрессии в эукариотической клетке. В предпочтительном варианте осуществления эукариотическая клетка является клеткой млекопитающего, и в более предпочтительном варианте осуществления клетка млекопитающего является клеткой человека. В дополнительном варианте осуществления настоящего изобретения экспрессия продукта гена является сниженной.

В некоторых вариантах осуществления один или несколько функциональных доменов ассоциируются с эффекторным белком Cpf1. В некоторых вариантах осуществления один или несколько функциональных доменов ассоциируются с адапторным белком, например, как используется с модифицированными направляющими у Konnerman et al. (Nature 517, 583-588, 29 января 2015 г.). В некоторых вариантах осуществления один или несколько функциональных доменов связываются с нефункциональными gRNA (dRNA). В некоторых вариантах осуществления комплекс dRNA с активным эффекторным белком Cpf1 управляет регуляцией генов с помощью функционального домена в одном генном локусе, тогда как gRNA управляет расщеплением ДНК с помощью активного эффекторного белка Cpf1 в другом локусе, например, как описано аналогично в системах CRISPR-Cas9 у Dahlman et al., ‘Orthogonal gene control with a catalytically active Cas9 nuclease' (in press). В некоторых вариантах осуществления dRNA отбирают для обеспечения максимальной селективности регуляции для представляющего интерес генного локуса по сравнению с нецелевой регуляцией. В некоторых вариантах осуществления dRNA отбирают для обеспечения максимальной регуляции целевого гена и минимального целевого расщепления.

Для целей следующего обсуждения эталоном функционального домена может быть функциональный домен, ассоциированный с эффекторным белком Cpf1, или функциональный домен, ассоциированный с адапторным белком.

При осуществлении настоящего изобретения петли в sgRNA могут быть увеличены без столкновения с белком Cpf1 путем вставки другой(других) петли(петель) РНК или другой(других) последовательности(последовательностей), которая(которые) может(могут) рекрутировать адапторные белки, которые могут связываться с другой(другими) петлей(петлями) РНК или другой(другими) последовательностью(последовательностями). Адаптерные белки могут включать без ограничения комбинации ортогональный связывающий РНК белок/аптамер, которые встречаются во множестве белков оболочки бактериофагов. Перечень таких белков оболочки включает без ограничения Qβ, F2, GA, fr, JP501, M12, R17, BZ13, JP34, JP500, KU1, M11, MX1, TW18, VK, SP, FI, ID2, NL95, TW19, AP205, φCb5, φCb8r, φCb12r, φCb23r, 7s и PRR1. Такие адаптерные белки или ортогональные связывающие РНК белки могут дополнительно ректурировать эффекторные белки или продукты слияния, которые содержат один или несколько функциональных доменов. В некоторых вариантах осуществления функциональный домен может быть выбран из группы, состоящей из домена транспозазы, домена интегразы, домена рекомбиназы, домена резольвазы, домена инвертазы, домена протеазы, домена ДНК-метилтрансферазы, домена ДНК-гидроксилметилазы, домена ДНК-деметилазы, домена гистонацетилазы, домена гистондеацетилазы, нуклеазного домена, репрессорного домена, активаторного домена, доменов сигнала ядерной локализации, домена регуляторного белка транскрипции (или вовлечения транскрипционного комплекса), ассоциированного с активностью клеточного поглощения домена, домена связывания нуклеиновой кислоты, домена представления антитела, модифицирующих гистоны ферментов, рекрутера модифицирующих гистоны ферментов; ингибитора модифицирующих гистоны ферментов, гистонметилтрансферазы, гистондеметилазы, гистонкиназы, гистонфосфатазы, гистонрибозилазы, гистондерибозилазы, гистонубиквитиназы, гистондеубиквитиназы, гистонбиотиназы и протеазы гистонового хвоста. В некоторых предпочтительных вариантах осуществления функциональным доменом является домен активации транскрипции, такой как без ограничения VP64, p65, MyoD1, HSF1, RTA, SET7/9 или гистонацетилтрансфераза. В некоторых вариантах осуществления функциональный домен представляет собой домен репрессии транскрипции, предпочтительно KRAB. В некоторых вариантах осуществления домен репрессии транскрипции представляет собой SID или конкатемеры SID (например, SID4X). В некоторых вариантах осуществления функциональный домен представляет собой домен эпигенетического модифицирования, так что обеспечивается фермент эпигенетического модифицирования. В некоторых вариантах осуществления функциональный домен представляет собой домен активации, который может представлять собой домен активации P65.

В некоторых вариантах осуществления один или несколько функциональных доменов представляют собой NLS (последовательность ядерной локализации) или NES (сигнал ядерного экспорта). В некоторых вариантах осуществления один или несколько функциональных доменов представляют собой домен активации транскрипции, который включает в себя VP64, p65, MyoD1, HSF1, RTA, SET7/9 и гистонацетилтрансферазу. Другие упоминания в данном документе доменов активации (или активатора) в отношении доменов, ассоциированных с ферментом CRISPR, включают в себя любой известный домен активации транскрипции и, в частности, VP64, p65, MyoD1, HSF1, RTA, SET7/9 или гистонацетилтрансферазу.

В некоторых вариантах осуществления один или несколько функциональных доменов представляют собой домен репрессии транскрипции. В некоторых вариантах осуществления домен репрессии транскрипции представляет собой домен KRAB. В определенных вариантах осуществления домен репрессии транскрипции представляет собой домен NuE, домен NcoR, домен SID или домен SID4X.

В некоторых вариантах осуществления один или несколько функциональных доменов характеризуются одной или несколькими видами активности, предусматривающими метилазную активность, деметилазную активность, активность в отношении активации транскрипции, активность в отношении репрессии транскрипции, активность фактора освобождения транскрипта, активность в отношении модификации гистонов, активность расщепления РНК, активность расщепления ДНК, активность интеграции ДНК или активность связывания нуклеиновой кислоты.

В определенных вариантах осуществления активность расщепления ДНК обусловлена нуклеазой. В некоторых вариантах осуществления нуклеаза содержит нуклеазу Fok1. См. "Dimeric CRISPR RNA-guided FokI nucleases for highly specific genome editing", Shengdar Q. Tsai, Nicolas Wyvekens, Cyd Khayter, Jennifer A. Foden, Vishal Thapar, Deepak Reyon, Mathew J. Goodwin, Martin J. Aryee, J. Keith Joung Nature Biotechnology 32(6): 569-77 (2014) в отношении направляемых димерной РНК нуклеаз FokI, которые распознают продленные последовательности и могут редактировать эндогенные гены с высокой эффективностью в человеческих клетках.

В некоторых вариантах осуществления один или несколько функциональных доменов присоединяются к эффекторному белку Cpf1 так, что при связывании с sgRNA и мишенью функциональный домен находится в пространственной ориентации, позволяющей функциональному домену функционировать с приписываемой ему функцией.

В некоторых вариантах осуществления один или несколько функциональных доменов присоединяются к адапторному белку так, что при связывании эффекторного белка Cpf1 с gRNA и мишенью функциональный домен находится в пространственной ориентации, позволяющей функциональному домену функционировать с приписываемой ему функцией.

В одном аспекте настоящее изобретение относится к композиции, обсуждаемой в настоящем документе, где один или несколько функциональных доменов присоединяются к эффекторному белку Cpf1 или адапторному белку через линкер, необязательно линкер GlySer, как обсуждается в настоящем документе.

Эндогенная репрессия транскрипции зачастую опосредуется модифицирующими хроматин ферментами, такими как гистонметилтрансферазы (HMT) и деацетилазы (HDAC). Типичная гистоновые эффекторные домены известны, и иллюстративный перечень представлен ниже. В иллюстративной таблице упоминаются белки и функциональные усечения небольших размеров для облегчения эффективной вирусной упаковки (например, посредством AAV). В целом, однако, домены могут включать в себя HDAC, гистонметилтрансферазы (HMT) и ингибиторы гистонацетилтрансферазы (HAT), а также рекрутирующие HDAC и HMT белки. Функциональный домен может представлять собой или включать в некоторых вариантах осуществления эффекторные домены HDAC, рекрутерные эффекторные домены HDAC, эффекторные домены гистонметилтрансферазы (HMT), рекрутерные эффекторные домены гистонметилтрансферазы (HMT) или ингибиторные эффекторные домены гистонацетилтрансферазы.

Эффекторные домены HDAC

Под-тип/
Комп-лекс Назва-
ние Субст-рат (если извес-тен) Моди-фикация (если извест-на) Организм Пол-ный раз-мер (aa) Выбранное усечение (aa) Конеч-ный размер (aa) Катали-тичес-ких домен HDAC I HDAC8 - - X. laevis 325 1-325 325 1-272: HDAC HDAC I RPD3 - - S. cerevisiae 433 19-340 322 (Van-nier) 19-331: HDAC HDAC IV MesoLo4 - - M. loti 300 1-300 (Gregoretti) 300 - HDAC IV HDAC11 - - H. sapiens 347 1-347 (Gao) 347 14-326: HDAC HD2 HDT1 - - A. thaliana 245 1-211 (Wu) 211 - SI время удержи-вания I SIRT3 H3K9Ac
H4K16Ac
H3K56Ac - H. sapiens 399 143-399 (Scher) 257 126-382: SIRT SI время удержи-вания I HST2 - - C. albicans 331 1-331 (Hnisz) 331 - SI время удержи-вания I CobB - - E. coli (K12) 242 1-242 (Landry) 242 - SI время удержи-вания I HST2 - - S. cerevisiae 357 8-298 (Wilson) 291 - SI время удержи-вания III SIRT5 H4K8Ac
H4K16Ac - H. sapiens 310 37-310 (Gertz) 274 41-309: SIRT SI время удержи-вания III Sir2A - - P. falciparum 273 1-273 (Zhu) 273 19-273: SIRT SI время удержи-вания IV SIRT6 H3K9Ac
H3K56Ac - H. sapiens 355 1-289 (Tennen) 289 35-274: SIRT

Следовательно, репрессорные домены в соответствии с настоящим изобретением могут быть выбраны из гистонметилтрансфераз (HMT), гистондеацетилаз (HDAC), ингибиторов гистонацетилтрансферазы (HAT), а также рекрутирующих HDAC и HMT белков.

Доменом HDAC может быть любой из доменов в представленной выше таблице, а именно HDAC8, RPD3, MesoLo4, HDAC11, HDT1, SIRT3, HST2, CobB, HST2, SIRT5, Sir2A или SIRT6.

В некотором варианте осуществления функциональным доменом может быть рекрутерный эффекторный домен HDAC. Предпочтительные примеры включают в себя домены в представленной ниже таблице, а именно MeCP2, MBD2b, Sin3a, NcoR, SALL1, RCOR1. NcoR является типичным в примерах настоящего изобретения, и, хотя является предпочтительным, предусматривается, что также будут применимыми и другие домены из класса.

Таблица рекрутерных эффекторных доменов HDAC

Подтип/
Комп-лекс Назва-ние Субс-трат (если извес-тен) Моди-фикация (если извест-на) Организм Пол-ный раз-мер (aa) Выбранное усечение (aa) Коне-чный размер (aa) Каталити-ческих
домен Sin3a MeCP2 - - R. norvegicus 492 207-492 (Nan) 286 - Sin3a MBD2b - - H. sapiens 262 45-262 (Boeke) 218 - Sin3a Sin3a - - H. sapiens 1273 524-851 (Laherty) 328 627-829: Взаимо-действие HDAC1 NcoR NcoR - - H. sapiens 2440 420-488 (Zhang) 69 - NuRD SALL1 - - M. musculus 1322 1-93 (Lauberth) 93 - CoREST RCOR1 - - H. sapiens 482 81-300 (Gu, Ouyang) 220 -

В некотором варианте осуществления функциональным доменом может быть эффекторный домен метилтрансферазы (HMT). Предпочтительные примеры включают в себя домены в представленной ниже таблице, а именно NUE, vSET, EHMT2/G9A, SUV39H1, dim-5, KYP, SUVR4, SET4, SET1, SETD8 и TgSET8. NUE является типичным в примерах настоящего изобретения, и, хотя является предпочтительным, предусматривается, что также будут применимыми и другие домены из класса.

Таблица эффекторных доменов гистонметилтрансферазы (HMT)

Подтип/
Комп-
Лекс Наз-вание Субс-трат (если извес-тен) Моди-фика-ция (если извест-на) Орга-низм Пол-ный раз-мер (aa) Выбран-ное усечение (aa) Конеч-ный раз-
мер
(aa) Катали-тичес-ких домен SET NUE H2B,
H3, H4 - C. tracho-matis 219 1-219 (Pennini) 219 - SET vSET - H3K27me3 P. bursaria chlorella virus 119 1-119 (Mujtaba) 119 4-112: SET2 Семей-ство SUV39 EHMT2/
G9A H1,4K2, H3K9, H3K27 H3K9me1/2, H1K25me1 M. mus-culus 1263 969-1263 (Tachibana) 295 1025-1233: preSET, SET, postSET SUV39 SUV39H1 - H3K9me2/3 H. sapiens 412 79-412 (Snowden) 334 172-412: preSET, SET, postSET Suvar3-9 dim-5 - H3K9me3 N. crassa 331 1-331 (Rathert) 331 77-331: preSET, SET, postSET Suvar3-9 (SUVH подсе-мейство) KYP - H3K9me1/2 A. thaliana 624 335-601 267 (Jack-son) - Suvar3-9 (SUVR подсе-мейство) SUVR4 H3K9me1 H3K9me2/3 A. thaliana 492 180-492 313 (Thors-tensen) 192-462: preSET, SET, postSET Suvar4-
20 SET4 - H4K20me3 C. elegans 288 1-288 (Vielle) 288 - SET8 SET1 - H4K20me1 C. elegans 242 1-242 (Vielle) 242 - SET8 SETD8 - H4K20me1 H. sapiens 393 185-393 209 (Cou-ture) 256-382: SET SET8 TgSET8 - H4K20me1/2/3 T. gondii 1893 1590-1893 (Sautel) 304 1749-1884: SET

В некотором варианте осуществления функциональным доменом может быть рекрутерный эффекторный домен гистонметилтрансферазы (HMT). Предпочтительные примеры включают в себя домены в представленной ниже таблице, а именно Hp1a, PHF19 и NIPP1.

Таблица рекрутерных эффекторных доменов гистонметилтрансферазы (HMT)

Под-тип/
Комп
лекс Наз-вание Субст-рат (если извес-тен) Модифика-ция (если известна) Организм Пол-ный раз-мер (aa) Выб-ранное усече-ние (aa) Конеч-ный размер (aa) Каталити-ческих
домен - Hp1a - H3K9me3 M. musculus 191 73-191 119 (Hatha-way) 121-179: chromoshadow - PHF19 - H3K27me3 H. sapiens 580 (1-250) + GGSG линкер + (500-580) 335 (Ballaré) 163-250: PHD2 - NIPP1 - H3K27me3 H. sapiens 351 1-329 (Jin) 329 310-329: EED

В некотором варианте осуществления функциональным доменом может быть ингибиторный эффекторный домен гистонацетилтрансферазы. Предпочтительные примеры включают в себя SET/TAF-1β, приведенные в таблице ниже.

Таблица ингибиторных эффекторных доменов гистонацетилтрансферазы

Подтип/
Комп-лекс Название Субст-рат (если извес-тен) Модифи-кация (если известна) Организм Пол-ный раз-мер (aa) Выбран-ное усече-
ние
(aa) Конеч-ный размер (aa) Катали-тичес-ких домен - SET/TAF-1β - - M. musculus 289 1-289 (Cervo-
ni) 289 -

Также предпочтительным является нацеливание на эндогенные (регуляторные) контрольные элементы (такие как энхансеры и сайленсеры) в дополнение к промоторным или промотор-проксимальным элементам. Таким образом, настоящее изобретение также может быть использовано для нацеливания на эндогенные контрольные элементы (в том числе энхансеры и сайленсеры) в дополнение к нацеливанию на промотор. Такие контрольные элементы могут быть расположены выше и ниже сайта начала транскрипции (TSS), начинающегося от 200 т. о. от TSS до 100 т. о. Нацеливание на известные контрольные элементы можно применять для активации или подавления представляющего интерес гена. В некоторых случаях один контрольный элемент может влиять на транскрипцию нескольких целевых генов. Поэтому нацеливание на один контрольный элемент может быть использовано для контроля транскрипции нескольких генов одновременно.

С другой стороны, нацеливание на предполагаемые контрольные элементы (например, путем перекрывания участка предполагаемого контрольного элемента, а также от 200 п. о. до 100 т. о. около элемента) может применяться как средство для подтверждения таких элементов (путем измерения транскрипции представляющего интерес гена) или для выявления новых контрольных элементов (например, путем перекрывания 100 т. о. выше и ниже TSS представляющего интерес гена). Кроме того, нацеливание на предполагаемые контрольные элементы может быть применимо в контексте понимания генетических причин заболевания. Многие мутации и общие варианты SNP, ассоциированные с фенотипами заболеваний, располагаются вне кодирующих участков. После нацеливания на такие области с системами либо активации, либо подавления, описываемыми в данном документе, может следовать считывание транскрипции либо a) ряда предполагаемых мишеней (например, ряда генов, расположенных в тесной близости к контрольному элементу), либо b) полнотранскриптомное считывание, например, с помощью RNAseq или микрочипа. Это позволило бы идентифицировать вероятные кандидатные гены, вовлеченные в фенотип заболевания. Такие кандидатные гены могут быть применимы в качестве новых мишеней лекарственных средств.

В данном документе упоминаются ингибиторы гистонацетилтрансферазы (HAT). Однако альтернативой в некоторых вариантах осуществления является то, что один или несколько функциональных доменов содержат ацетилтрансферазу, предпочтительно гистонацетилтрансферазу. Они применимы в области эпигеномики, например, в способах детального исследования эпигенома. Способы детального исследования эпигенома могут предусматривать, например, нацеливание на эпигеномные последовательности. Нацеливание на эпигеномные последовательности может включать в себя направляющую, направленную на эпигеномную целевую последовательность. Эпигеномная целевая последовательность может включать в себя в некоторых вариантах осуществления промотор, сайленсер или энхансерную последовательность.

Применение функционального домена, связанного с эффекторным белком Cpf1, описываемым в настоящем документе, предпочтительно неработающим эффекторным белком Cpf1, более предпочтительно неработающим эффекторным белком FnCpf1, для нацеливания на эпигеномные последовательности может применяться для активации или подавления промоторов, сайленсера или энхансеров.

Примеры ацетилтрансфераз известны и могут включать в себя в некоторых вариантах осуществления гистонацетилтрансферазы. В некоторых вариантах осуществления гистонацетилтрансфераза может содержать каталитическое ядро человеческой ацетилтрансферазы p300 (Gerbasch & Reddy, Nature Biotech 6th April 2015).

В некоторых предпочтительных вариантах осуществления функциональный домен связывается с эффекторным белком Cpf1 для нацеливания на эпигеномные последовательности, такие как промоторы или энхансеры, и их активации. Одна или несколько направляющих, направленных на такие промоторы или энхансеры, также могут быть обеспечены для управления связывания фермента CRISPR с такими промоторами или энхансерами.

Термин "ассоциированный с" используют в настоящем документе в отношении ассоциации функционального домена с эффекторным белком Cpf1 или адапторным белком. Он используется в отношении того, как одна молекула "связывается" по отношению к другой, например, между адапторным белком и функциональным доменом или между эффекторным белком Cpf1 и функциональным доменом. В случае таких белок-белковых взаимодействий эту ассоциацию можно рассматривать с точки зрения распознавания при распознавании антителом эпитоп. Альтернативно один белок может быть ассоциирован с другим белком посредством слияния обоих, например, одна субъединица является слитой с другой субъединицей. Слияние обычно происходит путем добавления одной аминокислотной последовательности к другой, например, посредством сплайсинга нуклеотидных последовательностей, которые кодируют каждый белок или субъединицу. Альтернативно, по сути, это можно рассматривать как связывание двух молекул или прямую связь, например, белок слияния. В любом случае слитый белок может включать линкер между двумя представляющими интерес субъединицами (т. е. между ферментом и функциональным доменом или между адаптерным белком и функциональным доменом). Таким образом, в некоторых вариантах осуществления эффекторный белок Cpf1 или адапторный белок связывается с функциональным доменом путем связывания с ним. В других вариантах осуществления эффекторный белок Cpf1 или адапторный белок связывается с функциональным доменом, поскольку два сливаются вместе, необязательно через промежуточный линкер.

Прикрепление функционального домена или слитого белка может быть выполнено через линкер, например, гибкий глицин-сериновый (GlyGlyGlySer), или (GGGS)₃, или жесткий альфа-спиральный линкер, такой как (Ala(GluAlaAlaAlaLys)Ala). Линкеры, такие как (GGGGS)3, предпочтительно используют в данном документе для отделения белковых или пептидных доменов. (GGGGS)₃ является предпочтительным, поскольку он является относительно длинным линкером (15 аминокислот). Глициновые остатки являются наиболее гибкими, а сериновые остатки повышают вероятность того, что линкер будет находится на внешней стороне белка. (GGGGS)₆ (GGGGS)₉ или (GGGGS)₁₂ предпочтительно могут быть использованы в качестве альтернативных вариантов. Другими предпочтительными альтернативными вариантами являются (GGGGS)₁, (GGGGS)₂, (GGGGS)₄, (GGGGS)₅, (GGGGS)₇, (GGGGS)₈, (GGGGS)₁₀ или (GGGGS)₁₁. Доступны альтернативные линкеры, но считается, что очень гибкие линкеры лучше обеспечивают максимальную возможность объединения 2 частей Cpf1 и, таким образом, восстановления активности Cpf1. Одной альтернативой является то, что NLS нуклеоплазмина можно использовать в качестве линкера. Например, линкер также может быть использован между Cpf1 и каким-либо функциональным доменом. Опять-таки, в данном случае можно применять линкер (GGGGS)₃ (или его варианты с 6, 9 или 12 повторами) или можно применять NLS нуклеоплазмина в качестве линкера между Cpf1 и функциональным доменом.

Насыщающий мутагенез

Система(системы) эффекторного белка Cpf1, описанная(описанные) в данном документе, может(могут) применяться для осуществления насыщающего или глубокосканирующего мутагенеза локусов генома вместе с клеточным фенотипом, например, для определения критических минимальных признаков и дискретных повреждаемостей функциональных элементов, необходимых для экспрессии гена, устойчивости к лекарственному средству и обратимости заболевания. Под насыщающим или глубокосканирующим мутагенезом подразумевается то, что каждое или практически каждое основание ДНК разрезается в локусах генома. Библиотека направляющих РНК эффекторного белка Cpf1 может быть введена в популяцию клеток. Библиотека может быть введена так, что каждая клетка получает одну направляющую РНК (gRNA). В том случае, если библиотеку вводят путем трансдукции вирусного вектора, описываемого в данном документе, используется низкая мультиплетность инфекции (MOI). Библиотека может включать в себя gRNA, нацеливающиеся на каждую последовательность выше последовательности РАМ (мотива, смежного с протоспейсером) в геномном локусе. Библиотека может включать в себя по меньшей мере 100 неперекрывающихся геномных последовательностей выше последовательности PAM для каждых 1000 пар оснований в локусе генома. Библиотека может включать в себя нацеливающиеся последовательности gRNA выше по меньшей мере одной другой последовательности PAM. Системы эффекторного белка Cpf1 могут включать в себя более одного белка Cpf1. Может быть использован любой эффекторный белок Cpf1, описываемый в данном документе, в том числе ортологи или сконструированные белки Cpf1, которые распознают другие последовательности PAM. Частота нецелевых сайтов для gRNA может составлять менее 500. Оценки нецелевых событий могут быть получены для отбора gRNA с самым низким числом нецелевых сайтов. Любой фенотип, определенный как ассоциированный с разрезанием по целевому сайту gRNA, может быть подтвержден с использованием нацеливания gRNA на тот же сайт в одном эксперименте. Подтверждение целевого сайта также может быть выполнено с использованием модифицированного эффекторного белка Cpf1, описываемого в данном документе, и двух gRNA, нацеливающихся на представляющий интерес геномный сайт. Без углубления в теорию, целевой сайт представляет собой истинное совпадение, если в подтверждающих экспериментах наблюдают изменение в фенотипе.

Локусы генома могут включать в по меньшей мере один непрерывный участок генома. По меньшей мере один непрерывный участок генома может содержать даже полный геном. По меньшей мере один непрерывный участок генома может содержать функциональный элемент генома. Функциональный элемент может находиться в некодирующем участке, кодирующем участке, интронном участке, промоторе или энхансере. По меньшей мере один непрерывный участок генома может содержать по меньшей мере 1 т. о. предпочтительно по меньшей мере 50 т. о. геномной ДНК. По меньшей мере один непрерывный учаток генома может содержать сайт связывания фактора транскрипции. По меньшей мере один непрерывный учаток генома может содержать участок гиперчувствительности к ДНКазе I. По меньшей мере один непрерывный учаток генома может содержать транскрипционный энхансерный или репрессорный элемент. По меньшей мере один непрерывный учаток генома может содержать сайт, обогащенный эпигенетической сигнатурой. По меньшей мере один непрерывный учаток геномной ДНК может содержать эпигенетический инсулятор. По меньшей мере один непрерывный участок генома может содержать два или более непрерывных участков генома, которые взаимодействуют физически. Участки генома, которые взаимодействуют, могут быть определены с помощью ‘технологии 4C'. 4C технология облегчает тестирование всего генома объективным образом на предмет сегментов ДНК, которые взаимодействуют физически с выбранным фрагментом ДНК, как описано у Zhao et al. ((2006) Nat Genet 38, 1341-7) и в патенте США № 8642295, оба из которых включены в настоящий документ посредством ссылки во всей своей полноте. Эпигенетической сигнатурой может быть гистонацетилирование, гистонметилирование, гистонубиквитинирование, гистонфосфорилирование, метилирование ДНК или отсутствие таковых.

Систему(системы) эффекторного белка Cpf1 для насыщающего или глубокосканирующего мутагенеза можно применять в популяции клеток. Систему(системы) на основе эффекторного белка Cpf1 можно применять в эукариотических клетках, в том числе без ограничения клетках млекопитающих и растений. Популяцией клеток могут быть прокариотические клетки. Популяцией эукариотических клеток может быть популяция эмбриональных стволовых (ES) клеток, нейронных клеток, эпителиальных клеток, иммунных клеток, эндокринных клеток, мышечных клеток, эритроцитов, лимфоцитов, растительных клеток или клеток дрожжей.

В одном аспекте настоящее изобретение относится к способу скрининга на предмет функциональных элементов, ассоциированных с изменением в фенотипе. Библиотека может быть введена в популяцию клеток, которые адаптированы с целью содержания эффекторного белка Cpf1. Клетки могут быть рассортированы по меньшей мере на две группы на основании фенотипа. Фенотипом может быть экспрессия гена, клеточный рост или клеточная жизнеспособность. Определяют относительное представление направляющих РНК, присутствующих в каждой группе, с определением тем самым сайтов генома, ассоциированных с изменением в фенотипе с помощью представления направляющих РНК, присутствующих в каждой группе. Изменением в фенотипе может быть изменение в экспрессии представляющего интерес гена. Представляющий интерес ген может быть активирован, подавлен или нокаутирован. Клетки могут быть рассортированы в группу с высокой экспрессией и группу с низкой экспрессией. Популяция клеток может содержать репортерную конструкцию, которую используют для определения фенотипа. Репортерная конструкция может включать выявляемый маркер. Клетки могут быть рассортированы с использованием выявляемого маркера.

В другом аспекте настоящее изобретение относится к способу скрининга на предмет сайтов генома, ассоциированных с устойчивостью к химическому соединению. Химическим соединением может быть лекарственное средство или пестицид. Библиотека может быть введена в популяцию клеток, которые адаптированы с содержанием эффекторного белка Cpf1, где каждая клетка популяции содержит не более чем одну направляющую РНК; при этом популяцию клеток обрабатывают химическим соединением и определяют представление направляющих РНК после обработки химическим соединением в более поздний момент времени по сравнению с ранним моментом времени, посредством чего определяют геномные сайты, ассоциированные с устойчивостью к химическому соединению с помощью обогащения направляющих РНК. Представление gRNA может быть определено способами глубокого секвенирования.

Применительно к осуществлению настоящего изобретения, существуют способы, в которых используют комплексы эффекторного белка Cpf1, используемые в системах CRISPR-Cas9, и можно упомянуть статью под названием "BCL11A enhancer dissection by Cas9-mediated in situ saturating mutagenesis". Canver, M.C., Smith, E.C., Sher, F., Pinello, L., Sanjana, N.E., Shalem, O., Chen, D.D., Schupp, P.G., Vinjamur, D.S., Garcia, S.P., Luc, S., Kurita, R., Nakamura, Y., Fujiwara, Y., Maeda, T., Yuan, G., Zhang, F., Orkin, S.H., & Bauer, D.E. DOI:10.1038/nature15521, опубликованную онлайн 16 сентября 2015 г., при этом данная статья включена в данный документ посредством ссылки и кратко обсуждается ниже.

Canver et al. включают новую библиотеку объединенных в пулы направляющих РНК CRISPR-Cas9 для выполнения in situ насыщающего мутагенеза человеческих и мышиных энхансеров эритроидного BCL11A, ранее идентифицированных как энхансер, ассоциированный с уровнем фетального гемоглобина (HbF), и мышиный ортолог которого необходим для экспрессии эритроидного BCL11A. Этот подход выявляет критические минимальные признаки и дискретные повреждаемости этих энхансеров. Посредством редактирования первичных клеток-предшественников человека и мышиного трансгеноза авторы подтвердили энхансер эритроидного BCL11A в качестве мишени для повторной индукции HbF. Авторы создали подробную карту энхансеров, которая предоставляет информацию о терапевтическом редактировании генома.

Способ применения систем Cpf1 для модификации клетки или организма

Настоящее изобретение в некоторых вариантах осуществления охватывает способ модифицирования клетки или организма. Клетка может быть прокариотической клеткой или эукариотической клеткой. Клетка может быть клеткой млекопитающего. Клетка млекопитающего может быть клеткой отличного от человека примата, быка, свиньи, грызуна или мыши. Клетка может быть эукариотической клеткой от организма, отличного от млекопитающего, например, птицы, рыбы или креветки. Клетка также может быть растительной клеткой. Растительная клетка может происходить из сельскохозяйственного растения, такого как маниока, кукуруза, сорго, пшеница или рис. Растительная клетка также может происходить из водоросли, дерева или овощной культуры. Модификация, введенная в клетку с помощью настоящего изобретения, может быть такой, что клетка и потомство клетки изменяются для улучшения продуцирования биологических продуктов, таких как антитело, крахмал, спирт или другой желаемый клеточный продукт. Модификация, введенная в клетку с помощью настоящего изобретения, может быть такой, что клетка и потомство клетки будут включать в себя изменение, которое меняет продуцируемый биологический продукт.

Система может содержать один или несколько разных векторов. В аспекте настоящего изобретения белок Cas является кодон-оптимизированным для экспрессии в эукариотической клетке, предпочтительно в клетке млекопитающего или клетке человека.

Упаковывающие клетки, как правило, используют для получения вирусных частиц, которые способны инфицировать клетку-хозяина. Такие клетки включают клетки 293, которые упаковывают аденовирус, и клетки ψ2 или клетки PA317, которые упаковывают ретровирус. Вирусные векторы, используемые в генной терапии, как правило, создают путем получения линии клеток, которые упаковывают вектор на основе нуклеиновой кислоты в вирусную частицу. Векторы, как правило, содержат минимальные вирусные последовательности, необходимые для упаковки и последующей интеграции в хозяина, при этом другие вирусные последовательности замещены кассетой экспрессии для подлежащего экспрессии полинуклеотида(полинуклеотидов). Отсутствующие вирусные функции, как правило, обеспечивают в другом объекте при помощи линии упаковывающих клеток. Например, векторы на основе AAV, применяемые в генной терапии, как правило, имеют только ITR-последовательности из генома AAV, которые необходимы для упаковки и интеграции в геном хозяина. Вирусная ДНК упаковывается в линию клеток, которая содержит плазмиду-помощника, кодирующую другие гены AAV, а именно rep и cap, но без ITR-последовательностей. Линия клеток также может быть инфицирована аденовирусом в качестве вируса-помощника. Вирус-помощник способствует репликации AAV-вектора и экспрессии генов AAV из плазмиды-помощника. Плазмида-помощник не упаковывается в значительном количестве в связи с отсутствием ITR-последовательностей. Контаминация аденовирусом может быть снижена, к примеру, при помощи тепловой обработки, к которой аденовирус более чувствителен, чем AAV.

Доставка

Настоящее изобретение также охватывает по меньшей мере один компонент комплекса CRISPR, например, РНК, доставленную посредством по меньшей мере одного комплекса на основе наночастиц. В некоторых аспектах настоящее изобретение относится к способам, включающим доставку в клетку-хозяина одного или нескольких полинуклеотидов, как, например, или одного, или нескольких векторов, которые описаны в данном документе, одного или нескольких их транскриптов и/или одного или нескольких белков, транскрибируемых с них. В некоторых аспектах настоящее изобретение дополнительно предусматривает клетки, полученные с помощью таких способов, и животных, содержащих такие клетки или полученных из них. В некоторых вариантах осуществления фермент CRISPR в комбинации с (и необязательно образующий комплекс с) направляющей последовательностью доставляют в клетку. Традиционные способы переноса генов с использованием вирусов и без использования вирусов можно применять для введения нуклеиновых кислот в клетки млекопитающих или целевые ткани. Такие способы можно использовать для введения нуклеиновых кислот, кодирующих компоненты системы CRISPR, в клетки в культуре или в организме-хозяине. Системы доставки на основе невирусных векторов включают плазмидные ДНК, РНК (например, транскрипт вектора, описанного в данном документе), "оголенную" нуклеиновую кислоту и нуклеиновую кислоту, образующую комплекс со средством доставки, таким как липосома. Системы доставки на основе вирусного вектора включают ДНК- и РНК-содержащие вирусы, которые имеют либо геномы в эписомальной форме, либо интегрированные геномы после доставки в клетку. В отношении обзора процедур генной терапии см. Anderson, Science 256:808-813 (1992); Nabel & Felgner, TIBTECH 11:211-217 (1993); Mitani & Caskey, TIBTECH 11:162-166 (1993); Dillon, TIBTECH 11:167-175 (1993); Miller, Nature 357:455-460 (1992); Van Brunt, Biotechnology 6(10):1149-1154 (1988); Vigne, Restorative Neurology and Neuroscience 8:35-36 (1995); Kremer & Perricaudet, British Medical Bulletin 51(1):31-44 (1995); Haddada et al. в Current Topics in Microbiology and Immunology, Doerfler and Böhm (eds) (1995) и Yu et al., Gene Therapy 1:13-26 (1994).

Способы отличной от вирусной доставки нуклеиновых кислот включают липофекцию, микроинъекцию, баллистическую трансфекцию, доставка с помощью виросом, липосом, иммунолипосом, поликатион или конъюгатов липид:нуклеиновая кислота, "оголенной" ДНК, искусственных вирионов и повышенное с помощью определенного средства поглощение ДНК. Липофекция описана, например, в патентах США №№ 5049386, 4946787 и 4897355, и реагенты для липофекции реализуют в промышленных масштабах (к примеру, Transfectam™ и Lipofectin™). Катионные и нейтральные липиды, которые подходят для эффективной липофекции с узнаванием рецепторов полинуклеотидов, включают липиды из Felgner, WO 91/17424; WO 91/16024. Доставка может осуществляться в клетки (к примеру, введение in vitro или ex vivo) или целевые ткани (к примеру, введение in vivo).

При применении систем на основе РНК- и ДНК-содержащих вирусов для доставки нуклеиновых кислот используют тщательно разработанные способы обеспечения нацеливания вируса на конкретные клетки в организме и перемещения полезных последовательностей вируса в ядро. Вирусные векторы можно вводить непосредственно пациентам (in vivo), или их можно применять для обработки клеток in vitro, и модифицированные клетки можно необязательно вводить пациентам (ex vivo). Традиционные системы на основе вирусов для переноса генов могут включать ретровирусные, лентивирусные, аденовирусные векторы, векторы на основе аденоассоциированного вируса и вируса простого герпеса. Интеграция в геном хозяина возможна с применением способов переноса генов на основе ретровируса, лентивируса и аденоассоциированного вируса, что часто приводит к длительной экспрессии встроенного трансгена. Кроме того, высокие показатели эффективности трансдукции наблюдали у многих различных типов клеток и целевых тканей.

В другом варианте осуществления предусматриваются псевдотипированные ретровирусные векторные частицы на основе оболочки везикуловируса Кокал (см., например, публикацию заявки на патент США № 20120164118, закрепленной за Онкологическим исследовательским центром Фреда Хатчинсона). Вирус Кокал относится к роду Vesiculovirus и является возбудителем везикулярного стоматита у млекопитающих. Вирус Кокал изначально был выделен из клещей в Тринидаде (Jonkers et al., Am. J. Vet. Res. 25:236-242 (1964)), и инфекции были идентифицированы в Тринидаде, Бразилии и Аргентине у насекомых, крупного рогатого скота и лошадей. Многие везикуловирусы, которые инфицируют млекопитающих, были выделены у инфицированных в естественных условиях членистоногих, что позволяет предположить, что они являются передаваемыми переносчиками. Антитела к везикуловирусам распространены у людей, живущих в сельской местности, где вирусы являются эндемичными и внутрилабораторными; причем инфекции у людей обычно приводят к гриппоподобным симптомам. Гликопротеин оболочки вируса Кокал обладает идентичностью 71,5% на аминокислотном уровне с VSV-G Индианы, причем филогенетическое сравнение генов оболочки везикуловирусов показало, что вирус Кокал серологически отличается от VSV-G штаммов Индиана, но из везикуловирусов является наиболее близкородственным с ними. Jonkers et al., Am. J. Vet. Res. 25:236-242 (1964) и Travassos da Rosa et al., Am. J. Tropical Med. & Hygiene 33:999-1006 (1984). Псевдотипированные ретровирусные векторные частицы на основе оболочки везикуловируса Кокал могут включать, например, лентивирусные, альфаретровирусные, бетаретровирусные, гаммаретровирусные, дельтаретровирусные и эпсилонретровирусные векторные частицы, которые могут содержать ретровирусный Gag, Pol и/или один или несколько акцессорных белков и белок оболочки везикуловируса Кокал. В определенных аспектах этих вариантов осуществления Gag, Pol и дополнительные белки являются лентивирусными и/или гамма-ретровирусными. Настоящее изобретение предусматривает AAV, которые содержит или состоит фактически из экзогенной молекулы нуклеиновой кислоты, кодирующей систему CRISPR, например, множество кассет, содержащих или состоящих из первой кассеты, содержащей или состоящей фактически из промотора, молекулы нуклеиновой кислоты, кодирующей CRISPR-ассоциированный (Cas) белок (предполагаемые нуклеазные или хеликазные белки), например Cpf1, и терминатор, и две или более, преимущественно до предела упаковки вектора, например, всего (включая первую кассету) пять кассет, содержащих или состоящих фактически из промотора, молекулы нуклеиновой кислоты, кодирующей направляющую РНК (gRNA), и терминатор (например, каждая кассета схематически представлена как промотор-gRNA1-терминатор, промотор-gRNA2-терминатор ... промотор-gRNA(N)-терминатор (где N является количеством, которое можно встроить, находящееся на верхней границе предела упаковки вектора)), или два или более отдельных rAAV, причем каждый содержит одну или несколько кассет системы CRISPR, например первый rAAV, содержащий первую кассету, содержащую или состоящую фактически из промотора, молекулы нуклеиновой кислоты, кодирующей Cas, например, Cas (Cpf1), и терминатора, и второй rAAV, содержащий несколько, четыре кассеты, кассет содержащих или состоящих фактически из промотора, молекулы нуклеиновой кислоты, кодирующей направляющую РНК (gRNA), и терминатора (например, каждая кассета схематически представлена как промотор-gRNA1-терминатор, промотор-gRNA2-терминатор ... промотор-gRNA(N)-терминатор (где N является количеством, которое можно встроить, находящееся на верхней границе предела упаковки вектора)). Поскольку rAAV представляет собой ДНК-содержащий вирус, молекулы нуклеиновой кислоты в изложенном в данном документе обсуждении в отношении AAV или rAAV преимущественно представляют собой ДНК. В некоторых вариантах осуществления промотор преимущественно представляет собой промотор синапсина I человека (hSyn). Дополнительные способы доставки нуклеиновых кислот в клетки известны специалистам в данной области. См., например, US20030087817, включенный в данный документ посредством ссылки.

В некоторых вариантах осуществления клетка-хозяин транзиентно или нетранзиентно трасфицирована одним или несколькими векторами, описанными в данном документе. В некоторых вариантах осуществления клетку трансфицируют, когда она находится в естественных условиях в субъекте. В некоторых вариантах осуществления клетка, которую трансфицируют, получена от субъекта. В некоторых вариантах осуществления клетка происходит из клеток, полученных от субъекта, как, например, линии клеток. Из уровня техники известен целый ряд линий клеток, применяемых в качестве культуры тканей. Примеры линий клеток включают без ограничения C8161, CCRF-CEM, MOLT, mIMCD-3, NHDF, HeLa-S3, Huh1, Huh4, Huh7, HUVEC, HASMC, HEKn, HEKa, MiaPaCell, Panc1, PC-3, TF1, CTLL-2, C1R, Rat6, CV1, RPTE, A10, T24, J82, A375, ARH-77, Calu1, SW480, SW620, SKOV3, SK-UT, CaCo2, P388D1, SEM-K2, WEHI-231, HB56, TIB55, Jurkat, J45.01, LRMB, Bcl-1, BC-3, IC21, DLD2, Raw264.7, NRK, NRK-52E, MRC5, MEF, Hep G2, HeLa B, HeLa T4, COS, COS-1, COS-6, COS-M6A, эпителиальные клетки почки обезьяны BS-C-1, эмбриональные фибробласты мыши BALB/ 3T3, 3T3 Swiss, 3T3-L1, фетальные фибробласты человека 132-d5; фибробласты мыши 10.1, 293-T, 3T3, 721, 9L, A2780, A2780ADR, A2780cis, A172, A20, A253, A431, A-549, ALC, B16, B35, клетки BCP-1, BEAS-2B, bEnd.3, BHK-21, BR 293, BxPC3, C3H-10T1/2, C6/36, Cal-27, CHO, CHO-7, CHO-IR, CHO-K1, CHO-K2, CHO-T, CHO Dhfr -/-, COR-L23, COR-L23/CPR, COR-L23/5010, COR-L23/R23, COS-7, COV-434, CML T1, CMT, CT26, D17, DH82, DU145, DuCaP, EL4, EM2, EM3, EMT6/AR1, EMT6/AR10.0, FM3, H1299, H69, HB54, HB55, HCA2, HEK-293, HeLa, Hepa1c1c7, HL-60, HMEC, HT-29, Jurkat, клетки JY, клетки K562, Ku812, KCL22, KG1, KYO1, LNCap, Ma-Mel 1-48, MC-38, MCF-7, MCF-10A, MDA-MB-231, MDA-MB-468, MDA-MB-435, MDCK II, MDCK II, MOR/0.2R, MONO-MAC 6, MTD-1A, MyEnd, NCI-H69/CPR, NCI-H69/LX10, NCI-H69/LX20, NCI-H69/LX4, NIH-3T3, NALM-1, NW-145, линии клеток OPCN/OPCT, Peer, PNT-1A / PNT 2, RenCa, RIN-5F, RMA/RMAS, клетки Saos-2, Sf-9, SkBr3, T2, T-47D, T84, линию клеток THP1, U373, U87, U937, VCaP, клетки Vero, WM39, WT-49, X63, YAC-1, YAR и их трансгенные разновидности. Линии клеток доступны из множества источников, известных специалистам в данной области (см., например, Американская коллекция типовых культур (ATCC) (Манассас, Вирджиния)). В некоторых вариантах осуществления клетку, трансфицированную с помощью одного или нескольких векторов, описанных в данном документе, используют для получения новой линии клеток, содержащей одну или несколько полученных из вектора последовательностей. В некоторых вариантах осуществления клетку, транзиентно трансфицированную с помощью компонентов системы CRISPR, описанной в данном документе (как, например, путем транзиентной трансфекции с помощью одного или нескольких векторов или трансфекции с использованием РНК), и модифицированную с помощью активности комплекса CRISPR, используют для получения новой линии клеток, содержащей клетки с модификацией, но без любой другой экзогенной последовательности. В некоторых вариантах осуществления клетки, транзиентно или нетранзиентно трансфицированные с помощью одного или нескольких векторов, описанных в данном документе, или линии клеток, полученные из таких клеток, применяют в оценке одного или нескольких тестируемых соединений.

В некоторых вариантах осуществления один или несколько векторов, описанных в данном документе, используют для получения отличного от человека трансгенного животного или трансгенного растения. В некоторых вариантах осуществления трансгенным животным является млекопитающее, как, например, мышь, крыса или кролик. Способы получения трансгенных животных и растений известны из уровня техники и, как правило, начинаются со способа трансфекции клетки, такого как описанный в данном документе. В другом варианте осуществления может предусматриваться устройство для доставки жидкости с матрицей игл (см., например, публикацию заявки на патент США № 20110230839, закрепленной за Онкологическим исследовательским центром Фреда Хатчинсона), для доставки CRISPR-Cas в плотную ткань. Устройство согласно публикации заявки на патент США № 20110230839 для доставки жидкости в плотную ткань может содержать множество игл, расположенных в виде матрицы; множество емкостей, каждая из которых находится в жидкостном соединении с соответствующей одной иглой из множества игл; и множество приводов, функционально связанных с соответствующими емкостями из множества емкостей и выполненных с возможностью регулирования давления жидкости в емкости. В определенных вариантах осуществления каждый из множества приводов может содержать один из множества поршней, причем первая концевая часть каждого из множества поршней находится в соответствующей одной емкости из множества емкостей, и в определенных дополнительных вариантах осуществления поршни из множества поршней функционально связаны вместе по соответствующим вторым концевым частям с обеспечением возможности одновременного нажатия. В определенных других дополнительных вариантах осуществления может предусматриваться управляющий элемент для поршней, сконфигурированный с возможностью нажатия всех из множества поршней с выборочно изменяющейся скоростью. В других вариантах осуществления каждый из множества приводов может содержать одну из множества жидкостных поточных линий, имеющих первую и вторую концевые части, причем первая концевая часть каждой из множества жидкостных поточных линий соединена с соответствующей одной емкостью из множества емкостей. В других вариантах осуществления устройство может содержать источник давления жидкости, и при этом каждый из множества приводов предусматривает гидравлическую муфту между источником давления жидкости и соответствующей одной емкостью из множества емкостей. В дополнительных вариантах осуществления источник давления жидкости может предусматривать по меньшей мере одно из следующих: компрессора, вакуумного накопителя, перистальтического насоса, основного цилиндра, микроструйного насоса и клапана. В другом варианте осуществления каждая из множества игл может содержать множество отверстий, распределенных вдоль ее длины.

В одном аспекте настоящее изобретение относится к способам модификации целевого полинуклеотида в эукариотической клетке. В некоторых вариантах осуществления способ может предусматривать облегчение связывания комплекса нацеливания на нуклеиновую кислоту с целевым полинуклеотидом для осуществления расщепления указанного целевого полинуклеотида, с модифицированием тем самым целевого полинуклеотида, где комплекс нацеливания на нуклеиновую кислоту содержит эффекторный белок нацеливания на нуклеиновую кислоту в комплексе с направляющей РНК, гибридизированной с целевой последовательностью в пределах указанного целевого полинуклеотида.

Компоненты комплекса CRISPR могут быть доставлены с помощью конъюгации или ассоциации с транспортными фрагментами (адаптированными, например, из подходов, раскрытых в патентах США №№ 8106022; 8313772). Стратегии доставки нуклеиновой кислота, например, могут быть использованы для улучшения доставки направляющей РНК, или информационных РНК, или кодирующих ДНК, кодирующих компоненты комплекса CRISPR. Например, РНК могут включать модифицированные нуклеотиды РНК для улучшения стабильности, понижения иммуностимуляции и/или улучшения специфичности (см. Deleavey, Glen F. et al., 2012, Chemistry & Biology , Volume 19 , Issue 8 , 937 - 954; Zalipsky, 1995, Advanced Drug Delivery Reviews 16: 157-182; Caliceti and Veronese, 2003, Advanced Drug Delivery Reviews 55: 1261-1277). Были описаны различные конструкции, которые можно применять для модификации нуклеиновых кислот, таких как gRNA, для более эффективной доставки, например, обратимые нейтрализующие заряд модификации фосфотриэфирного скелета, которые могут быть адаптированы для модификации gRNA так, что они будут более гидрофобными и неанионными, с улучшением тем самым попадания в клетку (Meade BR et al., 2014, Nature Biotechnology 32,1256-1261). В следующих альтернативных вариантах осуществления выбранные мотивы РНК могут быть применимы для опосредования клеточной трансфекции (Magalhães M., et al., Molecular Therapy (2012); 20 3, 616-624). Подобным образом, аптамеры могут быть адаптированы для доставки компонентов комплекса CRISPR, например, с помощью добавления аптамеров к gRNA (Tan W. et al., 2011, Trends in Biotechnology, December 2011, Vol. 29, No. 12).

В некоторых вариантах осуществления конъюгация трехразветвленного N-ацетилгалактозамина (GalNAc) с олигонуклеотидными компонентами может быть использована для улучшения доставки, например, доставки для отбора типов клеток, например, гепатоцитов (см. WO2014118272, включенную в данный документ посредством ссылки; Nair, JK et al., 2014, Journal of the American Chemical Society 136 (49), 16958-16961). Это можно рассматривать как частицу на основе сахара, и дополнительные подробности о других системах доставки в виде частиц и/или составах приведены в данном документе. Поэтому GalNAc можно рассматривать как частицу в том же смысле, что и другие частицы, описываемые в данном документе, так что общие варианты применения и другие соображения, например, доставка указанных частиц, также применимы к частицам GalNAc. Стратегия конъюгации из жидкой фазы, например, может быть использована для присоединения кластеров трехразветвленных GalNAc (молекулярная масса ~2000), активированных как PFP (пентафторфенильные) сложные эфиры, к 5′-гексиламино-модифицированным олигонуклеотидам (5′-HA ASO, молекулярная масса ~8000 Да; Østergaard et al., Bioconjugate Chem., 2015, 26 (8), pp 1451-1455). Подобным образом, были описаны поли(акрилатные) полимеры для доставки нуклеиновой кислоты in vivo (см. WO2013158141, включенную в данный документ посредством ссылки). В следующих альтернативных вариантах осуществления предварительное смешивание наночастиц CRISPR (или белковых комплексов) со встречающимися в природе сывороточными белками можно применять для улучшения доставки (Akinc A et al, 2010, Molecular Therapy vol. 18 no. 7, 1357-1364).

Доступны методики скрининга для идентификации доставленных энхансеров, например, с помощью скрининга химических библиотек (Gilleron J. et al., 2015, Nucl. Acids Res. 43 (16): 7984-8001). Также были описаны подходы для оценивания эффективности средств доставки, таких как липидные наночастицы, которые могут быть использованы для идентификации эффективных носителей доставки для компонентов CRISPR (см. Sahay G. et al., 2013, Nature Biotechnology 31, 653-658).

В некоторых вариантах осуществления доставка компонентов белка CRISPR может быть облегчена добавлением функциональных пептидов к белку, таких как пептиды, которые изменяют гидрофобность белка, например, для улучшения функциональности in vivo. Белковые компоненты CRISPR аналогично могут быть модифицированы для облегчения последующих химических реакций. Например, к белку могут быть добавлены аминокислоты, которые имеют группу, подвергаемую клик-химии (Nikić I. et al., 2015, Nature Protocols 10,780-791). В вариантах осуществления такого рода клик-химическая группа затем может быть использована в широком ряде альтернативных структур, например, поли(этиленгликоль) для стабильности, проникающие в клетку пептиды, аптамеры РНК, липиды или углеводы, такие как GalNAc. В качестве дополнительных альтернатив белковый компонент CRISPR может быть модифицирован для адаптации белка для попадания в клетку (см. Svensen et al., 2012, Trends in Pharmacological Sciences, Vol. 33, No. 4), например, путем добавления проникающих в клетку пептидов к белку (см. Kauffman, W. Berkeley et al., 2015, Trends in Biochemical Sciences, Volume 40, Issue 12 , 749 - 764; Koren and Torchilin, 2012, Trends in Molecular Medicine, Vol. 18, No. 7). В следующих альтернативных вариантах осуществления пациенты или субъекты могут предварительно получать соединения или составы, которые облегчают последующую доставку компонентов CRISPR.

Комплексы эффекторного белка Cpf1 можно применять в растениях

Систему(системы) эффекторного белка Cpf1 (например, одиночную(одиночные) или мультиплексную(мультиплексные)) можно применять в сочетании с последними достижениями в геномике сельскохозяйственных культур. Такие системы, описанные в данном документе, можно применять для осуществления эффективного и рентабельного детального изучения или редактирования гена или генома растений - например, для быстрого исследования, и/или отбора, и/или детальных изучений, и/или сравнения, и/или манипуляций и/или трансформации генов или геномов растений; например, для получения, идентификации, разработки, оптимизации или придания признака(признаков) или характеристики(характеристик) растению(растениям) или для трансформации генома растения. Соответственно, может быть усовершенствовано получение растений, новых растений с новыми комбинациями признаков или характеристик или новых растений с улучшенными признаками. Такую(такие) систему(системы) эффекторного белка Cpf1 можно применять по отношению к растениям в методиках сайт-направленной интеграции (SDI) или редактирования гена (GE) или любой приближенной обратной селекции (NRB) или обратной селекции (RB). Аспекты применения описанных в данном документе систем эффекторного белка Cpf1 могут быть аналогичными применению системы CRISPR-Cas (например, CRISPR-Cas9) у растений, и упоминается веб-сайт Университета Аризоны "CRISPR-PLANT" (http://www.genome.arizona.edu/crispr/) (при поддержке штата Пенсильвания и AGI). Варианты осуществления настоящего изобретения могут быть использованы при редактировании генома в растениях или в случае, когда RNAi или аналогичные методики редактирования генома были использованы ранее; см., например, Nekrasov, "Plant genome editing made easy: targeted mutagenesis in model and crop plants using the CRISPR-Cas system," Plant Methods 2013, 9:39 (doi:10.1186/1746-4811-9-39); Brooks, "Efficient gene editing in tomato in the first generation using the CRISPR/-Сas9 system," Plant Physiology September 2014 pp 114.247577; Shan, "Targeted genome modification of crop plants using a CRISPR-Cas system," Nature Biotechnology 31, 686-688 (2013); Feng, "Efficient genome editing in plants using a CRISPR/Cas system," Cell Research (2013) 23:1229-1232. doi:10.1038/cr.2013.114; опубликовано онлайн 20 августа 2013 г.; Xie, "RNA-guided genome editing in plants using a CRISPR-Cas system," Mol Plant. 2013 Nov;6(6):1975-83. doi: 10.1093/mp/sst119, электронная публикация 17 августа 2013 г.; Xu, "Gene targeting using the Agrobacterium tumefaciens-mediated CRISPR-Cas system in rice", Rice 2014, 7:5 (2014), Zhou et al., "Exploiting SNPs for biallelic CRISPR mutations in the outcrossing woody perennial Populus reveals 4-coumarate: CoA ligase specificity and Redundancy", New Phytologist (2015) (Forum) 1-4 (доступно только онлайн по адресу www.newphytologist.com); Caliando et al, "Targeted DNA degradation using a CRISPR device stably carried in the host genome", NATURE COMMUNICATIONS 6:6989, DOI: 10.1038/ncomms7989, www.nature.com/naturecommunications DOI: 10.1038/ncomms7989; патент США № 6603061 - Agrobacterium-Mediated Plant Transformation Method; патент США № 7868149 - Plant Genome Sequences and Uses Thereof и US 2009/0100536 - Transgenic Plants with Enhanced Agronomic Traits, все содержание и раскрытие каждого из которых включено в данный документ посредством ссылки во всей полноте. При практическом осуществлении настоящего изобретения содержание и раскрытие Morrell et al "Crop genomics: advances and applications", Nat Rev Genet. 2011 Dec 29;13(2):85-96; которое включено в данный документ посредством ссылки, в том числе то, как варианты осуществления в данном документе могут быть использованы по отношению к растениям. Соответственно, ссылка в данном документе на клетки животных может также применяться, с соответствующими изменениями, по отношению к растительным клеткам, если не очевидно иное; и ферменты в данном документе, имеющие ослабленные нецелевые эффекты, и системы, использующие такие ферменты, могут быть использованы в вариантах применения растений, в том числе упомянутых в данном документе.

Применение системы Cpf1-CRISPR в отношении растений и дрожжей

Определения

В целом, термин "растение" относится к любому отличающемуся друг от друга фотосинтезирующему, эукариотическому, одноклеточному или многоклеточному организму царства Растения, характерным образом растущему путем клеточного деления, содержащему хлоропласты и имеющему клеточные стенки, состоящие из целлюлозы. Термин "растение" охватывает однодольные и двудольные растения. В частности, растения включают без ограничения покрытосеменные и голосеменные растения, такие как акация, люцерна, амарант, яблоня, абрикос, артишок, ясень, спаржа, авокадо, банан, ячмень, бобы, свекла, береза, бук, ежевика, голубика, брокколи, брюссельская капуста, капуста, канола, канталупа, морковь, маниок, цветная капуста, кедр, злак, сельдерей, каштан, вишня, китайская капуста, цитрус, клементин, клевер, кофе, кукуруза, хлопчатник, коровий горох, огурец, кипарис, баклажан, вяз, цикорий салатный, эвкалипт, фенхель, инжир, пихта, герань, виноград, грейпфрут, земляной орех, вишня кустарниковая, эвкалипт, болиголов, кария, браунколь, киви, кольраби, лиственница, салат-латук, лук-порей, лимон, лайм, робиния, адиантум, маис, манго, клен, дыня, просо, гриб, горчица, орехи, дуб, овес, масличная пальма, окра, лук репчатый, апельсин, декоративное растение, цветущее растение или дерево, папайя, пальма, петрушка, пастернак, горох, персик, арахис, груша, торф, перец, хурма, голубиный орех, сосна, ананас, подорожник, слива, гранат, картофель, тыква, радиккио, редис, рапс, малина, рис, рожь, сорго, сафлор, ива, соя, шпинат, ель, тыква гигантская, клубника, сахарная свекла, сахарный тростник, подсолнечник, батат, сахарная кукуруза, мандарин, чай, табак, томат, деревья, тритикале, мох, турнепс, ползучее растение, грецкий орех, кресс водяной, арбуз, пшеница, ямс, тис и тыква обыкновенная. Термин "растение" также охватывает водоросли, которые представляют собой главным образом фотоавтотрофов, объединенных преимущественно в связи с отсутствием у них корней, листьев и других органов, которые характеризуют высшие растения.

Способы редактирования генома при помощи системы Cpf1, как описано в данном документе, можно применять для придания желаемых признаков практически любому растению. Широкий спектр растений и систем растительных клеток может быть сконструировано с целью желаемых физиологических и агрономических характеристик, описанных в данном документе, с помощью конструкций нуклеиновой кислоты по настоящему раскрытию и различных способов трансформации, упомянутых выше. В предпочтительных вариантах осуществления целевые растения и растительные клетки для конструирования включают без ограничения такие однодольные и двудольные растения, как зерновые культуры (например, пшеницу, маис, рис, просо, ячмень), плодовые культуры (например, томат, яблоня, груша, клубника, апельсин), кормовые культуры (например, люцерна), корнеплодные овощные культуры (например, морковь, картофель, сахарная свекла, ямс), лиственные овощные культуры (например, салат-латук, шпинат); цветущие растения (например, петуния, роза, хризантема), хвойные и сосновые деревья (например, сосна, пихта, ель); растения, используемые в фиторемедеации (например, растения, поглощающие тяжелые металлы); масляные культуры (например, подсолнечник, рапс) и растения, используемые для экспериментальных целей (например, Arabidopsis). Таким образом, способы и системы CRISPR-Cas могут быть применимы по отношению к широкому диапазону растений, таких как, например, двудольные растения, принадлежащие к порядкам Магнолиецветные, Иллициевые, Лавроцветные, Перечноцветные, Кирказоновые, Кувшинкоцветные, Лютикоцветные, Макоцветные, Саррацениевые, Троходендровые, Гамамелисовые, Эвкомисовые, Лейтнериевые, Мириковые, Букоцветные, Казуариновые, Гвоздичноцветные, Баталовые, Гречихоцветные, Плюмбаговые, Диллениевые, Чайные, Мальвоцветные, Крапивоцветные, Лецитисоцветные, Фиалкоцветные, Ивовые, Каперсоцветные, Верескоцветные, Диапенсиевые, Эбеновые, Примулоцветные, Розоцветные, Бобовоцветные, Подостемовые, Сланоягодникоцветные, Миртоцветные, Кизилоцветные, Протеецветные, Санталоцветные, Раффлезиевые, Бересклетоцветные, Молочаецветные, Крушиновые, Сапиндоцветные, Орехоцветные, Гераниецветные, Истодовые, Аралиецветные, Горечавкоцветные, Синюхоцветные, Ясноткоцветные, Подорожниковые, Норичникоцветные, Колокольчикоцветные, Мареноцветные, Ворсянкоцветные и Астроцветные; способы и системы CRISPR-Cas могут быть применимы по отношению к однодольным растениям, таким как принадлежащие к порядкам Частухоцветные, Панданоцветные, Наядовые, Триурисовые, Коммелиноцветные, Эриокаулоновые, Рестиевые, Тонконогоцветные, Ситниковые, Осокоцветные, Рогозовые, Бромелиецветные, Имбирецветные, Пальмоцветные, Циклантовые, Панданоцветные, Аронниковые, Лилиецветные и Орхидноцветные, или растениям, принадлежащим к голосеменным, например, принадлежащим к порядкам Сосновые, Гинкговые, Саговниковидные, Араукариевые, Кипарисовые и Гнетовидные.

Системы и способы применения Cpf1, описанные в данном документе, могут быть применимы по отношению к широкому диапазону видов растений, включенных в неограничивающий перечень двудольных, однодольных или голосеменных родов, приведенных ниже: Atropa, Alseodaphne, Anacardium, Arachis, Beilschmiedia, Brassica, Carthamus, Cocculus, Croton, Cucumis, Citrus, Citrullus, Capsicum, Catharanthus, Cocos, Coffea, Cucurbita, Daucus, Duguetia, Eschscholzia, Ficus, Fragaria, Glaucium, Glycine, Gossypium, Helianthus, Hevea, Hyoscyamus, Lactuca, Landolphia, Linum, Litsea, Lycopersicon, Lupinus, Manihot, Majorana, Malus, Medicago, Nicotiana, Olea, Parthenium, Papaver, Persea, Phaseolus, Pistacia, Pisum, Pyrus, Prunus, Raphanus, Ricinus, Senecio, Sinomenium, Stephania, Sinapis, Solanum, Theobroma, Trifolium, Trigonella, Vicia, Vinca, Vilis, и Vigna; и род Allium, Andropogon, Aragrostis, Asparagus, Avena, Cynodon, Elaeis, Festuca, Festulolium, Heterocallis, Hordeum, Lemna, Lolium, Musa, Oryza, Panicum, Pannesetum, Phleum, Poa, Secale, Sorghum, Triticum, Zea, Abies, Cunninghamia, Ephedra, Picea, Pinus, и Pseudotsuga.

Системы и способы применения Cpf1 CRISPR могут быть также применимы по отношению к широкому диапазону "водорослей" или "клеток водорослей", в том числе, например, водорослей, выбранных из нескольких эукариотических отделов, в том числе Rhodophyta (красные водоросли), Chlorophyta (зеленые водоросли), Phaeophyta (коричневые водоросли), Bacillariophyta (диатомовые водоросли), Eustigmatophyta и динофлагелляты, а также прокариотическому отделу Cyanobacteria (сине-зеленые водоросли). Термин "водоросли" включает, например, водоросли, выбранные из Amphora, Anabaena, Anikstrodesmis, Botryococcus, Chaetoceros, Chlamydomonas, Chlorella, Chlorococcum, Cyclotella, Cylindrotheca, Dunaliella, Emiliana, Euglena, Hematococcus, Isochrysis, Monochrysis, Monoraphidium, Nannochloris, Nannnochloropsis, Navicula, Nephrochloris, Nephroselmis, Nitzschia, Nodularia, Nostoc, Oochromonas, Oocystis, Oscillartoria, Pavlova, Phaeodactylum, Playtmonas, Pleurochrysis, Porhyra, Pseudoanabaena, Pyramimonas, Stichococcus, Synechococcus, Synechocystis, Tetraselmis, Thalassiosira и Trichodesmium.

Часть растения, т. е., "растительная ткань", может быть обработана в соответствии со способами по настоящему изобретению с целью получения улучшенного растения. Растительная ткань также охватывает растительные клетки. Термин "растительная клетка", как используется в данном документе, относится к отдельным единицам живого растения, как в интактном целом растении, так и в выделенной форме, выращенной в in vitro культурах тканей, на среде или агаре, в суспензии в среде для выращивания или буфере или в виде части более высокоорганизованных единиц, таких как, например, растительная ткань, орган растения или целое растение.

"Протопласт" относится к растительной клетке, у которой защитная клеточная стенка была полностью или частично удалена с помощью, например, механических или ферментативных способов, в результате чего образовалась интактная биохимическая компетентная единица живого растения, которая может сформировать заново свою клеточную стенку, пролиферировать и регенерировать в целое растение в соответствующих условиях роста.

Термин "трансформация" в широком смысле относится к процессу, с помощью которого растение-хозяин генетически модифицируют введением ДНК с помощью Agrobacteria или ряда химических или физических способов. Используемый в данном документе термин "растение-хозяин" относится к любым клеткам, тканям, органам или потомству растений. Многие подходящие растительные ткани или растительные клетки могут быть трансформированы и включают без ограничения протопласты, соматические эмбрионы, пыльцу, листья, сеянцы, стебли, каллюс, столоны, микроклубни и побеги. Растительная ткань также относится к любому клону такого растения, семенам, потомству, побегам, полученным половым или бесполым путем, и потомкам любых из них, таких как черенки или семена.

Термин "трансформированный", как используется в данном документе, относится к клетке, ткани, органу или организму, в которые была введена чужеродная молекула ДНК, такая как конструкция. Введенная молекула ДНК может быть интегрирована в геномную ДНК реципиентной клетки, ткани, органа или организма таким образом, что введенная молекула ДНК передается последующим потокам. В этих вариантах осуществления "трансформированная" или "трансгенная" клетка или растение могут также включать потомство клетки или растения и потомство, полученное в результате программы селекции с применением такой трансформированной клетки в качестве родителя в скрещивании, и характеризующееся измененным фенотипом, полученным в результате присутствия введенной молекулы ДНК. Предпочтительно трансгенное растение является фертильным и способно передавать введенную ДНК потомству в результате полового размножения.

Термин "потомство", такое как потомство трансгенного растения, представляет собой потомство, рожденное, произведенное или полученное из растения или трансгенного растения. Введенная молекула ДНК может также быть временно введенной в реципиентную клетку таким образом, что введенная молекула ДНК не наследуется последующим потомством, и, таким образом, она не считается "трансгенной". Соответственно, как используется в данном документе, "нетрансгенное растение" или растительная клетка представляют собой растение, которое не содержит чужеродную ДНК, стабильно интегрированную в его геном.

Термин "растительный промотор", как используется в данном документе, представляет собой промотор, способный инициировать транскрипцию в растительных клетках, вне зависимости от того, происходит ли он из растительной клетки. Иллюстративные подходящие растительные промоторы включают без ограничения таковые, которые получены из растений, вирусов растений и бактерий, таких как агробактерии или ризобактерии, которые содержат гены, экспрессируемые в растительных клетках.

Используемое в данном документе выражение "грибная клетка" относится к любому типу эукариотической клетки в царстве грибов. Отделы в царстве грибов включают Ascomycota, Basidiomycota, Blastocladiomycota, Chytridiomycota, Glomeromycota, Microsporidia и Neocallimastigomycota. Грибные клетки могут включать дрожжи, плесени и нитчатые грибы. В некоторых вариантах осуществления грибная клетка представляет собой клетку дрожжей.

Используемый в данном документе термин "клетка дрожжей" относится к любой грибной клетке в пределах отделов Ascomycota и Basidiomycota. Клетки дрожжей могут включать почкующиеся клетки дрожжей, делящиеся клетки дрожжей и плесневые клетки. Не ограничиваясь этими организмами, многие типы дрожжей, используемые в лабораторных и промышленных условиях, являются частью отдела Ascomycota. В некоторых вариантах осуществления клетка дрожжей представляет собой клетку S. cerervisiae, Kluyveromyces marxianus или Issatchenkia orientalis. Другие типы клеток дрожжей могут включать без ограничения Candida spp. (например, Candida albicans), Yarrowia spp. (например, Yarrowia lipolytica), Pichia spp. (например, Pichia pastoris), Kluyveromyces spp. (например, Kluyveromyces lactis и Kluyveromyces marxianus), Neurospora spp. (например, Neurospora crassa), Fusarium spp. (например, Fusarium oxysporum) и Issatchenkia spp. (например, Issatchenkia orientalis, также известный как Pichia kudriavzevii, и Candida acidothermophilum). В некоторых вариантах осуществления грибная клетка представляет собой клетку нитчатого гриба. Используемое в данном документе термин "клетка нитчатого гриба" относится к любому типу грибной клетки, которая растет за счет филаментов, т. е. гифов или мицелия. Примеры клеток нитчатых грибов включают без ограничения Aspergillus spp. (например, Aspergillus niger), Trichoderma spp. (например, Trichoderma reesei), Rhizopus spp. (например, Rhizopus oryzae) и Mortierella spp. (например, Mortierella isabellina).

В некоторых вариантах осуществления грибная клетка представляет собой промышленный штамм. Используемое в данном документе выражение "промышленный штамм" относится к любому штамму грибной клетки, используемому в промышленном способе или выделенному из него, например, получении продукта в коммерческом или промышленном масштабе. Промышленный штамм может относиться к виду гриба, который обычно используют в промышленном способе, или он может относиться к изоляту вида гриба, который может быть также использован для некоммерческих целей (например, лабораторное исследование). Примеры промышленных способов могут включать сбраживание (например, при получении пищевых продуктов питания и питьевых продуктов), дистилляцию, получение биотоплива, получение соединения и получение полипептида. Примеры промышленных штаммов могут включать без ограничения JAY270 и ATCC4124.

В некоторых вариантах осуществления грибная клетка представляет собой полиплоидную клетку. Используемое в данном документе выражение "полиплоидная" клетка может относиться к любой клетке, геном которой присутствует в более чем одной копии. Полиплоидная клетка может относиться к типу клетки, которая встречается в природе в полиплоидном состоянии или может относиться к клетке, которая была индуцирована с целью существования в полиплоидном состоянии (например, в результате специфичной регуляции, изменения, инактивации, активации или модификации мейоза, цитокинеза или репликации ДНК). Полиплоидная клетка может относиться к клетке, весь геном которой является полиплоидным, или может относиться к клетке, которая является полиплоидной в определенном представляющем интерес локусе генома. Без углубления в теорию, считается, что избыток направляющей РНК может чаще представлять собой компонент ограничения скорости при конструировании геномов полиплоидных клеток, а не гаплоидных клеток, и, таким образом, способы применения системы Cpf1 CRISPR, описанные в данном документе, могут характеризоваться преимуществом применения определенного типа грибной клетки.

В некоторых вариантах осуществления грибная клетка представляет собой диплоидную клетку. Используемое в данном документе выражение "диплоидная" клетка может относиться к любой клетке, геном которой присутствует в двух копиях. Диплоидная клетка может относиться к типу клетки, которая встречается в природе в диплоидном состоянии, или может относиться к клетке, которая была индуцирована с целью существования в диплоидном состоянии (например, в результате специфичной регуляции, изменения, инактивации, активации или модификации мейоза, цитокинеза или репликации ДНК). Например, штамм S228C S. cerevisiae может поддерживаться в гаплоидном или диплоидном состоянии. Диплоидная клетка может относиться к клетке, весь геном которой является диплоидным, или может относиться к клетке, которая является диплоидной в определенном представляющем интерес локусе генома. В некоторых вариантах осуществления грибная клетка представляет собой гаплоидную клетку. Используемое в данном документе выражение "гаплоидная" клетка может относиться к любой клетке, геном которой присутствует в одной копии. Гаплоидная клетка может относиться к типу клетки, которая встречается в природе в гаплоидном состоянии или может относиться к клетке, которая была индуцирована с целью существования в гаплоидном состоянии (например, в результате специфичной регуляции, изменения, инактивации, активации или модификации мейоза, цитокинеза или репликации ДНК). Например, штамм S228C S. cerevisiae может поддерживаться в гаплоидном или диплоидном состоянии. Гаплоидная клетка может относиться к клетке, весь геном которой является гаплоидным, или может относиться к клетке, которая является гаплоидной в определенном представляющем интерес локусе генома.

Используемое в данном документе выражение "дрожжевой вектор экспрессии" относится к нуклеиновой кислоте, которая содержит одну или несколько последовательностей, кодирующих РНК и/или полипептид, и может дополнительно содержать любые требуемые элементы, которые контролируют экспрессию нуклеиновой кислоты(нуклеиновых кислот), а также любые элементы, которые обеспечивают репликацию и поддержание вектора экспрессии в клетке дрожжей. Многие подходящие дрожжевые векторы экспрессии и их характеристики известны в данной области; например, различные векторы и методики проиллюстрированы в Yeast Protocols, 2nd edition, Xiao, W., ed. (Humana Press, New York, 2007) и Buckholz, R.G. and Gleeson, M.A. (1991) Biotechnology (NY) 9(11): 1067-72. Дрожжевые векторы могут содержать без ограничения центромерную (CEN) последовательность, автономную последовательность репликации (ARS), промотор, такой как промотор РНК-полимеразы III, функционально связанный с представляющими интерес последовательностью или геном, терминатором, таким как терминатор РНК-полимеразы III, точкой начала репликации и маркерным геном (например, селектируемыми маркерами ауксотрофов, селектируемыми маркерами к антибиотикам или другими селектируемыми маркерами). Примеры векторов экспрессии для применения в дрожжах могут включать плазмиды, искусственные хромосомы дрожжей, 2 мкм-плазмиды, дрожжевые интегративные плазмиды, дрожжевые репликативные плазмиды, челночные векторы и эписомальные плазмиды.

Стабильная интеграция компонентов системы Cpf1 CRISPR в геном растений и растительных клеток

В конкретных вариантах осуществления предусмотрено, что полинуклеотиды, кодирующие компоненты системы Cpf1 CRISPR, вводят с целью стабильной интеграции в геном растительной клетки. В этих вариантах осуществления разработка вектора трансформации или системы экспрессии может быть откорректирована в зависимости от того, когда, где и при каких условиях направляющая РНК и/или ген Cpf1 экспрессируются.

В конкретных вариантах осуществления предусмотрено стабильное введение компонентов системы Cpf1 CRISPR в геномную ДНК растительной клетки. Дополнительно или альтернативно предусмотрено введение компонентов системы Cpf1 CRISPR с целью стабильной интеграции в ДНК органеллы растения, такой как без ограничения пластида, митохондрия или хлоропласт.

Система экспрессии для стабильной интеграции в геном растительной клетки может содержать один или несколько из следующих элементов: промоторный элемент, который может быть использован для экспрессии РНК и/или фермента Cpf1 в растительной клетке; 5'-нетранслируемый участок для усиления экспрессии; интронный элемент для дополнительного усиления экспрессии в определенных клетках, таких как клетки однодольных растений; сайт множественного клонирования для обеспечения удобных сайтов рестрикции для вставки последовательностей направляющей РНК и/или гена Cpf1 и другие требуемые элементы; и 3'-нетранслируемый участок для обеспечения эффективной терминации экспрессируемого транскрипта.

Элементы системы экспрессии могут находиться в одной или нескольких конструкциях экспрессии, которые являются кольцевыми, такими как плазмида или вектор трансформации, или некольцевыми, такими как линейная двухнитевая ДНК.

В конкретных вариантах осуществления система экспрессии Cpf1 CRISPR содержит по меньшей мере

- нуклеотидную последовательность, кодирующую направляющую РНК, которая гибридизируется с целевой последовательностью в растении, и где направляющая РНК содержит направляющую последовательность и последовательность прямого повтора, и

- нуклеотидную последовательность, кодирующую белок Cpf1,

где компоненты (a) или (b) расположены в одной и той же или различных конструкциях, и где различные нуклеотидные последовательности могут находиться под контролем одного и того же или различных регуляторных элементов, функционирующих в клетке.

Конструкция(конструкции) ДНК, содержащая(содержащие) компоненты системы Cpf1 CRISPR и при необходимости матричную последовательность, могут быть введены в геном растения, части растения или растительной клетки при помощи ряда стандартных методик. Этот процесс, как правило, предусматривает стадии отбора подходящей клетки-хозяина или ткани-хозяина, введения конструкции(конструкций) в клетку-хозяина или ткань-хозяина и восстановление из них растительных клеток или растений.

В конкретных вариантах осуществления конструкция ДНК может быть введена в растительную клетку с помощью методик, таких как без ограничения электропорация, микроинъекция, введение с помощью аэрозольного пучкового инжектора протопластов растительных клеток, или конструкции ДНК могут быть введены непосредственно в растительную ткань с помощью биолистических способов, таких как бомбардировка частицами с ДНК (см. также Fu et al., Transgenic Res. 2000 Feb;9(1):11-9). Основой бомбардировки частицами является ускорение частиц, покрытых представляющим интерес геном/представляющими интерес генами, в клетки, что приводит к проникновению частиц в протоплазму и, как правило, стабильной интеграции в геном. (См., например, Klein et al, Nature (1987), Klein et ah, Bio/Technology (1992), Casas et ah, Proc. Natl. Acad. Sci. USA (1993)).

В конкретных вариантах осуществления конструкции ДНК, содержащие компоненты системы Cpf1 CRISPR, могут быть введены в растение при помощи опосредованной Agrobacterium трансформации. Конструкции ДНК могут быть комбинированы с подходящими фланкирующими участками T-ДНК и введены в стандартный вектор-хозяин Agrobacterium tumefaciens. Чужеродная ДНК может быть включена в геном растений путем инфицирования растений или инкубирования протопластов растений бактериями Agrobacterium, содержащими одну или несколько Ti (опухоль-индуцирующих) плазмид. (См., например, Fraley et al., (1985), Rogers et al., (1987) и патент США № 5 563 055).

Растительные промоторы

С целью обеспечения подходящей экспрессии в растительной клетке компоненты системы Cpf1 CRISPR, описанные в данном документе, как правило, помещают под контроль растительного промотора, т. е. промотора, функционирующего в растительных клетках. Предусмотрено применение различных типов промоторов.

Конститутивный растительный промотор представляет собой промотор, который способен экспрессировать открытую рамку считывания (ORF), который контролирует ее во всех или почти во всех растительных тканях во время всех или почти всех стадий развития растения (так называемая "конститутивная экспрессия"). Одним неограничивающим примером конститутивного промотора является промотор вируса мозаики цветной капусты 35S. "Регуляторный промотор" относится к промоторам, которые управляют экспрессией генов не конститутивно, а путем временной и/или пространственной регуляции, и включает тканеспецифичные, тканепредпочтительные и индуцируемые промоторы. Различные промоторы могут управлять экспрессией гена в различных тканях или типах клеток, или на различных стадиях развития, или в ответ на различные средовые факторы. В конкретных вариантах осуществления один или несколько из компонентов Cpf1 CRISPR экспрессируются под контролем конститутивного промотора, такого как промотор вируса мозаики цветной капусты 35S, тканеспецифичные промоторы могут быть использованы для нацеливания усиленной экспрессии в определенных типах клеток в конкретной растительной ткани, например, сосудистых тканях или определенных клетках семени. Примеры конкретных промоторов для применения в системе Cpf1 CRISPR встречаются в Kawamata et al., (1997) Plant Cell Physiol 38:792-803; Yamamoto et al., (1997) Plant J 12:255-65; Hire et al, (1992) Plant Mol Biol 20:207-18, Kuster et al, (1995) Plant Mol Biol 29:759-72, и Capana et al., (1994) Plant Mol Biol 25:681 -91.

Примеры промоторов, которые являются индуцируемыми и которые обеспечивают пространственно-временной контроль редактирования генов или экспрессии генов, могут использовать определенную форму энергии. Форма энергии может включать без ограничения звуковую энергию, электромагнитную энергию, химическую энергию и/или тепловую энергию. Примеры индуцируемых систем включают индуцируемые тетрациклином промоторы (Tet-On или Tet-Off), двухгибридные системы активации транскрипции с использованием малых молекул (FKBP, ABA и т. д.) или индуцируемые светом системы (фитохром, домены LOV или криптохром), такие как индуцируемый светом транскрипционный эффектор (LITE), который управляет изменениями транскрипционной активности специфичным к последовательности образом. Компоненты индуцируемой светом системы могут включать фермент Cpf1 CRISPR, чувствительный к свету гетеродимер цитохрома (например, из Arabidopsis thaliana) и домен активации/подавления транскрипции. Дополнительные примеры индуцируемых ДНК-связывающих белков и способы их применения представлены в US 61/736465 и US 61/721283, которые включены в данный документ посредством ссылки во всей полноте.

В конкретных вариантах осуществления транзиентная или индуцируемая экспрессия может быть достигнута, например, с помощью регулируемых химическим путем промоторов, т. е. в случае, когда применение экзогенного химического соединения индуцирует экспрессию генов. Модулирование экспрессии генов также может быть получено с помощью репрессируемого химическим путем промотора, где применение химического соединения репрессирует экспрессию генов. Индуцированные химическим путем промоторы включают без ограничения промотор маиса ln2-2, активируемый антидотами гербицидов на основе бензолсульфамидов (De Veylder et al., (1997) Plant Cell Physiol 38:568-77), промотор маиса GST (GST-ll-27, WO93/01294), активируемый гидрофобными электрофильными соединениями, используемыми в качестве предвсходовых гербицидов, и промотор табака PR-1 (Ono et al., (2004) Biosci Biotechnol Biochem 68:803-7), активируемый салициловой кислотой. Промоторы, которые регулируются антибиотиками, такими как индуцируемые тетрациклином и репрессируемые тетрациклином промоторы (Gatz et al., (1991 ) Mol Gen Genet 227:229-37; патенты США №№ 5814618 и 5789156), также могут быть использованы в данном документе.

Транслокация и/или экспрессия в конкретных органеллах растений

Система экспрессии может содержать элементы для транслокации и/или экспрессии в конкретной органелле растения.

Нацеливание на хлоропласты

В конкретных вариантах осуществления предусмотрено, что система Cpf1 CRISPR используется для специфичной модификации генов хлоропластов или для обеспечения экспрессии в хлоропласте. С этой целью используются способы трансформации хлоропластов или компартментализации компонентов Cpf1 CRISPR в хлоропласте. Например, введение генетических модификаций в геном пластиды может уменьшить проблемы биобезопасности, такие как поток генов через пыльцу.

Способы трансформации хлоропластов известны в данной области и включают бомбардировку частицами, обработку PEG и микроинъекцию. Кроме того, способы, включающие транслокацию кассет для трансформации из ядерного генома в пластиду, можно применять, как описано в WO2010061186.

Альтернативно предусмотрено нацеливание одного или нескольких компонентов системы Cpf1 CRISPR на хлоропласт растения. Это достигается включением в экспрессионную конструкцию последовательности, кодирующей транзитный пептид хлоропласта (CTP) или транзитный пептид пластиды, функционально связанный с 5'-участком последовательности, кодирующей белок Cpf1. CTP удаляется на этапе процессинга во время транслокации в хлоропласт. Нацеливание на хлоропласты экспрессируемых белков хорошо известно специалисту в данной области (см., например, Protein Transport into Chloroplasts, 2010, Annual Review of Plant Biology,Vol. 61: 157-180). В таких вариантах осуществления также является желательным нацеливание направляющей РНК на хлоропласт растения. Способы и конструкции, которые могут быть использованы для транслокации направляющей РНК в хлоропласт пс помощью последовательности локализации в хлоропласте описаны, например, в US 20040142476, включенном в данный документе посредством ссылки. Такие вариации конструкций могут быть включены в системы экспрессии по настоящему изобретению для эффективной транслокации Cpf1-направляющая РНК.

Введение полинуклеотидов, кодирующих систему CRISPR-Cpf1, в клетки водорослей

Трансгенные водоросли (или другие растения, такие как рапс) могут быть особенно полезными в производстве растительных масел или таких видов биотоплива, как, например, спирты (особенно метанол и этанол), или других продуктов. Они могут быть сконструированы для синтеза или избыточного синтеза масла или спиртов на высоких уровнях для применения в масложировой или биотопливной промышленности.

В US 8945839 описан способ конструирования микроводорослей (виды клеток Chlamydomonas reinhardtii) с помощью Cas9. С помощью аналогичных средств способы системы Cpf1 CRISPR, описанной в данном документе, могут быть применимы по отношению к виду Chlamydomonas и другим водорослям. В конкретных вариантах осуществления Cpf1 и направляющую РНК вводят в синтезирующие водоросли при помощи вектора, который экспрессирует Cpf1 под контролем конститутивного промотора, такого как промотор Hsp70A-Rbc S2 или промотор бета 2-тубулина. Направляющую РНК необязательно доставляют при помощи вектора, содержащего промотор T7. Альтернативно мРНК Cas9 и in vitro транскрибируемая направляющая РНК могут быть доставлены в клетки водорослей. Протоколы электропорации доступны специалисту в данной области, такие как стандартный рекомендованный протокол из набора GeneArt Chlamydomonas Engineering.

В конкретных вариантах осуществления эндонуклеаза, используемая в данном документе, представляет собой фермент Split Cpf1. Ферменты Split Cpf1 предпочтительно используют в водорослях для целевой геномной модификации, как было описано для Cas9 в WO 2015086795. Применение системы Cpf1 split является особенно подходящим для индуцируемого способа управления геномом, и в результате этого избегают потенциального токсического эффекта сверхэкспрессии Cpf1 в клетке водорослей. В конкретных вариантах осуществления указанные домены Cpf1 split (домены RuvC и HNH) могут быть одновременно или последовательно введены в клетку таким образом, что указанный домен(указанные домены) split Cpf1 обрабатывает(обрабатывают) целевую последовательность нуклеиновой кислоты в клетке водорослей. Уменьшенный размер split Cpf1 по сравнению с Cpf1 дикого типа облегчает другие способы доставки системы CRISPR в клетки, такие как применение проникающих пептидов, как описано в данном документе. Этот способ представляет особый интерес для получения генетически модифицированных водорослей.

Введение полинуклеотидов, кодирующих компоненты Cpf1, в клетки дрожжей

В конкретных вариантах осуществления настоящее изобретение относится к применению системы Cpf1 CRISPR для редактирования геномов клеток дрожжей. Способы трансформации клеток дрожжей, которые можно применять для введения полинуклеотидов, кодирующих компоненты системы Cpf1 CRISPR, хорошо известны специалисту в данной области и описаны в Kawai et al., 2010, Bioeng Bugs. 2010 Nov-Dec; 1(6): 395-403). Неограничивающие примеры включают трансформацию клеток дрожжей с помощью обработки ацетатом лития (которая может дополнительно включать обработку ДНК-носителем и PEG), бомбардировки или с помощью электропорации.

Транзиентная экспрессия компонентов системы Cpf1 CRISP в растениях и растительных клетках

В конкретных вариантах осуществления предусмотрено, что направляющая РНК и/или ген Cpf1 транзиентно экспрессируются в растительной клетке. В этих вариантах осуществления система Cpf1 CRISPR может обеспечивать модификацию целевого гена только в случае, когда как направляющая РНК, так и белок Cpf1 присутствуют в клетке, таким образом геномную модификацию можно дополнительно контролировать. Поскольку экспрессия фермента Cpf1 является транзиентной, то растения, регенерированные из таких растительных клеток, как правило, не содержат чужеродной ДНК. В конкретных вариантах осуществления фермент Cpf1 стабильно экспрессируется растительной клеткой, а направляющая последовательность экспрессируется транзиентно.

В конкретных вариантах осуществления компоненты системы Cpf1 CRISPR могут быть введены в растительные клетки при помощи вектора на основе вируса растений (Scholthof et al. 1996, Annu Rev Phytopathol. 1996;34:299-323). В дополнительных конкретных вариантах осуществления указанный вирусный вектор представляет собой вектор из ДНК-содержащего вируса. Например, геминивирус (например, вирус курчавости капустного листа, вирус желтой карликовости бобов, вирус карликовости пшеницы, вирус курчавости томатного листа, вирус полосы кукурузы, вирус курчавости листа табака или вирус золотистой мозаики томата) или нановирус (например, вирус желтого некроза конских бобов). В других конкретных вариантах осуществления указанный вирусный вектор представляет собой вектор из РНК-содержащего вируса. Например, тобравирус (например, вирус погремковости табака, вирус табачной мозаики), потексвирус (например, Х-вирус картофеля) или хордейвирус (например, вирус штриховой мозаики ячменя). Реплицирующиеся геномы растительных вирусов представляют собой неинтегративные векторы.

В конкретных вариантах осуществления вектор, используемый для транзиентной экспрессии конструкций Cpf1 CRISPR, представляет собой, например, вектор pEAQ, который подходит для опосредованной Agrobacterium транзиентной экспрессии (Sainsbury F. et al., Plant Biotechnol J. 2009 Sep;7(7):682-93) в протопласте. Точное нацеливание на локализацию в геноме было показано с помощью вектора на основе модифицированного вируса курчавости капустного листа (CaLCuV) с целью экспрессии gRNA в стабильных трансгенных растениях, экспрессирующих фермент CRISPR (Scientific Reports 5, номер статьи: 14926 (2015), doi:10.1038/srep14926).

В конкретных вариантах осуществления фрагменты двухнитевой ДНК, кодирующие направляющую РНК и/или ген Cpf1, могут быть транзиентно введены в растительную клетку. В таких вариантах осуществления введенные фрагменты двухнитевой ДНК предусмотрены в достаточном количестве с целью модификации клетки, однако не сохраняются по прошествии предусмотренного периода времени или после одного или нескольких клеточных делений. Способы прямого переноса ДНК в растения известны специалисту в данной области (см., например, Davey et al. Plant Mol Biol. 1989 Sep;13(3):273-85).

В других вариантах осуществления РНК-полинуклеотид, кодирующий белок Cpf1, вводят в растительную клетку, который затем транслируется и процессируется клеткой-хозяином, образующей белок в достаточном количестве для модификации клетки (в присутствии по меньшей мере одной направляющей РНК), но который не сохраняется по происшествию предусмотренного периода времени или после одного или нескольких клеточных делений. Способы введения мРНК в протопласты растений для транзиентной экспрессии известны специалисту в данной области (см., например, в Gallie, Plant Cell Reports (1993), 13;119-122).

Также предусмотрены комбинации различных способов, описанных выше.

Доставка компонентов Cpf1 CRISPR в растительную клетку

В конкретных вариантах осуществления представляет интерес доставка одного или нескольких компонентов системы Cpf1 СRISPR непосредственно в растительную клетку. Это представляет интерес, помимо прочего, для получения нетрансгенных растений (см. ниже). В конкретных вариантах осуществления один или несколько компонентов Cpf1 получают за пределами растения или растительной клетки и доставляют в клетку. Например, в конкретных вариантах осуществления белок Cpf1 получают in vitro до введения в растительную клетку. Белок Cpf1 может быть получен при помощи различных способов, известных специалисту в данной области, в том числе рекомбинантного получения. После экспрессии белок Cpf1 выделяют, при необходимости повторно подвергают фолдингу, очищают и необязательно обрабатывают для удаления любых меток, таких как His-метка. Непосредственно после получения неочищенного, частично очищенного или более полно очищенного белка Cpf1 белок может быть введен в растительную клетку.

В конкретных вариантах осуществления белок Cpf1 смешивают с направляющей РНК, нацеленной на представляющий интерес ген с получением предварительно собранного рибонуклеопротеина.

Отдельные компоненты или предварительно собранный рибонуклеопротеин могут быть введены в растительную клетку при помощи электропорации, при помощи бомбардировки частицами, покрытыми продуктом гена, ассоциированного с Cpf1, при помощи химической трансфекции или при помощи других средств транспорта через клеточную мембрану. Например, была показана трансфекция протопласта растения предварительно собранным рибонуклеопротеином CRISPR с целью обеспечения целевой модификации генома растения (как описано Woo et al. Nature Biotechnology, 2015; DOI: 10.1038/nbt.3389).

В конкретных вариантах осуществления компоненты системы Cpf1CRISPR вводят в растительные клетки при помощи наночастиц. Компоненты, как в виде белка, так в виде нуклеиновой кислоты или их комбинации, могут быть нагружены или упакованы в наночастицы и нанесены на растения (такие как, например, описаны в WO 2008042156 и US 20130185823). В частности, варианты осуществления по настоящему изобретению предусматривают наночастицы, нагруженные или упакованные молекулой(молекулами) ДНК, кодирующей(кодирующими) белок Cpf1, молекулами ДНК, кодирующими направляющую РНК и/или выделенную направляющую РНК, как описано в WO2015089419.

Дополнительные средства введения одного или нескольких компонентов системы Cpf1 CRISPR в растительную клетку предусматривают проникающие пептиды (CPP). Соответственно, в частности, варианты осуществления по настоящему изобретению предусматривают проникающий пептид, связанный с белком Cpf1. В конкретных вариантах осуществления настоящего изобретения белок Cpf1 и/или направляющая РНК связаны с одним или несколькими CPP с целью эффективной транспортировки в протопласты клеток; см. также Ramakrishna (2014 Genome Res. 2014 Jun;24(6):1020-7 в случае Cas9 в человеческих клетках). В других вариантах осуществления ген Cpf1 и/или направляющая РНК кодируются одной или несколькими кольцевой(кольцевыми) или некольцевой(некольцевыми) молекулой(молекулами) ДНК, которые связаны с одним или несколькими CPP для доставки в протопласты растений. Протопласты растений затем регенерируют до растительных клеток и затем до растений. CPP, как правило, описаны в виде коротких пептидов из менее чем 35 аминокислот, полученных как из белков, так и из химерных последовательностей, которые способны транспортировать биомолекулы через клеточную мембрану рецепторно-зависимым образом. CPP может представлять собой катионные пептиды, пептиды, имеющие гидрофобные последовательности, амфипатические пептиды, пептиды, имеющие последовательность с высоким содержанием пролина и антимикробную последовательность, и химерные или состоящие из двух частей пептиды (Pooga and Langel 2005). CPP способны проникать через биологические мембраны и, таким образом, вызывать движение различных биомолекул через клеточные мембраны в цитоплазму, и улучшать внутриклеточное движение, и, таким образом, облегчать взаимодействие биомолекулы с мишенью. Примеры CPP включают среди прочего Tat, ядерный белок транскрипционный активатор для вирусной репликации HIV 1 типа, пенетратин, сигнальную пептидную последовательность на основе фактора роста фибробластов Капоши (FGF), сигнальную пептидную последовательность на основе интегрина β3; Arg-последовательность на основе полиаргининового пептида, молекулярные транспортеры с высоким содержанием гуанина, пептид "sweet arrow" и др.

Применение системы Cpf1 CRISPR для получения генетически модифицированных нетрансгенных растений

- В конкретных вариантах осуществления способы, описанные в данном документе, используются для модификации эндогенных генов или для модификации их экспрессии без перманентного введения в геном растения какого-либо чужеродного гена, в том числе кодирующих компонентов CRISPR, с тем, чтобы избежать присутствия чужеродной ДНК в геноме растения. Это может представлять интерес, поскольку регуляторные требования для нетрансгенных растений являются менее жесткими.

- В конкретных вариантах осуществления это обеспечивается транзиентной экспрессией компонентов Cpf1 CRISPR. В конкретных вариантах осуществления один или несколько из компонентов CRISPR экспрессируются одним или несколькими вирусными векторами, которые продуцируют достаточно белка Cpf1 и направляющей РНК для стабильного обеспечения модификации представляющего интерес гена в соответствии со способом, описанным в данном документе.

- В конкретных вариантах осуществления транзиентная экспрессия конструкций Cpf1 CRISPR обеспечивается в протопластах растений и, таким образом, не интегрирована в геном. Ограниченное окно экспрессии может быть достаточным для обеспечения того, чтобы система Cpf1 CRISPR обеспечила модификацию целевого гена, как описано в данном документе.

- В конкретных вариантах осуществления различные компоненты системы Cpf1 CRISPR вводят в растительную клетку, протопласт или растительную ткань, как раздельно, так и в смеси, с целью раздельной доставки молекул, таких как наночастицы или молекулы CPP, как описано в данном документ выше.

- Экспрессия компонентов Cpf1 CRISPR может индуцировать целевую модификацию генома, как путем непосредственной активности нуклеазы Cpf1 и необязательного введения матричной ДНК, так и путем модификации целевых генов при помощи системы Cpf1 CRISPR, как описано в данном документе. Различные стратегии, описанные в данном документе выше, обеспечивают Cpf1-опосредованное целевое редактирование генома, требующее введения компонентов Cpf1 CRISPR в геном растений. Компоненты, которые транзиентно вводят в растительную клетку, как правило, удаляют при селекции.

Выявление модификаций в маркерах отбора генома растений

- В конкретных вариантах осуществления, где способ включает модификацию эндогенного целевого гена генома растения, для определения может быть применен любой подходящий способ после того, как растение, часть растения или растительную клетку инфицируют или трансфицируют системой Cpf1 CRISPR, вне зависимости от того, произошло или не произошло нацеливание на ген или направленный мутагенез в целевом сайте. Если способ предусматривает введение трансгена, то трансформированная растительная клетка, каллюс, ткань или растение могут быть идентифицированы и выделены с помощью отбора или скрининга сконструированного растительного материала на наличие трансгена или признаков, кодируемых трансгеном. Физические и биохимические способы могут быть использованы для выявления трансформантов растений или растительных клеток, содержащих вставленные генные конструкции или модификацию эндогенной ДНК. Эти способы включают без ограничения: 1) саузерн-анализ или ПЦР-амплификацию для выявления и определения структуры вставки рекомбинантной ДНК или модифицированных эндогенных генов; 2) нозерн-блоттинг, защиту от S1 РНКазы, достройку праймера или ПЦР-апмлификацию с помощью обратной транскриптазы для выявления и исследования РНК-транскриптов генных конструкций; 3) ферментативные анализы для выявления активности ферментов или рибозимов, где такие продукты генов кодируются генной конструкцией, или экспрессия нарушена в результате генетической модификации; 4) гель-электрофорез белка, методики вестерн-блоттинга, иммуноосаждение или иммуноанализы с иммобилизованными ферментами, где генная конструкция или продукты эндогенных генов представляют собой белки. Дополнительные методики, такие как гибридизация in situ, ферментативное окрашивание и иммуноокрашивание, также могут быть использованы для выявления наличия или экспрессии рекомбинантной конструкции или выявления модификации эндогенного гена в конкретных органах или тканях растений. Способы для выполнения всех этих анализов хорошо известны специалистам в данной области.

- Кроме того (или альтернативно), систему экспрессии, кодирующую компоненты Cpf1 CRISPR, обычно разрабатывают с целью содержания одного или нескольких селектируемых или выявляемых маркеров, которые обеспечивают средство для выделения или эффективного отбора клеток, которые содержат систему Cpf1 CRISPR и/или были модифицированы ею на ранней стадии и в большом объеме.

В случае опосредованной Agrobacterium трансформации кассета с маркерами может находиться вблизи границ фланкирующей T-ДНК или между ними и содержаться в бинарном векторе. В другом варианте осуществления кассета с маркерами может находиться за пределами Т-ДНК. Кассета с селектируемыми маркерами может также находиться на границах той же самой T-ДНК, что и кассета экспрессии, или вблизи них и может находиться в каком-то другом месте во второй Т-ДНК в бинарном векторе (например, системе 2 T-ДНК).

- В случае бомбардировки частицами или трансформации протопласта система экспрессии может содержать один или несколько выделенных линейных фрагментов или может быть частью более крупной конструкции, которая должна содержать элементы репликации бактерий, селектируемые маркеры бактерий или другие выявляемые элементы. Кассета(кассеты) экспрессии, содержащая(содержащие) полинуклеотиды, кодирующие направляющую последовательность и/или Cpf1, может(могут) быть физически связана(связаны) с кассетой с маркерами или может(могут) быть смешана(смешаны) со второй молекулой нуклеиновой кислоты, кодирующей кассету с маркерами. Кассета с маркерами состоит из необходимых элементов для экспрессии выявляемого или селектируемого маркера, который обеспечивает эффективный отбор трансформированных клеток.

- Процедура отбора в случае клеток на основании селектируемого маркера будет зависеть от природы маркерного гена. В конкретных вариантах осуществления применяют селектируемый маркер, т. е. маркер, который обеспечивает непосредственный отбор клеток на основе экспрессии маркера. Маркер отбора может обеспечивать позитивный или негативный отбор и зависит или не зависит от наличия внешних субстратов (Miki et al. 2004, 107(3): 193-232). Как правило, гены устойчивости к антибиотикам или гербицидам используют в качестве маркеров, при этом отбор должен выполняться в зависимости от роста сконструированного растительного материала на средах, содержащих ингибирующее количество антибиотика или гербицида, к которому маркерный ген придает устойчивость. Примерами таких генов являются гены, которые придают устойчивость к антибиотикам, таким как гигромицин (hpt) и канамицин (nptII), и гены, которые придают устойчивость к гербицидам, таким как фосфинотрицин (bar) и хлорсульфурон (als).

- Трансформированные растения и растительные клетки могут также быть идентифицированы при помощи скрининга на виды активности видимого маркера, как правило, фермента, способного обработать окрашенный субстрат (например, β-глюкоронидазу, люциферазу, гены B или C1). Такие методики отбора и скрининга хорошо известны специалистам в данной области.

Культуры и регенерация растений

- В конкретных вариантах осуществления растительные клетки имеют модифицированный геном, и те, которые образованы или получены с помощью любого из способов, описанных в данном документе, могут быть культивированы с регенерацией целого растения, которое обладает трансформированным или модифицированным генотипом и, таким образом, желаемым фенотипом. Стандартные методики регенерации хорошо известны специалистам в данной области. Конкретные примеры таких методик регенерации основаны на действии определенных фитогормонов в среде для роста культуры тканей, и, как правило, основаны на биоцидном и/или гербицидном маркере, который был введен совместно с требуемыми нуклеотидными последовательностями. В дополнительных конкретных вариантах осуществления регенерация растений осуществляется исходя из культивируемых протопластов, каллюса, эксплантов, органов, пыльцы, эмбрионов растений или их частей (см., например, Evans et al. (1983), Handbook of Plant Cell Culture, Klee et al (1987) Ann. Rev. of Plant Phys.).

- В конкретных вариантах осуществления трансформированные или улучшенные растения, как описано в данном документе, могут быть самоопылены с получением семян для гомозитных улучшенных растений по настоящему изобретению (гомозиготных для модификации ДНК) или скрещены с нетрансгенными растениями или различными улучшенными растениями с получением семян для гетерозиготных растений. Если рекомбинантная ДНК была внесена в растительную клетку, то полученное в результате такой селекции растение представляет собой растение, которое является гетерозиготным по рекомбинантной молекуле ДНК. Оба такие гомозиготное и гетерозиготное растения, полученные при скрещивании от улучшенных растений и содержащие генетическую модификацию (которая может представлять собой рекомбинантную ДНК), называются в данном документе "потомство". Дочерние растения представляют собой растения, происходящие от исходного родительского растения и содержащие модификацию генома или молекулу рекомбинантной ДНК, введенную с помощью способов, предусмотренных в данном документе. Альтернативно генетически модифицированные растения могут быть получены при помощи одного из способов, описанных выше, с применением фермента Cfp1, где чужеродная ДНК не вводится в геном. Потомство таких растений, полученных с помощью дополнительной селекции, также может содержать генетическую модификацию. Скрещивания выполняют с помощью любых способов селекции, которые широко применяют для различных сельскохозяйственных культур (например, Allard, Principles of Plant Breeding, John Wiley & Sons, NY, U. of CA, Davis, CA, 50-98 (1960).

Получение растений с улучшенными агрономическими характеристиками

- Системы CRISPR на основе Cpf1, предусмотренные в данном документе, можно применять для введения целевых двунитевых или однонитевых разрывов и/или для введения систем активаторов и/или репрессоров генов и без ограничения могут быть использованы для целенаправленного воздействия на гены, замещения генов, направленного мутагенеза, целевых делеций или вставок, целевых инверсий и/или целевых транслокаций. С помощью коэкспрессии нескольких нацеливающих РНК, направленных на получение нескольких модификаций в одной клетке, может быть обеспечена мультиплексная модификация геномов. Эту технологию можно применять для высокоточного конструирования растений с улучшенными характеристиками, в том числе повышенной пищевой ценностью, повышенной устойчивостью к биотическому и абиотическому стрессу и повышенной продукцией коммерчески ценных растительных продуктов или гетерологичных соединений.

- В конкретных вариантах осуществления система Cpf1 CRISPR, как описано в данном документе, используется для введения целевых двухнитевых разрывов (DSB) в последовательность эндогенной ДНК. DSB активирует клеточные пути репарации ДНК, которые могут быть использованы для достижения требуемых модификаций последовательности ДНК возле сайта разрыва. Это представляет интерес, если инактивация эндогенных генов может придавать желаемый признак или способствует его появлению. В конкретных вариантах осуществления гомологичная рекомбинация матричной последовательностью активизируется в сайте DSB с целью введения представляющего интерес гена.

- В конкретных вариантах осуществления система Cpf1 CRISPR может быть использована в качестве генерического связывающегося с нуклеиновой кислотой белка при слиянии или при функциональном связывании с функциональным доменом для активации и/или репрессии эндогенных генов растений. Иллюстративные функциональные домены могут включать без ограничения инициатор трансляции, активатор трансляции, репрессор трансляции, нуклеазы, в частности рибонуклеазы, сплайсосому, гранулы, индуцируемый/контролируемый светом домен или химически индуцируемый/контролируемый домен. Как правило, в этих вариантах осуществления белок Cpf1 содержит по меньшей мере одну мутацию, например, он характеризуется не более чем 5% активности белка Cpf1, не имеющего по меньшей мере одной мутации; направляющая РНК содержит направляющую последовательность, способную к гибридизации с целевой последовательностью.

- Способы, описанные в данном документе, как правило, приводят к получению "улучшенных растений" в том отношении, что они имеют один или несколько желаемых признаков по сравнению с растением дикого типа. В конкретных вариантах осуществления полученные растения, растительные клетки или части растения представляют собой трансгенные растения, содержащие последовательность экзогенной ДНК, включенную в геном всех или части клеток растения. В конкретных вариантах осуществления нетрансгенные генетически модифицированные растения, части растений или растительные клетки получают таким образом, что никакой последовательности экзогенной ДНК не включено в геном любой из растительных клеток растения. В таких вариантах осуществления улучшенные растения являются нетрансгенными. В случае, если обеспечивают только модификацию экзогенного гена и никаких чужеродных генов не вводят или не сохраняют в геноме растения, то полученные в результате генетически модифицированные сельскохозяйственные культуры не содержат чужеродных генов и могут, таким образом, по существу, считаться нетрансгенными. Различные варианты применения системы Cpf1 CRISPR для редактирования геномов растений описаны более подробно ниже.

a) Введение одного или нескольких чужеродных генов для придания представляющей интерес сельскохозяйственной характеристики

Системы Cpf1 CRISPR, предусмотренные в данном документе, обеспечивают целевую доставку генов. Стало более ясно, что экспрессия представляющего интерес гена в большой степени определяется положением интеграции в геном. Способы настоящего изобретения обеспечивают подвергаемую нацеливанию интеграцию чужеродного гена в необходимое положение в геноме. Положение может быть выбрано на основе информации о ранее полученных событиях или может быть выбрано с помощью способов, раскрытых в других местах в данном документе.

- В конкретных вариантах осуществления способы, предусмотренные в данном документе, предусматривают (a) введение в клетку комплекса Cpf1 CRISPR, содержащего направляющую РНК, содержащую прямой повтор и направляющую последовательность, где направляющая последовательность гибридизируется с целевой последовательностью, которая является эндогенной по отношению к растительной клетке; (b) введение в растительную клетку эффекторной молекулы Cpf1, которая образует комплексы с направляющей РНК, когда направляющая последовательность гибридизируется с целевой последовательностью и индуцирует двунитевой разрыв в последовательности, на которую нацеливается направляющая последовательность, или возле нее; и (c) введение в клетку нуклеотидной последовательности, кодирующей матрицу для репарации HDR, которая кодирует представляющий интерес ген, и который вводят в положение DS разрыва в результате HDR. В конкретных вариантах осуществления стадия введения может предусматривать доставку в растительную клетку одного или нескольких полинуклеотидов, кодирующих эффекторный белок Cpf1, направляющую РНК и матрицу для репарации. В конкретных вариантах осуществления полинуклеотиды доставляют в клетку при помощи ДНК-содержащего вируса (например, гемнивируса) или РНК-содержащего вируса (например, тобравируса). В конкретных вариантах осуществления стадии введения предусматривают введение в растительную клетку T-ДНК, содержащей одну или несколько полинуклеотидных последовательностей, кодирующих эффекторный белок Cpf1, направляющую РНК и матрицу для репарации, где доставка осуществляется посредством Agrobacterium. Последовательность нуклеиновой кислоты, кодирующей эффекторный белок Cpf1, может быть функционально связанной с промотором, таким как конститутивный промотор (например, промотор вируса мозаики цветной капусты 35S), или клеточноспецифический, или индуцируемый промотор. В конкретных вариантах осуществления полинуклеотид вводят при помощи бомбардировки микрочастицами. В конкретных вариантах осуществления способ дополнительно предусматривает скрининг растительной клетки после стадий введения с целью определения того, была ли введена матрица для репарации, т. е. представляющий интерес ген. В конкретных вариантах осуществления способы включают стадию регенерации растения из растительной клетки. В дополнительных вариантах осуществления способы включают кроссбридинг растения с получением генетически требуемой линии растений. Примеры чужеродных генов, кодирующих представляющий интерес признак, приведены ниже.

b) Редактирование эндогенных генов для придания представляющей интерес сельскохозяйственной характеристики

- Настоящее изобретение относится к способам редактирования генома или модификации последовательностей, ассоциированных с представляющим интерес целевым локусом, где способ предусматривает введение комплекса эффекторного белка Cpf1 в растительную клетку, при этом комплекс Cpf1 модифицирует экспрессию эндогенного гена растения. Это может быть достигнуто различными путями. В конкретных вариантах осуществления устранение экспрессии эндогенного гена является желательным, и комплекс Cpf1 CRISPR используют для нацеливания на эндогенный ген с целью модификации экспрессии гена и его расщепления. В этих вариантах осуществления способы, предусмотренные в данном документе, предусматривают (a) введение в растительную клетку комплекса Cpf1 CRISPR, содержащего направляющую РНК, содержащую прямой повтор и направляющую последовательность, где направляющая последовательность гибридизируется с целевой последовательность в представляющем интерес гене в геноме растительной клетки; и (b) введение в клетку эффекторного белка Cpf1, который при связывании с направляющей РНК, содержащей направляющую последовательность, которая гибридизируется с целевой последовательностью, обеспечивает двухнитевой разрыв в последовательности, на которую направляющая последовательность оказывает нацеливание, или возле нее. В конкретных вариантах осуществления стадия введения может предусматривать доставку в растительную клетку одного или нескольких полинуклеотидов, кодирующих эффекторный белок Cpf1 и направляющую РНК.

- В конкретных вариантах осуществления полинуклеотиды доставляют в клетку при помощи ДНК-содержащего вируса (например, гемнивируса) или РНК-содержащего вируса (например, тобравируса). В конкретных вариантах осуществления стадии введения предусматривают введение в растительную клетку T-ДНК, содержащей одну или несколько полинуклеотидных последовательностей, кодирующих эффекторный белок Cpf1 и направляющую РНК, где доставка осуществляется посредством Agrobacterium. Полинуклеотидная последовательность, кодирующая компоненты системы Cpf1 CRISPR, может быть функционально связанной с промотором, таким как конститутивный промотор (например, промотор вируса мозаики цветной капусты 35S), или клеточноспецифический, или индуцируемый промотор. В конкретных вариантах осуществления полинуклеотид вводят при помощи бомбардировки микрочастицами. В конкретных вариантах осуществления способ дополнительно предусматривает скрининг растительной клетки после стадий введения с целью определения того, была ли модифицирована экспрессия представляющего интерес гена. В конкретных вариантах осуществления способы включают стадию регенерации растения из растительной клетки. В дополнительных вариантах осуществления способы включают кроссбридинг растения с получением генетически требуемой линии растений.

- В конкретных вариантах осуществления способов, описанных выше, устойчивые к болезням сельскохозяйственные растения получают с помощью целевой мутации генов подверженности к болезням или генов, кодирующих отрицательные регуляторы (например, ген Mlo), из генов, обеспечивающих защиту растений. В конкретном варианте осуществления устойчивые к гербицидам сельскохозяйственные растения получают с помощью целевой замены конкретных нуклеотидов в генах растений, таких как кодирующие ацетолактатсинтазу (ALS) и протопорфириногеноксидазу (PPO). В конкретных вариантах осуществления предусмотрено получение засухоустойчивых и солевыносливых сельскохозяйственных растений с помощью целевой мутации генов, кодирующих отрицательные регуляторы переносимости абиотического стресса, зерновых культур с низким содержанием амилозы с помощью мутации гена Waxy, риса или других зерновых культур со сниженной прогорклостью с помощью целевой мутации основных генов липазы в алейроновом слое и т. д. Более подробный перечень эндогенных генов, кодирующих представляющие интерес признаки, приведен ниже.

c) Модулирование эндогенных генов при помощи системы Cpf1 CRISPR для придания представляющего интерес сельскохозяйственного признака

- В данном документе также предусмотрены способы модулирования (т. е. активации или репрессии) экспрессии эндогенного гена при помощи белка Cpf1, предусмотренного в данном документе. В таких способах применяют различающаяся(различающиеся) последовательность(последовательности) РНК, которая(которые) нацеливаются на геном растений при помощи комплекса Cpf1. В частности, различающаяся(различающиеся) последовательность(последовательности) РНК связывается(связываются) с двумя или более адаптерными белками (например, аптамерами), где каждый адаптерный белок ассоциирован с одним или несколькими функциональными доменами и где по меньшей мере один или несколько функциональных доменов, ассоциированных с адаптерным белком, характеризуются одной или несколькими видами активности, предусматривающими метилазную активность, деметилазную активность, активность в отношении активации транскрипции, активность в отношении репрессии транскрипции, активность фактора освобождения транскрипта, активность в отношении модификации гистонов, активность интеграции ДНК, активность расщепления РНК, активность расщепления ДНК или активность связывания нуклеиновых кислот. Функциональные домены используют для модулирования экспрессии эндогенного гена растений для того, чтобы получить желаемый признак. Как правило, в этих вариантах осуществления эффекторный белок Cpf1 имеет одну или несколько мутаций таким образом, что он имеет не более 5% нуклеазной активности эффекторного белка Cpf1, не имеющего по меньшей мере одной мутации.

- В конкретных вариантах осуществления способы, предусмотренные в данном документе, предусматривают стадии (a) введения в клетку комплекса Cpf1 CRISPR, содержащего направляющую РНК, содержащую прямой повтор и направляющую последовательность, где направляющая последовательность гибридизируется с целевой последовательностью, которая является эндогенной по отношению к растительной клетке; (b) введения в растительную клетку эффекторной молекулы Cpf1, которая образует комплексы с направляющей РНК, когда направляющая последовательность гибридизируется с целевой последовательностью; и где направляющую РНК модифицируют с целью содержания различающейся последовательности РНК (аптамера), связывающейся с функциональным доменом, и/или эффекторный белок Cpf1 модифицируют таким образом, что он связывается с функциональным доменом. В конкретных вариантах осуществления стадия введения может предусматривать доставку в растительную клетку одного или нескольких полинуклеотидов, кодирующих (модифицированный) эффекторный белок Cpf1 и (модифицированную) направляющую РНК. Подробности о компонентах системы Cpf1 CRISPR для применения в этих способах описаны в других местах в данном документе.

- В конкретных вариантах осуществления полинуклеотиды доставляют в клетку при помощи ДНК-содержащего вируса (например, гемнивируса) или РНК-содержащего вируса (например, тобравируса). В конкретных вариантах осуществления стадии введения предусматривают введение в растительную клетку T-ДНК, содержащей одну или несколько полинуклеотидных последовательностей, кодирующих эффекторный белок Cpf1 и направляющую РНК, где доставка осуществляется посредством Agrobacterium. Последовательность нуклеиновой кислоты, кодирующая один или несколько компонентов системы Cpf1 CRISPR, может быть функционально связанной с промотором, таким как конститутивный промотор (например, промотор вируса мозаики цветной капусты 35S), или клеточноспецифический, или индуцируемый промотор. В конкретных вариантах осуществления полинуклеотид вводят при помощи бомбардировки микрочастицами. В конкретных вариантах осуществления способ дополнительно включает скрининг растительной клетки после стадий введения с целью определения того, была ли модифицирована экспрессия представляющего интерес гена. В конкретных вариантах осуществления способы включают стадию регенерации растения из растительной клетки. В дополнительных вариантах осуществления способы включают кроссбридинг растения с получением генетически требуемой линии растений. Более подробный перечень эндогенных генов, кодирующих представляющие интерес признаки, приведен ниже.

Применение Cpf1 для модификации полиплоидных растений

- Многие растения являются полиплоидными, что означает, что они несут двойные копии своих геномов - иногда до шести, как у пшеницы. Способы в соответствии с настоящим изобретением, в которых применяют эффекторный белок Cpf1 CRISPR, могут быть "мультиплексными" с целью воздействия на все копии гена или нацеливания на несколько генов сразу. Например, в конкретных вариантах осуществления способы по настоящему изобретению применяют для одновременного обеспечения мутации потери функции в различных генах, ответственных за подавление защиты по отношению к болезни. В конкретных вариантах осуществления способы по настоящему изобретению применяют для одновременной супрессии экспрессии последовательности нуклеиновой кислоты TaMLO-Al, TaMLO-Bl и TaMLO-Dl в растительной клетке пшеницы и регенерации из нее растения пшеницы, чтобы обеспечить устойчивость растения пшеницы к мучнистой росе (см. также WO2015109752).

Иллюстративные гены, придающие агрономические признаки

- Как описано в данном документе выше, в конкретных вариантах осуществления настоящее изобретение охватывает применение системы Cpf1 CRISPR, как описано в данном документе, для вставки представляющей интерес ДНК, в том числе одного или нескольких экспрессируемых генов растения. В дополнительных конкретных вариантах осуществления настоящее изобретение охватывает способы и средства, в которых применяют систему Cpf1, как описано в данном документе, для частичного или полного удаления одного или нескольких экспрессируемых генов растения. В других дополнительных вариантах осуществления настоящее изобретение охватывает способы и средства, в которых применяют систему Cpf1, как описано в данном документе, для обеспечения модификации одного или нескольких экспрессируемых в растениях генов при помощи мутации, замены, вставки одного или нескольких нуклеотидов. В других конкретных вариантах осуществления настоящее изобретение охватывает применение системы Cpf1 CRISPR, как описано в данном документе, для обеспечения модификации экспрессии одного или нескольких экспрессируемых в растениях генов с помощью специфической модификации одного или нескольких из регуляторных элементов, управляющих экспрессией указанных генов.

- В конкретных вариантах осуществления настоящее изобретение охватывает способы, которые включают введение экзогенных генов и/или воздействия на эндогенные гены и их регуляторные элементы, такие как приведенные ниже:

- 1. Гены, которые придают устойчивость к вредителям или болезням

- Гены, придающие устойчивость к болезням растений. Растение может быть трансформировано клонированными генами устойчивости с целью конструирования растений, которые являются устойчивыми к специфическим патогенным штаммам. См., например, Jones et al., Science 266:789 (1994) (клонирование гена устойчивости томата Cf-9 к Cladosporium fulvum); Martin et al., Science 262:1432 (1993) (ген устойчивости томата Pto к Pseudomonas syringae pv. tomato кодирует протеинкиназу); Mindrinos et al., Cell 78:1089 (1994) (арабидопсис может иметь ген RSP2 устойчивости к Pseudomonas syringae).

- Гены, придающие устойчивость к вредителю, такому как соевая цистообразующая нематода. См., например, заявку согласно PCT WO 96/30517; заявку согласно PCT WO 93/19181.

- Белки Bacillus thuringiensis, см., например, в Geiser et al., Gene 48:109 (1986).

- Лектины, см., например, в Van Damme et al., Plant Molec. Biol. 24:25 (1994).

- Витамин-связывающий белок, такой как авидин, см. в заявке согласно PCT US93/06487, описывающей применение авидина и гомологов авидина в качестве ларвацидов против насекомых-вредителей.

- Ингибиторы ферментов, такие как ингибиторы протеазы или протеиназы или ингибиторы амилазы. См., например, Abe et al., J. Biol. Chem. 262:16793 (1987), Huub et al., Plant Molec. Biol. 21:985 (1993)), Sumitani et al., Biosci. Biotech. Biochem. 57:1243 (1993) и патент США № 5494813.

- Специфичные в отношении насекомых гормоны или феромоны, такие как экдистероид, или ювенильный гормон, его вариант, миметик на его основе или его антагонист или агонист. См., например, Hammock et al., Nature 344:458 (1990).

- Специфичные в отношении насекомых пептиды или нейропептиды, которые при экспрессии нарушают физиологию пораженного вредителя. Например, Regan, J. Biol. Chem. 269:9 (1994) и Pratt et al., Biochem. Biophys. Res. Comm. 163:1243 (1989). См. также патент США № 5266317.

- Специфичный в отношении насекомых яд, вырабатываемый в природе змеей, осой или любым другим организмом. Например, см. Pang et al., Gene 116: 165 (1992).

- Ферменты, ответственные за гипераккумуляцию монотерпена, сесквитерпена, стероида, гидроксамовой кислоты, производного фенилпропаноида или другой небелковой молекулы с инсектицидной активностью.

- Ферменты, участвующие в модификации, в том числе посттрансляционной модификации, биологически активной молекулы; например, гликолитический фермент, протеолитический фермент, липолитический фермент, нуклеаза, циклаза, трансаминаза, эстереза, гидролаза, фосфатаза, киназа, фосфорилаза, полимераза, эластаза, хитиназа и глюканаза, вне зависимости от того являются ли они натуральными или синтетическими. См. заявку согласно PCT WO93/02197, Kramer et al., Insect Biochem. Molec. Biol. 23:691 (1993) и Kawalleck et al., Plant Molec. Biol. 21 :673 (1993).

- Молекулы, которые стимулируют передачу сигнала. Например, см. Botella et al., Plant Molec. Biol. 24:757 (1994) и Griess et al., Plant Physiol. 104:1467 (1994).

- Вирусные инвазивные белки или сложный токсин, полученный из них. См. Beachy et al., Ann. rev. Phytopathol. 28:451 (1990).

- Белки, останавливающие развитие, образуемые в природе патогеном или паразитом. См. Lamb et al., Bio/Technology 10:1436 (1992) и Toubart et al., Plant J. 2:367 (1992).

- Белок, останавливающий развитие, образуемый в природе растением. Например, Logemann et al., Bio/Technology 10:305 (1992).

- У растений патогены часто являются специфичными по отношению к хозяину. Например, некоторые виды Fusarium будут вызывать вилт томата, однако поражают только томат, в то время как другие виды Fusarium поражают только пшеницу. Растения обладают присущими и индуцированными защитными реакциями, обеспечивающими устойчивость к большинству патогенов. Мутации и события рекомбинации в поколениях растений приводят к генетической изменчивости, которая обуславливает восприимчивость, тем более, что патогены размножаются с большей частотой, чем растения. У растений может присутствовать нехозяйская устойчивость, например, хозяин и патоген несовместимы, или может присутствовать частичная устойчивость по отношению ко всем расам патогена, как правило, контролируемая многими генами, и/или также полная устойчивость к некоторым расам патогена, но не к другим расам. Такая устойчивость, как правило, контролируется несколькими генами. При помощи способов и компонентов системы Cpf1 CRISP в настоящее время существует новое средство для индукции предполагаемых мутаций. Соответственно можно проанализировать геном источников генов устойчивости, и в растениях, имеющих желаемые характеристики или признаки, применять способ и компоненты системы Cpf1 CRISPR для индукции образования генов устойчивости. Системы настоящего изобретения могут выполнять это с большей точностью, чем применявшиеся ранее мутагенные средства, и, следовательно, ускорять и улучшать программы селекции растений.

- 2. Гены, участвующие в болезнях растений, таких как приведенные в WO 2013046247.

- Болезни риса: Magnaporthe grisea, Cochliobolus miyabeanus, Rhizoctonia solani, Gibberella fujikuroi; болезни пшеницы: Erysiphe graminis, Fusarium graminearum, F. avenaceum, F. culmorum, Microdochium nivale, Puccinia striiformis, P. graminis, P. recondita, Micronectriella nivale, Typhula sp., Ustilago tritici, Tilletia caries, Pseudocercosporella herpotrichoides, Mycosphaerella graminicola, Stagonospora nodorum, Pyrenophora tritici-repentis; болезни ячменя: Erysiphe graminis, Fusarium graminearum, F. avenaceum, F. culmorum, Microdochium nivale, Puccinia striiformis, P. graminis, P. hordei, Ustilago nuda, Rhynchosporium secalis, Pyrenophora teres, Cochliobolus sativus, Pyrenophora graminea, Rhizoctonia solani; болезни маиса: Ustilago maydis, Cochliobolus heterostrophus, Gloeocercospora sorghi, Puccinia polysora, Cercospora zeae-maydis, Rhizoctonia solani;

- болезни цитрусовых: Diaporthe citri, Elsinoe fawcetti, Penicillium digitatum, P. italicum, Phytophthora parasitica, Phytophthora citrophthora; болезни яблонь: Monilinia mali, Valsa ceratosperma, Podosphaera leucotricha, Alternaria alternata apple pathotype, Venturia inaequalis, Colletotrichum acutatum, Phytophtora cactorum;

- болезни груш: Venturia nashicola, V. pirina, Alternaria alternata Japanese pear pathotype, Gymnosporangium haraeanum, Phytophtora cactorum;

- болезни персиков: Monilinia fructicola, Cladosporium carpophilum, Phomopsis sp.;

- болезни винограда: Elsinoe ampelina, Glomerella cingulata, Uninula necator, Phakopsora ampelopsidis, Guignardia bidwellii, Plasmopara viticola;

- болезни хурмы: Gloesporium kaki, Cercospora kaki, Mycosphaerela nawae;

- болезни тыквы бутылочной: Colletotrichum lagenarium, Sphaerotheca fuliginea, Mycosphaerella melonis, Fusarium oxysporum, Pseudoperonospora cubensis, Phytophthora sp., Pythium sp.;

- болезни томата: Alternaria solani, Cladosporium fulvum, Phytophthora infestans;

- болезни баклажана: Phomopsis vexans, Erysiphe cichoracearum;

- болезни капустных овощей: Alternaria japonica, Cercosporella brassicae, Plasmodiophora brassicae, Peronospora parasitica;

- болезни лука-батуна: Puccinia allii, Peronospora destructor;

- болезни сои: Cercospora kikuchii, Elsinoe glycines, Diaporthe phaseolorum var. sojae, Septoria glycines, Cercospora sojina, Phakopsora pachyrhizi, Phytophthora sojae, Rhizoctonia solani, Corynespora casiicola, Sclerotinia sclerotiorum;

- болезни турецких бобов: Colletrichum lindemthianum;

- болезни арахиса: Cercospora personata, Cercospora arachidicola, Sclerotium rolfsii;

- болезни гороха: Erysiphe pisi;

- болезни картофеля: Alternaria solani, Phytophthora infestans, Phytophthora erythroseptica, Spongospora subterranean, f. sp. Subterranean;

- болезни клубники: Sphaerotheca humuli, Glomerella cingulata;

- болезни чая: Exobasidium reticulatum, Elsinoe leucospila, Pestalotiopsis sp., Colletotrichum theaesinensis;

- болезни табака: Alternaria longipes, Erysiphe cichoracearum, Colletotrichum tabacum, Peronospora tabacina, Phytophthora nicotianae;

- болезни рапса: Sclerotinia sclerotiorum, Rhizoctonia solani;

- болезни хлопчатника: Rhizoctonia solani;

- болезни свеклы: Cercospora beticola, Thanatephorus cucumeris, Thanatephorus cucumeris, Aphanomyces cochlioides;

- болезни роз: Diplocarpon rosae, Sphaerotheca pannosa, Peronospora sparsa;

- болезни хризантем и астровых: Bremia lactuca, Septoria chrysanthemi-indici, Puccinia horiana;

- болезни различных растений: Pythium aphanidermatum, Pythium debarianum, Pythium graminicola, Pythium irregulare, Pythium ultimum, Botrytis cinerea, Sclerotinia sclerotiorum;

- болезни редиса: Alternaria brassicicola;

- болезни цойсии: Sclerotinia homeocarpa, Rhizoctonia solani;

- болезни банана: Mycosphaerella fijiensis, Mycosphaerella musicola;

- болезни подсолнечника: Plasmopara halstedii;

- болезни семян и болезни на начальных стадиях роста различных растений, вызванные Aspergillus spp., Penicillium spp., Fusarium spp., Gibberella spp., Tricoderma spp., Thielaviopsis spp., Rhizopus spp., Mucor spp., Corticium spp., Rhoma spp., Rhizoctonia spp., Diplodia spp. и т. п.;

- вирусные болезни различных растений, опосредованные Polymixa spp., Olpidium spp. и т. п.

- 3. Примеры генов, которые придают устойчивость к гербицидам.

- Устойчивость к гербицидам, которые ингибируют точку роста или меристему, такие как имидазолинон или сульфомочевина, например, Lee et al., EMBO J. 7:1241 (1988), и Miki et al., Theor. Appl. Genet. 80:449 (1990) соответственно.

- Переносимость глифосата (устойчивость, придаваемая, например, генами мутантной 5-енолпирувилшикимат-3-фосфатсинтазы (EPSPS), генами aroA и генами глифосатацетилтрансферазы (GAT) соответственно), или устойчивость к другим фосфоновым соединениям, например, при помощи генов глюфосината (фосфинотрицинацетилтрансферазы (PAT) от видов Streptomyces, в том числе Streptomyces hygroscopicus и Streptomyces viridichromogenes), и к пиридинокси- или феноксипропионовым кислотам и циклогексонам при помощи генов, кодирующих ингибиторы ACCазы. См., например, патент США № 4940835 и патент США № 6248876, патент США № 4769061, EP № 0333033 и патент США № 4975374. См. также EP № 0242246, DeGreef et al., Bio/Technology 7:61 (1989), Marshall et al., Theor. Appl. Genet. 83:435 (1992), WO 2005012515 от Castle et. al. и WO 2005107437.

- Устойчивость к гербицидам, которые ингибируют фотосинтез, такие как триазин (гены psbA и gs+) или бензонитрил (ген нитрилазы), и глутатион-S-трансфераза, в Przibila et al., Plant Cell 3:169 (1991), патент США № 4810648, и Hayes et al., Biochem. J. 285: 173 (1992).

- Гены, кодирующие ферменты, детоксифицирующие гербицид, или мутантный фермент глутаминсинтазу, которая устойчива к ингибированию, например, в заявке на патент США с серийным № 11/760602. Или детоксифицирующий фермент представляет собой фермент, кодирующий фосфинотрицинацетилтрансферазу (такую как белок bar или pat от видов Streptomyces). Фосфинотрицинацетилтрансферазы описаны, например, в патентах США №№ 5561236; 5648477; 5646024; 5273894; 5637489; 5276268; 5739082; 5908810 и 7112665.

- Ингибиторы гидроксифенилпируватдиоксигеназ (HPPD), т. е. встречающиеся в природе устойчивые к HPPD ферменты, или гены, кодирующие мутированный или химерный фермент HPPD, как описано в WO 96/38567, WO 99/24585 и WO 99/24586, WO 2009/144079, WO 2002/046387 или патенте США № 6768044.

- 4. Примеры генов, участвующих в переносимости абиотического стресса.

- Трансген, способный с ослаблению экспрессии и/или активности гена поли(ADP-рибозо)полимеразы (PARP) в растительных клетках или растениях, как описано в WO 00/04173 или WO/2006/045633.

- Трансгены, способные с ослаблению экспрессии и/или активности кодирующих PARG генов растений или растительных клеток, как описано в WO 2004/090140.

- Трансгены, кодирующие функциональный в растениях фермент пути утилизации и синтеза никотинамидадениндинуклеотида, в том числе никотинамидазу, никотинатфосфорибозилтрансферазу, мононуклеотидаденилтрансферазу никотиновой кислоты, никотинамидадениндинуклеотидсинтетазу или никотинамидфосфорибозилтрансферзазу, как описано в EP 04077624.7, WO 2006/133827, PCT/EP07/002,433, EP 1999263 или WO 2007/107326.

- Ферменты, участвующие в биосинтезе углеводов, включают описанные например, в EP 0571427, WO 95/04826, EP 0719338, WO 96/15248, WO 96/19581, WO 96/27674, WO 97/11188, WO 97/26362, WO 97/32985, WO 97/42328, WO 97/44472, WO 97/45545, WO 98/27212, WO 98/40503, WO99/58688, WO 99/58690, WO 99/58654, WO 00/08184, WO 00/08185, WO 00/08175, WO 00/28052, WO 00/77229, WO 01/12782, WO 01/12826, WO 02/101059, WO 03/071860, WO 2004/056999, WO 2005/030942, WO 2005/030941, WO 2005/095632, WO 2005/095617, WO 2005/095619, WO 2005/095618, WO 2005/123927, WO 2006/018319, WO 2006/103107, WO 2006/108702, WO 2007/009823, WO 00/22140, WO 2006/063862, WO 2006/072603, WO 02/034923, EP 06090134.5, EP 06090228.5, EP 06090227.7, EP 07090007.1, EP 07090009.7, WO 01/14569, WO 02/79410, WO 03/33540, WO 2004/078983, WO 01/19975, WO 95/26407, WO 96/34968, WO 98/20145, WO 99/12950, WO 99/66050, WO 99/53072, патенте США № 6734341, WO 00/11192, WO 98/22604, WO 98/32326, WO 01/98509, WO 01/98509, WO 2005/002359, патенте США № 5824790, патенте США № 6013861, WO 94/04693, WO 94/09144, WO 94/11520, WO 95/35026 или WO 97/20936, или ферменты, участвующие в образовании полифруктозы, в частности, из инулина или леванов, как раскрыто в EP 0663956, WO 96/01904, WO 96/21023, WO 98/39460 и WO 99/24593, образовании альфа-1,4-глюканов, как раскрыто в WO 95/31553, US 2002031826, патенте США № 6284479, патенте США № 5712107, WO 97/47806, WO 97/47807, WO 97/47808 и WO 00/14249, образовании альфа-1,6 разветвленных альфа-1,4-глюканов, как раскрыто в WO 00/73422, образовании альтернана, как раскрыто, например, в WO 00/47727, WO 00/73422, EP 06077301.7, патенте США № 5908975 и EP 0728213, образовании гиалуронана, например, как раскрыто в WO 2006/032538, WO 2007/039314, WO 2007/039315, WO 2007/039316, JP 2006304779 и WO 2005/012529.

- Гены, которые повышают засухоустойчивость. Например, в WO 2013122472 раскрыто, что отсутствие или сниженный уровень функционального белка убиквитинпротеинлигазы (UPL), в частности, UPL3, приводит к сниженной потребности в воде или повышенной устойчивости к засухе указанного растения. Другие примеры трансгенных растений с повышенной переносимостью засухи раскрыты, например, в US 2009/0144850, US 2007/0266453 и WO 2002/083911. В US2009/0144850 описано растение, проявляющее фенотип переносимости засухи в результате измененной экспрессии нуклеиновой кислоты DR02. В US 2007/0266453 описано растение, проявляющее фенотип переносимости засухи в результате измененной экспрессии нуклеиновой кислоты DR03, и в WO 2002/08391 1 описано растение, имеющее повышенную переносимость стресса, вызванного засухой, в результате ослабленной активности АВС-транспортера, который экспрессируется в замыкающих клетках. Другим примером является исследование Kasuga и соавторов (1999), которые описывают, что сверхэкспрессия кДНК, кодирующей DREB1 A в трансгенных растениях, активировала экспрессию многих генов переносимости стресса при нормальных условиях роста и приводила к повышенной устойчивости к засухе, солевой нагрузке и замораживанию. Однако экспрессия DREB1A также приводила к тяжелой задержке роста при нормальных условиях роста (Kasuga (1999) Nat Biotechnol 17(3) 287-291).

- В дополнительных конкретных вариантах осуществления сельскохозяйственные растения могут быть улучшены под влиянием определенных признаков растений. Например, путем разработки растений, устойчивых к пестицидам, повышения устойчивости к заболеваниям у растений, повышения устойчивости к вредным для растений насекомым и нематодам, повышения устойчивости растений к паразитирующим сорнякам, повышения засухоустойчивости растений, повышения пищевой ценности растений, повышения переносимости стресса растений, избегания самоопыления, повышения перевариваемости кормовых растений, биомассы, урожая зерна и др. Несколько конкретных неограничивающих примеров предусмотрены в данном документе ниже.

- Кроме целевой мутации единичных генов, комплексы Cpf1CRISPR могут быть разработаны для обеспечения целевой мутации нескольких генов, делеции хромосомного фрагмента, сайт-специфической интеграции трансгена, сайт-направленного мутагенеза in vivo и точного замещения гена или замены аллелей у растений. Таким образом, способы, описанные в данном документе, имеют широкие варианты применения при обнаружении и валидации генов, мутационной и цисгенной селекции и гибридной селекции. Эти варианты применения облегчают получение нового поколения генетически модифицированных сельскохозяйственных культур с различными улучшенными агрономическими признаками, такими как устойчивость к гербицидам, устойчивость к болезням, переносимость абиотического стресса, высокая урожайность и отличное качество.

Применение гена Cpf1 для получения мужских стерильных растений

- Гибридные растения, как правило, имеют предпочтительные агрономические признаки по сравнению с инбредными растениями. Однако для самоопылящихся растений получение гибридов может быть проблематичным. У различных типов растений были идентифицированы гены, которые важны для фертильности растений, в частности, мужской фертильности. Например, у маиса были идентифицированы по меньшей мере два гена, которые важны для фертильности (Amitabh Mohanty International Conference on New Plant Breeding Molecular Technologies Technology Development And Regulation, Oct 9-10, 2014, Jaipur, India; Svitashev et al. Plant Physiol. 2015 Oct;169(2):931-45; Djukanovic et al. Plant J. 2013 Dec;76(5):888-99). Способы, предусмотренные в данном документе, могут быть использованы для нацеливания на гены, необходимые для мужской фертильности, для того, чтобы получить мужские стерильные растения, которые могут быть легко скрещены с получением гибридов. В конкретных вариантах осуществления система Cpf1 CRISPR, предусмотренная в данном документе, используется для направленного мутагенеза цитохром P450-подобного гена (MS26) или гена мегануклеазы (MS45), придавая тем самым мужскую стерильность растению маиса. Растения маиса, которые по этой причине генетически изменены, можно применять в программах селекции гибридов.

Повышение стадии фертильности у растений

- В конкретных вариантах осуществления способы, предусмотренные в данном документе, используют для продления стадии фертильности растения, такого как растение риса. Например, на ген стадии фертильности риса, такой как Ehd3, можно целенаправленно воздействовать с получением мутации в гене, а сеянцы могут быть отобраны в отношении продленной стадии фертильности при регенерации растений (как описано в CN 104004782).

Применение Cpf1 для получения генетической изменчивости у представляющего интерес сельскохозяйственного растения

- Доступность зародышевой плазмы дикого типа и генетические вариации в сельскохозяйственных растениях являются ключевым моментом для программ улучшения сельскохозяйственных культур, однако доступная изменчивость зародышевых плазм от сельскохозяйственных культур является ограниченной. Настоящее изобретение предусматривает способы получения разнообразия генетических вариаций представляющей интерес зародышевой плазмы. В этом применении системы Cpf1 CRISPR предусмотрена библиотека направляющих РНК, нацеленных на различные локусы в геноме растений, и ее вводят в растительные клетки совместно с эффекторным белком Cpf1. В этом отношении может быть получена коллекция точковых мутаций и генных нокаутов в масштабе генома. В конкретных вариантах осуществления способы включают получение части растения или растения из клеток, полученных таким образом, и скрининг клеток на наличие представляющего интерес признака. Целевые гены могут включать кодирующие и некодирующие области. В конкретных вариантах осуществления признак представляет собой переносимость стресса, а способ представляет собой способ получения сортов сельскохозяйственных растений с переносимостью стресса.

Применение Cpf1 для воздействия на созревание плодов

- Созревание представляет собой нормальную фазу в процессе созревания плодов и овощей. Лишь спустя несколько дней после своего начала оно делает плод или овощ несъедобным. Этот процесс приносит значительные убытки как фермерам, так и потребителям. В конкретных вариантах осуществления способы по настоящему изобретению используют для ослабления образования этилена. Это достигается путем обеспечения одного или нескольких из следующего. a. Подавления экспрессии гена ACC-синтазы. ACC-(1-аминоциклопропан-1-карбоновая кислота)-синтаза представляет собой фермент, ответственный за превращение S-аденозилметионина (SAM) в ACC, происходящее со второй до последней стадии в биосинтезе этилена. Экспрессия ферментов нарушена, если антисмысловая ("зеркальное отображение") или усеченная копия гена синтазы вставлена в геном растения; b. вставки гена ACC-дезаминазы. Ген, кодирующий фермент, получают из Pseudomonas chlororaphis, распространенной непатогенной почвенной бактерии. Он превращает ACC в другое соединение, тем самым снижая количество ACC, доступное для образования этилена; c. вставки гена SAM-гидролазы. Этот подход является аналогичным в случае ACC-дезаминазы, где образование этилена нарушается, когда количество его метаболита-предшественника снижено; в этом случае SAM превращается в гомосерин. Ген, кодирующий фермент, получают из бактериофага T3 E. сoli, и d. супрессии экспрессии гена ACC-оксидазы. ACC-оксидаза представляет собой фермент, который катализирует окисление ACC в этилен, являющееся последней стадией в пути биосинтеза этилена. С помощью способов, описанных в данном документе, снижение экспрессии гена ACC-оксидазы приводит к подавлению образования этилена, тем самым происходит задержка созревания плодов. В конкретных вариантах осуществления дополнительно или альтернативно к модификациям, описанным в данном документе, применяют способы, описанные в данном документе, для модификации этиленовых рецепторов с тем, чтобы нарушить сигналы от этилена, получаемые плодом. В конкретных вариантах осуществления экспрессия гена ETR1, кодирующего этилен-связывающий белок, является модифицированной, в частности супрессированной. В конкретных вариантах осуществления дополнительно или альтернативно к модификациям, описанным в данном документе, используют способы, описанные в данном документе, для модификации экспрессии гена, кодирующего полигалактуроназу (PG), которая представляет собой фермент, ответственный за разрушение пектина, соединения, которое поддерживает целостность клеточных стенок растений. Разрушение пектина происходит в начале процесса созревания, приводя к размягчению плода. Соответственно, в конкретных вариантах осуществления способы, описанные в данном документе, используют для введения мутации в ген PG или для супрессии активации гена PG с целью снижения количества образующегося фермента PG, тем самым задерживая разрушение пектина.

- Таким образом, в конкретных вариантах осуществления способы включают применение системы Cpf1 CRISPR для обеспечения одной или нескольких модификаций генома растительной клетки, таких как описаны выше, и регенерации из нее растения. В конкретных вариантах осуществления растение представляет собой растения томата.

Повышение срока хранения растений

- В конкретных вариантах осуществления способы по настоящему изобретению применяют для модификации генов, участвующих в образовании соединений, которые влияют на срок годности растения или части растений. В частности, модификацию осуществляют в гене, которая предупреждает накопление восстанавливающих сахаров в клубнях картофеля. При обработке высокой температурой эти восстанавливающие сахара реагируют со свободными аминокислотами, приводя к образованию продуктов коричневого цвета с горьким вкусом и повышенных уровней акриламида, который является потенциальным канцерогеном. В конкретных вариантах осуществления способы, предусмотренные в данном документе, используют для ослабления или ингибирования экспрессии гена вакуолярной инвертазы (VInv), который кодирует белок, который разрушает сахарозу до глюкозы и фруктозы (Clasen et al. DOI: 10.1111/pbi.12370).

Применение системы Cpf1 CRISPR для обеспечения признака с дополнительным эффектом

- В конкретных вариантах осуществления систему Cpf1 CRISPR применяют для получения сельскохозяйственных культур с улучшенными питательными свойствами. В конкретных вариантах осуществления способы, предусмотренные в данном документе, адаптированы к получению "функциональных продуктов питания", т. е. модифицированного продукта питания или продуктового ингредиента, которые могут обеспечивать пользу для здоровья помимо традиционных нутриентов, которые он содержит, или "нутрицевтиков", т. е. веществ, которые могут рассматриваться продуктом питания или частью продукта питания, и обеспечивают пользу для здоровья, в том числе предупреждение и лечения заболевания. В конкретных вариантах осуществления нутрицевтик является применимым в предупреждении и/или лечении одного или нескольких из рака, диабета, сердечно-сосудистого заболевания или гипертензии.

- Примеры сельскохозяйственных культур с улучшенными питательными свойствами включают (Newell-McGloughlin, Plant Physiology, July 2008, Vol. 147, pp. 939-953):

- модифицированное качество белка, содержание и/состав аминокислот, например, как описано для гречки заметной (Luciani et al. 2005, Florida Genetics Conference Poster), канолы (Roesler et al., 1997, Plant Physiol 113 75-81), маиса (Cromwell et al, 1967, 1969 J Anim Sci 26 1325-1331, O'Quin et al. 2000 J Anim Sci 78 2144-2149, Yang et al. 2002, Transgenic Res 11 11-20, Young et al. 2004, Plant J 38 910-922), картофеля (Yu J and Ao, 1997 Acta Bot Sin 39 329-334; Chakraborty et al. 2000, Proc Natl Acad Sci USA 97 3724-3729; Li et al. 2001) Chin Sci Bull 46 482-484, Rice (Katsube et al. 1999, Plant Physiol 120 1063-1074), сои (Dinkins et al. 2001, Rapp 2002, In Vitro Cell Dev Biol Plant 37 742-747), батата (Egnin and Prakash 1997, In Vitro Cell Dev Biol 33 52A).

- Cодержание незаменимых аминокислот, например, как описано для канолы (Falco et al. 1995, Bio/Technology 13 577-582), Lupin (White et al. 2001, J Sci Food Agric 81 147-154), маиса (Lai and Messing, 2002, Agbios 2008 GM crop database (March 11, 2008)), картофеля (Zeh et al. 2001, Plant Physiol 127 792-802), сорго (Zhao et al. 2003, Kluwer Academic Publishers, Dordrecht, The Netherlands, pp 413-416), сои (Falco et al. 1995 Bio/Technology 13 577-582; Galili et al. 2002 Crit Rev Plant Sci 21 167-204).

- Масла и жирные кислоты, например, для канолы (Dehesh et al. (1996) Plant J 9 167-172 [PubMed] ; Del Vecchio (1996) INFORM International News on Fats, Oils and Related Materials 7 230-243; Roesler et al. (1997) Plant Physiol 113 75-81 [PMC free article] [PubMed]; Froman and Ursin (2002, 2003) Abstracts of Papers of the American Chemical Society 223 U35; James et al. (2003) Am J Clin Nutr 77 1140-1145 [PubMed]; Agbios (2008, выше); хлопчатника (Chapman et al. (2001). J Am Oil Chem Soc 78 941-947; Liu et al. (2002) J Am Coll Nutr 21 205S-211S [PubMed]; O'Neill (2007) Australian Life Scientist. http://www.biotechnews.com.au/index.php/id;866694817;fp;4;fpid;2 (June 17, 2008), льна (Abbadi et al., 2004, Plant Cell 16: 2734-2748), маиса (Young et al., 2004, Plant J 38 910-922), масличной пальмы (Jalani et al. 1997, J Am Oil Chem Soc 74 1451-1455; Parveez, 2003, AgBiotechNet 113 1-8), риса (Anai et al., 2003, Plant Cell Rep 21 988-992), сои (Reddy and Thomas, 1996, Nat Biotechnol 14 639-642; Kinney and Kwolton, 1998, Blackie Academic and Professional, London, pp 193-213), подсолнечника (Arcadia, Biosciences 2008).

- Углеводы, такие как фруктаны, описанные, например, для цикория (Smeekens (1997) Trends Plant Sci 2 286-287, Sprenger et al. (1997) FEBS Lett 400 355-358, Sévenier et al. (1998) Nat Biotechnol 16 843-846), маиса (Caimi et al. (1996) Plant Physiol 110 355-363), картофеля (Hellwege et al. ,1997 Plant J 12 1057-1065), сахарной свеклы (Smeekens et al. 1997, выше), инулин, например, как описано для картофеля (Hellewege et al. 2000, Proc Natl Acad Sci USA 97 8699-8704), крахмал, например, как описано для риса (Schwall et al. (2000) Nat Biotechnol 18 551-554, Chiang et al. (2005) Mol Breed 15 125-143),

- Витамины и каротиноиды, например, описанные для канолы (Shintani and DellaPenna (1998) Science 282 2098-2100), маиса (Rocheford et al. (2002). J Am Coll Nutr 21 191S-198S, Cahoon et al. (2003) Nat Biotechnol 21 1082-1087, Chen et al. (2003) Proc Natl Acad Sci USA 100 3525-3530), семени горчицы (Shewmaker et al. (1999) Plant J 20 401-412, картофеля (Ducreux et al., 2005, J Exp Bot 56 81-89), риса (Ye et al. (2000) Science 287 303-305, клубники (Agius et al. (2003), Nat Biotechnol 21 177-181 ), томата (Rosati et al. (2000) Plant J 24 413-419, Fraser et al. (2001) J Sci Food Agric 81 822-827, Mehta et al. (2002) Nat Biotechnol 20 613-618, Díaz de la Garza et al. (2004) Proc Natl Acad Sci USA 101 13720-13725, Enfissi et al. (2005) Plant Biotechnol J 3 17-27, DellaPenna (2007) Proc Natl Acad Sci USA 104 3675-3676.

- Функциональные вторичные метаболиты, например, описанные для яблони (стильбены, Szankowski et al. (2003) Plant Cell Rep 22: 141-149), люцерны (ресвератрол, Hipskind and Paiva (2000) Mol Plant Microbe Interact 13 551-562), киви (ресвератрол, Kobayashi et al. (2000) Plant Cell Rep 19 904-910), маиса и сои (флавоноиды, Yu et al. (2000) Plant Physiol 124 781-794), картофеля (антоцианин, алкалоид и гликозид, Lukaszewicz et al. (2004) J Agric Food Chem 52 1526-1533), риса (флавоноиды и ресвератрол, Stark-Lorenzen et al. (1997) Plant Cell Rep 16 668-673, Shin et al. (2006) Plant Biotechnol J 4 303-315), томата (+ресвератрол, хлорогеновая кислота, флавоноиды, стильбен; Rosati et al. (2000) выше, Muir et al. (2001) Nature 19 470-474, Niggeweg et al. (2004) Nat Biotechnol 22 746-754, Giovinazzo et al. (2005) Plant Biotechnol J 3 57-69), пшеницы (кофеиновая и феруловая кислоты, ресвератрол; United Press International (2002)); и

- доступность минеральных компонентов, например, как описано для люцерны (фитаза, Austin-Phillips et al. (1999) http://www.molecularfarming.com/nonmedical.html), салата-латука (железо, Goto et al. (2000) Theor Appl Genet 100 658-664), риса (железо, Lucca et al. (2002) J Am Coll Nutr 21 184S-190S), маиса, сои и пшеницы (фитаза, Drakakaki et al. (2005) Plant Mol Biol 59 869-880, Denbow et al. (1998) Poult Sci 77 878-881, Brinch-Pedersen et al. (2000) Mol Breed 6 195-206).

- В конкретных вариантах осуществления признак с дополнительным эффектом относится к предусмотренной пользе для здоровья соединений, присутствующих в растении. Например, в конкретных вариантах осуществления сельскохозяйственную культуру с дополнительным эффектом получают с помощью способов по настоящему изобретению для обеспечения модификации и/или индукции/повышения синтеза одного или нескольких из следующих соединений:

- каротиноиды, такие как α-каротин, присутствующие в моркови, нейтрализуют свободные радикалы, которые могут вызвать разрушение клеток, или β-каротин, присутствующий в различных плодах и овощах, который нейтрализует свободные радикалы.

- Лютеин, присутствующий в зеленых овощах, который способствует сохранению нормального зрения.

- Ликопин, присутствующий в томате и томатных продуктах, который, как считается, снижает риск возникновения рака предстательной железы.

- Зеаксантин, присутствующий в цитрусовых и маисе, который способствует сохранению нормального зрения.

- Пищевые волокна, такие как нерастворимые волокна, присутствующие в пшеничных отрубях, которые могут снижать риск возникновения рака молочной железы и/или колоректального рака, и β-глюкан, присутствующий в овсе, растворимые волокна, присутствующие в псиллуме и цельных зернах, которые могут снижать риск возникновения сердечно-сосудистого заболевания (CVD).

- Жирные кислоты, такие как ω-3 жирные кислоты, которые могут снижать риск возникновения CVD и улучшать умственные и зрительные функции, конъюгированная линолевая кислота, которая может улучшать состав тканей организма, может снижать риск возникновения определенных видов рака, и GLA, которая может снижать риск возникновения воспаления, рака и CVD, может улучшать состав организма.

- Флавоноиды, такие как гидроксициннаматы, присутствующие в пшенице, которые имеют активность, подобную антиоксидантной, могут снижать риск возникновения дегенеративных заболеваний, флавонолы, катехины и таннины, присутствующие в плодах и овощах, которые нейтрализуют свободные радикалы и могут снижать риск возникновения рака.

- Глюкозинолаты, индолы, изотиоцианаты, такие как сульфорафан, присутствующие в овощах семейства крестоцветных (брокколи, браунколь), редьке, которые нейтрализуют свободные радикалы, могут снижать риск возникновения рака.

- Фенольные смолы, такие как стильбены, присутствующие в винограде, которые могут снижать риск возникновения дегенеративных заболеваний, заболевания сердца и рака, могут влиять на продолжительность жизни, кофеиновая кислота и ферулиновая кислота, присутствующие в овощах и цитрусовых, которые имеют подобную антиоксидантной активность, могут снижать риск возникновения дегенеративных заболеваний, заболевания сердца и заболевания глаз, и эпикатехин, присутствующий в какао, который имеет подобную антиоксидантной активность, может снижать риск возникновения дегенеративных заболеваний и заболевания сердца.

- Растительные станолы/стеролы, присутствующие в маисе, сое, пшенице, и древесные смолы могут снижать риск возникновения коронарного заболевания сердца в результате снижения уровней холестерина в крови.

- Фруктаны, инулины, фруктоолигосахариды, присутствующие в топинамбуре, шалоте, луковом порошке, которые могут улучшить состояние желудочно-кишечного тракта.

- Сапонины, присутствующие в сое, которые могут снижать уровень холестерина LDL.

- Белок сои, присутствующий в сое, который может снижать риск возникновения заболевания сердца.

- Фитоэстрогены, такие как изофлавоны, присутствующие в сое, могут снижать симптомы менопаузы, такие как приливы, могут ослаблять остеопороз и CVD, и лигнаны, присутствующие во льне, ржи и овощах, которые могут защищать от заболевания сердца и некоторых видов рака, могут снижать уровень холестерина LDL, общего холестерина.

- Сульфиды и тиолы, такие как диаллилсульфид, присутствующие в луке, чесноке, маслине, луке-порее и зеленом луке, и аллилметилтрисульфид, дитиотионы, присутствующие в овощах семейства крестоцветные, которые могу снижать уровень холестерина LDL, способствуют поддержанию нормального состояния иммунной системы.

- Таннины, такие как проантоцианидины, присутствующие в клюкве, какао, которые могут улучшать состояние мочевыводящих путей, могут снижать риск возникновения CVD и повышенного кровяного давления

- и др.

- Кроме того, способы по настоящему изобретению также предусматривают модифицирование функциональных свойств белков/крахмалов, срока хранения, вкуса/эстетических характеристик, качества волокон, и признаков, связанных со снижением уровня аллергенов, антинутриентов и токсинов.

- Соответственно, настоящее изобретение охватывает способы получения растений с дополнительным питательным эффектом, при этом указанные способы включают введение в растительную клетку гена, кодирующего фермент, участвующий в образовании компонента с дополнительным питательным эффектом при помощи системы Cpf1 CRISPR, как описано в данном документе, и регенерацию растения из указанной растительной клетки, указанного растения, характеризующегося повышением экспрессии указанного компонента с дополнительным питательным эффектом. В конкретных вариантах осуществления систему Cpf1 CRISPR используют для модификации эндогенного синтеза этих соединений опосредованно, например при помощи модификации одного или нескольких факторов транскрипции, которые контролируют метаболизм этого соединения. Способы введения представляющего интерес гена в растительную клетку и/или модификации эндогенного гена при помощи системы Cpf1 CRISPR описаны в данном документе выше.

- Некоторые конкретные примеры модификаций в растениях, которые были модифицированы для придания признаков с дополнительным эффектом, представляют собой растения с модифицированным метаболизмом жирных кислот, например с помощью трансформации растения антисмысловым геном стеарил-ACP-десатуразы с целью повышения содержания стеариновой кислоты в растении. См. Knultzon et al., Proc. Natl. Acad. Sci. U.S.A. 89:2624 (1992). Другой пример включает снижение содержания фитата, например с помощью клонирования и последующего введения ДНК, связанной с одним аллелем, который может отвечать за мутанты маиса, характеризующиеся низким содержанием фитиновой кислоты. См. Raboy et al, Maydica 35:383 (1990).

- Аналогично экспрессия Tfs C1 и R маиса (Zea mays), которые регулируют образование флавоноидов в алейроновых слоях маиса под контролем сильного промотора, приводила к высокой скорости накопления антоцианинов в арабидопсисе (Arabidopsis thaliana), предположительно в результате активации всего пути (Bruce et al., 2000, Plant Cell 12:65-80). DellaPenna (Welsch et al., 2007 Annu Rev Plant Biol 57: 711-738) обнаружил, что Tf RAP2.2 и его взаимодействующий элемент SINAT2 повышали каротиногенез в листьях арабидопсиса. Экспрессия Tf Dof1 индуцировала повышение экспрессии генов, кодирующих ферменты для образования углеродных скелетов, выраженное повышение содержания аминокислот и снижение уровня Glc в трансгенном арабидопсисе (Yanagisawa, 2004 Plant Cell Physiol 45: 386-391), а DOF Tf AtDof1.1 (OBP2) активировал все стадии в пути биосинтеза глюкозинолата в арабидопсисе (Skirycz et al., 2006 Plant J 47: 10-24).

Снижение аллергенов в растениях

- В конкретных вариантах осуществления способы, предусмотренные в данном документе, применяют для получения растений со сниженным уровнем аллергенов, делая их более безопасными для потребителя. В конкретных вариантах осуществления способы предусматривают модификацию экспрессии одного или нескольких генов, ответственных за образование растительных аллергенов. Например, в конкретных вариантах осуществления способы предусматривают снижение экспрессии гена Lol p5 в растительной клетке, такой как растительная клетка райграса, и регенерацию из нее растения, с целью снижения аллергенности пыльцы указанного растения (Bhalla et al. 1999, Proc. Natl. Acad. Sci. USA Vol. 96: 11676-11680).

Аллергические реакции на арахис и аллергические реакции на бобовые растения, как правило, являются реальной и серьезной проблемной для здоровья. Система эффекторного белка Cpf1 по настоящему изобретению может быть использована для выявления и последующего редактирования или сайленсинга генов, кодирующих аллергенные белки таких бобовых растений. Не ограничиваясь такими генами и белками, Nicolaou et al. выявили аллергенные белки в арахисе, сое, чечевице, горохе, люпине, зеленой фасоли и золотистой фасоли. См. Nicolaou et al., Current Opinion in Allergy and Clinical Immunology 2011;11(3):222).

Способы скрининга представляющих интерес эндогенных генов

- Способы, предусмотренные в данном документе, дополнительно обеспечивают выявление ценных генов, кодирующих ферменты, участвующие в образовании компонента с дополнительным питательным эффектом, или в целом генов, влияющих на представляющие интерес агрономические признаки, в пределах вида, типа и растительного царства. В результате избирательного нацеливания, например на гены, кодирующие ферменты метаболических путей в растениях при помощи системы Cpf1 CRISPR, как описано в данном документе, могут быть идентифицированы гены, ответственные за определенные питательные аспекты растения. Аналогично в результате избирательного нацеливания на гены, которые могут влиять на желаемый агрономический признак, могут быть идентифицированы соответствующие гены. Соответственно, настоящее изобретение охватывает способы скрининга генов, кодирующих ферменты, участвующие в образовании соединений с определенной пищевой ценностью и/или агрономическими признаками.

Дополнительные варианты применения системы Cpf1 CRISPR в растениях и дрожжах

Применение системы Cpf1 CRISPR в получении биотоплива

- Термин "биотопливо", как используется в данном документе, представляет собой альтернативное топливо, полученное из растительных ресурсов или ресурсов растительного происхождения. Восполняемые виды биотоплива могут быть экстрагированы из органического вещества, энергия которого была получена в процессе фиксации углерода, или получены в результате использования или превращения биомассы. Эта биомасса может быть использована непосредственно для видов биотоплива или может быть превращена в удобные содержащие энергию вещества с помощью теплового превращения, химического превращения или биохимического превращения. Это превращение биомассы может приводить к образованию топлива в твердой, жидкой или газообразной форме. Существует два типа биотоплива: биоэтанол и биодизель. Биоэтанол образуется главным образом в результате процесса сбраживания сахаров из целлюлозы (крахмала), которую преимущественно получают из маиса и сахарного тростника. Биодизель, с другой стороны, главным образом образуется из масляных сельскохозяйственных культур, таких как семена рапс, пальма и соя. Биотоплива используют главным образом для транспортных средств.

Улучшение свойств растений для получения биотоплива

- В конкретных вариантах осуществления способы с использованием системы Cpf1 CRISPR, как описано в данном документе, применяют для изменения свойств клеточной стенки с целью облегчения доступа при помощи основных гидролизующих средств для более эффективного высвобождения сахаров для сбраживания. В конкретных вариантах осуществления модифицируют биосинтез целлюлозы и/или лигнина. Целлюлоза является основным компонентом клеточной стенки. Биосинтез целлюлозы и лигнина регулируют одновременно. При снижении доли лигнина в растении доля целлюлозы может быть повышена. В конкретных вариантах осуществления способы, описанные в данном документе, используют для снижения биосинтеза лигнина в растении с целью повышения содержания сбраживаемых углеводов. В частности, способы, описанные в данном документе, используют для снижения экспрессии по меньшей мере первого гена биосинтеза лигнина, выбранного из группы, состоящей из 4-кумарат 3-гидроксилазы (C3H), фенилаланин аммонийлиазы (PAL), циннамат 4-гидроксилазы (C4H), гидроксициннамоилтрансферазы (HCT), О-метилтрансферазы кофеиновой кислоты (COMT), кафеол CoA 3-O-метилтрансферазы (CCoAOMT), ферулат 5-гидроксилазы (F5H), циннамилалкогольдегидрогеназы (CAD), циннамоил CoA-редуктазы (CCR), 4-кумарат-CoA лигазы (4CL), монолигнол-лигнин-специфичной гликозилтрансферазы и альдегиддегидрогеназы (ALDH), как раскрыто в WO 2008064289 A2.

- В конкретных вариантах осуществления способы, описанные в данном документе, применяют для получения растительной массы, которая приводит к образованию более низких уровней уксусной кислоты во время сбраживания (см. также WO 2010096488). В частности, способы, раскрытые в данном документе, используют для получения мутаций в гомологах CaslL с целью снижения ацетилирования полисахаридов.

Модификация дрожжей для получения биотоплива

- В конкретных вариантах осуществления фермент Cpf1, предусмотренный в данном документе, используют для получения биотоплива при помощи рекомбинантных микроорганизмов. Например, Cpf1 может быть использован для конструирования микроорганизмов, таких как дрожжи, с целью получения биотоплива или биополимеров из сбраживаемых сахаров и необязательно способности к разрушению лигноцеллюлозы растительного происхождения, полученной из остатков сельскохозяйственного производства, в качестве источника сбраживаемых сахаров. В частности, настоящее изобретение предусматривает способы, в которых применяют комплекс Cpf1 CRISPR для введения чужеродных генов, требуемых для получения биотоплива, в микроорганизмы, и/или для модификации эндогенных генов, которые могут нарушать синтез биотоплива. В частности, способы включают введение в микроорганизм, такой как дрожжи, одной или нескольких нуклеотидных последовательностей, кодирующих ферменты, участвующие в превращении пирувата в этанол или другой представляющий интерес продукт. В конкретных вариантах осуществления способы предусматривают введение одного или нескольких ферментов, которые способствуют разрушению микроорганизмом целлюлозы, такого как целлюлаза. В еще одних дополнительных вариантах осуществления комплекс Cpf1 CRISPR применяют для модификации эндогенных метаболических путей, которые конкурируют с путем образования биотоплива.

- Соответственно, в более конкретных вариантах осуществления способы, описанные в данном документе, применяют для модификации микроорганизма следующим образом:

- введения по меньшей мере одной гетерологичной нуклеиновой кислоты или повышения экспрессии по меньшей мере одной эндогенной нуклеиновой кислоты, кодирующей фермент для разрушения растительной клеточной стенки, таким образом, что указанный микроорганизм способен экспрессировать указанную нуклеиновую кислоту и продуцировать и секретировать указанный фермент для разрушения растительной клеточной стенки;

- введения по меньшей мере одной гетерологичной нуклеиновой кислоты или повышения экспрессии по меньшей мере одной эндогенной нуклеиновой кислоты, кодирующей фермент, который превращает пируват в ацетальдегид, необязательно в сочетании по меньшей мере с одной гетерологичной нуклеиновой кислотой, кодирующей фермент, который превращает ацетальдегид в этанол, таким образом, что указанная клетка-хозяин способна экспрессировать указанную нуклеиновую кислоту; и/или

- модификации по меньшей мере одной нуклеиновой кислоты, кодирующей фермент в метаболическом пути в указанной клетке-хозяине, где указанный путь приводит к образованию метаболита, отличного от ацетальдегида, из пирувата или этанола из ацетальдегида, и где указанная модификация приводит к уменьшенному образованию указанного метаболита, или введения по меньшей мере одной нуклеиновой кислоты, кодирующей ингибитор указанного фермента.

Модификация водорослей и растений для получения растительных масел или видов биотоплива

- Трансгенные водоросли или другие растения, такие как рапс, могут быть особенно полезными в производстве растительных масел или таких видов биотоплива, как, например, спирты (особенно метанол и этанол). Они могут быть сконструированы для синтеза или избыточного синтеза масла или спиртов на высоких уровнях для применения в масложировой или биотопливной промышленности.

- В соответствии с конкретными вариантами настоящего изобретения систему Cpf1 CRISPR используют для получения диатомовых водорослей с высоким содержанием липидов, которые применимы в получении биотоплива.

- В конкретных вариантах осуществления предусмотрено специфично модифицировать гены, которые вовлечены модификацию количества липидов и/или качества липидов, образованных клеткой водорослей. Примеры генов, кодирующих ферменты, участвующие в путях синтеза жирных кислот, могут кодировать белки, имеющие, например, активность ацетил-CoA карбоксилазы, синтазы жирных кислот, 3-кетоацил-синтазы III ацил-белка переносчика, глицерол-3-фосфатдегидрогеназы (G3PDH), еноил-ацил-редуктазы белка-переносчика (еноил-ACP-редуктазы), глицерол-3-фосфатацилтрансферазы, лизофосфатидин ацилтрансферазы или диацилглицеролацилтрансферазы, фосфолипид:диацилглицеролацилтрансферазы, фосфатидинфосфатазы, тиоэстеразы жирной кислоты, такой как пальмитоилпротеинтиоэстеразы, или малатдегидрогеназы. В дополнительных вариантах осуществления предусмотрено получение диатомовых водорослей, которые характеризуются повышенным накоплением липидов. Это может быть достигнуто с помощью нацеливания на гены, которые снижают катаболизм липидов. Особого интереса для применения в способах по настоящему изобретению заслуживают гены, участвующие в активации триглицерола и свободных жирных кислот, а также генов, непосредственно участвующих в β-окислении жирных кислот, таких как ацил-CoA синтетаза, 3-кетоацил-CoA тиолаза, ацил-CoA оксидаза и фосфоглюкомутаза. Система Cpf1 CRISPR и способы, описанные в данном документе, могут быть использованы для специфической активации таких генов в диатомовых водорослях с целью повышения содержания в них липидов.

- Организмы, такие как микроводоросли, широко используют для синтетической биологии. Stovicek et al. (Metab. Eng. Comm., 2015; 2:13 описывает редактирование генома промышленных дрожжей, например Saccharomyces cerevisae, для эффективного получения устойчивых штаммов для промышленного производства. Stovicek использовал систему CRISPR-Cas9, кодон-оптимизированную для дрожжей с целью одновременного разрушения обоих аллелей эндогенного гена и нокина гетерологичного гена. Cas9 и РНК экспрессировали из геномных или эписомальных 2 мкм положений векторов. Авторы также показали, что эффективность нарушения гена можно было повысить при помощи оптимизации уровней экспрессии Cas9 и gRNA. Hlavová et al. (Biotechnol. Adv. 2015) описывают создание видов или штаммов микроводорослей при помощи методик, таких как CRISPR, для нацеливания на ядерные гены и гены хлоропластов с целью инсерционного мутагенеза и тестирования. Способы по Stovicek and Hlavová могут быть применимы в отношении системы эффекторного белка Cpf1 по настоящему изобретению.

- В US 8945839 описан способ конструирования микроводорослей (виды клеток Chlamydomonas reinhardtii) при помощи Cas9. При помощи аналогичных средств способы системы Cpf1 CRISPR, описанной в данном документе, могут быть применимы по отношению к виду Chlamydomonas и другим водорослям. В конкретных вариантах осуществления Cpf1 и направляющую РНК вводят в синтезирующие водоросли при помощи вектора, который экспрессирует Cpf1 под контролем конститутивного промотора, такого как промотор Hsp70A-Rbc S2 или промотор бета 2-тубулина. Направляющую РНК будут доставлять при помощи вектора, содержащего промотор T7. Альтернативно мРНК Cpf1 и in vitro транскрибируемая направляющая РНК могут быть доставлены в клетки водорослей. Протокол электропорации cоответствует стандартному рекомендованному протоколу для набора GeneArt Chlamydomonas Engineering kit.

Применение Cpf1 при получении микроорганизмов, способных к образованию жирных кислот

- В конкретных вариантах осуществления способы по настоящему изобретению применяют для получения генетически модифицированных микроорганизмов, способных к продуцированию жирных сложных эфиров, таких как метиловые сложные эфиры жирных кислот ("FAME") и этиловые сложные эфиры жирных кислот ("FAEE").

- Как правило, клетки-хозяева могут быть сконструированы таким образом, чтобы образовывать жирные сложные эфиры из источника углерода, такого как спирт, присутствующий в среде, в результате экспрессии или сверхэкспрессии гена, кодирующего тиоэстеразу, гена, кодирующего ацил-CoA синтазу, и гена, кодирующего синтазу сложных эфиров. Соответственно, способы, предусмотренные в данном документе, применяют для модификации микроорганизмов с целью сверхэкспрессии или введения гена тиоэстеразы, гена, кодирующего ацит-CoA синтазу и гена, кодирующего синтазу сложных эфиров. В конкретных вариантах осуществления ген тиоэстеразы выбран из tesA, 'tesA, tesB, fatB, fatB2, fatB3, fatAl или fatA. В конкретных вариантах осуществления ген, кодирующий ацил-CoA синтазу, выбран из fadDJadK, BH3103, pfl-4354, EAV15023, fadDl, fadD2, RPC_4074,fadDD35, fadDD22, faa39 или идентифицированного гена, кодирующего фермент, имеющий те же самые свойства. В конкретных вариантах осуществления ген, кодирующий синтазу сложных эфиров, представляет собой ген, кодирующий синтазу/ацил-CoA:диацилглицерилацилтрансферазу из Simmondsia chinensis, Acinetobacter sp. ADP, Alcanivorax borkumensis, Pseudomonas aeruginosa, Fundibacter jadensis, Arabidopsis thaliana или Alkaligenes eutrophus или их вариантов.

- Дополнительно или альтернативно способы, предусмотренные в данном документе, применяют для снижения экспрессии в указанном микроорганизме по меньшей мере одного гена, кодирующего ацил-CoA дегидрогеназу, гена, кодирующего рецептор белка наружной мембраны, и гена, кодирующего регулятор транскрипции биосинтеза жирных кислот. В конкретных вариантах осуществления один или несколько генов являются инактивированными, например, с помощью введения мутации. В конкретных вариантах осуществления ген, кодирующий ацил-CoA дегидрогеназу, представляет собой fadE. В конкретных вариантах осуществления ген, кодирующий регулятор транскрипции биосинтеза жирных кислот, кодирует репрессор транскрипции ДНК, например fabR.

- Дополнительно или альтернативно указанный микроорганизм модифицируют с целью снижения экспрессии по меньшей мере одного гена, кодирующего пируватформатлиазу, гена, кодирующего лактатдегидрогеназу, или их обоих. В конкретных вариантах осуществления ген, кодирующий пируватформатлиазу, представляет собой pflB. В конкретных вариантах осуществления ген, кодирующий лактатдегидрогеназу, представляет собой IdhA. В конкретных вариантах осуществления один или несколько генов являются инактивированными, например, с помощью введения в них мутации.

- В конкретных вариантах осуществления микроорганизм выбирают из рода Escherichia, Bacillus, Lactobacillus, Rhodococcus, Synechococcus, Synechoystis, Pseudomonas, Aspergillus, Trichoderma, Neurospora, Fusarium, Humicola, Rhizomucor, Kluyveromyces, Pichia, Mucor, Myceliophtora, Penicillium, Phanerochaete, Pleurotus, Trametes, Chrysosporium, Saccharomyces, Stenotrophamonas, Schizosaccharomyces, Yarrowia, или Streptomyces.

Применение Cpf1 в получении микроорганизмов, способных к продуцированию органических кислот

- Способы, предусмотренные в данном документе, дополнительно применяют для конструирования микроорганизмов, способных к продуцированию органических кислот, в частности из пентозы или гексозных сахаров. В конкретных вариантах осуществления способы предусматривают введение в микроорганизм эндогенного гена LDH. В конкретных вариантах осуществления продуцирование органических кислот в указанных микроорганизмах дополнительно или альтернативно повышается при инактивации эндогенных генов, кодирующих белки, участвующие в эндогенном метаболическом пути, который приводит к образованию метаболита, отличного от представляющей интерес органической кислоты, и/или в случае, когда в эндогенном метаболическом пути потребляется органическая кислота. В конкретных вариантах осуществления модификация обеспечивает снижение образования метаболита, отличного от представляющей интерес органической кислоты. В соответствии с конкретными вариантами осуществления применяют способы для введения по меньшей мере одной сконструированной делеции гена и/или инактивации эндогенного пути, в котором органическая кислота потребляется, или гена, кодирующего продукт, участвующий в эндогенном пути, который приводит к образованию метаболита, отличного от представляющей интерес органической кислоты. В конкретных вариантах осуществления по меньшей мере одна сконструированная делеция или инактивация гена находится в одном или нескольких генах, кодирующих фермент, выбранный из группы, состоящей из пируватдекарбоксилазы (pdc), фумаратредуктазы, алкогольдегидрогеназы (adh), ацетальдегиддегидрогеназы, фосфоенолпируваткарбоксилазы (ppc), D-лактатдегидрогеназы (d-ldh), L-лактатдегидрогеназы (l-ldh), лактат-2-монооксигеназы.

- В дополнительных вариантах осуществления по меньшей мере одна сконструированная делеция и/или инактивация гена находятся в эндогенном гене, кодирующем пируватдекарбоксилазу (pdc).

- В дополнительных вариантах осуществления микроорганизм конструируют с образованием молочной кислоты, и по меньшей мере одна сконструированная делеция гена и/или инактивация находятся в эндогенном гене, кодирующем лактатдегидрогеназу. Дополнительно или альтернативно микроорганизм содержит по меньшей мере одну сконструированную делецию гена или инактивацию эндогенного гена, кодирующего цитохром-зависимую лактатдегидрогеназу, такую как цитохром B2-зависимая L-лактатдегидрогеназа.

Применение Cpf1 при получении улучшенных штаммов дрожжей, утилизирующих ксилозу и целлобиозу

- В конкретных вариантах осуществления система Cpf1 CRISPR может быть применима для выбора улучшенных штаммов дрожжей, утилизирующих ксилозу или целлобиозу. ПЦР сниженной точности может быть использована для амплификации одного (или нескольких) генов, вовлеченных в пути утилизации ксилозы или целлобиозы. Примеры генов, участвующих в путях утилизации ксилозы и путях утилизации целлобиозы, могут включать без ограничения описанные в Ha, S.J., et al. (2011) Proc. Natl. Acad. Sci. USA 108(2):504-9 и Galazka, J.M., et al. (2010) Science 330(6000):84-6. Полученные библиотеки молекул двухнитевых ДНК, каждая из которых содержит случайную мутацию в таком определенном гене, могли быть котрансформированы компонентами системы Cpf1 CRISPR в штамм дрожжей (например, S288C) и могут быть отобраны штаммы с повышенной способностью к утилизации ксилозы или целлобиозы, как описано в WO2015138855.

Применение Cpf1 при получении улучшенных штаммов дрожжей для использования при биосинтезе изопреноидов

- Tadas Jakočiūnas et al. описали успешное применение мультиплексной системы CRISPR/Cas9 для конструирования генома из различных локусов генома в количестве до 5 на одной стадии трансформации в пекарских дрожжах Saccharomyces cerevisiae (Metabolic Engineering Volume 28, March 2015, Pages 213-222), при этом были получены штаммы с высокой продукцией мевалоната, ключевого посредника для важного в промышленности пути биосинтеза изопреноидов. В конкретных вариантах осуществления система Cpf1 CRISPR может быть применена в способе конструирования мультиплексного генома, как описано в данном документе, для идентификации дополнительных высокопродуктивных штаммов дрожжей для применения в синтезе изопреноидов.

Применение Cpf1 при получении штаммов дрожжей, продуцирующих молочную кислоту

- В другом варианте осуществления охватывается успешное применение мультиплексной системы Cpf1 CRISPR. По аналогии с Vratislav Stovicek et al. (Metabolic Engineering Communications, Volume 2, December 2015, Pages 13-22) улучшенные штаммы, продуцирующие молочную кислоту, могут быть разработаны и получены в одном событии трансформации. В конкретном варианте осуществления систему Cpf1 CRISPR применяют для одновременной вставки гетерологичного гена лактатдегидрогеназы и разрыва двух эндогенных генов PDC1 и PDC5.

Дополнительные варианты применения системы Cpf1 CRISPR в растениях

- В конкретных вариантах осуществления система CRISPR и предпочтительно система Cpf1 CRISPR, описанные в данном документе, могут быть использованы для визуализации динамики генетических элементов. Например, с помощью отображения CRISPR можно визуализировать как повторяющиеся, так и неповторяющиеся геномные последовательности, описывать изменение длины теломеров и движения теломеров и контролировать динамику генных локусов во время клеточного цикла (Chen et al., Cell, 2013). Эти способы могут быть применимы к растениям.

- Другие варианты применения системы CRISPR и предпочтительно системы Cpf1 CRISPR, описанной в данном документе, предусматривают скрининг относительно позитивной селекции разрушения целевого гена in vitro и in vivo (Malina et al., Genes and Development, 2013). Эти способы могут быть применимы к растениям.

- В конкретных вариантах осуществления слияние неактивных эндонуклеаз Cpf1 с модифицирующими гистоны ферментами может вводить специфические изменения в сложном эпигеноме (Rusk et al., Nature Methods, 2014). Эти способы могут быть применимы к растениям.

- В конкретных вариантах осуществления система CRISPR и предпочтительно система Cpf1 CRISPR, описанная в данном документе, могут быть использованы для очистки конкретной части хроматина и выявления ассоциированных белков, при этом устанавливается их регуляторная роль в транскрипции (Waldrip et al., Epigenetics, 2014). Эти способы могут быть применимы к растениям.

- В конкретных вариантах осуществления настоящее изобретение может быть использовано в качестве терапии для удаления вируса в растительных системах, поскольку можно расщеплять как вирусную ДНК, так и РНК. Предыдущие исследования в человеческих системах показали успех применения CRISPR при нацеливании на содержащий однонитевую РНК вирус гепатита С (A. Price, et al., Proc. Natl. Acad. Sci, 2015), а также на содержащий двухнитевую ДНК вирус гепатита B (V. Ramanan, et al., Sci. Rep, 2015). Эти способы могут быть адаптированы для применения системы Cpf1 CRISPR у растений.

- В конкретных вариантах осуществления настоящее изобретение могло бы быть применимо для изменения вариабельности генома. В дополнительных конкретных вариантах осуществления система CRISPR и предпочтительно система Cpf1 CRISPR, описанная в данном документе, могут быть использованы для нарушения или изменения числа хромосом и получения гаплоидных растений, которые содержат хромосомы только от одного родителя. Такие растения могут быть индуцированы с целью осуществления хромосомной дупликации и превращены в диплоидные растения, содержащие только гомозиготные аллели (Karimi-Ashtiyani et al., PNAS, 2015; Anton et al., Nucleus, 2014). Эти способы могут быть применимы к растениям.

- В конкретных вариантах осуществления система Cpf1 CRISPR, описанная в данном документе, может быть использована для саморасщепления. В этих вариантах осуществления промотор фермента Cpf1 и gRNA могут представлять собой конститутивный промотор, а вторую gRNA вводят в ту же самую кассету трансформации, но контролируют при помощи индуцибельного промотора. Эта вторая gRNA может быть сконструирована с целью индукции сайт-специфического расщепления в гене Cpf1 с получением нефункционального Cpf1. В дополнительном конкретном варианте осуществления вторая gRNA индуцирует расщепление на обоих концах кассеты для трансформации, приводя к удалению кассеты из генома хозяина. Эта система обеспечивает контролируемую продолжительность воздействия на клетку фермента Cas и дополнительно сводит к минимуму нецелевое редактирование. Кроме того, расщепление обоих концов кассеты CRISPR/Cas может быть использовано для получения не содержащих трансгенов растений T0 с биаллельными мутациями (как описано для Cas9, например, Moore et al., Nucleic Acids Research, 2014; Schaeffer et al., Plant Science, 2015). Способы из публикации Moore et al. могут быть применены по отношению к системам Cpf1 CRISPR, описанным в данном документе. Sugano et al. (Plant Cell Physiol. 2014 Mar;55(3):475-81. doi: 10.1093/pcp/pcu014. Epub 2014 Jan 18) описывают применение CRISPR-Cas9 по отношению к направленному мутагенезу в печеночном мхе Marchantia polymorpha L., который стал модельным видом для изучения эволюции наземных растений. Промотор U6 M. polymorpha был идентифицирован и клонирован с целью экспрессии gRNA. Целевая последовательность gRNA была разработана с целью нарушения работы гена, кодирующего фактор 1 ответа на ауксин (ARF1) в M. polymorpha. С помощью опосредованной Agrobacterium трансформации Sugano et al. выделили стабильные мутанты в поколении гаметофита M. polymorpha. Сайт-направленный мутагенез на основе CRISPR-Cas9 in vivo был достигнут при помощи вируса 35S мозаики цветной капусты или промотора EF1α M. polymorpha для экспрессии Cas9. Выделенные мутантные особи, проявляющие устойчивый к ауксину фенотип, не были химерными. Кроме того, стабильные мутанты были получены с помощью бесполого размножения растений T1. Несколько аллелей arf1 были легко определены при помощи направленного мутагенеза на основе CRIPSR-Cas9. Способы из публикации Sugano et al. могут быть применимы в отношении системы эффекторного белка Cpf1 по настоящему изобретению.

- Kabadi et al. (Nucleic Acids Res. 2014 Oct 29;42(19):e147. doi: 10.1093/nar/gku749. Epub 2014 Aug 13) разработали одиночную лентивирусную систему с экспрессией варианта Cas9, репортерного гена и до четырех sgRNA включительно из независимых промоторов РНК-полимеразы III, которые включены в вектор с помощью удобного способа клонирования Golden Gate. Каждая sgRNA эффективно экспрессировала и могла опосредовать мультиплексное редактирование генов и длительную активацию транскрипции в иммортализованных и первичных клетках человека. Способы из публикации Kabadi et al. могут быть применимы в отношении системы эффекторного белка Cpf1 по настоящему изобретению.

- Ling et al. (BMC Plant Biology 2014, 14:327) разработали набор бинарных векторов CRISPR-Cas9 на основе каркаса pGreen или pCAMBIA, а также gRNA. Для этого набора инструментов не требуются рестриктазы помимо BsaI для получения конечных конструкций, несущих оптимизированный по кодону маиса Cas9 и одну или несколько gRNA с высокой эффективностью лишь в одной стадии клонирования. Набор инструментов был валидирован с помощью протопластов маиса, линий трансгенного маиса и линий трансгенного арабидопсиса, и, как было показано, характеризовался высокой эффективностью и специфичностью. Что более важно, с помощью этого набора инструментов целевые мутации трех генов арабидопсиса были выявлены в трансгенных сеянцах поколения T1. Кроме того, несколько мутаций генов могли быть унаследованы следующим поколением. (Направляющая РНК) набор модульных векторов, как и набор инструментов для мультиплексного редактирования генома у растений. Набор инструментов из публикации Lin et al. может быть применим в отношении системы эффекторного белка Cpf1 по настоящему изобретению.

- Протоколы для целевого редактирования генома растений посредством CRISP-Cpf1 также доступны на основе раскрытых для системы CRISPR-Cas9 в томе 1284 серии в Methods in Molecular Biology pp 239-255 от 10 февраля 2015 г. Описана подробная процедура разработки, конструирования и оценки двойных gRNA для оптимизированного по кодону растений опосредованного Cas9 (pcoCas9) редактирования генома при помощи клеточных систем на основе модели протопластов Arabidopsis thaliana и Nicotiana benthamiana. Стратегии применения системы CRISPR-Cas9 с целью получения целевых модификаций генома в целых растениях также описаны. Протоколы, описанные в этой главе, могут быть применены по отношению к эффекторному белку Cpf1 по настоящему изобретению.

Petersen ("Towards precisely glycol engineered plants," Plant Biotech Denmark Annual meeting 2015, Copenhagen, Denmark) разработал способ применения CRISPR/Cas9 для конструирования геномных изменений в арабидопсисе, например, глико-конструирования арабидопсиса для получения белков и продуктов, имеющий желаемые посттрансляционные модификации. Hebelstrup et al. (Front Plant Sci. 2015 Apr 23; 6:247) описывает биоинженерию крахмала в растениях, предусматривающую сельскохозяйственные культуры, которые экспрессируют модифицирующие крахмал ферменты и непосредственно дают продукты, которые обычно изготовлены с помощью промышленных химических и/или физических способов обработки крахмалов. Способы по Petersen and Hebelstrup могут быть применимы в отношении системы эффекторного белка Cpf1 по настоящему изобретению.

- Ma et al. (Mol Plant. 2015 Aug 3;8(8):1274-84. doi: 10.1016/j.molp.2015.04.007) описывают устойчивую векторную систему CRISPR-Cas9, используя оптимизированный по кодону растения ген Cas9, для удобного и высокоэффективного мультиплексного редактирования генома в однодольных и двудольных растениях. Ma et al. разработали процедуры на основе ПЦР для быстрого получения нескольких кассет экспрессии sgRNA, которые могут быть собраны в бинарные векторы CRISPR-Cas9 в одном цикле клонирования при помощи лигирования Golden Gate или сборки Gibson. С помощью этой системы Ma et al. редактировали 46 целевых сайтов у риса со средней скоростью мутации, составляющей 85,4%, большей частью в биаллельном и гомозиготном статусе. Ma et al. предложили примеры мутаций генов с потерей функции в растениях риса T0 и растениях арабидопсиса T1 при помощи одновременного нацеливания на несколько (до восьми) представителей семейства генов, несколько генов в пути биосинтеза или нескольких сайтов в одном гене. Способы по Ma et al. могут быть применимы в отношении системы эффекторного белка Cpf1 по настоящему изобретению.

- Lowder et al. (Plant Physiol. 2015 Aug 21. pii: pp.00636.2015) также разработали набор инструментов CRISPR-Cas9, который обеспечивает мультиплексное редактирование генома и регуляцию транскрипции экспрессируемых, выключенных или некодирующих генов в растениях. Этот набор инструментов обеспечивает исследователей протоколом и реагентами для быстрой и эффективной сборки функциональных конструкций T-ДНК CRISPR-Cas9 для однодольных и двудольных при помощи способов клонирования Golden Gate и Gateway. Он поставляется вместе с полным набором возможностей, в том числе мультиплексного редактирования генов и активации или репрессии транскрипции эндогенных генов растений. Технология трансформации на основе T-ДНК является фундаментальной для современной биотехнологии, генетики, молекулярной биологии и физиологии растений. В связи с этим заявители разработали способ сборки Cas9 (WT, никаза или dCas9) и gRNA в представляющий интерес принимающий вектор T-ДНК. Способ сборки основан на сборке Golden Gate и рекомбинации MultiSite Gateway. Для сборки требуется три модуля. Первый модуль представляет собой входящий вектор Cas9, который содержит Cas9 без промотора или его производные гены, фланкированные сайтами attL1 и attR5. Второй модуль представляет собой входящий вектор gRNA, который содержит входящие кассеты экспрессии на основе gRNA, фланкированные сайтами attL5 и attL2. Третий модуль включает attR1-attR2-содержащие векторы назначения T-ДНК, которые предусматривают предпочтительные промоторы для экспрессии Cas9. Набор инструментов из публикации Lowder et al. может быть применим в отношении системы эффекторного белка Cpf1 по настоящему изобретению.

- В предпочтительном варианте осуществления растение может представлять собой дерево. В настоящем изобретении может также применяться раскрытая в данном документе система CRISPR Cas для систем на основе травянистых растений (см., например, Belhaj et al., Plant Methods 9: 39 and Harrison et al., Genes & Development 28: 1859-1872). В особо предпочтительном варианте осуществления система CRISPR Cas по настоящему изобретению может быть направлена на однонуклеотидный полиморфизм (SNP) у деревьев (см., например, Zhou et al., New Phytologist, Volume 208, Issue 2, pages 298-301, October 2015). В исследовании Zhou et al. авторы применяли систему CRISPR Cas для древовидного многолетнего Populus в случае семейства генов 4-кумарат:лигаза CoA (4CL) в качестве примера применения и достигли 100% мутационной эффективности для двух целевых генов 4CL, при этом каждый исследуемый трансформант нес биаллельные модификации. В исследовании Zhou et al. система CRISPR-Cas9 была высокочувствительной по отношению к однонуклеотидным полиморфизмам (SNP), поскольку расщепление для третьего гена 4CL было отменено в результате SNP в целевой последовательности. Эти способы могут быть применимы в отношении системы эффекторного белка Cpf1 по настоящему изобретению.

- Способы Zhou et al. (New Phytologist, Volume 208, Issue 2, pages 298-301, October 2015) могут быть применены по отношению к настоящему изобретению следующим образом. Два гена 4CL, 4CL1 и 4CL2, ассоциированные с биосинтезом лигнина и флавоноидов соответственно, являются мишенями для редактирования с помощью CRISPR-Cas9. Клон 717-1B4 Populus tremula × alba, обычно используемый для трансформации, отличается от Populus trichocarpa с секвенированным геномом. Таким образом, gRNA 4CL1 и 4CL2, разработанные исходя из эталонного генома, детально исследуют в соответствии с внутренними данными секвенирования РНК 717 с целью обеспечения отсутствия SNP, которые могли бы ограничить эффективность Cas. Также включена третья gRNA, разработанная для 4CL5, геномной дупликации 4CL1. Соответствующая последовательность 717 содержит один SNP в каждом аллеле возле/в PAM, оба из которых, как предполагается, устраняют нацеливание со стороны 4CL5-gRNA. Все три целевые сайта gRNA расположены в первом экзоне. Для трансформации последовательности 717 gRNA экспрессируется из промотора Medicago U6.6 совместно с кодон-оптимизированным Cas человека под контролем промотора CaMV 35S в бинарном векторе. Трансформация вектором, содержащим только Cas, может выступать в качестве контроля. Случайным образом выбранные линии 4CL1 и 4CL2 подвергают секвенированию ампликонов. Затем данные обрабатывают и биаллельные мутации подтверждают во всех случаях. Эти способы могут быть применимы в отношении системы эффекторного белка Cpf1 по настоящему изобретению.

- У растений патогены часто являются специфичными по отношению к хозяину. Например, Fusarium oxysporum f. sp. lycopersici вызывает фузариозный вилт томата, но поражает только томат, а F. oxysporum f. dianthii и Puccinia graminis f. sp. tritici поражают только пшеницу. Растения обладают присущими и индуцированными защитными реакциями, обеспечивающими устойчивость к большинству патогенов. Мутации и события рекомбинации в поколениях растений приводят к генетической изменчивости, которая обуславливает восприимчивость, тем более, что патогены размножаются с большей частотой, чем растения. У растений может наблюдаться устойчивость видов, не относящихся к хозяевам, например хозяин и патоген являются несовместимыми. Также может наблюдаться горизонтальная устойчивость, например частичная устойчивость ко всем расам патогена, обычно контролируемая многими генами, и вертикальная устойчивость, например полная устойчивость к некоторым расам патогена, но не к другим расам, обычно контролируемая несколькими генами. На уровне взаимодействия генов растения и патогены эволюционируют совместно, а генетические изменения одного уравновешивают изменения другого. Соответственно, используя естественную изменчивость, селекционеры комбинируют гены, наиболее полезные для урожайности, качества, однородности, выносливости, устойчивости. Источники генов устойчивости включают нативные или чужеродные сорта, старинные сорта, родственные дикорастущие растения и индуцированные мутации, например, при обработке растительного материала мутагенными средствами. Применяя настоящее изобретение, селекционеры растений получают новый инструмент для индукции мутаций. Соответственно, специалист в данной области может проанализировать геном источников генов устойчивости, а в отношении сортов, имеющих желаемые характеристики или признаки, использовать настоящее изобретение для индукции появления генов устойчивости с большей точностью, чем в случае применявшихся ранее мутагенных средств, и, следовательно, для ускорения и улучшения программ селекции растений.

Улучшенные растения и клетки дрожжей

- Настоящее изобретение также предусматривает растения и дрожжевые клетки, получаемые и полученные с помощью способов, предусмотренных в данном документе. Улучшенные растения, полученные с помощью способов, описанных в данном документе, могут быть полезны при получении продуктов питания и кормов посредством экспрессии генов, которые, например, обеспечивают переносимость вредителей растений, гербицидов, засухи, низких или высоких температур, избытка воды и др.

- Улучшенные растения, полученные с помощью способов, описанных в данном документе, в частности, сельскохозяйственные культуры и водоросли, могут быть полезны в производстве продуктов питания и кормов посредством синтеза, например, более высоких уровней белка, углеводов, нутриентов или витаминов, чем в норме наблюдались бы при диком типе. В этом отношении улучшенные растения, в частности, зернобобовые и клубнеплоды, являются предпочтительными.

- Улучшенные водоросли или другие растения, такие как рапс, могут быть особенно полезными в производстве растительных масел или таких видов биотоплива, как, например, спирты (особенно метанол и этанол). Они могут быть сконструированы для синтеза или избыточного синтеза масла или спиртов на высоких уровнях для применения в масложировой или биотопливной промышленности.

- Настоящее изобретение также предусматривает улучшенные части растения. Части растений включают без ограничения листья, стебли, корни, клубни, семена, эндосперм, семяпочку и пыльцу. Части растений, как предусмотрено в данном документе, могут быть жизнеспособными, нежизнеспособными, регенерируемыми и/или нерегенерируемыми.

- В данном документе также охвачены растительные клетки и растения в соответствии со способами по настоящему изобретению. Гаметы, семена, эмбрионы, как зиготические, так и соматические, потомство или гибриды растений, содержащих генетическую модификацию, которые получены с помощью традиционных способов селекции, также включены в объем настоящего изобретения. Такие растения могут содержать гетерологичную последовательность или последовательность чужеродной ДНК, вставленные в целевую последовательность или вместо нее. Альтернативно такие растения могут содержать только изменение (мутацию, делецию, вставку, замену) в одном или нескольких нуклеотидах. Например, такие растения будут отличаться только от своих растений-предшественников по наличию определенной модификации.

- Таким образом, настоящее изобретение относится к растению, животному или клетке, полученным с помощью способа по настоящему изобретению, или их потомству. Потомство может представлять собой клон полученного растения или животного, или его можно получить с помощью полового размножения посредством скрещивания с другими индивидами того же вида для придания дополнительных желаемых признаков их потомкам. Клетка может находиться in vivo или ex vivo в случае многоклеточных организмов, в частности, животных или растений.

Комплексы эффекторного белка Cpf1 могут быть использованы в организмах, отличным от человека/животных

В одном аспекте настоящего изобретения предусмотрен отличный от человеческого эукариотический организм; предпочтительно многоклеточный эукариотический организм, содержащий эукариотическую клетку-хозяина в соответствии с любым из описанных вариантов осуществления. В других аспектах настоящего изобретения предусмотрен эукариотический организм, предпочтительно многоклеточный эукариотический организм, содержащий эукариотическую клетку-хозяина в соответствии с любым из описанных вариантов осуществления. В некоторых вариантах осуществления этих аспектов организм может представлять собой животное; например, млекопитающее. Также организм может представлять собой членистоногое, такое как насекомое. Организм также может представлять собой растение. Кроме того, организм может представлять собой гриб.

- Настоящее изобретение также может распространяться на другие варианты сельскохозяйственного применения, такие как, например, сельскохозяйственные и продуктивные животные. Например, свиньи имеют многие характеристики, которые делают их привлекательными в качестве биомедицинских моделей, в частности, в регенеративной медицине. В частности, свиньи с тяжелым комбинированным иммунодефицитом (SCID) могут обеспечивать полезные модели для регенеративной медицины, ксенотрансплантации (обсуждаемые также в других местах данного документа) и опухолевого развития и будут способствовать разработке терапевтических препаратов для пациентов-людей с SCID. Lee et al. (Proc Natl Acad Sci U S A. 2014 May 20;111(20):7260-5) использовали направляемую репортером систему эффекторной нуклеазы, подобной активаторам транскрипции (TALEN), по отношению к полученным целевым модификациям гена, активирующего рекомбинацию (RAG) 2, в соматических клетках с высокой эффективностью, в том числе некоторым, которые влияли на оба аллеля. Система эффекторного белка Cpf1 может быть применима к аналогичной системе.

- Способы из публикации Lee et al., (Proc Natl Acad Sci U S A. 2014 May 20;111(20):7260-5) могут быть применимы по отношению к настоящему изобретению, аналогично следующему. Мутированных свиней получают с помощью целевой модификации RAG2 в фибробластах плода, после чего происходит SCNT и перенос эмбрионов. Конструкции, кодирующие CRISPR Cas и репортер, электропорируют в фибробласты, полученные из плода. Через 48 часов трансфицированные клетки, экспрессирующие зеленый флуоресцентный белок, сортируют в отдельные лунки 96-луночного планшета при предполагаемом разведении одна клетка на лунку. Целевые модификации RAG2 подвергают скринингу с помощью амплификации фрагмента геномной ДНК, фланкирующей любые сайты рестрикции CRISPR Cas, после чего выполняют секвенирование ПЦР-продуктов. После скрининга и обеспечения отсутствия нецелевых мутаций клетки, несущие целевую модификацию RAG2, используют для SCNT. Полярное тельце вместе с частью прилегающей цитоплазмы ооцита, предположительно содержащего метафазную пластинку II, удаляют, и донорскую клетку помещают в перивителлин. Реконструированные эмбрионы затем электропорируют для слияния донорской клетки с ооцитом и затем химически активируют. Активированные эмбрионы инкубируют в среде для развития свиных зигот 3 (PZM3) с 0,5 мкМ скриптаидом (S7817; Sigma-Aldrich) в течение 14-16 часов. Эмбрионы затем промывают с удалением скриптаида и культивируют в PZM3 до тех пор, пока они не будут перенесены в маточные трубы суррогатных свиней.

- Настоящее изобретение также применимо к модификации SNP других животных, таких как коровы. Tan et al. (Proc Natl Acad Sci U S A. 2013 Oct 8; 110(41): 16526-16531) расширили набор для редактирования генов крупного рогатого скота с включением репарации с участием гомологичной рекомбинации (HDR), стимулированной эффекторной нуклеазой, подобной активаторам транскрипции (TAL) (TALEN) и коротких палиндромных повторов, регулярно расположенных группами (CRISPR)/Cas9, с использованием плазмиды, rAAV и олигонуклеотидных матриц. Геноспецифические последовательности gRNA были клонированы в вектор на основе gRNA Church lab (Addgene ID: 41824) в соответствии с их способами (Mali P, et al. (2013) RNA-Guided Human Genome Engineering via Cas9. Science 339(6121):823-826). Нуклеазу Cas9 получали с помощью котрансфекции плазмиды hCas9 (Addgene ID: 41815) или синтезировали с помощью мРНК из RCIScript-hCas9. Эта система RCIScript-hCas9 была сконструирована с помощью субклонирования фрагмента XbaI-AgeI из плазмиды hCas9 (содержащей кДНК hCas9) в плазмиду RCIScript.

- Heo et al. (Stem Cells Dev. 2015 Feb 1;24(3):393-402. doi: 10.1089/scd.2014.0278. Epub 2014 Nov 3) описали высокоэффективное нацеливание на ген в бычьем геноме с использованием бычьих плюрипотентных клеток и коротких палиндромных повторов, регулярно расположенных группами, (CRISPR)/нуклеазы Cas9. Впервые Heo et al. получили индуцированные плюрипотентные стволовые клетки (iPSC) из бычьих соматических фибробластов с помощью эктопической экспрессии факторов Яманаки и обработки ингибитором GSK3β и MEK (2i). Heo et al. наблюдали, что эти бычьи iPSC очень похожи на наивные плюрипотентные стволовые клетки в отношении экспрессии генов и потенциала развития в тератомы. Кроме того, нуклеаза CRISPR-Cas9, которая была специфичной по отношению к бычьему локусу NANOG, характеризовалась высокоэффективным редактированием бычьего генома в бычьих iPSC и эмбрионах.

- Igenity® предусматривает профильный анализ животных, таких как коровы, для проявления и передачи генов экономически важных признаков, таких как состав туши, качество туши, материнские и репродуктивные признаки и средний суточный прирост. Анализ полного профиля Igenity® начинается с обнаружения ДНК-маркеров (чаще всего однонуклеотидных полиморфизмов или SNP). Все маркеры в рамках профиля Igenity® были обнаружены независимыми учеными в исследовательских институтах, в том числе университетах, исследовательских организациях и государственных организациях, таких как USDA. Затем маркеры анализировали с помощью Igenity® в популяциях для валидации. В Igenity® используют популяции из нескольких ресурсов, которые отражают различные условия производственной среды и биологические типы, при этом часто выполняют работы с промышленными партнерами из маточного, скотоводческого, откормочного и/или упаковочного сегментов скотоводческой промышленности для сбора фенотипов, которые обычно не доступны. Базы данных геномов крупного рогатого скота являются широко доступными, см., например, NAGRP Cattle Genome Coordination Program (http://www.animalgenome.org/cattle/maps/db.html). Таким образом, настоящее изобретение может быть применено для нацеливания на бычьи SNP. Специалист в данной области может использовать вышеупомянутые протоколы для нацеливания на SNP и применения их по отношению к бычьим SNP, как описано, например, Tan et al. или Heo et al.

- Qingjian Zou et al. (Journal of Molecular Cell Biology Advance Access, опубликовано 12 октября 2015 г.) показали повышение мышечной массы у собак с помощью нацеливания на первый экзон гена миостатина собаки (MSTN) (отрицательный регулятор скелетной мышечной массы). Прежде всего, валидировали эффективность sgRNA при помощи котрансфекции sgRNA, нацеленной на MSTN, при помощи вектора Cas9 в собачьих эмбриональных фибробластах (CEF). Затем собак MSTN KO получали с помощью микроинъекции эмбрионам с нормальной морфологией смеси мРНК Cas9 и sgRNA MSTN и аутотрансплантации зигот в маточную трубу той же самой суки. Нокаутированные щенки проявляли выраженный мышечный фенотип в области бедер по сравнению со своим однопометником дикого типа. Это также можно выполнить при помощи систем Cpf1 CRISPR, предусмотренных в данном документе.

Домашний скот - свиньи

- Вирусные мишени в домашнем скоте могут включать в некоторых вариантах осуществления свиной CD163, например, на свиных макрофагах. CD163 ассоциирован с инфекцией (предположительно в результате вхождения вируса в клетку) в результате PRRSv (вируса свиного репродуктивного и респираторного синдрома, артеривируса). Инфекция в результате PRRSv, в частности, свиных альвеолярных макрофагов (встречающихся в легких), приводит к ранее неизлечимому свиному синдрому ("таинственная болезнь свиней" или "болезнь синего уха"), который вызывает болезнь, в том числе репродуктивную недостаточность, потерю веса и высокую смертность у домашних свиней. Оппортунистические инфекции, такие как энзоотическая пневмония, менингит и отечность ушей, часто наблюдаются в результате иммунодефицита вследствие потери активности макрофагов. Это также имеет значительные экономические и средовые последствия в связи с повышенным применением антибиотиков и финансовым ущербом (по оценкам 660 млн. дол. в год).

- Как было описано Kristin M Whitworth and Dr Randall Prather et al. (Nature Biotech 3434, опубликовано онлайн 07 декабря 2015 г.) в Университете штата Миссури и в сотрудничестве с Genus Plc, CD163 подвергали нацеливанию CRISPR-Cas9 и потомство "редактированных" свиней было устойчиво при воздействии PRRSv. Одного хряка-основателя и одну свиноматку-основательницу, оба из которых имели мутации в экзоне 7 CD163, скрещивали с получением потомства. Хряк-основатель характеризовался делецией из 11 п. о. в экзоне 7 в одном аллеле, которая приводила к мутации типа сдвига рамки и миссенс-трансляции в аминокислоте 45 в домене 5 и последующему преждевременному стоп-кодону по аминокислоте 64. Другой аллель характеризовался добавлением из 2 п.о. в экзоне 7 и делецией из 377 п. о. в предшествующем интроне, которые, как предполагалось, приводили к экспрессии первых 49 аминокислот домена 5, затем преждевременного стоп-кодона в аминокислоте 85. Свиноматка характеризовалась добавлением из 7 п. о. в одном аллеле, которое при трансляции, как предполагалось, экспрессировало первые 48 аминокислот домена 5, затем преждевременный стоп-кодон в аминокислоте 70. Другой аллель свиноматки был неамплифицированным. Некоторые потомки, как предполагалось, представляли собой нуль-животное (CD163-/-), т. е. нокаут по CD163.

- Соответственно, в некоторых вариантах осуществления свиные альвеолярные макрофаги могут быть подвергнуты нацеливанию белка CRISPR. В некоторых вариантах осуществления свиной CD163 может быть подвергнут нацеливанию белка CRISPR. В некоторых вариантах осуществления свиной CD163 может быть нокаутирован посредством индукции DSB или в результате вставок или делеций, например, нацеливания на делецию или модификацию экзона 7, в том числе одного или нескольких из описанных выше, или в других областях гена, например, делецию или модификацию экзона 5.

- Также предусмотрены "редактированная" свинья и ее потомство, например, нокаутированная по CD163 свинья. Это может быть предусмотрено для целей скотоводства, селекции и моделирования (т. е., свиная модель). Также предусмотрена семенная жидкость, содержащая нокаут гена.

- CD163 представляет собой представителя суперсемейства фагоцитарных рецепторов с высоким содержанием цистеина (SRCR). На основе in vitro исследований SRCR домен 5 белка представляет собой домен, ответственный за распаковку и высвобождение вирусного генома. Например, другие представители суперсемейства SRCR также могут быть подвергнуты нацеливанию для получения устойчивости к другим вирусам. PRRSV также представляет собой представителя группы артеривирусов млекопитающих, которая также включает вирус, повышающий уровень лактат-дегидрогеназы у мышей, вирус геморрагической лихорадки обезьян и вирус артерита лошадей. Артеривирусы имеют общие важные свойства патогенеза, в том числе макрофагальный тропизм и способность вызывать как тяжелую болезнь, так и хроническую инфекцию. Соответственно, артеривирусы и, в частности, вирус, вызывающий повышение уровня лактат-дегидрогеназы у мышей, вирус геморрагической лихорадки обезьян и вирус артериита лошадей, могут быть подвергнуты нацеливанию, например свиного CD163 или его гомологов у других видов, и также предусмотрены мышиные, обезьяньи и лошадиные модели и нокаут.

- Действительно, этот подход может быть распространен на вирусы или бактерии, которые вызывают другие заболевания домашнего скота, которые могут передаваться человеку, такие как штаммы вируса свиного гриппа (SIV), которые включают грипп C и подтипы гриппа A, известные как H1N1, H1N2, H2N1, H3N1, H3N2 и H2N3, а также пневмонию, менингит и отечность, упомянутые выше.

Терапевтическое нацеливание при помощи направляемого РНК комплекса эффекторного белка Cpf1

- Как будет понятно, предусматривается, что настоящую систему можно использовать для целенаправленного воздействия на любую представляющую интерес полинуклеотидную последовательность. Настоящее изобретение относится к не встречающейся в природе или сконструированной композицию, или одному или нескольким полинуклеотидам, кодирующим компоненты указанной композиции, или вектору или системе доставки, содержащим один или несколько полинуклеотидов, кодирующих компоненты указанной композиции, для применения при модификации целевой клетки in vivo, ex vivo или in vitro, и они могут быть выполнены с помощью способа, который изменяет клетку таким образом, что после модификации потомство или линия клеток клетки, модифицированной с помощью CRISPR, сохраняет измененный фенотип. Модифицированные клетки и потомство могут быть частью многоклеточного организма, такого как растение или животное, с применением ex vivo или in vivo системы CRISPR по отношению к желаемым типам клеток. Изобретение CRISPR может представлять собой терапевтический способ лечения. Терапевтический способ лечения может предусматривать редактирование гена или генома или генную терапию.

Лечение патогенов, например, бактериальных, грибковых и паразитарных патогенов

- Настоящее изобретение также может быть применимо к лечению бактериальных, грибковых и паразитарных патогенов. Большинство исследовательских усилий было сосредоточено на создании новых антибиотиков, которые после создания все равно стали бы предметом аналогичных проблем, связанных с устойчивостью к лекарственному средству. Настоящее изобретение относится к новым альтернативам на основе CRISPR, которые преодолевают эти сложности. Кроме того, в отличие от существующих антибиотиков варианты лечения на основе CRISPR могут быть проведены специфично по отношению к патогенам, с индукцией клеточной смерти целевого патогена, при этом не затрагиваются полезные бактерии.

- Jiang et al. ("RNA-guided editing of bacterial genomes using CRISPR-Cas systems," Nature Biotechnology vol. 31, p. 233-9, March 2013) использовали систему CRISPR-Cas9 для мутирования или уничтожения S. pneumoniae и E. coli. Исследование, в результате которого происходило введение точных мутаций в геномы, опиралось на расщепление в целевом сайте генома под управлением системы двойная РНК:Cas9 для уничтожения немутированных клеток и устраняло необходимость в селектируемых маркерах или системах негативного отбора. Системы CRISPR были использованы для обращения устойчивости к антибиотикам и устранения переноса устойчивости между штаммами. Bickard et al. показали, что Cas9, перепрограммированный для нацеливания на гены вирулентности, уничтожают вирулентный, а не авирулентный S. aureus. Перепрограммирование нуклеазы для нацеливания на гены устойчивости к антибиотиками разрушало плазмиды стафилококков, которые имели гены устойчивости к антибиотикам, и иммунизировало против распространения плазмидных генов устойчивости. (см., Bikard et al., "Exploiting CRISPR-Cas nucleases to produce sequence-specific antimicrobials," Nature Biotechnology vol. 32, 1146-1150, doi:10.1038/nbt.3043, опубликовано онлайн 5 октября 2014 г.) Bikard показал, что антимикробные средства на основе CRISPR-Cas9 функционируют in vivo для уничтожения S. aureus в мышиной модели колонизации кожи. Аналогично, Yosef et al использовали систему CRISPR для нацеливания на гены, кодирующие ферменты, которые придают устойчивость к β-лактамным антибиотикам (см. Yousef et al., "Temperate and lytic bacteriophages programmed to sensitize and kill antibiotic-resistant bacteria," Proc. Natl. Acad. Sci. USA, vol. 112, p. 7267-7272, doi: 10.1073/pnas.1500107112, опубликовано онлайн 18 мая 2015 г.).

- Системы CRISPR могут быть использованы для редактирования геномов паразитов, которые являются устойчивыми к другим генетическим подходам. Например, система CRISPR-Cas9, как было показано, вводит двунитевые разрывы в геном Plasmodium yoelii (см., Zhang et al., "Efficient Editing of Malaria Parasite Genome Using the CRISPR/Cas9 System," mBio. vol. 5, e01414-14, Jul-Aug 2014). Ghorbal et al. ("Genome editing in the human malaria parasite Plasmodium falciparumusing the CRISPR-Cas9 system," Nature Biotechnology, vol. 32, p. 819-821, doi: 10.1038/nbt.2925, опубликовано онлайн 1 июня 2014 г.) модифицировали последовательности двух генов, orc1 и kelch13, которые имеют предположительные функции сайленсинга генов и возникновения устойчивости к артемизинину соответственно. Паразиты, которые были изменены в подходящих сайтах, были восстановлены с очень высокой эффективностью, несмотря на отсутствие прямого отбора в отношении модификации, указывая на то, что нейтральные или даже вредные мутации могут быть получены при помощи этой системы. Систему CRISPR-Cas9 также используют для модификации других патогенных паразитов, в том числе Toxoplasma gondii (см. Shen et al., "Efficient gene disruption in diverse strains of Toxoplasma gondii using CRISPR/CAS9," mBio vol. 5:e01114-14, 2014; and Sidik et al., "Efficient Genome Engineering of Toxoplasma gondii Using CRISPR/Cas9," PLoS One vol. 9, e100450, doi: 10.1371/journal.pone.0100450, опубликовано онлайн 27 июня 2014 г.).

- Vyas et al. ("A Candida albicans CRISPR system permits genetic engineering of essential genes and gene families," Science Advances, vol. 1, e1500248, DOI: 10.1126/sciadv.1500248, от 3 апреля 2015 г.) использовали систему CRISPR для преодоления долго существующих препятствий для генной инженерии в C. albicans и эффективного мутирования в одном эксперименте обеих копий нескольких различных генов. В организме, где несколько механизмов способствуют лекарственной устойчивости, Vyas получал гомозиготные двойные мутанты, которые больше не проявляли гиперустойчивость к флуконазолу или циклогексимиду, обнаруживаемую родительским клиническим изолятом Can90. Vyas также получал гомозиготные мутации потери функции в важных генах C. albicans при помощи создания условных аллелей. Нуль-аллели DCR1, который требуется для процессинга рибосомальной РНК, являются летальными при низкой температуре, но жизнеспособными при высокой температуре. Vyas использовал матрицу дял репарации, которая вводила нонсенс-мутацию, и выделял мутантов dcr1/dcr1, которые не могли расти при 16°C.

- Система CRISPR по настоящему изобретению для применения в P. falciparum посредством разрыва хромосомных локусов. Ghorbal et al. ("Genome editing in the human malaria parasite Plasmodium falciparum using the CRISPR-Cas9 system", Nature Biotechnology, 32, 819-821 (2014), DOI: 10.1038/nbt.2925, от 1 июня 2014 г.) использовали систему CRISPR для введения специфических нокаутов генов и однонуклеотидных замен в геном малярийного плазмодия. Для адаптации системы CRISPR-Cas9 по отношению к P. falciparum Ghorbal et al. получали векторы экспрессии для контроля регуляторных элементов плазмодия в эписоме pUF1-Cas9, которая также несет селектируемый в отношении лекарственного средства маркер ydhodh, который придает устойчивость к DSM1, ингибитору дигидрооротатдегидрогензы (PfDHODH) P. falciparum, и для транскрипции sgRNA использовали регуляторные элементы малых ядерных (sn)RNA U6 P. falciparum, помещая направляющую РНК и матрицу донорской ДНК для гомологичной рекомбинационной репарации на одну и ту же плазмиду pL7. См. также Zhang C. et al. ("Efficient editing of malaria parasite genome using the CRISPR/Cas9 system", MBio, 2014 Jul 1; 5(4):E01414-14, doi: 10.1128/MbIO.01414-14) и Wagner et al. ("Efficient CRISPR-Cas9-mediated genome editing in Plasmodium falciparum, Nature Methods 11, 915-918 (2014), DOI: 10.1038/nmeth.3063).

Лечение патогенов, аналогичных вирусным патогенам, таким как HIV

- Cas-опосредованное редактирование генома может быть использовано для введения защитных мутаций в соматические ткани для лечения негенетических или сложных заболеваний. Например, NHEJ-опосредованная инактивация рецептора CCR5 в лимфоцитах (Lombardo et al., Nat Biotechnol. 2007 Nov; 25(11):1298-306) может представлять собой эффективную стратегию для устранения инфекции, обусловленной HIV, в то время как делеция PCSK9 (Cohen et al., Nat Genet. 2005 Feb; 37(2):161-5) или ангиопоэтина (Musunuru et al., N Engl J Med. 2010 Dec 2; 363(23):2220-7) может обеспечивать терапевтические эффекты по отношению к устойчивой к статинам гиперхолестеринемии или гиперлипидемии. Несмотря на то, что эти мишени могут также подвергаться воздействию с помощью siRNA-опосредованного нокдауна белков, уникальное преимущество NHEJ-опосредованной инактивации генов заключается в способности достигать долговременного терапевтического эффекта без необходимости в продолжении лечения. Как и в случае всех видов генной терапии, это будет, безусловно, важным для установления того, что каждое предлагаемое терапевтическое применение имеет эффективное соотношение "риск-польза".

- Гидродинамическая доставка плазмидной ДНК, кодирующей Cas9 и направляющую РНК, совместно с матрицей для репарации, в печень в модели тирозинемии у взрослых мышей, как было показано, способна корректировать мутантный ген Fah и восстанавливать экспрессию белка Fah дикого типа в ~1 из 250 клеток (Nat Biotechnol. 2014 Jun; 32(6):551-3). Кроме того, в клинических исследованиях успешно применяли нуклеазы ZF для лечения инфекции, обусловленной HIV, с помощью ex vivo нокаута рецептора CCR5. У всех пациентов уровни ДНК HIV снижались, и у одного из четырех пациентов РНК HIV становилась невыявляемой (Tebas et al., N Engl J Med. 2014 Mar 6; 370(10):901-10). Оба из этих результата показывают потенциал программируемых нуклеаз в качестве новой терапевтической платформы.

- В другом варианте осуществления самоинактивирующиеся лентивирусные векторы с siRNA, нацеленной на общий экзон, который имеет tat/rev HIV, сигналом ядрышковой локализации TAR-ловушкой и специфичным к CCR5 рибозимом в виде головки молотка (см., например, DiGiusto et al. (2010) Sci Transl Med 2:36ra43) можно использовать и/или адаптировать для системы CRISPR-Cas по настоящему изобретению. Не менее 2,5 × 10⁶ клеток CD34+ на килограмм массы пациента можно собирать и предварительно стимулировать в течение 16-20 часов в среде X-VIVO 15 (Lonza), содержащей 2 мкмоля/L-глутамина, фактор стволовых клеток (100 нг/мл), лиганд Flt-3 (Flt-3L) (100 нг/мл) и тромбопоэтин (10 нг/мл) (CellGenix), при плотности 2 × 10⁶ клеток/мл. Предварительно стимулированные клетки можно трансдуцировать лентивирусом при множественности заражения 5 в течение 16-24 часов во флаконах с культурой тканей на 75 см2, покрытых фибронектином (25 мг/см2) (RetroNectin, Takara Bio Inc.).

- Специалист в данной области с использованием знаний в данной области и идей настоящего изобретения может корректировать HSC в отношении состояния иммунодефицита, такого как HIV/AIDS, включая приведение HSC в контакт с системой CRISPR-Cas9, которая целенаправленно воздействует на CCR5 и приводит к его нокауту. Направляющую РНК (и преимущественно подход с двумя направляющими последовательностями, например парой различных РНК; например направляющих РНК, нацеленных на два клинически значимых гена, B2M и CCR5, в первичных CD4+ T-клетках человека и CD34+ гемопоэтических стволовых клетках и клетках-предшественниках (HSPC)), которая нацеливается на и нокаутирует частицу, содержащую CCR5 и белок Cpf1, приводят в контакт с HSC. Приведенные таким образом в контакт клетки можно вводить и необязательно обрабатывать и разращивать; см. Cartier. См. также Kiem, "Hematopoietic stem cell-based gene therapy for HIV disease," Cell Stem Cell. Feb 3, 2012; 10(2): 137-147; включенную в данный документ посредством ссылки вместе с документами, которые в ней перечислены; Mandal et al, "Efficient Ablation of Genes in Human Hematopoietic Stem and Effector Cells using CRISPR/Cas9," Cell Stem Cell, Volume 15, Issue 5, p643-652, 6 November 2014; включенную в данный документ посредством ссылки вместе с документами, которые в ней перечислены. Также упоминается публикация Ebina, "CRISPR/Cas9 system to suppress HIV-1 expression by editing HIV-1 integrated proviral DNA" SCIENTIFIC REPORTS | 3 : 2510 | DOI: 10.1038/srep02510, включенная в данный документ посредством ссылки вместе с документами, которые в ней перечислены, в качестве иных средств борьбы с HIV/AIDS с применением системы CRISPR-Cpf1.

- Основание для редактирования генома для лечения HIV исходит из наблюдения того, что индивидуумы, гомозиготные по мутациям с потерей функции в CCR5, клеточном корецепторе для вируса, обладают высокой устойчивостью к инфекции и, в иных случаях, здоровы, что дает основание предполагать, что имитирование этой мутации с редактированием генома может быть безопасной и эффективной терапевтической стратегией [Liu, R., et al. Cell 86, 367-377 (1996)]. Эта идея была подтверждена клинически, когда инфицированному HIV пациенту пересаживали аллогенный трансплантат костного мозга от донора, гомозиготного по мутации с потерей функции в CCR5, что приводило к необнаруживаемым уровням HIV и восстановлению нормальных значений числа клеток CD4 T [Hutter, G., et al. The New England journal of medicine 360, 692-698 (2009)]. Хотя трансплантация костного мозга не является приемлемой стратегией лечения для большинства пациентов с HIV в связи со стоимостью и потенциальной реакцией "трансплантат против хозяина", виды терапии HIV, которые трансформируют собственные T-клетки пациента в CCR5, являются желательными.

- Ранние исследования с применением ZFN и NHEJ для нокаута CCR5 в гуманизированных мышиных моделях HIV показали, что трансплантация CD4 T-клеток с отредактированным CCR5 улучшала вирусную нагрузку и значения числа клеток CD4 T [Perez, E.E., et al. Nature biotechnology 26, 808-816 (2008)]. Важно, что данные модели также показали, что инфекция, обусловленная HIV, приводила к отбору нуль-клеток по CCR5, свидетельствуя о том, что редактирование обеспечивает преимущество пригодности и потенциально предоставляет возможность небольшому количеству редактированных клеток создавать терапевтический эффект.

- Как результат данного и других многообещающих доклинических исследований, терапия с применением редактирования генома, которая обеспечивает нокаут CCR5 в T-клетках пациентов, в настоящее время проходит тестирование на людях [Holt, N., et al. Nature biotechnology 28, 839-847 (2010); Li, L., et al. Molecular therapy : the journal of the American Society of Gene Therapy 21, 1259-1269 (2013)]. В недавно проведенной I фазе клинического испытания CD4+ T-клетки отбирали у пациентов с HIV, редактировали с помощью ZFN, сконструированными для нокаута гена CCR5, и аутологически трансплантировали обратно пациентам [Tebas, P., et al. The New England journal of medicine 370, 901-910 (2014)].

- В другом исследовании (Mandal et al., Cell Stem Cell, Volume 15, Issue 5, p643-652, от 6 ноября 2014 г.) система CRISPR-Cas9 нацеливалась на два клинически значимых гена, B2M и CCR5, в CD4+ T-клетках и CD34+ гемопоэтических стволовых и клетках-предшественниках человека (HSPC). Применение одиночных направляющих РНК приводило к высокоэффективному мутагенезу в HSPC, но не в T-клетках. Подход с двумя направляющими последовательностями повышал эффективность удаления гена в обоих типах клеток. HSPC, которые подвергались редактированию генома с помощью CRISPR-Cas9, сохраняли способность к мультилинейности. Предполагаемые целевые и нецелевые мутации были исследованы посредством целевого секвенирования с захватом в HSPC и низкие уровни нецелевого мутагенеза наблюдали лишь в одном сайте. Эти результаты показывают, что система CRISPR-Cas9 может эффективно удалять гены в HSPC с минимальным нецелевым мутагенезом, что имеет широкую применимость для терапии на основе гемопоэтических клеток.

- Wang et al. (PLoS One. 2014 Dec 26;9(12):e115987. doi: 10.1371/journal.pone.0115987) подвергали сайленсингу CCR5 посредством CRISPR-ассоциированного белка 9 (Cas9) и одиночных направляющих РНК (направяющих РНК) с лентивирусными векторами, экспрессирующими направляющие РНК для Cas9 и CCR5. Wang et al. показали, что трансдукция за один цикл лентивирусных векторов, экспрессирующих направляющие РНК Cas9 и CCR5, в восприимчивых к HIV-1 CD4+ клетках человека приводит к высоким частотам нарушения функционирования гена CCR5. Клетки с разорванным геном CCR5 являются не только устойчивыми к R5-тропному HIV-1, в том числе изолятам передаваемых вирусов/вирусов-основателей (T/F) HIV-1, но также имеют селективное преимущество над клетками с неразорванным геном CCR5 во время инфекции R5-тропным HIV-1. Геномные мутации в потенциальных нецелевых сайтах, которые являются высокогомологичными этим направляющим РНК для CCR5, в стабильно трансдуцированных клетках даже через 84 дня после трансдукции не были обнаружены с помощью анализа T7 эндонуклеазы I.

- Fine et al. (Sci Rep. 2015 Jul 1;5:10777. doi: 10.1038/srep10777) идентифицировали двухкассетную систему, экспрессирующую части белка Cas9 S. pyogenes (SpCas9), который подвергался сплайсингу в клетке с образованием функционального белка, способного к сайт-специфичному расщеплению ДНК. С помощью специфических направляющих нитей CRISPR Fine et al. показали эффективность этой системы в расщеплении генов HBB и CCR5 в клетках HEK-293T человека в виде одного Cas9 и пары никаз Cas9. Транс-сплайсированный SpCas9 (tsSpCas9) характеризовался ~35% от нуклеазной активности по сравнению с SpCas9 дикого типа (wtSpCas9) при стандартных дозах для трансфекции, однако имел значительно сниженную активность при более низких уровнях доз. Существенно уменьшенная длина открытой рамки считывания tsSpCas9 по отношению к wtSpCas9 потенциально способствует упаковке более сложных и длинных генетических элементов в вектор на основе AAV, в том числе тканеспецифичных промоторов, экспрессии мультиплексной направляющей РНК и слиянию эффекторных доменов с SpCas9.

Li et al. (J Gen Virol. 2015 Aug;96(8):2381-93. doi: 10.1099/vir.0.000139. Epub 2015 Apr 8) показали, что система CRISPR-Cas9 может эффективно опосредовать редактирование локуса CCR5 в линиях клеток, приводя к нокауту экспрессии CCR5 на клеточной поверхности. При секвенировании следующего поколения было обнаружено, что различные мутации вводили возле предполагаемого сайта расщепления CCR5. Для каждой из трех наиболее эффективных направляющих РНК, которые были проанализированы, значительных нецелевых эффектов выявлено не было в 15 потенциальных сайтах с наивысшими баллами. С помощью конструирования химерных аденовирусов Ad5F35, несущих компоненты CRISPR-Cas9, Li et al. эффективно трансдуцировали первичные CD4+ T-лимфоциты и нарушали экспрессию CCR5, а положительно трансдуцированным клеткам придавали устойчивость к HIV-1.

- Специалист в данной области может воспользоваться вышеописанными исследованиями, например, Holt, N., et al. Nature biotechnology 28, 839-847 (2010), Li, L., et al. Molecular therapy : the journal of the American Society of Gene Therapy 21, 1259-1269 (2013), Mandal et al., Cell Stem Cell, Volume 15, Issue 5, p643-652, 6 November 2014, Wang et al. (PLoS One. 2014 Dec 26;9(12):e115987. doi: 10.1371/journal.pone.0115987), Fine et al. (Sci Rep. 2015 Jul 1;5:10777. doi: 10.1038/srep10777) и Li et al. (J Gen Virol. 2015 Aug;96(8):2381-93. doi: 10.1099/vir.0.000139. Epub 2015 Apr 8), для нацеливания на CCR5 при помощи системы CRISPR Cas по настоящему изобретению.

Лечение патогенов, аналогичных вирусным патогенам, таким как HBV

- Настоящее изобретение также можно применять для лечения вируса гепатита B (HBV). Однако система CRISPR-Cas должна быть приспособлена для того, чтобы избежать недостатков RNAi, таких как риск перенасыщения эндогенных путей малых РНК, с помощью, например, оптимизации дозы и последовательности (см., например, Grimm et al., Nature vol. 441, 26 May 2006). Например, предусматриваются низкие дозы, такие как приблизительно 1-10 x 10¹⁴ частиц на человека. В другом варианте осуществления систему CRISPR-Cas, направленную против HBV, можно вводить в липосомах, таких как стабильная частица из нуклеиновой кислоты и липидов (SNALP) (см., например, Morrissey et al., Nature Biotechnology, Vol. 23, No. 8, August 2005). Предусматриваются ежедневные внутривенные инъекции приблизительно 1, 3 или 5 мг/кг/день CRISPR Cas, целенаправленно воздействующей на РНК HBV в SNALP. Обработку можно осуществлять ежедневно в течение приблизительно трех дней, а затем еженедельно в течение приблизительно пяти недель. В других вариантах осуществления систему согласно Chen et al. (Gene Therapy (2007) 14, 11-19) можно применять к системе CRISPR-Cas согласно настоящему изобретению и/или адаптировать к ней. Chen et al. использовали двухнитевой псевдотипированный вектор на основе аденоассоциированного вируса 8 (dsAAV2/8) для доставки shRNA. Однократное введение вектора dsAAV2/8 (1 x 10¹² векторных геномов на мышь), несущего специфичную к HBV shRNA, эффективно подавляло стабильный уровень белка, мРНК и репликативной ДНК HBV в печени трансгенных мышей с HBV, что приводило к снижению нагрузки HBV в кровотоке на вплоть до 2-3 log₁₀. Значительное подавление HBV продолжалось в течение по меньшей мере 120 дней после введения вектора. Терапевтический эффект shRNA зависел от целевой последовательности и не включал активацию интерферона. В соответствии с настоящим изобретением систему CRISPR-Cas, направленную в отношении HBV, можно клонировать в вектор на основе AAV, например, вектор на основе dsAAV2/8, и вводить человеку, например, в дозе от приблизительно 1 x 10¹⁵ векторных геномов до приблизительно 1 x 10¹⁶ векторных геномов на человека. В другом варианте осуществления способ согласно Wooddell et al. (Molecular Therapy vol. 21 no. 5, 973-985 May 2013) можно применять к системе CRISPR-Cas согласно настоящему изобретению и/или адаптировать к ней. Woodell et al. продемонстрировали, что простая совместная инъекция целенаправленно воздействующего на гепатоциты, конъюгированного с N-ацетилгалактозамином мелиттин-подобного пептида (NAG-MLP) с тропной к печени конъюгированной с холестерином siRNA (chol-siRNA), целенаправленно воздействующей на фактор коагуляции VII (F7), приводит в результате к эффективному нокдауну F7 у мышей и приматов, отличных от человека, без изменений клинических химических показателей или индукции цитокинов. Используя временные и трансгенные мышиные модели инфекции, обусловленной HBV, Wooddell et al. продемонстрировали, что однократная совместная инъекция NAG-MLP с активной chol-siRNA, целенаправленно воздействующей на консервативные последовательности HBV, приводила в результате к многократной репрессии вирусной РНК, белков и вирусной ДНК с большой продолжительностью эффекта. Внутривенные совместные инъекции, например, приблизительно 6 мг/кг NAG-MLP и 6 мг/кг специфичной к HBV CRISPR-Cas, могут предусматриваться в настоящем изобретении. В альтернативном случае, приблизительно 3 мг/кг NAG-MLP и 3 мг/кг специфичной к HBV CRISPR-Cas могут доставляться в первый день с последующим введением приблизительно 2-3 мг/кг NAG-MLP и 2-3 мг/кг специфичной к HBV CRISPR-Cas две недели спустя.

- Lin et al. (Mol Ther Nucleic Acids. 2014 Aug 19;3:e186. doi: 10.1038/mtna.2014.38) разработали восемь gRNA к HBV генотипа A. с помощью специфичных к HBV gRNA система CRISPR-Cas9 значительно снижала образование коровых и поверхностных белков HBV в клетках Huh-7, трансфицированных вектором экспрессии на основе HBV. Среди восьми подвергнутых скринингу gRNA были идентифицированы две эффективные. Одна gRNA, нацеленная на консервативную последовательность HBV, действовала против различных генотипов. С использованием гидродинамической мышиной модели устойчивости HBV Lin et al. дополнительно продемонстрировали, что эта система могла расщеплять плазмиду, содержащую геном HBV, в печени и облегчать ее клиренс in vivo, приводя к снижению уровней поверхностных антигенов сыворотки. Эти данные свидетельствуют о том, что система CRISPR-Cas9 могла разрывать HBV-экспрессирующие матрицы как in vitro, так и in vivo, указывая на потенциал в устранении хронической инфекции, обусловленной HBV.

- Dong et al. (Antiviral Res. 2015 Jun;118:110-7. doi: 10.1016/j.antiviral.2015.03.015. Epub 2015 Apr 3) использовали систему CRISPR-Cas9 для нацеливания на геном HBV и эффективного ингибирования инфекции, обусловленной HBV. Dong et al. синтезировали четыре одиночные направляющие РНК (направляющие РНК), нацеливающиеся на консервативные области HBV. Экспрессия этих направляющих РНК с Cas9 снижала образование вирусов в клетках Huh7, а также в клетках HepG2.2.15, реплицирующих HBV. Dong et al. дополнительно продемонстрировали, что непосредственное расщепление системой CRISPR-Cas9 и опосредованный расщеплением мутагенез происходили в cccDNA HBV трансфицированных клеток. В мышиной модели cccDNA, несущей HBV, инъекция плазмид на основе направляющей РНК и Cas9 в хвостовую вену приводила к низкому уровню cccDNA и белка HBV.

- Liu et al. (J Gen Virol. 2015 Aug;96(8):2252-61. doi: 10.1099/vir.0.000159. Epub 2015 Apr 22) разработали восемь направляющих РНК (gRNA), которые нацеливались на консервативные области различных генотипов HBV, которые могли значительно ингибировать репликацию HBV как in vitro, так и in vivo, с целью исследования возможности применения системы CRISPR-Cas9 для разрыва ДНК-матриц HBV. Специфичная к HBV система gRNA/Cpf1 могла ингибировать репликацию HBV различных генотипов в клетках, а уровень вирусной ДНК значительно снижался в результате действия системы одиночной gRNA/Cpf1 и она выводилась в результате комбинации различных систем gRNA/Cpf1.

- Wang et al. (World J Gastroenterol. 2015 Aug 28;21(32):9554-65. doi: 10.3748/wjg.v21.i32.9554) разработали 15 gRNA к HBV генотипов A-D. Были выбраны одиннадцать комбинаций из двух вышеуказанных gRNA (двойные gRNA), охватывающие регуляторную область HBV. Эффективность каждой gRNA и 11 двойных gRNA по отношению к супрессии репликации HBV (генотипы A-D) исследовали с помощью измерения поверхностного антигена HBV (HBsAg) или антигена e (HBeAg) в супернатанте культуры. Разрушение HBV-экспрессирующих векторов исследовали в клетках HuH7, котрансфицированных вектором, экспрессирующим двойные gRNA и HBV, с помощью метода полимеразной цепной реакции (ПЦР) и секвенирования, а разрушение cccDNA исследовали в клетках HepAD38 с помощью осаждения KCl, переваривания АТФ-зависимой ДНКазой, безопасной для плазмиды (PSAD), комбинированного способа амплификации по типу катящегося кольца и количественной ПЦР. Цитотоксичность этих gRNA определяли с помощью анализа тетразолия в митохондриях. Все из gRNA могли значительно снижать образование HBsAg или HBeAg в супернатанте культуры, которое зависело от области направленности gRNA. Все из двойных gRNA могли эффективно супрессировать образование HBsAg и/или HBeAg в случае HBV генотипов A-D, и эффективность двойных gRNA в супрессии образования HBsAg и/или HBeAg значительно повышалась при сравнении с использованием только одиночных gRNA. Кроме того, при помощи прямого ПЦР-секвенирования подтвердили, что эти двойные gRNA могли специфично разрушать HBV-экспрессирующую матрицу посредством удаления фрагмента между сайтами расщепления двух используемых gRNA. Более важно, что комбинация gRNA-5 и gRNA-12 не только могла эффективно супрессировать образование HBsAg и/или HBeAg, но также разрушать запасы cccDNA в клетках HepAD38.

- Karimova et al. (Sci Rep. 2015 Sep 3;5:13734. doi: 10.1038/srep13734) идентифицировали консервативные последовательности HBV между генотипами в S и X области генома HBV, которые были подвергнуты нацеливанию специфичного и эффективного расщепления с помощью никазы Cas9. С помощью этого подхода нарушали не только эписомальные cccDNA и интегрированные в хромосомы целевые сайты HBV в репортерных линиях клеток, но также репликацию HBV в линиях клеток гепатомы с хронической и de novo инфекцией.

- Специалист в данной области может воспользоваться вышеприведенными исследованиями, например, Lin et al. (Mol Ther Nucleic Acids. 2014 Aug 19;3:e186. doi: 10.1038/mtna.2014.38), Dong et al. (Antiviral Res. 2015 Jun;118:110-7. doi: 10.1016/j.antiviral.2015.03.015. Epub 2015 Apr 3), Liu et al. (J Gen Virol. 2015 Aug;96(8):2252-61. doi: 10.1099/vir.0.000159. Epub 2015 Apr 22), Wang et al. (World J Gastroenterol. 2015 Aug 28;21(32):9554-65. doi: 10.3748/wjg.v21.i32.9554) и Karimova et al. (Sci Rep. 2015 Sep 3;5:13734. doi: 10.1038/srep13734) для нацеливания на HBV с помощью системы CRISPR Cas по настоящему изобретению.

Хроническая инфекция вируса гепатита B (HBV) является распространенной, смертельной и редко излечимой в связи с устойчивостью вирусной эписомальной ДНК (cccDNA) в инфицированных клетках. Ramanan et al. (Ramanan V, Shlomai A, Cox DB, Schwartz RE, Michailidis E, Bhatta A, Scott DA, Zhang F, Rice CM, Bhatia SN, Sci Rep. 2015 Jun 2;5:10833. doi: 10.1038/srep10833, опубликовано онлайн 2 июня 2015 г.) показали, что система CRISPR/Cas9 может специфично нацеливаться и расщеплять консервативные области в геноме HBV, приводя к устойчивой супрессии экспрессии и репликации генов. При длительной экспрессии Cas9 и соответствующим образом выбранных направляющих РНК они показали расщепление cccDNA с помощью Cas9 и существенное снижение cccDNA и других параметров экспрессии и репликации вирусных генов. Таким образом, они показали, что непосредственное нацеливание на эписомальную ДНК является новым терапевтическим подходом к контролю вируса и, возможно, излечению пациентов. Это также описано в WO2015089465 A1, от имени The Broad Institute (института Броада) et al., содержание которого тем самым включено в данный документ посредством ссылки.

В связи с этим нацеливание вирусной эписомальной ДНК в HBV является предпочтительным в некоторых вариантах осуществления.

Настоящее изобретение также может быть применимо для лечения патогенов, например бактериальных, грибковых и паразитарных патогенов. Большинство исследовательских усилий было сосредоточено на создании новых антибиотиков, которые после создания все равно стали бы предметом аналогичных проблем, связанных с устойчивостью к лекарственному средству. Настоящее изобретение относится к новым альтернативам на основе CRISPR, которые преодолевают эти сложности. Кроме того, в отличие от существующих антибиотиков варианты лечения на основе CRISPR могут быть проведены специфично по отношению к патогенам, с индукцией клеточной смерти целевого патогена, при этом не затрагиваются полезные бактерии.

- Настоящее изобретение также можно применять для лечения вируса гепатита C (HCV). Способы согласно Roelvinki et al. (Molecular Therapy vol. 20 no. 9, 1737-1749 Sep 2012) можно применять по отношению к системе CRISPR-Cas. Например, вектор AAV, такой как AAV8, может быть предполагаемым вектором и может предусматриваться, например доза, составляющая от приблизительно 1,25 × 10¹¹ до 1,25 × 10¹³ векторных геномов на килограмм массы тела (vg/кг).Настоящее изобретение также может быть применимо для лечения патогенов, например бактериальных, грибковых и паразитических патогенов. Большинство исследовательских усилий было сосредоточено на создании новых антибиотиков, которые после создания все равно стали бы предметом аналогичных проблем, связанных с устойчивостью к лекарственному средству. Настоящее изобретение относится к новым альтернативам на основе CRISPR, которые преодолевают эти сложности. Кроме того, в отличие от существующих антибиотиков варианты лечения на основе CRISPR могут быть проведены специфично по отношению к патогенам, с индукцией клеточной смерти целевого патогена, при этом не затрагиваются полезные бактерии.

Лечение заболеваний с генетическими и эпигенетическими аспектами

- Системы CRISPR-Cas по настоящему раскрытию могут быть использованы для коррекции генетических мутаций, в отношении которых ранее предпринимались попытки с ограниченным успехом при помощи TALEN и ZFN и которые были идентифицированы в качестве потенциальных мишеней для систем Cas9, в том числе, как в опубликованных заявках на патент Editas Medicine, описывающих способы применения систем Cas9 для нацеливания на локусы с целью терапевтической направленности на заболевания при помощи генной терапии, в том числе WO 2015/048577 CRISPR-RELATED METHODS AND COMPOSITIONS Gluckmann et al.; WO 2015/070083 CRISPR-RELATED METHODS AND COMPOSITIONS WITH GOVERNING gRNAS Glucksmann et al. В некоторых вариантах осуществления предусмотрено лечение, профилактика или диагностика первичной открытоугольной глаукомы (POAG). Мишенью предпочтительно является ген MYOC. Это описано в WO2015153780, раскрытие которого включено в данный документе посредством ссылки.

Упоминаются WO 2015/134812 CRISPR/CAS-RELATED METHODS AND COMPOSITIONS FOR TREATING USHER SYNDROME AND RETINITIS PIGMENTOSA, Maeder et al. В идеях, изложенных в данном документе, настоящее изобретение включает способы и материалы этих документов, применяемые в сочетании с идеями, изложенными в данном документе. В одном аспекте генная терапия заболеваний зрения и слуха, способы и композиции для лечения синдрома Ушера и пигментного ретинита могут быть адаптированы к системе CRISPR-Cas по настоящему изобретению (см., например, WO 2015/134812). В варианте осуществления WO 2015/134812 предусматривает лечение или задержку наступления или прогрессирования синдрома Ушера IIA типа (USH2A, USH11A) и пигментного ретинита 39 типа (RP39) при помощи редактирования гена, например при помощи способов, опосредованных системой CRISPR-Cas9, с целью коррекции делеции гуанина в положении 2299 в гене USH2A (например, замены удаленного гуанинового остатка в положении 2299 в гене USH2A). Аналогичный эффект может быть достигнут при помощи Cpf1. В связанном аспекте мутация повергается нацеливанию с помощью расщепления одной или несколькими нуклеазами, одной или несколькими никазами или их комбинацией, например для индукции HDR с донорской матрицей, которая корректирует точковую мутацию (например, однонуклеотидную, например, гуаниновую делецию). Изменение или коррекция мутантного гена USH2A может быть опосредована любым механизмом. Иллюстративные механизмы, которые могут быть ассоциированы с изменением (например, коррекцией) мутантного гена HSH2A, включают без ограничения негомологичное соединение концов, опосредованное микрогомологией связывание концов (MMEJ), репарацию с участием гомологичной рекомбинации (например, опосредованную эндогенной донорской матрицей), SDSA (синтез-зависимый отжиг нитей), однонитевой отжиг и однонитевую инвазию. В варианте осуществления способ, применяемый для лечения синдрома Ушера и пигментного ретинита, может включать получение информации о мутации, переносимой субъектом, например с помощью секвенирования соответствующего участка гена USH2A.

Следует упомянуть WO 2015/138510 и в идеях, изложенных в данном документе, настоящее изобретение (с помощью системы CRISPR-Cas9) подразумевает обеспечение лечения или задержку наступления или прогрессирования врожденного амавроза Лебера 10 типа (LCA 10). LCA 10 вызван мутацией в гене CEP290, например c.2991+1655, мутацией аденина в гуанин в гене CEP290, которая приводит к образованию криптического сайта сплайсинга в интроне 26. Это мутация в нуклеотиде 1655 интрона 26 CEP290, например мутация A в G. CEP290 также известен как CT87; MKS4; POC3; rd16; BBS14; JBTS5; LCAJO; NPHP6; SLSN6 и 3H11Ag (см., например, WO 2015/138510). В одном аспекте генной терапии настоящее изобретение предусматривает введение одного или нескольких разрывов возле сайта целевого положения LCA (например, c.2991 + 1655; A в G) по меньшей мере в одном аллеле гена CEP290. Изменение целевого положения LCA10 относится к (1) индуцированному разрывом введению вставок/делеций (также обозначаемому в данном документе как NHEJ-опосредованное введение вставок/делеций) в непосредственной близости к целевому положению LCA10 или включая его (например, c.2991+1655 A в G), или (2) индуцированной разрывом делеции (также обозначаемой как NHEJ-опосредованная делеция) геномной последовательности, в том числе мутацию в целевом положении LCA10 (например, c.2991+1655 A в G). Оба подхода приводят к потере функции или разрушению криптического сайта сплайсинга, образующегося в результате мутации в целевом положении LCA 10. Соответственно, применение Cpf1 в лечении LCA специально предусмотрено.

- Исследователи рассматривают вопрос о том, можно ли применять генную терапию для лечения широкого диапазона заболеваний. Системы CRISPR по настоящему изобретению, основанные на эффекторном белке Cpf1, предусмотрены для таких вариантов терапевтического применения, включая без ограничения дополнительные приведенные в примерах целевые области и способы доставки, приведенные ниже. Некоторые примеры состояний или заболеваний, которые можно эффективно лечить с использованием системы по настоящему изобретению, включенные в примеры генов и ссылок, включенных в данный документ, и в настоящее время ассоциированные с такими состояниями, также предусмотрены в данном документе. Приведенные в качестве примеров гены и состояния не являются исчерпывающими.

Лечение заболеваний сердечно-сосудистой системы

- Настоящее изобретение также предусматривает доставку системы CRISPR-Cas, в частности новых систем эффекторного белка CRISPR, описанных в данном документе, в кровь или гемопоэтические стволовые клетки. Экзосомы плазмы крови согласно Wahlgren et al. (Nucleic Acids Research, 2012, Vol. 40, No. 17 e130) были описаны ранее и их можно использовать для доставки системы CRISPR-Cas в кровь. Система нацеливания на нуклеиновую кислоту по настоящему изобретению также предусматривается для лечения гемоглобинопатий, таких как формы талассемии и серповидноклеточной анемии. См., например, международную публикацию заявки на патент WO 2013/126794 в отношении потенциальных мишеней, на которые может целенаправленно воздействовать система CRISPR-Cas по настоящему изобретению.

- В публикации Drakopoulou, "Review Article, The Ongoing Challenge of Hematopoietic Stem Cell-Based Gene Therapy for β-Thalassemia", Stem Cells International, Volume 2011, Article ID 987980, 10 pages, doi:10.4061/2011/987980, включенной в данный документ посредством ссылки вместе с документами, которые в ней перечислены так, если бы они были изложены в полном объеме, обсуждается модификация HSC с применением лентивируса, который доставляет ген β-глобина или γ-глобина. В отличие от применения лентивируса специалист в данной области с использованием знаний в данной области и идей настоящего изобретения может корректировать HSC относительно β-талассемии с применением системы CRISPR-Cas, которая нацеливается на мутацию и корректирует ее (например, с помощью подходящей матрицы для HDR, которая доставляет кодирующую последовательность для β-глобина или γ-глобина, преимущественно β-глобина или γ-глобина несерповидных форм эритроцитов); в частности, направляющая РНК может осуществлять нацеливание на мутацию, которая приводит к β-талассемии, и HDR может обеспечивать кодирование, приводящее к надлежащей экспрессии β-глобина или γ-глобина. Направляющая РНК, которая нацеливается на мутацию и частицу, содержащую белок Cas, контактирует с HSC, несущими мутацию. Частица также может содержать подходящую матрицу для HDR для коррекции мутации с целью надлежащей экспрессии β-глобина или γ-глобина; или HSC может быть приведена в контакт со второй частицей или вектором, который содержит или доставляет матрицу для HDR. Приведенные таким образом в контакт клетки можно вводить и необязательно обрабатывать и разращивать; см. Cartier. В этом отношении следует упомянуть публикацию Cavazzana "Outcomes of Gene Therapy for β-Thalassemia Major via Transplantation of Autologous Hematopoietic Stem Cells Transduced Ex Vivo with a Lentiviral β^A-T87Q-Globin Vector." tif2014.org/abstractFiles/Jean%20Antoine%20Ribeil_Abstract.pdf; Cavazzana-Calvo "Transfusion independence and HMGA2 activation after gene therapy of human β-thalassaemia", Nature 467, 318-322 (16 сентября 2010 года) doi:10.1038/nature09328; Nienhuis "Development of Gene Therapy for Thalassemia, Cold Spring Harbor Perspectives in Medicine, doi: 10.1101/cshperspect.a011833 (2012), LentiGlobin BB305, лентивирусный вектор, содержащий сконструированный ген β-глобина (βA-T87Q); и Xie et al. "Seamless gene correction of β-thalassaemia mutations in patient-specific iPSCs using CRISPR/Cas9 and piggyback" Genome Research gr.173427.114 (2014) http://www.genome.org/cgi/doi/10.1101/gr.173427.114 (Cold Spring Harbor Laboratory Press); который является предметом исследования Cavazzana, включая β-талассемию человека, и предметом исследования Xie, причем все включены в данный документ посредством ссылки, вместе со всеми документами, которые в них перечислены или связаны с ними. В настоящем изобретении матрица для HDR может обеспечивать экспрессию HSC сконструированного гена β-глобина (например, β^A-T87Q) или β-глобина, указанного у Xie.

- Xu et al. (Sci Rep. 2015 Jul 9;5:12065. doi: 10.1038/srep12065) разработали TALEN и CRISPR-Cas9 для непосредственного нацеливания на сайт IVS2-654 мутации интрона 2 в гене глобина. Xu et al. наблюдали различные частоты двунитевых разрывов (DSB) в локусах IVS2-654 при применении TALEN и CRISPR-Cas9, и TALEN опосредовали более высокую эффективность нацеливания на гомологичные гены по сравнению с CRISPR-Cas9 при комбинировании с донором транспозона piggyBac. Кроме того, более очевидные нецелевые события наблюдали в случае CRISPR-Cas9 по сравнению с TALEN. В конечном итоге, откорректированные с помощью TALEN клоны iPSC отбирали на предмет дифференциации эритробластов с помощью системы кокультивирования OP9 и выявляли относительно высокую транскрипцию HBB по сравнению с неоткорректированными клетками.

- Song et al. (Stem Cells Dev. 2015 May 1;24(9):1053-65. doi: 10.1089/scd.2014.0347. Epub 2015 Feb 5) использовали систему CRISPR/ Cas9 для коррекции iPSC с β-Thal; клетки с откорректированными генами характеризовались нормальными кариотипами и полной плюрипотентностью, поскольку эмбриональные стволовые клетки человека (hESC) не проявляли нецелевых эффектов. Впоследствии Song et al. оценивали эффективность дифференцировки iPSC с β-Thal с откорректированными генами. Song et al. обнаружили, что во время дифференцировки гемопоэтических клеток iPSC с β-Thal с откорректированными генами характеризовались повышенным соотношением эмбриоидных телец и различными процентами гемопоэтических клеток-предшественников. Гораздо более важно, линии iPSC с β-Thal с откорректированными генами восстанавливали экспрессию HBB и снижали образование активных форм кислорода по сравнению с неоткорректированной группой. Исследование Song et al. свидетельствовало о том, что эффективность гемопоэтической дифференцировки iPSC с β-Thal была значительно повышена непосредственно после коррекции с помощью системы CRISPR-Cas9. Аналогичные способы могут осуществляться при помощи систем CRISPR-Cas, описанных в данном документе, например, систем, содержащих эффекторные белки Cpf1.

- Серповидноклеточная анемия представляет собой аутосомно-рецессивное наследственное заболевание, при котором красные кровяные тельца приобретают серповидную форму. Оно вызывается заменой одного основания в гене β-глобина, который локализован на коротком плече хромосомы 11. Как результат, валин продуцируется вместо глутаминовой кислоты, что вызывает продуцирование гемоглобина серповидных клеток (HbS). Это приводит к образованию искривленной формы эритроцитов. В связи с аномальной формой небольшие кровеносные сосуды могут блокироваться, вызывая серьезное повреждение кости, селезенки и тканей кожи. Это может приводить к приступам боли, частым инфекциям, ладонно-подошвенному синдрому или даже полиорганной недостаточности. Искривленные эритроциты также являются более восприимчивыми к гемолизу, что приводит к серьезной анемии. Как и в случае β-талассемии, серповидноклеточную анемию можно корректировать путем модификации HSC с использованием системы CRISPR-Cas. Данная система обеспечивает возможность специфического редактирования генома клетки путем разрезания ее ДНК с обеспечением после этого ее самовосстановления. Белок Cas вставляют и направляют с помощью направляющей РНК в точку мутации, а затем он разрезает ДНК в этой точке. Одновременно вставляют нормальный вариант последовательности. Данная система используется собственной системой репарации для исправления индуцированного разреза. В этом отношении система CRISPR-Cas обеспечивает возможность коррекции мутации в ранее полученных стволовых клетках. Специалист в данной области с использованием знаний в данной области и идей настоящего изобретения может корректировать HSC относительно серповидноклеточной анемии с применением системы CRISPR-Cas, которая нацеливается на и корректирует мутацию (например, с помощью подходящей матрицы для HDR, которая доставляет кодирующую последовательность для β-глобина, преимущественно β-глобина не серповидных форм эритроцитов); в частности, направляющая РНК может осуществлять нацеливание на мутацию, которая приводит к серповидноклеточной анемии, и HDR может обеспечивать кодирование, приводящее к правильной экспрессии β-глобина. Направляющая РНК, которая нацеливается на мутацию и частицу, содержащую белок Cas, контактирует с HSC, несущими мутацию. Частица также может содержать подходящую матрицу для HDR для коррекции мутации с целью надлежащей экспрессии β-глобина; или HSC может быть приведена в контакт со второй частицей или вектором, который содержит или доставляет матрицу для HDR. Приведенные таким образом в контакт клетки можно вводить и необязательно обрабатывать и разращивать; см. Cartier. Матрица для HDR может обеспечивать экспрессию HSC сконструированного гена β-глобина (например, βA-T87Q) или β-глобина, указанного у Xie.

- В публикации Williams "Broadening the Indications for Hematopoietic Stem Cell Genetic Therapies," Cell Stem Cell 13:263-264 (2013), включенной в данный документ посредством ссылки вместе с документами, которые в ней перечислены, так, если бы были изложены в полном объеме, сообщается об опосредованном лентивирусами переносе генов в клетки HSC/P из пациентов с лизосомной болезнью накопления, метахроматической лейкодистрофией (MLD), наследственным заболеванием, вызванным дефицитом арилсульфатазы A (ARSA), приводящей к демиелинизации нервов; и опосредованном лентивирусами переносе генов в HSC пациентов с синдром Вискотта-Олдрича (WAS) (пациентов с дефектным белком WAS, эффектором малой ГТФазы CDC42, которая регулирует функцию цитоскелета в линиях клеток крови и, таким образом, они страдают от иммунодефицита при рецидивирующих инфекциях, симптомов аутоиммунных заболеваний и тромбоцитопении с аномально мелкими и функционально неэффективными тромбоцитами, что приводит к обильному кровотечению и повышенному риску возникновения лейкоза и лимфомы). В отличие от применения лентивируса специалист в данной области с использованием знаний в данной области и идей настоящего изобретения может корректировать HSC относительно MLD (недостаточность арилсульфатазы A (ARSA)) с применением системы CRISPR-Cas, которая нацеливается на мутацию и корректирует ее (недостаточность арилсульфатазы A (ARSA)) (например, с помощью подходящей матрицы для HDR, которая доставляет кодирующую последовательность для ARSA); в частности, направляющая РНК может осуществлять нацеливание на мутацию, которая приводит к MLD (недостаточность ARSA), и HDR может обеспечивать кодирование, приводящее к надлежащей экспрессии ARSA. Направляющая РНК, которая нацеливается на мутацию и частицу, содержащую белок Cas, контактирует с HSC, несущими мутацию. Частица также может содержать подходящую матрицу для HDR для коррекции мутации с целью надлежащей экспрессии ARSA; или HSC может быть приведена в контакт со второй частицей или вектором, который содержит или доставляет матрицу для HDR. Приведенные таким образом в контакт клетки можно вводить и необязательно обрабатывать и разращивать; см. Cartier. В отличие от применения лентивируса специалист в данной области с использованием знаний в данной области и идей настоящего изобретения может корректировать HSC относительно WAS с применением системы CRISPR-Cas, которая нацеливается на мутацию и корректирует ее (недостаточность белка WAS) (например, с помощью подходящей матрицы для HDR, которая доставляет кодирующую последовательность для белка WAS); в частности, направляющая РНК может осуществлять нацеливание на мутацию, которая приводит к WAS (дефектный белок WAS), и HDR может обеспечивать кодирование, приводящее к надлежащей экспрессии белка WAS. Направляющая РНК, которая нацеливается на мутацию и частицу, содержащую белок Cpf1, контактирует с HSC, несущими мутацию. Частица также может содержать подходящую матрицу для HDR для коррекции мутации с целью надлежащей экспрессии белка WAS; или HSC может быть приведена в контакт со второй частицей или вектором, который содержит или доставляет матрицу для HDR. Приведенные таким образом в контакт клетки можно вводить и необязательно обрабатывать и разращивать; см. Cartier.

- В публикации Watts "Hematopoietic Stem Cell Expansion and Gene Therapy" Cytotherapy 13(10):1164-1171. doi:10.3109/14653249.2011.620748 (2011), включенной в данный документ посредством ссылки вместе с документами, которые в ней перечислены, так, если бы были изложены в полном объеме, обсуждается генная терапия кроветворных стволовых клеток (HSC), например, опосредованная вирусами генная терапия HSC, как весьма перспективный вариант лечения многих нарушений, в том числе гематологических состояний, типов иммунодефицита, в том числе HIV/AIDS, и других наследственных нарушений, таких как лизосомные болезни накопления, в том числе SCID-X1, ADA-SCID, β-талассемия, сцепленная с Х-хромосомой CGD, синдром Вискотта-Олдрича, анемия Фанкони, адренолейкодистрофия (ALD) и метахроматическая лейкодистрофия (MLD).

- Публикации заявки на патент США №№ 20110225664, 20110091441, 20100229252, 20090271881 и 20090222937, закрепленные за Cellectis, относятся к вариантам CREI, где по меньшей мере один из двух мономеров I-CreI имеет по меньшей мере две замены, по одной в каждой из двух функциональных субдоменов корового домена LAGLIDADG (SEQ ID NO: 26), расположенных соответственно, начиная от положений 26 до 40 и от 44 до 77 I-CreI, при этом указанный вариант способен расщеплять целевую последовательность ДНК из гена гамма-цепи рецептора интерлейкина 2 человека (IL2RG), также обозначаемого геном гамма-цепи общего цитокинового рецептора или геном гамма C. Целевые последовательности, указанные в публикациях заявок на патенты США №№ 20110225664, 20110091441, 20100229252, 20090271881 и 20090222937, могут быть использованы для системы нацеливания на нуклеиновую кислоту по настоящему изобретению.

- Тяжелый комбинированный иммунодефицит (SCID) возникает в результате нарушения созревания T-лимфоцитов, во всех случаях ассоциированного с нарушением функционирования B-лимфоцитов (Cavazzana-Calvo et al., Annu. Rev. Med., 2005, 56, 585-602; Fischer et al., Immunol. Rev., 2005, 203, 98-109). Общая заболеваемость по оценкам составляет 1 на 75 000 родившихся. Пациенты с нелеченным SCID подвержены множественным инфекциям, вызываемым условно-патогенными микроорганизмами, и живут, как правило, не более одного года. SCID можно лечить путем аллогенного переноса кроветворных стволовых клеток от донора-родственника. Степень гистосовместимости с донором может варьировать в широких пределах. В случае аденозиндезаминазной (ADA) недостаточности, одной из форм SCID, пациентов можно лечить с помощью инъекции рекомбинантного фермента аденозиндезаминазы.

- Поскольку было показано, что ген ADA у пациентов с SCID является мутированным (Giblett et al., Lancet, 1972, 2, 1067-1069), были идентифицированы некоторые другие гены, вовлеченные в SCID (Cavazzana-Calvo et al., Annu. Rev. Med., 2005, 56, 585-602; Fischer et al., Immunol. Rev., 2005, 203, 98-109). Существуют четыре основные причины SCID. (i) Наиболее часто встречающуюся форму SCID, SCID-X1 (SCID, сцепленный с X-хромосомой, или X-SCID), вызывает мутация в гене IL2RG, которая приводит к отсутствию зрелых T-лимфоцитов и NK-клеток. IL2RG кодирует белок гамма-C (Noguchi, et al., Cell, 1993, 73, 147-157), общий компонент по меньшей мере пяти рецепторных комплексов интерлейкинов. Данные рецепторы активируют несколько мишеней с помощью киназы JAK3 (Macchi et al., Nature, 1995, 377, 65-68), инактивация которой приводит к возникновению того же синдрома, что и инактивация гамма-C. (ii) Мутация в гене ADA приводит к нарушению метаболизма пуринов, вызывающему гибель предшественников лимфоцитов, что, в свою очередь, приводит к кажущемуся отсутствию B-, T- и NK-клеток. (iii) V(D)J-рекомбинация является существенным этапом созревания иммуноглобулинов и рецепторов T-лимфоцитов (TCR). Мутации в генах, активирующих рекомбинацию, 1 и 2 (RAG1 и RAG2) и Artemis, трех генах, участвующих в этом процессе, приводят к отсутствию зрелых T- и B-лимфоцитов. (iv) Также сообщали о мутациях в других генах, таких как CD45, участвующих в специфичной передаче сигналов в T-клетках, хотя они представляют меньшинство случаев (Cavazzana-Calvo et al., Annu. Rev. Med., 2005, 56, 585-602; Fischer et al., Immunol. Rev., 2005, 203, 98-109). С тех пор, как были идентифицированы их генетические основы, различные формы SCID стали модельными для подходов к генной терапии (Fischer et al., Immunol. Rev., 2005, 203, 98-109) по двум основным причинам. Во-первых, как и при всех заболеваниях крови, может быть предусмотрено лечение ex vivo. Можно выделить гемопоэтические стволовые клетки (HSC) из костного мозга и сохранять их свойства плюрипотентности в течение нескольких клеточных делений. Таким образом, их можно обрабатывать in vitro, а затем повторно инъецировать пациенту, где они повторно заселяют костный мозг. Во-вторых, поскольку созревание лимфоцитов у пациентов с SCID ухудшено, скорректированные клетки имеют селективное преимущество. Таким образом, небольшое количество скорректированных клеток может восстановить функционирование иммунной системы. Данную гипотезу подтверждали несколько раз (i) частичным восстановлением иммунных функций, связанным с реверсией мутаций у пациентов с SCID (Hirschhorn et al., Nat. Genet., 1996, 13, 290-295; Stephan et al., N. Engl. J. Med., 1996, 335, 1563-1567; Bousso et al., Proc. Natl., Acad. Sci. USA, 2000, 97, 274-278; Wada et al., Proc. Natl. Acad. Sci. USA, 2001, 98, 8697-8702; Nishikomori et al., Blood, 2004, 103, 4565-4572), (ii) коррекцией форм недостаточности SCID-X1 in vitro в гемапоэтических клетках (Candotti et al., Blood, 1996, 87, 3097-3102; Cavazzana-Calvo et al., Blood, 1996, Blood, 88, 3901-3909; Taylor et al., Blood, 1996, 87, 3103-3107; Hacein-Bey et al., Blood, 1998, 92, 4090-4097), (iii) коррекцией SCID-X1 (Soudais et al., Blood, 2000, 95, 3071-3077; Tsai et al., Blood, 2002, 100, 72-79), JAK-3 (Bunting et al., Nat. Med., 1998, 4, 58-64; Bunting et al., Hum. Gene Ther., 2000, 11, 2353-2364) и RAG2 (Yates et al., Blood, 2002, 100, 3942-3949) in vivo в животных моделях и (iv) результатом клинических испытаний генной терапии (Cavazzana-Calvo et al., Science, 2000, 288, 669-672; Aiuti et al., Nat. Med., 2002; 8, 423-425; Gaspar et al., Lancet, 2004, 364, 2181-2187).

- Публикация заявки на патент США № 20110182867, закрепленная за Children's Medical Center Corporation и президентом и членами управляющего совета Гарвардского университета, относится к способам модулирования экспрессии фетального гемоглобина (HbF) и ее применениям в гемопоэтических клетках-предшественниках с помощью ингибиторов экспрессии или активности BCL11A, таких как средства для RNAi и антитела. На мишени, раскрытые в публикации заявки на патент США № 20110182867, такие как BCL11A, можно целенаправленно воздействовать с помощью системы CRISPR-Cas по настоящему изобретению для модулирования экспрессии фетального гемоглобина. См. также Bauer et al. (Science 11 October 2013: Vol. 342 no. 6155 pp. 253-257) и Xu et al. (Science 18 November 2011: Vol. 334 no. 6058 pp. 993-996) в отношении дополнительных мишеней BCL11A.

- При наличии знаний в данной области и идей настоящего изобретения специалист в данной области может корректировать HSC по отношению к наследственному гематологическому нарушению, например, β-талассемии, гемофилии или генетической лизосомной болезни накопления.

HSC - доставка в гемопоэтические стволовые клетки и их редактирование; и определенные условия

- Термин "гемопоэтическая стволовая клетка" или "HSC" включает в широком смысле те клетки, которые считаются HSC, например клетки крови, которые приводят к образованию всех других клеток крови и получены из мезодермы; расположены в красном костном мозге, содержащемся во внутренней части большинства костей. HSC по настоящему изобретению включают клетки с фенотипом гемопоэтических стволовых клеток, идентифицированных по небольшому размеру, отсутствию линейных (lin) маркеров и маркеров, которые принадлежат к кластеру серий дифференцировки, например: CD34, CD38, CD90, CD133, CD105, CD45, а также c-kit, - рецептор фактора стволовых клеток. Гемопоэтические стволовые клетки являются отрицательными по отношению к маркерам, которые используют для выявления детерминации дифференцировки, и, таким образом, называются Lin-; и во время их очистки с помощью FACS ряда из до 14 включительно маркеров линий зрелых клеток крови, например, CD13 и CD33 для миелодиных, CD71 - для эритроидных, CD19 - для B-клеток, CD61 - для мегакариоцитарных клеток и т. д., например, для человека; и B220 (мышиный CD45) - для B-клеток, Mac-1 (CD11b/CD18) - для моноцитов, Gr-1 - для гранулоцитов, Ter119 - для эритроидных клеток, Il7Ra, CD3, CD4, CD5, CD8 - для T-клеток и т. д. Маркеры мышиных HSC: CD34lo/-, SCA-1+, Thy1.1+/lo, CD38+, C-kit+, lin-, и маркеры человеческих HSC: CD34+, CD59+, Thy1/CD90+, CD38lo/-, C-kit/CD117+ и lin-. HSC идентифицируют с помощью маркеров. Таким образом, в вариантах осуществления, описанных в данном документе, HSC могут представлять собой CD34+ клетки. HSC также могут представлять собой гемопоэтические стволовые клетки, которые являются CD34-/CD38-. Стволовые клетки, у которых может отсутствовать c-kit на клеточной поверхности, которые считаются в данной области в качестве HSC, находятся в объеме настоящего изобретения, а также CD133+ клетки, аналогично считаются HSC в данной области.

- Система CRISPR-Cas (например, Cpf1) может быть сконструирована для нацеливания на генетический локус или локусы в HSC. Можно получить белок (например, Cpf1), преимущественно кодон-оптимизированный по отношению к эукариотической клетке и, в частности, клетке млекопитающих, например человеческой клетке, например HSC, и sgRNA, нацеливающуюся на локус или локусы в HSC, например ген EMX1. Их можно доставлять посредством частиц. Частицы могут образовываться при помощи белка Cas (например, Cpf1) и добавляемой gRNA. Смесь gRNA и белка Cas (например, Cpf1) можно смешивать, например со смесью, содержащей или состоящей фактически из или состоящей из поверхностно-активного вещества, фосфолипида, биоразлагаемого полимера, липопротеина и спирта, при этом могут образовываться частицы, содержащие gRNA и белок Cas (например, Cpf1). Настоящее изобретение охватывает образованные таким образом частицы и частицы, полученные с помощью такого способа, а также варианты их применения.

- В более общем смысле частицы могут быть образованы с применением эффективного способа. Прежде всего, белок Cas (например, Cpf1) и gRNA, нацеленную на ген EMX1 или контрольный ген LacZ, можно смешивать вместе при подходящем молярном соотношении, например 3:1-1:3, или 2:1-1:2, или 1:1, при подходящей температуре, например, 15-30°C, например, 20-25°C, например, комнатной температуре, в течение подходящего периода времени, например, 15-45, как, например, 30 минут, преимущественно в стерильном буфере без нуклеаз, например 1X PBS. В отдельности, компоненты частиц, такие как или включающие поверхностно-активное вещество, например, катионный липид, например, 1,2-диолеоил-3-триметиламмонийпропан (DOTAP); фосфолипид, например, димиристоилфосфатидилхолин (DMPC); биоразлагаемый полимер, такой как полимер этиленгликоля или PEG, и липопротеин, такой как липопротеин низкой плотности, например, холестерин, можно растворять в спирте, преимущественно C1-6 алкиловом спирте, таком как метанол, этанол, изопропанол, например, 100% этанол. Два раствора можно смешивать вместе с образованием частиц, содержащих комплексы Cas-(например, Cpf1)-gRNA. В определенных вариантах осуществления частица может содержать матрицу для HDR. Это может быть частица, совместно введенная с частицей, содержащей gRNA+белок Cas (например, Cpf1), т. е. в дополнение к приведению HSC в контакт с частицей, содержащей gRNA+белок Cas (например, Cpf1), при этом HSC приводят в контакт с частицей, содержащей матрицу для HDR; или HSC приводят в контакт с частицей, содержащей все из gRNA, Cas (например, Cpf1) и матрицы для HDR. Матрицу для HDR можно вводить с помощью отдельного вектора, при этом в первом случае частица проникает в клетку HSC и отдельный вектор также проникает в клетку, где геном HSC модифицирован gRNA+Cas (например, Cpf1) и также присутствует матрица для HDR, при этом локус генома модифицирован посредством HDR; например, это может приводить к исправлению мутации.

- После образования частицы HSC в 96-луночных планшетах можно трансфицировать при помощи 15 мкг белка Cas (например, Cpf1) на лунку. Через три дня после трансфекции можно собирать HSC и определять количество вставок и делеций (вставок/делеций) в локусе EMX1.

- Это иллюстрирует то, как HSC можно модифицировать при помощи CRISPR-Cas (например, Cpf1), нацеливающейся на представляющий интерес локус в геноме или локусы в HSC. HSC, которые подлежат модификации, могут находиться in vivo, например в организме, например в человеке или отличном от человека эукариотическом организме, например животном, таком как рыба, например данио-рерио, млекопитающем, например примате, например, человекообразной обезьяне, шимпанзе, макаке, грызуне, например мыши, кролике, крысе, кошке или собаке, домашнем скоте (корове/быке, баране/овце, козе или свинье), дикой или домашней птице, например курице. HSC, которые подлежат модификации, могут находиться in vitro, т. е. за пределами такого организма. Также модифицированные HSC можно использовать ex vivo, т. е., одну или нескольких таких HSC такого организма можно получить или выделить из организма, необязательно HSC можно разращивать, HSC модифицируют при помощи композиции, содержащей CRISPR-Cas (например, Cpf1), которая нацеливается на генетический локус или локусы в HSC, например при приведении HSC в контакт с композицией, например, где композиция содержит фермент CRISPR и одну или несколько gRNA, которая нацеливается на генетический локус или локусы в HSC, например частица, полученная или получаемая при смешивании gRNA и белка Cas (например, Cpf1) со смесью, содержащей или состоящей фактически из или состоящей из поверхностно-активного вещества, фосфолипида, биоразлагаемого полимера, липопротеина и спирта (где одна или несколько gRNA нацеливаются на генетический локус или локусы в HSC), необязательно разращивать полученные модифицированные HSC и вводить в организм полученные модифицированные HSC. В некоторых примерах выделенные или полученные HSC могут происходить из первого организма, такого как организм того же самого вида, как и второй организм, и второй организм может представлять собой организм, в который вводят полученные модифицированные HSC, например, первый организм может быть донором (например, родственником, как в случае родителя или сибса) для второго организма. Модифицированные HSC могут иметь генетические мутации для лечения, облегчения или ослабления симптомов заболевания или состояния индивидуума, или субъекта, или пациента. Модифицированные HSC, например, в случае, когда первый организм является донором для второго организма, могут иметь генетические модификации с тем, чтобы HSC имели один или несколько белков, например, поверхностных маркеров или белков, которые более подобны, чем у второго организма. Модифицированные HSC могут иметь генетические модификации для имитации заболевания или состояния индивидуума, или субъекта, или пациента и могут быть повторно введены в отличный от человека организм с получением животной модели. Разращивание HSC находится в пределах компетенции специалиста в данной области исходя из настоящего изобретения и знаний в данной области, см., например, Lee, "Improved ex vivo expansion of adult hematopoietic stem cells by overcoming CUL4-mediated degradation of HOXB4." Blood. 2013 May 16;121(20):4082-9. doi: 10.1182/blood-2012-09-455204. Epub 2013 Mar 21.

- Как указано, для повышения активности gRNA можно обеспечивать предварительное образование комплекса sgRNA с белком Cas (например, Cpf1) перед составлением целого комплекса в частице. Составы можно получать с различным молярным соотношением различных компонентов, известных как способствующие доставке нуклеиновой кислоты в клетки (например, 1,2-диолеоил-3-триметиламмоний-пропан (DOTAP), 1,2-дитетрадеканоил-sn-глицеро-3-фосфохолин (DMPC), полиэтиленгликоль (PEG) и холестерин). Например, молярные соотношения DOTAP: DMPC: PEG: холестерин могут быть следующими: DOTAP 100, DMPC 0, PEG 0, холестерин 0; или DOTAP 90, DMPC 0, PEG 10, холестерин 0; или DOTAP 90, DMPC 0, PEG 5, холестерин 5. DOTAP 100, DMPC 0, PEG 0, холестерин 0. Настоящее изобретение, соответственно, охватывает смешивание gRNA, белка Cas (например, Cpf1) и компонентов, которые образуют частицу; а также частицы в результате такого добавления.

- В предпочтительном варианте осуществления частицы, содержащие комплекс Cas-(например, Cpf1)-gRNA, могут быть образованы путем смешивания белка Cas (например, Cpf1) и одной или нескольких gRNA вместе, предпочтительно при молярном соотношении фермент:направляющая РНК 1:1. В отдельности, различные компоненты, известные как способствующие доставке нуклеиновых кислот (например, DOTAP, DMPC, PEG и холестерин), являются растворенными, предпочтительно в этаноле. Два раствора можно смешивают вместе с образованием частиц, содержащих комплексы Cas-(например, Cpf1)-gRNA. После образования частиц комплексами Cas (например, Cpf1)-gRNA можно трансфицировать клетки (например HSC). Можно наносить штрих-код. На частицы, Cas-9 и/или gRNA можно наносить штрих-код.

- Настоящее изобретение в варианте осуществления предусматривает способ получения частицы, содержащей комплекс gRNA и белка Cas (например, Cpf1), включающий перемешивание смеси gRNA и белка Cas (например, Cpf1) со смесью, содержащей, состоящей по сути из, или состоящей из поверхностно-активного вещества, фосфолипида, биоразлагаемого полимера, липопротеина и спирта. Вариант осуществления охватывает частицу, содержащую комплекс gRNA и белка Cas (например, Cpf1), полученную посредством данного способа. Настоящее изобретение в варианте осуществления охватывает применение частицы в способе модификации представляющего интерес локуса генома, или организма, или отличного от человека организма путем манипуляции с целевой последовательностью в представляющем интерес локусе генома, включающем приведение клетки, содержащей представляющий интерес локус генома, в контакт с частицей, где gRNA осуществляет нацеливание на представляющий интерес локус генома; или способе модификации представляющего интерес локуса генома, или организма, или отличного от человека организма путем манипуляции с целевой последовательностью в представляющем интерес локусе генома, включающем приведение клетки, содержащей представляющий интерес локус генома, в контакт с частицей, где gRNA осуществляет нацеливание на представляющий интерес локус генома. В этих вариантах осуществления представляющий интерес локус генома является преимущественно локусом генома в HSC.

- Факторы, которые следует учитывать для применений в терапии Фактор в терапии на основе редактирования генома представляет собой выбор специфичной по отношению к последовательностям нуклезы, такой как вариант нуклеазы Cpf1. Каждый вариант нуклеазы может обладать своим собственным специфичным набором сильных и слабых сторон, многие из которых должны быть сбалансированы в контексте лечения для сведения к максимуму терапевтического эффекта. До настоящего времени два подхода редактирования с терапевтической целью с применением нуклеаз продемонстрировали значительные перспективы: нарушение функционирования гена и коррекция гена. Нарушение функционирования гена охватывает стимуляцию NHEJ для создания целенаправленных вставок/делеций в генетических элементах, часто приводящих к мутациям с потерей функций, которые являются полезными для пациентов. Напротив, при коррекции гена используется HDR для прямой регрессии мутаций, вызывающих заболевание, с восстановлением функции при сохранении физиологической регуляции cкорректированного элемента. HDR также может применяться для вставки терапевтического трансгена в определенный "безопасный" локус в геноме для восстановления отсутствующей функции гена. С целью обеспечения эффективности специфической терапии с применением редактирования должен достигаться достаточно высокий уровень модификации в целевых клеточных популяциях для вызова обратного развития симптомов заболевания. Этот "порог" терапевтической модификации определяют путем определения пригодности редактированных клеток после обработки и количества продукта гена, необходимого для устранения симптомов. Что касается пригодности, редактирование предусматривает возникновение трех возможных результатов для обработанных клеток по сравнению с их нередактированными аналогами: повышенная, нейтральная или сниженная пригодность. В случае повышенной пригодности, например, при лечении SCID-X1, модифицированные кроветворные клетки-предшественники селективно разрастаются по сравнению с их нередактированными аналогами. SCID-X1 представляет собой заболевание, вызываемое мутациями в гене IL2RG, функция которого требуется для правильного развития лимфоцитарного ростка кроветворения [Leonard, W.J., et al. Immunological reviews 138, 61-86 (1994); Kaushansky, K. & Williams, W.J. Williams hematology, (McGraw-Hill Medical, New York, 2010)]. В клинических испытаниях с пациентами, которые получали генную терапию с использованием вирусов для SCID-X1, и в редком примере спонтанной коррекции мутации SCID-X1 скорректированные кроветворные клетки-предшественники по сравнению с их пораженными заболеванием аналогами могли преодолевать это блокирование развития и разрастались, способствуя терапии [Bousso, P., et al. Proceedings of the National Academy of Sciences of the United States of America 97, 274-278 (2000); Hacein-Bey-Abina, S., et al. The New England journal of medicine 346, 1185-1193 (2002); Gaspar, H.B., et al. Lancet 364, 2181-2187 (2004)]. В данном случае, когда редактированные клетки обладают преимуществом при отборе, даже небольшие количества редактированных клеток можно увеличивать посредством разрастания, обеспечивая терапевтический эффект для пациента. Напротив, редактирование в отношении других заболеваний системы кроветворения, таких как хроническая гранулематозная болезнь (CGD), не будет индуцировать изменений пригодности для редактированных кроветворных клеток-предшественников, повышая порог терапевтической модификации. CGD вызывается мутациями в генах, кодирующих белки фагоцитарной оксидазы, которые обычно используются нейтрофилами для образования активных форм кислорода, уничтожающих патогены [Mukherjee, S. & Thrasher, A.J. Gene 525, 174-181 (2013)]. Поскольку дисфункция этих генов не влияет на пригодность или развитие кроветворных клеток-предшественников, а только на способность гемопоэтических кроветворных зрелого типа бороться с инфекциями, вероятно, не будет наблюдаться предпочтительная экспансия отредактированных клеток при данном заболевании. Действительно, не наблюдалось преимущества при отборе в отношении скорректированных клеток CGD при испытаниях с генной терапией, что приводило к сложностям длительного приживления клеток [Malech, H.L., et al. Proceedings of the National Academy of Sciences of the United States of America 94, 12133-12138 (1997); Kang, H.J., et al. Molecular therapy: the journal of the American Society of Gene Therapy 19, 2092-2101 (2011)]. Как таковые, значительно более высокие уровни редактирования будут требоваться для лечения заболеваний, таких как CGD, где редактирование обуславливает преимущественно нейтральную пригодность, по сравнению с заболеваниями, где редактирование обуславливает повышенную пригодность целевых клеток. Если редактирование вносит недостаток пригодности, как это было бы в случае восстановления функции гена-супрессора опухолевого роста в раковых клетках, пораженные заболеванием аналоги будут вытеснять модифицированные клетки, в результате чего польза от лечения будет ниже по сравнению со скоростью редактирования. Этот последний класс заболеваний было бы особенно сложно лечить с помощью терапии с применением редактирования генома.

- В дополнение к пригодности клеток количество продукта гена, необходимого для лечения заболевания, также влияет на минимальный уровень редактирования генома с терапевтической целью, который должен достигаться для обратного развития симптомов. Гемофилия B является одним из заболеваний, в котором небольшое изменение уровней продукта гена может приводить к значительным изменениям клинических результатов. Данное заболевание вызывается мутациями в гене, кодирующем фактор IX, белок, обычно секретируемый печенью в кровь, где он функционирует в качестве компонента каскада свертывания крови. Клиническая тяжесть гемофилии B связана с величиной активности фактора IX. Ввиду того, что заболевание тяжелой степени ассоциировано с активностью менее 1% от нормальной, более легкие формы заболеваний ассоциированы с более чем 1% активности фактора IX [Kaushansky, K. & Williams, W.J. Williams hematology, (McGraw-Hill Medical, New York, 2010); Lofqvist, T., et al. Journal of internal medicine 241, 395-400 (1997)]. Это позволяет предположить, что варианты терапии с применением редактирования, которые могут восстанавливать экспрессию фактора IX в клетках печени до даже небольшого процента, могут оказывать большое влияние на клинические результаты. Исследование с применением ZFN для коррекции мышиной модели гемофилии B вскоре после рождения продемонстрировало, что 3-7% коррекция была достаточной для устранения симптомов заболевания, обеспечивая доклиническое подтверждение данной гипотезы [Li, H., et al. Nature 475, 217-221 (2011)].

- Нарушения, при которых небольшое изменение уровней продукта гена может влиять на клинические результаты, и заболевания, где имеет место преимущество пригодности редактированных клеток, представляют собой превосходные мишени для терапии с применением редактирования генома, поскольку порог терапевтической модификации является достаточно низким для обеспечения высокой вероятности успеха с учетом современных технологий. Целенаправленное воздействие на данные заболевания на сегодняшний день привело к успехам в терапии с применением редактирования на доклиническом уровне и в фазе I клинического испытания. Усовершенствования в манипуляции путем репарации DSB и доставкой нуклеаз необходимы для распространения данных многообещающих результатов на заболевания с преимуществом нейтральной пригодности отредактированных клеток, или где для лечения необходимы более значительные количества продукта гена. В таблице, приведенной ниже, показаны некоторые примеры вариантов применения редактирования генома по отношению к терапевтическим моделям и ссылки из приведенной ниже таблицы и документы, которые перечислены в этих ссылках, включены в данный документ посредством ссылки, как если бы они были изложены в полном объеме.

Тип заболевания Применяемая нуклеазная платформа Терапевтическая стратегия Ссылки Гемофилия B ZFN Опосредованная HDR вставка правильной последовательности гена ^{Li, H., et al. Nature 475, 217-221 (2011)} SCID ZFN Опосредованная HDR вставка правильной последовательности гена ^{Genovese, P., et al. Nature 510, 235-240 (2014)} Наследственная тирозинемия CRISPR Опосредованная HDR коррекция мутации в печени ^{Yin, H., et al. Nature biotechnology 32, 551-553 (2014)}

- Лечение каждого из таких состояний из предшествующей таблицы при помощи системы CRISPR-Cas (например, Cpf1) для нацеливания при помощи HDR-опосредованной коррекции мутации или HDR-опосредованной вставки надлежащей последовательности гена, предпочтительно посредством системы доставки, как описано в данном документе, например, системы доставки частицы, находится в пределах компетенции специалиста в данной области исходя из раскрытия и знаний в данной области. Таким образом, вариант осуществления охватывает приведение HSC, несущей мутацию, приводящую к гемофилии B, SCID (например, SCID-X1, ADA-SCID) или врожденной тирозинемии, в контакт с gRNA и белком Cas (например, Cpf1), осуществляющими нацеливание нa представляющий интерес локус генома, связанный с гемофилией B, SCID (например, SCID-X1, ADA-SCID) или врожденной тирозинемией (например, как описано в Li, Genovese или Yin). Частица также может содержать подходящую матрицу для HDR для коррекции мутации; или HSC может быть приведена в контакт со второй частицей или вектором, который содержит или доставляет матрицу для HDR. В связи с этим упоминается, что гемофилия B представляет собой сцепленное с Х-хромосомой рецессивное нарушение, вызванное мутациями с потерей функций в гене, кодирующем фактор IX, важный компонент каскада свертывания крови. Восстановление активности фактора IX до приблизительно 1% от его уровней у тяжело пораженных индивидуумов может трансформировать заболевание в значительно более легкую форму, поскольку профилактическая инфузия рекомбинантного фактора IX у таких пациентов с раннего возраста для достижения таких уровней в значительной степени облегчает тяжесть клинических осложнений. Специалист в данной области с использованием знаний в данной области и идей настоящего изобретения может корректировать HSC в отношении гемофилии B с применением системы CRISPR-Cas (например, Cpf1), которая нацеливается на мутацию и корректирует ее (сцепленное с Х-хромосомой рецессивное нарушение, вызванное мутациями с потерей функции гена, кодирующем фактор IX) (например, при помощи подходящей матрицы для HDR, которая доставляет кодирующую последовательность для фактора IX); в частности, gRNA может осуществлять нацеливание на мутацию, которая приводит к возникновению гемофилии B, и HDR может обеспечивать кодирование, приводящее к надлежащей экспрессии фактора IX. gRNA, которая нацеливается на мутацию и частицу, содержащую белок Cas (например, Cpf1), вступает в контакт с HSC, несущими мутацию. Частица также может содержать подходящую матрицу для HDR для коррекции мутации с целью надлежащей экспрессии фактора IX; или HSC может быть приведена в контакт со второй частицей или вектором, который содержит или доставляет матрицу для HDR. Приведенные таким образом в контакт клетки можно вводить и необязательно обрабатывать и разращивать; см. Cartier., описанный в данном документе.

- В публикации Cartier "MINI-SYMPOSIUM: X-Linked Adrenoleukodystrophypa, Hematopoietic Stem Cell Transplantation and Hematopoietic Stem Cell Gene Therapy in X-Linked Adrenoleukodystrophy", Brain Pathology 20 (2010) 857-862, включенной в данный документ посредством ссылки вместе с документами, которые в ней перечислены так, если бы они были изложены в полном объеме, представлено подтверждение того, что аллогенную трансплантацию кроветворных стволовых клеток (HSCT) использовали для доставки нормального лизосомального фермента в головной мозг пациента с болезнью Гурлера, и описание генной терапии HSC для лечения ALD. У двух пациентов периферийные CD34+клетки отбирали после активации гранулоцитарного колониестимулирующего фактора (G-CSF) и трансдуцировали лентивирусным вектором (MND)-ALD с энхансером миелопролиферативного вируса саркомы мышей, удаленным участком отрицательного контроля, замещенным участком связывания праймера dl587rev. CD34+ клетки пациентов трансдуцировали вектором MND-ALD в течение 16 ч в присутствии цитокинов в низких концентрациях. Трансдуцированные CD34+ клетки замораживали после трансдукции для выполнения на 5% клеток ряда испытаний на безопасность, которые включали, в частности, три анализа на присутствие компетентных по репликации лентивирусов (RCL). Эффективность трансдукции CD34+ клеток находилась в диапазоне от 35% до 50% со средним количеством интегрированных копий лентивируса 0,65-0,70. После размораживания трансдуцированных CD34+ клеток пациентам проводили повторную инфузию более чем 4,106 трансдуцированных CD34+ клеток/кг с последующим полным разрушением миелиновых оболочек с применением бусульфана и циклофосфамида. Разрушали HSC пациента для способствования приживлению генетически скорректированных HSC. Гематологическое восстановление для двух пациентов наступало в дни 13-15. Почти полное иммунологическое восстановление наступало через 12 месяцев для первого пациента и через 9 месяцев для второго пациента. В отличие от применения лентивируса специалист в данной области с использованием знаний в данной области и идей настоящего изобретения может корректировать HSC относительно ALD с применением системы CRISPR-Cas (Cpf1), которая нацеливается на мутацию и корректирует ее (например, с помощью подходящей матрицы для HDR); в частности, gRNA может осуществлять нацеливание на мутации в ABCD1, гене, который локализован на X-хромосоме, который кодирует ALD, мембранный транспортный белок пероксисом, и HDR может обеспечивать кодирование, приводящее к надлежащей экспрессии белка. gRNA, которая нацеливается на мутацию и частицу, содержащую белок Cas (Cpf1), вступает в контакт с HSC, например CD34+ клетками, несущими мутацию, как описано в Cartier. Частица также может содержать подходящую матрицу для HDR для коррекции мутации с целью экспрессии пероксисомального мембранного белка-переносчика; или HSC может быть приведена в контакт со второй частицей или вектором, который содержит или доставляет матрицу для HDR. Приводимые таким образом в контакт клетки необязательно можно обрабатывать, как описано в Cartier. Приводимые таким образом в контакт клетки можно вводить, как описано в Cartier.

- Следует упомянуть WO 2015/148860, в идеях, изложенных в данном документе, настоящее изобретение подразумевает способы и материалы этих документов, применяемые в сочетании с идеями, изложенными в данном документе. В одном аспекте генная терапия заболеваний, связанных с кровеносной системой, способы и композиции для лечения бета-талассемии могут быть адаптированы к системе CRISPR-Cas по настоящему изобретению (см., например, WO 2015/148860). В варианте осуществления WO 2015/148860 предусматривает лечение или предупреждение бета-талассемии, или ее симптомов, например, с помощью изменения гена B-клеточного CLL/лимфомы 11A (BCL11A). Ген BCL11A также известен как ген B-клеточного CLL/лимфомы 11A, BCL11A -L, BCL11A -S, BCL11AXL, CTIP 1, HBFQTL5 и ZNF. BCL11A кодирует белок "цинковый палец", который участвует в регуляции экспрессии генов глобинов. При изменении гена BCL11A (например, одного или обоих аллелей гена BCL11A) уровни гамма-глобина могут повышаться. Гамма-глобин может замещать бета-глобин в гемоглобиновом комплексе и эффективно доставлять кислород к тканям, тем самым нормализуя фенотипы заболевания бета-талассемии.

- Следует упомянуть WO 2015/148863, и в идеях, изложенных в данном документе, настоящее изобретение подразумевает способы и материалы этих документов, которые могут быть адаптированы к системе CRISPR-Cas по настоящему изобретению. В аспекте лечения или предупреждения серповидноклеточной анемии, которая представляет собой наследственное гематологическое заболевание крови, WO 2015/148863 предусматривает изменение гена BCL11A. При изменении гена BCL11A (например, одного или обоих аллелей гена BCL11A) уровни гамма-глобина могут повышаться. Гамма-глобин может замещать бета-глобин в гемоглобиновом комплексе и эффективно доставлять кислород к тканям, тем самым нормализуя фенотипы серповидноклеточной анемии.

- В одном аспекте настоящего изобретения способы и композиции, которые включают редактирование целевой последовательности нуклеиновой кислоты или модулирование экспрессии целевой последовательности нуклеиновой кислоты, и варианты их применения в связи с иммунотерапией рака понимают путем адаптации системы CRISPR-Cas по настоящему изобретению. Ссылаются на применение генной терапии в WO 2015/161276, который предусматривает способы и композиции, которые могут быть использованы для нарушения пролиферации, выживания и/или функции T-клеток в результате изменения одного или нескольких экспрессируемых T-клетками генов, например, одного или нескольких из генов FAS, BID, CTLA4, PDCD1, CBLB, PTPN6, TRAC и/или TRBC. В связанных аспектах пролиферация T-клеток может быть нарушена при изменении одного или нескольких экспрессируемых T-клетками генов, например, гена CBLB и/или PTPN6, гена FAS и/или BID, гена CTLA4, и/или PDCDI, и/или TRAC, и/или TRBC.

- T-клетки с химерным антигенным рецептором (CAR)19 характеризуются антилейкозными эффектами в злокачественных образованиях пациентов. Однако пациенты с лейкозом часто имеют недостаточно T-клеток для сбора, следовательно, лечение должно включать модифицированные T-клетки от доноров. Соответственно, существует интерес создания банка донорских T-клеток. Qasim et al. ("First Clinical Application of Talen Engineered Universal CAR19 T Cells in B-ALL" ASH 57th Annual Meeting and Exposition, Dec. 5-8, 2015, Abstract 2046 (https://ash.confex.com/ash/2015/webprogram/Paper81653.html, опубликовано онлайн в ноябре 2015 г.) описывают модификацию T-клеток с CAR19 с целью устранения риска возникновения реакции "трансплантат против хозяина" посредством нарушения экспрессии T-клеточных рецепторов и целенаправленного воздействия на CD52. Кроме того, клетки с CD52 были подвергнуты нацеливанию таким образом, что они стали невосприимчивыми к алемтузумабу, и, таким образом, способствовали тому, что алемтузумаб предупреждал опосредованное хозяином отторжение T-клеток с CAR19, несоответствующих лейкоцитарным антигенам человека (HLA). Исследователи использовали самоинактивирующийся лентивирусный вектор третьего поколения, кодирующий 4g7 CAR19 (CD19 scFv-4-1BB-CD3ζ), связанный с RQR8, затем подвергали электропорации клетки при помощи двух пар мРНК TALEN для мультиплексного целенаправленного воздействия на локус константной альфа-цепи T-клеточного рецептора (TCR) и локус гена CD52. Клетки, которые по-прежнему экспрессировали TCR после ex vivo разращения, подвергали истощению в результате истощения α/β TCR CliniMacs, приводя к образованию T-клеточного продукта (UCART19) с <1% экспрессией TCR, 85% которых приходились на CAR19, а 64% стали негативными по отношению к CD52. Модифицированные T-клетки с CAR19 вводили для лечения рецидивирующего острого лимфобластного лейкоза у пациентов. Идеи, представленные в данном документе, предусматривают эффективные способы получения модифицированных гемопоэтических стволовых клеток и их потомства, в том числе без ограничения клеток миелоидной и лимфоидной линии крови, в том числе T-клеток, B-клеток, моноцитов, макрофагов, нейтрофилов, базофилов, эозинофилов, эритроцитов, дендритных клеток и мегакариоцитов или тромбоцитов, и натуральных клеток-киллеров и их предшественников и потомков. Такие клетки можно модифицировать с помощью нокаута, нокина или иного модулирования мишеней, например, с удалением или модулированием CD52, как описано в данном документе, и других мишеней, таких как без ограничения CXCR4 и PD-1. Такие композиции, клетки и способ по настоящему изобретению можно применять для модулирования иммунных ответов и для лечения без ограничения злокачественных новообразований, вирусных инфекций и иммунных нарушений, в сочетании с введением T-клеток или других клеток пациентам.

- Следует упомянуть WO 2015/148670 и в идеях, изложенных в данном документе, настоящее изобретение подразумевает способы и материалы этого документа, применяемые в сочетании с идеями, изложенными в данном документе. В одном аспекте генной терапии подразумеваются способы и композиции для редактирования целевой последовательности, связанной или находящейся в связи с вирусом иммунодефицита человека (HIV) и синдром приобретенного иммунодефицита (AIDS). В связанном аспекте настоящее изобретение, описанное в данном документе, подразумевает предупреждение и лечение инфекции, обусловленной HIV, и AIDS с помощью введения одной или нескольких мутаций в гене рецептора C-C-хемокина 5 типа (CCR5). Ген CCR5 также известен как CKR5, CCR-5, CD195, CKR-5, CCCKR5, CMKBR5, IDDM22 и CC-CKR-5. В дополнительном аспекте настоящее изобретение, описанное в данном документе, подразумевает применение с целью предупреждения или уменьшения инфекции, обусловленной HIV, и/или предупреждения или уменьшения способности HIV попадать в клетки-хозяева, например у субъектов, которые уже инфицированы. Иллюстративные клетки-хозяева для HIV включают без ограничения CD4-клетки, T-клетки, лимфоидную ткань, ассоциированную с кишечником (GALT), макрофаги, дендритные клетки, миелоидные клетки-предшественники и микроглию. Попадание вируса в клетки-хозяева требует взаимодействия вирусных гликопротеинов gp41 и gp120 с CD4-рецептором и корецептором, например, CCR5. Если корецептор, например CCR5, не присутствует на поверхности клеток-хозяев, то вирус не может связаться и попасть в клетки-хозяева. Таким образом, прогрессирование заболевания затрудняется. С помощью нокаута или нокдауна CCR5 в клетках-хозяевах, например при введении защитной мутации (такой как мутация CCR5 дельта 32), предупреждают проникновение вируса HIV в клетки-хозяева.

- Сцепленная с Х-хромосомой хроническая гранулематозная болезнь (CGD) представляет собой наследственное нарушение иммунной защиты организма в связи с отсутствующей или сниженной активностью фагоцитарной NADPH-оксидазы. При помощи системы CRISPR-Cas (Cpf1), которая нацеливается на мутацию и корректирует ее (отсутствующая или сниженная активность фагоцитарной NADPH-оксидазы) (например, при помощи подходящей матрицы для HDR, которая доставляет кодирующую последовательность для фагоцитарной NADPH-оксидазы); в частности, gRNA может осуществлять нацеливание на мутацию, которая приводит к CGD (дефектная фагоцитарная NADPH-оксидаза), а HDR может обеспечивать кодирование для надлежащей экспрессии фагоцитарной NADPH-оксидазы. gRNA, которая нацеливается на мутацию и частицу, содержащую белок Cas (Cpf1), вступает в контакт с HSC, несущими мутацию. Частица также может содержать подходящую матрицу для HDR для коррекции мутации с целью надлежащей экспрессии фагоцитарной NADPH-оксидазы; или HSC может быть приведена в контакт со второй частицей или вектором, который содержит или доставляет матрицу для HDR. Приведенные таким образом в контакт клетки можно вводить и необязательно обрабатывать и разращивать; см. Cartier.

- Анемия Фанкони Мутации по меньшей мере в 15 генах (FANCA, FANCB, FANCC, FANCD1/BRCA2, FANCD2, FANCE, FANCF, FANCG, FANCI, FANCJ/BACH1/BRIP1, FANCL/PHF9/POG, FANCM, FANCN/PALB2, FANCO/Rad51C и FANCP/SLX4/BTBD12) могут вызывать анемию Фанкони. Белки, продуцируемые в результате экспрессии этих генов, вовлечены в процесс в клетке, известный как путь FA. Путь FA запускается (активируется), когда процесс создания новых копий ДНК, называемый “репликация ДНК”, блокируется в результате повреждения ДНК. Путь FA направляет определенные белки в область повреждения, которые запускают репарацию ДНК, поэтому репликация ДНК может продолжаться. Путь FA, в частности, реагирует на определенный тип повреждения ДНК, известный как межнитевые поперечные сшивки (ICL). ICL происходит в том случае, когда структурные элементы ДНК (нуклеотиды) на противоположных нитях ДНК аномально соединяются или связываются друг с другом, что останавливает репликацию ДНК. ICL могут вызываться накоплением токсических веществ, продуцируемых в организме, или при лечении определенными противоопухолевыми лекарственными средствами. Восемь белков ассоциируются с группой анемии Фанкони с образованием комплекса, известного как коровый комплекс FA. Коровый комплекс FA активирует два белка под названием FANCD2 и FANCI. Активация данных двух белков приводит к доставке белков для репарации ДНК в область ICL, так что поперечная сшивка может быть удалена и репликация ДНК может продолжаться с помощью корового комплекса FA. Более конкретно, коровый комплекс FA, представляющий собой ядерный мультипротеиновый комплекс, состоящий из FANCA, FANCB, FANCC, FANCE, FANCF, FANCG, FANCL и FANCM, функционирует в качестве убиквитинлигазы E3 и опосредует активацию комплекса ID, который представляет собой гетеродимер, состоящий из FANCD2 и FANCI. После моноубиквитинирования он взаимодействует с классическими супрессорами опухолевого роста ниже по пути FA, включая FANCD1/BRCA2, FANCN/PALB2, FANCJ/BRIP1 и FANCO/Rad51C, и, таким образом, участвует в репарации ДНК посредством гомологичной рекомбинации (HR). От восьмидесяти до 90 процентов случаев FA обусловлены мутациями в одном из трех генов, FANCA, FANCC и FANCG. Эти гены несут информацию для продуцирования компонентов корового комплекса FA. Мутации в таких генах, ассоциированные с коровым комплексом FA, будут приводить к потере комплексом функциональности и к разрушению всего пути FA. Как результат, повреждение ДНК не подвергается эффективной репарации, и со временем происходит накопление ICL. В публикации Geiselhart "Review Article, Disrupted Signaling through the Fanconi Anemia Pathway Leads to Dysfunctional Hematopoietic Stem Cell Biology: Underlying Mechanisms and Potential Therapeutic Strategies," Anemia Volume 2012 (2012), Article ID 265790, http://dx.doi.org/10.1155/2012/265790, обсуждается FA и эксперимент с животными, включающий интрафеморальное введение лентивируса, кодирующего ген FANCC, что приводило к коррекции HSC in vivo. При помощи системы CRISPR-Cas (Cpf1), которая нацеливается на одну или несколько мутаций, ассоциированных с FA, например системы CRISPR-Cas (Cpf1), имеющей gRNA и матрицу(матрицы) для HDR, которые соответственно нацеливаются на одну или несколько из мутаций FANCA, FANCC или FANCG, которые приводят к FA и обеспечивают откорректированную экспрессию одного или нескольких из FANCA, FANCC или FANCG; например, gRNA может нацеливаться на мутацию, например FANCC, и HDR может обеспечивать кодирование надлежащей экспрессии FANCC. gRNA, которая нацеливается на мутацию(мутации) (например, одну или несколько, участвующих в FA, такие как мутация(мутации) в частице, содержащей любую один или несколько из FANCA, FANCC или FANCG) и белок Cas (Cpf1), контактирует с HSC, несущими мутацию(мутации). Частица также может содержать подходящую(подходящие) матрицу(матрицы) для HDR для коррекции мутации с целью надлежащей экспрессии одного или нескольких из белков, участвующих в FA, таких как один или несколько из FANCA, FANCC или FANCG; или HSC может быть приведена в контакт со второй частицей или вектором, который содержит или доставляет матрицу для HDR. Приведенные таким образом в контакт клетки можно вводить и необязательно обрабатывать и разращивать; см. Cartier.

- Частица в описании данного документа (например, содержащая gRNA и Cas (Cpf1), необязательно матрицу(матрицы) для HDR, или матрицу(матрицы) для HDR; например, в случае гемофилии B, SCID, SCID-X1, ADA-SCID, наследственной тирозинемии, β-талассемии, сцепленной с X-хромосомой CGD, синдрома Вискотта-Ольдрича, анемии Фанкони, адренолейкодистрофии (ALD), метахроматической лейкодистрофии (MLD), HIV/AIDS, иммунодефицита, гематологичекого состояния или генетической лизосомной болезни накопления) предпочтительно получена или может быть получена в результате смешивания смеси gRNA и белка Cas (Cpf1) (при этом необязательно содержит матрицу(матрицы) для HDR, или такая смесь только содержит матрицу(матрицы) для HDR в том случае, если отдельные частицы по отношению к матрице(матрицам) являются желательными) со смесью, содержащей, или состоящей фактически из, или состоящей из поверхностно-активного вещества, фосфолипида, биоразлагаемого полимера, липопротеина и спирта (где одна или несколько gRNA нацеливаются на генетический локус или локусы в HSC).

- Действительно, настоящее изобретение особенно подходит для лечения гемопоэтических наследственных нарушений при помощи редактирования генома и иммунодефицитов, таких как наследственные иммунодефициты, особенно при помощи технологии на основе частиц, описанной в данном документе. Наследственные иммунодефициты представляют собой заболевания, при которых процедуры редактирования генома по настоящему изобретению могут быть успешными. Причинами являются гемопоэтические клетки, подгруппой которых являются иммунные клетки, являющиеся терапевтически доступными. Их можно удалить из организма и трансплантировать аутологически или аллогенически. Кроме того, определенные наследственные иммунодефициты, например тяжелый комбинированный иммунодефицит (SCID), приводят к дефекту пролиферации иммунных клеток. Коррекция наследственных нарушений, вызывающих SCID, в результате редких спонтанных "обратных" мутаций указывает на то, что коррекция даже одного предшественника лимфоцита может быть достаточной для восстановления иммунной функции у пациентов .../../../Users/t_kowalski/AppData/Local/Microsoft/Windows/Temporary Internet Files/Content.Outlook/GA8VY8LK/Treating SCID for Ellen.docx - _ENREF_1, см. Bousso, P., et al. Diversity, functionality, and stability of the T cell repertoire derived in vivo from a single human T cell precursor. Proceedings of the National Academy of Sciences of the United States of America 97, 274-278 (2000). Селективное преимущество редактированных клеток обеспечивает то, что даже низкие уровни редактирования приводят к терапевтическому эффекту. Этот эффект по настоящему изобретению может наблюдаться при SCID, синдроме Вискотта-Олдрича и других состояниях, упомянутых в данном документе, в том числе наследственных гемопоэтических нарушениях, таких как альфа- и бета-талассемия, при которых недостаточности гемоглобина отрицательно влияют на пригодность предшественников эритроцитов.

- Активность репарации DSB с помощью NHEJ и HDR значительно варьирует в зависимости от типа клетки и состояния клетки. NHEJ не подвергается четкой регуляции клеточным циклом и является эффективным во всех типах клеток, обеспечивая наличие высоких уровней нарушения функционирования гена в доступных целевых клеточных популяциях. Напротив, HDR действует главным образом в течение фазы S/G2, и таким образом ограничена клетками, которые активно делятся, с ограничением применения видов лечения, которые требуют точных модификаций генома до митотических клеток [Ciccia, A. & Elledge, S.J. Molecular cell 40, 179-204 (2010); Chapman, J.R., et al. Molecular cell 47, 497-510 (2012)].

- Эффективность коррекции с применением HDR может контролироваться по эпигенетическому состоянию, или последовательности подверженного целенаправленному воздействию локуса, или применяемой конфигурации специфической матрицы для репарации (однонитевые по сравнению с двухнитевыми, длинные по сравнению с короткими гомологичными плечами) [Hacein-Bey-Abina, S., et al. The New England journal of medicine 346, 1185-1193 (2002); Gaspar, H.B., et al. Lancet 364, 2181-2187 (2004); Beumer, K.J., et al. G3 (2013)]. Относительная активность механизмов NHEJ и HDR в целевых клетках может также оказывать влияние на эффективность коррекции гена, поскольку данные пути могут конкурировать за устранение DSB [Beumer, K.J., et al. Proceedings of the National Academy of Sciences of the United States of America 105, 19821-19826 (2008)]. HDR также вносит проблему доставки, не наблюдаемую в ходе применения стратегий с NHEJ, поскольку она требует одновременой доставки нуклеаз и матриц для репарации. На практике данные ограничения до настоящего времени привели к низким уровням HDR в терапевтически значимых типах клеток. Таким образом, переход к клиническому применению был в основном сосредоточен на стратегиях NHEJ для лечения заболевания, хотя доклинические исследования обоснованности концепции только что были описаны для мышиных моделей гемофилии B и врожденной тирозинемии [Li, H., et al. Nature 475, 217-221 (2011); Yin, H., et al. Nature biotechnology 32, 551-553 (2014)].

- Любое из приведенных применений редактирования генома может включать комбинации белков, малые молекулы РНК и/или матрицы для репарации, что делает доставку данных нескольких частей значительно более проблематичной, чем доставку низкомолекулярных лекарственных средств. Разрабатывали две основные стратегии доставки инструментов для редактирования генома: ex vivo и in vivo. В видах лечения ex vivo пораженные болезнью клетки удаляют из организма, редактируют и затем трансплантируют обратно пациенту. Редактирование ex vivo имеет преимущество в обеспечении возможности должного определения целевой популяции клеток и точного определения дозирования терапевтических молекул. Последний фактор, который следует учитывать, может быть особенно важным, когда нецелевые модификации представляют особый интерес, поскольку подбор количества нуклеазы может приводить к снижению уровня таких мутаций (Hsu et al., 2013). Другим преимуществом подходов ex vivo являются обычно высокие показатели редактирования, которые могут быть достигнуты в связи с разработкой эффективных систем доставки для белков и нуклеиновых кислот в клетки, находящиеся в культуре, для применений в научных исследованиях и генной терапии.

- Существуют два основных недостатка подходов ex vivo, которые ограничивают их применение в отношении небольшого числа заболеваний. Например, целевые клетки должны быть способны к выживанию при манипуляции вне организма. Для многих тканей, как, например, для головного мозга, культивирование клеток вне организма представляет собой большую проблему, поскольку клетки либо не в состоянии выжить, либо теряют свойства, необходимые для их функционирования in vivo. Таким образом, с точки зрения настоящего раскрытия и знаний в данной области, терапия ex vivo по отношению к тканям с популяциями взрослых стволовых клеток, поддающихся ex vivo культивированию и манипуляциям, таким как гемопоэтическая система, при помощи системы CRISPR-Cas (Cpf1) является возможной. [Bunn, H.F. & Aster, J. Pathophysiology of blood disorders, (McGraw-Hill, New York, 2011)]

- Редактирование генома in vivo охватывает прямую доставку систем редактирования в их нативные ткани. Редактирование in vivo допускает лечение заболеваний, в которых пораженная популяция клеток не пригодна для манипуляции ex vivo. Более того, доставка нуклеаз в клетки in situ создает возможность для лечения многих тканей и типов клеток. Данные свойства, вероятно, обеспечивают применение лечения in vivo по отношению к более широкому спектру заболеваний, чем виды терапии ex vivo.

- До настоящего времени редактирования in vivo в значительной степени достигали посредством применения вирусных векторов с определенным, специфичным к тканям тропизмом. Такие векторы в настоящее время ограничены по вместимости и тропизму, ограничивая данный вид терапии системами органов, где трансдукция клинически применимыми векторами является эффективной, как например: печень, мышцы и глаза [Kotterman, M.A. & Schaffer, D.V. Nature reviews. Genetics 15, 445-451 (2014); Nguyen, T.H. & Ferry, N. Gene therapy 11 Suppl 1, S76-84 (2004); Boye, S.E., et al. Molecular therapy : the journal of the American Society of Gene Therapy 21, 509-519 (2013)].

- Главным потенциальным барьером для доставки in vivo является иммунный ответ, который может быть сформирован в ответ на большие количества вируса, необходимого для лечения, но это явление не является уникальным для редактирования генома и наблюдается при других видах генной терапии на основе вирусов [Bessis, N., et al. Gene therapy 11 Suppl 1, S10-17 (2004)]. Также вероятно, что пептиды из осуществляющих редактирование нуклеаз сами по себе презентируются на молекулах MHC класса I для стимулирования иммунного ответа, хотя существует мало доказательств, подтверждающих, что это происходит на доклиническом уровне. Другой основной трудностью данного вида терапии является контроль распространения и, следовательно, дозировки нуклеаз для редактирования генома in vivo, приводящие к образованию профилей нецелевых мутаций, прогнозирование которых может быть затруднительным. Однако с точки зрения настоящего изобретения и знаний в данной области, в том числе применения видов терапии на основе вирусов и частиц, используемых при лечении онкологических заболеваний, in vivo модификация HSC, например с помощью доставки частицы или вируса, находится в пределах компетенции специалиста в данной области.

- Терапия с применением редактирования ex vivo Длительная клиническая экспертиза с очисткой, культивированием и трансплантацией кроветворных клеток определила заболевания, поражающие систему крови, такие как SCID, анемия Фанкони, синдром Вискотта-Олдрича и серповидноклеточная анемия, в приоритетную область терапии с применением редактирования ex vivo. Другой причиной сосредоточения внимания на кроветворных клетках является то, что благодаря предыдущим усилиям по разработке генной терапии нарушений со стороны крови уже существуют системы доставки с относительно высокой эффективностью. С учетом этих преимуществ этот вид терапии может быть применим при заболеваниях, при которых редактированные клетки обладают преимуществом пригодности, в результате чего небольшое количество прижившихся, редактированных клеток могут разрастаться и обеспечивать лечение заболевания. Одним таким заболеванием является HIV, при котором инфекция приводит к недостатку пригодности CD4+ T-клеток.

- Терапию с применением редактирования ex vivo в недавнем времени расширили путем включения стратегий коррекции генов. Барьеры для HDR ex vivo были преодолены, что показано в недавней работе Genovese и соавт., которые достигли коррекции мутированного гена IL2RG в гемопоэтических стволовых клетках (HSC), полученных от пациента, страдающего от SCID-X1 [Genovese, P., et al. Nature 510, 235-240 (2014)]. Genovese et. al. осуществляли коррекцию гена в HSC с применением мультимодальной стратегии. Во-первых, HSC трансдуцировали с использованием лентивируса с дефектом по интеграции, содержащего матрицу для HDR, кодирующую терапевтическую cDNA для IL2RG. После трансдукции клетки подвергали электропорации с применением мРНК, кодирующей ZFN, целенаправленно воздействующие на горячую точку мутагенеза в IL2RG для стимулирования коррекции гена, основанной на HDR. Для повышения показателей HDR условия культивирования оптимизировали путем использования малых молекул, способствующих делению HSC. С применением оптимизированных условий культивирования, нуклеаз и матриц для HDR, HSC со скорректированными генами от пациента с SCID-X1 получали в культуре при терапевтически значимых уровнях. HSC от непораженных индивидуумов, которых подвергали той же процедуре коррекции генов, могли поддерживать длительное кроветворение у мышей, что является золотым стандартом функционирования HSC. HSC способны давать начало всем типам кроветворных клеток, и их можно подвергать аутологической трансплантации, что делает их чрезвычайно важной популяцией клеток для всех наследственных нарушений кроветворения [Weissman, I.L. & Shizuru, J.A. Blood 112, 3543-3553 (2008)]. В принципе, HSC со корректированными генами можно применять для лечения широкого cпектра генетических нарушений со стороны крови, что делает данное исследование важным открытием для редактирования генома с терапевтической целью.

- Терапия с применением редактирования in vivo. Редактирование in vivo можно применять преимущественно исходя из настоящего изобретения и знаний в данной области. Для систем органов, доставка в которые является эффективной, уже существует ряд впечатляющих доклинических терапевтических успехов. Первый пример успешной терапии in vivo с применением редактирования был продемонстрирован на мышиной модели гемофилии B [Li, H., et al. Nature 475, 217-221 (2011)]. Как было отмечено ранее, гемофилия B представляет собой сцепленное с Х-хромосомой рецессивное нарушение, вызванное мутациями с потерей функций в гене, кодирующем фактор IX, важный компонент каскада свертывания крови. Восстановление активности фактора IX до приблизительно 1% от его уровней у тяжело пораженных индивидуумов может трансформировать заболевание в значительно более легкую форму, поскольку профилактическая инфузия рекомбинантного фактора IX у таких пациентов с раннего возраста для получения таких уровней в значительной степени облегчает тяжесть клинических осложнений [Lofqvist, T., et al. Journal of internal medicine 241, 395-400 (1997)]. Таким образом, крайне низкие уровни коррекции гена, опосредованной HDR, являются необходимы для изменения клинических результатов у пациентов. Кроме того, фактор IX синтезируется и секретируется печенью, органом, который может быть эффективно трансдуцирован вирусными векторами, кодирующими системы для редактирования.

- С применением гепатотропных серотипов аденоассоциированного вируса (AAV), кодирующих ZFN и корректирующую матрицу для HDR, получали до 7% коррекции мутированного, гуманизированного гена фактора IX в печени мыши [Li, H., et al. Nature 475, 217-221 (2011)]. Это приводило к улучшению кинетики свертывания крови, меры функционирования каскада свертывания крови, впервые демонстрируя, что терапия in vivo с применением редактирования является не только возможной, но и эффективной Как описано в данном документе, опытный специалист ориентируется на основе идей данного документа и знаний в данной области, например Li в случае лечения гемофилии B частицей, содержащей матрицу HDR и систему CRISPR-Cas (Cpf1), которая нацеливается на мутацию X-сцепленного рецессивного нарушения для обращения мутации потери функции.

- Основываясь на данном исследовании, другие группы с недавнего времени применяют редактирование генома в печени in vivo с использованием CRISPR-Cas для успешного лечения мышиной модели врожденной тирозинемии и для создания мутаций, которые обеспечивают защиту от сердечно-сосудистого заболевания. Эти два отдельных применения демонстрируют универсальность данного подхода для нарушений, которые охватывают дисфункцию печени [Yin, H., et al. Nature biotechnology 32, 551-553 (2014); Ding, Q., et al. Circulation research 115, 488-492 (2014)]. Применения редактирования in vivo других систем органов необходимы для подтверждения того, что данная стратегия широко применима. В настоящее время усилия для оптимизации как вирусных векторов, так и векторов, отличных от вирусных, находятся на пути реализации для расширения спектра нарушений, которые можно лечить с использованием данного метода терапии [Kotterman, M.A. & Schaffer, D.V. Nature reviews. Genetics 15, 445-451 (2014); Yin, H., et al. Nature reviews. Genetics 15, 541-555 (2014)]. Как описано в данном документе, опытный специалист ориентируется на основе идей данного документа и знаний в данной области, например Yin в случае лечения наследственной тирозинемии частицей, содержащей матрицу HDR и систему CRISPR-Cas (Cpf1), которая нацеливается на мутацию.

- Целенаправленная делеция, варианты терапевтического применения. Целенаправленная делеция генов может быть предпочтительной. Таким образом, предпочтительными являются гены, участвующие в иммунодефиците, гематологическом состоянии или генетической лизосомной болезни накопления, например, гемофилии B, SCID, SCID-X1, ADA-SCID, наследственной тирозинемии, β-талассемии, сцепленной с X-хромосомой CGD, синдроме Вискотта-Олдрича, анемии Фанкони, адренолейкодистрофии (ALD), метахромацитной лейкодистрофии (MLD), HIV/AIDS, других метаболических нарушениях, гены, кодирующие неправильно свернутые белки, участвующие в заболеваниях, гены, приводящие к потере функции, участвующей в заболевании, мутации, которые могут подвергаться нацеливанию в HSC, с помощью любой из описанных в данном документе систем доставки, при этом система с использованием частиц является предпочтительной.

- В настоящем изобретении иммуногенность фермента CRISPR, в частности, можно снизить, следуя подходу, впервые изложенному Tangri et al. в отношении эритропоэтина и впоследствии получившему развитие. Соответственно, для снижения иммуногенности фермента CRISPR (например, Cpf1) у вида-хозяина (человека или другого вида) можно применять направленную эволюцию или рациональное конструирование.

- Редактирование генома. Системы CRISPR/Cas (Cpf1) по настоящему изобретению можно применять для коррекции генетических мутаций, попытки которой с ограниченным успехом ранее предпринимались с применением TALEN и ZFN, а также лентивирусов, в том числе, как описано в данном документе; см. также WO2013163628.

Лечение заболеваний мозга, центральной нервной системы и иммунной системы

- Настоящее изобретение также предусматривает доставку системы CRISPR-Cas в головной мозг или нейроны. Например, РНК-интерференция (RNAi) предоставляет терапевтические возможности для лечения этого нарушения посредством уменьшения экспрессии HTT, гена, приводящего к развитию болезни Гентингтона (см., например, McBride et al., Molecular Therapy vol. 19 no. 12 Dec. 2011, pp. 2152-2162), следовательно, автор настоящего изобретения предполагает, что ее можно использовать с системой CRISPR-Cas и/или адаптировать к ней. Систему CRISPR-Cas можно получить с использованием алгоритма для уменьшения возможности нецелевого воздействия антисмысловых последовательностей. Последовательности CRISPR-Cas могут целенаправленно воздействовать на последовательность в экзоне 52 гентингтина мыши, макака-резуса или человека и экспрессироваться вирусным вектором, например на основе AAV. Животным, в том числе человеку, можно вводить путем приблизительно трех микроинъекций на полушарие (всего шесть инъекций): первая на 1 мм рострально от передней спайки (12 мкл) и две оставшиеся инъекции (12 мкл и 10 мкл соответственно) на расстоянии 3 и 6 мм каудально по отношению к первой инъекции, причем с 1e12 vg/мл AAV при скорости приблизительно 1 мкл/минута, при этом иглу оставляли на месте в течение дополнительных 5 минут для обеспечения диффузии вводимого вещества с наконечника иглы.

- DiFiglia et al. (PNAS, October 23, 2007, vol. 104, no. 43, 17204-17209) наблюдали, что однократное введение в полосатое тело взрослого организма siRNA, целенаправленно воздействующей на Htt, может привести к сайленсингу мутированного Htt, ослаблению нейрональной патологии и задержке развития аномального поведенческого фенотипа, наблюдаемого в модели HD на трансгенных мышах, полученной с использованием вируса, с быстрым началом проявления. DiFiglia инъецировал мышам в полосатое тело 2 мкл Cy3-меченых cc-siRNA-Htt или неконъюгированных siRNA-Htt при 10 мкМ. Аналогичная доза CRISPR-Cas, нацеленной на Htt, может быть предусмотрена в настоящем изобретении для человека, например приблизительно 5-10 мл 10 мкМ CRISPR-Cas, нацеленной на Htt, можно инъецировать в полосатое тело.

- В другом примере Boudreau et al. (Molecular Therapy vol. 17 no. 6 june 2009) инъецировали в полосатое тело 5 мкл векторов на основе рекомбинантного AAV серотипа 2/1, экспрессирующих htt-специфичный вирус для RNAi (при 4 x 10¹² вирусных геномов/мл). Аналогичная доза CRISPR-Cas, нацеленной на Htt, может быть предусмотрена в настоящем изобретении для человека, например, приблизительно 10-20 мл 4 x 10¹² вирусных геномов/мл, причем CRISPR-Cas, нацеленную на Htt, можно инъецировать в полосатое тело.

- В другом примере CRISPR-Cas, целенаправленно воздействующую на HTT, можно вводить непрерывно (см., например, Yu et al., Cell 150, 895-908, August 31, 2012). Yu et al. использовали доставку с помощью осмотических насосов, обеспечивающих скорость 0,25 мл/ч (модель 2004), для доставки 300 мг/день ss-siRNA или фосфатно-солевого буферного раствора (PBS) (Sigma Aldrich) в течение 28 дней и насосы, сконструированные с возможностью доставки 0,5 мкл/ч (модель 2002), использовали для доставки 75 мг/день MOE ASO положительного контроля в течение 14 дней. Насосы (Durect Corporation) заполняли ss-siRNA или MOE, разведенным стерильным PBS, а затем инкубировали при 37 C в течение 24 или 48 (Model 2004) часов перед имплантацией. Мышей анестезировали 2,5% изофлураном и делали срединный разрез у основания черепа. Используя стереотаксические зонды имплантировали канюлю в боковой правый желудочек и закрепляли с помощью клея Loctite. Катетер, прикрепленный к осмотическому мининасосу Alzet, прикрепляли к канюле, и насос размещали подкожно между лопатками. Разрез закрывали швами, используя нейлон 5,0. Аналогичная доза CRISPR-Cas, целенаправленно воздействующей на Htt, может предусматриваться в настоящем изобретении для человека, например, можно вводить от приблизительно 500 до 1000 г/день CRISPR-Cas, целенаправленно воздействующей на Htt.

- В другом примере непрерывной инфузии Stiles et al (Experimental Neurology 233 (2012) 463-471) имплантировали интрапаренхиматозный катетер с титановым наконечником иглы в правую скорлупу. Катетер подсоединяли к насосу SynchroMed® II (Medtronic Neurological, Миннеаполис, Миннесота), подкожно имплантированному в области живота. После 7 дней инфузии фосфатно-солевого буферного раствора при 6 мкл/день насосы повторно заполняли исследуемым препаратом и программировали на непрерывную доставку в течение 7 дней. От приблизительно 2,3 до 11,52 мг/день siRNA вводили путем инфузии при различных значениях скорости инфузии от приблизительно 0,1 до 0,5 мкл/мин. Аналогичная доза CRISPR-Cas, целенаправленно воздействующей на Htt, может предусматриваться в настоящем изобретении для человека, например, можно вводить от приблизительно 20 до 200 мг/день CRISPR-Cas, целенаправленно воздействующей на Htt. В другом примере способы согласно публикации патентного документа США № 20130253040, закрепленной за Sangamo, также можно адаптировать от TALES к системе нацеливания на нуклеиновую кислоту согласно настоящему изобретению для лечения болезни Гентингтона.

В другом примере способы согласно публикации патентного документа США № 20130253040 (WO2013130824), закрепленной за Sangamo, также можно адаптировать от TALES к системе CRISPR-Cas согласно настоящему изобретению для лечения болезни Гентингтона.

WO2015089354 A1 от имени The Broad Institute (института Броада) et al., включенный в данном документ посредством ссылки, описывает мишени для болезни Гентингтона (HP). При болезни Гентингтона потенциальные гены-мишени для комплекса CRISPR: PRKCE; IGF1; EP300; RCOR1; PRKCZ; HDAC4 и TGM2. Соответственно, один или более из PRKCE; IGF1; EP300; RCOR1; PRKCZ; HDAC4 и TGM2 могут быть выбраны в качестве мишеней для болезни Гентингтона в некоторых вариантах осуществления по настоящему изобретению.

Другие нарушения тринуклеотидных повторов. Они могут включать любое из следующего. Категория I включает болезнь Гентингтона (HD) и спиноцеребеллярные атаксии; экспансии категории II являются фенотипически разнообразными с гетерогенными экспансиями, которые, как правило, являются небольшими по величине, но также встречаются в экзонах генов; и категория III включает синдром ломкой X-хромосомы, миотоническую дистрофию, две из спиноцеребеллярных атаксий, ювенильную миоклонус-эпилепсию и атаксию Фридрейха.

- Дополнительный аспект настоящего изобретения относится к использованию системы CRISPR-Cas для корригирования дефектов в генах EMP2A и EMP2B, которые, как было обнаружено, ассоциированы с болезнью Лафора. Болезнь Лафора представляет собой аутосомно-рецессивное состояние, которое характеризуется прогрессирующей миоклонус-эпилепсией, которая может начинаться в виде эпилептических приступов в подростковом возрасте. Некоторые случаи заболевания могут быть вызваны мутациями в генах, которые уже были идентифицированы. Заболевание вызывает судорожные приступы, мышечные спазмы, затрудненную ходьбу, слабоумие и, в конечном итоге, смерть. В настоящее время не существует терапии, которая показала эффективность при прогрессировании заболевания. На другие генетические расстройства, ассоциированные с эпилепсией, также можно целенаправленно воздействовать с помощью системы CRISPR-Cas, и лежащие в основе генетические механизмы дополнительно описаны в Genetics of Epilepsy and Genetic Epilepsies, edited by Giuliano Avanzini, Jeffrey L. Noebels, Mariani Foundation Paediatric Neurology:20; 2009).

- Способы согласно публикации патентного документа США № 20110158957, закрепленного за Sangamo BioSciences, Inc., связанные с инактивацией генов T-клеточного рецептора (TCR), также можно модифицировать для применения с системой CRISPR-Cas согласно настоящему изобретению. В другом примере способы согласно публикации заявки на патент США № 20100311124, закрепленной за Sangamo BioSciences, Inc., и публикации заявки на патент США № 20110225664, закрепленной за Cellectis, оба из которых связаны с инактивацией экспрессии гена глутаминсинтетазы, также можно модифицировать для применения с системой CRISPR-Cas согласно настоящему изобретению.

- Варианты доставки в головной мозг включают инкапсулирование фермента CRISPR и направляющей РНК в форме ДНК или РНК в липосомы и конъюгацию с "молекулярными троянскими конями" для доставки через гематоэнцефалический барьер (BBB). Было показано, что "молекулярные троянские кони" являются эффективными для доставки векторов экспрессии B-gal в головной мозг отличных от человека приматов. Этот же подход можно применять для доставки векторов, содержащих фермент CRISPR и направляющую РНК. Например, Xia CF and Boado RJ, Pardridge WM ("Antibody-mediated targeting of siRNA via the human insulin receptor using avidin-biotin technology." Mol Pharm. 2009 May-Jun;6(3):747-51. doi: 10.1021/mp800194) описывают возможность доставки коротких интерферирующих РНК (siRNA) в клетки в культуре и in vivo в случае комбинированного применения моноклонального антитела (mAb), специфичного к рецептору, и авидин-биотиновой технологии. Авторы также сообщают, что, поскольку в случае применения авидин-биотиновой технологии связь между нацеливающим mAb и siRNA является устойчивой, то после внутривенного введения целенаправленно воздействующей siRNA наблюдаются эффекты RNAi in vivo в отдаленных участках, таких как головной мозг.

- Zhang et al. (Mol Ther. 2003 Jan;7(1):11-8.)) описывают, как экспрессионные плазмиды, кодирующие репортеры, такие как люцифераза, инкапсулировали во внутреннее пространство "искусственного вируса", включающего пегилированную иммунолипосому размером 85 нм, нацеливаемую на головной мозг макака-резуса in vivo с помощью моноклонального антитела (MAb) к рецептору инсулина человека (HIR). MAb к HIR позволяет липосоме, несущей экзогенный ген, подвергаться трансцитозу через гематоэнцефалический барьер и эндоцитозу через плазматическую мембрану нейронов после внутривенной инъекции. Уровень экспрессии гена люциферазы в головном мозге у макака-резуса был в 50 раз выше по сравнению с крысой. Широко распространенная экспрессия гена бета-галактозидазы в нейронах головного мозга приматов была продемонстрирована с помощью как гистохимического анализа, так и конфокальной микроскопии. Авторы указывают, что данный подход позволяет достичь обратимой экспрессии трансгена у взрослых животных в течение 24 часов. Соответственно, применение иммунолипосом является предпочтительным. Их можно использовать в сочетании с антителами для нацеливания на конкретные ткани или белки клеточной поверхности.

Болезнь Альцгеймера

- В публикации заявки на патент США № 20110023153 описывается применение нуклеаз с "цинковыми пальцами" для генетической модификации клеток, животных и белков, ассоциированных с болезнью Альцгеймера. После модификации клетки и животных можно дополнительно исследовать с применением известных способов для исследования воздействия целенаправленных мутаций на развитие и/или прогрессирование AD с использованием показателей, обычно применяемых в исследовании AD - таких как без ограничения обучение и память, тревожность, депрессия, привыкание и сенсомоторные функции, а также анализов, при помощи которых измеряют поведенческие, функциональные, патологические, метаболические и биохимические характеристики.

- Настоящее изобретение предусматривает редактирование любых хромосомных последовательностей, которые кодируют белки, ассоциированные с AD. Белки, связанные с AD, обычно выбирают исходя из экспериментально подтвержденной ассоциации белка, связанного с AD, с заболеванием AD. Например, скорость образования или концентрация в кровотоке белка, связанного с AD, может быть повышенной или пониженной в популяции с заболеванием AD по сравнению с популяцией без заболевания AD. Различия по уровням белка можно оценить с помощью протеомных методик, в том числе без ограничения вестерн-блоттинга, иммуногистохимического окрашивания, твердофазного иммуноферментного анализа (ELISA) и масс-спектрометрии. Альтернативно белки, связанные с AD, можно идентифицировать путем получения профилей генной экспрессии для генов, кодирующих белки, с помощью методик геномного анализа, в том числе без ограничения микроматричного анализа ДНК, последовательного анализа экспрессии генов (SAGE) и количественной полимеразной цепной реакции в режиме реального времени (Q-PCR).

- Примеры ассоциированных с болезнью Альцгеймера белков могут включать, например, белок-рецептор липопротеинов очень низкой плотности (VLDLR), кодируемый геном VLDLR, фермент 1, активирующий убиквитин-подобный модификатор (UBA1), кодируемый геном UBA1, или белок, являющийся каталитической субъединицей NEDD8-активирующего фермента E1 (UBE1C), кодируемый геном UBA3.

- В качестве неограничивающего примера, белки, ассоциированные с AD, включают без ограничения белки, перечисленные ниже: кодируемый хромосомной последовательностью белок ALAS2, дельта-аминолевулинатсинтаза 2 (ALAS2), ABCA1 - ATФ-связывающий кассетный транспортер (ABCA1), ACE - ангиотензин I-превращающий фермент (ACE), APOE - предшественник аполипопротеина E (APOE), APP - белок-предшественник амилоида (APP), AQP1 - белок аквапорин 1 (AQP1), BIN1 - Myc-бокс-зависимый взаимодействующий белок 1 или адаптерный белок-интегратор 1 (BIN1), BDNF - нейротрофический фактор головного мозга (BDNF), BTNL8 - белок 8, подобный бутирофилину (BTNL8), C1ORF49 - белок, кодируемый открытой рамкой считывания 49 хромосомы 1, CDH4 - кадгерин-4, CHRNB2 - нейрональный ацетилхолиновый рецептор, субъединица бета-2, CKLFSF2 - CKLF-подобный белок 2, содержащий трансмембранный домен MARVEL (CKLFSF2), CLEC4E - лектиновый домен C-типа, семейство 4, представитель e (CLEC4E), CLU - кластериновый белок (также известный как аполипопротеин J) CR1 - эритроцитарный рецептор комплемента 1 (CR1, также известный как CD35, рецептор C3b/C4b и рецептор иммунной адгезии), CR1L - эритроцитарный рецептор комплемента 1 (CR1L), CSF3R - рецептор гранулоцитарного колониестимулирующего фактора 3 (CSF3R), CST3 - цистатин C или цистатин 3, CYP2C - цитохром P450 2C, DAPK1 - ассоциированная с клеточной гибелью протеинкиназа 1 (DAPK1), ESR1 - эстрогеновый рецептор 1, FCAR - Fc-фрагмент рецептора для IgA (FCAR, также известный как CD89), FCGR3B - Fc-фрагмент рецептора IIIb для IgG, с низким сродством (FCGR3B или CD16b), FFA2 - рецептор 2 свободных жирных кислот (FFA2), FGA - фибриноген (фактор I), GAB2 - GRB2-ассоциированный связывающий белок 2 (GAB2), GAB2 - GRB2-ассоциированный связывающий белок 2 (GAB2), GALP - галанин-подобный пептид, GAPDHS - глицеральдегид-3-фосфатдегидрогеназа сперматогенных клеток (GAPDHS), GMPB - GMBP, HP - гаптоглобин (HP), HTR7 - 5-гидрокситриптаминовый (серотониновый) рецептор 7 (сопряженный с аденилатциклазой), IDE - фермент, разрушающий инсулин IF127 IF127, IFI6 - интерферон альфа-индуцируемый белок 6 (IFI6), IFIT2 - интерферон-индуцируемый белок с тетратрикопептидными повторами 2 (IFIT2), IL1RN - антагонист рецептора интерлейкина-1 (IL-1RA), IL8RA - рецептор интерлейкина 8, альфа (IL8RA или CD181), IL8RB - рецептор интерлейкина 8, бета (IL8RB), JAG1 - белок Jagged 1 (JAG1), KCNJ15 - входящий калиевый канал, подсемейство J, представитель 15 (KCNJ15), LRP6 - белок 6, родственный рецептору липопротеинов низкой плотности (LRP6), MAPT - белок tau, ассоциированный с микротрубочками (MAPT), MARK4 - киназа 4 MAP/регулирующая сродство к микротрубочкам (MARK4), MPHOSPH1 - фосфобелок 1 M-фазы, MTHFR - 5,10-метилентетрагидрофолатредуктазу, MX2 - интерферон-индуцируемый GTP-связывающий белок Mx2, NBN - нибрин, также известный как NBN, NCSTN - никастрин, NIACR2 - рецептор 2 ниацина (NIACR2, также известный как GPR109B), NMNAT3 - никотинамиднуклеотидаденилилтрансфераза 3, NTM - нейротримин (или HNT), ORM1 - орозомукоид 1 (ORM1) или альфа-1-кислый гликопротеин 1, P2RY13 - пуринергический рецептор P2Y 13 (P2RY13), PBEF1 - никотинамидфосфорибозилтрансфераза (NAmPRTазу или Nampt), также известная как колониестимулирующий фактор 1 пре-B-клеток (PBEF1) или висфатин, PCK1 - -фосфоенолпируваткарбоксикиназа, PICALM - фосфатидилинозит-cвязывающий белок, вовлеченный в формирование клатриновых комплексов (PICALM), PLAU - активатор плазминогена урокиназного типа (PLAU), PLXNC1 - плексин C1 (PLXNC1), PRNP - прионный белок, PSEN1 - белок пресенилин 1 (PSEN1), PSEN2 - белок пресенилин 2 (PSEN2), PTPRA - белок, представляющий собой рецепторную протеинтирозинфосфатазу типа A (PTPRA), RALGPS2 - Ral GEF с доменом PH и SH3-связывающим мотивом 2 (RALGPS2), RGSL2 - белок 2, подобный регулятору передачи сигнала с помощью G-белка (RGSL2), SELENBP1 - селенсвязывающий белок 1 (SELNBP1), SLC25A37 - митоферрин-1, SORL1 - родственный сортилину рецептор L (класс DLR), белок, содержащий повторы A (SORL1), TF - трансферрин, TFAM - митохондриальный транскрипционный фактор A, TNF - фактор некроза опухоли, TNFRSF10C - суперсемейство рецепторов фактора некроза опухоли, представитель 10C (TNFRSF10C), TNFSF10 - суперсемейство рецепторов фактора некроза опухоли (TRAIL), представитель 10a (TNFSF10), UBA1 - фермент 1, активирующий убиквитин-подобный модификатор (UBA1), UBA3 - белок, являющийся каталитической субъединицей NEDD8-активирующего фермента E1 (UBE1C), UBB - белок убиквитин B (UBB), UBQLN1 - убиквилин-1, UCHL1 - белок эстеразу карбокси-конца убиквитина L1 (UCHL1), UCHL3 - белок-изофермент L3 гидролазы карбокси-конца убиквитина (UCHL3), VLDLR - белок-рецептор липопротеинов очень низкой плотности (VLDLR).

- В иллюстративных вариантах осуществления белки, ассоциированные с AD, редактирование хромосомной последовательности которых осуществляют, могут представлять собой белок рецептора липопротеинов очень низкой плотности (VLDLR), кодируемый геном VLDLR, фермент 1, активирующий убиквитин-подобный модификатор (UBA1), кодируемый геном UBA1, белок каталитической субъединицы NEDD8-активирующего фермента E1 (UBE1C), кодируемый геном UBA3, белок аквапорин 1 (AQP1), кодируемый геном AQP1, белок эстеразы карбокси-конца убиквитина L1 (UCHL1), кодируемый геном UCHL1, белок, относящийся к изоферменту L3 гидролазы карбокси-конца убиквитина (UCHL3), кодируемый геном UCHL3, белок убиквитин B (UBB), кодируемый геном UBB, белок tau, ассоциированный с микротрубочками (MAPT), кодируемый геном MAPT, белок рецептора тирозинфосфатазы типа A (PTPRA), кодируемый геном PTPRA, фосфатидилинозит-cвязывающий белок, вовлеченный в формирование клатриновых комплексов (PICALM), кодируемый геном PICALM, кластериновый белок (также известный как аполипопротеин J), кодируемый геном CLU, белок пресенилин 1, кодируемый геном PSEN1, белок пресенилин 2, кодируемый геном PSEN2, родственный сортилину рецептор L (класс DLR), белок, содержащий повторы A (SORL1), кодируемый геном SORL1, белок-предшественник амилоида (APP), кодируемый геном APP, предшественник аполипопротеина E (APOE), кодируемый геном APOE, или нейротрофический фактор головного мозга (BDNF), кодируемый геном BDNF. В иллюстративном варианте осуществления генетически модифицированное животное представляет собой крысу, и редактируемые хромосомные последовательности, кодирующие белок, ассоциированный с AD, являются следующими: APP - белок-предшественник амилоида (APP) - NM_019288, AQP1 - белок аквапорин 1 (AQP1) - NM_012778, BDNF - нейротрофический фактор головного мозга - NM_012513, CLU - кластериновый белок (также известный как аполипопротеин J) - NM_053021, MAPT - белок tau, ассоциированный с микротрубочками (MAPT) - NM_017212, PICALM - фосфатидилинозит-cвязывающий белок, вовлеченный в формирование клатриновых комплексов (PICALM) - NM_053554, PSEN1 - белок пресенилин 1 (PSEN1) - NM_019163, PSEN2 - белок пресенилин 2 (PSEN2) - NM_031087, PTPRA - белок, представляющий собой рецепторную протеинтирозинфосфатазу типа A (PTPRA) - NM_012763, SORL1 - родственный сортилину рецептор L (класс DLR), белок, содержащий повторы A (SORL1) - NM_053519, XM_001065506, XM_217115, UBA1 - фермент 1, активирующий убиквитин-подобный модификатор (UBA1) - NM_001014080, UBA3 - белок, являющийся каталитической субъединицей NEDD8-активирующего фермента E1 (UBE1C) - NM_057205, UBB - белок убиквитин B (UBB) - NM_138895, UCHL1 - белок эстераза карбокси-конца убиквитина L1 (UCHL1) - NM_017237, UCHL3 - белок-изофермент L3 гидролазы карбокси-конца убиквитина (UCHL3) - NM_001110165, VLDLR - белок-рецептор липопротеинов очень низкой плотности (VLDLR) - NM_013155.

- Животное или клетка может содержать 1, 2, 3, 4, 5, 6, 7, 8, 9,10, 11, 12, 13, 14, 15 или более хромосомных последовательностей с нарушенной структурой, кодирующих белок, ассоциированный с AD, и ноль, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15 или более интегрированных в хромосомы последовательностей, кодирующих белок, ассоциированный с AD.

- Отредактированную или интегрированную хромосомную последовательность можно модифицировать так, чтобы она кодировала измененный белок, ассоциированный с AD. Ряд мутаций в хромосомных последовательностях, связанных с AD, были ассоциированы с AD. Например, миссенс-мутация V7171 (т. е. валин в положении 717 заменен на изолейцин) в APP приводит к семейной форме AD. Несколько мутаций в белке пресенилин-1, например, H163R (т. е. гистидин в положении 163 заменен на аргинин), A246E (т. е. аланин в положении 246 заменен на глутамат), L286V (т. е. лейцин в положении 286 заменен на валин) и C410Y (т. е. цистеин в положении 410 заменен на тирозин) приводят к семейной форме болезни Альцгеймера 3 типа. Мутации в белке пресенилин-2, например, N141I (т. е. аспарагин в положении 141 заменен на изолейцин), M239V (т. е. метионин в положении 239 заменен на валин) и D439A (т. е. аспартат в положении 439 заменен на аланин) приводят к семейной форме болезни Альцгеймера 4 типа. Другие ассоциации генных вариантов генов, ассоциированных с AD, и заболевания известны из уровня техники. См., например, публикацию Waring et al. (2008) Arch. Neurol. 65:329-334, раскрытие которой включено в данный документ посредством ссылки во всей своей полноте.

Нарушения, связанные с активностью секретазы

- В публикации заявки на патент США № 20110023146 описывается применение нуклеаз с "цинковыми пальцами" для генетической модификации клеток, животных и белков, ассоциированных с нарушением, связанным с активностью секретазы. Секретазы необходимы для процессинга белков-предшественников с образованием их биологически активных форм. Дефекты различных компонентов секретазных путей связаны со многими нарушениями, в частности, с характерным амилоидогенезом или амилоидными бляшками, например, болезнь Альцгеймера (AD).

- Что касается нарушения, связанного с активностью секретазы, белки, ассоциированные с этими нарушениями, представляют собой разнородную группу белков, которые оказывают влияние на восприимчивость ко многим нарушениям, наличие нарушения, тяжесть нарушения или любую их комбинацию. Настоящее изобретение предусматривает редактирование любых хромосомных последовательностей, которые кодируют белки, ассоциированные с нарушением, связанным с активностью секретазы. Белки, ассоциированные с нарушением, связанным с активностью секретазы, как правило, выбирают исходя из экспериментально установленной ассоциации белков, родственных секретазе, с развитием нарушения, связанного с активностью секретазы. Например, скорость образования или концентрация в кровотоке белка, ассоциированного с нарушением, связанным с активностью секретазы, может быть повышенной или пониженной в популяции с нарушением, связанным с активностью секретазы, по сравнению с популяцией без нарушения, связанного с активностью секретазы. Различия по уровням белка можно оценить с помощью протеомных методик, в том числе без ограничения вестерн-блоттинга, иммуногистохимического окрашивания, твердофазного иммуноферментного анализа (ELISA) и масс-спектрометрии. Альтернативно белок, ассоциированный с нарушением, связанным с активностью секретазы, можно идентифицировать путем получения профилей экспрессии генов для генов, кодирующих белки, с помощью методик геномного анализа, в том числе без ограничения микроматричного анализа ДНК, последовательного анализа экспрессии генов (SAGE) и количественной полимеразной цепной реакции в режиме реального времени (Q-PCR).

- При помощи неограничивающего примера белки, ассоциированные с нарушением, связанным с активностью секретазы, включают PSENEN (гомолог 2 энхансера пресенилина (C. elegans)), CTSB (катепсин B), PSEN1 (пресенелин 1), APP (предшественник белка амилоида бета (A4)), APH1B (гомолог В дефекта переднего отдела гортани 1 (C. elegans)), PSEN2 (пресенилин 2 (болезнь Альцгеймера 4 типа)), BACE1 (бета-сайт APP-расщепляющий фермент 1), ITM2B (интегральный мембранный белок 2B), CTSD (катепсин D), NOTCH1 (гомолог 1 Notch, ассоциированный с транслокацией (дрозофилиный)), TNF (фактор некроза опухоли (семейство TNF, представитель 2)), INS (инсулин), DYT10 (фактор 10 дистонии), ADAM17 (домен 17 ADAM металлопептидазы), APOE (аполипопротеин E), ACE (ангиотензин I превращающий фермент (пептидил-дипептидазу A) 1), STN (статин), TP53 (опухолевый белок p53), IL6 (интерлейкин 6 (интерферон, бета 2)), NGFR (рецептор фактора роста нервов (семейство TNFR, представитель 16)), IL1B (интерлейкин 1, бета), ACHE (ацетилхолинэстеразу (группа крови Yt)), CTNNB1 (катенин (кадгерин-ассоциированный белок), бета 1, 88 кДа), IGF1 (инсулин-подобный фактор роста 1 (соматомедин C)), IFNG (интерферон, гамма), NRG1 (неурегулин 1), CASP3 (каспазу 3, связанную с апоптозом цистеинпептидазу), MAPK1 (митоген-активируемую протеинкиназу 1), CDH1 (кадгерин 1, 1 тип, E-кадгерин (эпителиальный)), APBB1 (протеин-связывающий предшественник амилоида бета (A4), семейство B, член 1 (Fe65)), HMGCR (3-гидрокси-3-метилглутарил-коэнзим A редуктазу), CREB1 (связывающий белок 1 чувствительного к cAMP элемента), PTGS2 (простагландин-эндопероксидсинтазу 2 (простагландин G/H синтазу и циклооксигеназу)), HES1 (белок "hairy and enhancer of split 1", (дрозофилиный)), CAT (каталазу), TGFB1 (трансформирующий фактор роста, бета 1), ENO2 (энолазу 2 (гамма, нейрональную)), ERBB4 (гомолог 4 онкогена вируса эритробластического лейкоза v-erb-a (птичий)), TRAPPC10 (комплекс миграции белковых частиц 10), MAOB (моноаминоксидазу B), NGF (фактор роста нервов (бета-полпипептид)), MMP12 (матриксную металлопептидазу 12 (макрофагальную эластазу)), JAG1 (jagged 1 (синдром Алажиля)), CD40LG (лиганд к CD40), PPARG (гамма-рецептор, активируемый пролифератором пероксисом), FGF2 (фактор роста фибробластов 2 (основной)), IL3 (интерлейкин 3 (колониестимулирующий фактор, множественный)), LRP1 (белок 1, связанный с рецептором липопротеина низкой плотности), NOTCH4 (гомолог 4 Notch (дрозофилиный)), MAPK8 (митоген-активируемую протеинкиназу 8), PREP (пролилэндопептидазу), NOTCH3 (гомолог 3 Notch 3 (дрозофильный)), PRNP (прионный белок), CTSG (катапсин G), EGF (эпидермальный фактор роста (бета-урогастрон)), REN (ренин), CD44 (молекулу CD44 (группа крови системы Indian)), SELP (селектин P (гранулярный мембранный белок с массой 140 кДа, антиген CD62)), GHR (рецептор гормона роста), ADCYAP1 (полипептид 1, активирующий адентилатциклазу 1 (гипофизарный)), INSR (инсулиновый рецептор), GFAP (глиофибриллярный кислый белок), MMP3 (матриксную металлопептидазу 3 (стромелизин 1, прожелатиназу)), MAPK10 (митоген-актвивированную протеинкиназу 10), SP1 (фактор транскрипции Sp1), MYC (гомолог онкогена вируса миелоцитоматоза v-myc (птичий)), CTSE (катепсин E), PPARA (альфа-рецептор, активируемый пролифератором пероксисом), JUN (онкоген jun), TIMP1 (ингибитор TIMP металлопептидазы 1), IL5 (интерлейкин 5 (колониестимулирующий фактор, эозинофильный)), IL1A (интерлейкин 1, альфа), MMP9 (матриксную металлопептидазу 9 (желатиназу B, желатиназу с массой 92 кДа, коллагеназу IV типа с массой 92 кДа)), HTR4 (5-гидрокситриптамин (серотониновый) рецептор 4 типа), HSPG2 (гепарасульфатпротеогликан 2), KRAS (гомолог онкогена вируса саркомы крыс Kirsten v-Ki-ras2), CYCS (цитохром c, соматический), SMG1 (гомолог SMG1, киназу, связанную с фосфатидилинозитол-3-киназой (C. elegans)), IL1R1 (рецептор интерлейкина 1, I тип), PROK1 (прокинетицин 1), MAPK3 (митоген-активируемую протеинкиназу 3), NTRK1 (нейротрофическую тироизинкиназу, рецептор, 1 тип), IL13 (интерлейкин 13), MME (мембранную металлоэндопептидазу), TKT (транскетолазу), CXCR2 (хемокиновый рецептор 2 (с мотивом C-X-C)), IGF1R (рецептор 1 инсулин-подобного фактора роста), RARA (рецептор ретиноевой кислоты, альфа), CREBBP (CREB-связывающий белок), PTGS1 (простагландин-эндопероксидсинтазу 1 (простагландин G/H синтазу и циклооксигеназу)), GALT (галактозо-1-фосфатуридилтрансферазу), CHRM1 (холинергический рецептор, мускариновый 1), ATXN1 (атаксин 1), PAWR (PRKC, апоптический, WT1, регулятор), NOTCH2 (гомолог 2 Notch (дрозофилиный)), M6PR (маннозо-6-фосфатный рецептор (катион-зависимый)), CYP46A1 (цитохром P450, семейство 46, подсемейство A, полипептид 1), CSNK1 D (казеинкиназу 1, дельта), MAPK14 (митоген-активируемую протеинкиназу 14), PRG2 (протеогликан 2, костномозговой (активатор натуральных клеток-киллеров, главный основной белок эозинофильных гранул)), PRKCA (протеинкиназу C, альфа), L1 CAM (молекулу клеточной адгезии L1), CD40 (молекулу CD40, член 5 суперсемейства рецепторов TNF), NR1I2 (семейство 1 ядерных рецепторов, I группа, член 2), JAG2 (jagged 2), CTNND1 (катенин (кадгерин-ассоциированный белок), дельта 1), CDH2 (кадгерин 2, 1 тип, N-кадгерин (нейрональный)), CMA1 (химазу 1, тучных клеток), SORT1 (сортилин 1), DLK1 (дельта-подобный 1 гомолог (дрозофилиный)), THEM4 (представитель 4 семейства тиоэстераз 4), JUP (плакоглобин межклеточных контактов), CD46 (молекулу CD46, регуляторный белок комплемента), CCL11 (хемокиновый лиганд 11 (с мотивом C-C)), CAV3 (кавеолин 3), RNASE3 (рибонуклеазу, РНКазу, семейство A, 3 (эозинофильный катионный белок)), HSPA8 (белок 8 теплового шока, с массой 70 кДа), CASP9 (каспазу 9, связанную с апоптозом цистеинпептидазу), CYP3A4 (цитохром P450, семейство 3, подсемейство A, полипептид 4), CCR3 (хемокиновый рецептор 3 (с мотивом C-C)), TFAP2A (фактор транскрипции AP-2 альфа (активирующий энхансер связывающий белок 2 альфа)), SCP2 (белок-переносчик стеринов 2), CDK4 (циклин-зависимую киназу 4), HIF1A (индуцируемый гипоксией фактор 1, альфа-субъединица (основной фактор транскрипции спираль-петля-спираль)), TCF7L2 (фактор 2, подобный фактору транскрипции 7 (специфичный по отношению к T-клеткам, HMG-бокс)), IL1R2 (рецептор интерлейкина 1, II тип), B3GALTL (факторы, подобный бета 1,3-галактозилтрансферазе), MDM2 (гомолог Mdm2 p53-связывающего белка (мышиный)), RELA (гомолог онкогена А вируса ретикулоэндотелиоза v-rel (птичий)), CASP7 (каспазу 7, связанную с апоптозом цистеинпептидазу), IDE (разрушающий инсулин фермент), FABP4 (белок 4, связывающий жирные кислоты, адипоцитарный), CASK (кальций/кальмодулин-зависимую протеинкиназу (семейство MAGUK)), ADCYAP1R1 (аденилатциклазный активирующий рецептор полипептида 1 (гипофизарный), I тип), ATF4 (активирующий фактор транскрипции 4 (чувствительный к tax энхансерный элемент B67)), PDGFA (тромбоцитарный фактор роста, альфа-полипептид), C21 или f33 (открытая рамка считывания 33 хромосомы 21), SCG5 (секретогранин V (белок 7B2)), RNF123 (белок с "цинковыми пальцами" типа ring 123), NFKB1 (ядерный фактор энхансера гена каппа-полипептида легкой цепи в B-клетках 1 типа), ERBB2 (гомолог онкогена 2 вируса эритробластного лейкоза v-erb-b2, гомолог онкогена нейро-/глиобластомного происхождения (птичий)), CAV1 (кавеолин 1, белок кавеол, 22 кДа), MMP7 (матриксную металлопептидазу 7 (матрилизин, маточный)), TGFA (трансформирующий фактор роста, альфа), RXRA (ретиноидный X-рецептор, альфа), STX1A (синтаксин 1A (головного мозга)), PSMC4 (протеасомную субъединицу 26S (просому, макропаин), АТФазу, 4), P2RY2 (пиринергический рецептор P2Y, связанный с G-белком, 2), TNFRSF21 (семейство рецепторов фактора некроза опухоли, представитель 21), DLG1 (discs, большой гомолог 1 (дрозофилиный)), NUMBL (гомолог, подобный numb (дрозофилиный)), SPN (сиалофорин), PLSCR1 (фосфолипидскрамблазу 1), UBQLN2 (убиквитин 2), UBQLN1 (убиквитин 1), PCSK7 (пропротеинконвертазу субтилизин/кексин 7 типа), SPON1 (спондин 1, белок внеклеточного матрикса), SILV (гомолог silver (мышиный)), QPCT (глутаминил-пептид-циклотрансферазу), HESS (белок "hairy and enhancer of split 5" (дрозофильный)), GCC1 (содержащий GRIP двуспиральный домен 1) и их комбинацию.

- Генетически модифицированные животное или клетка могут содержать 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или больше хромосомных последовательностей с нарушенной структурой, кодирующих белок, ассоциированный с нарушением, связанным с активностью секретазы, и ноль, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или больше интегрированных в хромосомы последовательностей, кодирующих белок с нарушенной структурой, ассоциированный с нарушением, связанным с активностью секретазы.

ALS

- В публикации заявки на патент США № 20110023144 описывается применение нуклеаз с "цинковыми пальцами" для генетической модификации клеток, животных и белков, ассоциированных с заболеванием амиотрофическим латеральным склерозом (ALS). ALS характеризуется постепенной прогрессирующей дегенерацией определенных нервных клеток в коре головного мозга, стволе головного мозга и спинном мозге, связанных с произвольными движениями.

- Что касается нарушения, связанного с двигательными нейронами, белки, ассоциированные с этими нарушениями, представляют собой разнородную группу белков, которые оказывают влияние на восприимчивость к развитию нарушения, связанного с двигательными нейронами, наличие нарушения, связанного с двигательными нейронами, тяжесть нарушения, связанного с двигательными нейронами, или любую их комбинацию. Настоящее изобретение предусматривает редактирование любых хромосомных последовательностей, которые кодируют белки, ассоциированные с заболеванием, связанным с ALS, специфическим нарушением, связанным с двигательными нейронами. Белки, ассоциированные с ALS, как правило, выбирают исходя из экспериментально установленной взаимосвязи белков, связанных с ALS, с нарушением по типу ALS. Например, скорость образования или концентрация в кровотоке белка, ассоциированного с ALS, может быть повышенной или пониженной в популяции с ALS по сравнению с популяцией без ALS. Различия по уровням белка можно оценить с помощью протеомных методик, в том числе без ограничения вестерн-блоттинга, иммуногистохимического окрашивания, твердофазного иммуноферментного анализа (ELISA) и масс-спектрометрии. Альтернативно белки, ассоциированные с ALS, можно идентифицировать путем получения профилей экспрессии генов для генов, кодирующих белки, с помощью методик геномного анализа, в том числе без ограничения микроматричного анализа ДНК, последовательного анализа экспрессии генов (SAGE) и количественной полимеразной цепной реакции в режиме реального времени (Q-PCR).

- В качестве неограничивающего примера белки, ассоциированные с ALS, включают без ограничения следующие белки: SOD1 - растворимая супероксиддисмутаза 1, ALS3 - белок 3, связанный с амиотрофическим латеральным склерозом, SETX - сенатаксин, ALS5 - белок 5, связанный с амиотрофическим латеральным склерозом, FUS - РНК-связывающий белок FUS (слит при саркоме), ALS7 - белок 7, связанный с амиотрофическим латеральным склерозом, ALS2 - белок 2, связанный с амиотрофическим латеральным склерозом, DPP6 - дипептидилпептидаза 6, NEFH - тяжелый полипептид нейрофиламента, PTGS1 - простагландин-эндопероксидсинтазы 1, SLC1A2 - семейство 1 переносчиков растворенных веществ (глутаматный транспортер глиальных клеток с высоким сродством), представитель 2, TNFRSF10B - фактор некроза опухоли, суперсемейство рецепторов, представитель 10b, PRPH - периферин, HSP90AA1 - 90 кДа белок теплового шока альфа (цитозольный), класс A представитель 1, GRIA2 - глутаматный рецептор, ионотропный, AMPA 2, IFNG - интерферон, гамма, S100B - S100, кальций-связывающий белок B, FGF2 - фактор 2 роста фибробластов, AOX1 - альдегидоксидаза 1, CS - цитратсинтаза, TARDBP - TAR ДНК-связывающий белок, TXN - тиоредоксин, RAPH1 - Ras-ассоциированный белок, (RaIGDS/AF-6) и киназа 5 с доменами 1, характеризующимися гомологией с плекстрином, MAP3K5 - митоген-активируемая протеинкиназа, NBEAL1 - белок 1, подобный нейробичину, GPX1 - глутатионпероксидаза 1, ICA1L - подобный 1,69 кДа-аутоантигену островковых клеток, RAC1 - ras-родственный белок, подобный субстрату 1 ботулинического C3 токсина, MAPT - белок tau, ассоциированный с микротрубочками, ITPR2 - рецептор инозитол-1,4,5-трифосфата, тип 2, ALS2CR4 - кандидатный участок 4 хромосомы для белка 2, связанного с амиотрофическим латеральным склерозом (ювенильным), GLS - глутаминаза, ALS2CR8 - кандидатный участок 8 хромосомы для белка 2, связанного с амиотрофическим латеральным склерозом (ювенильным), CNTFR - рецептор для цилиарного нейротрофического фактора, ALS2CR11 - кандидатный участок 11 хромосомы для белка 2, связанного с амиотрофическим латеральным склерозом (ювенильным), FOLH1 - фолатгидролаза 1, FAM117B - семейство белков со сходством последовательности с белком 117, представитель B, P4HB - пролил-4-гидроксилаза, полипептид бета, CNTF - цилиарный нейротрофический фактор, SQSTM1 - секвестосома 1, STRADB - STE20-родственная киназа, бета-адаптерная, NAIP - семейство NLR, связанный с апоптозом ингибиторный белок, YWHAQ - тирозиназа/триптофан-5-монооксигеназа активирующий белок, полипептид тета, SLC33A1 - семейство 33 переносчиков растворенных веществ (ацетил-CoA транспортеры), представитель 1, TRAK2 - транспортный белок, кинезин-связывающий 2, фиг. 4, гомолог, содержащий домен фосфатазы липидов SAC1, NIF3L1 - NIF3 NGG1-взаимодействующий фактор 3, подобный 1, INA - интернексин, нейрональный промежуточный филаментный белок, альфа, PARD3B - белок par-3 (partitioning defective 3), гомолога B, COX8A - цитохром c оксидаза, субъединица VIIIA, CDK15 - циклин-зависимая киназа, HECW1 HECT - белок, содержащий домен C2 и WW 15, E3 - лигаза 1 убиквитинового белка, NOS1 - синтаза 1 оксида азота, MET - протоонкоген met, SOD2 - митохондриальная супероксиддисмутаза 2, HSPB1 - 27 кДа белок 1 теплового шока, NEFL - легкий полипептид нейрофиламента, CTSB - катепсин B, ANG - ангиогенин, рибонуклеаза ANG - ангиогенин, рибонуклеаза, РНКаза семейства 5, HSPA8 - 70 кДа белок теплового шока 8, VAPB VAMP (ассоциированный с везикулами мембранный белок)-ассоциированные белки B и C, ESR1 - эстрогеновый рецептор 1, SNCA -синуклеин, альфа, HGF - фактор роста гепатоцитов, CAT - каталаза, ACTB - актин, бета, NEFM - среднего размера полипептид нейрофиламента, TH - тирозингидроксилаза, BCL2 - белок 2 B-клеток, связанный с CLL/лимфомой, FAS - Fas (суперсемейство рецепторов TNF, представитель 6), CASP3 - каспаза 3, связанная с апоптозом цистеинпептидаза, CLU - кластерин, SMN1 - белок, связанный с выживанием двигательных нейронов, G6PD - глюкозо-6-фосфатдегидрогеназа 1, BAX BCL2-ассоциированный белок X, HSF1 - транскрипционный фактор 1 белка теплового шока, RNF19A - белок 19A с доменом ring, JUN - онкоген jun, ALS2CR12 - кандидатный участок 12 хромосомы для белка 2, связанного с амиотрофическим латеральным склерозом (ювенильным), HSPA5 - 70 кДа белок 5 теплового шока, MAPK14 - митоген-активируемая протеинкиназа 14, IL10 - интерлейкин 10, APEX1 - APEX-нуклеаза (мультифункциональный фермент репарации ДНК), TXNRD1 - тиоредоксинредуктаза 1, NOS2 - индуцируемая синтаза 2 оксида азота, TIMP1 - TIMP - ингибитор 1 металлопептидазы, CASP9 - каспаза 9, связанная с апоптозом цистеинпептидаза, XIAP - сцепленный с X-хромосомой ингибитор апоптоза, GLG1 - гликопротеин 1 комплекса Гольджи, EPO - эритропоэтин, VEGFA - фактор роста эндотелия сосудов A, ELN - эластин, GDNF - нейротрофический фактор, полученный из глиальных клеток, NFE2L2 - белок 2, подобный ядерному фактору (эритроидному), SLC6A3 - представитель 3 семейства 6 переносчиков растворенных веществ (транспортер нейротрансмиттеров, допаминовый), HSPA4 - 70 кДа белок 4 теплового шока, APOE - аполипопротеин E, PSMB8 - субъединица протеасомы (просома, макропаин), тип бета, 8, DCTN1 - динактин 1, TIMP3 - TIMP - ингибитор 3 металлопептидазы, KIFAP3 - кинезин-ассоциированный белок 3, SLC1A1 - представитель 1 семейства 1 переносчиков растворенных веществ (глутаматный транспортер нейронов/эпителиальных клеток с высоким сродством, система Xag), SMN2 - центромерный белок 2 выживания двигательных нейронов, CCNC - циклин C, MPP4 - пальмитоилированный мембранный белок 4, STUB1 - белок 1, гомологичный STIP1 и содержащий U-box, ALS2 - белок-предшественник амилоида бета (A4), PRDX6 - пероксиредоксин 6, SYP - синаптофизин, CABIN1 - кальциневрин-связывающий белок 1, CASP1 - каспаза 1, связанная с апоптозом цистеинпептидаза, GART - фосфорибозилглицинамидформилтрансфераза, фосфорибозилглицинамидсинтетаза, фосфорибозиламиноимидазолсинтетаза, CDK5 - циклин-зависимая киназа 5, ATXN3 - атаксин 3, RTN4 - ретикулон 4, C1QB компонент комплемента 1, субкомпонент q, цепь B, VEGFC - рецептор фактора роста нервов, HTT - хантингтин, PARK7 - белок 7, связанный с болезнью Паркинсона, XDH - ксантиндегидрогеназа, GFAP - глиальный фибриллярный кислый белок, MAP2 - белок 2, ассоциированный с микротрубочками, CYCS - цитохром c, соматические клетки, FCGR3B - Fc-фрагмент рецептора IIIb для IgG с низким сродством, CCS - медь-содержащий шаперон супероксиддисмутазы, UBL5 - белок 5, подобный убиквитину, MMP9 - матриксная металлопептидаза 9, SLC18A3 - представитель 3 семейства 18 переносчиков растворенных веществ (везикулярный, ацетилхолиновый), TRPM7 - катионный канал транзиентного рецепторного потенциала, подсемейство M, представитель 7, HSPB2 - 27 кДа белок 2 теплового шока, AKT1 - гомолог 1 онкогена v-akt вируса тимомы мышей, DERL1- представитель 1 семейства белков с Der1-подобным доменом, CCL2 - лиганд 2 хемокина (C--C мотив), NGRN - неугрин, ассоциированный с ростом аксонов, GSR - глутатионредуктаза, TPPP3 - представитель 3 семейства белков, способствующих полимеризации тубулина, APAF1 - фактор 1, активирующий апоптическую пептидазу, BTBD10 - белок 10, содержащий домен BTB (POZ), GLUD1 - глутаматдегидрогеназа 1, CXCR4 - рецептор 4 хемокина (C--X--C мотив), SLC1A3 - представитель 3 семейства 1 переносчиков растворенных веществ (глутаматный транспортер глиальных клеток с высоким сродством), FLT1 - тирозинкиназа 1, родственная fms, PON1 - параоксоназа 1, AR - андрогеновый рецептор, LIF - ингибиторный фактор, связанный с лейкозом, ERBB3 - гомолог 3 онкогена v-erb-b2 вируса эритробластического лейкоза, LGALS1 - лектин, галактозид-связывающий, растворимый, белок 1, CD44 - молекула CD44, TP53 - опухолевый белок p53, TLR3 - толл-подобный рецептор 3, GRIA1 - глутаматный рецептор, ионотропный, AMPA 1, GAPDH - глицеральдегид-3-фосфатдегидрогеназа, GRIK1 - глутаматный рецептор, ионотропный, каинатный белок 1, DES - десмин, CHAT - холинацетилтрансфераза, FLT4 - тирозинкиназа 4, родственная fms, CHMP2B - белок 2B, модифицирующий хроматин, BAG1 - BCL2-ассоциированный атаноген, MT3 - металлотионеин 3, CHRNA4 - холинергический рецептор, никотиновый, альфа 4, GSS - глутатионсинтетаза, BAK1 - BCL2-антагонист/киллер 1, KDR - рецептор вставочного домена киназы (рецептор тирозинкиназы III типа), GSTP1 - глутатион-S-трансфераза пи 1, OGG1 - 8-оксогуанин-ДНК-гликозилаза, IL6 - интерлейкин 6 (интерферон, бета 2).

- Животное или клетка могут содержать 1, 2, 3, 4, 5, 6, 7, 8, 9 10 или больше хромосомных последовательностей с нарушенной структурой, кодирующих белок, ассоциированный с ALS, и нуль, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или больше интегрированных в хромосомы последовательностей, кодирующих белок с нарушенной структурой, ассоциированный с ALS. Предпочтительные белки, ассоциированные с ALS, включают SOD1 (супероксиддисмутазу 1), ALS2 (белок 2, ассоциированный с боковым амиотрофическим склерозом), FUS (РНК-связывающий белок FUS), TARDBP (TAR-ДНК связывающий белок), VAGFA (фактор роста эндотелия сосудов A), VAGFB (фактор роста эндотелия сосудов B) и VAGFC (фактор роста эндотелия сосудов C) и любую их комбинацию.

Аутизм

- В публикации заявки на патент США № 20110023145 описывается применение нуклеаз с "цинковыми пальцами" для генетической модификации клеток, животных и белков, ассоциированных с расстройствами аутистического спектра (ASD). Расстройства аутистического спектра (ASD) представляют собой группу расстройств, характеризующихся качественным нарушением социального взаимодействия и коммуникации, а также ограниченными повторяющимися и стереотипными формами поведения, интересов и видов деятельности. Три расстройства, аутизм, синдром Аспергера (AS) и неспецифическое первазивное расстройство развития (PDD-NOS) относятся к одному и тому же расстройству с различными степенями тяжести, ассоциированными с умственной деятельностью и медицинскими состояниями. ASD преимущественно являются расстройствами, которые предопределены наследственными факторами, с наследуемостью приблизительно 90%.

- В публикации заявки на патент США № 20110023145 предусматривается редактирование любых хромосомных последовательностей, которые кодируют белки, ассоциированные с ASD, что можно применять по отношению к системе CRISPR-Cas согласно настоящему изобретению. Белки, ассоциированные с ASD, как правило, выбирают исходя из экспериментально установленной ассоциации белка, ассоциированного с ASD, с возникновением или симптомом ASD. Например, скорость образования или концентрация в кровотоке белка, связанного с ASD, может быть повышенной или пониженной в популяции с ASD по сравнению с популяцией без ASD. Различия по уровням белка можно оценить с помощью протеомных методик, в том числе без ограничения вестерн-блоттинга, иммуногистохимического окрашивания, твердофазного иммуноферментного анализа (ELISA) и масс-спектрометрии. Альтернативно белки, ассоциированные с ASD, можно идентифицировать путем получения профилей экспрессии генов для генов, кодирующих белки, с помощью методик геномного анализа, в том числе без ограничения микроматричного анализа ДНК, последовательного анализа экспрессии генов (SAGE) и количественной полимеразной цепной реакции в режиме реального времени (Q-PCR).

- Неограничивающие примеры болезненных состояний или расстройств, которые могут быть ассоциированы с белками, ассоциированными с ASD, включают аутизм, синдром Аспергера (AS), неспецифическое первазивное расстройство развития (PDD-NOS), синдром Ретта, туберозный склероз, фенилкетонурию, синдром Смита-Лемли-Опица и синдром ломкой X-хромосомы. В качестве неограничивающего примера белки, ассоциированные с ASD, включают без ограничения следующие белки: ATP10C - аминофосфолипид-транспортирующую АТФазу (ATP10C), MET - MET-рецепторную тирозинкиназу, BZRAP1, MGLUR5 (GRM5) - метаботропный глутаматный рецептор 5 (MGLUR5), CDH10 - кадгерин-10, MGLUR6 (GRM6) - метаботропный глутаматный рецептор 6 (MGLUR6), CDH9 - кадгерин-9, NLGN1 - нейролигин-1, CNTN4 - контактин-4, NLGN2 - нейролигин-2, CNTNAP2 - белок 2, подобный контактин-ассоциированному белку (CNTNAP2), SEMA5A - нейролигин-3, DHCR7 - 7-дегидрохолестеринредуктазу (DHCR7), NLGN4X - нейролигин-4 X-связанный, NLGN4Y - нейролигин-4 Y-связанный, DOC2A - альфа-белок, содержащий двойной C2-подобный домен, DPP6 - белок 6, подобный дипептидиламинопептидазе, NLGN5 - нейролигин-5, EN2 - белок 2, кодируемый гомеобоксом (EN2), NRCAM - молекулу адгезии нейронов (NRCAM), MDGA2, ассоциированный с умственной отсталостью, сцепленной с ломкой X-хромосомой (MDGA2), NRXN1 - нейрексин-1, FMR2 (AFF2) - представитель 2 семейства AF4/FMR2, OR4M2 - рецептор обонятельных луковиц 4M2, FOXP2 - белок, кодируемый Forkhead-боксом P2 (FOXP2), OR4N4 - рецептор обонятельных луковиц 4N4, FXR1 - аутосомный гомолог 1, связанный с умственной отсталостью, сцепленной с ломкой X-хромосомой (FXR1), OXTR - окситоциновый рецептор (OXTR), FXR2 - аутосомный гомолог 2, связанный с умственной отсталостью, сцепленной с ломкой X-хромосомой (FXR2), PAH - фенилаланингидроксилазу (PAH), GABRA1 - субъединицу альфа-1 рецептора гамма-аминомасляной кислоты (GABRA1), PTEN - гомолог фосфатазы и тензина (PTEN), GABRA5 - субъединицу альфа-5 рецептора GABAA (гамма-аминомасляной кислоты) (GABRA5), PTPRZ1 - протеиновую тирозинфосфатазу-дзета рецепторного типа (PTPRZ1), GABRB1 - субъединицу бета-1 рецептора гамма-аминомасляной кислоты (GABRB1), RELN - рилин, GABRB3 - субъединицу бета-3 рецептора GABAA (гамма-аминомасляной кислоты) (GABRB3), RPL10 - рибосомальный белок 60S L10, GABRG1 - субъединицу гамма-1 рецептора гамма-аминомасляной кислоты (GABRG1), SEMA5A - семафорин-5A (SEMA5A), HIRIP3 - HIRA-взаимодействующий белок 3, SEZ6L2 - белок 2, подобный гомологу белка 6, связанного с приступами (мышь), HOXA1 - белок, кодируемый гомеобоксом Hox-A1 (HOXA1), SHANK3 - белок 3, содержащий SH3 и несколько повторяющихся доменов анкирина (SHANK3), IL6 - интерлейкин-6, SHBZRAP1 - белок 3, содержащий SH3 и несколько повторяющихся доменов анкирина (SHBZRAP1), LAMB1 - ламинин, субъединицу бета-1 (LAMB1), SLC6A4 - серотониновый транспортер (SERT), MAPK3 - митоген-активируемую протеинкиназу 3, TAS2R1 - вкусовой рецептор типа 2, представитель 1 (TAS2R1), MAZ - Myc-ассоциированный белок с "цинковыми пальцами", TSC1 - белок 1, ассоциированный с туберозным склерозом, MDGA2 - гликозилфосфатидилинозитол-связанный белок 2, якорная форма 2, содержащий домен MAM (MDGA2), TSC2 - белок 2, ассоциированный с туберозным склерозом, MECP2 - метил-CpG-связывающий белок 2 (MECP2), UBE3A - убиквитинпротеинлигазу E3A (UBE3A), MECP2 - метил-CpG-связывающий белок 2 (MECP2), WNT2 - сайт интеграции MMTV типа Wingless, представитель 2 семейства (WNT2).

- Идентичность белка, ассоциированного с ASD, редактирование хромосомной последовательности которого осуществляют, может и будет варьироваться. В предпочтительных вариантах осуществления белки, ассоциированные с ASD, редактирование хромосомной последовательности которых осуществляют, могут представлять собой белок 1, ассоциированный с периферическим бензодиазепиновым рецептором (BZRAP1), кодируемый геном BZRAP1, белок-представитель 2 семейства AF4/FMR2 (AFF2), кодируемый геном AFF2 (также называемый MFR2), белок-аутосомный гомолог 1, ассоциированный с умственной отсталостью, сцепленной с ломкой X-хромосомой (FXR1), кодируемый геном FXR1, или белок-аутосомный гомолог 2, ассоциированный с умственной отсталостью, сцепленной с ломкой X-хромосомой (FXR2), кодируемый геном FXR2, гликозилфосфатидилинозитол-связанный белок, содержащий домен MAM, якорная форма 2 (MDGA2), кодируемый геном MDGA2, метил-CpG связывающий белок 2 (MECP2), кодируемый геном MECP2, метаботропный глутаматный рецептор 5 (MGLUR5), кодируемый геном MGLUR5-1 (также называемый GRM5), белок нейрексин 1, кодируемый геном NRXN1, или белок семафорин-5A (SEMA5A), кодируемый геном SEMA5A. В иллюстративном варианте осуществления генетически модифицированным животным является крыса, и редактируемые хромосомные последовательности, кодирующие белок, ассоциированный с ASD, перечислены ниже: BZRAP1 - белок 1, ассоциированный с (периферическим) бензодиазепиновым рецептором (BZRAP1) - XM_002727789, XM_213427, XM_002724533, XM_001081125, AFF2 (FMR2) - представитель 2 семейства AF4/FMR2 (AFF2) - XM_219832, XM_001054673, FXR1 - аутосомный гомолог 1, ассоциированный с умственной отсталостью, сцепленной с ломкой X-хромосомой (FXR1) - NM_001012179, FXR2 - аутосомный гомолог 2, ассоциированный с умственной отсталостью, сцепленной с ломкой X-хромосомой (FXR2) - NM_001100647, MDGA2 - гликозилфосфатидилинозитол-связанный белок, содержащий домен MAM, якорная форма 2 (MDGA2) - NM_199269, MECP2 - метил-CpG-связывающий белок 2 (MECP2) - NM_022673, MGLUR5 - метаботропный глутаматный рецептор 5 (GRM5) (MGLUR5) - NM_017012, NRXN1 - нейрексин-1 - NM_021767, SEMA5A - семафорин-5A (SEMA5A) - NM_001107659.

Нарушения, связанные с экспансией тринуклеотидных повторов

- В публикации заявки на патент США № 20110016540 описывается применение нуклеаз с "цинковыми пальцами" для генетической модификации клеток, животных и белков, ассоциированных с нарушениями, связанными с экспансией тринуклеотидных повторов. Нарушения, связанные с экспансией тринуклеотидных повторов, являются комплексными прогрессирующими нарушениями, затрагивающими биологию развития нервной системы и часто нарушающими когнитивные функции, а также сенсомоторные функции.

- Белки, связанные с экспансией тринуклеотидных повторов, представляют собой разнородную группу белков, ассоциированных с восприимчивостью к развитию нарушения, связанного с экспансией тринуклеотидных повторов, наличием нарушения, связанного с экспансией тринуклеотидных повторов, тяжестью нарушения, связанного с экспансией тринуклеотидных повторов, или любой их комбинацией. Нарушения, связанные с экспансией тринуклеотидных повторов, подразделяют на две категории, определяемые типом повтора. Наиболее распространенным повтором является триплет CAG, который, в случае наличия в кодирующем участке гена, кодирует аминокислоту глутамин (Q). Таким образом, эти нарушения называются нарушениями, связанными с экспансией полиглутаминовых повторов (поли-Q), и включают следующие заболевания: болезнь Гентингтона (HD); спинобульбарную мышечную атрофию (SBMA); формы спинально-церебеллярной атаксии (SCA типов 1, 2, 3, 6, 7 и 17) и дентато-рубро-паллидо-льюисову атрофию (DRPLA). Остальные нарушения, связанные с экспансией тринуклеотидных повторов, при которых триплет CAG не вовлечен, либо триплет CAG находится не в кодирующем участке гена, называются таким образом нарушениями, не связанными с экспансией полиглутаминовых повторов. Нарушения, не связанные с экспансией полиглутаминовых повторов, включают синдром ломкой X-хромосомы (FRAXA); синдром умственной отсталости, сцепленный с ломкой X-хромосомой (FRAXE); атаксию Фридрейха (FRDA); миотоническую дистрофию (DM) и формы спинально-церебеллярной атаксии (SCA типов 8 и 12).

- Белки, ассоциированные с нарушениями, связанными с экспансией тринуклеотидных повторов, как правило, выбирают на основании экспериментально установленной ассоциации белка, ассоциированного с нарушением, связанным с экспансией тринуклеотидных повторов, и нарушения, связанного с экспансией тринуклеотидных повторов. Например, скорость образования или концентрация в кровотоке белка, ассоциированного с нарушением, связанным с экспансией тринуклеотидных повторов, может быть повышенной или пониженной в популяции, имеющей нарушение, связанное с экспансией тринуклеотидных повторов, по сравнению с популяцией, не имеющей нарушения, связанного с экспансией тринуклеотидных повторов. Различия по уровням белка можно оценить с помощью протеомных методик, в том числе без ограничения вестерн-блоттинга, иммуногистохимического окрашивания, твердофазного иммуноферментного анализа (ELISA) и масс-спектрометрии. Альтернативно белки, ассоциированные с нарушениями, обусловленными экспансией тринуклеотидных повторов, можно идентифицировать путем получения профилей генной экспрессии для генов, кодирующих белки, с помощью методик геномного анализа, в том числе без ограничения микроматричного анализа ДНК, последовательного анализа экспрессии генов (SAGE) и количественной полимеразной цепной реакции в режиме реального времени (Q-PCR).

- Неограничивающие примеры белков, ассоциированных с нарушениями, связанными с экспансией тринуклеотидных повторов, включают AR (андрогенный рецептор), FMR1 (белок 1, ассоциированный с умственной отсталостью, сцепленной с ломкой X-хромосомой), HTT (гентингтин), DMPK (протеинкиназу, ассоциированную с миотонической дистрофией), FXN (фратаксин), ATXN2 (атаксин 2), ATN1 (атрофин 1), FEN1 (структуроспецифичную флэп-эндонуклеазу 1), TNRC6A (белок, кодируемый геном 6A, содержащим тринуклеотидные повторы), PABPN1 (ядерный поли(A)-связывающий белок 1), JPH3 (юнктофилин 3), MED15 (субъединицу 15 медиаторного комплекса), ATXN1 (атаксин 1), ATXN3 (атаксин 3), TBP (TATA-бокс-связывающий белок), CACNA1A (альфа-1A-субъединицу потенциал-зависимого кальциевого канала P/Q-типа), ATXN80S (белок, синтезируемый с противоположной нити ATXN8 (не кодирующей белок)), PPP2R2B (бета-изоформу регуляторной субъединицы B протеинфосфатазы 2), ATXN7 (атаксин 7), TNRC6B (белок, кодируемый геном 6B, содержащим тринуклеотидные повторы), TNRC6C (белок, кодируемый геном 6C, содержащим тринуклеотидные повторы), CELF3 (CUGBP, представитель 3 семейства Elav-подобных белков), MAB21L1 (mab-21-подобный белок 1 (C. elegans)), MSH2 (гомолог 2 mutS, ассоциированный с неполипозным колоректальным раком 1 типа (E. coli)), TMEM185A (трансмембранный белок 185A), SIX5 (белок, кодируемый гомеобоксом 5 SIX), CNPY3 (гомолог Canopy 3 (данио-рерио)), FRAXE (белок, ассоциированный с "редким" ломким сайтом, проявляющимся при недостатке фолиевой кислоты, fra(X)(q28) E), GNB2 (бета-полипептид 2 белка, связывающего гуаниновые нуклеотиды (G-белка)), RPL14 (рибосомный белок L14), ATXN8 (атаксин 8), INSR (инсулиновый рецептор), TTR (транстиретин), EP400 (E1A-связывающий белок p400), GIGYF2 (белок GYF 2, взаимодействующий с GRB10), OGG1 (8-оксогуанин-ДНК-гликозилазу), STC1 (станниокальцин 1), CNDP1 (карнозиндипептидазу 1 (металлопептидазу семейства M20)), C10orf2 (белок, кодируемый открытой рамкой считывания 2 хромосомы 10), MAML3 (mastermind-подобный белок 3 (Drosophila)), DKC1 (белок 1, ассоциированный с врожденным дискератозом, дискерин), PAXIP1 (белок 1, взаимодействующий с PAX (с доменом активации транскрипции)), CaSK (кальций/кальмодулин-зависимую сериновую протеинкиназу (семейства MAGUK)), MAPT (белок tau, ассоциированный с микротрубочками), SP1 (фактор транскрипции Sp1), POLG (полимеразу гамма (ДНК-направленную)), AFF2 (представитель 2 семейства AF4/FMR2), THBS1 (тромбоспондин 1), TP53 (опухолевый белок p53), ESR1 (эстрогеновый рецептор 1), CGGBP1 (белок 1, связывающий триплетный повтор CGG), ABT1 (активатор 1 базальной транскрипции), KLK3 (родственную калликреину пептидазу 3), PRNP (белок приона), JUN (онкоген jun), KCNN3 (кальций-активируемый калиевый канал средней/малой проводимости, представитель 3 подсемейства N), BAX (BCL2-ассоциированный белок X), FRAXA (белок, ассоциированный с "редким" ломким сайтом, проявляющимся при недостатке фолиевой кислоты, fra(X)(q27.3) A (макроорхидизм, умственная отсталость)), KBTBD10 (белок 10, содержащий повтор Kelch и домен BTB (POZ)), MBNL1 (muscleblind-подобный белок (Drosophila)), RAD51 (гомолог RAD51 (гомолог RecA, E. coli) (S. cerevisiae)), NCOA3 (коактиватор 3 ядерных рецепторов), ERDA1 (белок с экспансией повторяющихся доменов, CAG/CTG 1), TSC1 (белок 1, ассоциированный с туберозным склерозом), COMP (олигомерный матриксный белок хряща), GCLC (каталитическую субъединицу глутаматцистеинлигазы), RRAD (Ras-родственный белок, ассоциированный с сахарным диабетом), MSH3 (гомолог 3 mutS (E. coli)), DRD2 (дофаминовый рецептор D2), CD44 (молекулу CD44 (система групп крови Indian)), CTCF (CCCTC-связывающий фактор (белок с "цинковыми пальцами")), CCND1 (циклин D1), CLSPN (гомолог класпина (Xenopus laevis)), MEF2A (энхансерный фактор 2A миоцитов), PTPRU (протеинтирозинфосфатазу рецепторного типа U), GAPDH (глицеральдегид-3-фосфатдегидрогеназу), TRIM22 (белок 22, содержащий тройной мотив), WT1 (белок 1 опухоли Вильмса), AHR (арил-углеводородный рецептор), GPX1 (глутатионпероксидазу 1), TPMT (тиопурин-S-метилтрансферазу), NDP (белок, ассоциированный с болезнью Норри (псевдоглиомой)), ARX (белок, кодируемый гомеобоксом гена, родственного aristaless), MUS81 (гомолог эндонуклеазы MUS81 (S. cerevisiae)), TYR (тирозиназу (глазокожный альбинизм IA)), EGR1 (белок 1 раннего ростового ответа), UNG (урацил-ДНК-гликозилазу), NUMBL (белок, подобный гомологу numb (Drosophila)), FABP2 (белок 2, связывающий жирные кислоты в кишечнике), EN2 (белок, кодируемый гомеобоксом engrailed 2), CRYGC (гамма-C-кристаллин), SRP14 (гомологичный РНК-связывающий белок Alu размером 14 кДа из частицы узнавания сигнала), CRYGB (гамма-B-кристаллин), PDCD1 (белок 1 запрограммированной гибели клеток), HOXA1 (белок, кодируемый гомеобоксом A1), ATXN2L (атаксин-2-подобный белок), PMS2 (PMS2, белок 2, противодействующий повышению уровня постмейотической сегрегации (S. cerevisiae)), GLA (альфа-галактозидазу), CBL (белок, кодируемый последовательностью, трансформирующей с экотропным ретровирусом Cas-Br-M (мышей)), FTH1 (полипептид 1 тяжелой субъединицы ферритина), IL12RB2 (бета-2-субъединицу рецептора интерлейкина 12), OTX2 (белок, кодируемый гомеобоксом orthodenticle 2), HOXA5 (белок, кодируемый гомеобоксом A5), POLG2 (вспомогательную гамма-2-субъединицу полимеразы (ДНК-направленной)), DLX2 (белок, кодируемый гомеобоксом distal-less 2), SIRPA (сигнально-регуляторный белок альфа), OTX1 (белок, кодируемый гомеобоксом orthodenticle 1), AHRR (репрессор арил-углеводородного рецептора), MANF (мезэнцефальный нейротрофический фактор, происходящий из астроцитов), TMEM158 (трансмембранный белок 158 (ген/псевдоген)) и ENSG00000078687.

- Предпочтительные белки, ассоциированные с нарушениями, обусловленными экспансией тринуклеотидных повторов, включают HTT (гентингтин), AR (андрогенный рецептор), FXN (фратаксин), Atxn3 (атаксин), Atxn1 (атаксин), Atxn2 (атаксин), Atxn7 (атаксин), Atxn10 (атаксин), DMPK (протеинкиназу, ассоциированную с миотонической дистрофией), Atn1 (атрофин 1), CBP (creb-связывающий белок), VLDLR (рецептор липопротеинов очень низкой плотности) и их любую комбинацию.

Лечение заболеваний органов слуха

- Настоящее изобретение также предусматривает доставку системы CRISPR-Cas в одно ухо или оба уха.

- Исследователи рассматривают вопрос о том, можно ли применять генную терапию для содействия существующим способам лечения глухоты - а именно, применению кохлеарных имплантатов. Глухоту часто вызывают утрата или повреждение волосковых клеток, которые не могут передавать сигналы слуховым нейронам. В таких случаях можно применять кохлеарные имплантаты для обеспечения реакции на звук и передачи электрических сигналов нервным клеткам. Однако эти нейроны часто дегенерируют и подвергаются ретракции отростков в улитке, поскольку пораженные волосковые клетки высвобождают меньше факторов роста.

- В заявке на патент США 20120328580 описана инъекция фармацевтической композиции в ухо (например, путем ушного введения), как, например, в просветы улитки (например, в проток улитки, лестницу преддверия и барабанную лестницу улитки), например с помощью шприца, например шприца c однократной дозой. Например, одно или несколько соединений, описанных в данном документе, можно вводить путем интратимпанальной инъекции (например, в среднее ухо) и/или инъекций в наружное, среднее и/или внутреннее ухо. Такие способы регулярно применяются в данной области, например для введения стероидов и антибиотиков в уши людей. Инъекцию можно осуществлять, например, через круглое окно уха или через капсулу улитки. Из уровня техники известны и другие способы введения во внутреннее ухо (см., например, Salt and Plontke, Drug Discovery Today, 10:1299-1306, 2005).

- В другом способе введения фармацевтическую композицию можно вводить in situ с помощью катетера или насоса. Катетер или насос могут, например, направлять фармацевтическую композицию в просветы улитки, или круглое окно уха, и/или просвет толстой кишки. Иллюстративный аппарат для доставки лекарственных средств и способы, подходящие для введения одного или нескольких соединений, описанных в данном документе, в ухо, например, в ухо человека, описаны McKenna et al. (публикация заявки на патент США № 2006/0030837) и Jacobsen et al. (патент США № 7206639). В некоторых вариантах осуществления катетер или насос могут быть расположены, например, в ухе (например, в наружном, среднем и/или внутреннем ухе) пациента во время хирургического вмешательства. В некоторых вариантах осуществления катетер или насос могут быть расположены, например, в ухе (например, в наружном, среднем и/или внутреннем ухе) пациента без необходимости в хирургическом вмешательстве.

- Альтернативно или дополнительно одно или несколько соединений, описанных в данном документе, можно вводить в сочетании с механическим устройством, таким как кохлеарный имплантат или слуховой аппарат, которое носят в наружном ухе. Иллюстративный кохлеарный имплантат, подходящий для применения в настоящем изобретении, описан Edge et al. (публикация заявки на патент США № 2007/0093878).

- В некоторых вариантах осуществления способы введения, описанные выше, можно комбинировать в любом порядке и можно применять одновременно или попеременно.

- Альтернативно или дополнительно настоящее изобретение можно применять согласно любому из способов, одобренных Управлением по контролю качества пищевых продуктов и лекарственных средств, например, описанных в справочнике стандартов CDER, версия номер 004 (доступном по адресу fda.give/cder/dsm/DRG/drg00301.htm).

- В целом способы клеточной терапии, описанные в заявке на патент США 20120328580, можно применять для стимуляции полной или частичной дифференцировки клеток в определенный тип зрелых клеток внутреннего уха (например, в волосковые клетки) или в его направлении in vitro. Клетки, полученные в результате осуществления таких способов, можно затем трансплантировать или имплантировать пациенту, нуждающемуся в таком лечении. Способы культивирования клеток, необходимые для осуществления на практике этих способов, включающие способы идентификации и отбора подходящих типов клеток, способы стимуляции полной или частичной дифференцировки выбранных клеток, способы идентификации полностью или частично дифференцированных типов клеток и способы имплантации полностью или частично дифференцированных клеток, описаны ниже.

- Клетки, подходящие для применения в настоящем изобретении, включают без ограничения клетки, способные к полной или частичной дифференцировке в зрелые клетки внутреннего уха, например в волосковые клетки (например, внутренние и/или наружные волосковые клетки), при контакте, например, in vitro, с одним или несколькими соединениями, описанными в данном документе. Иллюстративные клетки, способные к дифференцировке в волосковые клетки, включают без ограничения стволовые клетки (например, стволовые клетки внутреннего уха, взрослые стволовые клетки, стволовые клетки, полученные из костного мозга, эмбриональные стволовые клетки, мезенхимальные стволовые клетки, стволовые клетки кожи, iPS-клетки и стволовые клетки, полученные из жировой ткани), клетки-предшественники (например, клетки-предшественники внутреннего уха), поддерживающие клетки (например, клетки Дейтерса, столбовые клетки, внутренние фаланговые клетки, тектальные клетки и клетки Гензена) и/или зародышевые клетки. Применение стволовых клеток для замещения чувствительных клеток внутреннего уха описано Li et al. (публикация заявки на патент США № 2005/0287127) и Li et al. (патент США с регистрационным № 11/953797). Применение стволовых клеток, полученных из костного мозга, для замещения чувствительных клеток внутреннего уха описано Edge et al. в PCT/US2007/084654. iPS-клетки описаны, например, в Takahashi et al., Cell, Volume 131, Issue 5, Pages 861-872 (2007); Takahashi and Yamanaka, Cell 126, 663-76 (2006); Okita et al., Nature 448, 260-262 (2007); Yu, J. et al., Science 318(5858):1917-1920 (2007); Nakagawa et al., Nat. Biotechnol. 26:101-106 (2008); и Zaehres and Scholer, Cell 131(5):834-835 (2007). Такие подходящие клетки можно идентифицировать путем анализа (например, качественного или количественного) наличия одного или нескольких тканеспецифичных генов. Например, экспрессию гена можно выявить путем выявления белкового продукта одного или нескольких тканеспецифичных генов. Методики выявления белков включают окрашивание белков (например, с использованием клеточных экстрактов или цельных клеток) с помощью антител к соответствующему антигену. В данном случае соответствующий антиген является белковым продуктом экспрессии тканеспецифичного гена. Хотя, в принципе, меченым может быть первое антитело (т. е. антитело, связывающее антиген), более распространенным (и улучшающим визуализацию) является применение второго антитела, направленного против первого (например, антитела к IgG). Данное второе антитело конъюгируют с флуорохромами, или соответствующими ферментами для колориметрических реакций, или гранулами золота (для электронной микроскопии), или с системой биотин-авидин, так что можно определить местоположение первичного антитела и, следовательно, антигена.

- Молекулы CRISPR-Cas по настоящему изобретению можно доставлять в ухо путем непосредственного нанесения фармацевтической композиции на наружное ухо с применением модифицированных композиций из опубликованной заявки на патент США 20110142917. В некоторых вариантах осуществления фармацевтическую композицию вносят в наружный слуховой проход. Доставка в ухо может также называться внутриушной или ушной доставкой.

- В некоторых вариантах осуществления молекулы РНК по настоящему изобретению доставляют в липосомных составах или составах на основе Lipofectin и им подобных, и их можно получить с помощью способов, хорошо известных специалистам в данной области. Такие способы описаны, например, в патентах США №№ 5593972, 5589466 и 5580859, включенных в данный документ посредством ссылки.

- Были разработаны системы доставки, специально предназначенные для повышения эффективности и улучшения доставки siRNA в клетки млекопитающих (см., например, Shen et al FEBS Let. 2003, 539:111-114; Xia et al., Nat. Biotech. 2002, 20:1006-1010; Reich et al., Mol. Vision. 2003, 9: 210-216; Sorensen et al., J. Mol. Biol. 2003, 327: 761-766; Lewis et al., Nat. Gen. 2002, 32: 107-108 и Simeoni et al., NAR 2003, 31, 11: 2717-2724), и их можно применять в настоящем изобретении. Недавно siRNA успешно применили для ингибирования экспрессии генов у приматов (см., например, Tolentino et al., Retina 24(4):660), и их также можно применять в настоящем изобретении.

- Qi et al. раскрывают способы эффективного введения siRNA во внутреннее ухо через неповрежденное круглое окно путем трансфекции с помощью новой технологии доставки протеидов, которая может быть применена по отношению к системе нацеливания на нуклеиновую кислоту по настоящему изобретению (см., например, Qi et al., Gene Therapy (2013), 1-9). В частности, успешным было применение доменов TAT, связывающих двухнитевую РНК (TAT-DRBD), с помощью которых можно трансфицировать меченную Cy3 siRNA в клетки внутреннего уха, в том числе внутренние и наружные волосковые клетки, ампулярный гребешок, пятно эллиптического мешочка и пятно сферического мешочка, посредством проникновения через неповрежденное круглое окно, для доставки двухнитевых siRNA in vivo для лечения различных болезней внутреннего уха и сохранения слуховой функции. Приблизительно 40 мкл 10 мМ РНК может быть предусмотрено в качестве дозы для введения в ухо.

- В соответствии с Rejali et al. (Hear Res. 2007 Jun;228(1-2):180-7), функционирование кохлеарных имплантатов можно улучшить путем надлежащего сохранения нейронов спирального ганглия, которые являются мишенью для электростимуляции имплантатом, и ранее было показано, что нейротрофический фактор головного мозга (BDNF) повышает выживаемость спирального ганглия в ушах с экспериментально индуцированной глухотой. Rejali et al. тестировали модифицированную конструкцию электрода кохлеарного имплантата, имеющего покрытие из клеток-фибробластов, трансдуцированных вирусным вектором со вставкой гена BDNF. Для осуществления данного типа переноса генов ex vivo Rejali et al. трансдуцировали фибробласты морской свинки аденовирусом со вставкой кассеты с геном BDNF, и определили, что эти клетки секретируют BDNF, а затем прикрепили клетки, секретирующие BDNF, к электроду кохлеарного имплантата с помощью агарозного геля и имплантировали электрод в барабанную лестницу улитки. Rejali et al. определили, что электроды с экспрессией BDNF были способны обеспечивать сохранение значительно большего количества нейронов спирального ганглия в базальных витках улитки через 48 дней после имплантации по сравнению с контрольными электродами и демонстрировали возможность осуществления терапии с применением кохлеарных имплантатов в комбинации с переносом генов ex vivo для повышения выживаемости нейронов спирального ганглия. Такую систему можно применять для доставки системы нацеливания на нуклеиновую кислоту по настоящему изобретению в ухо.

- Mukherjea et al. (Antioxidants & Redox Signaling, Volume 13, Number 5, 2010) документально подтверждают, что нокдаун NOX3 с помощью короткой интерферирующей (si) РНК нейтрализовал ототоксичность цисплатина, о чем свидетельствует защита OHC от повреждения и снижение величин сдвига порогов слуховых вызванных потенциалов ствола мозга (ABR). Крысам вводили различные дозы siNOX3 (0,3, 0,6 и 0,9 мкг) и экспрессию NOX3 оценивали с помощью RT-PCR в режиме реального времени. Наименьшая применяемая доза siRNA для NOX3 (0,3 мкг) не демонстрировала какого-либо ингибирования мРНК NOX3 по сравнению с транстимпанальным введением скремблированной siRNA или отсутствием обработки улиток. Однако введение более высоких доз siRNA для NOX3 (0,6 и 0,9 мкг) снижало экспрессию NOX3 по сравнению с контрольной скремблированной siRNA. Такую систему можно применять для транстимпанального введения системы CRISPR-Cas по настоящему изобретению в дозе от приблизительно 2 мг до приблизительно 4 мг CRISPR-Cas для введения человеку.

- Jung et al. (Molecular Therapy, vol. 21 no. 4, 834-841 apr. 2013) демонстрируют, что уровни Hes5 в эллиптическом мешочке снижались после внесения siRNA и что количество волосковых клеток в этих эллиптических мешочках было значительно большим, чем после контрольной обработки. Данные позволяют предположить, что технология siRNA может быть применимой для индукции восстановления и регенерации во внутреннем ухе и что сигнальный путь Notch является потенциально применимой мишенью для ингибирования экспрессии конкретного гена. Jung et al. в вестибулярный эпителий уха инъецировали 8 мкг siRNA для Hes5 в объеме 2 мкл, полученном путем добавления стерильного нормального физиологического раствора к лиофилизированной siRNA. Такую систему можно применять для введения системы, нацеленной на нуклеиновую кислоту, по настоящему изобретению в вестибулярный эпителий уха в дозе от приблизительно 1 до приблизительно 30 мг CRISPR-Cas для введения человеку.

Нацеливание на ген в неделящихся клетках (нейронах и мышечных)

- Неделящиеся (особенно неделящиеся, полностью дифференцированные) типы клеток являются затруднительными в плане нацеливания на ген или конструирование генома, поскольку, например, гомологичная рекомбинация (HR), как правило, подавляется в фазе G1 клеточного цикла. Однако, исследуя механизмы контроля клетками нормальных систем репарации, Durocher обнаружил ранее неизвестный переключатель, который держит HR "выключенной" в неделящихся клетках, и они разработали стратегию включения этого переключателя. Orthwein et al. (лаборатория Daniel Durocher при Mount Sinai Hospital в Оттаве, Канада, в публикации в Nature 16142, опубликованной онлайн 9 декабря 2015 г.) недавно показали, что подавление HR может быть устранено и нацеливание на ген успешно осуществлено в клетках как почки (293T), так и остеосаркомы (U2OS). Как известно, опухолевые супрессоры BRCA1, PALB2 и BRAC2 обеспечивают репарацию DSB ДНК с помощью HR. Они выяснили, что образование комплекса BRCA1 с PALB2-BRAC2 регулируется убиквитиновым сайтом в PALB2, например действием на сайт убиквитинлигазой E3. Такая убиквитинлигаза E3 состоит из KEAP1 (взаимодействующего с PALB2 белка) в комплексе с циллином-3 (CUL3)-RBX1. Убиквитинилирование PALB2 подавляет его взаимодействие с BRCA1 и нейтрализуется деубиквитилазой USP11, которая сама находится под контролем клеточного цикла. Восстановление взаимодействия BRCA1-PALB2 в комбинации с активацией резекции конца ДНК является достаточным для индуцирования гомологичной рекомбинации в G1, как измерено рядом способов, в том числе анализом основанного на CRISPR-Cas9 нацеливания на ген, направленным на USP11 или KEAP1 (экспрессированные из вектора pX459). Однако, если взаимодействие BRCA1-PALB2 восстанавливалось в перенесших резекцию клетках G1 с использованием либо истощения KEAP1, либо экспрессии мутанта PALB2-KR, выявляли достоверное увеличение числа событий нацеливания на ген.

- Таким образом, реактивация HR в клетках, особенно в неделящихся, полностью дифференцированных типах клеток, является предпочтительной в некоторых вариантах осуществления. В некоторых вариантах осуществления обеспечение взаимодействия BRCA1-PALB2 является предпочтительным в некоторых вариантах осуществления. В некоторых вариантах осуществления целевой клеткой является неделящаяся клетка. В некоторых вариантах осуществления целевой клеткой является нейрон или мышечная клетка. В некоторых вариантах осуществления на целевую клетку нацеливаются in vivo. В некоторых вариантах осуществления клетка находится в G1, при этом HR подавляется. В некоторых вариантах осуществления предпочтительным является применение истощения KEAP1, например, ингибирование активности экспрессии KEAP1. Истощение KEAP1 может быть достигнуто посредством siRNA, например, как показано у Orthwein et al. В качестве альтернативы, предпочтительной является экспрессия мутанта PALB2-KR (не имеющего все восемь остатков Lys в домене взаимодействия с BRCA1) либо в комбинации с истощением KEAP1, либо отдельно. PALB2-KR взаимодействует с BRCA1 не зависимо от положения в клеточном цикле. Таким образом, обеспечение или восстановление взаимодействия BRCA1-PALB2, особенно в клетках G1, является предпочтительным в некоторых вариантах осуществления, особенно, если целевые клетки являются неделящимися, или если удаление и возвращение (ex vivo нацеливания на ген) являются проблематичными, например, в нейронных или мышечных клетках. siRNA KEAP1 доступна от ThermoFischer. В некоторых вариантах осуществления комплекс BRCA1-PALB2 может быть доставлен в G1 клетку. В некоторых вариантах осуществления деубиквитинилирование PALB2 может быть активировано, например, при повышенной экспрессии деубиквитилазы USP11, поэтому может быть предусмотрена конструкция для активации или повышения экспрессии или активности деубиквитилазы USP11.

Лечение заболеваний глаза

Настоящее изобретение также предусматривает доставку системы CRISPR-Cas в один глаз или оба глаза.

В конкретных вариантах осуществления настоящего изобретения систему CRISPR-Cas можно использовать для коррекции дефектов глаз, которые являются результатом нескольких генетических мутаций, дополнительно описанных в Genetic Diseases of the Eye, Second Edition, edited by Elias I. Traboulsi, Oxford University Press, 2012.

Для введения в глаз особенно предпочтительными являются лентивирусные векторы, в частности, вирусы инфекционной анемии лошадей (EIAV).

В другом варианте осуществления также предусмотрены минимальные лентивирусные векторы для отличных от приматов организмов на основе вируса инфекционной анемии лошадей (EIAV), особенно для генной терапии заболеваний глаз (см., например, Balagaan, J Gene Med 2006; 8: 275 - 285, опубликовано онлайн 21 ноября 2005 г. в Wiley InterScience (www.interscience.wiley.com). DOI: 10.1002/jgm.845). Предусмотрено, что векторы имеют промотор цитомегаловируса (CMV), управляющий экспрессией целевого гена. Также предусмотрена любая из внутрикамерной, субретинальной, внутриглазной и интравитреальной инъекций (см., например, Balagaan, J Gene Med 2006; 8: 275 - 285, опубликовано онлайн 21 ноября 2005 г. в Wiley InterScience (www.interscience.wiley.com). DOI: 10.1002/jgm.845). Внутриглазные инъекции можно осуществлять с помощью операционного микроскопа. В случае субретинальной и интравитреальной инъекций можно выпятить глаза путем осторожного надавливания пальцами и визуализировать глазное дно с помощью системы контактных линз, состоящей из капли раствора контактной среды на роговице, накрытой покровным стеклом для микропрепаратов. При субретинальных инъекциях наконечник иглы 34 калибра на 10 мм, закрепленной на 5-мкл шприце Hamilton, можно при непосредственной визуализации продвигать через экваториальную область верхней части склеры тангенциально к заднему полюсу глазного яблока, пока в субретинальном пространстве не будет видна апертура иглы. Затем можно инъецировать 2 мкл суспензии вектора, вызывая буллезное верхнее отслоение сетчатки, что, таким образом, подтверждает субретинальное введение вектора. В данном подходе производят самогерметизирующийся разрез склеры, позволяющий суспензии вектора удерживаться в субретинальном пространстве до поглощения ее RPE, обычно в течение 48 ч. после процедуры. Эту процедуру можно повторить в нижнем полушарии, вызывая нижнее отслоение сетчатки. Данная методика обуславливает воздействие суспензии вектора на приблизительно 70% нейросенсорной части сетчатки и RPE. В случае интравитреальных инъекций можно продвигать наконечник иглы через склеру на 1 мм кзади от корнеосклерального лимба и инъецировать 2 мкл суспензии вектора в полость стекловидного тела. В случае внутрикамерных инъекций можно продвигать наконечник иглы через парацентез корнеосклерального лимба в направлении центральной части роговицы и можно инъецировать 2 мкл суспензии вектора. В случае внутрикамерных инъекций можно продвигать наконечник иглы через парацентез корнеосклерального лимба в направлении центральной части роговицы и можно инъецировать 2 мкл суспензии вектора. Эти векторы можно инъецировать в титрах 1,0-1,4 × 10¹⁰ или 1,0-1,4 × 10⁹ трансдуцирующих единиц (ТЕ)/мл.

В другом варианте осуществления также предусмотрен RetinoStat®, лентивирусный вектор на основе вируса инфекционной анемии лошадей для генной терапии, экспрессирующий ангиостатические белки эндостатин и ангиостатин, который доставляют посредством субретинальной инъекции для лечения влажной формы возрастной дегенерации желтого пятна (см., например, Binley et al., HUMAN GENE THERAPY 23:980-991 (September 2012)). Такой вектор может быть модифицирован для системы CRISPR-Cas по настоящему изобретению. Каждый глаз можно обрабатывать любым RetinoStat® в дозе, составляющей 1,1 x 10⁵ трансдуцирующих единиц на глаз (ТЕ/глаз), в общем объеме 100 мкл.

В другом варианте осуществления может быть предусмотрен аденовирусный вектор с делецией E1 и частичной делецией E3 и E4 для доставки в глаз. Двадцать восемь пациентов с неоваскулярной возрастной макулодистрофией на поздней стадии (AMD) получали однократную интравитреальную инъекцию аденовирусного вектора с делецией E1 и частичной делецией E3 и E4, экспрессирующего фактор пигментного эпителия человека (AdPEDF.ll) (см., например, Campochiaro et al., Human Gene Therapy 17:167-176 (February 2006)). Исследовали дозы, варьирующие в диапазоне от 10⁶ до 10^9,5 единичных частиц (PU), и не наблюдали серьезных нежелательных событий, связанных с AdPEDF.ll, и дозолимитирующей токсичности (см., например, Campochiaro et al., Human Gene Therapy 17:167-176 (February 2006)). Опосредованный аденовирусными векторами перенос генов в глаза, по-видимому, является эффективным подходом для лечения нарушений со стороны органов зрения и может применяться по отношению к системе CRISPR-Cas.

В другом варианте осуществления систему sd-rxRNA® от RXi Pharmaceuticals можно применять для доставки CRISPR-Cas в глаз и/или приспосабливать к ней. В этой системе однократное интравитреальное введение 3 мкг sd-rxRNA приводит к специфичному относительно последовательности снижению уровней мРНК PPIB в течение 14 дней. Систему sd-rxRNA® можно применять по отношению к системе нацеливания на нуклеиновую кислоту по настоящему изобретению, предусматривая введение человеку дозы CRISPR, составляющей от приблизительно 3 до 20 мг.

Millington-Ward et al. (Molecular Therapy, vol. 19 no. 4, 642-649 apr. 2011) описывают векторы на основе аденоассоциированного вируса (AAV) для доставки супрессора родопсина, функционирующего на основе РНК-интерференции (RNAi), и замещающего гена родопсина с модифицированными кодонами, устойчивого к супрессии в связи с нуклеотидными изменениями в вырожденных положениях в целевом сайте для RNAi. Осуществляли субретинальную инъекцию либо 6,0 x 10⁸ vp, либо 1,8 x 10¹⁰ vp AAV в глаза согласно Millington-Ward et al. Вектор на основе AAV согласно Millington-Ward et al. можно применять в отношении системы CRISPR-Cas по настоящему изобретению, предусматривая дозу введения человеку от приблизительно 2 x 10¹¹ до приблизительно 6 x 10¹³ vp.

Dalkara et al. (Sci Transl Med 5, 189ra76 (2013)) также обращаются к направленной эволюции in vivo для конструирования вектора на основе AAV, доставляющего варианты дефектных генов дикого типа по всей сетчатке после безвредной инъекции в жидкую часть стекловидного тела глаза. Dalkara описывает дисплейную библиотеку 7-мерных пептидов и библиотеку AAV, сконструированную посредством ДНК-шаффлинга генов cap AAV1, 2, 4, 5, 6, 8 и 9. Упаковывали библиотеки rcAAV и векторы на основе rAAV, экспрессирующие GFP под контролем промотора CAG или Rho, и с помощью количественной ПЦР получали титры геномов, устойчивых к действию дезоксирибонуклеаз. Библиотеки объединяли, и проводили два цикла эволюции, каждый из которых состоял из диверсификации исходной библиотеки с последующими тремя этапами отбора in vivo. На каждом таком этапе мышам P30, экспрессирующим rho-GFP, интравитреально инъецировали 2 мл очищенной йодиксанолом и подвергнутой диализу против фосфатно-солевого буфера (PBS) библиотеки с титром геномов приблизительно 1 × 10¹² vg/мл. Векторы на основе AAV согласно Dalkara et al. можно применять по отношению системы нацеливания на нуклеиновые кислоты по настоящему изобретению, предусматривая введение человеку дозы, составляющей от приблизительно 1 x 10¹⁵ до приблизительно 1 x 10¹⁶ vg/мл.

В конкретном варианте осуществления можно целенаправленно воздействовать на ген родопсина для лечения пигментного ретинита (RP), при котором систему согласно публикации заявки на патент США № 20120204282, закрепленной за Sangamo BioSciences, Inc., можно модифицировать по образу системы CRISPR-Cas по настоящему изобретению.

В другом варианте осуществления способы согласно публикации заявки на патент США № 20130183282, закрепленной за Cellectis, направленной на способы расщепления целевой последовательности гена родопсина человека, можно также модифицировать для системы нацеливания на нуклеиновую кислоту по настоящему изобретению.

Публикация заявки на патент США № 20130202678, закрепленная за Academia Sinica, относится к способам лечения форм ретинопатии и офтальмологических нарушений с угрозой потери зрения, относящимся к доставке гена Puf-A (экспрессируемого в ганглиозных и пигментных клетках сетчатки в тканях глаза и проявляющего уникальную антиапоптотическую активность) в субретинальное или интравитреальное пространство глаза. В частности, желаемые мишени представляют собой zgc:193933, prdm1a, spata2, tex10, rbb4, ddx3, zp2.2, Blimp-1 и HtrA2, на все из которых можно нацеливаться с помощью системы нацеливания на нуклеиновую кислоту по настоящему изобретению.

Wu (Cell Stem Cell,13:659-62, 2013) разработал направляющую РНК, которая нацеливает Cas9 на местоположение мутации в одной паре оснований, вызывающей формы катаракты у мышей, где он индуцирует расщепление ДНК. Затем с помощью другого аллеля дикого типа или олигонуклеотидов, вводимых в зиготы, механизмы репарации корректируют последовательность поврежденного аллеля и корректируют генетический дефект, вызывающий катаракту, у мутантной мыши.

В публикации заявки на патент США № 20120159653 описывается применение нуклеаз с "цинковыми пальцами" для генетической модификации клеток, животных и белков, ассоциированных с дегенерацией желтого пятна (MD). Дегенерация желтого пятна (MD) является основной причиной ухудшения зрения у лиц пожилого возраста, однако также является характерным симптомом детских заболеваний, таких как болезнь Штаргардта, дистрофия глазного дна Сорсби и летальные детские нейродегенеративные заболевания, при этом начало заболеваний проявляется уже в младенческом возрасте. Дегенерация желтого пятна приводит к потере зрения в центре поля зрения (желтом пятне) по причине поражения сетчатки. Существующие в настоящее время животные модели не воспроизводят основные отличительные признаки заболевания, как это наблюдается у людей. В доступных животных моделях, содержащих мутантные гены, кодирующие белки, ассоциированные с MD, также получают крайне изменчивые фенотипы, переходя к проблематике заболевания человека и разработке способов терапии.

Один аспект публикации заявки на патент США № 20120159653 относится к редактированию любых хромосомных последовательностей, которые кодируют белки, ассоциированные с MD, что можно применять в отношении системы нацеливания на нуклеиновую кислоту по настоящему изобретению. Белки, ассоциированные с MD, как правило, выбирают, исходя из экспериментально установленной взаимосвязи белка, ассоциированного с MD, при нарушении MD. Например, скорость образования или циркулирующая концентрация белка, связанного с MD, может быть повышенной или пониженной в популяции с нарушением с MD по сравнению с популяцией без нарушения с MD. Различия по уровням белка можно оценить с помощью протеомных методик, в том числе без ограничения вестерн-блоттинга, иммуногистохимического окрашивания, твердофазного иммуноферментного анализа (ELISA) и масс-спектрометрии. Альтернативно белки, ассоциированные с MD, можно идентифицировать путем получения профилей экспрессии генов для генов, кодирующих белки, с помощью методик геномного анализа, в том числе без ограничения микроматричного анализа ДНК, последовательного анализа экспрессии генов (SAGE) и количественной полимеразной цепной реакции в режиме реального времени (Q-PCR).

В качестве неограничивающего примера белки, ассоциированные с MD, включают без ограничения следующие белки: представитель 4 (ABCA4) подсемейства A (ABC1) АТФ-связывающей кассеты, ACHM1 - белок 1, ассоциированный с ахроматопсией (палочковым монохроматизмом), ApoE - аполипопротеин E (ApoE), C1QTNF5 (CTRP5) - C1q/белок 5, родственный фактору некроза опухолей (C1QTNF5), C2 - компонент 2 системы комплемента (C2), компонент C3 системы комплемента (C3), CCL2 - хемокиновый лиганд 2 (с мотивом C-C) (CCL2), CCR2 - рецептор хемокина 2 (с мотивом C-C) (CCR2), CD36 - кластер дифференцировки 36, CFB - фактор B системы комплемента, CFH - фактор H системы комплемента (CFH), CFHR1 - белок 1, родственный фактору H системы комплемента, CFHR3 - белок 3, родственный фактору H системы комплемента, CNGB3 - бета-3-субъединица ионного канала, регулируемого циклическими нуклеотидами, CP - церулоплазмин (CP), CRP - C-реактивный белок (CRP) CST3 - цистатин C или цистатин 3 (CST3), CTSD - катепсин D (CTSD), CX3CR1 - рецептор хемокина 1 (с мотивом C-X3-C), ELOVL4 - белок 4, отвечающий за удлинение жирных кислот с очень длинной цепью, ERCC6 - белок эксцизионной репарации, вступающий в перекрестную комплементацию, корректирующий дефицит репарации у грызунов, комплементационная группа 6, FBLN5 - фибулин-5, FBLN5 - фибулин 5, FBLN6 - фибулин 6, FSCN2 - фасцин (FSCN2), HMCN1 - гемицентрин 1, HMCN1 - гемицентрин 1, HTRA1 - сериновая пептидаза HtrA 1 (HTRA1), HTRA1 - сериновая пептидаза HtrA 1, IL-6 - интерлейкин 6, IL-8 - интерлейкин 8, LOC387715 - гипотетический белок, PLEKHA1 - белок, содержащий плекстрин-гомологичный домен, представитель 1 семейства A (PLEKHA1), PROM1 - проминин 1 (PROM1 или CD133), PRPH2 - периферин-2, RPGR - регулятор ГТФазы, ассоциированный с пигментным ретинитом, SERPING1 - ингибитор сериновой пептидазы, представитель 1 клады G (C1-ингибитор), TCOF1 - Treacle, TIMP3 - ингибитор 3 металлопротеиназ (TIMP3), TLR3 - Toll-подобный рецептор 3.

Идентичность белка, ассоциированного с MD, редактирование хромосомной последовательности которого осуществляют, может и будет варьироваться. В предпочтительном варианте осуществления белки, ассоциированные с MD, редактирование хромосомных последовательностей которых осуществляют, могут представлять собой белок представитель 4 (ABCA4) подсемейства A (ABC1) АТФ-связывающей кассеты, кодируемый геном ABCR, белок аполипопротеин E (APOE), кодируемый геном APOE, белок хемокиновый лиганд 2 (с мотивом C-C) (CCL2), кодируемый геном CCL2, белок рецептор хемокина 2 (с мотивом C-C) (CCR2), кодируемый геном CCR2, белок церулоплазмин (CP), кодируемый геном CP, белок катепсин D (CTSD), кодируемый геном CTSD, или белок ингибитор 3 металлопротеиназ (TIMP3), кодируемый геном TIMP3. В иллюстративном варианте осуществления генетически модифицированное животное представляет собой крысу, и редактируемые хромосомные последовательности, кодирующие белок, ассоциированный с MD, могут быть следующими: NM_000350 (ABCA4) для представителя 4 подсемейства A (ABC1) АТФ-связывающей кассеты, NM_138828 (APOE) для аполипопротеина E APOE, NM_031530 (CCL2) для хемокинового лиганда 2 (с мотивом C-C) CCL2, NM_021866 (CCR2) для рецептора хемокина 2 (с мотивом C-C) CCR2, NM_012532 (CP) для церулоплазмина CP, NM_134334 (CTSD) для катепсина D CTSD, NM_012886 (TIMP3) для ингибитора 3 металлопротеиназ TIMP3. Животное или клетка могут содержать 1, 2, 3, 4, 5, 6, 7 или более хромосомных последовательностей с нарушенной структурой, кодирующих белок, ассоциированный с MD, и ноль, 1, 2, 3, 4, 5, 6, 7 или больше интегрированных в хромосомы последовательностей, кодирующих белок с нарушенной структурой, ассоциированный с MD.

Отредактированную или интегрированную хромосомную последовательность можно модифицировать так, чтобы она кодировала измененный белок, ассоциированный с MD. Некоторые мутации в хромосомных последовательностях, связанных с MD, были ассоциированы с MD. Неограничивающие примеры мутаций в хромосомных последовательностях, ассоциированных с MD, включают те мутации, которые могут вызывать MD, в том числе в белке ABCR - E471K (т. е. глутамат в положении 471 заменен на лизин), R1129L (т. е. аргинин в положении 1129 заменен на лейцин), T1428M (т. е. треонин в положении 1428 заменен на метионин), R1517S (т. е. аргинин в положении 1517 заменен на серин), I1562T (т. е. изолейцин в положении 1562 заменен на треонин) и G1578R (т. е. глицин в положении 1578 заменен на аргинин); в белке CCR2 - V64I (т. е. валин в положении 192 заменен на изолейцин); в белке CP - G969B (т. е. глицин в положении 969 заменен на аспарагин или аспартат); в белке TIMP3 - S156C (т. е. серин в положении 156 заменен на цистеин), G166C (т. е. глицин в положении 166 заменен на цистеин), G167C (т. е. глицин в положении 167 заменен на цистеин), Y168C (т. е. тирозин в положении 168 заменен на цистеин), S170C (т. е. серин в положении 170 заменен на цистеин), Y172C (т. е. тирозин в положении 172 заменен на цистеин) и S181C (т. е. серин в положении 181 заменен на цистеин). Из уровня техники известны и другие взаимосвязи генных вариантов генов, ассоциированных с MD, и заболевания.

Системы CRISPR применимы для коррекции заболеваний, возникающих в результате действия аутосомных доминантных генов. Например, CRISPR/Cas9 использовали для удаления аутосомного доминантного гена, который вызывает потерю рецепторов в глазе. Bakondi, B. et al., In Vivo CRISPR/Cas9 Gene Editing Corrects Retinal Dystrophy in the S334ter-3 Rat Model of Autosomal Dominant Retinitis Pigmentosa. Molecular Therapy, 2015; DOI: 10.1038/mt.2015.220.

Лечение сердечно-сосудистых и мышечных заболеваний

Настоящее изобретение также предусматривает доставку системы CRISPR-Cas, описанной в данном документе, например систем эффекторного белка Cpf1, в сердце. Для сердца предпочтительным является тропный к миокарду аденоассоциированный вирус (AAVM), в частности AAVM41, при использовании которого продемонстрирован преимущественный перенос генов в сердце (см., например, Lin-Yanga et al., PNAS, March 10, 2009, vol. 106, no. 10). Введение может быть системным или местным. Доза в приблизительно 1-10 x 10¹⁴ векторных геномов предусматривается для системного введения. См. также, например, Eulalio et al. (2012) Nature 492: 376 и Somasuntharam et al. (2013) Biomaterials 34: 7790.

Например, в публикации заявки на патент США № 20110023139 описывается применение нуклеаз с "цинковыми пальцами" для генетической модификации клеток, животных и белков, ассоциированных с сердечно-сосудистым заболеванием. Сердечно-сосудистые заболевания, как правило, включают высокое кровяное давление, сердечные приступы, сердечную недостаточность и инсульт, а также TIA. Любую хромосомную последовательность, связанную с сердечно-сосудистым заболеванием, или белок, кодируемый любой хромосомной последовательностью, связанной с сердечно-сосудистым заболеванием, можно использовать в способах, описанных в настоящем изобретении. Белки, связанные с сердечно-сосудистым заболеванием, как правило, выбирают на основании экспериментально установленной ассоциации белка, связанного с сердечно-сосудистым заболеванием, с развитием сердечно-сосудистого заболевания. Например, скорость образования или концентрация в кровотоке белка, связанного с сердечно-сосудистым заболеванием, может быть повышенной или пониженной в популяции с сердечно-сосудистым заболеванием по сравнению с популяцией без сердечно-сосудистого заболевания. Различия по уровням белка можно оценить с помощью протеомных методик, в том числе без ограничения вестерн-блоттинга, иммуногистохимического окрашивания, твердофазного иммуноферментного анализа (ELISA) и масс-спектрометрии. Альтернативно белки, связанные с сердечно-сосудистым заболеванием, можно идентифицировать путем получения профилей генной экспрессии для генов, кодирующих белки, с помощью методик геномного анализа, в том числе без ограничения микроматричного анализа ДНК, последовательного анализа экспрессии генов (SAGE) и количественной полимеразной цепной реакции в режиме реального времени (Q-PCR).

В качестве примера хромосомная последовательность может включать без ограничения IL1B (интерлейкин 1, бета), XDH (ксантиндегидрогеназу), TP53 (опухолевый белок p53), PTGIS (простагландин 12 (простациклин) синтазу), MB (миоглобин), IL4 (интерлейкин 4), ANGPT1 (ангиопоэтин 1), ABCG8 (АТФ-связывающую кассету, подсемейство G (WHITE), представитель 8), CTSK (катепсин K), PTGIR (рецептор простангландина 12 (простациклина) (IP)), KCNJ11 (калиевый канал внутреннего выпрямления, подсемейство J, представитель 11), INS (инсулин), CRP (C-реактивный белок, связанный с пентраксином), PDGFRB (тромбоцитарный фактор роста, бета-полипептид), CCNA2 (циклин A2), PDGFB (гомолог онкогена бета-полипептида тромбоцитарного фактора роста (вируса саркомы обезьян (v-sis))), KCNJ5 (калиевый канал внутреннего выпрямления, подсемейство J, представитель 5), KCNN3 (калиевый, активируемый кальцием канал, промежуточного/низкого проведения, подсемейство N, представитель 3), CAPN10 (кальпаин 10), PTGES (простагландин E синтаза), ADRA2B (альфа-2B-адренергический рецептор), ABCG5 (АТФ-связывающую кассету, подсемейство G (WHITE), представитель 5), PRDX2 (пероксиредоксин 2), CAPN5 (кальпаин 5), PARP14 (семейство поли (АДФ-рибозо) полимераз, представитель 14), MEX3C (гомолог C mex-3 (C. elegans)), ACE ангиотензин I-конвертирующий фермент (пептидил-дипептидазу A) 1), TNF (фактор некроза опухоли (суперсемейство TNF, представитель 2)), IL6 (интерлейкин 6 (интерферон, бета 2)), STN (статин), SERPINE1 (ингибитор серпинпептидазы, клада E (нексин, ингибитор активатора плазминогена 1 типа), представитель 1), ALB (альбумин), ADIPOQ (адипонектин, содержащий C1Q и коллагеновый домен), APOB (аполипопротеин B (в том числе антиген Ag(x))), APOE (аполипопротеин E), LEP (лептин), MTHFR (5,10-метилентетрагидрофолатредуктаза (NADPH)), APOA1 (аполипопротеин A-I), EDN1 (эндотелин 1), NPPB (предшественник натрийуретического пептида B), NOS3 (синтазу оксида азота 3 типа (эндотелиальная клетка)), PPARG (гамма-рецептор, активируемый пролифератором пероксисом), PLAT (активатор плазминогена, тканевой), PTGS2 (простагландин-эндопероксидсинтазу 2 типа (простагландин G/H синтазу и циклооксигеназу)), CETP (транспортный белок холестериновых эфиров, плазменный), AGTR1 (рецептор антиотензина II, 1 тип), HMGCR (3-гидрокси-3-метилглутарил-кофермент A редуктазу), IGF1 (инсулинподобный фактор роста 1 (соматомедин C)), SELE (селектин E), REN (ренин), PPARA (альфа-рецептор, активируемый пролифератором пероксисом), PON1 (параоксоназу 1), KNG1 (кининоген 1), CCL2 (хемокиновый лиганд 2 (с мотивом C-C)), LPL (липопротеинлипазу), VWF (фактор фон Виллебранда), F2 (фактор коагуляции II (тромбин)), ICAM1 (молекулу межклеточной адгезии 1), TGFB1 (трансформирующий фактор роста, бета 1), NPPA (предшественник натрийуретического пептида A), IL10 (интерлейкин 10), EPO (эритропоэтин), SOD1 (супероксиддисмутазу 1, растворимую), VCAM1 (молекулу адгезии эндотелия сосудов 1 типа), IFNG (интерферон, гамма), LPA (липопротеин, Lp(a)), MPO (миелопероксидазу), ESR1 (эстрогеновый рецептор 1), MAPK1 (митоген-активируемую протеинкиназу 1), HP (гаптоглобин), F3 (фактор коагуляции III (тромбопластин, тканевой фактор)), CST3 (цистатин C), COG2 (компонент олигомерного комплекса Гольджи 2 типа), MMP9 (матриксную металлопептидазу 9 (желатиназу B, желатиназу размером 92 кДа, коллагеназу IV типа размером 92 кДа)), SERPINC1 (ингибитор серпинпептидазы, клада C (антитромбин), представитель 1), F8 (фактор коагуляции VIII, прокоагулянтный компонент), HMOX1 (гемоксигеназу (дециклическую) 1 типа), APOC3 (аполипопротеин C-III), IL8 (интерлейкин 8), PROK1 (прокинетицин 1), CBS (цистатионин-бета-синтазу), NOS2 (синтазу оксида натрия 2 типа, индуцибельную), TLR4 (toll-подобный рецептор 4 типа), SELP (селектин P (гранульный мембранный белок размером 140 кДа, антиген CD62)), ABCA1 (АТФ-связывающую кассету, подсемейство A (ABC1), представитель 1), AGT (ангиотензин (ингибитор серпинпептидазы, клада A, представитель 8)), LDLR (рецептор липопротеина низкой плотности), GPT (глутамат-пируваттрансаминазу (аланинаминотрансферазу)), VEGFA (фактор роста эндотелия сосудов A), NR3C2 (ядерный рецептор, подсемейство 3, группа C, представитель 2), IL18 (интерлейкин 18 (фактор индукции интерферона гамма)), NOS1 (синтазу оксида азота 1 типа (нейрональную)), NR3C1 (ядерный рецептор, подсемейство 3, группа C, представитель 1 (глюкокортикоидный рецептор)), FGB (бета-цепь фибриногена), HGF (фактор роста гепатоцитов (гепатопоэтин A; рассеивающий фактор)), IL1A (интерлейин 1, альфа), RETN (резистин), AKT1 (гомолог онкогена вируса тимомы мышей 1 типа v-akt), LIPC (липазу, печеночную), HSPD1 (белок теплового шока 1 типа размером 60 кДА (шаперонин)), MAPK14 (митоген-активируемую протеинкиназу 14), SPP1 (секретируемый фосфопротеин 1), ITGB3 (интегрин, бета 3 (тромбоцитарный гликопротеин 111a, антиген CD61)), CAT (каталазу), UTS2 (уротензин 2), THBD (тромбомодулин), F10 (фактор коагуляции X), CP (церулоплазмин (ферроксидазу)), TNFRSF11B (суперсемейство фактора некроза опухоли, представитель 11b), EDNRA (рецептор эндотелина типа A), EGFR (рецептор эпидермального фактора роста (гомолог онкогена вируса эритробластического лейкоза (v-erb-b), птичьего)), MMP2 (матриксную металлопептидазу 2 (желатиназу A, желатиназу с массой 72 кДа, коллагеназу IV типа размером 72 кДа)), PLG (плазминоген), NPY (нейропептид Y), RHOD (семейство генов гомологов ras, представитель D), MAPK8 (митоген-активируемую протеинкиназу 8), MYC (гомолог онкогена вируса миелоцистоматоза v-myc (птичьего)), FN1 (фибронектин 1), CMA1 (химазу 1, тучная клетка), PLAU (активатор плазминогена, урокиназу), GNB3 (гуанин-нуклеотид-связывающий белок (G-белок), бета-полипептид 3 типа), ADRB2 (адренергический бета-2-рецептор, поверхностный), APOA5 (аполипопротеин A-V), SOD2 (супероксиддисмутазу 2, митохондриальную), F5 (фактор коагуляции V (проакселерин, лабильный фактор)), VDR (рецептор витамина D (1,25-дигидроксивитамина D3), ALOX5 (арахидонат 5-липооксигеназу), HLA-DRB1 (главный комплекс гистосовместимости, класс II, DR бета 1), PARP1 (поли (АДФ-рибозо) полимеразу 1 типа), CD40LG (лиганд CD40), PON2 (параоксоназу 2), AGER (рецептор, специфичный к конечным продуктам дополнительного гликозилирования), IRS1 (субстрат для инсулинового рецептора 1 типа), PTGS1 (простагландин-эндопероксидсинтазу 1 типа (простагландин G/H синтазу и циклооксигеназу)), ECE1 (эндотелин-превращающий фермент 1 типа), F7 (фактор коагуляции VII (сывороточный ускоритель превращения тромбина)), URN (антагонист рецептора интерлейкина 1), EPHX2 (эпоксидгидролазу 2 типа, цитоплазматическую), IGFBP1 (связывающий белок инсулинподобного фактора роста 1 типа), MAPK10 (митоген-активируемую протеинкиназу 10), FAS (Fas (суперсемейство рецепторов TNF, представитель 6)), ABCB1 (АТФ-связывающую кассету, подсемейство B (MDR/TAP), представитель 1), JUN (онкоген jun), IGFBP3 (связывающий белок инсулинподобного фактора роста 3 типа), CD14 (молекулу CD14), PDE5A (фосфодиэстеразу 5A, cGMP-специфичную), AGTR2 (рецептор ангиотензина II, 2 тип), CD40 (молекулу CD40, представитель 5 суперсемейства рецепторов TNF), LCAT (лецитин-холестерин-ацилтрансферазу), CCR5 (хемокиновый рецептор 5 типа (с мотивом C-C)), MMP1 (матриксную металлопептидазу 1 (интерстициальную коллагеназу)), TIMP1 (ингибитор металлопептидазы TIMP 1 типа), ADM (адреномедуллин), DYT10 (дистонию 10), STAT3 (передатчик сигнала и активатор транскрипции 3 типа (фактор ответа острой фазы)), MMP3 (матриксную металлопептидазу 3 (стромелизин 1, прожелатиназу)), ELN (эластин), USF1 (фактор транскрипции, связывающийся перед сайтом инициации транскрипции 1), CFH (фактор комплемента H), HSPA4 (белок теплового шока 4 размером 70 кДа), MMP12 (матриксную металлопептидазу 12 (макрофагальную эластазу)), MME (мембранную металлоэндопептидазу), F2R (рецептор фактора коагуляции II (тромбина)), SELL (селектин L), CTSB (катепсин B), ANXA5 (аннексин A5), ADRB1 (адренергический бета-1-рецептор), CYBA (цитохром b-245, альфа-пептид), FGA (альфа-цепь фибриногена), GGT1 (гамма-глутамилтрансферазу 1), LIPG (липазу, эндотелиальную), HIF1A (фактор, индуцируемый гипоксией 1, альфа-субъединицу (фактор транскрипции основной структуры спираль-петля-спираль)), CXCR4 (хемокиновый рецептор 4 (с мотивом C-X-C)), PROC (белок C (инактиватор факторов коагуляции Va и VIIIa)), SCARB1 (фагоцитарный рецептор, класс B, представитель 1), CD79A (молекулу CD79a, иммуноглобулин-ассоциированную альфа), PLTP (белок переноса фосфолипидов), ADD1 (аддуцин 1 (альфа)), FGG (гамма-цепь фибриногена), SAA1 (сывороточный амилоид A1), KCNH2 (калиевый потенциалзависимый канал, семейство H (eag-связанный), представитель 2), DPP4 (дипептидилпептидазу 4), G6PD (глюкозо-6-фосфатдегидрогеназу), NPR1 (натрийуретический пептидный рецептор A/гуанилатциклазу A (атрионатрийуретический пептидный рецептор A)), VTN (витронектин), KIAA0101 (KIAA0101), FOS (гомолог онкогена вируса остеосаркомы мышей FBJ), TLR2 (toll-подобный рецептор 2), PPIG (пептидилпролинизомеразу G (циклопролин G)), IL1R1 (рецептор интерлейкина I типа), AR (андрогеновый рецептор), CYP1A1 (цитохром P450, семейство 1, подсемейство A, полипептид 1), SERPINA1 (ингибитор серпинпептидазы, клада A (альфа-1 антипротеиназу, антитрипсин), представитель 1), MTR (5-метилтетрагидрофолат-госоцистеинметилтрансферазу), RBP4 (ретинол-связывающий белок 4 типа, плазменный), APOA4 (аполипопротеин A-IV), CDKN2A (циклин-зависимый ингибитор киназы 2A (меланома, p16, ингибирует CDK4)), FGF2 (фактор роста фибробластов 2 (основной)), EDNRB (эндотелиновый рецептор B типа), ITGA2 (интегрин, альфа 2 (CD49B, альфа 2 субъединицу VLA-2 рецептора)), CABIN1 (кальцинейрин-связывающий белок 1), SHBG (глобулин, связывающийся с половыми гормонами), HMGB1 (группу белков с высокой подвижностью 1 типа), HSP90B2P (белок теплового шока размером 90 кДА, бета (Grp94), представитель 2 (псевдоген)), CYP3A4 (цитохром P450, семейство 3, подсемейство A, полипептид 4), GJA1 (белок межклеточных щелевых контактов, альфа 1, 43 кДа), CAV1 (кавеолин 1, белок кавеол, 22 кДа), ESR2 (эстрогеновый рецептор 2 (ER бета)), LTA (лимфотоксин альфа (суперсемейство TNF, представитель 1)), GDF15 (фактор роста и дифференцировки 15), BDNF (нейротрофический фактор головного мозга), CYP2D6 (цитохром P450, семейство 2, подсемейство D, полипептид 6), NGF (фактор роста нервов (бета-полипептид)), SP1 (фактор транкрипции Sp1), TGIF1 (TGFB-индуцируемый фактор гомеобокс 1), SRC (гомолог онкогена вируса саркомы v-src (Schmidt-Ruppin A-2) (птичьего)), EGF (эпидермальный фактор роста (бета-урогастрон)), PIK3CG (фосфоинозитид-3-киназу, каталитическую, гамма-полипептид), HLA-A (основной комплекс гистосовместимости, класс I, A), KCNQ1 (калиевый потенциалзависимый канал, KQT-подобное семейство, представитель 1), CNR1 (каннабиноидный рецептор 1 (головной мозг)), FBN1 (фибриллин 1), CHKA (холинкиназу альфа), BEST1 (бестрофин 1), APP (белок-предшественник амилоида бета (A4)), CTNNB1 (катенин (кадгерин-ассоциированный беок), бета 1, 88 кДа), IL2 (интерлейкин 2), CD36 (молекулу CD36 (тромбоспондиновый рецептор)), PRKAB1 (протеинкиназу, AMФ-активируемую, бета 1 некаталитическую субъединицу), TPO (тиреоидную перокидазу), ALDH7A1 (семейство альдегиддегидрогеназы 7, представитель A1), CX3CR1 (хемокиновый рецептор 1 (с мотивом C-X3-C)), TH (тирозингидроксилазу), F9 (фактор коагуляции IX), GH1 (гормон роста 1), TF (трансферрин), HFE (гемохроматоз), IL17A (интерлейкин 17A), PTEN (гомолог фосфатазы и тензина), GSTM1 (глутатион S-трансферазу мю 1), DMD (дистрофин), GATA4 (GATA связывающий белок 4 типа), F13A1 (фактор коагуляции XIII, полипептид A1), TTR (транстиретин), FABP4 (связывающий белок жирных кислот 4 типа, адипоцитарный), PON3 (параоксоназу 3), APOC1 (аполипопротеин C-I), INSR (инсулиновый рецептор), TNFRSF1B (суперсемейство рецепторов фактора некроза опухоли, представитель 1B), HTR2A (5-гидрокситриптаминовый (серотониновый) рецептор 2A), CSF3 (колониестимулирующий фактор 3 (гранулоцитарный)), CYP2C9 (цитохром P450, семейство 2, подсемейство C, полипептид 9), TXN (тиоредоксин), CYP11B2 (цитохром P450, семейство 11, подсемейство B, полипептид 2), PTH (паратиреоидный гормон), CSF2 (колониестимулирующий фактор 2 (гранулоцитарно-макрофагальный)), KDR (рецептор, содержащий домен вставки киназы (рецептор тирозинкиназы III типа)), PLA2G2A (фосфолипазу A2, группа IIA (тромбоциты, синовиальная жидкость)), B2M (бета-2-микроглобулин), THBS1 (тромбоспондин 1), GCG (глюкагон), RHOA (семейство генов гомологов ras, представитель A), ALDH2 (семейство альдегиддегидрогеназы 2 (митохондриальной)), TCF7L2 (фактор транскрипции 7, подобный фактору 2 (специфичный по отношению к T-клеткам, HMG-бокс)), BDKRB2 (брадикининовый рецептор B2), NFE2L2 (фактор 2, подобный ядерному фактору (эритроидный 2)), NOTCH1 (гомолог Notch 1, ассоциированный с транслокациями (дрозофилиный)), UGT1A1 (UDP-глюкуронилтрансферазу семейства 1, полипипетид A1), IFNA1 (интерферон, альфа 1), PPARD (дельта-рецептор, активируемый пролифератором пероксисом), SIRT1 (сиртуин 1 (гомолог 2 регуляции молчащей информации совпадающего типа) (S. cerevisiae)), GNRH1 (гонадотропин-рилизинг гормон 1 (лютеинизирующий-рилизинг гормон)), PAPPA (ассоциированный с беременностью белок A плазмы, папализин 1), ARR3 (аррестин 3, ретинальный (X-аррестин)), NPPC (предшественник натрийуретического пептида C), AHSP (альфа-гемоглобин-стабилизирующий белок), PTK2 (протеинтирозинкиназу 2 типа PTK2), IL13 (интерлейкин 13), MTOR (мишень механизма действия рапамицина (серин/треоринкиназу)), ITGB2 (интергрин, бета 2 (субъединицу рецептора 3 и 4 компонента 3 комплемента)), GSTT1 (глутатион-S-трансферазу тета 1), IL6ST (передатчик сигнала интерлейкина 6 (gp130, рецептор онкостатина М)), CPB2 (карбоксипептидазу B2 (плазменную)), CYP1A2 (цитохром P450, семейство 1, подсемейство A, полипептид 2), HNF4A (ядерный фактор гепатоцитов 4, альфа), SLC6A4 (семейство переносчиков растворенных веществ 6 (переносчик нейромедиаторов, серотонина), представитель 4), PLA2G6 (фосфолипазу A2, группа VI (цитозольную, кальций-независимую)), TNFSF11 (суперсемейство фактора роста опухоли (лиганд), представитель 11), SLC8A1 (семейство переносчиков растворенных веществ 8 (натрий-кальциевый антипортер), представитель 1), F2RL1 (рецептор-подобный фактор коагуляции II 1 (тромбин)), AKR1A1 (семейство альдокеторедуктаз 1, представитель A1 (алдегидредуктазу)), ALDH9A1 (семейство альдегиддегирогензы 9, представитель A1), BGLAP (белок гамма-карбоксиглутамата (gla)), MTTP (микросомальный белок переноса триглицеридов), MTRR (редуктаза 5-метилтетрагидрофолат-гомоцистеинметилтрансферазы), SULT1A3 (семейство сульфотрансфераз, цитозолоный, 1A, фенол-предпочтительный, представитель 3), RAGE (антиген опухоли почек), C4B (компонент 4В комплемента (группа крови Chido), P2RY12 (пуринергический рецептор P2Y, связанный с G-белком, 12), RNLS (реналазу, FAD-зависимую аминооксидазу), CREB1 (белок 1, связывающий чувствительный к cAMP элемент), POMC (проопиомеланокортин), RAC1 (связанный с ras субстрат 1 ботулотоксина C3 (семейство rho, малый GTP связывающий белок Rac1)), LMNA (ламин NC), CD59 (молекулу CD59, регуляторный белок комплемента), SCN5A (натриевый канал, потенциалзависимый, V типа, альфа-субъединицу), CYP1B1 (цитохром P450, семейство 1, подсемейство B, полипептид 1), MIF (фактор ингибирования миграции макрофагов (фактор, ингибирующий гликозилирование)), MMP13 (матриксную метталлопептидазу 13 (коллагеназу 3)), TIMP2 (ингибитор металлопептидазы 2 TIMP), CYP19A1 (цитохром P450, семейство 19, подсемейство A, полипептид 1), CYP21A2 (цитохром P450, семейство 21, подсемейство A, полипептид 2), PTPN22 (протеинтирозинфосфатазу, нерецепторную, 22 типа (лимфоидную)), MYH14 (миозин, тяжелую цепь 14, немышечный), MBL2 (маннозо-связывающий лектин (белок C) 2, растворимый (дефект опсонина)), SELPLG (лиганд селектина P), AOC3 (аминоксидазу, медь-содержащую 3 (белок 1 адгезии сосудов)), CTSL1 (катепсин L1), PCNA (ядерный антиген пролиферирующих клеток), IGF2 (инсулинподобный фактор роста 2 (соматомедин A)), ITGB1 (интегрин, бета 1 (фибронектиновый рецептор, бета-полипептид, антиген CD29 включает MDF2, MSK12)), CAST (кальпастатин), CXCL12 (хемокиновый лиганд 12 (с мотивом C-X-C) (стромальный клеточный фактор 1)), IGHE (константную область тяжелой эпсилон-цепи иммуноглобулина), KCNE1 (калиевый потенциалзависимый канал, Isk-связанное семейство, представитель 1), TFRC (трансферриновый рецептор (p90, CD71)), COL1A1 (коллаген 1 типа, альфа 1), COL1A2 (коллаген, I типа, альфа 2), IL2RB (рецептор интерлейкина 2, бета), PLA2G10 (фрсфолипидазу A2, группа X), ANGPT2 (ангиопоэтин 2), PROCR (рецептор протеина C, эндотелиальный (EPCR)), NOX4 (NADPH-оксидазу 4), HAMP (гепцидиновый антимикробный пептид), PTPN11 (протеинтирозинфосфатазу, нерецепторную, 11 типа), SLC2A1 (семейство переносчиков растворенных веществ 2 (переносчик глюкозы посредством облегченной диффузии), представитель 1), IL2RA (рецептор интерлейкина 2, альфа), CCL5 (хемокиновый лиганд 5 (с мотивом C-C)), IRF1 (регуляторный фактор интерферона 1), CFLAR (CASP8 и FADD-подобный регулятор апоптоза), CALCA (кальцитонин-связанный полипептид альфа), EIF4E (фактор инициации трансляции эукариот 4E), GSTP1 (пи-1-глутатин-S-трансферазу), JAK2 (Янус-киназу 2), CYP3A5 (цитохром P450, семейство 3, подсемейство A, полипептид 5), HSPG2 (гепаринсульфатпротеогликан 2), CCL3 (хемокиновый лиганд 3 (с мотивом C-C)), MYD88 (ген первичного ответа миелоидной дифференциации (88)), VIP (вазоактивный пептид кишечника), SOAT1 (стерол-O-ацилтрансферазу 1), ADRBK1 (адренергическую, бета, рецепторную киназу 1), NR4A2 (подсемейство ядерных рецепторов 4, группа A, представитель 2), MMP8 (матриксную металлопептидазу 8 (нейтрофильную коллагеназу)), NPR2 (рецептор натрийуретического пептида B/гуанилатциклазу B (рецептор атрионатрийуретического пептида B)), GCH1 (GTP гидролазу 1), EPRS (глутамил-пропил-тРНК-синтетазу), PPARGC1A (гамма-рецептор, активируемый пролифератором пероксисом, коактиватор 1 альфа), F12 (фактор коагуляции XII (фактор Хагемана)), PECAM1 (молекулу адгезии тромбоцитов/эндотелиальных клеток), CCL4 (хемокиновый лиганд 4 (с мотивом C-C)), SERPINA3 (ингибитор серпинпептидазы, клада A (альфа-1-антипротеиназу, антитрипсин), представитель 3), CASR (кальций-чувствительный рецептор), GJA5 (белок межклеточных щелевых контактов, альфа 5, 40 кДа), FABP2 (связывающий белок жирных кислот 2 типа, кишечный), TTF2 (фактор терминации транскрипции, РНК-полимеразу II), PROS1 (белок S (альфа)), CTF1 (кардиотропин 1), SGCB (саркогликан, бета (дистрофин-ассоциированный гликопротеин размером 43 кДа)), YME1L1 (YME1-подобный фактор 1 (S. cerevisiae)), CAMP (кателицидиновый антимикробный пептид), ZC3H12A (содержащий фактор типа CCCH с цинковыми пальцами 12A), AKR1B1 (семейство альдокеторедуктазы 1, представитель B1 (альдоредуктазу)), DES (десмин), MMP7 (матриксную металлопептидазу 7 (матрилизин, маточный)), AHR (арил-углеводородный рецептор), CSF1 (колониестимулирующий фактор 1 (макрофагальный)), HDAC9 (гистон-деацетилазу 9), CTGF (фактор роста соединительной ткани), KCNMA1 (калиевый, активируемый кальцием канал высокого проведения, подсемейство M, альфа, представитель 1), UGT1A (UDP-глюкуронилтрансферазу семейства 1, локус комплекса полипептида A), PRKCA (протеинкиназу C, альфа), COMT (катехол-бета-метилтрансферазу), S100B (S100 кальций-связывающий белок B), EGR1 (фактор роста раннего ответа 1), PRL (пролактин), IL15 (интерлейкин 15), DRD4 (дофаминовый рецептор D4), CAMK2G (кальций/кальмодулинзависимую протеинкиназу II гамма), SLC22A2 (семейство переносчиков растворенных веществ 22 (переносчик органических катионов), представитель 2), CCL11 (хемокиновый лиганд 11 (с мотивом C-C)), PGF (плацентартный фактор роста B321), THPO (тромбопоэтин), GP6 (гликопротеин VI (тромбоцитарный)), TACR1 (тахикиновый рецептор 1), NTS (нейротензин), HNF1A (HNF1 гомеобокс A), SST (соматостатин), KCND1 (калиевый потенциалзависимый канал, связанное с Shal подсемейство, представитель 1), LOC646627 (ингибитор фосфолипазы), TBXAS1 (тромбоксан A синтазу 1 (тромбоцитарную)), CYP2J2 (цитохром P450, семейство 2, подсемейство J, полипептид 2), TBXA2R (рецептор тромбоксана A2), ADH1C (алкогольдегидрогеназу 1C (класс I), гамма-полипептид), ALOX12 (арахидонат 12-липогеназу), AHSG (альфа-2-HS-гликопротеин), BHMT (бетаин-гомоцистеинметилтрансферазу), GJA4 (белок щелевых межклеточных контактов, альфа 4, 37 кДа), SLC25A4 (семейство переносчиков растворенных веществ 25 (митохондриальный переносчик; аденин-нуклеотид транслокатор), представитель 4), ACLY (АТФ-цитратлиазу), ALOX5AP (белок, активирующий арахидонат-5-липооксигеназу), NUMA1 (ядерный белок митотического аппарата 1), CYP27B1 (цитохром P450, семейство 27, подсемейство B, полипептид 1), CYSLTR2 (цистеинил-лейкотриеновый рецептор 2), SOD3 (супероксиддисмутазу 3, внеклеточную), LTC4S (лейкотриен C4-синтазу), UCN (урокортин), GHRL (препропептид грелина/обестатина), APOC2 (аполипопротеин C-II), CLEC4A (семейство 4 домена лектина C-типа, представитель A), KBTBD10 (содержащий kelch-повтор и домен BTB (POZ) 10), TNC (тенаскин C), TYMS (тимидилатсинтетазу), SHCl (SHC-трансформирующий белок 1 (содержащий домен 2 с Src-гомологией)), LRP1 (белок 1, связанный с рецепторами липопротеина низкой плотности), SOCS3 (супрессор 3 передачи сигнала с участием цитокинов), ADH1B (алкогольдегидрогеназу 1B (I класс), бета-полипептид), KLK3 (связанную с калликреином пептидазу 3), HSD11B1 (гидроксистероид (11-бета) дегидрогеназу 1), VKORC1 (витамин K эпоксид-редуктазный комплекс, субъединица 1), SERPINB2 (ингибитор серпинпептидазы, клада B (овальбумин), представитель 2), TNS1 (тензин 1), RNF19A (белок "цинковый палец" типа ring 19A), EPOR (эритропоэтиновый рецептор), ITGAM (интегрин, альфа M (субъединицу рецептора 3 компонента 3 комплемента)), PITX2 (подобный парному гомеодомен 2), MAPK7 (митоген-активированную протеинкиназу 7), FCGR3A (Fc-фрагмент IgG, с низкой аффинностью 111a, рецептор (CD16a)), LEPR (лептиновый рецептор), ENG (эндоглин), GPX1 (глутатионпероксидазу 1), GOT2 (щавелево-уксусную трансаминазу глутаминовой кислоты 2 типа, митохондриальную (аспартатаминотрансферазу 2 типа)), HRH1 (гистаминовый рецептор H1), NR112 (семейство ядерных рецепторов 1, I группа, представитель 2), CRH (кортикотропин-рилизинг гормон), HTR1A (5-гидрокситриптаминовый (серотониновый) рецептор 1A), VDAC1 (потенциалзависимый анионный канал 1), HPSE (гепараназу), SFTPD (поверхностно-активный белок D), TAP2 (переносчик 2, АТФ-связывающая кассета, подсемейство B (MDR/TAP)), RNF123 (белок "цинковый палец" типа ring 123), PTK2B (PTK2B протеинтирозинкиназу 2 бета), NTRK2 (нейротрофическую тирозинкиназу, рецептор, 2 тип), IL6R (рецептор интерлейкина 6), ACHE (ацетилхолинэстеразу (группу крови Yt)), GLP1R (рецептор глюкагон-подобного пептида 1), GHR (рецептор гормона роста), GSR (глутатионредуктазу), NQO1 (NAD(P)H-дегидрогеназу, хинон 1), NR5A1 (семейство ядерных рецепторов 5, группа A, представитель 1), GJB2 (белок межклеточных щелевых контактов, бета 2, 26 кДа), SLC9A1 (семейство переносчиков растворенных веществ 9 (натрий-водородный антипортер), представитель 1), MAOA (моноаминоксидазу A), PCSK9 (пропротеинконвертазу субтилизин-кексинового 9 типа), FCGR2A (Fc-фрагмент IgG, с низкой аффинностью IIa, рецептор (CD32)), SERPINF1 (ингибитор серпинпептидазы, клада F (альфа-2-антиплазмин, фактор пигментного эпителия), представитель 1), EDN3 (эндотелин 3), DHFR (дигидрофолатредуктазу), GAS6 (специфичный к задержке роста фактор 6), SMPD1 (сфингомиелинфосфодиэстеразу 1, кислую лизосомальную), UCP2 (неспаренный белок 2 (митохондриальный, переносчик протонов)), TFAP2A (транспортный фактор AP-2 альфа (активирующий энхансер связывающий белок 2 альфа)), C4BPA (связывающий белок 4 компонента комплемента, альфа), SERPINF2 (ингибитор серпинпептидазы, клада F (альфа-2-антилазмин, фактор пигментного эпителия), представитель 2), TYMP (тимидинфосфорилазу), ALPP (щелочную фосфатазу, плацентарную (изозим Регана)), CXCR2 (хемокиновый рецептор 2 (с мотивом C-X-C)), SLC39A3 (семейство переносчиков растворенных веществ 39 (переносчик цинка), представитель 3), ABCG2 (АТФ-связывающую кассету, подсемейство G (WHITE), представитель 2), ADA (аденозиндезаминазу), JAK3 (Янус-киназу 3), HSPA1A (белок теплового шока 1А размером 70 кДа), FASN (синтазу жирных кислот), FGF1 (фактор роста фибробластов 1 (кислотный)), F11 (фактор коагуляции XI), ATP7A (АТФазу, транспортирование Cu++, альфа-полипептид), CR1 (рецептор 1 компонента комплемента (3b/4b) (группы крови Knops)), GFAP (глиофибриллярный щелочной белок), ROCK1 (Rho-ассоциированную содержащую двуспиральную протеинкиназу 1), MECP2 (метил CpG-связывающий белок 2 (синдром Ретта)), MYLK (легкую цепь миозина), BCHE (бутирилхолинэстеразу), LIPE (липазу, гормончувствительную), PRDX5 (пероксиредоксин 5), ADORA1 (рецептор аденозина A1), WRN (синдром Вернера, RecQ, подобный хеликазе), CXCR3 (хемокиновый рецептор 3 (с мотивом C-X-C)), CD81 (молекулу CD81), SMAD7 (семейство SMAD, представитель 7), LAMC2 (ламинин, гамма 2), MAP3K5 (митоген-активируемую протеинкиназу киназы 5), CHGA (хромогранин A (паратиреоридный секреторный белок 1)), IAPP (островковый амилоидный пептид), RHO (родопсин), ENPP1 (эктонуклеотидпирофосфатазу/фосфодиэстеразу 1), PTHLH (подобный паратиреоидному гормону гормон), NRG1 (нейрегулин 1), VEGFC (фактор роста эндотелия сосудов C), ENPEP (глутамиламинопептидазу (аминопептидазу A)), CEBPB (CCAAT/энхансерный связывающий белок (C/EBP), бета), NAGLU (N-ацетилглюкозаминидазу, альфа-), F2RL3 (фактор коагуляции II (тромбин), рецептор-подобный 3), CX3CL1 (хемокиновый лиганд 1 (с мотивом C-X3-C)), BDKRB1 (брадикиновый рецептор B1), ADAMTS13 (ADAM металлопептидазу с тромбоспондиновым мотивом 1 типа, 13), ELANE (эластазу, экспрессируемую в нейтрофилах), ENPP2 (эктонуклеотидпирофосфатазу/фосфодиэстеразу 2), CISH (индуцируемый цитокином SH2-содержащий белок), GAST (гастрин), MYOC (миоцилин, индуцируемый трабекулярной сетью глюкокортикоидный ответ), ATP1A2 (АТФазу, Na+/K+ транспорт, альфа 2 полипептид), NF1 (нейрофибромин 1), GJB1 (белок межклеточных щелевых контактов, бета 1, 32 кДа), MEF2A (миоцитарный энхансорный фактор 2A), VCL (винкулин), BMPR2 (рецептор костного морфогенетического белка, тип II (серин/треонинкиназу)), TUBB (тубулин, бета), CDC42 (фактор клеточного цикла 42 (GTP-связывающий белок, 25 кДа)), KRT18 (кератин 18), HSF1 (фактор транскрипции белка теплового шока 1), MYB (гомолог онкогена вируса миелобластоза v-myb (птичьего)), PRKAA2 (протеинкиназу, AMP-активируемую, каталитическую субъединицу альфа 2), ROCK2 (Rho-ассоциированную содержащую двуспиральную протеинкиназу 2), TFPI (ингибитор пути тканевого фактора (липопротеин-ассоциированный ингибитор коагуляции)), PRKG1 (протеинкиназу, cGMP-зависимую, I тип), BMP2 (костный морфогенетический белок 2), CTNND1 (катенин (кадгерин-ассоциированный белок), дельта 1), CTH (цистатионазу (цистатионин-гамма-лиазу)), CTSS (катепсин S), VAV2 (фактор обмена гуаниновых нуклеотидов vav 2), NPY2R (рецептор Y2 нейропептида Y), IGFBP2 (связывающий белок 2 инсулин-подобного фактора роста, 36 кДа), CD28 (молекулу CD28), GSTA1 (глутатион-S-трансферазу, альфа 1), PPIA (пептидилпролилизомеразу A (циклофилин A)), APOH (аполипопротеин H (бета-2-гликопротеин I)), S100A8 (S100 кальций-связывающий белок A8), IL11 (интерлейкин 11), ALOX15 (арахидонат-15-липоксигеназу), FBLN1 (фибулин 1), NR1H3 (семейство ядерных рецепторов 1, группа H, представитель 3), SCD (стеароил-CoA десатуразу (дельта-9-десатуразу)), GIP (желудочный ингибиторный пептид), CHGB (хромогранин B (секретогранин 1)), PRKCB (протеинкиназу C, бета), SRD5A1 (стероид-5-альфа-редуктазу, альфа-полипептид 1 (3-оксо-5 альфа-стероид дельта-4-дегидрогеназу альфа 1)), HSD11B2 (гидроксистероид (11-бета) дегидрогеназу 2), CALCRL (подобный кальцитониновому рецептору), GALNT2 (UDP-N-ацетил-альфа-D-галактозамин:полипептид N-ацетилгалактозаминилтрансферазу 2 (GalNAc-T2)), ANGPTL4 (ангиопоэтинподобный 4), KCNN4 (калиевый, активируемый кальцием канал, промежуточного/низкого проведения, подсемейство N, представитель 4), PIK3C2A (фосфоинозитидин-3-киназу, класс 2, альфа-полипептид), HBEGF (гепарин-связывающий EGF-подобный фактор роста), CYP7A1 (цитохром P450, семейство 7, подсемейство A, полипептид 1), HLA-DRB5 (главный комплекс гистосовместимости, класс II, DR бета 5), BNIP3 (белок 3 с массой 19 кДа, взаимодействующий с BCL2/аденовирусом E1B), GCKR (регулятор глюкокиназы (гексокиназы 4)), S100A12 (S100 кальций-связывающий белок A12), PADI4 (пептидиларгининдеиминазу, тип IV), HSPA14 (белок 14 теплового шока с массой 70 кДа), CXCR1 (хемокиновый рецептор 1 (с мотивом C-X-C)), H19 (H19, экспрессируемый пептид, импринтированный со стороны матери (некодирующий белок)), KRTAP19-3 (кератин-ассоциированный белок 19-3), IDDM2 (фактор инсулин-зависимого сахарного диабета 2 типа), RAC2 (ras-связанный субстрат 2 ботулотоксина C3 (семейство rho, малый GTP связывающий белок Rac2)), RYR1 (рианодиновый рецептор 1 (мышечный)), CLOCK (гомолог гена (мышиный)), NGFR (рецептор фактора роста нервов (суперсемейство TNFR, представитель 16)), DBH (дофамин бета-гидроксилазу (дофамин бета-монооксигеназу)), CHRNA4 (холинергический рецептор, никотиновый, альфа 4), CACNA1C (кальциевый канал, потенциалзависимый, типа L, субъединицу альфа 1C), PRKAG2 (протеинкиназу, AMP-активированную, гамма 2 некаталическую субъединицу), CHAT (холинацетилтрансферазу), PTGDS (простагландин D2 синтазу размером 21 кДа (головного мозга)), NR1H2 (семейство 1 ядерных рецепторов, группа H, представитель 2), TEK (TEK тирозинкиназу, эндотелиальную), VEGFB (фатор роста эндотелия сосудов B), MEF2C (миоцитарный энхансерный фактор 2C), MAPKAPK2 (протеинкиназу 2, активированную митоген-активированной протеинкиназой), TNFRSF11A (суперсемейство рецепторов фактора некроза опухоли, представитель 11a, активатор NFKB), HSPA9 (белок 9 теплового шока размером 70 кДа (морталин)), CYSLTR1 (цистеинил-лейкотриеновый рецептор 1), MAT1A (метионинаденозилтрансферазу I, альфа), OPRL1 (подобный опиатному рецептору 1), IMPA1 (инизитол(мио)-1(или 4)-монофосфатазу 1), CLCN2 (канал-переносчик для ионов хлора 2), DLD (дигидролипоамиддегидрогеназу), PSMA6 (протеасомную субъединицу (просому, макропаин), тип альфа, 6), PSMB8 (протеасомную субъединицу (просому, макропаин), тип бета, 8 (большую мультифункциональную пептидазу 7)), CHI3L1 (фактор 1, подобный хитиназе 3 (хрящевой гликопротеин 39)), ALDH1B1 (альдегиддегидрогеназу, семейство 1, представитель B1), PARP2 (поли (АДФ-рибозо) полимеразу 2), STAR (стероидогенный острый регуляторный белок), LBP (липополисахарид-связывающий белок), ABCC6 (АТФ-связывающую кассету, подсемейство C (CFTR/MRP), представитель 6), RGS2 (регулятор передачи сигнала с участием G-белка 2, 24 кДа), EFNB2 (эфрин-B2), GJB6 (белок межклеточных щелевых контактов, бета 6, 30 кДа), APOA2 (аполипопротеин A-II), AMPD1 (аденозинмонофосфатдезаминазу 1), DYSF (дисферлин, тазо-плечевая мышечная дистрофия 2B (аутосомно-рецессивная)), FDFT1 (фарнезил-дифосфатфарнелизтрансферазу 1), EDN2 (эндотелин 2), CCR6 (хемокиновый рецептор 6 (с мотивом C-C)), GJB3 (белок межклеточных щелевых контактов, бета 3, 31 кДа), IL1RL1 (фактор 1, подобный рецептору интерлейкина 1), ENTPD1 (эктонуклеозидтрифосфат-дифосфогидролазу 1), BBS4 (фактор 4 синдром Барде-Бидля), CELSR2 (кадгерин, семиканальный рецептор 2 G-типа EGF LAG (гомолог flamingo, дрозофилиный)), F11R (рецептор F11), RAPGEF3 (фактор обмена гуаниновых нуклеотидов Rap (GEF) 3), HYAL1 (гиалуроноглюкозаминидазу 1), ZNF259 (белок "цинковый палец" 259), ATOX1 (гомолог антиоксидантного белка 1 ATX1 (дрожжевой)), ATF6 (фактор активации транскрипции 6), KHK (кетогексокиназу (фруктокиназу)), SAT1 (спермидин/спермин N1-ацетилтрансферазу 1), GGH (гамма-глутамилгидролазу (конъюгазу, фолилполигаммаглутамингидролазу)), TIMP4 (ингибитор TIMP металлопептидазы 4), SLC4A4 (семейство переносчиков растворенных белков 4, бикарбонат-натриевый контранспортер, представитель 4), PDE2A (фосфодиэстеразу 2A, cGMP-стимулированную), PDE3B (фосфодиэстеразу 3B, cGMP-ингибированную), FADS1 (десатуразу 1 жирных кислот), FADS2 (десатуразу 2 жирных кислот), TMSB4X (тимозин бета 4, X-сцепленный), TXNIP (белок, взаимодействующий с тиоредоксином), LIMS1 (домены 1, подобные LIM и антигену стареющих клеток), RHOB (семейство генов гомологов ras, представитель B), LY96 (лимфоцитарный антиген 96), FOXO1 (forkhead-бокс О1), PNPLA2 (фактор 2, содержащий домен пататин-подобной фосфолипидазы), TRH (тиротропин-рилизинг гормон), GJC1 (белок межклеточных щелевых контактов, гамма 1, 45 кДа), SLC17A5 (семейство переносчиков растворенных веществ 17 (переносчик анионов и сахаров), представитель 5), FTO (фактор, ассоциированный с жировой массой и ожирением), GJD2 (белок межклеточных щелевых контактов, дельта 2, 36 кДа), PSRC1 (двуспиральный фактор с высоким содержанием пролина и серина 1), CASP12 (каспазу 12 (ген/псевдоген)), GPBAR1 (рецептор 1 желчных кислот, связанный с G-белком), PXK (серин/треонинкиназу, содержащую домен PX), IL33 (интерлейкин 33), TRIB1 (гомолог tribbles 1 (дрозофилиный)), PBX4 (гомеобокс 4 пре-B-клеточного лейкоза), NUPR1 (ядерный белок, регулятор транскрипции, 1), 15-Sep (селенопротеин размером 15 кДа), CILP2 (белок промежуточного слоя хряща 2), TERC (РНК-компонент теломеразы), GGT2 (гамма-глутамилтрансферазу 2), MT-CO1 (цитохром c оксидазу I, кодируемую митохондриальным геномом) и UOX (уратоксидазу, псевдоген). Любая из данных последовательностей может быть мишенью для системы CRISPR-Cas, например, для изучения мутации.

В дополнительном варианте осуществления хромосомная последовательность также может быть выбрана из следующих: Pon1 (параоксоназа 1), LDLR (рецептор LDL), ApoE (аполипопротеин E), Apo B-100 (аполипопротеин B-100), ApoA (аполипопротеин(a)), ApoA1 (аполипопротеин A1), CBS (цистатион-B-синтаза), гликопротеин IIb/IIb, MTHRF (5,10-метилентетрагидрофолатредуктаза (NADPH) и их комбинаций. В одном случае хромосомные последовательности и белки, кодируемые хромосомными последовательностями, связанные с сердечно-сосудистым заболеванием, могут быть выбраны из Cacna1C, Sod1, Pten, Ppar(альфа), Apo E, лептина и их комбинаций в качестве мишени(мишеней) для системы CRISPR-Cas.

Лечение заболеваний печени и почек

Настоящее изобретение также предусматривает доставку системы CRISPR-Cas, описанной в данном документе, например, систем эффекторного белка Cpf1, в печень и/или почки. Стратегии доставки для индукции поглощения клетками терапевтической нуклеиновой кислоты предусматривают использование физических сил или векторных систем, например доставку с использованием вирусов, липидов, или комплексов, или наноносителей. Исходя из первоначальных вариантов применения, имеющих незначительную возможную клиническую значимость, в случае доставки нуклеиновых кислот в клетки почки с помощью гидродинамической системной инъекции с созданием высокого давления, широкий диапазон вирусных терапевтических носителей и носителей, отличных от вирусных, уже применяется для нацеливания на посттранскрипционные события в различных животных моделях заболевания почек in vivo (Csaba Révész and Péter Hamar (2011). Delivery Methods to Target RNAs in the Kidney, Gene Therapy Applications, Prof. Chunsheng Kang (Ed.), ISBN: 978-953-307-541-9, InTech, доступно на: http://www.intechopen.com/books/gene-therapy-applications/delivery-methods-to-target-rnas-inthe-kidney). Способы доставки в почки могут включать таковые в Yuan et al. (Am J Physiol Renal Physiol 295: F605-F617, 2008) исследовали, может ли in vivo доставка малых интерферирующих РНК (siRNA), целенаправленно воздействующих на 12/15-липоксигеназный (12/15-LO) путь метаболизма арахидоновой кислоты, приводить к уменьшению повреждения почек и диабетической нефропатии (DN) в модели диабета 1 типа на мышах, которым вводили стрептозотоцин путем инъекции. Для достижения большей in vivo доступности и экспрессии siRNA в почке Yuan et al. использовали двухнитевые олигонуклеотиды siRNA к 12/15-LO, конъюгированные с холестерином. Приблизительно 400 мкг siRNA вводили мышам путем подкожной инъекции. Способ согласно Yuang et al. можно применять по отношению к системе CRISPR-Cas по настоящему изобретению, что предусматривает подкожную инъекцию человеку 1-2 г CRISPR-Cas, конъюгированной с холестерином, для доставки в почки.

Molitoris et al. (J Am Soc Nephrol 20: 1754-1764, 2009) использовали клетки проксимальных канальцев (PTC) в качестве сайта реабсорбции олигонуклеотидов в почке для исследования эффективности siRNA, целенаправленно воздействующей на p53, ключевой белок в апоптическом пути, для предупреждения повреждения почки. "Оголенная" синтетическая siRNA к p53, которую вводили путем внутривенной инъекции через 4 ч после ишемического повреждения, обеспечивала максимальную защиту как PTC, так и функции почки. Данные Molitoris et al. указывают, что после внутривенного введения следует быстрая доставка siRNA в клетки проксимальных канальцев. Для анализа зависимости эффекта от дозы крысам инъецировали дозы siP53 0,33; 1, 3 или 5 мг/кг, которые вводили в те же четыре момента времени, что давало в результате суммарные дозы 1,32, 4, 12 и 20 мг/кг соответственно. Все протестированные дозы siRNA приводили к эффекту снижения SCr, в день один, причем более высокие дозы являлись эффективными в течение приблизительно пяти дней по сравнению с обработанными PBS контрольными крысами с ишемией. Суммарные дозы 12 и 20 мг/кг обеспечивали наилучший защитный эффект. Способ согласно Molitoris et al. можно применять по отношению к системе нацеливания на нуклеиновую кислоту по настоящему изобретению, что предусматривает введение человеку суммарных доз 12 и 20 мг/кг для доставки в почки.

Thompson et al. (Nucleic Acid Therapeutics, Volume 22, Number 4, 2012) сообщили о токсикологических и фармакокинетических свойствах синтетических малых интерферирующих РНК I5NP после внутривенного введения грызунам и приматам, отличным от человека. I5NP разработан так, чтобы действовать посредством пути РНК-интерференции (RNAi) для временного ингибирования экспрессии проапоптического белка p53 и создан для защиты клеток от повреждений, связанных с острой ишемией/реперфузией, как, например, острое повреждение почки, которое может возникать при обширной операции на сердце, и отсроченная функция трансплантата, которая может возникать после пересадки почки. Дозы 800 мг/кг I5NP для грызунов и 1000 мг/кг I5NP для приматов, отличных от человека, требовались для того, чтобы вызвать нежелательные эффекты, которые у обезьян сводились к непосредственному воздействию на кровь, чтовключало бессимптомную активацию комплемента и несколько увеличенное время свертывания крови. У крыс не наблюдали дополнительных нежелательных эффектов при использовании аналога I5NP, предназначенного для крыс, что указывало на то, что эти эффекты, вероятно, представляют собой эффекты, связанные с классом синтетических РНК-дуплексов, а не с токсичностью, обусловленной целевой фармакологической активностью I5NP. Взятые вместе, эти данные согласуются с клиническим исследованием с внутривенным введением I5NP для сохранения функции почек после повреждения, связанного с острой ишемией/реперфузией. Уровень, при котором не наблюдали нежелательных эффектов (NOAEL) у обезьян, составлял 500 мг/кг. Не наблюдали эффектов в отношении параметров сердечно-сосудистой, дыхательной и нервной системы у обезьян после внутривенного введения при уровнях дозы до 25 мг/кг. Следовательно, аналогичная доза может предусматриваться для внутривенного введения CRISPR-Cas в почки человека.

Shimizu et al. (J Am Soc Nephrol 21: 622-633, 2010) разработали систему для целенаправленной доставки siRNA в клубочки с помощью средств на основе поли(этиленгликоля) и поли(L-лизина). Диаметр комплекса siRNA/наноноситель составлял от приблизительно 10 до 20 нм, причем данный размер будет позволять ему проходить через окончатый эндотелий для того, чтобы попасть в мезангий. После интраперитонеальной инъекции флуоресцентно меченых комплексов siRNA/наноноситель Shimizu et al. выявляли siRNA в кровотоке в течение длительного времени. Повторное интраперитонеальное введение комплекса siRNA к митоген-активируемой протеинкиназе 1 (MAPK1)/наноноситель подавляло экспрессию мРНК и белка MAPK1 в клубочках в мышиной модели гломерулонефрита. Для исследования накопления siRNA Cy5-меченые siRNA в комплексе с PIC наноносителями (0,5 мл, содержание siRNA 5 нмоль), "оголенные" Cy5-меченые siRNA (0,5 мл, 5 нмоль) или Cy5-меченые siRNA, инкапсулированные в HVJ-E (0,5 мл, содержание 5 нмоль siRNA), вводили мышам BALBc. Способ согласно Shimizu et al. можно применять по отношению к системе нацеливания на нуклеиновую кислоту по настоящему изобретению, что предусматривает дозу приблизительно 10-20 мкмоль CRISPR-Cas в комплексе с наноносителями на приблизительно 1-2 литра для интраперитонеального введения человеку и доставки в почки.

Способы доставки в почку обобщены ниже.

Способ доставки Носитель Целевая РНК Заболева-ние Модель Функциональ-ные анализы Автор Гидродина-мический/
липидный Система для доставки генов In Vivo TransIT, DOTAP p85α Острое поврежде-ние почек Ишемия-реперфузия Поглощение, биораспреде-ление Larson et al., Surgery, (Aug 2007), Vol. 142, No. 2, pp. (262-269) Гидродинамический/липидный Липофектамин 2000 Fas Острое повреждение почек Ишемия-реперфузия Азот мочевины в крови, иммуногисто-химия Fas, апоптоз, гистологичес-кое оценивание Hamar et al., Proc Natl Acad Sci, (Oct 2004), Vol. 101, No. 41, pp. (14883-14888) Гидродина-мический Не применимо Элементы апоптозного каскада Острое поврежде-ние почек Ишемия-реперфузия Не применимо Zheng et al., Am J Pathol, (Oct 2008), Vol. 173, No. 4, pp. (973-980) Гидродина-мический Не применимо Ядерный фактор каппа-би (NFkB) Острое поврежде-ние почек Ишемия-реперфузия Не применимо Feng et al., Transplantation, (May 2009), Vol. 87, No. 9, pp. (1283-1289) Гидродина-мический/
вирусный Липофектамин 2000 Транскрип-ционный фактор, противодей-ствующий апоптозу (AATF) Острое поврежде-ние почек Ишемия-реперфузия Апоптоз, окислительный стресс, активация каспаз, перекисное окисление мембранных липидов Xie & Guo, Am Soc Nephrol, (Dec 2006), Vol. 17, No. 12, pp. (3336-3346) Гидродина-мический Гидродинами-ческая система доставки pBAsi mU6 Neo/TransIT-EE Гремлин Диабетиче-ская нефропатия Стрептозо-тозин-индуциро-ванный диабет Протеинурия, сывороточный креатинин, диаметр клубочков и канальцев, экспрессия коллагена типа IV/BMP7 Q. Zhang et al., PloS ONE, (Jul 2010), Vol. 5, No. 7, e11709, pp. (1-13) Вирусный/
липидный Вектор pSUPER/Lipofectamine Рецептор TGF-β II типа Интерсти-циальный фиброз почек Односто-ронняя обструкция мочеиспус-кательного канала Экспрессия α-SMA, содержание коллагена Kushibikia et al., J Controlled Release, (Jul 2005), Vol. 105, No. 3, pp. (318-331) Вирусный Аденоассоци-ированный вирус-2 Минерало-кортикоид-ный рецептор Поражение почек, вызванное гипертен-зией Гипертен-зия, вызванная холодовым воздейст-вием Кровяное давление, сывороточный альбумин, азот мочевины в сыворотке, сывороточный креатинин, вес почки, натрий в моче Wang et al., Gene Therapy, (Jul 2006), Vol. 13, No. 14, pp. (1097-1103) Гидродинамический/
вирусный Вектор pU6 Люцифераза Не применимо Не применимо Поглощение Kobayashi et al., Journal of Pharmacology and Experimental Therapeutics, (Feb 2004), Vol. 308, No. 2, pp. (688-693) Липидный Липопротеины, альбумин apoB1, apoM Не применимо Не применимо Поглощение, аффинность связывания с липопротеина-ми и альбумином Wolfrum et al., Nature Biotechnology, (Sep 2007), Vol. 25, No. 10, pp. (1149-1157) Липидный Липофектамин 2000 p53 Острое поврежде-ние почек Острое поврежде-ние, индуциро-ванное ишемией и цисплати-ном Гистологичес-кое оценивание, апоптоз Molitoris et al., J Am Soc Nephrol, (Aug 2009), Vol. 20, No. 8,
pp. (1754-1764) Липидный DOTAP/DOPE, DOTAP/DOPE/DOPE-PEG2000 COX-2 Аденокар-цинома молочной железы Мышь, несущая ксенотран-сплантат опухоли молочной железы MDA-MB-231 Жизнеспособ-ность клеток, поглощение Mikhaylova et al., Cancer Gene Therapy, (Mar 2011), Vol. 16, No. 3, pp. (217-226) Липидный Холестерин 12/15-липоксиге-наза Диабети-ческая нефропатия Стрептозо-тоцин-индуциро-ванный диабет Альбуминурия, креатинин в моче, гист-ологическое исследование, коллаген типа I и IV, TGF-β, фибронектин, ингибитор 1 активатора плазминогена Yuan et al., Am J Physiol Renal Physiol, (Jun 2008), Vol. 295, pp. (F605-F617) Липидный Липофектамин 2000 Белок 44 митохонд-риальной мембраны (TIM44) Диабети-ческая нефропатия Стрептозо-тоцин-индуциро-ванный диабет Пролиферация и апоптоз клеток, гистологичес-кое иссле-дование, ROS, митохондриа-льный импорт Mn-SOD и глутатионпе-роксидазы, поляризация клеточной мембраны Y. Zhang et al., J Am Soc Nephrol, (Apr 2006), Vol. 17, No. 4, pp. (1090-1101) Гидродинамический/
липидный Протеолипо-сома RLIP76 Карцинома почки Мышь, несущая ксенотрансплантат опухоли почки Caki-2 Поглощение Singhal et al., Cancer Res, (May 2009), Vol. 69, No. 10, pp. (4244-4251) Полимерный Пегилирован-ный PEI Люцифераза pGL3 Не применимо Не применимо Поглощение, биораспреде-ление, агрегация эритроцитов Malek et al., Toxicology and Applied Pharmacology, (Apr 2009), Vol. 236, No. 1, pp. (97-108) Полимерный Пегилирован-ный
поли-L-лизин MAPK1 Волчаноч-ный гломеруло-нефрит Гломеру-лонефрит Протеинурия, гломерулосклероз, TGF-β, фибронектин, ингибитор 1 активатора плазминогена Shimizu et al., J Am Soc Nephrology, (Apr 2010), Vol. 21, No. 4, pp. (622-633) Полимерный/с помощью наночастиц Гиалуроновая кислота/
квантовая точка/PEI VEGF Рак почки/
меланома Мышь, несущая меланому B16F1 Биораспреде-ление, цитотоксич-ность, объем опухоли, эндоцитоз Jiang et al., Molecular Pharmaceutics, (May-Jun 2009), Vol. 6, No. 3, pp. (727-737) Полимерный/с помощью наночастиц Пегилирован-ное поли-капролактоно-вое нано-волокно GAPDH Не применимо Не применимо Жизнеспособ-ность клеток, поглощение Cao et al., J Controlled Release, (Jun 2010), Vol. 144, No. 2, pp. (203-212) Аптамерный Шпигельмер
mNOX-E36 Лиганд 2 CC-хемокина Гломеру-лосклероз Односто-ронне нефрэкто-мизиро-ванная мышь Альбумин в моче, креатинин в моче, гистопатологи-ческое исследование, скорость клубочковой фильтрации, число макрофагов, сывороточный уровень Ccl2, Mac- 2+, Ki-67+ Ninichuk et al., Am J Pathol, (Mar 2008), Vol. 172, No. 3, pp. (628-637) Аптамерный Аптамер NOX-F37 Вазопрессин (AVP) Застойная сердечная недоста-точность Не применимо Аффинность связывания с D-AVP, ингибирование AVP-сигналинга, осмоляльность мочи и концентрация натрия Purschke et al., Proc Natl Acad Sci, (Mar 2006), Vol. 103, No. 13, pp. (5173-5178)

Нацеливание на печень и клетки печени

Предусмотрено нацеливание на клетки печени. Его можно осуществлять in vitro или in vivo. Гепатоциты являются предпочтительными. Доставка белка CRISPR, такого как Cpf1 в данном документе, может осуществляться посредством вирусных векторов, особенно векторов на основе AAV (и, в частности, AAV2/6). Их можно вводить с помощью внутривенной инъекции.

Предпочтительной мишенью для печени, вне зависимости in vitro или in vivo, является ген альбумина. Он представляет собой так называемую "зону безопасности", поскольку альбумин экспрессируется при очень высоких уровнях, и поэтому некоторое снижение продукции альбумина после успешного редактирования генов является допустимым. Он также является предпочтительным, поскольку высокие уровни экспрессии, наблюдаемые при работе промотора/энхансера альбумина, обеспечивают достижение полезных уровней корректной или трансгенной продукции (из вставленной донорской матрицы) даже в случае, если редактируют лишь небольшую часть гепатоцитов.

Интрон 1 альбумина, как было показано Wechsler et al. (представлено на 57-м ежегодном собрании и выставке Американского общества гематологии - резюме доступно онлайн по адресу https://ash.confex.com/ash/2015/webprogram/Paper86495.html и размещено 6 декабря 2015 г.), является подходящим целевым сайтом. В их исследовании были использованы "цинковые пальцы" для разрезания ДНК в целевом сайте, и подходящие направляющие последовательности можно получить для управления расщеплением в том же сайте с помощью белка CRISPR.

Использование мишеней в высокоэкспрессируемых генах (генах с высокоактивными энхансерами/промоторами), такими как альбумин, может также обеспечивать использование не содержащей промоторов донорской матрицы, как описано Wechsler et al., и это также является широко применимым за пределами нацеливания на печень. Известны другие примеры высокоэкспрессируемых генов.

Другие заболевания печени

В конкретных вариантах осуществления белки CRISPR по настоящему изобретению используют для лечения нарушений печени, таких как транстиретиновый амилоидоз (ATTR), недостаточность альфа-1-антитрипсина и другие врожденные ошибки метаболизма печени. FAP вызван мутацией в гене, который кодирует транстиретин (TTR). Поскольку он является аутосомно-доминантным заболеванием, не у всех носителей развивается заболевание. Существует свыше 100 мутацией в гене TTR, которые, как известно, ассоциированы с заболеванием. Примеры распространенных мутаций включают V30M. Принцип лечения TTR на основе сайленсинга генов был показан исследованиями с применением iRNA (Ueda et al. 2014 Transl Neurogener. 3:19). Болезнь Вильсона (WD) вызвана мутациями в гене, кодирующем ATP7B, который встречается исключительно в гепатоците. Существует свыше 500 мутаций, ассоциированных с WD с повышенной распространенностью в определенных областях, таких как Восточная Азия. Другими примерами являются A1ATD (аутосомно-рецессивное заболевание, вызванное мутациями в гене SERPINA1) и PKU (аутосомно-рецессивное заболевание, вызванное мутациями в гене фенилаланингидроксилазы (PAH)).

Ассоциированые с печенью нарушения крови, в частности, гемофилия, и, в частности, гемофилия B

Успешное редактирование генов гепатоцитов было достигнуто у мышей (как in vitro, так и in vivo) и у отличных от человека приматов (in vivo), показывающее, что лечение нарушений со стороны крови посредством редактирования гена/конструирования генома в гепатоцитах является возможным. В частности, экспрессия человеческого гена F9 (hF9) в гепатоцитах была показана у отличных от человека приматов, указывая на возможность лечения гемофилии B у людей.

Wechsler et al. представили на 57-м ежегодном собрании и выставке Американского общества гематологии (резюме размещено 6 декабря 2015 г. и доступно онлайн по адресу https://ash.confex.com/ash/2015/webprogram/Paper86495.html), что они успешно экспрессировали человеческий F9 (hF9) из гепатоцитов, взятых у отличных от человека приматов, посредством редактирования гена in vivo. Это было достигнуто с помощью 1) двух нуклеаз с "цинковыми пальцами" (ZFN), нацеливающихся на интрон 1 локуса альбумина, и 2) конструкции донорской матрицы человеческого F9. ZFN и донорскую матрицу кодировали на отдельных векторах на основе гепатотропного аденоассоциированного вируса серотипа 2/6 (AAV2/6), вводили внутривенно, что приводило к целевой вставке откорректированной копии гена hF9 в локус альбумина в части гепатоцитов печени.

Локус альбумина выбирали в качестве "предохранителя", поскольку продукция этого наиболее представленного белка плазмы превышает 10 г/день, и умеренные снижения таких уровней являются хорошо переносимыми. Гепатоциты с отредактированным геномом продуцировали hFIX (hF9) в терапевтических количествах, в отличие от альбумина, управляемого высокоактивным энхансером/промотором. Была показана подвергаемая нацеливанию интеграция трансгена hF9 в локус альбумина и сплайсинг этого гена в транскрипт альбумина.

Исследования у мышей: мышам C57BL/6 вводили основу (n=20) или векторы на основе AAV2/6 (n=25), кодирующие мышиные суррогатные реагенты, при 1,0 x10¹³ векторных геномов (vg)/кг посредством инъекции в хвостовую вену. Анализ ELISA hFIX плазмы у обработанных мышей показал максимальные уровни 50-1053 нг/мл, которые сохранялись в течение 6-месячного исследования. Анализ активности FIX из плазмы мышей подтвердил биоактивность, соразмерную уровням экспрессии.

Исследования у отличных от человека приматов (NHP): одна внутривенная совместная инфузия векторов на основе AAV2/6, кодирующих нацеленные на альбумин-специфичные ZFN NHP, и донорской матрицы человеческого F9 при 1,2x10¹³ vg/кг (n=5/группа) приводила к уровню >50 нг/мл (>1% от нормы) в этой модели с участием крупных животных. Применение более высоких доз AAV2/6 (до 1,5x10¹⁴ vg/кг включительно) приводило к уровням hFIX до 1000 нг/мл включительно (или 20% от нормы) у нескольких животных и до 2000 нг/мл (или 50% от нормы) у одного животного в течение исследования (3 месяца).

Лечение хорошо переносилось у мышей и NHP, без значимых токсикологических результатов, связанных с лечением AAV2/6 ZFN + донор у обоих видов при терапевтических дозах. После этого Sangamo (Калифорния, США) подал заявку в FDA и получил разрешение на проведение первого в мире клинического исследования на человеке с целью применения редактирования генома in vivo. Оно проводится в дополнение к разрешению EMEA лечения на основе генной терапии Glybera недостаточности липопротеинлипазы.

Соответственно, предпочтительно в некоторых вариантах осуществления, что применяют любое или все из следующего:

- векторы на основе AAV (в частности, AAV2/6), предпочтительно вводимые с помощью внутривенной инъекции;

- альбумин в качестве мишени для редактирования гена/вставки трансгена/матрицы - особенно в интроне 1 альбумина;

- донорскую матрицу человеческого F9; и/или

- не содержащую промотора донорскую матрицу.

Гемофилия B

Соответственно, в некоторых вариантах осуществления предпочтительно, что настоящее изобретение применяют для лечения гемофилии B. Например, предпочтительно, что предусмотрена матрица, и что она представляет собой человеческий ген F9. Предполагается, что матрица hF9 содержит wt или "не содержащую ошибок" версию hF9, поэтому лечение является эффективным.

В альтернативном варианте осуществления версия F9, приводящая к гемофилии В, может быть доставлена с тем, чтобы создать модельный организм, клетку или линию клеток (например, модельный организм, клетку или линию клеток мыши или отличных от человека приматов), модельный организм, клетку или линию клеток, имеющую или несущую фенотип гемофилии B, т. е. неспособность продуцировать F9 wt.

Гемофилия A

В некоторых вариантах осуществления ген F9 (фактор IX) может быть замещен геном F8 (фактор VIII), описанным в данном документе, приводя к лечению гемофилии A (посредством получения не содержащего ошибок гена F8) и/или созданию модельного организма, клетки или линии клеток с гемофилией A (посредством получения содержащего ошибки гена F8, версии, приводящей к гемофилии А).

Гемофилия C

В некоторых вариантах осуществления ген F9 (фактор IX) может быть замещен геном F11 (фактор XI), описанным в данном документе, приводя к лечению гемофилии С (посредством получения не содержащего ошибок гена F11) и/или созданию модельного организма, клетки, или линии клеток с гемофилией С (посредством получения содержащего ошибки гена F11, версии, приводящей к гемофилии С).

Лечение заболеваний эпителия и легких

Настоящее изобретение также предусматривает доставку системы CRISPR-Cas, описанной в данном документе, например, систем эффекторного белка Cpf1, в одно легкое или в оба легких.

Несмотря на то, что векторы на основе AAV-2 были изначально предложены для доставки CFTR в дыхательные пути при CF, другие серотипы, например AAV-1, AAV-5, AAV-6 и AAV-9, демонстрировали улучшенную эффективность переноса генов в ряде моделей эпителия легких (см., например, Li et al., Molecular Therapy, vol. 17 no. 12, 2067-2077 Dec 2009). Было продемонстрировано, что AAV-1 являлся в ~100 раз более эффективным, чем AAV-2 и AAV-5 при трансдукции эпителиальных клеток дыхательных путей человека in vitro, хотя эффективность трансдукции эпителия воздухоносных путей трахеи мышей in vivo при использовании помощи AAV-1 была равной таковой для AAV-5. Другие исследования продемонстрировали, что AAV-5 являлся в 50 раз более эффективным, чем AAV-2, при доставке генов в эпителий дыхательных путей человека (HAE) in vitro и значительно более эффективным в эпителии воздухоносных путей легких мышей in vivo. Также было продемонстрировано, что AAV-6 являлся более эффективным, чем AAV-2, в эпителиальных клетках дыхательных путей человека in vitro и дыхательных путях мышей in vivo. Как было показано, изолят, обнаруженный позже, AAV-9, продемонстрировал большую эффективность переноса генов, чем AAV-5, в назальном и альвеолярном эпителии мышей in vivo, причем экспрессию гена выявляли в течение более 9 месяцев, что позволяет предположить, что AAV может обеспечивать длительную экспрессию генов in vivo, являющуюся необходимым свойством для вектора для доставки гена CFTR. Более того, было продемонстрировано, что AAV-9 можно повторно вводить в легкие мышей без потери экспрессии CFTR и с минимальными последствиями, связанными с иммунной системой. Культуры HAE с CF и без CF можно инокулировать на апикальной поверхности с использованием 100 мкл векторов на основе AAV в течение нескольких часов (см., например, Li et al., Molecular Therapy, vol. 17 no. 12, 2067-2077 Dec 2009). MOI может варьировать от 1 × 10³ до 4 × 10⁵ векторных геномов/клетка, в зависимости от концентрации вируса и целей экспериментов. Упомянутые выше векторы предусматриваются для доставки и/или введения согласно настоящему изобретению.

Zamora et al. (Am J Respir Crit Care Med Vol 183. pp 531-538, 2011) представили пример применения терапевтического средства на основе РНК-интерференции для лечения инфекционных заболеваний человека, а также рандомизированного исследования противовирусного лекарственного средства у реципиентов трансплантата легкого, инфицированного респираторным синцитиальным вирусом (RSV). Zamora et al. провели рандомизированное, двойное слепое, плацебо-контролируемое исследование у реципиентов LTX с инфекцией дыхательных путей RSV. Пациентам давали возможность получать стандартное лечение против RSV. ALN-RSV01 в форме аэрозоля (0,6 мг/кг) или плацебо вводили ежедневно в течение 3 дней. Это исследование продемонстрировало, что терапевтическое средство на основе RNAi, целенаправленно воздействующее на RSV, можно вводить без риска реципиентам LTX с инфекцией RSV. Три ежедневные дозы ALN-RSV01 не приводили в результате к какому-либо обострению симптомов в дыхательных путях или к нарушению функции легких и не проявляли каких-либо системных провоспалительных эффектов, таких как индукция цитокинов или CRP. Фармакокинетические исследования продемонстрировали только низкий уровень временного системного воздействия после ингаляции, что согласуется с данными доклинических исследований на животных, демонстрирующих, что ALN-RSV01, вводимый внутривенно или путем ингаляции, подвергается быстрому клиренсу из кровотока при помощи опосредованного экзонуклеазами расщепления и почечной экскреции. Способ согласно Zamora et al. можно применять в отношении системы нацеливания на нуклеиновую кислоту по настоящему изобретению, и при этом CRISPR-Cas в форме аэрозоля, например, при дозе 0,6 мг/кг, может предусматриваться в соответствии с настоящим изобретением.

Субъекты, которых лечат от заболевания легкого, например, могут получать фармацевтически эффективное количество векторной системы на основе AAV в форме аэрозоля на легкое, доставляемое эндобронхиально при самостоятельном дыхании. Вследствие этого доставка в форме аэрозоля является предпочтительной для доставки AAV. Аденовирус или частицу AAV можно применять для доставки. Подходящие конструкции с генами, каждый из которых функционально связан с одной или несколькими регуляторными последовательностями, можно клонировать в вектор доставки. В этом случае следующие конструкции представлены в качестве примеров: промотор Cbh или EF1a для Cas (Cpf1), промотор U6 или H1 для направляющей РНК. Предпочтительной схемой является применение направляющей, нацеливающейся на CFTR с мутацией дельта-508, матрицы для репарации мутации дельта-F508 и кодон-оптимизированного фермента Cpf1 необязательно с одним или несколькими сигналами или последовательностями ядерной локализации (NLS), например, с двумя (2) NLS. Также предусматриваются конструкции без NLS.

Лечение заболеваний мышечной системы

В настоящем изобретении также предусмотрена доставка системы CRISPR-Cas, описанной в данном документе, например, систем на основе эффекторного белка Cpf1, в мышцу(мышцы).

Bortolanza et al. (Molecular Therapy vol. 19 no. 11, 2055-2064 Nov. 2011) продемонстрировали, что системная доставка кассет экспрессии для РНК-интерференции у мышей FRG1 после начала проявления плече-лопаточно-лицевой мышечной дистрофии (FSHD) приводила к дозозависимому длительному нокдауну FRG1 без симптомов токсичности. Bortolanza et al. обнаружили, что однократная внутривенная инъекция 5 × 10¹² vg (векторных геномов) rAAV6-sh1FRG1 восстанавливает гистопатологические характеристики мышц и функцию мышц у мышей FRG1. Более подробно, 200 мкл, содержащие 2 × 10¹² или 5 × 10¹² vg вектора в физиологическом растворе, вводили путем инъекции в хвостовую вену с использованием шприца Terumo с иглой 25-ого калибра. Способ согласно Bortolanza et al. можно применять в отношении AAV, экспрессирующему CRISPR Cas, и вводить его человеку путем инъекции в дозе приблизительно 2 × 10¹⁵ или 2 × 10¹⁶ vg вектора.

Dumonceaux et al. (Molecular Therapy vol. 18 no. 5, 881-887 May 2010) осуществляли ингибирование пути миостатина с применением методики РНК-интерференции, направленной против мРНК рецептора миостатина AcvRIIb (sh-AcvRIIb). Восстановление квази-дистрофина было опосредовано методикой направленного U7 пропуска экзона (U7-DYS). Векторы на основе аденоассоциированных вирусов, несущие либо только конструкцию sh-AcvrIIb, либо только конструкцию U7-DYS, или комбинацию обоих конструкций, вводили путем инъекции в переднюю большеберцовую (TA) мышцу мышей mdx с дистрофией. Инъекции осуществляли с использованием 10¹¹ геномов вируса AAV. Способ согласно Dumonceaux et al. можно применять в отношении AAV, экспрессирующему CRISPR Cas, и вводить его человеку путем инъекции, например, в дозе от приблизительно 10¹⁴ до приблизительно 10¹⁵ vg вектора.

Kinouchi et al. (генная терапия (2008) 15, 1126-1130) сообщили об эффективности доставки siRNA in vivo в скелетные мышцы нормальных или больных мышей посредством образования наночастиц из химически не модифицированных siRNA с ателоколлагеном (ATCOL). ATCOL-опосредованное местное применение siRNA, целенаправленно воздействующей на миостатин, отрицательный регулятор роста скелетных мышц, при введении в скелетные мышцы мышей или внутривенно приводило к существенному увеличению мышечной массы в течение нескольких недель после применения. Эти результаты указывают на то, что ATCOL-опосредованное применение siRNA является мощным инструментом для дальнейшего терапевтического применения для лечения заболеваний, в том числе мышечной атрофии. Mst-siRNA (конечная концентрация, 10 мМ) смешивали с ATCOL (конечная концентрация для местного введения, 0,5%) (AteloGene, Kohken, Токио, Япония) в соответствии с инструкциями производителя. После проведения анестезии мышей (самцы C57BL/6 в возрасте 20 недель) с помощью нембутала (25 мг/кг, интраперитонеально) комплекс Mst-siRNA/ATCOL инъецировали в жевательные мышцы и двуглавую мышцу бедра. Способ согласно Kinouchi et al. можно применять в отношении CRISPR-Cas и вводить ее человеку путем инъекции, например, в дозе от приблизительно 500 до 1000 мл 40 мкМ раствора в мышцу. Hagstrom et al. (Molecular Therapy Vol. 10, No. 2, August 2004) описывали интраваскулярную методику без использования вируса, которая обеспечивает эффективную и воспроизводимую доставку нуклеиновых кислот в мышечные клетки (мышечные волокна) мышц конечности млекопитающих. Методика включает инъекцию "оголенной" плазмидной ДНК или siRNA в вену дистальной части конечности, временно изолированную с помощью жгута или пневматической манжеты. Доставка нуклеиновой кислоты в мышечные волокна обеспечивается посредством ее быстрого введения путем инъекции при объеме, достаточном для обеспечения просачивания раствора нуклеиновой кислоты в мышечную ткань. Высокие уровни экспрессии трансгена в скелетной мышце достигались как у мелких, так и у крупных животных при минимальной токсичности. Также были получены доказательства доставки siRNA в мышцу конечности. Для внутривенной инъекции плазмидной ДНК макаку-резусу трехходовый кран присоединяли к двум шприцевым насосам (Model PHD 2000; Harvard Instruments), в каждый из которых помещали один шприц. Через пять минут после инъекции папаверина вводили путем инъекции pDNA (15,5-25,7 мг в 40-100 мл физиологического раствора) при скорости 1,7 или 2,0 мл/с. Это можно воспроизводить в увеличенном масштабе для плазмидной ДНК, экспрессирующей CRISPR Cas согласно настоящему изобретению, причем с инъекцией человеку от приблизительно 300 до 500 мг в 800-2000 мл физиологического раствора. Для инъекции аденовирусного вектора крысе 2 x 10⁹ инфекционных частиц в 3 мл физиологического солевого раствора (NSS) вводили путем инъекции. Это можно воспроизводить в увеличенном масштабе для аденовирусного вектора, экспрессирующего CRISPR Cas по настоящему изобретению, причем с инъекцией человеку приблизительно 1 x 10¹³ инфекционных частиц в 10 литрах NSS. Что касается siRNA, крысе вводили путем инъекции в большую подкожную вену 12,5 мкг siRNA, а примату вводили путем инъекции в большую подкожную вену 750 мкг siRNA. Это можно воспроизводить в увеличенном масштабе для CRISPR Cas согласно настоящему изобретению, например, путем инъекции от приблизительно 15 до приблизительно 50 мг в большую подкожную вену человека.

См. также, например, опубликованную заявку Duke University WO2013163628 A2 "Генетическая коррекция мутированных генов", в которой описаны попытки коррекции, например, мутации по типу сдвига рамки считывания, которая вызывает появление преждевременного стоп-кодона и усечение продукта гена, которую можно откорректировать посредством опосредованного нуклеазами негомологичного соединения концов, как, например, обуславливающей мышечную дистрофию Дюшенна ("DMD"), рецессивное смертельное сцепленное с X-хромосомой нарушение, приводящее к мышечной дегенерации в связи с мутациями гена дистрофина. Большинство мутаций гена дистрофина, вызывающих DMD, представляют собой делеции экзонов, нарушающие рамку считывания и вызывающие преждевременную терминацию трансляции гена дистрофина. Дистрофин представляет собой цитоплазматический белок, обеспечивающий стабильность структуры дистрогликанового комплекса клеточной мембраны, отвечающего за регуляцию целостности и функционирования мышечных клеток. Ген дистрофина или "ген DMD", как взаимозаменяемо используется в данном документе, образован 2,2 миллионами пар оснований в локусе Xp21. Размер первичного транскрипта составляет приблизительно 2400 т.п.о., при этом размер зрелой мРНК составляет приблизительно 14 т.п.о. 79 экзонов кодируют белок, образованный более 3500 аминокислотами. Экзон 51 часто является смежным с положениями делеций, нарушающих рамку считывания, у пациентов с DMD, и в клинических испытаниях на него был направлен пропуск экзона, основанный на применении олигонуклеотидов. Недавно в клиническом испытании с пропуском экзона 51 с помощью соединения этерлипсена сообщали о значительном положительном функциональном эффекте в течение 48 недель со средним количеством дистрофин-положительных волокон 47% по сравнению с исходным уровнем. Мутации в экзоне 51 идеально подходят для устойчивой коррекции посредством редактирования генома на основе NHEJ.

Способы согласно публикации заявки на патент США № 20130145487, закрепленной за Cellectis, которые относятся к вариантам мегануклеаз для расщепления целевой последовательности гена дистрофина человека (DMD), также можно модифицировать для системы нацеливания на нуклеиновую кислоту по настоящему изобретению.

Лечение заболеваний кожи

Настоящее изобретение также предусматривает доставку системы CRISPR-Cas, описанной в данном документе, например, систем эффекторного белка Cpf1, в кожу.

Hickerson et al. (Molecular Therapy-Nucleic Acids (2013) 2, e129) обращаются к снабженному приводом устройству с матрицей микроигл для доставки в кожу, предназначенному для самостоятельной (sd) доставки siRNA в кожу человека и мыши. Основной проблемой, связанной с переносом терапевтических средств на основе siRNA для кожи в клиническую практику, является разработка эффективных систем доставки. Значительные усилия были приложены к созданию ряда методик доставки в кожу, причем с ограниченным успехом. В клиническом исследовании, в котором кожу обрабатывали siRNA, острая боль, связанная с инъекцией с помощью иглы для подкожных инъекций, препятствовала включению дополнительных пациентов в исследование, что придает большое значение потребности в улучшенных, более "удобных для пациента" (т. е. причиняющих слабую боль или не причиняющих ее) средствах доставки. Микроиглы представляют эффективный способ доставки крупных заряженных молекул-карго, включающих siRNA, через первичный барьер, роговой слой, и, как правило, считаются причиняющими меньшую боль, чем обычные иглы для подкожных инъекций. Снабженные приводом устройства "штамповочного типа" с микроиглами, в том числе снабженное приводом устройство с сеткой микроигл (MMNA), используемое Hickerson et al., как было продемонстрировано, были безопасными в исследованиях на бесшерстных мышах и причиняли слабую боль или не причиняли боли, о чем свидетельствует (i) широкое применение в косметологии и (ii) ограниченное тестирование, в котором практически все добровольцы считали применение устройства причиняющим намного меньшую боль, чем при вакцинации против гриппа, что позволяет предположить, что доставка siRNA с применением этого устройства будет намного менее болезненной, чем испытываемая в предшествующих клинических исследованиях с применением игл для подкожных инъекций. Устройство MMNA (имеющееся в продаже как Triple-M или Tri-M от Bomtech Electronic Co, Сеул, Южная Корея) адаптировали для доставки siRNA в кожу мыши и человека. Раствор sd-siRNA (до 300 мкл 0,1 мг/мл РНК) вводили в камеру одноразового инъекционного картриджа с иглами Tri-M (Bomtech), которые устанавливали на глубину 0,1 мм. Для обработки кожи человека деидентифицированную кожу (полученную непосредственно после хирургических вмешательств) растягивали вручную и прикалывали к пробковому столу перед обработкой. Все интрадермальные инъекции осуществляли с помощью инсулинового шприца с 0,5-дюймовой иглой 28 калибра. Устройство MMNA и способ согласно Hickerson et al. можно применять и/или приспосабливать для доставки CRISPR-Cas согласно настоящему изобретению, например, в дозе до 300 мкл 0,1 мг/мл CRISPR-Cas, в кожу.

В Leachman et al. (Molecular Therapy, vol. 18 no. 2, 442-446 Feb. 2010) изложено клиническое исследование фазы Ib, направленное на лечение редкого нарушения кожи врожденной пахионихии (PC), аутосомно-доминантного синдрома, которое предусматривает блокирование подошвенной кератодермии, с использованием первого терапевтического средства на основе короткой интерферирующей РНК (siRNA) для кожи. Эта siRNA, под названием TD101, специфично и эффективно целенаправленно воздействует на мРНК мутантного кератина 6a (K6a) N171K, не оказывая влияния на мРНК K6a дикого типа.

Zheng et al. (PNAS, July 24, 2012, vol. 109, no. 30, 11975-11980) продемонстрировали, что конъюгаты сферических наночастиц с нуклеиновой кислотой (SNA-NC), являющиеся ядрами из золота окружеными плотной оболочкой из строго ориентированных, ковалентно иммобилизованных siRNA, свободно проникают практически в 100% кератиноцитов in vitro, в кожу мыши и в эпидермис человека в течение нескольких часов после применения. Zheng et al. продемонстрировали, что однократное применение 25 нМ SNA-NC к рецептору эпидермального фактора роста (EGFR) в течение 60 ч. продемонстрировало эффективный нокдаун гена в коже человека. Аналогичная доза может предусматриваться для CRISPR-Cas, иммобилизованной в SNA-NC для введения в кожу.

Рак

В некоторых вариантах осуществления предусмотрено лечение, профилактика и диагностика рака. Мишенью предпочтительно является один или несколько из генов FAS, BID, CTLA4, PDCD1, CBLB, PTPN6, TRAC или TRBC. Рак может представлять собой одно или несколько из лимфомы, хронического лимфоцитарного лейкоза (CLL), B-клеточного острого лимфоцитарного лейкоза (B-ALL), острого лимфобластного лейкоза, острого миелоидного лейкоза, неходжкинской лимфомы (NHL), диффузной крупноклеточной лимфомы (DLCL), множественной миеломы, почечно-клеточной карциномы (RCC), нейробластомы, колоректального рака, рака молочной железы, рака яичников, меланомы, саркомы, рака предстательной железы, рака легких, рака пищевода, гепатоцеллюлярной карциномы, рака поджелудочной железы, астроцитомы, мезотелиомы, рака головы и шеи и медуллобластомы. Это можно осуществлять с помощью сконструированной Т-клетки с химерным антигенным рецептором (CAR). Это описано в WO2015161276, раскрытие которого включено в данный документ посредством ссылки, и описано в данном документе ниже.

Целевые гены, подходящие для лечения или профилактики рака, могут включать в некоторых вариантах осуществления описанные в WO2015048577, раскрытие которого включено в данный документ посредством ссылки.

Синдром Ушера или пигментный ретинит-39

В некоторых вариантах осуществления предусмотрено лечение, профилактика и диагностика синдрома Ушера или пигментного ретинита-39. Мишенью предпочтительно является ген USH2A. В некоторых вариантах осуществления предусмотрена коррекция делеции G в положении 2299 (2299delG). Это описано в WO2015134812A1, раскрытие которого включено в данный документе посредством ссылки.

Муковисцидоз (CF)

В некоторых вариантах осуществления предусмотрено лечение, профилактика и диагностика муковисцидоза. Мишенью предпочтительно является ген SCNN1A или CFTR. Это описано в WO2015157070, раскрытие которого включено в данный документ посредством ссылки.

Schwank et al. (Cell Stem Cell, 13:653-58, 2013) использовали CRISPR-Cas9 для коррекции дефекта, ассоциированного с муковисцидозом, в стволовых клетках человека. Целью исследователей являлся ген ионного канала, рецептора трансмембранной проводимости при муковисцидозе (CFTR). Делеция в CFTR приводит к неправильной укладке белка у пациентов с муковисцидозом. С использованием культивируемых стволовых клеток кишечника, полученных из образцов клеток от двух детей с муковисцидозом, Schwank et al. смогли скорректировать дефект с использованием CRISPR вместе с донорной плазмидой, содержащей репаративную последовательность, подлежащую вставке. Исследователи затем вырастили клетки до "органоидов" кишечника или кишок небольшого размера и продемонстрировали, что они нормально функционировали. В этом случае приблизительно половина клональных органоидов подвергалась надлежащей коррекции наследственного материала.

HIV и СПИД

В некоторых вариантах осуществления предусмотрено лечение, профилактика и диагностика HIV и СПИДа. Мишенью предпочтительно является ген CCR5 в HIV. Это описано в WO2015148670A1, раскрытие которого включено в данный документе посредством ссылки.

Бета-талассемия

В некоторых вариантах осуществления предусмотрено лечение, профилактика и диагностика бета-талассемии. Мишенью предпочтительно является ген BCL11A. Это описано в WO2015148860, раскрытие которого включено в данный документе посредством ссылки.

Серповидно-клеточная анемия (SCD)

В некоторых вариантах осуществления предусмотрено лечение, профилактика и диагностика серповидно-клеточной анемии (SCD). Мишенью предпочтительно является ген HBB или BCL11A. Это описано в WO2015148863, раскрытие которого включено в данный документе посредством ссылки.

Вирус простого герпеса 1 и 2 типа

В некоторых вариантах осуществления предусмотрено лечение, профилактика и диагностика HSV-1 (вируса простого герпеса 1). Мишенью предпочтительно является ген UL19, UL30, UL48 или UL50 в HSV-1. Это описано в WO2015153789, раскрытие которого включено в данный документ посредством ссылки.

В других вариантах осуществления предусмотрено лечение, профилактика и диагностика HSV-2 (вируса простого герпеса 2). Мишенью предпочтительно является ген UL19, UL30, UL48 или UL50 в HSV-2. Это описано в WO2015153791, раскрытие которого включено в данный документ посредством ссылки.

В некоторых вариантах осуществления предусмотрено лечение, профилактика и диагностика первичной открытоугольной глаукомы (POAG). Мишенью предпочтительно является ген MYOC. Это описано в WO2015153780, раскрытие которого включено в данный документе посредством ссылки.

Виды адоптивной клеточной терапии

Настоящее изобретение также предусматривает применение системы CRISPR-Cas, описанной в данном документе, например, систем эффекторного белка Cpf1, для модификации клеток с целью адоптивных видов терапии. Аспекты по настоящему изобретению соответственно включают адоптивный перенос клеток иммунной системы, таких как T-клетки, специфичных в отношении определенных антигенов, таких как опухоль-ассоциированные антигены (см. Maus et al., 2014, Adoptive Immunotherapy for Cancer or Viruses, Annual Review of Immunology, Vol. 32: 189-225; Rosenberg and Restifo, 2015, Adoptive cell transfer as personalized immunotherapy for human cancer, Science Vol. 348 no. 6230 pp. 62-68; и Restifo et al., 2015, Adoptive immunotherapy for cancer: harnessing the T cell response. Nat. Rev. Immunol. 12(4): 269-281; и Jenson and Riddell, 2014, Design and implementation of adoptive therapy with chimeric antigen receptor-modified T cells. Immunol Rev. 257(1): 127-144). Например, различные стратегии можно использовать для генетической модификации T-клеток с помощью изменения специфичности T-клеточного рецептора (TCR), например, посредством введения новых α- и β-цепей TCR со специфичностью по отношению к определенным пептидам (см. патент США №8697854; публикации заявок на патент согласно PCT: WO2003020763, WO2004033685, WO2004044004, WO2005114215, WO2006000830, WO2008038002, WO2008039818, WO2004074322, WO2005113595, WO2006125962, WO2013166321, WO2013039889, WO2014018863, WO2014083173; патент США № 8088379).

В качестве альтернативы или дополнительно к модификациям TCR химерные антигенные рецепторы (CAR) можно использовать с целью получения иммунореактивных клеток, таких как T-клетки, специфичные по отношению к определенным мишеням, таким как злокачественные клетки, с широким разнообразием описанных рецепторных химерных конструкций (см. патенты США №№ 5843728; 5851828; 5912170; 6004811; 6284240; 6392013; 6410014; 6753162; 8211422 и публикацию согласно PCT WO9215322). Альтернативные конструкции CAR можно охарактеризовать как принадлежащие к последующим поколениям. CAR первого поколения, как правило, состоят из однонитевого вариабельного фрагмента антитела, специфичного по отношению к антигену, например, содержащего VL, связанную с VH конкретного антитела, связанного с помощью гибкого линкера, например, с помощью шарнирного домена CD8α и трансмембранного домена CD8α с трансмембранными доменами и доменами внутриклеточной передачи сигнала CD3ζ или FcRγ (scFv-CD3ζ или scFv-FcRγ; см. патент США №7741465; патент США №5912172; патент США №5906936). CAR второго поколения охватывают внутриклеточные домены одной или нескольких костимулирующих молекул, таких как CD28, OX40 (CD134) или 4-1BB (CD137) в эндодомене (например, scFv-CD28/OX40/4-1BB-CD3ζ; см. патенты США №№ 8911993; 8916381; 8975071; 9101584; 9102760; 9102761). CAR третьего поколения включают комбинацию костимулирующих эндодоменов, таких как сигнальные домены CD3ζ-цепи, CD97, GDI la-CD18, CD2, ICOS, CD27, CD154, CDS, OX40, 4-1BB или CD28 (например, scFv-CD28-4-1BB-CD3ζ или scFv-CD28-OX40-CD3ζ; см. патент США № 8906682; патент США № 8399645; патент США № 5686281; публикацию согласно PCT № WO2014134165; публикацию согласно PCT № WO2012079000). Альтернативно костимиляцию можно регулировать с помощью экспрессии CAR в антиген-специфичных T-клетках, выбранных с целью активации и размножения в результате вовлечения их нативных αβTCR, например, с помощью антигена на профессиональных антиген-представляющих клетках с помощью сопутствующей костимуляции. Кроме того, дополнительные сконструированные рецепторы могут быть предусмотрены на иммунореактивных клетках, например, для улучшения нацеливания T-клеточной атаки и/или сведения к минимуму побочных эффектов.

Альтернативные методики можно применять для трансформации целевых иммунореактивных клеток, такие как слияние протопласта, липофекция, трансфекция или электропорация. Можно использовать широкое разнообразие векторов, таких как ретровирусные векторы, лентивирусные векторы, аденовирусные векторы, аденоассоциированные вирусные векторы, плазмиды или транспозоны, такие как транспозон "Спящая красавица" (см. патенты США №№ 6489458; 7148203; 7160682; 7985739; 8227432), их можно использовать для введения CAR, например, с помощью получения антиген-специфичных CAR 2-го поколения, передающих сигналы с участием CD3ζ и CD28 или CD137. Вирусные векторы, могут, например, включать векторы на основе HIV, SV40, EBV, HSV или BPV.

Клетки, которые подвергаются нацеливанию с целью трансформации, могут включать, например, T-клетки, натуральные клетки-киллеры (NK), цитотоксические T-лимфоциты (CTL), регуляторные T-клетки, человеческие эмбриональные стволовые клетки, инфильтрующие опухоль лимфоциты (TIL) или плюрипотентную стволовую клетку, из которой лимфоидные клетки могут дифференцироваться. T-клетки, экспрессирующие желаемый CAR, можно, например, выбрать посредством кокультивирования с γ-облученными активирующими и делящимися клетками (AaPC), которые коэкспрессируют раковый антиген и костимулирующие молекулы. Сконструированные CAR Т-клетки можно размножать, например, с помощью кокультивирования на AaPC в присутствии растворенных факторов, таких как IL-2 и IL-21. Такое разращивание, можно, например, проводить с целью получения CAR+ T-клеток памяти (которые можно, например, анализировать при помощи неферментативного цифрового массива и/или многопанельной проточной цитометрии ). В этом отношении можно получить CAR T-клетки, которые характеризуются специфичной цитотоксической активностью по отношению к антиген-несущим опухолям (необязательно в сочетании с образованием желаемых хемокинов, таких как интерферон-γ). CAR T-клетки этого типа, например, можно использовать в животных моделях, например, для лечения ксенотрансплантатов опухолей.

Подходы, такие как вышеизложенные, можно адаптировать для обеспечения способов лечения и/или повышения выживаемости субъекта, имеющего заболевание, такое как новообразование, например, с помощью введения эффективного количества иммунореактивных клеток, содержащих распознающий антиген рецептор, которые связывается с определенным антигеном, где связывание активирует иммунореактивную клетку, тем самым при этом осуществляется лечение или предупреждение заболевания (такого как новообразование, патогенная инфекция, аутоиммунное заболевание или реакция на аллогенный трансплантат). Дозирование в видах лечения на основе CAR T-клеток может, например, предусматривать введение от 10⁶ до 10⁹ клеток/кг, с курсом или без курса противолимфомной терапии, например, с помощью циклофосфамида.

В одном варианте осуществления лечение можно назначать пациентам, проходящим иммуносупрессивное лечение. Клетки или популяцию клеток можно сделать устойчивыми по меньшей мере к одному иммуносупрессивному средству в результате инактивации гена, кодирующего рецептор для такого иммуносупрессивного средства. Не вдаваясь в теорию, иммуносупрессивное лечение должно облегчать отбор и размножение иммунореактивных клеток или T-клеток в соответствии с настоящим изобретением у пациента.

Введение клеток или популяции клеток в соответствии с настоящим изобретением можно выполнять любым удобным способом, в том числе с помощью аэрозольной ингаляции, инъекции, поглощения, трансфузии, имплантации или трансплантации. Клетки или популяцию клеток можно вводить пациенту подкожно, внутрикожно, внутрь опухоли, внутрь узла, интрамедуллярно, внутримышечно, с помощью внутривенной или внутрилимфатической инъекции или внутрибрюшинно. В одном варианте осуществления клеточные композиции по настоящему изобретению предпочтительно вводят с помощью внутривенной инъекции.

Введение клеток или популяции клеток может состоять из введения 10⁴- 10⁹ клеток на кг массы тела, предпочтительно от 10⁵ до 10⁶ клеток/кг массы тела, включая целые значения числа клеток в пределах этих диапазонов. Дозирование в видах лечения на основе CAR T-клеток может, например, предусматривать введение от 10⁶ до 10⁹ клеток/кг, с курсом или без курса противолимфомной терапии, например, с помощью циклофосфамида. Клетки или популяцию клеток можно вводить в одной или нескольких дозах. В другом варианте осуществления эффективное количество клеток вводят в виде одной дозы. В другом варианте осуществления эффективное количество клеток вводят в виде более чем одной дозы в течение периода времени. Определение времени введения находится в пределах компетенции лечащего врача и зависит от клинического состояния пациента. Клетки или популяцию клеток можно получать из любого источника, такого как банк крови или донор. Принимая во внимание то, что потребности индивидуумов варьируют, определение оптимальных диапазонов эффективных количеств определенного типа клеток для определенных заболеваний или состояний находится в пределах компетенции специалиста в данной области. Эффективное количество означает количество, которое обеспечивает терапевтический или профилактический эффект. Вводимая доза может зависеть от возраста, состояния здоровья и веса реципиента, вида сопутствующего лечения, при необходимости, частоты лечения и природы желаемого эффекта.

В другом варианте осуществления эффективное количество клеток или композиции, содержащей такие клетки, вводят парентерально. Введение может представлять собой внутривенное введение. Введение может быть выполнено непосредственно с помощью инъекции в опухоль.

Для предупреждения возможных побочных реакций сконструированные иммунореактивные клетки могут быть оснащены предохранителем в форме трансгена, который делает клетки восприимчивыми к воздействию специфического сигнала. Например, в этом отношении можно использовать ген тимидинкиназы вируса простого герпеса (TK), например, с помощью введения в аллогенные T-лимфоциты, используемые в качестве инфузий донорских лимфоцитов после трансплантации стволовых клеток (Greco, et al., Improving the safety of cell therapy with the TK-suicide gene. Front. Pharmacol. 2015; 6: 95). В таких клетках введение пролекарства на основе нуклеозидов, такого как ганцикловир или ацикловир, вызывает клеточную смерть. Альтернативные конструкции предохранителей включают индуцируемую каспазу 9, например, активируемую введением низкомолекулярного димера, который соединяет две нефункциональные молекулы icasp9 с образованием активного фермента. Было описано широкое разнообразие альтернативных подходов для осуществления контроля пролиферации клеток (см. публикацию заявки на патент США № 20130071414; публикацию заявки на патент согласно PCT WO2011146862; публикацию заявки на патент согласно PCT WO2014011987; публикацию заявки на патент согласно PCT WO2013040371; Zhou et al. BLOOD, 2014, 123/25:3895 - 3905; Di Stasi et al., The New England Journal of Medicine 2011; 365:1673-1683; Sadelain M, The New England Journal of Medicine 2011; 365:1735-173; Ramos et al., Stem Cells 28(6):1107-15 (2010)).

При дополнительном усовершенствовании видов адоптивной терапии редактирование генома с помощью системы CRISPR-Cas, описанной в данном документе, можно применять для приспособления иммунореактивных клеток к альтернативным вариантам осуществления, например, с получением отредактированных CAR T-клеток (см. Poirot et al., 2015, Multiplex genome edited T-cell manufacturing platform for "off-the-shelf" adoptive T-cell immunotherapies, Cancer Res 75 (18): 3853). Например, иммунореактивные клетки можно редактировать с целью устранения экспрессии некоторых или всех из молекул II типа и/или I типа класса HLA, или с целью нокаутирования определенных генов, которые могут ингибировать необходимый иммунный ответ, таких как ген PD1.

Клетки можно редактировать с помощью системы CRISPR и способа ее применения, описанного в данном документе. Системы CRISPR могут быть доставлены в иммунную клетку с помощью любого способа, описанного в данном документе. В предпочтительных вариантах осуществления клетки редактируют ex vivo и переносят в субъекта, нуждающегося в этом. Можно редактировать иммунореактивные клетки, CAR T-клетки или любые клетки для адоптивного клеточного переноса. Редактирование можно выполнять с целью устранения потенциальных аллореактивных T-клеточных рецепторов (TCR), нарушения мишени хемотерапевтического средства, блокирования иммунной контрольной точки, активации T-клетки и/или повышения дифференцировки и/или пролиферации функционально истощенных или дисфункциональных CD8+ T-клеток (см. публикации на патент согласно PCT WO2013176915, WO2014059173, WO2014172606, WO2014184744 и WO2014191128). Редактирование может приводить к инактивации гена.

Под инактивацией гена предполагается, что представляющий интерес ген не экспрессируется в форме функционального белка. В конкретном варианте осуществления система CRISPR специфично катализирует расщепление в одном целевом гене, тем самым инактивируя указанный целевой ген. Вызванные разрывы нити нуклеиновой кислоты обычно репарируются с помощью различных механизмов гомологичной рекомбинации или негомологичного соединения концов (NHEJ). Однако NHEJ представляет собой несовершенный процесс репарации, который часто приводит к изменениям последовательности ДНК в сайте расщепления. Репарация посредством негомологичного соединения концов (NHEJ) часто приводит к небольшим вставкам или делециям (вставкам/делециям) и может быть использована для получения определенных нокаутов генов. Клетки, в которых произошло явление индуцированного расщеплением мутагенеза, можно идентифицировать и/или отобрать с помощью общеизвестных способов в данной области.

T-клеточные рецепторы (TCR) представляют собой рецепторы клеточной поверхности, которые участвуют в активации T-клеток в ответ на представление антигена. TCR, как правило, состоит из двух цепей, α и β, которые собираются с образованием гетеродимера, и ассоциируется с CD3-трансдуцирующими субъединицами, с образованием комплекса T-клеточного рецептора, присутствующего на клеточной поверхности. Каждая α- и β-цель TCR состоит из иммуноглобулин-подобной N-концевой вариабельной (V) и константной (C) области, гидрофобного трансмембранного домена и короткого цитоплазматического участка. Как в случае иммуноглобулиновых молекул, вариабельную область α-и β-целей получают с помощью V(D)J рекомбинации, создавая большое разнообразие антигенных специфичностей в пределах популяции T-клеток. Однако в отличие от иммуноглобулинов, которые распознают интактный антиген, T-клетки активируются с помощью процессированных пептидных фрагментов в сочетании с молекулой MHC, вводящей дополнительную область для распознавания антигенов T-клетками, известную как MHC-рестрикция. Распознавание несовпадений MHC между донором и реципиентом посредством T-клеточного рецептора приводит к T-клеточной пролиферации и потенциальному развитию реакции "трансплантат против хозяина" (GVHD). Инактивация TCRα или TCRβ может приводить к элиминации TCR с поверхности T-клеток, предупреждая распознавание аллоантигена и, таким образом, GVHD. Однако нарушение TCR, как правило, приводит к элиминации CD3 сигнального компонента и изменяет способы дальнейшего разращивания T-клеток.

Аллогенные клетки быстро отторгаются иммунной системой хозяина. Было показано, что аллогенные лейкоциты, присутствующие в необлученных продуктах крови, сохраняются не более 5-6 дней (Boni, Muranski et al. 2008 Blood 1;112(12):4746-54). Таким образом, для предупреждения отторжения аллогенных клеток, иммунную систему хозяина, как правило, необходимо подавлять до некоторой степени. Однако в случае адоптивного клеточного переноса применение иммуносупрессивных препаратов также оказывает вредное воздействие на введенные с терапевтической целью T-клетки. Таким образом, для эффективного применения подхода на основе адоптивной иммунотерапии в этих условиях введенные клетки должны быть устойчивыми к иммуносупрессивному лечению. Таким образом, в конкретном варианте осуществления настоящее изобретение дополнительно предусматривает стадию модификации T-клеток для придания им устойчивости к иммуносупрессивному средству, предпочтительно с помощью инактивации по меньшей мере одного гена, кодирующего иммуносупрессивное средство. Иммуносупрессивное средство представляет собой средство, которое подавляет иммунную функцию посредством одного из нескольких механизмов действия. Иммуносупрессивное средство может представлять собой без ограничения ингибитор кальциневрина, мишень для рапамицина, блокатор α-цепи рецептора интерлейкина 2, ингибитор инозинмонофосфатдегидрогеназы, ингибитор редуктазы дигидрофолиевой кислоты, кортикостероид или иммуносупрессивный антиметаболит. Настоящее изобретение предусматривает придание T-клеткам устойчивости к иммуносупрессорам с целью иммунотерапии с помощью инактивации мишени иммуносупрессивного средства в T-клетках. В качестве неограничивающих примеров мишени для иммуносупрессивного средства могут представлять собой рецептор для иммуносупрессивного средства, такой как CD52, глюкокортикоидный рецептор (GR), представитель семейства генов FKBP и представитель семейства генов циклофилина.

Иммунные контрольные точки представляют собой ингибирующие пути, которые замедляют или останавливают иммунные реакции и предупреждают избыточное разрушение тканей в результате неконтролируемой активности иммунных клеток. В определенных вариантах осуществления целевая иммунная контрольная точка представляет собой ген программируемой смерти 1 (PD-1 или CD279) (PDCD1). В других вариантах осуществления иммунная контрольная точка, на которую оказывают воздействие, представляет собой антиген, ассоциированный с цитотоксическим T-лимфоцитом (CTLA-4). В дополнительных вариантах осуществления целевая иммунная контрольная точка представляет собой другой представитель суперсемейства CD28 и CTLA4 Ig, такой как BTLA, LAG3, ICOS, PDL1 или KIR. В дополнительных вариантах осуществления целевая иммунная контрольная точка представляет собой представителя суперсемейства TNFR, такой как CD40, OX40, CD137, GITR, CD27 или TIM-3.

Дополнительные иммунные контрольные точки включают содержащую домен с гомологией 2 Src протеинтирозинфосфатазу 1 (SHP-1) (Watson HA, et al., SHP-1: the next checkpoint target for cancer immunotherapy? Biochem Soc Trans. 2016 Apr 15;44(2):356-62). SHP-1 представляет собой широко экспрессируемую ингибирующую протеинтирозинфосфатазу (PTP). В T-клетках она является отрицательным регулятором антигензависимой активации и пролиферации. Она представляет собой цитозольный белок и поэтому не пригодна для опосредованных антителами видов терапии, однако ее роль в активации и пролиферации делает ее привлекательной мишенью для генетической манипуляции в стратегиях адоптивного переноса, например, Т-клеток с химерными антигенными рецепторами (CAR). Иммунные контрольные точки могут также включать T-клеточный иммунорецептор с Ig и ITIM доменами (TIGIT/Vstm3/WUCAM/VSIG9) и VISTA (Le Mercier I, et al., (2015) Beyond CTLA-4 and PD-1, the generation Z of negative checkpoint regulators. Front. Immunol. 6:418).

WO2014172606 относится к применению ингибиторов MT1 и/или MT1 для повышения пролиферации и/или активности истощенных CD8+ T-клеток и для снижения CD8+ T-клеточного истощения (например, снижения функциональных свойств истощенных или невосприимчивых CD8+ иммунных клеток). В определенных вариантах осуществления металлотионеины подвергаются нацеливанию с помощью редактирования генов в адоптивно перенесенных T-клетках.

В определенных вариантах осуществления мишени редактирования генов могут представлять собой по меньшей мере один целевой локус, участвующий в экспрессии белка иммунной контрольной точки. Такие мишени могут включают без ограничения CTLA4, PPP2CA, PPP2CB, PTPN6, PTPN22, PDCD1, ICOS (CD278), PDL1, KIR, LAG3, HAVCR2, BTLA, CD160, TIGIT, CD96, CRTAM, LAIR1, SIGLEC7, SIGLEC9, CD244 (2B4), TNFRSF10B, TNFRSF10A, CASP8, CASP10, CASP3, CASP6, CASP7, FADD, FAS, TGFBRII, TGFRBRI, SMAD2, SMAD3, SMAD4, SMAD10, SKI, SKIL, TGIF1, IL10RA, IL10RB, HMOX2, IL6R, IL6ST, EIF2AK4, CSK, PAG1, SIT1, FOXP3, PRDM1, BATF, VISTA, GUCY1A2, GUCY1A3, GUCY1B2, GUCY1B3, MT1, MT2, CD40, OX40, CD137, GITR, CD27, SHP-1 или TIM-3. В предпочтительных вариантах осуществления генный локус, участвующий в экспрессии генов PD-1 или CTLA-4, является целевым. В других предпочтительных вариантах осуществления комбинации генов являются целевыми, такие как без ограничения PD-1 и TIGIT.

В других вариантах осуществления по меньшей мере два гена редактируют. Пары генов могут включать без ограничения PD1 и TCRα, PD1 и TCRβ, CTLA-4 и TCRα, CTLA-4 и TCRβ, LAG3 и TCRα, LAG3 и TCRβ, Tim3 и TCRα, Tim3 и TCRβ, BTLA и TCRα, BTLA и TCRβ, BY55 и TCRα, BY55 и TCRβ, TIGIT и TCRα, TIGIT и TCRβ, B7H5 и TCRα, B7H5 и TCRβ, LAIR1 и TCRα, LAIR1 и TCRβ, SIGLEC10 и TCRα, SIGLEC10 и TCRβ, 2B4 и TCRα, 2B4 и TCRβ.

Вне зависимости от того, является ли модификация Т-клеток предварительной или последующей, T-клетки можно активировать и размножать, как правило, с помощью способов, описанных, например, в патентах США 6352694; 6534055; 6905680; 5858358; 6887466; 6905681; 7144575; 7232566; 7175843; 5883223; 6905874; 6797514; 6867041 и 7572631. T-клетки можно размножать in vitro или in vivo.

Практическое осуществление настоящего изобретения предусматривает, если не указано иное, традиционные методики иммунологии, биохимии, химии, молекулярной биологии, микробиологии, клеточной биологии, геномики и технологию рекомбинантной ДНК, которые находятся в пределах квалификации специалиста в данной области. См. MOLECULAR CLONING: A LABORATORY MANUAL, 2nd edition (1989) (Sambrook, Fritsch and Maniatis); MOLECULAR CLONING: A LABORATORY MANUAL, 4th edition (2012) (Green and Sambrook); CURRENT PROTOCOLS IN MOLECULAR BIOLOGY (1987) (F. M. Ausubel, et al. eds.); серию METHODS IN ENZYMOLOGY (Academic Press, Inc.); PCR 2: A PRACTICAL APPROACH (1995) (M.J. MacPherson, B.D. Hames and G.R. Taylor eds.); ANTIBODIES, A LABORATORY MANUAL (1988) (Harlow and Lane, eds.); ANTIBODIES A LABORATORY MANUAL, 2nd edition (2013) (E.A. Greenfield ed.); и ANIMAL CELL CULTURE (1987) (R.I. Freshney, ed.).

Практическое осуществление настоящего изобретения предусматривает, если не указано иное, стандартные методики получения генетически модифицированных мышей. См. Marten H. Hofker and Jan van Deursen, TRANSGENIC MOUSE METHODS AND PROTOCOLS, 2nd edition (2011).

Генные драйвы

Настоящее изобретение также предусматривает применение системы CRISPR-Cas, описанной в данном документе, например, систем эффекторных белков Cpf1, для обеспечения направляемых РНК генных драйвов, например, в системах, аналогичных генным драйвам, описанным в публикации заявки на патент согласно PCT WO 2015/105928. Системы этого типа, например, могут предусматривать способы изменения эукариотических клеток зародышевой линии с помощью введения в клетку зародышевой линии последовательности нуклеиновой кислоты, кодирующей РНК-направляемую ДНК-нуклеазу и одну или несколько направляющих РНК. Направляющие РНК могут быть разработаны так, что являются комплементарными одной или нескольким целевым локусам в геномной ДНК клетки зародышевой линии. Последовательность нуклеиновой кислоты, кодирующая направляемую РНК ДНК-нуклеазу, и последовательность нуклеиновой кислоты, кодирующая направляющие РНК, могут быть получены в конструкциях между фланкирующими последовательностями, с промоторами, расположенными таким образом, что клетка зародышевой линии может экспрессировать направляемую РНК ДНК-нуклеазу и направляющие РНК, совместно с любыми требуемыми кодирующими молекулы-карго последовательностями, которые также расположены между фланкирующими последовательностями. Фланкирующие последовательности будут, как правило, включать последовательность, которая является идентичной соответствующей последовательности на определенной хромосоме, таким образом, что фланкирующие последовательности функционируют с компонентами, кодируемыми конструкцией для облегчения вставки чужеродных последовательностей конструкций нуклеиновой кислоты в геномную ДНК в целевом сайте для разрезания с помощью механизмов, таких как гомологичная рекомбинация, для воспроизведения клетки зародышевой линии, гомозиготной по чужеродной последовательности нуклеиновой кислоты. Таким образом, системы генного драйва способны к интрогрессии требуемых генов во всей популяции производителей (Gantz et al., 2015, Highly efficient Cas9-mediated gene drive for population modification of the malaria vector mosquito Anopheles stephensi, PNAS 2015, электронная публикация, предшествующая печатной, от 23 ноября 2015 г., doi:10.1073/pnas.1521077112; Esvelt et al., 2014, Concerning RNA-guided gene drives for the alteration of wild populations eLife 2014;3:e03401). В определенных вариантах осуществления могут быть отобраны целевые последовательности, которые имеют мало потенциальных нецелевых сайтов в геноме. Нацеливание на несколько сайтов в целевом локусе с помощью нескольких направляющих РНК может повышать частоту разрезания и замедлять эволюцию устойчивых к драйву генов. Усеченные направляющие РНК могут снижать нецелевое разрезание. Парные никазы могут быть использованы вместо одной нуклеазы для дополнительного повышения специфичности. Конструкции для генного драйва могут включать последовательности молекул-карго, кодирующие регуляторы транскрипции, например, для активации гомологичных рекомбинантных генов и/или репрессии негомологичного соединения концов. Целевые сайты могут быть выбраны в важном гене таким образом, что события негомологичного соединения концов могут вызывать летальность, а не образование устойчивого к драйву аллеля. Конструкции для генного драйва могут быть сконструированы для функционирования в ряде хозяев при диапазоне температур (Cho et al. 2013, Rapid and Tunable Control of Protein Stability in Caenorhabditis elegans Using a Small Molecule, PLoS ONE 8(8): e72393. doi:10.1371/journal.pone.0072393).

Ксенотрасплантация

Настоящее изобретение также предусматривает применение системы CRISPR-Cas, описанной в данном документе, например, систем эффекторного белка Cpf1, для получения направляемых РНК ДНК-нуклеаз, адаптированных для использования с целью получения модифицированных тканей для трансплантации. Например, направляемые РНК ДНК-нуклеазы могут быть использованы для нокаута, нокдауна или разрыва определенных генов у животного, такого как трансгенная свинья (такая как линия трансгенных свиней с гемоксигеназой-1 человека), например, для нарушения экспрессии генов, которые кодируют эпитопы, распознаваемые иммунной системой человека, т. е. генами ксеноантигенов. Кандидатные свиные гены для разрыва, например, могут включать гены α(l,3)-галактозилтрансферазы и гидролазы цитидинмонофосфат-N-ацетилнейраминовой кислоты (см. публикацию заявки на патент согласно PCT WO 2014/066505). Кроме того, гены, кодирующие эндогенные ретровирусы, могут быть разорваны, например, гены, кодирующие все свиные эндогенные ретровирусы (см. Yang et al., 2015, Genome-wide inactivation of porcine endogenous retroviruses (PERVs), Science 27 November 2015: Vol. 350 no. 6264 pp. 1101-1104). Кроме того, РНК-направляемые ДНК-нуклеазы могут быть использованы для нацеливания на сайт с целью интеграции дополнительных генов у животных-доноров с ксенотрансплантатами, таких как ген человеческого CD55, для повышения защиты против сверхострого отторжения.

Общие положения генной терапии

Примеры ассоциированных с заболеваниями генов и полинуклеотидов и конкретная информация в отношении заболеваний доступна от Института генетической медицины МакКьюсика-Натанса (McKusick-Nathans Institute of Genetic Medicine) при Университете Джонса Хопкинса (Johns Hopkins University) (Балтимор, Мэриленд) и Национального центра биотехнологической информации (National Center for Biotechnology Information), Национальной библиотеки медицины (National Library of Medicine) (Бетесда, Мэриленд), доступных во всемирной сети Интернет.

Мутации в этих генах и путях могут приводить к продуцированию несоответствующих белков или белков в несоответствующих количествах, которые воздействуют на функцию. Дополнительные примеры генов, заболеваний и белков, таким образом, включены с помощью ссылки из предварительной заявки на патент США 61/736527, поданной 12 декабря 2012 г. Такие гены, белки и пути могут быть целевым полинуклеотидом для комплекса CRISPR по настоящему изобретению. Примеры ассоциированных с заболеваниями генов и полинуклеотидов приведены в таблицах A и B. Примеры ассоциированных с биохимическими путями передачи сигналов генов и полинуклеотидов приведены в таблице C.

Таблица A

ЗАБОЛЕВАНИЕ/
НАРУШЕНИЯ ГЕН(ГЕНЫ) Неоплазия PTEN; ATM; ATR; EGFR; ERBB2; ERBB3; ERBB4; Notch1; Notch2; Notch3; Notch4; AKT; AKT2; AKT3; HIF; HIF1a; HIF3a; Met; HRG; Bcl2; PPAR альфа; PPAR гамма; WT1 (опухоль Вильмса); представители семейства рецепторов FGF (5 представителей: 1, 2, 3, 4, 5); CDKN2a; APC; RB (ретинобластома); MEN1; VHL; BRCA1; BRCA2; AR (андрогеновый рецептор); TSG101; IGF; рецептор IGF; Igf1 (4 варианта); Igf2 (3 варианта); рецептор Igf 1; рецептор Igf 2; Bax; Bcl2; семейство каспаз (9 представителей: 1, 2, 3, 4, 6, 7, 8, 9, 12); Kras; Apc Возрастная дегенерация Abcr; Ccl2; Cc2; cp (церулоплазмин); Timp3; катепсин D; желтого пятна Vldlr; Ccr2 Шизофренические Нейрегулин 1 (Nrg1); Erb4 (рецептор для нейрегулина); Комплексин 1 (Cplx1); Tph1, триптофан-гидроксилаза; Tph2, триптофан-гидроксилаза 2; нейрексин 1; GSK3; GSK3a; GSK3b нарушения 5-HTT (Slc6a4); COMT; DRD (Drd1a); SLC6A3; DAOA; DTNBP1; Dao (Dao1) Связанные с тринуклеотидными повторами HTT (болезнь Гентингтона); SBMA/SMAX1/AR (болезнь нарушения Кеннеди); FXN/X25 (атаксия Фридрейха); ATX3 (болезнь Мачадо- Джозефа); ATXN1 и ATXN2 (формы спинально-церебеллярной атаксии); DMPK (миотоническая дистрофия); атрофин-1 и Atn1 (заболевание DRPLA); CBP (Creb-BP - общая нестабильность); VLDLR (Альцгеймера); Atxn7; Atxn10 Синдром ломкой X-хромосомы FMR2; FXR1; FXR2; mGLUR5 Связанные с активностью секретазы APH-1 (альфа и бета); пресенилин (Psen1); никастрин нарушения (Ncstn); PEN-2 Другие Nos1; Parp1; Nat1; Nat2 Связанные с прионами нарушения Prp ALS SOD1; ALS2; STEX; FUS; TARDBP; VEGF (VEGF-a; VEGF-b; VEGF-c) Привыкание к наркотическим средствам Prkce (алкоголь); Drd2; Drd4; ABAT (алкоголь); GRIA2; Grm5; Grin1; Htr1b; Grin2a; Drd3; Pdyn; Gria1 (алкоголь) Аутизм Mecp2; BZRAP1; MDGA2; Sema5A; нейрексин 1; ломкая X (FMR2 (AFF2); FXR1; FXR2; Mglur5) Болезнь Альцгеймера E1; CHIP; UCH; UBB; Tau; LRP; PICALM; кластерин; PS1; SORL1; CR1; Vldlr; Uba1; Uba3; CHIP28 (Aqp1, аквапорин 1); Uchl1; Uchl3; APP Воспаление IL-10; IL-1 (IL-1a; IL-1b); IL-13; IL-17 (IL-17a (CTLA8); IL- 17b; IL-17c; IL-17d; IL-17f); II-23; Cx3cr1; ptpn22; TNFa; NOD2/CARD15 для IBD; IL-6; IL-12 (IL-12a; IL-12b); CTLA4; Cx3cl1 Болезнь Паркинсона x-синуклеин; DJ-1; LRRK2; паркин; PINK1

Таблица B

Заболевания и нарушения, связанные с кровеносной системой и свертыванием крови Анемия (CDAN1, CDA1, RPS19, DBA, PKLR, PK1, NT5C3, UMPH1, PSN1, RHAG, RH50A, NRAMP2, SPTB, ALAS2, ANH1, ASB, ABCB7, ABC7, ASAT); синдром "голых" лимфоцитов (TAPBP, TPSN, TAP2, ABCB3, PSF2, RING11, MHC2TA, C2TA, RFX5, RFXAP, RFX5), нарушения свертываемости крови (TBXA2R, P2RX1, P2X1); недостаток фактора H и фактор H-подобного белка 1 (HF1, CFH, HUS); недостаток фактора V и фактора VIII (MCFD2); недостаток фактора VII (F7); недостаток фактора X (F10); недостаток фактора XI (F11); недостаток фактора XII (F12, HAF); недостаток фактора XIIIA (F13A1, F13A); недостаток фактора XIIIB (F13B); анемия Фанкони (FANCA, FACA, FA1, FA, FAA, FAAP95, FAAP90, FLJ34064, FANCB, FANCC, FACC, BRCA2, FANCD1, FANCD2, FANCD, FACD, FAD, FANCE, FACE, FANCF, XRCC9, FANCG, BRIP1, BACH1, FANCJ, PHF9, FANCL, FANCM, KIAA1596); нарушения по типу гемофагоцитарного лимфогистиоцитоза (PRF1, HPLH2, UNC13D, MUNC13-4, HPLH3, HLH3, FHL3); гемофилия A (F8, F8C, HEMA); гемофилия B (F9, HEMB), геморрагические нарушения (PI, ATT, F5); связанные с лейкоцитами недостаточности и нарушения (ITGB2, CD18, LCAMB, LAD, EIF2B1, EIF2BA, EIF2B2, EIF2B3, EIF2B5, LVWM, CACH, CLE, EIF2B4); серповидно-клеточная анемия (HBB); талассемия (HBA2, HBB, HBD, LCRB, HBA1). Связанные с клеточной дисрегуляцией заболевания и нарушения и онкологические заболевания и нарушения B-клеточная неходжкинская лимфома (BCL7A, BCL7); лейкоз (TAL1, TCL5, SCL, TAL2, FLT3, NBS1, NBS, ZNFN1A1, IK1, LYF1, HOXD4, HOX4B, BCR, CML, PHL, ALL, ARNT, KRAS2, RASK2, GMPS, AF10, ARHGEF12, LARG, KIAA0382, CALM, CLTH, CEBPA, CEBP, CHIC2, BTL, FLT3, KIT, PBT, LPP, NPM1, NUP214, D9S46E, CAN, CAIN, RUNX1, CBFA2, AML1, WHSC1L1, NSD3, FLT3, AF1Q, NPM1, NUMA1, ZNF145, PLZF, PML, MYL, STAT5B, AF10, CALM, CLTH, ARL11, ARLTS1, P2RX7, P2X7, BCR, CML, PHL, ALL, GRAF, NF1, VRNF, WSS, NFNS, PTPN11, PTP2C, SHP2, NS1, BCL2, CCND1, PRAD1, BCL1, TCRA, GATA1, GF1, ERYF1, NFE1, ABL1, NQO1, DIA4, NMOR1, NUP214, D9S46E, CAN, CAIN). Связанные с воспалением и иммунной системой заболевания и нарушения AIDS (KIR3DL1, NKAT3, NKB1, AMB11, KIR3DS1, IFNG, CXCL12, SDF1); аутоиммунный лимфопролиферативный синдром (TNFRSF6, APT1, FAS, CD95, ALPS1A); комбинированный иммунодефицит (IL2RG, SCIDX1, SCIDX, IMD4); HIV-1 (CCL5, SCYA5, D17S136E, TCP228), восприимчивость к HIV или HIV-инфекция (IL10, CSIF, CMKBR2, CCR2, CMKBR5, CCCKR5 (CCR5)); типы иммунодефицита (CD3E, CD3G, AICDA, AID, HIGM2, TNFRSF5, CD40, UNG, DGU, HIGM4, TNFSF5, CD40LG, HIGM1, IGM, FOXP3, IPEX, AIID, XPID, PIDX, TNFRSF14B, TACI); воспаление (IL-10, IL-1 (IL-1a, IL-1b), IL-13, IL-17 (IL-17a (CTLA8), IL-17b, IL-17c, IL-17d, IL-17f), II-23, Cx3cr1, ptpn22, TNFa, NOD2/CARD15 для IBD, IL-6, IL-12 (IL-12a, IL-12b), CTLA4, Cx3cl1); типы тяжелого комбинированного иммунодефицита (SCID) (JAK3, JAKL, DCLRE1C, ARTEMIS, SCIDA, RAG1, RAG2, ADA, PTPRC, CD45, LCA, IL7R, CD3D, T3D, IL2RG, SCIDX1, SCIDX, IMD4). Метаболические, печеночные, почечные и связанные с обменом белка заболевания и нарушения Амилоидная невропатия (TTR, PALB); амилоидоз (APOA1, APP, AAA, CVAP, AD1, GSN, FGA, LYZ, TTR, PALB); цирроз (KRT18, KRT8, CIRH1A, NAIC, TEX292, KIAA1988);муковисцидоз (CFTR, ABCC7, CF, MRP7);болезни накопления гликогена (SLC2A2, GLUT2, G6PC, G6PT, G6PT1, GAA, LAMP2, LAMPB, AGL, GDE, GBE1, GYS2, PYGL, PFKM); аденома печени, 142330 (TCF1, HNF1A, MODY3), печеночная недостаточность, с ранним началом и с неврологическим нарушением (SCOD1, SCO1), недостаточность печеночной липазы (LIPC), гепатобластома, рак и формы карциномы (CTNNB1, PDGFRL, PDGRL, PRLTS, AXIN1, AXIN, CTNNB1, TP53, P53, LFS1, IGF2R, MPRI, MET, CASP8, MCH5); заболевание по типу медуллярной кистозной нефропатии (UMOD, HNFJ, FJHN, MCKD2, ADMCKD2); фенилкетонурия (PAH, PKU1, QDPR, DHPR, PTS); поликистоз почек и печени (FCYT, PKHD1, ARPKD, PKD1, PKD2, PKD4, PKDTS, PRKCSH, G19P1, PCLD, SEC63). Мышечные/костные заболевания и нарушения Миопатия Беккера (DMD, BMD, MYF6),миопатия Дюшенна (DMD, BMD); мышечная дистрофия Эмери-Дрейфуса (LMNA, LMN1, EMD2, FPLD, CMD1A, HGPS, LGMD1B, LMNA, LMN1, EMD2, FPLD, CMD1A); плече-лопаточно-лицевая миопатия (FSHMD1A, FSHD1A); мышечная дистрофия (FKRP, MDC1C, LGMD2I, LAMA2, LAMM, LARGE, KIAA0609, MDC1D, FCMD, TTID, MYOT, CAPN3, CANP3, DYSF, LGMD2B, SGCG, LGMD2C, DMDA1, SCG3, SGCA, ADL, DAG2, LGMD2D, DMDA2, SGCB, LGMD2E, SGCD, SGD, LGMD2F, CMD1L, TCAP, LGMD2G, CMD1N, TRIM32, HT2A, LGMD2H, FKRP, MDC1C, LGMD2I, TTN, CMD1G, TMD, LGMD2J, POMT1, CAV3, LGMD1C, SEPN1, SELN, RSMD1, PLEC1, PLTN, EBS1); остеопороз (LRP5, BMND1, LRP7, LR3, OPPG, VBCH2, CLCN7, CLC7, OPTA2, OSTM1, GL, TCIRG1, TIRC7, OC116, OPTB1); мышечная атрофия (VAPB, VAPC, ALS8, SMN1, SMA1, SMA2, SMA3, SMA4, BSCL2, SPG17, GARS, SMAD1, CMT2D, HEXB, IGHMBP2, SMUBP2, CATF1, SMARD1). Неврологические и нейрональные заболевания и нарушения ALS (SOD1, ALS2, STEX, FUS, TARDBP, VEGF (VEGF-a, VEGF-b, VEGF-c); болезнь Альцгеймера (APP, AAA, CVAP, AD1, APOE, AD2, PSEN2, AD4, STM2, APBB2, FE65L1, NOS3, PLAU, URK, ACE, DCP1, ACE1, MPO, PACIP1, PAXIP1L, PTIP, A2M, BLMH, BMH, PSEN1, AD3); аутизм (Mecp2, BZRAP1, MDGA2, Sema5A, нейрексин 1, GLO1, MECP2, RTT, PPMX, MRX16, MRX79, NLGN3, NLGN4, KIAA1260, AUTSX2);синдром ломкой X-хромосомы (FMR2, FXR1, FXR2, mGLUR5); болезнь Гентингтона и подобные этому заболеванию нарушения (HD, IT15, PRNP, PRIP, JPH3, JP3, HDL2, TBP, SCA17); болезнь Паркинсона (NR4A2, NURR1, NOT, TINUR, SNCAIP, TBP, SCA17, SNCA, NACP, PARK1, PARK4, DJ1, PARK7, LRRK2, PARK8, PINK1, PARK6, UCHL1, PARK5, SNCA, NACP, PARK1, PARK4, PRKN, PARK2, PDJ, DBH, NDUFV2); синдром Ретта (MECP2, RTT, PPMX, MRX16, MRX79, CDKL5, STK9, MECP2, RTT, PPMX, MRX16, MRX79, x-синуклеин, DJ-1); шизофрения (нейрегулин 1 (Nrg1), Erb4 (рецептор для нейрегулина), комплексин 1 (Cplx1), Tph1, триптофангидроксилаза, Tph2, триптофангидроксилаза 2, нейрексин 1, GSK3, GSK3a, GSK3b, 5-HTT (Slc6a4), COMT, DRD (Drd1a), SLC6A3, DAOA, DTNBP1, Dao (Dao1)); связанные с активностью секретазы нарушения (APH-1 (альфа и бета), пресенилин (Psen1), никастрин, (Ncstn), PEN-2, Nos1, Parp1, Nat1, Nat2); связанные с тринуклеотидным повтором нарушения (HTT (болезнь Гентингтона), SBMA/SMAX1/AR (болезнь Кеннеди), FXN/X25 (атаксия Фридрейха), ATX3 (болезнь Мачадо-Джозефа), ATXN1 и ATXN2 (формы спинально-церебеллярной атаксии), DMPK (миотоническая дистрофия), атрофин-1 и Atn1 (заболевание по типу DRPLA), CBP (Creb-BP - общая нестабильность), VLDLR (болезнь Альцгеймера), Atxn7, Atxn10). Заболевания и нарушения глаз Возрастная дегенерация желтого пятна (Abcr, Ccl2, Cc2, cp (церулоплазмин), Timp3, катепсин D, Vldlr, Ccr2); катаракта (CRYAA, CRYA1, CRYBB2, CRYB2, PITX3, BFSP2, CP49, CP47, CRYAA, CRYA1, PAX6, AN2, MGDA, CRYBA1, CRYB1, CRYGC, CRYG3, CCL, LIM2, MP19, CRYGD, CRYG4, BFSP2, CP49, CP47, HSF4, CTM, HSF4, CTM, MIP, AQP0, CRYAB, CRYA2, CTPP2, CRYBB1, CRYGD, CRYG4, CRYBB2, CRYB2, CRYGC, CRYG3, CCL, CRYAA, CRYA1, GJA8, CX50, CAE1, GJA3, CX46, CZP3, CAE3, CCM1, CAM, KRIT1); помутнение и дистрофия роговицы (APOA1, TGFBI, CSD2, CDGG1, CSD, BIGH3, CDG2, TACSTD2, TROP2, M1S1, VSX1, RINX, PPCD, PPD, KTCN, COL8A2, FECD, PPCD2, PIP5K3, CFD); врожденная плоская роговица (KERA, CNA2); глаукома (MYOC, TIGR, GLC1A, JOAG, GPOA, OPTN, GLC1E, FIP2, HYPL, NRP, CYP1B1, GLC3A, OPA1, NTG, NPG, CYP1B1, GLC3A); амавроз Лебера (CRB1, RP12, CRX, CORD2, CRD, RPGRIP1, LCA6, CORD9, RPE65, RP20, AIPL1, LCA4, GUCY2D, GUC2D, LCA1, CORD6, RDH12, LCA3); макулярная дистрофия (ELOVL4, ADMD, STGD2, STGD3, RDS, RP7, PRPH2, PRPH, AVMD, AOFMD, VMD2).

Таблица C

КЛЕТОЧНАЯ ФУНКЦИЯ ГЕНЫ Передача сигнала с участием PI3K/AKT PRKCE; ITGAM; ITGA5; IRAK1; PRKAA2; EIF2AK2; PTEN; EIF4E; PRKCZ; GRK6; MAPK1; TSC1; PLK1; AKT2; IKBKB; PIK3CA; CDK8; CDKN1B; NFKB2; BCL2; PIK3CB; PPP2R1A; MAPK8; BCL2L1; MAPK3; TSC2; ITGA1; KRAS; EIF4EBP1; RELA; PRKCD; NOS3; PRKAA1; MAPK9; CDK2; PPP2CA; PIM1; ITGB7; YWHAZ; ILK; TP53; RAF1; IKBKG; RELB; DYRK1A; CDKN1A; ITGB1; MAP2K2; JAK1; AKT1; JAK2; PIK3R1; CHUK; PDPK1; PPP2R5C; CTNNB1; MAP2K1; NFKB1; PAK3; ITGB3; CCND1; GSK3A; FRAP1; SFN; ITGA2; TTK; CSNK1A1; BRAF; GSK3B; AKT3; FOXO1; SGK; HSP90AA1; RPS6KB1 Передача сигнала с участием ERK/MAPK PRKCE; ITGAM; ITGA5; HSPB1; IRAK1; PRKAA2; EIF2AK2; RAC1; RAP1A; TLN1; EIF4E; ELK1; GRK6; MAPK1; RAC2; PLK1; AKT2; PIK3CA; CDK8; CREB1; PRKCI; PTK2; FOS; RPS6KA4; PIK3CB; PPP2R1A; PIK3C3; MAPK8; MAPK3; ITGA1; ETS1; KRAS; MYCN; EIF4EBP1; PPARG; PRKCD; PRKAA1; MAPK9; SRC; CDK2; PPP2CA; PIM1; PIK3C2A; ITGB7; YWHAZ; PPP1CC; KSR1; PXN; RAF1; FYN; DYRK1A; ITGB1; MAP2K2; PAK4; PIK3R1; STAT3; PPP2R5C; MAP2K1; PAK3; ITGB3; ESR1; ITGA2; MYC; TTK; CSNK1A1; CRKL; BRAF; ATF4; PRKCA; SRF; STAT1; SGK Передача сигнала RAC1; TAF4B; EP300; SMAD2; TRAF6; PCAF; ELK1; с участием глюкокортикоидного рецептора MAPK1; SMAD3; AKT2; IKBKB; NCOR2; UBE2I; PIK3CA; CREB1; FOS; HSPA5; NFKB2; BCL2; MAP3K14; STAT5B; PIK3CB; PIK3C3; MAPK8; BCL2L1; MAPK3; TSC22D3; MAPK10; NRIP1; KRAS; MAPK13; RELA; STAT5A; MAPK9; NOS2A; PBX1; NR3C1; PIK3C2A; CDKN1C; TRAF2; SERPINE1; NCOA3; MAPK14; TNF; RAF1; IKBKG; MAP3K7; CREBBP; CDKN1A; MAP2K2; JAK1; IL8; NCOA2; AKT1; JAK2; PIK3R1; CHUK; STAT3; MAP2K1; NFKB1; TGFBR1; ESR1; SMAD4; CEBPB; JUN; AR; AKT3; CCL2; MMP1; STAT1; IL6; HSP90AA1 Передача сигнала для аксонального наведения PRKCE; ITGAM; ROCK1; ITGA5; CXCR4; ADAM12; IGF1; RAC1; RAP1A; EIF4E; PRKCZ; NRP1; NTRK2; ARHGEF7; SMO; ROCK2; MAPK1; PGF; RAC2; PTPN11; GNAS; AKT2; PIK3CA; ERBB2; PRKCI; PTK2; CFL1; GNAQ; PIK3CB; CXCL12; PIK3C3; WNT11; PRKD1; GNB2L1; ABL1; MAPK3; ITGA1; KRAS; RHOA; PRKCD; PIK3C2A; ITGB7; GLI2; PXN; VASP; RAF1; FYN; ITGB1; MAP2K2; PAK4; ADAM17; AKT1; PIK3R1; GLI1; WNT5A; ADAM10; MAP2K1; PAK3; ITGB3; CDC42; VEGFA; ITGA2; EPHA8; CRKL; RND1; GSK3B; AKT3; PRKCA Передача сигнала с участием эфринового рецептора PRKCE; ITGAM; ROCK1; ITGA5; CXCR4; IRAK1; PRKAA2; EIF2AK2; RAC1; RAP1A; GRK6; ROCK2; MAPK1; PGF; RAC2; PTPN11; GNAS; PLK1; AKT2; DOK1; CDK8; CREB1; PTK2; CFL1; GNAQ; MAP3K14; CXCL12; MAPK8; GNB2L1; ABL1; MAPK3; ITGA1; KRAS; RHOA; PRKCD; PRKAA1; MAPK9; SRC; CDK2; PIM1; ITGB7; PXN; RAF1; FYN; DYRK1A; ITGB1; MAP2K2; PAK4; AKT1; JAK2; STAT3; ADAM10; MAP2K1; PAK3; ITGB3; CDC42; VEGFA; ITGA2; EPHA8; TTK; CSNK1A1; CRKL; BRAF; PTPN13; ATF4; AKT3; SGK Передача сигнала ACTN4; PRKCE; ITGAM; ROCK1; ITGA5; IRAK1; с участием актинового цитоскелета PRKAA2; EIF2AK2; RAC1; INS; ARHGEF7; GRK6; ROCK2; MAPK1; RAC2; PLK1; AKT2; PIK3CA; CDK8; PTK2; CFL1; PIK3CB; MYH9; DIAPH1; PIK3C3; MAPK8; F2R; MAPK3; SLC9A1; ITGA1; KRAS; RHOA; PRKCD; PRKAA1; MAPK9; CDK2; PIM1; PIK3C2A; ITGB7; PPP1CC; PXN; VIL2; RAF1; GSN; DYRK1A; ITGB1; MAP2K2; PAK4; PIP5K1A; PIK3R1; MAP2K1; PAK3; ITGB3; CDC42; APC; ITGA2; TTK; CSNK1A1; CRKL; BRAF; VAV3; SGK Передачи сигнала PRKCE; IGF1; EP300; RCOR1; PRKCZ; HDAC4; TGM2; при болезни Гентингтона MAPK1; CAPNS1; AKT2; EGFR; NCOR2; SP1; CAPN2; PIK3CA; HDAC5; CREB1; PRKCI; HSPA5; REST; GNAQ; PIK3CB; PIK3C3; MAPK8; IGF1R; PRKD1; GNB2L1; BCL2L1; CAPN1; MAPK3; CASP8; HDAC2; HDAC7A; PRKCD; HDAC11; MAPK9; HDAC9; PIK3C2A; HDAC3; TP53; CASP9; CREBBP; AKT1; PIK3R1; PDPK1; CASP1; APAF1; FRAP1; CASP2; JUN; BAX; ATF4; AKT3; PRKCA; CLTC; SGK; HDAC6; CASP3 Передача сигнала при апоптозе PRKCE; ROCK1; BID; IRAK1; PRKAA2; EIF2AK2; BAK1; BIRC4; GRK6; MAPK1; CAPNS1; PLK1; AKT2; IKBKB; CAPN2; CDK8; FAS; NFKB2; BCL2; MAP3K14; MAPK8; BCL2L1; CAPN1; MAPK3; CASP8; KRAS; RELA; PRKCD; PRKAA1; MAPK9; CDK2; PIM1; TP53; TNF; RAF1; IKBKG; RELB; CASP9; DYRK1A; MAP2K2; CHUK; APAF1; MAP2K1; NFKB1; PAK3; LMNA; CASP2; BIRC2; TTK; CSNK1A1; BRAF; BAX; PRKCA; SGK; CASP3; BIRC3; PARP1 Передача сигнала с участием B-клеточного рецептора RAC1; PTEN; LYN; ELK1; MAPK1; RAC2; PTPN11; AKT2; IKBKB; PIK3CA; CREB1; SYK; NFKB2; CAMK2A; MAP3K14; PIK3CB; PIK3C3; MAPK8; BCL2L1; ABL1; MAPK3; ETS1; KRAS; MAPK13; RELA; PTPN6; MAPK9; EGR1; PIK3C2A; BTK; MAPK14; RAF1; IKBKG; RELB; MAP3K7; MAP2K2; AKT1; PIK3R1; CHUK; MAP2K1; NFKB1; CDC42; GSK3A; FRAP1; BCL6; BCL10; JUN; GSK3B; ATF4; AKT3; VAV3; RPS6KB1 Передача сигнала ACTN4; CD44; PRKCE; ITGAM; ROCK1; CXCR4; CYBA; при диапедезе лейкоцитов RAC1; RAP1A; PRKCZ; ROCK2; RAC2; PTPN11; MMP14; PIK3CA; PRKCI; PTK2; PIK3CB; CXCL12; PIK3C3; MAPK8; PRKD1; ABL1; MAPK10; CYBB; MAPK13; RHOA; PRKCD; MAPK9; SRC; PIK3C2A; BTK; MAPK14; NOX1; PXN; VIL2; VASP; ITGB1; MAP2K2; CTNND1; PIK3R1; CTNNB1; CLDN1; CDC42; F11R; ITK; CRKL; VAV3; CTTN; PRKCA; MMP1; MMP9 Передача сигнала с участием интегрина ACTN4; ITGAM; ROCK1; ITGA5; RAC1; PTEN; RAP1A; TLN1; ARHGEF7; MAPK1; RAC2; CAPNS1; AKT2; CAPN2; PIK3CA; PTK2; PIK3CB; PIK3C3; MAPK8; CAV1; CAPN1; ABL1; MAPK3; ITGA1; KRAS; RHOA; SRC; PIK3C2A; ITGB7; PPP1CC; ILK; PXN; VASP; RAF1; FYN; ITGB1; MAP2K2; PAK4; AKT1; PIK3R1; TNK2; MAP2K1; PAK3; ITGB3; CDC42; RND3; ITGA2; CRKL; BRAF; GSK3B; AKT3 Передача сигнала IRAK1; SOD2; MYD88; TRAF6; ELK1; MAPK1; PTPN11; при острофазном ответе AKT2; IKBKB; PIK3CA; FOS; NFKB2; MAP3K14; PIK3CB; MAPK8; RIPK1; MAPK3; IL6ST; KRAS; MAPK13; IL6R; RELA; SOCS1; MAPK9; FTL; NR3C1; TRAF2; SERPINE1; MAPK14; TNF; RAF1; PDK1; IKBKG; RELB; MAP3K7; MAP2K2; AKT1; JAK2; PIK3R1; CHUK; STAT3; MAP2K1; NFKB1; FRAP1; CEBPB; JUN; AKT3; IL1R1; IL6 Передача сигнала с участием PTEN ITGAM; ITGA5; RAC1; PTEN; PRKCZ; BCL2L11; MAPK1; RAC2; AKT2; EGFR; IKBKB; CBL; PIK3CA; CDKN1B; PTK2; NFKB2; BCL2; PIK3CB; BCL2L1; MAPK3; ITGA1; KRAS; ITGB7; ILK; PDGFRB; INSR; RAF1; IKBKG; CASP9; CDKN1A; ITGB1; MAP2K2; AKT1; PIK3R1; CHUK; PDGFRA; PDPK1; MAP2K1; NFKB1; ITGB3; CDC42; CCND1; GSK3A; ITGA2; GSK3B; AKT3; FOXO1; CASP3; RPS6KB1 Передача сигнала с участием p53 PTEN; EP300; BBC3; PCAF; FASN; BRCA1; GADD45A; BIRC5; AKT2; PIK3CA; CHEK1; TP53INP1; BCL2; PIK3CB; PIK3C3; MAPK8; THBS1; ATR; BCL2L1; E2F1; PMAIP1; CHEK2; TNFRSF10B; TP73; RB1; HDAC9; CDK2; PIK3C2A; MAPK14; TP53; LRDD; CDKN1A; HIPK2; AKT1; PIK3R1; RRM2B; APAF1; CTNNB1; SIRT1; CCND1; PRKDC; ATM; SFN; CDKN2A; JUN; SNAI2; GSK3B; BAX; AKT3 Передача сигнала HSPB1; EP300; FASN; TGM2; RXRA; MAPK1; NQO1; с участием арил-гидрокарбонового рецептора NCOR2; SP1; ARNT; CDKN1B; FOS; CHEK1; SMARCA4; NFKB2; MAPK8; ALDH1A1; ATR; E2F1; MAPK3; NRIP1; CHEK2; RELA; TP73; GSTP1; RB1; SRC; CDK2; AHR; NFE2L2; NCOA3; TP53; TNF; CDKN1A; NCOA2; APAF1; NFKB1; CCND1; ATM; ESR1; CDKN2A; MYC; JUN; ESR2; BAX; IL6; CYP1B1; HSP90AA1 Передача сигнала PRKCE; EP300; PRKCZ; RXRA; MAPK1; NQO1; при метаболизме ксенобиотиков NCOR2; PIK3CA; ARNT; PRKCI; NFKB2; CAMK2A; PIK3CB; PPP2R1A; PIK3C3; MAPK8; PRKD1; ALDH1A1; MAPK3; NRIP1; KRAS; MAPK13; PRKCD; GSTP1; MAPK9; NOS2A; ABCB1; AHR; PPP2CA; FTL; NFE2L2; PIK3C2A; PPARGC1A; MAPK14; TNF; RAF1; CREBBP; MAP2K2; PIK3R1; PPP2R5C; MAP2K1; NFKB1; KEAP1; PRKCA; EIF2AK3; IL6; CYP1B1; HSP90AA1 Передача сигнала с участием SAPK/JNK PRKCE; IRAK1; PRKAA2; EIF2AK2; RAC1; ELK1; GRK6; MAPK1; GADD45A; RAC2; PLK1; AKT2; PIK3CA; FADD; CDK8; PIK3CB; PIK3C3; MAPK8; RIPK1; GNB2L1; IRS1; MAPK3; MAPK10; DAXX; KRAS; PRKCD; PRKAA1; MAPK9; CDK2; PIM1; PIK3C2A; TRAF2; TP53; LCK; MAP3K7; DYRK1A; MAP2K2; PIK3R1; MAP2K1; PAK3; CDC42; JUN; TTK; CSNK1A1; CRKL; BRAF; SGK Передача сигнала с участием PPAr/RXR PRKAA2; EP300; INS; SMAD2; TRAF6; PPARA; FASN; RXRA; MAPK1; SMAD3; GNAS; IKBKB; NCOR2; ABCA1; GNAQ; NFKB2; MAP3K14; STAT5B; MAPK8; IRS1; MAPK3; KRAS; RELA; PRKAA1; PPARGC1A; NCOA3; MAPK14; INSR; RAF1; IKBKG; RELB; MAP3K7; CREBBP; MAP2K2; JAK2; CHUK; MAP2K1; NFKB1; TGFBR1; SMAD4; JUN; IL1R1; PRKCA; IL6; HSP90AA1; ADIPOQ Передача сигнала с участием NF-KB IRAK1; EIF2AK2; EP300; INS; MYD88; PRKCZ; TRAF6; TBK1; AKT2; EGFR; IKBKB; PIK3CA; BTRC; NFKB2; MAP3K14; PIK3CB; PIK3C3; MAPK8; RIPK1; HDAC2; KRAS; RELA; PIK3C2A; TRAF2; TLR4; PDGFRB; TNF; INSR; LCK; IKBKG; RELB; MAP3K7; CREBBP; AKT1; PIK3R1; CHUK; PDGFRA; NFKB1; TLR2; BCL10; GSK3B; AKT3; TNFAIP3; IL1R1 Передача сигнала с участием нейрегулина ERBB4; PRKCE; ITGAM; ITGA5; PTEN; PRKCZ; ELK1; MAPK1; PTPN11; AKT2; EGFR; ERBB2; PRKCI; CDKN1B; STAT5B; PRKD1; MAPK3; ITGA1; KRAS; PRKCD; STAT5A; SRC; ITGB7; RAF1; ITGB1; MAP2K2; ADAM17; AKT1; PIK3R1; PDPK1; MAP2K1; ITGB3; EREG; FRAP1; PSEN1; ITGA2; MYC; NRG1; CRKL; AKT3; PRKCA; HSP90AA1; RPS6KB1 Передача сигнала CD44; EP300; LRP6; DVL3; CSNK1E; GJA1; SMO; с участием Wnt и бета-катенина AKT2; PIN1; CDH1; BTRC; GNAQ; MARK2; PPP2R1A; WNT11; SRC; DKK1; PPP2CA; SOX6; SFRP2; ILK; LEF1; SOX9; TP53; MAP3K7; CREBBP; TCF7L2; AKT1; PPP2R5C; WNT5A; LRP5; CTNNB1; TGFBR1; CCND1; GSK3A; DVL1; APC; CDKN2A; MYC; CSNK1A1; GSK3B; AKT3; SOX2 Передача сигнала с участием инсулинового рецептора PTEN; INS; EIF4E; PTPN1; PRKCZ; MAPK1; TSC1; PTPN11; AKT2; CBL; PIK3CA; PRKCI; PIK3CB; PIK3C3; MAPK8; IRS1; MAPK3; TSC2; KRAS; EIF4EBP1; SLC2A4; PIK3C2A; PPP1CC; INSR; RAF1; FYN; MAP2K2; JAK1; AKT1; JAK2; PIK3R1; PDPK1; MAP2K1; GSK3A; FRAP1; CRKL; GSK3B; AKT3; FOXO1; SGK; RPS6KB1 Передача сигнала с участием IL-6 HSPB1; TRAF6; MAPKAPK2; ELK1; MAPK1; PTPN11; IKBKB; FOS; NFKB2; MAP3K14; MAPK8; MAPK3; MAPK10; IL6ST; KRAS; MAPK13; IL6R; RELA; SOCS1; MAPK9; ABCB1; TRAF2; MAPK14; TNF; RAF1; IKBKG; RELB; MAP3K7; MAP2K2; IL8; JAK2; CHUK; STAT3; MAP2K1; NFKB1; CEBPB; JUN; IL1R1; SRF; IL6 Печеночный холестаз PRKCE; IRAK1; INS; MYD88; PRKCZ; TRAF6; PPARA; RXRA; IKBKB; PRKCI; NFKB2; MAP3K14; MAPK8; PRKD1; MAPK10; RELA; PRKCD; MAPK9; ABCB1; TRAF2; TLR4; TNF; INSR; IKBKG; RELB; MAP3K7; IL8; CHUK; NR1H2; TJP2; NFKB1; ESR1; SREBF1; FGFR4; JUN; IL1R1; PRKCA; IL6 Передача сигнала с участием IGF-1 IGF1; PRKCZ; ELK1; MAPK1; PTPN11; NEDD4; AKT2; PIK3CA; PRKCI; PTK2; FOS; PIK3CB; PIK3C3; MAPK8; IGF1R; IRS1; MAPK3; IGFBP7; KRAS; PIK3C2A; YWHAZ; PXN; RAF1; CASP9; MAP2K2; AKT1; PIK3R1; PDPK1; MAP2K1; IGFBP2; SFN; JUN; CYR61; AKT3; FOXO1; SRF; CTGF; RPS6KB1 NRF2-опосредованный ответ на PRKCE; EP300; SOD2; PRKCZ; MAPK1; SQSTM1; окислительный стресс NQO1; PIK3CA; PRKCI; FOS; PIK3CB; PIK3C3; MAPK8; PRKD1; MAPK3; KRAS; PRKCD; GSTP1; MAPK9; FTL; NFE2L2; PIK3C2A; MAPK14; RAF1; MAP3K7; CREBBP; MAP2K2; AKT1; PIK3R1; MAP2K1; PPIB; JUN; KEAP1; GSK3B; ATF4; PRKCA; EIF2AK3; HSP90AA1 Фиброз печени/активация EDN1; IGF1; KDR; FLT1; SMAD2; FGFR1; MET; PGF; звездчатых клеток печени SMAD3; EGFR; FAS; CSF1; NFKB2; BCL2; MYH9; IGF1R; IL6R; RELA; TLR4; PDGFRB; TNF; RELB; IL8; PDGFRA; NFKB1; TGFBR1; SMAD4; VEGFA; BAX; IL1R1; CCL2; HGF; MMP1; STAT1; IL6; CTGF; MMP9 Передача сигнала с участием PPAR EP300; INS; TRAF6; PPARA; RXRA; MAPK1; IKBKB; NCOR2; FOS; NFKB2; MAP3K14; STAT5B; MAPK3; NRIP1; KRAS; PPARG; RELA; STAT5A; TRAF2; PPARGC1A; PDGFRB; TNF; INSR; RAF1; IKBKG; RELB; MAP3K7; CREBBP; MAP2K2; CHUK; PDGFRA; MAP2K1; NFKB1; JUN; IL1R1; HSP90AA1 Передача сигнала с участием Fc-эпсилон-RI PRKCE; RAC1; PRKCZ; LYN; MAPK1; RAC2; PTPN11; AKT2; PIK3CA; SYK; PRKCI; PIK3CB; PIK3C3; MAPK8; PRKD1; MAPK3; MAPK10; KRAS; MAPK13; PRKCD; MAPK9; PIK3C2A; BTK; MAPK14; TNF; RAF1; FYN; MAP2K2; AKT1; PIK3R1; PDPK1; MAP2K1; AKT3; VAV3; PRKCA Передача сигнала с участием рецептора, PRKCE; RAP1A; RGS16; MAPK1; GNAS; AKT2; IKBKB; сопряженных с G-белком PIK3CA; CREB1; GNAQ; NFKB2; CAMK2A; PIK3CB; PIK3C3; MAPK3; KRAS; RELA; SRC; PIK3C2A; RAF1; IKBKG; RELB; FYN; MAP2K2; AKT1; PIK3R1; CHUK; PDPK1; STAT3; MAP2K1; NFKB1; BRAF; ATF4; AKT3; PRKCA Метаболизм PRKCE; IRAK1; PRKAA2; EIF2AK2; PTEN; GRK6; инозитолфосфата MAPK1; PLK1; AKT2; PIK3CA; CDK8; PIK3CB; PIK3C3; MAPK8; MAPK3; PRKCD; PRKAA1; MAPK9; CDK2; PIM1; PIK3C2A; DYRK1A; MAP2K2; PIP5K1A; PIK3R1; MAP2K1; PAK3; ATM; TTK; CSNK1A1; BRAF; SGK Передача сигнала с участием PDGF EIF2AK2; ELK1; ABL2; MAPK1; PIK3CA; FOS; PIK3CB; PIK3C3; MAPK8; CAV1; ABL1; MAPK3; KRAS; SRC; PIK3C2A; PDGFRB; RAF1; MAP2K2; JAK1; JAK2; PIK3R1; PDGFRA; STAT3; SPHK1; MAP2K1; MYC; JUN; CRKL; PRKCA; SRF; STAT1; SPHK2 Передача сигнала с участием VEGF ACTN4; ROCK1; KDR; FLT1; ROCK2; MAPK1; PGF; AKT2; PIK3CA; ARNT; PTK2; BCL2; PIK3CB; PIK3C3; BCL2L1; MAPK3; KRAS; HIF1A; NOS3; PIK3C2A; PXN; RAF1; MAP2K2; ELAVL1; AKT1; PIK3R1; MAP2K1; SFN; VEGFA; AKT3; FOXO1; PRKCA Передача сигнала с участием клеток натуральных киллеров PRKCE; RAC1; PRKCZ; MAPK1; RAC2; PTPN11; KIR2DL3; AKT2; PIK3CA; SYK; PRKCI; PIK3CB; PIK3C3; PRKD1; MAPK3; KRAS; PRKCD; PTPN6; PIK3C2A; LCK; RAF1; FYN; MAP2K2; PAK4; AKT1; PIK3R1; MAP2K1; PAK3; AKT3; VAV3; PRKCA Регуляция в контрольной точке клеточного цикла: HDAC4; SMAD3; SUV39H1; HDAC5; CDKN1B; BTRC; G1/S ATR; ABL1; E2F1; HDAC2; HDAC7A; RB1; HDAC11; HDAC9; CDK2; E2F2; HDAC3; TP53; CDKN1A; CCND1; E2F4; ATM; RBL2; SMAD4; CDKN2A; MYC; NRG1; GSK3B; RBL1; HDAC6 Передача сигнала с участием T-клеточного рецептора RAC1; ELK1; MAPK1; IKBKB; CBL; PIK3CA; FOS; NFKB2; PIK3CB; PIK3C3; MAPK8; MAPK3; KRAS; RELA; PIK3C2A; BTK; LCK; RAF1; IKBKG; RELB; FYN; MAP2K2; PIK3R1; CHUK; MAP2K1; NFKB1; ITK; BCL10; JUN; VAV3 Передача сигнала с участием рецептора смерти CRADD; HSPB1; BID; BIRC4; TBK1; IKBKB; FADD; FAS; NFKB2; BCL2; MAP3K14; MAPK8; RIPK1; CASP8; DAXX; TNFRSF10B; RELA; TRAF2; TNF; IKBKG; RELB; CASP9; CHUK; APAF1; NFKB1; CASP2; BIRC2; CASP3; BIRC3 Передача сигнала с участием FGF RAC1; FGFR1; MET; MAPKAPK2; MAPK1; PTPN11; AKT2; PIK3CA; CREB1; PIK3CB; PIK3C3; MAPK8; MAPK3; MAPK13; PTPN6; PIK3C2A; MAPK14; RAF1; AKT1; PIK3R1; STAT3; MAP2K1; FGFR4; CRKL; ATF4; AKT3; PRKCA; HGF Передача сигнала с участием GM-CSF LYN; ELK1; MAPK1; PTPN11; AKT2; PIK3CA; CAMK2A; STAT5B; PIK3CB; PIK3C3; GNB2L1; BCL2L1; MAPK3; ETS1; KRAS; RUNX1; PIM1; PIK3C2A; RAF1; MAP2K2; AKT1; JAK2; PIK3R1; STAT3; MAP2K1; CCND1; AKT3; STAT1 Передача сигнала BID; IGF1; RAC1; BIRC4; PGF; CAPNS1; CAPN2; при амиотрофическом латеральном
склерозе PIK3CA; BCL2; PIK3CB; PIK3C3; BCL2L1; CAPN1; PIK3C2A; TP53; CASP9; PIK3R1; RAB5A; CASP1; APAF1; VEGFA; BIRC2; BAX; AKT3; CASP3; BIRC3 Передача сигнала с участием JAK/Stat PTPN1; MAPK1; PTPN11; AKT2; PIK3CA; STAT5B; PIK3CB; PIK3C3; MAPK3; KRAS; SOCS1; STAT5A; PTPN6; PIK3C2A; RAF1; CDKN1A; MAP2K2; JAK1; AKT1; JAK2; PIK3R1; STAT3; MAP2K1; FRAP1; AKT3; STAT1 Метаболизм PRKCE; IRAK1; PRKAA2; EIF2AK2; GRK6; MAPK1; никотинола и никотинамида PLK1; AKT2; CDK8; MAPK8; MAPK3; PRKCD; PRKAA1; PBEF1; MAPK9; CDK2; PIM1; DYRK1A; MAP2K2; MAP2K1; PAK3; NT5E; TTK; CSNK1A1; BRAF; SGK Передача сигнала с участием хемокина CXCR4; ROCK2; MAPK1; PTK2; FOS; CFL1; GNAQ; CAMK2A; CXCL12; MAPK8; MAPK3; KRAS; MAPK13; RHOA; CCR3; SRC; PPP1CC; MAPK14; NOX1; RAF1; MAP2K2; MAP2K1; JUN; CCL2; PRKCA Передача сигнала с участием IL-2 ELK1; MAPK1; PTPN11; AKT2; PIK3CA; SYK; FOS; STAT5B; PIK3CB; PIK3C3; MAPK8; MAPK3; KRAS; SOCS1; STAT5A; PIK3C2A; LCK; RAF1; MAP2K2; JAK1; AKT1; PIK3R1; MAP2K1; JUN; AKT3 Долговременное синаптическое PRKCE; IGF1; PRKCZ; PRDX6; LYN; MAPK1; GNAS; подавление PRKCI; GNAQ; PPP2R1A; IGF1R; PRKD1; MAPK3; KRAS; GRN; PRKCD; NOS3; NOS2A; PPP2CA; YWHAZ; RAF1; MAP2K2; PPP2R5C; MAP2K1; PRKCA Передача сигнала TAF4B; EP300; CARM1; PCAF; MAPK1; NCOR2; с участием эстрогенового рецептора SMARCA4; MAPK3; NRIP1; KRAS; SRC; NR3C1; HDAC3; PPARGC1A; RBM9; NCOA3; RAF1; CREBBP; MAP2K2; NCOA2; MAP2K1; PRKDC; ESR1; ESR2 Путь TRAF6; SMURF1; BIRC4; BRCA1; UCHL1; NEDD4; убиквитинирования белков CBL; UBE2I; BTRC; HSPA5; USP7; USP10; FBXW7; USP9X; STUB1; USP22; B2M; BIRC2; PARK2; USP8; USP1; VHL; HSP90AA1; BIRC3 Передача сигнала с участием IL-10 TRAF6; CCR1; ELK1; IKBKB; SP1; FOS; NFKB2; MAP3K14; MAPK8; MAPK13; RELA; MAPK14; TNF; IKBKG; RELB; MAP3K7; JAK1; CHUK; STAT3; NFKB1; JUN; IL1R1; IL6 Активация VDR/RXR PRKCE; EP300; PRKCZ; RXRA; GADD45A; HES1; NCOR2; SP1; PRKCI; CDKN1B; PRKD1; PRKCD; RUNX2; KLF4; YY1; NCOA3; CDKN1A; NCOA2; SPP1; LRP5; CEBPB; FOXO1; PRKCA Передача сигнала с участием TGF-бета EP300; SMAD2; SMURF1; MAPK1; SMAD3; SMAD1; FOS; MAPK8; MAPK3; KRAS; MAPK9; RUNX2; SERPINE1; RAF1; MAP3K7; CREBBP; MAP2K2; MAP2K1; TGFBR1; SMAD4; JUN; SMAD5 Передача сигнала с участием Toll-подобного рецептора IRAK1; EIF2AK2; MYD88; TRAF6; PPARA; ELK1; IKBKB; FOS; NFKB2; MAP3K14; MAPK8; MAPK13; RELA; TLR4; MAPK14; IKBKG; RELB; MAP3K7; CHUK; NFKB1; TLR2; JUN Передача сигнала с участием p38 MAPK HSPB1; IRAK1; TRAF6; MAPKAPK2; ELK1; FADD; FAS; CREB1; DDIT3; RPS6KA4; DAXX; MAPK13; TRAF2; MAPK14; TNF; MAP3K7; TGFBR1; MYC; ATF4; IL1R1; SRF; STAT1 Передача сигнала с участием нейротрофинов/TRK NTRK2; MAPK1; PTPN11; PIK3CA; CREB1; FOS; PIK3CB; PIK3C3; MAPK8; MAPK3; KRAS; PIK3C2A; RAF1; MAP2K2; AKT1; PIK3R1; PDPK1; MAP2K1; CDC42; JUN; ATF4 Активация FXR/RXR INS; PPARA; FASN; RXRA; AKT2; SDC1; MAPK8; APOB; MAPK10; PPARG; MTTP; MAPK9; PPARGC1A; TNF; CREBBP; AKT1; SREBF1; FGFR4; AKT3; FOXO1 Долговременное синаптическое PRKCE; RAP1A; EP300; PRKCZ; MAPK1; CREB1; потенцирование PRKCI; GNAQ; CAMK2A; PRKD1; MAPK3; KRAS; PRKCD; PPP1CC; RAF1; CREBBP; MAP2K2; MAP2K1; ATF4; PRKCA Передача сигнала с участием кальция RAP1A; EP300; HDAC4; MAPK1; HDAC5; CREB1; CAMK2A; MYH9; MAPK3; HDAC2; HDAC7A; HDAC11; HDAC9; HDAC3; CREBBP; CALR; CAMKK2; ATF4; HDAC6 Передача сигнала с участием EGF ELK1; MAPK1; EGFR; PIK3CA; FOS; PIK3CB; PIK3C3; MAPK8; MAPK3; PIK3C2A; RAF1; JAK1; PIK3R1; STAT3; MAP2K1; JUN; PRKCA; SRF; STAT1 Передача сигнала при гипоксии в EDN1; PTEN; EP300; NQO1; UBE2I; CREB1; ARNT; сердечно-сосудистой системе HIF1A; SLC2A4; NOS3; TP53; LDHA; AKT1; ATM; VEGFA; JUN; ATF4; VHL; HSP90AA1 LPS/IL-1 опосредованное ингибирование IRAK1; MYD88; TRAF6; PPARA; RXRA; ABCA1; функции RXR MAPK8; ALDH1A1; GSTP1; MAPK9; ABCB1; TRAF2; TLR4; TNF; MAP3K7; NR1H2; SREBF1; JUN; IL1R1 Активация LXR/RXR FASN; RXRA; NCOR2; ABCA1; NFKB2; IRF3; RELA; NOS2A; TLR4; TNF; RELB; LDLR; NR1H2; NFKB1; SREBF1; IL1R1; CCL2; IL6; MMP9 Процессинг амилоида PRKCE; CSNK1E; MAPK1; CAPNS1; AKT2; CAPN2; CAPN1; MAPK3; MAPK13; MAPT; MAPK14; AKT1; PSEN1; CSNK1A1; GSK3B; AKT3; APP Передача сигнала с участием IL-4 AKT2; PIK3CA; PIK3CB; PIK3C3; IRS1; KRAS; SOCS1; PTPN6; NR3C1; PIK3C2A; JAK1; AKT1; JAK2; PIK3R1; FRAP1; AKT3; RPS6KB1 Регуляция при повреждении ДНК EP300; PCAF; BRCA1; GADD45A; PLK1; BTRC; в контрольной точке клеточного цикла: CHEK1; ATR; CHEK2; YWHAZ; TP53; CDKN1A; G2/M PRKDC; ATM; SFN; CDKN2A Передача сигнала с участием оксида азота в KDR; FLT1; PGF; AKT2; PIK3CA; PIK3CB; PIK3C3; сердечно-сосудистой системе CAV1; PRKCD; NOS3; PIK3C2A; AKT1; PIK3R1; VEGFA; AKT3; HSP90AA1 Метаболизм пуринов NME2; SMARCA4; MYH9; RRM2; ADAR; EIF2AK4; PKM2; ENTPD1; RAD51; RRM2B; TJP2; RAD51C; NT5E; POLD1; NME1 cAMP-опосредованная передача сигнала RAP1A; MAPK1; GNAS; CREB1; CAMK2A; MAPK3; SRC; RAF1; MAP2K2; STAT3; MAP2K1; BRAF; ATF4 Митохондриальная дисфункция SOD2; MAPK8; CASP8; MAPK10; MAPK9; CASP9; PARK7; PSEN1; PARK2; APP; CASP3 Передача сигнала с участием Notch HES1; JAG1; NUMB; NOTCH4; ADAM17; NOTCH2; PSEN1; NOTCH3; NOTCH1; DLL4 Путь при стрессе, связанном с HSPA5; MAPK8; XBP1; TRAF2; ATF6; CASP9; ATF4; эндоплазматическим ретикулумом EIF2AK3; CASP3 Метаболизм пиримидинов NME2; AICDA; RRM2; EIF2AK4; ENTPD1; RRM2B; NT5E; POLD1; NME1 Передача сигнала при болезни Паркинсона UCHL1; MAPK8; MAPK13; MAPK14; CASP9; PARK7; PARK2; CASP3 Передача сигнала GNAS; GNAQ; PPP2R1A; GNB2L1; PPP2CA; PPP1CC; в клетках сердечной мышцы и с участием бета-адренергических рецепторов PPP2R5C Гликолиз/гликонеогенез HK2; GCK; GPI; ALDH1A1; PKM2; LDHA; HK1 Передача сигнала с участием интерферона IRF1; SOCS1; JAK1; JAK2; IFITM1; STAT1; IFIT3 Передача сигнала с участием Sonic Hedgehog ARRB2; SMO; GLI2; DYRK1A; GLI1; GSK3B; DYRK1B Метаболизм PLD1; GRN; GPAM; YWHAZ; SPHK1; SPHK2 глицерофосфолипидов Разрушение фосфолипидов PRDX6; PLD1; GRN; YWHAZ; SPHK1; SPHK2 Метаболизм триптофана SIAH2; PRMT5; NEDD4; ALDH1A1; CYP1B1; SIAH1 Разрушение лизина SUV39H1; EHMT2; NSD1; SETD7; PPP2R5C Путь ERCC5; ERCC4; XPA; XPC; ERCC1 при эксцизионной репарации нуклеотидов Метаболизм UCHL1; HK2; GCK; GPI; HK1 крахмала и сахарозы Метаболизм аминосахаров NQO1; HK2; GCK; HK1 Метаболизм PRDX6; GRN; YWHAZ; CYP1B1 арахидоновой кислоты Передача сигнала с вовлечением околосуточного ритма CSNK1E; CREB1; ATF4; NR1D1 Коагулирующая система BDKRB1; F2R; SERPINE1; F3 Передача сигнала PPP2R1A; PPP2CA; PPP1CC; PPP2R5C с участием допаминового рецептора Метаболизм глутатиона IDH2; GSTP1; ANPEP; IDH1 Метаболизм глицеролипидов ALDH1A1; GPAM; SPHK1; SPHK2 Метаболизм линолевой кислоты PRDX6; GRN; YWHAZ; CYP1B1 Метаболизм метионина DNMT1; DNMT3B; AHCY; DNMT3A Метаболизм пирувата GLO1; ALDH1A1; PKM2; LDHA Метаболизм ALDH1A1; NOS3; NOS2A аргинина и пролина Передача сигнала с участием эйкозаноидов PRDX6; GRN; YWHAZ Метаболизм HK2; GCK; HK1 фруктозы и маннозы Метаболизм галактозы HK2; GCK; HK1 стильбена, кумарина и PRDX6; PRDX1; TYR лигнина биосинтез при презентации антигена CALR; B2M путь Биосинтез стероидов NQO1; DHCR7 Метаболизм бутаноата ALDH1A1; NLGN1 Цикл цитрата IDH2; IDH1 Метаболизм жирных кислот ALDH1A1; CYP1B1 глицерофосфолипидов PRDX6; CHKA аскорбата и альдарата Метаболизм гистидина PRMT5; ALDH1A1 Метаболизм инозитола ERO1L; APEX1 Метаболизм ксенобиотиков GSTP1; CYP1B1 с участием цитохрома p450 Метаболизм метана PRDX6; PRDX1 Метаболизм фенилаланина PRDX6; PRDX1 Метаболизм пропаноата ALDH1A1; LDHA Метаболизм PRMT5; AHCY селеноаминокислоты Метаболизм сфинголипидов SPHK1; SPHK2 Метаболизм PRMT5 аминофосфоната Метаболизм PRMT5 андрогена и эстрогена Метаболизм ALDH1A1 аскорбата и альдарата Биосинтез желчных кислот ALDH1A1 Метаболизм цистеина LDHA Биосинтез жирных кислот FASN Передача сигнала GNB2L1 с участием глутаматного рецептора NRF2-опосредованный ответ на PRDX1 окислительный стресс Пентозофосфатный GPI путь Взаимное превращение UCHL1 Взаимное превращение Метаболизм ретинола ALDH1A1 Метаболизм рибофлавина TYR Метаболизм тирозина PRMT5, TYR Биосинтез убихинона PRMT5 Разрушение валина, лейцина и ALDH1A1 изолейцина Метаболизм глицина, серина и CHKA треонина Разрушение лизина ALDH1A1 Боль/вкус TRPM5; TRPA1 Боль TRPM7; TRPC5; TRPC6; TRPC1; Cnr1; cnr2; Grk2; Trpa1; Pomc; Cgrp; Crf; Pka; Era; Nr2b; TRPM5; Prkaca; Prkacb; Prkar1a; Prkar2a Митохондриальная функция AIF; CytC; SMAC (Diablo); Aifm-1; Aifm-2 Неврология развития BMP-4; хордин (Chrd); ноггин (Nog); WNT (Wnt2; Wnt2b; Wnt3a; Wnt4; Wnt5a; Wnt6; Wnt7b; Wnt8b; Wnt9a; Wnt9b; Wnt10a; Wnt10b; Wnt16); бета-катенин; Dkk-1; связанные с ожогом белки; Otx-2; Gbx2; FGF-8; Reelin; Dab1; unc-86 (Pou4f1 или Brn3a); Numb; Reln

Варианты осуществления настоящего изобретения также относятся к способам и композициям, связанным с нокаутированием генов, амплифицированием генов и репарацией конкретных мутаций, ассоциированных с нестабильностью ДНК-повторов и неврологическими нарушениями (Robert D. Wells, Tetsuo Ashizawa, Genetic Instabilities and Neurological заболевания, Second Edition, Academic Press, Oct 13, 2011 - Medical). Как было обнаружено, определенные аспекты последовательностей тандемных повторов ответственны за более чем двадцать заболеваний человека (New insights into repeat instability: role of RNA•DNA hybrids. McIvor EI, Polak U, Napierala M. RNA Biol. 2010 Sep-Oct;7(5):551-8). Системы эффекторного белка по настоящему изобретению могут быть приспособлены для коррекции таких дефектов геномной нестабильности.

Некоторые дополнительные аспекты настоящего изобретения касаются коррекции дефектов, ассоциированных с широким спектром наследственных заболеваний, которые дополнительно описаны на веб-сайте Национальных институтов здравоохранения (National Institutes of Health) в тематическом подразделе "Наследственные заболевания" ("Genetic Disorders") (веб-сайт по адресу health.nih.gov/topic/GeneticDisorders). Наследственные заболевания головного мозга могут включать без ограничения адренолейкодистрофию, агенезию мозолистого тела, синдром Айкарди, синдром Альперса, болезнь Альцгеймера, синдром Барта, болезнь Баттена, CADASIL, мозжечковую дегенерацию, болезнь Фабри, синдром Герстмана-Штраусслера-Шейнкера, болезнь Гентингтона и другие связанные с триплетными повторами нарушения, болезнь Лея, синдром Леша-Найхана, болезнь Менкеса, типы митохондриальной миопатии и кольпоцефалию по критериям NINDS. Такие заболевания дополнительно описаны на веб-сайте Национальных институтов здравоохранения (National Institutes of Health) в тематическом подразделе "Наследственные заболевания головного мозга" ("Genetic Brain Disorders").

Разработка и применение Cas9

Настоящее изобретение может быть дополнительно проиллюстрировано и расширено на основе аспектов разработки и применения CRISPR-Cas9, как изложено в следующих статьях, и, в частности, он относится к доставке комплекса белка CRISPR и вариантам применения направляемой РНК эндонуклеазы в клетках и организмах:

- Multiplex genome engineering using CRISPR/Cas systems. Cong, L., Ran, F.A., Cox, D., Lin, S., Barretto, R., Habib, N., Hsu, P.D., Wu, X., Jiang, W., Marraffini, L.A., & Zhang, F. Science Feb 15;339(6121):819-23 (2013);

- RNA-guided editing of bacterial genomes using CRISPR-Cas systems. Jiang, W., Bikard, D., Cox, D., Zhang, F., Marraffini, L.A. Nat Biotechnol Mar;31(3):233-9 (2013);

- One-Step Generation of Mice Carrying Mutations in Multiple Genes by CRISPR/Cas-Mediated Genome Engineering. Wang H., Yang H., Shivalila CS., Dawlaty MM., Cheng AW., Zhang F., Jaenisch R. Cell May 9;153(4):910-8 (2013);

- Optical control of mammalian endogenous transcription and epigenetic states. Konermann S, Brigham MD, Trevino AE, Hsu PD, Heidenreich M, Cong L, Platt RJ, Scott DA, Church GM, Zhang F. Nature. Aug 22;500(7463):472-6. doi: 10.1038/Nature12466. Epub 2013 Aug 23 (2013);

- Double Nicking by RNA-Guided CRISPR Cas9 for Enhanced Genome Editing Specificity. Ran, FA., Hsu, PD., Lin, CY., Gootenberg, JS., Konermann, S., Trevino, AE., Scott, DA., Inoue, A., Matoba, S., Zhang, Y., & Zhang, F. Cell Aug 28. pii: S0092-8674(13)01015-5 (2013-A);

- DNA targeting specificity of RNA-guided Cas9 nucleases. Hsu, P., Scott, D., Weinstein, J., Ran, FA., Konermann, S., Agarwala, V., Li, Y., Fine, E., Wu, X., Shalem, O., Cradick, TJ., Marraffini, LA., Bao, G., & Zhang, F. Nat Biotechnol doi:10.1038/nbt.2647 (2013);

- Genome engineering using the CRISPR-Cas9 system. Ran, FA., Hsu, PD., Wright, J., Agarwala, V., Scott, DA., Zhang, F. Nature Protocols Nov;8(11):2281-308 (2013-B);

- Genome-Scale CRISPR-Cas9 Knockout Screening in Human Cells. Shalem, O., Sanjana, NE., Hartenian, E., Shi, X., Scott, DA., Mikkelson, T., Heckl, D., Ebert, BL., Root, DE., Doench, JG., Zhang, F. Science Dec 12. (2013). [Электронная публикация, предшествующая печатной];

- Crystal structure of cas9 in complex with guide RNA and target DNA. Nishimasu, H., Ran, FA., Hsu, PD., Konermann, S., Shehata, SI., Dohmae, N., Ishitani, R., Zhang, F., Nureki, O. Cell Feb 27, 156(5):935-49 (2014);

- Genome-wide binding of the CRISPR endonuclease Cas9 in mammalian cells. Wu X., Scott DA., Kriz AJ., Chiu AC., Hsu PD., Dadon DB., Cheng AW., Trevino AE., Konermann S., Chen S., Jaenisch R., Zhang F., Sharp PA. Nat Biotechnol. Apr 20. doi: 10.1038/nbt.2889 (2014);

- CRISPR-Cas9 Knockin Mice for Genome Editing and Cancer Modeling. Platt RJ, Chen S, Zhou Y, Yim MJ, Swiech L, Kempton HR, Dahlman JE, Parnas O, Eisenhaure TM, Jovanovic M, Graham DB, Jhunjhunwala S, Heidenreich M, Xavier RJ, Langer R, Anderson DG, Hacohen N, Regev A, Feng G, Sharp PA, Zhang F. Cell 159(2): 440-455 DOI: 10.1016/j.cell.2014.09.014(2014);

- Development and Applications of CRISPR-Cas9 for Genome Engineering, Hsu PD, Lander ES, Zhang F., Cell. Jun 5;157(6):1262-78 (2014).

- Genetic screens in human cells using the CRISPR/Cas9 system, Wang T, Wei JJ, Sabatini DM, Lander ES., Science. January 3; 343(6166): 80-84. doi:10.1126/science.1246981 (2014);

- Rational design of highly active sgRNAs for CRISPR-Cas9-mediated gene inactivation, Doench JG, Hartenian E, Graham DB, Tothova Z, Hegde M, Smith I, Sullender M, Ebert BL, Xavier RJ, Root DE., (опубликовано онлайн 3 сентября 2014 г.) Nat Biotechnol. Dec;32(12):1262-7 (2014);

- In vivo interrogation of gene function in the mammalian brain using CRISPR-Cas9, Swiech L, Heidenreich M, Banerjee A, Habib N, Li Y, Trombetta J, Sur M, Zhang F., (опубликовано онлайн 19 октября 2014 г.) Nat Biotechnol. Jan;33(1):102-6 (2015);

- Genome-scale transcriptional activation by an engineered CRISPR-Cas9 complex, Konermann S, Brigham MD, Trevino AE, Joung J, Abudayyeh OO, Barcena C, Hsu PD, Habib N, Gootenberg JS, Nishimasu H, Nureki O, Zhang F., Nature. Jan 29;517(7536):583-8 (2015).

- A split-Cas9 architecture for inducible genome editing and transcription modulation, Zetsche B, Volz SE, Zhang F., (опубликовано онлайн 2 февраля 2015 г.) Nat Biotechnol. Feb;33(2):139-42 (2015);

- Genome-wide CRISPR Screen in a Mouse Model of Tumor Growth and Metastasis, Chen S, Sanjana NE, Zheng K, Shalem O, Lee K, Shi X, Scott DA, Song J, Pan JQ, Weissleder R, Lee H, Zhang F, Sharp PA. Cell 160, 1246-1260, March 12, 2015 (мультиплексный скрининг у мыши), и

- In vivo genome editing using Staphylococcus aureus Cas9, Ran FA, Cong L, Yan WX, Scott DA, Gootenberg JS, Kriz AJ, Zetsche B, Shalem O, Wu X, Makarova KS, Koonin EV, Sharp PA, Zhang F., (опубликовано онлайн 1 апреля 2015 г.), Nature. Apr 9;520(7546):186-91 (2015).

- Shalem et al., "High-throughput functional genomics using CRISPR-Cas9," Nature Reviews Genetics 16, 299-311 (May 2015).

- Xu et al., "Sequence determinants of improved CRISPR sgRNA design," Genome Research 25, 1147-1157 (August 2015).

- Parnas et al., "A Genome-wide CRISPR Screen in Primary Immune Cells to Dissect Regulatory Networks," Cell 162, 675-686 (July 30, 2015).

- Ramanan et al., CRISPR/Cas9 cleavage of viral DNA efficiently suppresses hepatitis B virus," Scientific Reports 5:10833. doi: 10.1038/srep10833 (June 2, 2015)

- Nishimasu et al., Crystal Structure of Staphylococcus aureus Cas9," Cell 162, 1113-1126 (Aug. 27, 2015)

- BCL11A enhancer dissection by Cas9-mediated in situ saturating mutagenesis, Canver et al., Nature 527(7577):192-7 (Nov. 12, 2015) doi: 10.1038/nature15521. Epub 2015 Sep 16.

- Cpf1 Is a Single RNA-Guided Endonuclease of a Class 2 CRISPR-Cas System, Zetsche et al., Cell 163, 759-71 (Sep 25, 2015).

- Discovery and Functional Characterization of Diverse Class 2 CRISPR-Cas Systems, Shmakov et al., Molecular Cell, 60(3), 385-397 doi: 10.1016/j.molcel.2015.10.008 Epub October 22, 2015.

- Rationally engineered Cas9 nucleases with improved specificity, Slaymaker et al., Science 2016 Jan 1 351(6268): 84-88 doi: 10.1126/science.aad5227. Электронная публикация 1 декабря 2015 г. [Электронная публикация, предшествующая печатной],

каждая из которых включена в данный документ посредством ссылки, может быть рассмотрена при практическом осуществлении настоящего изобретения и описана вкратце ниже.

- Cong et al. сконструировали системы CRISPR-Cas II типа на основе как Cas9 Streptococcus thermophilus, так и Cas9 Streptococcus pyogenes для применения в эукариотических клетках и продемонстрировали, что нуклеазы Cas9 могут управляться короткими РНК с индукцией точного расщепления ДНК в клетках человека и мыши. Их исследование дополнительно показало, что Cas9, превращенный в фермент, вносящий однонитевой разрыв, можно применять для облегчения репарации с участием гомологичной рекомбинации в эукариотических клетках с минимальной мутагенной активностью. Кроме того, их исследование продемонстрировало, что в одном массиве CRISPR могут быть закодированы несколько направляющих последовательностей для обеспечения одновременного редактирования в нескольких сайтах эндогенных локусов генома в геноме млекопитающих, что демонстрирует легкую программируемость и широкое применение технологии нуклеаз, направляемых РНК. Эта возможность применения РНК для программирования специфичного к последовательности расщепления ДНК в клетках определила новый класс инструментов для конструирования генома. Данные исследования дополнительно показали, что другие локусы CRISPR, вероятно, можно пересадить в клетки млекопитающих, и они могут также опосредовать расщепление генома млекопитающих. Важно отметить, что можно предусмотреть дополнительное улучшение некоторых аспектов системы CRISPR-Cas для повышения ее эффективности и универсальности.

- Jiang et al. применяли эндонуклеазу Cas9, ассоциированную с короткими палиндромными повторами, регулярно расположенными группами (CRISPR), образующую комплекс с двойными РНК для введения точных мутаций в геномы Streptococcus pneumoniae и Escherichia coli. Подход опирался на расщепление в целевом сайте генома под управлением системы двойная РНК:Cas9 для уничтожения немутированных клеток и устранял необходимость в селектируемых маркерах или системах отрицательного отбора. В исследовании сообщалось о перепрограммировании специфичности системы двойная РНК:Cas9 путем изменения последовательности короткой РНК CRISPR (crRNA) для внесения одно- или многонуклеотидных изменений, выполняемых с помощью матриц редактирования. Исследование показало, что одновременное использование двух crRNA обеспечивало мультиплексный мутагенез. Кроме того, когда подход применяли в сочетании с рекомбинационной инженерией, у S. рneumoniа практически 100% клеток, извлеченных с помощью описанного подхода, содержали желаемую мутацию, а у E. сoli 65% извлеченных клеток содержали мутацию.

- Wang et al. (2013) использовали систему CRISPR-Cas для одностадийного получения мышей, несущих мутации в нескольких генах, которых традиционно получали в несколько стадий, с помощью последовательной рекомбинации в эмбриональных стволовых клетках и/или продолжительного интеркроссинга мышей с одной мутацией. Система CRISPR-Cas будет значительно ускорять исследование функционально избыточных генов и эпистатических генных взаимодействий in vivo.

- Konermann et al. (2013) изучали существующую в данной области необходимость в гибких и надежных технологиях, позволяющих осуществлять оптическое и химическое модулирование фермента Cas9 CRISPR на основе ДНК-связывающих доменов, а также эффекторов, подобных активаторам транскрипции.

- Ran et al. (2013-А) описали подход, в котором мутантную никазу Cas9 применяли в сочетании с парными направляющими РНК для внесения целевых двухнитевых разрывов. Это относится к вопросу о том, что нуклеаза Cas9 из микробной системы CRISPR-Cas направляется на конкретные локусы генома направляющей последовательностью, которая может допускать некоторые несовпадения с ДНК-мишенью и, таким образом, способствует нежелательному нецелевому мутагенезу. Поскольку отдельные однонитевые разрывы в геноме подвергаются высокоточной репарации, одновременное внесение однонитевых разрывов с помощью соответствующим образом смещенных друг относительно друга направляющих РНК является необходимым для образования двухнитевых разрывов и увеличивает количество специфически распознаваемых оснований для расщепления мишени. Авторы продемонстрировали, что применение парного внесения однонитевых разрывов может снижать нецелевую активность в линиях клеток в 50-1500 раз и облегчать нокаут генов в зиготах мышей без уменьшения эффективности целевого расщепления. Данная гибкая стратегия обеспечивает большое разнообразие применений редактирования генома, требующих высокой специфичности.

- Hsu et al. (2013) охарактеризовали специфичность нацеливания SpCas9 в клетках человека, чтобы предоставить информацию для выбора целевых сайтов и избежать нецелевых эффектов. В исследовании оценивали > 700 вариантов направляющей РНК и уровней мутаций по типу вставок/делеций, индуцированных SpCas9, в >100 прогнозируемых нецелевых локусах генома в клетках 293T и 293FT. Авторы показали, что SpCas9 допускает несовпадения между направляющей РНК и целевой ДНК в различных положениях в зависимости от последовательности с чувствительностью к количеству, положению и распределению несовпадений. Авторы дополнительно показали, что на опосредованное SpCas9 расщепление не влияет метилирование ДНК, и что для сведения к минимуму нецелевых модификаций можно подобрать дозу SpCas9 и gRNA. Кроме того, для облегчения применений в геномной инженерии млекопитающих авторы сообщили о получении инструментального программного обеспечения на веб-основе для управления выбором и подтверждением целевых последовательностей, а также анализов нецелевых явлений.

- Ran et al. (2013-B) описали набор инструментов для опосредованного Cas9 редактирования генома посредством негомологичного соединения концов (NHEJ) или репарации с помощью гомологичной рекомбинации (HDR) в клетках млекопитающих, а также создания модифицированных линий клеток для последующих функциональных исследований. Для сведения к минимуму нецелевого расщепления авторы дополнительно описали стратегию внесения двойных однонитевых разрывов с помощью мутантной никазы Cas9 с парными направляющими РНК. Протокол, представленный авторами, является полученным экспериментальным путем руководством по выбору целевых сайтов, оценке эффективности расщепления и анализу нецелевой активности. Исследования показали, что начиная с конструирования мишени, модификации генов можно достигнуть в течение всего лишь 1-2 недель, и модифицированные клональные линии клеток можно получить в течение 2-3 недель.

- Shalem et al. описали новый способ исследования функций генов в полногеномном масштабе. Их исследования показали, что доставка библиотеки CRISPR-Cas9 для нокаута в масштабе генома (GeCKO), целенаправленно воздействующей на 18080 генов, с 64751 уникальной направляющей последовательностью обеспечивала скрининг путем как положительного, так и отрицательного отбора в клетках человека. Во-первых, авторы показали применение библиотеки GeCKO для идентификации генов, существенных для жизнеспособности клеток у раковых и плюрипотентных стволовых клеток. Далее, в модели меланомы, авторы провели скрининг генов, утрата функций которых вовлечена в устойчивость к вемурафенибу, терапевтическому средству, ингибирующему мутантную протеинкиназу BRAF. Их исследования показали, что кандидаты высшего ранга включали ранее подтвержденные гены NF1 и MED12, а также новые хиты NF2, CUL3, TADA2B и TADA1. Авторы наблюдали высокий уровень согласованности между независимыми направляющими РНК, осуществляющими нацеливание на один и тот же ген, и высоким показателем подтверждения хитов и, таким образом, продемонстрировали перспективность скрининга с помощью Cas9 в масштабе генома.

- Nishimasu et al. сообщали о кристаллической структуре Cas9 Streptococcus pyogenes в комплексе с sgRNA и ее целевой ДНК при разрешающей способности в 2,5 A°. В структуре была выявлена двудольная архитектура, образованная долей распознавания мишени и нуклеазной долей, обеспечивающих размещение гетеродуплекса sgRNA:ДНК в положительно заряженной бороздке на поверхности их соприкосновения. При том, что доля распознавания является существенной для связывания sgRNA и ДНК, нуклеазная доля содержит нуклеазные домены HNH и RuvC, расположенные надлежащим образом для расщепления комплементарной и некомплементарной нитей целевой ДНК соответственно. Нуклеазная доля также содержит карбоксиконцевой домен, отвечающий за взаимодействие с мотивом, смежным с протоспейсером (PAM). Эти структурные анализы с высокой разрешающей способностью и сопутствующие функциональные анализы выявили молекулярный механизм нацеливания Cas9, направляемых РНК, на ДНК, с созданием таким образом предпосылок для рационального конструирования новых универсальных технологий редактирования генома.

- Wu et al. производили полногеномное картирование сайтов связывания для каталитически неактивного Cas9 (dCas9) из Streptococcus pyogenes, который вводили с одиночными направляющими РНК (sgRNA) в эмбриональные стволовые клетки мыши (mESC). Авторы показали, что каждая из четырех тестируемых sgRNA осуществляет нацеливание dCas9 на сайты генома в количестве от нескольких десятков до нескольких тысяч, что часто характеризуется наличием 5-нуклеотидного затравочного участка в sgRNA и мотива NGG, смежного с протоспейсером (PAM). Недоступность хроматина снижает связывание dCas9 с другими сайтами с последовательностями, комплементарными затравочной; таким образом, 70% нецелевых сайтов ассоциированы с генами. Авторы показали, что целенаправленное секвенирование 295 сайтов связывания для dCas9 в mESC, трансфицированных каталитически активным Cas9, выявило мутацию, превышающую фоновые уровни, только в одном сайте. Авторы предложили модель связывания с Cas9 и опосредованного им расщепления с двумя состояниями, в которой последовательность, комплементарная затравочной, запускает связывание, но для расщепления необходимо образование многочисленных пар с целевой ДНК.

- Platt et al. получили Cre-зависимую мышь с нокином Cas9. Авторы показали редактирование генома in vivo, а также ex vivo с помощью доставки направляющей РНК на основе аденоассоциированного вируса (AAV), лентивируса или частиц в нейроны, иммунные клетки и эндотелиальные клетки.

- Публикация Hsu et al. (2014) представляет собой обзорную статью, в которой описывается в целом история CRISPR-Cas9 от использования в производстве йогуртовых заквасок до редактирования генома, в том числе генетического скрининга клеток.

- Публикация Wang et al. (2014) связана с подходом на основе объединенного генетического скрининга с изучением потери функции, применимого как для положительного, так и отрицательного отбора, в котором используется библиотека полногеномных лентивирусных одиночных направляющих РНК (sgRNA).

- Doench et al. создали пул sgRNA, покрывающих все возможные целевые сайты панели из шести эндогенных мышиных и трех эндогенных человеческих генов и количественно оценили их способность образовывать нуль-аллели своего целевого гена с помощью окрашивания антител и проточной цитометрии. Авторы показали, что оптимизация PAM повышала активность и также обеспечивала онлайн-средство для конструирования sgRNA.

- Swiech et al. показывают, что AAV-опосредованное редактирование генома SpCas9 может обеспечивать обратные генетические исследования функции гена в головном мозге.

- Konermann et al. (2015) описывают способность присоединять множественные эффекторные домены, например, активатор транскрипции, функциональные и эпигеномные регуляторы в определенных положениях на ведущей последовательности, например, стволе или тетра-петле с линкерами и без них.

- Zetsche et al. показывают, что фермент Cas9 может быть расщеплен на два и, таким образом, сборка Cas9 для активации может быть контролируемой.

- Публикация Chen et al. связана с множественным скринингом посредством демонстрации того, что в результате полногеномного скрининга CRISPR-Cas9 in vivo у мышей обнаружены гены, регулирующие метастазирование в легких.

- Публикация Ran et al. (2015) относится к SaCas9 и его способности редактировать геномы и демонстрирует невозможность экстраполяции исходя из биохимических анализов.

- В публикации Shalem et al. (2015) описаны пути, в которых слияния каталитически неактивного Cas9 (dCas9) используют для синтетической репрессии (CRISPRi) или активации (CRISPRa) экспрессии, показывая успехи применения Cas9 для полногеномного скрининга, в том числе упорядоченных и объединенных скринингов, подходов к нокауту, которые инактивируют геномные локусы, и стратегий, с помощью которых модулируют транскрипционную активность.

- Xu et al. (2015) оценивали характеристики ДНК-последовательности, которые способствуют эффективности одиночной направляющей РНК (sgRNA) при скрининге на основе CRISPR. Авторы исследовали эффективность нокаута с помощью CRISPR/Cas9 и нуклеотидного предпочтения в сайте расщепления. Авторы также обнаружили, что предпочтение последовательности для CRISPRi/a значительно отличается от таковой для нокаута с помощью CRISPR/Cas9.

- Parnas et al. (2015) ввели полногеномные объединенные библиотеки CRISPR-Cas9 в дендритные клетки (DC) с целью выявления генов, которые контролируют индукцию фактора некроза опухоли (Tnf) с помощью бактериального липополисахарида (LPS). Известные регуляторы передачи сигналов с участием Tlr4 и ранее неизвестные кандидаты были идентифицированы и классифицированы на три функциональных модуля с различными эффектами по отношению к классическим ответам на LPS.

- Ramanan et al (2015) показали расщепление вирусной эписомальной ДНК (cccDNA) в инфицированных клетках. Геном HBV существует в ядрах инфицированных гепатоцитов в виде двухнитевых эписомальных молекул ДНК с размером 3,2 т. о., называемых ковалентно связанной кольцевой ДНК (cccDNA), которая является основным компонентов в жизненном цикле HBV, репликация которого не ингибируется при применении существующих видов терапии. Авторы показали, что sgRNA, специфично нацеливающася на высококонсервативные области HBV, устойчиво подавляет вирусную репликацию и расщепляет cccDNA.

- Nishimasu et al. (2015) описали кристаллические структуры SaCas9 в комплексе с одиночной РНК (sgRNA) и ее двухнитевыми ДНК-мишенями, содержащими 5'-TTGAAT-3' PAM и 5'-TTGGGT-3' PAM. Структурное сравнение SaCas9 с SpCas9 указало как на структурную консервативность, так и на изменчивость, объясняя их различные специфичности PAM и ортологическое распознавание sgRNA.

- Canver et al. (2015) продемонстрировали функциональное исследование на основе CRISPR-Cas9 некодирующих геномных элементов. Авторы разработали объединенные библиотеки направляющей РНК CRISPR-Cas9 для выполнения in situ насыщающего мутагенеза человеческих и мышиных энхансеров BCL11A, которые обнаружили критические характеристики энхансеров.

- Zetsche et al. (2015) описали характеристику Cpf1, нуклеазы CRISPR класса 2 из Francisella novicida U112, с признаками, отличными от Cas9. Cpf1 представляет собой одиночную направляемую РНК эндонуклеазу, у которой отсутствует tracrRNA, которая использует мотив, смежный с протоспейсером, с высоким содержанием T и расщепляет ДНК посредством ступенчатого разрыва двухнитевой ДНК.

- Shmakov et al. (2015) описали три различных системы CRISPR-Cas класса 2. Ферменты двух систем CRISPR (C2c1 и C2c3) содержат RuvC-подобные эндонуклеазные домены, отличные от Cpf1. В отличие от Cpf1, C2c1 зависит как от crRNA, так и от tracrRNA, для расщепления ДНК. Третий фермент (C2c2) содержит два предполагаемых домена с HEPN РНКазой и является tracrRNA-независимым.

- Slaymaker et al. (2016) описали применение направляемого структурой конструирования белков для улучшения специфичности Cas9 (SpCas9) Streptococcus pyogenes. Авторы разработали "усиленную специфичность" вариантов SpCas9 (eSpCas9), которые сохраняли устойчивое целевое расщепление при сниженных нецелевых эффектах.

Также публикация "Dimeric CRISPR RNA-guided FokI nucleases for highly specific genome editing", Shengdar Q. Tsai, Nicolas Wyvekens, Cyd Khayter, Jennifer A. Foden, Vishal Thapar, Deepak Reyon, Mathew J. Goodwin, Martin J. Aryee, J. Keith Joung Nature Biotechnology 32(6): 569-77 (2014) в отношении направляемых димерной РНК нуклеаз FokI, которые распознают продленные последовательности и могут редактировать эндогенные гены с высокой эффективностью в человеческих клетках.

Патенты США №№ 8697359, 8771945, 8795965, 8865406, 8871445, 8889356, 8889418, 8895308, 8906616, 8932814, 8945839, 8993233 и 8999641; публикации заявки на патент США US 2014-0310830 (заявка на патент США с регистрационным номером 14/105031), US 2014-0287938 A1 (заявка на патент США с регистрационным номером 14/213991), US 2014-0273234 A1 (заявка на патент США с регистрационным номером 14/293,674), US2014-0273232 A1 (заявка на патент США с регистрационным номером 14/290575), US 2014-0273231 (заявка на патент США с регистрационным номером 14/259420), US 2014-0256046 A1 (заявка на патент США с регистрационным номером 14/226274), US 2014-0248702 A1 (заявка на патент США с регистрационным номером 14/258458), US 2014-0242700 A1 (заявка на патент США с регистрационным номером 14/222930), US 2014-0242699 A1 (заявка на патент США с регистрационным номером 14/183512), US 2014-0242664 A1 (заявка на патент США с регистрационным номером 14/104990), US 2014-0234972 A1 (заявка на патент США с регистрационным номером 14/183471), US 2014-0227787 A1 (заявка на патент США с регистрационным номером 14/256912), US 2014-0189896 A1 (заявка на патент США с регистрационным номером 14/105035), US 2014-0186958 (заявка на патент США с регистрационным номером 14/105017), US 2014-0186919 A1 (заявка на патент США с регистрационным номером 14/104977), US 2014-0186843 A1 (заявка на патент США с регистрационным номером 14/104900), US 2014-0179770 A1 (заявка на патент США с регистрационным номером 14/104837) и US 2014-0179006 A1 (заявка на патент США с регистрационным номером 14/183486), US 2014-0170753 (заявка на патент США с регистрационным номером 14/183429); US 2015-0184139 (заявка на патент США с регистрационным номером 14/324,960); 14/054414 заявки на европейские патенты EP 2 771 468 (EP13818570.7), EP 2 764 103 (EP13824232.6) и EP 2 784 162 (EP14170383.5); и публикации заявки на патенты согласно PCT WO 2014/093661 (PCT/US2013/074743), WO 2014/093694 (PCT/US2013/074790), WO 2014/093595 (PCT/US2013/074611), WO 2014/093718 (PCT/US2013/074825), WO 2014/093709 (PCT/US2013/074812), WO 2014/093622 (PCT/US2013/074667), WO 2014/093635 (PCT/US2013/074691), WO 2014/093655 (PCT/US2013/074736), WO 2014/093712 (PCT/US2013/074819), WO 2014/093701 (PCT/US2013/074800), WO 2014/018423 (PCT/US2013/051418), WO 2014/204723 (PCT/US2014/041790), WO 2014/204724 (PCT/US2014/041800), WO 2014/204725 (PCT/US2014/041803), WO 2014/204726 (PCT/US2014/041804), WO 2014/204727 (PCT/US2014/041806), WO 2014/204728 (PCT/US2014/041808), WO 2014/204729 (PCT/US2014/041809), WO 2015/089351 (PCT/US2014/069897), WO 2015/089354 (PCT/US2014/069902), WO 2015/089364 (PCT/US2014/069925), WO 2015/089427 (PCT/US2014/070068), WO 2015/089462 (PCT/US2014/070127), WO 2015/089419 (PCT/US2014/070057), WO 2015/089465 (PCT/US2014/070135), WO 2015/089486 (PCT/US2014/070175), PCT/US2015/051691, PCT/US2015/051830. Ссылка также делается на предварительные заявки на патенты США 61/758468; 61/802174; 61/806375; 61/814263; 61/819803 и 61/828130, поданные 30 января 2013 г.; 15 марта 2013 г.; 28 марта 2013 г.; 20 апреля 2013 г.; 6 мая 2013 г. и 28 мая 2013 г. соответственно. Ссылка также делается на предварительную заявку на патент США 61/836123, поданную 17 июня 2013 г. Ссылка дополнительно делается на предварительные заявки на патенты США 61/835931, 61/835936, 61/835973, 61/836080, 61/836101 и 61/836127, каждая из которых подана 17 июня 2013 г. Дополнительно ссылаются на предварительные заявки на патенты США 61/862468 и 61/862355, поданные 5 августа 2013 г.; 61/871301, поданную 28 августа 2013 г.; 61/960777, поданную 25 сентября 2013 г., и 61/961980, поданную 28 октября 2013 г. Ссылка еще дополнительно делается на: PCT/US2014/62558, поданный 28 октября 2014 г., и предварительные заявки на патенты США с серийными номерами 61/915148, 61/915150, 61/915153, 61/915203, 61/915251, 61/915301, 61/915267, 61/915260 и 61/915397, каждая из которых подана 12 декабря 2013 г.; 61/757972 и 61/768959, поданные 29 января 2013 г. и 25 февраля 2013 г.; 62/010888 и 62/010879, каждая из которых подана 11 июня 2014 г.; 62/010329, 62/010439 и 62/010441, каждая из которых подана 10 июня 2014 г.; 61/939228 и 61/939242, каждая из которых подана 12 февраля 2014 г.; 61/980012, поданная 15 апреля 2014 г.; 62/038358, поданная 17 августа 2014 г.; 62/055484, 62/055460 и 62/055487, каждая из которых подана 25 сентября 2014 г.; и 62/069243, поданная 27 октября 2014 г. Ссылаются на заявку согласно PCT, в которой, помимо прочих, указаны Соединенные Штаты Америки, заявку под № PCT/US14/41806, поданную 10 июня 2014 г. Ссылаются на предварительную заявку на патент США 61/930214, поданную 22 января 2014 г. Ссылаются на заявку согласно PCT, в которой, помимо прочих, указаны Соединенные Штаты Америки, заявку под № PCT/US14/41806, поданную 10 июня 2014 г.

Также упоминается заявка на патент США 62/180709, поданная 17 июня 2015 г., PROTECTED GUIDE RNAS (PGRNAS); заявка на патент США 62/091455, поданная 12 декабря 2014 г., PROTECTED GUIDE RNAS (PGRNAS); заявка на патент США 62/096708, поданная 24 декабря 2014 г., PROTECTED GUIDE RNAS (PGRNAS); заявки на патент США 62/091462, поданная 12 декабря 2014 г., 62/096324, поданная 23 декабря 2014 г., 62/180681, поданная 17 июня 2015 г., и 62/237496, поданная 5 октября 2015 г., DEAD GUIDES FOR CRISPR TRANSCRIPTION FACTORS; заявки на патент США 62/091456, поданная 12 декабря 2014 г. и 62/180692, поданная 17 июня 2015 г., ESCORTED AND FUNCTIONALIZED GUIDES FOR CRISPR-CAS SYSTEMS; заявки на патент США 62/091461, поданная 12 декабря 2014 г., DELIVERY, USE AND THERAPEUTIC APPLICATIONS OF THE CRISPR-CAS SYSTEMS AND COMPOSITIONS FOR GENOME EDITING AS TO HEMATOPOETIC STEM CELLS (HSC); заявка на патент США 62/094903, поданная 19 декабря 2014 г., UNBIASED IDENTIFICATION OF DOUBLE-STRAND BREAKS AND GENOMIC REARRANGEMENT BY GENOME-WISE INSERT CAPTURE SEQUENCING; заявка на патент США 62/096761, поданная 24 декабря 2014 г., ENGINEERING OF SYSTEMS, METHODS AND OPTIMIZED ENZYME AND GUIDE SCAFFOLDS FOR SEQUENCE MANIPULATION; заявка на патент США 62/098059, поданная 30 декабря 2014 г., 62/181641, поданная 18 июня 2015 г., и 62/181667, поданная 18 июня 2015 г., RNA-TARGETING SYSTEM; заявка на патент США 62/096656, поданная 24 декабря 2014 г., и 62/181151, поданная 17 июня 2015 г., CRISPR HAVING OR ASSOCIATED WITH DESTABILIZATION DOMAINS; заявка на патент США 62/096697, поданная 24 декабря 2014 г., CRISPR HAVING OR ASSOCIATED WITH AAV; заявка на патент США 62/098158, поданная 30 декабря 2014 г., ENGINEERED CRISPR COMPLEX INSERTIONAL TARGETING SYSTEMS; заявка на патент США 62/151052, поданная 22 апреля 2015 г., CELLULAR TARGETING FOR EXTRACELLULAR EXOSOMAL REPORTING; заявка на патент США 62/054490, поданная 24 сентября 2014 г., DELIVERY, USE AND THERAPEUTIC APPLICATIONS OF THE CRISPR-CAS SYSTEMS AND COMPOSITIONS FOR TARGETING DISORDERS AND DISEASES USING PARTICLE DELIVERY COMPONENTS; заявка на патент США 61/939154, поданная 12 февраля 2014 г., SYSTEMS, METHODS AND COMPOSITIONS FOR SEQUENCE MANIPULATION WITH OPTIMIZED FUNCTIONAL CRISPR-CAS SYSTEMS; заявка на патент США 62/055484, поданная 25 сентября 2014 г., SYSTEMS, METHODS AND COMPOSITIONS FOR SEQUENCE MANIPULATION WITH OPTIMIZED FUNCTIONAL CRISPR-CAS SYSTEMS; заявка на патент США 62/087537, поданная 4 декабря 2014 г., SYSTEMS, METHODS AND COMPOSITIONS FOR SEQUENCE MANIPULATION WITH OPTIMIZED FUNCTIONAL CRISPR-CAS SYSTEMS; заявка на патент США 62/054651, поданная 24 сентября 2014 г., DELIVERY, USE AND THERAPEUTIC APPLICATIONS OF THE CRISPR-CAS SYSTEMS AND COMPOSITIONS FOR MODELING COMPETITION OF MULTIPLE CANCER MUTATIONS IN VIVO; заявка на патент США 62/067886, поданная 23 октября 2014 г., DELIVERY, USE AND THERAPEUTIC APPLICATIONS OF THE CRISPR-CAS SYSTEMS AND COMPOSITIONS FOR MODELING COMPETITION OF MULTIPLE CANCER MUTATIONS IN VIVO; заявки на патент США 62/054675, поданная 24 сентября 2014 г., и 62/181002, поданная 17 июня 2015 г., DELIVERY, USE AND THERAPEUTIC APPLICATIONS OF THE CRISPR-CAS SYSTEMS AND COMPOSITIONS IN NEURONAL CELLS/TISSUES; заявка на патент США 62/054528, поданная 24 сентября 2014 г., DELIVERY, USE AND THERAPEUTIC APPLICATIONS OF THE CRISPR-CAS SYSTEMS AND COMPOSITIONS IN IMMUNE DISEASES OR DISORDERS; заявка на патент США 62/055454, поданная 25 сентября 2014 г., DELIVERY, USE AND THERAPEUTIC APPLICATIONS OF THE CRISPR-CAS SYSTEMS AND COMPOSITIONS FOR TARGETING DISORDERS AND DISEASES USING CELL PENETRATION PEPTIDES (CPP); заявка на патент США 62/055460, поданная 25 сентября 2014 г., MULTIFUNCTIONAL-CRISPR COMPLEXES AND/OR OPTIMIZED ENZYME LINKED FUNCTIONAL-CRISPR COMPLEXES; заявка на патент США 62/087475, поданная 4 декабря 2014 г., и 62/181690, поданная 18 июня 2015 г., FUNCTIONAL SCREENING WITH OPTIMIZED FUNCTIONAL CRISPR-CAS SYSTEMS; заявка на патент США 62/055487, поданная 25 сентября 2014 г., FUNCTIONAL SCREENING WITH OPTIMIZED FUNCTIONAL CRISPR-CAS SYSTEMS; заявки на патент США 62/087546, поданная 4 декабря 2014 г., и 62/181687, поданная 18 июня 2015 г., MULTIFUNCTIONAL CRISPR COMPLEXES AND/OR OPTIMIZED ENZYME LINKED FUNCTIONAL-CRISPR COMPLEXES; и заявка на патент США 62/098285, поданная 30 декабря 2014 г., CRISPR MEDIATED IN VIVO MODELING AND GENETIC SCREENING OF TUMOR GROWTH AND METASTASIS.

Упоминаются заявки на патенты США 62/181659, поданная 18 июня 2015 г., и 62/207318, поданная 19 августа 2015 г., ENGINEERING AND OPTIMIZATION OF SYSTEMS, METHODS, ENZYME AND GUIDE SCAFFOLDS OF CAS9 ORTHOLOGS AND VARIANTS FOR SEQUENCE MANIPULATION. Упоминаются заявки на патенты США 62/181663, поданная 18 июня 2015 г., и 62/245264, поданная 22 октября 2015 г., NOVEL CRISPR ENZYMES AND SYSTEMS, заявки на патенты США 62/181675, поданные 18 июня 2015 г., 62/285349, поданная 22 октября 2015 г., 62/296522, поданная 17 февраля 2016 г., и 62/320231, поданная 8 апреля 2016 г., NOVEL CRISPR ENZYMES AND SYSTEMS, заявка на патент США 62/232067, поданная 24 сентября 2015 г., заявка на патент США, 14/975085, поданная 18 декабря 2015 г., европейская заявка на патент №16150428.7, заявка на патент США 62/205733, поданная 16 августа 2015 г., заявка на патент США 62/201542, поданная 5 августа 2015 г., заявка на патент США 62/193507, поданная 16 июля 2015 г., и заявка на патент США 62/181739, поданная 18 июня 2015 г., каждая из которых имеет название NOVEL CRISPR ENZYMES AND SYSTEMS, и заявка на патент США 62/245270, поданная 22 октября 2015 г., NOVEL CRISPR ENZYMES AND SYSTEMS. Также упоминается заявка на патент США 61/939256, поданная 12 февраля 2014 г., и WO 2015/089473 (PCT/US2014/070152), поданная 12 декабря 2014 г., каждая из которых имеет название ENGINEERING OF SYSTEMS, METHODS AND OPTIMIZED GUIDE COMPOSITIONS WITH NEW ARCHITECTURES FOR SEQUENCE MANIPULATION. Также упоминается PCT/US2015/045504, поданная 15 августа 2015 г., заявка на патент США 62/180699, поданная 17 июня 2015 г., и заявка на патент США 62/038358, поданная 17 августа 2014 г., каждая из которых имеет название GENOME EDITING USING CAS9 NICKASES.

- Каждое из данных патентов, публикаций патентов и заявок, а также все документы, цитируемые в них или во время их рассмотрения ("документы, цитируемые в заявке"), и все документы, цитируемые или упомянутые в документах, цитируемых в заявке, вместе с любыми инструкциями, описаниями, характеристиками продукта и технологическими картами для любых продуктов, упомянутыми в них или в любом документе, упомянутом в них и включенном с помощью ссылки в данный документ, настоящим включены в данный документ с помощью ссылки и могут быть использованы в практическом осуществлении настоящего изобретения. Все документы (например, данные патенты, публикации патентов и заявки, а также цитируемые в заявках документы) включены в данный документ посредством ссылки в такой же мере, как если бы конкретно и отдельно было указано, что каждый отдельный документ включен посредством ссылки.

С того времени была показана эффективность настоящего изобретения. Предварительно собранные рекомбинантные комплексы CRISPR-Cpf1, содержащие Cpf1 и crRNA, могут быть трансфицированы, например, при помощи электропорации, что приводит к высокой частоте мутаций и отсутствию выявляемых нецелевых мутаций. Hur, J.K. et al, Targeted mutagenesis in mice by electroporation of Cpf1 ribonucleoproteins, Nat Biotechnol. 2016 Jun 6. doi: 10.1038/nbt.3596. [Электронная публикация, предшествующая печатной], Полногеномные анализы показывают, что Cpf1 является высокоспецифичным. Согласно одному измерению in vitro сайтов расщепления, определенных для SpCas9 в человеческих клетках HEK293T, было значимо меньше, чем для SpCas9. Kim, D. et al., Genome-wide analysis reveals specificities of Cpf1 endonucleases in human cells, Nat Biotechnol. 2016 Jun 6. doi: 10.1038/nbt.3609. [Электронная публикация, предшествующая печатной], Эффективная мультиплексная система с применением Cpf1 была показана у Drosophila, при этом использовали gRNA, обработанные из массива, содержащего разрабатываемые tRNA. Port, F. et al, Expansion of the CRISPR toolbox in an animal with tRNA-flanked Cas9 and Cpf1 gRNAs. doi: http://dx.doi.org/10.1101/046417.

Настоящее изобретение дополнительно будет проиллюстрировано в следующих примерах, которые приведены только для иллюстративных целей и не предназначены для ограничения настоящего изобретения каким-либо образом.

ПРИМЕРЫ

Пример 1. Происхождение и эволюция систем адаптивного иммунитета

Классификация и аннотация систем CRISPR-Cas в геномах архей и бактерий. Локусы CRISPR-Cas включают более чем 50 семейств генов, и при этом отсутствуют строго универсальные гены, наблюдается быстрая эволюция, чрезвычайное разнообразие структуры локусов. По этой причине невозможно построить единое дерево и нужно применять дифференцированный подход. На настоящий момент имеется исчерпывающая идентификация генов cas из 395 профилей для 93 белков Cas. Классификация включает сигнатуры генных профилей с сигнатурами структуры локуса.

Новая классификация систем CRISPR-Cas предложена на фиг. 1. Класс 2 включает мультисубъединичные комплексы crRNA-эффектор (Cascade), а класс 2 включает односубъединичные комплексы crRNA-эффектор (Cas9-подобные). На фиг. 2 представлена молекулярная структура CRISPR-Cas. На фиг. 3 представлены структуры комплексов эффекторов I и III типов: общая структура/общее происхождение, несмотря на существенную дивергенцию последовательности. На фиг. 4 показана CRISPR-Cas в качестве системы, в центре которой расположен мотив распознавания РНК (RRM). На фиг. 5 показана филогения Cas1, где главным аспектом эволюции CRISPR-Cas оказывается рекомбинация адаптационного и crRNA-эффекторного модулей. На фиг. F показан полный набор CRISPR-Cas, в частности, распределение типов/подтипов CRISPR-Cas среди архей и бактерий.

Cas1 не всегда связан с системами CRISPR-Cas, следовательно, возможно, что существует две ветви "самостоятельных" Cas1, что позволяет сделать предположение, что могут существовать различия в функции и происхождении и возможны новые мобильные элементы (см. Makarova, Krupovic, Koonin, Frontiers Genet 2014). Организация генома трех семейств каспозонов может дать некоторую разгадку. В дополнение к Cas1 и PolB каспозоны включают различные гены, в том числе различные нуклеазы (Krupovic et al. BMC Biology 2014). Одно семейство имеет инициируемую белком полимеразу, другое семейства имеет инициируемую РНК полимеразу. Кроме различных Euryarchaeota и Thaumarchaeota каспозоны были обнаружены у некоторых бактерий, что позволяет предположить наличие горизонтального переноса. Предположительно, каспозон Cas1 (транспозаза/интеграза) является базальной кладой в филогении Cas1.

Бактерии и археи используют CRISPR для адаптивного иммунитета у прокариот и эукариот с помощью манипуляций с геномом. Cas 1 обеспечивает готовый инструмент для манипуляций с геномом. У каспозонов и CRISPR существуют аналогичные механизмы интеграции, в частности, зависимое от репликации приобретение с помощью копирования/вставки, а не вырезания-и-вставки (Krupovic et al. BMC Biology 2014). Cas1 является истинной интегразой (Nuñez JK, Lee AS, Engelman A, Doudna JA. Integrase-mediated spacer acquisition during CRISPR-Cas adaptive immunity. Nature. 2015 Feb 18). Существует подобие между концевыми инвертированными повторами каспозонов и CRISPR (Krupovic et al. BMC Biology 2014). CRISPR-Cas может происходит от каспозона и локуса врожденного иммунитета (Koonin, Krupovic, Nature Rev Genet, 2015). Эволюция систем адаптивного иммунитета у прокариот и животных могла проходить параллельно с интеграцией транспозонов в локусы врожденного иммунитета (Koonin, Krupovic, Nature Rev Genet, 2015). Транспозаза RAG1 (ключевой фермент рекомбинации V(D)J у позвоночных) могла произойти из транспозонов Transib (Kapitonov VV, Jurka J. RAG1 core and V(D)J recombination signal sequences were derived from Transib transposons. PLoS Biol. 2005 Jun;3(6):e181), однако, ни один из Transib не кодирует RAG2. Транспозоны, кодирующие RAG1 и RAG2, описаны в Kapitonov, Koonin, Biol Direct 2015, а филогения транспозазы Transib представлена в Kapitonov, Koonin, Biol Direct 2015. Защитное удаление ДНК у ресничных возникло из транспозона PiggyMAc и RNAi, врожденной иммунной системы (Swart EC, Nowacki M. The eukaryotic way to defend and edit genomes by sRNA-targeted DNA deletion. Ann N Y Acad Sci. 2015).

Относительная стабильность классификации подразумевает, что наиболее распространенные варианты систем CRISPR-Cas уже известны. Однако существование редких, в настоящее время неклассифицированных вариантов подразумевает, что остаются дополнительные типы и подтипы, которые необходимо охарактеризовать (Makarova et al. 2015. Evolutionary classification of CRISPR-Cas systems and cas genes).

Транспозоны внесли ключевой вклад в эволюцию адаптивного иммунитета и других систем, вовлеченных в манипуляции с ДНК. CRISPR-Cas класса 1 произошли от транспозонов, но только с точки зрения адаптационного модуля. CRISPR-Cas класса 2 обладают как функцией адаптации, так и эффекторной функцией, при этом модули могли возникнуть из различных транспозонов.

Пример 2. Новые прогнозируемые системы CRISPR-Cas класса 2 и доказательство их независимого происхождения от мобильных генетических элементов

Системы CRISPR-Cas, обеспечивающие адаптивный иммунитет бактерий и архей, демонстрируют чрезвычайное разнообразие состава белков и структуры локусов генома. Эти системы в широком смысле разделены на два класса, класс 1 с мультисубъединичными эффекторными комплексами и класс 2 с односубъединичными эффекторными модулями, в качестве примера которых приводится белок Cas9. Заявители разработали простой компьютерный конвейерный алгоритм для прогнозирования предполагаемых новых систем CRISPR-Cas класса 2. Анализ базы данных полных геномов бактерий с применением данного конвейерного алгоритма привел к идентификации двух новых вариантов, каждый из которых представлен у различных бактерий и содержит гены cas1 и cas2 вместе с третьим геном, кодирующим крупный белок, который, как прогнозируется, функционирует как эффекторный модуль. В случае первого из этих локусов предполагаемый эффекторный белок (C2c1p) содержит домен RuvC-подобной нуклеазы и напоминает описанный ранее белок Cpf1, прогнозируемый эффектор систем CRISPR-Cas V типа; в соответствии с этим, новую предполагаемую систему классифицируют как подтип V-B. При глубоком сравнении белковых последовательностей сделано предположение, что содержащие RuvC эффекторные белки, Cas9, Cpf1 и C2C1p, возникли независимо от различных групп белков TnpB, кодируемых транспозонами. Вторая группа новых предполагаемых локусов CRISPR-Cas включает крупный белок, содержащий два сильно дивергировавшие домена HEPN с прогнозируемой РНКазной активностью. В связи с новизной прогнозируемого эффекторного белка эти локусы классифицируют как новый CRISPR-Cas VI типа, который, по-видимому, нацеливается на мРНК. Совместно результаты данного анализа показывают, что системы CRISPR-Cas класса 2 возникали множество независимых раз путем комбинации различных кодирующих Cas1-Cas2 адаптационных модулей с эффекторными белками, происходящими от других мобильных элементов. Данный путь эволюции наиболее вероятно дал множество вариантов систем класса 2, которые еще предстоит открыть.

Системы адаптивного иммунитета CRISPR-Cas присутствуют в ~45% геномов бактерий и ~90% геномов архей и демонстрируют чрезвычайное разнообразие состава и последовательности белка Cas, а также структуры локусов генома. На основе структурной организации их комплексов crRNA-эффектор эти системы делятся на два класса, а именно класс 1, с мультисубъединичными эффекторными комплексами, и класс 2, с односубъединичными эффекторными комплексами (Makarova, 2015). Системы класса 1 намного более распространены и разнообразны, чем системы класса 2. В настоящее время класс 1 представлен 12 отдельными подтипами, закодированными в геномах многочисленных архей и бактерий, в то же время системы класса 2 включают три подтипа системы II типа и предполагаемого V типа, которые совместно обнаруживаются в приблизительно 10% секвенированных геномов бактерий (с единственным геномом архей, содержащим систему предполагаемого типа). Системы класса 2, как правило, содержат только три или четыре гена в опероне cas, а именно пару генов cas1-cas2, которые вовлечены в адаптацию, но не в интерференцию, один мультидоменный эффекторный белок, который отвечает за интерференцию, но также вносит вклад в процессинг pre-crRNA и адаптацию, и зачастую четвертый ген с неохарактеризованными функциями, который является необязательным по меньшей мере в некоторых системах II типа. В большинстве случаев массив CRISPR и ген для отличающейся молекулы РНК, известной как tracrRNA (транс-кодируемая малая РНК CRISPR), расположены смежно с оперонами cas класса 2 (Chylinski, 2014). tracrRNA является частично гомологичной повторам в пределах соответствующего массива CRISPR, и она необходима для процессинга pre-crRNA, который катализируется РНКазой III, универсальным ферментом бактерий, который не ассоциирован с локусами CRISPR-cas (Deltcheva, 2011), (Chylinski, 2014; Chylinski, 2013).

Мультидоменный эффекторный белок Cas9 II типа был охарактеризован с функциональной и структурной точки зрения в мельчайших деталях. У различных бактерий белки Cas9 содержат от приблизительно 950 до 1400 аминокислот и содержат два нуклеазных домена, а именно RuvC-подобную нуклеазу (РНКаза H) и нуклеазу HNH (McrA-подобная) (Makarova, 2011). Кристаллическая структура Cas9 выявляет двудольную организацию белка с отдельными долей распознавания мишени и нуклеазной долей, при этом на последней расположены оба домена RuvC и HNH (Nishimasu, 2014), (Jinek, 2014). Каждый из нуклеазных доменов Cas9 необходим для расщепления одной из нитей целевой ДНК (Jinek, 2012; Sapranauskas, 2011). Недавно было показано, что Cas9 вносит вклад во все три стадии реакции с участием CRISPR, которые представляют собой не только расщепление целевой ДНК (интерференцию), но также адаптацию и процессинг pre-crRNA (Jinek, 2012). Более конкретно, отдельный домен в нуклеазной доле Cas9, как было показано, распознает и связывает ассоциированный с протоспейсером мотив (PAM) в вирусной ДНК во время стадии адаптации (Nishimasu, 2014), (Jinek, 2014), (Heler, 2015; Wei, 2015). На этой стадии ответа с участием CRISPR Cas9 образует комплекс с Cas1 и Cas2, двумя белками, которые вовлечены в обнаружение спейсера во всех системах CRISPR-Cas (Heler, 2015; Wei, 2015).

Белок Cas9, объединенный с tracrRNA, в недавнее время стал ключевым инструментом для нового поколения способов редактирования и конструирования генома (Gasiunas, 2013; Mali, 2013; Sampson, 2014; Cong, 2015). Данная применимость Cas9 в редактирование генома основывается на том факте, что в системах CRISPR-Cas II типа, в отличие от остальных типов систем CRISPR-Cas, все виды активности, требуемые для распознавания и расщепления целевой ДНК, собраны в одном, хотя и крупном, мультидоменном белке. Этот признак систем типа II в значительной степени облегчает конструирование эффективных инструментов для манипуляций с геномом. Важно отметить, что не все варианты Cas9 являются равноценными. Большинство работ на настоящий момент было выполнено с Cas9 из Streptococcus pyogenes, но другие виды Cas9 могли бы обеспечить значительные преимущества. В качестве примера, недавние эксперименты с Cas9 из Staphylococcus aureus, который на приблизительно 300 аминокислот короче, чем белок S. pyogenes, обеспечили возможность упаковки Cas9 в вектор на основе аденоассоциированного вируса, что привело к значительному улучшению применимости CRISPR-Cas в редактировании генома in vivo (Ran, 2015).

В настоящее время системы CRISPR-Cas II типа разделяют на 3 подтипа (II-A, II-B и II-C) (Makarova, 2011) (Fonfara, 2014; Chylinski, 2013; Chylinski, 2014). В дополнение к генам cas1, cas2 и cas9, которые являются общими для всех локусов типа II, подтип II-A характеризуется дополнительным геном, csn2, который кодирует инактивированную АТФазу (Nam, 2011; Koo, 2012; Lee, 2012), которая играет все еще слабо охарактеризованную роль в обнаружении спейсера (Barrangou, 2007; Arslan, 2013), (Heler, 2015). В системах подтипа II-B отсутствует csn2, но вместо этого содержится ген cas4, который в иных случаях является типичным для систем типа I и кодирует 5'-3'-экзонуклеазу семейства recB, которая вносит вклад в обнаружение спейсера путем образования концов ДНК, способных к рекомбинации (Zhang, 2012), (Lemak, 2013; Lemak, 2014). Гены cas1 и cas2 подтипа II-B наиболее тесно связаны с соответствующими белками систем CRISPR-Cas I типа, что предполагает рекомбинантное происхождение данного подтипа II типа (Chylinski, 2014).

Системы CRISPR-Cas подтипа II-C проявляют минимальное разнообразие, при этом состоят только из генов cas1, cas2 и cas9 (Chylinski, 2013; Koonin, 2013; Chylinski, 2014). Однако, как было показано, примечательно, что у Campylobacter jejuni для обнаружения спейсера с помощью систем типа II-C требуется участие Cas4, кодируемого бактериофагом (Hooton, 2014). Другим отличительным признаком подтипа II-C является то, что образование некоторых crRNA посредством транскрипции подразумевает транскрипцию с внутренних альтернативных промоторов, в отличие от процессинга, наблюдаемого во всех других экспериментально охарактеризованных систем CRISPR-Cas (Zhang, 2013).

Недавно с помощью сравнительного анализа геномов бактерий было спрогнозировано существование систем CRISPR-Cas V типа. Эти предполагаемые новые системы CRISPR-Cas представлены в геномах некоторых бактерий, в частности, принадлежащих роду Francisella, и у одной археи, Methanomethylophilus alvus (Vestergaard, 2014). Все предполагаемые локусы V типа содержат cas1, cas2, отдельный ген, обозначенный cpf1, и массив CRISPR (Schunder, 2013), (Makarova, 2015). Cpf1 представляет собой крупный белок (приблизительно 1300 аминокислот), который содержит домен RuvC-подобной нуклеазы, гомологичный соответствующему домену Cas9, вместе с эквивалентом характерного кластера Cas9 с высоким содержанием аргинина. Однако у Cpf1 отсутствует HNH-нуклеазный домен, который присутствует у всех белков Cas9, а RuvC-подобный домен граничит с последовательностью Cpf1, в отличие от Cas9, где он содержит длинные вставки, включающие домен HNH (Chylinski, 2014; Makarova, 2015). Эти главные отличия в структуре доменов Cas9 и Cpf1 позволяют высказать предположение, что системы, содержащие Cpf1, следует классифицировать как новый тип. Состав предполагаемых систем V типа подразумевает, что Cpf1 является односубъединичным эффекторным комплексом, и, соответственно, эти системы относятся к CRISPR-Cas класса 2. Некоторые из предполагаемых локусов V типа кодируют Cas4 и, соответственно, напоминают локусы подтипа II-B, в то время как в других отсутствует Cas4, и они, таким образом, аналогичны подтипу II-C.

Было показано, что ближайшими гомологами белков Cas9 и Cpf1 являются белки TnpB, которые кодируются транспозонами семейства IS605 и содержат домен RuvC-подобной нуклеазы, а также "цинковый палец", который имеет аналог в Cpf1. Кроме того, были идентифицированы гомологи TnpB, которые содержат домен HNH, вставленный в RuvC-подобный домен, и демонстрируют высокое сходство последовательности с Cas9. Роль TnpB для транспозонов остается неясной, поскольку, как было показано, данный белок не требуется для осуществления транспозиции.

С учетом гомологии Cas9 и Cpf1 с кодируемыми транспозонами белками, заявители высказали гипотезу, что системы CRISPR-Cas класса 2 могли возникать множество раз в результате рекомбинации между транспозоном и локусом cas1-cas2. В соответствии с этим, заявители разработали простую компьютерную стратегию для идентификации локусов генома, которые могли бы быть кандидатами для новых вариантов класса 2. В данном документе заявители описывают первое применение данного подхода, которое привело к идентификации двух групп таких кандидатов, одна из которых, по-видимому, представляет собой отдельный подтип V типа, в то время как вторая группа, видимо, квалифицируется как VI тип. Новые варианты систем CRISPR-Cas класса 2 представляют явный интерес в качестве потенциальных инструментов для редактирования генома и регуляции экспрессии.

Стратегия поиска в базе данных для обнаружения кандидатных новых локусов CRISPR-Cas класса 2. Заявители реализовали прямой компьютерный подход для идентификации кандидатных новых систем CRISPR-Cas класса 2 (ФИГ. 7. Конвейерный алгоритм). Вследствие того, что подавляющее большинство локусов CRISPR-Cas содержат ген cas1 (Makarova, 2011; Makarova, 2015), и последовательность Cas1 является наиболее высококонсервативной среди всех белков Cas (Takeuchi, 2012), заявители заключили, что cas1 представляет собой наилучшую возможную точку привязки для идентификации кандидатных новых локусов с применением транслирующего поиска PSI-BLAST с профилями Cas1. После обнаружения всех контигов, кодирующих Cas1, кодирующие белок гены прогнозировали с применением GenemarkS в пределах участков размером 20 т. о. выше и ниже гена cas1. Эти прогнозируемые гены были аннотированы с применением CDD от NCBI и профилей, специфических для белка Cas, и массивы CRISPR прогнозировали с применением программы PILER-CR. Данную процедуру проводили для отнесения обнаруженных локусов CRISPR-Cas к известным подтипам. Неклассифицированные кандидатные локусы CRISPR-Cas, содержащие крупные (>500 аминокислот) белки, выбирали в качестве кандидатов для новых систем класса 2, при условии характерного присутствия таких белков для II и V типов (Cas9 и Cpf1 соответственно). Все 34 кандидатных локуса, обнаруженные с применением данного критерия, анализировали индивидуальным образом с применением PSI-BLAST и HHpred. Белковые последовательности, кодируемые кандидатными локусами, далее применяли в качестве запрашиваемых последовательностей для поиска дополнительных аналогов в метагеномных базах данных, и длинные контиги, обнаруженные в данных поисках анализировали, как указано выше. Данный анализ с использованием конвейерного алгоритма привел к обнаружению двух групп локусов, прочно связанных с системами CRISPR-Cas.

Предполагаемая система типа V-B. Первая группа кандидатных локусов, предварительно обозначенная названием C2c1 (класс 2, кандидат 1), представлена в геномах бактерий из четырех главных таксономических групп, включая Bacilli, Verrucomicrobia, альфа-протеобактерии и дельта-протеобактерии (фиг. 8 "Организация полных локусов систем класса 2"). Все локусы C2c1 кодируют слияние Cas1-Cas4, Cas2 и крупный белок, который заявители обозначили как C2c1p, и, как правило, они являются смежными с массивом CRISPR (фиг. 9, соседство C2c1). В филогенетическом дереве Cas1 соответствующие белки Cas1 образуют кластер с системой типа I-U (фиг. 10, дерево Cas1), единственной, в которой было обнаружено слияние Cas1-Cas4. Белки C2c1p состоят из примерно 1200 аминокислот, и с помощью поиска HHpred обнаружили значительное сходство между C-концевой частью данного белка и подгруппой белков TnpB, кодируемых транспозонами семейства IS605. В отличие от этого, никакого значительного сходства не обнаружили между C2c1p и Cas9 или Cpf1, которые похожи на другие группы белков TnpB (Chylinski, 2014), (Makarova, 2015; Makarova, 2015). Таким образом, структура доменов C2c1p подобна таковой у Cpf1 и отличается от таковой у Cas9, хотя все три белка Cas, видимо, произошли от семейства TnpB (фиг. 11 "Организация доменов в семействах класса 2"). Для N-концевого участка C2c1p не показано значительное сходство с другими белками. Прогнозирование вторичной структуры показывает, что данный участок принимает, главным образом, конформацию альфа-спирали. Сходство двух сегментов с TnpB охватывает три каталитических мотива RuvC-подобной нуклеазы с сигнатурой D..E..D (фиг. 12, "Участки гомологии с TnpB у белков класса 2"); участок, соответствующий мостиковой спирали (также известный как кластер с высоким содержанием аргинина), который в случае белка Cas9 вовлечен в связывание crRNA; и небольшой участок, который, по-видимому, является аналогом "цинкового пальца" TnpB (однако, связывающие цинк цистеиновые остатки в C2C1p замещены, что указывает на то, что данный белок не связывает цинк). Сходство структуры доменов C2c1p и Cpf1 подразумевает, что локусы C2c1 лучше классифицировать как подтип V-B, в этом случае кодирующие Cpf1 локусы нужно относить к подтипу V-A.

Несмотря на сходство генов cas1, ассоциированных с данной системой, повторы CRISPR в соответствующих массивах являются высоко гетерогенными, хотя все они имеют длину 36-37 п. о. и их можно классифицировать как неструктурированные (энергия сворачивания, ∆G, составляет -0,5-4,5 ккал/моль, в то время как у высоко палиндромных CRISPR ∆G составляет ниже -7). В соответствии со схемой классификации CRISPRmap (Lange, 2013) несколько повторов подтипа V-B обладают некоторым сходством последовательности или структуры с повторами II типа.

Учитывая возможность того, что предполагаемые системы CRISPR-Cas подтипа V-B по механизму аналогичны системам II типа, заявители сделали попытку идентифицировать tracrRNA в соответствующих локусах генома.

С помощью сравнения спейсеров из массивов CRISPR типа V-B с базой данных неизбыточных нуклеотидных последовательностей идентифицировали несколько совпадений с геномами различных бактерий. Значимость этих совпадений трудно оценить, учитывая то, что фаги для бактерий, которые несут предполагаемые системы CRISPR-Cas типа V-B, не известны.

Предполагаемые системы VI типа. Вторую группу кандидатных локусов CRISPR-Cas, обозначенную как C2c2, идентифицировали в геномах из 5 главных таксономических групп бактерий, альфа-протеобактерии, Bacilli, Clostridia, Fusobacteria и Bacteroidetes (фиг. 8 "Организация полных локусов систем класса 2"). Подобно c2c1, локусы C2c2 содержат гены cas1 и cas2 вместе с крупным белком (C2c2p) и массивом CRISPR; однако, в отличие от C2c1 C2c2p зачастую закодирован после массива CRISPR, а не cas1-cas2 (фиг. 13, соседство C2c2). На филогенетическом дереве Cas1 белки Cas1 из локусов C2c2 распределяются по двум кладам. Первая клада включает Cas1 от Clostridia и находится в пределах поддерева II типа вместе с небольшой ветвью типа III-A (фиг. 10, дерево Cas1). Вторая клада состоит из белков Cas1 из локусов C2c2 Leptotrichia, и она располагается внутри смешанной ветви, которая преимущественно содержит белки Cas1 из систем CRISPR-Cas типа III-A. С помощью поисков в базах данных с применением HHpred и PSI-BLAST не обнаружили сходства последовательности между C2c2p и другими белками. Однако просмотр множественных выравниваний белковых последовательностей C2c2p привел к идентификации двух очень консервативных мотивов RxxxxH, которые характерны для доменов HEPN (Anantharaman, 2013). Результаты прогнозирования вторичной структуры показывают, что данные мотивы расположены с пределах сопутствующих структур, сравнимых со структурой домена HEPN, как и при общем прогнозировании вторичной структуры для соответствующих частей C2c2p. Домены HEPN представляют собой небольшие (~150 аминокислот) домены с альфа-структурой, которые, как было показано или прогнозируется, обладают РНКазной активностью и зачастую ассоциированы с различными системами защиты (Anantharaman, 2013) (фиг. 14, мотив RxxxxH HEPN в семействе C2c2). Последовательности доменов HEPN проявляют небольшую консервативность, за исключением каталитического мотива RxxxxH. Таким образом, представляется возможным, что C2c2p содержит два активных домена HEPN. Домен HEPN не является новым для систем CRISPR-Cas, поскольку он часто ассоциирован с доменом CARF (CRISPR-ассоциированная укладка Россмана) у белков Csm6 и Csx1, которые присутствуют во многих системах CRISPR-Cas III типа (Makarova, 2014). Эти белки не принадлежат ни к адаптационным модулям, ни к эффекторным комплексам, а, по-видимому, являются компонентами модуля ассоциированного иммунитета, который присутствует в большинстве систем CRISPR-Cas и задействован в запрограммированной гибели клетки, а также регуляторных функциях во время реакции с участием CRISPR (Koonin, 2013; Makarova, 2012; Makarova, 2013). Однако C2c2p отличается от Csm6 и Csx1 тем, что этот намного более крупный белок является единственным, который закодирован в локусе C2c2, кроме Cas1 и Cas2. Таким образом, представляется возможным, что C2c2p является эффектором этих предполагаемых новых систем CRISPR-Cas, а домены HEPN являются его каталитическими фрагментами. За пределами прогнозируемых доменов HEPN для последовательности C2c1p не показано обнаруживаемого сходства с другими белками, и прогнозируется, что она принимает смешанную вторичную альфа/бета-структуру.

Массивы CRISPR в локусах C2c2 являются высоко гетерогенными, с длиной от 35 до 39 п. о., и неструктурированными (энергия сворачивания составляет от -0,9 до 4,7 ккал/моль). В соответствии с CRISPRmap (Lange, 2013) эти CRISPR не принадлежат ни какому из классов с установленной структурой, и их отнесли к 3 из 6 надклассов. Только CRISPR из Listeria seeligeri отнесли к семейству последовательностей 24, которое обычно ассоциировано с системами типа II-C.

При анализе спейсеров из локуса C2c2 идентифицировали один 30-нуклеотидный участок, идентичный геномной последовательности из Listeria weihenstephanensis и двум несовершенным хитам c геномами бактериофагов.

Учитывая уникальный прогнозируемый эффекторный комплекс C2c2, эти системы видимо следует квалифицировать как предполагаемый CRISPR-Cas VI типа. Кроме того, с учетом того, что все экспериментально охарактеризованные и ферментативно активные домены HEPN представляют собой РНКазы, системы VI типа вероятно действуют на уровне мРНК.

Заявители применили простую прямую компьютерную стратегию для прогнозирования новых систем CRISPR-cas класса 2. Описанные ранее системы класса 2, а именно II типа и предполагаемого V типа, состоят из генов cas1 и cas2 (и в некоторых случаях также cas4), составляющих адаптационный модуль, и одного крупного белка, который составляет эффекторный модуль. Следовательно, заявители выказали предположение, что любой локус генома, содержащий cas1 и крупный белок, может быть потенциальным кандидатом для новой системы класса 2, который заслуживает подробного исследования. Такой анализ с применением чувствительных способов для сравнения белковых последовательностей привел к идентификации двух сильных кандидатов, один из которых представляет собой подтип описанного ранее предполагаемого V типа, тогда как другой квалифицируется как новый предполагаемый VI тип, в силу присутствия нового прогнозируемого эффекторного белка. Многие из этих новых систем встречаются в геномах бактерий, которые не содержат другие локусы CRISPR-Cas, что подразумевает, что системы типа V и типа VI могут функционировать автономно.

В сочетании с результатами предыдущих анализов (Chylinski, 2014; Makarova, 2011), идентификация предполагаемого типа V-B выявляет главную тему в эволюции систем CRISPR-Cas класса 2. Эффекторные белки из всех известных в настоящее время систем данного класса, по-видимому, произошли из группы мобильных генетических элементов, которые кодируют белки TnpB, содержащие RuvC-подобный домен. Последовательности RuvC-подобных доменов TnpB и гомологичных доменов эффекторных белков класса 2 являются слишком дивергировавшими, чтобы провести надежный филогенетический анализ. Несмотря на все это, похоже, что в случае Cas9, эффекторного белка систем II типа, можно с легкостью идентифицировать конкретного предка, а именно семейство TnpB-подобных белков, особенно распространенных у Cyanobacteria, которые демонстрируют относительно высокое сходство последовательностей с Cas9, и имеют общую с ним структуру полных доменов, а именно RuvC-подобного домена и нуклеазного домена HNH и мостиковой спирали с высоким содержанием аргинина (Chylinski, 2014) (фиг. 11, "Организация доменов у семейств класса 2"; фиг. 12, "Участки гомологии с TnpB у белков класса 2"). В отличие от Cas9 было невозможно проследить Cpf1 и C2c1 до конкретного семейства TnpB; при этом несмотря на консервативность всех мотивов, имеющих в центре каталитические остатки RuvC-подобных нуклеаз, для этих белков показано только ограниченное сходство с универсальными профилями TnpB. Однако, учитывая то, что C2c1p не проявляет обнаруживаемое сходство последовательности с Cpf1, содержит отличающиеся вставки между мотивами RuvC и явно неродственные N-концевые участки, представляется наиболее вероятным, что Cpf1 и C2c1 возникли независимо от различных семейств в пределах группы элементов, кодирующих TnpB.

Необычным является то, что белки TnpB кажутся "заранее разработанными" для использования в эффекторных комплексах CRISPR-Cas класса 2, вследствие чего они скорее всего вовлекались множество раз. Вполне возможно, что такая применимость белков TnpB относится к их прогнозируемой способности разрезать однонитевую ДНК, будучи связанными с молекулой РНК через мостиковую спираль с высоким содержанием R, которая, как было показано, в случае Cas9 связывает crRNA (Jinek, 2014; Nishimasu, 2014). Функции TnpB недостаточно понятны. Этот белок не требуется для транспозиции, и в одном случае, как было показано, подавляет транспозицию (Pasternak, 2013), но его механизм действия остается неизвестным. Экспериментальное изучение TnpB вероятно прольет свет на аспекты механизма действия систем CRISPR-Cas класса 2. Следует отметить, что механизмы действия Cpf1 и C2c1 могут быть сходны друг с другом, но их связывание значительно отличается от связывания Cas9, поскольку у первых двух белков отсутствует домен HNH, который у Cas9 отвечает за введение однонитевого разрыва в одну из нитей целевой ДНК (Gasiunas, 2012), (Jinek, 2012), (Chen, 2014). Соответственно, использование Cpf1 и C2c1 могло бы обеспечить дополнительные возможности для редактирования генома.

С точки зрения эволюции, примечательно, что CRISPR-Cas класса 2, по-видимому, полностью происходит от различных мобильных генетических элементов, с учетом недавнего доказательства вероятного происхождения генов cas1 от отдельного семейства транспозонов (Koonin, 2015; Krupovic, 2014). Кроме того, вероятное независимое происхождение эффекторных белков из различных семейств TnpB, вместе с различным филогенетическим родством соответствующих белков cas1, дает веские основания предполагать, что системы класса 2 возникали множество раз вследствие комбинации различных адаптационных модулей и происходящих из транспозонов нуклеаз, дающих эффекторные белки. Этот способ эволюции, по-видимому, является основным проявлением модульного принципа, который характерен для эволюции CRISPR-Cas (Makarova, 2015), при этом подразумевается, что дополнительные комбинации адаптационного и эффекторного модуля, вероятно, существуют в природе.

Предполагаемые системы CRISPR-Cas VI типа содержат прогнозируемый новый эффекторный белок, который содержит два прогнозируемых домена HEPN, которые, вероятно, обладают РНКазной активностью. Домены HEPN не являются частями эффекторных комплексов в других системах CRISPR-Cas, но вовлечены в целый ряд защитных функций, включая прогнозируемую вспомогательную роль в различных системах CRISPR-Cas (Anantharaman, 2013), (Makarova, 2015). Присутствие доменов HEPN в качестве каталитического фрагмента прогнозируемого эффекторного модуля, подразумевает то, что системы VI типа нацеливаются на мРНК и расщепляют ее. Ранее нацеливание на мРНК сообщалось для определенных систем CRISPR-Cas III типа (Hale, 2014; Hale, 2009), (Peng, 2015). Хотя домены HEPN до сих пор не были обнаружены в истинных мобильных генетических элементах, они характеризуются высокой степенью горизонтальной мобильности и являются важным компонентом мобильных элементов, таких как единицы токсин-антитоксин (Anantharaman, 2013). Таким образом, предполагаемые системы VI типа, по-видимому, соответствуют общей парадигме модульной эволюции CRISPR-Cas класса 2 из мобильных компонентов, и, как ожидается, дополнительные варианты и новые типы будут обнаружены с помощью анализа геномных и метагеномных данных.

Модульный принцип эволюции является ключевым признаком систем CRISPR-Cas. Этот способ эволюции, по-видимому, наиболее выражен у систем класса 2, которые возникли благодаря комбинации адаптационных модулей разных других систем CRISPR-Cas с эффекторными белками, которые, по-видимому, привлекались от мобильных элементов независимо множество раз. Учитывая чрезвычайное разнообразие мобильных элементов у бактерий, представляется возможным, что эффекторные модули систем CRISPR-Cas класса 2 также являются очень разнообразными. В данном документе заявители использовали простой компьютерный подход для разграничения двух новых вариантов систем CRISPR-Cas, но с очень большой вероятностью существуют геномы бактерий, которые еще не были подвергнуты секвенированию. Хотя ожидается, что большинство, если не все, из этих новых систем CRISPR-Cas являются редкими, они могут использовать новые стратегии и молекулярные механизмы и будут обеспечивать главный ресурс для новых применений в редактировании генома и биотехнологии.

Программу TBLASTN применяли для поиска в базе данных WGS от NCBI с применением профиля Cas1 в качестве запрашиваемой последовательности. Последовательности контигов или полных областей генома, в которых был идентифицирован хит Cas1, отыскивали в одной базе данных. Участок вокруг гена Cas1 вырезали и подвергали трансляции с применением GENMARK. Проводили поиск для каждого прогнозируемого белка в сравнении с набором профилей из базы данных CDD (Marchler-Bauer, 2009) и специфических профилей Cas, доступных на FTP, с приоритетом хитов с белками Cas. Разработанную ранее процедуру для идентификации полноты локусов CRISPR применяли в отношении каждого локуса.

CRISPRmap (Lange, 2013) применяли для классификации повторов.

Поиски итеративных профилей с помощью PSI-BLAST (Altschul, 1997) и отключенной статистике на основе состава и фильтре низкой сложности, применяли для поиска отдаленно похожих последовательностей в обеих неизбыточных (NR) базах данных от NCBI. Для каждого идентифицированного неизбыточного белка проводили поиск относительно WGS с применением программы TBLAST. HHpred, которую применяли с параметрами по умолчанию, применяли для идентификации отдаленного сходства последовательностей (Soding, 2005). Множественное выравнивание последовательностей разрабатывали с применением MUSCLE (Edgar, 2004). Вторичную структуру белка прогнозировали с применением Jpred 4 (Drozdetskiy, 2015).

Выбранные гены-кандидаты

ID гена: A; тип гена: C2C1; организм: 5. Opitutaceae bacterium TAV5; длина спейсера - мода (диапазон): 34 (от 33 до 37); DR1: GCCGCAGCGAAUGCCGUUUCACGAAUCGUCAGGCGG (SEQ ID NO: 27); DR2: отсутствует; tracrRNA1: GCUGGAGACGUUUUUUGAAACGGCGAGUGCUGCGGAUAGCGAGUUUCUCUUGGGGAGGCGCUCGCGGCCACUUUU (SEQ ID NO: 28); tracrRNA2: отсутствует; белковая последовательность: MSLNRIYQGRVAAVETGTALAKGNVEWMPAAGGDEVLWQHHELFQAAINYYLVALLALADKNNPVLGPLISQMDNPQSPYHVWGSFRRQGRQRTGLSQAVAPYITPGNNAPTLDEVFRSILAGNPTDRATLDAALMQLLKACDGAGAIQQEGRSYWPKFCDPDSTANFAGDPAMLRREQHRLLLPQVLHDPAITHDSPALGSFDTYSIATPDTRTPQLTGPKARARLEQAITLWRVRLPESAADFDRLASSLKKIPDDDSRLNLQGYVGSSAKGEVQARLFALLLFRHLERSSFTLGLLRSATPPPKNAETPPPAGVPLPAASAADPVRIARGKRSFVFRAFTSLPCWHGGDNIHPTWKSFDIAAFKYALTVINQIEEKTKERQKECAELETDFDYMHGRLAKIPVKYTTGEAEPPPILANDLRIPLLRELLQNIKVDTALTDGEAVSYGLQRRTIRGFRELRRIWRGHAPAGTVFSSELKEKLAGELRQFQTDNSTTIGSVQLFNELIQNPKYWPIWQAPDVETARQWADAGFADDPLAALVQEAELQEDIDALKAPVKLTPADPEYSRRQYDFNAVSKFGAGSRSANRHEPGQTERGHNTFTTEIAARNAADGNRWRATHVRIHYSAPRLLRDGLRRPDTDGNEALEAVPWLQPMMEALAPLPTLPQDLTGMPVFLMPDVTLSGERRILLNLPVTLEPAALVEQLGNAGRWQNQFFGSREDPFALRWPADGAVKTAKGKTHIPWHQDRDHFTVLGVDLGTRDAGALALLNVTAQKPAKPVHRIIGEADGRTWYASLADARMIRLPGEDARLFVRGKLVQEPYGERGRNASLLEWEDARNIILRLGQNPDELLGADPRRHSYPEINDKLLVALRRAQARLARLQNRSWRLRDLAESDKALDEIHAERAGEKPSPLPPLARDDAIKSTDEALLSQRDIIRRSFVQIANLILPLRGRRWEWRPHVEVPDCHILAQSDPGTDDTKRLVAGQRGISHERIEQIEELRRRCQSLNRALRHKPGERPVLGRPAKGEEIADPCPALLEKINRLRDQRVDQTAHAILAAALGVRLRAPSKDRAERRHRDIHGEYERFRAPADFVVIENLSRYLSSQDRARSENTRLMQWCHRQIVQKLRQLCETYGIPVLAVPAAYSSRFSSRDGSAGFRAVHLTPDHRHRMPWSRILARLKAHEEDGKRLEKTVLDEARAVRGLFDRLDRFNAGHVPGKPWRTLLAPLPGGPVFVPLGDATPMQADLNAAINIALRGIAAPDRHDIHHRLRAENKKRILSLRLGTQREKARWPGGAPAVTLSTPNNGASPEDSDALPERVSNLFVDIAGVANFERVTIEGVSQKFATGRGLWASVKQRAWNRVARLNETVTDNNRNEEEDDIPM (SEQ ID NO: 29)

ID гена: B; тип гена: C2C1; организм: 7. Bacillus thermoamylovorans штамм B4166; длина спейсера - мода (диапазон): 37 (35-38); DR1: GUCCAAGAAAAAAGAAAUGAUACGAGGCAUUAGCAC (SEQ ID NO: 30); DR2: отсутствует; tracrRNA1: CUGGACGAUGUCUCUUUUAUUUCUUUUUUCUUGGAUCUGAGUACGAGCACCCACAUUGGACAUUUCGCAUGGUGGGUGCUCGUACUAUAGGUAAAACAAACCUUUUU (SEQ ID NO: 31); tracrRNA2: отсутствует; белковая последовательность: MATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDVVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPFTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEHKTLEERIKEDIQAFKSLEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKFVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKLVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWGNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSM (SEQ ID NO: 32)

ID гена: C; тип гена: C2C1; организм: 9. Bacillus sp. NSP2.1; длина спейсера - мода (диапазон): 36 (35-42); DR1: GUUCGAAAGCUUAGUGGAAAGCUUCGUGGUUAGCAC (SEQ ID NO: 33); DR2: отсутствует; tracrRNA1: CACGGAUAAUCACGACUUUCCACUAAGCUUUCGAAUUUUAUGAUGCGAGCAUCCUCUCAGGUCAAAAAA (SEQ ID NO: 34); tracrRNA2: отсутствует; белковая последовательность: MAIRSIKLKLKTHTGPEAQNLRKGIWRTHRLLNEGVAYYMKMLLLFRQESTGERPKEELQEELICHIREQQQRNQADKNTQALPLDKALEALRQLYELLVPSSVGQSGDAQIISRKFLSPLVDPNSEGGKGTSKAGAKPTWQKKKEANDPTWEQDYEKWKKRREEDPTASVITTLEEYGIRPIFPLYTNTVTDIAWLPLQSNQFVRTWDRDMLQQAIERLLSWESWNKRVQEEYAKLKEKMAQLNEQLEGGQEWISLLEQYEENRERELRENMTAANDKYRITKRQMKGWNELYELWSTFPASASHEQYKEALKRVQQRLRGRFGDAHFFQYLMEEKNRLIWKGNPQRIHYFVARNELTKRLEEAKQSATMTLPNARKHPLWVRFDARGGNLQDYYLTAEADKPRSRRFVTFSQLIWPSESGWMEKKDVEVELALSRQFYQQVKLLKNDKGKQKIEFKDKGSGSTFNGHLGGAKLQLERGDLEKEEKNFEDGEIGSVYLNVVIDFEPLQEVKNGRVQAPYGQVLQLIRRPNEFPKVTTYKSEQLVEWIKASPQHSAGVESLASGFRVMSIDLGLRAAAATSIFSVEESSDKNAADFSYWIEGTPLVAVHQRSYMLRLPGEQVEKQVMEKRDERFQLHQRVKFQIRVLAQIMRMANKQYGDRWDELDSLKQAVEQKKSPLDQTDRTFWEGIVCDLTKVLPRNEADWEQAVVQIHRKAEEYVGKAVQAWRKRFAADERKGIAGLSMWNIEELEGLRKLLISWSRRTRNPQEVNRFERGHTSHQRLLTHIQNVKEDRLKQLSHAIVMTALGYVYDERKQEWCAEYPACQVILFENLSQYRSNLDRSTKENSTLMKWAHRSIPKYVHMQAEPYGIQIGDVRAEYSSRFYAKTGTPGIRCKKVRGQDLQGRRFENLQKRLVNEQFLTEEQVKQLRPGDIVPDDSGELFMTLTDGSGSKEVVFLQADINAAHNLQKRFWQRYNELFKVSCRVIVRDEEEYLVPKTKSVQAKLGKGLFVKKSDTAWKDVYVWDSQAKLKGKTTFTEESESPEQLEDFQEIIEEAEEAKGTYRTLFRDPSGVFFPESVWYPQKDFWGEVKRKLYGKLRERFLTKAR (SEQ ID NO: 35)

ID гена: D; тип гена: C2C2; организм: 4. Lachnospiraceae bacterium NK4A144 G619; длина спейсера - мода (диапазон): 35; DR1: GUUUUGAGAAUAGCCCGACAUAGAGGGCAAUAGAC (SEQ ID NO: 36); DR2: GUUAUGAAAACAGCCCGACAUAGAGGGCAAUAGACA (SEQ ID NO: 37); tracrRNA1: отсутствует; tracrRNA2: отсутствует; белковая последовательность: MKISKVDHTRMAVAKGNQHRRDEISGILYKDPTKTGSIDFDERFKKLNCSAKILYHVFNGIAEGSNKYKNIVDKVNNNLDRVLFTGKSYDRKSIIDIDTVLRNVEKINAFDRISTEEREQIIDDLLEIQLRKGLRKGKAGLREVLLIGAGVIVRTDKKQEIADFLEILDEDFNKTNQAKNIKLSIENQGLVVSPVSRGEERIFDVSGAQKGKSSKKAQEKEALSAFLLDYADLDKNVRFEYLRKIRRLINLYFYVKNDDVMSLTEIPAEVNLEKDFDIWRDHEQRKEENGDFVGCPDILLADRDVKKSNSKQVKIAERQLRESIREKNIKRYRFSIKTIEKDDGTYFFANKQISVFWIHRIENAVERILGSINDKKLYRLRLGYLGEKVWKDILNFLSIKYIAVGKAVFNFAMDDLQEKDRDIEPGKISENAVNGLTSFDYEQIKADEMLQREVAVNVAFAANNLARVTVDIPQNGEKEDILLWNKSDIKKYKKNSKKGILKSILQFFGGASTWNMKMFEIAYHDQPGDYEENYLYDIIQIIYSLRNKSFHFKTYDHGDKNWNRELIGKMIEHDAERVISVEREKFHSNNLPMFYKDADLKKILDLLYSDYAGRASQVPAFNTVLVRKNFPEFLRKDMGYKVHFNNPEVENQWHSAVYYLYKEIYYNLFLRDKEVKNLFYTSLKNIRSEVSDKKQKLASDDFASRCEEIEDRSLPEICQIIMTEYNAQNFGNRKVKSQRVIEKNKDIFRHYKMLLIKTLAGAFSLYLKQERFAFIGKATPIPYETTDVKNFLPEWKSGMYASFVEEIKNNLDLQEWYIVGRFLNGRMLNQLAGSLRSYIQYAEDIERRAAENRNKLFSKPDEKIEACKKAVRVLDLCIKISTRISAEFTDYFDSEDDYADYLEKYLKYQDDAIKELSGSSYAALDHFCNKDDLKFDIYVNAGQKPILQRNIVMAKLFGPDNILSEVMEKVTESAIREYYDYLKKVSGYRVRGKCSTEKEQEDLLKFQRLKNAVEFRDVTEYAEVINELLGQLISWSYLRERDLLYFQLGFHYMCLKNKSFKPAEYVDIRRNNGTIIHNAILYQIVSMYINGLDFYSCDKEGKTLKPIETGKGVGSKIGQFIKYSQYLYNDPSYKLEIYNAGLEVFENIDEHDNITDLRKYVDHFKYYAYGNKMSLLDLYSEFFDRFFTYDMKYQKNVVNVLENILLRHFVIFYPKFGSGKKDVGIRDCKKERAQIEISEQSLTSEDFMFKLDDKAGEEAKKFPARDERYLQTIAKLLYYPNEIEDMNRFMKKGETINKKVQFNRKKKITRKQKNNSSNEVLSSTMGYLFKNIKL (SEQ ID NO: 38)

ID гена: E; тип гена: C2C2; организм: 8. Listeria seeligeri серовар 1/2b штамм SLCC3954; длина спейсера - мода (диапазон): 30; DR1: GUUUUAGUCCUCUUUCAUAUAGAGGUAGUCUCUUAC (SEQ ID NO: 39); DR2: отсутствует; tracrRNA1: AUGAAAAGAGGACUAAAACUGAAAGAGGACUAAAACACCAGAUGUGGAUAACUAUAUUAGUGGCUAUUAAAAAUUCGUCGAUAUUAGAGAGGAAACUUU (SEQ ID NO: 40); tracrRNA2: отсутствует; белковая последовательность: MWISIKTLIHHLGVLFFCDYMYNRREKKIIEVKTMRITKVEVDRKKVLISRDKNGGKLVYENEMQDNTEQIMHHKKSSFYKSVVNKTICRPEQKQMKKLVHGLLQENSQEKIKVSDVTKLNISNFLNHRFKKSLYYFPENSPDKSEEYRIEINLSQLLEDSLKKQQGTFICWESFSKDMELYINWAENYISSKTKLIKKSIRNNRIQSTESRSGQLMDRYMKDILNKNKPFDIQSVSEKYQLEKLTSALKATFKEAKKNDKEINYKLKSTLQNHERQIIEELKENSELNQFNIEIRKHLETYFPIKKTNRKVGDIRNLEIGEIQKIVNHRLKNKIVQRILQEGKLASYEIESTVNSNSLQKIKIEEAFALKFINACLFASNNLRNMVYPVCKKDILMIGEFKNSFKEIKHKKFIRQWSQFFSQEITVDDIELASWGLRGAIAPIRNEIIHLKKHSWKKFFNNPTFKVKKSKIINGKTKDVTSEFLYKETLFKDYFYSELDSVPELIINKMESSKILDYYSSDQLNQVFTIPNFELSLLTSAVPFAPSFKRVYLKGFDYQNQDEAQPDYNLKLNIYNEKAFNSEAFQAQYSLFKMVYYQVFLPQFTTNNDLFKSSVDFILTLNKERKGYAKAFQDIRKMNKDEKPSEYMSYIQSQLMLYQKKQEEKEKINHFEKFINQVFIKGFNSFIEKNRLTYICHPTKNTVPENDNIEIPFHTDMDDSNIAFWLMCKLLDAKQLSELRNEMIKFSCSLQSTEEISTFTKAREVIGLALLNGEKGCNDWKELFDDKEAWKKNMSLYVSEELLQSLPYTQEDGQTPVINRSIDLVKKYGTETILEKLFSSSDDYKVSAKDIAKLHEYDVTEKIAQQESLHKQWIEKPGLARDSAWTKKYQNVINDISNYQWAKTKVELTQVRHLHQLTIDLLSRLAGYMSIADRDFQFSSNYILERENSEYRVTSWILLSENKNKNKYNDYELYNLKNASIKVSSKNDPQLKVDLKQLRLTLEYLELFDNRLKEKRNNISHFNYLNGQLGNSILELFDDARDVLSYDRKLKNAVSKSLKEILSSHGMEVTFKPLYQTNHHLKIDKLQPKKIHHLGEKSTVSSNQVSNEYCQLVRTLLTMK (SEQ ID NO: 41)

ID гена: F; тип гена: C2C2; организм: 12. Leptotrichia wadei F0279; длина спейсера - мода (диапазон): 31; DR1: GUUUUAGUCCCCUUCGUUUUUGGGGUAGUCUAAAUC (SEQ ID NO: 42); DR2: отсутствует; tracrRNA1: GAUUUAGAGCACCCCAAAAGUAAUGAAAAUUUGCAAUUAAAUAAGGAAUAUUAAAAAAAUGUGAUUUUAAAAAAAUUGAAGAAAUUAAAUGAAAAAUUGUCCAAGUAAAAAAA (SEQ ID NO: 43); tracrRNA2: AUUUAGAUUACCCCUUUAAUUUAUUUUACCAUAUUUUUCUCAUAAUGCAAACUAAUAUUCCAAAAUUUUU (SEQ ID NO: 44); белковая последовательность: MGNLFGHKRWYEVRDKKDFKIKRKVKVKRNYDGNKYILNINENNNKEKIDNNKFIRKYINYKKNDNILKEFTRKFHAGNILFKLKGKEGIIRIENNDDFLETEEVVLYIEAYGKSEKLKALGITKKKIIDEAIRQGITKDDKKIEIKRQENEEEIEIDIRDEYTNKTLNDCSIILRIIENDELETKKSIYEIFKNINMSLYKIIEKIIENETEKVFENRYYEEHLREKLLKDDKIDVILTNFMEIREKIKSNLEILGFVKFYLNVGGDKKKSKNKKMLVEKILNINVDLTVEDIADFVIKELEFWNITKRIEKVKKVNNEFLEKRRNRTYIKSYVLLDKHEKFKIERENKKDKIVKFFVENIKNNSIKEKIEKILAEFKIDELIKKLEKELKKGNCDTEIFGIFKKHYKVNFDSKKFSKKSDEEKELYKIIYRYLKGRIEKILVNEQKVRLKKMEKIEIEKILNESILSEKILKRVKQYTLEHIMYLGKLRHNDIDMTTVNTDDFSRLHAKEELDLELITFFASTNMELNKIFSRENINNDENIDFFGGDREKNYVLDKKILNSKIKIIRDLDFIDNKNNITNNFIRKFTKIGTNERNRILHAISKERDLQGTQDDYNKVINIIQNLKISDEEVSKALNLDVVFKDKKNIITKINDIKISEENNNDIKYLPSFSKVLPEILNLYRNNPKNEPFDTIETEKIVLNALIYVNKELYKKLILEDDLEENESKNIFLQELKKTLGNIDEIDENIIENYYKNAQISASKGNNKAIKKYQKKVIECYIGYLRKNYEELFDFSDFKMNIQEIKKQIKDINDNKTYERITVKTSDKTIVINDDFEYIISIFALLNSNAVINKIRNRFFATSVWLNTSEYQNIIDILDEIMQLNTLRNECITENWNLNLEEFIQKMKEIEKDFDDFKIQTKKEIFNNYYEDIKNNILTEFKDDINGCDVLEKKLEKIVIFDDETKFEIDKKSNILQDEQRKLSNINKKDLKKKVDQYIKDKDQEIKSKILCRIIFNSDFLKKYKKEIDNLIEDMESENENKFQEIYYPKERKNELYIYKKNLFLNIGNPNFDKIYGLISNDIKMADAKFLFNIDGKNIRKNKISEIDAILKNLNDKLNGYSKEYKEKYIKKLKENDDFFAKNIQNKNYKSFEKDYNRVSEYKKIRDLVEFNYLNKIESYLIDINWKLAIQMARFERDMHYIVNGLRELGIIKLSGYNTGISRAYPKRNGSDGFYTTTAYYKFFDEESYKKFEKICYGFGIDLSENSEINKPENESIRNYISHFYIVRNPFADYSIAEQIDRVSNLLSYSTRYNNSTYASVFEVFKKDVNLDYDELKKKFKLIGNNDILERLMKPKKVSVLELESYNSDYIKNLIIELLTKIENTNDTL (SEQ ID NO: 45)

ID гена: G; тип гена: C2C2; организм: 14. Leptotrichia shahii DSM 19757 B031; длина спейсера - мода (диапазон): 30 (30-32); DR1: GUUUUAGUCCCCUUCGAUAUUGGGGUGGUCUAUAUC (SEQ ID NO: 46); DR2: отсутствует; tracrRNA1: AUUGAUGUGGUAUACUAAAAAUGGAAAAUUGUAUUUUUGAUUAGAAAGAUGUAAAAUUGAUUUAAUUUAAAAAUAUUUUAUUAGAUUAAAGUAGA (SEQ ID NO: 47); tracrRNA2: отсутствует; белковая последовательность: MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLAYYTLVDGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFEDLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN (SEQ ID NO: 48)

ID гена: H; тип гена: Cpf1; организм: Francisella ularensis subsp. novicida U112; длина спейсера - мода (диапазон): 31; DR1: GUCUAAGAACUUUAAAUAAUUUCUACUGUUGUAGAU (SEQ ID NO: 49); DR2: отсутствует; tracrRNA1: AUCUACAAAAUUAUAAACUAAAUAAAGAUUCUUAUAAUAACUUUAUAUAUAAUCGAAAUGUAGAGAAUUUU (SEQ ID NO: 50); tracrRNA2: отсутствует; белковая последовательность: MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLAYYTLVDGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFEDLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN (SEQ ID NO: 51)

Гены для синтеза

В случае генов от A до H следует провести оптимизацию для экспрессии у человека и добавить следующую последовательность ДНК к концу каждого гена. Следует обратить внимание, что эта последовательность ДНК содержит стоп-кодон (подчеркнут), поэтому не следует добавлять какой-либо стоп-кодон к кодон-оптимизированной последовательности гена: AAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAGggatccTACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCCTAA (SEQ ID NO: 52).

В случае оптимизации следует избегать следующих сайтов рестрикции: BamHI, EcoRI, HindIII, BsmBI, BsaI, BbsI, AgeI, XhoI, NdeI, NotI, KpnI, BsrGI, SpeI, XbaI, NheI

Эти гены клонируют в простой вектор экспрессии для млекопитающих:

MSLNRIYQGRVAAVETGTALAKGNVEWMPAAGGDEVLWQHHELFQAAINYYLVALLALADKNNPVLGPLISQMDNPQSPYHVWGSFRRQGRQRTGLSQAVAPYITPGNNAPTLDEVFRSILAGNPTDRATLDAALMQLLKACDGAGAIQQEGRSYWPKFCDPDSTANFAGDPAMLRREQHRLLLPQVLHDPAITHDSPALGSFDTYSIATPDTRTPQLTGPKARARLEQAITLWRVRLPESAADFDRLASSLKKIPDDDSRLNLQGYVGSSAKGEVQARLFALLLFRHLERSSFTLGLLRSATPPPKNAETPPPAGVPLPAASAADPVRIARGKRSFVFRAFTSLPCWHGGDNIHPTWKSFDIAAFKYALTVINQIEEKTKERQKECAELETDFDYMHGRLAKIPVKYTTGEAEPPPILANDLRIPLLRELLQNIKVDTALTDGEAVSYGLQRRTIRGFRELRRIWRGHAPAGTVFSSELKEKLAGELRQFQTDNSTTIGSVQLFNELIQNPKYWPIWQAPDVETARQWADAGFADDPLAALVQEAELQEDIDALKAPVKLTPADPEYSRRQYDFNAVSKFGAGSRSANRHEPGQTERGHNTFTTEIAARNAADGNRWRATHVRIHYSAPRLLRDGLRRPDTDGNEALEAVPWLQPMMEALAPLPTLPQDLTGMPVFLMPDVTLSGERRILLNLPVTLEPAALVEQLGNAGRWQNQFFGSREDPFALRWPADGAVKTAKGKTHIPWHQDRDHFTVLGVDLGTRDAGALALLNVTAQKPAKPVHRIIGEADGRTWYASLADARMIRLPGEDARLFVRGKLVQEPYGERGRNASLLEWEDARNIILRLGQNPDELLGADPRRHSYPEINDKLLVALRRAQARLARLQNRSWRLRDLAESDKALDEIHAERAGEKPSPLPPLARDDAIKSTDEALLSQRDIIRRSFVQIANLILPLRGRRWEWRPHVEVPDCHILAQSDPGTDDTKRLVAGQRGISHERIEQIEELRRRCQSLNRALRHKPGERPVLGRPAKGEEIADPCPALLEKINRLRDQRVDQTAHAILAAALGVRLRAPSKDRAERRHRDIHGEYERFRAPADFVVIENLSRYLSSQDRARSENTRLMQWCHRQIVQKLRQLCETYGIPVLAVPAAYSSRFSSRDGSAGFRAVHLTPDHRHRMPWSRILARLKAHEEDGKRLEKTVLDEARAVRGLFDRLDRFNAGHVPGKPWRTLLAPLPGGPVFVPLGDATPMQADLNAAINIALRGIAAPDRHDIHHRLRAENKKRILSLRLGTQREKARWPGGAPAVTLSTPNNGASPEDSDALPERVSNLFVDIAGVANFERVTIEGVSQKFATGRGLWASVKQRAWNRVARLNETVTDNNRNEEEDDIPM (SEQ ID NO: 53).

MATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDVVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPFTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEHKTLEERIKEDIQAFKSLEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKFVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKLVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWGNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSM (SEQ ID NO: 54).

MAIRSIKLKLKTHTGPEAQNLRKGIWRTHRLLNEGVAYYMKMLLLFRQESTGERPKEELQEELICHIREQQQRNQADKNTQALPLDKALEALRQLYELLVPSSVGQSGDAQIISRKFLSPLVDPNSEGGKGTSKAGAKPTWQKKKEANDPTWEQDYEKWKKRREEDPTASVITTLEEYGIRPIFPLYTNTVTDIAWLPLQSNQFVRTWDRDMLQQAIERLLSWESWNKRVQEEYAKLKEKMAQLNEQLEGGQEWISLLEQYEENRERELRENMTAANDKYRITKRQMKGWNELYELWSTFPASASHEQYKEALKRVQQRLRGRFGDAHFFQYLMEEKNRLIWKGNPQRIHYFVARNELTKRLEEAKQSATMTLPNARKHPLWVRFDARGGNLQDYYLTAEADKPRSRRFVTFSQLIWPSESGWMEKKDVEVELALSRQFYQQVKLLKNDKGKQKIEFKDKGSGSTFNGHLGGAKLQLERGDLEKEEKNFEDGEIGSVYLNVVIDFEPLQEVKNGRVQAPYGQVLQLIRRPNEFPKVTTYKSEQLVEWIKASPQHSAGVESLASGFRVMSIDLGLRAAAATSIFSVEESSDKNAADFSYWIEGTPLVAVHQRSYMLRLPGEQVEKQVMEKRDERFQLHQRVKFQIRVLAQIMRMANKQYGDRWDELDSLKQAVEQKKSPLDQTDRTFWEGIVCDLTKVLPRNEADWEQAVVQIHRKAEEYVGKAVQAWRKRFAADERKGIAGLSMWNIEELEGLRKLLISWSRRTRNPQEVNRFERGHTSHQRLLTHIQNVKEDRLKQLSHAIVMTALGYVYDERKQEWCAEYPACQVILFENLSQYRSNLDRSTKENSTLMKWAHRSIPKYVHMQAEPYGIQIGDVRAEYSSRFYAKTGTPGIRCKKVRGQDLQGRRFENLQKRLVNEQFLTEEQVKQLRPGDIVPDDSGELFMTLTDGSGSKEVVFLQADINAAHNLQKRFWQRYNELFKVSCRVIVRDEEEYLVPKTKSVQAKLGKGLFVKKSDTAWKDVYVWDSQAKLKGKTTFTEESESPEQLEDFQEIIEEAEEAKGTYRTLFRDPSGVFFPESVWYPQKDFWGEVKRKLYGKLRERFLTKAR (SEQ ID NO: 55).

MKISKVDHTRMAVAKGNQHRRDEISGILYKDPTKTGSIDFDERFKKLNCSAKILYHVFNGIAEGSNKYKNIVDKVNNNLDRVLFTGKSYDRKSIIDIDTVLRNVEKINAFDRISTEEREQIIDDLLEIQLRKGLRKGKAGLREVLLIGAGVIVRTDKKQEIADFLEILDEDFNKTNQAKNIKLSIENQGLVVSPVSRGEERIFDVSGAQKGKSSKKAQEKEALSAFLLDYADLDKNVRFEYLRKIRRLINLYFYVKNDDVMSLTEIPAEVNLEKDFDIWRDHEQRKEENGDFVGCPDILLADRDVKKSNSKQVKIAERQLRESIREKNIKRYRFSIKTIEKDDGTYFFANKQISVFWIHRIENAVERILGSINDKKLYRLRLGYLGEKVWKDILNFLSIKYIAVGKAVFNFAMDDLQEKDRDIEPGKISENAVNGLTSFDYEQIKADEMLQREVAVNVAFAANNLARVTVDIPQNGEKEDILLWNKSDIKKYKKNSKKGILKSILQFFGGASTWNMKMFEIAYHDQPGDYEENYLYDIIQIIYSLRNKSFHFKTYDHGDKNWNRELIGKMIEHDAERVISVEREKFHSNNLPMFYKDADLKKILDLLYSDYAGRASQVPAFNTVLVRKNFPEFLRKDMGYKVHFNNPEVENQWHSAVYYLYKEIYYNLFLRDKEVKNLFYTSLKNIRSEVSDKKQKLASDDFASRCEEIEDRSLPEICQIIMTEYNAQNFGNRKVKSQRVIEKNKDIFRHYKMLLIKTLAGAFSLYLKQERFAFIGKATPIPYETTDVKNFLPEWKSGMYASFVEEIKNNLDLQEWYIVGRFLNGRMLNQLAGSLRSYIQYAEDIERRAAENRNKLFSKPDEKIEACKKAVRVLDLCIKISTRISAEFTDYFDSEDDYADYLEKYLKYQDDAIKELSGSSYAALDHFCNKDDLKFDIYVNAGQKPILQRNIVMAKLFGPDNILSEVMEKVTESAIREYYDYLKKVSGYRVRGKCSTEKEQEDLLKFQRLKNAVEFRDVTEYAEVINELLGQLISWSYLRERDLLYFQLGFHYMCLKNKSFKPAEYVDIRRNNGTIIHNAILYQIVSMYINGLDFYSCDKEGKTLKPIETGKGVGSKIGQFIKYSQYLYNDPSYKLEIYNAGLEVFENIDEHDNITDLRKYVDHFKYYAYGNKMSLLDLYSEFFDRFFTYDMKYQKNVVNVLENILLRHFVIFYPKFGSGKKDVGIRDCKKERAQIEISEQSLTSEDFMFKLDDKAGEEAKKFPARDERYLQTIAKLLYYPNEIEDMNRFMKKGETINKKVQFNRKKKITRKQKNNSSNEVLSSTMGYLFKNIKL (SEQ ID NO: 56).

MWISIKTLIHHLGVLFFCDYMYNRREKKIIEVKTMRITKVEVDRKKVLISRDKNGGKLVYENEMQDNTEQIMHHKKSSFYKSVVNKTICRPEQKQMKKLVHGLLQENSQEKIKVSDVTKLNISNFLNHRFKKSLYYFPENSPDKSEEYRIEINLSQLLEDSLKKQQGTFICWESFSKDMELYINWAENYISSKTKLIKKSIRNNRIQSTESRSGQLMDRYMKDILNKNKPFDIQSVSEKYQLEKLTSALKATFKEAKKNDKEINYKLKSTLQNHERQIIEELKENSELNQFNIEIRKHLETYFPIKKTNRKVGDIRNLEIGEIQKIVNHRLKNKIVQRILQEGKLASYEIESTVNSNSLQKIKIEEAFALKFINACLFASNNLRNMVYPVCKKDILMIGEFKNSFKEIKHKKFIRQWSQFFSQEITVDDIELASWGLRGAIAPIRNEIIHLKKHSWKKFFNNPTFKVKKSKIINGKTKDVTSEFLYKETLFKDYFYSELDSVPELIINKMESSKILDYYSSDQLNQVFTIPNFELSLLTSAVPFAPSFKRVYLKGFDYQNQDEAQPDYNLKLNIYNEKAFNSEAFQAQYSLFKMVYYQVFLPQFTTNNDLFKSSVDFILTLNKERKGYAKAFQDIRKMNKDEKPSEYMSYIQSQLMLYQKKQEEKEKINHFEKFINQVFIKGFNSFIEKNRLTYICHPTKNTVPENDNIEIPFHTDMDDSNIAFWLMCKLLDAKQLSELRNEMIKFSCSLQSTEEISTFTKAREVIGLALLNGEKGCNDWKELFDDKEAWKKNMSLYVSEELLQSLPYTQEDGQTPVINRSIDLVKKYGTETILEKLFSSSDDYKVSAKDIAKLHEYDVTEKIAQQESLHKQWIEKPGLARDSAWTKKYQNVINDISNYQWAKTKVELTQVRHLHQLTIDLLSRLAGYMSIADRDFQFSSNYILERENSEYRVTSWILLSENKNKNKYNDYELYNLKNASIKVSSKNDPQLKVDLKQLRLTLEYLELFDNRLKEKRNNISHFNYLNGQLGNSILELFDDARDVLSYDRKLKNAVSKSLKEILSSHGMEVTFKPLYQTNHHLKIDKLQPKKIHHLGEKSTVSSNQVSNEYCQLVRTLLTMK (SEQ ID NO: 57).

MKVTKVDGISHKKYIEEGKLVKSTSEENRTSERLSELLSIRLDIYIKNPDNASEEENRIRRENLKKFFSNKVLHLKDSVLYLKNRKEKNAVQDKNYSEEDISEYDLKNKNSFSVLKKILLNEDVNSEELEIFRKDVEAKLNKINSLKYSFEENKANYQKINENNVEKVGGKSKRNIIYDYYRESAKRNDYINNVQEAFDKLYKKEDIEKLFFLIENSKKHEKYKIREYYHKIIGRKNDKENFAKIIYEEIQNVNNIKELIEKIPDMSELKKSQVFYKYYLDKEELNDKNIKYAFCHFVEIEMSQLLKNYVYKRLSNISNDKIKRIFEYQNLKKLIENKLLNKLDTYVRNCGKYNYYLQVGEIATSDFIARNRQNEAFLRNIIGVSSVAYFSLRNILETENENDITGRMRGKTVKNNKGEEKYVSGEVDKIYNENKQNEVKENLKMFYSYDFNMDNKNEIEDFFANIDEAISSIRHGIVHFNLELEGKDIFAFKNIAPSEISKKMFQNEINEKKLKLKIFKQLNSANVFNYYEKDVIIKYLKNTKFNFVNKNIPFVPSFTKLYNKIEDLRNTLKFFWSVPKDKEEKDAQIYLLKNIYYGEFLNKFVKNSKVFFKITNEVIKINKQRNQKTGHYKYQKFENIEKTVPVEYLAIIQSREMINNQDKEEKNTYIDFIQQIFLKGFIDYLNKNNLKYIESNNNNDNNDIFSKIKIKKDNKEKYDKILKNYEKHNRNKEIPHEINEFVREIKLGKILKYTENLNMFYLILKLLNHKELTNLKGSLEKYQSANKEETFSDELELINLLNLDNNRVTEDFELEANEIGKFLDFNENKIKDRKELKKFDTNKIYFDGENIIKHRAFYNIKKYGMLNLLEKIADKAKYKISLKELKEYSNKKNEIEKNYTMQQNLHRKYARPKKDEKFNDEDYKEYEKAIGNIQKYTHLKNKVEFNELNLLQGLLLKILHRLVGYTSIWERDLRFRLKGEFPENHYIEEIFNFDNSKNVKYKSGQIVEKYINFYKELYKDNVEKRSIYSDKKVKKLKQEKKDLYIRNYIAHFNYIPHAEISLLEVLENLRKLLSYDRKLKNAIMKSIVDILKEYGFVATFKIGADKKIEIQTLESEKIVHLKNLKKKKLMTDRNSEELCELVKVMFEYKALE (SEQ ID NO: 58).

MGNLFGHKRWYEVRDKKDFKIKRKVKVKRNYDGNKYILNINENNNKEKIDNNKFIRKYINYKKNDNILKEFTRKFHAGNILFKLKGKEGIIRIENNDDFLETEEVVLYIEAYGKSEKLKALGITKKKIIDEAIRQGITKDDKKIEIKRQENEEEIEIDIRDEYTNKTLNDCSIILRIIENDELETKKSIYEIFKNINMSLYKIIEKIIENETEKVFENRYYEEHLREKLLKDDKIDVILTNFMEIREKIKSNLEILGFVKFYLNVGGDKKKSKNKKMLVEKILNINVDLTVEDIADFVIKELEFWNITKRIEKVKKVNNEFLEKRRNRTYIKSYVLLDKHEKFKIERENKKDKIVKFFVENIKNNSIKEKIEKILAEFKIDELIKKLEKELKKGNCDTEIFGIFKKHYKVNFDSKKFSKKSDEEKELYKIIYRYLKGRIEKILVNEQKVRLKKMEKIEIEKILNESILSEKILKRVKQYTLEHIMYLGKLRHNDIDMTTVNTDDFSRLHAKEELDLELITFFASTNMELNKIFSRENINNDENIDFFGGDREKNYVLDKKILNSKIKIIRDLDFIDNKNNITNNFIRKFTKIGTNERNRILHAISKERDLQGTQDDYNKVINIIQNLKISDEEVSKALNLDVVFKDKKNIITKINDIKISEENNNDIKYLPSFSKVLPEILNLYRNNPKNEPFDTIETEKIVLNALIYVNKELYKKLILEDDLEENESKNIFLQELKKTLGNIDEIDENIIENYYKNAQISASKGNNKAIKKYQKKVIECYIGYLRKNYEELFDFSDFKMNIQEIKKQIKDINDNKTYERITVKTSDKTIVINDDFEYIISIFALLNSNAVINKIRNRFFATSVWLNTSEYQNIIDILDEIMQLNTLRNECITENWNLNLEEFIQKMKEIEKDFDDFKIQTKKEIFNNYYEDIKNNILTEFKDDINGCDVLEKKLEKIVIFDDETKFEIDKKSNILQDEQRKLSNINKKDLKKKVDQYIKDKDQEIKSKILCRIIFNSDFLKKYKKEIDNLIEDMESENENKFQEIYYPKERKNELYIYKKNLFLNIGNPNFDKIYGLISNDIKMADAKFLFNIDGKNIRKNKISEIDAILKNLNDKLNGYSKEYKEKYIKKLKENDDFFAKNIQNKNYKSFEKDYNRVSEYKKIRDLVEFNYLNKIESYLIDINWKLAIQMARFERDMHYIVNGLRELGIIKLSGYNTGISRAYPKRNGSDGFYTTTAYYKFFDEESYKKFEKICYGFGIDLSENSEINKPENESIRNYISHFYIVRNPFADYSIAEQIDRVSNLLSYSTRYNNSTYASVFEVFKKDVNLDYDELKKKFKLIGNNDILERLMKPKKVSVLELESYNSDYIKNLIIELLTKIENTNDTL (SEQ ID NO: 59).

MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLAYYTLVDGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFEDLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN (SEQ ID NO: 60).

В случае от A-локуса до G-локуса эти гены клонировали и вставляли в низкокопийную плазмиду. Применяли вектор, который не содержит ген устойчивости Amp.

>A-локус

TATCCGGTCGAATCGAGAATGACGACCGCTACGTCTTGGACTACGAAGCCGTGGCCCTTGCCGATGCTCTCGGTGTGGATGTTGCCGACCTGTTCCGCAAGATCGATTGCCCCAAGAACCTGCTGCGCAGGCGGGCAGGGTAGGGGAGCGGTTTCCGGCGGAGATTTTCGGAGGCGCCGGTAACGTTATGTCGGGGAATTTGCTATACATCGACGATAATTAGTTTTGTTGATTCAGGATCGAAATGCGCTCAAACAAAGAACGTTCCGCGTTTCCCTCATGCGCTACTACGCCCACACCGCCATCTTTCGGCACGCAAACAAAGCAGATGGGTTGCCTGTCAATGGGTGATCATTGCCTGAAGTTACCATCCATCAATAATATAAATCATCCTTACTCCGAATGTCCCTCAATCGCATCTATCAAGGCCGCGTGGCGGCCGTCGAAACAGGAACGGCCTTAGCGAAAGGTAATGTCGAATGGATGCCTGCCGCAGGAGGCGACGAAGTTCTCTGGCAGCACCACGAACTTTTCCAAGCTGCCATCAACTACTATCTCGTCGCCCTGCTCGCACTCGCCGACAAAAACAATCCCGTACTTGGCCCGCTGATCAGCCAGATGGATAATCCCCAAAGCCCTTACCATGTCTGGGGAAGTTTCCGCCGCCAAGGACGTCAGCGCACAGGTCTCAGTCAAGCCGTTGCACCTTATATCACGCCGGGCAATAACGCTCCCACCCTTGACGAAGTTTTCCGCTCCATTCTTGCGGGCAACCCAACCGACCGCGCAACTTTGGACGCTGCACTCATGCAATTGCTCAAGGCTTGTGACGGCGCGGGCGCTATCCAGCAGGAAGGTCGTTCCTACTGGCCCAAATTCTGCGATCCTGACTCCACTGCCAACTTCGCGGGAGATCCGGCCATGCTCCGGCGTGAACAACACCGCCTCCTCCTTCCGCAAGTTCTCCACGATCCGGCGATTACTCACGACAGTCCTGCCCTTGGCTCGTTCGACACTTATTCGATTGCTACCCCCGACACCAGAACTCCTCAACTCACCGGCCCCAAGGCACGCGCCCGTCTTGAGCAGGCGATCACCCTCTGGCGCGTCCGTCTTCCCGAATCGGCTGCTGACTTCGATCGCCTTGCCAGTTCCCTCAAAAAAATTCCGGACGACGATTCTCGCCTTAACCTTCAGGGCTACGTCGGCAGCAGTGCGAAAGGCGAAGTTCAGGCCCGTCTTTTCGCCCTTCTGCTATTCCGTCACCTGGAGCGTTCCTCCTTTACGCTTGGCCTTCTCCGTTCCGCCACCCCGCCGCCCAAGAACGCTGAAACACCTCCTCCCGCCGGCGTTCCTTTACCTGCGGCGTCCGCAGCCGATCCGGTGCGGATAGCCCGTGGCAAACGCAGTTTTGTTTTTCGCGCATTCACCAGTCTCCCCTGCTGGCATGGCGGTGATAACATCCATCCCACCTGGAAGTCATTCGACATCGCAGCGTTCAAATATGCCCTCACGGTCATCAACCAGATCGAGGAAAAGACGAAAGAACGCCAAAAAGAATGTGCGGAACTTGAAACTGATTTCGACTACATGCACGGACGGCTCGCCAAGATTCCGGTAAAATACACGACCGGCGAAGCCGAACCGCCCCCCATTCTCGCAAACGATCTCCGCATCCCCCTCCTCCGCGAACTTCTCCAGAATATCAAGGTCGACACCGCACTCACCGATGGCGAAGCCGTCTCCTATGGTCTCCAACGCCGCACCATTCGCGGTTTCCGCGAGCTGCGCCGCATCTGGCGCGGCCATGCCCCCGCTGGCACGGTCTTTTCCAGCGAGTTGAAAGAAAAACTAGCCGGCGAACTCCGCCAGTTCCAGACCGACAACTCCACCACCATCGGCAGCGTCCAACTCTTCAACGAACTCATCCAAAACCCGAAATACTGGCCCATCTGGCAGGCTCCTGACGTCGAAACCGCCCGCCAATGGGCCGATGCCGGTTTTGCCGACGATCCGCTCGCCGCCCTTGTGCAAGAAGCCGAACTCCAGGAAGACATCGACGCCCTCAAGGCTCCAGTCAAACTCACTCCGGCCGATCCTGAGTATTCAAGAAGGCAATACGATTTCAATGCCGTCAGCAAATTCGGGGCCGGCTCCCGCTCCGCCAATCGCCACGAACCCGGGCAGACGGAGCGCGGCCACAACACCTTTACCACCGAAATCGCCGCCCGTAACGCGGCGGACGGGAACCGCTGGCGGGCAACCCACGTCCGCATCCATTACTCCGCTCCCCGCCTTCTTCGTGACGGACTCCGCCGACCTGACACCGACGGCAACGAAGCCCTGGAAGCCGTCCCTTGGCTCCAGCCCATGATGGAAGCCCTCGCCCCTCTCCCGACGCTTCCGCAAGACCTCACAGGCATGCCGGTCTTCCTCATGCCCGACGTCACCCTTTCCGGTGAGCGTCGCATCCTCCTCAATCTTCCTGTCACCCTCGAACCAGCCGCTCTTGTCGAACAACTGGGCAACGCCGGTCGCTGGCAAAACCAGTTCTTCGGCTCCCGCGAAGATCCATTCGCTCTCCGATGGCCCGCCGACGGTGCTGTAAAAACCGCCAAGGGGAAAACCCACATACCTTGGCACCAGGACCGCGATCACTTCACCGTACTCGGCGTGGATCTCGGCACGCGCGATGCCGGGGCGCTCGCTCTTCTCAACGTCACTGCGCAAAAACCGGCCAAGCCGGTCCACCGCATCATTGGTGAGGCCGACGGACGCACCTGGTATGCCAGCCTTGCCGACGCTCGCATGATCCGCCTGCCCGGGGAGGATGCCCGGCTCTTTGTCCGGGGAAAACTCGTTCAGGAACCCTATGGTGAACGCGGGCGAAACGCGTCTCTTCTCGAATGGGAAGACGCCCGCAATATCATCCTTCGCCTTGGCCAAAATCCCGACGAACTCCTCGGCGCCGATCCCCGGCGCCATTCGTATCCGGAAATAAACGATAAACTTCTCGTCGCCCTTCGCCGCGCTCAGGCCCGTCTTGCCCGTCTCCAGAACCGGAGCTGGCGGTTGCGCGACCTTGCAGAATCGGACAAGGCCCTTGATGAAATCCATGCCGAGCGTGCCGGGGAGAAGCCTTCTCCGCTTCCGCCCTTGGCTCGCGACGATGCCATCAAAAGCACCGACGAAGCCCTCCTTTCCCAGCGTGACATCATCCGGCGATCCTTCGTTCAGATCGCCAACTTGATCCTTCCCCTTCGCGGACGCCGATGGGAATGGCGGCCCCATGTCGAGGTCCCGGATTGCCACATCCTTGCGCAGAGCGATCCCGGTACGGATGACACCAAGCGTCTTGTCGCCGGACAACGCGGCATCTCTCACGAGCGTATCGAGCAAATCGAAGAACTCCGTCGTCGCTGCCAATCCCTCAACCGTGCCCTGCGTCACAAACCCGGAGAGCGTCCCGTGCTCGGACGCCCCGCCAAGGGCGAGGAAATCGCCGATCCCTGTCCCGCGCTCCTCGAAAAGATCAACCGTCTCCGGGACCAGCGCGTTGACCAAACCGCGCATGCCATCCTCGCCGCCGCTCTCGGTGTTCGACTCCGCGCCCCCTCAAAAGACCGCGCCGAACGCCGCCATCGCGACATCCATGGCGAATACGAACGCTTTCGTGCGCCCGCTGATTTTGTCGTCATCGAAAACCTCTCCCGTTATCTCAGCTCGCAGGATCGTGCTCGTAGTGAAAACACCCGTCTCATGCAGTGGTGCCATCGCCAGATCGTGCAAAAACTCCGTCAGCTCTGCGAGACCTACGGCATCCCCGTCCTCGCCGTCCCGGCGGCCTACTCATCGCGTTTTTCTTCCCGGGACGGCTCGGCCGGATTCCGGGCCGTCCATCTGACACCGGACCACCGTCACCGGATGCCATGGAGCCGCATCCTCGCCCGCCTCAAGGCCCACGAGGAAGACGGAAAAAGACTCGAAAAGACGGTGCTCGACGAGGCTCGCGCCGTCCGGGGACTCTTTGACCGGCTCGACCGGTTCAACGCCGGGCATGTCCCGGGAAAACCTTGGCGCACGCTCCTCGCGCCGCTCCCCGGCGGCCCTGTGTTTGTCCCCCTCGGGGACGCCACACCCATGCAGGCCGATCTGAACGCCGCCATCAACATCGCCCTCCGGGGCATCGCGGCTCCCGACCGCCACGACATCCATCACCGGCTCCGTGCCGAAAACAAAAAACGCATCCTGAGCTTGCGTCTCGGCACTCAGCGCGAGAAAGCCCGCTGGCCTGGAGGAGCTCCGGCGGTGACACTCTCCACTCCGAACAACGGCGCCTCTCCCGAAGATTCCGATGCGTTGCCCGAACGGGTATCCAACCTGTTTGTGGACATCGCCGGTGTCGCCAACTTCGAGCGAGTCACGATCGAAGGAGTCTCGCAAAAATTCGCCACCGGGCGTGGCCTTTGGGCCTCCGTCAAGCAACGTGCATGGAACCGCGTTGCCAGACTCAACGAGACAGTAACAGATAACAACAGGAACGAAGAGGAGGACGACATTCCGATGTAACCATTGCTTCATTACATCTGAGTCTCCCCTCAATCCCTCTGCCCCATGCGTGATATAACCTCCACCTCATGTCCCGGATCGGCGCCGGCAACCTGTAGTTCCCTTCCATCCTCCAACACTCCCGCAGATCGCGATCCGCTGCCGCCGATGCCGGTGCGCCGCCTTCACAACTATCTCTACTGTCCGCGGCTTTTTTATCTCCAGTGGGTCGAGAATCTCTTTGAGGAAAATGCCGACACCATTGCCGGCAGCGCCGTGCATCGTCACGCCGACAAACCTACGCGTTACGATGATGAAAAAGCCGAGGCACTTCGCACTGGTCTCCCTGAAGGCGCGCACATACGCAGCCTTCGCCTGGAAAACGCCCAACTCGGTCTCGTTGGCGTGGTGGATATCGTGGAGGGAGGCCCCGACGGACTCGAACTCGTCGACTACAAAAAAGGTTCCGCCTTCCGCCTCGACGACGGCACGCTCGCTCCCAAGGAAAACGACACCGTGCAACTTGCCGCCTACGCTCTTCTCCTGGCTGCCGATGGTGCGCGCGTTGCGCCCATGGCGACGGTCTATTACGCTGCCGATCGCCGGCGTGTCACCTTCCCGCTCGATGACGCCCTCTACGCCCGCACCCGTTCCGCCCTCGAAGAGGCCCGCGCCGTTGCAACCTCGGGGCGCATACCTCCGCCGCTCGTCTCTGACGTCCGCTGCCTCCATTGTTCCTCCTATGCGCTTTGCCTTCCCCGCGAGTCCGCCTGGTGGTGCCGCCATCGCAGCACGCCGCGGGGAGCCGGCCACACCCCCATGTTGCCGGGCTTTGAGGATGACGCCGCCGCCATTCACCAAATCTCCGAACCTGACACCGAGCCACCACCCGATCTTGCCAGCCAGCCTCCCCGTCCCCCGCGGCTCGATGGAGAATTGTTGGTTGTCCAGACTCCGGGAGCGATGATCGGACAAAGCGGCGGTGAGTTTACCGTGTCCGTCAAGGGTGAGGTTTTGCGCAAGCTTCCGGTTCATCAACTCCGGGCCATTTACGTTTACGGAGCCGTGCAACTCACGGCGCATGCTGTGCAGACCGCCCTTGAGGAGGATATCGACGTCTCCTATTTTGCGCCCAGCGGCCGCTTTCTTGGCCTCCTCCGCGGCCTGCCCGCATCCGGCGTGGATGCGCGTCTCGGGCAATACACCCTGTTTCGCGAACCCTTTGGCCGTCTCCGTCTCGCCTGCGAGGCGATTCGGGCCAAGATCCATAACCAGCGCGTCCTCCTCATGCGTAACGGCGAGCCCGGGGAGGGCGTCTTGCGCGAACTCGCCCGTCTGCGCGACGCCACCAGTGAGGCGACTTCGCTCGACGAACTCCTCGGCATCGAGGGCATCGCCGCGCATTTCTATTTCCAGTATTTTCCCACCATGCTGAAAGAACGGGCGGCCTGGGCCTTTGATTTTTCCGGACGCAATCGCCGCCCGCCGCGCGACCCGGTCAACGCCCTGCTTTCGTTCGGTTACAGCGTGTTGTCCAAGGAACTTGCCGGCGTCTGCCACGCTGTTGGCCTAGACCCGTTTTTCGGCTTCATGCACCAGCCGCGTTACGGGCGCCCCGCACTCGCTCTCGATCTGATGGAGGAGTTTCGCCCTCTCATCGCCGACAGTGTTGCCCTGAATCTCATCAACCGTGGCGAACTCGACGAAGGGGACTTTATCCGGTCGGCCAATGGCACCGCGCTCAATGATCGGGGCCGCCGGCGTTTTTGGGAGGCATGGTTCCGGCGTCTCGACAGCGAAGTCAGCCATCCTGAATTTGGTTACAAGATGAGCTATCGACGGATGCTTGAAGTGCAGGCGCGCCAGCTATGGCGCTATGTGCGCGGTGACGCCTTCCGCTACCACGGATTCACCACCCGTTGATTCCGATGTCAGATCCCCGCCGCCGTTATCTTGTGTGTTACGACATCGCCAATCCGAAGCGATTGCGCCAAGTGGCCAAGCTGCTGGAGAGCTATGGCACGCGTCTGCAATACTCGGTTTTCGAATGTCCTTTGGACGATCTTCGTCTTGAACAGGCGAAGGCTGATTTGCGCGACACGATTAATGCCGACCAAGACCAGGTGTTATTTGTTTCGCTTGGCCCCGAAGCCAACGATGCCACGTTGATCATCGCCACGCTTGGGCTCCCTTATACCGTGCGCTCGCGAGTGACGATTATCTGACCCATAACCCACGTGTTGAAGAGGCTGAAAACAGACGGACCTCTATGAAGAACAATTGACGTTTTGGCCGAACTCAGCAGACCTTTATGCGGCTAAGGCCAATGATCATCCATCCTACCGCCATTGGGCTGGAGACGTTTTTTGAAACGGCGAGTGCTGCGGATAGCGAGTTTCTCTTGGGGAGGCGCTCGCGGCCACTTTTACAGAGGAGATGTTCGGGCGAACTGGCCGACCTAACAAGGCGTACCCGGCTCAAAATCGAGGCACGCTCGCACGGGATGATGTAATTCGTTGTTTTTCAGCATACCGTGCGAGCACGGGCCGCAGCGAATGCCGTTTCACGAATCGTCAGGCGGCGGGGAGAAGTCATTTAATAAGGCCACTGTTAAAAGCCGCAGCGAATGCCGTTTCACGAATCGTCAGGCGGGCAGTGGATGTTTTTCCATGAGGCGAAGAATTTCATCGCCGCAGTGAATGCCGTTTCACCATTGATGAAGAATGCGAGGTGAAAACAGAGAAATTGGGTCAACTCTATCACTCTTATTCAGCCATCGTTTCAAGAAAGGATACCTCGTATTGGATACAACACAGCTCGTTCGTTCTCTCTACCTCCCTCGACAATCTCAAGGA (SEQ ID NO: 61).

>B-локус

TAATAAAATTGAAATATCACTATGGATTATTGTAATATTACCATAAAGATAGGTGACGTTTTTTTGAAAATTGTAAACCTAATTTGAAGAAAACCAATTAAAAATCGCTTCGGCTTTTTTTTAAGTGCCAGGTAGCATTGATGCTAACCCATGTGTAATAAAGGTTTGTTTTCCTTCGGGGCACGAACACATTATAAGGGAAACCTAAAGATTCCCTTTCTTGTTTAATATTATAACCAGTGAAAATAAGAATAATGCACCTAAAACTAATATACAGAAAATAAGAATTAAAAGTACTAATATATACATCATATGTTATCCTCCAATGCTTTATTTTTTAATAATTGATGTTAGTATTAGTTTTATTTTAATTTCTAAACATAAGAATTTGAAAAGGATGTGTTTATTATGGCGACACGCAGTTTTATTTTAAAAATTGAACCAAATGAAGAAGTTAAAAAGGGATTATGGAAGACGCATGAGGTATTGAATCATGGAATTGCCTACTACATGAATATTCTGAAACTAATTAGACAGGAAGCTATTTATGAACATCATGAACAAGATCCTAAAAATCCGAAAAAAGTTTCAAAAGCAGAAATACAAGCCGAGTTATGGGATTTTGTTTTAAAAATGCAAAAATGTAATAGTTTTACACATGAAGTTGACAAAGATGTTGTTTTTAACATCCTGCGTGAACTATATGAAGAGTTGGTCCCTAGTTCAGTCGAGAAAAAGGGTGAAGCCAATCAATTATCGAATAAGTTTCTGTACCCGCTAGTTGATCCGAACAGTCAAAGTGGGAAAGGGACGGCATCATCCGGACGTAAACCTCGGTGGTATAATTTAAAAATAGCAGGCGACCCATCGTGGGAGGAAGAAAAGAAAAAATGGGAAGAGGATAAAAAGAAAGATCCCCTTGCTAAAATCTTAGGTAAGTTAGCAGAATATGGGCTTATTCCGCTATTTATTCCATTTACTGACAGCAACGAACCAATTGTAAAAGAAATTAAATGGATGGAAAAAAGTCGTAATCAAAGTGTCCGGCGACTTGATAAGGATATGTTTATCCAAGCATTAGAGCGTTTTCTTTCATGGGAAAGCTGGAACCTTAAAGTAAAGGAAGAGTATGAAAAAGTTGAAAAGGAACACAAAACACTAGAGGAAAGGATAAAAGAGGACATTCAAGCATTTAAATCCCTTGAACAATATGAAAAAGAACGGCAGGAGCAACTTCTTAGAGATACATTGAATACAAATGAATACCGATTAAGCAAAAGAGGATTACGTGGTTGGCGTGAAATTATCCAAAAATGGCTAAAGATGGATGAAAATGAACCATCAGAAAAATATTTAGAAGTATTTAAAGATTATCAACGGAAACATCCACGAGAAGCCGGGGACTATTCTGTCTATGAATTTTTAAGCAAGAAAGAAAATCATTTTATTTGGCGAAATCATCCTGAATATCCTTATTTGTATGCTACATTTTGTGAAATTGACAAAAAAAAGAAAGACGCTAAGCAACAGGCAACTTTTACTTTGGCTGACCCGATTAACCATCCGTTATGGGTACGATTTGAAGAAAGAAGCGGTTCGAACTTAAACAAATATCGAATTTTAACAGAGCAATTACACACTGAAAAGTTAAAAAAGAAATTAACAGTTCAACTTGATCGTTTAATTTATCCAACTGAATCCGGCGGTTGGGAGGAAAAAGGTAAAGTAGATATCGTTTTGTTGCCGTCAAGACAATTTTATAATCAAATCTTCCTTGATATAGAAGAAAAGGGGAAACATGCTTTTACTTATAAGGATGAAAGTATTAAATTCCCCCTTAAAGGTACACTTGGTGGTGCAAGAGTGCAGTTTGACCGTGACCATTTGCGGAGATATCCGCATAAAGTAGAATCAGGAAATGTTGGACGGATTTATTTTAACATGACAGTAAATATTGAACCAACTGAGAGCCCTGTTAGTAAGTCTTTGAAAATACATAGGGACGATTTCCCCAAGTTCGTTAATTTTAAACCGAAAGAGCTCACCGAATGGATAAAAGATAGTAAAGGGAAAAAATTAAAAAGTGGTATAGAATCCCTTGAAATTGGTCTACGGGTGATGAGTATCGACTTAGGTCAACGTCAAGCGGCTGCTGCATCGATTTTTGAAGTAGTTGATCAGAAACCGGATATTGAAGGGAAGTTATTTTTTCCAATCAAAGGAACTGAGCTTTATGCTGTTCACCGGGCAAGTTTTAACATTAAATTACCGGGTGAAACATTAGTAAAATCACGGGAAGTATTGCGGAAAGCTCGGGAGGACAACTTAAAATTAATGAATCAAAAGTTAAACTTTCTAAGAAATGTTCTACATTTCCAACAGTTTGAAGATATCACAGAAAGAGAGAAGCGTGTAACTAAATGGATTTCTAGACAAGAAAATAGTGATGTTCCTCTTGTATATCAAGATGAGCTAATTCAAATTCGTGAATTAATGTATAAACCCTATAAAGATTGGGTTGCCTTTTTAAAACAACTCCATAAACGGCTAGAAGTCGAGATTGGCAAAGAGGTTAAGCATTGGCGAAAATCATTAAGTGACGGGAGAAAAGGTCTTTACGGAATCTCCCTAAAAAATATTGATGAAATTGATCGAACAAGGAAATTCCTTTTAAGATGGAGCTTACGTCCAACAGAACCTGGGGAAGTAAGACGCTTGGAACCAGGACAGCGTTTTGCGATTGATCAATTAAACCACCTAAATGCATTAAAAGAAGATCGATTAAAAAAGATGGCAAATACGATTATCATGCATGCCTTAGGTTACTGTTATGATGTAAGAAAGAAAAAGTGGCAGGCAAAAAATCCAGCATGTCAAATTATTTTATTTGAAGATTTATCTAACTACAATCCTTACGAGGAAAGGTCCCGTTTTGAAAACTCAAAACTGATGAAGTGGTCACGGAGAGAAATTCCACGACAAGTCGCCTTACAAGGTGAAATTTACGGATTACAAGTTGGGGAAGTAGGTGCCCAATTCAGTTCAAGATTCCATGCGAAAACCGGGTCGCCGGGAATTCGTTGCAGTGTTGTAACGAAAGAAAAATTGCAGGATAATCGCTTTTTTAAAAATTTACAAAGAGAAGGACGACTTACTCTTGATAAAATCGCAGTTTTAAAAGAAGGAGACTTATATCCAGATAAAGGTGGAGAAAAGTTTATTTCTTTATCAAAGGATCGAAAGTTGGTAACTACGCATGCTGATATTAACGCGGCCCAAAATTTACAGAAGCGTTTTTGGACAAGAACACATGGATTTTATAAAGTTTACTGCAAAGCCTATCAGGTTGATGGACAAACTGTTTATATTCCGGAGAGCAAGGACCAAAAACAAAAAATAATTGAAGAATTTGGGGAAGGCTATTTTATTTTAAAAGATGGTGTATATGAATGGGGTAATGCGGGGAAACTAAAAATTAAAAAAGGTTCCTCTAAACAATCATCGAGTGAATTAGTAGATTCGGACATACTGAAAGATTCATTTGATTTAGCAAGTGAACTTAAGGGAGAGAAACTCATGTTATATCGAGATCCGAGTGGAAACGTATTTCCTTCCGACAAGTGGATGGCAGCAGGAGTATTTTTTGGCAAATTAGAAAGAATATTGATTTCTAAGTTAACAAATCAATACTCAATATCAACAATAGAAGATGATTCTTCAAAACAATCAATGTAAAAGTTTGCCCGTATAAGAACTTAATTAATTAGGATGGTAGGATGTTACTAAATATGTCTGTAGGCATCATTCCTACTATCCGTTTTGTCCGAATATCAGAGCATTAGGTGAGGAATGGTAAGAAAGGAAAATTTATATGAACCAACCGATTCCTATTCGAATGTTAAATGAAATACAATATTGTGAGCGACTTTTTTACTTTATGCATGTCCAAAAGCTATTTGATGAGAATGCAGATACAGTTGAAGGAAGTGCACAGCATGAGCGGGCAGAAAGAAGCAAAAGACCAAGTAAAATGGGACCAAAGGAATTATGGGGTGAGGCGCCAAGAAGTCTTAAGCTTGGTGATGAGCTGTTAAATATTACCGGTGTTCTTGATGCCATAAGTCATGAAGAGAACAGTTGGATCCCGGTTGAATCAAAACACAGTTCCGCACCGGATGGATTGAACCCTTTTAAAGTAGATGGCTTTCTACTTGACGGGTCTGCATGGCCAAACGATCAAATTCAACTTTGTGCACAAGGCTTGCTCTTGAATGCCAATGGATACCCGTGTGATTATGGGTATTTATTTTATCGTGGTAATAAGAAAAAGGTGAAAATTTATTTTACTGAAGATTTAATCGCTGCCACAAAGTACTATATTAAAAAAGCACACGAGATACTAGTATTATCTGGTGATGAATCAGCTATTCCTAAGCCTTTAATTGATTCTAATAAGTGTTTTCGCTGTTCTTTAAACTATATCTGTCTTCCGGATGAAACGAACTATCTATTAGGGGCAAGTTCAACAATTCGTAAAATTGTGCCTTCAAGGACAGATGGTGGCGTTTTATATGTATCAGAGTCTGGTACAAAATTAGGAAAATCGGGTGAGGAGTTAATCATTCAGTATAAAGATGGCCAAAAGCAGGGTGTTCCTATAAAAGATATTATTCAAGTTTCGTTAATTGGAAATGTTCAATGCTCAACGCAATTACTTCATTTTTTAATGCAATCAAATATTCCTGTAAGTTATTTATCATCCCACGGTCGTTTGATTGGTGTCAGTTCATCTTTAGTTACAAAAAATGTTTTAACAAGGCAGCAACAGTTCATTAAATTTACAAATCCTGAGTTTGGACTAAATCTAGCAAAACAAATTGTTTATGCCAAGATTCGAAATCAACGAACTTTACTTAGAAGAAATGGGGGGAGTGAGGTAAAGGAGATTTTAACAGATTTAAAATCTTTAAGTGACAGTGCACTGAACGCAATATCAATAGAACAATTACGGGGTATTGAAGGGATTTCTGCAAAACATTATTTCGCAGGATTTCCGTTTATGTTGAAAAATGAATTACGTGAATTGAATTTAATGAAAGGGCGTAATAGGAGACCGCCAAAAGATCCTGTAAATGTACTTCTTTCTCTTGGTTATACTTTATTGACACGTGATATTCATGCTGCGTGTGGTTCAGTCGGATTGGATCCGATGTTTGGTTGTTACCATCGTCCAGAAGCAGGTCGACCGGCTCTAGTATTAGATGTTATGGAAACATTTCGACCACTTATTGTAGACAGTATTGTCATCCGAGCTTTGAATACGGGTGAAATCTCATTAAAAGATTTTTATATAGGAAAAGATAGTTGTCAATTATTAAAACATGGCCGCGATTCCTTTTTTGCCATTTATGAAAGAAGAATGCATGAAACTATTACCGATCCAATTTTCGGCTATAAGATTAGCTATCGCCGTATGCTCGATTTGCACATTCGAATGCTTGCAAGGTTTATTGAAGGGGAACTGCCGGAATATAAACCATTAATGACCCGGTGAGTTTGTTTATTAGGTTAAAAGAAGGTGAAGACATGCAGCAATACGTCCTTGTTTCTTATGATATTTCGGACCAAAAAAGATGGAGAAAAGTATTTAAACTGATGAAAGGATACGGAGAACATGTTCAATATTCCGTATTCATATGCCAGTTAACTGAATTACAGAAGGCAAAATTACAAGCCTCTTTAGAAGACATTATCCATCATAAGAATGACCAAGTAATGTTTGTTCACATCGGGCCAGTGAAAGATGGTCAACTATCTAAAAAAATCTCAACAATTGGGAAAGAATTTGTTCCATTGGATTTAAAGCGGCTTATATTTTGAAAAGATATAGCAAAGAAATCTTATGAAAAAAATACAAAAATATATTGTTAAAAAATAGGGAATATTATATAATGGACTTACGAGGTTCTGTCTTTTGGTCAGGACAACCGTCTAGCTATAAGTGCTGCAGGGGTGTGAGAAACTCCTATTGCTGGACGATGTCTCTTTTATTTCTTTTTTCTTGGATCTGAGTACGAGCACCCACATTGGACATTTCGCATGGTGGGTGCTCGTACTATAGGTAAAACAAACCTTTTTAAGAAGAATACAAAAATAACCACAATATTTTTTAAAAGGAATTTTGATGGATTTACATAACCTCTCGCAACATGCTTCTAAAACCCAAGCCCACCATAGCCCAAAACCCCCTGCGGTCCAAGAAAAAAGAAATGATACGAGGCATTAGCACCGGGGAGAAGTCATTTAATAAGGCCACTGTTAAAAGTCCAAGAAAAAAGAAATGATACGAGGCATTAGCACAACAATATAAACGACTACTTTACCGTGTTCAAGAAAAAAGAAATGATATGAGGCATTAGCACGATGGGATGGGAGAGAGAGGACAGTTCTACTCTTGCTGTATCCAGCTTCTTTTACTTTATCCGGTATCATTTCTTCACTTCTTTCTGCACATAAAAAAGCACCTAACTATTTGGATAAGTTAAGTGCTTTTATTTCCGTTTGAAGTTGTCTATTGCTTTTTTCTTCATATCTTCAAATTTTTTCTGTTTCTCAGAGTCAACTTTACCAACTGTAATCCCTTTTCTTTTTGGCATTGGGGTATCTTTCCACCTTAGTGTGTTCATAAGGCTTATATTTATCACTCATTGTATTCCTCCAACACAATTATAATTTTTCCGTCATCCTCAATCCAACCGTCAACTGTGACAAAAGACGAATCTCTCTTAT (SEQ ID NO: 62).

>C-локус

GTTTCATTTGGAAAGGGAGAGCATTGGCTTTTCTCTTTGTAAATAAAGTGCAAGCTTTGTAATAAGCTTCTAGTGGAGAAGTGATTGTTTGAATCACCCAATGCACACGCACTAAAGTTAGACGAACCTATAATTCGTATTAGTAAGTATAGTACATGAAGAAAAATGCAACAAGCATTTACTCTCTTTTAAATAAAGAATTGATAGCTGTTAATATTGATAGTATATTATACCTTATAGATGTTCGATTTTTTTTGAAATTCAAAAATCATACTTAGTAAAGAAAGGAAATAACGTCATGGACAAGCGAAAGCGTAGAAGTTACGAGTTTAGGTGGGAAGCGGGAGGCACCAGTCATGGCAATCCGTAGCATAAAACTAAAACTAAAAACCCACACAGGCCCGGAAGCGCAAAACCTCCGAAAAGGAATATGGCGGACGCATCGGTTGTTAAATGAAGGCGTCGCCTATTACATGAAAATGCTCCTGCTCTTTCGTCAGGAAAGCACTGGTGAACGGCCAAAAGAAGAACTACAGGAAGAACTGATTTGTCACATACGCGAACAGCAACAACGAAATCAGGCAGATAAAAATACGCAAGCGCTTCCGCTAGATAAGGCACTGGAAGCTTTGCGCCAACTATATGAACTGCTTGTCCCCTCCTCGGTCGGACAAAGTGGCGACGCCCAGATCATCAGCCGAAAGTTTCTCAGCCCGCTCGTCGATCCGAACAGCGAAGGCGGCAAAGGTACTTCGAAGGCAGGGGCAAAACCCACTTGGCAGAAGAAAAAAGAAGCGAACGACCCAACCTGGGAACAGGATTACGAAAAATGGAAAAAAAGACGCGAGGAAGACCCAACCGCTTCTGTGATTACTACTTTGGAGGAATACGGCATTAGACCGATCTTTCCCCTGTACACGAACACCGTAACAGATATCGCGTGGTTGCCACTTCAATCCAATCAGTTTGTGCGAACCTGGGACAGAGACATGCTTCAACAAGCGATTGAAAGACTGCTCAGTTGGGAGAGCTGGAACAAACGTGTCCAGGAAGAGTATGCCAAGCTGAAAGAAAAAATGGCTCAACTGAACGAGCAACTCGAAGGCGGTCAGGAATGGATCAGCTTGCTAGAGCAGTACGAAGAAAACCGAGAGCGAGAGCTTAGGGAAAACATGACCGCTGCCAATGACAAGTATCGGATTACCAAGCGGCAAATGAAAGGCTGGAACGAGCTGTACGAGCTATGGTCAACCTTTCCCGCCAGTGCCAGTCACGAGCAATACAAAGAGGCGCTCAAGCGTGTGCAGCAGCGACTGAGAGGGCGGTTTGGGGATGCTCATTTCTTCCAGTATCTGATGGAAGAGAAGAACCGCCTGATCTGGAAGGGGAATCCGCAGCGTATCCATTATTTTGTCGCGCGCAACGAACTGACGAAACGGCTGGAGGAAGCCAAGCAAAGCGCCACGATGACGTTGCCCAATGCCAGGAAGCATCCATTGTGGGTGCGCTTCGATGCACGGGGAGGAAATTTGCAAGACTACTACTTGACGGCTGAAGCGGACAAACCGAGAAGCAGACGTTTTGTAACGTTTAGTCAGTTGATATGGCCAAGCGAATCGGGATGGATGGAAAAGAAAGACGTCGAGGTCGAGCTAGCTTTGTCCAGGCAGTTTTACCAGCAGGTGAAGTTGCTGAAAAATGACAAAGGCAAGCAGAAAATCGAGTTCAAGGATAAAGGTTCGGGCTCGACGTTTAACGGACACTTGGGGGGAGCAAAGCTACAACTGGAGCGGGGCGATTTGGAGAAGGAAGAAAAAAACTTCGAGGACGGGGAAATCGGCAGCGTTTACCTTAACGTTGTCATTGATTTCGAACCTTTGCAAGAAGTGAAAAATGGCCGCGTGCAGGCGCCGTATGGACAAGTACTGCAACTCATTCGTCGCCCCAACGAGTTTCCCAAGGTCACTACCTATAAGTCGGAGCAACTTGTTGAATGGATAAAAGCTTCGCCACAACACTCGGCTGGGGTGGAGTCGCTGGCATCCGGTTTTCGTGTAATGAGCATAGACCTTGGGCTGCGCGCGGCTGCAGCGACTTCTATTTTTTCTGTAGAAGAGAGTAGCGATAAAAATGCGGCTGATTTTTCCTACTGGATTGAAGGAACGCCGCTGGTCGCTGTCCATCAGCGGAGCTATATGCTCAGGTTGCCTGGTGAACAGGTAGAAAAACAGGTGATGGAAAAACGGGACGAGCGGTTCCAGCTACACCAACGTGTGAAGTTTCAAATCAGAGTGCTCGCCCAAATCATGCGTATGGCAAATAAGCAGTATGGAGATCGCTGGGATGAACTCGACAGCCTGAAACAAGCGGTTGAGCAGAAAAAGTCGCCGCTCGATCAAACAGACCGGACATTTTGGGAGGGGATTGTCTGCGACTTAACAAAGGTTTTGCCTCGAAACGAAGCGGACTGGGAACAAGCGGTAGTGCAAATACACCGAAAAGCAGAGGAATACGTCGGAAAAGCCGTTCAGGCATGGCGCAAGCGCTTTGCTGCTGACGAGCGAAAAGGCATCGCAGGTCTGAGCATGTGGAACATAGAAGAATTGGAGGGCTTGCGCAAGCTGTTGATTTCCTGGAGCCGCAGGACGAGGAATCCGCAGGAGGTTAATCGCTTTGAGCGAGGCCATACCAGCCACCAGCGTCTGTTGACCCATATCCAAAACGTCAAAGAGGATCGCCTGAAGCAGTTAAGTCACGCCATTGTCATGACTGCCTTGGGGTATGTTTACGACGAGCGGAAACAAGAGTGGTGCGCCGAATACCCGGCTTGCCAGGTCATTCTGTTTGAAAATCTGAGCCAGTACCGTTCTAACCTGGATCGCTCGACCAAAGAAAACTCCACCTTGATGAAGTGGGCGCATCGCAGCATTCCGAAATACGTCCACATGCAGGCGGAGCCATACGGGATTCAGATTGGCGATGTCCGGGCGGAATATTCCTCTCGTTTTTACGCCAAGACAGGAACGCCAGGCATTCGTTGTAAAAAGGTGAGAGGCCAAGACCTGCAGGGCAGACGGTTTGAGAACTTGCAGAAGAGGTTAGTCAACGAGCAATTTTTGACGGAAGAACAAGTGAAACAGCTAAGGCCCGGCGACATTGTCCCGGATGATAGCGGAGAACTGTTCATGACCTTGACAGACGGAAGCGGAAGCAAGGAGGTCGTGTTTCTCCAGGCCGATATTAACGCGGCGCACAATCTGCAAAAACGTTTTTGGCAGCGATACAATGAACTGTTCAAGGTTAGCTGCCGCGTCATCGTCCGAGACGAGGAAGAGTATCTCGTTCCCAAGACAAAATCGGTGCAGGCAAAGCTGGGCAAAGGGCTTTTTGTGAAAAAATCGGATACAGCCTGGAAAGATGTATATGTGTGGGACAGCCAGGCAAAGCTTAAAGGTAAAACAACCTTTACAGAAGAGTCTGAGTCGCCCGAACAACTGGAAGACTTTCAGGAGATCATCGAGGAAGCAGAAGAGGCGAAAGGAACATACCGTACACTGTTCCGCGATCCTAGCGGAGTCTTTTTTCCCGAATCCGTATGGTATCCCCAAAAAGATTTTTGGGGCGAGGTGAAAAGGAAGCTGTACGGAAAATTGCGGGAACGGTTTTTGACAAAGGCTCGGTAAGGGTGTGCAAGGAGAGTGAATGGCTTGTCCTGGATACCTGTCCGCATGCTAAATGAAATTCAGTATTGTGAGCGACTGTACCATATTATGCATGTGCAGGGGCTGTTTGAGGAAAGCGCAGACACGGTCGAAGGAGCAGCACAACACAAGCGTGCAGAGACACATCTGCGCAAAAGCAAGGCAGCGCCGGAAGAGATGTGGGGGGACGCTCCGTTTAGCTTGCAGCTCGGCGACCCTGTGCTTGGCATTACGGGAAAGCTGGATGCCGTCTGTCTGGAAGAAGGTAAGCAGTGGATTCCGGTAGAAGGAAAGCATTCGGCGTCGCCAGAAGGCGGGCAGATGTTCACTGTAGGCGTGTATTCGCTGGACGGTTCTGCCTGGCCCAACGACCAAATCCAATTGTGTGCGCAAGGCTTGCTGCTTCGCGCGAATGGATATGAATCCGATTATGGCTACTTATACTACCGTGGCAATAAAAAGAAGGTTCGCATTCCTTTTTCGCAGGAACTCATAGCGGCTACTCACGCCTGCATTCAAAAAGCTCATCAGCTTCGGGAAGCCGAAATTCCCCCTCCGTTGCAGGAGTCGAAAAAGTGCTTTCGATGCTCGTTAAATTACGTATGCATGCCTGACGAGACGAATTACATGTTGGGGTTGAGCGCAAACATCAGAAAGATTGTGCCCAGTCGTCCAGATGGCGGGGTACTGTATGTTACAGAGCAGGGGGCAAAACTGGGCAGAAGCGGAGAAAGCTTGACCATCACCTGCCGGGGCGAAAAGATAGACGAAATCCCGATCAAAGACTTGATTCACGTGAGCTTGATGGGGCATGTGCAATGCTCTACGCAGCTTCTGCACACCTTGATGAACTGTGGCGTCCACGTCAGCTACTTGACTACGCATGGCACATTGACAGGAATAATGACTCCCCCTTTATCGAAAAACATTCGAACAAGAGCCAAGCAGTTTATCAAATTTCAGCACGCGGAGATCGCCCTTGGAATCGCGAGAAGGGTCGTGTATGCGAAAATTTCCAATCAGCGCACGATGCTGCGCCGCAATGGCTCACCAGATAAAGCAGTTTTAAAAGAGTTAAAAGAGCTTAGAGATCGCGCGTGGGAGGCGCCATCACTGGAAATAGTGAGAGGTATCGAGGGACGTGCAGCACAGTTGTACATGCAGTTTTTCCCTACCATGTTAAAGCACCCAGTAGTAGACGGTATGGCGATCATGAACGGTCGCAACCGTCGCCCGCCCAAAGATCCGGTCAATGCGCTGCTCTCCCTCGGCTATACGCTTCTTTCACGGGATGTTTACTCCGCATGTGCCAATGTCGGACTCGATCCACTGTTCGGCTTTTTCCATACGATGGAGCCGGGCAGACCAGCTTTGGCACTCGATCTGATGGAACCGTTCCGCGCCTTGATTGCCGATAGCGTAGCGATACGTACCTTGAATACGGAGGAACTCACCCTCGGGGACTTTTATTGGGGAAAAGACAGTTGTTATTTGAAAAAGGCAGGAAGACAAACGTATTTCGCTGCCTATGAAAGACGGATGAACGAGACGCTGACGCATCCGCAATTTGGGTATAAGCTCAGCTATCGCCGTATGCTGGAGCTGGAAGCAAGGTTTTTGGCCCGGTATCTGGATGGAGAGCTGGTGGAATATACGCCGCTCATGACAAGGTAGGAAATGACCATGCGACAATTTGTTCTGGTAAGCTATGATATTGCCGATCAAAAACGTTGGAGAAAAGTATTCAAGCTGATGAAGGGGCAAGGCGAGCACGTCCAGTACTCGGTGTTTCTGTGCCAACTCACCGAGATTCAGCAAGCCAAGCTAAAGGTAAGCCTGGCGGAGCTGGTTCACCATGGAGAAGACCAGGTCATGTTTGTAAAAATCGGCCCAGTGACGAGAGATCAACTGGACAAGCGGATATCTACTGTTGGCAGGGAGTTTCTGCCTCGCGATTTGACCAAATTTATCTATTAAGGAATGAAGAAAGCTAGTTGTAACAAAAGTGGAAAAAGAGTAAAATAAAGGTGTCAGTCGCACGCTATAGGCCATAAGTCGACTTACATATCCGTGCGTGTGCATTATGGGCCCATCCACAGGTCTATTCCCACGGATAATCACGACTTTCCACTAAGCTTTCGAATTTTATGATGCGAGCATCCTCTCAGGTCAAAAAAGCCGGGGGATGCTCGAACTCTTTGTGGGCGTAGGCTTTCCAGAGTTTTTTAGGGGAAGAGGCAGCCGATGGATAAGAGGAATGGCGATTGAATTTTGGCTTGCTCGAAAAACGGGTCTGTAAGGCTTGCGGCTGTAGGGGTTGAGTGGGAAGGAGTTCGAAAGCTTAGTGGAAAGCTTCGTGGTTAGCACCGGGGAGAAGTCATTTAATAAGGCCACTGTTAAAAGTTCGAAAGCTTAGTGGAAAGCTTCGTGGTTAGCACGCTAAAGTCCGTCTAAACTACTGAGATCTTAAATCGGCGCTCAAATAAAAAACCTCGCTAATGCGAGGTTTCAGC (SEQ ID NO: 63).

>D-локус

GAAGTTATGTTGATAAAATGGTTTATGAAAACGTGAGTCTGTGGTAGTATTATAAACAATGATGGAATAAAGTGTTTTTTGCGCCGCACGGCATGAATTCAGGGGTTAGCTTGGTTTTGTGTATAAATAAATGTTCTACATATTTATTTTGTTTTTTGCGCCGCAAAATGCAACTGAAAGCCGCATCTAGAGCACCCTGTAGAAGACAGGGTTTTGAGAATAGCCCGACATAGAGGGCAATAGACACGGGGAGAAGTCATTTAATAAGGCCACTGTTAAAAGTTTTGAGAATAGCCCGACATAGAGGGCAATAGACTTTTGCTTCGTCACGGATGGACTTCACAATGGCAACAACGTTTTGAGAATAGCCCGACATAGTTATAGAGATGTATAAATATAACCGATAAACATTGACTAATTTGTTGAAGTCAGTGTTTATCGGTTTTTTGTGTAAATATAGGAGTTGTTAGAATGATACTTTTTGCCTAATTTTGGAACTTTATGAGGATATAAGATAGACTTGATAAAAAGGTAAAAGAAAGGTTAAAGAGCATGGCAGGAATAGTGACCTGTGATGAAGATGATGGTAGAATTAAAAGTGTTCTTAAAGAAAAACAATATTGGATAAGGAAAATAATTCAATAGATAAAAAATTTAGGGGGAAAAATGAAAATATCAAAAGTCGATCATACCAGAATGGCGGTTGCTAAAGGTAATCAACACAGGAGAGATGAGATTAGTGGGATTCTCTATAAGGATCCGACAAAGACAGGAAGTATAGATTTTGATGAACGATTCAAAAAACTGAATTGTTCGGCGAAGATACTTTATCATGTATTCAATGGAATTGCTGAGGGAAGCAATAAATACAAAAATATTGTTGATAAAGTAAATAACAATTTAGATAGGGTCTTATTTACAGGTAAGAGCTATGATCGAAAATCTATCATAGACATAGATACTGTTCTTAGAAATGTTGAGAAAATTAATGCATTTGATCGAATTTCAACAGAGGAAAGAGAACAAATAATTGACGATTTGTTAGAAATACAATTGAGGAAGGGGTTAAGGAAAGGAAAAGCTGGATTAAGAGAGGTATTACTAATTGGTGCTGGTGTAATAGTTAGAACCGATAAGAAGCAGGAAATAGCTGATTTTCTGGAGATTTTAGATGAAGATTTCAATAAGACGAATCAGGCTAAGAACATAAAATTGTCTATTGAGAATCAGGGGTTGGTGGTCTCGCCTGTATCAAGGGGAGAGGAACGGATTTTTGATGTCAGTGGCGCACAAAAGGGAAAAAGCAGCAAAAAAGCGCAGGAGAAAGAGGCACTATCTGCATTTCTGTTAGATTATGCTGATCTTGATAAGAATGTCAGGTTTGAGTATTTACGTAAAATTAGAAGACTGATAAATCTATATTTCTATGTCAAAAATGATGATGTTATGTCTTTAACTGAAATTCCGGCAGAAGTGAATCTGGAAAAAGATTTTGATATCTGGAGAGATCACGAACAAAGAAAGGAAGAGAATGGAGATTTTGTTGGATGTCCGGACATACTTTTGGCAGATCGTGATGTGAAGAAAAGTAACAGTAAGCAGGTAAAAATTGCAGAGAGGCAATTAAGGGAGTCAATACGTGAAAAAAATATAAAACGATATAGATTTAGCATAAAAACGATTGAAAAGGATGATGGAACATACTTTTTTGCAAATAAGCAGATAAGTGTATTTTGGATTCATCGCATTGAAAATGCTGTAGAACGTATATTAGGATCTATTAATGATAAAAAACTGTATAGATTACGTTTAGGATATCTAGGAGAAAAAGTATGGAAGGACATACTCAATTTTCTCAGCATAAAATACATTGCAGTAGGCAAGGCAGTATTCAATTTTGCAATGGATGATCTGCAGGAGAAGGATAGAGATATAGAACCCGGCAAGATATCAGAAAATGCAGTAAATGGATTGACTTCGTTTGATTATGAGCAAATAAAGGCAGATGAGATGCTGCAGAGAGAAGTTGCTGTTAATGTAGCATTCGCAGCAAATAATCTTGCTAGAGTAACTGTAGATATTCCGCAAAATGGAGAAAAAGAGGATATCCTTCTTTGGAATAAAAGTGACATAAAAAAATACAAAAAGAATTCAAAGAAAGGTATTCTGAAATCTATACTTCAGTTTTTTGGTGGTGCTTCAACTTGGAATATGAAAATGTTTGAGATTGCATATCATGATCAGCCAGGTGATTACGAAGAAAACTACCTATATGACATTATTCAGATCATTTACTCGCTCAGAAATAAGAGCTTTCATTTCAAGACATATGATCATGGGGATAAGAATTGGAATAGAGAACTGATAGGAAAGATGATTGAGCATGATGCTGAAAGAGTCATTTCTGTTGAGAGGGAAAAGTTTCATTCCAATAACCTGCCGATGTTTTATAAAGACGCTGATCTAAAGAAAATATTGGATCTCTTGTATAGCGATTATGCAGGACGTGCATCTCAGGTTCCGGCATTTAACACTGTCTTGGTTCGAAAGAACTTTCCGGAATTTCTTAGGAAAGATATGGGCTACAAGGTTCATTTTAACAATCCTGAAGTAGAGAATCAGTGGCACAGTGCGGTGTATTACCTATATAAAGAGATTTATTACAATCTATTTTTGAGAGATAAAGAGGTAAAGAATCTTTTTTATACTTCATTAAAAAATATAAGAAGTGAAGTTTCGGACAAAAAACAAAAGTTAGCTTCAGATGATTTTGCATCCAGGTGTGAAGAAATAGAGGATAGAAGTCTTCCGGAAATTTGTCAGATAATAATGACAGAATACAATGCGCAGAACTTTGGTAATAGAAAAGTTAAATCTCAGCGTGTTATTGAAAAAAATAAGGATATTTTCAGACATTATAAAATGCTTTTGATAAAGACTTTAGCAGGTGCTTTTTCTCTTTATTTGAAGCAGGAAAGATTTGCATTTATTGGTAAGGCAACACCTATACCATACGAAACAACCGATGTTAAGAATTTTTTGCCTGAATGGAAATCCGGAATGTATGCATCGTTTGTAGAGGAGATAAAGAATAATCTTGATCTTCAAGAATGGTATATCGTCGGACGATTCCTTAATGGGAGGATGCTCAATCAATTGGCAGGAAGCCTGCGGTCATACATACAGTATGCGGAAGATATAGAACGTCGTGCTGCAGAAAATAGGAATAAGCTTTTCTCCAAGCCTGATGAAAAGATTGAAGCATGTAAAAAAGCGGTCAGAGTGCTTGATTTGTGTATAAAAATTTCAACTAGAATATCTGCGGAATTTACTGACTATTTTGATAGTGAAGATGATTATGCAGATTATCTTGAAAAATATCTCAAGTATCAGGATGATGCCATTAAGGAATTGTCAGGATCTTCGTATGCTGCGTTGGATCATTTTTGCAACAAGGATGATCTGAAATTTGATATCTATGTAAATGCCGGACAGAAGCCTATCTTACAGAGAAATATCGTGATGGCAAAGCTTTTTGGACCAGATAACATTTTGTCTGAAGTTATGGAAAAGGTAACAGAAAGTGCCATACGAGAATACTATGACTATCTGAAGAAAGTTTCAGGATATCGGGTAAGGGGAAAATGTAGTACAGAGAAAGAACAGGAAGATCTGCTAAAGTTCCAAAGATTGAAAAACGCAGTAGAATTCCGGGATGTTACTGAATATGCTGAGGTTATTAATGAGCTTTTAGGACAGTTGATAAGTTGGTCATATCTTAGGGAGAGGGATCTATTATATTTCCAGCTGGGATTCCATTACATGTGTCTGAAAAACAAATCTTTCAAACCGGCAGAATATGTGGATATTCGTAGAAATAATGGTACGATTATACATAATGCGATACTTTACCAGATTGTTTCGATGTATATTAATGGACTGGATTTCTATAGTTGTGATAAAGAAGGGAAAACGCTCAAACCAATTGAAACAGGAAAGGGCGTAGGAAGTAAGATAGGACAATTTATAAAGTATTCCCAGTATTTATACAATGATCCGTCATATAAGCTTGAGATCTATAATGCAGGATTAGAAGTTTTTGAAAACATTGATGAACATGATAATATTACAGATCTTAGAAAGTATGTGGATCATTTTAAGTATTATGCATATGGTAATAAAATGAGCCTGCTTGATCTGTATAGTGAATTCTTCGATCGTTTCTTTACATATGATATGAAGTATCAGAAGAATGTAGTGAATGTGTTGGAGAATATCCTTTTAAGGCATTTTGTAATTTTCTATCCGAAGTTTGGATCAGGAAAAAAAGATGTTGGAATTAGGGATTGTAAAAAAGAAAGAGCTCAGATTGAAATAAGTGAGCAGAGCCTCACATCGGAAGACTTCATGTTTAAGCTTGACGACAAAGCAGGAGAAGAAGCAAAGAAGTTTCCGGCAAGGGATGAACGTTATCTCCAGACAATAGCCAAGTTGCTCTATTATCCTAACGAAATTGAGGATATGAACAGATTCATGAAGAAAGGAGAAACGATAAATAAAAAAGTTCAGTTTAATAGAAAAAAGAAGATAACCAGGAAACAAAAGAATAATTCATCAAACGAGGTATTGTCTTCAACTATGGGTTATTTATTTAAGAACATTAAATTGTAAAAAAGATTCGTTGTAGATAATTGATAGGTAAAAGCTGACCGGAGCCTTTGGCTCCGGACAGTTGTATATAAGAGGATATTAATGACTGAAAATGATTTTTGTTGGAAGTCAGTTTTTTCTGTGGAAAGCGAAATCGAATATGATGAGTATGCATATGGCAGAAGAGCTGTAGAAGGCGAGAATACATATGATTACATTACTAAGGAAGAAAGACCGGAACTTAATGACGAATATGTAGCGAGACGTTGCATTTTCGGTAAAAAAGCAGGAAAAATATCCAGGTCGGATTTTAGTAGGATAAGATCTGCGTTGGATCATGCGATGATAAATAATACACATACAGCATTTGCCAGATTTATCACTGAAAATCTGACGAGACTCAATCACAAAGAACATTTTCTGAATGTGACACGTGCATATTCTAAACCTGATTCTGAAAAATTGATACAACCGAGATACTGGCAGTCGCCTGTAGTTCCAAAGGATAAACAAATATATTATAGCAAGAATGCGATTAAAAAATGGTGTGGTTACGAAGATGATATTCCGCCTCGTTCTGTGATAGTTCAGATGTGTCTATTGTGGGGGACTGATCATGAAGAGGCAGATCATATCCTTCGCAGTTCAGGATACGCGGCGCTTAGTCCTGTTGTACTTCGAGATCTTATCTATATGTATTATCTGGATCATCAGGATTTGCAAAAAAATGAGTTGATATGGGAAGTAAAAAAGCAGTTGGATCACTTCGATTTGACAAATAGAAATTATGATACAAATCCTTTTGATGTAGGGGGCAGCGTAAATGATCATATCTGTGAACTGAGCGAGCATATAGCGAAGGCTCATTATATTTATGAGAGGGCTAAGGAAGGACCATTGCAAAATGTAATTCGGGATATTTTGGGAGATACACCTGCCCTTTATTCTGAAATGGCATTTCCTCAGCTAGCATCTATAAACAGGTGTGCTTGCAATTCGCTTTCTTCATATCAAAAAAATATTTTTGATACTGACATAGCTATATATGCAGATGAAAAGGACACAAGAGGTAAATCAGACCGTATCCTTGTTGAGGGCGCATCTTCGAAATGGTATGAATTGAAGAAACGCGATGCTAATAATGTCAAAATTTCTGAAAAGCTGAGTATACTCAATACTATTCTTAAATTTAATAGTGTTTTTTGGGAAGAATGTTACCTTGATGGAAATATAAAACAATCGAGCGGAAAGCGATCTGAGGCAGGAAAAATTCTTTATGGTCGCGACAACGGAAAAGAAAATGTCGGAGTTTCAAAATTGGAATTGGTGCGGTATATGATAGCTGCAGGTCAGGAACAAAATCTGGGAAATTACCTGGTGAGTTCAGGATTTTGGAGAAAAAATCATATGCTGTCATTTATACAAGGCAATGATATAGCGCTTGATGAGATGGATGAATTGGATCTCTTAGACTATATTCTGATATATGCATGGGGATTTAGGGAAAATATCATTAAAAAGAACAGTAATGTGAATTCTTTGGATGAAAAGACTAGAAAAGTGCAGTTTCCGTTTATAAAGTTACTCATGGCAATTGCAAGAGATATCCAGATACTTATATGTTCAGCACATGAAAAAACAGTCGATGAGTCATCTCGAAATGCAGCAAAGAAGATAGATATATTGGGAAATTATATTCCTTTTCAGATTCATCTTCAGAGAACTAAAAAAGATGGTGGAAGAGTGGTAATGGATACATTGTGTGCTGATTGGATTGCGGATTATGAATGGTACATTGATCTTGAGAAAGGAACACTTGGATGAGCAGTGATGAAAGGATATTTAAAAAATTTTTGGAAAAAGGATCGATTTCTGAGCAGAAAAAGATGCTTTTAGAAGAAAAGAAATGTTCGGATAAACTAACTGCACTGCTTGGGAATTACTGCATACCGATAGACAATATTTCAGAGTCAGACGGAAAAATATATGCGGTCTATAAGCTTCCAAAAAATGTTAAACCTTTGTCCGAAATCATTAATGATGTATCCTTTTCTGATTGTACGATGAGAGTACGTTTGCTTCTCATAAAGAGAATTCTGGAACTCGTGTGTGCTTTTCACGAAAAAAAATGGTATTGTCTCAGTATTTCACCGGGAATGCTCATGGTTGAAGATTTTGATATACCGATGGGAAATGTCGGAAAAGTATTGATATATGATTTCAGAAATCCTGTTCCGTTCGAGTCAGTAAATGAAAGACATAATTTTAACGTTTCAAATAAATACACTTCACCGGAGCTGCTCATCCATTCAAGATATGACGAGTCGAAATCTGTGAGTGAAAAATCAGATTTGTATTCTGTTGCAAAAATTGCGGAAACAATAATAGGAGATTTTAACAGTATTATTGCAAATGGAAATTTGATACTACTTGCAATGCTTAGAGTTTTTATCAGTACAGGGAAAAGTCCGGAACCTGAGTATCGGTTTGAATCGTCGGAAAATATGCTTTCAGTATTTGAAAATTTGATCAAAGAAAATTGTTTTTTTGAAAAAAACGATTATACATCTATGTTTCATCAGGCGTATGACAATTTTTTTGAATGGCAGGAATGTTTGATATCACCGGATCACTTGGATAAAAATATGTTCGAGGCAGCTTTATCAAATCTTGAGGATCAGCTGCTTAGGGTTGATATTGATAAGTATAGAGCAGAGTACTTCTATAAGCTTCTCCGAGAGTTGTCTAATAAATATAAAAATACAATTACTGATGAACAAAAGGTAAGGTTGGCAATACTTGGAATCAGAGCGAAAAATAATCTGGGAAAAAGTTTTGATGCATTGGAAATATATGAGTCAGTACGTGATTTAGAAACTATGTTGGAGGAGATGGCAGAGCTTAGTCCTGTCATTGCTTCGACATATATGGATTGCTACCGATATGCAGATGCGCAGAAAGTGGCGGAAGAAAACATTATCAGGCTTCATAATAGTAATATTCGTATGGAGAAAAAAAGAATACTGCTTGGAAGGTCATATAGTTCAAAAGGGTGCAGCATGGGGTTTCAGCATATTCTTGGTGCGGATGAGTCATTTGAACAGGCTTTATATTTCTTTAACGAAAAGGACAATTTTTGGAAAGAAATATTTGAGAGCAGAAATTTAGAGGACAGCGATAGACTTATAAAGTCTTTACGAAGCAATACGCATATTACGCTGTTTCATTACATGCAATATGCATGTGAAACAAGGAGAAAGGAATTATATGGAGCACTTTCAGACAAATATTTTATAGGTAAAGAATGGACAGAAAGACTCAAAGCATATATAAGCAACAAGGATATATGGAAAAACTATTATGAGATATATATTCTGCTAAAGGGTATTTATTGCTTCTATCCAGAAGTCATGTGTTCGTCTGCGTTTTATGATGAAATCCAAAAAATGTACGATCTTGAATTTGAAAAGGAAAAAATGTTTTACCCATTGAGTCTGATAGAACTGTATCTTGCTCTGATAGAGATAAAAGTTAATGGGAGTCTGACGGAGAATGCCGAGAAGTTGTTTAAACAGGCATTGACACATGACAATGAAGTCAAAAAAGGAAATATGAATATTCAGACCGCCATTTGGTATCGAATATATGCACTGTATAACGATGTAAAAGATGAAACTGATAAGAATAAAAGGCTTTTAAAACGGCTTATGATTCTTTGCCGACGATTTGGTTGGGCGGATATGTATAGTGCTTTGGAGAAGGATGGGAAGTTAATTGATTTTTTGAGATTTGAGGTATGTTAAATGATAACACTTGCATTAGATGAAAATGGCAAATTTGAAGATGCTTTTTCTAAAAAAAATGAAAAACCGATAATGATTGCGGGGATAATCTATGATGACAAGGGGAAAGAGTATGATGCTGAGAATGAACGCTACAGGATATCCAGTTATCTGCGAGCAGTATGTGACAGTTTGGGTGCGAAATACCCTCAGGATCTACATTCAAATAGTAATGGAAATAAGGCGACTGTTGGGAAAGTAAAATGTAAAATTGGTGAAACACTAAAGGAATTCTTGAGAGAAGGAACCTATGAAAAAAAGGAATTGCCGACAAAGAACGGTTATTTAAATAAGAGATCTGGAAAATATGTAATGTTTGCAGAACTCAGGAGTAGTCAGGGAGTTAAAAAGCGTGTTAGTGGTTGGAATGACAATGATCTGACTCAGGATGAAAAGGTCAGCAATCTGTACCTTCATATGGCAGAAAATGCCGTTGTCAGAATGCTCTTCCATAATCCTATATATGAAGATGTAACAGATGTAAATCTCTATTTTCCCACGCGAAAAGTTGTTCTGAAAGATAGAGATAGAGAATACGATAAACAAGATTTCAAAATATATGGTGATAAGGACAAGTGCGAAGCAGAAAGCGGGAGATTGGTGCATTATGATATCGTGTCATCGGATTTTTACCGTACGATAATGGAGAACGAATGTACAAGAATTAATAAAAAGCAATTAAATGTTCATTATATGAACACAAGCCCAATTTCGTACTGGGAGAAAAATGAAAAATATAATACATTTTTATATTTGGCTGACATAGTTTGTTCTATGCTGGATTATTACAAAAAGGGTTCGAGTCCGGCAGAGTGGATGGATTCTTTTGCCGAATGGGGAAACAAATATTTTGGTGATGATCAGATAATCTTATTTGGGTATGATGATATAGATGACAAATACATGGAGGCTGTAGATGCAGTAGGACAGGGAGAGTATTTTCATGCGCTGGATATTATATATGATGCGGAATGTAGTGGAAGTGAATTTGAGAAGCACTACAAAGATTATTGGTTTCCAAAGCTTATAAAAAAGATACGAATAACAGCAACTGTGGATAATTTATGCAGATCGATCTCAGATCTGGAGAGTTTTACATATCGAAGTAATCTTGATCAGCAGAAACTTTTGTGGATTTTTGAGGAAATCAAAGCTATCGTCGATAAGGGAGATTTTGGAAAGAAATATCATACAGATCAGGTTATGTTTGATATGTGTAATGCCGGTATTGCTGTGTACAATCATATCGGAGATTTTGGGACTGCAAAGGAATACTATGATGAGTGCATGAAACACACTGGGGATGTGGATCTGGTAAAGATACTTCGTGCATCAAATAAAATGGTGGTCTTTCTTGACGATGCTTTTAGGTATGGTGACGCGACAGAACGTGCCAGGAAGAATGTTGAATACCAAAAAGCTTTGCACGATATAAAGAGTGAGATTTGTCCGGAAAAGAAAGATGAAGACTTGAACTATGCCATATCGCTCAGTCAATTTGGACAGGCGCTTGCGTGTGAAAAAAATTCTGATGCAGAGAGTGTTTTCCTAGAGTCGTTGCGGCATATGAGGAAAGGGACTGCCAATTATCAGATTACTCTTTCATATTTACTCCATTTTTATCTGGATATGGGAATGACAGATTCTTATCGAGAAAAAACAAAGGACTATTTTGGAAGTGAAAAACCAAAGGAACAGCTGAAAGAATTGCTGAAGTTATCGGGAAAGGATGATAGTATAGTTACTTTCAAATTTGCAATGTATGTCTATTTACGTGCACTTTGGGTATTACAGGAACCGCTTACTGATTTTATCAGAACAAGATTAGAGGACATACGTGAGACTCTTGTAAAGAAGAAAATGAGTGAACATATGGTTGGACATCCGTGGGAGTTGATTTATAAATATCTGGCATTTCTTTTTTATCGTGATGGAAATTGTGAAGCTGCTGAAAAATATATTCATAAAAGTGAAGAGTGCTTGGAAACACAAGGACTGACTATAGATGCGATTATTCATAATGGTAAGTATGAATATGCAGAATTGTCAGGTGACGAGGAGATGATGGCAAGAGAGAAAGCGTACTTTGATGAAAAAGGGATAGATAGAAAAAATGTTTGTACTTTTATGTATCATTGATGTTTAATAAGATTTGACCGAGGAGTGACAGGTAATCGCCGGTATATCTGGTATTACCTGTCATTTTTTGATGAAATAAGCTACTTTTTGCCTAAAAAACGAAACTGTTGGTGTTTTATGATGATTGTGTCAACAAAAGAGAGCAAAAGAAGAGGAGAAAAGTAATGTCAATGATTTCATGTCCGAATTGTGGTGGAGAGATATCTGAAAGGTCAAAGAAATGTGTTCATTGTGGATATGTGTTAGTCGAAGAAGCTAAAGTAGTGTGCACAGAATGTGGAACTGAGGTAGAGAGTGGCGCTGCTGTATGTCCGAAGTGCGGCTGTCCTGTAAATGATAGTGAGACGCCTCAGAAAGTTGAAGTGACTAGGGTAAATGTATCTTCCGTAATCAGCAAAAAAGTCGTTGTAAGCATACTGATCGCAGTGATTACAATTGCAGGTTTTTTCTATGGAGTGAAGTATTCGCAGGAAAAGAAAGCAATTGAAGAGTCAGTAAAGCAGAAGGAAGACTATCAAAGTACGCTAGAGCTTGCTTCGCTAATGATGCTTCAAGGAGCTTCGGATGCAGAAACTTGTGGGAATTTGGTTAGGAAAGTGTGGAGCAACTGCATTTATAAGGAGAGGGATGAAGAAACCGACAAGTATACGTGTGATAGCAGGGGTGCAGGATGGTTTTATGATGATTTTAATGATGCATTAATGGCTCTTTACAGTGACAGCAGTTTTGGCAAGAAGATAAATGAAATCAAAAACGGTCAGGAAACCGTTGCGGCGATGATGAAAGATCTGAAAAATCCGCCGGATGAGATGGCAGATGCCTATGAGGATATTCAAAATTTTTATGTGTCCTATCTAACGCTGACAGAAATGGTTGTGAATCCAACTGGAAGTTTGAGTTCTTTTTCATCTGATTTTTCCGATGCGGATACGGAGGTGTCCAATGCCTATAGCCGGATGAAGTTGTATTTAGATTAAACTATTGAGGAAAAAATGGAGGTGCTTTAATGCGGGGGAGAAACTGTGGAGGGTCATCAGGCGACGGACTGCTGGTACTTCTCGTACTGCTTGTCCTTTTTTATAAAATCATGCCATTCATAGGTTTATGGATTTTAATTTTTGGTGATGCTGAACGTAAAGATCTGGGTATGGGTATGATTATTGTCGGGATAGTTCTATATGTATTATTAGAGGTTTTTTAATGTGAGTTTCTGTGGTAAACTATAAAAGTACAAGCTTTTGCGCCGCACCGCATAAATAGCGGATTTATGACCATTATTTGGTGAAAAAAATGGTGTACACCTGTGTTTTTTTGTTTTGCGCCGCAAAATGCGCCACGGAACCGCATGCAGAGCACCCTGCAAGAGACAGGGTTATGAAAACAGCCCGACATAGAGGGCAATAGACACGGGGAGAAGTCATTTAATAAGGCCACTGTTAAAAGTTATGAAAACAGCCCGACATAGAGGGCAATAGACATAAAGACCAAAAACAGGTCATCTGCATACTGTGTTATGAAAACAGCCCGATATAGAGGGTGTGAGAGATATAGTTCTCGTCACAGTGCAGAAAATGACCTATTATGTGCCGAAAAACAAAATGAAAAAAGAATGGAAAGGCGTATTTAATGAAATGCTGATCTGTTGATTTGAATTAACAAAAAAAGGTCGCCCCACGGATGACAAAAACATCCGGGGGCGACCCTTTT (SEQ ID NO: 64).

>E-локус

TACTGTGTGCATAAGTCTTCCTTAGATCCATAGGTACAGCAGTTTTATTTATTAGCCTTAGAAAATGGAAAATAGAGCTTATAAATGATATGATATTTATGAATAAAATGATTGCATTCTCGTGCAAACTTTAAATATATTGATTATATCCTTTACATTGGTTGTTTTAATTACTATTATTAAGTAGGAATACGATATACCTCTAAATGAAAGAGGACTAAAACCCGCCAAAAGTATCAGAAAATGTTATTGCAGTAAGAGACTACCTCTATATGAAAGAGGACTAAAACTTTTAACAGTGGCCTTATTAAATGACTTCTGTAAGAGACTACCTCTATATGAAAGAGGACTAAAACGTCTAATGTGGATAAGTATAAAAACGCTTATCCATCATTTAGGTGTTTTATTTTTTTGTGATTATATGTACAATAGAAGAGAGAAAAAAATCATTGAGGTGAAAACTATGAGAATTACTAAAGTAGAGGTTGATAGAAAAAAAGTACTAATTTCTAGGGATAAAAACGGGGGCAAGTTAGTTTATGAAAATGAAATGCAAGATAATACAGAACAAATCATGCATCACAAAAAAAGTTCTTTTTACAAAAGTGTGGTAAACAAAACTATTTGTCGTCCTGAACAAAAACAAATGAAAAAATTAGTTCATGGATTATTACAAGAAAATAGTCAAGAAAAAATAAAAGTTTCAGATGTCACTAAACTTAATATCTCAAATTTCTTAAATCATCGTTTCAAAAAAAGTTTATATTATTTTCCTGAAAATAGTCCTGACAAAAGCGAAGAATACAGAATAGAAATAAATCTCTCCCAATTGTTAGAAGATAGCTTAAAAAAACAGCAAGGGACATTTATATGTTGGGAATCTTTTAGCAAAGACATGGAATTATACATTAATTGGGCGGAAAATTATATTTCATCAAAAACGAAGCTAATAAAAAAATCCATTCGAAACAATAGAATTCAATCTACTGAATCAAGAAGTGGACAACTAATGGATAGATATATGAAAGACATTTTAAATAAAAACAAACCTTTCGATATCCAATCAGTTAGCGAAAAGTACCAACTTGAAAAATTGACTAGTGCTTTAAAAGCTACTTTTAAAGAAGCGAAGAAAAACGACAAAGAGATTAACTATAAGCTTAAGTCCACTCTCCAAAACCATGAAAGACAAATAATAGAAGAATTGAAGGAAAATTCCGAACTGAACCAATTTAATATAGAAATAAGAAAACATCTTGAAACTTATTTTCCTATTAAGAAAACAAACAGAAAAGTTGGAGATATAAGGAATTTAGAAATAGGAGAAATCCAAAAAATAGTAAATCATCGGTTGAAAAATAAAATAGTTCAACGCATTCTCCAAGAAGGGAAATTAGCTTCTTATGAGATTGAATCAACAGTTAACTCTAATTCCTTACAAAAAATTAAAATTGAAGAAGCATTTGCCTTAAAGTTTATCAATGCTTGTTTATTTGCTTCTAACAATTTAAGGAATATGGTATATCCTGTTTGCAAAAAGGATATATTAATGATAGGTGAATTTAAAAATAGTTTTAAAGAAATAAAACACAAAAAATTCATTCGTCAATGGTCGCAATTCTTCTCTCAAGAAATAACTGTTGATGACATTGAATTAGCTTCATGGGGGCTGAGAGGAGCCATTGCACCAATAAGAAATGAAATAATTCATTTAAAGAAGCATAGCTGGAAAAAATTTTTTAATAACCCTACTTTCAAAGTGAAAAAAAGTAAAATAATAAATGGGAAAACGAAAGATGTTACATCTGAATTCCTTTATAAAGAAACTTTATTTAAGGATTATTTCTATAGTGAGTTAGATTCTGTTCCAGAATTGATTATTAATAAAATGGAAAGTAGCAAAATTTTAGATTATTATTCCAGTGACCAGCTTAACCAAGTTTTTACAATTCCGAATTTCGAATTATCTTTACTGACTTCGGCCGTTCCCTTTGCACCTAGCTTTAAACGAGTTTATTTGAAAGGCTTTGATTATCAGAATCAAGATGAAGCACAACCGGATTATAATCTTAAATTAAATATCTATAACGAAAAAGCCTTTAATTCGGAGGCATTTCAGGCGCAATATTCATTATTTAAAATGGTTTATTATCAAGTCTTTTTACCGCAATTCACTACAAATAACGATTTATTTAAGTCAAGTGTGGATTTTATTTTAACATTAAACAAAGAACGGAAAGGTTACGCCAAAGCATTTCAAGATATTCGAAAGATGAATAAAGATGAAAAGCCCTCAGAATATATGAGTTACATTCAGAGTCAATTAATGCTCTATCAAAAAAAGCAAGAAGAAAAAGAGAAAATTAATCATTTTGAAAAATTTATAAATCAAGTGTTTATTAAAGGTTTCAATTCTTTTATAGAAAAGAATAGATTAACCTATATTTGCCATCCAACCAAAAACACAGTGCCAGAAAATGATAATATAGAAATACCTTTCCACACGGATATGGATGATTCCAATATTGCATTTTGGCTTATGTGTAAATTATTAGATGCTAAACAACTTAGCGAATTACGTAATGAAATGATAAAATTCAGTTGTTCCTTACAATCAACTGAAGAAATAAGCACATTTACCAAGGCGCGAGAAGTGATTGGTTTAGCTCTTTTAAATGGCGAAAAAGGATGTAATGATTGGAAAGAACTTTTTGATGATAAAGAAGCTTGGAAAAAGAACATGTCCTTATATGTTTCCGAGGAATTGCTTCAATCATTGCCGTACACACAAGAAGATGGTCAAACACCTGTAATTAATCGAAGTATCGATTTAGTAAAAAAATACGGTACAGAAACAATACTAGAGAAATTATTTTCCTCCTCAGATGATTATAAAGTTTCAGCTAAAGATATCGCAAAATTACATGAATATGATGTAACGGAGAAAATAGCACAGCAAGAGAGTCTACATAAGCAATGGATAGAAAAGCCCGGTTTAGCCCGTGACTCAGCATGGACAAAAAAATACCAAAATGTGATTAATGATATTAGTAATTACCAATGGGCTAAGACAAAGGTCGAATTAACACAAGTAAGGCATCTTCATCAATTAACTATTGATTTGCTTTCAAGGTTAGCAGGATATATGTCTATCGCTGACCGTGATTTCCAGTTTTCTAGTAATTATATTTTAGAAAGAGAGAACTCTGAGTATAGAGTTACAAGTTGGATATTATTAAGTGAAAATAAAAATAAAAATAAATATAACGACTACGAATTGTATAATCTAAAAAATGCCTCTATAAAAGTATCATCAAAAAATGATCCCCAGTTAAAAGTTGATCTTAAGCAATTACGATTAACCTTAGAGTACTTAGAACTTTTTGATAACCGATTGAAAGAAAAACGAAATAACATTTCACATTTTAATTACCTTAACGGACAGTTAGGGAACTCTATTTTAGAATTATTTGACGATGCTCGAGATGTACTTTCCTATGATCGTAAACTAAAGAATGCGGTGTCTAAATCTTTGAAAGAAATTTTAAGCTCTCATGGAATGGAAGTGACATTTAAACCACTATATCAAACCAATCATCATTTAAAAATTGATAAACTCCAACCTAAAAAAATACACCACTTAGGTGAAAAAAGTACTGTTTCTTCAAATCAAGTTTCTAATGAATACTGTCAACTAGTAAGAACGCTATTAACGATGAAGTAATTCTTTTAAAGCACATTAATTACCTCTAAATGAAAAGAGGACTAAAACTGAAAGAGGACTAAAACACCAGATGTGGATAACTATATTAGTGGCTATTAAAAATTCGTCGATATTAGAGAGGAAACTTTAGATGAAGATGAAATGGAAATTAAAAGAAAATGACGTTCGCAAAGGGGTGGTGGTCATTGAGTAAAATTGACATCGGAGAAGTAACCCACTTTTTACAAGGTCTAAAGAAAAGTAACGAAAACGCCCGAAAAATGATAGAAGACATTCAATCGGCTGTCAAAGCCTACGCTGATGATACAACTTTAAAAGGAAAAGCAGTGGATTCTTCACAAAGATACTTTGATGAAACGTATACTGTTATTTGTAAAAGTATCATAGAAGCATTAGATGAAAGCGAAGAGAGATTACAACAATATATTCATGATTTTGGAGATCAAGTGGATTCTTCACCTAACGCACGAATTGATGCGGAATTACTACAAGAAGCAATGAGTAGGTTAGCTGACATAAAGCGGAAGCAAGAAGCACTTATGCAATCCTTATCTTCTTCTACAGCAACGCTTTACGAAGGCAAGCAACAAGCGTTACACACTCAATTCACGGATGCGCTGGAGCAAGAAAAAATATTGGAACGCTATATTACTTTTGAACAAACTCACGGGAATTTTTTTGACTCATTTGGAGAACTTGTCTATCGAACGGGACAAGCAGTGCGTGAATTAGCTAATAACGTCACATTCGAGAGCCAAACAGGAAGCTATCATTTTGATAAAATAGATGCTTCTAGATTCCAAACTTTGCAAGAAATGTTGCCAAAGGCAAAGAAAAAAGCATTTAATTTTAATGACTACCAAATAACATGGAATGGCACCACGCACCTTTTATGGAAAAATGGTAAAGTGGATGCAGAAGCAACCAAAGCTTATAACGAGGCGAAACTGAATGGAAAGCTACCAAAGGAAGGTAATGTAGCAACACAAGATGCAGAACTATTAAAAGGCATTTTGGCTTCACTGAAAAACAAGAAAGATCCTATCACTGGAGCAGATATAAGCAGTGTGCATGTATTATCTATCCTTAGCGGGCTCGCATTCTCCTATACAGCTGGGAATTATAAGGGAAGAAAACTTACTGTTCCAAAAAGTTTCTTAGACAAATTAAAGAAAAACCGAAAATCTAAAGTACCTAAACTATCTAGTTTATCAGAAAAACAACAACTAAAACTCGCAAATAAATACAAGAAAAAATCACCTATTCCAATTCCAGATGATGCTAAAATCAAAGCTCAGACGAAAAAGGCTGGTTATGAACAAATATCTTATAAATGGAAAGAGAATGGGATAACCTTTGAAGTTAGATGGCATACTAGGACACCAGGTGCACCAAAGGAACAAGGAAATACGTTTGTTATAGAAAGAAAAATTCAGGGTACAGCAGAAGGGAAAACAAAAGTTCAACAAATATTGGTTGGAGATAATAAGTGGGTGAGTAAAAGTGAGTGGCAAAAGGCTATAACTGATAAGAAAAATGGTGTAAGTACCTCGGAGCAAAATAAAATGTTGTCTGATGGACATTGGAAAGAATAGAAAGGAGCAAAATGATGGAAGATTATTATAAAGGTTTTGAGGGATATCCAGAGATAGATTTTTATACGTATATAGATGATATGAAATTGGGTATAGCAATGTGGGAAGGATACTTTGACAACATTATGAAAGAAATTAATCCAAGTAACGGAAGATGGACTTCATTAGCGTATTATTATCATTTAGATGAGGGGTGGTATGATGAAAGTCCTTGGGAAATACCAAGTAATACAGAAGCATTAGAATTATTGGAAACAATCCATATATCTAATCTAGATACTATCACACAAGAGATATTACTTAAATTAATAAATTTATTAAAGAAGAATATAAATAGACAAGTTTATATTGAATACTCATAAAAAAGATGATTATGATATATTATAGAACAAACGAACAAGCCCCAAATACGAGGTTTGTTCGTTTGTTTTCAATATAATTATTTGCCACCAAGTGAGATATTACGGTTTTAAATAGCTTATTTGACGATACCAAACCCTGATAAGAGAAAGAAGAAAGAGAAAGCTGGTGTAGTTGTTTTAAGTGAACTAGATAAAAAATTAATAGCAAAACTTGAAAAAGATGGTGTGAAAATATCAAAAGAAGATGTTATAGGAATAAAATAATTGCCAGATGATGAGAAATCGTTTGGCTGGAAAAAGGAAATCCATCCGCTGGATTTGAGCATATTCTTATTGAACATGGTGAACAATTTGCTAAATAGGGAATTTCAAAAGCTGAGTTACCTGATTTTTTGATGACTGCTTTAGAAAAGGAAA (SEQ ID NO: 65).

>F-локус

ATTCTTTAAAAATATCTAATAATTTATTTACTATATACTCTAATACATCTTTTAACCTATCTAAAACATCATCACCTACAACATCCCAAAAATCATCTAAAAAGTTAAAAAAATCCATCTTTATCAACTCCTATATCTATTTTTTATTGTGTAATTCCTGAGTTACAAAACCATTATAACACGTATTACACACGTAGTCAATACTTCAAAAAAATTTTTTGTATATTTTTTTGAATAAGTAAATAAAAAGAGCTGTGTAGCTCTTTATTAAAATCAATATTTTTATTTTGTTAACAAACTTAGACAACATTAAATTTAGAAACCTATATATATTTCAGTACTTTTCATTTTTAGGTAGTCTAAATCAGAAATGGTTTTGTCTAAATGATGTATGTAAGTTTTAGTCCCCTTCGTTTTTAGGGTAGTCTAAATCAGAAGTCATTTAATAAGGCCACTGTTAAAAGTTTTAGTCCCCTTCGTTTTTAGGGTAGTCTAAATCCCATCCAAATTATGGGATAATATGTTACTTTTTATTTTAATATTTGATTATTTATTGTTTTTTTACTGATTTAGATTACCCCTTTAATTTATTTTACCATATTTTTCTCATAATGCAAACTAATATTCCAAAATTTTTGTTTCTTTTCTTATGATCTTTTCTCCGATAGTTATTTCTCCAGATAAGATTTTCATTTTTTTGAATTGATCTTCTGTTAGAATTAATGTTCTTACTGATGAATTTTCTGGAACTATCATTGACAACTGATTTTCATAGGAAATTATTTTTTCTTTTGTGCTAGAACTTACAATGTATACTGATTTTTGTACCTGATAATATCCTTTTCTTATAATTTCTTTTCTAAATTTTGCATATTCTTTTTTTTCTTTTCCTGTTTGCATTGGAAAATCATACATTAGAATCCCTACATAATTAGTACTCATAATCCTCTATCCTTAACTCAGGAATTTCTACTTCTGACATTTCTCCTGTAAAATAATTTCTAATATTATCTAAAAAATAATCAATCACTTGAGCCAATTCATATTTTTTATTTTTCCAATAAACTTTTTGTGTTAATACCAATAACAATTTTTGTCTTAATGATTTATTCAAACTTACTTCTTCCTGTTGATTAAAATATACGATATAATCTACCATTGGACGAAATATTTCAATAATATCATCTGCAAAATTATAATTATTAAATTGTGAACTGTGATGTATTCCCAAACTTGGATGAAATCCTTTAGCCACAATTTTTGAAGAGATTAAGCTTCTCAAAACCATATACCCATAATTTAATGCCGAATTTGTCCCGTCTTCACCAAATCTCTTAAATTTTTTCCCAAAAAGTTCACCAAAATACATTCTTGCAGCAATTGCTTCCTGATGTTCCGCTTCTTTTCCTTTTAATCTAATATTATTTTCATATGCTTCCAACTTATATGATACTTCCTGAGATTTTTTCAAAAACTGCAATAAATTTCTTTGATTTTCTATTTTTCTCATTACAATTTTTCTCCAGATTTCTTCTTTTTTATCGTCAATCCAGCTCACTTGCTCATTAATTCTTGTTGTTACTTGAAAATGATTATACAGTCCTAATGAATGTAAAACTGGCTGATGTTTTTCATTACAAATTATCAGTGGAATATTATGTTCTGATAATCTTAACTGTAATATTCCGCTAATTTTACATCTGCAATTTTCAACTACAATTGCCATGATATCATTTAAAGATACTTTATCAGCCTTATTTTCATCATCTTCATTTATCATCACAAGCTGGTTATTTAAAACTGATAATTCATTGACTCTTGTTACATGGATAATATTAGACATTTTTATTACTCCTTTACTCTAAAGCTTTATATTCAAACATAACTTTCACAAGTTCACACAATTCTTCTGAATTTCTATCAGTCATTAATTTTTTCTTTTTTAAATTTTTCAAATGTACAATTTTTTCCGATTCTAAAGTCTGAATTTCTATTTTCTTATCTGCTCCTATTTTAAATGTTGCTACAAAACCATATTCCTTTAATATATCCACTATTGATTTCATAATTGCATTTTTAAGTTTTCTATCATAAGAAAGTAATTTTCTTAAATTTTCCAGCACTTCTAAAAGTGAAATTTCAGCATGCGGAATATAGTTAAAATGTGCAATATAGTTTCGTATATACAAATCTTTTTTCTCTTGTTTTAATTTTTTTACTTTTTTATCAGAATAGATGCTTCTTTTTTCTACATTATCTTTGTATAATTCTTTATAAAAATTTATATATTTTTCAACAATTTGCCCACTTTTATATTTTACATTTTTACTGTTATCAAAATTAAATATTTCTTCAATATAATGATTTTCAGGAAATTCACCTTTCAATCTAAATCTTAAGTCCCTTTCCCAGATCGAAGTATATCCCACAAGTCTGTGGAGTATTTTTAATAACAAGCCTTGCAACAAGTTTAATTCATTAAATTCCACTTTATTTTTCAAATGAGTATATTTTTGTATATTTCCAATTGCTTTTTCATATTCTTTATAATCTTCATCATTAAATTTTTCATCTTTTTTAGGTCTTGCATATTTTCTATGTAAATTTTGCTGCATTGTATAATTTTTTTCTATTTCATTTTTTTTATTGCTGTATTCTTTCAATTCTTTTAAACTTATTTTATACTTCGCTTTATCAGCTATTTTTTCAAGTAAATTTAACATCCCATATTTTTTTATATTATAAAAAGCTCTATGCTTTATAATATTTTCTCCATCAAAATATATTTTATTTGTGTCAAATTTCTTCAATTCTTTCCTATCTTTTATTTTATTTTCATTAAAATCTAAAAATTTTCCAATTTCATTCGCTTCTAATTCAAAATCTTCTGTTACTCTATTATTATCTAAATTTAAAAGATTTATAAGTTCAAGTTCATCTGAAAAAGTTTCTTCTTTATTTGCACTCTGATATTTTTCAAGACTTCCCTTCAAATTAGTCAATTCTTTATGATTAAGCAATTTTAAAATTAAATAAAACATATTCAAATTTTCAGTGTATTTTAATATCTTTCCTAATTTTATCTCTCTTACAAATTCATTTATTTCATGTGGAATTTCTTTATTCCTATTATGTTTTTCATAATTTTTTAAAATTTTATCATATTTTTCTTTATTATCTTTTTTTATTTTTATTTTAGAAAATATATCATTATTATCATTGTTATTATTACTTTCTATATATTTTAAATTATTTTTATTCAAATAATCTATAAAACCTTTTAAAAATATTTGTTGTATAAAATCAATGTATGTATTTTTTTCTTCTTTATCTTGATTATTAATCATCTCCCTACTTTGTATAATAGCAAGATATTCTACTGGTACAGTTTTTTCTATATTTTCAAATTTTTGATATTTATAATGTCCTGTTTTTTGATTTCTTTGTTTATTTATTTTTATTACTTCATTAGTTATTTTAAAAAAAACTTTACTATTTTTAACAAATTTATTAAGAAATTCACCATAATAAATATTTTTCAAAAGATATATTTGAGCATCTTTTTCTTCTTTATCCTTAGGAACACTCCAAAAAAATTTTAAAGTATTTCTTAAATCTTCTATTTTATTATATAATTTCGTAAAAGAAGGAACAAAAGGAATATTCTTATTTACAAAATTAAATTTTGTATTTTTTAAATATTTAATTATCACATCCTTTTCATAATAATTAAATACATTTGCACTATTTAACTGCTTAAATATCTTCAATTTCAATTTTTTCTCATTTATTTCATTTTGAAACATTTTTTTTGAAATTTCAGAAGGAGCTATATTTTTAAATGCAAATATATCTTTCCCTTCTAATTCCAAATTAAAATGCACAATCCCATGTCTAATACTGCTAATAGCTTCATCAATATTTGCAAAAAAATCTTCTATCTCATTTTTATTATCCATATTAAAATCATAACTATAGAACATTTTTAAATTTTCTTTTACTTCATTTTGCTTGTTTTCATTATATATTTTATCAACTTCTCCAGAAACATATTTTTCTTCGCCCTTATTATTTTTTACAGTTTTTCCTCTCATTCTACCTGTAATATCATTCTCATTTTCAGTTTCAAGAATATTTCTCAATGAAAAATATGCAACCGAAGAAACTCCAATTATATTTCGTAAAAATGCTTCATTTTGTCTATTCCTAGCAATAAAATCACTTGTTGCAATCTCTCCAACTTGTAAATAATAATTGTATTTCCCACAATTTCTTACATAAGTATCCAATTTATTTAGTAATTTGTTTTCAATTAATTTTTTTAAATTTTGATATTCAAATATTCTCTTAATTTTATCGTTACTTATGTTACTCAGTCTTTTATACACATAATTTTTCAAAAGCTGACTCATTTCAATTTCCACAAAATGACAAAAAGCATATTTTATATTTTTATCATTAAGTTCTTCTTTATCCAAATAATATTTATAAAACACTTGTGATTTTTTTAATTCACTCATATCCGGAATTTTTTCAATTAATTCTTTTATATTATTTACATTTTGTATTTCTTCGTAAATAATTTTAGCAAAATTTTCTTTATCATTTTTTCTTCCAATTATTTTGTGATAGTATTCTCTTATTTTATATTTTTCATGTTTTTTTGAATTTTCTATTAAAAAAAATAACTTCTCAATATCTTCTTTTTTATACAATTTATCAAATGCTTCCTGTACATTATTTATATAATCATTACGCTTTGCTGATTCTCTATAATAATCATAAATAATATTTCTTTTGCTCTTCCCTCCAACTTTTTCAACATTATTTTCATTAATTTTCTGATAATTAGCCTTATTTTCTTCAAATGAATATTTTAAAGAATTTATCTTATTCAATTTTGCCTCAACATCTTTTCTAAATATTTCTAATTCTTCAGAGTTCACATCTTCATTTAACAATATTTTCTTTAAAACTGAAAAACTATTTTTATTTTTTAAATCATATTCTGAAATATCTTCTTCAGAATAATTTTTATCCTGTACTGCATTTTTCTCTTTCCTATTCTTTAAATACAGAACACTATCTTTTAGATGCAATACTTTATTTGAAAAAAACTTTTTTAAATTTTCTCTTCTTATTCTATTTTCTTCTTCACTTGCATTATCAGGATTTTTTATATATATATCCAGTCTTATACTTAAAAGCTCTGACAATCTCTCACTAGTCCTATTTTCTTCGCTCGTACTTTTTACTAATTTTCCCTCTTCAATATATTTTTTATGCGAAATTCCATCAACTTTTGTAACTTTCATATATAAAAACCTCCTAATATCTATATTTTTTACTCAATACCTAATTCTTTTTTCAATGCTTTTTGTAAAATTTGTGAAAAATTCAGATTTTTTTCCTGTGCCAATATATCTAACCAAACAGGAATTGTTAAAGTTTTCTTTTTAAGTGCATTTGTAACTTTTGCCACTTCATACACTGGATCAACAGATAAAATATACAAATACTGATTTTCTTTCAGTTTCACATCCTCCACTTTTGAAGGCTCAGGAAATTTTTTTCTTACATCCAAAAAATCAGCCAAATGCAGACCCAATGTCTCTCTCAAATTGGAAACAGCCTCCTCCATGCTATCTCCAAATGTAGCATAATAATTTATCTCTCCATCTTCAAACTTATCAAAATCAACAATACAACCATAATAAGTCCCATCTTCCTTAGTTACCACTGCTGGATAAAATACATCCATTTTAATTATCTCCAATCTATACCACGTGTTAAATACGTGTTTAAAAATATTTATAAAATTTTTTAGCATCTCTGCTAAAATAAAACAATTATTTCAAATTTTTCTATTCCTTAATCACTCATTGTTAGTGATTCTTTTTTTACTTGGACAATTTTTCATTTAATTTCTTCAATTTTTTTAAAATCACATTTTTTTAATATTCCTTATTTAATTGCAAATTTTCATTACTTTTGGGGTGCTCTAAATCCCATCCAAATTATGGGATAATAATTTTTAGTGAAAGCAAGAAGGGACTAGAATTTAATCCCAACTTGTTTTTCAATACTTCTTAATGTTCCTACAGGTATATCTTTTGAATATGGTACTGTGACCACACCTTCCACACCTGGGATCATCCATTGATAATGACTACCTCTTATACGCACAACTTTTCCGCCTAATTTTCTAAATCTTTTTTCGAT (SEQ ID NO: 66).

>G-локус

CTTTCTATCTTTTTCAAATAAAATTAGGCTCTAGTTAGCCTAATCGCATAATTATTTATTATAGTATAATTCTTATTTTTTTTCAACCTAAAAATTTAAAACATCTCCAAAAATTTTCGTTTCAGAACAACCAAGCAACCATATTCAAAAAACAATAAAAAATGAGCAAGAATTGAAATTTTATTCTCACTCAGAAGTTATTTTTATTAAATATCACTTTTCGATATTGGGGTGGTCTATATCAATTTAAAAGACAGAATAGATAATTCTTTAGAGTTTTAGTCCCCTTCGATATTGGGGTGGTCTATATCAGAAGTCATTTAATAAGGCCACTGTTAAAAGTTTTAGTCCCCTTCGATATTGGGGTGGTCTATATCCCATCCTAATTTCTTGCTGATGAGATATTTATTTCTAATTTTTCTATTTTGTCTTTATTTTCAATACTTTCAATCCTATTTTTCTCTTTATTAATAATATAGAACCACCCTATACTATTATACCATATTTTTTGATTTTTCAAAATTCCAATATTTTGTTTTGTGAAATTTTTTCTCCCATTGTCACTTCTCCTGCAAGTACCTTCATTTTTTGAAACTGATCTTCTGTCAGGATAATGGAACGGATTGATGAATTTTCTGGAGCGAGCATTGATAACTGTTTTTCTGCCAGTTCGATTTTTTCTTTTGTTTTCGACCTCATTATATATACCGATTTTTGAAGCTGATAATATCCCTTTTCTATCAATTTTTTCCTAAAAGTCCTATATTCAAATCTCTCAACATCTGTCTGCATAGGAAAATCATACATAAGCAGACCAAAATACTCAATACTCATAGTCCATCACGCTCAATGTCGGAATTATCACTTCTTCATCTTTTACAAAATAATTTCGTATACTATCCAAATAATAGTCTACCGCTTGGAAAAAATCATATTTCTTATTGTTAAATAATACCTTCTGCTGTGCTACAAGAAGTATTTTTTGCCTTATTTCCTTACTTAATTTCACTTCATTCAAAATATCCTTGTACATATAAACAAGATAATCCACCATAGGACGAAAAACCTCTATTATATCATCAGAAAAATTATAGGCATTAAACTGTGACTTATGATGTAATCCTAAACTTGGATGAAATCCTTTTGCTACAATCTTTGATGATATTATAGCTCTTAAAATCATATATCCATAATTAAGTGCAGAATTCACTCCATCTTCATCAAATCTTTTAAAACTATTACTATACAATTCCTGAAAATATATCCTTGAAGCTATTGCTTCCTGATGTTCTGCACTCGCATCATCTTTTTTCAAGTTTTCCTTATATGTTTTCAGTCTTTCAATGGAAATATCACTTTTTTCAAGATACTCTAACAATGCTCTTTGATTTTCAATCTTATTCTCCACTATCCTGCTCCACAATTTTTCCTTTTTCTCTTTTTCCCACTCAATCTGCTCATTTATTCGTAAAGTCACTTGAAAATGATTAAATAATCCCAGCGAATGAATTTCAGGCTGATGTTTCTCGTTGCAAATAATAATCGGAATGTTATTTTCCACCAGCCTCAACTGCAAAATCGCACTAATCTTACAATAGCAGTTTTCAATAACTATCGCAGATATATCATTCAAAGAAATCTTATTTTTCTCATCATTATTGTCTTCATCAACCATTATAAGCTGATTATTCGATATTGACAAATCATCAGCCCTTGTTATGTGAATTATATTGGGCATTTTAATCATACTCCTTATAAATTTCATTCTTATAACGTATCATTCGTATTTTCTATTTTTGTTAAAAGTTCTATTATCAAGTTTTTAATATAATCAGAATTATAACTTTCTAATTCTAAAACAGAAACTTTTTTAGGTTTCATTAATCTTTCAAGTATATCATTATTACCGATAAGTTTAAATTTTTTCTTTAATTCATCATAATCTAAATTCACATCTTTTTTAAATACTTCAAATACACTTGCATAAGTTGAATTATTATAACGTGTACTATATGATAATAAATTAGAAACTCTATCAATTTGTTCTGCAATACTGTAATCAGCAAACGGATTTCTTACAATATAGAAATGTGAAATATAGTTTCTAATACTTTCATTTTCCGGCTTATTAATTTCAGAATTTTCAGACAAATCAATTCCAAATCCATAACATATTTTCTCAAATTTTTTATAAGATTCTTCATCAAAAAATTTATAGTATGCTGTTGTTGTATAAAAGCCATCAGATCCATTACGCTTAGGATAAGCTCTACTTATTCCAGTATTGTAGCCACTTAACTTAATAATTCCTAATTCTCTTAGCCCATTTACAATATAGTGCATATCTCTTTCAAATCTAGCCATTTGAATAGCAAGTTTCCAATTTATATCTATCAAATAACTTTCTATTTTATTCAAATAATTAAATTCTACCAAATCTCTAATTTTTTTGTATTCAGAAACTCTATTATAATCTTTTTCAAATGATTTATAGTTTTTATTTTGTATATTTTTTGCAAAAAAGTCATCATTTTCTTTCAATTTTTTTATATACTTCTCTTTGTATTCTTTAGAATATCCATTTAGTTTATCATTTAGATTTTTCAATATTGCATCAATTTCAGATATTTTATTTTTTCTAATATTTTTACCATCAATATTAAATAAAAATTTTGCATCAGCCATTTTAATATCATTTGAAATTAATCCATAAATTTTATCAAAATTTGGATTTCCAATATTTAAAAATAAATTCTTTTTATAAATATATAATTCATTCTTACGTTCTTTAGGATAATATATTTCTTGAAATTTATTTTCATTCTCTGATTCCATATCTTCTATTAAATTATCTATTTCTTTTTTGTATTTTTTTAAAAAATCAGAATTAAATATTATTCTACACAATATTTTACTCTTTATTTCCTGATCTTTATCTTTTATATACTGATCAACCTTTTTTTTCAAATCCTTTTTATTTATGTTTGATAACTTTCTTTGTTCATCTTGTAATATATTCGATTTTTTATCTATCTCAAATTTAGTTTCATCATCAAAAATTACAATTTTTTCTAATTTTTTCTCTAAAACATCACAACCATTAATATCATCTTTAAATTCAGTTAATATATTATTTTTTATATCCTCATAATAATTATTAAAAATTTCTTTTTTAGTTTGTATTTTAAAATCATCAAAGTCTTTTTCTATCTCTTTCATTTTTTGAATAAATTCTTCTAAATTAAGATTCCAATTTTCAGTTATACATTCATTTCTCAAAGTATTTAATTGCATTATTTCATCTAAAATATCTATAATATTTTGATATTCTGAAGTATTTAACCAAACTGATGTTGCAAAAAATCTATTTCTAATTTTATTTATAACCGCATTACTATTTAACAGTGCAAATATTGAAATTATATATTCAAAATCATCATTTATTACTATAGTTTTATCACTAGTCTTTACAGTTATTCTTTCGTAAGTTTTATTATCATTAATGTCTTTTATTTGTTTCTTAATTTCTTGAATATTCATTTTAAAATCTGAAAAATCAAAAAGTTCCTCATAATTTTTTCTCAAATATCCAATATAACATTCTATTACTTTTTTCTGATATTTTTTAATAGCTTTATTATTACCTTTTGAAGCAGAAATCTGAGCATTTTTATAATAATTTTCTATAATATTTTCATCTATTTCATCAATGTTTCCTAAAGTTTTCTTTAATTCTTGTAAAAATATATTCTTACTTTCATTTTCTTCTAAATCATCTTCTAAAATTAATTTCTTATACAATTCTTTATTCACATATATTAAAGCATTTAATACTATTTTTTCTGTTTCTATAGTATCAAATGGTTCATTCTTAGGATTATTCCTATATAAATTTAATATTTCAGGAAGTACTTTAGAAAAGGATGGTAAATATTTAATATCATTATTATTTTCTTCTGAAATTTTAATATCATTTATTTTAGTAATTATATTTTTTTTATCTTTAAATACTACATCTAAATTTAATGCTTTTGACACTTCTTCATCTGATATTTTTAAATTTTGAATTATATTTATGACTTTATTATAGTCATCTTGCGTTCCTTGTAAATCTCTTTCCTTGCTAATCGCATGTAATATCCTGTTTCTTTCATTTGTTCCTATCTTTGTAAATTTCCTAATAAAATTATTTGTAATGTTATTTTTATTATCTATAAAATCTAAGTCTCTTATTATTTTTATTTTTGAATTTAAAATTTTTTTATCAAGTACGTAATTTTTTTCTCGATCTCCTCCAAAGAAATCTATATTTTCATCATTATTTATATTTTCTCTAGAAAAAATCTTATTTAATTCCATATTGGTAGAAGCAAAAAAAGTAATCAATTCTAAATCCAATTCCTCTTTAGCGTGAAGTCTAGAAAAATCATCAGTATTTACTGTTGTCATATCTATATCATTATGTCTTAATTTCCCTAAATACATAATATGCTCTAACGTATATTGCTTAACTCTTTTTAAAATTTTTTCAGATAATATACTTTCATTTAAAATTTTTTCTATTTCTATTTTTTCCATTTTCTTTAATCTGACTTTTTGTTCATTTACCAATATTTTTTCAATTCTTCCTTTCAAATATCGATATATGATTTTATATAGTTCTTTTTCTTCATCAGATTTCTTTGAAAATTTTTTCGAATCAAAATTAACTTTATAATGTTTTTTAAATATTCCAAAAATTTCTGTATCACAATTTCCTTTTTTTAGTTCTTTTTCTAATTTTTTTATTAATTCATCTATTTTAAATTCTGCTAAAATTTTTTCTATTTTTTCTTTTATACTATTATTTTTTATATTTTCTACAAAAAATTTTACAATTTTATCTTTTTTATTTTCTCTTTCTATTTTAAATTTTTCGTGCTTATCTAATAGTACATAAGATTTTATATATGTTCTATTTCTTCTCTTTTCAAGAAATTCATTATTAACTTTTTTTACTTTTTCAATTCTTTTAGTAATATTCCAAAATTCTAACTCTTTTATAACAAAATCAGCTATATCTTCTACTGTTAAATCTACATTTATATTTAAAATTTTTTCAACAAGCATTTTTTTATTTTTAGATTTCTTTTTATCACCACCAACATTAAGATAAAATTTTACAAAACCCAGAATTTCTAAATTACTTTTTATTTTTTCTCTTATTTCCATAAAATTAGTCAAAATAACATCTATTTTATCATCTTTCAATAATTTTTCTCTTAAATGTTCTTCATAATATCGATTTTCAAATACTTTTTCTGTTTCATTTTCAATTATTTTTTCTATAATCTTATATAAACTCATGTTAATATTTTTAAAAATTTCGTAAATTGATTTTTTTGTTTCTAATTCATCATTTTCTATTATTCTTAATATTATTGAACAATCATTTAGTGTTTTATTAGTATACTCATCTCTGATATCTATCTCTATTTCTTCTTCATTCTCTTGTCTCTTTATTTCTATTTTTTTATCATCTTTAGTTATTCCTTGCCTAATTGCTTCATCTATTATTTTCTTTTTTGTAATCCCCAATGCTTTCAATTTCTCAGATTTTCCATATGCTTCTATATATAATACAACTTCTTCTGTTTCCAAAAAATCATCATTATTTTCTATTCTTATGATTCCTTCTTTACCTTTCAACTTAAATAGAATATTTCCTGCATGAAATTTTCTTGTAAATTCTTTAAGAATATTATCATTTTTTTTGTAATTAATATATTTTCTAATAAATTTATTATTATCAATTTTTTCTTTATTATTATTTTCATTAATATTTAAAATGTATTTGTTTCCATCATAGTTCCTTTTAACTTTTACTTTCCGTTTTATTTTAAAATCTTTTTTATCACGAACTTCATACCATCTCTTATGTCCAAATAAATTTCCCATTCCAATCTCCTCGTTTCTACTTTAATCTAATAAAATATTTTTAAATTAAATCAATTTTACATCTTTCTAATCAAAAATACAATTTTCCATTTTTAGTATACCACATCAATATTAAATCTCAAAAAAATAAGGAGCCGTCAAACATAGCTCCCTACTTCTATTTACTCATAATCCCCATCTATCCTTACTTTTCGTAAAATCAATCCTTCTTTCGCCTTTAGATCCAACTTAATTTTCCCATTTGAACCTGTTCTAAATGTTCTGCCTTCTGTTACCAAATCAATAAATCTTTCATCCTGATAATTTGTTTCAAATTCCACATTTTCCCAGCTGTTAAACGAATTATTTATTACAACAATAATTAAATGATCCTCGATTACTCTTTCATACACAATTATTT (SEQ ID NO: 67).

Пример 3. Дополнительная оценка Cpf1 и ассоциированных компонентов

Заявители провели выравнивание последовательностей с ортологами Cas-Cpf1 и сравнили структуру и организацию доменов (фигура 38A-N). Обзор выравнивания локусов Cpf1 показан на фигуре 39.

Последовательности локусов Cpf1 у различных ортологов приведены ниже:

>KKP36646_(модифицированный) гипотетический белок UR27_C0015G0004 [Peregrinibacteria bacterium GW2011_GWA2_33_10]

MSNFFKNFTNLYELSKTLRFELKPVGDTLTNMKDHLEYDEKLQTFLKDQNIDDAYQALKPQFDEIHEEFITDSLESKKAKEIDFSEYLDLFQEKKELNDSEKKLRNKIGETFNKAGEKWKKEKYPQYEWKKGSKIANGADILSCQDMLQFIKYKNPEDEKIKNYIDDTLKGFFTYFGGFNQNRANYYETKKEASTAVATRIVHENLPKFCDNVIQFKHIIKRKKDGTVEKTERKTEYLNAYQYLKNNNKITQIKDAETEKMIESTPIAEKIFDVYYFSSCLSQKQIEEYNRIIGHYNLLINLYNQAKRSEGKHLSANEKKYKDLPKFKTLYKQIGCGKKKDLFYTIKCDTEEEANKSRNEGKESHSVEEIINKAQEAINKYFKSNNDCENINTVPDFINYILTKENYEGVYWSKAAMNTISDKYFANYHDLQDRLKEAKVFQKADKKSEDDIKIPEAIELSGLFGVLDSLADWQTTLFKSSILSNEDKLKIITDSQTPSEALLKMIFNDIEKNMESFLKETNDIITLKKYKGNKEGTEKIKQWFDYTLAINRMLKYFLVKENKIKGNSLDTNISEALKTLIYSDDAEWFKWYDALRNYLTQKPQDEAKENKLKLNFDNPSLAGGWDVNKECSNFCVILKDKNEKKYLAIMKKGENTLFQKEWTEGRGKNLTKKSNPLFEINNCEILSKMEYDFWADVSKMIPKCSTQLKAVVNHFKQSDNEFIFPIGYKVTSGEKFREECKISKQDFELNNKVFNKNELSVTAMRYDLSSTQEKQYIKAFQKEYWELLFKQEKRDTKLTNNEIFNEWINFCNKKYSELLSWERKYKDALTNWINFCKYFLSKYPKTTLFNYSFKESENYNSLDEFYRDVDICSYKLNINTTINKSILDRLVEEGKLYLFEIKNQDSNDGKSIGHKNNLHTIYWNAIFENFDNRPKLNGEAEIFYRKAISKDKLGIVKGKKTKNGTEIIKNYRFSKEKFILHVPITLNFCSNNEYVNDIVNTKFYNFSNLHFLGIDRGEKHLAYYSLVNKNGEIVDQGTLNLPFTDKDGNQRSIKKEKYFYNKQEDKWEAKEVDCWNYNDLLDAMASNRDMARKNWQRIGTIKEAKNGYVSLVIRKIADLAVNNERPAFIVLEDLNTGFKRSRQKIDKSVYQKFELALAKKLNFLVDKNAKRDEIGSPTKALQLTPPVNNYGDIENKKQAGIMLYTRANYTSQTDPATGWRKTIYLKAGPEETTYKKDGKIKNKSVKDQIIETFTDIGFDGKDYYFEYDKGEFVDEKTGEIKPKKWRLYSGENGKSLDRFRGEREKDKYEWKIDKIDIVKILDDLFVNFDKNISLLKQLKEGVELTRNNEHGTGESLRFAINLIQQIRNTGNNERDNDFILSPVRDENGKHFDSREYWDKETKGEKISMPSSGDANGAFNIARKGIIMNAHILANSDSKDLSLFVSDEEWDLHLNNKTEWKKQLNIFSSRKAMAKRKK (SEQ ID NO: 68).

>KKR91555_(модифицированный) гипотетический белок UU43_C0004G0003 [Parcubacteria (Falkowbacteria) bacterium GW2011_GWA2_41_14]

MLFFMSTDITNKPREKGVFDNFTNLYEFSKTLTFGLIPLKWDDNKKMIVEDEDFSVLRKYGVIEEDKRIAESIKIAKFYLNILHRELIGKVLGSLKFEKKNLENYDRLLGEIEKNNKNENISEDKKKEIRKNFKKELSIAQDILLKKVGEVFESNGSGILSSKNCLDELTKRFTRQEVDKLRRENKDIGVEYPDVAYREKDGKEETKSFFAMDVGYLDDFHKNRKQLYSVKGKKNSLGRRILDNFEIFCKNKKLYEKYKNLDIDFSEIERNFNLTLEKVFDFDNYNERLTQEGLDEYAKILGGESNKQERTANIHGLNQIINLYIQKKQSEQKAEQKETGKKKIKFNKKDYPTFTCLQKQILSQVFRKEIIIESDRDLIRELKFFVEESKEKVDKARGIIEFLLNHEENDIDLAMVYLPKSKINSFVYKVFKEPQDFLSVFQDGASNLDFVSFDKIKTHLENNKLTYKIFFKTLIKENHDFESFLILLQQEIDLLIDGGETVTLGGKKESITSLDEKKNRLKEKLGWFEGKVRENEKMKDEEEGEFCSTVLAYSQAVLNITKRAEIFWLNEKQDAKVGEDNKDMIFYKKFDEFADDGFAPFFYFDKFGNYLKRRSRNTTKEIKLHFGNDDLLEGWDMNKEPEYWSFILRDRNQYYLGIGKKDGEIFHKKLGNSVEAVKEAYELENEADFYEKIDYKQLNIDRFEGIAFPKKTKTEEAFRQVCKKRADEFLGGDTYEFKILLAIKKEYDDFKARRQKEKDWDSKFSKEKMSKLIEYYITCLGKRDDWKRFNLNFRQPKEYEDRSDFVRHIQRQAYWIDPRKVSKDYVDKKVAEGEMFLFKVHNKDFYDFERKSEDKKNHTANLFTQYLLELFSCENIKNIKSKDLIESIFELDGKAEIRFRPKTDDVKLKIYQKKGKDVTYADKRDGNKEKEVIQHRRFAKDALTLHLKIRLNFGKHVNLFDFNKLVNTELFAKVPVKILGMDRGENNLIYYCFLDEHGEIENGKCGSLNRVGEQIITLEDDKKVKEPVDYFQLLVDREGQRDWEQKNWQKMTRIKDLKKAYLGNVVSWISKEMLSGIKEGVVTIGVLEDLNSNFKRTRFFRERQVYQGFEKALVNKLGYLVDKKYDNYRNVYQFAPIVDSVEEMEKNKQIGTLVYVPASYTSKICPHPKCGWRERLYMKNSASKEKIVGLLKSDGIKISYDQKNDRFYFEYQWEQEHKSDGKKKKYSGVDKVFSNVSRMRWDVEQKKSIDFVDGTDGSITNKLKSLLKGKGIELDNINQQIVNQQKELGVEFFQSIIFYFNLIMQIRNYDKEKSGSEADYIQCPSCLFDSRKPEMNGKLSAITNGDANGAYNIARKGFMQLCRIRENPQEPMKLITNREWDEAVREWDIYSAAQKIPVLSEEN (SEQ ID NO: 69).

>KDN25524_(модифицированный) гипотетический белок MBO_03467 [Moraxella bovoculi 237]

MLFQDFTHLYPLSKTVRFELKPIDRTLEHIHAKNFLSQDETMADMHQKVKVILDDYHRDFIADMMGEVKLTKLAEFYDVYLKFRKNPKDDELQKQLKDLQAVLRKEIVKPIGNGGKYKAGYDRLFGAKLFKDGKELGDLAKFVIAQEGESSPKLAHLAHFEKFSTYFTGFHDNRKNMYSDEDKHTAIAYRLIHENLPRFIDNLQILTTIKQKHSALYDQIINELTASGLDVSLASHLDGYHKLLTQEGITAYNTLLGGISGEAGSPKIQGINELINSHHNQHCHKSERIAKLRPLHKQILSDGMSVSFLPSKFADDSEMCQAVNEFYRHYADVFAKVQSLFDGFDDHQKDGIYVEHKNLNELSKQAFGDFALLGRVLDGYYVDVVNPEFNERFAKAKTDNAKAKLTKEKDKFIKGVHSLASLEQAIEHYTARHDDESVQAGKLGQYFKHGLAGVDNPIQKIHNNHSTIKGFLERERPAGERALPKIKSGKNPEMTQLRQLKELLDNALNVAHFAKLLTTKTTLDNQDGNFYGEFGVLYDELAKIPTLYNKVRDYLSQKPFSTEKYKLNFGNPTLLNGWDLNKEKDNFGVILQKDGCYYLALLDKAHKKVFDNAPNTGKSIYQKMIYKYLEVRKQFPKVFFSKEAIAINYHPSKELVEIKDKGRQRSDDERLKLYRFILECLKIHPKYDKKFEGAIGDIQLFKKDKKGREVPISEKDLFDKINGIFSSKPKLEMEDFFIGEFKRYNPSQDLVDQYNIYKKIDSNDNRKKENFYNNHPKFKKDLVRYYYESMCKHEEWEESFEFSKKLQDIGCYVDVNELFTEIETRRLNYKISFCNINADYIDELVEQGQLYLFQIYNKDFSPKAHGKPNLHTLYFKALFSEDNLADPIYKLNGEAQIFYRKASLDMNETTIHRAGEVLENKNPDNPKKRQFVYDIIKDKRYTQDKFMLHVPITMNFGVQGMTIKEFNKKVNQSIQQYDEVNVIGIDRGERHLLYLTVINSKGEILEQCSLNDITTASANGTQMTTPYHKILDKREIERLNARVGWGEIETIKELKSGYLSHVVHQISQLMLKYNAIVVLEDLNFGFKRGRFKVEKQIYQNFENALIKKLNHLVLKDKADDEIGSYKNALQLTNNFTDLKSIGKQTGFLFYVPAWNTSKIDPETGFVDLLKPRYENIAQSQAFFGKFDKICYNADKDYFEFHIDYAKFTDKAKNSRQIWTICSHGDKRYVYDKTANQNKGAAKGINVNDELKSLFARHHINEKQPNLVMDICQNNDKEFHKSLMYLLKTLLALRYSNASSDEDFILSPVANDEGVFFNSALADDTQPQNADANGAYHIALKGLWLLNELKNSDDLNKVKLAIDNQTWLNFAQNR (SEQ ID NO: 70).

>KKT48220_(модифицированный) гипотетический белок UW39_C0001G0044 [Parcubacteria bacterium GW2011_GWC2_44_17]

MENIFDQFIGKYSLSKTLRFELKPVGKTEDFLKINKVFEKDQTIDDSYNQAKFYFDSLHQKFIDAALASDKTSELSFQNFADVLEKQNKIILDKKREMGALRKRDKNAVGIDRLQKEINDAEDIIQKEKEKIYKDVRTLFDNEAESWKTYYQEREVDGKKITFSKADLKQKGADFLTAAGILKVLKYEFPEEKEKEFQAKNQPSLFVEEKENPGQKRYIFDSFDKFAGYLTKFQQTKKNLYAADGTSTAVATRIADNFIIFHQNTKVFRDKYKNNHTDLGFDEENIFEIERYKNCLLQREIEHIKNENSYNKIIGRINKKIKEYRDQKAKDTKLTKSDFPFFKNLDKQILGEVEKEKQLIEKTREKTEEDVLIERFKEFIENNEERFTAAKKLMNAFCNGEFESEYEGIYLKNKAINTISRRWFVSDRDFELKLPQQKSKNKSEKNEPKVKKFISIAEIKNAVEELDGDIFKAVFYDKKIIAQGGSKLEQFLVIWKYEFEYLFRDIERENGEKLLGYDSCLKIAKQLGIFPQEKEAREKATAVIKNYADAGLGIFQMMKYFSLDDKDRKNTPGQLSTNFYAEYDGYYKDFEFIKYYNEFRNFITKKPFDEDKIKLNFENGALLKGWDENKEYDFMGVILKKEGRLYLGIMHKNHRKLFQSMGNAKGDNANRYQKMIYKQIADASKDVPRLLLTSKKAMEKFKPSQEILRIKKEKTFKRESKNFSLRDLHALIEYYRNCIPQYSNWSFYDFQFQDTGKYQNIKEFTDDVQKYGYKISFRDIDDEYINQALNEGKMYLFEVVNKDIYNTKNGSKNLHTLYFEHILSAENLNDPVFKLSGMAEIFQRQPSVNEREKITTQKNQCILDKGDRAYKYRRYTEKKIMFHMSLVLNTGKGEIKQVQFNKIINQRISSSDNEMRVNVIGIDRGEKNLLYYSVVKQNGEIIEQASLNEINGVNYRDKLIEREKERLKNRQSWKPVVKIKDLKKGYISHVIHKICQLIEKYSAIVVLEDLЯМРFKQIRGGIERSVYQQFEKALIDKLGYLVFKDNRDLRAPGGVLNGYQLSAPFVSFEKMRKQTGILFYTQAEYTSKTDPITGFRKNVYISNSASLDKIKEAVKKFDAIGWDGKEQSYFFKYNPYNLADEKYKNSTVSKEWAIFASAPRIRRQKGEDGYWKYDRVKVNEEFEKLLKVWNFVNPKATDIKQEIIKKEKAGDLQGEKELDGRLRNFWHSFIYLFNLVLELRNSFSLQIKIKAGEVIAVDEGVDFIASPVKPFFTTPNPYIPSNLCWLAVENADANGAYNIARKGVMILKKIREHAKKDPEFKKLPNLFISNAEWDEAARDWGKYAGTTALNLDH (SEQ ID NO: 71).

>WP_031492824_(модифицированный) гипотетический белок [Succinivibrio dextrinosolvens]

MSSLTKFTNKYSKQLTIKNELIPVGKTLENIKENGLIDGDEQLNENYQKAKIIVDDFLRDFINKALNNTQIGNWRELADALNKEDEDNIEKLQDKIRGIIVSKFETFDLFSSYSIKKDEKIIDDDNDVEEEELDLGKKTSSFKYIFKKNLFKLVLPSYLKTTNQDKLKIISSFDNFSTYFRGFFENRKNIFTKKPISTSIAYRIVHDNFPKFLDNIRCFNVWQTECPQLIVKADNYLKSKNVIAKDKSLANYFTVGAYDYFLSQNGIDFYNNIIGGLPAFAGHEKIQGLNEFINQECQKDSELKSKLKNRHAFKMAVLFKQILSDREKSFVIDEFESDAQVIDAVKNFYAEQCKDNNVIFNLLNLIKNIAFLSDDELDGIFIEGKYLSSVSQKLYSDWSKLRNDIEDSANSKQGNKELAKKIKTNKGDVEKAISKYEFSLSELNSIVHDNTKFSDLLSCTLHKVASEKLVKVNEGDWPKHLKNNEEKQKIKEPLDALLEIYNTLLIFNCKSFNKNGNFYVDYDRCINELSSVVYLYNKTRNYCTKKPYNTDKFKLNFNSPQLGEGFSKSKENDCLTLLFKKDDNYYVGIIRKGAKINFDDTQAIADNTDNCIFKMNYFLLKDAKKFIPKCSIQLKEVKAHFKKSEDDYILSDKEKFASPLVIKKSTFLLATAHVKGKKGNIKKFQKEYSKENPTEYRNSLNEWIAFCKEFLKTYKAATIFDITTLKKAEEYADIVEFYKDVDNLCYKLEFCPIKTSFIENLIDNGDLYLFRINNKDFSSKSTGTKNLHTLYLQAIFDERNLNNPTIMLNGGAELFYRKESIEQKNRITHKAGSILVNKVCKDGTSLDDKIRNEIYQYENKFIDTLSDEAKKVLPNVIKKEATHDITKDKRFTSDKFFFHCPLTINYKEGDTKQFNNEVLSFLRGNPDINIIGIDRGERNLIYVTVINQKGEILDSVSFNTVTNKSSKIEQTVDYEEKLAVREKERIEAKRSWDSISKIATLKEGYLSAIVHEICLLMIKHNAIVVLENLNAGFKRIRGGLSEKSVYQKFEKMLINKLNYFVSKKESDWNKPSGLLNGLQLSDQFESFEKLGIQSGFIFYVPAAYTSKIDPTTGFANVLNLSKVRNVDAIKSFFSNFNEISYSKKEALFKFSFDLDSLSKKGFSSFVKFSKSKWNVYTFGERIIKPKNKQGYREDKRINLTFEMKKLLNEYKVSFDLENNLIPNLTSANLKDTFWKELFFIFKTTLQLRNSVTNGKEDVLISPVKNAKGEFFVSGTHNKTLPQDCDANGAYHIALKGLMILERNNLVREEKDTKKIMAISNVDWFEYVQKRRGVL (SEQ ID NO: 72).

>KKT50231_(модифицированный) гипотетический белок UW40_C0007G0006 [Parcubacteria bacterium GW2011_GWF2_44_17]

MKPVGKTEDFLKINKVFEKDQTIDDSYNQAKFYFDSLHQKFIDAALASDKTSELSFQNFADVLEKQNKIILDKKREMGALRKRDKNAVGIDRLQKEINDAEDIIQKEKEKIYKDVRTLFDNEAESWKTYYQEREVDGKKITFSKADLKQKGADFLTAAGILKVLKYEFPEEKEKEFQAKNQPSLFVEEKENPGQKRYIFDSFDKFAGYLTKFQQTKKNLYAADGTSTAVATRIADNFIIFHQNTKVFRDKYKNNHTDLGFDEENIFEIERYKNCLLQREIEHIKNENSYNKIIGRINKKIKEYRDQKAKDTKLTKSDFPFFKNLDKQILGEVEKEKQLIEKTREKTEEDVLIERFKEFIENNEERFTAAKKLMNAFCNGEFESEYEGIYLKNKAINTISRRWFVSDRDFELKLPQQKSKNKSEKNEPKVKKFISIAEIKNAVEELDGDIFKAVFYDKKIIAQGGSKLEQFLVIWKYEFEYLFRDIERENGEKLLGYDSCLKIAKQLGIFPQEKEAREKATAVIKNYADAGLGIFQMMKYFSLDDKDRKNTPGQLSTNFYAEYDGYYKDFEFIKYYNEFRNFITKKPFDEDKIKLNFENGALLKGWDENKEYDFMGVILKKEGRLYLGIMHKNHRKLFQSMGNAKGDNANRYQKMIYKQIADASKDVPRLLLTSKKAMEKFKPSQEILRIKKEKTFKRESKNFSLRDLHALIEYYRNCIPQYSNWSFYDFQFQDTGKYQNIKEFTDDVQKYGYKISFRDIDDEYINQALNEGKMYLFEVVNKDIYNTKNGSKNLHTLYFEHILSAENLNDPVFKLSGMAEIFQRQPSVNEREKITTQKNQCILDKGDRAYKYRRYTEKKIMFHMSLVLNTGKGEIKQVQFNKIINQRISSSDNEMRVNVIGIDRGEKNLLYYSVVKQNGEIIEQASLNEINGVNYRDKLIEREKERLKNRQSWKPVVKIKDLKKGYISHVIHKICQLIEKYSAIVVLEDLЯМРFKQIRGGIERSVYQQFEKALIDKLGYLVFKDNRDLRAPGGVLNGYQLSAPFVSFEKMRKQTGILFYTQAEYTSKTDPITGFRKNVYISNSASLDKIKEAVKKFDAIGWDGKEQSYFFKYNPYNLADEKYKNSTVSKEWAIFASAPRIRRQKGEDGYWKYDRVKVNEEFEKLLKVWNFVNPKATDIKQEIIKKEKAGDLQGEKELDGRLRNFWHSFIYLFNLVLELRNSFSLQIKIKAGEVIAVDEGVDFIASPVKPFFTTPNPYIPSNLCWLAVENADANGAYNIARKGVMILKKIREHAKKDPEFKKLPNLFISNAEWDEAARDWGKYAGTTALNLDH (SEQ ID NO: 73).

>WP_004356401_(модифицированный) гипотетический белок [Prevotella disiens]

MENYQEFTNLFQLNKTLRFELKPIGKTCELLEEGKIFASGSFLEKDKVRADNVSYVKKEIDKKHKIFIEETLSSFSISNDLLKQYFDCYNELKAFKKDCKSDEEEVKKTALRNKCTSIQRAMREAISQAFLKSPQKKLLAIKNLIENVFKADENVQHFSEFTSYFSGFETNRENFYSDEEKSTSIAYRLVHDNLPIFIKNIYIFEKLKEQFDAKTLSEIFENYKLYVAGSSLDEVFSLEYFNNTLTQKGIDNYNAVIGKIVKEDKQEIQGLNEHINLYNQKHKDRRLPFFISLKKQILSDREALSWLPDMFKNDSEVIKALKGFYIEDGFENNVLTPLATLLSSLDKYNLNGIFIRNNEALSSLSQNVYRNFSIDEAIDANAELQTFNNYELIANALRAKIKKETKQGRKSFEKYEEYIDKKVKAIDSLSIQEINELVENYVSEFNSNSGNMPRKVEDYFSLMRKGDFGSNDLIENIKTKLSAAEKLLGTKYQETAKDIFKKDENSKLIKELLDATKQFQHFIKPLLGTGEEADRDLVFYGDFLPLYEKFEELTLLYNKVRNRLTQKPYSKDKIRLCFNKPKLMTGWVDSKTEKSDNGTQYGGYLFRKKNEIGEYDYFLGISSKAQLFRKNEAVIGDYERLDYYQPKANTIYGSAYEGENSYKEDKKRLNKVIIAYIEQIKQTNIKKSIIESISKYPNISDDDKVTPSSLLEKIKKVSIDSYNGILSFKSFQSVNKEVIDNLLKTISPLKNKAEFLDLINKDYQIFTEVQAVIDEICKQKTFIYFPISNVELEKEMGDKDKPLCLFQISNKDLSFAKTFSANLRKKRGAENLHTMLFKALMEGNQDNLDLGSGAIFYRAKSLDGNKPTHPANEAIKCRNVANKDKVSLFTYDIYKNRRYMENKFLFHLSIVQNYKAANDSAQLNSSATEYIRKADDLHIIGIDRGERNLLYYSVIDMKGNIVEQDSLNIIRNNDLETDYHDLLDKREKERKANRQNWEAVEGIKDLKKGYLSQAVHQIAQLMLKYNAIIALEDLGQMFVTRGQKIEKAVYQQFEKSLVDKLSYLVDKKRPYNELGGILKAYQLASSITKNNSDKQNGFLFYVPAWNTSKIDPVTGFTDLLRPKAMTIKEAQDFFGAFDNISYNDKGYFEFETNYDKFKIRMKSAQTRWTICTFGNRIKRKKDKNYWNYEEVELTEEFKKLFKDSNIDYENCNLKEEIQNKDNRKFFDDLIKLLQLTLQMRNSDDKGNDYIISPVANAEGQFFDSRNGDKKLPLDADANGAYNIARKGLWNIRQIKQTKNDKKLNLSISSTEWLDFVREKPYLK (SEQ ID NO: 74).

>CCB70584_(модифицированный) белок с неизвестной функцией [Flavobacterium branchiophilum FL-15]

MTNKFTNQYSLSKTLRFELIPQGKTLEFIQEKGLLSQDKQRAESYQEMKKTIDKFHKYFIDLALSNAKLTHLETYLELYNKSAETKKEQKFKDDLKKVQDNLRKEIVKSFSDGDAKSIFAILDKKELITVELEKWFENNEQKDIYFDEKFKTFTTYFTGFHQNRKNMYSVEPNSTAIAYRLIHENLPKFLENAKAFEKIKQVESLQVNFRELMGEFGDEGLIFVNELEEMFQINYYNDVLSQNGITIYNSIISGFTKNDIKYKGLNEYINNYNQTKDKKDRLPKLKQLYKQILSDRISLSFLPDAFTDGKQVLKAIFDFYKINLLSYTIEGQEESQNLLLLIRQTIENLSSFDTQKIYLKNDTHLTTISQQVFGDFSVFSTALNYWYETKVNPKFETEYSKANEKKREILDKAKAVFTKQDYFSIAFLQEVLSEYILTLDHTSDIVKKHSSNCIADYFKNHFVAKKENETDKTFDFIANITAKYQCIQGILENADQYEDELKQDQKLIDNLKFFLDAILELLHFIKPLHLKSESITEKDTAFYDVFENYYEALSLLTPLYNMVRNYVTQKPYSTEKIKLNFENAQLLNGWDANKEGDYLTTILKKDGNYFLAIMDKKHNKAFQKFPEGKENYEKMVYKLLPGVNKMLPKVFFSNKNIAYFNPSKELLENYKKETHKKGDTFNLEHCHTLIDFFKDSLNKHEDWKYFDFQFSETKSYQDLSGFYREVEHQGYKINFKNIDSEYIDGLVNEGKLFLFQIYSKDFSPFSKGKPNMHTLYWKALFEEQNLQNVIYKLNGQAEIFFRKASIKPKNIILHKKKIKIAKKHFIDKKTKTSEIVPVQTIKNLNMYYQGKISEKELTQDDLRYIDNFSIFNEKNKTIDIIKDKRFTVDKFQFHVPITMNFKATGGSYINQTVLEYLQNNPEVKIIGLDRGERHLVYLTLIDQQGNILKQESLNTITDSKISTPYHKLLDNKENERDLARKNWGTVENIKELKEGYISQVVHKIATLMLEENAIVVMEDLNFGFKRGRFKVEKQIYQKLEKMLIDKLNYLVLKDKQPQELGGLYNALQLTNKFESFQKMGKQSGFLFYVPAWNTSKIDPTTGFVNYFYTKYENVDKAKAFFEKFEAIRFNAEKKYFEFEVKKYSDFNPKAEGTQQAWTICTYGERIETKRQKDQNNKFVSTPINLTEKIEDFLGKNQIVYGDGNCIKSQIASKDDKAFFETLLYWFKMTLQMRNSETRTDIDYLISPVMNDNGTFYNSRDYEKLENPTLPKDADANGAYHIAKKGLMLLNKIDQADLTKKVDLSISNRDWLQFVQKNK (SEQ ID NO: 75).

>WP_005398606_(модифицированный) гипотетический белок [Helcococcus kunzii]

MFEKLSNIVSISKTIRFKLIPVGKTLENIEKLGKLEKDFERSDFYPILKNISDDYYRQYIKEKLSDLNLDWQKLYDAHELLDSSKKESQKNLEMIQAQYRKVLFNILSGELDKSGEKNSKDLIKNNKALYGKLFKKQFILEVLPDFVNNNDSYSEEDLEGLNLYSKFTTRLKNFWETRKNVFTDKDIVTAIPFRAVNENFGFYYDNIKIFNKNIEYLENKIPNLENELKEADILDDNRSVKDYFTPNGFNYVITQDGIDVYQAIRGGFTKENGEKVQGINEILNLTQQQLRRKPETKNVKLGVLTKLRKQILEYSESTSFLIDQIEDDNDLVDRINKFNVSFFESTEVSPSLFEQIERLYNALKSIKKEEVYIDARNTQKFSQMLFGQWDVIRRGYTVKITEGSKEEKKKYKEYLELDETSKAKRYLNIREIEELVNLVEGFEEVDVFSVLLEKFKMNNIERSEFEAPIYGSPIKLEAIKEYLEKHLEEYHKWKLLLIGNDDLDTDETFYPLLNEVISDYYIIPLYNLTRNYLTRKHSDKDKIKVNFDFPTLADGWSESKISDNRSIILRKGGYYYLGILIDNKLLINKKNKSKKIYEILIYNQIPEFSKSIPNYPFTKKVKEHFKNNVSDFQLIDGYVSPLIITKEIYDIKKEKKYKKDFYKDNNTNKNYLYTIYKWIEFCKQFLYKYKGPNKESYKEMYDFSTLKDTSLYVNLNDFYADVNSCAYRVLFNKIDENTIDNAVEDGKLLLFQIYNKDFSPESKGKKNLHTLYWLSMFSEENLRTRKLKLNGQAEIFYRKKLEKKPIIHKEGSILLNKIDKEGNTIPENIYHECYRYLNKKIGREDLSDEAIALFNKDVLKYKEARFDIIKDRRYSESQFFFHVPITFNWDIKTNKNVNQIVQGMIKDGEIKHIIGIDRGERHLLYYSVIDLEGNIVEQGSLNTLEQNRFDNSTVKVDYQNKLRTREEDRDRARKNWTNINKIKELKDGYLSHVVHKLSRLIIKYEAIVIMENLNQGFKRGRFKVERQVYQKFELALMNKLSALSFKEKYDERKNLEPSGILNPIQACYPVDAYQELQGQNGIVFYLPAAYTSVIDPVTGFTNLFRLKSINSSKYEEFIKKFKNIYFDNEEEDFKFIFNYKDFAKANLVILNNIKSKDWKISTRGERISYNSKKKEYFYVQPTEFLINKLKELNIDYENIDIIPLIDNLEEKAKRKILKALFDTFKYSVQLRNYDFENDYIISPTADDNGNYYNSNEIDIDKTNLPNNGDANGAFNIARKGLLLKDRIVNSNESKVDLKIKNEDWINFIIS (SEQ ID NO: 76).

>WP_021736722_(модифицированный) CRISPR-ассоциированный белок Cpf1, подтип PREFRAN [Acidaminococcus sp. BV3L6]

MTQFEGFTNLYQVSKTLRFELIPQGKTLKHIQEQGFIEEDKARNDHYKELKPIIDRIYKTYADQCLQLVQLDWENLSAAIDSYRKEKTEETRNALIEEQATYRNAIHDYFIGRTDNLTDAINKRHAEIYKGLFKAELFNGKVLKQLGTVTTTEHENALLRSFDKFTTYFSGFYENRKNVFSAEDISTAIPHRIVQDNFPKFKENCHIFTRLITAVPSLREHFENVKKAIGIFVSTSIEEVFSFPFYNQLLTQTQIDLYNQLLGGISREAGTEKIKGLNEVLNLAIQKNDETAHIIASLPHRFIPLFKQILSDRNTLSFILEEFKSDEEVIQSFCKYKTLLRNENVLETAEALFNELNSIDLTHIFISHKKLETISSALCDHWDTLRNALYERRISELTGKITKSAKEKVQRSLKHEDINLQEIISAAGKELSEAFKQKTSEILSHAHAALDQPLPTTLKKQEEKEILKSQLDSLLGLYHLLDWFAVDESNEVDPEFSARLTGIKLEMEPSLSFYNKARNYATKKPYSVEKFKLNFQMPTLASGWDVNKEKNNGAILFVKNGLYYLGIMPKQKGRYKALSFEPTEKTSEGFDKMYYDYFPDAAKMIPKCSTQLKAVTAHFQTHTTPILLSNNFIEPLEITKEIYDLNNPEKEPKKFQTAYAKKTGDQKGYREALCKWIDFTRDFLSKYTKTTSIDLSSLRPSSQYKDLGEYYAELNPLLYHISFQRIAEKEIMDAVETGKLYLFQIYNKDFAKGHHGKPNLHTLYWTGLFSPENLAKTSIKLNGQAELFYRPKSRMKRMAHRLGEKMLNKKLKDQKTPIPDTLYQELYDYVNHRLSHDLSDEARALLPNVITKEVSHEIIKDRRFTSDKFFFHVPITLNYQAANSPSKFNQRVNAYLKEHPETPIIGIDRGERNLIYITVIDSTGKILEQRSLNTIQQFDYQKKLDNREKERVAARQAWSVVGTIKDLKQGYLSQVIHEIVDLMIHYQAVVVLENLNFGFKSKRTGIAEKAVYQQFEKMLIDKLNCLVLKDYPAEKVGGVLNPYQLTDQFTSFAKMGTQSGFLFYVPAPYTSKIDPLTGFVDPFVWKTIKNHESRKHFLEGFDFLHYDVKTGDFILHFKMNRNLSFQRGLPGFMPAWDIVFEKNETQFDAKGTPFIAGKRIVPVIENHRFTGRYRDLYPANELIALLEEKGIVFRDGSNILPKLLENDDSHAIDTMVALIRSVLQMRNSNAATGEDYINSPVRDLNGVCFDSRFQNPEWPMDADANGAYHIALKGQLLLNHLKESKDLKLQNGISNQDWLAYIQELRN (SEQ ID NO: 77).

>WP_004339290_(модифицированный) гипотетический белок [Francisella tularensis]

MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISKYINDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQVAPKNLDNPSKKEQDLIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILSNFAAIPMIFDEIAQNKDNLAQISIKYQNQGKKDLLQASAEEDVKAIKDLLDQTNNLLHRLKIFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLASGWDKNKESANTAILFIKDDKYYLGIMDKKHNKIFSDKAIEENKGEGYKKIVYKQIADASKDIQNLMIIDGKTVCKKGRKDRNGVNRQLLSLKRKHLPENIYRIKETKSYLKNEARFSRKDLYDFIDYYKDRLDYYDFEFELKPSNEYSDFNDFTNHIGSQGYKLTFENISQDYINSLVNEGKLYLFQIYSKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPAKETIANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLAYYTLVDGKGNIIKQDNFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFEDLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLDRIKNNQEGKKLNLVIKNEEYFEFVQNRNN (SEQ ID NO: 78).

>WP_022501477_(модифицированный) гипотетический белок [Eubacterium sp. CAG:76]

MNKAADNYTGGNYDEFIALSKVQKTLRNELKPTPFTAEHIKQRGIISEDEYRAQQSLELKKIADEYYRNYITHKLNDINNLDFYNLFDAIEEKYKKNDKDNRDKLDLVEKSKRGEIAKMLSADDNFKSMFEAKLITKLLPDYVERNYTGEDKEKALETLALFKGFTTYFKGYFKTRKNMFSGEGGASSICHRIVNVNASIFYDNLKTFMRIQEKAGDEIALIEEELTEKLDGWRLEHIFSRDYYNEVLAQKGIDYYNQICGDINKHMNLYCQQNKFKANIFKMMKIQKQIMGISEKAFEIPPMYQNDEEVYASFNEFISRLEEVKLTDRLINILQNINIYNTAKIYINARYYTNVSSYVYGGWGVIDSAIERYLYNTIAGKGQSKVKKIENAKKDNKFMSVKELDSIVAEYEPDYFNAPYIDDDDNAVKAFGGQGVLGYFNKMSELLADVSLYTIDYNSDDSLIENKESALRIKKQLDDIMSLYHWLQTFIIDEVVEKDNAFYAELEDICCELENVVTLYDRIRNYVTKKPYSTQKFKLNFASPTLAAGWSRSKEFDNNAIILLRNNKYYIAIFNVNNKPDKQIIKGSEEQRLSTDYKKMVYNLLPGPNKMLPKVFIKSDTGKRDYNPSSYILEGYEKNRHIKSSGNFDINYCHDLIDYYKACINKHPEWKNYGFKFKETNQYNDIGQFYKDVEKQGYSISWAYISEEDINKLDEEGKIYLFEIYNKDLSAHSTGRDNLHTMYLKNIFSEDNLKNICIELNGEAELFYRKSSMKSNITHKKDTILVNKTYINETGVRVSLSDEDYMKVYNYYNNNYVIDTENDKNLIDIIEKIGHRKSKIDIVKDKRYTEDKYFLYLPITINYGIEDENVNSKIIEYIAKQDNMNVIGIDRGERNLIYISVIDNKGNIIEQKSFNLVNNYDYKNKLKNMEKTRDNARKNWQEIGKIKDVKSGYLSGVISKIARMVIDYNAIIVMEDLNKGFKRGRFKVERQVYQKFENMLISKLNYLVFKERKADENGGILRGYQLTYIPKSIKNVGKQCGCIFYVPAAYTSKIDPATGFINIFDFKKYSGSGINAKVKDKKEFLMSMNSIRYINECSEEYEKIGHRELFAFSFDYNNFKTYNVSSPVNEWTAYTYGERIKKLYKDGRWLRSEVLNLTENLIKLMEQYNIEYKDGHDIREDISHMDETRNADFICSLFEELKYTVQLRNSKSEAEDENYDRLVSPILNSSNGFYDSSDYMENENNTTHTMPKDADANGAYCIALKGLYEINKIKQNWSDDKKFKENELYINVTEWLDYIQNRRFE (SEQ ID NO: 79).

>WP_014550095_(модифицированный) гипотетический белок [Francisella tularensis]

MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQVAPKNLDNPSKKEQDLIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHRLKIFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGNPQKGYEKFEFNIEDCRKFIDFYKESISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKKSIPKKITHPAKEAIANKNKDNPKKESFFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLAYYTLVDGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEHNAIVVFEDLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSILNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLDRIKNNQEGKKLNLVIKNEEYFEFVQNRNN (SEQ ID NO: 80).

>WP_003034647_(модифицированный) гипотетический белок [Francisella tularensis]

MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSDDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQVAPKNLDNPSKKEQDLIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISLKYQNQGKKDLLQASAEEDVKAIKDLLDQTNNLLHRLKIFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGNPQKGYEKFEFNIEDCRKFIDFYKESISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLAYYTLVDGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEHNAIVVFEDLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLDRIKNNQEGKKLNLVIKNEEYFEFVQNRNN (SEQ ID NO: 81).

>FnCpf1 Francisella tularensis subsp. novicida U112, полный геном

>KKQ38174_(модифицированный) гипотетический белок US54_C0016G0015 [Microgenomates (Roizmanbacteria) bacterium GW2011_GWA2_37_7]

MKSFDSFTNLYSLSKTLKFEMRPVGNTQKMLDNAGVFEKDKLIQKKYGKTKPYFDRLHREFIEEALTGVELIGLDENFRTLVDWQKDKKNNVAMKAYENSLQRLRTEIGKIFNLKAEDWVKNKYPILGLKNKNTDILFEEAVFGILKARYGEEKDTFIEVEEIDKTGKSKINQISIFDSWKGFTGYFKKFFETRKNFYKNDGTSTAIATRIIDQNLKRFIDNLSIVESVRQKVDLAETEKSFSISLSQFFSIDFYNKCLLQDGIDYYNKIIGGETLKNGEKLIGLNELINQYRQNNKDQKIPFFKLLDKQILSEKILFLDEIKNDTELIEALSQFAKTAEEKTKIVKKLFADFVENNSKYDLAQIYISQEAFNTISNKWTSETETFAKYLFEAMKSGKLAKYEKKDNSYKFPDFIALSQMKSALLSISLEGHFWKEKYYKISKFQEKTNWEQFLAIFLYEFNSLFSDKINTKDGETKQVGYYLFAKDLHNLILSEQIDIPKDSKVTIKDFADSVLTIYQMAKYFAVEKKRAWLAEYELDSFYTQPDTGYLQFYDNAYEDIVQVYNKLRNYLTKKPYSEEKWKLNFENSTLANGWDKNKESDNSAVILQKGGKYYLGLITKGHNKIFDDRFQEKFIVGIEGGKYEKIVYKFFPDQAKMFPKVCFSAKGLEFFRPSEEILRIYNNAEFKKGETYSIDSMQKLIDFYKDCLTKYEGWACYTFRHLKPTEEYQNNIGEFFRDVAEDGYRIDFQGISDQYIHEKNEKGELHLFEIHNKDWNLDKARDGKSKTTQKNLHTLYFESLFSNDNVVQNFPIKLNGQAEIFYRPKTEKDKLESKKDKKGNKVIDHKRYSENKIFFHVPLTLNRTKNDSYRFNAQINNFLANNKDINIIGVDRGEKHLVYYSVITQASDILESGSLNELNGVNYAEKLGKKAENREQARRDWQDVQGIKDLKKGYISQVVRKLADLAIKHNAIIILEDLЯМРFKQVRGGIEKSIYQQLEKALIDKLSFLVDKGEKNPEQAGHLLKAYQLSAPFETFQKMGKQTGIIFYTQASYTSKSDPVTGWRPHLYLKYFSAKKAKDDIAKFTKIEFVNDRFELTYDIKDFQQAKEYPNKTVWKVCSNVERFRWDKNLNQNKGGYTHYTNITENIQELFTKYGIDITKDLLTQISTIDEKQNTSFFRDFIFYFNLICQIRNTDDSEIAKKNGKDDFILSPVEPFFDSRKDNGNKLPENGDDNGAYNIARKGIVILNKISQYSEKNENCEKMKWGDLYVSNIDWDNFVTQANARH (SEQ ID NO: 83).

>WP_022097749_(модифицированный) гипотетический белок [Eubacterium eligens CAG:72]

MNGNRSIVYREFVGVTPVAKTLRNELRPVGHTQEHIIQNGLIQEDELRQEKSTELKNIMDDYYREYIDKSLSGLTDLDFTLLFELMNSVQSSLSKDNKKALEKEHNKMREQICTHLQSDSDYKNMFNAKLFKEILPDFIKNYNQYDVKDKAGKLETLALFNGFSTYFTDFFEKRKNVFTKEAVSTSIAYRIVHENSLIFLANMTSYKKISEKALDEIEVIEKNNQDKMGDWELNQIFNPDFYNMVLIQSGIDFYNEICGVVNAHMNLYCQQTKNNYNLFKMRKLHKQILAYTSTSFEVPKMFEDDMSVYNAVNAFIDETEKGNIIGKLKDIVNKYDELDEKRIYISKDFYETLSCFMSGNWNLITGCVENFYDENIHAKGKSKEEKVKKAVKEDKYKSINDVNDLVEKYIDEKERNEFKNSNAKQYIREISNIITDTETAHLEYDEHISLIESEEKADEIKKRLDMYMNMYHWVKAFIVDEVLDRDEMFYSDIDDIYNILENIVPLYNRVRNYVTQKPYTSKKIKLNFQSPTLANGWSQSKEFDNNAIILIRDNKYYLAIFNAKNKPDKKIIQGNSDKKNDNDYKKMVYNLLPGANKMLPKVFLSKKGIETFKPSDYIISGYNAHKHIKTSENFDISFCRDLIDYFKNSIEKHAEWRKYEFKFSATDSYNDISEFYREVEMQGYRIDWTYISEADINKLDEEGKIYLFQIYNKDFAENSTGKENLHTMYFKNIFSEENLKNIVIKLNGQAELFYRKASVKNPVKHKKDSVLVNKTYKNQLDNGDVVRIPIPDDIYNEIYKMYNGYIKESDLSEAAKEYLDKVEVRTAQKDIVKDYRYTVDKYFIHTPITINYKVTARNNVNDMAVKYIAQNDDIHVIGIDRGERNLIYISVIDSHGNIVKQKSYNILNNYDYKKKLVEKEKTREYARKNWKSIGNIKELKEGYISGVVHEIAMLMVEYNAIIAMEDLNYGFKRGRFKVERQVYQKFESMLINKLNYFASKGKSVDEPGGLLKGYQLTYVPDNIKNLGKQCGVIFYVPAAFTSKIDPSTGFISAFNFKSISTNASRKQFFMQFDEIRYCAEKDMFSFGFDYNNFDTYNITMGKTQWTVYTNGERLQSEFNNARRTGKTKSINLTETIKLLLEDNEINYADGHDVRIDMEKMYEDKNSEFFAQLLSLYKLTVQMRNSYTEAEEQEKGISYDKIISPVINDEGEFFDSDNYKESDDKECKMPKDADANGAYCIALKGLYEVLKIKSEWTEDGFDRNCLKLPHAEWLDFIQNKRYE (SEQ ID NO: 84).

>WP_012739647_(модифицированный) гипотетический белок [[Eubacterium] eligens]

MNGNRSIVYREFVGVIPVAKTLRNELRPVGHTQEHIIQNGLIQEDELRQEKSTELKNIMDDYYREYIDKSLSGVTDLDFTLLFELMNLVQSSPSKDNKKALEKEQSKMREQICTHLQSDSNYKNIFNAKLLKEILPDFIKNYNQYDVKDKAGKLETLALFNGFSTYFTDFFEKRKNVFTKEAVSTSIAYRIVHENSLIFLANMTSYKKISEKALDEIEVIEKNNQDKMGDWELNQIFNPDFYNMVLIQSGIDFYNEICGVVNAHMNLYCQQTKNNYNLFKMRKLHKQILAYTSTSFEVPKMFEDDMSVYNAVNAFIDETEKGNIIGKLKDIVNKYDELDEKRIYISKDFYETLSCFMSGNWNLITGCVENFYDENIHAKGKSKEEKVKKAVKEDKYKSINDVNDLVEKYIDEKERNEFKNSNAKQYIREISNIITDTETAHLEYDDHISLIESEEKADEMKKRLDMYMNMYHWAKAFIVDEVLDRDEMFYSDIDDIYNILENIVPLYNRVRNYVTQKPYNSKKIKLNFQSPTLANGWSQSKEFDNNAIILIRDNKYYLAIFNAKNKPDKKIIQGNSDKKNDNDYKKMVYNLLPGANKMLPKVFLSKKGIETFKPSDYIISGYNAHKHIKTSENFDISFCRDLIDYFKNSIEKHAEWRKYEFKFSATDSYSDISEFYREVEMQGYRIDWTYISEADINKLDEEGKIYLFQIYNKDFAENSTGKENLHTMYFKNIFSEENLKDIIIKLNGQAELFYRRASVKNPVKHKKDSVLVNKTYKNQLDNGDVVRIPIPDDIYNEIYKMYNGYIKESDLSEAAKEYLDKVEVRTAQKDIVKDYRYTVDKYFIHTPITINYKVTARNNVNDMVVKYIAQNDDIHVIGIDRGERNLIYISVIDSHGNIVKQKSYNILNNYDYKKKLVEKEKTREYARKNWKSIGNIKELKEGYISGVVHEIAMLIVEYNAIIAMEDLNYGFKRGRFKVERQVYQKFESMLINKLNYFASKEKSVDEPGGLLKGYQLTYVPDNIKNLGKQCGVIFYVPAAFTSKIDPSTGFISAFNFKSISTNASRKQFFMQFDEIRYCAEKDMFSFGFDYNNFDTYNITMGKTQWTVYTNGERLQSEFNNARRTGKTKSINLTETIKLLLEDNEINYADGHDIRIDMEKMDEDKKSEFFAQLLSLYKLTVQMRNSYTEAEEQENGISYDKIISPVINDEGEFFDSDNYKESDDKECKMPKDADANGAYCIALKGLYEVLKIKSEWTEDGFDRNCLKLPHAEWLDFIQNKRYE (SEQ ID NO: 85).

>WP_045971446_(модифицированный) гипотетический белок [Flavobacterium sp. 316]

MKNFSNLYQVSKTVRFELKPIGNTLENIKNKSLLKNDSIRAESYQKMKKTIDEFHKYFIDLALNNKKLSYLNEYIALYTQSAEAKKEDKFKADFKKVQDNLRKEIVSSFTEGEAKAIFSVLDKKELITIELEKWKNENNLAVYLDESFKSFTTYFTGFHQNRKNMYSAEANSTAIAYRLIHENLPKFIENSKAFEKSSQIAELQPKIEKLYKEFEAYLNVNSISELFEIDYFNEVLTQKGITVYNNIIGGRTATEGKQKIQGLNEIINLYNQTKPKNERLPKLKQLYKQILSDRISLSFLPDAFTEGKQVLKAVFEFYKINLLSYKQDGVEESQNLLELIQQVVKNLGNQDVNKIYLKNDTSLTTIAQQLFGDFSVFSAALQYRYETVVNPKYTAEYQKANEAKQEKLDKEKIKFVKQDYFSIAFLQEVVADYVKTLDENLDWKQKYTPSCIADYFTTHFIAKKENEADKTFNFIANIKAKYQCIQGILEQADDYEDELKQDQKLIDNIKFFLDAILEVVHFIKPLHLKSESITEKDNAFYDVFENYYEALNVVTPLYNMVRNYVTQKPYSTEKIKLNFENAQLLNGWDANKEKDYLTTILKRDGNYFLAIMDKKHNKTFQQFTEDDENYEKIVYKLLPGVNKMLPKVFFSNKNIAFFNPSKEILDNYKNNTHKKGATFNLKDCHALIDFFKDSLNKHEDWKYFDFQFSETKTYQDLSGFYKEVEHQGYKINFKKVSVSQIDTLIEEGKMYLFQIYNKDFSPYAKGKPNMHTLYWKALFETQNLENVIYKLNGQAEIFFRKASIKKKNIITHKAHQPIAAKNPLTPTAKNTFAYDLIKDKRYTVDKFQFHVPITMNFKATGNSYINQDVLAYLKDNPEVNIIGLDRGERHLVYLTLIDQKGTILLQESLNVIQDEKTHTPYHTLLDNKEIARDKARKNWGSIESIKELKEGYISQVVHKITKMMIEHNAIVVMEDLNFGFKRGRFKVEKQIYQKLEKMLIDKLNYLVLKDKQPHELGGLYNALQLTNKFESFQKMGKQSGFLFYVPAWNTSKIDPTTGFVNYFYTKYENVEKAKTFFSKFDSILYNKTKGYFEFVVKNYSDFNPKAADTRQEWTICTHGERIETKRQKEQNNNFVSTTIQLTEQFVNFFEKVGLDLSKELKTQLIAQNEKSFFEELFHLLKLTLQMRNSESHTEIDYLISPVANEKGIFYDSRKATASLPIDADANGAYHIAKKGLWIMEQINKTNSEDDLKKVKLAISNREWLQYVQQVQKK (SEQ ID NO: 86).

>WP_044110123_(модифицированный) гипотетический белок [Prevotella brevis]

MKQFTNLYQLSKTLRFELKPIGKTLEHINANGFIDNDAHRAESYKKVKKLIDDYHKDYIENVLNNFKLNGEYLQAYFDLYSQDTKDKQFKDIQDKLRKSIASALKGDDRYKTIDKKELIRQDMKTFLKKDTDKALLDEFYEFTTYFTGYHENRKNMYSDEAKSTAIAYRLIHDNLPKFIDNIAVFKKIANTSVADNFSTIYKNFEEYLNVNSIDEIFSLDYYNIVLTQTQIEVYNSIIGGRTLEDDTKIQGINEFVNLYNQQLANKKDRLPKLKPLFKQILSDRVQLSWLQEEFNTGADVLNAVKEYCTSYFDNVEESVKVLLTGISDYDLSKIYITNDLALTDVSQRMFGEWSIIPNAIEQRLRSDNPKKTNEKEEKYSDRISKLKKLPKSYSLGYINECISELNGIDIADYYATLGAINTESKQEPSIPTSIQVHYNALKPILDTDYPREKNLSQDKLTVMQLKDLLDDFKALQHFIKPLLGNGDEAEKDEKFYGELMQLWEVIDSITPLYNKVRNYCTRKPFSTEKIKVNFENAQLLDGWDENKESTNASIILRKNGMYYLGIMKKEYRNILTKPMPSDGDCYDKVVYKFFKDITTMVPKCTTQMKSVKEHFSNSNDDYTLFEKDKFIAPVVITKEIFDLNNVLYNGVKKFQIGYLNNTGDSFGYNHAVEIWKSFCLKFLKAYKSTSIYDFSSIEKNIGCYNDLNSFYGAVNLLLYNLTYRKVSVDYIHQLVDEDKMYLFMIYNKDFSTYSKGTPNMHTLYWKMLFDESNLNDVVYKLNGQAEVFYRKKSITYQHPTHPANKPIDNKNVNNPKKQSNFEYDLIKDKRYTVDKFMFHVPITLNFKGMGNGDINMQVREYIKTTDDLHFIGIDRGERHLLYICVINGKGEIVEQYSLNEIVNNYKGTEYKTDYHTLLSERDKKRKEERSSWQTIEGIKELKSGYLSQVIHKITQLMIKYNAIVLLEDLNMGFKRGRQKVESSVYQQFEKALIDKLNYLVDKNKDANEIGGLLHAYQLTNDPKLPNKNSKQSGFLFYVPAWNTSKIDPVTGFVNLLDTRYENVAKAQAFFKKFDSIRYNKEYDRFEFKFDYSNFTAKAEDTRTQWTLCTYGTRIETFRNAEKNSNWDSREIDLTTEWKTLFTQHNIPLNANLKEAILLQANKNFYTDILHLMKLTLQMRNSVTGTDIDYMVSPVANECGEFFDSRKVKEGLPVNADANGAYNIARKGLWLAQQIKNANDLSDVKLAITNKEWLQFAQKKQYLKD (SEQ ID NO: 87).

>WP_036388671_(модифицированный) гипотетический белок [Moraxella caprae]

MLFQDFTHLYPLSKTMRFELKPIGKTLEHIHAKNFLSQDETMADMYQKVKAILDDYHRDFIADMMGEVKLTKLAEFYDVYLKFRKNPKDDGLQKQLKDLQAVLRKEIVKPIGNGGKYKAGYDRLFGAKLFKDGKELGDLAKFVIAQEGESSPKLAHLAHFEKFSTYFTGFHDNRKNMYSDEDKHTAITYRLIHENLPRFIDNLQILATIKQKHSALYDQIINELTASGLDVSLASHLDGYHKLLTQEGITAYNTLLGGISGEAGSRKIQGINELINSHHNQHCHKSERIAKLRPLHKQILSDGMGVSFLPSKFADDSEMCQAVNEFYRHYADVFAKVQSLFDGFDDHQKDGIYVEHKNLNELSKQAFGDFALLGRVLDGYYVDVVNPEFNERFAKAKTDNAKAKLTKEKDKFIKGVHSLASLEQAIEHYTARHDDESVQAGKLGQYFKHGLAGVDNPIQKIHNNHSTIKGFLERERPAGERALPKIKSGKNPEMTQLRQLKELLDNALNVAHFAKLLTTKTTLDNQDGNFYGEFGALYDELAKIPTLYNKVRDYLSQKPFSTEKYKLNFGNPTLLNGWDLNKEKDNFGIILQKDGCYYLALLDKAHKKVFDNAPNTGKNVYQKMIYKLLPGPNKMLPKVFFAKSNLDYYNPSAELLDKYAQGTHKKGNNFNLKDCHALIDFFKAGINKHPEWQHFGFKFSPTSSYQDLSDFYREVEPQGYQVKFVDINADYINELVEQGQLYLFQIYNKDFSPKAHGKPNLHTLYFKALFSKDNLANPIYKLNGEAQIFYRKASLDMNETTIHRAGEVLENKNPDNPKKRQFVYDIIKDKRYTQDKFMLHVPITMNFGVQGMTIKEFNKKVNQSIQQYDEVNVIGIDRGERHLLYLTVINSKGEILEQRSLNDITTASANGTQMTTPYHKILDKREIERLNARVGWGEIETIKELKSGYLSHVVHQISQLMLKYNAIVVLEDLNFGFKRGRFKVEKQIYQNFENALIKKLNHLVLKDEADDEIGSYKNALQLTNNFTDLKSIGKQTGFLFYVPAWNTSKIDPETGFVDLLKPRYENIAQSQAFFGKFDKICYNADKDYFEFHIDYAKFTDKAKNSRQIWKICSHGDKRYVYDKTANQNKGATKGINVNDELKSLFARHHINDKQPNLVMDICQNNDKEFHKSLIYLLKTLLALRYSNASSDEDFILSPVANDEGMFFNSALADDTQPQNADANGAYHIALKGLWVLEQIKNSDDLNKVKLAIDNQTWLNFAQNR (SEQ ID NO: 88).

>WP_020988726_(модифицированный) CRISPR-ассоциированный белок Cpf1, подтип PREFRAN [Leptospira inadai]

MEDYSGFVNIYSIQKTLRFELKPVGKTLEHIEKKGFLKKDKIRAEDYKAVKKIIDKYHRAYIEEVFDSVLHQKKKKDKTRFSTQFIKEIKEFSELYYKTEKNIPDKERLEALSEKLRKMLVGAFKGEFSEEVAEKYKNLFSKELIRNEIEKFCETDEERKQVSNFKSFTTYFTGFHSNRQNIYSDEKKSTAIGYRIIHQNLPKFLDNLKIIESIQRRFKDFPWSDLKKNLKKIDKNIKLTEYFSIDGFVNVLNQKGIDAYNTILGGKSEESGEKIQGLNEYINLYRQKNNIDRKNLPNVKILFKQILGDRETKSFIPEAFPDDQSVLNSITEFAKYLKLDKKKKSIIAELKKFLSSFNRYELDGIYLANDNSLASISTFLFDDWSFIKKSVSFKYDESVGDPKKKIKSPLKYEKEKEKWLKQKYYTISFLNDAIESYSKSQDEKRVKIRLEAYFAEFKSKDDAKKQFDLLERIEEAYAIVEPLLGAEYPRDRNLKADKKEVGKIKDFLDSIKSLQFFLKPLLSAEIFDEKDLGFYNQLEGYYEEIDSIGHLYNKVRNYLTGKIYSKEKFKLNFENSTLLKGWDENREVANLCVIFREDQKYYLGVMDKENNTILSDIPKVKPNELFYEKMVYKLIPTPHMQLPRIIFSSDNLSIYNPSKSILKIREAKSFKEGKNFKLKDCHKFIDFYKESISKNEDWSRFDFKFSKTSSYENISEFYREVERQGYNLDFKKVSKFYIDSLVEDGKLYLFQIYNKDFSIFSKGKPNLHTIYFRSLFSKENLKDVCLKLNGEAEMFFRKKSINYDEKKKREGHHPELFEKLKYPILKDKRYSEDKFQFHLPISLNFKSKERLNFNLKVNEFLKRNKDINIIGIDRGERNLLYLVMINQKGEILKQTLLDSMQSGKGRPEINYKEKLQEKEIERDKARKSWGTVENIKELKEGYLSIVIHQISKLMVENNAIVVLEDLNIGFKRGRQKVERQVYQKFEKMLIDKLNFLVFKENKPTEPGGVLKAYQLTDEFQSFEKLSKQTGFLFYVPSWNTSKIDPRTGFIDFLHPAYENIEKAKQWINKFDSIRFNSKMDWFEFTADTRKFSENLMLGKNRVWVICTTNVERYFTSKTANSSIQYNSIQITEKLKELFVDIPFSNGQDLKPEILRKNDAVFFKSLLFYIKTTLSLRQNNGKKGEEEKDFILSPVVDSKGRFFNSLEASDDEPKDADANGAYHIALKGLMNLLVLNETKEENLSRPKWKIKNKDWLEFVWERNR (SEQ ID NO: 89).

>WP_023936172_(модифицированный) экзонуклеаза SbcC [Porphyromonas crevioricanis]

MPWIDLKDFTNLYPVSKTLRFELKPVGKTLENIEKAGILKEDEHRAESYRRVKKIIDTYHKVFIDSSLENMAKMGIENEIKAMLQSFCELYKKDHRTEGEDKALDKIRAVLRGLIVGAFTGVCGRRENTVQNEKYESLFKEKLIKEILPDFVLSTEAESLPFSVEEATRSLKEFDSFTSYFAGFYENRKNIYSTKPQSTAIAYRLIHENLPKFIDNILVFQKIKEPIAKELEHIRADFSAGGYIKKDERLEDIFSLNYYIHVLSQAGIEKYNALIGKIVTEGDGEMKGLNEHINLYNQQRGREDRLPLFRPLYKQILSDREQLSYLPESFEKDEELLRALKEFYDHIAEDILGRTQQLMTSISEYDLSRIYVRNDSQLTDISKKMLGDWNAIYMARERAYDHEQAPKRITAKYERDRIKALKGEESISLANLNSCIAFLDNVRDCRVDTYLSTLGQKEGPHGLSNLVENVFASYHEAEQLLSFPYPEENNLIQDKDNVVLIKNLLDNISDLQRFLKPLWGMGDEPDKDERFYGEYNYIRGALDQVIPLYNKVRNYLTRKPYSTRKVKLNFGNSQLLSGWDRNKEKDNSCVILRKGQNFYLAIMNNRHKRSFENKVLPEYKEGEPYFEKMDYKFLPDPNKMLPKVFLSKKGIEIYEPSPKLLEQYGHGTHKKGDTFSMDDLHELIDFFKHSIEAHEDWKQFGFKFSDTATYENVSSFYREVEDQGYKLSFRKVSESYVYSLIDQGKLYLFQIYNKDFSPCSKGTPNLHTLYWRMLFDERNLADVIYKLDGKAEIFFREKSLKNDHPTHPAGKPIKKKSRQKKGEESLFEYDLVKDRRYTMDKFQFHVPITMNFKCSAGSKVNDMVNAHIREAKDMHVIGIDRGERNLLYICVIDSRGTILDQISLNTINDIDYHDLLESRDKDRQQERRNWQTIEGIKELKQGYLSQAVHRIAELMVAYKAVVALEDLNMGFKRGRQKVESSVYQQFEKQLIDKLNYLVDKKKRPEDIGGLLRAYQFTAPFKSFKEMGKQNGFLFYIPAWNTSNIDPTTGFVNLFHAQYENVDKAKSFFQKFDSISYNPKKDWFEFAFDYKNFTKKAEGSRSMWILCTHGSRIKNFRNSQKNGQWDSEEFALTEAFKSLFVRYEIDYTADLKTAIVDEKQKDFFVDLLKLFKLTVQMRNSWKEKDLDYLISPVAGADGRFFDTREGNKSLPKDADANGAYNIALKGLWALRQIRQTSEGGKLKLAISNKEWLQFVQERSYEKD (SEQ ID NO: 90).

>WP_009217842_(модифицированный) гипотетический белок [Bacteroidetes из ротовой полости, таксон 274]

MRKFNEFVGLYPISKTLRFELKPIGKTLEHIQRNKLLEHDAVRADDYVKVKKIIDKYHKCLIDEALSGFTFDTEADGRSNNSLSEYYLYYNLKKRNEQEQKTFKTIQNNLRKQIVNKLTQSEKYKRIDKKELITTDLPDFLTNESEKELVEKFKNFTTYFTEFHKNRKNMYSKEEKSTAIAFRLINENLPKFVDNIAAFEKVVSSPLAEKINALYEDFKEYLNVEEISRVFRLDYYDELLTQKQIDLYNAIVGGRTEEDNKIQIKGLNQYINEYNQQQTDRSNRLPKLKPLYKQILSDRESVSWLPPKFDSDKNLLIKIKECYDALSEKEKVFDKLESILKSLSTYDLSKIYISNDSQLSYISQKMFGRWDIISKAIREDCAKRNPQKSRESLEKFAERIDKKLKTIDSISIGDVDECLAQLGETYVKRVEDYFVAMGESEIDDEQTDTTSFKKNIEGAYESVKELLNNADNITDNNLMQDKGNVEKIKTLLDAIKDLQRFIKPLLGKGDEADKDGVFYGEFTSLWTKLDQVTPLYNMVRNYLTSKPYSTKKIKLNFENSTLMDGWDLNKEPDNTTVIFCKDGLYYLGIMGKKYNRVFVDREDLPHDGECYDKMEYKLLPGANKMLPKVFFSETGIQRFLPSEELLGKYERGTHKKGAGFDLGDCRALIDFFKKSIERHDDWKKFDFKFSDTSTYQDISEFYREVEQQGYKMSFRKVSVDYIKSLVEEGKLYLFQIYNKDFSAHSKGTPNMHTLYWKMLFDEENLKDVVYKLNGEAEVFFRKSSITVQSPTHPANSPIKNKNKDNQKKESKFEYDLIKDRRYTVDKFLFHVPITMNFKSVGGSNINQLVKRHIRSATDLHIIGIDRGERHLLYLTVIDSRGNIKEQFSLNEIVNEYNGNTYRTDYHELLDTREGERTEARRNWQTIQNIRELKEGYLSQVIHKISELAIKYNAVIVLEDLNFGFMRSRQKVEKQVYQKFEKMLIDKLNYLVDKKKPVAETGGLLRAYQLTGEFESFKTLGKQSGILFYVPAWNTSKIDPVTGFVNLFDTHYENIEKAKVFFDKFKSIRYNSDKDWFEFVVDDYTRFSPKAEGTRRDWTICTQGKRIQICRNHQRNNEWEGQEIDLTKAFKEHFEAYGVDISKDLREQINTQNKKEFFEELLRLLRLTLQMRNSMPSSDIDYLISPVANDTGCFFDSRKQAELKENAVLPMNADANGAYNIARKGLLAIRKMKQEENDSAKISLAISNKEWLKFAQTKPYLED (SEQ ID NO: 91).

>WP_036890108_(модифицированный) гипотетический белок [Porphyromonas crevioricanis]

MDSLKDFTNLYPVSKTLRFELKPVGKTLENIEKAGILKEDEHRAESYRRVKKIIDTYHKVFIDSSLENMAKMGIENEIKAMLQSFCELYKKDHRTEGEDKALDKIRAVLRGLIVGAFTGVCGRRENTVQNEKYESLFKEKLIKEILPDFVLSTEAESLPFSVEEATRSLKEFDSFTSYFAGFYENRKNIYSTKPQSTAIAYRLIHENLPKFIDNILVFQKIKEPIAKELEHIRADFSAGGYIKKDERLEDIFSLNYYIHVLSQAGIEKYNALIGKIVTEGDGEMKGLNEHINLYNQQRGREDRLPLFRPLYKQILSDREQLSYLPESFEKDEELLRALKEFYDHIAEDILGRTQQLMTSISEYDLSRIYVRNDSQLTDISKKMLGDWNAIYMARERAYDHEQAPKRITAKYERDRIKALKGEESISLANLNSCIAFLDNVRDCRVDTYLSTLGQKEGPHGLSNLVENVFASYHEAEQLLSFPYPEENNLIQDKDNVVLIKNLLDNISDLQRFLKPLWGMGDEPDKDERFYGEYNYIRGALDQVIPLYNKVRNYLTRKPYSTRKVKLNFGNSQLLSGWDRNKEKDNSCVILRKGQNFYLAIMNNRHKRSFENKMLPEYKEGEPYFEKMDYKFLPDPNKMLPKVFLSKKGIEIYKPSPKLLEQYGHGTHKKGDTFSMDDLHELIDFFKHSIEAHEDWKQFGFKFSDTATYENVSSFYREVEDQGYKLSFRKVSESYVYSLIDQGKLYLFQIYNKDFSPCSKGTPNLHTLYWRMLFDERNLADVIYKLDGKAEIFFREKSLKNDHPTHPAGKPIKKKSRQKKGEESLFEYDLVKDRRYTMDKFQFHVPITMNFKCSAGSKVNDMVNAHIREAKDMHVIGIDRGERNLLYICVIDSRGTILDQISLNTINDIDYHDLLESRDKDRQQEHRNWQTIEGIKELKQGYLSQAVHRIAELMVAYKAVVALEDLNMGFKRGRQKVESSVYQQFEKQLIDKLNYLVDKKKRPEDIGGLLRAYQFTAPFKSFKEMGKQNGFLFYIPAWNTSNIDPTTGFVNLFHVQYENVDKAKSFFQKFDSISYNPKKDWFEFAFDYKNFTKKAEGSRSMWILCTHGSRIKNFRNSQKNGQWDSEEFALTEAFKSLFVRYEIDYTADLKTAIVDEKQKDFFVDLLKLFKLTVQMRNSWKEKDLDYLISPVAGADGRFFDTREGNKSLPKDADANGAYNIALKGLWALRQIRQTSEGGKLKLAISNKEWLQFVQERSYEKD (SEQ ID NO: 92).

>WP_036887416_(модифицированный) гипотетический белок [Porphyromonas crevioricanis]

MDSLKDFTNLYPVSKTLRFELKPVGKTLENIEKAGILKEDEHRAESYRRVKKIIDTYHKVFIDSSLENMAKMGIENEIKAMLQSFCELYKKDHRTEGEDKALDKIRAVLRGLIVGAFTGVCGRRENTVQNEKYESLFKEKLIKEILPDFVLSTEAESLPFSVEEATRSLKEFDSFTSYFAGFYENRKNIYSTKPQSTAIAYRLIHENLPKFIDNILVFQKIKEPIAKELEHIRADFSAGGYIKKDERLEDIFSLNYYIHVLSQAGIEKYNALIGKIVTEGDGEMKGLNEHINLYNQQRGREDRLPLFRPLYKQILSDREQLSYLPESFEKDEELLRALKEFYDHIAEDILGRTQQLMTSISEYDLSRIYVRNDSQLTDISKKMLGDWNAIYMARERAYDHEQAPKRITAKYERDRIKALKGEESISLANLNSCIAFLDNVRDCRVDTYLSTLGQKEGPHGLSNLVENVFASYHEAEQLLSFPYPEENNLIQDKDNVVLIKNLLDNISDLQRFLKPLWGMGDEPDKDERFYGEYNYIRGALDQVIPLYNKVRNYLTRKPYSTRKVKLNFGNSQLLSGWDRNKEKDNSCVILRKGQNFYLAIMNNRHKRSFENKVLPEYKEGEPYFEKMDYKFLPDPNKMLPKVFLSKKGIEIYKPSPKLLEQYGHGTHKKGDTFSMDDLHELIDFFKHSIEAHEDWKQFGFKFSDTATYENVSSFYREVEDQGYKLSFRKVSESYVYSLIDQGKLYLFQIYNKDFSPCSKGTPNLHTLYWRMLFDERNLADVIYKLDGKAEIFFREKSLKNDHPTHPAGKPIKKKSRQKKGEESLFEYDLVKDRHYTMDKFQFHVPITMNFKCSAGSKVNDMVNAHIREAKDMHVIGIDRGERNLLYICVIDSRGTILDQISLNTINDIDYHDLLESRDKDRQQERRNWQTIEGIKELKQGYLSQAVHRIAELMVAYKAVVALEDLNMGFKRGRQKVESSVYQQFEKQLIDKLNYLVDKKKRPEDIGGLLRAYQFTAPFKSFKEMGKQNGFLFYIPAWNTSNIDPTTGFVNLFHAQYENVDKAKSFFQKFDSISYNPKKDWFEFAFDYKNFTKKAEGSRSMWILCTHGSRIKNFRNSQKNGQWDSEEFALTEAFKSLFVRYEIDYTADLKTAIVDEKQKDFFVDLLKLFKLTVQMRNSWKEKDLDYLISPVAGADGRFFDTREGNKSLPKDADANGAYNIALKGLWALRQIRQTSEGGKLKLAISNKEWLQFVQERSYEKD (SEQ ID NO: 93).

>WP_023941260_(модифицированный) экзонуклеаза SbcC [Porphyromonas cansulci]

MDSLKDFTNLYPVSKTLRFELKPVGKTLENIEKAGILKEDEHRAESYRRVKKIIDTYHKVFIDSSLENMAKMGIENEIKAMLQSFCELYKKDHRTEGEDKALDKIRAVLRGLIVGAFTGVCGRRENTVQNEKYESLFKEKLIKEILPDFVLSTEAESLPFSVEEATRSLKEFDSFTSYFAGFYENRKNIYSTKPQSTAIAYRLIHENLPKFIDNILVFQKIKEPIAKELEHIRADFSAGGYIKKDERLEDIFSLNYYIHVLSQAGIEKYNALIGKIVTEGDGEMKGLNEHINLYNQQRGREDRLPLFRPLYKQILSDREQLSYLPESFEKDEELLRALKEFYDHIAEDILGRTQQLMTSISEYDLSRIYVRNDSQLTDISKKMLGDWNAIYMARERAYDHEQAPKRITAKYERDRIKALKGEESISLANLNSCIAFLDNVRDCRVDTYLSTLGQKEGPHGLSNLVENVFASYHEAEQLLSFPYPEENNLIQDKDNVVLIKNLLDNISDLQRFLKPLWGMGDEPDKDERFYGEYNYIRGALDQVIPLYNKVRNYLTRKPYSTRKVKLNFGNSQLLSGWDRNKEKDNSCVILRKGQNFYLAIMNNRHKRSFENKVLPEYKEGEPYFEKMDYKFLPDPNKMLPKVFLSKKGIEIYKPSPKLLEQYGHGTHKKGDTFSMDDLHELIDFFKHSIEAHEDWKQFGFKFSDTATYENVSSFYREVEDQGYKLSFRKVSESYVYSLIDQGKLYLFQIYNKDFSPCSKGTPNLHTLYWRMLFDERNLADVIYKLDGKAEIFFREKSLKNDHPTHPAGKPIKKKSRQKKGEESLFEYDLVKDRRYTMDKFQFHVPITMNFKCSAGSKVNDMVNAHIREAKDMHVIGIDRGERNLLYICVIDSRGTILDQISLNTINDIDYHDLLESRDKDRQQERRNWQTIEGIKELKQGYLSQAVHRIAELMVAYKAVVALEDLNMGFKRGRQKVESSVYQQFEKQLIDKLNYLVDKKKRPEDIGGLLRAYQFTAPFKSFKEMGKQNGFLFYIPAWNTSNIDPTTGFVNLFHAQYENVDKAKSFFQKFDSISYNPKKDWFEFAFDYKNFTKKAEGSRSMWILCTHGSRIKNFRNSQKNGQWDSEEFALTEAFKSLFVRYEIDYTADLKTAIVDEKQKDFFVDLLKLFKLTVQMRNSWKEKDLDYLISPVAGADGRFFDTREGNKSLPKDADANGAYNIALKGLWALRQIRQTSEGGKLKLAISNKEWLQFVQERSYEKD (SEQ ID NO: 94).

>WP_037975888_(модифицированный) гипотетический белок [Synergistes jonesii]

MANSLKDFTNIYQLSKTLRFELKPIGKTEEHINRKLIIMHDEKRGEDYKSVTKLIDDYHRKFIHETLDPAHFDWNPLAEALIQSGSKNNKALPAEQKEMREKIISMFTSQAVYKKLFKKELFSELLPEMIKSELVSDLEKQAQLDAVKSFDKFSTYFTGFHENRKNIYSKKDTSTSIAFRIVHQNFPKFLANVRAYTLIKERAPEVIDKAQKELSGILGGKTLDDIFSIESFNNVLTQDKIDYYNQIIGGVSGKAGDKKLRGVNEFSNLYRQQHPEVASLRIKMVPLYKQILSDRTTLSFVPEALKDDEQAINAVDGLRSELERNDIFNRIKRLFGKNNLYSLDKIWIKNSSISAFSNELFKNWSFIEDALKEFKENEFNGARSAGKKAEKWLKSKYFSFADIDAAVKSYSEQVSADISSAPSASYFAKFTNLIETAAENGRKFSYFAAESKAFRGDDGKTEIIKAYLDSLNDILHCLKPFETEDISDIDTEFYSAFAEIYDSVKDVIPVYNAVRNYTTQKPFSTEKFKLNFENPALAKGWDKNKEQNNTAIILMKDGKYYLGVIDKNNKLRADDLADDGSAYGYMKMNYKFIPTPHMELPKVFLPKRAPKRYNPSREILLIKENKTFIKDKNFNRTDCHKLIDFFKDSINKHKDWRTFGFDFSDTDSYEDISDFYMEVQDQGYKLTFTRLSAEKIDKWVEEGRLFLFQIYNKDFADGAQGSPNLHTLYWKAIFSEENLKDVVLKLNGEAELFFRRKSIDKPAVHAKGSMKVNRRDIDGNPIDEGTYVEICGYANGKRDMASLNAGARGLIESGLVRITEVKHELVKDKRYTIDKYFFHVPFTINFKAQGQGNINSDVNLFLRNNKDVNIIGIDRGERNLVYVSLIDRDGHIKLQKDFNIIGGMDYHAKLNQKEKERDTARKSWKTIGTIKELKEGYLSQVVHEIVRLAVDNNAVIVMEDLNIGFKRGRFKVEKQVYQKFEKMLIDKLNYLVFKDAGYDAPCGILKGLQLTEKFESFTKLGKQCGIIFYIPAGYTSKIDPTTGFVNLFNINDVSSKEKQKDFIGKLDSIRFDAKRDMFTFEFDYDKFRTYQTSYRKKWAVWTNGKRIVREKDKDGKFRMNDRLLTEDMKNILNKYALAYKAGEDILPDVISRDKSLASEIFYVFKNTLQMRNSKRDTGEDFIISPVLNAKGRFFDSRKTDAALPIDADANGAYHIALKGSLVLDAIDEKLKEDGRIDYKDMAVSNPKWFEFMQTRKFDF (SEQ ID NO: 95).

>EFI70750_(модифицированный) консервативный гипотетический белок [Prevotella bryantii B14]

MQINNLKIIYMKFTDFTGLYSLSKTLRFELKPIGKTLENIKKAGLLEQDQHRADSYKKVKKIIDEYHKAFIEKSLSNFELKYQSEDKLDSLEEYLMYYSMKRIEKTEKDKFAKIQDNLRKQIADHLKGDESYKTIFSKDLIRKNLPDFVKSDEERTLIKEFKDFTTYFKGFYENRENMYSAEDKSTAISHRIIHENLPKFVDNINAFSKIILIPELREKLNQIYQDFEEYLNVESIDEIFHLDYFSMVMTQKQIEVYNAIIGGKSTNDKKIQGLNEYINLYNQKHKDCKLPKLKLLFKQILSDRIAISWLPDNFKDDQEALDSIDTCYKNLLNDGNVLGEGNLKLLLENIDTYNLKGIFIRNDLQLTDISQKMYASWNVIQDAVILDLKKQVSRKKKESAEDYNDRLKKLYTSQESFSIQYLNDCLRAYGKTENIQDYFAKLGAVNNEHEQTINLFAQVRNAYTSVQAILTTPYPENANLAQDKETVALIKNLLDSLKRLQRFIKPLLGKGDESDKDERFYGDFTPLWETLNQITPLYNMVRNYMTRKPYSQEKIKLNFENSTLLGGWDLNKEHDNTAIILRKNGLYYLAIMKKSANKIFDKDKLDNSGDCYEKMVYKLLPGANKMLPKVFFSKSRIDEFKPSENIIENYKKGTHKKGANFNLADCHNLIDFFKSSISKHEDWSKFNFHFSDTSSYEDLSDFYREVEQQGYSISFCDVSVEYINKMVEKGDLYLFQIYNKDFSEFSKGTPNMHTLYWNSLFSKENLNNIIYKLNGQAEIFFRKKSLNYKRPTHPAHQAIKNKNKCNEKKESIFDYDLVKDKRYTVDKFQFHVPITMNFKSTGNTNINQQVIDYLRTEDDTHIIGIDRGERHLLYLVVIDSHGKIVEQFTLNEIVNEYGGNIYRTNYHDLLDTREQNREKARESWQTIENIKELKEGYISQVIHKITDLMQKYHAVVVLEDLNMGFMRGRQKVEKQVYQKFEEMLINKLNYLVNKKADQNSAGGLLHAYQLTSKFESFQKLGKQSGFLFYIPAWNTSKIDPVTGFVNLFDTRYESIDKAKAFFGKFDSIRYNADKDWFEFAFDYNNFTTKAEGTRTNWTICTYGSRIRTFRNQAKNSQWDNEEIDLTKAYKAFFAKHGINIYDNIKEAIAMETEKSFFEDLLHLLKLTLQMRNSITGTTTDYLISPVHDSKGNFYDSRICDNSLPANADANGAYNIARKGLMLIQQIKDSTSSNRFKFSPITNKDWLIFAQEKPYLND (SEQ ID NO: 96).

>WP_024988992_(модифицированный) гипотетический белок [Prevotella albensis]

MNIKNFTGLYPLSKTLRFELKPIGKTKENIEKNGILTKDEQRAKDYLIVKGFIDEYHKQFIKDRLWDFKLPLESEGEKNSLEEYQELYELTKRNDAQEADFTEIKDNLRSSITEQLTKSGSAYDRIFKKEFIREDLVNFLEDEKDKNIVKQFEDFTTYFTGFYENRKNMYSSEEKSTAIAYRLIHQNLPKFMDЯМРSFAKIANSSVSEHFSDIYESWKEYLNVNSIEEIFQLDYFSETLTQPHIEVYNYIIGKKVLEDGTEIKGINEYVNLYNQQQKDKSKRLPFLVPLYKQILSDREKLSWIAEEFDSDKKMLSAITESYNHLHNVLMGNENESLRNLLLNIKDYNLEKINITNDLSLTEISQNLFGRYDVFTNGIKNKLRVLTPRKKKETDENFEDRINKIFKTQKSFSIAFLNKLPQPEMEDGKPRNIEDYFITQGAINTKSIQKEDIFAQIENAYEDAQVFLQIKDTDNKLSQNKTAVEKIKTLLDALKELQHFIKPLLGSGEENEKDELFYGSFLAIWDELDTITPLYNKVRNWLTRKPYSTEKIKLNFDNAQLLGGWDVNKEHDCAGILLRKNDSYYLGIINKKTNHIFDTDITPSDGECYDKIDYKLLPGANKMLPKVFFSKSRIKEFEPSEAIINCYKKGTHKKGKNFNLTDCHRLINFFKTSIEKHEDWSKFGFKFSDTETYEDISGFYREVEQQGYRLTSHPVSASYIHSLVKEGKLYLFQIWNKDFSQFSKGTPNLHTLYWKMLFDKRNLSDVVYKLNGQAEVFYRKSSIEHQNRIIHPAQHPITNKNELNKKHTSTFKYDIIKDRRYTVDKFQFHVPITINFKATGQNNINPIVQEVIRQNGITHIIGIDRGERHLLYLSLIDLKGNIIKQMTLNEIINEYKGVTYKTNYHNLLEKREKERTEARHSWSSIESIKELKDGYMSQVIHKITDMMVKYNAIVVLEDLNGGFMRGRQKVEKQVYQKFEKKLIDKLNYLVDKKLDANEVGGVLNAYQLTNKFESFKKIGKQSGFLFYIPAWNTSKIDPITGFVNLFNTRYESIKETKVFWSKFDIIRYNKEKNWFEFVFDYNTFTTKAEGTRTKWTLCTHGTRIQTFRNPEKNAQWDNKEINLTESFKALFEKYKIDITSNLKESIMQETEKKFFQELHNLLHLTLQMRNSVTGTDIDYLISPVADEDGNFYDSRINGKNFPENADANGAYNIARKGLMLIRQIKQADPQKKFKFETITNKDWLKFAQDKPYLKD (SEQ ID NO: 97).

>WP_039658684_(модифицированный) гипотетический белок [Smithella sp. SC_K08D17]

MQTLFENFTNQYPVSKTLRFELIPQGKTKDFIEQKGLLKKDEDRAEKYKKVKNIIDEYHKDFIEKSLNGLKLDGLEKYKTLYLKQEKDDKDKKAFDKEKENLRKQIANAFRNNEKFKTLFAKELIKNDLMSFACEEDKKNVKEFEAFTTYFTGFHQNRANMYVADEKRTAIASRLIHENLPKFIDNIKIFEKMKKEAPELLSPFNQTLKDMKDVIKGTTLEEIFSLDYFNKTLTQSGIDIYNSVIGGRTPEEGKTKIKGLNEYINTDFNQKQTDKKKRQPKFKQLYKQILSDRQSLSFIAEAFKNDTEILEAIEKFYVNELLHFSNEGKSTNVLDAIKNAVSNLESFNLTKMYFRSGASLTDVSRKVFGEWSIINRALDNYYATTYPIKPREKSEKYEERKEKWLKQDFNVSLIQTAIDEYDNETVKGKNSGKVIADYFAKFCDDKETDLIQKVNEGYIAVKDLLNTPCPENEKLGSNKDQVKQIKAFMDSIMDIMHFVRPLSLKDTDKEKDETFYSLFTPLYDHLTQTIALYNKVRNYLTQKPYSTEKIKLNFENSTLLGGWDLNKETDNTAIILRKDNLYYLGIMDKRHNRIFRNVPKADKKDFCYEKMVYKLLPGANKMLPKVFFSQSRIQEFTPSAKLLENYANETHKKGDNFNLNHCHKLIDFFKDSINKHEDWKNFDFRFSATSTYADLSGFYHEVEHQGYKISFQSVADSFIDDLVNEGKLYLFQIYNKDFSPFSKGKPNLHTLYWKMLFDENNLKDVVYKLNGEAEVFYRKKSIAEKNTTIHKANESIINKNPDNPKATSTFNYDIVKDKRYTIDKFQFHIPITMNFKAEGIFNMNQRVNQFLKANPDINIIGIDRGERHLLYYALINQKGKILKQDTLNVIANEKQKVDYHNLLDKKEGDRATARQEWGVIETIKELKEGYLSQVIHKLTDLMIENNAIIVMEDLNFGFKRGRQKVEKQVYQKFEKMLIDKLNYLVDKNKKANELGGLLNAFQLANKFESFQKMGKQNGFIFYVPAWNTSKTDPATGFIDFLKPRYENLNQAKDFFEKFDSIRLNSKADYFEFAFDFKNFTEKADGGRTKWTVCTTNEDRYAWNRALNNNRGSQEKYDITAELKSLFDGKVDYKSGKDLKQQIASQESADFFKALMKNLSITLSLRHNNGEKGDNEQDYILSPVADSKGRFFDSRKADDDMPKNADANGAYHIALKGLWCLEQISKTDDLKKVKLAISNKEWLEFVQTLKG (SEQ ID NO: 98).

>WP_037385181_(модифицированный) гипотетический белок [Smithella sp. SCADC]

MQTLFENFTNQYPVSKTLRFELIPQGKTKDFIEQKGLLKKDEDRAEKYKKVKNIIDEYHKDFIEKSLNGLKLDGLEEYKTLYLKQEKDDKDKKAFDKEKENLRKQIANAFRNNEKFKTLFAKELIKNDLMSFACEEDKKNVKEFEAFTTYFTGFHQNRANMYVADEKRTAIASRLIHENLPKFIDNIKIFEKMKKEAPELLSPFNQTLKDMKDVIKGTTLEEIFSLDYFNKTLTQSGIDIYNSVIGGRTPEEGKTKIKGLNEYINTDFNQKQTDKKKRQPKFKQLYKQILSDRQSLSFIAEAFKNDTEILEAIEKFYVNELLHFSNEGKSTNVLDAIKNAVSNLESFNLTKIYFRSGTSLTDVSRKVFGEWSIINRALDNYYATTYPIKPREKSEKYEERKEKWLKQDFNVSLIQTAIDEYDNETVKGKNSGKVIVDYFAKFCDDKETDLIQKVNEGYIAVKDLLNTPYPENEKLGSNKDQVKQIKAFMDSIMDIMHFVRPLSLKDTDKEKDETFYSLFTPLYDHLTQTIALYNKVRNYLTQKPYSTEKIKLNFENSTLLGGWDLNKETDNTAIILRKENLYYLGIMDKRHNRIFRNVPKADKKDSCYEKMVYKLLPGANKMLPKVFFSQSRIQEFTPSAKLLENYENETHKKGDNFNLNHCHQLIDFFKDSINKHEDWKNFDFRFSATSTYADLSGFYHEVEHQGYKISFQSIADSFIDDLVNEGKLYLFQIYNKDFSPFSKGKPNLHTLYWKMLFDENNLKDVVYKLNGEAEVFYRKKSIAEKNTTIHKANESIINKNPDNPKATSTFNYDIVKDKRYTIDKFQFHVPITMNFKAEGIFNMNQRVNQFLKANPDINIIGIDRGERHLLYYTLINQKGKILKQDTLNVIANEKQKVDYHNLLDKKEGDRATARQEWGVIETIKELKEGYLSQVIHKLTDLMIENNAIIVMEDLNFGFKRGRQKVEKQVYQKFEKMLIDKLNYLVDKNKKANELGGLLNAFQLANKFESFQKMGKQNGFIFYVPAWNTSKTDPATGFIDFLKPRYENLKQAKDFFEKFDSIRLNSKADYFEFAFDFKNFTGKADGGRTKWTVCTTNEDRYAWNRALNNNRGSQEKYDITAELKSLFDGKVDYKSGKDLKQQIASQELADFFRTLMKYLSVTLSLRHNNGEKGETEQDYILSPVADSMGKFFDSRKAGDDMPKNADANGAYHIALKGLWCLEQISKTDDLKKVKLAISNKEWLEFMQTLKG (SEQ ID NO: 99).

>WP_039871282_(модифицированный) гипотетический белок [Prevotella bryantii]

MKFTDFTGLYSLSKTLRFELKPIGKTLENIKKAGLLEQDQHRADSYKKVKKIIDEYHKAFIEKSLSNFELKYQSEDKLDSLEEYLMYYSMKRIEKTEKDKFAKIQDNLRKQIADHLKGDESYKTIFSKDLIRKNLPDFVKSDEERTLIKEFKDFTTYFKGFYENRENMYSAEDKSTAISHRIIHENLPKFVDNINAFSKIILIPELREKLNQIYQDFEEYLNVESIDEIFHLDYFSMVMTQKQIEVYNAIIGGKSTNDKKIQGLNEYINLYNQKHKDCKLPKLKLLFKQILSDRIAISWLPDNFKDDQEALDSIDTCYKNLLNDGNVLGEGNLKLLLENIDTYNLKGIFIRNDLQLTDISQKMYASWNVIQDAVILDLKKQVSRKKKESAEDYNDRLKKLYTSQESFSIQYLNDCLRAYGKTENIQDYFAKLGAVNNEHEQTINLFAQVRNAYTSVQAILTTPYPENANLAQDKETVALIKNLLDSLKRLQRFIKPLLGKGDESDKDERFYGDFTPLWETLNQITPLYNMVRNYMTRKPYSQEKIKLNFENSTLLGGWDLNKEHDNTAIILRKNGLYYLAIMKKSANKIFDKDKLDNSGDCYEKMVYKLLPGANKMLPKVFFSKSRIDEFKPSENIIENYKKGTHKKGANFNLADCHNLIDFFKSSISKHEDWSKFNFHFSDTSSYEDLSDFYREVEQQGYSISFCDVSVEYINKMVEKGDLYLFQIYNKDFSEFSKGTPNMHTLYWNSLFSKENLNNIIYKLNGQAEIFFRKKSLNYKRPTHPAHQAIKNKNKCNEKKESIFDYDLVKDKRYTVDKFQFHVPITMNFKSTGNTNINQQVIDYLRTEDDTHIIGIDRGERHLLYLVVIDSHGKIVEQFTLNEIVNEYGGNIYRTNYHDLLDTREQNREKARESWQTIENIKELKEGYISQVIHKITDLMQKYHAVVVLEDLNMGFMRGRQKVEKQVYQKFEEMLINKLNYLVNKKADQNSAGGLLHAYQLTSKFESFQKLGKQSGFLFYIPAWNTSKIDPVTGFVNLFDTRYESIDKAKAFFGKFDSIRYNADKDWFEFAFDYNNFTTKAEGTRTNWTICTYGSRIRTFRNQAKNSQWDNEEIDLTKAYKAFFAKHGINIYDNIKEAIAMETEKSFFEDLLHLLKLTLQMRNSITGTTTDYLISPVHDSKGNFYDSRICDNSLPANADANGAYNIARKGLMLIQQIKDSTSSNRFKFSPITNKDWLIFAQEKPYLND (SEQ ID NO: 100).

>EKE28449_(модифицированный) гипотетический белок ACD_3C00058G0015 [некультивируемая бактерия (g-код 4)]

MFKGDAFTGLYEVQKTLRFELVPIGLTQSYLENDWVIQKDKEVEENYGKIKAYFDLIHKEFVRQSLENAWLCQLDDFYEKYIELHNSLETRKDKNLAKQFEKVMKSLKKEFVSFFDAKWNEWKQKFSFLKKWWIDVLNEKEVLDLMAEFYPDEKELFDKFDKFFTYFSNFKESRKNFYADDGRAWAIATRAIDENLITFIKNIEDFKKLNSSFREFVNDNFSEEDKQIFEIDFYNNCLLQPWIDKYNKIVWWYSLENWEKVQWLNEKINNFKQNQNKSNSKDLKFPRMKLLYKQILGDKEKKVYIDEIRDDKNLIDLIDNSKRRNQIKIDNANDIINDFINNNAKFELDKIYLTRQSINTISSKYFSSWDYIRWYFWTGELQEFVSFYDLKETFWKIEYETLENIFKDCYVKGINTESQNNIVFETQGIYENFLNIFKFEFNQNISQISLLEWELDKIQNEDIKKNEKQVEVIKNYFDSVMSVYKMTKYFSLEKWKKRVELDTDNNFYNDFNEYLEGFEIWKDYNLVRNYITKKQVNTDKIKLNFDNSQFLTWWDKDKENERLGIILRREWKYYLWILKKWNTLNFGDYLQKEWEIFYEKMNYKQLNNVYRQLPRLLFPLTKKLNELKWDELKKYLSKYIQNFWYNEEIAQIKIEFDIFQESKEKWEKFDIDKLRKLIEYYKKWVLALYSDLYDLEFIKYKNYDDLSIFYSDVEKKMYNLNFTKIDKSLIDGKVKSWELYLFQIYNKDFSESKKEWSTENIHTKYFKLLFNEKNLQNLVVKLSWWADIFFRDKTENLKFKKDKNGQEILDHRRFSQDKIMFHISITLNANCWDKYWFNQYVNEYMNKERDIKIIWIDRWEKHLAYYCVIDKSWKIFNNEIWTLNELNWVNYLEKLEKIESSRKDSRISWWEIENIKELKNGYISQVINKLTELIVKYNAIIVFEDLNIWFKRWRQKIEKQIYQKLELALAKKLNYLTQKDKKDDEILWNLKALQLVPKVNDYQDIWNYKQSWIMFYVRANYTSVTCPNCWLRKNLYISNSATKENQKKSLNSIAIKYNDWKFSFSYEIDDKSWKQKQSLNKKKFIVYSDIERFVYSPLEKLTKVIDVNKKLLELFRDFNLSLDINKQIQEKDLDSVFFKSLTHLFNLILQLRNSDSKDNKDYISCPSCYYHSNNWLQWFEFNWDANWAYNIARKGIILLDRIRKNQEKPDLYVSDIDWDNFVQSNQFPNTIIPIQNIEKQVPLNIKI (SEQ ID NO: 101).

>WP_018359861_(модифицированный) гипотетический белок [Porphyromonas macacae]

MKTQHFFEDFTSLYSLSKTIRFELKPIGKTLENIKKNGLIRRDEQRLDDYEKLKKVIDEYHEDFIANILSSFSFSEEILQSYIQNLSESEARAKIEKTMRDTLAKAFSEDERYKSIFKKELVKKDIPVWCPAYKSLCKKFDNFTTSLVPFHENRKNLYTSNEITASIPYRIVHVNLPKFIQNIEALCELQKKMGADLYLEMMENLRNVWPSFVKTPDDLCNLKTYNHLMVQSSISEYNRFVGGYSTEDGTKHQGINEWINIYRQRNKEMRLPGLVFLHKQILAKVDSSSFISDTLENDDQVFCVLRQFRKLFWNTVSSKEDDAASLKDLFCGLSGYDPEAIYVSDAHLATISKNIFDRWNYISDAIRRKTEVLMPRKKESVERYAEKISKQIKKRQSYSLAELDDLLAHYSEESLPAGFSLLSYFTSLGGQKYLVSDGEVILYEEGSNIWDEVLIAFRDLQVILDKDFTEKKLGKDEEAVSVIKKALDSALRLRKFFDLLSGTGAEIRRDSSFYALYTDRMDKLKGLLKMYDKVRNYLTKKPYSIEKFKLHFDNPSLLSGWDKNKELNNLSVIFRQNGYYYLGIMTPKGKNLFKTLPKLGAEEMFYEKMEYKQIAEPMLMLPKVFFPKKTKPAFAPDQSVVDIYNKKTFKTGQKGFNKKDLYRLIDFYKEALTVHEWKLFNFSFSPTEQYRNIGEFFDEVREQAYKVSMVNVPASYIDEAVENGKLYLFQIYNKDFSPYSKGIPNLHTLYWKALFSEQNQSRVYKLCGGGELFYRKASLHMQDTTVHPKGISIHKKNLNKKGETSLFNYDLVKDKRFTEDKFFFHVPISINYKNKKITNVNQMVRDYIAQNDDLQIIGIDRGERNLLYISRIDTRGNLLEQFSLNVIESDKGDLRTDYQKILGDREQERLRRRQEWKSIESIKDLKDGYMSQVVHKICNMVVEHKAIVVLENLNLSFMKGRKKVEKSVYEKFERMLVDKLNYLVVDKKNLSNEPGGLYAAYQLTNPLFSFEELHRYPQSGILFFVDPWNTSLTDPSTGFVNLLGRINYTNVGDARKFFDRFNAIRYDGKGNILFDLDLSRFDVRVETQRKLWTLTTFGSRIAKSKKSGKWMVERIENLSLCFLELFEQFNIGYRVEKDLKKAILSQDRKEFYVRLIYLFNLMMQIRNSDGEEDYILSPALNEKNLQFDSRLIEAKDLPVDADANGAYNVARKGLMVVQRIKRGDHESIHRIGRAQWLRYVQEGIVE (SEQ ID NO: 102).

>WP_013282991_(модифицированный) гипотетический белок [Butyrivibrio proteoclasticus]

MLLYENYTKRNQITKSLRLELRPQGKTLRNIKELNLLEQDKAIYALLERLKPVIDEGIKDIARDTLKNCELSFEKLYEHFLSGDKKAYAKESERLKKEIVKTLIKNLPEGIGKISEINSAKYLNGVLYDFIDKTHKDSEEKQNILSDILETKGYLALFSKFLTSRITTLEQSMPKRVIENFEIYAANIPKMQDALERGAVSFAIEYESICSVDYYNQILSQEDIDSYNRLISGIMDEDGAKEKGINQTISEKNIKIKSEHLEEKPFRILKQLHKQILEEREKAFTIDHIDSDEEVVQVTKEAFEQTKEQWENIKKINGFYAKDPGDITLFIVVGPNQTHVLSQLIYGEHDRIRLLLEEYEKNTLEVLPRRTKSEKARYDKFVNAVPKKVAKESHTFDGLQKMTGDDRLFILYRDELARNYMRIKEAYGTFERDILKSRRGIKGNRDVQESLVSFYDELTKFRSALRIINSGNDEKADPIFYNTFDGIFEKANRTYKAENLCRNYVTKSPADDARIMASCLGTPARLRTHWWNGEENFAINDVAMIRRGDEYYYFVLTPDVKPVDLKTKDETDAQIFVQRKGAKSFLGLPKALFKCILEPYFESPEHKNDKNCVIEEYVSKPLTIDRRAYDIFKNGTFKKTNIGIDGLTEEKFKDDCRYLIDVYKEFIAVYTRYSCFNMSGLKRADEYNDIGEFFSDVDTRLCTMEWIPVSFERINDMVDKKEGLLFLVRSMFLYNRPRKPYERTFIQLFSDSNMEHTSMLLNSRAMIQYRAASLPRRVTHKKGSILVALRDSNGEHIPMHIREAIYKMKNNFDISSEDFIMAKAYLAEHDVAIKKANEDIIRNRRYTEDKFFLSLSYTKNADISARTLDYINDKVEEDTQDSRMAVIVTRNLKDLTYVAVVDEKNNVLEEKSLNEIDGVNYRELLKERTKIKYHDKTRLWQYDVSSKGLKEAYVELAVTQISKLATKYNAVVVVESMSSTFKDKFSFLDEQIFKAFEARLCARMSDLSFNTIKEGEAGSISNPIQVSNNNGNSYQDGVIYFLNNAYTRTLCPDTGFVDVFDKTRLITMQSKRQFFAKMKDIRIDDGEMLFTFNLEEYPTKRLLDRKEWTVKIAGDGSYFDKDKGEYVYVNDIVREQIIPALLEDKAVFDGNMAEKFLDKTAISGKSVELIYKWFANALYGIITKKDGEKIYRSPITGTEIDVSKNTTYNFGKKFMFKQEYRGDGDFLDAFLNYMQAQDIAV (SEQ ID NO: 103).

>AIZ56868_(модифицированный) гипотетический белок Mpt1_c09950 [Candidatus Methanoplasma termitum]

MNNYDEFTKLYPIQKTIRFELKPQGRTMEHLETFNFFEEDRDRAEKYKILKEAIDEYHKKFIDEHLTNMSLDWNSLKQISEKYYKSREEKDKKVFLSEQKRMRQEIVSEFKKDDRFKDLFSKKLFSELLKEEIYKKGNHQEIDALKSFDKFSGYFIGLHENRKNMYSDGDEITAISNRIVNENFPKFLDNLQKYQEARKKYPEWIIKAESALVAHNIKMDEVFSLEYFNKVLNQEGIQRYNLALGGYVTKSGEKMMGLNDALNLAHQSEKSSKGRIHMTPLFKQILSEKESFSYIPDVFTEDSQLLPSIGGFFAQIENDKDGNIFDRALELISSYAEYDTERIYIRQADINRVSNVIFGEWGTLGGLMREYKADSINDINLERTCKKVDKWLDSKEFALSDVLEAIKRTGNNDAFNEYISKMRTAREKIDAARKEMKFISEKISGDEESIHIIKTLLDSVQQFLHFFNLFKARQDIPLDGAFYAEFDEVHSKLFAIVPLYNKVRNYLTKNNLNTKKIKLNFKNPTLANGWDQNKVYDYASLIFLRDGNYYLGIINPKRKKNIKFEQGSGNGPFYRKMVYKQIPGPNKNLPRVFLTSTKGKKEYKPSKEIIEGYEADKHIRGDKFDLDFCHKLIDFFKESIEKHKDWSKFNFYFSPTESYGDISEFYLDVEKQGYRMHFENISAETIDEYVEKGDLFLFQIYNKDFVKAATGKKDMHTIYWNAAFSPENLQDVVVKLNGEAELFYRDKSDIKEIVHREGEILVNRTYNGRTPVPDKIHKKLTDYHNGRTKDLGEAKEYLDKVRYFKAHYDITKDRRYLNDKIYFHVPLTLNFKANGKKNLNKMVIEKFLSDEKAHIIGIDRGERNLLYYSIIDRSGKIIDQQSLNVIDGFDYREKLNQREIEMKDARQSWNAIGKIKDLKEGYLSKAVHEITKMAIQYNAIVVMEELNYGFKRGRFKVEKQIYQKFENMLIDKMNYLVFKDAPDESPGGVLNAYQLTNPLESFAKLGKQTGILFYVPAAYTSKIDPTTGFVNLFNTSSKTNAQERKEFLQKFESISYSAKDGGIFAFAFDYRKFGTSKTDHKNVWTAYTNGERMRYIKEKKRNELFDPSKEIKEALTSSGIKYDGGQNILPDILRSNNNGLIYTMYSSFIAAIQMRVYDGKEDYIISPIKNSKGEFFRTDPKRRELPIDADANGAYNIALRGELTMRAIAEKFDPDSEKMAKLELKHKDWFEFMQTRGD (SEQ ID NO: 104).

>WP_027407524_(модифицированный) гипотетический белок [Anaerovibrio sp. RM50]

MVAFIDEFVGQYPVSKTLRFEARPVPETKKWLESDQCSVLFNDQKRNEYYGVLKELLDDYYRAYIEDALTSFTLDKALLENAYDLYCNRDTNAFSSCCEKLRKDLVKAFGNLKDYLLGSDQLKDLVKLKAKVDAPAGKGKKKIEVDSRLINWLNNNAKYSAEDREKYIKAIESFEGFVTYLTNYKQARENMFSSEDKSTAIAFRVIDQNMVTYFGNIRIYEKIKAKYPELYSALKGFEKFFSPTAYSEILSQSKIDEYNYQCIGRPIDDADFKGVNSLINEYRQKNGIKARELPVMSMLYKQILSDRDNSFMSEVINRNEEAIECAKNGYKVSYALFNELLQLYKKIFTEDNYGNIYVKTQPLTELSQALFGDWSILRNALDNGKYDKDIINLAELEKYFSEYCKVLDADDAAKIQDKFNLKDYFIQKNALDATLPDLDKITQYKPHLDAMLQAIRKYKLFSMYNGRKKMDVPENGIDFSNEFNAIYDKLSEFSILYDRIRNFATKKPYSDEKMKLSFNMPTMLAGWDYNNETANGCFLFIKDGKYFLGVADSKSKNIFDFKKNPHLLDKYSSKDIYYKVKYKQVSGSAKMLPKVVFAGSNEKIFGHLISKRILEIREKKLYTAAAGDRKAVAEWIDFMKSAIAIHPEWNEYFKFKFKNTAEYDNANKFYEDIDKQTYSLEKVEIPTEYIDEMVSQHKLYLFQLYTKDFSDKKKKKGTDNLHTMYWHGVFSDENLKAVTEGTQPIIKLNGEAEMFMRNPSIEFQVTHEHNKPIANKNPLNTKKESVFNYDLIKDKRYTERKFYFHCPITLNFRADKPIKYNEKINRFVENNPDVCIIGIDRGERHLLYYTVINQTGDILEQGSLNKISGSYTNDKGEKVNKETDYHDLLDRKEKGKHVAQQAWETIENIKELKAGYLSQVVYKLTQLMLQYNAVIVLENLNVGFKRGRTKVEKQVYQKFEKAMIDKLNYLVFKDRGYEMNGSYAKGLQLTDKFESFDKIGKQTGCIYYVIPSYTSHIDPKTGFVNLLNAKLRYENITKAQDTIRKFDSISYNAKADYFEFAFDYRSFGVDMARNEWVVCTCGDLRWEYSAKTRETKAYSVTDRLKELFKAHGIDYVGGENLVSHITEVADKHFLSTLLFYLRLVLKMRYTVSGTENENDFILSPVEYAPGKFFDSREATSTEPMNADANGAYHIALKGLMTIRGIEDGKLHNYGKGGENAAWFKFMQNQEYKNNG (SEQ ID NO: 105).

>WP_044910712_(модифицированный) гипотетический белок [Lachnospiraceae bacterium MC2017]

MDYGNGQFERRAPLTKTITLRLKPIGETRETIREQKLLEQDAAFRKLVETVTPIVDDCIRKIADNALCHFGTEYDFSCLGNAISKNDSKAIKKETEKVEKLLAKVLTENLPDGLRKVNDINSAAFIQDTLTSFVQDDADKRVLIQELKGKTVLMQRFLTTRITALTVWLPDRVFENFNIFIENAEKMRILLDSPLNEKIMKFDPDAEQYASLEFYGQCLSQKDIDSYNLIISGIYADDEVKNPGINEIVKEYNQQIRGDKDESPLPKLKKLHKQILMPVEKAFFVRVLSNDSDARSILEKILKDTEMLPSKIIEAMKEADAGDIAVYGSRLHELSHVIYGDHGKLSQIIYDKESKRISELMETLSPKERKESKKRLEGLEEHIRKSTYTFDELNRYAEKNVMAAYIAAVEESCAEIMRKEKDLRTLLSKEDVKIRGNRHNTLIVKNYFNAWTVFRNLIRILRRKSEAEIDSDFYDVLDDSVEVLSLTYKGENLCRSYITKKIGSDLKPEIATYGSALRPNSRWWSPGEKFNVKFHTIVRRDGRLYYFILPKGAKPVELEDMDGDIECLQMRKIPNPTIFLPKLVFKDPEAFFRDNPEADEFVFLSGMKAPVTITRETYEAYRYKLYTVGKLRDGEVSEEEYKRALLQVLTAYKEFLENRMIYADLNFGFKDLEEYKDSSEFIKQVETHNTFMCWAKVSSSQLDDLVKSGNGLLFEIWSERLESYYKYGNEKVLRGYEGVLLSILKDENLVSMRTLLNSRPMLVYRPKESSKPMVVHRDGSRVVDRFDKDGKYIPPEVHDELYRFFNNLLIKEKLGEKARKILDNKKVKVKVLESERVKWSKFYDEQFAVTFSVKKNADCLDTTKDLNAEVMEQYSESNRLILIRNTTDILYYLVLDKNGKVLKQRSLNIINDGARDVDWKERFRQVTKDRNEGYNEWDYSRTSNDLKEVYLNYALKEIAEAVIEYNAILIIEKMSNAFKDKYSFLDDVTFKGFETKLLAKLSDLHFRGIKDGEPCSFTNPLQLCQNDSNKILQDGVIFMVPNSMTRSLDPDTGFIFAINDHNIRTKKAKLNFLSKFDQLKVSSEGCLIMKYSGDSLPTHNTDNRVWNCCCNHPITNYDRETKKVEFIEEPVEELSRVLEENGIETDTELNKLNERENVPGKVVDAIYSLVLNYLRGTVSGVAGQRAVYYSPVTGKKYDISFIQAMNLNRKCDYYRIGSKERGEWTDFVAQLIN (SEQ ID NO: 106).

>WP_027216152_(модифицированный) гипотетический белок [Butyrivibrio fibrisolvens]

MYYESLTKLYPIKKTIRNELVPIGKTLENIKKNNILEADEDRKIAYIRVKAIMDDYHKRLINEALSGFALIDLDKAANLYLSRSKSADDIESFSRFQDKLRKAIAKRLREHENFGKIGNKDIIPLLQKLSENEDDYNALESFKNFYTYFESYNDVRLNLYSDKEKSSTVAYRLINENLPRFLDNIRAYDAVQKAGITSEELSSEAQDGLFLVNTFNNVLIQDGINTYNEDIGKLNVAINLYNQKNASVQGFRKVPKMKVLYKQILSDREESFIDEFESDTELLDSLESHYANLAKYFGSNKVQLLFTALRESKGVNVYVKNDIAKTSFSNVVFGSWSRIDELINGEYDDNNNRKKDEKYYDKRQKELKKNKSYTIEKIITLSTEDVDVIGKYIEKLESDIDDIRFKGKNFYEAVLCGHDRSKKLSKNKGAVEAIKGYLDSVKDFERDLKLINGSGQELEKNLVVYGEQEAVLSELSGIDSLYNMTRNYLTKKPFSTEKIKLNFNKPTFLDGWDYGNEEAYLGFFMIKEGNYFLAVMDANWNKEFRNIPSVDKSDCYKKVIYKQISSPEKSIQNLMVIDGKTVKKNGRKEKEGIHSGENLILEELKNTYLPKKINDIRKRRSYLNGDTFSKKDLTEFIGYYKQRVIEYYNGYSFYFKSDDDYASFKEFQEDVGRQAYQISYVDVPVSFVDDLINSGKLYLFRVYNKDFSEYSKGRLNLHTLYFKMLFDERNLKNVVYKLNGQAEVFYRPSSIKKEELIVHRAGEEIKNKNPKRAAQKPTRRLDYDIVKDRRYSQDKFMLHTSIIMNFGAEENVSFNDIVNGVLRNEDKVNVIGIDRGERNLLYVVVIDPEGKILEQRSLNCITDSNLDIETDYHRLLDEKESDRKIARRDWTTIENIKELKAGYLSQVVHIVAELVLKYNAIICLEDLNFGFKRGRQKVEKQVYQKFEKMLIDKLNYLVMDKSREQLSPEKISGALNALQLTPDFKSFKVLGKQTGIIYYVPAYLTSKIDPMTGFANLFYVKYENVDKAKEFFSKFDSIKYNKDGKNWNTKGYFEFAFDYKKFTDRAYGRVSEWTVCTVGERIIKFKNKEKNNSYDDKVIDLTNSLKELFDSYKVTYESEVDLKDAILAIDDPAFYRDLTRRLQQTLQMRNSSCDGSRDYIISPVKNSKGEFFCSDNNDDTTPNDADANGAFNIARKGLWVLNEIRNSEEGSKINLAMSNAQWLEYAQDNTI (SEQ ID NO: 107).

>WP_016301126_(модифицированный) гипотетический белок [Lachnospiraceae bacterium COE1]

MHENNGKIADNFIGIYPVSKTLRFELKPVGKTQEYIEKHGILDEDLKRAGDYKSVKKIIDAYHKYFIDEALNGIQLDGLKNYYELYEKKRDNNEEKEFQKIQMSLRKQIVKRFSEHPQYKYLFKKELIKNVLPEFTKDNAEEQTLVKSFQEFTTYFEGFHQNRKNMYSDEEKSTAIAYRVVHQNLPKYIDЯМРIFSMILNTDIRSDLTELFNNLKTKMDITIVEEYFAIDGFNKVVNQKGIDVYNTILGAFSTDDNTKIKGLNEYINLYNQKNKAKLPKLKPLFKQILSDRDKISFIPEQFDSDTEVLEAVDMFYNRLLQFVIENEGQITISKLLTNFSAYDLNKIYVKNDTTISAISNDLFDDWSYISKAVRENYDSENVDKNKRAAAYEEKKEKALSKIKMYSIEELNFFVKKYSCNECHIEGYFERRILEILDKMRYAYESCKILHDKGLINNISLCQDRQAISELKDFLDSIKEVQWLLKPLMIGQEQADKEEAFYTELLRIWEELEPITLLYNKVRNYVTKKPYTLEKVKLNFYKSTLLDGWDKNKEKDNLGIILLKDGQYYLGIMNRRNNKIADDAPLAKTDNVYRKMEYKLLTKVSANLPRIFLKDKYNPSEEMLEKYEKGTHLKGENFCIDDCRELIDFFKKGIKQYEDWGQFDFKFSDTESYDDISAFYKEVEHQGYKITFRDIDETYIDSLVNEGKLYLFQIYNKDFSPYSKGTKNLHTLYWEMLFSQQNLQNIVYKLNGNAEIFYRKASINQKDVVVHKADLPIKNKDPQNSKKESMFDYDIIKDKRFTCDKYQFHVPITMNFKALGENHFNRKVNRLIHDAENMHIIGIDRGERNLIYLCMIDMKGNIVKQISLNEIISYDKNKLEHKRNYHQLLKTREDENKSARQSWQTIHTIKELKEGYLSQVIHVITDLMVEYNAIVVLEDLNFGFKQGRQKFERQVYQKFEKMLIDKLNYLVDKSKGMDEDGGLLHAYQLTDEFKSFKQLGKQSGFLYYIPAWNTSKLDPTTGFVNLFYTKYESVEKSKEFINNFTSILYNQEREYFEFLFDYSAFTSKAEGSRLKWTVCSKGERVETYRNPKKNNEWDTQKIDLTFELKKLFNDYSISLLDGDLREQMGKIDKADFYKKFMKLFALIVQMRNSDEREDKLISPVLNKYGAFFETGKNERMPLDADANGAYNIARKGLWIIEKIKNTDVEQLDKVKLTISNKEWLQYAQEHIL (SEQ ID NO: 108).

>WP_035635841_(модифицированный) гипотетический белок [Lachnospiraceae bacterium ND2006]

MSKLEKFTNCYSLSKTLRFKAIPVGKTQENIDNKRLLVEDEKRAEDYKGVKKLLDRYYLSFINDVLHSIKLKNLNNYISLFRKKTRTEKENKELENLEINLRKEIAKAFKGNEGYKSLFKKDIIETILPEFLDDKDEIALVNSFNGFTTAFTGFFDNRENMFSEEAKSTSIAFRCINENLTRYISNMDIFEKVDAIFDKHEVQEIKEKILNSDYDVEDFFEGEFFNFVLTQEGIDVYNAIIGGFVTESGEKIKGLNEYINLYNQKTKQKLPKFKPLYKQVLSDRESLSFYGEGYTSDEEVLEVFRNTLNKNSEIFSSIKKLEKLFKNFDEYSSAGIFVKNGPAISTISKDIFGEWNVIRDKWNAEYDDIHLKKKAVVTEKYEDDRRKSFKKIGSFSLEQLQEYADADLSVVEKLKEIIIQKVDEIYKVYGSSEKLFDADFVLEKSLKKNDAVVAIMKDLLDSVKSFENYIKAFFGEGKETNRDESFYGDFVLAYDILLKVDHIYDAIRNYVTQKPYSKDKFKLYFQNPQFMGGWDKDKETDYRATILRYGSKYYLAIMDKKYAKCLQKIDKDDVNGNYEKINYKLLPGPNKMLPKVFFSKKWMAYYNPSEDIQKIYKNGTFKKGDMFNLNDCHKLIDFFKDSISRYPKWSNAYDFNFSETEKYKDIAGFYREVEEQGYKVSFESASKKEVDKLVEEGKLYMFQIYNKDFSDKSHGTPNLHTMYFKLLFDENNHGQIRLSGGAELFMRRASLKKEELVVHPANSPIANKNPDNPKKTTTLSYDVYKDKRFSEDQYELHIPIAINKCPKNIFKINTEVRVLLKHDDNPYVIGIDRGERNLLYIVVVDGKGNIVEQYSLNEIINNFNGIRIKTDYHSLLDKKEKERFEARQNWTSIENIKELKAGYISQVVHKICELVEKYDAVIALEDLNSGFKNSRVKVEKQVYQKFEKMLIDKLNYMVDKKSNPCATGGALKGYQITNKFESFKSMSTQNGFIFYIPAWLTSKIDPSTGFVNLLKTKYTSIADSKKFISSFDRIMYVPEEDLFEFALDYKNFSRTDADYIKKWKLYSYGNRIRIFRNPKKNNVFDWEEVCLTSAYKELFNKYGINYQQGDIRALLCEQSDKAFYSSFMALMSLMLQMRNSITGRTDVDFLISPVKNSDGIFYDSRNYEAQENAILPKNADANGAYNIARKVLWAIGQFKKAEDEKLDKVKIAISNKEWLEYAQTSVKH (SEQ ID NO: 109).

>WP_015504779_(модифицированный) экзонуклеаза SbcC [Candidatus Methanomethylophilus alvus]

MDAKEFTGQYPLSKTLRFELRPIGRTWDNLEASGYLAEDRHRAECYPRAKELLDDNHRAFLNRVLPQIDMDWHPIAEAFCKVHKNPGNKELAQDYNLQLSKRRKEISAYLQDADGYKGLFAKPALDEAMKIAKENGNESDIEVLEAFNGFSVYFTGYHESRENIYSDEDMVSVAYRITEDNFPRFVSNALIFDKLNESHPDIISEVSGNLGVDDIGKYFDVSNYNNFLSQAGIDDYNHIIGGHTTEDGLIQAFNVVLNLRHQKDPGFEKIQFKQLYKQILSVRTSKSYIPKQFDNSKEMVDCICDYVSKIEKSETVERALKLVRNISSFDLRGIFVNKKNLRILSNKLIGDWDAIETALMHSSSSENDKKSVYDSAEAFTLDDIFSSVKKFSDASAEDIGNRAEDICRVISETAPFINDLRAVDLDSLNDDGYEAAVSKIRESLEPYMDLFHELEIFSVGDEFPKCAAFYSELEEVSEQLIEIIPLFNKARSFCTRKRYSTDKIKVNLKFPTLADGWDLNKERDNKAAILRKDGKYYLAILDMKKDLSSIRTSDEDESSFEKMEYKLLPSPVKMLPKIFVKSKAAKEKYGLTDRMLECYDKGMHKSGSAFDLGFCHELIDYYKRCIAEYPGWDVFDFKFRETSDYGSMKEFNEDVAGAGYYMSLRKIPCSEVYRLLDEKSIYLFQIYNKDYSENAHGNKNMHTMYWEGLFSPQNLESPVFKLSGGAELFFRKSSIPNDAKTVHPKGSVLVPRNDVNGRRIPDSIYRELTRYFNRGDCRISDEAKSYLDKVKTKKADHDIVKDRRFTVDKMMFHVPIAMNFKAISKPNLNKKVIDGIIDDQDLKIIGIDRGERNLIYVTMVDRKGNILYQDSLNILNGYDYRKALDVREYDNKEARRNWTKVEGIRKMKEGYLSLAVSKLADMIIENNAIIVMEDLNHGFKAGRSKIEKQVYQKFESMLINKLGYMVLKDKSIDQSGGALHGYQLANHVTTLASVGKQCGVIFYIPAAFTSKIDPTTGFADLFALSNVKNVASMREFFSKMKSVIYDKAEGKFAFTFDYLDYNVKSECGRTLWTVYTVGERFTYSRVNREYVRKVPTDIIYDALQKAGISVEGDLRDRIAESDGDTLKSIFYAFKYALDMRVENREEDYIQSPVKNASGEFFCSKNAGKSLPQDSDANGAYNIALKGILQLRMLSEQYDPNAESIRLPLITNKAWLTFMQSGMKTWKN (SEQ ID NO: 110).

>WP_044910713_(модифицированный) гипотетический белок [Lachnospiraceae bacterium MC2017]

MGLYDGFVNRYSVSKTLRFELIPQGRTREYIETNGILSDDEERAKDYKTIKRLIDEYHKDYISRCLKNVNISCLEEYYHLYNSSNRDKRHEELDALSDQMRGEIASFLTGNDEYKEQKSRDIIINERIINFASTDEELAAVKRFRKFTSYFTGFFTNRENMYSAEKKSTAIAHRIIDVNLPKYVDNIKAFNTAIEAGVFDIAEFESNFKAITDEHEVSDLLDITKYSRFIRNEDIIIYNTLLGGISMKDEKIQGLNELINLHNQKHPGKKVPLLKVLYKQILGDSQTHSFVDDQFEDDQQVINAVKAVTDTFSETLLGSLKIIINNIGHYDLDRIYIKAGQDITTLSKRALNDWHIITECLESEYDDKFPKNKKSDTYEEMRNRYVKSFKSFSIGRLNSLVTTYTEQACFLENYLGSFGGDTDKNCLTDFTNSLMEVEHLLNSEYPVTNRLITDYESVRILKRLLDSEMEVIHFLKPLLGNGNESDKDLVFYGEFEAEYEKLLPVIKVYNRVRNYLTRKPFSTEKIKLNFNSPTLLCGWSQSKEKEYMGVILRKDGQYYLGIMTPSNKKIFSEAPKPDEDCYEKMVLRYIPHPYQMLPKVFFSKSNIAFFNPSDEILRIKKQESFKKGKSFNRDDCHKFIDFYKDSINRHEEWRKFNFKFSDTDSYEDISRFYKEVENQAFSMSFTKIPTVYIDSLVDEGKLYLFKLHNKDFSEHSKGKPNLHTVYWNALFSEYNLQNTVYQLNGSAEIFFRKASIPENERVIHKKNVPITRKVAELNGKKEVSVFPYDIIKNRRYTVDKFQFHVPLKMNFKADEKKRINDDVIEAIRSNKGIHVIGIDRGERNLLYLSLINEEGRIIEQRSLNIIDSGEGHTQNYRDLLDSREKDREKARENWQEIQEIKDLKTGYLSQAIHTITKWMKEYNAIIVLEDLNDRFTNGRKKVEKQVYQKFEKMLIDKLNYYVDKDEEFDRMGGTHRALQLTEKFESFQKLGRQTGFIFYVPAWNTSKLDPTTGFVDLLYPKYKSVDATKDFIKKFDFIRFNSEKNYFEFGLHYSNFTERAIGCRDEWILCSYGNRIVNFRNAAKNNSWDYKEIDITKQLLDLFEKNGIDVKQENLIDSICEMKDKPFFKSLIANIKLILQIRNSASGTDIDYMISPAMNDRGEFFDTRKGLQQLPLDADANGAYNIAKKGLWIVDQIRNTTGNNVKMAMSNREWMHFAQESRLA (SEQ ID NO: 111).

>KKQ36153_(модифицированный) гипотетический белок US52_C0007G0008 [бактерия кандидатного отдела WS6 GW2011_GWA2_37_6]

MKNVFGGFTNLYSLTKTLRFELKPTSKTQKLMKRNNVIQTDEEIDKLYHDEMKPILDEIHRRFINDALAQKIFISASLDNFLKVVKNYKVESAKKNIKQNQVKLLQKEITIKTLGLRREVVSGFITVSKKWKDKYVGLGIKLKGDGYKVLTEQAVLDILKIEFPNKAKYIDKFRGFWTYFSGFNENRKNYYSEEDKATSIANRIVNENLSRYIDNIIAFEEILQKIPNLKKFKQDLDITSYNYYLNQAGIDKYNKIIGGYIVDKDKKIQGINEKVNLYTQQTKKKLPKLKFLFKQIGSERKGFGIFEIKEGKEWEQLGDLFKLQRTKINSNGREKGLFDSLRTMYREFFDEIKRDSNSQARYSLDKIYFNKASVNTISNSWFTNWNKFAELLNIKEDKKNGEKKIPEQISIEDIKDSLSIIPKENLEELFKLTNREKHDRTRFFGSNAWVTFLNIWQNEIEESFNKLEEKEKDFKKNAAIKFQKNNLVQKNYIKEVCDRMLAIERMAKYHLPKDSNLSREEDFYWIIDNLSEQREIYKYYNAFRNYISKKPYNKSKMKLNFENGNLLGGWSDGQERNKAGVILRNGNKYYLGVLINRGIFRTDKINNEIYRTGSSKWERLILSNLKFQTLAGKGFLGKHGVSYGNMNPEKSVPSLQKFIRENYLKKYPQLTEVSNTKFLSKKDFDAAIKEALKECFTMNFINIAENKLLEAEDKGDLYLFEITNKDFSGKKSGKDNIHTIYWKYLFSESNCKSPIIGLNGGAEIFFREGQKDKLHTKLDKKGKKVFDAKRYSEDKLFFHVSITINYGKPKNIKFRDIINQLITSMNVNIIGIDRGEKHLLYYSVIDSNGIILKQGSLNKIRVGDKEVDFNKKLTERANEMKKARQSWEQIGNIKNFKEGYLSQAIHEIYQLMIKYNAIIVLEDLNTEFKAKRLSKVEKSVYKKFELKLARKLNHLILKDRNTNEIGGVLKAYQLTPTIGGGDVSKFEKAKQWGMMFYVRANYTSTTDPVTGWRKHLYISNFSNNSVIKSFFDPTNRDTGIEIFYSGKYRSWGFRYVQKETGKKWELFATKELERFKYNQTTKLCEKINLYDKFEELFKGIDKSADIYSQLCNVLDFRWKSLVYLWNLLNQIRNVDKNAEGNKNDFIQSPVYPFFDSRKTDGKTEPINGDANGALNIARKGLMLVERIKNNPEKYEQLIRDTEWDAWIQNFNKVN (SEQ ID NO: 112).

>WP_044919442_(модифицированный) гипотетический белок [Lachnospiraceae bacterium MA2020]

MYYESLTKQYPVSKTIRNELIPIGKTLDNIRQNNILESDVKRKQNYEHVKGILDEYHKQLINEALDNCTLPSLKIAAEIYLKNQKEVSDREDFNKTQDLLRKEVVEKLKAHENFTKIGKKDILDLLEKLPSISEDDYNALESFRNFYTYFTSYNKVRENLYSDKEKSSTVAYRLINENFPKFLDNVKSYRFVKTAGILADGLGEEEQDSLFIVETFNKTLTQDGIDTYNSQVGKINSSINLYNQKNQKANGFRKIPKMKMLYKQILSDREESFIDEFQSDEVLIDNVESYGSVLIESLKSSKVSAFFDALRESKGKNVYVKNDLAKTAMSNIVFENWRTFDDLLNQEYDLANENKKKDDKYFEKRQKELKKNKSYSLEHLCNLSEDSCNLIENYIHQISDDIENIIINNETFLRIVINEHDRSRKLAKNRKAVKAIKDFLDSIKVLERELKLINSSGQELEKDLIVYSAHEELLVELKQVDSLYNMTRNYLTKKPFSTEKVKLNFNRSTLLNGWDRNKETDNLGVLLLKDGKYYLGIMNTSANKAFVNPPVAKTEKVFKKVDYKLLPVPNQMLPKVFFAKSNIDFYNPSSEIYSNYKKGTHKKGNMFSLEDCHNLIDFFKESISKHEDWSKFGFKFSDTASYNDISEFYREVEKQGYKLTYTDIDETYINDLIERNELYLFQIYNKDFSMYSKGKLNLHTLYFMMLFDQRNIDDVVYKLNGEAEVFYRPASISEDELIIHKAGEEIKNKNPNRARTKETSTFSYDIVKDKRYSKDKFTLHIPITMNFGVDEVKRFNDAVNSAIRIDENVNVIGIDRGERNLLYVVVIDSKGNILEQISLNSIINKEYDIETDYHALLDEREGGRDKARKDWNTVENIRDLKAGYLSQVVNVVAKLVLKYNAIICLEDLNFGFKRGRQKVEKQVYQKFEKMLIDKLNYLVIDKSREQTSPKELGGALNALQLTSKFKSFKELGKQSGVIYYVPAYLTSKIDPTTGFANLFYMKCENVEKSKRFFDGFDFIRFNALENVFEFGFDYRSFTQRACGINSKWTVCTNGERIIKYRNPDKNNMFDEKVVVVTDEMKNLFEQYKIPYEDGRNVKDMIISNEEAEFYRRLYRLLQQTLQMRNSTSDGTRDYIISPVKNKREAYFNSELSDGSVPKDADANGAYNIARKGLWVLEQIRQKSEGEKINLAMTNAEWLEY AQTHLL (SEQ ID NO: 113).

>WP_035798880_(модифицированный) гипотетический белок [Butyrivibrio sp. NC3005]

MYYQNLTKKYPVSKTIRNELIPIGKTLENIRKNNILESDVKRKQDYEHVKGIMDEYHKQLINEALDNYMLPSLNQAAEIYLKKHVDVEDREEFKKTQDLLRREVTGRLKEHENYTKIGKKDILDLLEKLPSISEEDYNALESFRNFYTYFTSYNKVRENLYSDEEKSSTVAYRLINENLPKFLDNIKSYAFVKAAGVLADCIEEEEQDALFMVETFNMTLTQEGIDMYNYQIGKVNSAINLYNQKNHKVEEFKKIPKMKVLYKQILSDREEVFIGEFKDDETLLSSIGAYGNVLMTYLKSEKINIFFDALRESEGKNVYVKNDLSKTTMSNIVFGSWSAFDELLNQEYDLANENKKKDDKYFEKRQKELKKNKSYTLEQMSNLSKEDISPIENYIERISEDIEKICIYNGEFEKIVVNEHDSSRKLSKNIKAVKVIKDYLDSIKELEHDIKLINGSGQELEKNLVVYVGQEEALEQLRPVDSLYNLTRNYLTKKPFSTEKVKLNFNKSTLLNGWDKNKETDNLGILFFKDGKYYLGIMNTTANKAFVNPPAAKTENVFKKVDYKLLPGSNKMLPKVFFAKSNIGYYNPSTELYSNYKKGTHKKGPSFSIDDCHNLIDFFKESIKKHEDWSKFGFEFSDTADYRDISEFYREVEKQGYKLTFTDIDESYINDLIEKNELYLFQIYNKDFSEYSKGKLNLHTLYFMMLFDQRNLDNVVYKLNGEAEVFYRPASIAENELVIHKAGEGIKNKNPNRAKVKETSTFSYDIVKDKRYSKYKFTLHIPITMNFGVDEVRRFNDVINNALRTDDNVNVIGIDRGERNLLYVVVINSEGKILEQISLNSIINKEYDIETNYHALLDEREDDRNKARKDWNTIENIKELKTGYLSQVVNVVAKLVLKYNAIICLEDLNFGFKRGRQKVEKQVYQKFEKMLIEKLNYLVIDKSREQVSPEKMGGALNALQLTSKFKSFAELGKQSGIIYYVPAYLTSKIDPTTGFVNLFYIKYENIEKAKQFFDGFDFIRFNKKDDMFEFSFDYKSFTQKACGIRSKWIVYTNGERIIKYPNPEKNNLFDEKVINVTDEIKGLFKQYRIPYENGEDIKEIIISKAEADFYKRLFRLLHQTLQMRNSTSDGTRDYIISPVKNDRGEFFCSEFSEGTMPKDADANGAYNIARKGLWVLEQIRQKDEGEKVNLSMTNAEWLKYAQLHLL (SEQ ID NO: 114).

>WP_027109509_(модифицированный) гипотетический белок [Lachnospiraceae bacterium NC2008]

MENYYDSLTRQYPVTKTIRQELKPVGKTLENIKNAEIIEADKQKKEAYVKVKELMDEFHKSIIEKSLVGIKLDGLSEFEKLYKIKTKTDEDKNRISELFYYMRKQIADALKNSRDYGYVDNKDLIEKILPERVKDENSLNALSCFKGFTTYFTDYYKNRKNIYSDEEKHSTVGYRCINENLLIFMSNIEVYQIYKKANIKNDNYDEETLDKTFMIESFNECLTQSGVEAYNSVVASIKTATNLYIQKNNKEENFVRVPKMKVLFKQILSDRTSLFDGLIIESDDELLDKLCSFSAEVDKFLPINIDRYIKTLMDSNNGTGIYVKNDSSLTTLSNYLTDSWSSIRNAFNENYDAKYTGKVNDKYEEKREKAYKSNDSFELNYIQNLLGINVIDKYIERINFDIKEICEAYKEMTKNCFEDHDKTKKLQKNIKAVASIKSYLDSLKNIERDIKLLNGTGLESRNEFFYGEQSTVLEEITKVDELYNITRNYLTKKPFSTEKMKLNFNNPQLLGGWDVNKERDCYGVILIKDNNYYLGIMDKSANKSFLNIKESKNENAYKKVNCKLLPGPNKMFPKVFFAKSNIDYYDPTHEIKKLYDKGTFKKGNSFNLEDCHKLIDFYKESIKKNDDWKNFNFNFSDTKDYEDISGFFREVEAQNYKITYTNVSCDFIESLVDEGKLYLFQIYNKDFSEYATGNLNLHTLYLKMLFDERNLKDLCIKMNGEAEVFYRPASILDEDKVVHKANQKITNKNTNSKKKESIFSYDIVKDKRYTVDKFFIHLPITLNYKEQNVSRFNDYIREILKKSKNIRVIGIDRGERNLLYVVVCDSDGSILYQRSINEIVSGSHKTDYHKLLDNKEKERLSSRRDWKTIENIKDLKAGYMSQVVNEIYNLILKYNAIVVLEDLNIGFKNGRKKVEKQVYQNFEKALIDKLNYLCIDKTREQLSPSSPGGVLNAYQLTAKFESFEKIGKQTGCIFYVPAYLTSQIDPTTGFVNLFYQKDTSKQGLQLFFRKFKKINFDKVASNFEFVFDYNDFTNKAEGTKTNWTISTQGTRIAKYRSDDANGKWISRTVHPTDIIKEALNREKINYNDGHDLIDEIVSIEKSAVLKEIYYGFKLTLQLRNSTLANEEEQEDYIISPVKNSSGNYFDSRITSKELPCDADANGAYNIARKGLWALEQIRNSENVSKVKLAISNKEWFEYTQNNIPSL (SEQ ID NO: 1581).

>WP_029202018_(модифицированный) гипотетический белок [Oribacterium sp. NK2B42]

MYYDGLTKQYALSKTIRNELVPIGKTLDNIKKNRILEADIKRKSDYEHVKKLMDMYHKKIINEALDNFKLSVLEDAADIYFNKQNDERDIDAFLKIQDKLRKEIVEQLKGHTDYSKVGNKDFLGLLKAASTEEDRILIESFDNFYTYFTSYNKVRSNLYSAEDKSSTVAYRLINENLPKFFDNIKAYRTVRNAGVISGDMSIVEQDELFEVDTFNHTLTQYGIDTYNHMIGQLNSAINLYNQKMHGAGSFKKLPKMKELYKQLLTEREEEFIEEYTDDEVLITSVHNYVSYLIDYLNSDKVESFFDTLRKSDGKEVFIKNDVSKTTMSNILFDNWSTIDDLINHEYDSAPENVKKTKDDKYFEKRQKDLKKNKSYSLSKIAALCRDTTILEKYIRRLVDDIEKIYTSNNVFSDIVLSKHDRSKKLSKNTNAVQAIKNMLDSIKDFEHDVMLINGSGQEIKKNLNVYSEQEALAGILRQVDHIYNLTRNYLTKKPFSTEKIKLNFNRPTFLDGWDKNKEEANLGILLIKDNRYYLGIMNTSSNKAFVNPPKAISNDIYKKVDYKLLPGPNKMLPKVFFATKNIAYYAPSEELLSKYRKGTHKKGDSFSIDDCRNLIDFFKSSINKNTDWSTFGFNFSDTNSYNDISDFYREVEKQGYKLSFTDIDACYIKDLVDNNELYLFQIYNKDFSPYSKGKLNLHTLYFKMLFDQRNLDNVVYKLNGEAEVFYRPASIESDEQIIHKSGQNIKNKNQKRSNCKKTSTFDYDIVKDRRYCKDKFMLHLPITVNFGTNESGKFNELVNNAIRADKDVNVIGIDRGERNLLYVVVVDPCGKIIEQISLNTIVDKEYDIETDYHQLLDEKEGSRDKARKDWNTIENIKELKEGYLSQVVNIIAKLVLKYDAIICLEDLNFGFKRGRQKVEKQVYQKFEKMLIDKMNYLVLDKSRKQESPQKPGGALNALQLTSAFKSFKELGKQTGIIYYVPAYLTSKIDPTTGFANLFYIKYESVDKARDFFSKFDFIRYNQMDNYFEFGFDYKSFTERASGCKSKWIACTNGERIVKYRNSDKNNSFDDKTVILTDEYRSLFDKYLQNYIDEDDLKDQILQIDSADFYKNLIKLFQLTLQMRNSSSDGKRDYIISPVKNYREEFFCSEFSDDTFPRDADANGAYNIARKGLWVIKQIRETKSGTKINLAMSNSEWLEYAQCNLL (SEQ ID NO: 115).

>WP_028248456_(модифицированный) гипотетический белок [Pseudobutyrivibrio ruminis]

MYYQNLTKMYPISKTLRNELIPVGKTLENIRKNGILEADIQRKADYEHVKKLMDNYHKQLINEALQGVHLSDLSDAYDLY

FNLSKEKNSVDAFSKCQDKLRKEIVSLLKNHENFPKIGNKEIIKLLQSLYDNDTDYKALDSFSNFYTYFSSYNEVRKNLYSDEEKSSTVAYRLINENLPKFLDNIKAYAIAKKAGVRAEGLSEEDQDCLFIIETFERTLTQDGIDNYNAAIGKLNTAINLFNQQNKKQEGFRKVPQMKCLYKQILSDREEAFIDEFSDDEDLITNIESFAENMNVFLNSEIITDFKIALVESDGSLVYIKNDVSKTSFSNIVFGSWNAIDEKLSDEYDLANSKKKKDEKYYEKRQKELKKNKSYDLETIIGLFDDNSDVIGKYIEKLESDITAIAEAKNDFDEIVLRKHDKNKSLRKNTNAVEAIKSYLDTVKDFERDIKLINGSGQEVEKNLVVYAEQENILAEIKNVDSLYNMSRNYLTQKPFSTEKFKLNFNRATLLNGWDKNKETDNLGILFEKDGMYYLGIMNTKANKIFVNIPKATSNDVYHKVNYKLLPGPNKMLPKVFFAQSNLDYYKPSEELLAKYKAGTHKKGDNFSLEDCHALIDFFKASIEKHPDWSSFGFEFSETCTYEDLSGFYREVEKQGYKITYTDVDADYITSLVERDELYLFQIYNKDFSPYSKGNLNLHTIYLQMLFDQRNLNNVVYKLNGEAEVFYRPASINDEEVIIHKAGEEIKNKNSKRAVDKPTSKFGYDIIKDRRYSKDKFMLHIPVTMNFGVDETRRFNDVVNDALRNDEKVRVIGIDRGERNLLYVVVVDTDGTILEQISLNSIINNEYSIETDYHKLLDEKEGDRDRARKNWTTIENIKELKEGYLSQVVNVIAKLVLKYNAIICLEDLNFGFKRGRQKVEKQVYQKFEKMLIDKLNYLVIDKSRKQDKPEEFGGALNALQLTSKFTSFKDMGKQTGIIYYVPAYLTSKIDPTTGFANLFYVKYENVEKAKEFFSRFDSISYNNESGYFEFAFDYKKFTDRACGARSQWTVCTYGERIIKFRNTEKNNSFDDKTIVLSEEFKELFSIYGISYEDGAELKNKIMSVDEADFFRSLTRLFQQTMQMRNSSNDVTRDYIISPIMNDRGEFFNSEACDASKPKDADANGAFNIARKGLWVLEQIRNTPSGDKLNLAMSNAEWLEYAQRNQI (SEQ ID NO: 116).

>WP_028830240_(модифицированный) гипотетический белок [Proteocatella sphenisci]

MENFKNLYPINKTLRFELRPYGKTLENFKKSGLLEKDAFKANSRRSMQAIIDEKFKETIEERLKYTEFSECDLGNMTSKDKKITDKAATNLKKQVILSFDDEIFNNYLKPDKNIDALFKNDPSNPVISTFKGFTTYFVNFFEIRKHIFKGESSGSMAYRIIDENLTTYLNNIEKIKKLPEELKSQLEGIDQIDKLNNYNEFITQSGITHYNEIIGGISKSENVKIQGINEGINLYCQKNKVKLPRLTPLYKMILSDRVSNSFVLDTIENDTELIEMISDLINKTEISQDVIMSDIQNIFIKYKQLGNLPGISYSSIVNAICSDYDNNFGDGKRKKSYENDRKKHLETNVYSINYISELLTDTDVSSNIKMRYKELEQNYQVCKENFNATNWMNIKNIKQSEKTNLIKDLLDILKSIQRFYDLFDIVDEDKNPSAEFYTWLSKNAEKLDFEFNSVYNKSRNYLTRKQYSDKKIKLNFDSPTLAKGWDANKEIDNSTIIMRKFNNDRGDYDYFLGIWNKSTPANEKIIPLEDNGLFEKMQYKLYPDPSKMLPKQFLSKIWKAKHPTTPEFDKKYKEGRHKKGPDFEKEFLHELIDCFKHGLVNHDEKYQDVFGFNLRNTEDYNSYTEFLEDVERCNYNLSFNKIADTSNLINDGKLYVFQIWSKDFSIDSKGTKNLNTIYFESLFSEENMIEKMFKLSGEAEIFYRPASLNYCEDIIKKGHHHAELKDKFDYPIIKDKRYSQDKFFFHVPMVINYKSEKLNSKSLNNRTNENLGQFTHIIGIDRGERHLIYLTVVDVSTGEIVEQKHLDEIINTDTKGVEHKTHYLNKLEEKSKTRDNERKSWEAIETIKELKEGYISHVINEIQKLQEKYNALIVMENLNYGFKNSRIKVEKQVYQKFETALIKKFNYIIDKKDPETYIHGYQLTNPITTLDKIGNQSGIVLYIPAWNTSKIDPVTGFVNLLYADDLKYKNQEQAKSFIQKIDNIYFENGEFKFDIDFSKWNNRYSISKTKWTLTSYGTRIQTFRNPQKNNKWDSAEYDLTEEFKLILNIDGTLKSQDVETYKKFMSLFKLMLQLRNSVTGTDIDYMISPVTDKTGTHFDSRENIKNLPADADANGAYNIARKGIMAIENIMNGISDPLKISNEDYLKYIQNQQE (SEQ ID NO: 117).

Заявители получили векторные конструкции, как показано на фигурах 40A-L (например, PACYC184 fnCpf1 (PY001)) и фигурах 41A-E (например, PaCpf1).

Анализ с пробой на PAM для обнаружения предположительных последовательностей PAM для FnCpf1 (фигура 42): Заявители выделили локус Cpf1 из Francisella novicida (Fn) (фигура 43) и трансформировали его в E.coli. Локус экспрессировался в E.coli из pACYC184, аналогично эксперименту, описанному в Sapranauskas et al.

E.coli с pACYC-локус FnCpf1 = Cpf1+

E.coli с пустым pACYC184 = контроль

Заявители трансформировали Cpf1+ и контрольных E.coli с помощью плазмид с библиотекой PAM. Получали две библиотеки PAM (фигура 44). Библиотеки PAM представляли собой плазмиды pUC19, содержащие последовательность протоспейсера длиной 31 п. о., которая соответствовала спейсеру 1 в локусе FnCpf1. Библиотека левых PAM имела вырожденный PAM длиной 8 п. о. на 5'-конце протоспейсера. Библиотека правых PAM имела вырожденный PAM длиной 7 п. о. на 3'-конце протоспейсера. Заявители высевали Cpf1+ и контрольные E.coli и собирали все колонии через ~12 ч. Каждая колония представляла собой объект трансформации с помощью PAM-pUC19, в котором не произошло разрезание/интерференция под действием Cpf1. Эти плазмиды PAM-pUC19 не несли распознаваемый PAM. Заявители определили с помощью секвенирования колоний, какие плазмиды PAM-pUC19 более не присутствовали в сравнении с контролем, и эти плазмиды идентифицировали как содержащие распознаваемый PAM.

Клонирование pY0001: pY0001 представляет собой остов pACYC184 (от NEB) с частичным локусом FnCpf1. pY0001 содержит эндогенный локус FnCpf1 из 255 п. о. в направлении 3' от последовательности ацетилтрансферазы до 4-ой спейсерной последовательности. Только спейсеры 1-3 являются потенциально активными, поскольку спейсер 4 больше не фланкирован прямыми повторами.

Заявители подвергали ПЦР-амплификации локус FnCpf1 3 кусками и клонировали в pACYC184, разрезанный с помощью Xba1 и Hind3, с применением сборки по Гибсону.

Компьютерный анализ для скрининга PAM Cpf1

После секвенирования подвергнутой скринингу ДНК заявители экстрагировали участки, соответствующие либо левому PAM, либо правому PAM. Для каждого образца число PAM, присутствующих в секвенированной библиотеке, сравнивали с числом экстрагированных PAM в данной библиотеке (4^8 для левой библиотеки, 4^7 для правой).

Для левой библиотеки показано истощение PAM. Для количественной оценки данного истощения заявители рассчитывали показатель обогащения. Для обоих состояний (контрольный pACYC или pACYC, содержащий FnCpf1) заявители рассчитывали показатель для каждого PAM в библиотеке как:

показатель

Заявители определили, что нанесение распределения на график показало небольшое обогащение для контрольного образца и обогащение для обоих биологических повторов. Заявители собирали все PAM с показателем, превышающим 8, и наносили на график распределения частот для выявления PAM 5' YYN (фигуры 45A-E). Заявители подтвердили, что PAM представляет собой TTN, где N представляет собой A/C/G или T.

Заявители проводили секвенирование РНК локуса Cpf1Francisella tolerances, и анализ RNAseq показал, что локус CRISPR активно экспрессировался (фигура 46). Дополнительное описание анализа RNAseq локуса FnCpf1 показано на фигуре 86. В дополнение к генам Cpf1 и Cas на высоком уровне транскрибировались два малых некодирующих транскрипта, которые заявители определили как предполагаемые tracrRNA. Также экспрессируется массив CRISPR. Как предполагаемые tracrRNA, так и массив CRISPR транскрибируются в том же направлении, что и гены Cpf1 и Cas. В данном случае все РНК-транскрипты, идентифицированные с помощью эксперимента RNAseq, картированы относительно локуса. Путем увеличения масштаба массива CRISPR c Cpf1 заявители идентифицировали много различных коротких транскриптов. На данном графике все идентифицированные РНК-транскрипты картированы относительно локуса Cpf1 (фигура 47). После отбора транскриптов, которые имели длину менее 85 нуклеотидов, заявители идентифицировали две предполагаемых tracrRNA (фигура 48). На фигуре 49 показано увеличение масштаба общего вида предполагаемой tracrRNA 1 и массива CRISPR. На фигуре 50 показано увеличение масштаба общего вида предполагаемой tracrRNA 2. Предполагаемые последовательности crRNA указаны на фигуре 51.

Заявители проводили тестирование на предмет функционирования в клетках млекопитающих с применением продуктов ПЦР U6: спейсера (DR-спейсер-DR) (в определенных аспектах спейсеры могут обозначаться как crRNA или направляющая РНК или аналогичным термином, описываемым в настоящей заявке) и tracr для других идентифицированных локусов Cpf1.

Пример 4. Дополнительные эксперименты по подтверждению FnCpf1

Заявители подтвердили, что прогнозируемый PAM FnCpf1 является TTN in vivo, путем применения анализа, изложенного на фигуре 52. Заявители трансформировали клетки, несущие локус FnCpf1, и контрольные клетки, с помощью pUC19, кодирующего эндогенный спейсер 1 с PAM 5' TTN (фигура 53). Вкратце, в in vivo анализе подтверждения PAM 50 мкл компетентных E.coli с локусом FnCpf1 (тестируемый штамм) и с пустым pACYC184 (контрольный штамм) трансформировали с помощью 10 нг плазмид, несущих протоспейсер 1. Перед последовательностью протоспейсера располагались прогнозируемые последовательности PAM (TTC, TTG, TTA и TTT). После трансформации клетки разбавляли 1:2000 и высевали на чашки с LB-агаром, содержащие ампициллин и хлорамфеникол. Только клетки с интактной плазмидой с протоспейсером могли формировать колонии. Чашки с колониями фотографировали через ~14 ч после посева и колонии подсчитывали с применением программного обеспечения ImageJ.

Заявители осуществляли анализы расщепления в клеточных лизатах для дополнительного подтверждения расщепления под действием FnCpf1. Протокол анализа расщепления в клеточных лизатах был следующим.

In vitro реакция расщепления Буфер для расщепления: 100 мМ HEPES, pH 7,5, 500 мМ KCl, 25 мМ MgCl2, 5 мМ DTT, 25% глицерин. Исходный раствор можно готовить без DTT.

Получение клеточных лизатов

Буфер для лизиса: 20 мМ Hepes, pH 7,5, 100 мМ хлорид калия [KCl], 5 мМ хлорид магния [MgCl₂], 1 мМ дитиотреитола [DTT], 5% глицерин, 0,1% Triton X-100, дополненный 10x смесью ингибиторов протеаз от Roche. Можно хранить концентрированный исходный раствор буфера для лизиса без ингибитора протеаз от Roche и DTT. Хранить при -20°C.

Трансфицировать клетки HEK с помощью рекомендованного количества ДНК с Lipofectamine 2000

- 500 нг на лунку в 24-луночном планшете

- 2000 нг на лунку в 6-луночном планшете

Собрать клетки с помощью буфера для лизиса через 24-72 часов после трансфекции

- Аспирировать среду

- Аккуратно промыть с помощью DPBS

- Аспирировать DPBS

- Применить 50 мкл буфера для лизиса на лунку в 24-луночном планшете или 250 мкл на лунку в 6-луночном планшете

- Оставить на льду на 5 мин.

- Перенести в пробирку Эппендорф

- Поместить на лед на 15 минут

- Обработать ультразвуком высокой мощности, с 50% коэффициентом заполнения в течение 5-10 мин.

- Осадить центрифугированием на холоде при максимальной скорости в течение 20 мин.

- Перенести супернатант в новую пробирку

- Разделить на аликвоты в пробирки для ПЦР в стрипах, 10 мкл на стрип и заморозить при -80°C

In vitro транскрипция направляющей РНК

Протокол для набора: Доступ к информации можно получить на веб-сайте www.neb.com/products/e2030-hiscribe-t7-in-vitro-transcription-kit

Взять 100 мМ исходного раствора олигонуклеотидов

Выполнить отжиг в реакционной смеси объемом 10 мкл:

1 мкл "прямой" нити T7 = "XRP2649"

1 мкл "обратного" олигонуклеотида T7

1 мкл буфера TaqB

7 мкл воды

Запустить ПЦР-программу PNK без стадии инкубации при 37°C (изначально нагреть до 95°C в течение 5 мин. и осуществить медленное охлаждение до 4°C, но не такое медленное как отжиг в анализе с использование нуклеазы Surveyor). Олигонуклеотиды, подверженные отжигу на нанокаплях: нормализовать водой до 500 нг/мкл (обычно 1000-2000 нг/мкл в случае олигонуклеотидов длиной 120 нуклеотидов)

Для транскрипции T7 следуйте инструкциям из набора (но сократите размер в 4x)

Реакционная смесь объемом 10 мкл

1 мкл 10x буфер

1 мкл транскриптазы T7

0,5 мкл rNTP

0,5 мкл смеси HMW

1 мкл ДНК-матрицы (отожженной)

6 мкл воды

Провести транскрипцию при 42°C (предпочтительно в термоциклере) в течение по меньшей мере 2-3 часов, оставить протекать на протяжение ночи. Выход должен составлять около 1000-2000 нг/мкл РНК. Образование белого осадка является нормальным.

Подготовка ДНК

Для pUC19 линеаризовать с помощью HindIII и провести очистку на колонке

→ для реакции потребуется 300-400 нг плазмиды, поэтому сократите количество, при необходимости

Для gDNA амплифицировать ДНК клеток дикого типа с помощью ПЦР

→ осуществить несколько ПЦР-реакций, объединить и провести очистку на колонке

→ концентрировать продукт до примерно 100-200 нг/мкл

Хранить при -20°C

Реакционная смесь объемом 20 мкл

10 мкл лизата (который был ранее разделен на аликвоты)

2 мкл буфера для расщепления (буфер 3 от NEB)

1 мкл РНК (непосредственно из предыдущей стадии; очистка не требуется)

1 мкл ДНК (из предыдущей стадии)

6 мкл воды

Инкубировать при 37°C в течение 1-2 часа (30 мин. достаточно)

Очистить реакционную смесь на колонке

Пропустить через 2% E-гель

В анализе расщепления в клеточных лизатах применяли tracrRNA в положениях 1, 2, 3, 4 и 5, как указано на фигуре 54. Анализ расщепления в клеточных лизатах (1) (фигура 55). Представлен гель, на котором показан ПЦР-фрагмент с PAM TTa и последовательностью протоспейсера 1 после инкубации в клеточном лизате. Анализ расщепления в клеточных лизатах (2) (фигура 56). Представлен гель, на котором показан pUC-спейсер 1 с различными PAM после инкубации в клеточном лизате. Анализ расщепления в клеточных лизатах (3) (фигура 57). Представлен гель, на котором показаны результаты расщепления с помощью BasI после инкубации в клеточном лизате. Анализ расщепления в клеточных лизатах (4) (фигура 58). Представлен гель, на котором показаны результаты расщепления трех предполагаемых последовательностей crRNA.

Заявители также определяли эффект длины спейсера на эффективность расщепления. Заявители тестировали спейсеры различной длины относительно части целевой ДНК, содержащей целевой сайт: 5'-TTAgagaagtcatttaataaggccactgttaaaa-3' (SEQ ID NO: 119). В случае данного эксперимента плазмиду pUC19, содержащую спейсер (5'-TTcgagaagucauuuaauaaggccacuguuaaaa-3' (SEQ ID NO: 120)), обрабатывали при следующих условиях:

2 мкл клеточный лизат, содержащий Cpf1

2 мкл ДНК pUC19 со спейсером (300 нг)

1 мкл crRNA (500 нг)

2 мкл NEBuffer 3

2 мкл 40 мМ DTT

0,3 мкл BsaI

10,7 мкл ddH2O

Инкубировали при 37°C в течение 30 минут, с последующей обработкой с помощью РНКазы в течение 5 минут. Затем реакционную смесь очищали с применением набора для очистки ПЦР-продуктов от Qiagen и анализировали на 2% E-геле EX от Invitrogen. На фигуре 59 представлен гель, на котором показано, что crRNA 1-7 опосредовали успешное расщепление целевой ДНК in vitro под действием FnCpf1, тогда как crRNA 8-13 не способствовали расщеплению целевой ДНК.

Заявители нашли минимальный локус Fn Cpf1 (фигура 60) и также установили минимальную направляющую для Cpf1 (фигура 61). Заявители также провели расщепление ПЦР-ампликона локуса Emx1 человека (фигура 81). Ампликон EMX обрабатывали при следующих условиях:

2 мкл клеточный лизат, содержащий Cpf1

3 мкл ДНК pUC19 со спейсером (300 нг)

1 мкл crRNA (500 нг)

2 мкл NEBuffer 3

2 мкл 40 мМ DTT

0,3 мкл BsaI

9,7 мкл ddH₂O

Заявители дополнительно изучали эффект усечения 5' DR на активность расщепления (фигура 82A-B). В случае данного эксперимента плазмиду pUC19, содержащую спейсер (5'-TTcgagaagucauuuaauaaggccacuguuaaaa-3' (SEQ ID NO: 121)), обрабатывали при следующих условиях:

2 мкл клеточный лизат, содержащий Cpf1

2 мкл ДНК pUC19 со спейсером (300 нг)

1 мкл crRNA (500 нг)

2 мкл NEBuffer 3

2 мкл 40 мМ DTT

0,3 мкл BsaI

10,7 мкл ddH2O

Инкубировали при 37°C в течение 30 минут, с последующей обработкой с помощью РНКазы в течение 5 минут. Затем реакционную смесь очищали с применением набора для очистки ПЦР-продуктов от Qiagen и анализировали на 2% E-геле EX от Invitrogen. Заявители определили, что в crDNA deltaDR5 разрушалась "петля-на-стебле" на 5'-конце, и это показывает, что "петля-на-стебле" на 5'-конце необходима для активности расщепления (фигура 82B).

Заявители исследовали эффект несовпадения crRNA-ДНК-мишень на эффективность расщепления (фигура 83). В случае данного эксперимента плазмиду pUC19, содержащую спейсер (5'-TTcgagaagucauuuaauaaggccacuguuaaaa-3' (SEQ ID NO: 122)), обрабатывали при следующих условиях:

2 мкл клеточный лизат, содержащий Cpf1

2 мкл ДНК pUC19 со спейсером (300 нг)

1 мкл crRNA (500 нг)

2 мкл NEBuffer 3

2 мкл 40 мМ DTT

0,3 мкл BsaI

10,7 мкл ddH2O

Заявители изучили домен RuvC FnCpf1p и идентифицировали аминокислотные мутации, которые могут превращать эффекторный белок FnCpf1 в никазу, в результате чего эффекторный белок характеризуется значительно сниженной нуклеазной активностью и только одна нить ДНК подвергается однонитевому разрыву и/или расщеплению. Аминокислотные положения в домене RuvC FnCpf1p включают без ограничения D917A, E1006A, E1028A, D1227A, D1255A, N1257A, D917A, E1006A, E1028A, D1227A, D1255A и N1257A. Аминокислотные положения в AsCpf1 соответствуют AsD908A, AsE993A, AsD1263A. Аминокислотные положения в LbCpf1 соответствуют LbD832A.

Заявители также идентифицировали предполагаемый второй нуклеазный домен, который наиболее похож на суперсемейство нуклеаз PD-(D/E)XK и HincII-подобную эндонуклеазу. Точечные мутации, которые необходимо получить в данном предполагаемом нуклеазном домене для значительного снижения нуклеазной активности, включают без ограничения N580A, N584A, T587A, W609A, D610A, K613A, E614A, D616A, K624A, D625A, K627A и Y629A.

Заявители осуществили эксперименты по расщеплению плазмид с помощью FnCpf1p, и секвенирование указанных плазмид обеспечит информацию относительно того, какой из сайтов разреза является "липким", а какой "тупым". Заявители установят дополнительные подробности о различных доменах FnCpf1p на основании кристаллической структуры данного белка в соответствующем комплексе. Для оптимизации компонентов локуса FnCpf1 в отношении активности в клетках человека заявители проведут испытания crRNA с различной структурой и проведут испытания в отношении большего числа мишеней, чем описано в данном документе.

Заявители проводили расщепление ДНК с применением очищенного Cpf1 Francisella и Prevotella (фигура 84). В случае данного эксперимента плазмиду pUC19, содержащую спейсер (5'-TTcgagaagucauuuaauaaggccacuguuaaaa-3' (SEQ ID NO: 123)), обрабатывали при следующих условиях:

2 мкл очищенного раствора белка

2 мкл ДНК pUC19 со спейсером (300 нг)

1 мкл crRNA (500 нг)

2 мкл NEBuffer 3

2 мкл 40 мМ DTT

0,3 мкл BsaI

10,7 мкл ddH2O

Инкубировали при 37°C в течение 30 минут, с последующей обработкой с помощью РНКазы в течение 5 минут. Затем реакционную смесь очищали с применением набора для очистки ПЦР-продуктов от Qiagen и анализировали на 2% E-геле EX от Invitrogen. Анализ геля, показанного на фигуре 84, показывает, что PaCpf1 может работать с crRNA для FnCpf1, хотя активность не настолько высока, как в случае FnCpf1. Заявители сделали вывод, что это вполне ожидаемо, учитывая то, что последовательности "петли-на-стебле" у PaCpf1 и FnCpf1 являются почти идентичными (отличие только в 1 основание) (см. фигуры 85A-B). Это дополнительно проиллюстрировано в зрелых последовательностях crRNA для FnCpf1 и PaCpf1, показанных на фигурах 87A-B. В предпочтительных вариантах осуществления настоящего изобретения в случае биохимического или in vitro расщепления для эффективного функционирования системы CRISPR на основе Cpf1p может не требоваться tracr-последовательность. Включение "петли-на-стебле" или дополнительно оптимизированной структуры "петля-на-стебле" является важным для активности расщепления.

Расщепление ДНК с помощью FnCpf1p Francisella novicida, кодон-оптимизированной для человека.

Заявители также показали, что FnCpf1p расщепляет ДНК в клетках человека. 400 нг FnCpf1p, кодон-оптимизированной для человека, и 100 нг U6::crRNA трансфицировали в лунке с клетками HEK293T (~240000 клеток) в 24-луночных планшетах. Использовали пять crRNA, содержащих спейсерные последовательности длиной 20-24 нуклеотидов на основе 5'-ctgatggtccatgtctgttactcg-3' (SEQ ID NO: 124) (т. е. первые 20, 21, 22, 23 или все 24 нуклеотида). crRNA дополнительно содержали 20 нуклеотидов последовательности 5’-повтора из PaCpf1 на 5'-конце спейсера. Заявители ранее определили, что последовательность повтора из PaCpf1 может распознаваться FnCpf1.

ДНК собирали через ~60 ч. и анализировали посредством анализа с помощью нуклеазы SURVEYOR. Праймеры SURVEYOR для DNMT1 представляли собой 5'-ctgggactcaggcgggtcac-3' (SEQ ID NO: 125) (прямой) и 5'-cctcacacaacagcttcatgtcagc-3' (SEQ ID NO: 126) (обратный). Фрагменты расщепленной ДНК, совпадающие с ожидаемыми продуктами расщепления длиной ~345 п. о. и ~261 п. о., наблюдали в случае всех пяти crRNA (длина спейсеров составляла 20-24 нуклеотидов) (фигура 88).

Пример 5. Дополнительные эксперименты по подтверждению PaCpf1

Компьютерный скрининг PAM проводили для Cpf1 Prevotella albensis (PaCpf1) аналогично скринингу, проводимому для FnCpf1, как подробно описано в примере 3. После секвенирования подвергнутой скринингу ДНК участки, соответствующие либо левому PAM, либо правому PAM, экстрагировали. Для каждого образца число PAM, присутствующих в секвенированной библиотеке, сравнивали с числом экстрагированных PAM в данной библиотеке (4^7). Для левой библиотеки показано очень слабое истощение PAM. Для количественной оценки данного истощения рассчитывали показатель обогащения. Для обоих состояний (контрольный pACYC или pACYC, содержащий PaCpf1) показатель рассчитывали для каждого PAM в библиотеке как

показатель

Нанесение распределения на график показывает небольшое обогащение для контрольного образца и обогащение для обоих биологических повторов. Собирали все PAM с показателем, превышающим 4,5, и распределения частот наносили на график, что выявило PAM 5' TTTV, где V представляет собой A, или C, или G (фигура 62A-E).

Заявители установят дополнительные подробности о различных доменах PaCpf1p на основании кристаллической структуры данного белка в соответствующем комплексе. Для оптимизации компонентов локуса PaCpf1 в отношении активности в клетках человека заявители проведут работы с crRNA (направляющими RNA) различной структуры и различными оптимизированными эффекторными белками PaCpf1. Заявители провели кодон-оптимизацию последовательности PaCpf1 для человека следующим образом:

NLS (подчеркнут)

GS-линкер (жирный шрифт)

3xHA-метка (курсив)

ATGGCCCCAAAGAAGAAGCGGAAGGTCGGTATCCACGGAGTCCCAGCAGCCggtagtAACATCAAAAACTTTACCGGGCTCTACCCCCTCAGCAAAACTTTGCGCTTTGAACTCAAGCCTATTGGCAAAACCAAGGAAAACATCGAGAAAAATGGCATCCTGACCAAGGACGAGCAACGGGCTAAAGACTACCTCATAGTCAAAGGCTTTATTGACGAGTATCACAAGCAGTTCATCAAAGACAGGCTTTGGGACTTTAAATTGCCTCTCGAAAGTGAGGGGGAGAAGAACAGTCTCGAAGAATACCAGGAACTGTACGAGCTCACTAAGCGCAACGATGCCCAGGAGGCCGACTTCACCGAGATTAAAGATAACCTTCGCAGCTCTATTACCGAACAGCTCACGAAGTCTGGATCTGCGTACGATCGGATTTTTAAAAAAGAGTTCATTAGAGAAGACCTGGTCAACTTCCTCGAAGATGAAAAAGATAAAAATATCGTGAAACAGTTCGAGGACTTTACTACATATTTTACGGGTTTTTATGAAAATAGGAAGAACATGTACTCTAGCGAAGAGAAGTCCACGGCCATCGCATACCGGCTTATCCATCAGAATCTGCCAAAATTCATGGACAACATGAGAAGTTTTGCCAAAATTGCAAATTCCAGTGTTTCCGAGCACTTTAGCGACATCTATGAAAGCTGGAAGGAATATCTGAATGTAAATAGCATCGAGGAAATCTTCCAGCTCGACTATTTTAGCGAAACCTTGACTCAGCCACATATTGAGGTGTATAACTATATTATCGGGAAGAAAGTCCTGGAAGACGGAACCGAGATAAAGGGCATCAACGAGTATGTGAACCTCTACAATCAGCAGCAGAAAGATAAGAGTAAACGACTGCCTTTCCTGGTGCCACTGTATAAGCAAATTTTGTCTGATAGGGAAAAACTCTCCTGGATTGCTGAAGAGTTCGACAGCGACAAGAAGATGCTGAGCGCTATCACCGAGTCTTACAACCACCTGCACAACGTGTTGATGGGTAACGAGAACGAAAGCCTGCGAAATCTGCTGCTGAATATTAAGGACTATAACCTGGAGAAAATTAATATCACAAACGACTTGTCTCTCACCGAAATCTCCCAGAATCTTTTTGGCCGATATGATGTATTCACAAATGGGATCAAAAACAAGCTGAGAGTGTTGACTCCAAGGAAGAAAAAGGAGACGGACGAAAATTTTGAGGACCGCATTAACAAAATTTTTAAGACCCAGAAGTCCTTCAGCATCGCTTTTCTGAACAAGCTGCCTCAGCCCGAAATGGAGGATGGGAAGCCCCGGAACATTGAGGACTATTTCATTACACAGGGGGCGATTAACACCAAATCTATACAGAAAGAAGATATCTTCGCCCAAATTGAGAATGCATACGAGGATGCACAGGTGTTCCTGCAAATTAAGGACACCGACAACAAACTTAGCCAGAACAAGACGGCGGTGGAAAAGATCAAAACTTTGCTGGACGCCTTGAAGGAACTCCAGCACTTCATCAAACCGCTGCTGGGCTCTGGGGAGGAGAACGAGAAAGACGAACTGTTCTACGGTTCCTTCCTGGCCATCTGGGACGAACTGGACACCATTACACCACTTTATAACAAAGTGAGAAATTGGCTGACCCGAAAACCATATTCAACAGAAAAAATCAAATTGAATTTCGACAACGCTCAGCTGCTGGGAGGGTGGGATGTCAATAAAGAACACGACTGTGCAGGTATCTTGTTGCGGAAAAACGATAGCTACTATCTCGGAATTATCAATAAGAAAACCAACCACATCTTTGATACGGATATTACGCCATCAGATGGCGAGTGCTATGACAAAATCGACTACAAGCTCCTTCCCGGGGCGAACAAAATGCTTCCAAAGGTGTTTTTTAGTAAGTCCCGAATCAAAGAGTTCGAGCCATCAGAGGCCATAATCAATTGCTATAAGAAGGGGACACACAAAAAAGGAAAAAACTTTAACCTGACGGACTGTCACCGCCTGATCAACTTTTTTAAGACCTCAATCGAGAAACACGAGGATTGGTCAAAATTCGGATTCAAGTTCTCCGATACCGAAACGTATGAGGATATTAGCGGTTTTTATAGAGAGGTCGAGCAGCAGGGATACAGGCTGACGAGCCATCCAGTCAGTGCCAGCTATATACATAGTCTGGTCAAGGAAGGAAAACTGTACCTCTTCCAAATCTGGAACAAGGACTTTTCTCAATTCTCCAAGGGGACCCCTAACTTGCACACTCTCTATTGGAAGATGCTGTTTGACAAACGGAATCTTAGCGATGTGGTTTATAAGCTGAATGGCCAGGCTGAAGTGTTCTATAGAAAGAGCTCCATTGAACACCAGAACCGAATTATCCACCCCGCTCAGCATCCCATCACAAATAAGAATGAGCTTAACAAAAAGCACACTAGCACCTTCAAATACGATATCATCAAAGATCGCAGATACACGGTGGATAAATTCCAGTTCCATGTGCCCATTACTATAAATTTTAAGGCGACCGGGCAGAACAACATCAACCCAATCGTCCAAGAGGTGATTCGCCAAAACGGTATCACCCACATCATAGGCATCGATCGAGGTGAACGCCATCTTCTGTACCTCTCTCTCATCGATTTGAAAGGCAACATCATCAAGCAGATGACTCTCAACGAAATTATTAATGAGTATAAGGGTGTGACCTATAAGACCAACTACCATAACCTCCTGGAGAAGAGGGAGAAGGAGCGGACCGAGGCCAGACACTCCTGGAGTAGTATTGAAAGCATAAAAGAACTGAAGGATGGATACATGTCACAGGTGATTCACAAAATTACGGACATGATGGTTAAGTACAATGCGATTGTGGTCCTGGAGGACCTCAACGGGGGGTTTATGCGAGGCCGCCAGAAGGTCGAGAAGCAGGTGTACCAGAAATTTGAAAAAAAGTTGATCGACAAGCTGAACTATCTCGTTGACAAGAAACTCGACGCTAACGAGGTCGGCGGAGTACTGAATGCTTATCAGCTGACCAACAAGTTCGAGTCTTTCAAGAAGATTGGGAAACAAAGCGGATTTTTGTTCTACATCCCCGCCTGGAACACAAGCAAAATCGATCCTATAACAGGGTTCGTTAATCTGTTCAACACCAGGTACGAGTCTATCAAGGAGACAAAAGTTTTTTGGTCTAAGTTTGATATTATCCGATACAATAAAGAGAAGAATTGGTTCGAGTTCGTCTTCGATTACAATACCTTTACGACTAAAGCGGAGGGAACACGCACTAAGTGGACTCTGTGCACCCACGGCACTCGCATCCAGACATTCCGGAACCCAGAAAAGAATGCCCAGTGGGACAATAAAGAGATCAATTTGACTGAGTCCTTCAAAGCTCTGTTTGAAAAGTACAAGATCGATATCACCAGTAATCTCAAGGAATCCATCATGCAGGAAACCGAGAAGAAGTTCTTCCAGGAACTGCATAATCTGCTCCACCTGACCCTGCAGATGAGGAATAGCGTTACTGGAACCGACATAGACTATTTGATCAGCCCCGTTGCCGATGAGGATGGAAATTTCTATGATAGTCGCATAAATGGCAAAAATTTTCCGGAGAATGCCGATGCCAATGGCGCGTACAACATCGCACGAAAGGGTCTGATGCTTATTCGGCAGATCAAGCAAGCAGATCCACAGAAGAAATTCAAGTTTGAGACAATCACCAATAAAGACTGGCTGAAATTCGCCCAAGACAAGCCCTATCTTAAAGATggcagcgggAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAGggatccTACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATACGATGTCCCCGACTATGCCTAA (SEQ ID NO: 127).

Карта вектора для последовательности PaCpf1, кодон-оптимизированной для человека, представлена на фигуре 63.

Пример 6. Ортологи Cpf1

Заявители анализировали расширенную группу ортологов Cpf1 (фигура 64). Последовательности, кодон-оптимизированные для человека, получали для некоторых компонентов локуса Cpf1 (фигуры 65-79). Заявители также получили последовательности прямого повтора (DR) для каждого ортолога и их прогнозируемую структуру укладки (фигура 80A-I).

Заявители дополнительно исследовали ортологи Cpf1 по признаку размера эффекторного белка, т. е. более маленькие эффекторные белки обеспечивают возможность более легкой упаковки в векторы, и по признаку состава PAM. Все аспекты обеспечивают возможность дополнительной оптимизации в прокариотических и эукариотических клетках, предпочтительно для эффективной активности в клетках млекопитающих, т. е. клетках человека.

Заявители показали, что для ортологов эффекторного белка из следующих локусов показана активность в in vitro анализе расщепления: Cpf1 Peregrinibacteria bacterium GW2011_GWA2_33_10, Cpf1 Acidaminococcus sp. BV3L6, Cpf1 Francisalla tularensis 1, Cpf1 Moraxella bovoculi 237, Cpf1 Lachnospiraceae bacterium ND2006, Cpf1 Lachnospiraceaa bacterium MA2020, Cpf1 Porphyromonas macacee, Cpf1 Porphyromonas crevlor1canls 3 , Cpf1 Prevotella albensis (фигура 64).

В in vitro анализе расщепления с помощью ортологов клетки HEK293, экспрессирующие ортологи Cpf1, собирали и лизат инкубировали с прогнозируемой зрелой crRNA, нацеливающейся на искусственный спейсер, клонированный в плазмиды pUC19. Перед спейсером находились 8 вырожденных оснований для обеспечения определения PAM с помощью секвенирования. Нижние полоски указывали на расщепление под действием фермента Cpf1 (фигура 89).

Заявители идентифицировали полученные компьютерным образом PAM в in vitro анализе расщепления (фигура 90). Не подвергнутую разрезанию ДНК из фигуры 89 (самая высокая полоска) вырезали и амплифицировали для секвенирования следующего поколения. Рассчитывали содержание каждого 8-мера, и для количественной оценки обогащения log-показатель сравнивали с исходной библиотекой. Индивидуальные 8-меры с log-показателем, превышающим 4, компилировали и применяли для определения консенсусного PAM с применением Weblogo.

Заявители дополнительно идентифицировали, что эффекторные белки Cpf1p осуществляют разрез ступенчатым образом с "липкими" 5'-концами. Очищенный белок FnCpf1 собирали и инкубировали с crRNA и соответствующей мишенью, клонированной в pUC19. Расщепленный продукт экстрагировали из геля и подвергали секвенированию по Сэнгеру. Асимметричные риды указывают на то, что наблюдается ступенчатый разрез (фигура 91). В предпочтительном варианте осуществления настоящего изобретения заявители демонстрируют ступенчатое in vivo сшивание с матрицей (например, экзогенной матрицей).

Заявители также определяли эффект длины спейсера на способность эффекторного белка к разрезанию (фигура 92). Очищенный белок FnCpf1 собирали и инкубировали с crRNA и соответствующей мишенью, клонированной в pUC19. Спейсеры, длина которых составляла более 17 нуклеотидов, приводили к полному разрезанию, в то время как для спейсера длиной 17 нуклеотидов показана сниженная активность, а спейсеры, длина которых составляла менее 17 нуклеотидов, были неактивными.

Заявители продемонстрировали, что FnCpf1 опосредует образование вставок/делеций в клетках HEK293T.

~280000 клеток HEK/лунка в 24-луночном планшете трансфицировали с помощью 350 нг плазмиды huFnCpf1 и 150 нг U6::crRNA. Клетки собирали через три дня после трансфекции и анализировали посредством анализа с помощью нуклеазы SURVEYOR. Размер нерасщепленного ПЦР-фрагмента составлял 606 п. о. Размеры ожидаемых фрагментов составляли ~418 п. о. и ~188 п. о. в случае crRNA для DNMT1-1 и ~362 п. о. и ~244 п. о. в случае crRNA для DNMT1-3 (фигура 93).

Спейсерная последовательность DNMT1-1: cctcactcctgctcggtgaattt (SEQ ID NO: 128).

Спейсерная последовательность DNMT1-3: ctgatggtccatgtctgttactc (SEQ ID NO: 129).

Заявители идентифицировали компоненты системы Cpf1, требуемые для обеспечения расщепления, путем определения того, подвергались ли процессингу транскрипты, когда удалялись определенные последовательности локуса (фигура 94A-F). Удаленные последовательности могли включать без ограничения ген Cas1, ген Cas2 и tracr-последовательность. Следовательно, в предпочтительном варианте осуществления настоящего изобретения заявители продемонстрировали, что tracr-последовательность не является компонентом функциональной системы или комплекса Cpf1, требуемым для обеспечения расщепления.

Пример 7. Процедуры

Получение гетерологичных плазмид

Чтобы получить локус FnCpf1 для гетерологичной экспрессии, геномную ДНК из Francisella Novicida подвергали ПЦР-амплификации с применением полимеразы Herculase II (Agilent Technologies) и клонировали в pACYC-184 с применением клонирования по Гибсону (New England Biolabs). Клетки, несущие плазмиды, делали компетентными с применением набора Z-competent (Zymo).

Секвенирование бактериальной РНК

РНК выделяли из бактерий на стационарной фазе роста вначале путем ресуспендирования F. novicida (щедрый подарок от David Weiss) или E. coli в TRIzol, а затем гомогенизации бактерий с помощью гранул из циркония/кремнезема (BioSpec Products) в BeadBeater (BioSpec Products) в ходе 3 одноминутных циклов. Общую РНК очищали из гомогенизированных образцов с помощью протокола для набора Direct-Zol RNA miniprep (Zymo), обрабатывали ДНКазой с помощью ДНКазы TURBO (Life Technologies) и подвергали 3'-дефосфорилированию с помощью киназы для полинуклеотидов T4 (New England Biolabs). rRNA удаляли с помощью набора для удаления бактериальной rRNA Ribo-Zero (Illumina). Библиотеки РНК получали из РНК, истощенной по rRNA, с применением набора для получения библиотек малых РНК NEBNext® для Illumina (New England Biolabs) и отбирали по размеру с применением Pippin Prep (Sage Science)

- Для гетерологичной экспрессии локуса FnCpf1 в E. coli , получали библиотеки для секвенирования РНК из РНК, истощенной по rRNA, с применением модифицированного способа секвенирования РНК CRISPR, описанного ранее (Heidrich et al., 2015. Вкратце, к транскриптам добавляли поли-A-хвост с помощью поли(A)-полимеразы E. coli (New England Biolabs), лигировали с 5' РНК-адаптерами с применением РНК-лигазы 1 T4 (лигаза для ssRNA) высокой концентрации (New England Biolabs) и проводили обратную транскрипцию с помощью обратной транскриптазы AffinityScript, активной при разных температурах (Agilent Technologies). cDNA подвергали ПЦР-амплификации с праймерами, снабженными штрих-кодом, с применением полимеразы Herculase II (Agilent Technologies) Анализ с секвенированием РНК

Полученные библиотеки cDNA секвенировали на MiSeq (Illumina). Риды из каждого образца идентифицировали на основании ассоциированного с ними штрих-кода и выравнивали с соответствующим эталонным геномом из RefSeq с применением BWA (Li and Durbin, 2009). Выравнивания спаренных концов применяли для экстракции последовательностей целого транскрипта с применением инструментов Picard (http://broadinstitute.github.io/picard), и эти последовательности анализировали с применением Geneious 8.1.5.

In vivo скрининг PAM FnCpf1

Плазмидные библиотеки с рандомизированными PAM конструировали с применением синтезированных олигонуклеотидов (IDT), состоящих из 7 рандомизированных нуклеотидов либо выше, либо ниже мишени-спейсера 1 (дополнительная таблица S8). Рандомизированные олигонуклеотиды ssDNA превращали в двухнитевые путем отжига с коротким праймером и c применением крупного фрагмента Кленова (New England Biolabs) для синтеза второй нити. Продукт в виде dsDNA собирали в линеаризованный pUC19 с применением клонирования по Гибсону (New England Biolabs). Компетентные Stbl3 E. coli (Invitrogen) трансформировали с помощью клонированных продуктов, и более чем 10⁷клеток собирали и объединяли. Плазмидную ДНК собирали с применением набора Maxi-prep (Qiagen). 360 нг объединенной библиотеки трансформировали в клетки E. coli, несущие локус FnCpf1 locus или контрольный pACYC184. После трансформации клетки высевали на среду с ампициллином. После роста в течение 16 часов >4*10⁶ клеток собирали и плазмидную ДНК экстрагировали с применением набора Maxi-prep (Qiagen). Целевой участок PAM амплифицировали и секвенировали с помощью MiSeq (Illumina) с 150 циклами для одиночных концов.

Компьютерный конвейерный алгоритм для обнаружения PAM

Участки PAM экстрагировали, подсчитывали и нормализовали к общему числу ридов для каждого образца. В случае данного PAM обогащение измеряли как log-показатель по сравнению с контрольным pACYC184 с поправкой на псевдоотсчет 0,01. PAM с пороговым значением обогащения, превышающим 3,5, собирали и применяли для получения логотипов последовательностей (Crooks et al., 2004).

Подтверждение PAM

Последовательности, как соответствующие PAM, так и не соответствующие PAM, клонировали в подвергнутый разрезанию pUC19 и лигировали с помощью лигазы T4 (Enzymatics). Компетентные E. сoli либо с плазмидой с локусом FnCpf1, либо с контрольной плазмидой pACYC184 трансформировали с помощью 20 нг плазмиды с PAM и высевали на чашки с LB-агаром, дополненным ампициллином и хлорамфениколом. Колонии подсчитывали через 18 часов.

Синтез crRNA и gRNA

Все crRNA и gRNA, применяемые в in vitro анализе, синтезировали с применением набора для синтеза РНК с высоким выходом на основе T7 HiScribe™ (NEB). Олигонуклеотиды ssDNA, соответствующие обратно комплементарной последовательности целевой последовательности РНК, синтезировали из IDT и отжигали с короткой праймерной последовательностью T7. Транскрипцию T7 осуществляли в течение 4 часов и затем РНК очищали с применением набора для очистки продуктов транскрипции MEGAclear™ (Ambion).

Очистка белка Cpf1

Белок FnCpf1 клонировали в вектор экспрессии для бактерий (6-His-MBP-TEV-Cpf1, вектор на основе pET, любезно предоставленный заявителям Doug Daniels) ("6-His" раскрыта как SEQ ID NO: 130). В два литра питательной среды Terrific Broth с 100 мкг/мл ампициллина инокулировали 10 мл ночной культуры клеток Rosetta (DE3) pLyseS (EMD Millipore), содержащих конструкцию для экспрессии Cpf1. Питательную среду с инокулированным материалом культивировали при 37°C до тех пор, пока плотность клеток OD600 не достигла 0,2, затем температуру снижали до 21°C. Выращивание продолжали до тех пор, пока OD600 не достигла 0,6, в этот момент добавляли IPTG из расчета конечной концентрации 500 мкМ для индуцирования экспрессии MBP-Cpf1. Культуру индуцировали в течение 14-18 часов, перед тем как клетки собирали и замораживали при -80°C до осуществления очистки.

Клеточную массу ресуспендировали в 200 мл буфера для лизиса (50 мМ Hepes, pH 7, 2 М NaCl, 5 мМ MgCl₂, 20 мМ имидазол), дополненном ингибиторами протеаз (Roche cOmplete, без EDTA) и лизоцимом. Сразу после гомогенизации клетки лизировали путем обработки ультразвуком (Branson Sonifier 450), затем центрифугировали при 10000 g в течение 1 часа для избавления лизата от примесей. Лизат фильтровали через фильтр с размером пор 0,22 микрон (Millipore, Stericup) и вносили в колонку с никелем (HisTrap FF, 5 мл), промывали и затем элюировали с помощью градиента имидазола. Фракции, содержащие белок ожидаемого размера, объединяли, добавляли протеазу TEV (Sigma) и образец подвергали диализу в течение ночи с буфером TEV (500 мМ NaCl, 50 мМ Hepes, pH 7, 5 мМ MgCl, 2 мМ DTT). После диализа расщепление под действием TEV подтверждали с помощью SDS-PAGE и образец концентрировали до 500 мкл до загрузки на колонку для гель-фильтрации (HiLoad 16/600 Superdex 200) с помощью FPLC (AKTA Pure). Фракции, полученные в результате гель-фильтрации, анализировали с помощью SDS-PAGE; фракции, содержащие Cpf1, объединяли и концентрировали до 200 мкл и либо использовали напрямую для биохимических анализов, либо замораживали при -80°C для хранения. Стандарты гель-фильтрации прогоняли на той же колонке, уравновешенной с помощью 2 М NaCl, Hepes, pH 7,0, чтобы рассчитать приблизительный размер FnCpf1.

Получение лизата с белком Cpf1

Синтезировали белки Cpf1, кодон-оптимизированные для экспрессии у человека, с N-концевой метки ядерной локализации и клонировали в плазмиду для экспрессии pcDNA3.1 от Genscript. 2000 нг плазмид для экспрессии Cpf1 трансфицировали в клетки HEK293FT, выращиваемые в 6-луночных планшетах, при 90% конфлюэнтности с применением реагента Lipofectamine 2000 (Life Technologies). Через 48 часов клетки собирали путем однократной промывки с помощью DPBS (Life Technologies) и соскребания в буфере для лизиса [20 мМ Hepes, pH 7,5, 100 мМ KCl, 5 мМ MgCl₂, 1 мМ DTT, 5% глицерин, 0,1% Triton X-100, 1X таблетки со смесью ингибиторов протеаз cOmplete (Roche)]. Лизат обрабатывали ультразвуком в течение 10 минут на соникаторе Biorupter (Diagenode) и затем центрифугировали. Супернатант замораживали для последующего использования в in vitro анализах расщепления.

In vitro анализ расщепления

In vitro расщепление осуществляли либо с очищенным белком, либо с лизатом клеток млекопитающих, содержащим белок, при 37°C в буфере для расщепления (NEBuffer 3, 5 мМ DTT) в течение 20 минут. В реакции расщепления использовали 500 нг синтезированной crRNA или sgRNA и 200 нг целевой ДНК. Целевая ДНК включала либо протоспейсеры, клонированные в pUC19, либо ПЦР-ампликоны генных участков из геномной ДНК, выделенной из клеток HEK293. Реакционные смеси очищали с применением колонок для очистки продуктов ПЦР (Qiagen) и прогоняли на 2% агарозных E-гелях (Life Technologies). В случае нативных и денатурирующих гелей для анализа расщепления под действием мутантов нуклеазы, реакционные смеси после очистки прогоняли на 6% полиакриламидных гелях с TBE или 6% полиакриламидных гелях с TBE-мочевиной (Life Technologies).

In vitro скрининг PAM для белков семейства Cpf1

Реакционные смеси после in vitro расщепления с помощью белков семейства Cpf1 прогоняли на 2% агарозных E-гелях (Life Technologies). Полоски, соответствующие не подвергнутой расщеплению мишени, подвергали экстрагированию из геля с применением набора для экстракции из геля QIAquick (Qiagen) и участок с целевым PAM амплифицировали и секвенировали с применением MiSeq (Illumina) с 150 циклами для одиночных концов. Результаты секвенирования вводили в конвейерный алгоритм обнаружения PAM.

Активность расщепления под действием Cpf1 в клетках 293FT

Синтезировали белки Cpf1, кодон-оптимизированные для экспрессии у человека, с N-концевой метки ядерной локализации и клонировали в плазмиду для экспрессии pcDNA3.1 с промотором CMV от Genscript. ПЦР-ампликоны, содержащие промотор U6, управляющий экспрессией последовательности crRNA, получали с помощью Herculase II (Agilent Technologies). 400 нг плазмид для экспрессии Cpf1 и 100 нг продукта ПРЦ crRNA трансфицировали в клетки HEK293FT, выращиваемые в 24-луночных планшетах, при 75-90% конфлюэнтности с применением реагента Lipofectamine 2000 (Life Technologies). Геномную ДНК собирали с применением раствора для экстракции ДНК QuickExtract™ (Epicentre).

Анализ с помощью нуклеазы SURVEYOR на наличие модификации генома

Клетки 293FT трансфицировали с помощью 400 нг плазмиды для экспрессии Cpf1 и 100 нг ПЦР-фрагментов U6::crRNA с применением реагента Lipofectamin 2000 (Life Technologies). Клетки инкубировали при 37ºC в течение 72 ч. после трансфекции до проведения экстракции геномной ДНК. Геномную ДНК экстрагировали с помощью раствора для экстракции ДНК QuickExtract (Epicentre), следуя протоколу производителя. Участок генома, фланкирующий целевой сайт для CRISPR, для каждого гена подвергали ПЦР-амплификации, и продукты очищали с использованием центрифужной колонки QiaQuick (Qiagen), следуя протоколу производителя. В общей сложности 200-500 нг очищенных продуктов ПЦР смешивали с 1 мкл 10× буфера для ПЦР с применением ДНК-полимеразы Taq (Enzymatics) и водой сверхвысокой чистоты до конечного объема 10 мкл и подвергали процессу повторного отжига для обеспечения образования гетеродуплекса: 95°C в течение 10 мин., снижение от 95°C до 85°C со скоростью −2°C/с, снижение от 85°C до 25°C со скоростью −0,25°C/с и удержание 25°C в течение 1 мин. После повторного отжига продукты обрабатывали с помощью нуклеазы SURVEYOR и энхансера S SURVEYOR (Integrated DNA Technologies), следуя рекомендованному производителем протоколу, и анализировали на 4-20% полиакриламидных гелях Novex с TBE (Life Technologies). Гели окрашивали красителем для ДНК SYBR золотой (Life Technologies) в течение 10 мин. и визуализировали с помощью системы для визуализации геля Gel Doc (Bio-rad). Количественный анализ основывался на относительных интенсивностях окраски полосок. Процентное значение частоты вставок/делеций определяли по формуле 100 × (1 − (1 − (b + c)/(a + b + c))1/2), где a представляет собой суммарную интенсивность для нерасщепленного продукта ПЦР, а b и c представляют собой значения суммарной интенсивности для каждого продукта расщепления.

Глубокое секвенирование для определения характеристик паттерна вставок/делеций, образуемого под действием Cpf1 в клетках 293FT

Клетки HEK293FT трансфицировали и собирали как описано для оценки активности расщепления под действием Cpf1. Участок генома, фланкирующий мишени DNMT1, амплифицировали с применением участка, полученного в двух раундах ПЦР, для добавления адаптеров Illumina P5, а также уникальных специфичных для образца штрих-кодов к целевым ампликонам. Продукты ПЦР прогоняли на 2% E-геле (Invitrogen) и экстрагировали из геля с применением центрифужной колонки QiaQuick (Qiagen) согласно рекомендуемому производителем протоколу. Образцы объединяли и проводили количественную оценку с помощью флуорометра Qubit 2.0 (Life Technologies). Полученные библиотеки cDNA секвенировали на MiSeq (Illumina). Вставки/делеции картировали с применением реализованного на языке Питон Geneious 6.0.3 Read Mapper.

Компьютерный анализ локуса Cpf1

Программу PSI-BLAST (Altschul et al., 1997) применяли для идентификации гомологов Cpf1 в базе данных NR от NCBI с применением нескольких известных последовательностей Cpf1 в качестве запрашиваемых последовательностей с Cpf1, при этом граничное E-значение составляет 0,01 и отключены фильтр низкой сложности и статистика на основе состава. Программу TBLASTN со следующими параметрами, граничное E-значение составляет 0,01 и отключен фильтр низкой сложности, применяли для проведения поиска в базе данных WGS от NCBI с применением профиля Cpf1 (Marakova et al., 2015) в качестве запрашиваемой последовательности. Результаты всех поисков объединяли. Программу HHpred использовали с параметрами по умолчанию для идентификации отдаленного сходства последовательностей с применением подгруппы репрезентативных запрашиваемых последовательностей Cpf1 (Soding et al., 2006). Множественное выравнивание последовательностей разрабатывали с применением MUSCLE (Edgar, 2004) с корректировкой вручную, исходя из попарных выравниваний, полученных с применением программ PSI-BLAST и HHpred. Филогенетический анализ проводили с применением программы FastTree с эволюционной моделью WAG и дискретной гамма-моделью с 20 рейтинговыми категориями (Price et al., 2010). Вторичную структуру белка прогнозировали с применением Jpred 4 (Drozdetskiy et al., 2015).

Повторы CRISPR идентифицировали с применением PILER-CR (Edgar, 2007) и CRISPRfinder (Grissa et al, 2007). Поиск спейсерных последовательностей проводили в базах данных NR нуклеотидных последовательностей от NCBI с применением MEGABLAST (Morgulis et al, 2008) с параметрами по умолчанию, за исключением того, что был установлен размер слова 20 и граничное E-значение 0,0001.

Таблица 1. Эндогенные спейсерные последовательности F. novicida Номер спейсера Последовательность 1 GAGAAGTCATTTAATAAGGCCACTGTTAAAA (SEQ ID NO: 131). 2 GCTACTATTCCTGTGCCTTCAGATAATTCA (SEQ ID NO: 132). 3 GTCTAGAGCCTTTTGTATTAGTAGCCG (SEQ ID NO: 133). Таблица 2. Олигонуклеотиды ssDNA и праймеры для получения библиотеки PAM Название олигонуклеотида/праймера Последовательность Библиотека 5' PAM (+) GGCCAGTGAATTCGAGCTCGGTACCCGGG
NNNNNNNNGAGAAGTCATTTAATAAGGC
CACTGTTAAAAAGCTTGGCGTAATCATGG
TCATAGCTGTTT(SEQ ID NO: 134). Библиотека 3' PAM (+) GGCCAGTGAATTCGAGCTCGGTACCCGGG
GAGAAGTCATTTAATAAGGCCACTGTTAA
AANNNNNNNNAGCTTGGCGTAATCATGG
TCATAGCTGTTT(SEQ ID NO: 135). Библиотека PAM
(-) GCTGACATGAAGCTGTTGTGTGAGG(SEQ ID NO: 136). Таблица 3. Праймеры, применяемые для секвенирования pUC19 и анализа с использованием нуклеазы SURVEYOR Название праймера Последовательность NGS pUC For GGCCAGTGAATTCGAGCTCGG (SEQ ID NO: 137). NGS pUC Rev CAATTTCACACAGGAAACAGCTATGACC(SEQ ID NO: 138). Sanger pUC For CGGGGCTGGCTTAACTATGCG (SEQ ID NO: 139). Sanger pUC Rev GCCCAATACGCAAACCGCCT(SEQ ID NO: 140). EMX1 For CCATCCCCTTCTGTGAATGT (SEQ ID NO: 141). EMX1 Rev TCTCCGTGTCTCCAATCTCC (SEQ ID NO: 142). DNMT1 For CTGGGACTCAGGCGGGTCAC (SEQ ID NO: 143). DNMT1 Rev GCTGACATGAAGCTGTTGTGTGAGG (SEQ ID NO: 144).

Таблица 4. Усеченные направляющие для in vitro анализа Номер усеченной направляющей Последовательность 1 GAGAAGTCATTTAATAAGGCCACT (SEQ ID NO: 145). 2 GAGAAGTCATTTAATAAGGCCA (SEQ ID NO: 146). 3 GAGAAGTCATTTAATAAGGC (SEQ ID NO: 147). 4 GAGAAGTCATTTAATAAG (SEQ ID NO: 148). 5 GAGAAGTCATTTAATAA (SEQ ID NO: 149). 6 GAGAAGTCATTTAATA (SEQ ID NO: 150). Таблица 5. Направляющие с несовпадениями для in vitro анализа расщепления Номер направляющей с несовпадениями Последовательность 1 GATAAGTCATTTAATAAGGCCACT (SEQ ID NO: 151). 2 GAGAAGGCATTTAATAAGGCCACT (SEQ ID NO: 152). 3 GAGAAGTCATGTAATAAGGCCACT (SEQ ID NO: 153). 4 GAGAAGTCATTTAAGAAGGCCACT (SEQ ID NO: 154). 5 GAGAAGTCATTTAATAAGTCCACT (SEQ ID NO: 155). 6 GAGAAGTCATTTAATAAGGCCAAT (SEQ ID NO: 156).

Таблица 6. Направляющие с усеченной последовательностью прямого повтора для in vitro анализа расщепления Длина прямого повтора Последовательность +18 ATTTCTACTGTTGTAGATGAGAAGTCATTTAATAAGGCCACT(SEQ ID NO: 157). +17 TTTCTACTGTTGTAGATGAGAAGTCATTTAATAAGGCCACT(SEQ ID NO: 158). +16 TTCTACTGTTGTAGATGAGAAGTCATTTAATAAGGCCACT(SEQ ID NO: 159). +15 TCTACTGTTGTAGATGAGAAGTCATTTAATAAGGCCACT(SEQ ID NO: 160). +11 CTGTTGTAGATGAGAAGTCATTTAATAAGGCCACT (SEQ ID NO: 161). +7 TGTAGATGAGAAGTCATTTAATAAGGCCACT (SEQ ID NO: 162). Таблица 7. Мутации в стеблевой структуре прямого повтора для in vitro анализа расщепления Номер мутанта с изменением в стеблевой структуре прямого повтора Последовательность 1 AATTTCTGCTGTTGCAGAT(SEQ ID NO: 163). 2 AATTTCCACTGTTGTGGAT(SEQ ID NO: 164). 3 AATTCCTACTGTTGTAGGT(SEQ ID NO: 165). 4 AATTTATACTGTTGTAGAT(SEQ ID NO: 166). 5 AATTTCGACTGTTGTAGATAATTTCGACTGTTGTAGAT (SEQ ID NO: 167). 6 AATTTCTAGTGTTGTAGAT(SEQ ID NO: 168). Таблица 8. Мутации в петле прямого повтора для in vitro анализа расщепления Номер мутанта с изменением в петле прямого повтора Последовательность 1 AATTTCTACTATTGTAGAT(SEQ ID NO: 169). 2 AATTTCTACTGCTGTAGAT(SEQ ID NO: 170). 3 AATTTCTACTTTGTAGAT(SEQ ID NO: 171). 4 AATTTCTACTTGTAGAT(SEQ ID NO: 172). 5 AATTTCTACTTTTGTAGAA(SEQ ID NO: 173). 6 AATTTCTACTTTTGTAGAC(SEQ ID NO: 174). Таблица 9. Ортолог-специфичные направляющие, нацеливающиеся на DNMT1, для клеток млекопитающих Нуклеаза Название 5' прямой повтор Последовательность AsCpf1 DNMT1,
мишень 1 5' прямой повтор Последовательность AsCpf1 DNMT1,
мишень 2 TAATTTCTACTGTTGTAGAT
(SEQ ID NO: 175). CCTCACTCCTGCTCGGTGAATTT
(SEQ ID NO: 176). AsCpf1 DNMT1,
мишень 3 TAATTTCTACTGTTGTAGAT
(SEQ ID NO: 177). AGGAGTGTTCAGTCTCCGTGAAC
(SEQ ID NO: 178). AsCpf1 DNMT1,
мишень 4 TAATTTCTACTGTTGTAGAT
(SEQ ID NO: 179). CTGATGGTCCATGTCTGTTACTC
(SEQ ID NO: 180). Lb3Cpf1 DNMT1,
мишень 1 TAATTTCTACTGTTGTAGAT
(SEQ ID NO: 181). TTTCCCTTCAGCTAAAATAAAGG
(SEQ ID NO: 182). Lb3Cpf1 DNMT1,
мишень 2 TAATTTCTACTAAGTGTAGAT
(SEQ ID NO: 183). CCTCACTCCTGCTCGGTGAATTT
(SEQ ID NO: 184). Lb3Cpf1 DNMT1,
мишень 3 TAATTTCTACTAAGTGTAGAT
(SEQ ID NO: 185). AGGAGTGTTCAGTCTCCGTGAAC
(SEQ ID NO: 186). Lb3Cpf1 DNMT1,
мишень 4 TAATTTCTACTAAGTGTAGAT (SEQ ID NO: 187). CTGATGGTCCATGTCTGTTACTC (SEQ ID NO: 188). SpCas9 DNMT1,
мишень 1 TAATTTCTACTAAGTGTAGAT (SEQ ID NO: 189). TTTCCCTTCAGCTAAAATAAAGG
(SEQ ID NO: 190). SpCas9 DNMT1,
мишень 2 na TCACTCCTGCTCGGTGAATT
(SEQ ID NO: 191). SpCas9 DNMT1,
мишень 3 na AACCCTCTGGGGACCGTTTG
(SEQ ID NO: 192). SpCas9 DNMT1,
мишень 4 na AGTACGTTAATGTTTCCTGA
(SEQ ID NO: 193). Таблица 10. Ортолог-специфичные последовательности прямого повтора для crRNA,
нацеливающихся на протоспейсер 1 и мишень 3 DNMT1 Источник последовательности прямого повтора Последовательность FnCpf1 TAATTTCTACTGTTGTAGAT (SEQ ID NO: 195). Lb1Cpf1 AGAAATGCATGGTTCTCATGC (SEQ ID NO: 196). BpCpf1 AAAATTACCTAGTAATTAGGT (SEQ ID NO: 197). PeCpf1 GGATTTCTACTTTTGTAGAT (SEQ ID NO: 198). PbCpf1 AAATTTCTACTTTTGTAGAT (SEQ ID NO: 199). SsCpf1 CGCGCCCACGCGGGGCGCGAC (SEQ ID NO: 200). AsCpf1 TAATTTCTACTCTTGTAGAT (SEQ ID NO: 201). Lb2Cpf1 GAATTTCTACTATTGTAGAT (SEQ ID NO: 202). CMtCpf1 GAATCTCTACTCTTTGTAGAT (SEQ ID NO: 203). EeCpf1 TAATTTCTACTTTGTAGAT (SEQ ID NO: 204). MbCpf1 AAATTTCTACTGTTTGTAGAT (SEQ ID NO: 205). LiCpf1 GAATTTCTACTTTTGTAGAT (SEQ ID NO: 206). Lb3Cpf1 TAATTTCTACTAAGTGTAGAT (SEQ ID NO: 207). PcCpf1 TAATTTCTACTATTGTAGAT (SEQ ID NO: 208). PdCpf1 TAATTTCTACTTCGGTAGAT (SEQ ID NO: 209). PmCpf1 TAATTTCTACTATTGTAGAT (SEQ ID NO: 210).

Пример 8. Клонирование Cpf1 Francisella tularensis subsp. novicida U112 (FnCpf1)

Заявители клонировали локус Cpf1 Francisella tularensis subsp. novicida U112 (FnCpf1) (фигура 95A) в низкокопийные плазмиды (pFnCpf1) для обеспечения гетерологичного восстановления в Escherichia coli. Как правило, в системах CRISPR-Cas, охарактеризованных к настоящему времени, имеется два требования к интерференции в отношении ДНК: (i) целевая последовательность должна совпадать с одним из спейсеров, присутствующих в соответствующем массиве CRISPR, и (ii) целевая последовательность, комплементарная спейсеру (далее называемая протоспейсер), должна быть фланкирована соответственным мотивом, смежным с протоспейсером (PAM). Учитывая полностью неохарактеризованные функциональные возможности локуса FnCpf1 CRISPR разработали анализ истощения плазмид для определения активности Cpf1 и идентификации последовательности PAM и ее соответствующего местоположения относительно протоспейсера (5' или 3') (фигура 95B). Разработали две библиотеки плазмид, несущих протоспейсер, совпадающий с первым спейсером в массиве CRISPR c FnCpf1, при этом на 5'- или 3'-конце находились рандомизированые последовательности длиной 7 п. о. Каждую плазмидную библиотеку трансформировали в E. coli, в которых происходила гетерологичная экспрессия локуса FnCpf1, или в контрольный штамм E. coli, несущий пустой вектор. С применением данного анализа определяли последовательность и местоположение PAM путем идентификации нуклеотидных мотивов, которые преимущественно подвергаются истощению в клетках, в которых происходила гетерологичная экспрессия локуса FnCpf1. Обнаружили, что PAM для FnCpf1 расположен выше 5'-конца перемещенной нити протоспейсера и имеет последовательность 5'-TTN (фигуры 95C-D и 102). Местоположение PAM в направлении 5' также наблюдалось в случае систем CRISPR I типа, но не систем II типа, в которых Cas9 использует последовательности PAM, которые находятся на 3'-конце протоспейсера (Mojica et al., 2009; Garneau et al., 2010. Кроме идентификации PAM результаты анализа истощения ясно показали, что гетерологично экспрессированные локусы Cpf1 способны к эффективной интерференции в отношении плазмидной ДНК.

Для определения дополнительных характеристик PAM анализировали активность интерференции в отношении плазмид путем трансформации клеток, экспрессирующих локус cpf1, с помощью плазмид, несущих протоспейсер 1, фланкированный PAM 5'-TTN. В случае всех PAM 5'-TTN происходило эффективное нацеливание (фигура 1E). Кроме того, эффективное нацеливание происходило также в случае 5'-CTA, но не в случае 5'-TCA (фигура 95E), что позволяет предположить, что центральный T является более важным для распознавания PAM, чем первый T, и что, в полном соответствии с мотивами последовательности, подвергнутыми истощению в анализе обнаружения PAM (фигура 102D), PAM может иметь менее строгую последовательность, чем 5'-TTN.

Пример 9. Массив CRISPR c Cpf1 процессируется независимо от tracrRNA

Анализ с секвенированием малых РНК, RNAseq, применяли для точного определения crRNA, образуемой в локусе CRISPR на основе cpf1. Путем секвенирования малых РНК, экстрагированных из культуры Francisella tularensis subsp. novicida U112, обнаружили, что массив CRISPR процессируется в короткие зрелые crRNA длиной 42-44 нуклеотида. Каждая зрелая crRNA начинается с прямого повтора длиной 19 нуклеотидов, за которым следует 23-25 нуклеотидов спейсерной последовательности (фигура 96A). Данный порядок расположения crRNA отличается от такового в системах CRISPR-Cas II типа, в которых зрелая crRNA начинается спейсерной последовательностью длиной 20-24 нуклеотида, за которой следует ~22 нуклеотида прямого повтора (Deltcheva et al., 2011; Chylinski et al., 2013). Неожиданно, за исключением crRNA возле локуса cpf1 Francisella не были обнаружены никакие надежно экспрессируемые небольшие транскрипты, которые могли бы соответствовать tracrRNA, которые ассоциированы с системами на основе Cas9.

- Чтобы подтвердить то, что для созревания crRNA и интерференции в отношении ДНК не требуются дополнительные РНК, разрабатывали плазмиду экспрессии с применением синтетических промоторов для управления экспрессией cpf1 Francisella (FnCpf1) и массива CRISPR (pFnCpf1_min). При анализе с секвенированием малых РНК, RNAseq, у E. coli, экспрессирующих данную плазмиду, все еще наблюдался надежный процессинг массива CRISPR в зрелую crRNA (фигура 96B), что указывает на то, что FnCpf1 и ее массива CRISPR достаточно для обеспечения процессинга crRNA. Кроме того, для E. coli, экспрессирующих pFnCpf1_min, а также pFnCpf1_ΔCas, плазмиду, в которой были удалены все гены cas, но остались нативные промоторы, управляющие экспрессией FnCpf1 и массива CRISPR, также показана надежная интерференция в отношении ДНК, что показывает, что FnCpf1 и crRNA являются достаточными для опосредования нацеливания на ДНК (фигура 96C). В отличие от этого, чтобы опосредовать нацеленную интерференцию в отношении ДНК для Cas9 требуется как crRNA, так и tracrRNA (Deltcheva et al., 2011; Zhang et al., 2013).

Пример 10. Cpf1 представляет собой одиночную эндонуклеазу, направляемую crRNA

Сведения от том, что FnCpf1 может опосредовать интерференцию в отношении ДНК с применением только crRNA, являются очень неожиданными, с учетом того, что Cas9 распознает crRNA благодаря дуплексной структуре, образуемой между crRNA и tracrRNA (Jinek et al., 2012; Nishimasu et al., 2014), а также вторичной структуре tracrRNA на 3'-конце (Hsu et al., 2013; Nishimasu et al., 2014). Чтобы убедиться в том, что crRNA на самом деле достаточно для образования активного комплекса с FnCpf1 и опосредования направляемого РНК расщепления ДНК, FnCpf1, дополненную только crRNA, тестировали в отношении расщепления целевой ДНК in vitro. Очищенный FnCpf1 (фигура 103) оценивали в отношении его способности расщеплять ту же самую плазмиду, содержащую протоспейсер 1, которую применяли в экспериментах по интерференции в отношении бактериальной ДНК (фигура 97A). FnCpf1 с in vitro транскрибированной зрелой crRNA, нацеливающейся на протоспейсер 1, был способен эффективно расщеплять целевую плазмиду способом, зависимым от Mg²⁺- и crRNA (фигура 97B). Более того, FnCpf1 был способен расщеплять как сверхспирализованную, так и линейную целевую ДНК (фигура 97C). Эти результаты ясно демонстрируют то, что FnCpf1 и crRNA достаточно для направляемого РНК расщепления ДНК.

Сайт расщепления FnCpf1 также картировали с применением секвенирования по Сэнгеру концов подвергнутой расщеплению ДНК. Опосредованное FnCpf1 расщепление приводит к образованию "липкого" 5'-конца длиной 5 нуклеотидов (фигуры 97A, 97D и 104), что отличается от продукта расщепления с "тупыми" концами, образуемого Cas9 (Garneau et al., 2010; Jinek et al., 2012; Gasiunas et al., 2012). Сайт ступенчатого расщепления под действием FnCpf1 отдален от PAM: расщепление происходит после 18-го основания на не подвергаемой нацеливанию (+) нити и после 23-го основания на подвергаемой нацеливанию (-) нити (фигуры 97A, 97D и 104). Путем применения субстратов на основе двухнитевых олигонуклеотидов с различными последовательностями PAM, также обнаружили, что FnCpf1 расщепляет целевую ДНК, когда PAM 5'-TTN находится в дуплексной форме (фигура 97E), в отличие от PAM для Cas9 (Sternberg et al., 2014).

Пример 11. RuvC-подобный домен Cpf1 опосредует направляемое РНК расщепление ДНК

RuvC-подобный домен Cpf1 сохраняет все каталитические остатки из данного семейства эндонуклеаз (фигуры 98A и 105), и, таким образом, прогнозируется как активная нуклеаза. Получали трех мутантов, FnCpf1(D917A), FnCpf1(E1006A), и FnCpf1(D1225A) (фигура 98A), чтобы протестировать, необходимы ли консервативные каталитические остатки для нуклеазной активности FnCpf1. Мутации D917A и E1006A приводили к полному прекращению активности расщепления ДНК у FnCpf1, а D1255A значительно снижала нуклеолитическую активность (фигура 98B). Эти результаты отличаются от результатов мутагенеза Cas9 Streptococcus pyogenes (SpCas9), в котором мутирование нуклеазных доменов RuvC (D10A) и HNH (N863A) превращает SpCas9 в ДНК-никазу (т. е. инактивация каждого из двух нуклеазных доменов отменяет расщепление одной из нитей ДНК) (Jinek et al., 2012; Gasiunas et al., 2012) (фигура 98B). Такие данные позволяют предположить, что RuvC-подобный домен FnCpf1 расщепляет обе нити целевой ДНК, возможно в димерной конфигурации (фигура 103B).

Пример 12. Последовательность и структура crRNA Cpf1

По сравнению с направляющей РНК для Cas9, в которой тщательно проработаны особенности вторичной структуры РНК, которая взаимодействуют с Cas9 (Nishimasu et al., 2014), направляющая РНК для FnCpf1 является значительно более простой и содержит только одну "петлю-на-стебле" в последовательности прямого повтора (фигура 97A).

Исследовали требования к последовательности и структуре crRNA для опосредования расщепления ДНК под действием FnCpf1. Проверяли длину направляющей последовательности. Наблюдали, что направляющая последовательность длиной 16 нуклеотидов, обеспечивала обнаруживаемое расщепление ДНК, а направляющие последовательности длиной 18 нуклеотидов обеспечивали эффективное расщепление ДНК in vitro (фигура 99A). Такие варианты длины аналогичны длинам, показанным для SpCas9, где спейсерная последовательность длиной 16-17 нуклеотидов была достаточной для расщепления ДНК (Cencic et al., 2014; Fu et al., 2014). Затравочный участок направляющей РНК для FnCpf1 отмечали в пределах первых 6 или 7 нуклеотидов на 5'-конце спейсерной последовательности (фигура 99B).

Исследовали эффект мутаций в последовательности прямого повтора на активность направляемого РНК расщепления ДНК. Длина части зрелой crRNA, представляющей собой прямой повтор, составляет 19 нуклеотидов (фигура 96A). Путем усечения прямого повтора выявили, что для эффективного расщепления ДНК достаточно прямого повтора длиной 16 нуклеотидов, но оптимальным является более 17 нуклеотидов. Мутации в "петле-на-стебле", которые сохраняют РНК-дуплекс, не оказывали воздействия на активность расщепления, в то время как мутации, которые нарушали дуплексную структуру "петля-на-стебле", отменяли расщепление (фигура 99D). Наконец, замены основания в участке петли не оказывали воздействия на нуклеазную активность, в то время как замена U, расположенная в направлении 5' от спейсерной последовательности, значительно снижала активность (фигура 5E). В совокупности, эти результаты позволяют предполагать, что FnCpf1 распознает crRNA благодаря комбинации специфичных к последовательности и структурных особенностей "петли-на-стебле".

Пример 13. Белки семейства Cpf1 от различных бактерий характеризуются общей структурой crRNA и PAM

Чтобы исследовать применение Cpf1 в качестве инструмента для редактирования генома, воспользовались разнообразием белков семейства Cpf1, доступных в общедоступных базах данных последовательностей. Поиск BLAST в базе данных WGS на NCBI выявил 46 неизбыточных белков семейства Cpf1 (фигура 64). 16 были выбраны на основе проведенной заявителями филогенетической реконструкции (фигура 64) как представители разнообразия Cpf1 (фигуры 100A-100B и 106). Длина данных белков семейства Cpf1 находится в диапазоне от ~1200 до ~1500 аминокислот.

Для последовательностей прямого повтора в каждом из данных белков семейства Cpf1 показан сильный консерватизм 19 нуклеотидов на 3'-конце прямого повтора, части повтора, которая включается в процессированную crRNA (фигура 100C). Последовательность на 5'-конце прямого повтора является намного более разнообразной. Из 16 белков семейства Cpf1, выбранных для анализа, три (2 - Lachnospiraceae bacterium MC2017, Lb3Cpf1; 3 - Butyrivibrio proteoclasticus, BpCpf1; и 6 - Smithella sp. SC_K08D17, SsCpf1) были ассоциированы с последовательностями прямого повтора, которые заметно отличались от последовательности прямого повтора для FnCpf1 (фигура 100C). Примечательно, что данные последовательности прямого повтора сохраняли структуры "петля-на-стебле", которые были идентичны или почти идентичны последовательностям прямого повтора для FnCpf1 (фигура 100D).

Ортологичные последовательности прямого повтора тестировали в отношении их способности поддерживать нуклеазную активность FnCpf1 in vitro. Прямые повторы, которые содержали консервативные последовательности стеблевой структуры, были способны функционировать взаимозаменяемо с FnCpf1. Прямой повтор от кандидата 3 (BpCpf1) поддерживал низкий уровень нуклеазной активности FnCpf1 (фигура 100E), возможно вследствие сохранения большинства U на 3'-конце.

In vitro анализ идентификации PAM (фигура 107A) применяли для определения последовательности PAM для каждого белка семейства Cpf1. Последовательности PAM идентифицировали для 7 новых белков семейства Cpf1 (фигуры 100E и 107B-C), и путем скрининга подтвердили, что PAM для FnCpf1 представляет собой 5'-TTN. Последовательности PAM для белков семейства Cpf1 преимущественно характеризовались высоким содержанием T, при этом, прежде всего, варьировало число T, составляющих каждый PAM (фигуры 100F и 107B-C).

Пример 14. Cpf1 можно приспособить для содействия редактированию генома в клетках человека

Белки семейства Cpf1 подвергали кодон-оптимизации и к ним прикрепляли C-концевой сигнал ядерной локализации (NLS) для обеспечения оптимальной экспрессии и нацеливания в ядро клеток человека (фигура 101A). Для тестирования активности каждого белка семейства Cpf1 выбирали целевой сайт для направляющей РНК в пределах гена DNMT1 (фигура 101B). Каждый из белков семейства Cpf1 вместе с его соответствующей crRNA, разработанной для нацеливания на DNMT1, был способен расщеплять ПЦР-ампликон геномного участка DNMT1 in vitro (фигура 101C). При тестировании на клетках эмбриональной почки человека 293FT (HEK 293FT) 2 из белков семейства Cpf1 (7 - AsCpf1 и 13 - LbCpf1) проявляли обнаруживаемые уровни индуцированного нуклеазой образования вставок/делеций при используемых условиях (фигуры 101C и D).

Каждый белок семейства Cpf1 тестировали в отношении дополнительных геномных мишеней. AsCpf1 и LbCpf1 стабильно опосредовали надежное редактирование генома в клетках HEK293FT (фигуры 101E и 108). В сравнении с Cas9 AsCpf1 и LbCpf1 опосредовали сравнимые уровни образования вставок/делеций (фигура 101E). В дополнение, применяли in vitro расщепление с последующим секвенированием по Сэнгеру концов подвергнутой расщеплению ДНК и обнаружили, что 7 - AsCpf1 и 13 - LbCpf1 также образовывали ступенчатые сайты расщепления (фигуры 101D и 107E).

Далее представлены нуклеотидные и аминокислотные последовательности конструкций и ортологов FnCpf1:

Последовательности локуса FnCpf1

pFnCpf1

5'-конец эндогенной ацетилтрансферазы F. novicida (выше локуса FnCpf1)

FnCpf1

Cas4

Cas1

Cas2

Прямые повторы

Спейсер

CATCAAGGAATTGGTTCTAAGCTTATAGAAGCAATGATTAAGGAAGCCAAAAAAAATAATATTGATGCAATATTTGTCTTAGGTCATCCAAGTTATTATCCAAAATTTGGTTTTAAACCAGCCACAGAATATCAGATAAAATGTGAATATGATGTCCCAGCGGATGTTTTTATGGTACTAGATTTGTCAGCTAAACTAGCTAGTTTAAAAGGACAAACTGTCTACTATGCCGATGAGTTTGGCAAAATTTTTTAGATCTACAAAATTATAAACTAAATAAAGATTCTTATAATAACTTTATATATAATCGAAATGTAGAGAATTTTATAAGGAGTCTTTATCATGTCAATTTATCAAGAATTTGTTAATAAATATAGTTTAAGTAAAACTCTAAGATTTGAGTTAATCCCACAGGGTAAAACACTTGAAAACATAAAAGCAAGAGGTTTGATTTTAGATGATGAGAAAAGAGCTAAAGACTACAAAAAGGCTAAACAAATAATTGATAAATATCATCAGTTTTTTATAGAGGAGATATTAAGTTCGGTTTGTATTAGCGAAGATTTATTACAAAACTATTCTGATGTTTATTTTAAACTTAAAAAGAGTGATGATGATAATCTACAAAAAGATTTTAAAAGTGCAAAAGATACGATAAAGAAACAAATATCTGAATATATAAAGGACTCAGAGAAATTTAAGAATTTGTTTAATCAAAACCTTATCGATGCTAAAAAAGGGCAAGAGTCAGATTTAATTCTATGGCTAAAGCAATCTAAGGATAATGGTATAGAACTATTTAAAGCCAATAGTGATATCACAGATATAGATGAGGCGTTAGAAATAATCAAATCTTTTAAAGGTTGGACAACTTATTTTAAGGGTTTTCATGAAAATAGAAAAAATGTTTATAGTAGCAATGATATTCCTACATCTATTATTTATAGGATAGTAGATGATAATTTGCCTAAATTTCTAGAAAATAAAGCTAAGTATGAGAGTTTAAAAGACAAAGCTCCAGAAGCTATAAACTATGAACAAATTAAAAAAGATTTGGCAGAAGAGCTAACCTTTGATATTGACTACAAAACATCTGAAGTTAATCAAAGAGTTTTTTCACTTGATGAAGTTTTTGAGATAGCAAACTTTAATAATTATCTAAATCAAAGTGGTATTACTAAATTTAATACTATTATTGGTGGTAAATTTGTAAATGGTGAAAATACAAAGAGAAAAGGTATAAATGAATATATAAATCTATACTCACAGCAAATAAATGATAAAACACTCAAAAAATATAAAATGAGTGTTTTATTTAAGCAAATTTTAAGTGATACAGAATCTAAATCTTTTGTAATTGATAAGTTAGAAGATGATAGTGATGTAGTTACAACGATGCAAAGTTTTTATGAGCAAATAGCAGCTTTTAAAACAGTAGAAGAAAAATCTATTAAAGAAACACTATCTTTATTATTTGATGATTTAAAAGCTCAAAAACTTGATTTGAGTAAAATTTATTTTAAAAATGATAAATCTCTTACTGATCTATCACAACAAGTTTTTGATGATTATAGTGTTATTGGTACAGCGGTACTAGAATATATAACTCAACAAATAGCACCTAAAAATCTTGATAACCCTAGTAAGAAAGAGCAAGAATTAATAGCCAAAAAAACTGAAAAAGCAAAATACTTATCTCTAGAAACTATAAAGCTTGCCTTAGAAGAATTTAATAAGCATAGAGATATAGATAAACAGTGTAGGTTTGAAGAAATACTTGCAAACTTTGCGGCTATTCCGATGATATTTGATGAAATAGCTCAAAACAAAGACAATTTGGCACAGATATCTATCAAATATCAAAATCAAGGTAAAAAAGACCTACTTCAAGCTAGTGCGGAAGATGATGTTAAAGCTATCAAGGATCTTTTAGATCAAACTAATAATCTCTTACATAAACTAAAAATATTTCATATTAGTCAGTCAGAAGATAAGGCAAATATTTTAGACAAGGATGAGCATTTTTATCTAGTATTTGAGGAGTGCTACTTTGAGCTAGCGAATATAGTGCCTCTTTATAACAAAATTAGAAACTATATAACTCAAAAGCCATATAGTGATGAGAAATTTAAGCTCAATTTTGAGAACTCGACTTTGGCTAATGGTTGGGATAAAAATAAAGAGCCTGACAATACGGCAATTTTATTTATCAAAGATGATAAATATTATCTGGGTGTGATGAATAAGAAAAATAACAAAATATTTGATGATAAAGCTATCAAAGAAAATAAAGGCGAGGGTTATAAAAAAATTGTTTATAAACTTTTACCTGGCGCAAATAAAATGTTACCTAAGGTTTTCTTTTCTGCTAAATCTATAAAATTTTATAATCCTAGTGAAGATATACTTAGAATAAGAAATCATTCCACACATACAAAAAATGGTAGTCCTCAAAAAGGATATGAAAAATTTGAGTTTAATATTGAAGATTGCCGAAAATTTATAGATTTTTATAAACAGTCTATAAGTAAGCATCCGGAGTGGAAAGATTTTGGATTTAGATTTTCTGATACTCAAAGATATAATTCTATAGATGAATTTTATAGAGAAGTTGAAAATCAAGGCTACAAACTAACTTTTGAAAATATATCAGAGAGCTATATTGATAGCGTAGTTAATCAGGGTAAATTGTACCTATTCCAAATCTATAATAAAGATTTTTCAGCTTATAGCAAAGGGCGACCAAATCTACATACTTTATATTGGAAAGCGCTGTTTGATGAGAGAAATCTTCAAGATGTGGTTTATAAGCTAAATGGTGAGGCAGAGCTTTTTTATCGTAAACAATCAATACCTAAAAAAATCACTCACCCAGCTAAAGAGGCAATAGCTAATAAAAACAAAGATAATCCTAAAAAAGAGAGTGTTTTTGAATATGATTTAATCAAAGATAAACGCTTTACTGAAGATAAGTTTTTCTTTCACTGTCCTATTACAATCAATTTTAAATCTAGTGGAGCTAATAAGTTTAATGATGAAATCAATTTATTGCTAAAAGAAAAAGCAAATGATGTTCATATATTAAGTATAGATAGAGGTGAAAGACATTTAGCTTACTATACTTTGGTAGATGGTAAAGGCAATATCATCAAACAAGATACTTTCAACATCATTGGTAATGATAGAATGAAAACAAACTACCATGATAAGCTTGCTGCAATAGAGAAAGATAGGGATTCAGCTAGGAAAGACTGGAAAAAGATAAATAACATCAAAGAGATGAAAGAGGGCTATCTATCTCAGGTAGTTCATGAAATAGCTAAGCTAGTTATAGAGTATAATGCTATTGTGGTTTTTGAGGATTTAAATTTTGGATTTAAAAGAGGGCGTTTCAAGGTAGAGAAGCAGGTCTATCAAAAGTTAGAAAAAATGCTAATTGAGAAACTAAACTATCTAGTTTTCAAAGATAATGAGTTTGATAAAACTGGGGGAGTGCTTAGAGCTTATCAGCTAACAGCACCTTTTGAGACTTTTAAAAAGATGGGTAAACAAACAGGTATTATCTACTATGTACCAGCTGGTTTTACTTCAAAAATTTGTCCTGTAACTGGTTTTGTAAATCAGTTATATCCTAAGTATGAAAGTGTCAGCAAATCTCAAGAGTTCTTTAGTAAGTTTGACAAGATTTGTTATAACCTTGATAAGGGCTATTTTGAGTTTAGTTTTGATTATAAAAACTTTGGTGACAAGGCTGCCAAAGGCAAGTGGACTATAGCTAGCTTTGGGAGTAGATTGATTAACTTTAGAAATTCAGATAAAAATCATAATTGGGATACTCGAGAAGTTTATCCAACTAAAGAGTTGGAGAAATTGCTAAAAGATTATTCTATCGAATATGGGCATGGCGAATGTATCAAAGCAGCTATTTGCGGTGAGAGCGACAAAAAGTTTTTTGCTAAGCTAACTAGTGTCCTAAATACTATCTTACAAATGCGTAACTCAAAAACAGGTACTGAGTTAGATTATCTAATTTCACCAGTAGCAGATGTAAATGGCAATTTCTTTGATTCGCGACAGGCGCCAAAAAATATGCCTCAAGATGCTGATGCCAATGGTGCTTATCATATTGGGCTAAAAGGTCTGATGCTACTAGGTAGGATCAAAAATAATCAAGAGGGCAAAAAACTCAATTTGGTTATCAAAAATGAAGAGTATTTTGAGTTCGTGCAGAATAGGAATAACTAATTCATTCAAGAATATATTACCCTGTCAGTTTAGCGACTATTACCTCTTTAATAATTTGCAGGGGAATTATTTTAGTAATAGTAATATACACAAGAGTTATTGATTATATGGAAAATTATATTTAGATAACATGGTTAAATGATTTTATATTCTGTCCTTACTCGATATATTTGCATAATATCTATAGTAATGCCTCAGATACTACATACTATTCATCTAGCCAAACAAAAGGGCGCGATGCTCATAAAAGTATCGATAAAGGAATCTATAGTACCAAAAAAGATGACCTGATCGGTATCGATGTTATTAACCATAAATATGGTTTGGTTGGTAAAATTGATGTTTTTCATAAAGATAAGGGCTTACTTGTGGAGAGAAAAAGGCAAATCAAGACTATCTATGATGGCTATAAATATCAGCTTTATGCGCAATATTTTTGTCTCCAAGAGATGGGCTATGATGTCAAAGCCATTAAATTTTATTCGATGGTTGATAATAAATCATACCCAATAGCTATACCAACTTCAGCTGAGTTAGAAAAGTTTGAAAAACATATTCAAACAATCAAGCAATATAATCCAATGGATAACTCATTTAGGCAAAATATTGAAAAGTGTAAATTTTGTATATATGCAAACTTATGTGATAAAACGGACTTGTAGATTATGTTTAGTAAAAATGATATTGAATCAAAGAATATAGTTTTTGTTAATATTTTTGATGGAGTGAAACTTAGTCTATCATTGGGGAATATAGTTATAAAAGATAAAGAAACTGATGAGGTGAAAACTAAGCTTTCTGTTCATAAAGTTCTTGCATTGTTTATCGTAGGTAATATGACGATGACCTCGCAACTTTTAGAGACCTGTAAGAAAAATGCTATACAGCTAGTTTTTATGAAAAATAGCTTTAGACCATATCTATGTTTTGGTGATATTGCTGAGGCTAATTTTTTAGCTAGATATAAGCAATATAGTGTAGTTGAGCAAGATATAAGTTTAGCAAGGATTTTTATAACATCAAAGATACGCAATCAACATAACTTAGTCAAAAGCCTAAGAGATAAAACTCCAGAGCAGCAAGAGATAGTCAAAAAGAATAAACAGCTAATAGCAGAGTTAGAAAATACAACAAGCCTAGCGGAGCTAATGGGTATAGAGGGCAATGTTGCCAAAAATTTCTTCAAAGGATTCTATGGACATTTAGATAGTTGGCAAGGGCGCAAACCTAGAATAAAACAGGATCCATATAATGTTGTTTTAGACTTGGGCTATAGTATGTTGTTTAATTTTGTAGAGTGTTTTTTGCGACTTTTTGGCTTTGATTTATACAAGGGCTTTTGTCATCAGACTTGGTATAAGCGTAAATCCCTAGTTTGTGACTTTGTTGAGCCATTTAGATGTATAGTGGATAACCAAGTTAGAAAATCATGGAATCTCGGGCAATTTTCTGTAGAGGATTTTGGTTGCAAAAATGAGCAGTTTTATATAAAAAAAGATAAAACAAAAGACTACTCAAAAATACTTTTTGCCGAGATTATCAGCTACAAGCTAGAGATATTTGAATATGTAAGAGAATTTTATCGTGCCTTTATGCGAGGCAAAGAAATTGCAGAGTATCCAATATTTTGTTATGAAACTAGGAGGGTGTATGTTGATAGTCAGTTATGATTTTAGTAATAATAAAGTACGTGCAAAGTTTGCCAAATTTCTAGAAAGTTATGGTGTACGTTTACAATATTCGGTATTTGAGCTCAAATATAGCAAGAGAATGTTAGACTTGATTTTAGCTGAGATAGAAAATAACTATGTACCACTATTTACAAATGCTGATAGTGTTTTAATCTTTAATGCTCCAGATAAAGATGTGATAAAATATGGTTATGCGATTCATAGAGAACAAGAGGTTGTTTTTATAGACTAAAAATTGCAAACCTTAGTCTTTATGTTAAAATAACTACTAAGTTCTTAGAGATATTTAAAAATATGACTGTTGTTATATATCAAAATGCTAAAAAAATCATAGATTTTAGGTCTTTTTTTGCTGATTTAGGCAAAAACGGGTCTAAGAACTTTAAATAATTTCTACTGTTGTAGATGAGAAGTCATTTAATAAGGCCACTGTTAAAAGTCTAAGAACTTTAAATAATTTCTACTGTTGTAGATGCTACTATTCCTGTGCCTTCAGATAATTCAGTCTAAGAACTTTAAATAATTTCTACTGTTGTAGATGTCTAGAGCCTTTTGTATTAGTAGCCGGTCTAAGAACTTTAAATAATTTCTACTGTTGTAGATTAGCGATTTATGAAGGTCATTTTTTTGTCT (SEQ ID NO: 211).

pFnCpf1_min

Промотор Lac

Последовательность Шайна-Дальгарно

FnCpf1

Промотор J23119

Прямые повторы

Спейсер

TTTACACTTTATGCTTCCGGCTCGTATGTTAGGAGGTCTTTATCATGTCAATTTATCAAGAATTTGTTAATAAATATAGTTTAAGTAAAACTCTAAGATTTGAGTTAATCCCACAGGGTAAAACACTTGAAAACATAAAAGCAAGAGGTTTGATTTTAGATGATGAGAAAAGAGCTAAAGACTACAAAAAGGCTAAACAAATAATTGATAAATATCATCAGTTTTTTATAGAGGAGATATTAAGTTCGGTTTGTATTAGCGAAGATTTATTACAAAACTATTCTGATGTTTATTTTAAACTTAAAAAGAGTGATGATGATAATCTACAAAAAGATTTTAAAAGTGCAAAAGATACGATAAAGAAACAAATATCTGAATATATAAAGGACTCAGAGAAATTTAAGAATTTGTTTAATCAAAACCTTATCGATGCTAAAAAAGGGCAAGAGTCAGATTTAATTCTATGGCTAAAGCAATCTAAGGATAATGGTATAGAACTATTTAAAGCCAATAGTGATATCACAGATATAGATGAGGCGTTAGAAATAATCAAATCTTTTAAAGGTTGGACAACTTATTTTAAGGGTTTTCATGAAAATAGAAAAAATGTTTATAGTAGCAATGATATTCCTACATCTATTATTTATAGGATAGTAGATGATAATTTGCCTAAATTTCTAGAAAATAAAGCTAAGTATGAGAGTTTAAAAGACAAAGCTCCAGAAGCTATAAACTATGAACAAATTAAAAAAGATTTGGCAGAAGAGCTAACCTTTGATATTGACTACAAAACATCTGAAGTTAATCAAAGAGTTTTTTCACTTGATGAAGTTTTTGAGATAGCAAACTTTAATAATTATCTAAATCAAAGTGGTATTACTAAATTTAATACTATTATTGGTGGTAAATTTGTAAATGGTGAAAATACAAAGAGAAAAGGTATAAATGAATATATAAATCTATACTCACAGCAAATAAATGATAAAACACTCAAAAAATATAAAATGAGTGTTTTATTTAAGCAAATTTTAAGTGATACAGAATCTAAATCTTTTGTAATTGATAAGTTAGAAGATGATAGTGATGTAGTTACAACGATGCAAAGTTTTTATGAGCAAATAGCAGCTTTTAAAACAGTAGAAGAAAAATCTATTAAAGAAACACTATCTTTATTATTTGATGATTTAAAAGCTCAAAAACTTGATTTGAGTAAAATTTATTTTAAAAATGATAAATCTCTTACTGATCTATCACAACAAGTTTTTGATGATTATAGTGTTATTGGTACAGCGGTACTAGAATATATAACTCAACAAATAGCACCTAAAAATCTTGATAACCCTAGTAAGAAAGAGCAAGAATTAATAGCCAAAAAAACTGAAAAAGCAAAATACTTATCTCTAGAAACTATAAAGCTTGCCTTAGAAGAATTTAATAAGCATAGAGATATAGATAAACAGTGTAGGTTTGAAGAAATACTTGCAAACTTTGCGGCTATTCCGATGATATTTGATGAAATAGCTCAAAACAAAGACAATTTGGCACAGATATCTATCAAATATCAAAATCAAGGTAAAAAAGACCTACTTCAAGCTAGTGCGGAAGATGATGTTAAAGCTATCAAGGATCTTTTAGATCAAACTAATAATCTCTTACATAAACTAAAAATATTTCATATTAGTCAGTCAGAAGATAAGGCAAATATTTTAGACAAGGATGAGCATTTTTATCTAGTATTTGAGGAGTGCTACTTTGAGCTAGCGAATATAGTGCCTCTTTATAACAAAATTAGAAACTATATAACTCAAAAGCCATATAGTGATGAGAAATTTAAGCTCAATTTTGAGAACTCGACTTTGGCTAATGGTTGGGATAAAAATAAAGAGCCTGACAATACGGCAATTTTATTTATCAAAGATGATAAATATTATCTGGGTGTGATGAATAAGAAAAATAACAAAATATTTGATGATAAAGCTATCAAAGAAAATAAAGGCGAGGGTTATAAAAAAATTGTTTATAAACTTTTACCTGGCGCAAATAAAATGTTACCTAAGGTTTTCTTTTCTGCTAAATCTATAAAATTTTATAATCCTAGTGAAGATATACTTAGAATAAGAAATCATTCCACACATACAAAAAATGGTAGTCCTCAAAAAGGATATGAAAAATTTGAGTTTAATATTGAAGATTGCCGAAAATTTATAGATTTTTATAAACAGTCTATAAGTAAGCATCCGGAGTGGAAAGATTTTGGATTTAGATTTTCTGATACTCAAAGATATAATTCTATAGATGAATTTTATAGAGAAGTTGAAAATCAAGGCTACAAACTAACTTTTGAAAATATATCAGAGAGCTATATTGATAGCGTAGTTAATCAGGGTAAATTGTACCTATTCCAAATCTATAATAAAGATTTTTCAGCTTATAGCAAAGGGCGACCAAATCTACATACTTTATATTGGAAAGCGCTGTTTGATGAGAGAAATCTTCAAGATGTGGTTTATAAGCTAAATGGTGAGGCAGAGCTTTTTTATCGTAAACAATCAATACCTAAAAAAATCACTCACCCAGCTAAAGAGGCAATAGCTAATAAAAACAAAGATAATCCTAAAAAAGAGAGTGTTTTTGAATATGATTTAATCAAAGATAAACGCTTTACTGAAGATAAGTTTTTCTTTCACTGTCCTATTACAATCAATTTTAAATCTAGTGGAGCTAATAAGTTTAATGATGAAATCAATTTATTGCTAAAAGAAAAAGCAAATGATGTTCATATATTAAGTATAGATAGAGGTGAAAGACATTTAGCTTACTATACTTTGGTAGATGGTAAAGGCAATATCATCAAACAAGATACTTTCAACATCATTGGTAATGATAGAATGAAAACAAACTACCATGATAAGCTTGCTGCAATAGAGAAAGATAGGGATTCAGCTAGGAAAGACTGGAAAAAGATAAATAACATCAAAGAGATGAAAGAGGGCTATCTATCTCAGGTAGTTCATGAAATAGCTAAGCTAGTTATAGAGTATAATGCTATTGTGGTTTTTGAGGATTTAAATTTTGGATTTAAAAGAGGGCGTTTCAAGGTAGAGAAGCAGGTCTATCAAAAGTTAGAAAAAATGCTAATTGAGAAACTAAACTATCTAGTTTTCAAAGATAATGAGTTTGATAAAACTGGGGGAGTGCTTAGAGCTTATCAGCTAACAGCACCTTTTGAGACTTTTAAAAAGATGGGTAAACAAACAGGTATTATCTACTATGTACCAGCTGGTTTTACTTCAAAAATTTGTCCTGTAACTGGTTTTGTAAATCAGTTATATCCTAAGTATGAAAGTGTCAGCAAATCTCAAGAGTTCTTTAGTAAGTTTGACAAGATTTGTTATAACCTTGATAAGGGCTATTTTGAGTTTAGTTTTGATTATAAAAACTTTGGTGACAAGGCTGCCAAAGGCAAGTGGACTATAGCTAGCTTTGGGAGTAGATTGATTAACTTTAGAAATTCAGATAAAAATCATAATTGGGATACTCGAGAAGTTTATCCAACTAAAGAGTTGGAGAAATTGCTAAAAGATTATTCTATCGAATATGGGCATGGCGAATGTATCAAAGCAGCTATTTGCGGTGAGAGCGACAAAAAGTTTTTTGCTAAGCTAACTAGTGTCCTAAATACTATCTTACAAATGCGTAACTCAAAAACAGGTACTGAGTTAGATTATCTAATTTCACCAGTAGCAGATGTAAATGGCAATTTCTTTGATTCGCGACAGGCGCCAAAAAATATGCCTCAAGATGCTGATGCCAATGGTGCTTATCATATTGGGCTAAAAGGTCTGATGCTACTAGGTAGGATCAAAAATAATCAAGAGGGCAAAAAACTCAATTTGGTTATCAAAAATGAAGAGTATTTTGAGTTCGTGCAGAATAGGAATAACTAATTGACAGCTAGCTCAGTCCTAGGTATAATGCTAGCGCTGATTTAGGCAAAAACGGGTCTAAGAACTTTAAATAATTTCTACTGTTGTAGATGAGAAGTCATTTAATAAGGCCACTGTTAAAAGTCTAAGAACTTTAAATAATTTCTACTGTTGTAGATGCTACTATTCCTGTGCCTTCAGATAATTCAGTCTAAGAACTTTAAATAATTTCTACTGTTGTAGA (SEQ ID NO: 212)

pFnCpf1_∆Cas

5'-конец эндогенной ацетилтрансферазы F. novicida (выше локуса FnCpf1

FnCpf1

Прямые повторы

Спейсер

CTGTCTACTATGCCGATGAGTTTGGCAAAATTTTTTAGATCTACAAAATTATAAACTAAATAAAGATTCTTATAATAACTTTATATATAATCGAAATGTAGAGAATTTTATAAGGAGTCTTTATCATGTCAATTTATCAAGAATTTGTTAATAAATATAGTTTAAGTAAAACTCTAAGATTTGAGTTAATCCCACAGGGTAAAACACTTGAAAACATAAAAGCAAGAGGTTTGATTTTAGATGATGAGAAAAGAGCTAAAGACTACAAAAAGGCTAAACAAATAATTGATAAATATCATCAGTTTTTTATAGAGGAGATATTAAGTTCGGTTTGTATTAGCGAAGATTTATTACAAAACTATTCTGATGTTTATTTTAAACTTAAAAAGAGTGATGATGATAATCTACAAAAAGATTTTAAAAGTGCAAAAGATACGATAAAGAAACAAATATCTGAATATATAAAGGACTCAGAGAAATTTAAGAATTTGTTTAATCAAAACCTTATCGATGCTAAAAAAGGGCAAGAGTCAGATTTAATTCTATGGCTAAAGCAATCTAAGGATAATGGTATAGAACTATTTAAAGCCAATAGTGATATCACAGATATAGATGAGGCGTTAGAAATAATCAAATCTTTTAAAGGTTGGACAACTTATTTTAAGGGTTTTCATGAAAATAGAAAAAATGTTTATAGTAGCAATGATATTCCTACATCTATTATTTATAGGATAGTAGATGATAATTTGCCTAAATTTCTAGAAAATAAAGCTAAGTATGAGAGTTTAAAAGACAAAGCTCCAGAAGCTATAAACTATGAACAAATTAAAAAAGATTTGGCAGAAGAGCTAACCTTTGATATTGACTACAAAACATCTGAAGTTAATCAAAGAGTTTTTTCACTTGATGAAGTTTTTGAGATAGCAAACTTTAATAATTATCTAAATCAAAGTGGTATTACTAAATTTAATACTATTATTGGTGGTAAATTTGTAAATGGTGAAAATACAAAGAGAAAAGGTATAAATGAATATATAAATCTATACTCACAGCAAATAAATGATAAAACACTCAAAAAATATAAAATGAGTGTTTTATTTAAGCAAATTTTAAGTGATACAGAATCTAAATCTTTTGTAATTGATAAGTTAGAAGATGATAGTGATGTAGTTACAACGATGCAAAGTTTTTATGAGCAAATAGCAGCTTTTAAAACAGTAGAAGAAAAATCTATTAAAGAAACACTATCTTTATTATTTGATGATTTAAAAGCTCAAAAACTTGATTTGAGTAAAATTTATTTTAAAAATGATAAATCTCTTACTGATCTATCACAACAAGTTTTTGATGATTATAGTGTTATTGGTACAGCGGTACTAGAATATATAACTCAACAAATAGCACCTAAAAATCTTGATAACCCTAGTAAGAAAGAGCAAGAATTAATAGCCAAAAAAACTGAAAAAGCAAAATACTTATCTCTAGAAACTATAAAGCTTGCCTTAGAAGAATTTAATAAGCATAGAGATATAGATAAACAGTGTAGGTTTGAAGAAATACTTGCAAACTTTGCGGCTATTCCGATGATATTTGATGAAATAGCTCAAAACAAAGACAATTTGGCACAGATATCTATCAAATATCAAAATCAAGGTAAAAAAGACCTACTTCAAGCTAGTGCGGAAGATGATGTTAAAGCTATCAAGGATCTTTTAGATCAAACTAATAATCTCTTACATAAACTAAAAATATTTCATATTAGTCAGTCAGAAGATAAGGCAAATATTTTAGACAAGGATGAGCATTTTTATCTAGTATTTGAGGAGTGCTACTTTGAGCTAGCGAATATAGTGCCTCTTTATAACAAAATTAGAAACTATATAACTCAAAAGCCATATAGTGATGAGAAATTTAAGCTCAATTTTGAGAACTCGACTTTGGCTAATGGTTGGGATAAAAATAAAGAGCCTGACAATACGGCAATTTTATTTATCAAAGATGATAAATATTATCTGGGTGTGATGAATAAGAAAAATAACAAAATATTTGATGATAAAGCTATCAAAGAAAATAAAGGCGAGGGTTATAAAAAAATTGTTTATAAACTTTTACCTGGCGCAAATAAAATGTTACCTAAGGTTTTCTTTTCTGCTAAATCTATAAAATTTTATAATCCTAGTGAAGATATACTTAGAATAAGAAATCATTCCACACATACAAAAAATGGTAGTCCTCAAAAAGGATATGAAAAATTTGAGTTTAATATTGAAGATTGCCGAAAATTTATAGATTTTTATAAACAGTCTATAAGTAAGCATCCGGAGTGGAAAGATTTTGGATTTAGATTTTCTGATACTCAAAGATATAATTCTATAGATGAATTTTATAGAGAAGTTGAAAATCAAGGCTACAAACTAACTTTTGAAAATATATCAGAGAGCTATATTGATAGCGTAGTTAATCAGGGTAAATTGTACCTATTCCAAATCTATAATAAAGATTTTTCAGCTTATAGCAAAGGGCGACCAAATCTACATACTTTATATTGGAAAGCGCTGTTTGATGAGAGAAATCTTCAAGATGTGGTTTATAAGCTAAATGGTGAGGCAGAGCTTTTTTATCGTAAACAATCAATACCTAAAAAAATCACTCACCCAGCTAAAGAGGCAATAGCTAATAAAAACAAAGATAATCCTAAAAAAGAGAGTGTTTTTGAATATGATTTAATCAAAGATAAACGCTTTACTGAAGATAAGTTTTTCTTTCACTGTCCTATTACAATCAATTTTAAATCTAGTGGAGCTAATAAGTTTAATGATGAAATCAATTTATTGCTAAAAGAAAAAGCAAATGATGTTCATATATTAAGTATAGATAGAGGTGAAAGACATTTAGCTTACTATACTTTGGTAGATGGTAAAGGCAATATCATCAAACAAGATACTTTCAACATCATTGGTAATGATAGAATGAAAACAAACTACCATGATAAGCTTGCTGCAATAGAGAAAGATAGGGATTCAGCTAGGAAAGACTGGAAAAAGATAAATAACATCAAAGAGATGAAAGAGGGCTATCTATCTCAGGTAGTTCATGAAATAGCTAAGCTAGTTATAGAGTATAATGCTATTGTGGTTTTTGAGGATTTAAATTTTGGATTTAAAAGAGGGCGTTTCAAGGTAGAGAAGCAGGTCTATCAAAAGTTAGAAAAAATGCTAATTGAGAAACTAAACTATCTAGTTTTCAAAGATAATGAGTTTGATAAAACTGGGGGAGTGCTTAGAGCTTATCAGCTAACAGCACCTTTTGAGACTTTTAAAAAGATGGGTAAACAAACAGGTATTATCTACTATGTACCAGCTGGTTTTACTTCAAAAATTTGTCCTGTAACTGGTTTTGTAAATCAGTTATATCCTAAGTATGAAAGTGTCAGCAAATCTCAAGAGTTCTTTAGTAAGTTTGACAAGATTTGTTATAACCTTGATAAGGGCTATTTTGAGTTTAGTTTTGATTATAAAAACTTTGGTGACAAGGCTGCCAAAGGCAAGTGGACTATAGCTAGCTTTGGGAGTAGATTGATTAACTTTAGAAATTCAGATAAAAATCATAATTGGGATACTCGAGAAGTTTATCCAACTAAAGAGTTGGAGAAATTGCTAAAAGATTATTCTATCGAATATGGGCATGGCGAATGTATCAAAGCAGCTATTTGCGGTGAGAGCGACAAAAAGTTTTTTGCTAAGCTAACTAGTGTCCTAAATACTATCTTACAAATGCGTAACTCAAAAACAGGTACTGAGTTAGATTATCTAATTTCACCAGTAGCAGATGTAAATGGCAATTTCTTTGATTCGCGACAGGCGCCAAAAAATATGCCTCAAGATGCTGATGCCAATGGTGCTTATCATATTGGGCTAAAAGGTCTGATGCTACTAGGTAGGATCAAAAATAATCAAGAGGGCAAAAAACTCAATTTGGTTATCAAAAATGAAGAGTATTTTGAGTTCGTGCAGAATAGGAATAACTAATTCATTCAAGAATATATTACCCTGTCAGTTTAGCGACTATTACCTCTTTAATAATTTGCAGGGGAATTATTTTAGTAATAGTAATATACACAAGAGTTATTGATTATATGGAAAATTATATTTAGATAACATGGTTAAATGATTTTATATTCTGTCCTTACTCGATATATTTTTTATAGACTAAAAATTGCAAACCTTAGTCTTTATGTTAAAATAACTACTAAGTTCTTAGAGATATTTAAAAATATGACTGTTGTTATATATCAAAATGCTAAAAAAATCATAGATTTTAGGTCTTTTTTTGCTGATTTAGGCAAAAACGGGTCTAAGAACTTTAAATAATTTCTACTGTTGTAGATGAGAAGTCATTTAATAAGGCCACTGTTAAAAGTCTAAGAACTTTAAATAATTTCTACTGTTGTAGATGCTACTATTCCTGTGCCTTCAGATAATTCAGTCTAAGAACTTTAAATAATTTCTACTGTTGTAGATGTCTAGAGCCTTTTGTATTAGTAGCCGGTCTAAGAACTTTAAATAATTTCTACTGTTGTAGATTAGCGATTTATGAAGGTCATTTTTTTGTCT (SEQ ID NO: 213).

Нуклеотидные последовательности ортологов Cpf1, кодон-оптимизированных для человека

Сигнал ядерной локализации (NLS)

Глицин-сериновый линкер

3x HA-метка

1- Francisella tularensis subsp. Novicida U112 (FnCpf1)

ATGAGCATCTACCAGGAGTTCGTCAACAAGTATTCACTGAGTAAGACACTGCGGTTCGAGCTGATCCCACAGGGCAAGACACTGGAGAACATCAAGGCCCGAGGCCTGATTCTGGACGATGAGAAGCGGGCAAAAGACTATAAGAAAGCCAAGCAGATCATTGATAAATACCACCAGTTCTTTATCGAGGAAATTCTGAGCTCCGTGTGCATCAGTGAGGATCTGCTGCAGAATTACTCAGACGTGTACTTCAAGCTGAAGAAGAGCGACGATGACAACCTGCAGAAGGACTTCAAGTCCGCCAAGGACACCATCAAGAAACAGATTAGCGAGTACATCAAGGACTCCGAAAAGTTTAAAAATCTGTTCAACCAGAATCTGATCGATGCTAAGAAAGGCCAGGAGTCCGACCTGATCCTGTGGCTGAAACAGTCTAAGGACAATGGGATTGAACTGTTCAAGGCTAACTCCGATATCACTGATATTGACGAGGCACTGGAAATCATCAAGAGCTTCAAGGGATGGACCACATACTTTAAAGGCTTCCACGAGAACCGCAAGAACGTGTACTCCAGCAACGACATTCCTACCTCCATCATCTACCGAATCGTCGATGACAATCTGCCAAAGTTCCTGGAGAACAAGGCCAAATATGAATCTCTGAAGGACAAAGCTCCCGAGGCAATTAATTACGAACAGATCAAGAAAGATCTGGCTGAGGAACTGACATTCGATATCGACTATAAGACTAGCGAGGTGAACCAGAGGGTCTTTTCCCTGGACGAGGTGTTTGAAATCGCCAATTTCAACAATTACCTGAACCAGTCCGGCATTACTAAATTCAATACCATCATTGGCGGGAAGTTTGTGAACGGGGAGAATACCAAGCGCAAGGGAATTAACGAATACATCAATCTGTATAGCCAGCAGATCAACGACAAAACTCTGAAGAAATACAAGATGTCTGTGCTGTTCAAACAGATCCTGAGTGATACCGAGTCCAAGTCTTTTGTCATTGATAAACTGGAAGATGACTCAGACGTGGTCACTACCATGCAGAGCTTTTATGAGCAGATCGCCGCTTTCAAGACAGTGGAGGAAAAATCTATTAAGGAAACTCTGAGTCTGCTGTTCGATGACCTGAAAGCCCAGAAGCTGGACCTGAGTAAGATCTACTTCAAAAACGATAAGAGTCTGACAGACCTGTCACAGCAGGTGTTTGATGACTATTCCGTGATTGGGACCGCCGTCCTGGAGTACATTACACAGCAGATCGCTCCAAAGAACCTGGATAATCCCTCTAAGAAAGAGCAGGAACTGATCGCTAAGAAAACCGAGAAGGCAAAATATCTGAGTCTGGAAACAATTAAGCTGGCACTGGAGGAGTTCAACAAGCACAGGGATATTGACAAACAGTGCCGCTTTGAGGAAATCCTGGCCAACTTCGCAGCCATCCCCATGATTTTTGATGAGATCGCCCAGAACAAAGACAATCTGGCTCAGATCAGTATTAAGTACCAGAACCAGGGCAAGAAAGACCTGCTGCAGGCTTCAGCAGAAGATGACGTGAAAGCCATCAAGGATCTGCTGGACCAGACCAACAATCTGCTGCACAAGCTGAAAATCTTCCATATTAGTCAGTCAGAGGATAAGGCTAATATCCTGGATAAAGACGAACACTTCTACCTGGTGTTCGAGGAATGTTACTTCGAGCTGGCAAACATTGTCCCCCTGTATAACAAGATTAGGAACTACATCACACAGAAGCCTTACTCTGACGAGAAGTTTAAACTGAACTTCGAAAATAGTACCCTGGCCAACGGGTGGGATAAGAACAAGGAGCCTGACAACACAGCTATCCTGTTCATCAAGGATGACAAGTACTATCTGGGAGTGATGAATAAGAAAAACAATAAGATCTTCGATGACAAAGCCATTAAGGAGAACAAAGGGGAAGGATACAAGAAAATCGTGTATAAGCTGCTGCCCGGCGCAAATAAGATGCTGCCTAAGGTGTTCTTCAGCGCCAAGAGTATCAAATTCTACAACCCATCCGAGGACATCCTGCGGATTAGAAATCACTCAACACATACTAAGAACGGGAGCCCCCAGAAGGGATATGAGAAATTTGAGTTCAACATCGAGGATTGCAGGAAGTTTATTGACTTCTACAAGCAGAGCATCTCCAAACACCCTGAATGGAAGGATTTTGGCTTCCGGTTTTCCGACACACAGAGATATAACTCTATCGACGAGTTCTACCGCGAGGTGGAAAATCAGGGGTATAAGCTGACTTTTGAGAACATTTCTGAAAGTTACATCGACAGCGTGGTCAATCAGGGAAAGCTGTACCTGTTCCAGATCTATAACAAAGATTTTTCAGCATACAGCAAGGGCAGACCAAACCTGCATACACTGTACTGGAAGGCCCTGTTCGATGAGAGGAATCTGCAGGACGTGGTCTATAAACTGAACGGAGAGGCCGAACTGTTTTACCGGAAGCAGTCTATTCCTAAGAAAATCACTCACCCAGCTAAGGAGGCCATCGCTAACAAGAACAAGGACAATCCTAAGAAAGAGAGCGTGTTCGAATACGATCTGATTAAGGACAAGCGGTTCACCGAAGATAAGTTCTTTTTCCATTGTCCAATCACCATTAACTTCAAGTCAAGCGGCGCTAACAAGTTCAACGACGAGATCAATCTGCTGCTGAAGGAAAAAGCAAACGATGTGCACATCCTGAGCATTGACCGAGGAGAGCGGCATCTGGCCTACTATACCCTGGTGGATGGCAAAGGGAATATCATTAAGCAGGATACATTCAACATCATTGGCAATGACCGGATGAAAACCAACTACCACGATAAACTGGCTGCAATCGAGAAGGATAGAGACTCAGCTAGGAAGGACTGGAAGAAAATCAACAACATTAAGGAGATGAAGGAAGGCTATCTGAGCCAGGTGGTCCATGAGATTGCAAAGCTGGTCATCGAATACAATGCCATTGTGGTGTTCGAGGATCTGAACTTCGGCTTTAAGAGGGGGCGCTTTAAGGTGGAAAAACAGGTCTATCAGAAGCTGGAGAAAATGCTGATCGAAAAGCTGAATTACCTGGTGTTTAAAGATAACGAGTTCGACAAGACCGGAGGCGTCCTGAGAGCCTACCAGCTGACAGCTCCCTTTGAAACTTTCAAGAAAATGGGAAAACAGACAGGCATCATCTACTATGTGCCAGCCGGATTCACTTCCAAGATCTGCCCCGTGACCGGCTTTGTCAACCAGCTGTACCCTAAATATGAGTCAGTGAGCAAGTCCCAGGAATTTTTCAGCAAGTTCGATAAGATCTGTTATAATCTGGACAAGGGGTACTTCGAGTTTTCCTTCGATTACAAGAACTTCGGCGACAAGGCCGCTAAGGGGAAATGGACCATTGCCTCCTTCGGATCTCGCCTGATCAACTTTCGAAATTCCGATAAAAACCACAATTGGGACACTAGGGAGGTGTACCCAACCAAGGAGCTGGAAAAGCTGCTGAAAGACTACTCTATCGAGTATGGACATGGCGAATGCATCAAGGCAGCCATCTGTGGCGAGAGTGATAAGAAATTTTTCGCCAAGCTGACCTCAGTGCTGAATACAATCCTGCAGATGCGGAACTCAAAGACCGGGACAGAACTGGACTATCTGATTAGCCCCGTGGCTGATGTCAACGGAAACTTCTTCGACAGCAGACAGGCACCCAAAAATATGCCTCAGGATGCAGACGCCAACGGGGCCTACCACATCGGGCTGAAGGGACTGATGCTGCTGGGCCGGATCAAGAACAATCAGGAGGGGAAGAAGCTGAACCTGGTCATTAAGAACGAGGAATACTTCGAGTTTGTCCAGAATAGAAATAACAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAGGGATCCTACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCC (SEQ ID NO: 214).

3- Lachnospiraceae bacterium MC2017 (Lb3Cpf1)

ATGGATTACGGCAACGGCCAGTTTGAGCGGAGAGCCCCCCTGACCAAGACAATCACCCTGCGCCTGAAGCCTATCGGCGAGACACGGGAGACAATCCGCGAGCAGAAGCTGCTGGAGCAGGACGCCGCCTTCAGAAAGCTGGTGGAGACAGTGACCCCTATCGTGGACGATTGTATCAGGAAGATCGCCGATAACGCCCTGTGCCACTTTGGCACCGAGTATGACTTCAGCTGTCTGGGCAACGCCATCTCTAAGAATGACAGCAAGGCCATCAAGAAGGAGACAGAGAAGGTGGAGAAGCTGCTGGCCAAGGTGCTGACCGAGAATCTGCCAGATGGCCTGCGCAAGGTGAACGACATCAATTCCGCCGCCTTTATCCAGGATACACTGACCTCTTTCGTGCAGGACGATGCCGACAAGCGGGTGCTGATCCAGGAGCTGAAGGGCAAGACCGTGCTGATGCAGCGGTTCCTGACCACACGGATCACAGCCCTGACCGTGTGGCTGCCCGACAGAGTGTTCGAGAACTTTAATATCTTCATCGAGAACGCCGAGAAGATGAGAATCCTGCTGGACTCCCCTCTGAATGAGAAGATCATGAAGTTTGACCCAGATGCCGAGCAGTACGCCTCTCTGGAGTTCTATGGCCAGTGCCTGTCTCAGAAGGACATCGATAGCTACAACCTGATCATCTCCGGCATCTATGCCGACGATGAGGTGAAGAACCCTGGCATCAATGAGATCGTGAAGGAGTACAATCAGCAGATCCGGGGCGACAAGGATGAGTCCCCACTGCCCAAGCTGAAGAAGCTGCACAAGCAGATCCTGATGCCAGTGGAGAAGGCCTTCTTTGTGCGCGTGCTGTCTAACGACAGCGATGCCCGGAGCATCCTGGAGAAGATCCTGAAGGACACAGAGATGCTGCCCTCCAAGATCATCGAGGCCATGAAGGAGGCAGATGCAGGCGACATCGCCGTGTACGGCAGCCGGCTGCACGAGCTGAGCCACGTGATCTACGGCGATCACGGCAAGCTGTCCCAGATCATCTATGACAAGGAGTCCAAGAGGATCTCTGAGCTGATGGAGACACTGTCTCCAAAGGAGCGCAAGGAGAGCAAGAAGCGGCTGGAGGGCCTGGAGGAGCACATCAGAAAGTCTACATACACCTTCGACGAGCTGAACAGGTATGCCGAGAAGAATGTGATGGCAGCATACATCGCAGCAGTGGAGGAGTCTTGTGCCGAGATCATGAGAAAGGAGAAGGATCTGAGGACCCTGCTGAGCAAGGAGGACGTGAAGATCCGGGGCAACAGACACAATACACTGATCGTGAAGAACTACTTTAATGCCTGGACCGTGTTCCGGAACCTGATCAGAATCCTGAGGCGCAAGTCCGAGGCCGAGATCGACTCTGACTTCTACGATGTGCTGGACGATTCCGTGGAGGTGCTGTCTCTGACATACAAGGGCGAGAATCTGTGCCGCAGCTATATCACCAAGAAGATCGGCTCCGACCTGAAGCCCGAGATCGCCACATACGGCAGCGCCCTGAGGCCTAACAGCCGCTGGTGGTCCCCAGGAGAGAAGTTTAATGTGAAGTTCCACACCATCGTGCGGAGAGATGGCCGGCTGTACTATTTCATCCTGCCCAAGGGCGCCAAGCCTGTGGAGCTGGAGGACATGGATGGCGACATCGAGTGTCTGCAGATGAGAAAGATCCCTAACCCAACAATCTTTCTGCCCAAGCTGGTGTTCAAGGACCCTGAGGCCTTCTTTAGGGATAATCCAGAGGCCGACGAGTTCGTGTTTCTGAGCGGCATGAAGGCCCCCGTGACAATCACCAGAGAGACATACGAGGCCTACAGGTATAAGCTGTATACCGTGGGCAAGCTGCGCGATGGCGAGGTGTCCGAAGAGGAGTACAAGCGGGCCCTGCTGCAGGTGCTGACCGCCTACAAGGAGTTTCTGGAGAACAGAATGATCTATGCCGACCTGAATTTCGGCTTTAAGGATCTGGAGGAGTATAAGGACAGCTCCGAGTTTATCAAGCAGGTGGAGACACACAACACCTTCATGTGCTGGGCCAAGGTGTCTAGCTCCCAGCTGGACGATCTGGTGAAGTCTGGCAACGGCCTGCTGTTCGAGATCTGGAGCGAGCGCCTGGAGTCCTACTATAAGTACGGCAATGAGAAGGTGCTGCGGGGCTATGAGGGCGTGCTGCTGAGCATCCTGAAGGATGAGAACCTGGTGTCCATGCGGACCCTGCTGAACAGCCGGCCCATGCTGGTGTACCGGCCAAAGGAGTCTAGCAAGCCTATGGTGGTGCACCGGGATGGCAGCAGAGTGGTGGACAGGTTTGATAAGGACGGCAAGTACATCCCCCCTGAGGTGCACGACGAGCTGTATCGCTTCTTTAACAATCTGCTGATCAAGGAGAAGCTGGGCGAGAAGGCCCGGAAGATCCTGGACAACAAGAAGGTGAAGGTGAAGGTGCTGGAGAGCGAGAGAGTGAAGTGGTCCAAGTTCTACGATGAGCAGTTTGCCGTGACCTTCAGCGTGAAGAAGAACGCCGATTGTCTGGACACCACAAAGGACCTGAATGCCGAAGTGATGGAGCAGTATAGCGAGTCCAACAGACTGATCCTGATCAGGAATACCACAGATATCCTGTACTATCTGGTGCTGGACAAGAATGGCAAGGTGCTGAAGCAGAGATCCCTGAACATCATCAATGACGGCGCCAGGGATGTGGACTGGAAGGAGAGGTTCCGCCAGGTGACAAAGGATAGAAACGAGGGCTACAATGAGTGGGATTATTCCAGGACCTCTAACGACCTGAAGGAGGTGTACCTGAATTATGCCCTGAAGGAGATCGCCGAGGCCGTGATCGAGTACAACGCCATCCTGATCATCGAGAAGATGTCTAATGCCTTTAAGGACAAGTATAGCTTCCTGGACGACGTGACCTTCAAGGGCTTCGAGACAAAGCTGCTGGCCAAGCTGAGCGATCTGCACTTTAGGGGCATCAAGGACGGCGAGCCATGTTCCTTCACAAACCCCCTGCAGCTGTGCCAGAACGATTCTAATAAGATCCTGCAGGACGGCGTGATCTTTATGGTGCCAAATTCTATGACACGGAGCCTGGACCCCGACACCGGCTTCATCTTTGCCATCAACGACCACAATATCAGGACCAAGAAGGCCAAGCTGAACTTTCTGAGCAAGTTCGATCAGCTGAAGGTGTCCTCTGAGGGCTGCCTGATCATGAAGTACAGCGGCGATTCCCTGCCTACACACAACACCGACAATCGCGTGTGGAACTGCTGTTGCAATCACCCAATCACAAACTATGACCGGGAGACAAAGAAGGTGGAGTTCATCGAGGAGCCCGTGGAGGAGCTGTCCCGCGTGCTGGAGGAGAATGGCATCGAGACAGACACCGAGCTGAACAAGCTGAATGAGCGGGAGAACGTGCCTGGCAAGGTGGTGGATGCCATCTACTCTCTGGTGCTGAATTATCTGCGCGGCACAGTGAGCGGAGTGGCAGGACAGAGGGCCGTGTACTATAGCCCTGTGACCGGCAAGAAGTACGATATCTCCTTTATCCAGGCCATGAACCTGAATAGGAAGTGTGACTACTATAGGATCGGCTCCAAGGAGAGGGGAGAGTGGACCGATTTCGTGGCCCAGCTGATCAACAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAGGGATCCTACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCC (SEQ ID NO: 215).

4- Butyrivibrio proteoclasticus (BpCpf1)

5- Peregrinibacteria bacterium GW2011_GWA_33_10 (PeCpf1)

ATGTCCAACTTCTTTAAGAATTTCACCAACCTGTATGAGCTGTCCAAGACACTGAGGTTTGAGCTGAAGCCCGTGGGCGACACCCTGACAAACATGAAGGACCACCTGGAGTACGATGAGAAGCTGCAGACCTTCCTGAAGGATCAGAATATCGACGATGCCTATCAGGCCCTGAAGCCTCAGTTCGACGAGATCCACGAGGAGTTTATCACAGATTCTCTGGAGAGCAAGAAGGCCAAGGAGATCGACTTCTCCGAGTACCTGGATCTGTTTCAGGAGAAGAAGGAGCTGAACGACTCTGAGAAGAAGCTGCGCAACAAGATCGGCGAGACATTCAACAAGGCCGGCGAGAAGTGGAAGAAGGAGAAGTACCCTCAGTATGAGTGGAAGAAGGGCTCCAAGATCGCCAATGGCGCCGACATCCTGTCTTGCCAGGATATGCTGCAGTTTATCAAGTATAAGAACCCAGAGGATGAGAAGATCAAGAATTACATCGACGATACACTGAAGGGCTTCTTTACCTATTTCGGCGGCTTTAATCAGAACAGGGCCAACTACTATGAGACAAAGAAGGAGGCCTCCACCGCAGTGGCAACAAGGATCGTGCACGAGAACCTGCCAAAGTTCTGTGACAATGTGATCCAGTTTAAGCACATCATCAAGCGGAAGAAGGATGGCACCGTGGAGAAAACCGAGAGAAAGACCGAGTACCTGAACGCCTACCAGTATCTGAAGAACAATAACAAGATCACACAGATCAAGGACGCCGAGACAGAGAAGATGATCGAGTCTACACCCATCGCCGAGAAGATCTTCGACGTGTACTACTTCAGCAGCTGCCTGAGCCAGAAGCAGATCGAGGAGTACAACCGGATCATCGGCCACTATAATCTGCTGATCAACCTGTATAACCAGGCCAAGAGATCTGAGGGCAAGCACCTGAGCGCCAACGAGAAGAAGTATAAGGACCTGCCTAAGTTCAAGACCCTGTATAAGCAGATCGGCTGCGGCAAGAAGAAGGACCTGTTTTACACAATCAAGTGTGATACCGAGGAGGAGGCCAATAAGTCCCGGAACGAGGGCAAGGAGTCCCACTCTGTGGAGGAGATCATCAACAAGGCCCAGGAGGCCATCAATAAGTACTTCAAGTCTAATAACGACTGTGAGAATATCAACACCGTGCCCGACTTCATCAACTATATCCTGACAAAGGAGAATTACGAGGGCGTGTATTGGAGCAAGGCCGCCATGAACACCATCTCCGACAAGTACTTCGCCAATTATCACGACCTGCAGGATAGACTGAAGGAGGCCAAGGTGTTTCAGAAGGCCGATAAGAAGTCCGAGGACGATATCAAGATCCCAGAGGCCATCGAGCTGTCTGGCCTGTTCGGCGTGCTGGACAGCCTGGCCGATTGGCAGACCACACTGTTTAAGTCTAGCATCCTGAGCAACGAGGACAAGCTGAAGATCATCACAGATTCCCAGACCCCCTCTGAGGCCCTGCTGAAGATGATCTTCAATGACATCGAGAAGAACATGGAGTCCTTTCTGAAGGAGACAAACGATATCATCACCCTGAAGAAGTATAAGGGCAATAAGGAGGGCACCGAGAAGATCAAGCAGTGGTTCGACTATACACTGGCCATCAACCGGATGCTGAAGTACTTTCTGGTGAAGGAGAATAAGATCAAGGGCAACTCCCTGGATACCAATATCTCTGAGGCCCTGAAAACCCTGATCTACAGCGACGATGCCGAGTGGTTCAAGTGGTACGACGCCCTGAGAAACTATCTGACCCAGAAGCCTCAGGATGAGGCCAAGGAGAATAAGCTGAAGCTGAATTTCGACAACCCATCTCTGGCCGGCGGCTGGGATGTGAACAAGGAGTGCAGCAATTTTTGCGTGATCCTGAAGGACAAGAACGAGAAGAAGTACCTGGCCATCATGAAGAAGGGCGAGAATACCCTGTTCCAGAAGGAGTGGACAGAGGGCCGGGGCAAGAACCTGACAAAGAAGTCTAATCCACTGTTCGAGATCAATAACTGCGAGATCCTGAGCAAGATGGAGTATGACTTTTGGGCCGACGTGAGCAAGATGATCCCCAAGTGTAGCACCCAGCTGAAGGCCGTGGTGAACCACTTCAAGCAGTCCGACAATGAGTTCATCTTTCCTATCGGCTACAAGGTGACAAGCGGCGAGAAGTTTAGGGAGGAGTGCAAGATCTCCAAGCAGGACTTCGAGCTGAATAACAAGGTGTTTAATAAGAACGAGCTGAGCGTGACCGCCATGCGCTACGATCTGTCCTCTACACAGGAGAAGCAGTATATCAAGGCCTTCCAGAAGGAGTACTGGGAGCTGCTGTTTAAGCAGGAGAAGCGGGACACCAAGCTGACAAATAACGAGATCTTCAACGAGTGGATCAATTTTTGCAACAAGAAGTATAGCGAGCTGCTGTCCTGGGAGAGAAAGTACAAGGATGCCCTGACCAATTGGATCAACTTCTGTAAGTACTTTCTGAGCAAGTATCCCAAGACCACACTGTTCAACTACTCTTTTAAGGAGAGCGAGAATTATAACTCCCTGGACGAGTTCTACCGGGACGTGGATATCTGTTCTTACAAGCTGAATATCAACACCACAATCAATAAGAGCATCCTGGATAGACTGGTGGAGGAGGGCAAGCTGTACCTGTTTGAGATCAAGAATCAGGACAGCAACGATGGCAAGTCCATCGGCCACAAGAATAACCTGCACACCATCTACTGGAACGCCATCTTCGAGAATTTTGACAACAGGCCTAAGCTGAATGGCGAGGCCGAGATCTTCTATCGCAAGGCCATCTCCAAGGATAAGCTGGGCATCGTGAAGGGCAAGAAAACCAAGAACGGCACCGAGATCATCAAGAATTACAGATTCAGCAAGGAGAAGTTTATCCTGCACGTGCCAATCACCCTGAACTTCTGCTCCAATAACGAGTATGTGAATGACATCGTGAACACAAAGTTCTACAATTTTTCCAACCTGCACTTTCTGGGCATCGATAGGGGCGAGAAGCACCTGGCCTACTATTCTCTGGTGAATAAGAACGGCGAGATCGTGGACCAGGGCACACTGAACCTGCCTTTCACCGACAAGGATGGCAATCAGCGCAGCATCAAGAAGGAGAAGTACTTTTATAACAAGCAGGAGGACAAGTGGGAGGCCAAGGAGGTGGATTGTTGGAATTATAACGACCTGCTGGATGCCATGGCCTCTAACCGGGACATGGCCAGAAAGAATTGGCAGAGGATCGGCACCATCAAGGAGGCCAAGAACGGCTACGTGAGCCTGGTCATCAGGAAGATCGCCGATCTGGCCGTGAATAACGAGCGCCCCGCCTTCATCGTGCTGGAGGACCTGAATACAGGCTTTAAGCGGTCCAGACAGAAGATCGATAAGAGCGTGTACCAGAAGTTCGAGCTGGCCCTGGCCAAGAAGCTGAACTTTCTGGTGGACAAGAATGCCAAGCGCGATGAGATCGGCTCCCCTACAAAGGCCCTGCAGCTGACCCCCCCTGTGAATAACTACGGCGACATTGAGAACAAGAAGCAGGCCGGCATCATGCTGTATACCCGGGCCAATTATACCTCTCAGACAGATCCAGCCACAGGCTGGAGAAAGACCATCTATCTGAAGGCCGGCCCCGAGGAGACAACATACAAGAAGGACGGCAAGATCAAGAACAAGAGCGTGAAGGACCAGATCATCGAGACATTCACCGATATCGGCTTTGACGGCAAGGATTACTATTTCGAGTACGACAAGGGCGAGTTTGTGGATGAGAAAACCGGCGAGATCAAGCCCAAGAAGTGGCGGCTGTACTCCGGCGAGAATGGCAAGTCCCTGGACAGGTTCCGCGGAGAGAGGGAGAAGGATAAGTATGAGTGGAAGATCGACAAGATCGATATCGTGAAGATCCTGGACGATCTGTTCGTGAATTTTGACAAGAACATCAGCCTGCTGAAGCAGCTGAAGGAGGGCGTGGAGCTGACCCGGAATAACGAGCACGGCACAGGCGAGTCCCTGAGATTCGCCATCAACCTGATCCAGCAGATCCGGAATACCGGCAATAACGAGAGAGACAACGATTTCATCCTGTCCCCAGTGAGGGACGAGAATGGCAAGCACTTTGACTCTCGCGAGTACTGGGATAAGGAGACAAAGGGCGAGAAGATCAGCATGCCCAGCTCCGGCGATGCCAATGGCGCCTTCAACATCGCCCGGAAGGGCATCATCATGAACGCCCACATCCTGGCCAATAGCGACTCCAAGGATCTGTCCCTGTTCGTGTCTGACGAGGAGTGGGATCTGCACCTGAATAACAAGACCGAGTGGAAGAAGCAGCTGAACATCTTTTCTAGCAGGAAGGCCATGGCCAAGCGCAAGAAGAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAGGGATCCTACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCCTAAGAATTC (SEQ ID NO: 217).

6- Parcubacteria bacterium GWC2011_GWC2_44_17 (PbCpf1)

ATGGAGAACATCTTCGACCAGTTTATCGGCAAGTACAGCCTGTCCAAGACCCTGAGATTCGAGCTGAAGCCCGTGGGCAAGACAGAGGACTTCCTGAAGATCAACAAGGTGTTTGAGAAGGATCAGACCATCGACGATAGCTACAATCAGGCCAAGTTCTATTTTGATTCCCTGCACCAGAAGTTTATCGACGCCGCCCTGGCCTCCGATAAGACATCCGAGCTGTCTTTCCAGAACTTTGCCGACGTGCTGGAGAAGCAGAATAAGATCATCCTGGATAAGAAGAGAGAGATGGGCGCCCTGAGGAAGCGCGACAAGAACGCCGTGGGCATCGATAGGCTGCAGAAGGAGATCAATGACGCCGAGGATATCATCCAGAAGGAGAAGGAGAAGATCTACAAGGACGTGCGCACCCTGTTCGATAACGAGGCCGAGTCTTGGAAAACCTACTATCAGGAGCGGGAGGTGGACGGCAAGAAGATCACCTTCAGCAAGGCCGACCTGAAGCAGAAGGGCGCCGATTTTCTGACAGCCGCCGGCATCCTGAAGGTGCTGAAGTATGAGTTCCCCGAGGAGAAGGAGAAGGAGTTTCAGGCCAAGAACCAGCCCTCCCTGTTCGTGGAGGAGAAGGAGAATCCTGGCCAGAAGAGGTACATCTTCGACTCTTTTGATAAGTTCGCCGGCTATCTGACCAAGTTTCAGCAGACAAAGAAGAATCTGTACGCAGCAGACGGCACCAGCACAGCAGTGGCCACCCGCATCGCCGATAACTTTATCATCTTCCACCAGAATACCAAGGTGTTCCGGGACAAGTACAAGAACAATCACACAGACCTGGGCTTCGATGAGGAGAACATCTTTGAGATCGAGAGGTATAAGAATTGCCTGCTGCAGCGCGAGATCGAGCACATCAAGAATGAGAATAGCTACAACAAGATCATCGGCCGGATCAATAAGAAGATCAAGGAGTATCGGGACCAGAAGGCCAAGGATACCAAGCTGACAAAGTCCGACTTCCCTTTCTTTAAGAACCTGGATAAGCAGATCCTGGGCGAGGTGGAGAAGGAGAAGCAGCTGATCGAGAAAACCCGGGAGAAAACCGAGGAGGACGTGCTGATCGAGCGGTTCAAGGAGTTCATCGAGAACAATGAGGAGAGGTTCACCGCCGCCAAGAAGCTGATGAATGCCTTCTGTAACGGCGAGTTTGAGTCCGAGTACGAGGGCATCTATCTGAAGAATAAGGCCATCAACACAATCTCCCGGAGATGGTTCGTGTCTGACAGAGATTTTGAGCTGAAGCTGCCTCAGCAGAAGTCCAAGAACAAGTCTGAGAAGAATGAGCCAAAGGTGAAGAAGTTCATCTCCATCGCCGAGATCAAGAACGCCGTGGAGGAGCTGGACGGCGATATCTTTAAGGCCGTGTTCTACGACAAGAAGATCATCGCCCAGGGCGGCTCTAAGCTGGAGCAGTTCCTGGTCATCTGGAAGTACGAGTTTGAGTATCTGTTCCGGGACATCGAGAGAGAGAACGGCGAGAAGCTGCTGGGCTATGATAGCTGCCTGAAGATCGCCAAGCAGCTGGGCATCTTCCCACAGGAGAAGGAGGCCCGCGAGAAGGCAACCGCCGTGATCAAGAATTACGCCGACGCCGGCCTGGGCATCTTCCAGATGATGAAGTATTTTTCTCTGGACGATAAGGATCGGAAGAACACCCCCGGCCAGCTGAGCACAAATTTCTACGCCGAGTATGACGGCTACTACAAGGATTTCGAGTTTATCAAGTACTACAACGAGTTTAGGAACTTCATCACCAAGAAGCCTTTCGACGAGGATAAGATCAAGCTGAACTTTGAGAATGGCGCCCTGCTGAAGGGCTGGGACGAGAACAAGGAGTACGATTTCATGGGCGTGATCCTGAAGAAGGAGGGCCGCCTGTATCTGGGCATCATGCACAAGAACCACCGGAAGCTGTTTCAGTCCATGGGCAATGCCAAGGGCGACAACGCCAATAGATACCAGAAGATGATCTATAAGCAGATCGCCGACGCCTCTAAGGATGTGCCCAGGCTGCTGCTGACCAGCAAGAAGGCCATGGAGAAGTTCAAGCCTTCCCAGGAGATCCTGAGAATCAAGAAGGAGAAAACCTTCAAGCGGGAGAGCAAGAACTTTTCCCTGAGAGATCTGCACGCCCTGATCGAGTACTATAGGAACTGCATCCCTCAGTACAGCAATTGGTCCTTTTATGACTTCCAGTTTCAGGATACCGGCAAGTACCAGAATATCAAGGAGTTCACAGACGATGTGCAGAAGTACGGCTATAAGATCTCCTTTCGCGACATCGACGATGAGTATATCAATCAGGCCCTGAACGAGGGCAAGATGTACCTGTTCGAGGTGGTGAACAAGGATATCTATAACACCAAGAATGGCTCCAAGAATCTGCACACACTGTACTTTGAGCACATCCTGTCTGCCGAGAACCTGAATGACCCAGTGTTCAAGCTGTCTGGCATGGCCGAGATCTTTCAGCGGCAGCCCAGCGTGAACGAAAGAGAGAAGATCACCACACAGAAGAATCAGTGTATCCTGGACAAGGGCGATAGAGCCTACAAGTATAGGCGCTACACCGAGAAGAAGATCATGTTCCACATGAGCCTGGTGCTGAACACAGGCAAGGGCGAGATCAAGCAGGTGCAGTTTAATAAGATCATCAACCAGAGGATCAGCTCCTCTGACAACGAGATGAGGGTGAATGTGATCGGCATCGATCGCGGCGAGAAGAACCTGCTGTACTATAGCGTGGTGAAGCAGAATGGCGAGATCATCGAGCAGGCCTCCCTGAACGAGATCAATGGCGTGAACTACCGGGACAAGCTGATCGAGAGGGAGAAGGAGCGCCTGAAGAACCGGCAGAGCTGGAAGCCTGTGGTGAAGATCAAGGATCTGAAGAAGGGCTACATCTCCCACGTGATCCACAAGATCTGCCAGCTGATCGAGAAGTATTCTGCCATCGTGGTGCTGGAGGACCTGAATATGAGATTCAAGCAGATCAGGGGAGGAATCGAGCGGAGCGTGTACCAGCAGTTCGAGAAGGCCCTGATCGATAAGCTGGGCTATCTGGTGTTTAAGGACAACAGGGATCTGAGGGCACCAGGAGGCGTGCTGAATGGCTACCAGCTGTCTGCCCCCTTTGTGAGCTTCGAGAAGATGCGCAAGCAGACCGGCATCCTGTTCTACACACAGGCCGAGTATACCAGCAAGACAGACCCAATCACCGGCTTTCGGAAGAACGTGTATATCTCTAATAGCGCCTCCCTGGATAAGATCAAGGAGGCCGTGAAGAAGTTCGACGCCATCGGCTGGGATGGCAAGGAGCAGTCTTACTTCTTTAAGTACAACCCTTACAACCTGGCCGACGAGAAGTATAAGAACTCTACCGTGAGCAAGGAGTGGGCCATCTTTGCCAGCGCCCCAAGAATCCGGAGACAGAAGGGCGAGGACGGCTACTGGAAGTATGATAGGGTGAAAGTGAATGAGGAGTTCGAGAAGCTGCTGAAGGTCTGGAATTTTGTGAACCCAAAGGCCACAGATATCAAGCAGGAGATCATCAAGAAGGAGAAGGCAGGCGACCTGCAGGGAGAGAAGGAGCTGGATGGCCGGCTGAGAAACTTTTGGCACTCTTTCATCTACCTGTTTAACCTGGTGCTGGAGCTGCGCAATTCTTTCAGCCTGCAGATCAAGATCAAGGCAGGAGAAGTGATCGCAGTGGACGAGGGCGTGGACTTCATCGCCAGCCCAGTGAAGCCCTTCTTTACCACACCCAACCCTTACATCCCCTCCAACCTGTGCTGGCTGGCCGTGGAGAATGCAGACGCAAACGGAGCCTATAATATCGCCAGGAAGGGCGTGATGATCCTGAAGAAGATCCGCGAGCACGCCAAGAAGGACCCCGAGTTCAAGAAGCTGCCAAACCTGTTTATCAGCAATGCAGAGTGGGACGAGGCAGCCCGGGATTGGGGCAAGTACGCAGGCACCACAGCCCTGAACCTGGACCACAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAGGGATCCTACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCCTAAGAATTC (SEQ ID NO: 218).

7- Smithella sp. SC_K08D17 (SsCpf1)

ATGCAGACCCTGTTTGAGAACTTCACAAATCAGTACCCAGTGTCCAAGACCCTGCGCTTTGAGCTGATCCCCCAGGGCAAGACAAAGGACTTCATCGAGCAGAAGGGCCTGCTGAAGAAGGATGAGGACCGGGCCGAGAAGTATAAGAAGGTGAAGAACATCATCGATGAGTACCACAAGGACTTCATCGAGAAGTCTCTGAATGGCCTGAAGCTGGACGGCCTGGAGAAGTACAAGACCCTGTATCTGAAGCAGGAGAAGGACGATAAGGATAAGAAGGCCTTTGACAAGGAGAAGGAGAACCTGCGCAAGCAGATCGCCAATGCCTTCCGGAACAATGAGAAGTTTAAGACACTGTTCGCCAAGGAGCTGATCAAGAACGATCTGATGTCTTTCGCCTGCGAGGAGGACAAGAAGAATGTGAAGGAGTTTGAGGCCTTCACCACATACTTCACCGGCTTCCACCAGAACCGCGCCAATATGTACGTGGCCGATGAGAAGAGAACAGCCATCGCCAGCAGGCTGATCCACGAGAACCTGCCAAAGTTTATCGACAATATCAAGATCTTCGAGAAGATGAAGAAGGAGGCCCCCGAGCTGCTGTCTCCTTTCAACCAGACCCTGAAGGATATGAAGGACGTGATCAAGGGCACCACACTGGAGGAGATCTTTAGCCTGGATTATTTCAACAAGACCCTGACACAGAGCGGCATCGACATCTACAATTCCGTGATCGGCGGCAGAACCCCTGAGGAGGGCAAGACAAAGATCAAGGGCCTGAACGAGTACATCAATACCGACTTCAACCAGAAGCAGACAGACAAGAAGAAGCGGCAGCCAAAGTTCAAGCAGCTGTATAAGCAGATCCTGAGCGATAGGCAGAGCCTGTCCTTTATCGCCGAGGCCTTCAAGAACGACACCGAGATCCTGGAGGCCATCGAGAAGTTTTACGTGAATGAGCTGCTGCACTTCAGCAATGAGGGCAAGTCCACAAACGTGCTGGACGCCATCAAGAATGCCGTGTCTAACCTGGAGAGCTTTAACCTGACCAAGATGTATTTCCGCTCCGGCGCCTCTCTGACAGACGTGAGCCGGAAGGTGTTTGGCGAGTGGAGCATCATCAATAGAGCCCTGGACAACTACTATGCCACCACATATCCAATCAAGCCCAGAGAGAAGTCTGAGAAGTACGAGGAGAGGAAGGAGAAGTGGCTGAAGCAGGACTTCAACGTGAGCCTGATCCAGACCGCCATCGATGAGTACGACAACGAGACAGTGAAGGGCAAGAACAGCGGCAAAGTGATCGCCGATTATTTTGCCAAGTTCTGCGACGATAAGGAGACAGACCTGATCCAGAAGGTGAACGAGGGCTACATCGCCGTGAAGGATCTGCTGAATACACCCTGTCCTGAGAACGAGAAGCTGGGCAGCAATAAGGACCAGGTGAAGCAGATCAAGGCCTTTATGGATTCTATCATGGACATCATGCACTTCGTGCGCCCCCTGAGCCTGAAGGATACCGACAAGGAGAAGGATGAGACATTCTACTCCCTGTTCACACCTCTGTACGACCACCTGACCCAGACAATCGCCCTGTATAACAAGGTGCGGAACTATCTGACCCAGAAGCCTTACAGCACAGAGAAGATCAAGCTGAACTTCGAGAACAGCACCCTGCTGGGCGGCTGGGATCTGAATAAGGAGACAGACAACACAGCCATCATCCTGAGGAAGGATAACCTGTACTATCTGGGCATCATGGACAAGAGGCACAATCGCATCTTTCGGAACGTGCCCAAGGCCGATAAGAAGGACTTCTGCTACGAGAAGATGGTGTATAAGCTGCTGCCTGGCGCCAACAAGATGCTGCCAAAGGTGTTCTTTTCTCAGAGCAGAATCCAGGAGTTTACCCCTTCCGCCAAGCTGCTGGAGAACTACGCCAATGAGACACACAAGAAGGGCGATAATTTCAACCTGAATCACTGTCACAAGCTGATCGATTTCTTTAAGGACTCTATCAACAAGCACGAGGATTGGAAGAATTTCGACTTTAGGTTCAGCGCCACCTCCACCTACGCCGACCTGAGCGGCTTTTACCACGAGGTGGAGCACCAGGGCTACAAGATCTCTTTTCAGAGCGTGGCCGATTCCTTCATCGACGATCTGGTGAACGAGGGCAAGCTGTACCTGTTCCAGATCTATAATAAGGACTTTTCCCCATTCTCTAAGGGCAAGCCCAACCTGCACACCCTGTACTGGAAGATGCTGTTTGATGAGAACAATCTGAAGGACGTGGTGTATAAGCTGAATGGCGAGGCCGAGGTGTTCTACCGCAAGAAGAGCATTGCCGAGAAGAACACCACAATCCACAAGGCCAATGAGTCCATCATCAACAAGAATCCTGATAACCCAAAGGCCACCAGCACCTTCAACTATGATATCGTGAAGGACAAGAGATACACCATCGACAAGTTTCAGTTCCACATCCCAATCACAATGAACTTTAAGGCCGAGGGCATCTTCAACATGAATCAGAGGGTGAATCAGTTCCTGAAGGCCAATCCCGATATCAACATCATCGGCATCGACAGAGGCGAGAGGCACCTGCTGTACTATGCCCTGATCAACCAGAAGGGCAAGATCCTGAAGCAGGATACCCTGAATGTGATCGCCAACGAGAAGCAGAAGGTGGACTACCACAATCTGCTGGATAAGAAGGAGGGCGACCGCGCAACCGCAAGGCAGGAGTGGGGCGTGATCGAGACAATCAAGGAGCTGAAGGAGGGCTATCTGTCCCAGGTCATCCACAAGCTGACCGATCTGATGATCGAGAACAATGCCATCATCGTGATGGAGGACCTGAACTTTGGCTTCAAGCGGGGCAGACAGAAGGTGGAGAAGCAGGTGTATCAGAAGTTTGAGAAGATGCTGATCGATAAGCTGAATTACCTGGTGGACAAGAATAAGAAGGCAAACGAGCTGGGAGGCCTGCTGAACGCATTCCAGCTGGCCAATAAGTTTGAGTCCTTCCAGAAGATGGGCAAGCAGAACGGCTTTATCTTCTACGTGCCCGCCTGGAATACCTCTAAGACAGATCCTGCCACCGGCTTTATCGACTTCCTGAAGCCCCGCTATGAGAACCTGAATCAGGCCAAGGATTTCTTTGAGAAGTTTGACTCTATCCGGCTGAACAGCAAGGCCGATTACTTTGAGTTCGCCTTTGACTTCAAGAATTTCACCGAGAAGGCCGATGGCGGCAGAACCAAGTGGACAGTGTGCACCACAAACGAGGACAGATATGCCTGGAATAGGGCCCTGAACAATAACAGGGGCAGCCAGGAGAAGTACGACATCACAGCCGAGCTGAAGTCCCTGTTCGATGGCAAGGTGGACTATAAGTCTGGCAAGGATCTGAAGCAGCAGATCGCCAGCCAGGAGTCCGCCGACTTCTTTAAGGCCCTGATGAAGAACCTGTCCATCACCCTGTCTCTGAGACACAATAACGGCGAGAAGGGCGATAATGAGCAGGACTACATCCTGTCCCCTGTGGCCGATTCTAAGGGCCGCTTCTTTGACTCCCGGAAGGCCGACGATGACATGCCAAAGAATGCCGACGCCAACGGCGCCTATCACATCGCCCTGAAGGGCCTGTGGTGTCTGGAGCAGATCAGCAAGACCGATGACCTGAAGAAGGTGAAGCTGGCCATCTCCAACAAGGAGTGGCTGGAGTTCGTGCAGACACTGAAGGGCAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAGGGATCCTACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCCTAAGAATTC (SEQ ID NO: 219).

8- Acidaminococcus sp. BV3L6 (AsCpf1)

ATGACACAGTTCGAGGGCTTTACCAACCTGTATCAGGTGAGCAAGACACTGCGGTTTGAGCTGATCCCACAGGGCAAGACCCTGAAGCACATCCAGGAGCAGGGCTTCATCGAGGAGGACAAGGCCCGCAATGATCACTACAAGGAGCTGAAGCCCATCATCGATCGGATCTACAAGACCTATGCCGACCAGTGCCTGCAGCTGGTGCAGCTGGATTGGGAGAACCTGAGCGCCGCCATCGACTCCTATAGAAAGGAGAAAACCGAGGAGACAAGGAACGCCCTGATCGAGGAGCAGGCCACATATCGCAATGCCATCCACGACTACTTCATCGGCCGGACAGACAACCTGACCGATGCCATCAATAAGAGACACGCCGAGATCTACAAGGGCCTGTTCAAGGCCGAGCTGTTTAATGGCAAGGTGCTGAAGCAGCTGGGCACCGTGACCACAACCGAGCACGAGAACGCCCTGCTGCGGAGCTTCGACAAGTTTACAACCTACTTCTCCGGCTTTTATGAGAACAGGAAGAACGTGTTCAGCGCCGAGGATATCAGCACAGCCATCCCACACCGCATCGTGCAGGACAACTTCCCCAAGTTTAAGGAGAATTGTCACATCTTCACACGCCTGATCACCGCCGTGCCCAGCCTGCGGGAGCACTTTGAGAACGTGAAGAAGGCCATCGGCATCTTCGTGAGCACCTCCATCGAGGAGGTGTTTTCCTTCCCTTTTTATAACCAGCTGCTGACACAGACCCAGATCGACCTGTATAACCAGCTGCTGGGAGGAATCTCTCGGGAGGCAGGCACCGAGAAGATCAAGGGCCTGAACGAGGTGCTGAATCTGGCCATCCAGAAGAATGATGAGACAGCCCACATCATCGCCTCCCTGCCACACAGATTCATCCCCCTGTTTAAGCAGATCCTGTCCGATAGGAACACCCTGTCTTTCATCCTGGAGGAGTTTAAGAGCGACGAGGAAGTGATCCAGTCCTTCTGCAAGTACAAGACACTGCTGAGAAACGAGAACGTGCTGGAGACAGCCGAGGCCCTGTTTAACGAGCTGAACAGCATCGACCTGACACACATCTTCATCAGCCACAAGAAGCTGGAGACAATCAGCAGCGCCCTGTGCGACCACTGGGATACACTGAGGAATGCCCTGTATGAGCGGAGAATCTCCGAGCTGACAGGCAAGATCACCAAGTCTGCCAAGGAGAAGGTGCAGCGCAGCCTGAAGCACGAGGATATCAACCTGCAGGAGATCATCTCTGCCGCAGGCAAGGAGCTGAGCGAGGCCTTCAAGCAGAAAACCAGCGAGATCCTGTCCCACGCACACGCCGCCCTGGATCAGCCACTGCCTACAACCCTGAAGAAGCAGGAGGAGAAGGAGATCCTGAAGTCTCAGCTGGACAGCCTGCTGGGCCTGTACCACCTGCTGGACTGGTTTGCCGTGGATGAGTCCAACGAGGTGGACCCCGAGTTCTCTGCCCGGCTGACCGGCATCAAGCTGGAGATGGAGCCTTCTCTGAGCTTCTACAACAAGGCCAGAAATTATGCCACCAAGAAGCCCTACTCCGTGGAGAAGTTCAAGCTGAACTTTCAGATGCCTACACTGGCCTCTGGCTGGGACGTGAATAAGGAGAAGAACAATGGCGCCATCCTGTTTGTGAAGAACGGCCTGTACTATCTGGGCATCATGCCAAAGCAGAAGGGCAGGTATAAGGCCCTGAGCTTCGAGCCCACAGAGAAAACCAGCGAGGGCTTTGATAAGATGTACTATGACTACTTCCCTGATGCCGCCAAGATGATCCCAAAGTGCAGCACCCAGCTGAAGGCCGTGACAGCCCACTTTCAGACCCACACAACCCCCATCCTGCTGTCCAACAATTTCATCGAGCCTCTGGAGATCACAAAGGAGATCTACGACCTGAACAATCCTGAGAAGGAGCCAAAGAAGTTTCAGACAGCCTACGCCAAGAAAACCGGCGACCAGAAGGGCTACAGAGAGGCCCTGTGCAAGTGGATCGACTTCACAAGGGATTTTCTGTCCAAGTATACCAAGACAACCTCTATCGATCTGTCTAGCCTGCGGCCATCCTCTCAGTATAAGGACCTGGGCGAGTACTATGCCGAGCTGAATCCCCTGCTGTACCACATCAGCTTCCAGAGAATCGCCGAGAAGGAGATCATGGATGCCGTGGAGACAGGCAAGCTGTACCTGTTCCAGATCTATAACAAGGACTTTGCCAAGGGCCACCACGGCAAGCCTAATCTGCACACACTGTATTGGACCGGCCTGTTTTCTCCAGAGAACCTGGCCAAGACAAGCATCAAGCTGAATGGCCAGGCCGAGCTGTTCTACCGCCCTAAGTCCAGGATGAAGAGGATGGCACACCGGCTGGGAGAGAAGATGCTGAACAAGAAGCTGAAGGATCAGAAAACCCCAATCCCCGACACCCTGTACCAGGAGCTGTACGACTATGTGAATCACAGACTGTCCCACGACCTGTCTGATGAGGCCAGGGCCCTGCTGCCCAACGTGATCACCAAGGAGGTGTCTCACGAGATCATCAAGGATAGGCGCTTTACCAGCGACAAGTTCTTTTTCCACGTGCCTATCACACTGAACTATCAGGCCGCCAATTCCCCATCTAAGTTCAACCAGAGGGTGAATGCCTACCTGAAGGAGCACCCCGAGACACCTATCATCGGCATCGATCGGGGCGAGAGAAACCTGATCTATATCACAGTGATCGACTCCACCGGCAAGATCCTGGAGCAGCGGAGCCTGAACACCATCCAGCAGTTTGATTACCAGAAGAAGCTGGACAACAGGGAGAAGGAGAGGGTGGCAGCAAGGCAGGCCTGGTCTGTGGTGGGCACAATCAAGGATCTGAAGCAGGGCTATCTGAGCCAGGTCATCCACGAGATCGTGGACCTGATGATCCACTACCAGGCCGTGGTGGTGCTGGAGAACCTGAATTTCGGCTTTAAGAGCAAGAGGACCGGCATCGCCGAGAAGGCCGTGTACCAGCAGTTCGAGAAGATGCTGATCGATAAGCTGAATTGCCTGGTGCTGAAGGACTATCCAGCAGAGAAAGTGGGAGGCGTGCTGAACCCATACCAGCTGACAGACCAGTTCACCTCCTTTGCCAAGATGGGCACCCAGTCTGGCTTCCTGTTTTACGTGCCTGCCCCATATACATCTAAGATCGATCCCCTGACCGGCTTCGTGGACCCCTTCGTGTGGAAAACCATCAAGAATCACGAGAGCCGCAAGCACTTCCTGGAGGGCTTCGACTTTCTGCACTACGACGTGAAAACCGGCGACTTCATCCTGCACTTTAAGATGAACAGAAATCTGTCCTTCCAGAGGGGCCTGCCCGGCTTTATGCCTGCATGGGATATCGTGTTCGAGAAGAACGAGACACAGTTTGACGCCAAGGGCACCCCTTTCATCGCCGGCAAGAGAATCGTGCCAGTGATCGAGAATCACAGATTCACCGGCAGATACCGGGACCTGTATCCTGCCAACGAGCTGATCGCCCTGCTGGAGGAGAAGGGCATCGTGTTCAGGGATGGCTCCAACATCCTGCCAAAGCTGCTGGAGAATGACGATTCTCACGCCATCGACACCATGGTGGCCCTGATCCGCAGCGTGCTGCAGATGCGGAACTCCAATGCCGCCACAGGCGAGGACTATATCAACAGCCCCGTGCGCGATCTGAATGGCGTGTGCTTCGACTCCCGGTTTCAGAACCCAGAGTGGCCCATGGACGCCGATGCCAATGGCGCCTACCACATCGCCCTGAAGGGCCAGCTGCTGCTGAATCACCTGAAGGAGAGCAAGGATCTGAAGCTGCAGAACGGCATCTCCAATCAGGACTGGCTGGCCTACATCCAGGAGCTGCGCAACAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAGGGATCCTACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCCTAAGAATTC (SEQ ID NO: 220).

9- Lachnospiraceae bacterium MA2020 (Lb2Cpf1)

ATGTACTATGAGTCCCTGACCAAGCAGTACCCCGTGTCTAAGACAATCCGGAATGAGCTGATCCCTATCGGCAAGACACTGGATAACATCCGCCAGAACAATATCCTGGAGAGCGACGTGAAGCGGAAGCAGAACTACGAGCACGTGAAGGGCATCCTGGATGAGTATCACAAGCAGCTGATCAACGAGGCCCTGGACAATTGCACCCTGCCATCCCTGAAGATCGCCGCCGAGATCTACCTGAAGAATCAGAAGGAGGTGTCTGACAGAGAGGATTTCAACAAGACACAGGACCTGCTGAGGAAGGAGGTGGTGGAGAAGCTGAAGGCCCACGAGAACTTTACCAAGATCGGCAAGAAGGACATCCTGGATCTGCTGGAGAAGCTGCCTTCCATCTCTGAGGACGATTACAATGCCCTGGAGAGCTTCCGCAACTTTTACACCTATTTCACATCCTACAACAAGGTGCGGGAGAATCTGTATTCTGATAAGGAGAAGAGCTCCACAGTGGCCTACAGACTGATCAACGAGAATTTCCCAAAGTTTCTGGACAATGTGAAGAGCTATAGGTTTGTGAAAACCGCAGGCATCCTGGCAGATGGCCTGGGAGAGGAGGAGCAGGACTCCCTGTTCATCGTGGAGACATTCAACAAGACCCTGACACAGGACGGCATCGATACCTACAATTCTCAAGTGGGCAAGATCAACTCTAGCATCAATCTGTATAACCAGAAGAATCAGAAGGCCAATGGCTTCAGAAAGATCCCCAAGATGAAGATGCTGTATAAGCAGATCCTGTCCGATAGGGAGGAGTCTTTCATCGACGAGTTTCAGAGCGATGAGGTGCTGATCGACAACGTGGAGTCTTATGGCAGCGTGCTGATCGAGTCTCTGAAGTCCTCTAAGGTGAGCGCCTTCTTTGATGCCCTGAGAGAGTCTAAGGGCAAGAACGTGTACGTGAAGAATGACCTGGCCAAGACAGCCATGAGCAACATCGTGTTCGAGAATTGGAGGACCTTTGACGATCTGCTGAACCAGGAGTACGACCTGGCCAACGAGAACAAGAAGAAGGACGATAAGTATTTCGAGAAGCGCCAGAAGGAGCTGAAGAAGAATAAGAGCTACTCCCTGGAGCACCTGTGCAACCTGTCCGAGGATTCTTGTAACCTGATCGAGAATTATATCCACCAGATCTCCGACGATATCGAGAATATCATCATCAACAATGAGACATTCCTGCGCATCGTGATCAATGAGCACGACAGGTCCCGCAAGCTGGCCAAGAACCGGAAGGCCGTGAAGGCCATCAAGGACTTTCTGGATTCTATCAAGGTGCTGGAGCGGGAGCTGAAGCTGATCAACAGCTCCGGCCAGGAGCTGGAGAAGGATCTGATCGTGTACTCTGCCCACGAGGAGCTGCTGGTGGAGCTGAAGCAGGTGGACAGCCTGTATAACATGACCAGAAATTATCTGACAAAGAAGCCTTTCTCTACCGAGAAGGTGAAGCTGAACTTTAATCGCAGCACACTGCTGAACGGCTGGGATCGGAATAAGGAGACAGACAACCTGGGCGTGCTGCTGCTGAAGGACGGCAAGTACTATCTGGGCATCATGAACACAAGCGCCAATAAGGCCTTCGTGAATCCCCCTGTGGCCAAGACCGAGAAGGTGTTTAAGAAGGTGGATTACAAGCTGCTGCCAGTGCCCAACCAGATGCTGCCAAAGGTGTTCTTTGCCAAGAGCAATATCGACTTCTATAACCCCTCTAGCGAGATCTACTCCAATTATAAGAAGGGCACCCACAAGAAGGGCAATATGTTTTCCCTGGAGGATTGTCACAACCTGATCGACTTCTTTAAGGAGTCTATCAGCAAGCACGAGGACTGGAGCAAGTTCGGCTTTAAGTTCAGCGATACAGCCTCCTACAACGACATCTCCGAGTTCTATCGCGAGGTGGAGAAGCAGGGCTACAAGCTGACCTATACAGACATCGATGAGACATACATCAATGATCTGATCGAGCGGAACGAGCTGTACCTGTTCCAGATCTATAATAAGGACTTTAGCATGTACTCCAAGGGCAAGCTGAACCTGCACACACTGTATTTCATGATGCTGTTTGATCAGCGCAATATCGACGACGTGGTGTATAAGCTGAACGGAGAGGCAGAGGTGTTCTATAGGCCAGCCTCCATCTCTGAGGACGAGCTGATCATCCACAAGGCCGGCGAGGAGATCAAGAACAAGAATCCTAACCGGGCCAGAACCAAGGAGACAAGCACCTTCAGCTACGACATCGTGAAGGATAAGCGGTATAGCAAGGATAAGTTTACCCTGCACATCCCCATCACAATGAACTTCGGCGTGGATGAGGTGAAGCGGTTCAACGACGCCGTGAACAGCGCCATCCGGATCGATGAGAATGTGAACGTGATCGGCATCGACCGGGGCGAGAGAAATCTGCTGTACGTGGTGGTCATCGACTCTAAGGGCAACATCCTGGAGCAGATCTCCCTGAACTCTATCATCAATAAGGAGTACGACATCGAGACAGATTATCACGCACTGCTGGATGAGAGGGAGGGCGGCAGAGATAAGGCCCGGAAGGACTGGAACACCGTGGAGAATATCAGGGACCTGAAGGCCGGCTACCTGAGCCAGGTGGTGAACGTGGTGGCCAAGCTGGTGCTGAAGTATAATGCCATCATCTGCCTGGAGGACCTGAACTTTGGCTTCAAGAGGGGCCGCCAGAAGGTGGAGAAGCAGGTGTACCAGAAGTTCGAGAAGATGCTGATCGATAAGCTGAATTACCTGGTCATCGACAAGAGCCGCGAGCAGACATCCCCTAAGGAGCTGGGAGGCGCCCTGAACGCACTGCAGCTGACCTCTAAGTTCAAGAGCTTTAAGGAGCTGGGCAAGCAGTCCGGCGTGATCTACTATGTGCCTGCCTACCTGACCTCTAAGATCGATCCAACCACAGGCTTCGCCAATCTGTTTTATATGAAGTGTGAGAACGTGGAGAAGTCCAAGAGATTCTTTGACGGCTTTGATTTCATCAGGTTCAACGCCCTGGAGAACGTGTTCGAGTTCGGCTTTGACTACCGGAGCTTCACCCAGAGGGCCTGCGGCATCAATTCCAAGTGGACCGTGTGCACCAACGGCGAGCGCATCATCAAGTATCGGAATCCAGATAAGAACAATATGTTCGACGAGAAGGTGGTGGTGGTGACCGATGAGATGAAGAACCTGTTTGAGCAGTACAAGATCCCCTATGAGGATGGCAGAAATGTGAAGGACATGATCATCAGCAACGAGGAGGCCGAGTTCTACCGGAGACTGTATAGGCTGCTGCAGCAGACCCTGCAGATGAGAAACAGCACCTCCGACGGCACAAGGGATTACATCATCTCCCCTGTGAAGAATAAGAGAGAGGCCTACTTCAACAGCGAGCTGTCCGACGGCTCTGTGCCAAAGGACGCCGATGCCAACGGCGCCTACAATATCGCCAGAAAGGGCCTGTGGGTGCTGGAGCAGATCAGGCAGAAGAGCGAGGGCGAGAAGATCAATCTGGCCATGACCAACGCCGAGTGGCTGGAGTATGCCCAGACACACCTGCTGAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAGGGATCCTACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCCTAAGAATTC (SEQ ID NO: 221).

10- Candidatus Methanoplasma termitum (CMtCpf1)

ATGAACAATTACGACGAGTTCACCAAGCTGTATCCTATCCAGAAAACCATCCGGTTTGAGCTGAAGCCACAGGGCAGAACCATGGAGCACCTGGAGACATTCAACTTCTTTGAGGAGGACCGGGATAGAGCCGAGAAGTATAAGATCCTGAAGGAGGCCATCGACGAGTACCACAAGAAGTTTATCGATGAGCACCTGACCAATATGTCCCTGGATTGGAACTCTCTGAAGCAGATCAGCGAGAAGTACTATAAGAGCAGGGAGGAGAAGGACAAGAAGGTGTTCCTGTCCGAGCAGAAGAGGATGCGCCAGGAGATCGTGTCTGAGTTTAAGAAGGACGATCGCTTCAAGGACCTGTTTTCCAAGAAGCTGTTCTCTGAGCTGCTGAAGGAGGAGATCTACAAGAAGGGCAACCACCAGGAGATCGACGCCCTGAAGAGCTTCGATAAGTTTTCCGGCTATTTCATCGGCCTGCACGAGAATAGGAAGAACATGTACTCCGACGGCGATGAGATCACCGCCATCTCCAATCGCATCGTGAATGAGAACTTCCCCAAGTTTCTGGATAACCTGCAGAAGTACCAGGAGGCCAGGAAGAAGTATCCTGAGTGGATCATCAAGGCCGAGAGCGCCCTGGTGGCCCACAATATCAAGATGGACGAGGTGTTCTCCCTGGAGTACTTTAATAAGGTGCTGAACCAGGAGGGCATCCAGCGGTACAACCTGGCCCTGGGCGGCTATGTGACCAAGAGCGGCGAGAAGATGATGGGCCTGAATGATGCCCTGAACCTGGCCCACCAGTCCGAGAAGAGCTCCAAGGGCAGAATCCACATGACCCCCCTGTTCAAGCAGATCCTGTCCGAGAAGGAGTCCTTCTCTTACATCCCCGACGTGTTTACAGAGGATTCTCAGCTGCTGCCTAGCATCGGCGGCTTCTTTGCCCAGATCGAGAATGACAAGGATGGCAACATCTTCGACCGGGCCCTGGAGCTGATCTCTAGCTACGCCGAGTATGATACCGAGCGGATCTATATCAGACAGGCCGACATCAATAGAGTGTCCAACGTGATCTTTGGAGAGTGGGGCACCCTGGGAGGCCTGATGAGGGAGTACAAGGCCGACTCTATCAATGATATCAACCTGGAGCGCACATGCAAGAAGGTGGACAAGTGGCTGGATTCTAAGGAGTTTGCCCTGAGCGATGTGCTGGAGGCCATCAAGAGGACCGGCAACAATGACGCCTTCAACGAGTATATCTCCAAGATGCGGACAGCCAGAGAGAAGATCGATGCCGCCCGCAAGGAGATGAAGTTCATCAGCGAGAAGATCTCCGGCGATGAGGAGTCTATCCACATCATCAAGACCCTGCTGGACAGCGTGCAGCAGTTCCTGCACTTCTTTAATCTGTTTAAGGCAAGGCAGGACATCCCACTGGATGGAGCCTTCTACGCCGAGTTTGACGAGGTGCACAGCAAGCTGTTTGCCATCGTGCCCCTGTATAACAAGGTGCGGAACTATCTGACCAAGAACAATCTGAACACAAAGAAGATCAAGCTGAATTTCAAGAACCCTACACTGGCCAATGGCTGGGACCAGAACAAGGTGTACGATTATGCCTCCCTGATCTTTCTGCGGGACGGCAATTACTATCTGGGCATCATCAATCCTAAGAGAAAGAAGAACATCAAGTTCGAGCAGGGCTCTGGCAACGGCCCCTTCTACCGGAAGATGGTGTATAAGCAGATCCCCGGCCCTAATAAGAACCTGCCAAGAGTGTTCCTGACCTCCACAAAGGGCAAGAAGGAGTATAAGCCCTCTAAGGAGATCATCGAGGGCTACGAGGCCGACAAGCACATCAGGGGCGATAAGTTCGACCTGGATTTTTGTCACAAGCTGATCGATTTCTTTAAGGAGTCCATCGAGAAGCACAAGGACTGGTCTAAGTTCAACTTCTACTTCAGCCCAACCGAGAGCTATGGCGACATCTCTGAGTTCTACCTGGATGTGGAGAAGCAGGGCTATCGCATGCACTTTGAGAATATCAGCGCCGAGACAATCGACGAGTATGTGGAGAAGGGCGATCTGTTTCTGTTCCAGATCTACAACAAGGATTTTGTGAAGGCCGCCACCGGCAAGAAGGACATGCACACAATCTACTGGAATGCCGCCTTCAGCCCCGAGAACCTGCAGGACGTGGTGGTGAAGCTGAACGGCGAGGCCGAGCTGTTTTATAGGGACAAGTCCGATATCAAGGAGATCGTGCACCGCGAGGGCGAGATCCTGGTGAATAGGACCTACAACGGCCGCACACCAGTGCCCGACAAGATCCACAAGAAGCTGACCGATTATCACAATGGCCGGACAAAGGACCTGGGCGAGGCCAAGGAGTACCTGGATAAGGTGAGATACTTCAAGGCCCACTATGACATCACCAAGGATCGGAGATACCTGAACGACAAGATCTATTTCCACGTGCCTCTGACCCTGAACTTCAAGGCCAACGGCAAGAAGAATCTGAACAAGATGGTCATCGAGAAGTTCCTGTCCGATGAGAAGGCCCACATCATCGGCATCGACAGGGGCGAGCGCAATCTGCTGTACTATTCCATCATCGACAGGTCTGGCAAGATCATCGATCAGCAGAGCCTGAATGTGATCGACGGCTTTGATTATCGGGAGAAGCTGAACCAGAGAGAGATCGAGATGAAGGATGCCCGCCAGTCTTGGAACGCCATCGGCAAGATCAAGGACCTGAAGGAGGGCTACCTGAGCAAGGCCGTGCACGAGATCACCAAGATGGCCATCCAGTATAATGCCATCGTGGTCATGGAGGAGCTGAACTACGGCTTCAAGCGGGGCCGGTTCAAGGTGGAGAAGCAGATCTATCAGAAGTTCGAGAATATGCTGATCGATAAGATGAACTACCTGGTGTTTAAGGACGCACCTGATGAGTCCCCAGGAGGCGTGCTGAATGCCTACCAGCTGACAAACCCACTGGAGTCTTTCGCCAAGCTGGGCAAGCAGACCGGCATCCTGTTTTACGTGCCAGCCGCCTATACATCCAAGATCGACCCCACCACAGGCTTCGTGAATCTGTTTAACACCTCCTCTAAGACAAACGCCCAGGAGCGGAAGGAGTTCCTGCAGAAGTTTGAGAGCATCTCCTATTCTGCCAAGGATGGCGGCATCTTTGCCTTCGCCTTTGACTACAGAAAGTTCGGCACCAGCAAGACAGATCACAAGAACGTGTGGACCGCCTATACAAACGGCGAGAGGATGCGCTACATCAAGGAGAAGAAGCGGAATGAGCTGTTTGACCCTTCTAAGGAGATCAAGGAGGCCCTGACCAGCTCCGGCATCAAGTACGATGGCGGCCAGAACATCCTGCCAGACATCCTGAGGAGCAACAATAACGGCCTGATCTACACAATGTATTCTAGCTTCATCGCCGCCATCCAGATGCGCGTGTACGACGGCAAGGAGGATTATATCATCAGCCCCATCAAGAACTCCAAGGGCGAGTTCTTTAGGACCGACCCCAAGAGGCGCGAGCTGCCTATCGACGCCGATGCCAATGGCGCCTACAACATCGCCCTGAGGGGAGAGCTGACAATGAGGGCAATCGCAGAGAAGTTCGACCCTGATAGCGAGAAGATGGCCAAGCTGGAGCTGAAGCACAAGGATTGGTTCGAGTTTATGCAGACCAGAGGCGACAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAGGGATCCTACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCCTAAGAATTC (SEQ ID NO: 222).

11- Eubacterium eligens (EeCpf1)

ATGAACGGCAATAGGTCCATCGTGTACCGCGAGTTCGTGGGCGTGATCCCCGTGGCCAAGACCCTGAGGAATGAGCTGCGCCCTGTGGGCCACACACAGGAGCACATCATCCAGAACGGCCTGATCCAGGAGGACGAGCTGCGGCAGGAGAAGAGCACCGAGCTGAAGAACATCATGGACGATTACTATAGAGAGTACATCGATAAGTCTCTGAGCGGCGTGACCGACCTGGACTTCACCCTGCTGTTCGAGCTGATGAACCTGGTGCAGAGCTCCCCCTCCAAGGACAATAAGAAGGCCCTGGAGAAGGAGCAGTCTAAGATGAGGGAGCAGATCTGCACCCACCTGCAGTCCGACTCTAACTACAAGAATATCTTTAACGCCAAGCTGCTGAAGGAGATCCTGCCTGATTTCATCAAGAACTACAATCAGTATGACGTGAAGGATAAGGCCGGCAAGCTGGAGACACTGGCCCTGTTTAATGGCTTCAGCACATACTTTACCGACTTCTTTGAGAAGAGGAAGAACGTGTTCACCAAGGAGGCCGTGAGCACATCCATCGCCTACCGCATCGTGCACGAGAACTCCCTGATCTTCCTGGCCAATATGACCTCTTATAAGAAGATCAGCGAGAAGGCCCTGGATGAGATCGAAGTGATCGAGAAGAACAATCAGGACAAGATGGGCGATTGGGAGCTGAATCAGATCTTTAACCCTGACTTCTACAATATGGTGCTGATCCAGTCCGGCATCGACTTCTACAACGAGATCTGCGGCGTGGTGAATGCCCACATGAACCTGTACTGTCAGCAGACCAAGAACAATTATAACCTGTTCAAGATGCGGAAGCTGCACAAGCAGATCCTGGCCTACACCAGCACCAGCTTCGAGGTGCCCAAGATGTTCGAGGACGATATGAGCGTGTATAACGCCGTGAACGCCTTCATCGACGAGACAGAGAAGGGCAACATCATCGGCAAGCTGAAGGATATCGTGAATAAGTACGACGAGCTGGATGAGAAGAGAATCTATATCAGCAAGGACTTTTACGAGACACTGAGCTGCTTCATGTCCGGCAACTGGAATCTGATCACAGGCTGCGTGGAGAACTTCTACGATGAGAACATCCACGCCAAGGGCAAGTCCAAGGAGGAGAAGGTGAAGAAGGCCGTGAAGGAGGACAAGTACAAGTCTATCAATGACGTGAACGATCTGGTGGAGAAGTATATCGATGAGAAGGAGAGGAATGAGTTCAAGAACAGCAATGCCAAGCAGTACATCCGCGAGATCTCCAACATCATCACCGACACAGAGACAGCCCACCTGGAGTATGACGATCACATCTCTCTGATCGAGAGCGAGGAGAAGGCCGACGAGATGAAGAAGCGGCTGGATATGTATATGAACATGTACCACTGGGCCAAGGCCTTTATCGTGGACGAGGTGCTGGACAGAGATGAGATGTTCTACAGCGATATCGACGATATCTATAATATCCTGGAGAACATCGTGCCACTGTATAATCGGGTGAGAAACTACGTGACCCAGAAGCCCTACAACTCTAAGAAGATCAAGCTGAATTTCCAGAGCCCTACACTGGCCAATGGCTGGTCCCAGTCTAAGGAGTTCGACAACAATGCCATCATCCTGATCAGAGATAACAAGTACTATCTGGCCATCTTCAATGCCAAGAACAAGCCAGACAAGAAGATCATCCAGGGCAACTCCGATAAGAAGAACGACAACGATTACAAGAAGATGGTGTATAACCTGCTGCCAGGCGCCAACAAGATGCTGCCCAAGGTGTTTCTGTCTAAGAAGGGCATCGAGACATTCAAGCCCTCCGACTATATCATCTCTGGCTACAACGCCCACAAGCACATCAAGACAAGCGAGAATTTTGATATCTCCTTCTGTCGGGACCTGATCGATTACTTCAAGAACAGCATCGAGAAGCACGCCGAGTGGAGAAAGTATGAGTTCAAGTTTTCCGCCACCGACAGCTACTCCGATATCTCTGAGTTCTATCGGGAGGTGGAGATGCAGGGCTACAGAATCGACTGGACATATATCAGCGAGGCCGACATCAACAAGCTGGATGAGGAGGGCAAGATCTATCTGTTTCAGATCTACAATAAGGATTTCGCCGAGAACAGCACCGGCAAGGAGAATCTGCACACAATGTACTTTAAGAACATCTTCTCCGAGGAGAATCTGAAGGACATCATCATCAAGCTGAACGGCCAGGCCGAGCTGTTTTATCGGAGAGCCTCTGTGAAGAATCCCGTGAAGCACAAGAAGGATAGCGTGCTGGTGAACAAGACCTACAAGAATCAGCTGGACAACGGCGACGTGGTGAGAATCCCCATCCCTGACGATATCTATAACGAGATCTACAAGATGTATAATGGCTACATCAAGGAGTCCGACCTGTCTGAGGCCGCCAAGGAGTACCTGGATAAGGTGGAGGTGAGGACCGCCCAGAAGGACATCGTGAAGGATTACCGCTATACAGTGGACAAGTACTTCATCCACACACCTATCACCATCAACTATAAGGTGACCGCCCGCAACAATGTGAATGATATGGTGGTGAAGTACATCGCCCAGAACGACGATATCCACGTGATCGGCATCGACCGGGGCGAGAGAAACCTGATCTACATCTCCGTGATCGATTCTCACGGCAACATCGTGAAGCAGAAATCCTACAACATCCTGAACAACTACGACTACAAGAAGAAGCTGGTGGAGAAGGAGAAAACCCGGGAGTACGCCAGAAAGAACTGGAAGAGCATCGGCAATATCAAGGAGCTGAAGGAGGGCTATATCTCCGGCGTGGTGCACGAGATCGCCATGCTGATCGTGGAGTACAACGCCATCATCGCCATGGAGGACCTGAATTATGGCTTTAAGAGGGGCCGCTTCAAGGTGGAGCGGCAGGTGTACCAGAAGTTTGAGAGCATGCTGATCAATAAGCTGAACTATTTCGCCAGCAAGGAGAAGTCCGTGGACGAGCCAGGAGGCCTGCTGAAGGGCTATCAGCTGACCTACGTGCCCGATAATATCAAGAACCTGGGCAAGCAGTGCGGCGTGATCTTTTACGTGCCTGCCGCCTTCACCAGCAAGATCGACCCATCCACAGGCTTTATCTCTGCCTTCAACTTTAAGTCTATCAGCACAAATGCCTCTCGGAAGCAGTTCTTTATGCAGTTTGACGAGATCAGATACTGTGCCGAGAAGGATATGTTCAGCTTTGGCTTCGACTACAACAACTTCGATACCTACAACATCACAATGGGCAAGACACAGTGGACCGTGTATACAAACGGCGAGAGACTGCAGTCTGAGTTCAACAATGCCAGGCGCACCGGCAAGACAAAGAGCATCAATCTGACAGAGACAATCAAGCTGCTGCTGGAGGACAATGAGATCAACTACGCCGACGGCCACGATATCAGGATCGATATGGAGAAGATGGACGAGGATAAGAAGAGCGAGTTCTTTGCCCAGCTGCTGAGCCTGTATAAGCTGACCGTGCAGATGCGCAATTCCTATACAGAGGCCGAGGAGCAGGAGAACGGCATCTCTTACGACAAGATCATCAGCCCTGTGATCAATGATGAGGGCGAGTTCTTTGACTCCGATAACTATAAGGAGTCTGACGATAAGGAGTGCAAGATGCCAAAGGACGCCGATGCCAACGGCGCCTACTGTATCGCCCTGAAGGGCCTGTATGAGGTGCTGAAGATCAAGAGCGAGTGGACCGAGGACGGCTTTGATAGGAATTGCCTGAAGCTGCCACACGCAGAGTGGCTGGACTTCATCCAGAACAAGCGGTACGAGAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAGGGATCCTACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCCTAAGAATTC (SEQ ID NO: 223).

12- Moraxella bovoculi 237 (MbCpf1)

ATGCTGTTCCAGGACTTTACCCACCTGTATCCACTGTCCAAGACAGTGAGATTTGAGCTGAAGCCCATCGATAGGACCCTGGAGCACATCCACGCCAAGAACTTCCTGTCTCAGGACGAGACAATGGCCGATATGCACCAGAAGGTGAAAGTGATCCTGGACGATTACCACCGCGACTTCATCGCCGATATGATGGGCGAGGTGAAGCTGACCAAGCTGGCCGAGTTCTATGACGTGTACCTGAAGTTTCGGAAGAACCCAAAGGACGATGAGCTGCAGAAGCAGCTGAAGGATCTGCAGGCCGTGCTGAGAAAGGAGATCGTGAAGCCCATCGGCAATGGCGGCAAGTATAAGGCCGGCTACGACAGGCTGTTCGGCGCCAAGCTGTTTAAGGACGGCAAGGAGCTGGGCGATCTGGCCAAGTTCGTGATCGCACAGGAGGGAGAGAGCTCCCCAAAGCTGGCCCACCTGGCCCACTTCGAGAAGTTTTCCACCTATTTCACAGGCTTTCACGATAACCGGAAGAATATGTATTCTGACGAGGATAAGCACACCGCCATCGCCTACCGCCTGATCCACGAGAACCTGCCCCGGTTTATCGACAATCTGCAGATCCTGACCACAATCAAGCAGAAGCACTCTGCCCTGTACGATCAGATCATCAACGAGCTGACCGCCAGCGGCCTGGACGTGTCTCTGGCCAGCCACCTGGATGGCTATCACAAGCTGCTGACACAGGAGGGCATCACCGCCTACAATACACTGCTGGGAGGAATCTCCGGAGAGGCAGGCTCTCCTAAGATCCAGGGCATCAACGAGCTGATCAATTCTCACCACAACCAGCACTGCCACAAGAGCGAGAGAATCGCCAAGCTGAGGCCACTGCACAAGCAGATCCTGTCCGACGGCATGAGCGTGTCCTTCCTGCCCTCTAAGTTTGCCGACGATAGCGAGATGTGCCAGGCCGTGAACGAGTTCTATCGCCACTACGCCGACGTGTTCGCCAAGGTGCAGAGCCTGTTCGACGGCTTTGACGATCACCAGAAGGATGGCATCTACGTGGAGCACAAGAACCTGAATGAGCTGTCCAAGCAGGCCTTCGGCGACTTTGCACTGCTGGGACGCGTGCTGGACGGATACTATGTGGATGTGGTGAATCCAGAGTTCAACGAGCGGTTTGCCAAGGCCAAGACCGACAATGCCAAGGCCAAGCTGACAAAGGAGAAGGATAAGTTCATCAAGGGCGTGCACTCCCTGGCCTCTCTGGAGCAGGCCATCGAGCACTATACCGCAAGGCACGACGATGAGAGCGTGCAGGCAGGCAAGCTGGGACAGTACTTCAAGCACGGCCTGGCCGGAGTGGACAACCCCATCCAGAAGATCCACAACAATCACAGCACCATCAAGGGCTTTCTGGAGAGGGAGCGCCCTGCAGGAGAGAGAGCCCTGCCAAAGATCAAGTCCGGCAAGAATCCTGAGATGACACAGCTGAGGCAGCTGAAGGAGCTGCTGGATAACGCCCTGAATGTGGCCCACTTCGCCAAGCTGCTGACCACAAAGACCACACTGGACAATCAGGATGGCAACTTCTATGGCGAGTTTGGCGTGCTGTACGACGAGCTGGCCAAGATCCCCACCCTGTATAACAAGGTGAGAGATTACCTGAGCCAGAAGCCTTTCTCCACCGAGAAGTACAAGCTGAACTTTGGCAATCCAACACTGCTGAATGGCTGGGACCTGAACAAGGAGAAGGATAATTTCGGCGTGATCCTGCAGAAGGACGGCTGCTACTATCTGGCCCTGCTGGACAAGGCCCACAAGAAGGTGTTTGATAACGCCCCTAATACAGGCAAGAGCATCTATCAGAAGATGATCTATAAGTACCTGGAGGTGAGGAAGCAGTTCCCCAAGGTGTTCTTTTCCAAGGAGGCCATCGCCATCAACTACCACCCTTCTAAGGAGCTGGTGGAGATCAAGGACAAGGGCCGGCAGAGATCCGACGATGAGCGCCTGAAGCTGTATCGGTTTATCCTGGAGTGTCTGAAGATCCACCCTAAGTACGATAAGAAGTTCGAGGGCGCCATCGGCGACATCCAGCTGTTTAAGAAGGATAAGAAGGGCAGAGAGGTGCCAATCAGCGAGAAGGACCTGTTCGATAAGATCAACGGCATCTTTTCTAGCAAGCCTAAGCTGGAGATGGAGGACTTCTTTATCGGCGAGTTCAAGAGGTATAACCCAAGCCAGGACCTGGTGGATCAGTATAATATCTACAAGAAGATCGACTCCAACGATAATCGCAAGAAGGAGAATTTCTACAACAATCACCCCAAGTTTAAGAAGGATCTGGTGCGGTACTATTACGAGTCTATGTGCAAGCACGAGGAGTGGGAGGAGAGCTTCGAGTTTTCCAAGAAGCTGCAGGACATCGGCTGTTACGTGGATGTGAACGAGCTGTTTACCGAGATCGAGACACGGAGACTGAATTATAAGATCTCCTTCTGCAACATCAATGCCGACTACATCGATGAGCTGGTGGAGCAGGGCCAGCTGTATCTGTTCCAGATCTACAACAAGGACTTTTCCCCAAAGGCCCACGGCAAGCCCAATCTGCACACCCTGTACTTCAAGGCCCTGTTTTCTGAGGACAACCTGGCCGATCCTATCTATAAGCTGAATGGCGAGGCCCAGATCTTCTACAGAAAGGCCTCCCTGGACATGAACGAGACAACAATCCACAGGGCCGGCGAGGTGCTGGAGAACAAGAATCCCGATAATCCTAAGAAGAGACAGTTCGTGTACGACATCATCAAGGATAAGAGGTACACACAGGACAAGTTCATGCTGCACGTGCCAATCACCATGAACTTTGGCGTGCAGGGCATGACAATCAAGGAGTTCAATAAGAAGGTGAACCAGTCTATCCAGCAGTATGACGAGGTGAACGTGATCGGCATCGATCGGGGCGAGAGACACCTGCTGTACCTGACCGTGATCAATAGCAAGGGCGAGATCCTGGAGCAGTGTTCCCTGAACGACATCACCACAGCCTCTGCCAATGGCACACAGATGACCACACCTTACCACAAGATCCTGGATAAGAGGGAGATCGAGCGCCTGAACGCCCGGGTGGGATGGGGCGAGATCGAGACAATCAAGGAGCTGAAGTCTGGCTATCTGAGCCACGTGGTGCACCAGATCAGCCAGCTGATGCTGAAGTACAACGCCATCGTGGTGCTGGAGGACCTGAATTTCGGCTTTAAGAGGGGCCGCTTTAAGGTGGAGAAGCAGATCTATCAGAACTTCGAGAATGCCCTGATCAAGAAGCTGAACCACCTGGTGCTGAAGGACAAGGCCGACGATGAGATCGGCTCTTACAAGAATGCCCTGCAGCTGACCAACAATTTCACAGATCTGAAGAGCATCGGCAAGCAGACCGGCTTCCTGTTTTATGTGCCCGCCTGGAACACCTCTAAGATCGACCCTGAGACAGGCTTTGTGGATCTGCTGAAGCCAAGATACGAGAACATCGCCCAGAGCCAGGCCTTCTTTGGCAAGTTCGACAAGATCTGCTATAATGCCGACAAGGATTACTTCGAGTTTCACATCGACTACGCCAAGTTTACCGATAAGGCCAAGAATAGCCGCCAGATCTGGACAATCTGTTCCCACGGCGACAAGCGGTACGTGTACGATAAGACAGCCAACCAGAATAAGGGCGCCGCCAAGGGCATCAACGTGAATGATGAGCTGAAGTCCCTGTTCGCCCGCCACCACATCAACGAGAAGCAGCCCAACCTGGTCATGGACATCTGCCAGAACAATGATAAGGAGTTTCACAAGTCTCTGATGTACCTGCTGAAAACCCTGCTGGCCCTGCGGTACAGCAACGCCTCCTCTGACGAGGATTTCATCCTGTCCCCCGTGGCAAACGACGAGGGCGTGTTCTTTAATAGCGCCCTGGCCGACGATACACAGCCTCAGAATGCCGATGCCAACGGCGCCTACCACATCGCCCTGAAGGGCCTGTGGCTGCTGAATGAGCTGAAGAACTCCGACGATCTGAACAAGGTGAAGCTGGCCATCGACAATCAGACCTGGCTGAATTTCGCCCAGAACAGGAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAGGGATCCTACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCCTAAGAATTC (SEQ ID NO: 224).

13- Leptospira inadai (LiCpf1)

ATGGAGGACTATTCCGGCTTTGTGAACATCTACTCTATCCAGAAAACCCTGAGGTTCGAGCTGAAGCCAGTGGGCAAGACACTGGAGCACATCGAGAAGAAGGGCTTCCTGAAGAAGGACAAGATCCGGGCCGAGGATTACAAGGCCGTGAAGAAGATCATCGATAAGTACCACAGAGCCTATATCGAGGAGGTGTTTGATTCCGTGCTGCACCAGAAGAAGAAGAAGGACAAGACCCGCTTTTCTACACAGTTCATCAAGGAGATCAAGGAGTTCAGCGAGCTGTACTATAAGACCGAGAAGAACATCCCCGACAAGGAGAGGCTGGAGGCCCTGAGCGAGAAGCTGCGCAAGATGCTGGTGGGCGCCTTTAAGGGCGAGTTCTCCGAGGAGGTGGCCGAGAAGTATAAGAACCTGTTTTCTAAGGAGCTGATCAGGAATGAGATCGAGAAGTTCTGCGAGACAGACGAGGAGCGCAAGCAGGTGTCTAACTTCAAGAGCTTCACCACATACTTTACCGGCTTCCACTCCAACAGGCAGAATATCTATTCCGACGAGAAGAAGTCTACAGCCATCGGCTACCGCATCATCCACCAGAACCTGCCTAAGTTCCTGGATAATCTGAAGATCATCGAGTCCATCCAGCGGCGGTTCAAGGACTTCCCATGGTCTGATCTGAAGAAGAACCTGAAGAAGATCGATAAGAATATCAAGCTGACCGAGTACTTCAGCATCGACGGCTTCGTGAACGTGCTGAATCAGAAGGGCATCGATGCCTACAACACAATCCTGGGCGGCAAGTCCGAGGAGTCTGGCGAGAAGATCCAGGGCCTGAACGAGTACATCAATCTGTATCGGCAGAAGAACAATATCGACAGAAAGAACCTGCCCAATGTGAAGATCCTGTTTAAGCAGATCCTGGGCGATAGGGAGACAAAGAGCTTTATCCCTGAGGCCTTCCCAGACGATCAGTCCGTGCTGAACTCTATCACAGAGTTCGCCAAGTACCTGAAGCTGGATAAGAAGAAGAAGAGCATCATCGCCGAGCTGAAGAAGTTTCTGAGCTCCTTCAATCGCTACGAGCTGGACGGCATCTATCTGGCCAACGATAATAGCCTGGCCTCTATCAGCACCTTCCTGTTTGACGATTGGTCCTTTATCAAGAAGTCCGTGTCTTTCAAGTATGACGAGTCCGTGGGCGACCCCAAGAAGAAGATCAAGTCTCCCCTGAAGTACGAGAAGGAGAAGGAGAAGTGGCTGAAGCAGAAGTACTATACAATCTCTTTCCTGAACGATGCCATCGAGAGCTATTCCAAGTCTCAGGACGAGAAGAGGGTGAAGATCCGCCTGGAGGCCTACTTTGCCGAGTTCAAGAGCAAGGACGATGCCAAGAAGCAGTTCGACCTGCTGGAGAGGATCGAGGAGGCCTATGCCATCGTGGAGCCTCTGCTGGGAGCAGAGTACCCAAGGGACCGCAACCTGAAGGCCGATAAGAAGGAAGTGGGCAAGATCAAGGACTTCCTGGATAGCATCAAGTCCCTGCAGTTCTTTCTGAAGCCTCTGCTGTCCGCCGAGATCTTTGACGAGAAGGATCTGGGCTTCTACAATCAGCTGGAGGGCTACTATGAGGAGATCGATTCTATCGGCCACCTGTATAACAAGGTGCGGAATTATCTGACCGGCAAGATCTACAGCAAGGAGAAGTTTAAGCTGAACTTCGAGAACAGCACCCTGCTGAAGGGCTGGGACGAGAACCGGGAGGTGGCCAATCTGTGCGTGATCTTCAGAGAGGACCAGAAGTACTATCTGGGCGTGATGGATAAGGAGAACAATACCATCCTGTCCGACATCCCCAAGGTGAAGCCTAACGAGCTGTTTTACGAGAAGATGGTGTATAAGCTGATCCCCACACCTCACATGCAGCTGCCCCGGATCATCTTCTCTAGCGACAACCTGTCTATCTATAATCCTAGCAAGTCCATCCTGAAGATCAGAGAGGCCAAGAGCTTTAAGGAGGGCAAGAACTTCAAGCTGAAGGACTGTCACAAGTTTATCGATTTCTACAAGGAGTCTATCAGCAAGAATGAGGACTGGAGCAGATTCGACTTCAAGTTCAGCAAGACCAGCAGCTACGAGAACATCAGCGAGTTTTACCGGGAGGTGGAGAGACAGGGCTATAACCTGGACTTCAAGAAGGTGTCTAAGTTCTACATCGACAGCCTGGTGGAGGATGGCAAGCTGTACCTGTTCCAGATCTATAACAAGGACTTTTCTATCTTCAGCAAGGGCAAGCCCAATCTGCACACCATCTATTTTCGGTCCCTGTTCTCTAAGGAGAACCTGAAGGACGTGTGCCTGAAGCTGAATGGCGAGGCCGAGATGTTCTTTCGGAAGAAGTCCATCAACTACGATGAGAAGAAGAAGCGGGAGGGCCACCACCCCGAGCTGTTTGAGAAGCTGAAGTATCCTATCCTGAAGGACAAGAGATACAGCGAGGATAAGTTTCAGTTCCACCTGCCCATCAGCCTGAACTTCAAGTCCAAGGAGCGGCTGAACTTTAATCTGAAAGTGAATGAGTTCCTGAAGAGAAACAAGGACATCAATATCATCGGCATCGATCGGGGCGAGAGAAACCTGCTGTACCTGGTCATGATCAATCAGAAGGGCGAGATCCTGAAGCAGACCCTGCTGGACAGCATGCAGTCCGGCAAGGGCCGGCCTGAGATCAACTACAAGGAGAAGCTGCAGGAGAAGGAGATCGAGAGGGATAAGGCCCGCAAGAGCTGGGGCACAGTGGAGAATATCAAGGAGCTGAAGGAGGGCTATCTGTCTATCGTGATCCACCAGATCAGCAAGCTGATGGTGGAGAACAATGCCATCGTGGTGCTGGAGGACCTGAACATCGGCTTTAAGCGGGGCAGACAGAAGGTGGAGCGGCAGGTGTACCAGAAGTTCGAGAAGATGCTGATCGATAAGCTGAACTTTCTGGTGTTCAAGGAGAATAAGCCAACCGAGCCAGGAGGCGTGCTGAAGGCCTATCAGCTGACAGACGAGTTTCAGTCTTTCGAGAAGCTGAGCAAGCAGACCGGCTTTCTGTTCTACGTGCCAAGCTGGAACACCTCCAAGATCGACCCCAGAACAGGCTTTATCGATTTCCTGCACCCTGCCTACGAGAATATCGAGAAGGCCAAGCAGTGGATCAACAAGTTTGATTCCATCAGGTTCAATTCTAAGATGGACTGGTTTGAGTTCACCGCCGATACACGCAAGTTTTCCGAGAACCTGATGCTGGGCAAGAATCGGGTGTGGGTCATCTGCACCACAAATGTGGAGCGGTACTTCACCAGCAAGACCGCCAACAGCTCCATCCAGTACAATAGCATCCAGATCACCGAGAAGCTGAAGGAGCTGTTTGTGGACATCCCTTTCAGCAACGGCCAGGATCTGAAGCCAGAGATCCTGAGGAAGAATGACGCCGTGTTCTTTAAGAGCCTGCTGTTTTACATCAAGACCACACTGTCCCTGCGCCAGAACAATGGCAAGAAGGGCGAGGAGGAGAAGGACTTCATCCTGAGCCCAGTGGTGGATTCCAAGGGCCGGTTCTTTAACTCTCTGGAGGCCAGCGACGATGAGCCCAAGGACGCCGATGCCAATGGCGCCTACCACATCGCCCTGAAGGGCCTGATGAACCTGCTGGTGCTGAATGAGACAAAGGAGGAGAACCTGAGCAGACCAAAGTGGAAGATCAAGAATAAGGACTGGCTGGAGTTCGTGTGGGAGAGGAACCGCAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAGGGATCCTACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCCTAAGAATTC (SEQ ID NO: 225).

14- Lachnospiraceae bacterium ND2006 (LbCpf1)

ATGAGCAAGCTGGAGAAGTTTACAAACTGCTACTCCCTGTCTAAGACCCTGAGGTTCAAGGCCATCCCTGTGGGCAAGACCCAGGAGAACATCGACAATAAGCGGCTGCTGGTGGAGGACGAGAAGAGAGCCGAGGATTATAAGGGCGTGAAGAAGCTGCTGGATCGCTACTATCTGTCTTTTATCAACGACGTGCTGCACAGCATCAAGCTGAAGAATCTGAACAATTACATCAGCCTGTTCCGGAAGAAAACCAGAACCGAGAAGGAGAATAAGGAGCTGGAGAACCTGGAGATCAATCTGCGGAAGGAGATCGCCAAGGCCTTCAAGGGCAACGAGGGCTACAAGTCCCTGTTTAAGAAGGATATCATCGAGACAATCCTGCCAGAGTTCCTGGACGATAAGGACGAGATCGCCCTGGTGAACAGCTTCAATGGCTTTACCACAGCCTTCACCGGCTTCTTTGATAACAGAGAGAATATGTTTTCCGAGGAGGCCAAGAGCACATCCATCGCCTTCAGGTGTATCAACGAGAATCTGACCCGCTACATCTCTAATATGGACATCTTCGAGAAGGTGGACGCCATCTTTGATAAGCACGAGGTGCAGGAGATCAAGGAGAAGATCCTGAACAGCGACTATGATGTGGAGGATTTCTTTGAGGGCGAGTTCTTTAACTTTGTGCTGACACAGGAGGGCATCGACGTGTATAACGCCATCATCGGCGGCTTCGTGACCGAGAGCGGCGAGAAGATCAAGGGCCTGAACGAGTACATCAACCTGTATAATCAGAAAACCAAGCAGAAGCTGCCTAAGTTTAAGCCACTGTATAAGCAGGTGCTGAGCGATCGGGAGTCTCTGAGCTTCTACGGCGAGGGCTATACATCCGATGAGGAGGTGCTGGAGGTGTTTAGAAACACCCTGAACAAGAACAGCGAGATCTTCAGCTCCATCAAGAAGCTGGAGAAGCTGTTCAAGAATTTTGACGAGTACTCTAGCGCCGGCATCTTTGTGAAGAACGGCCCCGCCATCAGCACAATCTCCAAGGATATCTTCGGCGAGTGGAACGTGATCCGGGACAAGTGGAATGCCGAGTATGACGATATCCACCTGAAGAAGAAGGCCGTGGTGACCGAGAAGTACGAGGACGATCGGAGAAAGTCCTTCAAGAAGATCGGCTCCTTTTCTCTGGAGCAGCTGCAGGAGTACGCCGACGCCGATCTGTCTGTGGTGGAGAAGCTGAAGGAGATCATCATCCAGAAGGTGGATGAGATCTACAAGGTGTATGGCTCCTCTGAGAAGCTGTTCGACGCCGATTTTGTGCTGGAGAAGAGCCTGAAGAAGAACGACGCCGTGGTGGCCATCATGAAGGACCTGCTGGATTCTGTGAAGAGCTTCGAGAATTACATCAAGGCCTTCTTTGGCGAGGGCAAGGAGACAAACAGGGACGAGTCCTTCTATGGCGATTTTGTGCTGGCCTACGACATCCTGCTGAAGGTGGACCACATCTACGATGCCATCCGCAATTATGTGACCCAGAAGCCCTACTCTAAGGATAAGTTCAAGCTGTATTTTCAGAACCCTCAGTTCATGGGCGGCTGGGACAAGGATAAGGAGACAGACTATCGGGCCACCATCCTGAGATACGGCTCCAAGTACTATCTGGCCATCATGGATAAGAAGTACGCCAAGTGCCTGCAGAAGATCGACAAGGACGATGTGAACGGCAATTACGAGAAGATCAACTATAAGCTGCTGCCCGGCCCTAATAAGATGCTGCCAAAGGTGTTCTTTTCTAAGAAGTGGATGGCCTACTATAACCCCAGCGAGGACATCCAGAAGATCTACAAGAATGGCACATTCAAGAAGGGCGATATGTTTAACCTGAATGACTGTCACAAGCTGATCGACTTCTTTAAGGATAGCATCTCCCGGTATCCAAAGTGGTCCAATGCCTACGATTTCAACTTTTCTGAGACAGAGAAGTATAAGGACATCGCCGGCTTTTACAGAGAGGTGGAGGAGCAGGGCTATAAGGTGAGCTTCGAGTCTGCCAGCAAGAAGGAGGTGGATAAGCTGGTGGAGGAGGGCAAGCTGTATATGTTCCAGATCTATAACAAGGACTTTTCCGATAAGTCTCACGGCACACCCAATCTGCACACCATGTACTTCAAGCTGCTGTTTGACGAGAACAATCACGGACAGATCAGGCTGAGCGGAGGAGCAGAGCTGTTCATGAGGCGCGCCTCCCTGAAGAAGGAGGAGCTGGTGGTGCACCCAGCCAACTCCCCTATCGCCAACAAGAATCCAGATAATCCCAAGAAAACCACAACCCTGTCCTACGACGTGTATAAGGATAAGAGGTTTTCTGAGGACCAGTACGAGCTGCACATCCCAATCGCCATCAATAAGTGCCCCAAGAACATCTTCAAGATCAATACAGAGGTGCGCGTGCTGCTGAAGCACGACGATAACCCCTATGTGATCGGCATCGATAGGGGCGAGCGCAATCTGCTGTATATCGTGGTGGTGGACGGCAAGGGCAACATCGTGGAGCAGTATTCCCTGAACGAGATCATCAACAACTTCAACGGCATCAGGATCAAGACAGATTACCACTCTCTGCTGGACAAGAAGGAGAAGGAGAGGTTCGAGGCCCGCCAGAACTGGACCTCCATCGAGAATATCAAGGAGCTGAAGGCCGGCTATATCTCTCAGGTGGTGCACAAGATCTGCGAGCTGGTGGAGAAGTACGATGCCGTGATCGCCCTGGAGGACCTGAACTCTGGCTTTAAGAATAGCCGCGTGAAGGTGGAGAAGCAGGTGTATCAGAAGTTCGAGAAGATGCTGATCGATAAGCTGAACTACATGGTGGACAAGAAGTCTAATCCTTGTGCAACAGGCGGCGCCCTGAAGGGCTATCAGATCACCAATAAGTTCGAGAGCTTTAAGTCCATGTCTACCCAGAACGGCTTCATCTTTTACATCCCTGCCTGGCTGACATCCAAGATCGATCCATCTACCGGCTTTGTGAACCTGCTGAAAACCAAGTATACCAGCATCGCCGATTCCAAGAAGTTCATCAGCTCCTTTGACAGGATCATGTACGTGCCCGAGGAGGATCTGTTCGAGTTTGCCCTGGACTATAAGAACTTCTCTCGCACAGACGCCGATTACATCAAGAAGTGGAAGCTGTACTCCTACGGCAACCGGATCAGAATCTTCCGGAATCCTAAGAAGAACAACGTGTTCGACTGGGAGGAGGTGTGCCTGACCAGCGCCTATAAGGAGCTGTTCAACAAGTACGGCATCAATTATCAGCAGGGCGATATCAGAGCCCTGCTGTGCGAGCAGTCCGACAAGGCCTTCTACTCTAGCTTTATGGCCCTGATGAGCCTGATGCTGCAGATGCGGAACAGCATCACAGGCCGCACCGACGTGGATTTTCTGATCAGCCCTGTGAAGAACTCCGACGGCATCTTCTACGATAGCCGGAACTATGAGGCCCAGGAGAATGCCATCCTGCCAAAGAACGCCGACGCCAATGGCGCCTATAACATCGCCAGAAAGGTGCTGTGGGCCATCGGCCAGTTCAAGAAGGCCGAGGACGAGAAGCTGGATAAGGTGAAGATCGCCATCTCTAACAAGGAGTGGCTGGAGTACGCCCAGACCAGCGTGAAGCACAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAGGGATCCTACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCCTAAGAATTC (SEQ ID NO: 226).

15- Porphyromonas crevioricanis (PcCpf1)

ATGGACAGCCTGAAGGATTTCACCAACCTGTACCCCGTGTCCAAGACACTGCGGTTTGAGCTGAAGCCTGTGGGCAAGACCCTGGAGAATATCGAGAAGGCCGGCATCCTGAAGGAGGATGAGCACAGAGCCGAGAGCTACCGGAGAGTGAAGAAGATCATCGATACATATCACAAGGTGTTCATCGACAGCTCCCTGGAGAACATGGCCAAGATGGGCATCGAGAATGAGATCAAGGCCATGCTGCAGTCCTTTTGCGAGCTGTATAAGAAGGACCACAGGACCGAGGGAGAGGACAAGGCCCTGGATAAGATCAGGGCCGTGCTGAGGGGCCTGATCGTGGGAGCCTTCACCGGCGTGTGCGGCCGGCGGGAGAACACAGTGCAGAATGAGAAGTATGAGAGCCTGTTTAAGGAGAAGCTGATCAAGGAGATCCTGCCAGATTTCGTGCTGTCTACAGAGGCCGAGTCCCTGCCCTTTTCTGTGGAGGAGGCCACCAGAAGCCTGAAGGAGTTCGACTCCTTTACATCTTACTTCGCCGGCTTTTATGAGAACCGGAAGAATATCTACTCTACCAAGCCCCAGAGCACAGCCATCGCCTATAGACTGATCCACGAGAACCTGCCTAAGTTCATCGATAATATCCTGGTGTTTCAGAAGATCAAGGAGCCAATCGCCAAGGAGCTGGAGCACATCAGGGCAGACTTCAGCGCCGGCGGCTACATCAAGAAGGATGAGCGCCTGGAGGACATCTTTTCCCTGAACTACTATATCCACGTGCTGTCTCAGGCCGGCATCGAGAAGTACAATGCCCTGATCGGCAAGATCGTGACCGAGGGCGATGGCGAGATGAAGGGCCTGAACGAGCACATCAACCTGTATAATCAGCAGAGGGGCCGCGAGGACCGGCTGCCACTGTTCAGACCCCTGTATAAGCAGATCCTGTCTGATAGGGAGCAGCTGTCCTATCTGCCAGAGTCTTTCGAGAAGGACGAGGAGCTGCTGAGGGCCCTGAAGGAGTTTTACGATCACATCGCAGAGGACATCCTGGGAAGGACCCAGCAGCTGATGACAAGCATCTCCGAGTACGATCTGTCCCGGATCTATGTGAGAAACGATAGCCAGCTGACCGACATCTCCAAGAAGATGCTGGGCGATTGGAATGCCATCTACATGGCCCGGGAGAGAGCCTATGACCACGAGCAGGCCCCCAAGCGCATCACAGCCAAGTACGAGAGGGACCGCATCAAGGCCCTGAAGGGCGAGGAGTCTATCAGCCTGGCCAACCTGAACAGCTGCATCGCCTTCCTGGACAACGTGAGGGATTGTCGCGTGGACACCTATCTGTCTACACTGGGACAGAAGGAGGGACCTCACGGCCTGAGCAACCTGGTGGAGAACGTGTTCGCCTCCTACCACGAGGCCGAGCAGCTGCTGTCTTTTCCCTATCCTGAGGAGAACAATCTGATCCAGGACAAGGATAACGTGGTGCTGATCAAGAACCTGCTGGATAATATCAGCGACCTGCAGAGGTTCCTGAAGCCACTGTGGGGCATGGGCGATGAGCCCGACAAGGATGAGAGGTTTTACGGCGAGTACAATTATATCAGGGGCGCCCTGGACCAGGTCATCCCTCTGTATAACAAGGTGCGGAATTATCTGACCCGCAAGCCATACTCCACACGCAAGGTGAAGCTGAACTTCGGCAATAGCCAGCTGCTGTCCGGCTGGGATAGGAACAAGGAGAAGGACAATTCTTGCGTGATCCTGCGCAAGGGCCAGAACTTCTACCTGGCCATCATGAACAATCGGCACAAGCGGAGCTTCGAGAATAAGATGCTGCCCGAGTATAAGGAGGGCGAGCCTTACTTCGAGAAGATGGATTATAAGTTTCTGCCAGACCCCAACAAGATGCTGCCCAAGGTGTTCCTGTCTAAGAAGGGCATCGAGATCTACAAGCCTAGCCCAAAGCTGCTGGAGCAGTATGGCCACGGCACCCACAAGAAGGGCGATACCTTCAGCATGGACGATCTGCACGAGCTGATCGACTTCTTTAAGCACTCCATCGAGGCCCACGAGGATTGGAAGCAGTTCGGCTTTAAGTTCAGCGACACCGCCACATACGAGAACGTGAGCAGCTTCTACCGGGAGGTGGAGGACCAGGGCTACAAGCTGTCTTTTAGAAAGGTGTCCGAGTCTTACGTGTATAGCCTGATCGATCAGGGCAAGCTGTACCTGTTCCAGATCTATAACAAGGACTTTAGCCCTTGTTCCAAGGGCACCCCAAATCTGCACACACTGTACTGGCGGATGCTGTTCGATGAGAGAAACCTGGCCGACGTGATCTATAAGCTGGATGGCAAGGCCGAGATCTTCTTTCGGGAGAAGTCCCTGAAGAATGACCACCCAACCCACCCTGCAGGCAAGCCCATCAAGAAGAAGAGCCGGCAGAAGAAGGGCGAGGAGAGCCTGTTCGAGTACGATCTGGTGAAGGACCGGAGATATACCATGGATAAGTTTCAGTTCCACGTGCCAATCACAATGAACTTTAAGTGCTCTGCCGGCAGCAAGGTGAACGACATGGTGAATGCCCACATCAGGGAGGCCAAGGACATGCACGTGATCGGCATCGATAGGGGCGAGCGCAATCTGCTGTATATCTGCGTGATCGACAGCCGCGGCACCATCCTGGATCAGATCTCCCTGAACACAATCAATGACATCGATTATCACGATCTGCTGGAGTCCAGGGACAAGGATCGCCAGCAGGAGCACAGGAACTGGCAGACCATCGAGGGCATCAAGGAGCTGAAGCAGGGCTACCTGTCTCAGGCCGTGCACCGCATCGCCGAGCTGATGGTGGCCTATAAGGCCGTGGTGGCCCTGGAGGACCTGAACATGGGCTTCAAGCGGGGCAGACAGAAGGTGGAGAGCAGCGTGTACCAGCAGTTTGAGAAGCAGCTGATCGACAAGCTGAATTATCTGGTGGATAAGAAGAAGCGGCCCGAGGACATCGGAGGCCTGCTGAGAGCCTACCAGTTCACCGCCCCTTTCAAGAGCTTTAAGGAGATGGGCAAGCAGAACGGCTTTCTGTTCTATATCCCTGCCTGGAACACATCCAATATCGACCCAACCACAGGCTTCGTGAACCTGTTTCACGTGCAGTACGAGAATGTGGATAAGGCCAAGAGCTTCTTTCAGAAGTTCGACAGCATCTCCTACAACCCTAAGAAGGATTGGTTTGAGTTCGCCTTTGACTATAAGAACTTCACCAAGAAGGCCGAGGGCTCTAGGAGCATGTGGATTCTGTGCACCCACGGCTCCCGGATCAAGAACTTCAGAAATTCTCAGAAGAATGGCCAGTGGGATAGCGAGGAGTTTGCCCTGACCGAGGCCTTCAAGTCCCTGTTTGTGCGGTACGAGATCGATTATACCGCCGACCTGAAAACCGCCATCGTGGACGAGAAGCAGAAGGATTTCTTTGTGGACCTGCTGAAGCTGTTCAAGCTGACCGTGCAGATGAGAAACTCCTGGAAGGAGAAGGACCTGGATTACCTGATCTCTCCAGTGGCCGGCGCCGATGGCAGGTTCTTTGACACACGCGAGGGCAATAAGAGCCTGCCCAAGGACGCAGATGCAAACGGAGCCTATAATATCGCCCTGAAGGGCCTGTGGGCACTGAGGCAGATCAGACAGACCTCCGAGGGCGGCAAGCTGAAGCTGGCCATCTCTAACAAGGAGTGGCTGCAGTTTGTGCAGGAGAGATCCTACGAGAAGGACAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAGGGATCCTACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCCTAAGAATTC (SEQ ID NO: 227).

16- Prevotella disiens (PdCpf1)

ATGGAGAACTATCAGGAGTTCACCAACCTGTTTCAGCTGAATAAGACACTGAGATTCGAGCTGAAGCCCATCGGCAAGACCTGCGAGCTGCTGGAGGAGGGCAAGATCTTCGCCAGCGGCTCCTTTCTGGAGAAGGACAAGGTGAGGGCCGATAACGTGAGCTACGTGAAGAAGGAGATCGACAAGAAGCACAAGATCTTTATCGAGGAGACACTGAGCTCCTTCTCTATCAGCAACGATCTGCTGAAGCAGTACTTTGACTGCTATAATGAGCTGAAGGCCTTCAAGAAGGACTGTAAGAGCGATGAGGAGGAGGTGAAGAAAACCGCCCTGCGCAACAAGTGTACCTCCATCCAGAGGGCCATGCGCGAGGCCATCTCTCAGGCCTTTCTGAAGAGCCCCCAGAAGAAGCTGCTGGCCATCAAGAACCTGATCGAGAACGTGTTCAAGGCCGACGAGAATGTGCAGCACTTCTCCGAGTTTACCAGCTATTTCTCCGGCTTTGAGACAAACAGAGAGAATTTCTACTCTGACGAGGAGAAGTCCACATCTATCGCCTATAGGCTGGTGCACGATAACCTGCCTATCTTCATCAAGAACATCTACATCTTCGAGAAGCTGAAGGAGCAGTTCGACGCCAAGACCCTGAGCGAGATCTTCGAGAACTACAAGCTGTATGTGGCCGGCTCTAGCCTGGATGAGGTGTTCTCCCTGGAGTACTTTAACAATACCCTGACACAGAAGGGCATCGACAACTATAATGCCGTGATCGGCAAGATCGTGAAGGAGGATAAGCAGGAGATCCAGGGCCTGAACGAGCACATCAACCTGTATAATCAGAAGCACAAGGACCGGAGACTGCCCTTCTTTATCTCCCTGAAGAAGCAGATCCTGTCCGATCGGGAGGCCCTGTCTTGGCTGCCTGACATGTTCAAGAATGATTCTGAAGTGATCAAGGCCCTGAAGGGCTTCTACATCGAGGACGGCTTTGAGAACAATGTGCTGACACCTCTGGCCACCCTGCTGTCCTCTCTGGATAAGTACAACCTGAATGGCATCTTTATCCGCAACAATGAGGCCCTGAGCTCCCTGTCCCAGAACGTGTATCGGAATTTTTCTATCGACGAGGCCATCGATGCCAACGCCGAGCTGCAGACCTTCAACAATTACGAGCTGATCGCCAATGCCCTGCGCGCCAAGATCAAGAAGGAGACAAAGCAGGGCCGGAAGTCTTTCGAGAAGTACGAGGAGTATATCGATAAGAAGGTGAAGGCCATCGACAGCCTGTCCATCCAGGAGATCAACGAGCTGGTGGAGAATTACGTGAGCGAGTTTAACTCTAATAGCGGCAACATGCCAAGAAAGGTGGAGGACTACTTCAGCCTGATGAGGAAGGGCGACTTCGGCTCCAACGATCTGATCGAAAATATCAAGACCAAGCTGAGCGCCGCAGAGAAGCTGCTGGGCACAAAGTACCAGGAGACAGCCAAGGACATCTTCAAGAAGGATGAGAACTCCAAGCTGATCAAGGAGCTGCTGGACGCCACCAAGCAGTTCCAGCACTTTATCAAGCCACTGCTGGGCACAGGCGAGGAGGCAGATCGGGACCTGGTGTTCTACGGCGATTTTCTGCCCCTGTATGAGAAGTTTGAGGAGCTGACCCTGCTGTATAACAAGGTGCGGAATAGACTGACACAGAAGCCCTATTCCAAGGACAAGATCCGCCTGTGCTTCAACAAGCCTAAGCTGATGACAGGCTGGGTGGATTCCAAGACCGAGAAGTCTGACAACGGCACACAGTACGGCGGCTATCTGTTTCGGAAGAAGAATGAGATCGGCGAGTACGATTATTTTCTGGGCATCTCTAGCAAGGCCCAGCTGTTCAGAAAGAACGAGGCCGTGATCGGCGACTACGAGAGGCTGGATTACTATCAGCCAAAGGCCAATACCATCTACGGCTCTGCCTATGAGGGCGAGAACAGCTACAAGGAGGACAAGAAGCGGCTGAACAAAGTGATCATCGCCTATATCGAGCAGATCAAGCAGACAAACATCAAGAAGTCTATCATCGAGTCCATCTCTAAGTATCCTAATATCAGCGACGATGACAAGGTGACCCCATCCTCTCTGCTGGAGAAGATCAAGAAGGTGTCTATCGACAGCTACAACGGCATCCTGTCCTTCAAGTCTTTTCAGAGCGTGAACAAGGAAGTGATCGATAACCTGCTGAAAACCATCAGCCCCCTGAAGAACAAGGCCGAGTTTCTGGACCTGATCAATAAGGATTATCAGATCTTCACCGAGGTGCAGGCCGTGATCGACGAGATCTGCAAGCAGAAAACCTTCATCTACTTTCCAATCTCCAACGTGGAGCTGGAGAAGGAGATGGGCGATAAGGACAAGCCCCTGTGCCTGTTCCAGATCAGCAATAAGGATCTGTCCTTCGCCAAGACCTTTAGCGCCAACCTGCGGAAGAAGAGAGGCGCCGAGAATCTGCACACAATGCTGTTTAAGGCCCTGATGGAGGGCAACCAGGATAATCTGGACCTGGGCTCTGGCGCCATCTTCTACAGAGCCAAGAGCCTGGACGGCAACAAGCCCACACACCCTGCCAATGAGGCCATCAAGTGTAGGAACGTGGCCAATAAGGATAAGGTGTCCCTGTTCACCTACGACATCTATAAGAACAGGCGCTACATGGAGAATAAGTTCCTGTTTCACCTGAGCATCGTGCAGAACTATAAGGCCGCCAATGACTCCGCCCAGCTGAACAGCTCCGCCACCGAGTATATCAGAAAGGCCGATGACCTGCACATCATCGGCATCGATAGGGGCGAGCGCAATCTGCTGTACTATTCCGTGATCGATATGAAGGGCAACATCGTGGAGCAGGACTCTCTGAATATCATCAGGAACAATGACCTGGAGACAGATTACCACGACCTGCTGGATAAGAGGGAGAAGGAGCGCAAGGCCAACCGGCAGAATTGGGAGGCCGTGGAGGGCATCAAGGACCTGAAGAAGGGCTACCTGAGCCAGGCCGTGCACCAGATCGCCCAGCTGATGCTGAAGTATAACGCCATCATCGCCCTGGAGGATCTGGGCCAGATGTTTGTGACCCGCGGCCAGAAGATCGAGAAGGCCGTGTACCAGCAGTTCGAGAAGAGCCTGGTGGATAAGCTGTCCTACCTGGTGGACAAGAAGCGGCCTTATAATGAGCTGGGCGGCATCCTGAAGGCCTACCAGCTGGCCTCTAGCATCACCAAGAACAATTCTGACAAGCAGAACGGCTTCCTGTTTTATGTGCCAGCCTGGAATACAAGCAAGATCGATCCCGTGACCGGCTTTACAGACCTGCTGCGGCCCAAGGCCATGACCATCAAGGAGGCCCAGGACTTCTTTGGCGCCTTCGATAACATCTCTTACAATGACAAGGGCTATTTCGAGTTTGAGACAAACTACGACAAGTTTAAGATCAGAATGAAGAGCGCCCAGACCAGGTGGACAATCTGCACCTTCGGCAATCGGATCAAGAGAAAGAAGGATAAGAACTACTGGAATTATGAGGAGGTGGAGCTGACCGAGGAGTTCAAGAAGCTGTTTAAGGACAGCAACATCGATTACGAGAACTGTAATCTGAAGGAGGAGATCCAGAACAAGGACAATCGCAAGTTCTTTGATGACCTGATCAAGCTGCTGCAGCTGACACTGCAGATGCGGAACTCCGATGACAAGGGCAATGATTATATCATCTCTCCTGTGGCCAACGCCGAGGGCCAGTTCTTTGACTCCCGCAATGGCGATAAGAAGCTGCCACTGGATGCAGACGCAAACGGAGCCTACAATATCGCCCGCAAGGGCCTGTGGAACATCCGGCAGATCAAGCAGACCAAGAACGACAAGAAGCTGAATCTGAGCATCTCCTCTACAGAGTGGCTGGATTTCGTGCGGGAGAAGCCTTACCTGAAGAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAGGGATCCTACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCCTAAGAATTC (SEQ ID NO: 228).

17- Porphyromonas macacae (PmCpf1)

ATGAAAACCCAGCACTTCTTTGAGGACTTCACAAGCCTGTACTCTCTGAGCAAGACCATCCGGTTTGAGCTGAAGCCAATCGGCAAGACCCTGGAGAACATCAAGAAGAATGGCCTGATCCGGAGAGATGAGCAGAGACTGGACGATTACGAGAAGCTGAAGAAAGTGATCGACGAGTATCACGAGGATTTCATCGCCAACATCCTGAGCTCCTTTTCCTTCTCTGAGGAGATCCTGCAGTCCTACATCCAGAATCTGAGCGAGTCCGAGGCCAGGGCCAAGATCGAGAAAACCATGCGCGACACACTGGCCAAGGCCTTCTCTGAGGATGAGAGGTACAAGAGCATCTTTAAGAAGGAGCTGGTGAAGAAGGACATCCCCGTGTGGTGCCCTGCCTATAAGAGCCTGTGCAAGAAGTTCGATAACTTTACCACATCTCTGGTGCCCTTCCACGAGAACAGGAAGAACCTGTATACCAGCAATGAGATCACAGCCTCTATCCCTTATCGCATCGTGCACGTGAACCTGCCAAAGTTTATCCAGAATATCGAGGCCCTGTGCGAGCTGCAGAAGAAGATGGGCGCCGACCTGTACCTGGAGATGATGGAGAACCTGCGCAACGTGTGGCCCAGCTTCGTGAAAACCCCAGACGACCTGTGCAACCTGAAAACCTATAATCACCTGATGGTGCAGTCTAGCATCAGCGAGTACAACAGGTTTGTGGGCGGCTATTCCACCGAGGACGGCACAAAGCACCAGGGCATCAACGAGTGGATCAATATCTACAGACAGAGGAATAAGGAGATGCGCCTGCCTGGCCTGGTGTTCCTGCACAAGCAGATCCTGGCCAAGGTGGACTCCTCTAGCTTCATCAGCGATACACTGGAGAACGACGATCAGGTGTTTTGCGTGCTGAGACAGTTCAGGAAGCTGTTTTGGAATACCGTGTCCTCTAAGGAGGACGATGCCGCCTCCCTGAAGGACCTGTTCTGTGGCCTGTCTGGCTATGACCCTGAGGCCATCTACGTGAGCGATGCCCACCTGGCCACAATCTCCAAGAACATCTTTGACAGATGGAATTACATCTCCGATGCCATCAGGCGCAAGACCGAGGTGCTGATGCCACGGAAGAAGGAGAGCGTGGAGAGATATGCCGAGAAGATCTCCAAGCAGATCAAGAAGAGACAGTCTTACAGCCTGGCCGAGCTGGACGATCTGCTGGCCCACTATAGCGAGGAGTCCCTGCCCGCAGGCTTCTCTCTGCTGAGCTACTTTACATCTCTGGGCGGCCAGAAGTATCTGGTGAGCGACGGCGAAGTGATCCTGTACGAGGAGGGCAGCAACATCTGGGACGAGGTGCTGATCGCCTTCAGGGATCTGCAGGTCATCCTGGACAAGGACTTCACCGAGAAGAAGCTGGGCAAGGATGAGGAGGCCGTGTCTGTGATCAAGAAGGCCCTGGACAGCGCCCTGCGCCTGCGGAAGTTCTTTGATCTGCTGTCCGGCACAGGCGCAGAGATCAGGAGAGACAGCTCCTTCTATGCCCTGTATACCGACCGGATGGATAAGCTGAAGGGCCTGCTGAAGATGTATGATAAGGTGAGAAACTACCTGACCAAGAAGCCTTATTCCATCGAGAAGTTCAAGCTGCACTTTGACAACCCATCCCTGCTGTCTGGCTGGGATAAGAATAAGGAGCTGAACAATCTGTCTGTGATCTTCCGGCAGAACGGCTACTATTACCTGGGCATCATGACACCCAAGGGCAAGAATCTGTTCAAGACCCTGCCTAAGCTGGGCGCCGAGGAGATGTTTTATGAGAAGATGGAGTACAAGCAGATCGCCGAGCCTATGCTGATGCTGCCAAAGGTGTTCTTTCCCAAGAAAACCAAGCCAGCCTTCGCCCCAGACCAGAGCGTGGTGGATATCTACAACAAGAAAACCTTCAAGACAGGCCAGAAGGGCTTTAATAAGAAGGACCTGTACCGGCTGATCGACTTCTACAAGGAGGCCCTGACAGTGCACGAGTGGAAGCTGTTTAACTTCTCCTTTTCTCCAACCGAGCAGTATCGGAATATCGGCGAGTTCTTTGACGAGGTGAGAGAGCAGGCCTACAAGGTGTCCATGGTGAACGTGCCCGCCTCTTATATCGACGAGGCCGTGGAGAACGGCAAGCTGTATCTGTTCCAGATCTACAATAAGGACTTCAGCCCCTACTCCAAGGGCATCCCTAACCTGCACACACTGTATTGGAAGGCCCTGTTCAGCGAGCAGAATCAGAGCCGGGTGTATAAGCTGTGCGGAGGAGGAGAGCTGTTTTATAGAAAGGCCAGCCTGCACATGCAGGACACCACAGTGCACCCCAAGGGCATCTCTATCCACAAGAAGAACCTGAATAAGAAGGGCGAGACAAGCCTGTTCAACTACGACCTGGTGAAGGATAAGAGGTTTACCGAGGACAAGTTCTTTTTCCACGTGCCTATCTCTATCAACTACAAGAATAAGAAGATCACCAACGTGAATCAGATGGTGCGCGATTATATCGCCCAGAACGACGATCTGCAGATCATCGGCATCGACCGCGGCGAGCGGAATCTGCTGTATATCAGCCGGATCGATACAAGGGGCAACCTGCTGGAGCAGTTCAGCCTGAATGTGATCGAGTCCGACAAGGGCGATCTGAGAACCGACTATCAGAAGATCCTGGGCGATCGCGAGCAGGAGCGGCTGAGGCGCCGGCAGGAGTGGAAGTCTATCGAGAGCATCAAGGACCTGAAGGATGGCTACATGAGCCAGGTGGTGCACAAGATCTGTAACATGGTGGTGGAGCACAAGGCCATCGTGGTGCTGGAGAACCTGAATCTGAGCTTCATGAAGGGCAGGAAGAAGGTGGAGAAGTCCGTGTACGAGAAGTTTGAGCGCATGCTGGTGGACAAGCTGAACTATCTGGTGGTGGATAAGAAGAACCTGTCCAATGAGCCAGGAGGCCTGTATGCAGCATACCAGCTGACCAATCCACTGTTCTCTTTTGAGGAGCTGCACAGATACCCCCAGAGCGGCATCCTGTTTTTCGTGGACCCATGGAACACCTCTCTGACAGATCCCAGCACAGGCTTCGTGAATCTGCTGGGCAGAATCAACTACACCAATGTGGGCGACGCCCGCAAGTTTTTCGATCGGTTTAACGCCATCAGATATGACGGCAAGGGCAATATCCTGTTCGACCTGGATCTGTCCAGATTTGATGTGAGGGTGGAGACACAGAGGAAGCTGTGGACACTGACCACATTCGGCTCTCGCATCGCCAAATCCAAGAAGTCTGGCAAGTGGATGGTGGAGCGGATCGAGAACCTGAGCCTGTGCTTTCTGGAGCTGTTCGAGCAGTTTAATATCGGCTACAGAGTGGAGAAGGACCTGAAGAAGGCCATCCTGAGCCAGGATAGGAAGGAGTTCTATGTGCGCCTGATCTACCTGTTTAACCTGATGATGCAGATCCGGAACAGCGACGGCGAGGAGGATTATATCCTGTCTCCCGCCCTGAACGAGAAGAATCTGCAGTTCGACAGCAGGCTGATCGAGGCCAAGGATCTGCCTGTGGACGCAGATGCAAACGGAGCATACAATGTGGCCCGCAAGGGCCTGATGGTGGTGCAGAGAATCAAGAGGGGCGACCACGAGTCCATCCACAGGATCGGAAGGGCACAGTGGCTGAGATATGTGCAGGAGGGCATCGTGGAGAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAGGGATCCTACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCCTAAGAATTC (SEQ ID NO: 229).

Аминокислотные последовательности ортологов Cpf1, кодон-оптимизированных для человека

Сигнал ядерной локализации (NLS)

Глицин-сериновый линкер

3x HA-метка

1- Franscisella tularensis subsp. novicida U112 (FnCpf1)

3- Lachnospiraceae bacterium MC2017 (Lb3Cpf1)

4- Butyrivibrio proteoclasticus (BpCpf1)

5- Peregrinibacteria bacterium GW2011_GWA_33_10 (PeCpf1)

6- Parcubacteria bacterium GWC2011_GWC2_44_17 (PbCpf1)

7- Smithella sp. SC_K08D17 (SsCpf1)

8- Acidaminococcus sp. BV3L6 (AsCpf1)

9- Lachnospiraceae bacterium MA2020 (Lb2Cpf1)

10- Candidatus Methanoplasma termitum (CMtCpf1)

11- Eubacterium eligens (EeCpf1)

12- Moraxella bovoculi 237 (MbCpf1)

13- Leptospira inadai (LiCpf1)

14- Lachnospiraceae bacterium ND2006 (LbCpf1)

15- Porphyromonas crevioricanis (PcCpf1)

16- Prevotella disiens (PdCpf1)

17- Porphyromonas macacae (PmCpf1)

Пример 15. Компьютерный анализ структуры Cpf1

С помощью компьютерного анализа первичной структуры нуклеаз Cpf1 выявили три отличающихся участка (фигура 109). Первый, C-концевой RuvC-подобный домен, который является единственным охарактеризованным функциональным доменом. Второй, N-концевой альфа-спиральный участок, и третий, участок со смешанной альфа- и бета-структурой, расположенный между RuvC-подобным доменом и альфа-спиральным участком.

Несколько небольших отрезков из неструктурированных участков прогнозируются в первичной структуре Cpf1. Неструктурированные участки, которые подвергаются воздействию растворителя и не являются консервативными в пределах разных ортологов Cpf1, представляют собой предпочтительные стороны для разделений и вставок небольших белковых последовательностей. Кроме того, эти стороны можно использовать для создания химерных белков между ортологами Cpf1.

Пример 16. Получение мутантов Cpf1 с усиленной специфичностью

Недавно был описан способ получения ортологов Cas9 с усиленной специфичностью (Slaymaker et al. 2015). Данную стратегию можно применять для усиления специфичности ортологов Cpf1.

Основными остатками для проведения мутагенеза являются все положительно заряженные остатки в пределах домена RuvC, поскольку это единственная известная структура в отсутствие кристалла, и известно, что мутанты RuvC с измененной специфичностью функционировали в Cas9 (см таблицу ниже: консервативные лизиновые и аргининовые остатки в пределах RuvC).

Не вдаваясь в теорию, положительно заряженные остатки этого участка Cpf1 могут функционировать для стабилизации взаимодействия между ферментом и ДНК в результате взаимодействия с отрицательно заряженным фосфодиэфирным остовом не подвергаемой нацеливанию нити ДНК. Путем замены положительно заряженных остатков Cpf1 взаимодействия с не подвергаемой нацеливанию нитью могут быть нарушены. При надлежащем нарушении этого взаимодействия может сохраняться соответствующая активность по отношению к целевым сайтам, однако снижаться активность фермента по отношению к нецелевым сайтам (которые, как обычно будет ожидаться, характеризуются более слабыми взаимодействиями с направляющей последовательностью за счет одного или нескольких несовпадений по сравнению с целевой последовательностью).

Другие домены проявляют аналогичные особенности. Представляющим интерес участком является домен REC1, включая без ограничения мутацию одного или нескольких аминокислотных остатков, аналогичных N497, R661, Q695 или Q926 в SpCas9, и включая без ограничения мутации с преобразованием в аланин в этих положениях. Мутации по таким остаткам также нарушают взаимодействие фермент-фосфатный остов ДНК. Более того, можно использовать комбинации мутаций, расположенных в одном или различных доменах.

Таблица. Консервативные лизиновые и аргининовые остатки в пределах RuvC.

AsCpf1 LbCpf1 R912 R833 T923 R836 R947 K847 K949 K879 R951 K881 R955 R883 K965 R887 K968 K897 K1000 K900 R1003 K932 K1009 R935 K1017 K940 K1022 K948 K1029 K953 K1072 K960 K1086 K984 F1103 K1003 R1226 K1017 R1252 R1033 R1138 R1165

Дополнительными кандидатами являются положительно заряженные остатки, которые являются консервативными у различных ортологов, и они представлены в таблице ниже.

Таблица. Консервативные лизиновые и аргининовые остатки

В таблице выше представлены положения консервативных лизиновых и аргининовых остатков в выравнивании нуклеазы Cpf1 от Francisella novicida U112 (FnCpf1), Acidaminococcus sp. BV3L6 (AsCpf1), Lachnospiraceae bacterium ND2006 (LbCpf1) и Moraxella bovoculi 237 (MbCpf1). Их можно использовать для получения мутантов Cpf1 c усиленной специфичностью.

Пример 17. Улучшенная специфичность связывания Cpf1

С помощью стратегии, подобной той, которую применяли для улучшения специфичности Cas9, специфичность Cpf1 может быть улучшена путем мутирования остатков, которые стабилизируют не подвергаемую нацеливанию нить ДНК. Этого можно достичь без определения кристаллической структуры путем применения выравниваний линейной структуры для прогнозирования того, 1) какой домен Cpf1 связывается с какой нитью ДНК и 2) какие остатки в пределах этих доменов контактируют с ДНК.

Однако данный подход может быть ограничен вследствие недостаточной степени консервативности Cpf1 относительно известных белков. Таким образом, может потребоваться исследование функции всех аминокислот, которые, вероятно, взаимодействуют с ДНК (лизин, гистидин и аргинин).

Положительно заряженные остатки в домене RuvC являются более консервативными во всех Cpf1, чем остатки в домене Rad50, что указывает на то, что остатки в RuvC являются менее эволюционно гибкими. Это указывает на то, что в данном домене необходим строгий контроль связывания нуклеиновых кислот (относительно домена Rad50). Следовательно, возможно, что данный домен разрезает подвергаемую нацеливанию нить ДНК, из-за необходимости стабилизировать дуплекс РНК:ДНК (аналогично Cas9). Кроме того, больше остатков аргинина присутствует в домене RuvC (5% из остатков RuvC от 904 до 1307 в сравнении с 3,8% в предположительных доменах Rad50), что снова указывает на то, что RuvC нацеливается на одну из нитей ДНК. Остатки аргинина в большей степени вовлечены в связывание с большой или малой бороздками нуклеиновой кислоты (Rohs Nature 2009: http://rohslab.cmb.usc.edu/Papers/Rohs_etal_Nature.pdf). Большая/малая бороздки будут присутствовать только в дуплексе (таком как дуплекс нацеливания ДНК:РНК), что дополнительно указывает на то, что RuvC может быть вовлечен в разрезание.

На фигурах 110, 111 и 112 представлены кристаллические структуры двух доменов, аналогичных обнаруженным в Cpf1 (RuvC-резольваза структур Холлидея и Rad50-белок для репарации ДНК). На основании этих структур можно сделать вывод, что соответственные домены Cpf1 являются аналогичными, и определить какие участки и остатки могут контактировать с ДНК. В каждой структуре выделены остатки, которые контактируют с ДНК. В выравниваниях на фигуре 113 аннотированы участки AsCpf1, которые соответствуют этим участкам связывания ДНК. В перечне остатков в таблице ниже представлены остатки, обнаруженные в двух связывающих доменах.

Таблица. - Перечень возможных остатков, взаимодействующих с ДНК

Возможные остатки, взаимодействующие с ДНК, в домене RuvC: Возможные остатки, взаимодействующие с ДНК, в домене Rad50: AsCpf1 AsCpf1 R909 K324 R912 K335 R930 K337 R947 R331 K949 K369 R951 K370 R955 R386 K965 R392 K968 R393 K1000 K400 K1002 K404 R1003 K406 K1009 K408 K1017 K414 K1022 K429 K1029 K436 K1035 K438 K1054 K459 K1072 K460 K1086 K464 R1094 R670 K1095 K675 K1109 R681 K1118 K686 K1142 K689 K1150 R699 K1158 K705 K1159 R725 R1220 K729 R1226 K739 R1242 K748 R1252 K752 R670

На основании этих конкретных сведений про AsCpf1 можно идентифицировать подобные остатки в Cpf1 от других видов путем выравниваний последовательностей. В пример выравнивания AsCpf1 и FnCpf1, приведенном на фигуре 114, идентифицированы связывающие домены Rad50 и остатки аргинина и лизина в них.

Пример 18. Мультиплексирование в случае Cpf1 с применением тандемных направляющих

Анализировали, возможно ли мультиплексирование в случае фермента Cpf1. С этой целью разрабатывали направляющие РНК, причем различные направляющие последовательности располагали тандемно под контролем одного промотора, и определяли способность этих направляющих управлять редактированием генома в отношении их соответствующих мишеней.

По 150000 клеток HEK293T высевали на лунку 24-луночного планшета за 24 ч. перед трансфекцией. Клетки трансфицировали с помощью 400 нг плазмиды с huAsCpf1 и 100 нг плазмиды с тандемными направляющими, содержащей одну направляющую последовательность, направленную на GRIN28, и одну, направленную на EMX1, размещенные тандемно за промотором U6 (фигура 115A), с применением Lipofectamin2000. Клетки собирали через 72 ч. после трансфекции и активность AsCpf1, опосредованную тандемными направляющими, оценивали с применением анализа с помощью нуклеазы SURVEYOR.

Результаты продемонстрированы на фигуре 115B, где продемонстрировано образование вставок/делеций как в GRIN28, так и в гене EMX1.

Таким образом, определили, что AsCpf1 и, по аналогии LbCpf1, могут использовать две направляющие, экспрессированные с одного промотора U6, без потери активности. Положение в пределах тандема не влияет на образование вставок/делеций. Это продемонстрировало, что Cpf1 можно применять для мультиплексирования с применением двух или более направляющих.

Настоящее изобретение дополнительно описано с помощью следующих пронумерованных пунктов:

1. Сконструированная не встречающаяся в природе система на основе коротких палиндромных повторов, регулярно расположенных группами (CRISPR)-CRISPR-ассоциированного фермента (Cas) (CRISPR-Cas), содержащая

a) одну или несколько полинуклеотидных последовательностей CRISPR-Cas V типа, предусматривающих направляющую РНК, которая содержит направляющую последовательность, связанную с последовательностью прямого повтора, где направляющая последовательность способна гибридизироваться с целевой последовательностью, или одну или несколько нуклеотидных последовательностей, кодирующих одну или несколько полинуклеотидных последовательностей CRISPR-Cas V типа, и

b) эффекторный белок Cpf1 или одну или несколько нуклеотидных последовательностей, кодирующих эффекторный белок Cpf1;

где одна или несколько направляющих последовательностей гибридизируются с указанной целевой последовательностью, причем указанная последовательность находится в направлении 3' от мотива, смежного с протоспейсером (PAM), и указанная направляющая РНК образует комплекс с эффекторным белком Cpf1.

2. Сконструированная не встречающаяся в природе векторная система на основе коротких палиндромных повторов, регулярно расположенных группами (CRISPR)-CRISPR-ассоциированного фермента (Cas) (CRISPR-Cas), содержащая один или несколько векторов, содержащих

c) первый регуляторный элемент, функционально связанный с одной или несколькими нуклеотидными последовательностями, кодирующими одну или несколько полинуклеотидных последовательностей CRISPR-Cas V типа, предусматривающих направляющую РНК, которая содержит направляющую последовательность, связанную с последовательностью прямого повтора, где направляющая последовательность способна гибридизироваться с целевой последовательностью,

d) второй регуляторный элемент, функционально связанный с нуклеотидной последовательностью, кодирующей эффекторный белок Cpf1;

где компоненты (a) и (b) находятся в одном и том же или в разных векторах системы,

где, будучи транскрибированными, одна или несколько направляющих последовательностей гибридизируются с указанной целевой последовательностью, причем указанная последовательность находится в направлении 3' от мотива, смежного с протоспейсером (PAM), и при этом указанная направляющая РНК образует комплекс с эффекторным белком Cpf1.

3. Система по пункту 1 или 2, где целевые последовательности находятся в клетке.

4. Система по пункту 3, где клетка предусматривает эукариотическую клетку.

5. Система по любому из пунктов 1-4, где, будучи транскрибированными, одна или несколько направляющих последовательностей гибридизируются с целевой последовательностью, и при этом направляющая РНК образует комплекс c эффекторным белком Cpf1, который вызывает расщепление отдаленно от целевой последовательности.

6. Система по пункту 5, где указанное расщепление приводит к образованию ступенчатого двухнитевого разрыва с "липким" 5'-концом длиной 4 или 5 нуклеотидов.

7. Система по любому из пунктов 1-6, где PAM предусматривает 5'-мотив с высоким содержанием T.

8. Система по любому из пунктов 1-7, где эффекторный белок представляет собой эффекторный белок Cpf1, происходящий от одного из видов бактерий, приведенных на фигуре 64.

9. Система по пункту 8, где эффекторный белок Cpf1 происходит от вида бактерий, выбранного из группы, состоящей из Francisella tularensis 1, Francisella tularensis subsp. novicida, Prevotella albensis, Lachnospiraceae bacterium MC2017 1, Butyrivibrio proteoclasticus, Peregrinibacteria bacterium GW2011_GWA2_33_10, Parcubacteria bacterium GW2011_GWC2_44_17, Smithella sp. SCADC, Acidaminococcus sp. BV3L6, Lachnospiraceae bacterium MA2020, Candidatus Methanoplasma termitum, Eubacterium eligens, Moraxella bovoculi 237, Leptospira inadai, Lachnospiraceae bacterium ND2006, Porphyromonas crevioricanis 3, Prevotella disiens и Porphyromonas macacae.

10. Система по пункту 9, где последовательность PAM представляет собой TTN, где N представляет собой A/C/G или T, а эффекторный белок представляет собой FnCpf1, или где последовательность PAM представляет собой TTTV, где V представляет собой A/C или G, а эффекторный белок представляет собой PaCpf1p, LbCpf1 или AsCpf1.

11. Система по любому из пунктов 1-10, где эффекторный белок Cpf1 содержит один или несколько сигналов ядерной локализации.

12. Система по любому из пунктов 1-11, где последовательности нуклеиновой кислоты, кодирующие эффекторный белок Cpf1, являются кодон-оптимизированными для экспрессии в эукариотической клетке.

13. Система по любому из пунктов 1-12, где компоненты (a) и (b) или нуклеотидные последовательности находятся в одном векторе.

14. Способ модифицирования представляющего интерес целевого локуса, включающий доставку системы по любому из пунктов 1-13 в указанный локус или клетку, содержащую локус.

15. Способ модифицирования представляющего интерес целевого локуса, причем способ включает доставку в указанный локус не встречающейся в природе или сконструированной композиции, содержащей эффекторный белок Cpf1 и один или несколько компонентов на основе нуклеиновой кислоты, где эффекторный белок Cpf1 образует комплекс с одним или несколькими компонентами на основе нуклеиновой кислоты, и после связывания указанного комплекса с представляющим интерес целевым локусом, который находится в направлении 3' от мотива, смежного с протоспейсером (PAM), эффекторный белок индуцирует модификацию представляющего интерес целевого локуса, где комплекс содержит Mg²⁺.

16. Способ по пункту 14 или 15, где представляющий интерес целевой локус находится в клетке.

17. Способ по пункту 16, где клетка является эукариотической клеткой.

18. Способ по пункту 16, где клетка является клеткой животного или человека.

19. Способ по пункту 16, где клетка является растительной клеткой.

20. Способ по пункту 14 или 15, где представляющий интерес целевой локус содержится в молекуле ДНК in vitro.

21. Способ по любому из пунктов 15-20, где указанную не встречающуюся в природе или сконструированную композицию, содержащую эффекторный белок Cpf1 и один или несколько компонентов на основе нуклеиновой кислоты, доставляют в клетку в виде одной или нескольких полинуклеотидных молекул.

22. Способ по любому из пунктов 14-21, где представляющий интерес целевой локус предусматривает ДНК.

23. Способ по пункту 22, где ДНК является релаксированной или суперспирализованной.

24. Способ по любому из пунктов 14-23, где композиция содержит один компонент на основе нуклеиновой кислоты.

25. Способ по пункту 24, где один компонент на основе нуклеиновой кислоты предусматривает направляющую последовательность, связанную с последовательностью прямого повтора.

26. Способ по любому из пунктов 14-25, где модификация представляющего интерес целевого локуса представляет собой разрыв нити.

27. Способ по пункту 26, где разрыв нити предусматривает ступенчатый двухнитевой разрыв ДНК с "липким" 5'-концом длиной 4 или 5 нуклеотидов.

28. Способ по пункту 26 или 27, где представляющий интерес целевой локус является модифицированным посредством интеграции ДНК-вставки в ступенчатый двухнитевой разрыв ДНК.

29. Способ по любому из пунктов 14-28, где эффекторный белок Cpf1 содержит один или несколько сигналов ядерной локализации (NLS).

30. Способ по любому из пунктов 21-29, где одна или несколько полинуклеотидных молекул содержатся в одном или нескольких векторах.

31. Способ по любому из пунктов 21-30, где одна или несколько полинуклеотидных молекул содержат один или несколько регуляторных элементов, функционально сконфигурированных для обеспечения экспрессии эффекторного белка Cpf1 и/или компонента(компонентов) на основе нуклеиновой кислоты, где один или несколько регуляторных элементов необязательно предусматривают индуцируемые промоторы.

32. Способ по любому из пунктов 21-31, где одна или несколько полинуклеотидных молекул или один или несколько векторов содержатся в системе доставки.

33. Способ по любому из пунктов 14-30, где систему или одну или несколько полинуклеотидных молекул доставляют посредством частиц, везикул или одного или нескольких вирусных векторов.

34. Способ по пункту 33, где частицы предусматривают липид, сахар, металл или белок.

35. Способ по пункту 33, где везикулы предусматривают экзосомы или липосомы.

36. Способ по пункту 33, где один или несколько вирусных векторов предусматривают одно или несколько из аденовируса, одного или нескольких лентивирусов или одного или нескольких аденоассоциированных вирусов.

37. Способ по любому из пунктов 14-36, который представляет собой способ модифицирования клетки, линии клеток или организма путем манипуляции с одной или несколькими целевыми последовательностями в представляющих интерес локусах генома.

38. Клетка, полученная в результате осуществления способа по пункту 37, или ее потомство, где клетка содержит модификацию, не присутствующую в клетке, в отношении которой не осуществляли способ.

39. Клетка по пункту 38 или ее потомство, где клетка, в отношении которой не осуществляли способ, содержит аномалию, а клетка, полученная в результате осуществления способа, характеризуется устраненной или скорректированной аномалией.

40. Продукт клетки, полученный из клетки или ее потомства по пункту 38, где продукт является модифицированным по своей природе или количеству по сравнению с продуктом клетки, полученным из клетки, в отношении которой не осуществляли способ.

41. Продукт клетки по пункту 40, где клетка, в отношении которой не осуществляли способ, содержит аномалию, и при этом продукт клетки отражает аномалию, которая устраняется или корректируется с помощью способа.

42. In vitro, ex vivo или in vivo клетка-хозяин или линия клеток или их потомство, содержащие систему по любому из пунктов 1-13.

43. Клетка-хозяин или линия клеток или их потомство по пункту 42, где клетка является эукариотической клеткой.

44. Клетка-хозяин или линия клеток или их потомство по пункту 43, где клетка является клеткой животного.

45. Клетка-хозяин или линия клеток или их потомство по пункту 33, где клетка является клеткой человека.

46. Клетка-хозяин, линия клеток или их потомство по пункту 31, предусматривающие стволовую клетку или линию стволовых клеток.

47. Клетка-хозяин или линия клеток или их потомство по пункту 30, где клетка является растительной клеткой.

48. Способ получения растения с модифицированным представляющим интерес признаком, кодируемым представляющим интерес геном, причем указанный способ включает приведение растительной клетки в контакт с системой по любому из пунктов 1-13 или осуществление в отношении растительной клетки способа по любому из пунктов 14-17 или 19-37, за счет чего обеспечивается либо модифицирование, либо введение указанного представляющего интерес гена, и регенерацию растения из указанной растительной клетки.

49. Способ идентификации представляющего интерес признака у растения, причем указанный представляющий интерес признак кодируется представляющим интерес геном, причем указанный способ включает приведение растительной клетки в контакт с системой по любому из пунктов 1-13 или осуществление в отношении растительной клетки способа по любому из пунктов 14-17 или 19-37, за счет чего обеспечивается идентификация указанного представляющего интерес гена.

50. Способ по пункту 49, дополнительно включающий введение идентифицированного представляющего интерес гена в растительную клетку, или линию растительных клеток, или растительную зародышевую плазму и получение из них растения, в результате чего растение содержит представляющий интерес ген.

51. Способ по пункту 50, где у растения проявляется представляющий интерес признак.

52. Частица, содержащая систему по любому из пунктов 1-13.

53. Частица по пункту 52, где частица содержит эффекторный белок Cpf1 в комплексе с направляющей РНК.

54. Система или способ по любому из предыдущих пунктов, где комплекс, направляющая РНК или белок конъюгированы по меньшей мере с одним сахарным фрагментом, необязательно N-ацетилгалактозамином (GalNAc), в частности, с трехразветвленным GalNAc.

55. Система или способ по любому из предыдущих пунктов, где концентрация Mg²⁺ составляет от приблизительно 1 мМ до приблизительно 15 мМ.

56. Выделенный белок, характеризующийся по меньшей мере 60% идентичностью последовательности с AsCpf1 или LbCpf1 и способный связывать целевую ДНК с помощью комплекса с направляющей РНК, содержащей последовательность прямого повтора и направляющую последовательность, при этом не требуется присутствие tracrRNA.

57. Выделенная нуклеиновая кислота, кодирующая белок по пункту 56.

58. Способ по пункту 17, который представляет собой способ лечения заболевания, вызванного генетическим дефектом в указанной клетке.

59. Способ по пункту 58, где указанный способ осуществляют в клетке in vivo или ex vivo.

60. Не встречающаяся в природе или сконструированная композиция, содержащая эффекторный белок Cpf1 и одну или несколько направляющих РНК, содержащих последовательность прямого повтора и направляющую последовательность, способную гибридизироваться с целевой ДНК в представляющем интерес локусе, где эффекторный белок Cpf1 образует комплекс с одной или несколькими направляющими РНК, и после связывания указанного комплекса с представляющим интерес целевым локусом, который находится в направлении 3' от мотива, смежного с протоспейсером (PAM), эффекторный белок индуцирует модификацию представляющего интерес целевого локуса.

61. Не встречающаяся в природе или сконструированная композиция, содержащая полинуклеотидную последовательность, кодирующую эффекторный белок Cpf1 и одну или несколько направляющих РНК, содержащих последовательность прямого повтора и направляющую последовательность, способную гибридизироваться с целевой ДНК в представляющем интерес локусе, где, будучи экспрессированным, эффекторный белок Cpf1 образует комплекс с одной или несколькими направляющими РНК, и после связывания указанного комплекса с представляющим интерес целевым локусом, который находится в направлении 3' от мотива, смежного с протоспейсером (PAM), эффекторный белок индуцирует модификацию представляющего интерес целевого локуса.

62. Композиция по пункту 60 или 61, которая является фармацевтической композицией.

63. Композиция по пункту 60 или 61 для применения в качестве лекарственного препарата.

64. Композиция по пункту 60 или 61 для применения в лечении заболевания или нарушения, вызванных генетическим дефектом в представляющем интерес целевом локусе.

65. Способ по пункту 58 или композиция для применения по пункту 64, где клетка является клеткой HSC.

66. Способ по пункту 58 или композиция для применения по пункту 64, где заболевание или нарушение представляет собой нарушение, связанное с клетками крови.

* * *

Несмотря на то, что предпочтительные варианты осуществления настоящего изобретения были показаны и описаны в данном документе, для специалистов в данной области будет очевидно, что такие варианты осуществления предоставлены только в качестве примера. Многочисленные варианты, изменения и замены теперь будут очевидны для специалистов в данной области без отступления от сути настоящего изобретения. Следует понимать, что различные альтернативы вариантов осуществления настоящего изобретения, раскрытые в данном документе, можно использовать при практическом осуществлении настоящего изобретения. Подразумевается, что следующая формула изобретения определяет объем настоящего изобретения, и что, таким образом, охвачены способы и структуры в пределах объема данной формулы изобретения и их эквиваленты.

--->

ПЕРЕЧЕНЬ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

<110> ZHANG, FENG

ZETSCHE, BERND

SLAYMAKER, IAN

GOOTENBERG, JONATHAN S.

ABUDAYYEH, OMAR O.

<120> НОВЫЕ ФЕРМЕНТЫ И СИСТЕМЫ CRISPR

<130> 47627.05.2123

<140> 14/975,085

<141> 2015-12-18

<150> 62/232,067

<151> 2015-09-24

<150> 62/205,733

<151> 2015-08-16

<150> 62/201,542

<151> 2015-08-05

<150> 62/193,507

<151> 2015-07-16

<150> 62/181,739

<151> 2015-06-18

<160> 1595

<170> PatentIn версия 3.5

<210> 1

<211> 7

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность участка активного сайта XerD

<400> 1

Leu Tyr Trp Thr Gly Met Arg

1 5

<210> 2

<211> 7

<212> БЕЛОК

<213> Вирус обезьян 40

<400> 2

Pro Lys Lys Lys Arg Lys Val

1 5

<210> 3

<211> 16

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность двусоставного NLS из нуклеоплазмина

<400> 3

Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys

1 5 10 15

<210> 4

<211> 9

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность NLS из C-myc

<400> 4

Pro Ala Ala Lys Arg Val Lys Leu Asp

1 5

<210> 5

<211> 11

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность NLS из C-myc

<400> 5

Arg Gln Arg Arg Asn Glu Leu Lys Arg Ser Pro

1 5 10

<210> 6

<211> 38

<212> БЕЛОК

<213> Homo sapiens

<400> 6

Asn Gln Ser Ser Asn Phe Gly Pro Met Lys Gly Gly Asn Phe Gly Gly

1 5 10 15

Arg Ser Ser Gly Pro Tyr Gly Gly Gly Gly Gln Tyr Phe Ala Lys Pro

20 25 30

Arg Asn Gln Gly Gly Tyr

<210> 7

<211> 42

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность домена IBB из импортина-альфа

<400> 7

Arg Met Arg Ile Glx Phe Lys Asn Lys Gly Lys Asp Thr Ala Glu Leu

1 5 10 15

Arg Arg Arg Arg Val Glu Val Ser Val Glu Leu Arg Lys Ala Lys Lys

20 25 30

Asp Glu Gln Ile Leu Lys Arg Arg Asn Val

35 40

<210> 8

<211> 8

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность из T-белка миомы

<400> 8

Val Ser Arg Lys Arg Pro Arg Pro

1 5

<210> 9

<211> 8

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность из T-белка миомы

<400> 9

Pro Pro Lys Lys Ala Arg Glu Asp

1 5

<210> 10

<211> 8

<212> БЕЛОК

<213> Homo sapiens

<400> 10

Pro Gln Pro Lys Lys Lys Pro Leu

1 5

<210> 11

<211> 12

<212> БЕЛОК

<213> Mus musculus

<400> 11

Ser Ala Leu Ile Lys Lys Lys Lys Lys Met Ala Pro

1 5 10

<210> 12

<211> 5

<212> БЕЛОК

<213> Вирус гриппа

<400> 12

Asp Arg Leu Arg Arg

1 5

<210> 13

<211> 7

<212> БЕЛОК

<213> Вирус гриппа

<400> 13

Pro Lys Gln Lys Lys Arg Lys

1 5

<210> 14

<211> 10

<212> БЕЛОК

<213> Вирус гепатита дельта

<400> 14

Arg Lys Leu Lys Lys Lys Ile Lys Lys Leu

1 5 10

<210> 15

<211> 10

<212> БЕЛОК

<213> Mus musculus

<400> 15

Arg Glu Lys Lys Lys Phe Leu Lys Arg Arg

1 5 10

<210> 16

<211> 20

<212> БЕЛОК

<213> Homo sapiens

<400> 16

Lys Arg Lys Gly Asp Glu Val Asp Gly Val Asp Glu Val Ala Lys Lys

1 5 10 15

Lys Ser Lys Lys

<210> 17

<211> 17

<212> БЕЛОК

<213> Homo sapiens

<400> 17

Arg Lys Cys Leu Gln Ala Gly Met Asn Leu Glu Ala Arg Lys Thr Lys

1 5 10 15

Lys

<210> 18

<211> 4

<212> БЕЛОК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический пептид

<400> 18

Gly Gly Gly Ser

<210> 19

<211> 15

<212> БЕЛОК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический пептид

<400> 19

Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser

1 5 10 15

<210> 20

<211> 30

<212> БЕЛОК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полипептид

<400> 20

Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly

1 5 10 15

Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser

20 25 30

<210> 21

<211> 45

<212> БЕЛОК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полипептид

<400> 21

Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly

1 5 10 15

Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly

20 25 30

Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser

35 40 45

<210> 22

<211> 60

<212> БЕЛОК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полипептид

<400> 22

Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly

1 5 10 15

Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly

20 25 30

Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly

35 40 45

Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser

50 55 60

<210> 23

<211> 20

<212> ДНК

<213> Homo sapiens

<400> 23

gagtccgagc agaagaagaa 20

<210> 24

<211> 20

<212> ДНК

<213> Homo sapiens

<400> 24

gagtcctagc aggagaagaa 20

<210> 25

<211> 20

<212> ДНК

<213> Homo sapiens

<400> 25

gagtctaagc agaagaagaa 20

<210> 26

<211> 9

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Пептид, относящийся к семейству пептидов, содержащих мотив LAGLIDADG"

<400> 26

Leu Ala Gly Leu Ile Asp Ala Asp Gly

1 5

<210> 27

<211> 36

<212> РНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 27

gccgcagcga augccguuuc acgaaucguc aggcgg 36

<210> 28

<211> 75

<212> РНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 28

gcuggagacg uuuuuugaaa cggcgagugc ugcggauagc gaguuucucu uggggaggcg 60

cucgcggcca cuuuu 75

<210> 29

<211> 1388

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность Opitutaceae bacterium

<400> 29

Met Ser Leu Asn Arg Ile Tyr Gln Gly Arg Val Ala Ala Val Glu Thr

1 5 10 15

Gly Thr Ala Leu Ala Lys Gly Asn Val Glu Trp Met Pro Ala Ala Gly

20 25 30

Gly Asp Glu Val Leu Trp Gln His His Glu Leu Phe Gln Ala Ala Ile

35 40 45

Asn Tyr Tyr Leu Val Ala Leu Leu Ala Leu Ala Asp Lys Asn Asn Pro

50 55 60

Val Leu Gly Pro Leu Ile Ser Gln Met Asp Asn Pro Gln Ser Pro Tyr

65 70 75 80

His Val Trp Gly Ser Phe Arg Arg Gln Gly Arg Gln Arg Thr Gly Leu

85 90 95

Ser Gln Ala Val Ala Pro Tyr Ile Thr Pro Gly Asn Asn Ala Pro Thr

100 105 110

Leu Asp Glu Val Phe Arg Ser Ile Leu Ala Gly Asn Pro Thr Asp Arg

115 120 125

Ala Thr Leu Asp Ala Ala Leu Met Gln Leu Leu Lys Ala Cys Asp Gly

130 135 140

Ala Gly Ala Ile Gln Gln Glu Gly Arg Ser Tyr Trp Pro Lys Phe Cys

145 150 155 160

Asp Pro Asp Ser Thr Ala Asn Phe Ala Gly Asp Pro Ala Met Leu Arg

165 170 175

Arg Glu Gln His Arg Leu Leu Leu Pro Gln Val Leu His Asp Pro Ala

180 185 190

Ile Thr His Asp Ser Pro Ala Leu Gly Ser Phe Asp Thr Tyr Ser Ile

195 200 205

Ala Thr Pro Asp Thr Arg Thr Pro Gln Leu Thr Gly Pro Lys Ala Arg

210 215 220

Ala Arg Leu Glu Gln Ala Ile Thr Leu Trp Arg Val Arg Leu Pro Glu

225 230 235 240

Ser Ala Ala Asp Phe Asp Arg Leu Ala Ser Ser Leu Lys Lys Ile Pro

245 250 255

Asp Asp Asp Ser Arg Leu Asn Leu Gln Gly Tyr Val Gly Ser Ser Ala

260 265 270

Lys Gly Glu Val Gln Ala Arg Leu Phe Ala Leu Leu Leu Phe Arg His

275 280 285

Leu Glu Arg Ser Ser Phe Thr Leu Gly Leu Leu Arg Ser Ala Thr Pro

290 295 300

Pro Pro Lys Asn Ala Glu Thr Pro Pro Pro Ala Gly Val Pro Leu Pro

305 310 315 320

Ala Ala Ser Ala Ala Asp Pro Val Arg Ile Ala Arg Gly Lys Arg Ser

325 330 335

Phe Val Phe Arg Ala Phe Thr Ser Leu Pro Cys Trp His Gly Gly Asp

340 345 350

Asn Ile His Pro Thr Trp Lys Ser Phe Asp Ile Ala Ala Phe Lys Tyr

355 360 365

Ala Leu Thr Val Ile Asn Gln Ile Glu Glu Lys Thr Lys Glu Arg Gln

370 375 380

Lys Glu Cys Ala Glu Leu Glu Thr Asp Phe Asp Tyr Met His Gly Arg

385 390 395 400

Leu Ala Lys Ile Pro Val Lys Tyr Thr Thr Gly Glu Ala Glu Pro Pro

405 410 415

Pro Ile Leu Ala Asn Asp Leu Arg Ile Pro Leu Leu Arg Glu Leu Leu

420 425 430

Gln Asn Ile Lys Val Asp Thr Ala Leu Thr Asp Gly Glu Ala Val Ser

435 440 445

Tyr Gly Leu Gln Arg Arg Thr Ile Arg Gly Phe Arg Glu Leu Arg Arg

450 455 460

Ile Trp Arg Gly His Ala Pro Ala Gly Thr Val Phe Ser Ser Glu Leu

465 470 475 480

Lys Glu Lys Leu Ala Gly Glu Leu Arg Gln Phe Gln Thr Asp Asn Ser

485 490 495

Thr Thr Ile Gly Ser Val Gln Leu Phe Asn Glu Leu Ile Gln Asn Pro

500 505 510

Lys Tyr Trp Pro Ile Trp Gln Ala Pro Asp Val Glu Thr Ala Arg Gln

515 520 525

Trp Ala Asp Ala Gly Phe Ala Asp Asp Pro Leu Ala Ala Leu Val Gln

530 535 540

Glu Ala Glu Leu Gln Glu Asp Ile Asp Ala Leu Lys Ala Pro Val Lys

545 550 555 560

Leu Thr Pro Ala Asp Pro Glu Tyr Ser Arg Arg Gln Tyr Asp Phe Asn

565 570 575

Ala Val Ser Lys Phe Gly Ala Gly Ser Arg Ser Ala Asn Arg His Glu

580 585 590

Pro Gly Gln Thr Glu Arg Gly His Asn Thr Phe Thr Thr Glu Ile Ala

595 600 605

Ala Arg Asn Ala Ala Asp Gly Asn Arg Trp Arg Ala Thr His Val Arg

610 615 620

Ile His Tyr Ser Ala Pro Arg Leu Leu Arg Asp Gly Leu Arg Arg Pro

625 630 635 640

Asp Thr Asp Gly Asn Glu Ala Leu Glu Ala Val Pro Trp Leu Gln Pro

645 650 655

Met Met Glu Ala Leu Ala Pro Leu Pro Thr Leu Pro Gln Asp Leu Thr

660 665 670

Gly Met Pro Val Phe Leu Met Pro Asp Val Thr Leu Ser Gly Glu Arg

675 680 685

Arg Ile Leu Leu Asn Leu Pro Val Thr Leu Glu Pro Ala Ala Leu Val

690 695 700

Glu Gln Leu Gly Asn Ala Gly Arg Trp Gln Asn Gln Phe Phe Gly Ser

705 710 715 720

Arg Glu Asp Pro Phe Ala Leu Arg Trp Pro Ala Asp Gly Ala Val Lys

725 730 735

Thr Ala Lys Gly Lys Thr His Ile Pro Trp His Gln Asp Arg Asp His

740 745 750

Phe Thr Val Leu Gly Val Asp Leu Gly Thr Arg Asp Ala Gly Ala Leu

755 760 765

Ala Leu Leu Asn Val Thr Ala Gln Lys Pro Ala Lys Pro Val His Arg

770 775 780

Ile Ile Gly Glu Ala Asp Gly Arg Thr Trp Tyr Ala Ser Leu Ala Asp

785 790 795 800

Ala Arg Met Ile Arg Leu Pro Gly Glu Asp Ala Arg Leu Phe Val Arg

805 810 815

Gly Lys Leu Val Gln Glu Pro Tyr Gly Glu Arg Gly Arg Asn Ala Ser

820 825 830

Leu Leu Glu Trp Glu Asp Ala Arg Asn Ile Ile Leu Arg Leu Gly Gln

835 840 845

Asn Pro Asp Glu Leu Leu Gly Ala Asp Pro Arg Arg His Ser Tyr Pro

850 855 860

Glu Ile Asn Asp Lys Leu Leu Val Ala Leu Arg Arg Ala Gln Ala Arg

865 870 875 880

Leu Ala Arg Leu Gln Asn Arg Ser Trp Arg Leu Arg Asp Leu Ala Glu

885 890 895

Ser Asp Lys Ala Leu Asp Glu Ile His Ala Glu Arg Ala Gly Glu Lys

900 905 910

Pro Ser Pro Leu Pro Pro Leu Ala Arg Asp Asp Ala Ile Lys Ser Thr

915 920 925

Asp Glu Ala Leu Leu Ser Gln Arg Asp Ile Ile Arg Arg Ser Phe Val

930 935 940

Gln Ile Ala Asn Leu Ile Leu Pro Leu Arg Gly Arg Arg Trp Glu Trp

945 950 955 960

Arg Pro His Val Glu Val Pro Asp Cys His Ile Leu Ala Gln Ser Asp

965 970 975

Pro Gly Thr Asp Asp Thr Lys Arg Leu Val Ala Gly Gln Arg Gly Ile

980 985 990

Ser His Glu Arg Ile Glu Gln Ile Glu Glu Leu Arg Arg Arg Cys Gln

995 1000 1005

Ser Leu Asn Arg Ala Leu Arg His Lys Pro Gly Glu Arg Pro Val

1010 1015 1020

Leu Gly Arg Pro Ala Lys Gly Glu Glu Ile Ala Asp Pro Cys Pro

1025 1030 1035

Ala Leu Leu Glu Lys Ile Asn Arg Leu Arg Asp Gln Arg Val Asp

1040 1045 1050

Gln Thr Ala His Ala Ile Leu Ala Ala Ala Leu Gly Val Arg Leu

1055 1060 1065

Arg Ala Pro Ser Lys Asp Arg Ala Glu Arg Arg His Arg Asp Ile

1070 1075 1080

His Gly Glu Tyr Glu Arg Phe Arg Ala Pro Ala Asp Phe Val Val

1085 1090 1095

Ile Glu Asn Leu Ser Arg Tyr Leu Ser Ser Gln Asp Arg Ala Arg

1100 1105 1110

Ser Glu Asn Thr Arg Leu Met Gln Trp Cys His Arg Gln Ile Val

1115 1120 1125

Gln Lys Leu Arg Gln Leu Cys Glu Thr Tyr Gly Ile Pro Val Leu

1130 1135 1140

Ala Val Pro Ala Ala Tyr Ser Ser Arg Phe Ser Ser Arg Asp Gly

1145 1150 1155

Ser Ala Gly Phe Arg Ala Val His Leu Thr Pro Asp His Arg His

1160 1165 1170

Arg Met Pro Trp Ser Arg Ile Leu Ala Arg Leu Lys Ala His Glu

1175 1180 1185

Glu Asp Gly Lys Arg Leu Glu Lys Thr Val Leu Asp Glu Ala Arg

1190 1195 1200

Ala Val Arg Gly Leu Phe Asp Arg Leu Asp Arg Phe Asn Ala Gly

1205 1210 1215

His Val Pro Gly Lys Pro Trp Arg Thr Leu Leu Ala Pro Leu Pro

1220 1225 1230

Gly Gly Pro Val Phe Val Pro Leu Gly Asp Ala Thr Pro Met Gln

1235 1240 1245

Ala Asp Leu Asn Ala Ala Ile Asn Ile Ala Leu Arg Gly Ile Ala

1250 1255 1260

Ala Pro Asp Arg His Asp Ile His His Arg Leu Arg Ala Glu Asn

1265 1270 1275

Lys Lys Arg Ile Leu Ser Leu Arg Leu Gly Thr Gln Arg Glu Lys

1280 1285 1290

Ala Arg Trp Pro Gly Gly Ala Pro Ala Val Thr Leu Ser Thr Pro

1295 1300 1305

Asn Asn Gly Ala Ser Pro Glu Asp Ser Asp Ala Leu Pro Glu Arg

1310 1315 1320

Val Ser Asn Leu Phe Val Asp Ile Ala Gly Val Ala Asn Phe Glu

1325 1330 1335

Arg Val Thr Ile Glu Gly Val Ser Gln Lys Phe Ala Thr Gly Arg

1340 1345 1350

Gly Leu Trp Ala Ser Val Lys Gln Arg Ala Trp Asn Arg Val Ala

1355 1360 1365

Arg Leu Asn Glu Thr Val Thr Asp Asn Asn Arg Asn Glu Glu Glu

1370 1375 1380

Asp Asp Ile Pro Met

1385

<210> 30

<211> 36

<212> РНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 30

guccaagaaa aaagaaauga uacgaggcau uagcac 36

<210> 31

<211> 107

<212> РНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полинуклеотид

<400> 31

cuggacgaug ucucuuuuau uucuuuuuuc uuggaucuga guacgagcac ccacauugga 60

cauuucgcau ggugggugcu cguacuauag guaaaacaaa ccuuuuu 107

<210> 32

<211> 1108

<212> БЕЛОК

<213> Bacillus thermoamylovorans

<400> 32

Met Ala Thr Arg Ser Phe Ile Leu Lys Ile Glu Pro Asn Glu Glu Val

1 5 10 15

Lys Lys Gly Leu Trp Lys Thr His Glu Val Leu Asn His Gly Ile Ala

20 25 30

Tyr Tyr Met Asn Ile Leu Lys Leu Ile Arg Gln Glu Ala Ile Tyr Glu

35 40 45

His His Glu Gln Asp Pro Lys Asn Pro Lys Lys Val Ser Lys Ala Glu

50 55 60

Ile Gln Ala Glu Leu Trp Asp Phe Val Leu Lys Met Gln Lys Cys Asn

65 70 75 80

Ser Phe Thr His Glu Val Asp Lys Asp Val Val Phe Asn Ile Leu Arg

85 90 95

Glu Leu Tyr Glu Glu Leu Val Pro Ser Ser Val Glu Lys Lys Gly Glu

100 105 110

Ala Asn Gln Leu Ser Asn Lys Phe Leu Tyr Pro Leu Val Asp Pro Asn

115 120 125

Ser Gln Ser Gly Lys Gly Thr Ala Ser Ser Gly Arg Lys Pro Arg Trp

130 135 140

Tyr Asn Leu Lys Ile Ala Gly Asp Pro Ser Trp Glu Glu Glu Lys Lys

145 150 155 160

Lys Trp Glu Glu Asp Lys Lys Lys Asp Pro Leu Ala Lys Ile Leu Gly

165 170 175

Lys Leu Ala Glu Tyr Gly Leu Ile Pro Leu Phe Ile Pro Phe Thr Asp

180 185 190

Ser Asn Glu Pro Ile Val Lys Glu Ile Lys Trp Met Glu Lys Ser Arg

195 200 205

Asn Gln Ser Val Arg Arg Leu Asp Lys Asp Met Phe Ile Gln Ala Leu

210 215 220

Glu Arg Phe Leu Ser Trp Glu Ser Trp Asn Leu Lys Val Lys Glu Glu

225 230 235 240

Tyr Glu Lys Val Glu Lys Glu His Lys Thr Leu Glu Glu Arg Ile Lys

245 250 255

Glu Asp Ile Gln Ala Phe Lys Ser Leu Glu Gln Tyr Glu Lys Glu Arg

260 265 270

Gln Glu Gln Leu Leu Arg Asp Thr Leu Asn Thr Asn Glu Tyr Arg Leu

275 280 285

Ser Lys Arg Gly Leu Arg Gly Trp Arg Glu Ile Ile Gln Lys Trp Leu

290 295 300

Lys Met Asp Glu Asn Glu Pro Ser Glu Lys Tyr Leu Glu Val Phe Lys

305 310 315 320

Asp Tyr Gln Arg Lys His Pro Arg Glu Ala Gly Asp Tyr Ser Val Tyr

325 330 335

Glu Phe Leu Ser Lys Lys Glu Asn His Phe Ile Trp Arg Asn His Pro

340 345 350

Glu Tyr Pro Tyr Leu Tyr Ala Thr Phe Cys Glu Ile Asp Lys Lys Lys

355 360 365

Lys Asp Ala Lys Gln Gln Ala Thr Phe Thr Leu Ala Asp Pro Ile Asn

370 375 380

His Pro Leu Trp Val Arg Phe Glu Glu Arg Ser Gly Ser Asn Leu Asn

385 390 395 400

Lys Tyr Arg Ile Leu Thr Glu Gln Leu His Thr Glu Lys Leu Lys Lys

405 410 415

Lys Leu Thr Val Gln Leu Asp Arg Leu Ile Tyr Pro Thr Glu Ser Gly

420 425 430

Gly Trp Glu Glu Lys Gly Lys Val Asp Ile Val Leu Leu Pro Ser Arg

435 440 445

Gln Phe Tyr Asn Gln Ile Phe Leu Asp Ile Glu Glu Lys Gly Lys His

450 455 460

Ala Phe Thr Tyr Lys Asp Glu Ser Ile Lys Phe Pro Leu Lys Gly Thr

465 470 475 480

Leu Gly Gly Ala Arg Val Gln Phe Asp Arg Asp His Leu Arg Arg Tyr

485 490 495

Pro His Lys Val Glu Ser Gly Asn Val Gly Arg Ile Tyr Phe Asn Met

500 505 510

Thr Val Asn Ile Glu Pro Thr Glu Ser Pro Val Ser Lys Ser Leu Lys

515 520 525

Ile His Arg Asp Asp Phe Pro Lys Phe Val Asn Phe Lys Pro Lys Glu

530 535 540

Leu Thr Glu Trp Ile Lys Asp Ser Lys Gly Lys Lys Leu Lys Ser Gly

545 550 555 560

Ile Glu Ser Leu Glu Ile Gly Leu Arg Val Met Ser Ile Asp Leu Gly

565 570 575

Gln Arg Gln Ala Ala Ala Ala Ser Ile Phe Glu Val Val Asp Gln Lys

580 585 590

Pro Asp Ile Glu Gly Lys Leu Phe Phe Pro Ile Lys Gly Thr Glu Leu

595 600 605

Tyr Ala Val His Arg Ala Ser Phe Asn Ile Lys Leu Pro Gly Glu Thr

610 615 620

Leu Val Lys Ser Arg Glu Val Leu Arg Lys Ala Arg Glu Asp Asn Leu

625 630 635 640

Lys Leu Met Asn Gln Lys Leu Asn Phe Leu Arg Asn Val Leu His Phe

645 650 655

Gln Gln Phe Glu Asp Ile Thr Glu Arg Glu Lys Arg Val Thr Lys Trp

660 665 670

Ile Ser Arg Gln Glu Asn Ser Asp Val Pro Leu Val Tyr Gln Asp Glu

675 680 685

Leu Ile Gln Ile Arg Glu Leu Met Tyr Lys Pro Tyr Lys Asp Trp Val

690 695 700

Ala Phe Leu Lys Gln Leu His Lys Arg Leu Glu Val Glu Ile Gly Lys

705 710 715 720

Glu Val Lys His Trp Arg Lys Ser Leu Ser Asp Gly Arg Lys Gly Leu

725 730 735

Tyr Gly Ile Ser Leu Lys Asn Ile Asp Glu Ile Asp Arg Thr Arg Lys

740 745 750

Phe Leu Leu Arg Trp Ser Leu Arg Pro Thr Glu Pro Gly Glu Val Arg

755 760 765

Arg Leu Glu Pro Gly Gln Arg Phe Ala Ile Asp Gln Leu Asn His Leu

770 775 780

Asn Ala Leu Lys Glu Asp Arg Leu Lys Lys Met Ala Asn Thr Ile Ile

785 790 795 800

Met His Ala Leu Gly Tyr Cys Tyr Asp Val Arg Lys Lys Lys Trp Gln

805 810 815

Ala Lys Asn Pro Ala Cys Gln Ile Ile Leu Phe Glu Asp Leu Ser Asn

820 825 830

Tyr Asn Pro Tyr Glu Glu Arg Ser Arg Phe Glu Asn Ser Lys Leu Met

835 840 845

Lys Trp Ser Arg Arg Glu Ile Pro Arg Gln Val Ala Leu Gln Gly Glu

850 855 860

Ile Tyr Gly Leu Gln Val Gly Glu Val Gly Ala Gln Phe Ser Ser Arg

865 870 875 880

Phe His Ala Lys Thr Gly Ser Pro Gly Ile Arg Cys Ser Val Val Thr

885 890 895

Lys Glu Lys Leu Gln Asp Asn Arg Phe Phe Lys Asn Leu Gln Arg Glu

900 905 910

Gly Arg Leu Thr Leu Asp Lys Ile Ala Val Leu Lys Glu Gly Asp Leu

915 920 925

Tyr Pro Asp Lys Gly Gly Glu Lys Phe Ile Ser Leu Ser Lys Asp Arg

930 935 940

Lys Leu Val Thr Thr His Ala Asp Ile Asn Ala Ala Gln Asn Leu Gln

945 950 955 960

Lys Arg Phe Trp Thr Arg Thr His Gly Phe Tyr Lys Val Tyr Cys Lys

965 970 975

Ala Tyr Gln Val Asp Gly Gln Thr Val Tyr Ile Pro Glu Ser Lys Asp

980 985 990

Gln Lys Gln Lys Ile Ile Glu Glu Phe Gly Glu Gly Tyr Phe Ile Leu

995 1000 1005

Lys Asp Gly Val Tyr Glu Trp Gly Asn Ala Gly Lys Leu Lys Ile

1010 1015 1020

Lys Lys Gly Ser Ser Lys Gln Ser Ser Ser Glu Leu Val Asp Ser

1025 1030 1035

Asp Ile Leu Lys Asp Ser Phe Asp Leu Ala Ser Glu Leu Lys Gly

1040 1045 1050

Glu Lys Leu Met Leu Tyr Arg Asp Pro Ser Gly Asn Val Phe Pro

1055 1060 1065

Ser Asp Lys Trp Met Ala Ala Gly Val Phe Phe Gly Lys Leu Glu

1070 1075 1080

Arg Ile Leu Ile Ser Lys Leu Thr Asn Gln Tyr Ser Ile Ser Thr

1085 1090 1095

Ile Glu Asp Asp Ser Ser Lys Gln Ser Met

1100 1105

<210> 33

<211> 36

<212> РНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 33

guucgaaagc uuaguggaaa gcuucguggu uagcac 36

<210> 34

<211> 69

<212> РНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 34

cacggauaau cacgacuuuc cacuaagcuu ucgaauuuua ugaugcgagc auccucucag 60

gucaaaaaa 69

<210> 35

<211> 1108

<212> БЕЛОК

<213> Bacillus sp.

<400> 35

Met Ala Ile Arg Ser Ile Lys Leu Lys Leu Lys Thr His Thr Gly Pro

1 5 10 15

Glu Ala Gln Asn Leu Arg Lys Gly Ile Trp Arg Thr His Arg Leu Leu

20 25 30

Asn Glu Gly Val Ala Tyr Tyr Met Lys Met Leu Leu Leu Phe Arg Gln

35 40 45

Glu Ser Thr Gly Glu Arg Pro Lys Glu Glu Leu Gln Glu Glu Leu Ile

50 55 60

Cys His Ile Arg Glu Gln Gln Gln Arg Asn Gln Ala Asp Lys Asn Thr

65 70 75 80

Gln Ala Leu Pro Leu Asp Lys Ala Leu Glu Ala Leu Arg Gln Leu Tyr

85 90 95

Glu Leu Leu Val Pro Ser Ser Val Gly Gln Ser Gly Asp Ala Gln Ile

100 105 110

Ile Ser Arg Lys Phe Leu Ser Pro Leu Val Asp Pro Asn Ser Glu Gly

115 120 125

Gly Lys Gly Thr Ser Lys Ala Gly Ala Lys Pro Thr Trp Gln Lys Lys

130 135 140

Lys Glu Ala Asn Asp Pro Thr Trp Glu Gln Asp Tyr Glu Lys Trp Lys

145 150 155 160

Lys Arg Arg Glu Glu Asp Pro Thr Ala Ser Val Ile Thr Thr Leu Glu

165 170 175

Glu Tyr Gly Ile Arg Pro Ile Phe Pro Leu Tyr Thr Asn Thr Val Thr

180 185 190

Asp Ile Ala Trp Leu Pro Leu Gln Ser Asn Gln Phe Val Arg Thr Trp

195 200 205

Asp Arg Asp Met Leu Gln Gln Ala Ile Glu Arg Leu Leu Ser Trp Glu

210 215 220

Ser Trp Asn Lys Arg Val Gln Glu Glu Tyr Ala Lys Leu Lys Glu Lys

225 230 235 240

Met Ala Gln Leu Asn Glu Gln Leu Glu Gly Gly Gln Glu Trp Ile Ser

245 250 255

Leu Leu Glu Gln Tyr Glu Glu Asn Arg Glu Arg Glu Leu Arg Glu Asn

260 265 270

Met Thr Ala Ala Asn Asp Lys Tyr Arg Ile Thr Lys Arg Gln Met Lys

275 280 285

Gly Trp Asn Glu Leu Tyr Glu Leu Trp Ser Thr Phe Pro Ala Ser Ala

290 295 300

Ser His Glu Gln Tyr Lys Glu Ala Leu Lys Arg Val Gln Gln Arg Leu

305 310 315 320

Arg Gly Arg Phe Gly Asp Ala His Phe Phe Gln Tyr Leu Met Glu Glu

325 330 335

Lys Asn Arg Leu Ile Trp Lys Gly Asn Pro Gln Arg Ile His Tyr Phe

340 345 350

Val Ala Arg Asn Glu Leu Thr Lys Arg Leu Glu Glu Ala Lys Gln Ser

355 360 365

Ala Thr Met Thr Leu Pro Asn Ala Arg Lys His Pro Leu Trp Val Arg

370 375 380

Phe Asp Ala Arg Gly Gly Asn Leu Gln Asp Tyr Tyr Leu Thr Ala Glu

385 390 395 400

Ala Asp Lys Pro Arg Ser Arg Arg Phe Val Thr Phe Ser Gln Leu Ile

405 410 415

Trp Pro Ser Glu Ser Gly Trp Met Glu Lys Lys Asp Val Glu Val Glu

420 425 430

Leu Ala Leu Ser Arg Gln Phe Tyr Gln Gln Val Lys Leu Leu Lys Asn

435 440 445

Asp Lys Gly Lys Gln Lys Ile Glu Phe Lys Asp Lys Gly Ser Gly Ser

450 455 460

Thr Phe Asn Gly His Leu Gly Gly Ala Lys Leu Gln Leu Glu Arg Gly

465 470 475 480

Asp Leu Glu Lys Glu Glu Lys Asn Phe Glu Asp Gly Glu Ile Gly Ser

485 490 495

Val Tyr Leu Asn Val Val Ile Asp Phe Glu Pro Leu Gln Glu Val Lys

500 505 510

Asn Gly Arg Val Gln Ala Pro Tyr Gly Gln Val Leu Gln Leu Ile Arg

515 520 525

Arg Pro Asn Glu Phe Pro Lys Val Thr Thr Tyr Lys Ser Glu Gln Leu

530 535 540

Val Glu Trp Ile Lys Ala Ser Pro Gln His Ser Ala Gly Val Glu Ser

545 550 555 560

Leu Ala Ser Gly Phe Arg Val Met Ser Ile Asp Leu Gly Leu Arg Ala

565 570 575

Ala Ala Ala Thr Ser Ile Phe Ser Val Glu Glu Ser Ser Asp Lys Asn

580 585 590

Ala Ala Asp Phe Ser Tyr Trp Ile Glu Gly Thr Pro Leu Val Ala Val

595 600 605

His Gln Arg Ser Tyr Met Leu Arg Leu Pro Gly Glu Gln Val Glu Lys

610 615 620

Gln Val Met Glu Lys Arg Asp Glu Arg Phe Gln Leu His Gln Arg Val

625 630 635 640

Lys Phe Gln Ile Arg Val Leu Ala Gln Ile Met Arg Met Ala Asn Lys

645 650 655

Gln Tyr Gly Asp Arg Trp Asp Glu Leu Asp Ser Leu Lys Gln Ala Val

660 665 670

Glu Gln Lys Lys Ser Pro Leu Asp Gln Thr Asp Arg Thr Phe Trp Glu

675 680 685

Gly Ile Val Cys Asp Leu Thr Lys Val Leu Pro Arg Asn Glu Ala Asp

690 695 700

Trp Glu Gln Ala Val Val Gln Ile His Arg Lys Ala Glu Glu Tyr Val

705 710 715 720

Gly Lys Ala Val Gln Ala Trp Arg Lys Arg Phe Ala Ala Asp Glu Arg

725 730 735

Lys Gly Ile Ala Gly Leu Ser Met Trp Asn Ile Glu Glu Leu Glu Gly

740 745 750

Leu Arg Lys Leu Leu Ile Ser Trp Ser Arg Arg Thr Arg Asn Pro Gln

755 760 765

Glu Val Asn Arg Phe Glu Arg Gly His Thr Ser His Gln Arg Leu Leu

770 775 780

Thr His Ile Gln Asn Val Lys Glu Asp Arg Leu Lys Gln Leu Ser His

785 790 795 800

Ala Ile Val Met Thr Ala Leu Gly Tyr Val Tyr Asp Glu Arg Lys Gln

805 810 815

Glu Trp Cys Ala Glu Tyr Pro Ala Cys Gln Val Ile Leu Phe Glu Asn

820 825 830

Leu Ser Gln Tyr Arg Ser Asn Leu Asp Arg Ser Thr Lys Glu Asn Ser

835 840 845

Thr Leu Met Lys Trp Ala His Arg Ser Ile Pro Lys Tyr Val His Met

850 855 860

Gln Ala Glu Pro Tyr Gly Ile Gln Ile Gly Asp Val Arg Ala Glu Tyr

865 870 875 880

Ser Ser Arg Phe Tyr Ala Lys Thr Gly Thr Pro Gly Ile Arg Cys Lys

885 890 895

Lys Val Arg Gly Gln Asp Leu Gln Gly Arg Arg Phe Glu Asn Leu Gln

900 905 910

Lys Arg Leu Val Asn Glu Gln Phe Leu Thr Glu Glu Gln Val Lys Gln

915 920 925

Leu Arg Pro Gly Asp Ile Val Pro Asp Asp Ser Gly Glu Leu Phe Met

930 935 940

Thr Leu Thr Asp Gly Ser Gly Ser Lys Glu Val Val Phe Leu Gln Ala

945 950 955 960

Asp Ile Asn Ala Ala His Asn Leu Gln Lys Arg Phe Trp Gln Arg Tyr

965 970 975

Asn Glu Leu Phe Lys Val Ser Cys Arg Val Ile Val Arg Asp Glu Glu

980 985 990

Glu Tyr Leu Val Pro Lys Thr Lys Ser Val Gln Ala Lys Leu Gly Lys

995 1000 1005

Gly Leu Phe Val Lys Lys Ser Asp Thr Ala Trp Lys Asp Val Tyr

1010 1015 1020

Val Trp Asp Ser Gln Ala Lys Leu Lys Gly Lys Thr Thr Phe Thr

1025 1030 1035

Glu Glu Ser Glu Ser Pro Glu Gln Leu Glu Asp Phe Gln Glu Ile

1040 1045 1050

Ile Glu Glu Ala Glu Glu Ala Lys Gly Thr Tyr Arg Thr Leu Phe

1055 1060 1065

Arg Asp Pro Ser Gly Val Phe Phe Pro Glu Ser Val Trp Tyr Pro

1070 1075 1080

Gln Lys Asp Phe Trp Gly Glu Val Lys Arg Lys Leu Tyr Gly Lys

1085 1090 1095

Leu Arg Glu Arg Phe Leu Thr Lys Ala Arg

1100 1105

<210> 36

<211> 35

<212> РНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 36

guuuugagaa uagcccgaca uagagggcaa uagac 35

<210> 37

<211> 36

<212> РНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 37

guuaugaaaa cagcccgaca uagagggcaa uagaca 36

<210> 38

<211> 1334

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность Lachnospiraceae bacterium

<400> 38

Met Lys Ile Ser Lys Val Asp His Thr Arg Met Ala Val Ala Lys Gly

1 5 10 15

Asn Gln His Arg Arg Asp Glu Ile Ser Gly Ile Leu Tyr Lys Asp Pro

20 25 30

Thr Lys Thr Gly Ser Ile Asp Phe Asp Glu Arg Phe Lys Lys Leu Asn

35 40 45

Cys Ser Ala Lys Ile Leu Tyr His Val Phe Asn Gly Ile Ala Glu Gly

50 55 60

Ser Asn Lys Tyr Lys Asn Ile Val Asp Lys Val Asn Asn Asn Leu Asp

65 70 75 80

Arg Val Leu Phe Thr Gly Lys Ser Tyr Asp Arg Lys Ser Ile Ile Asp

85 90 95

Ile Asp Thr Val Leu Arg Asn Val Glu Lys Ile Asn Ala Phe Asp Arg

100 105 110

Ile Ser Thr Glu Glu Arg Glu Gln Ile Ile Asp Asp Leu Leu Glu Ile

115 120 125

Gln Leu Arg Lys Gly Leu Arg Lys Gly Lys Ala Gly Leu Arg Glu Val

130 135 140

Leu Leu Ile Gly Ala Gly Val Ile Val Arg Thr Asp Lys Lys Gln Glu

145 150 155 160

Ile Ala Asp Phe Leu Glu Ile Leu Asp Glu Asp Phe Asn Lys Thr Asn

165 170 175

Gln Ala Lys Asn Ile Lys Leu Ser Ile Glu Asn Gln Gly Leu Val Val

180 185 190

Ser Pro Val Ser Arg Gly Glu Glu Arg Ile Phe Asp Val Ser Gly Ala

195 200 205

Gln Lys Gly Lys Ser Ser Lys Lys Ala Gln Glu Lys Glu Ala Leu Ser

210 215 220

Ala Phe Leu Leu Asp Tyr Ala Asp Leu Asp Lys Asn Val Arg Phe Glu

225 230 235 240

Tyr Leu Arg Lys Ile Arg Arg Leu Ile Asn Leu Tyr Phe Tyr Val Lys

245 250 255

Asn Asp Asp Val Met Ser Leu Thr Glu Ile Pro Ala Glu Val Asn Leu

260 265 270

Glu Lys Asp Phe Asp Ile Trp Arg Asp His Glu Gln Arg Lys Glu Glu

275 280 285

Asn Gly Asp Phe Val Gly Cys Pro Asp Ile Leu Leu Ala Asp Arg Asp

290 295 300

Val Lys Lys Ser Asn Ser Lys Gln Val Lys Ile Ala Glu Arg Gln Leu

305 310 315 320

Arg Glu Ser Ile Arg Glu Lys Asn Ile Lys Arg Tyr Arg Phe Ser Ile

325 330 335

Lys Thr Ile Glu Lys Asp Asp Gly Thr Tyr Phe Phe Ala Asn Lys Gln

340 345 350

Ile Ser Val Phe Trp Ile His Arg Ile Glu Asn Ala Val Glu Arg Ile

355 360 365

Leu Gly Ser Ile Asn Asp Lys Lys Leu Tyr Arg Leu Arg Leu Gly Tyr

370 375 380

Leu Gly Glu Lys Val Trp Lys Asp Ile Leu Asn Phe Leu Ser Ile Lys

385 390 395 400

Tyr Ile Ala Val Gly Lys Ala Val Phe Asn Phe Ala Met Asp Asp Leu

405 410 415

Gln Glu Lys Asp Arg Asp Ile Glu Pro Gly Lys Ile Ser Glu Asn Ala

420 425 430

Val Asn Gly Leu Thr Ser Phe Asp Tyr Glu Gln Ile Lys Ala Asp Glu

435 440 445

Met Leu Gln Arg Glu Val Ala Val Asn Val Ala Phe Ala Ala Asn Asn

450 455 460

Leu Ala Arg Val Thr Val Asp Ile Pro Gln Asn Gly Glu Lys Glu Asp

465 470 475 480

Ile Leu Leu Trp Asn Lys Ser Asp Ile Lys Lys Tyr Lys Lys Asn Ser

485 490 495

Lys Lys Gly Ile Leu Lys Ser Ile Leu Gln Phe Phe Gly Gly Ala Ser

500 505 510

Thr Trp Asn Met Lys Met Phe Glu Ile Ala Tyr His Asp Gln Pro Gly

515 520 525

Asp Tyr Glu Glu Asn Tyr Leu Tyr Asp Ile Ile Gln Ile Ile Tyr Ser

530 535 540

Leu Arg Asn Lys Ser Phe His Phe Lys Thr Tyr Asp His Gly Asp Lys

545 550 555 560

Asn Trp Asn Arg Glu Leu Ile Gly Lys Met Ile Glu His Asp Ala Glu

565 570 575

Arg Val Ile Ser Val Glu Arg Glu Lys Phe His Ser Asn Asn Leu Pro

580 585 590

Met Phe Tyr Lys Asp Ala Asp Leu Lys Lys Ile Leu Asp Leu Leu Tyr

595 600 605

Ser Asp Tyr Ala Gly Arg Ala Ser Gln Val Pro Ala Phe Asn Thr Val

610 615 620

Leu Val Arg Lys Asn Phe Pro Glu Phe Leu Arg Lys Asp Met Gly Tyr

625 630 635 640

Lys Val His Phe Asn Asn Pro Glu Val Glu Asn Gln Trp His Ser Ala

645 650 655

Val Tyr Tyr Leu Tyr Lys Glu Ile Tyr Tyr Asn Leu Phe Leu Arg Asp

660 665 670

Lys Glu Val Lys Asn Leu Phe Tyr Thr Ser Leu Lys Asn Ile Arg Ser

675 680 685

Glu Val Ser Asp Lys Lys Gln Lys Leu Ala Ser Asp Asp Phe Ala Ser

690 695 700

Arg Cys Glu Glu Ile Glu Asp Arg Ser Leu Pro Glu Ile Cys Gln Ile

705 710 715 720

Ile Met Thr Glu Tyr Asn Ala Gln Asn Phe Gly Asn Arg Lys Val Lys

725 730 735

Ser Gln Arg Val Ile Glu Lys Asn Lys Asp Ile Phe Arg His Tyr Lys

740 745 750

Met Leu Leu Ile Lys Thr Leu Ala Gly Ala Phe Ser Leu Tyr Leu Lys

755 760 765

Gln Glu Arg Phe Ala Phe Ile Gly Lys Ala Thr Pro Ile Pro Tyr Glu

770 775 780

Thr Thr Asp Val Lys Asn Phe Leu Pro Glu Trp Lys Ser Gly Met Tyr

785 790 795 800

Ala Ser Phe Val Glu Glu Ile Lys Asn Asn Leu Asp Leu Gln Glu Trp

805 810 815

Tyr Ile Val Gly Arg Phe Leu Asn Gly Arg Met Leu Asn Gln Leu Ala

820 825 830

Gly Ser Leu Arg Ser Tyr Ile Gln Tyr Ala Glu Asp Ile Glu Arg Arg

835 840 845

Ala Ala Glu Asn Arg Asn Lys Leu Phe Ser Lys Pro Asp Glu Lys Ile

850 855 860

Glu Ala Cys Lys Lys Ala Val Arg Val Leu Asp Leu Cys Ile Lys Ile

865 870 875 880

Ser Thr Arg Ile Ser Ala Glu Phe Thr Asp Tyr Phe Asp Ser Glu Asp

885 890 895

Asp Tyr Ala Asp Tyr Leu Glu Lys Tyr Leu Lys Tyr Gln Asp Asp Ala

900 905 910

Ile Lys Glu Leu Ser Gly Ser Ser Tyr Ala Ala Leu Asp His Phe Cys

915 920 925

Asn Lys Asp Asp Leu Lys Phe Asp Ile Tyr Val Asn Ala Gly Gln Lys

930 935 940

Pro Ile Leu Gln Arg Asn Ile Val Met Ala Lys Leu Phe Gly Pro Asp

945 950 955 960

Asn Ile Leu Ser Glu Val Met Glu Lys Val Thr Glu Ser Ala Ile Arg

965 970 975

Glu Tyr Tyr Asp Tyr Leu Lys Lys Val Ser Gly Tyr Arg Val Arg Gly

980 985 990

Lys Cys Ser Thr Glu Lys Glu Gln Glu Asp Leu Leu Lys Phe Gln Arg

995 1000 1005

Leu Lys Asn Ala Val Glu Phe Arg Asp Val Thr Glu Tyr Ala Glu

1010 1015 1020

Val Ile Asn Glu Leu Leu Gly Gln Leu Ile Ser Trp Ser Tyr Leu

1025 1030 1035

Arg Glu Arg Asp Leu Leu Tyr Phe Gln Leu Gly Phe His Tyr Met

1040 1045 1050

Cys Leu Lys Asn Lys Ser Phe Lys Pro Ala Glu Tyr Val Asp Ile

1055 1060 1065

Arg Arg Asn Asn Gly Thr Ile Ile His Asn Ala Ile Leu Tyr Gln

1070 1075 1080

Ile Val Ser Met Tyr Ile Asn Gly Leu Asp Phe Tyr Ser Cys Asp

1085 1090 1095

Lys Glu Gly Lys Thr Leu Lys Pro Ile Glu Thr Gly Lys Gly Val

1100 1105 1110

Gly Ser Lys Ile Gly Gln Phe Ile Lys Tyr Ser Gln Tyr Leu Tyr

1115 1120 1125

Asn Asp Pro Ser Tyr Lys Leu Glu Ile Tyr Asn Ala Gly Leu Glu

1130 1135 1140

Val Phe Glu Asn Ile Asp Glu His Asp Asn Ile Thr Asp Leu Arg

1145 1150 1155

Lys Tyr Val Asp His Phe Lys Tyr Tyr Ala Tyr Gly Asn Lys Met

1160 1165 1170

Ser Leu Leu Asp Leu Tyr Ser Glu Phe Phe Asp Arg Phe Phe Thr

1175 1180 1185

Tyr Asp Met Lys Tyr Gln Lys Asn Val Val Asn Val Leu Glu Asn

1190 1195 1200

Ile Leu Leu Arg His Phe Val Ile Phe Tyr Pro Lys Phe Gly Ser

1205 1210 1215

Gly Lys Lys Asp Val Gly Ile Arg Asp Cys Lys Lys Glu Arg Ala

1220 1225 1230

Gln Ile Glu Ile Ser Glu Gln Ser Leu Thr Ser Glu Asp Phe Met

1235 1240 1245

Phe Lys Leu Asp Asp Lys Ala Gly Glu Glu Ala Lys Lys Phe Pro

1250 1255 1260

Ala Arg Asp Glu Arg Tyr Leu Gln Thr Ile Ala Lys Leu Leu Tyr

1265 1270 1275

Tyr Pro Asn Glu Ile Glu Asp Met Asn Arg Phe Met Lys Lys Gly

1280 1285 1290

Glu Thr Ile Asn Lys Lys Val Gln Phe Asn Arg Lys Lys Lys Ile

1295 1300 1305

Thr Arg Lys Gln Lys Asn Asn Ser Ser Asn Glu Val Leu Ser Ser

1310 1315 1320

Thr Met Gly Tyr Leu Phe Lys Asn Ile Lys Leu

1325 1330

<210> 39

<211> 36

<212> РНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 39

guuuuagucc ucuuucauau agagguaguc ucuuac 36

<210> 40

<211> 99

<212> РНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 40

augaaaagag gacuaaaacu gaaagaggac uaaaacacca gauguggaua acuauauuag 60

uggcuauuaa aaauucgucg auauuagaga ggaaacuuu 99

<210> 41

<211> 1120

<212> БЕЛОК

<213> Listeria seeligeri

<400> 41

Met Trp Ile Ser Ile Lys Thr Leu Ile His His Leu Gly Val Leu Phe

1 5 10 15

Phe Cys Asp Tyr Met Tyr Asn Arg Arg Glu Lys Lys Ile Ile Glu Val

20 25 30

Lys Thr Met Arg Ile Thr Lys Val Glu Val Asp Arg Lys Lys Val Leu

35 40 45

Ile Ser Arg Asp Lys Asn Gly Gly Lys Leu Val Tyr Glu Asn Glu Met

50 55 60

Gln Asp Asn Thr Glu Gln Ile Met His His Lys Lys Ser Ser Phe Tyr

65 70 75 80

Lys Ser Val Val Asn Lys Thr Ile Cys Arg Pro Glu Gln Lys Gln Met

85 90 95

Lys Lys Leu Val His Gly Leu Leu Gln Glu Asn Ser Gln Glu Lys Ile

100 105 110

Lys Val Ser Asp Val Thr Lys Leu Asn Ile Ser Asn Phe Leu Asn His

115 120 125

Arg Phe Lys Lys Ser Leu Tyr Tyr Phe Pro Glu Asn Ser Pro Asp Lys

130 135 140

Ser Glu Glu Tyr Arg Ile Glu Ile Asn Leu Ser Gln Leu Leu Glu Asp

145 150 155 160

Ser Leu Lys Lys Gln Gln Gly Thr Phe Ile Cys Trp Glu Ser Phe Ser

165 170 175

Lys Asp Met Glu Leu Tyr Ile Asn Trp Ala Glu Asn Tyr Ile Ser Ser

180 185 190

Lys Thr Lys Leu Ile Lys Lys Ser Ile Arg Asn Asn Arg Ile Gln Ser

195 200 205

Thr Glu Ser Arg Ser Gly Gln Leu Met Asp Arg Tyr Met Lys Asp Ile

210 215 220

Leu Asn Lys Asn Lys Pro Phe Asp Ile Gln Ser Val Ser Glu Lys Tyr

225 230 235 240

Gln Leu Glu Lys Leu Thr Ser Ala Leu Lys Ala Thr Phe Lys Glu Ala

245 250 255

Lys Lys Asn Asp Lys Glu Ile Asn Tyr Lys Leu Lys Ser Thr Leu Gln

260 265 270

Asn His Glu Arg Gln Ile Ile Glu Glu Leu Lys Glu Asn Ser Glu Leu

275 280 285

Asn Gln Phe Asn Ile Glu Ile Arg Lys His Leu Glu Thr Tyr Phe Pro

290 295 300

Ile Lys Lys Thr Asn Arg Lys Val Gly Asp Ile Arg Asn Leu Glu Ile

305 310 315 320

Gly Glu Ile Gln Lys Ile Val Asn His Arg Leu Lys Asn Lys Ile Val

325 330 335

Gln Arg Ile Leu Gln Glu Gly Lys Leu Ala Ser Tyr Glu Ile Glu Ser

340 345 350

Thr Val Asn Ser Asn Ser Leu Gln Lys Ile Lys Ile Glu Glu Ala Phe

355 360 365

Ala Leu Lys Phe Ile Asn Ala Cys Leu Phe Ala Ser Asn Asn Leu Arg

370 375 380

Asn Met Val Tyr Pro Val Cys Lys Lys Asp Ile Leu Met Ile Gly Glu

385 390 395 400

Phe Lys Asn Ser Phe Lys Glu Ile Lys His Lys Lys Phe Ile Arg Gln

405 410 415

Trp Ser Gln Phe Phe Ser Gln Glu Ile Thr Val Asp Asp Ile Glu Leu

420 425 430

Ala Ser Trp Gly Leu Arg Gly Ala Ile Ala Pro Ile Arg Asn Glu Ile

435 440 445

Ile His Leu Lys Lys His Ser Trp Lys Lys Phe Phe Asn Asn Pro Thr

450 455 460

Phe Lys Val Lys Lys Ser Lys Ile Ile Asn Gly Lys Thr Lys Asp Val

465 470 475 480

Thr Ser Glu Phe Leu Tyr Lys Glu Thr Leu Phe Lys Asp Tyr Phe Tyr

485 490 495

Ser Glu Leu Asp Ser Val Pro Glu Leu Ile Ile Asn Lys Met Glu Ser

500 505 510

Ser Lys Ile Leu Asp Tyr Tyr Ser Ser Asp Gln Leu Asn Gln Val Phe

515 520 525

Thr Ile Pro Asn Phe Glu Leu Ser Leu Leu Thr Ser Ala Val Pro Phe

530 535 540

Ala Pro Ser Phe Lys Arg Val Tyr Leu Lys Gly Phe Asp Tyr Gln Asn

545 550 555 560

Gln Asp Glu Ala Gln Pro Asp Tyr Asn Leu Lys Leu Asn Ile Tyr Asn

565 570 575

Glu Lys Ala Phe Asn Ser Glu Ala Phe Gln Ala Gln Tyr Ser Leu Phe

580 585 590

Lys Met Val Tyr Tyr Gln Val Phe Leu Pro Gln Phe Thr Thr Asn Asn

595 600 605

Asp Leu Phe Lys Ser Ser Val Asp Phe Ile Leu Thr Leu Asn Lys Glu

610 615 620

Arg Lys Gly Tyr Ala Lys Ala Phe Gln Asp Ile Arg Lys Met Asn Lys

625 630 635 640

Asp Glu Lys Pro Ser Glu Tyr Met Ser Tyr Ile Gln Ser Gln Leu Met

645 650 655

Leu Tyr Gln Lys Lys Gln Glu Glu Lys Glu Lys Ile Asn His Phe Glu

660 665 670

Lys Phe Ile Asn Gln Val Phe Ile Lys Gly Phe Asn Ser Phe Ile Glu

675 680 685

Lys Asn Arg Leu Thr Tyr Ile Cys His Pro Thr Lys Asn Thr Val Pro

690 695 700

Glu Asn Asp Asn Ile Glu Ile Pro Phe His Thr Asp Met Asp Asp Ser

705 710 715 720

Asn Ile Ala Phe Trp Leu Met Cys Lys Leu Leu Asp Ala Lys Gln Leu

725 730 735

Ser Glu Leu Arg Asn Glu Met Ile Lys Phe Ser Cys Ser Leu Gln Ser

740 745 750

Thr Glu Glu Ile Ser Thr Phe Thr Lys Ala Arg Glu Val Ile Gly Leu

755 760 765

Ala Leu Leu Asn Gly Glu Lys Gly Cys Asn Asp Trp Lys Glu Leu Phe

770 775 780

Asp Asp Lys Glu Ala Trp Lys Lys Asn Met Ser Leu Tyr Val Ser Glu

785 790 795 800

Glu Leu Leu Gln Ser Leu Pro Tyr Thr Gln Glu Asp Gly Gln Thr Pro

805 810 815

Val Ile Asn Arg Ser Ile Asp Leu Val Lys Lys Tyr Gly Thr Glu Thr

820 825 830

Ile Leu Glu Lys Leu Phe Ser Ser Ser Asp Asp Tyr Lys Val Ser Ala

835 840 845

Lys Asp Ile Ala Lys Leu His Glu Tyr Asp Val Thr Glu Lys Ile Ala

850 855 860

Gln Gln Glu Ser Leu His Lys Gln Trp Ile Glu Lys Pro Gly Leu Ala

865 870 875 880

Arg Asp Ser Ala Trp Thr Lys Lys Tyr Gln Asn Val Ile Asn Asp Ile

885 890 895

Ser Asn Tyr Gln Trp Ala Lys Thr Lys Val Glu Leu Thr Gln Val Arg

900 905 910

His Leu His Gln Leu Thr Ile Asp Leu Leu Ser Arg Leu Ala Gly Tyr

915 920 925

Met Ser Ile Ala Asp Arg Asp Phe Gln Phe Ser Ser Asn Tyr Ile Leu

930 935 940

Glu Arg Glu Asn Ser Glu Tyr Arg Val Thr Ser Trp Ile Leu Leu Ser

945 950 955 960

Glu Asn Lys Asn Lys Asn Lys Tyr Asn Asp Tyr Glu Leu Tyr Asn Leu

965 970 975

Lys Asn Ala Ser Ile Lys Val Ser Ser Lys Asn Asp Pro Gln Leu Lys

980 985 990

Val Asp Leu Lys Gln Leu Arg Leu Thr Leu Glu Tyr Leu Glu Leu Phe

995 1000 1005

Asp Asn Arg Leu Lys Glu Lys Arg Asn Asn Ile Ser His Phe Asn

1010 1015 1020

Tyr Leu Asn Gly Gln Leu Gly Asn Ser Ile Leu Glu Leu Phe Asp

1025 1030 1035

Asp Ala Arg Asp Val Leu Ser Tyr Asp Arg Lys Leu Lys Asn Ala

1040 1045 1050

Val Ser Lys Ser Leu Lys Glu Ile Leu Ser Ser His Gly Met Glu

1055 1060 1065

Val Thr Phe Lys Pro Leu Tyr Gln Thr Asn His His Leu Lys Ile

1070 1075 1080

Asp Lys Leu Gln Pro Lys Lys Ile His His Leu Gly Glu Lys Ser

1085 1090 1095

Thr Val Ser Ser Asn Gln Val Ser Asn Glu Tyr Cys Gln Leu Val

1100 1105 1110

Arg Thr Leu Leu Thr Met Lys

1115 1120

<210> 42

<211> 36

<212> РНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 42

guuuuagucc ccuucguuuu ugggguaguc uaaauc 36

<210> 43

<211> 113

<212> РНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полинуклеотид

<400> 43

gauuuagagc accccaaaag uaaugaaaau uugcaauuaa auaaggaaua uuaaaaaaau 60

gugauuuuaa aaaaauugaa gaaauuaaau gaaaaauugu ccaaguaaaa aaa 113

<210> 44

<211> 70

<212> РНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 44

auuuagauua ccccuuuaau uuauuuuacc auauuuuucu cauaaugcaa acuaauauuc 60

caaaauuuuu 70

<210> 45

<211> 1389

<212> БЕЛОК

<213> Leptotrichia wadei

<400> 45

Met Gly Asn Leu Phe Gly His Lys Arg Trp Tyr Glu Val Arg Asp Lys

1 5 10 15

Lys Asp Phe Lys Ile Lys Arg Lys Val Lys Val Lys Arg Asn Tyr Asp

20 25 30

Gly Asn Lys Tyr Ile Leu Asn Ile Asn Glu Asn Asn Asn Lys Glu Lys

35 40 45

Ile Asp Asn Asn Lys Phe Ile Arg Lys Tyr Ile Asn Tyr Lys Lys Asn

50 55 60

Asp Asn Ile Leu Lys Glu Phe Thr Arg Lys Phe His Ala Gly Asn Ile

65 70 75 80

Leu Phe Lys Leu Lys Gly Lys Glu Gly Ile Ile Arg Ile Glu Asn Asn

85 90 95

Asp Asp Phe Leu Glu Thr Glu Glu Val Val Leu Tyr Ile Glu Ala Tyr

100 105 110

Gly Lys Ser Glu Lys Leu Lys Ala Leu Gly Ile Thr Lys Lys Lys Ile

115 120 125

Ile Asp Glu Ala Ile Arg Gln Gly Ile Thr Lys Asp Asp Lys Lys Ile

130 135 140

Glu Ile Lys Arg Gln Glu Asn Glu Glu Glu Ile Glu Ile Asp Ile Arg

145 150 155 160

Asp Glu Tyr Thr Asn Lys Thr Leu Asn Asp Cys Ser Ile Ile Leu Arg

165 170 175

Ile Ile Glu Asn Asp Glu Leu Glu Thr Lys Lys Ser Ile Tyr Glu Ile

180 185 190

Phe Lys Asn Ile Asn Met Ser Leu Tyr Lys Ile Ile Glu Lys Ile Ile

195 200 205

Glu Asn Glu Thr Glu Lys Val Phe Glu Asn Arg Tyr Tyr Glu Glu His

210 215 220

Leu Arg Glu Lys Leu Leu Lys Asp Asp Lys Ile Asp Val Ile Leu Thr

225 230 235 240

Asn Phe Met Glu Ile Arg Glu Lys Ile Lys Ser Asn Leu Glu Ile Leu

245 250 255

Gly Phe Val Lys Phe Tyr Leu Asn Val Gly Gly Asp Lys Lys Lys Ser

260 265 270

Lys Asn Lys Lys Met Leu Val Glu Lys Ile Leu Asn Ile Asn Val Asp

275 280 285

Leu Thr Val Glu Asp Ile Ala Asp Phe Val Ile Lys Glu Leu Glu Phe

290 295 300

Trp Asn Ile Thr Lys Arg Ile Glu Lys Val Lys Lys Val Asn Asn Glu

305 310 315 320

Phe Leu Glu Lys Arg Arg Asn Arg Thr Tyr Ile Lys Ser Tyr Val Leu

325 330 335

Leu Asp Lys His Glu Lys Phe Lys Ile Glu Arg Glu Asn Lys Lys Asp

340 345 350

Lys Ile Val Lys Phe Phe Val Glu Asn Ile Lys Asn Asn Ser Ile Lys

355 360 365

Glu Lys Ile Glu Lys Ile Leu Ala Glu Phe Lys Ile Asp Glu Leu Ile

370 375 380

Lys Lys Leu Glu Lys Glu Leu Lys Lys Gly Asn Cys Asp Thr Glu Ile

385 390 395 400

Phe Gly Ile Phe Lys Lys His Tyr Lys Val Asn Phe Asp Ser Lys Lys

405 410 415

Phe Ser Lys Lys Ser Asp Glu Glu Lys Glu Leu Tyr Lys Ile Ile Tyr

420 425 430

Arg Tyr Leu Lys Gly Arg Ile Glu Lys Ile Leu Val Asn Glu Gln Lys

435 440 445

Val Arg Leu Lys Lys Met Glu Lys Ile Glu Ile Glu Lys Ile Leu Asn

450 455 460

Glu Ser Ile Leu Ser Glu Lys Ile Leu Lys Arg Val Lys Gln Tyr Thr

465 470 475 480

Leu Glu His Ile Met Tyr Leu Gly Lys Leu Arg His Asn Asp Ile Asp

485 490 495

Met Thr Thr Val Asn Thr Asp Asp Phe Ser Arg Leu His Ala Lys Glu

500 505 510

Glu Leu Asp Leu Glu Leu Ile Thr Phe Phe Ala Ser Thr Asn Met Glu

515 520 525

Leu Asn Lys Ile Phe Ser Arg Glu Asn Ile Asn Asn Asp Glu Asn Ile

530 535 540

Asp Phe Phe Gly Gly Asp Arg Glu Lys Asn Tyr Val Leu Asp Lys Lys

545 550 555 560

Ile Leu Asn Ser Lys Ile Lys Ile Ile Arg Asp Leu Asp Phe Ile Asp

565 570 575

Asn Lys Asn Asn Ile Thr Asn Asn Phe Ile Arg Lys Phe Thr Lys Ile

580 585 590

Gly Thr Asn Glu Arg Asn Arg Ile Leu His Ala Ile Ser Lys Glu Arg

595 600 605

Asp Leu Gln Gly Thr Gln Asp Asp Tyr Asn Lys Val Ile Asn Ile Ile

610 615 620

Gln Asn Leu Lys Ile Ser Asp Glu Glu Val Ser Lys Ala Leu Asn Leu

625 630 635 640

Asp Val Val Phe Lys Asp Lys Lys Asn Ile Ile Thr Lys Ile Asn Asp

645 650 655

Ile Lys Ile Ser Glu Glu Asn Asn Asn Asp Ile Lys Tyr Leu Pro Ser

660 665 670

Phe Ser Lys Val Leu Pro Glu Ile Leu Asn Leu Tyr Arg Asn Asn Pro

675 680 685

Lys Asn Glu Pro Phe Asp Thr Ile Glu Thr Glu Lys Ile Val Leu Asn

690 695 700

Ala Leu Ile Tyr Val Asn Lys Glu Leu Tyr Lys Lys Leu Ile Leu Glu

705 710 715 720

Asp Asp Leu Glu Glu Asn Glu Ser Lys Asn Ile Phe Leu Gln Glu Leu

725 730 735

Lys Lys Thr Leu Gly Asn Ile Asp Glu Ile Asp Glu Asn Ile Ile Glu

740 745 750

Asn Tyr Tyr Lys Asn Ala Gln Ile Ser Ala Ser Lys Gly Asn Asn Lys

755 760 765

Ala Ile Lys Lys Tyr Gln Lys Lys Val Ile Glu Cys Tyr Ile Gly Tyr

770 775 780

Leu Arg Lys Asn Tyr Glu Glu Leu Phe Asp Phe Ser Asp Phe Lys Met

785 790 795 800

Asn Ile Gln Glu Ile Lys Lys Gln Ile Lys Asp Ile Asn Asp Asn Lys

805 810 815

Thr Tyr Glu Arg Ile Thr Val Lys Thr Ser Asp Lys Thr Ile Val Ile

820 825 830

Asn Asp Asp Phe Glu Tyr Ile Ile Ser Ile Phe Ala Leu Leu Asn Ser

835 840 845

Asn Ala Val Ile Asn Lys Ile Arg Asn Arg Phe Phe Ala Thr Ser Val

850 855 860

Trp Leu Asn Thr Ser Glu Tyr Gln Asn Ile Ile Asp Ile Leu Asp Glu

865 870 875 880

Ile Met Gln Leu Asn Thr Leu Arg Asn Glu Cys Ile Thr Glu Asn Trp

885 890 895

Asn Leu Asn Leu Glu Glu Phe Ile Gln Lys Met Lys Glu Ile Glu Lys

900 905 910

Asp Phe Asp Asp Phe Lys Ile Gln Thr Lys Lys Glu Ile Phe Asn Asn

915 920 925

Tyr Tyr Glu Asp Ile Lys Asn Asn Ile Leu Thr Glu Phe Lys Asp Asp

930 935 940

Ile Asn Gly Cys Asp Val Leu Glu Lys Lys Leu Glu Lys Ile Val Ile

945 950 955 960

Phe Asp Asp Glu Thr Lys Phe Glu Ile Asp Lys Lys Ser Asn Ile Leu

965 970 975

Gln Asp Glu Gln Arg Lys Leu Ser Asn Ile Asn Lys Lys Asp Leu Lys

980 985 990

Lys Lys Val Asp Gln Tyr Ile Lys Asp Lys Asp Gln Glu Ile Lys Ser

995 1000 1005

Lys Ile Leu Cys Arg Ile Ile Phe Asn Ser Asp Phe Leu Lys Lys

1010 1015 1020

Tyr Lys Lys Glu Ile Asp Asn Leu Ile Glu Asp Met Glu Ser Glu

1025 1030 1035

Asn Glu Asn Lys Phe Gln Glu Ile Tyr Tyr Pro Lys Glu Arg Lys

1040 1045 1050

Asn Glu Leu Tyr Ile Tyr Lys Lys Asn Leu Phe Leu Asn Ile Gly

1055 1060 1065

Asn Pro Asn Phe Asp Lys Ile Tyr Gly Leu Ile Ser Asn Asp Ile

1070 1075 1080

Lys Met Ala Asp Ala Lys Phe Leu Phe Asn Ile Asp Gly Lys Asn

1085 1090 1095

Ile Arg Lys Asn Lys Ile Ser Glu Ile Asp Ala Ile Leu Lys Asn

1100 1105 1110

Leu Asn Asp Lys Leu Asn Gly Tyr Ser Lys Glu Tyr Lys Glu Lys

1115 1120 1125

Tyr Ile Lys Lys Leu Lys Glu Asn Asp Asp Phe Phe Ala Lys Asn

1130 1135 1140

Ile Gln Asn Lys Asn Tyr Lys Ser Phe Glu Lys Asp Tyr Asn Arg

1145 1150 1155

Val Ser Glu Tyr Lys Lys Ile Arg Asp Leu Val Glu Phe Asn Tyr

1160 1165 1170

Leu Asn Lys Ile Glu Ser Tyr Leu Ile Asp Ile Asn Trp Lys Leu

1175 1180 1185

Ala Ile Gln Met Ala Arg Phe Glu Arg Asp Met His Tyr Ile Val

1190 1195 1200

Asn Gly Leu Arg Glu Leu Gly Ile Ile Lys Leu Ser Gly Tyr Asn

1205 1210 1215

Thr Gly Ile Ser Arg Ala Tyr Pro Lys Arg Asn Gly Ser Asp Gly

1220 1225 1230

Phe Tyr Thr Thr Thr Ala Tyr Tyr Lys Phe Phe Asp Glu Glu Ser

1235 1240 1245

Tyr Lys Lys Phe Glu Lys Ile Cys Tyr Gly Phe Gly Ile Asp Leu

1250 1255 1260

Ser Glu Asn Ser Glu Ile Asn Lys Pro Glu Asn Glu Ser Ile Arg

1265 1270 1275

Asn Tyr Ile Ser His Phe Tyr Ile Val Arg Asn Pro Phe Ala Asp

1280 1285 1290

Tyr Ser Ile Ala Glu Gln Ile Asp Arg Val Ser Asn Leu Leu Ser

1295 1300 1305

Tyr Ser Thr Arg Tyr Asn Asn Ser Thr Tyr Ala Ser Val Phe Glu

1310 1315 1320

Val Phe Lys Lys Asp Val Asn Leu Asp Tyr Asp Glu Leu Lys Lys

1325 1330 1335

Lys Phe Lys Leu Ile Gly Asn Asn Asp Ile Leu Glu Arg Leu Met

1340 1345 1350

Lys Pro Lys Lys Val Ser Val Leu Glu Leu Glu Ser Tyr Asn Ser

1355 1360 1365

Asp Tyr Ile Lys Asn Leu Ile Ile Glu Leu Leu Thr Lys Ile Glu

1370 1375 1380

Asn Thr Asn Asp Thr Leu

1385

<210> 46

<211> 36

<212> РНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 46

guuuuagucc ccuucgauau uggggugguc uauauc 36

<210> 47

<211> 95

<212> РНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 47

auugaugugg uauacuaaaa auggaaaauu guauuuuuga uuagaaagau guaaaauuga 60

uuuaauuuaa aaauauuuua uuagauuaaa guaga 95

<210> 48

<211> 1300

<212> БЕЛОК

<213> Leptotrichia shahii

<400> 48

Met Ser Ile Tyr Gln Glu Phe Val Asn Lys Tyr Ser Leu Ser Lys Thr

1 5 10 15

Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Asn Ile Lys

20 25 30

Ala Arg Gly Leu Ile Leu Asp Asp Glu Lys Arg Ala Lys Asp Tyr Lys

35 40 45

Lys Ala Lys Gln Ile Ile Asp Lys Tyr His Gln Phe Phe Ile Glu Glu

50 55 60

Ile Leu Ser Ser Val Cys Ile Ser Glu Asp Leu Leu Gln Asn Tyr Ser

65 70 75 80

Asp Val Tyr Phe Lys Leu Lys Lys Ser Asp Asp Asp Asn Leu Gln Lys

85 90 95

Asp Phe Lys Ser Ala Lys Asp Thr Ile Lys Lys Gln Ile Ser Glu Tyr

100 105 110

Ile Lys Asp Ser Glu Lys Phe Lys Asn Leu Phe Asn Gln Asn Leu Ile

115 120 125

Asp Ala Lys Lys Gly Gln Glu Ser Asp Leu Ile Leu Trp Leu Lys Gln

130 135 140

Ser Lys Asp Asn Gly Ile Glu Leu Phe Lys Ala Asn Ser Asp Ile Thr

145 150 155 160

Asp Ile Asp Glu Ala Leu Glu Ile Ile Lys Ser Phe Lys Gly Trp Thr

165 170 175

Thr Tyr Phe Lys Gly Phe His Glu Asn Arg Lys Asn Val Tyr Ser Ser

180 185 190

Asn Asp Ile Pro Thr Ser Ile Ile Tyr Arg Ile Val Asp Asp Asn Leu

195 200 205

Pro Lys Phe Leu Glu Asn Lys Ala Lys Tyr Glu Ser Leu Lys Asp Lys

210 215 220

Ala Pro Glu Ala Ile Asn Tyr Glu Gln Ile Lys Lys Asp Leu Ala Glu

225 230 235 240

Glu Leu Thr Phe Asp Ile Asp Tyr Lys Thr Ser Glu Val Asn Gln Arg

245 250 255

Val Phe Ser Leu Asp Glu Val Phe Glu Ile Ala Asn Phe Asn Asn Tyr

260 265 270

Leu Asn Gln Ser Gly Ile Thr Lys Phe Asn Thr Ile Ile Gly Gly Lys

275 280 285

Phe Val Asn Gly Glu Asn Thr Lys Arg Lys Gly Ile Asn Glu Tyr Ile

290 295 300

Asn Leu Tyr Ser Gln Gln Ile Asn Asp Lys Thr Leu Lys Lys Tyr Lys

305 310 315 320

Met Ser Val Leu Phe Lys Gln Ile Leu Ser Asp Thr Glu Ser Lys Ser

325 330 335

Phe Val Ile Asp Lys Leu Glu Asp Asp Ser Asp Val Val Thr Thr Met

340 345 350

Gln Ser Phe Tyr Glu Gln Ile Ala Ala Phe Lys Thr Val Glu Glu Lys

355 360 365

Ser Ile Lys Glu Thr Leu Ser Leu Leu Phe Asp Asp Leu Lys Ala Gln

370 375 380

Lys Leu Asp Leu Ser Lys Ile Tyr Phe Lys Asn Asp Lys Ser Leu Thr

385 390 395 400

Asp Leu Ser Gln Gln Val Phe Asp Asp Tyr Ser Val Ile Gly Thr Ala

405 410 415

Val Leu Glu Tyr Ile Thr Gln Gln Ile Ala Pro Lys Asn Leu Asp Asn

420 425 430

Pro Ser Lys Lys Glu Gln Glu Leu Ile Ala Lys Lys Thr Glu Lys Ala

435 440 445

Lys Tyr Leu Ser Leu Glu Thr Ile Lys Leu Ala Leu Glu Glu Phe Asn

450 455 460

Lys His Arg Asp Ile Asp Lys Gln Cys Arg Phe Glu Glu Ile Leu Ala

465 470 475 480

Asn Phe Ala Ala Ile Pro Met Ile Phe Asp Glu Ile Ala Gln Asn Lys

485 490 495

Asp Asn Leu Ala Gln Ile Ser Ile Lys Tyr Gln Asn Gln Gly Lys Lys

500 505 510

Asp Leu Leu Gln Ala Ser Ala Glu Asp Asp Val Lys Ala Ile Lys Asp

515 520 525

Leu Leu Asp Gln Thr Asn Asn Leu Leu His Lys Leu Lys Ile Phe His

530 535 540

Ile Ser Gln Ser Glu Asp Lys Ala Asn Ile Leu Asp Lys Asp Glu His

545 550 555 560

Phe Tyr Leu Val Phe Glu Glu Cys Tyr Phe Glu Leu Ala Asn Ile Val

565 570 575

Pro Leu Tyr Asn Lys Ile Arg Asn Tyr Ile Thr Gln Lys Pro Tyr Ser

580 585 590

Asp Glu Lys Phe Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Asn Gly

595 600 605

Trp Asp Lys Asn Lys Glu Pro Asp Asn Thr Ala Ile Leu Phe Ile Lys

610 615 620

Asp Asp Lys Tyr Tyr Leu Gly Val Met Asn Lys Lys Asn Asn Lys Ile

625 630 635 640

Phe Asp Asp Lys Ala Ile Lys Glu Asn Lys Gly Glu Gly Tyr Lys Lys

645 650 655

Ile Val Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys Val

660 665 670

Phe Phe Ser Ala Lys Ser Ile Lys Phe Tyr Asn Pro Ser Glu Asp Ile

675 680 685

Leu Arg Ile Arg Asn His Ser Thr His Thr Lys Asn Gly Ser Pro Gln

690 695 700

Lys Gly Tyr Glu Lys Phe Glu Phe Asn Ile Glu Asp Cys Arg Lys Phe

705 710 715 720

Ile Asp Phe Tyr Lys Gln Ser Ile Ser Lys His Pro Glu Trp Lys Asp

725 730 735

Phe Gly Phe Arg Phe Ser Asp Thr Gln Arg Tyr Asn Ser Ile Asp Glu

740 745 750

Phe Tyr Arg Glu Val Glu Asn Gln Gly Tyr Lys Leu Thr Phe Glu Asn

755 760 765

Ile Ser Glu Ser Tyr Ile Asp Ser Val Val Asn Gln Gly Lys Leu Tyr

770 775 780

Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Ala Tyr Ser Lys Gly Arg

785 790 795 800

Pro Asn Leu His Thr Leu Tyr Trp Lys Ala Leu Phe Asp Glu Arg Asn

805 810 815

Leu Gln Asp Val Val Tyr Lys Leu Asn Gly Glu Ala Glu Leu Phe Tyr

820 825 830

Arg Lys Gln Ser Ile Pro Lys Lys Ile Thr His Pro Ala Lys Glu Ala

835 840 845

Ile Ala Asn Lys Asn Lys Asp Asn Pro Lys Lys Glu Ser Val Phe Glu

850 855 860

Tyr Asp Leu Ile Lys Asp Lys Arg Phe Thr Glu Asp Lys Phe Phe Phe

865 870 875 880

His Cys Pro Ile Thr Ile Asn Phe Lys Ser Ser Gly Ala Asn Lys Phe

885 890 895

Asn Asp Glu Ile Asn Leu Leu Leu Lys Glu Lys Ala Asn Asp Val His

900 905 910

Ile Leu Ser Ile Asp Arg Gly Glu Arg His Leu Ala Tyr Tyr Thr Leu

915 920 925

Val Asp Gly Lys Gly Asn Ile Ile Lys Gln Asp Thr Phe Asn Ile Ile

930 935 940

Gly Asn Asp Arg Met Lys Thr Asn Tyr His Asp Lys Leu Ala Ala Ile

945 950 955 960

Glu Lys Asp Arg Asp Ser Ala Arg Lys Asp Trp Lys Lys Ile Asn Asn

965 970 975

Ile Lys Glu Met Lys Glu Gly Tyr Leu Ser Gln Val Val His Glu Ile

980 985 990

Ala Lys Leu Val Ile Glu Tyr Asn Ala Ile Val Val Phe Glu Asp Leu

995 1000 1005

Asn Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Val

1010 1015 1020

Tyr Gln Lys Leu Glu Lys Met Leu Ile Glu Lys Leu Asn Tyr Leu

1025 1030 1035

Val Phe Lys Asp Asn Glu Phe Asp Lys Thr Gly Gly Val Leu Arg

1040 1045 1050

Ala Tyr Gln Leu Thr Ala Pro Phe Glu Thr Phe Lys Lys Met Gly

1055 1060 1065

Lys Gln Thr Gly Ile Ile Tyr Tyr Val Pro Ala Gly Phe Thr Ser

1070 1075 1080

Lys Ile Cys Pro Val Thr Gly Phe Val Asn Gln Leu Tyr Pro Lys

1085 1090 1095

Tyr Glu Ser Val Ser Lys Ser Gln Glu Phe Phe Ser Lys Phe Asp

1100 1105 1110

Lys Ile Cys Tyr Asn Leu Asp Lys Gly Tyr Phe Glu Phe Ser Phe

1115 1120 1125

Asp Tyr Lys Asn Phe Gly Asp Lys Ala Ala Lys Gly Lys Trp Thr

1130 1135 1140

Ile Ala Ser Phe Gly Ser Arg Leu Ile Asn Phe Arg Asn Ser Asp

1145 1150 1155

Lys Asn His Asn Trp Asp Thr Arg Glu Val Tyr Pro Thr Lys Glu

1160 1165 1170

Leu Glu Lys Leu Leu Lys Asp Tyr Ser Ile Glu Tyr Gly His Gly

1175 1180 1185

Glu Cys Ile Lys Ala Ala Ile Cys Gly Glu Ser Asp Lys Lys Phe

1190 1195 1200

Phe Ala Lys Leu Thr Ser Val Leu Asn Thr Ile Leu Gln Met Arg

1205 1210 1215

Asn Ser Lys Thr Gly Thr Glu Leu Asp Tyr Leu Ile Ser Pro Val

1220 1225 1230

Ala Asp Val Asn Gly Asn Phe Phe Asp Ser Arg Gln Ala Pro Lys

1235 1240 1245

Asn Met Pro Gln Asp Ala Asp Ala Asn Gly Ala Tyr His Ile Gly

1250 1255 1260

Leu Lys Gly Leu Met Leu Leu Gly Arg Ile Lys Asn Asn Gln Glu

1265 1270 1275

Gly Lys Lys Leu Asn Leu Val Ile Lys Asn Glu Glu Tyr Phe Glu

1280 1285 1290

Phe Val Gln Asn Arg Asn Asn

1295 1300

<210> 49

<211> 36

<212> РНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 49

gucuaagaac uuuaaauaau uucuacuguu guagau 36

<210> 50

<211> 71

<212> РНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 50

aucuacaaaa uuauaaacua aauaaagauu cuuauaauaa cuuuauauau aaucgaaaug 60

uagagaauuu u 71

<210> 51

<211> 1300

<212> БЕЛОК

<213> Francisella ularensis

<400> 51

Met Ser Ile Tyr Gln Glu Phe Val Asn Lys Tyr Ser Leu Ser Lys Thr

1 5 10 15

Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Asn Ile Lys

20 25 30

Ala Arg Gly Leu Ile Leu Asp Asp Glu Lys Arg Ala Lys Asp Tyr Lys

35 40 45

Lys Ala Lys Gln Ile Ile Asp Lys Tyr His Gln Phe Phe Ile Glu Glu

50 55 60

Ile Leu Ser Ser Val Cys Ile Ser Glu Asp Leu Leu Gln Asn Tyr Ser

65 70 75 80

Asp Val Tyr Phe Lys Leu Lys Lys Ser Asp Asp Asp Asn Leu Gln Lys

85 90 95

Asp Phe Lys Ser Ala Lys Asp Thr Ile Lys Lys Gln Ile Ser Glu Tyr

100 105 110

Ile Lys Asp Ser Glu Lys Phe Lys Asn Leu Phe Asn Gln Asn Leu Ile

115 120 125

Asp Ala Lys Lys Gly Gln Glu Ser Asp Leu Ile Leu Trp Leu Lys Gln

130 135 140

Ser Lys Asp Asn Gly Ile Glu Leu Phe Lys Ala Asn Ser Asp Ile Thr

145 150 155 160

Asp Ile Asp Glu Ala Leu Glu Ile Ile Lys Ser Phe Lys Gly Trp Thr

165 170 175

Thr Tyr Phe Lys Gly Phe His Glu Asn Arg Lys Asn Val Tyr Ser Ser

180 185 190

Asn Asp Ile Pro Thr Ser Ile Ile Tyr Arg Ile Val Asp Asp Asn Leu

195 200 205

Pro Lys Phe Leu Glu Asn Lys Ala Lys Tyr Glu Ser Leu Lys Asp Lys

210 215 220

Ala Pro Glu Ala Ile Asn Tyr Glu Gln Ile Lys Lys Asp Leu Ala Glu

225 230 235 240

Glu Leu Thr Phe Asp Ile Asp Tyr Lys Thr Ser Glu Val Asn Gln Arg

245 250 255

Val Phe Ser Leu Asp Glu Val Phe Glu Ile Ala Asn Phe Asn Asn Tyr

260 265 270

Leu Asn Gln Ser Gly Ile Thr Lys Phe Asn Thr Ile Ile Gly Gly Lys

275 280 285

Phe Val Asn Gly Glu Asn Thr Lys Arg Lys Gly Ile Asn Glu Tyr Ile

290 295 300

Asn Leu Tyr Ser Gln Gln Ile Asn Asp Lys Thr Leu Lys Lys Tyr Lys

305 310 315 320

Met Ser Val Leu Phe Lys Gln Ile Leu Ser Asp Thr Glu Ser Lys Ser

325 330 335

Phe Val Ile Asp Lys Leu Glu Asp Asp Ser Asp Val Val Thr Thr Met

340 345 350

Gln Ser Phe Tyr Glu Gln Ile Ala Ala Phe Lys Thr Val Glu Glu Lys

355 360 365

Ser Ile Lys Glu Thr Leu Ser Leu Leu Phe Asp Asp Leu Lys Ala Gln

370 375 380

Lys Leu Asp Leu Ser Lys Ile Tyr Phe Lys Asn Asp Lys Ser Leu Thr

385 390 395 400

Asp Leu Ser Gln Gln Val Phe Asp Asp Tyr Ser Val Ile Gly Thr Ala

405 410 415

Val Leu Glu Tyr Ile Thr Gln Gln Ile Ala Pro Lys Asn Leu Asp Asn

420 425 430

Pro Ser Lys Lys Glu Gln Glu Leu Ile Ala Lys Lys Thr Glu Lys Ala

435 440 445

Lys Tyr Leu Ser Leu Glu Thr Ile Lys Leu Ala Leu Glu Glu Phe Asn

450 455 460

Lys His Arg Asp Ile Asp Lys Gln Cys Arg Phe Glu Glu Ile Leu Ala

465 470 475 480

Asn Phe Ala Ala Ile Pro Met Ile Phe Asp Glu Ile Ala Gln Asn Lys

485 490 495

Asp Asn Leu Ala Gln Ile Ser Ile Lys Tyr Gln Asn Gln Gly Lys Lys

500 505 510

Asp Leu Leu Gln Ala Ser Ala Glu Asp Asp Val Lys Ala Ile Lys Asp

515 520 525

Leu Leu Asp Gln Thr Asn Asn Leu Leu His Lys Leu Lys Ile Phe His

530 535 540

Ile Ser Gln Ser Glu Asp Lys Ala Asn Ile Leu Asp Lys Asp Glu His

545 550 555 560

Phe Tyr Leu Val Phe Glu Glu Cys Tyr Phe Glu Leu Ala Asn Ile Val

565 570 575

Pro Leu Tyr Asn Lys Ile Arg Asn Tyr Ile Thr Gln Lys Pro Tyr Ser

580 585 590

Asp Glu Lys Phe Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Asn Gly

595 600 605

Trp Asp Lys Asn Lys Glu Pro Asp Asn Thr Ala Ile Leu Phe Ile Lys

610 615 620

Asp Asp Lys Tyr Tyr Leu Gly Val Met Asn Lys Lys Asn Asn Lys Ile

625 630 635 640

Phe Asp Asp Lys Ala Ile Lys Glu Asn Lys Gly Glu Gly Tyr Lys Lys

645 650 655

Ile Val Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys Val

660 665 670

Phe Phe Ser Ala Lys Ser Ile Lys Phe Tyr Asn Pro Ser Glu Asp Ile

675 680 685

Leu Arg Ile Arg Asn His Ser Thr His Thr Lys Asn Gly Ser Pro Gln

690 695 700

Lys Gly Tyr Glu Lys Phe Glu Phe Asn Ile Glu Asp Cys Arg Lys Phe

705 710 715 720

Ile Asp Phe Tyr Lys Gln Ser Ile Ser Lys His Pro Glu Trp Lys Asp

725 730 735

Phe Gly Phe Arg Phe Ser Asp Thr Gln Arg Tyr Asn Ser Ile Asp Glu

740 745 750

Phe Tyr Arg Glu Val Glu Asn Gln Gly Tyr Lys Leu Thr Phe Glu Asn

755 760 765

Ile Ser Glu Ser Tyr Ile Asp Ser Val Val Asn Gln Gly Lys Leu Tyr

770 775 780

Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Ala Tyr Ser Lys Gly Arg

785 790 795 800

Pro Asn Leu His Thr Leu Tyr Trp Lys Ala Leu Phe Asp Glu Arg Asn

805 810 815

Leu Gln Asp Val Val Tyr Lys Leu Asn Gly Glu Ala Glu Leu Phe Tyr

820 825 830

Arg Lys Gln Ser Ile Pro Lys Lys Ile Thr His Pro Ala Lys Glu Ala

835 840 845

Ile Ala Asn Lys Asn Lys Asp Asn Pro Lys Lys Glu Ser Val Phe Glu

850 855 860

Tyr Asp Leu Ile Lys Asp Lys Arg Phe Thr Glu Asp Lys Phe Phe Phe

865 870 875 880

His Cys Pro Ile Thr Ile Asn Phe Lys Ser Ser Gly Ala Asn Lys Phe

885 890 895

Asn Asp Glu Ile Asn Leu Leu Leu Lys Glu Lys Ala Asn Asp Val His

900 905 910

Ile Leu Ser Ile Asp Arg Gly Glu Arg His Leu Ala Tyr Tyr Thr Leu

915 920 925

Val Asp Gly Lys Gly Asn Ile Ile Lys Gln Asp Thr Phe Asn Ile Ile

930 935 940

Gly Asn Asp Arg Met Lys Thr Asn Tyr His Asp Lys Leu Ala Ala Ile

945 950 955 960

Glu Lys Asp Arg Asp Ser Ala Arg Lys Asp Trp Lys Lys Ile Asn Asn

965 970 975

Ile Lys Glu Met Lys Glu Gly Tyr Leu Ser Gln Val Val His Glu Ile

980 985 990

Ala Lys Leu Val Ile Glu Tyr Asn Ala Ile Val Val Phe Glu Asp Leu

995 1000 1005

Asn Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Val

1010 1015 1020

Tyr Gln Lys Leu Glu Lys Met Leu Ile Glu Lys Leu Asn Tyr Leu

1025 1030 1035

Val Phe Lys Asp Asn Glu Phe Asp Lys Thr Gly Gly Val Leu Arg

1040 1045 1050

Ala Tyr Gln Leu Thr Ala Pro Phe Glu Thr Phe Lys Lys Met Gly

1055 1060 1065

Lys Gln Thr Gly Ile Ile Tyr Tyr Val Pro Ala Gly Phe Thr Ser

1070 1075 1080

Lys Ile Cys Pro Val Thr Gly Phe Val Asn Gln Leu Tyr Pro Lys

1085 1090 1095

Tyr Glu Ser Val Ser Lys Ser Gln Glu Phe Phe Ser Lys Phe Asp

1100 1105 1110

Lys Ile Cys Tyr Asn Leu Asp Lys Gly Tyr Phe Glu Phe Ser Phe

1115 1120 1125

Asp Tyr Lys Asn Phe Gly Asp Lys Ala Ala Lys Gly Lys Trp Thr

1130 1135 1140

Ile Ala Ser Phe Gly Ser Arg Leu Ile Asn Phe Arg Asn Ser Asp

1145 1150 1155

Lys Asn His Asn Trp Asp Thr Arg Glu Val Tyr Pro Thr Lys Glu

1160 1165 1170

Leu Glu Lys Leu Leu Lys Asp Tyr Ser Ile Glu Tyr Gly His Gly

1175 1180 1185

Glu Cys Ile Lys Ala Ala Ile Cys Gly Glu Ser Asp Lys Lys Phe

1190 1195 1200

Phe Ala Lys Leu Thr Ser Val Leu Asn Thr Ile Leu Gln Met Arg

1205 1210 1215

Asn Ser Lys Thr Gly Thr Glu Leu Asp Tyr Leu Ile Ser Pro Val

1220 1225 1230

Ala Asp Val Asn Gly Asn Phe Phe Asp Ser Arg Gln Ala Pro Lys

1235 1240 1245

Asn Met Pro Gln Asp Ala Asp Ala Asn Gly Ala Tyr His Ile Gly

1250 1255 1260

Leu Lys Gly Leu Met Leu Leu Gly Arg Ile Lys Asn Asn Gln Glu

1265 1270 1275

Gly Lys Lys Leu Asn Leu Val Ile Lys Asn Glu Glu Tyr Phe Glu

1280 1285 1290

Phe Val Gln Asn Arg Asn Asn

1295 1300

<210> 52

<211> 138

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полинуклеотид

<400> 52

aaaaggccgg cggccacgaa aaaggccggc caggcaaaaa agaaaaaggg atcctaccca 60

tacgatgttc cagattacgc ttatccctac gacgtgcctg attatgcata cccatatgat 120

gtccccgact atgcctaa 138

<210> 53

<211> 1388

<212> БЕЛОК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полипептид

<400> 53

Met Ser Leu Asn Arg Ile Tyr Gln Gly Arg Val Ala Ala Val Glu Thr

1 5 10 15

Gly Thr Ala Leu Ala Lys Gly Asn Val Glu Trp Met Pro Ala Ala Gly

20 25 30

Gly Asp Glu Val Leu Trp Gln His His Glu Leu Phe Gln Ala Ala Ile

35 40 45

Asn Tyr Tyr Leu Val Ala Leu Leu Ala Leu Ala Asp Lys Asn Asn Pro

50 55 60

Val Leu Gly Pro Leu Ile Ser Gln Met Asp Asn Pro Gln Ser Pro Tyr

65 70 75 80

His Val Trp Gly Ser Phe Arg Arg Gln Gly Arg Gln Arg Thr Gly Leu

85 90 95

Ser Gln Ala Val Ala Pro Tyr Ile Thr Pro Gly Asn Asn Ala Pro Thr

100 105 110

Leu Asp Glu Val Phe Arg Ser Ile Leu Ala Gly Asn Pro Thr Asp Arg

115 120 125

Ala Thr Leu Asp Ala Ala Leu Met Gln Leu Leu Lys Ala Cys Asp Gly

130 135 140

Ala Gly Ala Ile Gln Gln Glu Gly Arg Ser Tyr Trp Pro Lys Phe Cys

145 150 155 160

Asp Pro Asp Ser Thr Ala Asn Phe Ala Gly Asp Pro Ala Met Leu Arg

165 170 175

Arg Glu Gln His Arg Leu Leu Leu Pro Gln Val Leu His Asp Pro Ala

180 185 190

Ile Thr His Asp Ser Pro Ala Leu Gly Ser Phe Asp Thr Tyr Ser Ile

195 200 205

Ala Thr Pro Asp Thr Arg Thr Pro Gln Leu Thr Gly Pro Lys Ala Arg

210 215 220

Ala Arg Leu Glu Gln Ala Ile Thr Leu Trp Arg Val Arg Leu Pro Glu

225 230 235 240

Ser Ala Ala Asp Phe Asp Arg Leu Ala Ser Ser Leu Lys Lys Ile Pro

245 250 255

Asp Asp Asp Ser Arg Leu Asn Leu Gln Gly Tyr Val Gly Ser Ser Ala

260 265 270

Lys Gly Glu Val Gln Ala Arg Leu Phe Ala Leu Leu Leu Phe Arg His

275 280 285

Leu Glu Arg Ser Ser Phe Thr Leu Gly Leu Leu Arg Ser Ala Thr Pro

290 295 300

Pro Pro Lys Asn Ala Glu Thr Pro Pro Pro Ala Gly Val Pro Leu Pro

305 310 315 320

Ala Ala Ser Ala Ala Asp Pro Val Arg Ile Ala Arg Gly Lys Arg Ser

325 330 335

Phe Val Phe Arg Ala Phe Thr Ser Leu Pro Cys Trp His Gly Gly Asp

340 345 350

Asn Ile His Pro Thr Trp Lys Ser Phe Asp Ile Ala Ala Phe Lys Tyr

355 360 365

Ala Leu Thr Val Ile Asn Gln Ile Glu Glu Lys Thr Lys Glu Arg Gln

370 375 380

Lys Glu Cys Ala Glu Leu Glu Thr Asp Phe Asp Tyr Met His Gly Arg

385 390 395 400

Leu Ala Lys Ile Pro Val Lys Tyr Thr Thr Gly Glu Ala Glu Pro Pro

405 410 415

Pro Ile Leu Ala Asn Asp Leu Arg Ile Pro Leu Leu Arg Glu Leu Leu

420 425 430

Gln Asn Ile Lys Val Asp Thr Ala Leu Thr Asp Gly Glu Ala Val Ser

435 440 445

Tyr Gly Leu Gln Arg Arg Thr Ile Arg Gly Phe Arg Glu Leu Arg Arg

450 455 460

Ile Trp Arg Gly His Ala Pro Ala Gly Thr Val Phe Ser Ser Glu Leu

465 470 475 480

Lys Glu Lys Leu Ala Gly Glu Leu Arg Gln Phe Gln Thr Asp Asn Ser

485 490 495

Thr Thr Ile Gly Ser Val Gln Leu Phe Asn Glu Leu Ile Gln Asn Pro

500 505 510

Lys Tyr Trp Pro Ile Trp Gln Ala Pro Asp Val Glu Thr Ala Arg Gln

515 520 525

Trp Ala Asp Ala Gly Phe Ala Asp Asp Pro Leu Ala Ala Leu Val Gln

530 535 540

Glu Ala Glu Leu Gln Glu Asp Ile Asp Ala Leu Lys Ala Pro Val Lys

545 550 555 560

Leu Thr Pro Ala Asp Pro Glu Tyr Ser Arg Arg Gln Tyr Asp Phe Asn

565 570 575

Ala Val Ser Lys Phe Gly Ala Gly Ser Arg Ser Ala Asn Arg His Glu

580 585 590

Pro Gly Gln Thr Glu Arg Gly His Asn Thr Phe Thr Thr Glu Ile Ala

595 600 605

Ala Arg Asn Ala Ala Asp Gly Asn Arg Trp Arg Ala Thr His Val Arg

610 615 620

Ile His Tyr Ser Ala Pro Arg Leu Leu Arg Asp Gly Leu Arg Arg Pro

625 630 635 640

Asp Thr Asp Gly Asn Glu Ala Leu Glu Ala Val Pro Trp Leu Gln Pro

645 650 655

Met Met Glu Ala Leu Ala Pro Leu Pro Thr Leu Pro Gln Asp Leu Thr

660 665 670

Gly Met Pro Val Phe Leu Met Pro Asp Val Thr Leu Ser Gly Glu Arg

675 680 685

Arg Ile Leu Leu Asn Leu Pro Val Thr Leu Glu Pro Ala Ala Leu Val

690 695 700

Glu Gln Leu Gly Asn Ala Gly Arg Trp Gln Asn Gln Phe Phe Gly Ser

705 710 715 720

Arg Glu Asp Pro Phe Ala Leu Arg Trp Pro Ala Asp Gly Ala Val Lys

725 730 735

Thr Ala Lys Gly Lys Thr His Ile Pro Trp His Gln Asp Arg Asp His

740 745 750

Phe Thr Val Leu Gly Val Asp Leu Gly Thr Arg Asp Ala Gly Ala Leu

755 760 765

Ala Leu Leu Asn Val Thr Ala Gln Lys Pro Ala Lys Pro Val His Arg

770 775 780

Ile Ile Gly Glu Ala Asp Gly Arg Thr Trp Tyr Ala Ser Leu Ala Asp

785 790 795 800

Ala Arg Met Ile Arg Leu Pro Gly Glu Asp Ala Arg Leu Phe Val Arg

805 810 815

Gly Lys Leu Val Gln Glu Pro Tyr Gly Glu Arg Gly Arg Asn Ala Ser

820 825 830

Leu Leu Glu Trp Glu Asp Ala Arg Asn Ile Ile Leu Arg Leu Gly Gln

835 840 845

Asn Pro Asp Glu Leu Leu Gly Ala Asp Pro Arg Arg His Ser Tyr Pro

850 855 860

Glu Ile Asn Asp Lys Leu Leu Val Ala Leu Arg Arg Ala Gln Ala Arg

865 870 875 880

Leu Ala Arg Leu Gln Asn Arg Ser Trp Arg Leu Arg Asp Leu Ala Glu

885 890 895

Ser Asp Lys Ala Leu Asp Glu Ile His Ala Glu Arg Ala Gly Glu Lys

900 905 910

Pro Ser Pro Leu Pro Pro Leu Ala Arg Asp Asp Ala Ile Lys Ser Thr

915 920 925

Asp Glu Ala Leu Leu Ser Gln Arg Asp Ile Ile Arg Arg Ser Phe Val

930 935 940

Gln Ile Ala Asn Leu Ile Leu Pro Leu Arg Gly Arg Arg Trp Glu Trp

945 950 955 960

Arg Pro His Val Glu Val Pro Asp Cys His Ile Leu Ala Gln Ser Asp

965 970 975

Pro Gly Thr Asp Asp Thr Lys Arg Leu Val Ala Gly Gln Arg Gly Ile

980 985 990

Ser His Glu Arg Ile Glu Gln Ile Glu Glu Leu Arg Arg Arg Cys Gln

995 1000 1005

Ser Leu Asn Arg Ala Leu Arg His Lys Pro Gly Glu Arg Pro Val

1010 1015 1020

Leu Gly Arg Pro Ala Lys Gly Glu Glu Ile Ala Asp Pro Cys Pro

1025 1030 1035

Ala Leu Leu Glu Lys Ile Asn Arg Leu Arg Asp Gln Arg Val Asp

1040 1045 1050

Gln Thr Ala His Ala Ile Leu Ala Ala Ala Leu Gly Val Arg Leu

1055 1060 1065

Arg Ala Pro Ser Lys Asp Arg Ala Glu Arg Arg His Arg Asp Ile

1070 1075 1080

His Gly Glu Tyr Glu Arg Phe Arg Ala Pro Ala Asp Phe Val Val

1085 1090 1095

Ile Glu Asn Leu Ser Arg Tyr Leu Ser Ser Gln Asp Arg Ala Arg

1100 1105 1110

Ser Glu Asn Thr Arg Leu Met Gln Trp Cys His Arg Gln Ile Val

1115 1120 1125

Gln Lys Leu Arg Gln Leu Cys Glu Thr Tyr Gly Ile Pro Val Leu

1130 1135 1140

Ala Val Pro Ala Ala Tyr Ser Ser Arg Phe Ser Ser Arg Asp Gly

1145 1150 1155

Ser Ala Gly Phe Arg Ala Val His Leu Thr Pro Asp His Arg His

1160 1165 1170

Arg Met Pro Trp Ser Arg Ile Leu Ala Arg Leu Lys Ala His Glu

1175 1180 1185

Glu Asp Gly Lys Arg Leu Glu Lys Thr Val Leu Asp Glu Ala Arg

1190 1195 1200

Ala Val Arg Gly Leu Phe Asp Arg Leu Asp Arg Phe Asn Ala Gly

1205 1210 1215

His Val Pro Gly Lys Pro Trp Arg Thr Leu Leu Ala Pro Leu Pro

1220 1225 1230

Gly Gly Pro Val Phe Val Pro Leu Gly Asp Ala Thr Pro Met Gln

1235 1240 1245

Ala Asp Leu Asn Ala Ala Ile Asn Ile Ala Leu Arg Gly Ile Ala

1250 1255 1260

Ala Pro Asp Arg His Asp Ile His His Arg Leu Arg Ala Glu Asn

1265 1270 1275

Lys Lys Arg Ile Leu Ser Leu Arg Leu Gly Thr Gln Arg Glu Lys

1280 1285 1290

Ala Arg Trp Pro Gly Gly Ala Pro Ala Val Thr Leu Ser Thr Pro

1295 1300 1305

Asn Asn Gly Ala Ser Pro Glu Asp Ser Asp Ala Leu Pro Glu Arg

1310 1315 1320

Val Ser Asn Leu Phe Val Asp Ile Ala Gly Val Ala Asn Phe Glu

1325 1330 1335

Arg Val Thr Ile Glu Gly Val Ser Gln Lys Phe Ala Thr Gly Arg

1340 1345 1350

Gly Leu Trp Ala Ser Val Lys Gln Arg Ala Trp Asn Arg Val Ala

1355 1360 1365

Arg Leu Asn Glu Thr Val Thr Asp Asn Asn Arg Asn Glu Glu Glu

1370 1375 1380

Asp Asp Ile Pro Met

1385

<210> 54

<211> 1108

<212> БЕЛОК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полипептид

<400> 54

Met Ala Thr Arg Ser Phe Ile Leu Lys Ile Glu Pro Asn Glu Glu Val

1 5 10 15

Lys Lys Gly Leu Trp Lys Thr His Glu Val Leu Asn His Gly Ile Ala

20 25 30

Tyr Tyr Met Asn Ile Leu Lys Leu Ile Arg Gln Glu Ala Ile Tyr Glu

35 40 45

His His Glu Gln Asp Pro Lys Asn Pro Lys Lys Val Ser Lys Ala Glu

50 55 60

Ile Gln Ala Glu Leu Trp Asp Phe Val Leu Lys Met Gln Lys Cys Asn

65 70 75 80

Ser Phe Thr His Glu Val Asp Lys Asp Val Val Phe Asn Ile Leu Arg

85 90 95

Glu Leu Tyr Glu Glu Leu Val Pro Ser Ser Val Glu Lys Lys Gly Glu

100 105 110

Ala Asn Gln Leu Ser Asn Lys Phe Leu Tyr Pro Leu Val Asp Pro Asn

115 120 125

Ser Gln Ser Gly Lys Gly Thr Ala Ser Ser Gly Arg Lys Pro Arg Trp

130 135 140

Tyr Asn Leu Lys Ile Ala Gly Asp Pro Ser Trp Glu Glu Glu Lys Lys

145 150 155 160

Lys Trp Glu Glu Asp Lys Lys Lys Asp Pro Leu Ala Lys Ile Leu Gly

165 170 175

Lys Leu Ala Glu Tyr Gly Leu Ile Pro Leu Phe Ile Pro Phe Thr Asp

180 185 190

Ser Asn Glu Pro Ile Val Lys Glu Ile Lys Trp Met Glu Lys Ser Arg

195 200 205

Asn Gln Ser Val Arg Arg Leu Asp Lys Asp Met Phe Ile Gln Ala Leu

210 215 220

Glu Arg Phe Leu Ser Trp Glu Ser Trp Asn Leu Lys Val Lys Glu Glu

225 230 235 240

Tyr Glu Lys Val Glu Lys Glu His Lys Thr Leu Glu Glu Arg Ile Lys

245 250 255

Glu Asp Ile Gln Ala Phe Lys Ser Leu Glu Gln Tyr Glu Lys Glu Arg

260 265 270

Gln Glu Gln Leu Leu Arg Asp Thr Leu Asn Thr Asn Glu Tyr Arg Leu

275 280 285

Ser Lys Arg Gly Leu Arg Gly Trp Arg Glu Ile Ile Gln Lys Trp Leu

290 295 300

Lys Met Asp Glu Asn Glu Pro Ser Glu Lys Tyr Leu Glu Val Phe Lys

305 310 315 320

Asp Tyr Gln Arg Lys His Pro Arg Glu Ala Gly Asp Tyr Ser Val Tyr

325 330 335

Glu Phe Leu Ser Lys Lys Glu Asn His Phe Ile Trp Arg Asn His Pro

340 345 350

Glu Tyr Pro Tyr Leu Tyr Ala Thr Phe Cys Glu Ile Asp Lys Lys Lys

355 360 365

Lys Asp Ala Lys Gln Gln Ala Thr Phe Thr Leu Ala Asp Pro Ile Asn

370 375 380

His Pro Leu Trp Val Arg Phe Glu Glu Arg Ser Gly Ser Asn Leu Asn

385 390 395 400

Lys Tyr Arg Ile Leu Thr Glu Gln Leu His Thr Glu Lys Leu Lys Lys

405 410 415

Lys Leu Thr Val Gln Leu Asp Arg Leu Ile Tyr Pro Thr Glu Ser Gly

420 425 430

Gly Trp Glu Glu Lys Gly Lys Val Asp Ile Val Leu Leu Pro Ser Arg

435 440 445

Gln Phe Tyr Asn Gln Ile Phe Leu Asp Ile Glu Glu Lys Gly Lys His

450 455 460

Ala Phe Thr Tyr Lys Asp Glu Ser Ile Lys Phe Pro Leu Lys Gly Thr

465 470 475 480

Leu Gly Gly Ala Arg Val Gln Phe Asp Arg Asp His Leu Arg Arg Tyr

485 490 495

Pro His Lys Val Glu Ser Gly Asn Val Gly Arg Ile Tyr Phe Asn Met

500 505 510

Thr Val Asn Ile Glu Pro Thr Glu Ser Pro Val Ser Lys Ser Leu Lys

515 520 525

Ile His Arg Asp Asp Phe Pro Lys Phe Val Asn Phe Lys Pro Lys Glu

530 535 540

Leu Thr Glu Trp Ile Lys Asp Ser Lys Gly Lys Lys Leu Lys Ser Gly

545 550 555 560

Ile Glu Ser Leu Glu Ile Gly Leu Arg Val Met Ser Ile Asp Leu Gly

565 570 575

Gln Arg Gln Ala Ala Ala Ala Ser Ile Phe Glu Val Val Asp Gln Lys

580 585 590

Pro Asp Ile Glu Gly Lys Leu Phe Phe Pro Ile Lys Gly Thr Glu Leu

595 600 605

Tyr Ala Val His Arg Ala Ser Phe Asn Ile Lys Leu Pro Gly Glu Thr

610 615 620

Leu Val Lys Ser Arg Glu Val Leu Arg Lys Ala Arg Glu Asp Asn Leu

625 630 635 640

Lys Leu Met Asn Gln Lys Leu Asn Phe Leu Arg Asn Val Leu His Phe

645 650 655

Gln Gln Phe Glu Asp Ile Thr Glu Arg Glu Lys Arg Val Thr Lys Trp

660 665 670

Ile Ser Arg Gln Glu Asn Ser Asp Val Pro Leu Val Tyr Gln Asp Glu

675 680 685

Leu Ile Gln Ile Arg Glu Leu Met Tyr Lys Pro Tyr Lys Asp Trp Val

690 695 700

Ala Phe Leu Lys Gln Leu His Lys Arg Leu Glu Val Glu Ile Gly Lys

705 710 715 720

Glu Val Lys His Trp Arg Lys Ser Leu Ser Asp Gly Arg Lys Gly Leu

725 730 735

Tyr Gly Ile Ser Leu Lys Asn Ile Asp Glu Ile Asp Arg Thr Arg Lys

740 745 750

Phe Leu Leu Arg Trp Ser Leu Arg Pro Thr Glu Pro Gly Glu Val Arg

755 760 765

Arg Leu Glu Pro Gly Gln Arg Phe Ala Ile Asp Gln Leu Asn His Leu

770 775 780

Asn Ala Leu Lys Glu Asp Arg Leu Lys Lys Met Ala Asn Thr Ile Ile

785 790 795 800

Met His Ala Leu Gly Tyr Cys Tyr Asp Val Arg Lys Lys Lys Trp Gln

805 810 815

Ala Lys Asn Pro Ala Cys Gln Ile Ile Leu Phe Glu Asp Leu Ser Asn

820 825 830

Tyr Asn Pro Tyr Glu Glu Arg Ser Arg Phe Glu Asn Ser Lys Leu Met

835 840 845

Lys Trp Ser Arg Arg Glu Ile Pro Arg Gln Val Ala Leu Gln Gly Glu

850 855 860

Ile Tyr Gly Leu Gln Val Gly Glu Val Gly Ala Gln Phe Ser Ser Arg

865 870 875 880

Phe His Ala Lys Thr Gly Ser Pro Gly Ile Arg Cys Ser Val Val Thr

885 890 895

Lys Glu Lys Leu Gln Asp Asn Arg Phe Phe Lys Asn Leu Gln Arg Glu

900 905 910

Gly Arg Leu Thr Leu Asp Lys Ile Ala Val Leu Lys Glu Gly Asp Leu

915 920 925

Tyr Pro Asp Lys Gly Gly Glu Lys Phe Ile Ser Leu Ser Lys Asp Arg

930 935 940

Lys Leu Val Thr Thr His Ala Asp Ile Asn Ala Ala Gln Asn Leu Gln

945 950 955 960

Lys Arg Phe Trp Thr Arg Thr His Gly Phe Tyr Lys Val Tyr Cys Lys

965 970 975

Ala Tyr Gln Val Asp Gly Gln Thr Val Tyr Ile Pro Glu Ser Lys Asp

980 985 990

Gln Lys Gln Lys Ile Ile Glu Glu Phe Gly Glu Gly Tyr Phe Ile Leu

995 1000 1005

Lys Asp Gly Val Tyr Glu Trp Gly Asn Ala Gly Lys Leu Lys Ile

1010 1015 1020

Lys Lys Gly Ser Ser Lys Gln Ser Ser Ser Glu Leu Val Asp Ser

1025 1030 1035

Asp Ile Leu Lys Asp Ser Phe Asp Leu Ala Ser Glu Leu Lys Gly

1040 1045 1050

Glu Lys Leu Met Leu Tyr Arg Asp Pro Ser Gly Asn Val Phe Pro

1055 1060 1065

Ser Asp Lys Trp Met Ala Ala Gly Val Phe Phe Gly Lys Leu Glu

1070 1075 1080

Arg Ile Leu Ile Ser Lys Leu Thr Asn Gln Tyr Ser Ile Ser Thr

1085 1090 1095

Ile Glu Asp Asp Ser Ser Lys Gln Ser Met

1100 1105

<210> 55

<211> 1108

<212> БЕЛОК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полипептид

<400> 55

Met Ala Ile Arg Ser Ile Lys Leu Lys Leu Lys Thr His Thr Gly Pro

1 5 10 15

Glu Ala Gln Asn Leu Arg Lys Gly Ile Trp Arg Thr His Arg Leu Leu

20 25 30

Asn Glu Gly Val Ala Tyr Tyr Met Lys Met Leu Leu Leu Phe Arg Gln

35 40 45

Glu Ser Thr Gly Glu Arg Pro Lys Glu Glu Leu Gln Glu Glu Leu Ile

50 55 60

Cys His Ile Arg Glu Gln Gln Gln Arg Asn Gln Ala Asp Lys Asn Thr

65 70 75 80

Gln Ala Leu Pro Leu Asp Lys Ala Leu Glu Ala Leu Arg Gln Leu Tyr

85 90 95

Glu Leu Leu Val Pro Ser Ser Val Gly Gln Ser Gly Asp Ala Gln Ile

100 105 110

Ile Ser Arg Lys Phe Leu Ser Pro Leu Val Asp Pro Asn Ser Glu Gly

115 120 125

Gly Lys Gly Thr Ser Lys Ala Gly Ala Lys Pro Thr Trp Gln Lys Lys

130 135 140

Lys Glu Ala Asn Asp Pro Thr Trp Glu Gln Asp Tyr Glu Lys Trp Lys

145 150 155 160

Lys Arg Arg Glu Glu Asp Pro Thr Ala Ser Val Ile Thr Thr Leu Glu

165 170 175

Glu Tyr Gly Ile Arg Pro Ile Phe Pro Leu Tyr Thr Asn Thr Val Thr

180 185 190

Asp Ile Ala Trp Leu Pro Leu Gln Ser Asn Gln Phe Val Arg Thr Trp

195 200 205

Asp Arg Asp Met Leu Gln Gln Ala Ile Glu Arg Leu Leu Ser Trp Glu

210 215 220

Ser Trp Asn Lys Arg Val Gln Glu Glu Tyr Ala Lys Leu Lys Glu Lys

225 230 235 240

Met Ala Gln Leu Asn Glu Gln Leu Glu Gly Gly Gln Glu Trp Ile Ser

245 250 255

Leu Leu Glu Gln Tyr Glu Glu Asn Arg Glu Arg Glu Leu Arg Glu Asn

260 265 270

Met Thr Ala Ala Asn Asp Lys Tyr Arg Ile Thr Lys Arg Gln Met Lys

275 280 285

Gly Trp Asn Glu Leu Tyr Glu Leu Trp Ser Thr Phe Pro Ala Ser Ala

290 295 300

Ser His Glu Gln Tyr Lys Glu Ala Leu Lys Arg Val Gln Gln Arg Leu

305 310 315 320

Arg Gly Arg Phe Gly Asp Ala His Phe Phe Gln Tyr Leu Met Glu Glu

325 330 335

Lys Asn Arg Leu Ile Trp Lys Gly Asn Pro Gln Arg Ile His Tyr Phe

340 345 350

Val Ala Arg Asn Glu Leu Thr Lys Arg Leu Glu Glu Ala Lys Gln Ser

355 360 365

Ala Thr Met Thr Leu Pro Asn Ala Arg Lys His Pro Leu Trp Val Arg

370 375 380

Phe Asp Ala Arg Gly Gly Asn Leu Gln Asp Tyr Tyr Leu Thr Ala Glu

385 390 395 400

Ala Asp Lys Pro Arg Ser Arg Arg Phe Val Thr Phe Ser Gln Leu Ile

405 410 415

Trp Pro Ser Glu Ser Gly Trp Met Glu Lys Lys Asp Val Glu Val Glu

420 425 430

Leu Ala Leu Ser Arg Gln Phe Tyr Gln Gln Val Lys Leu Leu Lys Asn

435 440 445

Asp Lys Gly Lys Gln Lys Ile Glu Phe Lys Asp Lys Gly Ser Gly Ser

450 455 460

Thr Phe Asn Gly His Leu Gly Gly Ala Lys Leu Gln Leu Glu Arg Gly

465 470 475 480

Asp Leu Glu Lys Glu Glu Lys Asn Phe Glu Asp Gly Glu Ile Gly Ser

485 490 495

Val Tyr Leu Asn Val Val Ile Asp Phe Glu Pro Leu Gln Glu Val Lys

500 505 510

Asn Gly Arg Val Gln Ala Pro Tyr Gly Gln Val Leu Gln Leu Ile Arg

515 520 525

Arg Pro Asn Glu Phe Pro Lys Val Thr Thr Tyr Lys Ser Glu Gln Leu

530 535 540

Val Glu Trp Ile Lys Ala Ser Pro Gln His Ser Ala Gly Val Glu Ser

545 550 555 560

Leu Ala Ser Gly Phe Arg Val Met Ser Ile Asp Leu Gly Leu Arg Ala

565 570 575

Ala Ala Ala Thr Ser Ile Phe Ser Val Glu Glu Ser Ser Asp Lys Asn

580 585 590

Ala Ala Asp Phe Ser Tyr Trp Ile Glu Gly Thr Pro Leu Val Ala Val

595 600 605

His Gln Arg Ser Tyr Met Leu Arg Leu Pro Gly Glu Gln Val Glu Lys

610 615 620

Gln Val Met Glu Lys Arg Asp Glu Arg Phe Gln Leu His Gln Arg Val

625 630 635 640

Lys Phe Gln Ile Arg Val Leu Ala Gln Ile Met Arg Met Ala Asn Lys

645 650 655

Gln Tyr Gly Asp Arg Trp Asp Glu Leu Asp Ser Leu Lys Gln Ala Val

660 665 670

Glu Gln Lys Lys Ser Pro Leu Asp Gln Thr Asp Arg Thr Phe Trp Glu

675 680 685

Gly Ile Val Cys Asp Leu Thr Lys Val Leu Pro Arg Asn Glu Ala Asp

690 695 700

Trp Glu Gln Ala Val Val Gln Ile His Arg Lys Ala Glu Glu Tyr Val

705 710 715 720

Gly Lys Ala Val Gln Ala Trp Arg Lys Arg Phe Ala Ala Asp Glu Arg

725 730 735

Lys Gly Ile Ala Gly Leu Ser Met Trp Asn Ile Glu Glu Leu Glu Gly

740 745 750

Leu Arg Lys Leu Leu Ile Ser Trp Ser Arg Arg Thr Arg Asn Pro Gln

755 760 765

Glu Val Asn Arg Phe Glu Arg Gly His Thr Ser His Gln Arg Leu Leu

770 775 780

Thr His Ile Gln Asn Val Lys Glu Asp Arg Leu Lys Gln Leu Ser His

785 790 795 800

Ala Ile Val Met Thr Ala Leu Gly Tyr Val Tyr Asp Glu Arg Lys Gln

805 810 815

Glu Trp Cys Ala Glu Tyr Pro Ala Cys Gln Val Ile Leu Phe Glu Asn

820 825 830

Leu Ser Gln Tyr Arg Ser Asn Leu Asp Arg Ser Thr Lys Glu Asn Ser

835 840 845

Thr Leu Met Lys Trp Ala His Arg Ser Ile Pro Lys Tyr Val His Met

850 855 860

Gln Ala Glu Pro Tyr Gly Ile Gln Ile Gly Asp Val Arg Ala Glu Tyr

865 870 875 880

Ser Ser Arg Phe Tyr Ala Lys Thr Gly Thr Pro Gly Ile Arg Cys Lys

885 890 895

Lys Val Arg Gly Gln Asp Leu Gln Gly Arg Arg Phe Glu Asn Leu Gln

900 905 910

Lys Arg Leu Val Asn Glu Gln Phe Leu Thr Glu Glu Gln Val Lys Gln

915 920 925

Leu Arg Pro Gly Asp Ile Val Pro Asp Asp Ser Gly Glu Leu Phe Met

930 935 940

Thr Leu Thr Asp Gly Ser Gly Ser Lys Glu Val Val Phe Leu Gln Ala

945 950 955 960

Asp Ile Asn Ala Ala His Asn Leu Gln Lys Arg Phe Trp Gln Arg Tyr

965 970 975

Asn Glu Leu Phe Lys Val Ser Cys Arg Val Ile Val Arg Asp Glu Glu

980 985 990

Glu Tyr Leu Val Pro Lys Thr Lys Ser Val Gln Ala Lys Leu Gly Lys

995 1000 1005

Gly Leu Phe Val Lys Lys Ser Asp Thr Ala Trp Lys Asp Val Tyr

1010 1015 1020

Val Trp Asp Ser Gln Ala Lys Leu Lys Gly Lys Thr Thr Phe Thr

1025 1030 1035

Glu Glu Ser Glu Ser Pro Glu Gln Leu Glu Asp Phe Gln Glu Ile

1040 1045 1050

Ile Glu Glu Ala Glu Glu Ala Lys Gly Thr Tyr Arg Thr Leu Phe

1055 1060 1065

Arg Asp Pro Ser Gly Val Phe Phe Pro Glu Ser Val Trp Tyr Pro

1070 1075 1080

Gln Lys Asp Phe Trp Gly Glu Val Lys Arg Lys Leu Tyr Gly Lys

1085 1090 1095

Leu Arg Glu Arg Phe Leu Thr Lys Ala Arg

1100 1105

<210> 56

<211> 1334

<212> БЕЛОК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полипептид

<400> 56

Met Lys Ile Ser Lys Val Asp His Thr Arg Met Ala Val Ala Lys Gly

1 5 10 15

Asn Gln His Arg Arg Asp Glu Ile Ser Gly Ile Leu Tyr Lys Asp Pro

20 25 30

Thr Lys Thr Gly Ser Ile Asp Phe Asp Glu Arg Phe Lys Lys Leu Asn

35 40 45

Cys Ser Ala Lys Ile Leu Tyr His Val Phe Asn Gly Ile Ala Glu Gly

50 55 60

Ser Asn Lys Tyr Lys Asn Ile Val Asp Lys Val Asn Asn Asn Leu Asp

65 70 75 80

Arg Val Leu Phe Thr Gly Lys Ser Tyr Asp Arg Lys Ser Ile Ile Asp

85 90 95

Ile Asp Thr Val Leu Arg Asn Val Glu Lys Ile Asn Ala Phe Asp Arg

100 105 110

Ile Ser Thr Glu Glu Arg Glu Gln Ile Ile Asp Asp Leu Leu Glu Ile

115 120 125

Gln Leu Arg Lys Gly Leu Arg Lys Gly Lys Ala Gly Leu Arg Glu Val

130 135 140

Leu Leu Ile Gly Ala Gly Val Ile Val Arg Thr Asp Lys Lys Gln Glu

145 150 155 160

Ile Ala Asp Phe Leu Glu Ile Leu Asp Glu Asp Phe Asn Lys Thr Asn

165 170 175

Gln Ala Lys Asn Ile Lys Leu Ser Ile Glu Asn Gln Gly Leu Val Val

180 185 190

Ser Pro Val Ser Arg Gly Glu Glu Arg Ile Phe Asp Val Ser Gly Ala

195 200 205

Gln Lys Gly Lys Ser Ser Lys Lys Ala Gln Glu Lys Glu Ala Leu Ser

210 215 220

Ala Phe Leu Leu Asp Tyr Ala Asp Leu Asp Lys Asn Val Arg Phe Glu

225 230 235 240

Tyr Leu Arg Lys Ile Arg Arg Leu Ile Asn Leu Tyr Phe Tyr Val Lys

245 250 255

Asn Asp Asp Val Met Ser Leu Thr Glu Ile Pro Ala Glu Val Asn Leu

260 265 270

Glu Lys Asp Phe Asp Ile Trp Arg Asp His Glu Gln Arg Lys Glu Glu

275 280 285

Asn Gly Asp Phe Val Gly Cys Pro Asp Ile Leu Leu Ala Asp Arg Asp

290 295 300

Val Lys Lys Ser Asn Ser Lys Gln Val Lys Ile Ala Glu Arg Gln Leu

305 310 315 320

Arg Glu Ser Ile Arg Glu Lys Asn Ile Lys Arg Tyr Arg Phe Ser Ile

325 330 335

Lys Thr Ile Glu Lys Asp Asp Gly Thr Tyr Phe Phe Ala Asn Lys Gln

340 345 350

Ile Ser Val Phe Trp Ile His Arg Ile Glu Asn Ala Val Glu Arg Ile

355 360 365

Leu Gly Ser Ile Asn Asp Lys Lys Leu Tyr Arg Leu Arg Leu Gly Tyr

370 375 380

Leu Gly Glu Lys Val Trp Lys Asp Ile Leu Asn Phe Leu Ser Ile Lys

385 390 395 400

Tyr Ile Ala Val Gly Lys Ala Val Phe Asn Phe Ala Met Asp Asp Leu

405 410 415

Gln Glu Lys Asp Arg Asp Ile Glu Pro Gly Lys Ile Ser Glu Asn Ala

420 425 430

Val Asn Gly Leu Thr Ser Phe Asp Tyr Glu Gln Ile Lys Ala Asp Glu

435 440 445

Met Leu Gln Arg Glu Val Ala Val Asn Val Ala Phe Ala Ala Asn Asn

450 455 460

Leu Ala Arg Val Thr Val Asp Ile Pro Gln Asn Gly Glu Lys Glu Asp

465 470 475 480

Ile Leu Leu Trp Asn Lys Ser Asp Ile Lys Lys Tyr Lys Lys Asn Ser

485 490 495

Lys Lys Gly Ile Leu Lys Ser Ile Leu Gln Phe Phe Gly Gly Ala Ser

500 505 510

Thr Trp Asn Met Lys Met Phe Glu Ile Ala Tyr His Asp Gln Pro Gly

515 520 525

Asp Tyr Glu Glu Asn Tyr Leu Tyr Asp Ile Ile Gln Ile Ile Tyr Ser

530 535 540

Leu Arg Asn Lys Ser Phe His Phe Lys Thr Tyr Asp His Gly Asp Lys

545 550 555 560

Asn Trp Asn Arg Glu Leu Ile Gly Lys Met Ile Glu His Asp Ala Glu

565 570 575

Arg Val Ile Ser Val Glu Arg Glu Lys Phe His Ser Asn Asn Leu Pro

580 585 590

Met Phe Tyr Lys Asp Ala Asp Leu Lys Lys Ile Leu Asp Leu Leu Tyr

595 600 605

Ser Asp Tyr Ala Gly Arg Ala Ser Gln Val Pro Ala Phe Asn Thr Val

610 615 620

Leu Val Arg Lys Asn Phe Pro Glu Phe Leu Arg Lys Asp Met Gly Tyr

625 630 635 640

Lys Val His Phe Asn Asn Pro Glu Val Glu Asn Gln Trp His Ser Ala

645 650 655

Val Tyr Tyr Leu Tyr Lys Glu Ile Tyr Tyr Asn Leu Phe Leu Arg Asp

660 665 670

Lys Glu Val Lys Asn Leu Phe Tyr Thr Ser Leu Lys Asn Ile Arg Ser

675 680 685

Glu Val Ser Asp Lys Lys Gln Lys Leu Ala Ser Asp Asp Phe Ala Ser

690 695 700

Arg Cys Glu Glu Ile Glu Asp Arg Ser Leu Pro Glu Ile Cys Gln Ile

705 710 715 720

Ile Met Thr Glu Tyr Asn Ala Gln Asn Phe Gly Asn Arg Lys Val Lys

725 730 735

Ser Gln Arg Val Ile Glu Lys Asn Lys Asp Ile Phe Arg His Tyr Lys

740 745 750

Met Leu Leu Ile Lys Thr Leu Ala Gly Ala Phe Ser Leu Tyr Leu Lys

755 760 765

Gln Glu Arg Phe Ala Phe Ile Gly Lys Ala Thr Pro Ile Pro Tyr Glu

770 775 780

Thr Thr Asp Val Lys Asn Phe Leu Pro Glu Trp Lys Ser Gly Met Tyr

785 790 795 800

Ala Ser Phe Val Glu Glu Ile Lys Asn Asn Leu Asp Leu Gln Glu Trp

805 810 815

Tyr Ile Val Gly Arg Phe Leu Asn Gly Arg Met Leu Asn Gln Leu Ala

820 825 830

Gly Ser Leu Arg Ser Tyr Ile Gln Tyr Ala Glu Asp Ile Glu Arg Arg

835 840 845

Ala Ala Glu Asn Arg Asn Lys Leu Phe Ser Lys Pro Asp Glu Lys Ile

850 855 860

Glu Ala Cys Lys Lys Ala Val Arg Val Leu Asp Leu Cys Ile Lys Ile

865 870 875 880

Ser Thr Arg Ile Ser Ala Glu Phe Thr Asp Tyr Phe Asp Ser Glu Asp

885 890 895

Asp Tyr Ala Asp Tyr Leu Glu Lys Tyr Leu Lys Tyr Gln Asp Asp Ala

900 905 910

Ile Lys Glu Leu Ser Gly Ser Ser Tyr Ala Ala Leu Asp His Phe Cys

915 920 925

Asn Lys Asp Asp Leu Lys Phe Asp Ile Tyr Val Asn Ala Gly Gln Lys

930 935 940

Pro Ile Leu Gln Arg Asn Ile Val Met Ala Lys Leu Phe Gly Pro Asp

945 950 955 960

Asn Ile Leu Ser Glu Val Met Glu Lys Val Thr Glu Ser Ala Ile Arg

965 970 975

Glu Tyr Tyr Asp Tyr Leu Lys Lys Val Ser Gly Tyr Arg Val Arg Gly

980 985 990

Lys Cys Ser Thr Glu Lys Glu Gln Glu Asp Leu Leu Lys Phe Gln Arg

995 1000 1005

Leu Lys Asn Ala Val Glu Phe Arg Asp Val Thr Glu Tyr Ala Glu

1010 1015 1020

Val Ile Asn Glu Leu Leu Gly Gln Leu Ile Ser Trp Ser Tyr Leu

1025 1030 1035

Arg Glu Arg Asp Leu Leu Tyr Phe Gln Leu Gly Phe His Tyr Met

1040 1045 1050

Cys Leu Lys Asn Lys Ser Phe Lys Pro Ala Glu Tyr Val Asp Ile

1055 1060 1065

Arg Arg Asn Asn Gly Thr Ile Ile His Asn Ala Ile Leu Tyr Gln

1070 1075 1080

Ile Val Ser Met Tyr Ile Asn Gly Leu Asp Phe Tyr Ser Cys Asp

1085 1090 1095

Lys Glu Gly Lys Thr Leu Lys Pro Ile Glu Thr Gly Lys Gly Val

1100 1105 1110

Gly Ser Lys Ile Gly Gln Phe Ile Lys Tyr Ser Gln Tyr Leu Tyr

1115 1120 1125

Asn Asp Pro Ser Tyr Lys Leu Glu Ile Tyr Asn Ala Gly Leu Glu

1130 1135 1140

Val Phe Glu Asn Ile Asp Glu His Asp Asn Ile Thr Asp Leu Arg

1145 1150 1155

Lys Tyr Val Asp His Phe Lys Tyr Tyr Ala Tyr Gly Asn Lys Met

1160 1165 1170

Ser Leu Leu Asp Leu Tyr Ser Glu Phe Phe Asp Arg Phe Phe Thr

1175 1180 1185

Tyr Asp Met Lys Tyr Gln Lys Asn Val Val Asn Val Leu Glu Asn

1190 1195 1200

Ile Leu Leu Arg His Phe Val Ile Phe Tyr Pro Lys Phe Gly Ser

1205 1210 1215

Gly Lys Lys Asp Val Gly Ile Arg Asp Cys Lys Lys Glu Arg Ala

1220 1225 1230

Gln Ile Glu Ile Ser Glu Gln Ser Leu Thr Ser Glu Asp Phe Met

1235 1240 1245

Phe Lys Leu Asp Asp Lys Ala Gly Glu Glu Ala Lys Lys Phe Pro

1250 1255 1260

Ala Arg Asp Glu Arg Tyr Leu Gln Thr Ile Ala Lys Leu Leu Tyr

1265 1270 1275

Tyr Pro Asn Glu Ile Glu Asp Met Asn Arg Phe Met Lys Lys Gly

1280 1285 1290

Glu Thr Ile Asn Lys Lys Val Gln Phe Asn Arg Lys Lys Lys Ile

1295 1300 1305

Thr Arg Lys Gln Lys Asn Asn Ser Ser Asn Glu Val Leu Ser Ser

1310 1315 1320

Thr Met Gly Tyr Leu Phe Lys Asn Ile Lys Leu

1325 1330

<210> 57

<211> 1120

<212> БЕЛОК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полипептид

<400> 57

Met Trp Ile Ser Ile Lys Thr Leu Ile His His Leu Gly Val Leu Phe

1 5 10 15

Phe Cys Asp Tyr Met Tyr Asn Arg Arg Glu Lys Lys Ile Ile Glu Val

20 25 30

Lys Thr Met Arg Ile Thr Lys Val Glu Val Asp Arg Lys Lys Val Leu

35 40 45

Ile Ser Arg Asp Lys Asn Gly Gly Lys Leu Val Tyr Glu Asn Glu Met

50 55 60

Gln Asp Asn Thr Glu Gln Ile Met His His Lys Lys Ser Ser Phe Tyr

65 70 75 80

Lys Ser Val Val Asn Lys Thr Ile Cys Arg Pro Glu Gln Lys Gln Met

85 90 95

Lys Lys Leu Val His Gly Leu Leu Gln Glu Asn Ser Gln Glu Lys Ile

100 105 110

Lys Val Ser Asp Val Thr Lys Leu Asn Ile Ser Asn Phe Leu Asn His

115 120 125

Arg Phe Lys Lys Ser Leu Tyr Tyr Phe Pro Glu Asn Ser Pro Asp Lys

130 135 140

Ser Glu Glu Tyr Arg Ile Glu Ile Asn Leu Ser Gln Leu Leu Glu Asp

145 150 155 160

Ser Leu Lys Lys Gln Gln Gly Thr Phe Ile Cys Trp Glu Ser Phe Ser

165 170 175

Lys Asp Met Glu Leu Tyr Ile Asn Trp Ala Glu Asn Tyr Ile Ser Ser

180 185 190

Lys Thr Lys Leu Ile Lys Lys Ser Ile Arg Asn Asn Arg Ile Gln Ser

195 200 205

Thr Glu Ser Arg Ser Gly Gln Leu Met Asp Arg Tyr Met Lys Asp Ile

210 215 220

Leu Asn Lys Asn Lys Pro Phe Asp Ile Gln Ser Val Ser Glu Lys Tyr

225 230 235 240

Gln Leu Glu Lys Leu Thr Ser Ala Leu Lys Ala Thr Phe Lys Glu Ala

245 250 255

Lys Lys Asn Asp Lys Glu Ile Asn Tyr Lys Leu Lys Ser Thr Leu Gln

260 265 270

Asn His Glu Arg Gln Ile Ile Glu Glu Leu Lys Glu Asn Ser Glu Leu

275 280 285

Asn Gln Phe Asn Ile Glu Ile Arg Lys His Leu Glu Thr Tyr Phe Pro

290 295 300

Ile Lys Lys Thr Asn Arg Lys Val Gly Asp Ile Arg Asn Leu Glu Ile

305 310 315 320

Gly Glu Ile Gln Lys Ile Val Asn His Arg Leu Lys Asn Lys Ile Val

325 330 335

Gln Arg Ile Leu Gln Glu Gly Lys Leu Ala Ser Tyr Glu Ile Glu Ser

340 345 350

Thr Val Asn Ser Asn Ser Leu Gln Lys Ile Lys Ile Glu Glu Ala Phe

355 360 365

Ala Leu Lys Phe Ile Asn Ala Cys Leu Phe Ala Ser Asn Asn Leu Arg

370 375 380

Asn Met Val Tyr Pro Val Cys Lys Lys Asp Ile Leu Met Ile Gly Glu

385 390 395 400

Phe Lys Asn Ser Phe Lys Glu Ile Lys His Lys Lys Phe Ile Arg Gln

405 410 415

Trp Ser Gln Phe Phe Ser Gln Glu Ile Thr Val Asp Asp Ile Glu Leu

420 425 430

Ala Ser Trp Gly Leu Arg Gly Ala Ile Ala Pro Ile Arg Asn Glu Ile

435 440 445

Ile His Leu Lys Lys His Ser Trp Lys Lys Phe Phe Asn Asn Pro Thr

450 455 460

Phe Lys Val Lys Lys Ser Lys Ile Ile Asn Gly Lys Thr Lys Asp Val

465 470 475 480

Thr Ser Glu Phe Leu Tyr Lys Glu Thr Leu Phe Lys Asp Tyr Phe Tyr

485 490 495

Ser Glu Leu Asp Ser Val Pro Glu Leu Ile Ile Asn Lys Met Glu Ser

500 505 510

Ser Lys Ile Leu Asp Tyr Tyr Ser Ser Asp Gln Leu Asn Gln Val Phe

515 520 525

Thr Ile Pro Asn Phe Glu Leu Ser Leu Leu Thr Ser Ala Val Pro Phe

530 535 540

Ala Pro Ser Phe Lys Arg Val Tyr Leu Lys Gly Phe Asp Tyr Gln Asn

545 550 555 560

Gln Asp Glu Ala Gln Pro Asp Tyr Asn Leu Lys Leu Asn Ile Tyr Asn

565 570 575

Glu Lys Ala Phe Asn Ser Glu Ala Phe Gln Ala Gln Tyr Ser Leu Phe

580 585 590

Lys Met Val Tyr Tyr Gln Val Phe Leu Pro Gln Phe Thr Thr Asn Asn

595 600 605

Asp Leu Phe Lys Ser Ser Val Asp Phe Ile Leu Thr Leu Asn Lys Glu

610 615 620

Arg Lys Gly Tyr Ala Lys Ala Phe Gln Asp Ile Arg Lys Met Asn Lys

625 630 635 640

Asp Glu Lys Pro Ser Glu Tyr Met Ser Tyr Ile Gln Ser Gln Leu Met

645 650 655

Leu Tyr Gln Lys Lys Gln Glu Glu Lys Glu Lys Ile Asn His Phe Glu

660 665 670

Lys Phe Ile Asn Gln Val Phe Ile Lys Gly Phe Asn Ser Phe Ile Glu

675 680 685

Lys Asn Arg Leu Thr Tyr Ile Cys His Pro Thr Lys Asn Thr Val Pro

690 695 700

Glu Asn Asp Asn Ile Glu Ile Pro Phe His Thr Asp Met Asp Asp Ser

705 710 715 720

Asn Ile Ala Phe Trp Leu Met Cys Lys Leu Leu Asp Ala Lys Gln Leu

725 730 735

Ser Glu Leu Arg Asn Glu Met Ile Lys Phe Ser Cys Ser Leu Gln Ser

740 745 750

Thr Glu Glu Ile Ser Thr Phe Thr Lys Ala Arg Glu Val Ile Gly Leu

755 760 765

Ala Leu Leu Asn Gly Glu Lys Gly Cys Asn Asp Trp Lys Glu Leu Phe

770 775 780

Asp Asp Lys Glu Ala Trp Lys Lys Asn Met Ser Leu Tyr Val Ser Glu

785 790 795 800

Glu Leu Leu Gln Ser Leu Pro Tyr Thr Gln Glu Asp Gly Gln Thr Pro

805 810 815

Val Ile Asn Arg Ser Ile Asp Leu Val Lys Lys Tyr Gly Thr Glu Thr

820 825 830

Ile Leu Glu Lys Leu Phe Ser Ser Ser Asp Asp Tyr Lys Val Ser Ala

835 840 845

Lys Asp Ile Ala Lys Leu His Glu Tyr Asp Val Thr Glu Lys Ile Ala

850 855 860

Gln Gln Glu Ser Leu His Lys Gln Trp Ile Glu Lys Pro Gly Leu Ala

865 870 875 880

Arg Asp Ser Ala Trp Thr Lys Lys Tyr Gln Asn Val Ile Asn Asp Ile

885 890 895

Ser Asn Tyr Gln Trp Ala Lys Thr Lys Val Glu Leu Thr Gln Val Arg

900 905 910

His Leu His Gln Leu Thr Ile Asp Leu Leu Ser Arg Leu Ala Gly Tyr

915 920 925

Met Ser Ile Ala Asp Arg Asp Phe Gln Phe Ser Ser Asn Tyr Ile Leu

930 935 940

Glu Arg Glu Asn Ser Glu Tyr Arg Val Thr Ser Trp Ile Leu Leu Ser

945 950 955 960

Glu Asn Lys Asn Lys Asn Lys Tyr Asn Asp Tyr Glu Leu Tyr Asn Leu

965 970 975

Lys Asn Ala Ser Ile Lys Val Ser Ser Lys Asn Asp Pro Gln Leu Lys

980 985 990

Val Asp Leu Lys Gln Leu Arg Leu Thr Leu Glu Tyr Leu Glu Leu Phe

995 1000 1005

Asp Asn Arg Leu Lys Glu Lys Arg Asn Asn Ile Ser His Phe Asn

1010 1015 1020

Tyr Leu Asn Gly Gln Leu Gly Asn Ser Ile Leu Glu Leu Phe Asp

1025 1030 1035

Asp Ala Arg Asp Val Leu Ser Tyr Asp Arg Lys Leu Lys Asn Ala

1040 1045 1050

Val Ser Lys Ser Leu Lys Glu Ile Leu Ser Ser His Gly Met Glu

1055 1060 1065

Val Thr Phe Lys Pro Leu Tyr Gln Thr Asn His His Leu Lys Ile

1070 1075 1080

Asp Lys Leu Gln Pro Lys Lys Ile His His Leu Gly Glu Lys Ser

1085 1090 1095

Thr Val Ser Ser Asn Gln Val Ser Asn Glu Tyr Cys Gln Leu Val

1100 1105 1110

Arg Thr Leu Leu Thr Met Lys

1115 1120

<210> 58

<211> 1152

<212> БЕЛОК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полипептид

<400> 58

Met Lys Val Thr Lys Val Asp Gly Ile Ser His Lys Lys Tyr Ile Glu

1 5 10 15

Glu Gly Lys Leu Val Lys Ser Thr Ser Glu Glu Asn Arg Thr Ser Glu

20 25 30

Arg Leu Ser Glu Leu Leu Ser Ile Arg Leu Asp Ile Tyr Ile Lys Asn

35 40 45

Pro Asp Asn Ala Ser Glu Glu Glu Asn Arg Ile Arg Arg Glu Asn Leu

50 55 60

Lys Lys Phe Phe Ser Asn Lys Val Leu His Leu Lys Asp Ser Val Leu

65 70 75 80

Tyr Leu Lys Asn Arg Lys Glu Lys Asn Ala Val Gln Asp Lys Asn Tyr

85 90 95

Ser Glu Glu Asp Ile Ser Glu Tyr Asp Leu Lys Asn Lys Asn Ser Phe

100 105 110

Ser Val Leu Lys Lys Ile Leu Leu Asn Glu Asp Val Asn Ser Glu Glu

115 120 125

Leu Glu Ile Phe Arg Lys Asp Val Glu Ala Lys Leu Asn Lys Ile Asn

130 135 140

Ser Leu Lys Tyr Ser Phe Glu Glu Asn Lys Ala Asn Tyr Gln Lys Ile

145 150 155 160

Asn Glu Asn Asn Val Glu Lys Val Gly Gly Lys Ser Lys Arg Asn Ile

165 170 175

Ile Tyr Asp Tyr Tyr Arg Glu Ser Ala Lys Arg Asn Asp Tyr Ile Asn

180 185 190

Asn Val Gln Glu Ala Phe Asp Lys Leu Tyr Lys Lys Glu Asp Ile Glu

195 200 205

Lys Leu Phe Phe Leu Ile Glu Asn Ser Lys Lys His Glu Lys Tyr Lys

210 215 220

Ile Arg Glu Tyr Tyr His Lys Ile Ile Gly Arg Lys Asn Asp Lys Glu

225 230 235 240

Asn Phe Ala Lys Ile Ile Tyr Glu Glu Ile Gln Asn Val Asn Asn Ile

245 250 255

Lys Glu Leu Ile Glu Lys Ile Pro Asp Met Ser Glu Leu Lys Lys Ser

260 265 270

Gln Val Phe Tyr Lys Tyr Tyr Leu Asp Lys Glu Glu Leu Asn Asp Lys

275 280 285

Asn Ile Lys Tyr Ala Phe Cys His Phe Val Glu Ile Glu Met Ser Gln

290 295 300

Leu Leu Lys Asn Tyr Val Tyr Lys Arg Leu Ser Asn Ile Ser Asn Asp

305 310 315 320

Lys Ile Lys Arg Ile Phe Glu Tyr Gln Asn Leu Lys Lys Leu Ile Glu

325 330 335

Asn Lys Leu Leu Asn Lys Leu Asp Thr Tyr Val Arg Asn Cys Gly Lys

340 345 350

Tyr Asn Tyr Tyr Leu Gln Val Gly Glu Ile Ala Thr Ser Asp Phe Ile

355 360 365

Ala Arg Asn Arg Gln Asn Glu Ala Phe Leu Arg Asn Ile Ile Gly Val

370 375 380

Ser Ser Val Ala Tyr Phe Ser Leu Arg Asn Ile Leu Glu Thr Glu Asn

385 390 395 400

Glu Asn Asp Ile Thr Gly Arg Met Arg Gly Lys Thr Val Lys Asn Asn

405 410 415

Lys Gly Glu Glu Lys Tyr Val Ser Gly Glu Val Asp Lys Ile Tyr Asn

420 425 430

Glu Asn Lys Gln Asn Glu Val Lys Glu Asn Leu Lys Met Phe Tyr Ser

435 440 445

Tyr Asp Phe Asn Met Asp Asn Lys Asn Glu Ile Glu Asp Phe Phe Ala

450 455 460

Asn Ile Asp Glu Ala Ile Ser Ser Ile Arg His Gly Ile Val His Phe

465 470 475 480

Asn Leu Glu Leu Glu Gly Lys Asp Ile Phe Ala Phe Lys Asn Ile Ala

485 490 495

Pro Ser Glu Ile Ser Lys Lys Met Phe Gln Asn Glu Ile Asn Glu Lys

500 505 510

Lys Leu Lys Leu Lys Ile Phe Lys Gln Leu Asn Ser Ala Asn Val Phe

515 520 525

Asn Tyr Tyr Glu Lys Asp Val Ile Ile Lys Tyr Leu Lys Asn Thr Lys

530 535 540

Phe Asn Phe Val Asn Lys Asn Ile Pro Phe Val Pro Ser Phe Thr Lys

545 550 555 560

Leu Tyr Asn Lys Ile Glu Asp Leu Arg Asn Thr Leu Lys Phe Phe Trp

565 570 575

Ser Val Pro Lys Asp Lys Glu Glu Lys Asp Ala Gln Ile Tyr Leu Leu

580 585 590

Lys Asn Ile Tyr Tyr Gly Glu Phe Leu Asn Lys Phe Val Lys Asn Ser

595 600 605

Lys Val Phe Phe Lys Ile Thr Asn Glu Val Ile Lys Ile Asn Lys Gln

610 615 620

Arg Asn Gln Lys Thr Gly His Tyr Lys Tyr Gln Lys Phe Glu Asn Ile

625 630 635 640

Glu Lys Thr Val Pro Val Glu Tyr Leu Ala Ile Ile Gln Ser Arg Glu

645 650 655

Met Ile Asn Asn Gln Asp Lys Glu Glu Lys Asn Thr Tyr Ile Asp Phe

660 665 670

Ile Gln Gln Ile Phe Leu Lys Gly Phe Ile Asp Tyr Leu Asn Lys Asn

675 680 685

Asn Leu Lys Tyr Ile Glu Ser Asn Asn Asn Asn Asp Asn Asn Asp Ile

690 695 700

Phe Ser Lys Ile Lys Ile Lys Lys Asp Asn Lys Glu Lys Tyr Asp Lys

705 710 715 720

Ile Leu Lys Asn Tyr Glu Lys His Asn Arg Asn Lys Glu Ile Pro His

725 730 735

Glu Ile Asn Glu Phe Val Arg Glu Ile Lys Leu Gly Lys Ile Leu Lys

740 745 750

Tyr Thr Glu Asn Leu Asn Met Phe Tyr Leu Ile Leu Lys Leu Leu Asn

755 760 765

His Lys Glu Leu Thr Asn Leu Lys Gly Ser Leu Glu Lys Tyr Gln Ser

770 775 780

Ala Asn Lys Glu Glu Thr Phe Ser Asp Glu Leu Glu Leu Ile Asn Leu

785 790 795 800

Leu Asn Leu Asp Asn Asn Arg Val Thr Glu Asp Phe Glu Leu Glu Ala

805 810 815

Asn Glu Ile Gly Lys Phe Leu Asp Phe Asn Glu Asn Lys Ile Lys Asp

820 825 830

Arg Lys Glu Leu Lys Lys Phe Asp Thr Asn Lys Ile Tyr Phe Asp Gly

835 840 845

Glu Asn Ile Ile Lys His Arg Ala Phe Tyr Asn Ile Lys Lys Tyr Gly

850 855 860

Met Leu Asn Leu Leu Glu Lys Ile Ala Asp Lys Ala Lys Tyr Lys Ile

865 870 875 880

Ser Leu Lys Glu Leu Lys Glu Tyr Ser Asn Lys Lys Asn Glu Ile Glu

885 890 895

Lys Asn Tyr Thr Met Gln Gln Asn Leu His Arg Lys Tyr Ala Arg Pro

900 905 910

Lys Lys Asp Glu Lys Phe Asn Asp Glu Asp Tyr Lys Glu Tyr Glu Lys

915 920 925

Ala Ile Gly Asn Ile Gln Lys Tyr Thr His Leu Lys Asn Lys Val Glu

930 935 940

Phe Asn Glu Leu Asn Leu Leu Gln Gly Leu Leu Leu Lys Ile Leu His

945 950 955 960

Arg Leu Val Gly Tyr Thr Ser Ile Trp Glu Arg Asp Leu Arg Phe Arg

965 970 975

Leu Lys Gly Glu Phe Pro Glu Asn His Tyr Ile Glu Glu Ile Phe Asn

980 985 990

Phe Asp Asn Ser Lys Asn Val Lys Tyr Lys Ser Gly Gln Ile Val Glu

995 1000 1005

Lys Tyr Ile Asn Phe Tyr Lys Glu Leu Tyr Lys Asp Asn Val Glu

1010 1015 1020

Lys Arg Ser Ile Tyr Ser Asp Lys Lys Val Lys Lys Leu Lys Gln

1025 1030 1035

Glu Lys Lys Asp Leu Tyr Ile Arg Asn Tyr Ile Ala His Phe Asn

1040 1045 1050

Tyr Ile Pro His Ala Glu Ile Ser Leu Leu Glu Val Leu Glu Asn

1055 1060 1065

Leu Arg Lys Leu Leu Ser Tyr Asp Arg Lys Leu Lys Asn Ala Ile

1070 1075 1080

Met Lys Ser Ile Val Asp Ile Leu Lys Glu Tyr Gly Phe Val Ala

1085 1090 1095

Thr Phe Lys Ile Gly Ala Asp Lys Lys Ile Glu Ile Gln Thr Leu

1100 1105 1110

Glu Ser Glu Lys Ile Val His Leu Lys Asn Leu Lys Lys Lys Lys

1115 1120 1125

Leu Met Thr Asp Arg Asn Ser Glu Glu Leu Cys Glu Leu Val Lys

1130 1135 1140

Val Met Phe Glu Tyr Lys Ala Leu Glu

1145 1150

<210> 59

<211> 1389

<212> БЕЛОК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полипептид

<400> 59

Met Gly Asn Leu Phe Gly His Lys Arg Trp Tyr Glu Val Arg Asp Lys

1 5 10 15

Lys Asp Phe Lys Ile Lys Arg Lys Val Lys Val Lys Arg Asn Tyr Asp

20 25 30

Gly Asn Lys Tyr Ile Leu Asn Ile Asn Glu Asn Asn Asn Lys Glu Lys

35 40 45

Ile Asp Asn Asn Lys Phe Ile Arg Lys Tyr Ile Asn Tyr Lys Lys Asn

50 55 60

Asp Asn Ile Leu Lys Glu Phe Thr Arg Lys Phe His Ala Gly Asn Ile

65 70 75 80

Leu Phe Lys Leu Lys Gly Lys Glu Gly Ile Ile Arg Ile Glu Asn Asn

85 90 95

Asp Asp Phe Leu Glu Thr Glu Glu Val Val Leu Tyr Ile Glu Ala Tyr

100 105 110

Gly Lys Ser Glu Lys Leu Lys Ala Leu Gly Ile Thr Lys Lys Lys Ile

115 120 125

Ile Asp Glu Ala Ile Arg Gln Gly Ile Thr Lys Asp Asp Lys Lys Ile

130 135 140

Glu Ile Lys Arg Gln Glu Asn Glu Glu Glu Ile Glu Ile Asp Ile Arg

145 150 155 160

Asp Glu Tyr Thr Asn Lys Thr Leu Asn Asp Cys Ser Ile Ile Leu Arg

165 170 175

Ile Ile Glu Asn Asp Glu Leu Glu Thr Lys Lys Ser Ile Tyr Glu Ile

180 185 190

Phe Lys Asn Ile Asn Met Ser Leu Tyr Lys Ile Ile Glu Lys Ile Ile

195 200 205

Glu Asn Glu Thr Glu Lys Val Phe Glu Asn Arg Tyr Tyr Glu Glu His

210 215 220

Leu Arg Glu Lys Leu Leu Lys Asp Asp Lys Ile Asp Val Ile Leu Thr

225 230 235 240

Asn Phe Met Glu Ile Arg Glu Lys Ile Lys Ser Asn Leu Glu Ile Leu

245 250 255

Gly Phe Val Lys Phe Tyr Leu Asn Val Gly Gly Asp Lys Lys Lys Ser

260 265 270

Lys Asn Lys Lys Met Leu Val Glu Lys Ile Leu Asn Ile Asn Val Asp

275 280 285

Leu Thr Val Glu Asp Ile Ala Asp Phe Val Ile Lys Glu Leu Glu Phe

290 295 300

Trp Asn Ile Thr Lys Arg Ile Glu Lys Val Lys Lys Val Asn Asn Glu

305 310 315 320

Phe Leu Glu Lys Arg Arg Asn Arg Thr Tyr Ile Lys Ser Tyr Val Leu

325 330 335

Leu Asp Lys His Glu Lys Phe Lys Ile Glu Arg Glu Asn Lys Lys Asp

340 345 350

Lys Ile Val Lys Phe Phe Val Glu Asn Ile Lys Asn Asn Ser Ile Lys

355 360 365

Glu Lys Ile Glu Lys Ile Leu Ala Glu Phe Lys Ile Asp Glu Leu Ile

370 375 380

Lys Lys Leu Glu Lys Glu Leu Lys Lys Gly Asn Cys Asp Thr Glu Ile

385 390 395 400

Phe Gly Ile Phe Lys Lys His Tyr Lys Val Asn Phe Asp Ser Lys Lys

405 410 415

Phe Ser Lys Lys Ser Asp Glu Glu Lys Glu Leu Tyr Lys Ile Ile Tyr

420 425 430

Arg Tyr Leu Lys Gly Arg Ile Glu Lys Ile Leu Val Asn Glu Gln Lys

435 440 445

Val Arg Leu Lys Lys Met Glu Lys Ile Glu Ile Glu Lys Ile Leu Asn

450 455 460

Glu Ser Ile Leu Ser Glu Lys Ile Leu Lys Arg Val Lys Gln Tyr Thr

465 470 475 480

Leu Glu His Ile Met Tyr Leu Gly Lys Leu Arg His Asn Asp Ile Asp

485 490 495

Met Thr Thr Val Asn Thr Asp Asp Phe Ser Arg Leu His Ala Lys Glu

500 505 510

Glu Leu Asp Leu Glu Leu Ile Thr Phe Phe Ala Ser Thr Asn Met Glu

515 520 525

Leu Asn Lys Ile Phe Ser Arg Glu Asn Ile Asn Asn Asp Glu Asn Ile

530 535 540

Asp Phe Phe Gly Gly Asp Arg Glu Lys Asn Tyr Val Leu Asp Lys Lys

545 550 555 560

Ile Leu Asn Ser Lys Ile Lys Ile Ile Arg Asp Leu Asp Phe Ile Asp

565 570 575

Asn Lys Asn Asn Ile Thr Asn Asn Phe Ile Arg Lys Phe Thr Lys Ile

580 585 590

Gly Thr Asn Glu Arg Asn Arg Ile Leu His Ala Ile Ser Lys Glu Arg

595 600 605

Asp Leu Gln Gly Thr Gln Asp Asp Tyr Asn Lys Val Ile Asn Ile Ile

610 615 620

Gln Asn Leu Lys Ile Ser Asp Glu Glu Val Ser Lys Ala Leu Asn Leu

625 630 635 640

Asp Val Val Phe Lys Asp Lys Lys Asn Ile Ile Thr Lys Ile Asn Asp

645 650 655

Ile Lys Ile Ser Glu Glu Asn Asn Asn Asp Ile Lys Tyr Leu Pro Ser

660 665 670

Phe Ser Lys Val Leu Pro Glu Ile Leu Asn Leu Tyr Arg Asn Asn Pro

675 680 685

Lys Asn Glu Pro Phe Asp Thr Ile Glu Thr Glu Lys Ile Val Leu Asn

690 695 700

Ala Leu Ile Tyr Val Asn Lys Glu Leu Tyr Lys Lys Leu Ile Leu Glu

705 710 715 720

Asp Asp Leu Glu Glu Asn Glu Ser Lys Asn Ile Phe Leu Gln Glu Leu

725 730 735

Lys Lys Thr Leu Gly Asn Ile Asp Glu Ile Asp Glu Asn Ile Ile Glu

740 745 750

Asn Tyr Tyr Lys Asn Ala Gln Ile Ser Ala Ser Lys Gly Asn Asn Lys

755 760 765

Ala Ile Lys Lys Tyr Gln Lys Lys Val Ile Glu Cys Tyr Ile Gly Tyr

770 775 780

Leu Arg Lys Asn Tyr Glu Glu Leu Phe Asp Phe Ser Asp Phe Lys Met

785 790 795 800

Asn Ile Gln Glu Ile Lys Lys Gln Ile Lys Asp Ile Asn Asp Asn Lys

805 810 815

Thr Tyr Glu Arg Ile Thr Val Lys Thr Ser Asp Lys Thr Ile Val Ile

820 825 830

Asn Asp Asp Phe Glu Tyr Ile Ile Ser Ile Phe Ala Leu Leu Asn Ser

835 840 845

Asn Ala Val Ile Asn Lys Ile Arg Asn Arg Phe Phe Ala Thr Ser Val

850 855 860

Trp Leu Asn Thr Ser Glu Tyr Gln Asn Ile Ile Asp Ile Leu Asp Glu

865 870 875 880

Ile Met Gln Leu Asn Thr Leu Arg Asn Glu Cys Ile Thr Glu Asn Trp

885 890 895

Asn Leu Asn Leu Glu Glu Phe Ile Gln Lys Met Lys Glu Ile Glu Lys

900 905 910

Asp Phe Asp Asp Phe Lys Ile Gln Thr Lys Lys Glu Ile Phe Asn Asn

915 920 925

Tyr Tyr Glu Asp Ile Lys Asn Asn Ile Leu Thr Glu Phe Lys Asp Asp

930 935 940

Ile Asn Gly Cys Asp Val Leu Glu Lys Lys Leu Glu Lys Ile Val Ile

945 950 955 960

Phe Asp Asp Glu Thr Lys Phe Glu Ile Asp Lys Lys Ser Asn Ile Leu

965 970 975

Gln Asp Glu Gln Arg Lys Leu Ser Asn Ile Asn Lys Lys Asp Leu Lys

980 985 990

Lys Lys Val Asp Gln Tyr Ile Lys Asp Lys Asp Gln Glu Ile Lys Ser

995 1000 1005

Lys Ile Leu Cys Arg Ile Ile Phe Asn Ser Asp Phe Leu Lys Lys

1010 1015 1020

Tyr Lys Lys Glu Ile Asp Asn Leu Ile Glu Asp Met Glu Ser Glu

1025 1030 1035

Asn Glu Asn Lys Phe Gln Glu Ile Tyr Tyr Pro Lys Glu Arg Lys

1040 1045 1050

Asn Glu Leu Tyr Ile Tyr Lys Lys Asn Leu Phe Leu Asn Ile Gly

1055 1060 1065

Asn Pro Asn Phe Asp Lys Ile Tyr Gly Leu Ile Ser Asn Asp Ile

1070 1075 1080

Lys Met Ala Asp Ala Lys Phe Leu Phe Asn Ile Asp Gly Lys Asn

1085 1090 1095

Ile Arg Lys Asn Lys Ile Ser Glu Ile Asp Ala Ile Leu Lys Asn

1100 1105 1110

Leu Asn Asp Lys Leu Asn Gly Tyr Ser Lys Glu Tyr Lys Glu Lys

1115 1120 1125

Tyr Ile Lys Lys Leu Lys Glu Asn Asp Asp Phe Phe Ala Lys Asn

1130 1135 1140

Ile Gln Asn Lys Asn Tyr Lys Ser Phe Glu Lys Asp Tyr Asn Arg

1145 1150 1155

Val Ser Glu Tyr Lys Lys Ile Arg Asp Leu Val Glu Phe Asn Tyr

1160 1165 1170

Leu Asn Lys Ile Glu Ser Tyr Leu Ile Asp Ile Asn Trp Lys Leu

1175 1180 1185

Ala Ile Gln Met Ala Arg Phe Glu Arg Asp Met His Tyr Ile Val

1190 1195 1200

Asn Gly Leu Arg Glu Leu Gly Ile Ile Lys Leu Ser Gly Tyr Asn

1205 1210 1215

Thr Gly Ile Ser Arg Ala Tyr Pro Lys Arg Asn Gly Ser Asp Gly

1220 1225 1230

Phe Tyr Thr Thr Thr Ala Tyr Tyr Lys Phe Phe Asp Glu Glu Ser

1235 1240 1245

Tyr Lys Lys Phe Glu Lys Ile Cys Tyr Gly Phe Gly Ile Asp Leu

1250 1255 1260

Ser Glu Asn Ser Glu Ile Asn Lys Pro Glu Asn Glu Ser Ile Arg

1265 1270 1275

Asn Tyr Ile Ser His Phe Tyr Ile Val Arg Asn Pro Phe Ala Asp

1280 1285 1290

Tyr Ser Ile Ala Glu Gln Ile Asp Arg Val Ser Asn Leu Leu Ser

1295 1300 1305

Tyr Ser Thr Arg Tyr Asn Asn Ser Thr Tyr Ala Ser Val Phe Glu

1310 1315 1320

Val Phe Lys Lys Asp Val Asn Leu Asp Tyr Asp Glu Leu Lys Lys

1325 1330 1335

Lys Phe Lys Leu Ile Gly Asn Asn Asp Ile Leu Glu Arg Leu Met

1340 1345 1350

Lys Pro Lys Lys Val Ser Val Leu Glu Leu Glu Ser Tyr Asn Ser

1355 1360 1365

Asp Tyr Ile Lys Asn Leu Ile Ile Glu Leu Leu Thr Lys Ile Glu

1370 1375 1380

Asn Thr Asn Asp Thr Leu

1385

<210> 60

<211> 1300

<212> БЕЛОК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полипептид

<400> 60

Met Ser Ile Tyr Gln Glu Phe Val Asn Lys Tyr Ser Leu Ser Lys Thr

1 5 10 15

Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Asn Ile Lys

20 25 30

Ala Arg Gly Leu Ile Leu Asp Asp Glu Lys Arg Ala Lys Asp Tyr Lys

35 40 45

Lys Ala Lys Gln Ile Ile Asp Lys Tyr His Gln Phe Phe Ile Glu Glu

50 55 60

Ile Leu Ser Ser Val Cys Ile Ser Glu Asp Leu Leu Gln Asn Tyr Ser

65 70 75 80

Asp Val Tyr Phe Lys Leu Lys Lys Ser Asp Asp Asp Asn Leu Gln Lys

85 90 95

Asp Phe Lys Ser Ala Lys Asp Thr Ile Lys Lys Gln Ile Ser Glu Tyr

100 105 110

Ile Lys Asp Ser Glu Lys Phe Lys Asn Leu Phe Asn Gln Asn Leu Ile

115 120 125

Asp Ala Lys Lys Gly Gln Glu Ser Asp Leu Ile Leu Trp Leu Lys Gln

130 135 140

Ser Lys Asp Asn Gly Ile Glu Leu Phe Lys Ala Asn Ser Asp Ile Thr

145 150 155 160

Asp Ile Asp Glu Ala Leu Glu Ile Ile Lys Ser Phe Lys Gly Trp Thr

165 170 175

Thr Tyr Phe Lys Gly Phe His Glu Asn Arg Lys Asn Val Tyr Ser Ser

180 185 190

Asn Asp Ile Pro Thr Ser Ile Ile Tyr Arg Ile Val Asp Asp Asn Leu

195 200 205

Pro Lys Phe Leu Glu Asn Lys Ala Lys Tyr Glu Ser Leu Lys Asp Lys

210 215 220

Ala Pro Glu Ala Ile Asn Tyr Glu Gln Ile Lys Lys Asp Leu Ala Glu

225 230 235 240

Glu Leu Thr Phe Asp Ile Asp Tyr Lys Thr Ser Glu Val Asn Gln Arg

245 250 255

Val Phe Ser Leu Asp Glu Val Phe Glu Ile Ala Asn Phe Asn Asn Tyr

260 265 270

Leu Asn Gln Ser Gly Ile Thr Lys Phe Asn Thr Ile Ile Gly Gly Lys

275 280 285

Phe Val Asn Gly Glu Asn Thr Lys Arg Lys Gly Ile Asn Glu Tyr Ile

290 295 300

Asn Leu Tyr Ser Gln Gln Ile Asn Asp Lys Thr Leu Lys Lys Tyr Lys

305 310 315 320

Met Ser Val Leu Phe Lys Gln Ile Leu Ser Asp Thr Glu Ser Lys Ser

325 330 335

Phe Val Ile Asp Lys Leu Glu Asp Asp Ser Asp Val Val Thr Thr Met

340 345 350

Gln Ser Phe Tyr Glu Gln Ile Ala Ala Phe Lys Thr Val Glu Glu Lys

355 360 365

Ser Ile Lys Glu Thr Leu Ser Leu Leu Phe Asp Asp Leu Lys Ala Gln

370 375 380

Lys Leu Asp Leu Ser Lys Ile Tyr Phe Lys Asn Asp Lys Ser Leu Thr

385 390 395 400

Asp Leu Ser Gln Gln Val Phe Asp Asp Tyr Ser Val Ile Gly Thr Ala

405 410 415

Val Leu Glu Tyr Ile Thr Gln Gln Ile Ala Pro Lys Asn Leu Asp Asn

420 425 430

Pro Ser Lys Lys Glu Gln Glu Leu Ile Ala Lys Lys Thr Glu Lys Ala

435 440 445

Lys Tyr Leu Ser Leu Glu Thr Ile Lys Leu Ala Leu Glu Glu Phe Asn

450 455 460

Lys His Arg Asp Ile Asp Lys Gln Cys Arg Phe Glu Glu Ile Leu Ala

465 470 475 480

Asn Phe Ala Ala Ile Pro Met Ile Phe Asp Glu Ile Ala Gln Asn Lys

485 490 495

Asp Asn Leu Ala Gln Ile Ser Ile Lys Tyr Gln Asn Gln Gly Lys Lys

500 505 510

Asp Leu Leu Gln Ala Ser Ala Glu Asp Asp Val Lys Ala Ile Lys Asp

515 520 525

Leu Leu Asp Gln Thr Asn Asn Leu Leu His Lys Leu Lys Ile Phe His

530 535 540

Ile Ser Gln Ser Glu Asp Lys Ala Asn Ile Leu Asp Lys Asp Glu His

545 550 555 560

Phe Tyr Leu Val Phe Glu Glu Cys Tyr Phe Glu Leu Ala Asn Ile Val

565 570 575

Pro Leu Tyr Asn Lys Ile Arg Asn Tyr Ile Thr Gln Lys Pro Tyr Ser

580 585 590

Asp Glu Lys Phe Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Asn Gly

595 600 605

Trp Asp Lys Asn Lys Glu Pro Asp Asn Thr Ala Ile Leu Phe Ile Lys

610 615 620

Asp Asp Lys Tyr Tyr Leu Gly Val Met Asn Lys Lys Asn Asn Lys Ile

625 630 635 640

Phe Asp Asp Lys Ala Ile Lys Glu Asn Lys Gly Glu Gly Tyr Lys Lys

645 650 655

Ile Val Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys Val

660 665 670

Phe Phe Ser Ala Lys Ser Ile Lys Phe Tyr Asn Pro Ser Glu Asp Ile

675 680 685

Leu Arg Ile Arg Asn His Ser Thr His Thr Lys Asn Gly Ser Pro Gln

690 695 700

Lys Gly Tyr Glu Lys Phe Glu Phe Asn Ile Glu Asp Cys Arg Lys Phe

705 710 715 720

Ile Asp Phe Tyr Lys Gln Ser Ile Ser Lys His Pro Glu Trp Lys Asp

725 730 735

Phe Gly Phe Arg Phe Ser Asp Thr Gln Arg Tyr Asn Ser Ile Asp Glu

740 745 750

Phe Tyr Arg Glu Val Glu Asn Gln Gly Tyr Lys Leu Thr Phe Glu Asn

755 760 765

Ile Ser Glu Ser Tyr Ile Asp Ser Val Val Asn Gln Gly Lys Leu Tyr

770 775 780

Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Ala Tyr Ser Lys Gly Arg

785 790 795 800

Pro Asn Leu His Thr Leu Tyr Trp Lys Ala Leu Phe Asp Glu Arg Asn

805 810 815

Leu Gln Asp Val Val Tyr Lys Leu Asn Gly Glu Ala Glu Leu Phe Tyr

820 825 830

Arg Lys Gln Ser Ile Pro Lys Lys Ile Thr His Pro Ala Lys Glu Ala

835 840 845

Ile Ala Asn Lys Asn Lys Asp Asn Pro Lys Lys Glu Ser Val Phe Glu

850 855 860

Tyr Asp Leu Ile Lys Asp Lys Arg Phe Thr Glu Asp Lys Phe Phe Phe

865 870 875 880

His Cys Pro Ile Thr Ile Asn Phe Lys Ser Ser Gly Ala Asn Lys Phe

885 890 895

Asn Asp Glu Ile Asn Leu Leu Leu Lys Glu Lys Ala Asn Asp Val His

900 905 910

Ile Leu Ser Ile Asp Arg Gly Glu Arg His Leu Ala Tyr Tyr Thr Leu

915 920 925

Val Asp Gly Lys Gly Asn Ile Ile Lys Gln Asp Thr Phe Asn Ile Ile

930 935 940

Gly Asn Asp Arg Met Lys Thr Asn Tyr His Asp Lys Leu Ala Ala Ile

945 950 955 960

Glu Lys Asp Arg Asp Ser Ala Arg Lys Asp Trp Lys Lys Ile Asn Asn

965 970 975

Ile Lys Glu Met Lys Glu Gly Tyr Leu Ser Gln Val Val His Glu Ile

980 985 990

Ala Lys Leu Val Ile Glu Tyr Asn Ala Ile Val Val Phe Glu Asp Leu

995 1000 1005

Asn Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Val

1010 1015 1020

Tyr Gln Lys Leu Glu Lys Met Leu Ile Glu Lys Leu Asn Tyr Leu

1025 1030 1035

Val Phe Lys Asp Asn Glu Phe Asp Lys Thr Gly Gly Val Leu Arg

1040 1045 1050

Ala Tyr Gln Leu Thr Ala Pro Phe Glu Thr Phe Lys Lys Met Gly

1055 1060 1065

Lys Gln Thr Gly Ile Ile Tyr Tyr Val Pro Ala Gly Phe Thr Ser

1070 1075 1080

Lys Ile Cys Pro Val Thr Gly Phe Val Asn Gln Leu Tyr Pro Lys

1085 1090 1095

Tyr Glu Ser Val Ser Lys Ser Gln Glu Phe Phe Ser Lys Phe Asp

1100 1105 1110

Lys Ile Cys Tyr Asn Leu Asp Lys Gly Tyr Phe Glu Phe Ser Phe

1115 1120 1125

Asp Tyr Lys Asn Phe Gly Asp Lys Ala Ala Lys Gly Lys Trp Thr

1130 1135 1140

Ile Ala Ser Phe Gly Ser Arg Leu Ile Asn Phe Arg Asn Ser Asp

1145 1150 1155

Lys Asn His Asn Trp Asp Thr Arg Glu Val Tyr Pro Thr Lys Glu

1160 1165 1170

Leu Glu Lys Leu Leu Lys Asp Tyr Ser Ile Glu Tyr Gly His Gly

1175 1180 1185

Glu Cys Ile Lys Ala Ala Ile Cys Gly Glu Ser Asp Lys Lys Phe

1190 1195 1200

Phe Ala Lys Leu Thr Ser Val Leu Asn Thr Ile Leu Gln Met Arg

1205 1210 1215

Asn Ser Lys Thr Gly Thr Glu Leu Asp Tyr Leu Ile Ser Pro Val

1220 1225 1230

Ala Asp Val Asn Gly Asn Phe Phe Asp Ser Arg Gln Ala Pro Lys

1235 1240 1245

Asn Met Pro Gln Asp Ala Asp Ala Asn Gly Ala Tyr His Ile Gly

1250 1255 1260

Leu Lys Gly Leu Met Leu Leu Gly Arg Ile Lys Asn Asn Gln Glu

1265 1270 1275

Gly Lys Lys Leu Asn Leu Val Ile Lys Asn Glu Glu Tyr Phe Glu

1280 1285 1290

Phe Val Gln Asn Arg Asn Asn

1295 1300

<210> 61

<211> 7403

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полинуклеотид

<400> 61

tatccggtcg aatcgagaat gacgaccgct acgtcttgga ctacgaagcc gtggcccttg 60

ccgatgctct cggtgtggat gttgccgacc tgttccgcaa gatcgattgc cccaagaacc 120

tgctgcgcag gcgggcaggg taggggagcg gtttccggcg gagattttcg gaggcgccgg 180

taacgttatg tcggggaatt tgctatacat cgacgataat tagttttgtt gattcaggat 240

cgaaatgcgc tcaaacaaag aacgttccgc gtttccctca tgcgctacta cgcccacacc 300

gccatctttc ggcacgcaaa caaagcagat gggttgcctg tcaatgggtg atcattgcct 360

gaagttacca tccatcaata atataaatca tccttactcc gaatgtccct caatcgcatc 420

tatcaaggcc gcgtggcggc cgtcgaaaca ggaacggcct tagcgaaagg taatgtcgaa 480

tggatgcctg ccgcaggagg cgacgaagtt ctctggcagc accacgaact tttccaagct 540

gccatcaact actatctcgt cgccctgctc gcactcgccg acaaaaacaa tcccgtactt 600

ggcccgctga tcagccagat ggataatccc caaagccctt accatgtctg gggaagtttc 660

cgccgccaag gacgtcagcg cacaggtctc agtcaagccg ttgcacctta tatcacgccg 720

ggcaataacg ctcccaccct tgacgaagtt ttccgctcca ttcttgcggg caacccaacc 780

gaccgcgcaa ctttggacgc tgcactcatg caattgctca aggcttgtga cggcgcgggc 840

gctatccagc aggaaggtcg ttcctactgg cccaaattct gcgatcctga ctccactgcc 900

aacttcgcgg gagatccggc catgctccgg cgtgaacaac accgcctcct ccttccgcaa 960

gttctccacg atccggcgat tactcacgac agtcctgccc ttggctcgtt cgacacttat 1020

tcgattgcta cccccgacac cagaactcct caactcaccg gccccaaggc acgcgcccgt 1080

cttgagcagg cgatcaccct ctggcgcgtc cgtcttcccg aatcggctgc tgacttcgat 1140

cgccttgcca gttccctcaa aaaaattccg gacgacgatt ctcgccttaa ccttcagggc 1200

tacgtcggca gcagtgcgaa aggcgaagtt caggcccgtc ttttcgccct tctgctattc 1260

cgtcacctgg agcgttcctc ctttacgctt ggccttctcc gttccgccac cccgccgccc 1320

aagaacgctg aaacacctcc tcccgccggc gttcctttac ctgcggcgtc cgcagccgat 1380

ccggtgcgga tagcccgtgg caaacgcagt tttgtttttc gcgcattcac cagtctcccc 1440

tgctggcatg gcggtgataa catccatccc acctggaagt cattcgacat cgcagcgttc 1500

aaatatgccc tcacggtcat caaccagatc gaggaaaaga cgaaagaacg ccaaaaagaa 1560

tgtgcggaac ttgaaactga tttcgactac atgcacggac ggctcgccaa gattccggta 1620

aaatacacga ccggcgaagc cgaaccgccc cccattctcg caaacgatct ccgcatcccc 1680

ctcctccgcg aacttctcca gaatatcaag gtcgacaccg cactcaccga tggcgaagcc 1740

gtctcctatg gtctccaacg ccgcaccatt cgcggtttcc gcgagctgcg ccgcatctgg 1800

cgcggccatg cccccgctgg cacggtcttt tccagcgagt tgaaagaaaa actagccggc 1860

gaactccgcc agttccagac cgacaactcc accaccatcg gcagcgtcca actcttcaac 1920

gaactcatcc aaaacccgaa atactggccc atctggcagg ctcctgacgt cgaaaccgcc 1980

cgccaatggg ccgatgccgg ttttgccgac gatccgctcg ccgcccttgt gcaagaagcc 2040

gaactccagg aagacatcga cgccctcaag gctccagtca aactcactcc ggccgatcct 2100

gagtattcaa gaaggcaata cgatttcaat gccgtcagca aattcggggc cggctcccgc 2160

tccgccaatc gccacgaacc cgggcagacg gagcgcggcc acaacacctt taccaccgaa 2220

atcgccgccc gtaacgcggc ggacgggaac cgctggcggg caacccacgt ccgcatccat 2280

tactccgctc cccgccttct tcgtgacgga ctccgccgac ctgacaccga cggcaacgaa 2340

gccctggaag ccgtcccttg gctccagccc atgatggaag ccctcgcccc tctcccgacg 2400

cttccgcaag acctcacagg catgccggtc ttcctcatgc ccgacgtcac cctttccggt 2460

gagcgtcgca tcctcctcaa tcttcctgtc accctcgaac cagccgctct tgtcgaacaa 2520

ctgggcaacg ccggtcgctg gcaaaaccag ttcttcggct cccgcgaaga tccattcgct 2580

ctccgatggc ccgccgacgg tgctgtaaaa accgccaagg ggaaaaccca cataccttgg 2640

caccaggacc gcgatcactt caccgtactc ggcgtggatc tcggcacgcg cgatgccggg 2700

gcgctcgctc ttctcaacgt cactgcgcaa aaaccggcca agccggtcca ccgcatcatt 2760

ggtgaggccg acggacgcac ctggtatgcc agccttgccg acgctcgcat gatccgcctg 2820

cccggggagg atgcccggct ctttgtccgg ggaaaactcg ttcaggaacc ctatggtgaa 2880

cgcgggcgaa acgcgtctct tctcgaatgg gaagacgccc gcaatatcat ccttcgcctt 2940

ggccaaaatc ccgacgaact cctcggcgcc gatccccggc gccattcgta tccggaaata 3000

aacgataaac ttctcgtcgc ccttcgccgc gctcaggccc gtcttgcccg tctccagaac 3060

cggagctggc ggttgcgcga ccttgcagaa tcggacaagg cccttgatga aatccatgcc 3120

gagcgtgccg gggagaagcc ttctccgctt ccgcccttgg ctcgcgacga tgccatcaaa 3180

agcaccgacg aagccctcct ttcccagcgt gacatcatcc ggcgatcctt cgttcagatc 3240

gccaacttga tccttcccct tcgcggacgc cgatgggaat ggcggcccca tgtcgaggtc 3300

ccggattgcc acatccttgc gcagagcgat cccggtacgg atgacaccaa gcgtcttgtc 3360

gccggacaac gcggcatctc tcacgagcgt atcgagcaaa tcgaagaact ccgtcgtcgc 3420

tgccaatccc tcaaccgtgc cctgcgtcac aaacccggag agcgtcccgt gctcggacgc 3480

cccgccaagg gcgaggaaat cgccgatccc tgtcccgcgc tcctcgaaaa gatcaaccgt 3540

ctccgggacc agcgcgttga ccaaaccgcg catgccatcc tcgccgccgc tctcggtgtt 3600

cgactccgcg ccccctcaaa agaccgcgcc gaacgccgcc atcgcgacat ccatggcgaa 3660

tacgaacgct ttcgtgcgcc cgctgatttt gtcgtcatcg aaaacctctc ccgttatctc 3720

agctcgcagg atcgtgctcg tagtgaaaac acccgtctca tgcagtggtg ccatcgccag 3780

atcgtgcaaa aactccgtca gctctgcgag acctacggca tccccgtcct cgccgtcccg 3840

gcggcctact catcgcgttt ttcttcccgg gacggctcgg ccggattccg ggccgtccat 3900

ctgacaccgg accaccgtca ccggatgcca tggagccgca tcctcgcccg cctcaaggcc 3960

cacgaggaag acggaaaaag actcgaaaag acggtgctcg acgaggctcg cgccgtccgg 4020

ggactctttg accggctcga ccggttcaac gccgggcatg tcccgggaaa accttggcgc 4080

acgctcctcg cgccgctccc cggcggccct gtgtttgtcc ccctcgggga cgccacaccc 4140

atgcaggccg atctgaacgc cgccatcaac atcgccctcc ggggcatcgc ggctcccgac 4200

cgccacgaca tccatcaccg gctccgtgcc gaaaacaaaa aacgcatcct gagcttgcgt 4260

ctcggcactc agcgcgagaa agcccgctgg cctggaggag ctccggcggt gacactctcc 4320

actccgaaca acggcgcctc tcccgaagat tccgatgcgt tgcccgaacg ggtatccaac 4380

ctgtttgtgg acatcgccgg tgtcgccaac ttcgagcgag tcacgatcga aggagtctcg 4440

caaaaattcg ccaccgggcg tggcctttgg gcctccgtca agcaacgtgc atggaaccgc 4500

gttgccagac tcaacgagac agtaacagat aacaacagga acgaagagga ggacgacatt 4560

ccgatgtaac cattgcttca ttacatctga gtctcccctc aatccctctg ccccatgcgt 4620

gatataacct ccacctcatg tcccggatcg gcgccggcaa cctgtagttc ccttccatcc 4680

tccaacactc ccgcagatcg cgatccgctg ccgccgatgc cggtgcgccg ccttcacaac 4740

tatctctact gtccgcggct tttttatctc cagtgggtcg agaatctctt tgaggaaaat 4800

gccgacacca ttgccggcag cgccgtgcat cgtcacgccg acaaacctac gcgttacgat 4860

gatgaaaaag ccgaggcact tcgcactggt ctccctgaag gcgcgcacat acgcagcctt 4920

cgcctggaaa acgcccaact cggtctcgtt ggcgtggtgg atatcgtgga gggaggcccc 4980

gacggactcg aactcgtcga ctacaaaaaa ggttccgcct tccgcctcga cgacggcacg 5040

ctcgctccca aggaaaacga caccgtgcaa cttgccgcct acgctcttct cctggctgcc 5100

gatggtgcgc gcgttgcgcc catggcgacg gtctattacg ctgccgatcg ccggcgtgtc 5160

accttcccgc tcgatgacgc cctctacgcc cgcacccgtt ccgccctcga agaggcccgc 5220

gccgttgcaa cctcggggcg catacctccg ccgctcgtct ctgacgtccg ctgcctccat 5280

tgttcctcct atgcgctttg ccttccccgc gagtccgcct ggtggtgccg ccatcgcagc 5340

acgccgcggg gagccggcca cacccccatg ttgccgggct ttgaggatga cgccgccgcc 5400

attcaccaaa tctccgaacc tgacaccgag ccaccacccg atcttgccag ccagcctccc 5460

cgtcccccgc ggctcgatgg agaattgttg gttgtccaga ctccgggagc gatgatcgga 5520

caaagcggcg gtgagtttac cgtgtccgtc aagggtgagg ttttgcgcaa gcttccggtt 5580

catcaactcc gggccattta cgtttacgga gccgtgcaac tcacggcgca tgctgtgcag 5640

accgcccttg aggaggatat cgacgtctcc tattttgcgc ccagcggccg ctttcttggc 5700

ctcctccgcg gcctgcccgc atccggcgtg gatgcgcgtc tcgggcaata caccctgttt 5760

cgcgaaccct ttggccgtct ccgtctcgcc tgcgaggcga ttcgggccaa gatccataac 5820

cagcgcgtcc tcctcatgcg taacggcgag cccggggagg gcgtcttgcg cgaactcgcc 5880

cgtctgcgcg acgccaccag tgaggcgact tcgctcgacg aactcctcgg catcgagggc 5940

atcgccgcgc atttctattt ccagtatttt cccaccatgc tgaaagaacg ggcggcctgg 6000

gcctttgatt tttccggacg caatcgccgc ccgccgcgcg acccggtcaa cgccctgctt 6060

tcgttcggtt acagcgtgtt gtccaaggaa cttgccggcg tctgccacgc tgttggccta 6120

gacccgtttt tcggcttcat gcaccagccg cgttacgggc gccccgcact cgctctcgat 6180

ctgatggagg agtttcgccc tctcatcgcc gacagtgttg ccctgaatct catcaaccgt 6240

ggcgaactcg acgaagggga ctttatccgg tcggccaatg gcaccgcgct caatgatcgg 6300

ggccgccggc gtttttggga ggcatggttc cggcgtctcg acagcgaagt cagccatcct 6360

gaatttggtt acaagatgag ctatcgacgg atgcttgaag tgcaggcgcg ccagctatgg 6420

cgctatgtgc gcggtgacgc cttccgctac cacggattca ccacccgttg attccgatgt 6480

cagatccccg ccgccgttat cttgtgtgtt acgacatcgc caatccgaag cgattgcgcc 6540

aagtggccaa gctgctggag agctatggca cgcgtctgca atactcggtt ttcgaatgtc 6600

ctttggacga tcttcgtctt gaacaggcga aggctgattt gcgcgacacg attaatgccg 6660

accaagacca ggtgttattt gtttcgcttg gccccgaagc caacgatgcc acgttgatca 6720

tcgccacgct tgggctccct tataccgtgc gctcgcgagt gacgattatc tgacccataa 6780

cccacgtgtt gaagaggctg aaaacagacg gacctctatg aagaacaatt gacgttttgg 6840

ccgaactcag cagaccttta tgcggctaag gccaatgatc atccatccta ccgccattgg 6900

gctggagacg ttttttgaaa cggcgagtgc tgcggatagc gagtttctct tggggaggcg 6960

ctcgcggcca cttttacaga ggagatgttc gggcgaactg gccgacctaa caaggcgtac 7020

ccggctcaaa atcgaggcac gctcgcacgg gatgatgtaa ttcgttgttt ttcagcatac 7080

cgtgcgagca cgggccgcag cgaatgccgt ttcacgaatc gtcaggcggc ggggagaagt 7140

catttaataa ggccactgtt aaaagccgca gcgaatgccg tttcacgaat cgtcaggcgg 7200

gcagtggatg tttttccatg aggcgaagaa tttcatcgcc gcagtgaatg ccgtttcacc 7260

attgatgaag aatgcgaggt gaaaacagag aaattgggtc aactctatca ctcttattca 7320

gccatcgttt caagaaagga tacctcgtat tggatacaac acagctcgtt cgttctctct 7380

acctccctcg acaatctcaa gga 7403

<210> 62

<211> 6789

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полинуклеотид

<400> 62

taataaaatt gaaatatcac tatggattat tgtaatatta ccataaagat aggtgacgtt 60

tttttgaaaa ttgtaaacct aatttgaaga aaaccaatta aaaatcgctt cggctttttt 120

ttaagtgcca ggtagcattg atgctaaccc atgtgtaata aaggtttgtt ttccttcggg 180

gcacgaacac attataaggg aaacctaaag attccctttc ttgtttaata ttataaccag 240

tgaaaataag aataatgcac ctaaaactaa tatacagaaa ataagaatta aaagtactaa 300

tatatacatc atatgttatc ctccaatgct ttatttttta ataattgatg ttagtattag 360

ttttatttta atttctaaac ataagaattt gaaaaggatg tgtttattat ggcgacacgc 420

agttttattt taaaaattga accaaatgaa gaagttaaaa agggattatg gaagacgcat 480

gaggtattga atcatggaat tgcctactac atgaatattc tgaaactaat tagacaggaa 540

gctatttatg aacatcatga acaagatcct aaaaatccga aaaaagtttc aaaagcagaa 600

atacaagccg agttatggga ttttgtttta aaaatgcaaa aatgtaatag ttttacacat 660

gaagttgaca aagatgttgt ttttaacatc ctgcgtgaac tatatgaaga gttggtccct 720

agttcagtcg agaaaaaggg tgaagccaat caattatcga ataagtttct gtacccgcta 780

gttgatccga acagtcaaag tgggaaaggg acggcatcat ccggacgtaa acctcggtgg 840

tataatttaa aaatagcagg cgacccatcg tgggaggaag aaaagaaaaa atgggaagag 900

gataaaaaga aagatcccct tgctaaaatc ttaggtaagt tagcagaata tgggcttatt 960

ccgctattta ttccatttac tgacagcaac gaaccaattg taaaagaaat taaatggatg 1020

gaaaaaagtc gtaatcaaag tgtccggcga cttgataagg atatgtttat ccaagcatta 1080

gagcgttttc tttcatggga aagctggaac cttaaagtaa aggaagagta tgaaaaagtt 1140

gaaaaggaac acaaaacact agaggaaagg ataaaagagg acattcaagc atttaaatcc 1200

cttgaacaat atgaaaaaga acggcaggag caacttctta gagatacatt gaatacaaat 1260

gaataccgat taagcaaaag aggattacgt ggttggcgtg aaattatcca aaaatggcta 1320

aagatggatg aaaatgaacc atcagaaaaa tatttagaag tatttaaaga ttatcaacgg 1380

aaacatccac gagaagccgg ggactattct gtctatgaat ttttaagcaa gaaagaaaat 1440

cattttattt ggcgaaatca tcctgaatat ccttatttgt atgctacatt ttgtgaaatt 1500

gacaaaaaaa agaaagacgc taagcaacag gcaactttta ctttggctga cccgattaac 1560

catccgttat gggtacgatt tgaagaaaga agcggttcga acttaaacaa atatcgaatt 1620

ttaacagagc aattacacac tgaaaagtta aaaaagaaat taacagttca acttgatcgt 1680

ttaatttatc caactgaatc cggcggttgg gaggaaaaag gtaaagtaga tatcgttttg 1740

ttgccgtcaa gacaatttta taatcaaatc ttccttgata tagaagaaaa ggggaaacat 1800

gcttttactt ataaggatga aagtattaaa ttccccctta aaggtacact tggtggtgca 1860

agagtgcagt ttgaccgtga ccatttgcgg agatatccgc ataaagtaga atcaggaaat 1920

gttggacgga tttattttaa catgacagta aatattgaac caactgagag ccctgttagt 1980

aagtctttga aaatacatag ggacgatttc cccaagttcg ttaattttaa accgaaagag 2040

ctcaccgaat ggataaaaga tagtaaaggg aaaaaattaa aaagtggtat agaatccctt 2100

gaaattggtc tacgggtgat gagtatcgac ttaggtcaac gtcaagcggc tgctgcatcg 2160

atttttgaag tagttgatca gaaaccggat attgaaggga agttattttt tccaatcaaa 2220

ggaactgagc tttatgctgt tcaccgggca agttttaaca ttaaattacc gggtgaaaca 2280

ttagtaaaat cacgggaagt attgcggaaa gctcgggagg acaacttaaa attaatgaat 2340

caaaagttaa actttctaag aaatgttcta catttccaac agtttgaaga tatcacagaa 2400

agagagaagc gtgtaactaa atggatttct agacaagaaa atagtgatgt tcctcttgta 2460

tatcaagatg agctaattca aattcgtgaa ttaatgtata aaccctataa agattgggtt 2520

gcctttttaa aacaactcca taaacggcta gaagtcgaga ttggcaaaga ggttaagcat 2580

tggcgaaaat cattaagtga cgggagaaaa ggtctttacg gaatctccct aaaaaatatt 2640

gatgaaattg atcgaacaag gaaattcctt ttaagatgga gcttacgtcc aacagaacct 2700

ggggaagtaa gacgcttgga accaggacag cgttttgcga ttgatcaatt aaaccaccta 2760

aatgcattaa aagaagatcg attaaaaaag atggcaaata cgattatcat gcatgcctta 2820

ggttactgtt atgatgtaag aaagaaaaag tggcaggcaa aaaatccagc atgtcaaatt 2880

attttatttg aagatttatc taactacaat ccttacgagg aaaggtcccg ttttgaaaac 2940

tcaaaactga tgaagtggtc acggagagaa attccacgac aagtcgcctt acaaggtgaa 3000

atttacggat tacaagttgg ggaagtaggt gcccaattca gttcaagatt ccatgcgaaa 3060

accgggtcgc cgggaattcg ttgcagtgtt gtaacgaaag aaaaattgca ggataatcgc 3120

ttttttaaaa atttacaaag agaaggacga cttactcttg ataaaatcgc agttttaaaa 3180

gaaggagact tatatccaga taaaggtgga gaaaagttta tttctttatc aaaggatcga 3240

aagttggtaa ctacgcatgc tgatattaac gcggcccaaa atttacagaa gcgtttttgg 3300

acaagaacac atggatttta taaagtttac tgcaaagcct atcaggttga tggacaaact 3360

gtttatattc cggagagcaa ggaccaaaaa caaaaaataa ttgaagaatt tggggaaggc 3420

tattttattt taaaagatgg tgtatatgaa tggggtaatg cggggaaact aaaaattaaa 3480

aaaggttcct ctaaacaatc atcgagtgaa ttagtagatt cggacatact gaaagattca 3540

tttgatttag caagtgaact taagggagag aaactcatgt tatatcgaga tccgagtgga 3600

aacgtatttc cttccgacaa gtggatggca gcaggagtat tttttggcaa attagaaaga 3660

atattgattt ctaagttaac aaatcaatac tcaatatcaa caatagaaga tgattcttca 3720

aaacaatcaa tgtaaaagtt tgcccgtata agaacttaat taattaggat ggtaggatgt 3780

tactaaatat gtctgtaggc atcattccta ctatccgttt tgtccgaata tcagagcatt 3840

aggtgaggaa tggtaagaaa ggaaaattta tatgaaccaa ccgattccta ttcgaatgtt 3900

aaatgaaata caatattgtg agcgactttt ttactttatg catgtccaaa agctatttga 3960

tgagaatgca gatacagttg aaggaagtgc acagcatgag cgggcagaaa gaagcaaaag 4020

accaagtaaa atgggaccaa aggaattatg gggtgaggcg ccaagaagtc ttaagcttgg 4080

tgatgagctg ttaaatatta ccggtgttct tgatgccata agtcatgaag agaacagttg 4140

gatcccggtt gaatcaaaac acagttccgc accggatgga ttgaaccctt ttaaagtaga 4200

tggctttcta cttgacgggt ctgcatggcc aaacgatcaa attcaacttt gtgcacaagg 4260

cttgctcttg aatgccaatg gatacccgtg tgattatggg tatttatttt atcgtggtaa 4320

taagaaaaag gtgaaaattt attttactga agatttaatc gctgccacaa agtactatat 4380

taaaaaagca cacgagatac tagtattatc tggtgatgaa tcagctattc ctaagccttt 4440

aattgattct aataagtgtt ttcgctgttc tttaaactat atctgtcttc cggatgaaac 4500

gaactatcta ttaggggcaa gttcaacaat tcgtaaaatt gtgccttcaa ggacagatgg 4560

tggcgtttta tatgtatcag agtctggtac aaaattagga aaatcgggtg aggagttaat 4620

cattcagtat aaagatggcc aaaagcaggg tgttcctata aaagatatta ttcaagtttc 4680

gttaattgga aatgttcaat gctcaacgca attacttcat tttttaatgc aatcaaatat 4740

tcctgtaagt tatttatcat cccacggtcg tttgattggt gtcagttcat ctttagttac 4800

aaaaaatgtt ttaacaaggc agcaacagtt cattaaattt acaaatcctg agtttggact 4860

aaatctagca aaacaaattg tttatgccaa gattcgaaat caacgaactt tacttagaag 4920

aaatgggggg agtgaggtaa aggagatttt aacagattta aaatctttaa gtgacagtgc 4980

actgaacgca atatcaatag aacaattacg gggtattgaa gggatttctg caaaacatta 5040

tttcgcagga tttccgttta tgttgaaaaa tgaattacgt gaattgaatt taatgaaagg 5100

gcgtaatagg agaccgccaa aagatcctgt aaatgtactt ctttctcttg gttatacttt 5160

attgacacgt gatattcatg ctgcgtgtgg ttcagtcgga ttggatccga tgtttggttg 5220

ttaccatcgt ccagaagcag gtcgaccggc tctagtatta gatgttatgg aaacatttcg 5280

accacttatt gtagacagta ttgtcatccg agctttgaat acgggtgaaa tctcattaaa 5340

agatttttat ataggaaaag atagttgtca attattaaaa catggccgcg attccttttt 5400

tgccatttat gaaagaagaa tgcatgaaac tattaccgat ccaattttcg gctataagat 5460

tagctatcgc cgtatgctcg atttgcacat tcgaatgctt gcaaggttta ttgaagggga 5520

actgccggaa tataaaccat taatgacccg gtgagtttgt ttattaggtt aaaagaaggt 5580

gaagacatgc agcaatacgt ccttgtttct tatgatattt cggaccaaaa aagatggaga 5640

aaagtattta aactgatgaa aggatacgga gaacatgttc aatattccgt attcatatgc 5700

cagttaactg aattacagaa ggcaaaatta caagcctctt tagaagacat tatccatcat 5760

aagaatgacc aagtaatgtt tgttcacatc gggccagtga aagatggtca actatctaaa 5820

aaaatctcaa caattgggaa agaatttgtt ccattggatt taaagcggct tatattttga 5880

aaagatatag caaagaaatc ttatgaaaaa aatacaaaaa tatattgtta aaaaataggg 5940

aatattatat aatggactta cgaggttctg tcttttggtc aggacaaccg tctagctata 6000

agtgctgcag gggtgtgaga aactcctatt gctggacgat gtctctttta tttctttttt 6060

cttggatctg agtacgagca cccacattgg acatttcgca tggtgggtgc tcgtactata 6120

ggtaaaacaa acctttttaa gaagaataca aaaataacca caatattttt taaaaggaat 6180

tttgatggat ttacataacc tctcgcaaca tgcttctaaa acccaagccc accatagccc 6240

aaaaccccct gcggtccaag aaaaaagaaa tgatacgagg cattagcacc ggggagaagt 6300

catttaataa ggccactgtt aaaagtccaa gaaaaaagaa atgatacgag gcattagcac 6360

aacaatataa acgactactt taccgtgttc aagaaaaaag aaatgatatg aggcattagc 6420

acgatgggat gggagagaga ggacagttct actcttgctg tatccagctt cttttacttt 6480

atccggtatc atttcttcac ttctttctgc acataaaaaa gcacctaact atttggataa 6540

gttaagtgct tttatttccg tttgaagttg tctattgctt ttttcttcat atcttcaaat 6600

tttttctgtt tctcagagtc aactttacca actgtaatcc cttttctttt tggcattggg 6660

gtatctttcc accttagtgt gttcataagg cttatattta tcactcattg tattcctcca 6720

acacaattat aatttttccg tcatcctcaa tccaaccgtc aactgtgaca aaagacgaat 6780

ctctcttat 6789

<210> 63

<211> 6214

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полинуклеотид

<400> 63

gtttcatttg gaaagggaga gcattggctt ttctctttgt aaataaagtg caagctttgt 60

aataagcttc tagtggagaa gtgattgttt gaatcaccca atgcacacgc actaaagtta 120

gacgaaccta taattcgtat tagtaagtat agtacatgaa gaaaaatgca acaagcattt 180

actctctttt aaataaagaa ttgatagctg ttaatattga tagtatatta taccttatag 240

atgttcgatt ttttttgaaa ttcaaaaatc atacttagta aagaaaggaa ataacgtcat 300

ggacaagcga aagcgtagaa gttacgagtt taggtgggaa gcgggaggca ccagtcatgg 360

caatccgtag cataaaacta aaactaaaaa cccacacagg cccggaagcg caaaacctcc 420

gaaaaggaat atggcggacg catcggttgt taaatgaagg cgtcgcctat tacatgaaaa 480

tgctcctgct ctttcgtcag gaaagcactg gtgaacggcc aaaagaagaa ctacaggaag 540

aactgatttg tcacatacgc gaacagcaac aacgaaatca ggcagataaa aatacgcaag 600

cgcttccgct agataaggca ctggaagctt tgcgccaact atatgaactg cttgtcccct 660

cctcggtcgg acaaagtggc gacgcccaga tcatcagccg aaagtttctc agcccgctcg 720

tcgatccgaa cagcgaaggc ggcaaaggta cttcgaaggc aggggcaaaa cccacttggc 780

agaagaaaaa agaagcgaac gacccaacct gggaacagga ttacgaaaaa tggaaaaaaa 840

gacgcgagga agacccaacc gcttctgtga ttactacttt ggaggaatac ggcattagac 900

cgatctttcc cctgtacacg aacaccgtaa cagatatcgc gtggttgcca cttcaatcca 960

atcagtttgt gcgaacctgg gacagagaca tgcttcaaca agcgattgaa agactgctca 1020

gttgggagag ctggaacaaa cgtgtccagg aagagtatgc caagctgaaa gaaaaaatgg 1080

ctcaactgaa cgagcaactc gaaggcggtc aggaatggat cagcttgcta gagcagtacg 1140

aagaaaaccg agagcgagag cttagggaaa acatgaccgc tgccaatgac aagtatcgga 1200

ttaccaagcg gcaaatgaaa ggctggaacg agctgtacga gctatggtca acctttcccg 1260

ccagtgccag tcacgagcaa tacaaagagg cgctcaagcg tgtgcagcag cgactgagag 1320

ggcggtttgg ggatgctcat ttcttccagt atctgatgga agagaagaac cgcctgatct 1380

ggaaggggaa tccgcagcgt atccattatt ttgtcgcgcg caacgaactg acgaaacggc 1440

tggaggaagc caagcaaagc gccacgatga cgttgcccaa tgccaggaag catccattgt 1500

gggtgcgctt cgatgcacgg ggaggaaatt tgcaagacta ctacttgacg gctgaagcgg 1560

acaaaccgag aagcagacgt tttgtaacgt ttagtcagtt gatatggcca agcgaatcgg 1620

gatggatgga aaagaaagac gtcgaggtcg agctagcttt gtccaggcag ttttaccagc 1680

aggtgaagtt gctgaaaaat gacaaaggca agcagaaaat cgagttcaag gataaaggtt 1740

cgggctcgac gtttaacgga cacttggggg gagcaaagct acaactggag cggggcgatt 1800

tggagaagga agaaaaaaac ttcgaggacg gggaaatcgg cagcgtttac cttaacgttg 1860

tcattgattt cgaacctttg caagaagtga aaaatggccg cgtgcaggcg ccgtatggac 1920

aagtactgca actcattcgt cgccccaacg agtttcccaa ggtcactacc tataagtcgg 1980

agcaacttgt tgaatggata aaagcttcgc cacaacactc ggctggggtg gagtcgctgg 2040

catccggttt tcgtgtaatg agcatagacc ttgggctgcg cgcggctgca gcgacttcta 2100

ttttttctgt agaagagagt agcgataaaa atgcggctga tttttcctac tggattgaag 2160

gaacgccgct ggtcgctgtc catcagcgga gctatatgct caggttgcct ggtgaacagg 2220

tagaaaaaca ggtgatggaa aaacgggacg agcggttcca gctacaccaa cgtgtgaagt 2280

ttcaaatcag agtgctcgcc caaatcatgc gtatggcaaa taagcagtat ggagatcgct 2340

gggatgaact cgacagcctg aaacaagcgg ttgagcagaa aaagtcgccg ctcgatcaaa 2400

cagaccggac attttgggag gggattgtct gcgacttaac aaaggttttg cctcgaaacg 2460

aagcggactg ggaacaagcg gtagtgcaaa tacaccgaaa agcagaggaa tacgtcggaa 2520

aagccgttca ggcatggcgc aagcgctttg ctgctgacga gcgaaaaggc atcgcaggtc 2580

tgagcatgtg gaacatagaa gaattggagg gcttgcgcaa gctgttgatt tcctggagcc 2640

gcaggacgag gaatccgcag gaggttaatc gctttgagcg aggccatacc agccaccagc 2700

gtctgttgac ccatatccaa aacgtcaaag aggatcgcct gaagcagtta agtcacgcca 2760

ttgtcatgac tgccttgggg tatgtttacg acgagcggaa acaagagtgg tgcgccgaat 2820

acccggcttg ccaggtcatt ctgtttgaaa atctgagcca gtaccgttct aacctggatc 2880

gctcgaccaa agaaaactcc accttgatga agtgggcgca tcgcagcatt ccgaaatacg 2940

tccacatgca ggcggagcca tacgggattc agattggcga tgtccgggcg gaatattcct 3000

ctcgttttta cgccaagaca ggaacgccag gcattcgttg taaaaaggtg agaggccaag 3060

acctgcaggg cagacggttt gagaacttgc agaagaggtt agtcaacgag caatttttga 3120

cggaagaaca agtgaaacag ctaaggcccg gcgacattgt cccggatgat agcggagaac 3180

tgttcatgac cttgacagac ggaagcggaa gcaaggaggt cgtgtttctc caggccgata 3240

ttaacgcggc gcacaatctg caaaaacgtt tttggcagcg atacaatgaa ctgttcaagg 3300

ttagctgccg cgtcatcgtc cgagacgagg aagagtatct cgttcccaag acaaaatcgg 3360

tgcaggcaaa gctgggcaaa gggctttttg tgaaaaaatc ggatacagcc tggaaagatg 3420

tatatgtgtg ggacagccag gcaaagctta aaggtaaaac aacctttaca gaagagtctg 3480

agtcgcccga acaactggaa gactttcagg agatcatcga ggaagcagaa gaggcgaaag 3540

gaacataccg tacactgttc cgcgatccta gcggagtctt ttttcccgaa tccgtatggt 3600

atccccaaaa agatttttgg ggcgaggtga aaaggaagct gtacggaaaa ttgcgggaac 3660

ggtttttgac aaaggctcgg taagggtgtg caaggagagt gaatggcttg tcctggatac 3720

ctgtccgcat gctaaatgaa attcagtatt gtgagcgact gtaccatatt atgcatgtgc 3780

aggggctgtt tgaggaaagc gcagacacgg tcgaaggagc agcacaacac aagcgtgcag 3840

agacacatct gcgcaaaagc aaggcagcgc cggaagagat gtggggggac gctccgttta 3900

gcttgcagct cggcgaccct gtgcttggca ttacgggaaa gctggatgcc gtctgtctgg 3960

aagaaggtaa gcagtggatt ccggtagaag gaaagcattc ggcgtcgcca gaaggcgggc 4020

agatgttcac tgtaggcgtg tattcgctgg acggttctgc ctggcccaac gaccaaatcc 4080

aattgtgtgc gcaaggcttg ctgcttcgcg cgaatggata tgaatccgat tatggctact 4140

tatactaccg tggcaataaa aagaaggttc gcattccttt ttcgcaggaa ctcatagcgg 4200

ctactcacgc ctgcattcaa aaagctcatc agcttcggga agccgaaatt ccccctccgt 4260

tgcaggagtc gaaaaagtgc tttcgatgct cgttaaatta cgtatgcatg cctgacgaga 4320

cgaattacat gttggggttg agcgcaaaca tcagaaagat tgtgcccagt cgtccagatg 4380

gcggggtact gtatgttaca gagcaggggg caaaactggg cagaagcgga gaaagcttga 4440

ccatcacctg ccggggcgaa aagatagacg aaatcccgat caaagacttg attcacgtga 4500

gcttgatggg gcatgtgcaa tgctctacgc agcttctgca caccttgatg aactgtggcg 4560

tccacgtcag ctacttgact acgcatggca cattgacagg aataatgact ccccctttat 4620

cgaaaaacat tcgaacaaga gccaagcagt ttatcaaatt tcagcacgcg gagatcgccc 4680

ttggaatcgc gagaagggtc gtgtatgcga aaatttccaa tcagcgcacg atgctgcgcc 4740

gcaatggctc accagataaa gcagttttaa aagagttaaa agagcttaga gatcgcgcgt 4800

gggaggcgcc atcactggaa atagtgagag gtatcgaggg acgtgcagca cagttgtaca 4860

tgcagttttt ccctaccatg ttaaagcacc cagtagtaga cggtatggcg atcatgaacg 4920

gtcgcaaccg tcgcccgccc aaagatccgg tcaatgcgct gctctccctc ggctatacgc 4980

ttctttcacg ggatgtttac tccgcatgtg ccaatgtcgg actcgatcca ctgttcggct 5040

ttttccatac gatggagccg ggcagaccag ctttggcact cgatctgatg gaaccgttcc 5100

gcgccttgat tgccgatagc gtagcgatac gtaccttgaa tacggaggaa ctcaccctcg 5160

gggactttta ttggggaaaa gacagttgtt atttgaaaaa ggcaggaaga caaacgtatt 5220

tcgctgccta tgaaagacgg atgaacgaga cgctgacgca tccgcaattt gggtataagc 5280

tcagctatcg ccgtatgctg gagctggaag caaggttttt ggcccggtat ctggatggag 5340

agctggtgga atatacgccg ctcatgacaa ggtaggaaat gaccatgcga caatttgttc 5400

tggtaagcta tgatattgcc gatcaaaaac gttggagaaa agtattcaag ctgatgaagg 5460

ggcaaggcga gcacgtccag tactcggtgt ttctgtgcca actcaccgag attcagcaag 5520

ccaagctaaa ggtaagcctg gcggagctgg ttcaccatgg agaagaccag gtcatgtttg 5580

taaaaatcgg cccagtgacg agagatcaac tggacaagcg gatatctact gttggcaggg 5640

agtttctgcc tcgcgatttg accaaattta tctattaagg aatgaagaaa gctagttgta 5700

acaaaagtgg aaaaagagta aaataaaggt gtcagtcgca cgctataggc cataagtcga 5760

cttacatatc cgtgcgtgtg cattatgggc ccatccacag gtctattccc acggataatc 5820

acgactttcc actaagcttt cgaattttat gatgcgagca tcctctcagg tcaaaaaagc 5880

cgggggatgc tcgaactctt tgtgggcgta ggctttccag agttttttag gggaagaggc 5940

agccgatgga taagaggaat ggcgattgaa ttttggcttg ctcgaaaaac gggtctgtaa 6000

ggcttgcggc tgtaggggtt gagtgggaag gagttcgaaa gcttagtgga aagcttcgtg 6060

gttagcaccg gggagaagtc atttaataag gccactgtta aaagttcgaa agcttagtgg 6120

aaagcttcgt ggttagcacg ctaaagtccg tctaaactac tgagatctta aatcggcgct 6180

caaataaaaa acctcgctaa tgcgaggttt cagc 6214

<210> 64

<211> 12338

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полинуклеотид

<400> 64

gaagttatgt tgataaaatg gtttatgaaa acgtgagtct gtggtagtat tataaacaat 60

gatggaataa agtgtttttt gcgccgcacg gcatgaattc aggggttagc ttggttttgt 120

gtataaataa atgttctaca tatttatttt gttttttgcg ccgcaaaatg caactgaaag 180

ccgcatctag agcaccctgt agaagacagg gttttgagaa tagcccgaca tagagggcaa 240

tagacacggg gagaagtcat ttaataaggc cactgttaaa agttttgaga atagcccgac 300

atagagggca atagactttt gcttcgtcac ggatggactt cacaatggca acaacgtttt 360

gagaatagcc cgacatagtt atagagatgt ataaatataa ccgataaaca ttgactaatt 420

tgttgaagtc agtgtttatc ggttttttgt gtaaatatag gagttgttag aatgatactt 480

tttgcctaat tttggaactt tatgaggata taagatagac ttgataaaaa ggtaaaagaa 540

aggttaaaga gcatggcagg aatagtgacc tgtgatgaag atgatggtag aattaaaagt 600

gttcttaaag aaaaacaata ttggataagg aaaataattc aatagataaa aaatttaggg 660

ggaaaaatga aaatatcaaa agtcgatcat accagaatgg cggttgctaa aggtaatcaa 720

cacaggagag atgagattag tgggattctc tataaggatc cgacaaagac aggaagtata 780

gattttgatg aacgattcaa aaaactgaat tgttcggcga agatacttta tcatgtattc 840

aatggaattg ctgagggaag caataaatac aaaaatattg ttgataaagt aaataacaat 900

ttagataggg tcttatttac aggtaagagc tatgatcgaa aatctatcat agacatagat 960

actgttctta gaaatgttga gaaaattaat gcatttgatc gaatttcaac agaggaaaga 1020

gaacaaataa ttgacgattt gttagaaata caattgagga aggggttaag gaaaggaaaa 1080

gctggattaa gagaggtatt actaattggt gctggtgtaa tagttagaac cgataagaag 1140

caggaaatag ctgattttct ggagatttta gatgaagatt tcaataagac gaatcaggct 1200

aagaacataa aattgtctat tgagaatcag gggttggtgg tctcgcctgt atcaagggga 1260

gaggaacgga tttttgatgt cagtggcgca caaaagggaa aaagcagcaa aaaagcgcag 1320

gagaaagagg cactatctgc atttctgtta gattatgctg atcttgataa gaatgtcagg 1380

tttgagtatt tacgtaaaat tagaagactg ataaatctat atttctatgt caaaaatgat 1440

gatgttatgt ctttaactga aattccggca gaagtgaatc tggaaaaaga ttttgatatc 1500

tggagagatc acgaacaaag aaaggaagag aatggagatt ttgttggatg tccggacata 1560

cttttggcag atcgtgatgt gaagaaaagt aacagtaagc aggtaaaaat tgcagagagg 1620

caattaaggg agtcaatacg tgaaaaaaat ataaaacgat atagatttag cataaaaacg 1680

attgaaaagg atgatggaac atactttttt gcaaataagc agataagtgt attttggatt 1740

catcgcattg aaaatgctgt agaacgtata ttaggatcta ttaatgataa aaaactgtat 1800

agattacgtt taggatatct aggagaaaaa gtatggaagg acatactcaa ttttctcagc 1860

ataaaataca ttgcagtagg caaggcagta ttcaattttg caatggatga tctgcaggag 1920

aaggatagag atatagaacc cggcaagata tcagaaaatg cagtaaatgg attgacttcg 1980

tttgattatg agcaaataaa ggcagatgag atgctgcaga gagaagttgc tgttaatgta 2040

gcattcgcag caaataatct tgctagagta actgtagata ttccgcaaaa tggagaaaaa 2100

gaggatatcc ttctttggaa taaaagtgac ataaaaaaat acaaaaagaa ttcaaagaaa 2160

ggtattctga aatctatact tcagtttttt ggtggtgctt caacttggaa tatgaaaatg 2220

tttgagattg catatcatga tcagccaggt gattacgaag aaaactacct atatgacatt 2280

attcagatca tttactcgct cagaaataag agctttcatt tcaagacata tgatcatggg 2340

gataagaatt ggaatagaga actgatagga aagatgattg agcatgatgc tgaaagagtc 2400

atttctgttg agagggaaaa gtttcattcc aataacctgc cgatgtttta taaagacgct 2460

gatctaaaga aaatattgga tctcttgtat agcgattatg caggacgtgc atctcaggtt 2520

ccggcattta acactgtctt ggttcgaaag aactttccgg aatttcttag gaaagatatg 2580

ggctacaagg ttcattttaa caatcctgaa gtagagaatc agtggcacag tgcggtgtat 2640

tacctatata aagagattta ttacaatcta tttttgagag ataaagaggt aaagaatctt 2700

ttttatactt cattaaaaaa tataagaagt gaagtttcgg acaaaaaaca aaagttagct 2760

tcagatgatt ttgcatccag gtgtgaagaa atagaggata gaagtcttcc ggaaatttgt 2820

cagataataa tgacagaata caatgcgcag aactttggta atagaaaagt taaatctcag 2880

cgtgttattg aaaaaaataa ggatattttc agacattata aaatgctttt gataaagact 2940

ttagcaggtg ctttttctct ttatttgaag caggaaagat ttgcatttat tggtaaggca 3000

acacctatac catacgaaac aaccgatgtt aagaattttt tgcctgaatg gaaatccgga 3060

atgtatgcat cgtttgtaga ggagataaag aataatcttg atcttcaaga atggtatatc 3120

gtcggacgat tccttaatgg gaggatgctc aatcaattgg caggaagcct gcggtcatac 3180

atacagtatg cggaagatat agaacgtcgt gctgcagaaa ataggaataa gcttttctcc 3240

aagcctgatg aaaagattga agcatgtaaa aaagcggtca gagtgcttga tttgtgtata 3300

aaaatttcaa ctagaatatc tgcggaattt actgactatt ttgatagtga agatgattat 3360

gcagattatc ttgaaaaata tctcaagtat caggatgatg ccattaagga attgtcagga 3420

tcttcgtatg ctgcgttgga tcatttttgc aacaaggatg atctgaaatt tgatatctat 3480

gtaaatgccg gacagaagcc tatcttacag agaaatatcg tgatggcaaa gctttttgga 3540

ccagataaca ttttgtctga agttatggaa aaggtaacag aaagtgccat acgagaatac 3600

tatgactatc tgaagaaagt ttcaggatat cgggtaaggg gaaaatgtag tacagagaaa 3660

gaacaggaag atctgctaaa gttccaaaga ttgaaaaacg cagtagaatt ccgggatgtt 3720

actgaatatg ctgaggttat taatgagctt ttaggacagt tgataagttg gtcatatctt 3780

agggagaggg atctattata tttccagctg ggattccatt acatgtgtct gaaaaacaaa 3840

tctttcaaac cggcagaata tgtggatatt cgtagaaata atggtacgat tatacataat 3900

gcgatacttt accagattgt ttcgatgtat attaatggac tggatttcta tagttgtgat 3960

aaagaaggga aaacgctcaa accaattgaa acaggaaagg gcgtaggaag taagatagga 4020

caatttataa agtattccca gtatttatac aatgatccgt catataagct tgagatctat 4080

aatgcaggat tagaagtttt tgaaaacatt gatgaacatg ataatattac agatcttaga 4140

aagtatgtgg atcattttaa gtattatgca tatggtaata aaatgagcct gcttgatctg 4200

tatagtgaat tcttcgatcg tttctttaca tatgatatga agtatcagaa gaatgtagtg 4260

aatgtgttgg agaatatcct tttaaggcat tttgtaattt tctatccgaa gtttggatca 4320

ggaaaaaaag atgttggaat tagggattgt aaaaaagaaa gagctcagat tgaaataagt 4380

gagcagagcc tcacatcgga agacttcatg tttaagcttg acgacaaagc aggagaagaa 4440

gcaaagaagt ttccggcaag ggatgaacgt tatctccaga caatagccaa gttgctctat 4500

tatcctaacg aaattgagga tatgaacaga ttcatgaaga aaggagaaac gataaataaa 4560

aaagttcagt ttaatagaaa aaagaagata accaggaaac aaaagaataa ttcatcaaac 4620

gaggtattgt cttcaactat gggttattta tttaagaaca ttaaattgta aaaaagattc 4680

gttgtagata attgataggt aaaagctgac cggagccttt ggctccggac agttgtatat 4740

aagaggatat taatgactga aaatgatttt tgttggaagt cagttttttc tgtggaaagc 4800

gaaatcgaat atgatgagta tgcatatggc agaagagctg tagaaggcga gaatacatat 4860

gattacatta ctaaggaaga aagaccggaa cttaatgacg aatatgtagc gagacgttgc 4920

attttcggta aaaaagcagg aaaaatatcc aggtcggatt ttagtaggat aagatctgcg 4980

ttggatcatg cgatgataaa taatacacat acagcatttg ccagatttat cactgaaaat 5040

ctgacgagac tcaatcacaa agaacatttt ctgaatgtga cacgtgcata ttctaaacct 5100

gattctgaaa aattgataca accgagatac tggcagtcgc ctgtagttcc aaaggataaa 5160

caaatatatt atagcaagaa tgcgattaaa aaatggtgtg gttacgaaga tgatattccg 5220

cctcgttctg tgatagttca gatgtgtcta ttgtggggga ctgatcatga agaggcagat 5280

catatccttc gcagttcagg atacgcggcg cttagtcctg ttgtacttcg agatcttatc 5340

tatatgtatt atctggatca tcaggatttg caaaaaaatg agttgatatg ggaagtaaaa 5400

aagcagttgg atcacttcga tttgacaaat agaaattatg atacaaatcc ttttgatgta 5460

gggggcagcg taaatgatca tatctgtgaa ctgagcgagc atatagcgaa ggctcattat 5520

atttatgaga gggctaagga aggaccattg caaaatgtaa ttcgggatat tttgggagat 5580

acacctgccc tttattctga aatggcattt cctcagctag catctataaa caggtgtgct 5640

tgcaattcgc tttcttcata tcaaaaaaat atttttgata ctgacatagc tatatatgca 5700

gatgaaaagg acacaagagg taaatcagac cgtatccttg ttgagggcgc atcttcgaaa 5760

tggtatgaat tgaagaaacg cgatgctaat aatgtcaaaa tttctgaaaa gctgagtata 5820

ctcaatacta ttcttaaatt taatagtgtt ttttgggaag aatgttacct tgatggaaat 5880

ataaaacaat cgagcggaaa gcgatctgag gcaggaaaaa ttctttatgg tcgcgacaac 5940

ggaaaagaaa atgtcggagt ttcaaaattg gaattggtgc ggtatatgat agctgcaggt 6000

caggaacaaa atctgggaaa ttacctggtg agttcaggat tttggagaaa aaatcatatg 6060

ctgtcattta tacaaggcaa tgatatagcg cttgatgaga tggatgaatt ggatctctta 6120

gactatattc tgatatatgc atggggattt agggaaaata tcattaaaaa gaacagtaat 6180

gtgaattctt tggatgaaaa gactagaaaa gtgcagtttc cgtttataaa gttactcatg 6240

gcaattgcaa gagatatcca gatacttata tgttcagcac atgaaaaaac agtcgatgag 6300

tcatctcgaa atgcagcaaa gaagatagat atattgggaa attatattcc ttttcagatt 6360

catcttcaga gaactaaaaa agatggtgga agagtggtaa tggatacatt gtgtgctgat 6420

tggattgcgg attatgaatg gtacattgat cttgagaaag gaacacttgg atgagcagtg 6480

atgaaaggat atttaaaaaa tttttggaaa aaggatcgat ttctgagcag aaaaagatgc 6540

ttttagaaga aaagaaatgt tcggataaac taactgcact gcttgggaat tactgcatac 6600

cgatagacaa tatttcagag tcagacggaa aaatatatgc ggtctataag cttccaaaaa 6660

atgttaaacc tttgtccgaa atcattaatg atgtatcctt ttctgattgt acgatgagag 6720

tacgtttgct tctcataaag agaattctgg aactcgtgtg tgcttttcac gaaaaaaaat 6780

ggtattgtct cagtatttca ccgggaatgc tcatggttga agattttgat ataccgatgg 6840

gaaatgtcgg aaaagtattg atatatgatt tcagaaatcc tgttccgttc gagtcagtaa 6900

atgaaagaca taattttaac gtttcaaata aatacacttc accggagctg ctcatccatt 6960

caagatatga cgagtcgaaa tctgtgagtg aaaaatcaga tttgtattct gttgcaaaaa 7020

ttgcggaaac aataatagga gattttaaca gtattattgc aaatggaaat ttgatactac 7080

ttgcaatgct tagagttttt atcagtacag ggaaaagtcc ggaacctgag tatcggtttg 7140

aatcgtcgga aaatatgctt tcagtatttg aaaatttgat caaagaaaat tgtttttttg 7200

aaaaaaacga ttatacatct atgtttcatc aggcgtatga caattttttt gaatggcagg 7260

aatgtttgat atcaccggat cacttggata aaaatatgtt cgaggcagct ttatcaaatc 7320

ttgaggatca gctgcttagg gttgatattg ataagtatag agcagagtac ttctataagc 7380

ttctccgaga gttgtctaat aaatataaaa atacaattac tgatgaacaa aaggtaaggt 7440

tggcaatact tggaatcaga gcgaaaaata atctgggaaa aagttttgat gcattggaaa 7500

tatatgagtc agtacgtgat ttagaaacta tgttggagga gatggcagag cttagtcctg 7560

tcattgcttc gacatatatg gattgctacc gatatgcaga tgcgcagaaa gtggcggaag 7620

aaaacattat caggcttcat aatagtaata ttcgtatgga gaaaaaaaga atactgcttg 7680

gaaggtcata tagttcaaaa gggtgcagca tggggtttca gcatattctt ggtgcggatg 7740

agtcatttga acaggcttta tatttcttta acgaaaagga caatttttgg aaagaaatat 7800

ttgagagcag aaatttagag gacagcgata gacttataaa gtctttacga agcaatacgc 7860

atattacgct gtttcattac atgcaatatg catgtgaaac aaggagaaag gaattatatg 7920

gagcactttc agacaaatat tttataggta aagaatggac agaaagactc aaagcatata 7980

taagcaacaa ggatatatgg aaaaactatt atgagatata tattctgcta aagggtattt 8040

attgcttcta tccagaagtc atgtgttcgt ctgcgtttta tgatgaaatc caaaaaatgt 8100

acgatcttga atttgaaaag gaaaaaatgt tttacccatt gagtctgata gaactgtatc 8160

ttgctctgat agagataaaa gttaatggga gtctgacgga gaatgccgag aagttgttta 8220

aacaggcatt gacacatgac aatgaagtca aaaaaggaaa tatgaatatt cagaccgcca 8280

tttggtatcg aatatatgca ctgtataacg atgtaaaaga tgaaactgat aagaataaaa 8340

ggcttttaaa acggcttatg attctttgcc gacgatttgg ttgggcggat atgtatagtg 8400

ctttggagaa ggatgggaag ttaattgatt ttttgagatt tgaggtatgt taaatgataa 8460

cacttgcatt agatgaaaat ggcaaatttg aagatgcttt ttctaaaaaa aatgaaaaac 8520

cgataatgat tgcggggata atctatgatg acaaggggaa agagtatgat gctgagaatg 8580

aacgctacag gatatccagt tatctgcgag cagtatgtga cagtttgggt gcgaaatacc 8640

ctcaggatct acattcaaat agtaatggaa ataaggcgac tgttgggaaa gtaaaatgta 8700

aaattggtga aacactaaag gaattcttga gagaaggaac ctatgaaaaa aaggaattgc 8760

cgacaaagaa cggttattta aataagagat ctggaaaata tgtaatgttt gcagaactca 8820

ggagtagtca gggagttaaa aagcgtgtta gtggttggaa tgacaatgat ctgactcagg 8880

atgaaaaggt cagcaatctg taccttcata tggcagaaaa tgccgttgtc agaatgctct 8940

tccataatcc tatatatgaa gatgtaacag atgtaaatct ctattttccc acgcgaaaag 9000

ttgttctgaa agatagagat agagaatacg ataaacaaga tttcaaaata tatggtgata 9060

aggacaagtg cgaagcagaa agcgggagat tggtgcatta tgatatcgtg tcatcggatt 9120

tttaccgtac gataatggag aacgaatgta caagaattaa taaaaagcaa ttaaatgttc 9180

attatatgaa cacaagccca atttcgtact gggagaaaaa tgaaaaatat aatacatttt 9240

tatatttggc tgacatagtt tgttctatgc tggattatta caaaaagggt tcgagtccgg 9300

cagagtggat ggattctttt gccgaatggg gaaacaaata ttttggtgat gatcagataa 9360

tcttatttgg gtatgatgat atagatgaca aatacatgga ggctgtagat gcagtaggac 9420

agggagagta ttttcatgcg ctggatatta tatatgatgc ggaatgtagt ggaagtgaat 9480

ttgagaagca ctacaaagat tattggtttc caaagcttat aaaaaagata cgaataacag 9540

caactgtgga taatttatgc agatcgatct cagatctgga gagttttaca tatcgaagta 9600

atcttgatca gcagaaactt ttgtggattt ttgaggaaat caaagctatc gtcgataagg 9660

gagattttgg aaagaaatat catacagatc aggttatgtt tgatatgtgt aatgccggta 9720

ttgctgtgta caatcatatc ggagattttg ggactgcaaa ggaatactat gatgagtgca 9780

tgaaacacac tggggatgtg gatctggtaa agatacttcg tgcatcaaat aaaatggtgg 9840

tctttcttga cgatgctttt aggtatggtg acgcgacaga acgtgccagg aagaatgttg 9900

aataccaaaa agctttgcac gatataaaga gtgagatttg tccggaaaag aaagatgaag 9960

acttgaacta tgccatatcg ctcagtcaat ttggacaggc gcttgcgtgt gaaaaaaatt 10020

ctgatgcaga gagtgttttc ctagagtcgt tgcggcatat gaggaaaggg actgccaatt 10080

atcagattac tctttcatat ttactccatt tttatctgga tatgggaatg acagattctt 10140

atcgagaaaa aacaaaggac tattttggaa gtgaaaaacc aaaggaacag ctgaaagaat 10200

tgctgaagtt atcgggaaag gatgatagta tagttacttt caaatttgca atgtatgtct 10260

atttacgtgc actttgggta ttacaggaac cgcttactga ttttatcaga acaagattag 10320

aggacatacg tgagactctt gtaaagaaga aaatgagtga acatatggtt ggacatccgt 10380

gggagttgat ttataaatat ctggcatttc ttttttatcg tgatggaaat tgtgaagctg 10440

ctgaaaaata tattcataaa agtgaagagt gcttggaaac acaaggactg actatagatg 10500

cgattattca taatggtaag tatgaatatg cagaattgtc aggtgacgag gagatgatgg 10560

caagagagaa agcgtacttt gatgaaaaag ggatagatag aaaaaatgtt tgtactttta 10620

tgtatcattg atgtttaata agatttgacc gaggagtgac aggtaatcgc cggtatatct 10680

ggtattacct gtcatttttt gatgaaataa gctacttttt gcctaaaaaa cgaaactgtt 10740

ggtgttttat gatgattgtg tcaacaaaag agagcaaaag aagaggagaa aagtaatgtc 10800

aatgatttca tgtccgaatt gtggtggaga gatatctgaa aggtcaaaga aatgtgttca 10860

ttgtggatat gtgttagtcg aagaagctaa agtagtgtgc acagaatgtg gaactgaggt 10920

agagagtggc gctgctgtat gtccgaagtg cggctgtcct gtaaatgata gtgagacgcc 10980

tcagaaagtt gaagtgacta gggtaaatgt atcttccgta atcagcaaaa aagtcgttgt 11040

aagcatactg atcgcagtga ttacaattgc aggttttttc tatggagtga agtattcgca 11100

ggaaaagaaa gcaattgaag agtcagtaaa gcagaaggaa gactatcaaa gtacgctaga 11160

gcttgcttcg ctaatgatgc ttcaaggagc ttcggatgca gaaacttgtg ggaatttggt 11220

taggaaagtg tggagcaact gcatttataa ggagagggat gaagaaaccg acaagtatac 11280

gtgtgatagc aggggtgcag gatggtttta tgatgatttt aatgatgcat taatggctct 11340

ttacagtgac agcagttttg gcaagaagat aaatgaaatc aaaaacggtc aggaaaccgt 11400

tgcggcgatg atgaaagatc tgaaaaatcc gccggatgag atggcagatg cctatgagga 11460

tattcaaaat ttttatgtgt cctatctaac gctgacagaa atggttgtga atccaactgg 11520

aagtttgagt tctttttcat ctgatttttc cgatgcggat acggaggtgt ccaatgccta 11580

tagccggatg aagttgtatt tagattaaac tattgaggaa aaaatggagg tgctttaatg 11640

cgggggagaa actgtggagg gtcatcaggc gacggactgc tggtacttct cgtactgctt 11700

gtcctttttt ataaaatcat gccattcata ggtttatgga ttttaatttt tggtgatgct 11760

gaacgtaaag atctgggtat gggtatgatt attgtcggga tagttctata tgtattatta 11820

gaggtttttt aatgtgagtt tctgtggtaa actataaaag tacaagcttt tgcgccgcac 11880

cgcataaata gcggatttat gaccattatt tggtgaaaaa aatggtgtac acctgtgttt 11940

ttttgttttg cgccgcaaaa tgcgccacgg aaccgcatgc agagcaccct gcaagagaca 12000

gggttatgaa aacagcccga catagagggc aatagacacg gggagaagtc atttaataag 12060

gccactgtta aaagttatga aaacagcccg acatagaggg caatagacat aaagaccaaa 12120

aacaggtcat ctgcatactg tgttatgaaa acagcccgat atagagggtg tgagagatat 12180

agttctcgtc acagtgcaga aaatgaccta ttatgtgccg aaaaacaaaa tgaaaaaaga 12240

atggaaaggc gtatttaatg aaatgctgat ctgttgattt gaattaacaa aaaaaggtcg 12300

ccccacggat gacaaaaaca tccgggggcg accctttt 12338

<210> 65

<211> 6098

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полинуклеотид

<400> 65

tactgtgtgc ataagtcttc cttagatcca taggtacagc agttttattt attagcctta 60

gaaaatggaa aatagagctt ataaatgata tgatatttat gaataaaatg attgcattct 120

cgtgcaaact ttaaatatat tgattatatc ctttacattg gttgttttaa ttactattat 180

taagtaggaa tacgatatac ctctaaatga aagaggacta aaacccgcca aaagtatcag 240

aaaatgttat tgcagtaaga gactacctct atatgaaaga ggactaaaac ttttaacagt 300

ggccttatta aatgacttct gtaagagact acctctatat gaaagaggac taaaacgtct 360

aatgtggata agtataaaaa cgcttatcca tcatttaggt gttttatttt tttgtgatta 420

tatgtacaat agaagagaga aaaaaatcat tgaggtgaaa actatgagaa ttactaaagt 480

agaggttgat agaaaaaaag tactaatttc tagggataaa aacgggggca agttagttta 540

tgaaaatgaa atgcaagata atacagaaca aatcatgcat cacaaaaaaa gttcttttta 600

caaaagtgtg gtaaacaaaa ctatttgtcg tcctgaacaa aaacaaatga aaaaattagt 660

tcatggatta ttacaagaaa atagtcaaga aaaaataaaa gtttcagatg tcactaaact 720

taatatctca aatttcttaa atcatcgttt caaaaaaagt ttatattatt ttcctgaaaa 780

tagtcctgac aaaagcgaag aatacagaat agaaataaat ctctcccaat tgttagaaga 840

tagcttaaaa aaacagcaag ggacatttat atgttgggaa tcttttagca aagacatgga 900

attatacatt aattgggcgg aaaattatat ttcatcaaaa acgaagctaa taaaaaaatc 960

cattcgaaac aatagaattc aatctactga atcaagaagt ggacaactaa tggatagata 1020

tatgaaagac attttaaata aaaacaaacc tttcgatatc caatcagtta gcgaaaagta 1080

ccaacttgaa aaattgacta gtgctttaaa agctactttt aaagaagcga agaaaaacga 1140

caaagagatt aactataagc ttaagtccac tctccaaaac catgaaagac aaataataga 1200

agaattgaag gaaaattccg aactgaacca atttaatata gaaataagaa aacatcttga 1260

aacttatttt cctattaaga aaacaaacag aaaagttgga gatataagga atttagaaat 1320

aggagaaatc caaaaaatag taaatcatcg gttgaaaaat aaaatagttc aacgcattct 1380

ccaagaaggg aaattagctt cttatgagat tgaatcaaca gttaactcta attccttaca 1440

aaaaattaaa attgaagaag catttgcctt aaagtttatc aatgcttgtt tatttgcttc 1500

taacaattta aggaatatgg tatatcctgt ttgcaaaaag gatatattaa tgataggtga 1560

atttaaaaat agttttaaag aaataaaaca caaaaaattc attcgtcaat ggtcgcaatt 1620

cttctctcaa gaaataactg ttgatgacat tgaattagct tcatgggggc tgagaggagc 1680

cattgcacca ataagaaatg aaataattca tttaaagaag catagctgga aaaaattttt 1740

taataaccct actttcaaag tgaaaaaaag taaaataata aatgggaaaa cgaaagatgt 1800

tacatctgaa ttcctttata aagaaacttt atttaaggat tatttctata gtgagttaga 1860

ttctgttcca gaattgatta ttaataaaat ggaaagtagc aaaattttag attattattc 1920

cagtgaccag cttaaccaag tttttacaat tccgaatttc gaattatctt tactgacttc 1980

ggccgttccc tttgcaccta gctttaaacg agtttatttg aaaggctttg attatcagaa 2040

tcaagatgaa gcacaaccgg attataatct taaattaaat atctataacg aaaaagcctt 2100

taattcggag gcatttcagg cgcaatattc attatttaaa atggtttatt atcaagtctt 2160

tttaccgcaa ttcactacaa ataacgattt atttaagtca agtgtggatt ttattttaac 2220

attaaacaaa gaacggaaag gttacgccaa agcatttcaa gatattcgaa agatgaataa 2280

agatgaaaag ccctcagaat atatgagtta cattcagagt caattaatgc tctatcaaaa 2340

aaagcaagaa gaaaaagaga aaattaatca ttttgaaaaa tttataaatc aagtgtttat 2400

taaaggtttc aattctttta tagaaaagaa tagattaacc tatatttgcc atccaaccaa 2460

aaacacagtg ccagaaaatg ataatataga aatacctttc cacacggata tggatgattc 2520

caatattgca ttttggctta tgtgtaaatt attagatgct aaacaactta gcgaattacg 2580

taatgaaatg ataaaattca gttgttcctt acaatcaact gaagaaataa gcacatttac 2640

caaggcgcga gaagtgattg gtttagctct tttaaatggc gaaaaaggat gtaatgattg 2700

gaaagaactt tttgatgata aagaagcttg gaaaaagaac atgtccttat atgtttccga 2760

ggaattgctt caatcattgc cgtacacaca agaagatggt caaacacctg taattaatcg 2820

aagtatcgat ttagtaaaaa aatacggtac agaaacaata ctagagaaat tattttcctc 2880

ctcagatgat tataaagttt cagctaaaga tatcgcaaaa ttacatgaat atgatgtaac 2940

ggagaaaata gcacagcaag agagtctaca taagcaatgg atagaaaagc ccggtttagc 3000

ccgtgactca gcatggacaa aaaaatacca aaatgtgatt aatgatatta gtaattacca 3060

atgggctaag acaaaggtcg aattaacaca agtaaggcat cttcatcaat taactattga 3120

tttgctttca aggttagcag gatatatgtc tatcgctgac cgtgatttcc agttttctag 3180

taattatatt ttagaaagag agaactctga gtatagagtt acaagttgga tattattaag 3240

tgaaaataaa aataaaaata aatataacga ctacgaattg tataatctaa aaaatgcctc 3300

tataaaagta tcatcaaaaa atgatcccca gttaaaagtt gatcttaagc aattacgatt 3360

aaccttagag tacttagaac tttttgataa ccgattgaaa gaaaaacgaa ataacatttc 3420

acattttaat taccttaacg gacagttagg gaactctatt ttagaattat ttgacgatgc 3480

tcgagatgta ctttcctatg atcgtaaact aaagaatgcg gtgtctaaat ctttgaaaga 3540

aattttaagc tctcatggaa tggaagtgac atttaaacca ctatatcaaa ccaatcatca 3600

tttaaaaatt gataaactcc aacctaaaaa aatacaccac ttaggtgaaa aaagtactgt 3660

ttcttcaaat caagtttcta atgaatactg tcaactagta agaacgctat taacgatgaa 3720

gtaattcttt taaagcacat taattacctc taaatgaaaa gaggactaaa actgaaagag 3780

gactaaaaca ccagatgtgg ataactatat tagtggctat taaaaattcg tcgatattag 3840

agaggaaact ttagatgaag atgaaatgga aattaaaaga aaatgacgtt cgcaaagggg 3900

tggtggtcat tgagtaaaat tgacatcgga gaagtaaccc actttttaca aggtctaaag 3960

aaaagtaacg aaaacgcccg aaaaatgata gaagacattc aatcggctgt caaagcctac 4020

gctgatgata caactttaaa aggaaaagca gtggattctt cacaaagata ctttgatgaa 4080

acgtatactg ttatttgtaa aagtatcata gaagcattag atgaaagcga agagagatta 4140

caacaatata ttcatgattt tggagatcaa gtggattctt cacctaacgc acgaattgat 4200

gcggaattac tacaagaagc aatgagtagg ttagctgaca taaagcggaa gcaagaagca 4260

cttatgcaat ccttatcttc ttctacagca acgctttacg aaggcaagca acaagcgtta 4320

cacactcaat tcacggatgc gctggagcaa gaaaaaatat tggaacgcta tattactttt 4380

gaacaaactc acgggaattt ttttgactca tttggagaac ttgtctatcg aacgggacaa 4440

gcagtgcgtg aattagctaa taacgtcaca ttcgagagcc aaacaggaag ctatcatttt 4500

gataaaatag atgcttctag attccaaact ttgcaagaaa tgttgccaaa ggcaaagaaa 4560

aaagcattta attttaatga ctaccaaata acatggaatg gcaccacgca ccttttatgg 4620

aaaaatggta aagtggatgc agaagcaacc aaagcttata acgaggcgaa actgaatgga 4680

aagctaccaa aggaaggtaa tgtagcaaca caagatgcag aactattaaa aggcattttg 4740

gcttcactga aaaacaagaa agatcctatc actggagcag atataagcag tgtgcatgta 4800

ttatctatcc ttagcgggct cgcattctcc tatacagctg ggaattataa gggaagaaaa 4860

cttactgttc caaaaagttt cttagacaaa ttaaagaaaa accgaaaatc taaagtacct 4920

aaactatcta gtttatcaga aaaacaacaa ctaaaactcg caaataaata caagaaaaaa 4980

tcacctattc caattccaga tgatgctaaa atcaaagctc agacgaaaaa ggctggttat 5040

gaacaaatat cttataaatg gaaagagaat gggataacct ttgaagttag atggcatact 5100

aggacaccag gtgcaccaaa ggaacaagga aatacgtttg ttatagaaag aaaaattcag 5160

ggtacagcag aagggaaaac aaaagttcaa caaatattgg ttggagataa taagtgggtg 5220

agtaaaagtg agtggcaaaa ggctataact gataagaaaa atggtgtaag tacctcggag 5280

caaaataaaa tgttgtctga tggacattgg aaagaataga aaggagcaaa atgatggaag 5340

attattataa aggttttgag ggatatccag agatagattt ttatacgtat atagatgata 5400

tgaaattggg tatagcaatg tgggaaggat actttgacaa cattatgaaa gaaattaatc 5460

caagtaacgg aagatggact tcattagcgt attattatca tttagatgag gggtggtatg 5520

atgaaagtcc ttgggaaata ccaagtaata cagaagcatt agaattattg gaaacaatcc 5580

atatatctaa tctagatact atcacacaag agatattact taaattaata aatttattaa 5640

agaagaatat aaatagacaa gtttatattg aatactcata aaaaagatga ttatgatata 5700

ttatagaaca aacgaacaag ccccaaatac gaggtttgtt cgtttgtttt caatataatt 5760

atttgccacc aagtgagata ttacggtttt aaatagctta tttgacgata ccaaaccctg 5820

ataagagaaa gaagaaagag aaagctggtg tagttgtttt aagtgaacta gataaaaaat 5880

taatagcaaa acttgaaaaa gatggtgtga aaatatcaaa agaagatgtt ataggaataa 5940

aataattgcc agatgatgag aaatcgtttg gctggaaaaa ggaaatccat ccgctggatt 6000

tgagcatatt cttattgaac atggtgaaca atttgctaaa tagggaattt caaaagctga 6060

gttacctgat tttttgatga ctgctttaga aaaggaaa 6098

<210> 66

<211> 6222

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полинуклеотид

<400> 66

attctttaaa aatatctaat aatttattta ctatatactc taatacatct tttaacctat 60

ctaaaacatc atcacctaca acatcccaaa aatcatctaa aaagttaaaa aaatccatct 120

ttatcaactc ctatatctat tttttattgt gtaattcctg agttacaaaa ccattataac 180

acgtattaca cacgtagtca atacttcaaa aaaatttttt gtatattttt ttgaataagt 240

aaataaaaag agctgtgtag ctctttatta aaatcaatat ttttattttg ttaacaaact 300

tagacaacat taaatttaga aacctatata tatttcagta cttttcattt ttaggtagtc 360

taaatcagaa atggttttgt ctaaatgatg tatgtaagtt ttagtcccct tcgtttttag 420

ggtagtctaa atcagaagtc atttaataag gccactgtta aaagttttag tccccttcgt 480

ttttagggta gtctaaatcc catccaaatt atgggataat atgttacttt ttattttaat 540

atttgattat ttattgtttt tttactgatt tagattaccc ctttaattta ttttaccata 600

tttttctcat aatgcaaact aatattccaa aatttttgtt tcttttctta tgatcttttc 660

tccgatagtt atttctccag ataagatttt catttttttg aattgatctt ctgttagaat 720

taatgttctt actgatgaat tttctggaac tatcattgac aactgatttt cataggaaat 780

tattttttct tttgtgctag aacttacaat gtatactgat ttttgtacct gataatatcc 840

ttttcttata atttcttttc taaattttgc atattctttt ttttcttttc ctgtttgcat 900

tggaaaatca tacattagaa tccctacata attagtactc ataatcctct atccttaact 960

caggaatttc tacttctgac atttctcctg taaaataatt tctaatatta tctaaaaaat 1020

aatcaatcac ttgagccaat tcatattttt tatttttcca ataaactttt tgtgttaata 1080

ccaataacaa tttttgtctt aatgatttat tcaaacttac ttcttcctgt tgattaaaat 1140

atacgatata atctaccatt ggacgaaata tttcaataat atcatctgca aaattataat 1200

tattaaattg tgaactgtga tgtattccca aacttggatg aaatccttta gccacaattt 1260

ttgaagagat taagcttctc aaaaccatat acccataatt taatgccgaa tttgtcccgt 1320

cttcaccaaa tctcttaaat tttttcccaa aaagttcacc aaaatacatt cttgcagcaa 1380

ttgcttcctg atgttccgct tcttttcctt ttaatctaat attattttca tatgcttcca 1440

acttatatga tacttcctga gattttttca aaaactgcaa taaatttctt tgattttcta 1500

tttttctcat tacaattttt ctccagattt cttctttttt atcgtcaatc cagctcactt 1560

gctcattaat tcttgttgtt acttgaaaat gattatacag tcctaatgaa tgtaaaactg 1620

gctgatgttt ttcattacaa attatcagtg gaatattatg ttctgataat cttaactgta 1680

atattccgct aattttacat ctgcaatttt caactacaat tgccatgata tcatttaaag 1740

atactttatc agccttattt tcatcatctt catttatcat cacaagctgg ttatttaaaa 1800

ctgataattc attgactctt gttacatgga taatattaga catttttatt actcctttac 1860

tctaaagctt tatattcaaa cataactttc acaagttcac acaattcttc tgaatttcta 1920

tcagtcatta attttttctt ttttaaattt ttcaaatgta caattttttc cgattctaaa 1980

gtctgaattt ctattttctt atctgctcct attttaaatg ttgctacaaa accatattcc 2040

tttaatatat ccactattga tttcataatt gcatttttaa gttttctatc ataagaaagt 2100

aattttctta aattttccag cacttctaaa agtgaaattt cagcatgcgg aatatagtta 2160

aaatgtgcaa tatagtttcg tatatacaaa tcttttttct cttgttttaa tttttttact 2220

tttttatcag aatagatgct tcttttttct acattatctt tgtataattc tttataaaaa 2280

tttatatatt tttcaacaat ttgcccactt ttatatttta catttttact gttatcaaaa 2340

ttaaatattt cttcaatata atgattttca ggaaattcac ctttcaatct aaatcttaag 2400

tccctttccc agatcgaagt atatcccaca agtctgtgga gtatttttaa taacaagcct 2460

tgcaacaagt ttaattcatt aaattccact ttatttttca aatgagtata tttttgtata 2520

tttccaattg ctttttcata ttctttataa tcttcatcat taaatttttc atctttttta 2580

ggtcttgcat attttctatg taaattttgc tgcattgtat aatttttttc tatttcattt 2640

tttttattgc tgtattcttt caattctttt aaacttattt tatacttcgc tttatcagct 2700

attttttcaa gtaaatttaa catcccatat ttttttatat tataaaaagc tctatgcttt 2760

ataatatttt ctccatcaaa atatatttta tttgtgtcaa atttcttcaa ttctttccta 2820

tcttttattt tattttcatt aaaatctaaa aattttccaa tttcattcgc ttctaattca 2880

aaatcttctg ttactctatt attatctaaa tttaaaagat ttataagttc aagttcatct 2940

gaaaaagttt cttctttatt tgcactctga tatttttcaa gacttccctt caaattagtc 3000

aattctttat gattaagcaa ttttaaaatt aaataaaaca tattcaaatt ttcagtgtat 3060

tttaatatct ttcctaattt tatctctctt acaaattcat ttatttcatg tggaatttct 3120

ttattcctat tatgtttttc ataatttttt aaaattttat catatttttc tttattatct 3180

ttttttattt ttattttaga aaatatatca ttattatcat tgttattatt actttctata 3240

tattttaaat tatttttatt caaataatct ataaaacctt ttaaaaatat ttgttgtata 3300

aaatcaatgt atgtattttt ttcttcttta tcttgattat taatcatctc cctactttgt 3360

ataatagcaa gatattctac tggtacagtt ttttctatat tttcaaattt ttgatattta 3420

taatgtcctg ttttttgatt tctttgttta tttattttta ttacttcatt agttatttta 3480

aaaaaaactt tactattttt aacaaattta ttaagaaatt caccataata aatatttttc 3540

aaaagatata tttgagcatc tttttcttct ttatccttag gaacactcca aaaaaatttt 3600

aaagtatttc ttaaatcttc tattttatta tataatttcg taaaagaagg aacaaaagga 3660

atattcttat ttacaaaatt aaattttgta ttttttaaat atttaattat cacatccttt 3720

tcataataat taaatacatt tgcactattt aactgcttaa atatcttcaa tttcaatttt 3780

ttctcattta tttcattttg aaacattttt tttgaaattt cagaaggagc tatattttta 3840

aatgcaaata tatctttccc ttctaattcc aaattaaaat gcacaatccc atgtctaata 3900

ctgctaatag cttcatcaat atttgcaaaa aaatcttcta tctcattttt attatccata 3960

ttaaaatcat aactatagaa catttttaaa ttttctttta cttcattttg cttgttttca 4020

ttatatattt tatcaacttc tccagaaaca tatttttctt cgcccttatt attttttaca 4080

gtttttcctc tcattctacc tgtaatatca ttctcatttt cagtttcaag aatatttctc 4140

aatgaaaaat atgcaaccga agaaactcca attatatttc gtaaaaatgc ttcattttgt 4200

ctattcctag caataaaatc acttgttgca atctctccaa cttgtaaata ataattgtat 4260

ttcccacaat ttcttacata agtatccaat ttatttagta atttgttttc aattaatttt 4320

tttaaatttt gatattcaaa tattctctta attttatcgt tacttatgtt actcagtctt 4380

ttatacacat aatttttcaa aagctgactc atttcaattt ccacaaaatg acaaaaagca 4440

tattttatat ttttatcatt aagttcttct ttatccaaat aatatttata aaacacttgt 4500

gattttttta attcactcat atccggaatt ttttcaatta attcttttat attatttaca 4560

ttttgtattt cttcgtaaat aattttagca aaattttctt tatcattttt tcttccaatt 4620

attttgtgat agtattctct tattttatat ttttcatgtt tttttgaatt ttctattaaa 4680

aaaaataact tctcaatatc ttctttttta tacaatttat caaatgcttc ctgtacatta 4740

tttatataat cattacgctt tgctgattct ctataataat cataaataat atttcttttg 4800

ctcttccctc caactttttc aacattattt tcattaattt tctgataatt agccttattt 4860

tcttcaaatg aatattttaa agaatttatc ttattcaatt ttgcctcaac atcttttcta 4920

aatatttcta attcttcaga gttcacatct tcatttaaca atattttctt taaaactgaa 4980

aaactatttt tattttttaa atcatattct gaaatatctt cttcagaata atttttatcc 5040

tgtactgcat ttttctcttt cctattcttt aaatacagaa cactatcttt tagatgcaat 5100

actttatttg aaaaaaactt ttttaaattt tctcttctta ttctattttc ttcttcactt 5160

gcattatcag gattttttat atatatatcc agtcttatac ttaaaagctc tgacaatctc 5220

tcactagtcc tattttcttc gctcgtactt tttactaatt ttccctcttc aatatatttt 5280

ttatgcgaaa ttccatcaac ttttgtaact ttcatatata aaaacctcct aatatctata 5340

ttttttactc aatacctaat tcttttttca atgctttttg taaaatttgt gaaaaattca 5400

gatttttttc ctgtgccaat atatctaacc aaacaggaat tgttaaagtt ttctttttaa 5460

gtgcatttgt aacttttgcc acttcataca ctggatcaac agataaaata tacaaatact 5520

gattttcttt cagtttcaca tcctccactt ttgaaggctc aggaaatttt tttcttacat 5580

ccaaaaaatc agccaaatgc agacccaatg tctctctcaa attggaaaca gcctcctcca 5640

tgctatctcc aaatgtagca taataattta tctctccatc ttcaaactta tcaaaatcaa 5700

caatacaacc ataataagtc ccatcttcct tagttaccac tgctggataa aatacatcca 5760

ttttaattat ctccaatcta taccacgtgt taaatacgtg tttaaaaata tttataaaat 5820

tttttagcat ctctgctaaa ataaaacaat tatttcaaat ttttctattc cttaatcact 5880

cattgttagt gattcttttt ttacttggac aatttttcat ttaatttctt caattttttt 5940

aaaatcacat ttttttaata ttccttattt aattgcaaat tttcattact tttggggtgc 6000

tctaaatccc atccaaatta tgggataata atttttagtg aaagcaagaa gggactagaa 6060

tttaatccca acttgttttt caatacttct taatgttcct acaggtatat cttttgaata 6120

tggtactgtg accacacctt ccacacctgg gatcatccat tgataatgac tacctcttat 6180

acgcacaact tttccgccta attttctaaa tcttttttcg at 6222

<210> 67

<211> 6337

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полинуклеотид

<400> 67

ctttctatct ttttcaaata aaattaggct ctagttagcc taatcgcata attatttatt 60

atagtataat tcttattttt tttcaaccta aaaatttaaa acatctccaa aaattttcgt 120

ttcagaacaa ccaagcaacc atattcaaaa aacaataaaa aatgagcaag aattgaaatt 180

ttattctcac tcagaagtta tttttattaa atatcacttt tcgatattgg ggtggtctat 240

atcaatttaa aagacagaat agataattct ttagagtttt agtccccttc gatattgggg 300

tggtctatat cagaagtcat ttaataaggc cactgttaaa agttttagtc cccttcgata 360

ttggggtggt ctatatccca tcctaatttc ttgctgatga gatatttatt tctaattttt 420

ctattttgtc tttattttca atactttcaa tcctattttt ctctttatta ataatataga 480

accaccctat actattatac catatttttt gatttttcaa aattccaata ttttgttttg 540

tgaaattttt tctcccattg tcacttctcc tgcaagtacc ttcatttttt gaaactgatc 600

ttctgtcagg ataatggaac ggattgatga attttctgga gcgagcattg ataactgttt 660

ttctgccagt tcgatttttt cttttgtttt cgacctcatt atatataccg atttttgaag 720

ctgataatat cccttttcta tcaatttttt cctaaaagtc ctatattcaa atctctcaac 780

atctgtctgc ataggaaaat catacataag cagaccaaaa tactcaatac tcatagtcca 840

tcacgctcaa tgtcggaatt atcacttctt catcttttac aaaataattt cgtatactat 900

ccaaataata gtctaccgct tggaaaaaat catatttctt attgttaaat aataccttct 960

gctgtgctac aagaagtatt ttttgcctta tttccttact taatttcact tcattcaaaa 1020

tatccttgta catataaaca agataatcca ccataggacg aaaaacctct attatatcat 1080

cagaaaaatt ataggcatta aactgtgact tatgatgtaa tcctaaactt ggatgaaatc 1140

cttttgctac aatctttgat gatattatag ctcttaaaat catatatcca taattaagtg 1200

cagaattcac tccatcttca tcaaatcttt taaaactatt actatacaat tcctgaaaat 1260

atatccttga agctattgct tcctgatgtt ctgcactcgc atcatctttt ttcaagtttt 1320

ccttatatgt tttcagtctt tcaatggaaa tatcactttt ttcaagatac tctaacaatg 1380

ctctttgatt ttcaatctta ttctccacta tcctgctcca caatttttcc tttttctctt 1440

tttcccactc aatctgctca tttattcgta aagtcacttg aaaatgatta aataatccca 1500

gcgaatgaat ttcaggctga tgtttctcgt tgcaaataat aatcggaatg ttattttcca 1560

ccagcctcaa ctgcaaaatc gcactaatct tacaatagca gttttcaata actatcgcag 1620

atatatcatt caaagaaatc ttatttttct catcattatt gtcttcatca accattataa 1680

gctgattatt cgatattgac aaatcatcag cccttgttat gtgaattata ttgggcattt 1740

taatcatact ccttataaat ttcattctta taacgtatca ttcgtatttt ctatttttgt 1800

taaaagttct attatcaagt ttttaatata atcagaatta taactttcta attctaaaac 1860

agaaactttt ttaggtttca ttaatctttc aagtatatca ttattaccga taagtttaaa 1920

ttttttcttt aattcatcat aatctaaatt cacatctttt ttaaatactt caaatacact 1980

tgcataagtt gaattattat aacgtgtact atatgataat aaattagaaa ctctatcaat 2040

ttgttctgca atactgtaat cagcaaacgg atttcttaca atatagaaat gtgaaatata 2100

gtttctaata ctttcatttt ccggcttatt aatttcagaa ttttcagaca aatcaattcc 2160

aaatccataa catattttct caaatttttt ataagattct tcatcaaaaa atttatagta 2220

tgctgttgtt gtataaaagc catcagatcc attacgctta ggataagctc tacttattcc 2280

agtattgtag ccacttaact taataattcc taattctctt agcccattta caatatagtg 2340

catatctctt tcaaatctag ccatttgaat agcaagtttc caatttatat ctatcaaata 2400

actttctatt ttattcaaat aattaaattc taccaaatct ctaatttttt tgtattcaga 2460

aactctatta taatcttttt caaatgattt atagttttta ttttgtatat tttttgcaaa 2520

aaagtcatca ttttctttca atttttttat atacttctct ttgtattctt tagaatatcc 2580

atttagttta tcatttagat ttttcaatat tgcatcaatt tcagatattt tattttttct 2640

aatattttta ccatcaatat taaataaaaa ttttgcatca gccattttaa tatcatttga 2700

aattaatcca taaattttat caaaatttgg atttccaata tttaaaaata aattcttttt 2760

ataaatatat aattcattct tacgttcttt aggataatat atttcttgaa atttattttc 2820

attctctgat tccatatctt ctattaaatt atctatttct tttttgtatt tttttaaaaa 2880

atcagaatta aatattattc tacacaatat tttactcttt atttcctgat ctttatcttt 2940

tatatactga tcaacctttt ttttcaaatc ctttttattt atgtttgata actttctttg 3000

ttcatcttgt aatatattcg attttttatc tatctcaaat ttagtttcat catcaaaaat 3060

tacaattttt tctaattttt tctctaaaac atcacaacca ttaatatcat ctttaaattc 3120

agttaatata ttatttttta tatcctcata ataattatta aaaatttctt ttttagtttg 3180

tattttaaaa tcatcaaagt ctttttctat ctctttcatt ttttgaataa attcttctaa 3240

attaagattc caattttcag ttatacattc atttctcaaa gtatttaatt gcattatttc 3300

atctaaaata tctataatat tttgatattc tgaagtattt aaccaaactg atgttgcaaa 3360

aaatctattt ctaattttat ttataaccgc attactattt aacagtgcaa atattgaaat 3420

tatatattca aaatcatcat ttattactat agttttatca ctagtcttta cagttattct 3480

ttcgtaagtt ttattatcat taatgtcttt tatttgtttc ttaatttctt gaatattcat 3540

tttaaaatct gaaaaatcaa aaagttcctc ataatttttt ctcaaatatc caatataaca 3600

ttctattact tttttctgat attttttaat agctttatta ttaccttttg aagcagaaat 3660

ctgagcattt ttataataat tttctataat attttcatct atttcatcaa tgtttcctaa 3720

agttttcttt aattcttgta aaaatatatt cttactttca ttttcttcta aatcatcttc 3780

taaaattaat ttcttataca attctttatt cacatatatt aaagcattta atactatttt 3840

ttctgtttct atagtatcaa atggttcatt cttaggatta ttcctatata aatttaatat 3900

ttcaggaagt actttagaaa aggatggtaa atatttaata tcattattat tttcttctga 3960

aattttaata tcatttattt tagtaattat atttttttta tctttaaata ctacatctaa 4020

atttaatgct tttgacactt cttcatctga tatttttaaa ttttgaatta tatttatgac 4080

tttattatag tcatcttgcg ttccttgtaa atctctttcc ttgctaatcg catgtaatat 4140

cctgtttctt tcatttgttc ctatctttgt aaatttccta ataaaattat ttgtaatgtt 4200

atttttatta tctataaaat ctaagtctct tattattttt atttttgaat ttaaaatttt 4260

tttatcaagt acgtaatttt tttctcgatc tcctccaaag aaatctatat tttcatcatt 4320

atttatattt tctctagaaa aaatcttatt taattccata ttggtagaag caaaaaaagt 4380

aatcaattct aaatccaatt cctctttagc gtgaagtcta gaaaaatcat cagtatttac 4440

tgttgtcata tctatatcat tatgtcttaa tttccctaaa tacataatat gctctaacgt 4500

atattgctta actcttttta aaattttttc agataatata ctttcattta aaattttttc 4560

tatttctatt ttttccattt tctttaatct gactttttgt tcatttacca atattttttc 4620

aattcttcct ttcaaatatc gatatatgat tttatatagt tctttttctt catcagattt 4680

ctttgaaaat tttttcgaat caaaattaac tttataatgt tttttaaata ttccaaaaat 4740

ttctgtatca caatttcctt tttttagttc tttttctaat ttttttatta attcatctat 4800

tttaaattct gctaaaattt tttctatttt ttcttttata ctattatttt ttatattttc 4860

tacaaaaaat tttacaattt tatctttttt attttctctt tctattttaa atttttcgtg 4920

cttatctaat agtacataag attttatata tgttctattt cttctctttt caagaaattc 4980

attattaact ttttttactt tttcaattct tttagtaata ttccaaaatt ctaactcttt 5040

tataacaaaa tcagctatat cttctactgt taaatctaca tttatattta aaattttttc 5100

aacaagcatt tttttatttt tagatttctt tttatcacca ccaacattaa gataaaattt 5160

tacaaaaccc agaatttcta aattactttt tattttttct cttatttcca taaaattagt 5220

caaaataaca tctattttat catctttcaa taatttttct cttaaatgtt cttcataata 5280

tcgattttca aatacttttt ctgtttcatt ttcaattatt ttttctataa tcttatataa 5340

actcatgtta atatttttaa aaatttcgta aattgatttt tttgtttcta attcatcatt 5400

ttctattatt cttaatatta ttgaacaatc atttagtgtt ttattagtat actcatctct 5460

gatatctatc tctatttctt cttcattctc ttgtctcttt atttctattt ttttatcatc 5520

tttagttatt ccttgcctaa ttgcttcatc tattattttc ttttttgtaa tccccaatgc 5580

tttcaatttc tcagattttc catatgcttc tatatataat acaacttctt ctgtttccaa 5640

aaaatcatca ttattttcta ttcttatgat tccttcttta cctttcaact taaatagaat 5700

atttcctgca tgaaattttc ttgtaaattc tttaagaata ttatcatttt ttttgtaatt 5760

aatatatttt ctaataaatt tattattatc aattttttct ttattattat tttcattaat 5820

atttaaaatg tatttgtttc catcatagtt ccttttaact tttactttcc gttttatttt 5880

aaaatctttt ttatcacgaa cttcatacca tctcttatgt ccaaataaat ttcccattcc 5940

aatctcctcg tttctacttt aatctaataa aatattttta aattaaatca attttacatc 6000

tttctaatca aaaatacaat tttccatttt tagtatacca catcaatatt aaatctcaaa 6060

aaaataagga gccgtcaaac atagctccct acttctattt actcataatc cccatctatc 6120

cttacttttc gtaaaatcaa tccttctttc gcctttagat ccaacttaat tttcccattt 6180

gaacctgttc taaatgttct gccttctgtt accaaatcaa taaatctttc atcctgataa 6240

tttgtttcaa attccacatt ttcccagctg ttaaacgaat tatttattac aacaataatt 6300

aaatgatcct cgattactct ttcatacaca attattt 6337

<210> 68

<211> 1477

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность Candidatus Peregrinibacteria bacterium

<400> 68

Met Ser Asn Phe Phe Lys Asn Phe Thr Asn Leu Tyr Glu Leu Ser Lys

1 5 10 15

Thr Leu Arg Phe Glu Leu Lys Pro Val Gly Asp Thr Leu Thr Asn Met

20 25 30

Lys Asp His Leu Glu Tyr Asp Glu Lys Leu Gln Thr Phe Leu Lys Asp

35 40 45

Gln Asn Ile Asp Asp Ala Tyr Gln Ala Leu Lys Pro Gln Phe Asp Glu

50 55 60

Ile His Glu Glu Phe Ile Thr Asp Ser Leu Glu Ser Lys Lys Ala Lys

65 70 75 80

Glu Ile Asp Phe Ser Glu Tyr Leu Asp Leu Phe Gln Glu Lys Lys Glu

85 90 95

Leu Asn Asp Ser Glu Lys Lys Leu Arg Asn Lys Ile Gly Glu Thr Phe

100 105 110

Asn Lys Ala Gly Glu Lys Trp Lys Lys Glu Lys Tyr Pro Gln Tyr Glu

115 120 125

Trp Lys Lys Gly Ser Lys Ile Ala Asn Gly Ala Asp Ile Leu Ser Cys

130 135 140

Gln Asp Met Leu Gln Phe Ile Lys Tyr Lys Asn Pro Glu Asp Glu Lys

145 150 155 160

Ile Lys Asn Tyr Ile Asp Asp Thr Leu Lys Gly Phe Phe Thr Tyr Phe

165 170 175

Gly Gly Phe Asn Gln Asn Arg Ala Asn Tyr Tyr Glu Thr Lys Lys Glu

180 185 190

Ala Ser Thr Ala Val Ala Thr Arg Ile Val His Glu Asn Leu Pro Lys

195 200 205

Phe Cys Asp Asn Val Ile Gln Phe Lys His Ile Ile Lys Arg Lys Lys

210 215 220

Asp Gly Thr Val Glu Lys Thr Glu Arg Lys Thr Glu Tyr Leu Asn Ala

225 230 235 240

Tyr Gln Tyr Leu Lys Asn Asn Asn Lys Ile Thr Gln Ile Lys Asp Ala

245 250 255

Glu Thr Glu Lys Met Ile Glu Ser Thr Pro Ile Ala Glu Lys Ile Phe

260 265 270

Asp Val Tyr Tyr Phe Ser Ser Cys Leu Ser Gln Lys Gln Ile Glu Glu

275 280 285

Tyr Asn Arg Ile Ile Gly His Tyr Asn Leu Leu Ile Asn Leu Tyr Asn

290 295 300

Gln Ala Lys Arg Ser Glu Gly Lys His Leu Ser Ala Asn Glu Lys Lys

305 310 315 320

Tyr Lys Asp Leu Pro Lys Phe Lys Thr Leu Tyr Lys Gln Ile Gly Cys

325 330 335

Gly Lys Lys Lys Asp Leu Phe Tyr Thr Ile Lys Cys Asp Thr Glu Glu

340 345 350

Glu Ala Asn Lys Ser Arg Asn Glu Gly Lys Glu Ser His Ser Val Glu

355 360 365

Glu Ile Ile Asn Lys Ala Gln Glu Ala Ile Asn Lys Tyr Phe Lys Ser

370 375 380

Asn Asn Asp Cys Glu Asn Ile Asn Thr Val Pro Asp Phe Ile Asn Tyr

385 390 395 400

Ile Leu Thr Lys Glu Asn Tyr Glu Gly Val Tyr Trp Ser Lys Ala Ala

405 410 415

Met Asn Thr Ile Ser Asp Lys Tyr Phe Ala Asn Tyr His Asp Leu Gln

420 425 430

Asp Arg Leu Lys Glu Ala Lys Val Phe Gln Lys Ala Asp Lys Lys Ser

435 440 445

Glu Asp Asp Ile Lys Ile Pro Glu Ala Ile Glu Leu Ser Gly Leu Phe

450 455 460

Gly Val Leu Asp Ser Leu Ala Asp Trp Gln Thr Thr Leu Phe Lys Ser

465 470 475 480

Ser Ile Leu Ser Asn Glu Asp Lys Leu Lys Ile Ile Thr Asp Ser Gln

485 490 495

Thr Pro Ser Glu Ala Leu Leu Lys Met Ile Phe Asn Asp Ile Glu Lys

500 505 510

Asn Met Glu Ser Phe Leu Lys Glu Thr Asn Asp Ile Ile Thr Leu Lys

515 520 525

Lys Tyr Lys Gly Asn Lys Glu Gly Thr Glu Lys Ile Lys Gln Trp Phe

530 535 540

Asp Tyr Thr Leu Ala Ile Asn Arg Met Leu Lys Tyr Phe Leu Val Lys

545 550 555 560

Glu Asn Lys Ile Lys Gly Asn Ser Leu Asp Thr Asn Ile Ser Glu Ala

565 570 575

Leu Lys Thr Leu Ile Tyr Ser Asp Asp Ala Glu Trp Phe Lys Trp Tyr

580 585 590

Asp Ala Leu Arg Asn Tyr Leu Thr Gln Lys Pro Gln Asp Glu Ala Lys

595 600 605

Glu Asn Lys Leu Lys Leu Asn Phe Asp Asn Pro Ser Leu Ala Gly Gly

610 615 620

Trp Asp Val Asn Lys Glu Cys Ser Asn Phe Cys Val Ile Leu Lys Asp

625 630 635 640

Lys Asn Glu Lys Lys Tyr Leu Ala Ile Met Lys Lys Gly Glu Asn Thr

645 650 655

Leu Phe Gln Lys Glu Trp Thr Glu Gly Arg Gly Lys Asn Leu Thr Lys

660 665 670

Lys Ser Asn Pro Leu Phe Glu Ile Asn Asn Cys Glu Ile Leu Ser Lys

675 680 685

Met Glu Tyr Asp Phe Trp Ala Asp Val Ser Lys Met Ile Pro Lys Cys

690 695 700

Ser Thr Gln Leu Lys Ala Val Val Asn His Phe Lys Gln Ser Asp Asn

705 710 715 720

Glu Phe Ile Phe Pro Ile Gly Tyr Lys Val Thr Ser Gly Glu Lys Phe

725 730 735

Arg Glu Glu Cys Lys Ile Ser Lys Gln Asp Phe Glu Leu Asn Asn Lys

740 745 750

Val Phe Asn Lys Asn Glu Leu Ser Val Thr Ala Met Arg Tyr Asp Leu

755 760 765

Ser Ser Thr Gln Glu Lys Gln Tyr Ile Lys Ala Phe Gln Lys Glu Tyr

770 775 780

Trp Glu Leu Leu Phe Lys Gln Glu Lys Arg Asp Thr Lys Leu Thr Asn

785 790 795 800

Asn Glu Ile Phe Asn Glu Trp Ile Asn Phe Cys Asn Lys Lys Tyr Ser

805 810 815

Glu Leu Leu Ser Trp Glu Arg Lys Tyr Lys Asp Ala Leu Thr Asn Trp

820 825 830

Ile Asn Phe Cys Lys Tyr Phe Leu Ser Lys Tyr Pro Lys Thr Thr Leu

835 840 845

Phe Asn Tyr Ser Phe Lys Glu Ser Glu Asn Tyr Asn Ser Leu Asp Glu

850 855 860

Phe Tyr Arg Asp Val Asp Ile Cys Ser Tyr Lys Leu Asn Ile Asn Thr

865 870 875 880

Thr Ile Asn Lys Ser Ile Leu Asp Arg Leu Val Glu Glu Gly Lys Leu

885 890 895

Tyr Leu Phe Glu Ile Lys Asn Gln Asp Ser Asn Asp Gly Lys Ser Ile

900 905 910

Gly His Lys Asn Asn Leu His Thr Ile Tyr Trp Asn Ala Ile Phe Glu

915 920 925

Asn Phe Asp Asn Arg Pro Lys Leu Asn Gly Glu Ala Glu Ile Phe Tyr

930 935 940

Arg Lys Ala Ile Ser Lys Asp Lys Leu Gly Ile Val Lys Gly Lys Lys

945 950 955 960

Thr Lys Asn Gly Thr Glu Ile Ile Lys Asn Tyr Arg Phe Ser Lys Glu

965 970 975

Lys Phe Ile Leu His Val Pro Ile Thr Leu Asn Phe Cys Ser Asn Asn

980 985 990

Glu Tyr Val Asn Asp Ile Val Asn Thr Lys Phe Tyr Asn Phe Ser Asn

995 1000 1005

Leu His Phe Leu Gly Ile Asp Arg Gly Glu Lys His Leu Ala Tyr

1010 1015 1020

Tyr Ser Leu Val Asn Lys Asn Gly Glu Ile Val Asp Gln Gly Thr

1025 1030 1035

Leu Asn Leu Pro Phe Thr Asp Lys Asp Gly Asn Gln Arg Ser Ile

1040 1045 1050

Lys Lys Glu Lys Tyr Phe Tyr Asn Lys Gln Glu Asp Lys Trp Glu

1055 1060 1065

Ala Lys Glu Val Asp Cys Trp Asn Tyr Asn Asp Leu Leu Asp Ala

1070 1075 1080

Met Ala Ser Asn Arg Asp Met Ala Arg Lys Asn Trp Gln Arg Ile

1085 1090 1095

Gly Thr Ile Lys Glu Ala Lys Asn Gly Tyr Val Ser Leu Val Ile

1100 1105 1110

Arg Lys Ile Ala Asp Leu Ala Val Asn Asn Glu Arg Pro Ala Phe

1115 1120 1125

Ile Val Leu Glu Asp Leu Asn Thr Gly Phe Lys Arg Ser Arg Gln

1130 1135 1140

Lys Ile Asp Lys Ser Val Tyr Gln Lys Phe Glu Leu Ala Leu Ala

1145 1150 1155

Lys Lys Leu Asn Phe Leu Val Asp Lys Asn Ala Lys Arg Asp Glu

1160 1165 1170

Ile Gly Ser Pro Thr Lys Ala Leu Gln Leu Thr Pro Pro Val Asn

1175 1180 1185

Asn Tyr Gly Asp Ile Glu Asn Lys Lys Gln Ala Gly Ile Met Leu

1190 1195 1200

Tyr Thr Arg Ala Asn Tyr Thr Ser Gln Thr Asp Pro Ala Thr Gly

1205 1210 1215

Trp Arg Lys Thr Ile Tyr Leu Lys Ala Gly Pro Glu Glu Thr Thr

1220 1225 1230

Tyr Lys Lys Asp Gly Lys Ile Lys Asn Lys Ser Val Lys Asp Gln

1235 1240 1245

Ile Ile Glu Thr Phe Thr Asp Ile Gly Phe Asp Gly Lys Asp Tyr

1250 1255 1260

Tyr Phe Glu Tyr Asp Lys Gly Glu Phe Val Asp Glu Lys Thr Gly

1265 1270 1275

Glu Ile Lys Pro Lys Lys Trp Arg Leu Tyr Ser Gly Glu Asn Gly

1280 1285 1290

Lys Ser Leu Asp Arg Phe Arg Gly Glu Arg Glu Lys Asp Lys Tyr

1295 1300 1305

Glu Trp Lys Ile Asp Lys Ile Asp Ile Val Lys Ile Leu Asp Asp

1310 1315 1320

Leu Phe Val Asn Phe Asp Lys Asn Ile Ser Leu Leu Lys Gln Leu

1325 1330 1335

Lys Glu Gly Val Glu Leu Thr Arg Asn Asn Glu His Gly Thr Gly

1340 1345 1350

Glu Ser Leu Arg Phe Ala Ile Asn Leu Ile Gln Gln Ile Arg Asn

1355 1360 1365

Thr Gly Asn Asn Glu Arg Asp Asn Asp Phe Ile Leu Ser Pro Val

1370 1375 1380

Arg Asp Glu Asn Gly Lys His Phe Asp Ser Arg Glu Tyr Trp Asp

1385 1390 1395

Lys Glu Thr Lys Gly Glu Lys Ile Ser Met Pro Ser Ser Gly Asp

1400 1405 1410

Ala Asn Gly Ala Phe Asn Ile Ala Arg Lys Gly Ile Ile Met Asn

1415 1420 1425

Ala His Ile Leu Ala Asn Ser Asp Ser Lys Asp Leu Ser Leu Phe

1430 1435 1440

Val Ser Asp Glu Glu Trp Asp Leu His Leu Asn Asn Lys Thr Glu

1445 1450 1455

Trp Lys Lys Gln Leu Asn Ile Phe Ser Ser Arg Lys Ala Met Ala

1460 1465 1470

Lys Arg Lys Lys

1475

<210> 69

<211> 1403

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность Candidatus Falkowbacteria bacterium

<400> 69

Met Leu Phe Phe Met Ser Thr Asp Ile Thr Asn Lys Pro Arg Glu Lys

1 5 10 15

Gly Val Phe Asp Asn Phe Thr Asn Leu Tyr Glu Phe Ser Lys Thr Leu

20 25 30

Thr Phe Gly Leu Ile Pro Leu Lys Trp Asp Asp Asn Lys Lys Met Ile

35 40 45

Val Glu Asp Glu Asp Phe Ser Val Leu Arg Lys Tyr Gly Val Ile Glu

50 55 60

Glu Asp Lys Arg Ile Ala Glu Ser Ile Lys Ile Ala Lys Phe Tyr Leu

65 70 75 80

Asn Ile Leu His Arg Glu Leu Ile Gly Lys Val Leu Gly Ser Leu Lys

85 90 95

Phe Glu Lys Lys Asn Leu Glu Asn Tyr Asp Arg Leu Leu Gly Glu Ile

100 105 110

Glu Lys Asn Asn Lys Asn Glu Asn Ile Ser Glu Asp Lys Lys Lys Glu

115 120 125

Ile Arg Lys Asn Phe Lys Lys Glu Leu Ser Ile Ala Gln Asp Ile Leu

130 135 140

Leu Lys Lys Val Gly Glu Val Phe Glu Ser Asn Gly Ser Gly Ile Leu

145 150 155 160

Ser Ser Lys Asn Cys Leu Asp Glu Leu Thr Lys Arg Phe Thr Arg Gln

165 170 175

Glu Val Asp Lys Leu Arg Arg Glu Asn Lys Asp Ile Gly Val Glu Tyr

180 185 190

Pro Asp Val Ala Tyr Arg Glu Lys Asp Gly Lys Glu Glu Thr Lys Ser

195 200 205

Phe Phe Ala Met Asp Val Gly Tyr Leu Asp Asp Phe His Lys Asn Arg

210 215 220

Lys Gln Leu Tyr Ser Val Lys Gly Lys Lys Asn Ser Leu Gly Arg Arg

225 230 235 240

Ile Leu Asp Asn Phe Glu Ile Phe Cys Lys Asn Lys Lys Leu Tyr Glu

245 250 255

Lys Tyr Lys Asn Leu Asp Ile Asp Phe Ser Glu Ile Glu Arg Asn Phe

260 265 270

Asn Leu Thr Leu Glu Lys Val Phe Asp Phe Asp Asn Tyr Asn Glu Arg

275 280 285

Leu Thr Gln Glu Gly Leu Asp Glu Tyr Ala Lys Ile Leu Gly Gly Glu

290 295 300

Ser Asn Lys Gln Glu Arg Thr Ala Asn Ile His Gly Leu Asn Gln Ile

305 310 315 320

Ile Asn Leu Tyr Ile Gln Lys Lys Gln Ser Glu Gln Lys Ala Glu Gln

325 330 335

Lys Glu Thr Gly Lys Lys Lys Ile Lys Phe Asn Lys Lys Asp Tyr Pro

340 345 350

Thr Phe Thr Cys Leu Gln Lys Gln Ile Leu Ser Gln Val Phe Arg Lys

355 360 365

Glu Ile Ile Ile Glu Ser Asp Arg Asp Leu Ile Arg Glu Leu Lys Phe

370 375 380

Phe Val Glu Glu Ser Lys Glu Lys Val Asp Lys Ala Arg Gly Ile Ile

385 390 395 400

Glu Phe Leu Leu Asn His Glu Glu Asn Asp Ile Asp Leu Ala Met Val

405 410 415

Tyr Leu Pro Lys Ser Lys Ile Asn Ser Phe Val Tyr Lys Val Phe Lys

420 425 430

Glu Pro Gln Asp Phe Leu Ser Val Phe Gln Asp Gly Ala Ser Asn Leu

435 440 445

Asp Phe Val Ser Phe Asp Lys Ile Lys Thr His Leu Glu Asn Asn Lys

450 455 460

Leu Thr Tyr Lys Ile Phe Phe Lys Thr Leu Ile Lys Glu Asn His Asp

465 470 475 480

Phe Glu Ser Phe Leu Ile Leu Leu Gln Gln Glu Ile Asp Leu Leu Ile

485 490 495

Asp Gly Gly Glu Thr Val Thr Leu Gly Gly Lys Lys Glu Ser Ile Thr

500 505 510

Ser Leu Asp Glu Lys Lys Asn Arg Leu Lys Glu Lys Leu Gly Trp Phe

515 520 525

Glu Gly Lys Val Arg Glu Asn Glu Lys Met Lys Asp Glu Glu Glu Gly

530 535 540

Glu Phe Cys Ser Thr Val Leu Ala Tyr Ser Gln Ala Val Leu Asn Ile

545 550 555 560

Thr Lys Arg Ala Glu Ile Phe Trp Leu Asn Glu Lys Gln Asp Ala Lys

565 570 575

Val Gly Glu Asp Asn Lys Asp Met Ile Phe Tyr Lys Lys Phe Asp Glu

580 585 590

Phe Ala Asp Asp Gly Phe Ala Pro Phe Phe Tyr Phe Asp Lys Phe Gly

595 600 605

Asn Tyr Leu Lys Arg Arg Ser Arg Asn Thr Thr Lys Glu Ile Lys Leu

610 615 620

His Phe Gly Asn Asp Asp Leu Leu Glu Gly Trp Asp Met Asn Lys Glu

625 630 635 640

Pro Glu Tyr Trp Ser Phe Ile Leu Arg Asp Arg Asn Gln Tyr Tyr Leu

645 650 655

Gly Ile Gly Lys Lys Asp Gly Glu Ile Phe His Lys Lys Leu Gly Asn

660 665 670

Ser Val Glu Ala Val Lys Glu Ala Tyr Glu Leu Glu Asn Glu Ala Asp

675 680 685

Phe Tyr Glu Lys Ile Asp Tyr Lys Gln Leu Asn Ile Asp Arg Phe Glu

690 695 700

Gly Ile Ala Phe Pro Lys Lys Thr Lys Thr Glu Glu Ala Phe Arg Gln

705 710 715 720

Val Cys Lys Lys Arg Ala Asp Glu Phe Leu Gly Gly Asp Thr Tyr Glu

725 730 735

Phe Lys Ile Leu Leu Ala Ile Lys Lys Glu Tyr Asp Asp Phe Lys Ala

740 745 750

Arg Arg Gln Lys Glu Lys Asp Trp Asp Ser Lys Phe Ser Lys Glu Lys

755 760 765

Met Ser Lys Leu Ile Glu Tyr Tyr Ile Thr Cys Leu Gly Lys Arg Asp

770 775 780

Asp Trp Lys Arg Phe Asn Leu Asn Phe Arg Gln Pro Lys Glu Tyr Glu

785 790 795 800

Asp Arg Ser Asp Phe Val Arg His Ile Gln Arg Gln Ala Tyr Trp Ile

805 810 815

Asp Pro Arg Lys Val Ser Lys Asp Tyr Val Asp Lys Lys Val Ala Glu

820 825 830

Gly Glu Met Phe Leu Phe Lys Val His Asn Lys Asp Phe Tyr Asp Phe

835 840 845

Glu Arg Lys Ser Glu Asp Lys Lys Asn His Thr Ala Asn Leu Phe Thr

850 855 860

Gln Tyr Leu Leu Glu Leu Phe Ser Cys Glu Asn Ile Lys Asn Ile Lys

865 870 875 880

Ser Lys Asp Leu Ile Glu Ser Ile Phe Glu Leu Asp Gly Lys Ala Glu

885 890 895

Ile Arg Phe Arg Pro Lys Thr Asp Asp Val Lys Leu Lys Ile Tyr Gln

900 905 910

Lys Lys Gly Lys Asp Val Thr Tyr Ala Asp Lys Arg Asp Gly Asn Lys

915 920 925

Glu Lys Glu Val Ile Gln His Arg Arg Phe Ala Lys Asp Ala Leu Thr

930 935 940

Leu His Leu Lys Ile Arg Leu Asn Phe Gly Lys His Val Asn Leu Phe

945 950 955 960

Asp Phe Asn Lys Leu Val Asn Thr Glu Leu Phe Ala Lys Val Pro Val

965 970 975

Lys Ile Leu Gly Met Asp Arg Gly Glu Asn Asn Leu Ile Tyr Tyr Cys

980 985 990

Phe Leu Asp Glu His Gly Glu Ile Glu Asn Gly Lys Cys Gly Ser Leu

995 1000 1005

Asn Arg Val Gly Glu Gln Ile Ile Thr Leu Glu Asp Asp Lys Lys

1010 1015 1020

Val Lys Glu Pro Val Asp Tyr Phe Gln Leu Leu Val Asp Arg Glu

1025 1030 1035

Gly Gln Arg Asp Trp Glu Gln Lys Asn Trp Gln Lys Met Thr Arg

1040 1045 1050

Ile Lys Asp Leu Lys Lys Ala Tyr Leu Gly Asn Val Val Ser Trp

1055 1060 1065

Ile Ser Lys Glu Met Leu Ser Gly Ile Lys Glu Gly Val Val Thr

1070 1075 1080

Ile Gly Val Leu Glu Asp Leu Asn Ser Asn Phe Lys Arg Thr Arg

1085 1090 1095

Phe Phe Arg Glu Arg Gln Val Tyr Gln Gly Phe Glu Lys Ala Leu

1100 1105 1110

Val Asn Lys Leu Gly Tyr Leu Val Asp Lys Lys Tyr Asp Asn Tyr

1115 1120 1125

Arg Asn Val Tyr Gln Phe Ala Pro Ile Val Asp Ser Val Glu Glu

1130 1135 1140

Met Glu Lys Asn Lys Gln Ile Gly Thr Leu Val Tyr Val Pro Ala

1145 1150 1155

Ser Tyr Thr Ser Lys Ile Cys Pro His Pro Lys Cys Gly Trp Arg

1160 1165 1170

Glu Arg Leu Tyr Met Lys Asn Ser Ala Ser Lys Glu Lys Ile Val

1175 1180 1185

Gly Leu Leu Lys Ser Asp Gly Ile Lys Ile Ser Tyr Asp Gln Lys

1190 1195 1200

Asn Asp Arg Phe Tyr Phe Glu Tyr Gln Trp Glu Gln Glu His Lys

1205 1210 1215

Ser Asp Gly Lys Lys Lys Lys Tyr Ser Gly Val Asp Lys Val Phe

1220 1225 1230

Ser Asn Val Ser Arg Met Arg Trp Asp Val Glu Gln Lys Lys Ser

1235 1240 1245

Ile Asp Phe Val Asp Gly Thr Asp Gly Ser Ile Thr Asn Lys Leu

1250 1255 1260

Lys Ser Leu Leu Lys Gly Lys Gly Ile Glu Leu Asp Asn Ile Asn

1265 1270 1275

Gln Gln Ile Val Asn Gln Gln Lys Glu Leu Gly Val Glu Phe Phe

1280 1285 1290

Gln Ser Ile Ile Phe Tyr Phe Asn Leu Ile Met Gln Ile Arg Asn

1295 1300 1305

Tyr Asp Lys Glu Lys Ser Gly Ser Glu Ala Asp Tyr Ile Gln Cys

1310 1315 1320

Pro Ser Cys Leu Phe Asp Ser Arg Lys Pro Glu Met Asn Gly Lys

1325 1330 1335

Leu Ser Ala Ile Thr Asn Gly Asp Ala Asn Gly Ala Tyr Asn Ile

1340 1345 1350

Ala Arg Lys Gly Phe Met Gln Leu Cys Arg Ile Arg Glu Asn Pro

1355 1360 1365

Gln Glu Pro Met Lys Leu Ile Thr Asn Arg Glu Trp Asp Glu Ala

1370 1375 1380

Val Arg Glu Trp Asp Ile Tyr Ser Ala Ala Gln Lys Ile Pro Val

1385 1390 1395

Leu Ser Glu Glu Asn

1400

<210> 70

<211> 1373

<212> БЕЛОК

<213> Moraxella bovoculi

<400> 70

Met Leu Phe Gln Asp Phe Thr His Leu Tyr Pro Leu Ser Lys Thr Val

1 5 10 15

Arg Phe Glu Leu Lys Pro Ile Asp Arg Thr Leu Glu His Ile His Ala

20 25 30

Lys Asn Phe Leu Ser Gln Asp Glu Thr Met Ala Asp Met His Gln Lys

35 40 45

Val Lys Val Ile Leu Asp Asp Tyr His Arg Asp Phe Ile Ala Asp Met

50 55 60

Met Gly Glu Val Lys Leu Thr Lys Leu Ala Glu Phe Tyr Asp Val Tyr

65 70 75 80

Leu Lys Phe Arg Lys Asn Pro Lys Asp Asp Glu Leu Gln Lys Gln Leu

85 90 95

Lys Asp Leu Gln Ala Val Leu Arg Lys Glu Ile Val Lys Pro Ile Gly

100 105 110

Asn Gly Gly Lys Tyr Lys Ala Gly Tyr Asp Arg Leu Phe Gly Ala Lys

115 120 125

Leu Phe Lys Asp Gly Lys Glu Leu Gly Asp Leu Ala Lys Phe Val Ile

130 135 140

Ala Gln Glu Gly Glu Ser Ser Pro Lys Leu Ala His Leu Ala His Phe

145 150 155 160

Glu Lys Phe Ser Thr Tyr Phe Thr Gly Phe His Asp Asn Arg Lys Asn

165 170 175

Met Tyr Ser Asp Glu Asp Lys His Thr Ala Ile Ala Tyr Arg Leu Ile

180 185 190

His Glu Asn Leu Pro Arg Phe Ile Asp Asn Leu Gln Ile Leu Thr Thr

195 200 205

Ile Lys Gln Lys His Ser Ala Leu Tyr Asp Gln Ile Ile Asn Glu Leu

210 215 220

Thr Ala Ser Gly Leu Asp Val Ser Leu Ala Ser His Leu Asp Gly Tyr

225 230 235 240

His Lys Leu Leu Thr Gln Glu Gly Ile Thr Ala Tyr Asn Thr Leu Leu

245 250 255

Gly Gly Ile Ser Gly Glu Ala Gly Ser Pro Lys Ile Gln Gly Ile Asn

260 265 270

Glu Leu Ile Asn Ser His His Asn Gln His Cys His Lys Ser Glu Arg

275 280 285

Ile Ala Lys Leu Arg Pro Leu His Lys Gln Ile Leu Ser Asp Gly Met

290 295 300

Ser Val Ser Phe Leu Pro Ser Lys Phe Ala Asp Asp Ser Glu Met Cys

305 310 315 320

Gln Ala Val Asn Glu Phe Tyr Arg His Tyr Ala Asp Val Phe Ala Lys

325 330 335

Val Gln Ser Leu Phe Asp Gly Phe Asp Asp His Gln Lys Asp Gly Ile

340 345 350

Tyr Val Glu His Lys Asn Leu Asn Glu Leu Ser Lys Gln Ala Phe Gly

355 360 365

Asp Phe Ala Leu Leu Gly Arg Val Leu Asp Gly Tyr Tyr Val Asp Val

370 375 380

Val Asn Pro Glu Phe Asn Glu Arg Phe Ala Lys Ala Lys Thr Asp Asn

385 390 395 400

Ala Lys Ala Lys Leu Thr Lys Glu Lys Asp Lys Phe Ile Lys Gly Val

405 410 415

His Ser Leu Ala Ser Leu Glu Gln Ala Ile Glu His Tyr Thr Ala Arg

420 425 430

His Asp Asp Glu Ser Val Gln Ala Gly Lys Leu Gly Gln Tyr Phe Lys

435 440 445

His Gly Leu Ala Gly Val Asp Asn Pro Ile Gln Lys Ile His Asn Asn

450 455 460

His Ser Thr Ile Lys Gly Phe Leu Glu Arg Glu Arg Pro Ala Gly Glu

465 470 475 480

Arg Ala Leu Pro Lys Ile Lys Ser Gly Lys Asn Pro Glu Met Thr Gln

485 490 495

Leu Arg Gln Leu Lys Glu Leu Leu Asp Asn Ala Leu Asn Val Ala His

500 505 510

Phe Ala Lys Leu Leu Thr Thr Lys Thr Thr Leu Asp Asn Gln Asp Gly

515 520 525

Asn Phe Tyr Gly Glu Phe Gly Val Leu Tyr Asp Glu Leu Ala Lys Ile

530 535 540

Pro Thr Leu Tyr Asn Lys Val Arg Asp Tyr Leu Ser Gln Lys Pro Phe

545 550 555 560

Ser Thr Glu Lys Tyr Lys Leu Asn Phe Gly Asn Pro Thr Leu Leu Asn

565 570 575

Gly Trp Asp Leu Asn Lys Glu Lys Asp Asn Phe Gly Val Ile Leu Gln

580 585 590

Lys Asp Gly Cys Tyr Tyr Leu Ala Leu Leu Asp Lys Ala His Lys Lys

595 600 605

Val Phe Asp Asn Ala Pro Asn Thr Gly Lys Ser Ile Tyr Gln Lys Met

610 615 620

Ile Tyr Lys Tyr Leu Glu Val Arg Lys Gln Phe Pro Lys Val Phe Phe

625 630 635 640

Ser Lys Glu Ala Ile Ala Ile Asn Tyr His Pro Ser Lys Glu Leu Val

645 650 655

Glu Ile Lys Asp Lys Gly Arg Gln Arg Ser Asp Asp Glu Arg Leu Lys

660 665 670

Leu Tyr Arg Phe Ile Leu Glu Cys Leu Lys Ile His Pro Lys Tyr Asp

675 680 685

Lys Lys Phe Glu Gly Ala Ile Gly Asp Ile Gln Leu Phe Lys Lys Asp

690 695 700

Lys Lys Gly Arg Glu Val Pro Ile Ser Glu Lys Asp Leu Phe Asp Lys

705 710 715 720

Ile Asn Gly Ile Phe Ser Ser Lys Pro Lys Leu Glu Met Glu Asp Phe

725 730 735

Phe Ile Gly Glu Phe Lys Arg Tyr Asn Pro Ser Gln Asp Leu Val Asp

740 745 750

Gln Tyr Asn Ile Tyr Lys Lys Ile Asp Ser Asn Asp Asn Arg Lys Lys

755 760 765

Glu Asn Phe Tyr Asn Asn His Pro Lys Phe Lys Lys Asp Leu Val Arg

770 775 780

Tyr Tyr Tyr Glu Ser Met Cys Lys His Glu Glu Trp Glu Glu Ser Phe

785 790 795 800

Glu Phe Ser Lys Lys Leu Gln Asp Ile Gly Cys Tyr Val Asp Val Asn

805 810 815

Glu Leu Phe Thr Glu Ile Glu Thr Arg Arg Leu Asn Tyr Lys Ile Ser

820 825 830

Phe Cys Asn Ile Asn Ala Asp Tyr Ile Asp Glu Leu Val Glu Gln Gly

835 840 845

Gln Leu Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Pro Lys Ala

850 855 860

His Gly Lys Pro Asn Leu His Thr Leu Tyr Phe Lys Ala Leu Phe Ser

865 870 875 880

Glu Asp Asn Leu Ala Asp Pro Ile Tyr Lys Leu Asn Gly Glu Ala Gln

885 890 895

Ile Phe Tyr Arg Lys Ala Ser Leu Asp Met Asn Glu Thr Thr Ile His

900 905 910

Arg Ala Gly Glu Val Leu Glu Asn Lys Asn Pro Asp Asn Pro Lys Lys

915 920 925

Arg Gln Phe Val Tyr Asp Ile Ile Lys Asp Lys Arg Tyr Thr Gln Asp

930 935 940

Lys Phe Met Leu His Val Pro Ile Thr Met Asn Phe Gly Val Gln Gly

945 950 955 960

Met Thr Ile Lys Glu Phe Asn Lys Lys Val Asn Gln Ser Ile Gln Gln

965 970 975

Tyr Asp Glu Val Asn Val Ile Gly Ile Asp Arg Gly Glu Arg His Leu

980 985 990

Leu Tyr Leu Thr Val Ile Asn Ser Lys Gly Glu Ile Leu Glu Gln Cys

995 1000 1005

Ser Leu Asn Asp Ile Thr Thr Ala Ser Ala Asn Gly Thr Gln Met

1010 1015 1020

Thr Thr Pro Tyr His Lys Ile Leu Asp Lys Arg Glu Ile Glu Arg

1025 1030 1035

Leu Asn Ala Arg Val Gly Trp Gly Glu Ile Glu Thr Ile Lys Glu

1040 1045 1050

Leu Lys Ser Gly Tyr Leu Ser His Val Val His Gln Ile Ser Gln

1055 1060 1065

Leu Met Leu Lys Tyr Asn Ala Ile Val Val Leu Glu Asp Leu Asn

1070 1075 1080

Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Ile Tyr

1085 1090 1095

Gln Asn Phe Glu Asn Ala Leu Ile Lys Lys Leu Asn His Leu Val

1100 1105 1110

Leu Lys Asp Lys Ala Asp Asp Glu Ile Gly Ser Tyr Lys Asn Ala

1115 1120 1125

Leu Gln Leu Thr Asn Asn Phe Thr Asp Leu Lys Ser Ile Gly Lys

1130 1135 1140

Gln Thr Gly Phe Leu Phe Tyr Val Pro Ala Trp Asn Thr Ser Lys

1145 1150 1155

Ile Asp Pro Glu Thr Gly Phe Val Asp Leu Leu Lys Pro Arg Tyr

1160 1165 1170

Glu Asn Ile Ala Gln Ser Gln Ala Phe Phe Gly Lys Phe Asp Lys

1175 1180 1185

Ile Cys Tyr Asn Ala Asp Lys Asp Tyr Phe Glu Phe His Ile Asp

1190 1195 1200

Tyr Ala Lys Phe Thr Asp Lys Ala Lys Asn Ser Arg Gln Ile Trp

1205 1210 1215

Thr Ile Cys Ser His Gly Asp Lys Arg Tyr Val Tyr Asp Lys Thr

1220 1225 1230

Ala Asn Gln Asn Lys Gly Ala Ala Lys Gly Ile Asn Val Asn Asp

1235 1240 1245

Glu Leu Lys Ser Leu Phe Ala Arg His His Ile Asn Glu Lys Gln

1250 1255 1260

Pro Asn Leu Val Met Asp Ile Cys Gln Asn Asn Asp Lys Glu Phe

1265 1270 1275

His Lys Ser Leu Met Tyr Leu Leu Lys Thr Leu Leu Ala Leu Arg

1280 1285 1290

Tyr Ser Asn Ala Ser Ser Asp Glu Asp Phe Ile Leu Ser Pro Val

1295 1300 1305

Ala Asn Asp Glu Gly Val Phe Phe Asn Ser Ala Leu Ala Asp Asp

1310 1315 1320

Thr Gln Pro Gln Asn Ala Asp Ala Asn Gly Ala Tyr His Ile Ala

1325 1330 1335

Leu Lys Gly Leu Trp Leu Leu Asn Glu Leu Lys Asn Ser Asp Asp

1340 1345 1350

Leu Asn Lys Val Lys Leu Ala Ile Asp Asn Gln Thr Trp Leu Asn

1355 1360 1365

Phe Ala Gln Asn Arg

1370

<210> 71

<211> 1352

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность бактерии группы Parcubacteria

<400> 71

Met Glu Asn Ile Phe Asp Gln Phe Ile Gly Lys Tyr Ser Leu Ser Lys

1 5 10 15

Thr Leu Arg Phe Glu Leu Lys Pro Val Gly Lys Thr Glu Asp Phe Leu

20 25 30

Lys Ile Asn Lys Val Phe Glu Lys Asp Gln Thr Ile Asp Asp Ser Tyr

35 40 45

Asn Gln Ala Lys Phe Tyr Phe Asp Ser Leu His Gln Lys Phe Ile Asp

50 55 60

Ala Ala Leu Ala Ser Asp Lys Thr Ser Glu Leu Ser Phe Gln Asn Phe

65 70 75 80

Ala Asp Val Leu Glu Lys Gln Asn Lys Ile Ile Leu Asp Lys Lys Arg

85 90 95

Glu Met Gly Ala Leu Arg Lys Arg Asp Lys Asn Ala Val Gly Ile Asp

100 105 110

Arg Leu Gln Lys Glu Ile Asn Asp Ala Glu Asp Ile Ile Gln Lys Glu

115 120 125

Lys Glu Lys Ile Tyr Lys Asp Val Arg Thr Leu Phe Asp Asn Glu Ala

130 135 140

Glu Ser Trp Lys Thr Tyr Tyr Gln Glu Arg Glu Val Asp Gly Lys Lys

145 150 155 160

Ile Thr Phe Ser Lys Ala Asp Leu Lys Gln Lys Gly Ala Asp Phe Leu

165 170 175

Thr Ala Ala Gly Ile Leu Lys Val Leu Lys Tyr Glu Phe Pro Glu Glu

180 185 190

Lys Glu Lys Glu Phe Gln Ala Lys Asn Gln Pro Ser Leu Phe Val Glu

195 200 205

Glu Lys Glu Asn Pro Gly Gln Lys Arg Tyr Ile Phe Asp Ser Phe Asp

210 215 220

Lys Phe Ala Gly Tyr Leu Thr Lys Phe Gln Gln Thr Lys Lys Asn Leu

225 230 235 240

Tyr Ala Ala Asp Gly Thr Ser Thr Ala Val Ala Thr Arg Ile Ala Asp

245 250 255

Asn Phe Ile Ile Phe His Gln Asn Thr Lys Val Phe Arg Asp Lys Tyr

260 265 270

Lys Asn Asn His Thr Asp Leu Gly Phe Asp Glu Glu Asn Ile Phe Glu

275 280 285

Ile Glu Arg Tyr Lys Asn Cys Leu Leu Gln Arg Glu Ile Glu His Ile

290 295 300

Lys Asn Glu Asn Ser Tyr Asn Lys Ile Ile Gly Arg Ile Asn Lys Lys

305 310 315 320

Ile Lys Glu Tyr Arg Asp Gln Lys Ala Lys Asp Thr Lys Leu Thr Lys

325 330 335

Ser Asp Phe Pro Phe Phe Lys Asn Leu Asp Lys Gln Ile Leu Gly Glu

340 345 350

Val Glu Lys Glu Lys Gln Leu Ile Glu Lys Thr Arg Glu Lys Thr Glu

355 360 365

Glu Asp Val Leu Ile Glu Arg Phe Lys Glu Phe Ile Glu Asn Asn Glu

370 375 380

Glu Arg Phe Thr Ala Ala Lys Lys Leu Met Asn Ala Phe Cys Asn Gly

385 390 395 400

Glu Phe Glu Ser Glu Tyr Glu Gly Ile Tyr Leu Lys Asn Lys Ala Ile

405 410 415

Asn Thr Ile Ser Arg Arg Trp Phe Val Ser Asp Arg Asp Phe Glu Leu

420 425 430

Lys Leu Pro Gln Gln Lys Ser Lys Asn Lys Ser Glu Lys Asn Glu Pro

435 440 445

Lys Val Lys Lys Phe Ile Ser Ile Ala Glu Ile Lys Asn Ala Val Glu

450 455 460

Glu Leu Asp Gly Asp Ile Phe Lys Ala Val Phe Tyr Asp Lys Lys Ile

465 470 475 480

Ile Ala Gln Gly Gly Ser Lys Leu Glu Gln Phe Leu Val Ile Trp Lys

485 490 495

Tyr Glu Phe Glu Tyr Leu Phe Arg Asp Ile Glu Arg Glu Asn Gly Glu

500 505 510

Lys Leu Leu Gly Tyr Asp Ser Cys Leu Lys Ile Ala Lys Gln Leu Gly

515 520 525

Ile Phe Pro Gln Glu Lys Glu Ala Arg Glu Lys Ala Thr Ala Val Ile

530 535 540

Lys Asn Tyr Ala Asp Ala Gly Leu Gly Ile Phe Gln Met Met Lys Tyr

545 550 555 560

Phe Ser Leu Asp Asp Lys Asp Arg Lys Asn Thr Pro Gly Gln Leu Ser

565 570 575

Thr Asn Phe Tyr Ala Glu Tyr Asp Gly Tyr Tyr Lys Asp Phe Glu Phe

580 585 590

Ile Lys Tyr Tyr Asn Glu Phe Arg Asn Phe Ile Thr Lys Lys Pro Phe

595 600 605

Asp Glu Asp Lys Ile Lys Leu Asn Phe Glu Asn Gly Ala Leu Leu Lys

610 615 620

Gly Trp Asp Glu Asn Lys Glu Tyr Asp Phe Met Gly Val Ile Leu Lys

625 630 635 640

Lys Glu Gly Arg Leu Tyr Leu Gly Ile Met His Lys Asn His Arg Lys

645 650 655

Leu Phe Gln Ser Met Gly Asn Ala Lys Gly Asp Asn Ala Asn Arg Tyr

660 665 670

Gln Lys Met Ile Tyr Lys Gln Ile Ala Asp Ala Ser Lys Asp Val Pro

675 680 685

Arg Leu Leu Leu Thr Ser Lys Lys Ala Met Glu Lys Phe Lys Pro Ser

690 695 700

Gln Glu Ile Leu Arg Ile Lys Lys Glu Lys Thr Phe Lys Arg Glu Ser

705 710 715 720

Lys Asn Phe Ser Leu Arg Asp Leu His Ala Leu Ile Glu Tyr Tyr Arg

725 730 735

Asn Cys Ile Pro Gln Tyr Ser Asn Trp Ser Phe Tyr Asp Phe Gln Phe

740 745 750

Gln Asp Thr Gly Lys Tyr Gln Asn Ile Lys Glu Phe Thr Asp Asp Val

755 760 765

Gln Lys Tyr Gly Tyr Lys Ile Ser Phe Arg Asp Ile Asp Asp Glu Tyr

770 775 780

Ile Asn Gln Ala Leu Asn Glu Gly Lys Met Tyr Leu Phe Glu Val Val

785 790 795 800

Asn Lys Asp Ile Tyr Asn Thr Lys Asn Gly Ser Lys Asn Leu His Thr

805 810 815

Leu Tyr Phe Glu His Ile Leu Ser Ala Glu Asn Leu Asn Asp Pro Val

820 825 830

Phe Lys Leu Ser Gly Met Ala Glu Ile Phe Gln Arg Gln Pro Ser Val

835 840 845

Asn Glu Arg Glu Lys Ile Thr Thr Gln Lys Asn Gln Cys Ile Leu Asp

850 855 860

Lys Gly Asp Arg Ala Tyr Lys Tyr Arg Arg Tyr Thr Glu Lys Lys Ile

865 870 875 880

Met Phe His Met Ser Leu Val Leu Asn Thr Gly Lys Gly Glu Ile Lys

885 890 895

Gln Val Gln Phe Asn Lys Ile Ile Asn Gln Arg Ile Ser Ser Ser Asp

900 905 910

Asn Glu Met Arg Val Asn Val Ile Gly Ile Asp Arg Gly Glu Lys Asn

915 920 925

Leu Leu Tyr Tyr Ser Val Val Lys Gln Asn Gly Glu Ile Ile Glu Gln

930 935 940

Ala Ser Leu Asn Glu Ile Asn Gly Val Asn Tyr Arg Asp Lys Leu Ile

945 950 955 960

Glu Arg Glu Lys Glu Arg Leu Lys Asn Arg Gln Ser Trp Lys Pro Val

965 970 975

Val Lys Ile Lys Asp Leu Lys Lys Gly Tyr Ile Ser His Val Ile His

980 985 990

Lys Ile Cys Gln Leu Ile Glu Lys Tyr Ser Ala Ile Val Val Leu Glu

995 1000 1005

Asp Leu Asn Met Arg Phe Lys Gln Ile Arg Gly Gly Ile Glu Arg

1010 1015 1020

Ser Val Tyr Gln Gln Phe Glu Lys Ala Leu Ile Asp Lys Leu Gly

1025 1030 1035

Tyr Leu Val Phe Lys Asp Asn Arg Asp Leu Arg Ala Pro Gly Gly

1040 1045 1050

Val Leu Asn Gly Tyr Gln Leu Ser Ala Pro Phe Val Ser Phe Glu

1055 1060 1065

Lys Met Arg Lys Gln Thr Gly Ile Leu Phe Tyr Thr Gln Ala Glu

1070 1075 1080

Tyr Thr Ser Lys Thr Asp Pro Ile Thr Gly Phe Arg Lys Asn Val

1085 1090 1095

Tyr Ile Ser Asn Ser Ala Ser Leu Asp Lys Ile Lys Glu Ala Val

1100 1105 1110

Lys Lys Phe Asp Ala Ile Gly Trp Asp Gly Lys Glu Gln Ser Tyr

1115 1120 1125

Phe Phe Lys Tyr Asn Pro Tyr Asn Leu Ala Asp Glu Lys Tyr Lys

1130 1135 1140

Asn Ser Thr Val Ser Lys Glu Trp Ala Ile Phe Ala Ser Ala Pro

1145 1150 1155

Arg Ile Arg Arg Gln Lys Gly Glu Asp Gly Tyr Trp Lys Tyr Asp

1160 1165 1170

Arg Val Lys Val Asn Glu Glu Phe Glu Lys Leu Leu Lys Val Trp

1175 1180 1185

Asn Phe Val Asn Pro Lys Ala Thr Asp Ile Lys Gln Glu Ile Ile

1190 1195 1200

Lys Lys Glu Lys Ala Gly Asp Leu Gln Gly Glu Lys Glu Leu Asp

1205 1210 1215

Gly Arg Leu Arg Asn Phe Trp His Ser Phe Ile Tyr Leu Phe Asn

1220 1225 1230

Leu Val Leu Glu Leu Arg Asn Ser Phe Ser Leu Gln Ile Lys Ile

1235 1240 1245

Lys Ala Gly Glu Val Ile Ala Val Asp Glu Gly Val Asp Phe Ile

1250 1255 1260

Ala Ser Pro Val Lys Pro Phe Phe Thr Thr Pro Asn Pro Tyr Ile

1265 1270 1275

Pro Ser Asn Leu Cys Trp Leu Ala Val Glu Asn Ala Asp Ala Asn

1280 1285 1290

Gly Ala Tyr Asn Ile Ala Arg Lys Gly Val Met Ile Leu Lys Lys

1295 1300 1305

Ile Arg Glu His Ala Lys Lys Asp Pro Glu Phe Lys Lys Leu Pro

1310 1315 1320

Asn Leu Phe Ile Ser Asn Ala Glu Trp Asp Glu Ala Ala Arg Asp

1325 1330 1335

Trp Gly Lys Tyr Ala Gly Thr Thr Ala Leu Asn Leu Asp His

1340 1345 1350

<210> 72

<211> 1334

<212> БЕЛОК

<213> Succinivibrio dextrinosolvens

<400> 72

Met Ser Ser Leu Thr Lys Phe Thr Asn Lys Tyr Ser Lys Gln Leu Thr

1 5 10 15

Ile Lys Asn Glu Leu Ile Pro Val Gly Lys Thr Leu Glu Asn Ile Lys

20 25 30

Glu Asn Gly Leu Ile Asp Gly Asp Glu Gln Leu Asn Glu Asn Tyr Gln

35 40 45

Lys Ala Lys Ile Ile Val Asp Asp Phe Leu Arg Asp Phe Ile Asn Lys

50 55 60

Ala Leu Asn Asn Thr Gln Ile Gly Asn Trp Arg Glu Leu Ala Asp Ala

65 70 75 80

Leu Asn Lys Glu Asp Glu Asp Asn Ile Glu Lys Leu Gln Asp Lys Ile

85 90 95

Arg Gly Ile Ile Val Ser Lys Phe Glu Thr Phe Asp Leu Phe Ser Ser

100 105 110

Tyr Ser Ile Lys Lys Asp Glu Lys Ile Ile Asp Asp Asp Asn Asp Val

115 120 125

Glu Glu Glu Glu Leu Asp Leu Gly Lys Lys Thr Ser Ser Phe Lys Tyr

130 135 140

Ile Phe Lys Lys Asn Leu Phe Lys Leu Val Leu Pro Ser Tyr Leu Lys

145 150 155 160

Thr Thr Asn Gln Asp Lys Leu Lys Ile Ile Ser Ser Phe Asp Asn Phe

165 170 175

Ser Thr Tyr Phe Arg Gly Phe Phe Glu Asn Arg Lys Asn Ile Phe Thr

180 185 190

Lys Lys Pro Ile Ser Thr Ser Ile Ala Tyr Arg Ile Val His Asp Asn

195 200 205

Phe Pro Lys Phe Leu Asp Asn Ile Arg Cys Phe Asn Val Trp Gln Thr

210 215 220

Glu Cys Pro Gln Leu Ile Val Lys Ala Asp Asn Tyr Leu Lys Ser Lys

225 230 235 240

Asn Val Ile Ala Lys Asp Lys Ser Leu Ala Asn Tyr Phe Thr Val Gly

245 250 255

Ala Tyr Asp Tyr Phe Leu Ser Gln Asn Gly Ile Asp Phe Tyr Asn Asn

260 265 270

Ile Ile Gly Gly Leu Pro Ala Phe Ala Gly His Glu Lys Ile Gln Gly

275 280 285

Leu Asn Glu Phe Ile Asn Gln Glu Cys Gln Lys Asp Ser Glu Leu Lys

290 295 300

Ser Lys Leu Lys Asn Arg His Ala Phe Lys Met Ala Val Leu Phe Lys

305 310 315 320

Gln Ile Leu Ser Asp Arg Glu Lys Ser Phe Val Ile Asp Glu Phe Glu

325 330 335

Ser Asp Ala Gln Val Ile Asp Ala Val Lys Asn Phe Tyr Ala Glu Gln

340 345 350

Cys Lys Asp Asn Asn Val Ile Phe Asn Leu Leu Asn Leu Ile Lys Asn

355 360 365

Ile Ala Phe Leu Ser Asp Asp Glu Leu Asp Gly Ile Phe Ile Glu Gly

370 375 380

Lys Tyr Leu Ser Ser Val Ser Gln Lys Leu Tyr Ser Asp Trp Ser Lys

385 390 395 400

Leu Arg Asn Asp Ile Glu Asp Ser Ala Asn Ser Lys Gln Gly Asn Lys

405 410 415

Glu Leu Ala Lys Lys Ile Lys Thr Asn Lys Gly Asp Val Glu Lys Ala

420 425 430

Ile Ser Lys Tyr Glu Phe Ser Leu Ser Glu Leu Asn Ser Ile Val His

435 440 445

Asp Asn Thr Lys Phe Ser Asp Leu Leu Ser Cys Thr Leu His Lys Val

450 455 460

Ala Ser Glu Lys Leu Val Lys Val Asn Glu Gly Asp Trp Pro Lys His

465 470 475 480

Leu Lys Asn Asn Glu Glu Lys Gln Lys Ile Lys Glu Pro Leu Asp Ala

485 490 495

Leu Leu Glu Ile Tyr Asn Thr Leu Leu Ile Phe Asn Cys Lys Ser Phe

500 505 510

Asn Lys Asn Gly Asn Phe Tyr Val Asp Tyr Asp Arg Cys Ile Asn Glu

515 520 525

Leu Ser Ser Val Val Tyr Leu Tyr Asn Lys Thr Arg Asn Tyr Cys Thr

530 535 540

Lys Lys Pro Tyr Asn Thr Asp Lys Phe Lys Leu Asn Phe Asn Ser Pro

545 550 555 560

Gln Leu Gly Glu Gly Phe Ser Lys Ser Lys Glu Asn Asp Cys Leu Thr

565 570 575

Leu Leu Phe Lys Lys Asp Asp Asn Tyr Tyr Val Gly Ile Ile Arg Lys

580 585 590

Gly Ala Lys Ile Asn Phe Asp Asp Thr Gln Ala Ile Ala Asp Asn Thr

595 600 605

Asp Asn Cys Ile Phe Lys Met Asn Tyr Phe Leu Leu Lys Asp Ala Lys

610 615 620

Lys Phe Ile Pro Lys Cys Ser Ile Gln Leu Lys Glu Val Lys Ala His

625 630 635 640

Phe Lys Lys Ser Glu Asp Asp Tyr Ile Leu Ser Asp Lys Glu Lys Phe

645 650 655

Ala Ser Pro Leu Val Ile Lys Lys Ser Thr Phe Leu Leu Ala Thr Ala

660 665 670

His Val Lys Gly Lys Lys Gly Asn Ile Lys Lys Phe Gln Lys Glu Tyr

675 680 685

Ser Lys Glu Asn Pro Thr Glu Tyr Arg Asn Ser Leu Asn Glu Trp Ile

690 695 700

Ala Phe Cys Lys Glu Phe Leu Lys Thr Tyr Lys Ala Ala Thr Ile Phe

705 710 715 720

Asp Ile Thr Thr Leu Lys Lys Ala Glu Glu Tyr Ala Asp Ile Val Glu

725 730 735

Phe Tyr Lys Asp Val Asp Asn Leu Cys Tyr Lys Leu Glu Phe Cys Pro

740 745 750

Ile Lys Thr Ser Phe Ile Glu Asn Leu Ile Asp Asn Gly Asp Leu Tyr

755 760 765

Leu Phe Arg Ile Asn Asn Lys Asp Phe Ser Ser Lys Ser Thr Gly Thr

770 775 780

Lys Asn Leu His Thr Leu Tyr Leu Gln Ala Ile Phe Asp Glu Arg Asn

785 790 795 800

Leu Asn Asn Pro Thr Ile Met Leu Asn Gly Gly Ala Glu Leu Phe Tyr

805 810 815

Arg Lys Glu Ser Ile Glu Gln Lys Asn Arg Ile Thr His Lys Ala Gly

820 825 830

Ser Ile Leu Val Asn Lys Val Cys Lys Asp Gly Thr Ser Leu Asp Asp

835 840 845

Lys Ile Arg Asn Glu Ile Tyr Gln Tyr Glu Asn Lys Phe Ile Asp Thr

850 855 860

Leu Ser Asp Glu Ala Lys Lys Val Leu Pro Asn Val Ile Lys Lys Glu

865 870 875 880

Ala Thr His Asp Ile Thr Lys Asp Lys Arg Phe Thr Ser Asp Lys Phe

885 890 895

Phe Phe His Cys Pro Leu Thr Ile Asn Tyr Lys Glu Gly Asp Thr Lys

900 905 910

Gln Phe Asn Asn Glu Val Leu Ser Phe Leu Arg Gly Asn Pro Asp Ile

915 920 925

Asn Ile Ile Gly Ile Asp Arg Gly Glu Arg Asn Leu Ile Tyr Val Thr

930 935 940

Val Ile Asn Gln Lys Gly Glu Ile Leu Asp Ser Val Ser Phe Asn Thr

945 950 955 960

Val Thr Asn Lys Ser Ser Lys Ile Glu Gln Thr Val Asp Tyr Glu Glu

965 970 975

Lys Leu Ala Val Arg Glu Lys Glu Arg Ile Glu Ala Lys Arg Ser Trp

980 985 990

Asp Ser Ile Ser Lys Ile Ala Thr Leu Lys Glu Gly Tyr Leu Ser Ala

995 1000 1005

Ile Val His Glu Ile Cys Leu Leu Met Ile Lys His Asn Ala Ile

1010 1015 1020

Val Val Leu Glu Asn Leu Asn Ala Gly Phe Lys Arg Ile Arg Gly

1025 1030 1035

Gly Leu Ser Glu Lys Ser Val Tyr Gln Lys Phe Glu Lys Met Leu

1040 1045 1050

Ile Asn Lys Leu Asn Tyr Phe Val Ser Lys Lys Glu Ser Asp Trp

1055 1060 1065

Asn Lys Pro Ser Gly Leu Leu Asn Gly Leu Gln Leu Ser Asp Gln

1070 1075 1080

Phe Glu Ser Phe Glu Lys Leu Gly Ile Gln Ser Gly Phe Ile Phe

1085 1090 1095

Tyr Val Pro Ala Ala Tyr Thr Ser Lys Ile Asp Pro Thr Thr Gly

1100 1105 1110

Phe Ala Asn Val Leu Asn Leu Ser Lys Val Arg Asn Val Asp Ala

1115 1120 1125

Ile Lys Ser Phe Phe Ser Asn Phe Asn Glu Ile Ser Tyr Ser Lys

1130 1135 1140

Lys Glu Ala Leu Phe Lys Phe Ser Phe Asp Leu Asp Ser Leu Ser

1145 1150 1155

Lys Lys Gly Phe Ser Ser Phe Val Lys Phe Ser Lys Ser Lys Trp

1160 1165 1170

Asn Val Tyr Thr Phe Gly Glu Arg Ile Ile Lys Pro Lys Asn Lys

1175 1180 1185

Gln Gly Tyr Arg Glu Asp Lys Arg Ile Asn Leu Thr Phe Glu Met

1190 1195 1200

Lys Lys Leu Leu Asn Glu Tyr Lys Val Ser Phe Asp Leu Glu Asn

1205 1210 1215

Asn Leu Ile Pro Asn Leu Thr Ser Ala Asn Leu Lys Asp Thr Phe

1220 1225 1230

Trp Lys Glu Leu Phe Phe Ile Phe Lys Thr Thr Leu Gln Leu Arg

1235 1240 1245

Asn Ser Val Thr Asn Gly Lys Glu Asp Val Leu Ile Ser Pro Val

1250 1255 1260

Lys Asn Ala Lys Gly Glu Phe Phe Val Ser Gly Thr His Asn Lys

1265 1270 1275

Thr Leu Pro Gln Asp Cys Asp Ala Asn Gly Ala Tyr His Ile Ala

1280 1285 1290

Leu Lys Gly Leu Met Ile Leu Glu Arg Asn Asn Leu Val Arg Glu

1295 1300 1305

Glu Lys Asp Thr Lys Lys Ile Met Ala Ile Ser Asn Val Asp Trp

1310 1315 1320

Phe Glu Tyr Val Gln Lys Arg Arg Gly Val Leu

1325 1330

<210> 73

<211> 1331

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность бактерии группы Parcubacteria

<400> 73

Met Lys Pro Val Gly Lys Thr Glu Asp Phe Leu Lys Ile Asn Lys Val

1 5 10 15

Phe Glu Lys Asp Gln Thr Ile Asp Asp Ser Tyr Asn Gln Ala Lys Phe

20 25 30

Tyr Phe Asp Ser Leu His Gln Lys Phe Ile Asp Ala Ala Leu Ala Ser

35 40 45

Asp Lys Thr Ser Glu Leu Ser Phe Gln Asn Phe Ala Asp Val Leu Glu

50 55 60

Lys Gln Asn Lys Ile Ile Leu Asp Lys Lys Arg Glu Met Gly Ala Leu

65 70 75 80

Arg Lys Arg Asp Lys Asn Ala Val Gly Ile Asp Arg Leu Gln Lys Glu

85 90 95

Ile Asn Asp Ala Glu Asp Ile Ile Gln Lys Glu Lys Glu Lys Ile Tyr

100 105 110

Lys Asp Val Arg Thr Leu Phe Asp Asn Glu Ala Glu Ser Trp Lys Thr

115 120 125

Tyr Tyr Gln Glu Arg Glu Val Asp Gly Lys Lys Ile Thr Phe Ser Lys

130 135 140

Ala Asp Leu Lys Gln Lys Gly Ala Asp Phe Leu Thr Ala Ala Gly Ile

145 150 155 160

Leu Lys Val Leu Lys Tyr Glu Phe Pro Glu Glu Lys Glu Lys Glu Phe

165 170 175

Gln Ala Lys Asn Gln Pro Ser Leu Phe Val Glu Glu Lys Glu Asn Pro

180 185 190

Gly Gln Lys Arg Tyr Ile Phe Asp Ser Phe Asp Lys Phe Ala Gly Tyr

195 200 205

Leu Thr Lys Phe Gln Gln Thr Lys Lys Asn Leu Tyr Ala Ala Asp Gly

210 215 220

Thr Ser Thr Ala Val Ala Thr Arg Ile Ala Asp Asn Phe Ile Ile Phe

225 230 235 240

His Gln Asn Thr Lys Val Phe Arg Asp Lys Tyr Lys Asn Asn His Thr

245 250 255

Asp Leu Gly Phe Asp Glu Glu Asn Ile Phe Glu Ile Glu Arg Tyr Lys

260 265 270

Asn Cys Leu Leu Gln Arg Glu Ile Glu His Ile Lys Asn Glu Asn Ser

275 280 285

Tyr Asn Lys Ile Ile Gly Arg Ile Asn Lys Lys Ile Lys Glu Tyr Arg

290 295 300

Asp Gln Lys Ala Lys Asp Thr Lys Leu Thr Lys Ser Asp Phe Pro Phe

305 310 315 320

Phe Lys Asn Leu Asp Lys Gln Ile Leu Gly Glu Val Glu Lys Glu Lys

325 330 335

Gln Leu Ile Glu Lys Thr Arg Glu Lys Thr Glu Glu Asp Val Leu Ile

340 345 350

Glu Arg Phe Lys Glu Phe Ile Glu Asn Asn Glu Glu Arg Phe Thr Ala

355 360 365

Ala Lys Lys Leu Met Asn Ala Phe Cys Asn Gly Glu Phe Glu Ser Glu

370 375 380

Tyr Glu Gly Ile Tyr Leu Lys Asn Lys Ala Ile Asn Thr Ile Ser Arg

385 390 395 400

Arg Trp Phe Val Ser Asp Arg Asp Phe Glu Leu Lys Leu Pro Gln Gln

405 410 415

Lys Ser Lys Asn Lys Ser Glu Lys Asn Glu Pro Lys Val Lys Lys Phe

420 425 430

Ile Ser Ile Ala Glu Ile Lys Asn Ala Val Glu Glu Leu Asp Gly Asp

435 440 445

Ile Phe Lys Ala Val Phe Tyr Asp Lys Lys Ile Ile Ala Gln Gly Gly

450 455 460

Ser Lys Leu Glu Gln Phe Leu Val Ile Trp Lys Tyr Glu Phe Glu Tyr

465 470 475 480

Leu Phe Arg Asp Ile Glu Arg Glu Asn Gly Glu Lys Leu Leu Gly Tyr

485 490 495

Asp Ser Cys Leu Lys Ile Ala Lys Gln Leu Gly Ile Phe Pro Gln Glu

500 505 510

Lys Glu Ala Arg Glu Lys Ala Thr Ala Val Ile Lys Asn Tyr Ala Asp

515 520 525

Ala Gly Leu Gly Ile Phe Gln Met Met Lys Tyr Phe Ser Leu Asp Asp

530 535 540

Lys Asp Arg Lys Asn Thr Pro Gly Gln Leu Ser Thr Asn Phe Tyr Ala

545 550 555 560

Glu Tyr Asp Gly Tyr Tyr Lys Asp Phe Glu Phe Ile Lys Tyr Tyr Asn

565 570 575

Glu Phe Arg Asn Phe Ile Thr Lys Lys Pro Phe Asp Glu Asp Lys Ile

580 585 590

Lys Leu Asn Phe Glu Asn Gly Ala Leu Leu Lys Gly Trp Asp Glu Asn

595 600 605

Lys Glu Tyr Asp Phe Met Gly Val Ile Leu Lys Lys Glu Gly Arg Leu

610 615 620

Tyr Leu Gly Ile Met His Lys Asn His Arg Lys Leu Phe Gln Ser Met

625 630 635 640

Gly Asn Ala Lys Gly Asp Asn Ala Asn Arg Tyr Gln Lys Met Ile Tyr

645 650 655

Lys Gln Ile Ala Asp Ala Ser Lys Asp Val Pro Arg Leu Leu Leu Thr

660 665 670

Ser Lys Lys Ala Met Glu Lys Phe Lys Pro Ser Gln Glu Ile Leu Arg

675 680 685

Ile Lys Lys Glu Lys Thr Phe Lys Arg Glu Ser Lys Asn Phe Ser Leu

690 695 700

Arg Asp Leu His Ala Leu Ile Glu Tyr Tyr Arg Asn Cys Ile Pro Gln

705 710 715 720

Tyr Ser Asn Trp Ser Phe Tyr Asp Phe Gln Phe Gln Asp Thr Gly Lys

725 730 735

Tyr Gln Asn Ile Lys Glu Phe Thr Asp Asp Val Gln Lys Tyr Gly Tyr

740 745 750

Lys Ile Ser Phe Arg Asp Ile Asp Asp Glu Tyr Ile Asn Gln Ala Leu

755 760 765

Asn Glu Gly Lys Met Tyr Leu Phe Glu Val Val Asn Lys Asp Ile Tyr

770 775 780

Asn Thr Lys Asn Gly Ser Lys Asn Leu His Thr Leu Tyr Phe Glu His

785 790 795 800

Ile Leu Ser Ala Glu Asn Leu Asn Asp Pro Val Phe Lys Leu Ser Gly

805 810 815

Met Ala Glu Ile Phe Gln Arg Gln Pro Ser Val Asn Glu Arg Glu Lys

820 825 830

Ile Thr Thr Gln Lys Asn Gln Cys Ile Leu Asp Lys Gly Asp Arg Ala

835 840 845

Tyr Lys Tyr Arg Arg Tyr Thr Glu Lys Lys Ile Met Phe His Met Ser

850 855 860

Leu Val Leu Asn Thr Gly Lys Gly Glu Ile Lys Gln Val Gln Phe Asn

865 870 875 880

Lys Ile Ile Asn Gln Arg Ile Ser Ser Ser Asp Asn Glu Met Arg Val

885 890 895

Asn Val Ile Gly Ile Asp Arg Gly Glu Lys Asn Leu Leu Tyr Tyr Ser

900 905 910

Val Val Lys Gln Asn Gly Glu Ile Ile Glu Gln Ala Ser Leu Asn Glu

915 920 925

Ile Asn Gly Val Asn Tyr Arg Asp Lys Leu Ile Glu Arg Glu Lys Glu

930 935 940

Arg Leu Lys Asn Arg Gln Ser Trp Lys Pro Val Val Lys Ile Lys Asp

945 950 955 960

Leu Lys Lys Gly Tyr Ile Ser His Val Ile His Lys Ile Cys Gln Leu

965 970 975

Ile Glu Lys Tyr Ser Ala Ile Val Val Leu Glu Asp Leu Asn Met Arg

980 985 990

Phe Lys Gln Ile Arg Gly Gly Ile Glu Arg Ser Val Tyr Gln Gln Phe

995 1000 1005

Glu Lys Ala Leu Ile Asp Lys Leu Gly Tyr Leu Val Phe Lys Asp

1010 1015 1020

Asn Arg Asp Leu Arg Ala Pro Gly Gly Val Leu Asn Gly Tyr Gln

1025 1030 1035

Leu Ser Ala Pro Phe Val Ser Phe Glu Lys Met Arg Lys Gln Thr

1040 1045 1050

Gly Ile Leu Phe Tyr Thr Gln Ala Glu Tyr Thr Ser Lys Thr Asp

1055 1060 1065

Pro Ile Thr Gly Phe Arg Lys Asn Val Tyr Ile Ser Asn Ser Ala

1070 1075 1080

Ser Leu Asp Lys Ile Lys Glu Ala Val Lys Lys Phe Asp Ala Ile

1085 1090 1095

Gly Trp Asp Gly Lys Glu Gln Ser Tyr Phe Phe Lys Tyr Asn Pro

1100 1105 1110

Tyr Asn Leu Ala Asp Glu Lys Tyr Lys Asn Ser Thr Val Ser Lys

1115 1120 1125

Glu Trp Ala Ile Phe Ala Ser Ala Pro Arg Ile Arg Arg Gln Lys

1130 1135 1140

Gly Glu Asp Gly Tyr Trp Lys Tyr Asp Arg Val Lys Val Asn Glu

1145 1150 1155

Glu Phe Glu Lys Leu Leu Lys Val Trp Asn Phe Val Asn Pro Lys

1160 1165 1170

Ala Thr Asp Ile Lys Gln Glu Ile Ile Lys Lys Glu Lys Ala Gly

1175 1180 1185

Asp Leu Gln Gly Glu Lys Glu Leu Asp Gly Arg Leu Arg Asn Phe

1190 1195 1200

Trp His Ser Phe Ile Tyr Leu Phe Asn Leu Val Leu Glu Leu Arg

1205 1210 1215

Asn Ser Phe Ser Leu Gln Ile Lys Ile Lys Ala Gly Glu Val Ile

1220 1225 1230

Ala Val Asp Glu Gly Val Asp Phe Ile Ala Ser Pro Val Lys Pro

1235 1240 1245

Phe Phe Thr Thr Pro Asn Pro Tyr Ile Pro Ser Asn Leu Cys Trp

1250 1255 1260

Leu Ala Val Glu Asn Ala Asp Ala Asn Gly Ala Tyr Asn Ile Ala

1265 1270 1275

Arg Lys Gly Val Met Ile Leu Lys Lys Ile Arg Glu His Ala Lys

1280 1285 1290

Lys Asp Pro Glu Phe Lys Lys Leu Pro Asn Leu Phe Ile Ser Asn

1295 1300 1305

Ala Glu Trp Asp Glu Ala Ala Arg Asp Trp Gly Lys Tyr Ala Gly

1310 1315 1320

Thr Thr Ala Leu Asn Leu Asp His

1325 1330

<210> 74

<211> 1323

<212> БЕЛОК

<213> Prevotella disiens

<400> 74

Met Glu Asn Tyr Gln Glu Phe Thr Asn Leu Phe Gln Leu Asn Lys Thr

1 5 10 15

Leu Arg Phe Glu Leu Lys Pro Ile Gly Lys Thr Cys Glu Leu Leu Glu

20 25 30

Glu Gly Lys Ile Phe Ala Ser Gly Ser Phe Leu Glu Lys Asp Lys Val

35 40 45

Arg Ala Asp Asn Val Ser Tyr Val Lys Lys Glu Ile Asp Lys Lys His

50 55 60

Lys Ile Phe Ile Glu Glu Thr Leu Ser Ser Phe Ser Ile Ser Asn Asp

65 70 75 80

Leu Leu Lys Gln Tyr Phe Asp Cys Tyr Asn Glu Leu Lys Ala Phe Lys

85 90 95

Lys Asp Cys Lys Ser Asp Glu Glu Glu Val Lys Lys Thr Ala Leu Arg

100 105 110

Asn Lys Cys Thr Ser Ile Gln Arg Ala Met Arg Glu Ala Ile Ser Gln

115 120 125

Ala Phe Leu Lys Ser Pro Gln Lys Lys Leu Leu Ala Ile Lys Asn Leu

130 135 140

Ile Glu Asn Val Phe Lys Ala Asp Glu Asn Val Gln His Phe Ser Glu

145 150 155 160

Phe Thr Ser Tyr Phe Ser Gly Phe Glu Thr Asn Arg Glu Asn Phe Tyr

165 170 175

Ser Asp Glu Glu Lys Ser Thr Ser Ile Ala Tyr Arg Leu Val His Asp

180 185 190

Asn Leu Pro Ile Phe Ile Lys Asn Ile Tyr Ile Phe Glu Lys Leu Lys

195 200 205

Glu Gln Phe Asp Ala Lys Thr Leu Ser Glu Ile Phe Glu Asn Tyr Lys

210 215 220

Leu Tyr Val Ala Gly Ser Ser Leu Asp Glu Val Phe Ser Leu Glu Tyr

225 230 235 240

Phe Asn Asn Thr Leu Thr Gln Lys Gly Ile Asp Asn Tyr Asn Ala Val

245 250 255

Ile Gly Lys Ile Val Lys Glu Asp Lys Gln Glu Ile Gln Gly Leu Asn

260 265 270

Glu His Ile Asn Leu Tyr Asn Gln Lys His Lys Asp Arg Arg Leu Pro

275 280 285

Phe Phe Ile Ser Leu Lys Lys Gln Ile Leu Ser Asp Arg Glu Ala Leu

290 295 300

Ser Trp Leu Pro Asp Met Phe Lys Asn Asp Ser Glu Val Ile Lys Ala

305 310 315 320

Leu Lys Gly Phe Tyr Ile Glu Asp Gly Phe Glu Asn Asn Val Leu Thr

325 330 335

Pro Leu Ala Thr Leu Leu Ser Ser Leu Asp Lys Tyr Asn Leu Asn Gly

340 345 350

Ile Phe Ile Arg Asn Asn Glu Ala Leu Ser Ser Leu Ser Gln Asn Val

355 360 365

Tyr Arg Asn Phe Ser Ile Asp Glu Ala Ile Asp Ala Asn Ala Glu Leu

370 375 380

Gln Thr Phe Asn Asn Tyr Glu Leu Ile Ala Asn Ala Leu Arg Ala Lys

385 390 395 400

Ile Lys Lys Glu Thr Lys Gln Gly Arg Lys Ser Phe Glu Lys Tyr Glu

405 410 415

Glu Tyr Ile Asp Lys Lys Val Lys Ala Ile Asp Ser Leu Ser Ile Gln

420 425 430

Glu Ile Asn Glu Leu Val Glu Asn Tyr Val Ser Glu Phe Asn Ser Asn

435 440 445

Ser Gly Asn Met Pro Arg Lys Val Glu Asp Tyr Phe Ser Leu Met Arg

450 455 460

Lys Gly Asp Phe Gly Ser Asn Asp Leu Ile Glu Asn Ile Lys Thr Lys

465 470 475 480

Leu Ser Ala Ala Glu Lys Leu Leu Gly Thr Lys Tyr Gln Glu Thr Ala

485 490 495

Lys Asp Ile Phe Lys Lys Asp Glu Asn Ser Lys Leu Ile Lys Glu Leu

500 505 510

Leu Asp Ala Thr Lys Gln Phe Gln His Phe Ile Lys Pro Leu Leu Gly

515 520 525

Thr Gly Glu Glu Ala Asp Arg Asp Leu Val Phe Tyr Gly Asp Phe Leu

530 535 540

Pro Leu Tyr Glu Lys Phe Glu Glu Leu Thr Leu Leu Tyr Asn Lys Val

545 550 555 560

Arg Asn Arg Leu Thr Gln Lys Pro Tyr Ser Lys Asp Lys Ile Arg Leu

565 570 575

Cys Phe Asn Lys Pro Lys Leu Met Thr Gly Trp Val Asp Ser Lys Thr

580 585 590

Glu Lys Ser Asp Asn Gly Thr Gln Tyr Gly Gly Tyr Leu Phe Arg Lys

595 600 605

Lys Asn Glu Ile Gly Glu Tyr Asp Tyr Phe Leu Gly Ile Ser Ser Lys

610 615 620

Ala Gln Leu Phe Arg Lys Asn Glu Ala Val Ile Gly Asp Tyr Glu Arg

625 630 635 640

Leu Asp Tyr Tyr Gln Pro Lys Ala Asn Thr Ile Tyr Gly Ser Ala Tyr

645 650 655

Glu Gly Glu Asn Ser Tyr Lys Glu Asp Lys Lys Arg Leu Asn Lys Val

660 665 670

Ile Ile Ala Tyr Ile Glu Gln Ile Lys Gln Thr Asn Ile Lys Lys Ser

675 680 685

Ile Ile Glu Ser Ile Ser Lys Tyr Pro Asn Ile Ser Asp Asp Asp Lys

690 695 700

Val Thr Pro Ser Ser Leu Leu Glu Lys Ile Lys Lys Val Ser Ile Asp

705 710 715 720

Ser Tyr Asn Gly Ile Leu Ser Phe Lys Ser Phe Gln Ser Val Asn Lys

725 730 735

Glu Val Ile Asp Asn Leu Leu Lys Thr Ile Ser Pro Leu Lys Asn Lys

740 745 750

Ala Glu Phe Leu Asp Leu Ile Asn Lys Asp Tyr Gln Ile Phe Thr Glu

755 760 765

Val Gln Ala Val Ile Asp Glu Ile Cys Lys Gln Lys Thr Phe Ile Tyr

770 775 780

Phe Pro Ile Ser Asn Val Glu Leu Glu Lys Glu Met Gly Asp Lys Asp

785 790 795 800

Lys Pro Leu Cys Leu Phe Gln Ile Ser Asn Lys Asp Leu Ser Phe Ala

805 810 815

Lys Thr Phe Ser Ala Asn Leu Arg Lys Lys Arg Gly Ala Glu Asn Leu

820 825 830

His Thr Met Leu Phe Lys Ala Leu Met Glu Gly Asn Gln Asp Asn Leu

835 840 845

Asp Leu Gly Ser Gly Ala Ile Phe Tyr Arg Ala Lys Ser Leu Asp Gly

850 855 860

Asn Lys Pro Thr His Pro Ala Asn Glu Ala Ile Lys Cys Arg Asn Val

865 870 875 880

Ala Asn Lys Asp Lys Val Ser Leu Phe Thr Tyr Asp Ile Tyr Lys Asn

885 890 895

Arg Arg Tyr Met Glu Asn Lys Phe Leu Phe His Leu Ser Ile Val Gln

900 905 910

Asn Tyr Lys Ala Ala Asn Asp Ser Ala Gln Leu Asn Ser Ser Ala Thr

915 920 925

Glu Tyr Ile Arg Lys Ala Asp Asp Leu His Ile Ile Gly Ile Asp Arg

930 935 940

Gly Glu Arg Asn Leu Leu Tyr Tyr Ser Val Ile Asp Met Lys Gly Asn

945 950 955 960

Ile Val Glu Gln Asp Ser Leu Asn Ile Ile Arg Asn Asn Asp Leu Glu

965 970 975

Thr Asp Tyr His Asp Leu Leu Asp Lys Arg Glu Lys Glu Arg Lys Ala

980 985 990

Asn Arg Gln Asn Trp Glu Ala Val Glu Gly Ile Lys Asp Leu Lys Lys

995 1000 1005

Gly Tyr Leu Ser Gln Ala Val His Gln Ile Ala Gln Leu Met Leu

1010 1015 1020

Lys Tyr Asn Ala Ile Ile Ala Leu Glu Asp Leu Gly Gln Met Phe

1025 1030 1035

Val Thr Arg Gly Gln Lys Ile Glu Lys Ala Val Tyr Gln Gln Phe

1040 1045 1050

Glu Lys Ser Leu Val Asp Lys Leu Ser Tyr Leu Val Asp Lys Lys

1055 1060 1065

Arg Pro Tyr Asn Glu Leu Gly Gly Ile Leu Lys Ala Tyr Gln Leu

1070 1075 1080

Ala Ser Ser Ile Thr Lys Asn Asn Ser Asp Lys Gln Asn Gly Phe

1085 1090 1095

Leu Phe Tyr Val Pro Ala Trp Asn Thr Ser Lys Ile Asp Pro Val

1100 1105 1110

Thr Gly Phe Thr Asp Leu Leu Arg Pro Lys Ala Met Thr Ile Lys

1115 1120 1125

Glu Ala Gln Asp Phe Phe Gly Ala Phe Asp Asn Ile Ser Tyr Asn

1130 1135 1140

Asp Lys Gly Tyr Phe Glu Phe Glu Thr Asn Tyr Asp Lys Phe Lys

1145 1150 1155

Ile Arg Met Lys Ser Ala Gln Thr Arg Trp Thr Ile Cys Thr Phe

1160 1165 1170

Gly Asn Arg Ile Lys Arg Lys Lys Asp Lys Asn Tyr Trp Asn Tyr

1175 1180 1185

Glu Glu Val Glu Leu Thr Glu Glu Phe Lys Lys Leu Phe Lys Asp

1190 1195 1200

Ser Asn Ile Asp Tyr Glu Asn Cys Asn Leu Lys Glu Glu Ile Gln

1205 1210 1215

Asn Lys Asp Asn Arg Lys Phe Phe Asp Asp Leu Ile Lys Leu Leu

1220 1225 1230

Gln Leu Thr Leu Gln Met Arg Asn Ser Asp Asp Lys Gly Asn Asp

1235 1240 1245

Tyr Ile Ile Ser Pro Val Ala Asn Ala Glu Gly Gln Phe Phe Asp

1250 1255 1260

Ser Arg Asn Gly Asp Lys Lys Leu Pro Leu Asp Ala Asp Ala Asn

1265 1270 1275

Gly Ala Tyr Asn Ile Ala Arg Lys Gly Leu Trp Asn Ile Arg Gln

1280 1285 1290

Ile Lys Gln Thr Lys Asn Asp Lys Lys Leu Asn Leu Ser Ile Ser

1295 1300 1305

Ser Thr Glu Trp Leu Asp Phe Val Arg Glu Lys Pro Tyr Leu Lys

1310 1315 1320

<210> 75

<211> 1318

<212> БЕЛОК

<213> Flavobacterium branchiophilum

<400> 75

Met Thr Asn Lys Phe Thr Asn Gln Tyr Ser Leu Ser Lys Thr Leu Arg

1 5 10 15

Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Phe Ile Gln Glu Lys

20 25 30

Gly Leu Leu Ser Gln Asp Lys Gln Arg Ala Glu Ser Tyr Gln Glu Met

35 40 45

Lys Lys Thr Ile Asp Lys Phe His Lys Tyr Phe Ile Asp Leu Ala Leu

50 55 60

Ser Asn Ala Lys Leu Thr His Leu Glu Thr Tyr Leu Glu Leu Tyr Asn

65 70 75 80

Lys Ser Ala Glu Thr Lys Lys Glu Gln Lys Phe Lys Asp Asp Leu Lys

85 90 95

Lys Val Gln Asp Asn Leu Arg Lys Glu Ile Val Lys Ser Phe Ser Asp

100 105 110

Gly Asp Ala Lys Ser Ile Phe Ala Ile Leu Asp Lys Lys Glu Leu Ile

115 120 125

Thr Val Glu Leu Glu Lys Trp Phe Glu Asn Asn Glu Gln Lys Asp Ile

130 135 140

Tyr Phe Asp Glu Lys Phe Lys Thr Phe Thr Thr Tyr Phe Thr Gly Phe

145 150 155 160

His Gln Asn Arg Lys Asn Met Tyr Ser Val Glu Pro Asn Ser Thr Ala

165 170 175

Ile Ala Tyr Arg Leu Ile His Glu Asn Leu Pro Lys Phe Leu Glu Asn

180 185 190

Ala Lys Ala Phe Glu Lys Ile Lys Gln Val Glu Ser Leu Gln Val Asn

195 200 205

Phe Arg Glu Leu Met Gly Glu Phe Gly Asp Glu Gly Leu Ile Phe Val

210 215 220

Asn Glu Leu Glu Glu Met Phe Gln Ile Asn Tyr Tyr Asn Asp Val Leu

225 230 235 240

Ser Gln Asn Gly Ile Thr Ile Tyr Asn Ser Ile Ile Ser Gly Phe Thr

245 250 255

Lys Asn Asp Ile Lys Tyr Lys Gly Leu Asn Glu Tyr Ile Asn Asn Tyr

260 265 270

Asn Gln Thr Lys Asp Lys Lys Asp Arg Leu Pro Lys Leu Lys Gln Leu

275 280 285

Tyr Lys Gln Ile Leu Ser Asp Arg Ile Ser Leu Ser Phe Leu Pro Asp

290 295 300

Ala Phe Thr Asp Gly Lys Gln Val Leu Lys Ala Ile Phe Asp Phe Tyr

305 310 315 320

Lys Ile Asn Leu Leu Ser Tyr Thr Ile Glu Gly Gln Glu Glu Ser Gln

325 330 335

Asn Leu Leu Leu Leu Ile Arg Gln Thr Ile Glu Asn Leu Ser Ser Phe

340 345 350

Asp Thr Gln Lys Ile Tyr Leu Lys Asn Asp Thr His Leu Thr Thr Ile

355 360 365

Ser Gln Gln Val Phe Gly Asp Phe Ser Val Phe Ser Thr Ala Leu Asn

370 375 380

Tyr Trp Tyr Glu Thr Lys Val Asn Pro Lys Phe Glu Thr Glu Tyr Ser

385 390 395 400

Lys Ala Asn Glu Lys Lys Arg Glu Ile Leu Asp Lys Ala Lys Ala Val

405 410 415

Phe Thr Lys Gln Asp Tyr Phe Ser Ile Ala Phe Leu Gln Glu Val Leu

420 425 430

Ser Glu Tyr Ile Leu Thr Leu Asp His Thr Ser Asp Ile Val Lys Lys

435 440 445

His Ser Ser Asn Cys Ile Ala Asp Tyr Phe Lys Asn His Phe Val Ala

450 455 460

Lys Lys Glu Asn Glu Thr Asp Lys Thr Phe Asp Phe Ile Ala Asn Ile

465 470 475 480

Thr Ala Lys Tyr Gln Cys Ile Gln Gly Ile Leu Glu Asn Ala Asp Gln

485 490 495

Tyr Glu Asp Glu Leu Lys Gln Asp Gln Lys Leu Ile Asp Asn Leu Lys

500 505 510

Phe Phe Leu Asp Ala Ile Leu Glu Leu Leu His Phe Ile Lys Pro Leu

515 520 525

His Leu Lys Ser Glu Ser Ile Thr Glu Lys Asp Thr Ala Phe Tyr Asp

530 535 540

Val Phe Glu Asn Tyr Tyr Glu Ala Leu Ser Leu Leu Thr Pro Leu Tyr

545 550 555 560

Asn Met Val Arg Asn Tyr Val Thr Gln Lys Pro Tyr Ser Thr Glu Lys

565 570 575

Ile Lys Leu Asn Phe Glu Asn Ala Gln Leu Leu Asn Gly Trp Asp Ala

580 585 590

Asn Lys Glu Gly Asp Tyr Leu Thr Thr Ile Leu Lys Lys Asp Gly Asn

595 600 605

Tyr Phe Leu Ala Ile Met Asp Lys Lys His Asn Lys Ala Phe Gln Lys

610 615 620

Phe Pro Glu Gly Lys Glu Asn Tyr Glu Lys Met Val Tyr Lys Leu Leu

625 630 635 640

Pro Gly Val Asn Lys Met Leu Pro Lys Val Phe Phe Ser Asn Lys Asn

645 650 655

Ile Ala Tyr Phe Asn Pro Ser Lys Glu Leu Leu Glu Asn Tyr Lys Lys

660 665 670

Glu Thr His Lys Lys Gly Asp Thr Phe Asn Leu Glu His Cys His Thr

675 680 685

Leu Ile Asp Phe Phe Lys Asp Ser Leu Asn Lys His Glu Asp Trp Lys

690 695 700

Tyr Phe Asp Phe Gln Phe Ser Glu Thr Lys Ser Tyr Gln Asp Leu Ser

705 710 715 720

Gly Phe Tyr Arg Glu Val Glu His Gln Gly Tyr Lys Ile Asn Phe Lys

725 730 735

Asn Ile Asp Ser Glu Tyr Ile Asp Gly Leu Val Asn Glu Gly Lys Leu

740 745 750

Phe Leu Phe Gln Ile Tyr Ser Lys Asp Phe Ser Pro Phe Ser Lys Gly

755 760 765

Lys Pro Asn Met His Thr Leu Tyr Trp Lys Ala Leu Phe Glu Glu Gln

770 775 780

Asn Leu Gln Asn Val Ile Tyr Lys Leu Asn Gly Gln Ala Glu Ile Phe

785 790 795 800

Phe Arg Lys Ala Ser Ile Lys Pro Lys Asn Ile Ile Leu His Lys Lys

805 810 815

Lys Ile Lys Ile Ala Lys Lys His Phe Ile Asp Lys Lys Thr Lys Thr

820 825 830

Ser Glu Ile Val Pro Val Gln Thr Ile Lys Asn Leu Asn Met Tyr Tyr

835 840 845

Gln Gly Lys Ile Ser Glu Lys Glu Leu Thr Gln Asp Asp Leu Arg Tyr

850 855 860

Ile Asp Asn Phe Ser Ile Phe Asn Glu Lys Asn Lys Thr Ile Asp Ile

865 870 875 880

Ile Lys Asp Lys Arg Phe Thr Val Asp Lys Phe Gln Phe His Val Pro

885 890 895

Ile Thr Met Asn Phe Lys Ala Thr Gly Gly Ser Tyr Ile Asn Gln Thr

900 905 910

Val Leu Glu Tyr Leu Gln Asn Asn Pro Glu Val Lys Ile Ile Gly Leu

915 920 925

Asp Arg Gly Glu Arg His Leu Val Tyr Leu Thr Leu Ile Asp Gln Gln

930 935 940

Gly Asn Ile Leu Lys Gln Glu Ser Leu Asn Thr Ile Thr Asp Ser Lys

945 950 955 960

Ile Ser Thr Pro Tyr His Lys Leu Leu Asp Asn Lys Glu Asn Glu Arg

965 970 975

Asp Leu Ala Arg Lys Asn Trp Gly Thr Val Glu Asn Ile Lys Glu Leu

980 985 990

Lys Glu Gly Tyr Ile Ser Gln Val Val His Lys Ile Ala Thr Leu Met

995 1000 1005

Leu Glu Glu Asn Ala Ile Val Val Met Glu Asp Leu Asn Phe Gly

1010 1015 1020

Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Ile Tyr Gln Lys

1025 1030 1035

Leu Glu Lys Met Leu Ile Asp Lys Leu Asn Tyr Leu Val Leu Lys

1040 1045 1050

Asp Lys Gln Pro Gln Glu Leu Gly Gly Leu Tyr Asn Ala Leu Gln

1055 1060 1065

Leu Thr Asn Lys Phe Glu Ser Phe Gln Lys Met Gly Lys Gln Ser

1070 1075 1080

Gly Phe Leu Phe Tyr Val Pro Ala Trp Asn Thr Ser Lys Ile Asp

1085 1090 1095

Pro Thr Thr Gly Phe Val Asn Tyr Phe Tyr Thr Lys Tyr Glu Asn

1100 1105 1110

Val Asp Lys Ala Lys Ala Phe Phe Glu Lys Phe Glu Ala Ile Arg

1115 1120 1125

Phe Asn Ala Glu Lys Lys Tyr Phe Glu Phe Glu Val Lys Lys Tyr

1130 1135 1140

Ser Asp Phe Asn Pro Lys Ala Glu Gly Thr Gln Gln Ala Trp Thr

1145 1150 1155

Ile Cys Thr Tyr Gly Glu Arg Ile Glu Thr Lys Arg Gln Lys Asp

1160 1165 1170

Gln Asn Asn Lys Phe Val Ser Thr Pro Ile Asn Leu Thr Glu Lys

1175 1180 1185

Ile Glu Asp Phe Leu Gly Lys Asn Gln Ile Val Tyr Gly Asp Gly

1190 1195 1200

Asn Cys Ile Lys Ser Gln Ile Ala Ser Lys Asp Asp Lys Ala Phe

1205 1210 1215

Phe Glu Thr Leu Leu Tyr Trp Phe Lys Met Thr Leu Gln Met Arg

1220 1225 1230

Asn Ser Glu Thr Arg Thr Asp Ile Asp Tyr Leu Ile Ser Pro Val

1235 1240 1245

Met Asn Asp Asn Gly Thr Phe Tyr Asn Ser Arg Asp Tyr Glu Lys

1250 1255 1260

Leu Glu Asn Pro Thr Leu Pro Lys Asp Ala Asp Ala Asn Gly Ala

1265 1270 1275

Tyr His Ile Ala Lys Lys Gly Leu Met Leu Leu Asn Lys Ile Asp

1280 1285 1290

Gln Ala Asp Leu Thr Lys Lys Val Asp Leu Ser Ile Ser Asn Arg

1295 1300 1305

Asp Trp Leu Gln Phe Val Gln Lys Asn Lys

1310 1315

<210> 76

<211> 1310

<212> БЕЛОК

<213> Helcococcus kunzii

<400> 76

Met Phe Glu Lys Leu Ser Asn Ile Val Ser Ile Ser Lys Thr Ile Arg

1 5 10 15

Phe Lys Leu Ile Pro Val Gly Lys Thr Leu Glu Asn Ile Glu Lys Leu

20 25 30

Gly Lys Leu Glu Lys Asp Phe Glu Arg Ser Asp Phe Tyr Pro Ile Leu

35 40 45

Lys Asn Ile Ser Asp Asp Tyr Tyr Arg Gln Tyr Ile Lys Glu Lys Leu

50 55 60

Ser Asp Leu Asn Leu Asp Trp Gln Lys Leu Tyr Asp Ala His Glu Leu

65 70 75 80

Leu Asp Ser Ser Lys Lys Glu Ser Gln Lys Asn Leu Glu Met Ile Gln

85 90 95

Ala Gln Tyr Arg Lys Val Leu Phe Asn Ile Leu Ser Gly Glu Leu Asp

100 105 110

Lys Ser Gly Glu Lys Asn Ser Lys Asp Leu Ile Lys Asn Asn Lys Ala

115 120 125

Leu Tyr Gly Lys Leu Phe Lys Lys Gln Phe Ile Leu Glu Val Leu Pro

130 135 140

Asp Phe Val Asn Asn Asn Asp Ser Tyr Ser Glu Glu Asp Leu Glu Gly

145 150 155 160

Leu Asn Leu Tyr Ser Lys Phe Thr Thr Arg Leu Lys Asn Phe Trp Glu

165 170 175

Thr Arg Lys Asn Val Phe Thr Asp Lys Asp Ile Val Thr Ala Ile Pro

180 185 190

Phe Arg Ala Val Asn Glu Asn Phe Gly Phe Tyr Tyr Asp Asn Ile Lys

195 200 205

Ile Phe Asn Lys Asn Ile Glu Tyr Leu Glu Asn Lys Ile Pro Asn Leu

210 215 220

Glu Asn Glu Leu Lys Glu Ala Asp Ile Leu Asp Asp Asn Arg Ser Val

225 230 235 240

Lys Asp Tyr Phe Thr Pro Asn Gly Phe Asn Tyr Val Ile Thr Gln Asp

245 250 255

Gly Ile Asp Val Tyr Gln Ala Ile Arg Gly Gly Phe Thr Lys Glu Asn

260 265 270

Gly Glu Lys Val Gln Gly Ile Asn Glu Ile Leu Asn Leu Thr Gln Gln

275 280 285

Gln Leu Arg Arg Lys Pro Glu Thr Lys Asn Val Lys Leu Gly Val Leu

290 295 300

Thr Lys Leu Arg Lys Gln Ile Leu Glu Tyr Ser Glu Ser Thr Ser Phe

305 310 315 320

Leu Ile Asp Gln Ile Glu Asp Asp Asn Asp Leu Val Asp Arg Ile Asn

325 330 335

Lys Phe Asn Val Ser Phe Phe Glu Ser Thr Glu Val Ser Pro Ser Leu

340 345 350

Phe Glu Gln Ile Glu Arg Leu Tyr Asn Ala Leu Lys Ser Ile Lys Lys

355 360 365

Glu Glu Val Tyr Ile Asp Ala Arg Asn Thr Gln Lys Phe Ser Gln Met

370 375 380

Leu Phe Gly Gln Trp Asp Val Ile Arg Arg Gly Tyr Thr Val Lys Ile

385 390 395 400

Thr Glu Gly Ser Lys Glu Glu Lys Lys Lys Tyr Lys Glu Tyr Leu Glu

405 410 415

Leu Asp Glu Thr Ser Lys Ala Lys Arg Tyr Leu Asn Ile Arg Glu Ile

420 425 430

Glu Glu Leu Val Asn Leu Val Glu Gly Phe Glu Glu Val Asp Val Phe

435 440 445

Ser Val Leu Leu Glu Lys Phe Lys Met Asn Asn Ile Glu Arg Ser Glu

450 455 460

Phe Glu Ala Pro Ile Tyr Gly Ser Pro Ile Lys Leu Glu Ala Ile Lys

465 470 475 480

Glu Tyr Leu Glu Lys His Leu Glu Glu Tyr His Lys Trp Lys Leu Leu

485 490 495

Leu Ile Gly Asn Asp Asp Leu Asp Thr Asp Glu Thr Phe Tyr Pro Leu

500 505 510

Leu Asn Glu Val Ile Ser Asp Tyr Tyr Ile Ile Pro Leu Tyr Asn Leu

515 520 525

Thr Arg Asn Tyr Leu Thr Arg Lys His Ser Asp Lys Asp Lys Ile Lys

530 535 540

Val Asn Phe Asp Phe Pro Thr Leu Ala Asp Gly Trp Ser Glu Ser Lys

545 550 555 560

Ile Ser Asp Asn Arg Ser Ile Ile Leu Arg Lys Gly Gly Tyr Tyr Tyr

565 570 575

Leu Gly Ile Leu Ile Asp Asn Lys Leu Leu Ile Asn Lys Lys Asn Lys

580 585 590

Ser Lys Lys Ile Tyr Glu Ile Leu Ile Tyr Asn Gln Ile Pro Glu Phe

595 600 605

Ser Lys Ser Ile Pro Asn Tyr Pro Phe Thr Lys Lys Val Lys Glu His

610 615 620

Phe Lys Asn Asn Val Ser Asp Phe Gln Leu Ile Asp Gly Tyr Val Ser

625 630 635 640

Pro Leu Ile Ile Thr Lys Glu Ile Tyr Asp Ile Lys Lys Glu Lys Lys

645 650 655

Tyr Lys Lys Asp Phe Tyr Lys Asp Asn Asn Thr Asn Lys Asn Tyr Leu

660 665 670

Tyr Thr Ile Tyr Lys Trp Ile Glu Phe Cys Lys Gln Phe Leu Tyr Lys

675 680 685

Tyr Lys Gly Pro Asn Lys Glu Ser Tyr Lys Glu Met Tyr Asp Phe Ser

690 695 700

Thr Leu Lys Asp Thr Ser Leu Tyr Val Asn Leu Asn Asp Phe Tyr Ala

705 710 715 720

Asp Val Asn Ser Cys Ala Tyr Arg Val Leu Phe Asn Lys Ile Asp Glu

725 730 735

Asn Thr Ile Asp Asn Ala Val Glu Asp Gly Lys Leu Leu Leu Phe Gln

740 745 750

Ile Tyr Asn Lys Asp Phe Ser Pro Glu Ser Lys Gly Lys Lys Asn Leu

755 760 765

His Thr Leu Tyr Trp Leu Ser Met Phe Ser Glu Glu Asn Leu Arg Thr

770 775 780

Arg Lys Leu Lys Leu Asn Gly Gln Ala Glu Ile Phe Tyr Arg Lys Lys

785 790 795 800

Leu Glu Lys Lys Pro Ile Ile His Lys Glu Gly Ser Ile Leu Leu Asn

805 810 815

Lys Ile Asp Lys Glu Gly Asn Thr Ile Pro Glu Asn Ile Tyr His Glu

820 825 830

Cys Tyr Arg Tyr Leu Asn Lys Lys Ile Gly Arg Glu Asp Leu Ser Asp

835 840 845

Glu Ala Ile Ala Leu Phe Asn Lys Asp Val Leu Lys Tyr Lys Glu Ala

850 855 860

Arg Phe Asp Ile Ile Lys Asp Arg Arg Tyr Ser Glu Ser Gln Phe Phe

865 870 875 880

Phe His Val Pro Ile Thr Phe Asn Trp Asp Ile Lys Thr Asn Lys Asn

885 890 895

Val Asn Gln Ile Val Gln Gly Met Ile Lys Asp Gly Glu Ile Lys His

900 905 910

Ile Ile Gly Ile Asp Arg Gly Glu Arg His Leu Leu Tyr Tyr Ser Val

915 920 925

Ile Asp Leu Glu Gly Asn Ile Val Glu Gln Gly Ser Leu Asn Thr Leu

930 935 940

Glu Gln Asn Arg Phe Asp Asn Ser Thr Val Lys Val Asp Tyr Gln Asn

945 950 955 960

Lys Leu Arg Thr Arg Glu Glu Asp Arg Asp Arg Ala Arg Lys Asn Trp

965 970 975

Thr Asn Ile Asn Lys Ile Lys Glu Leu Lys Asp Gly Tyr Leu Ser His

980 985 990

Val Val His Lys Leu Ser Arg Leu Ile Ile Lys Tyr Glu Ala Ile Val

995 1000 1005

Ile Met Glu Asn Leu Asn Gln Gly Phe Lys Arg Gly Arg Phe Lys

1010 1015 1020

Val Glu Arg Gln Val Tyr Gln Lys Phe Glu Leu Ala Leu Met Asn

1025 1030 1035

Lys Leu Ser Ala Leu Ser Phe Lys Glu Lys Tyr Asp Glu Arg Lys

1040 1045 1050

Asn Leu Glu Pro Ser Gly Ile Leu Asn Pro Ile Gln Ala Cys Tyr

1055 1060 1065

Pro Val Asp Ala Tyr Gln Glu Leu Gln Gly Gln Asn Gly Ile Val

1070 1075 1080

Phe Tyr Leu Pro Ala Ala Tyr Thr Ser Val Ile Asp Pro Val Thr

1085 1090 1095

Gly Phe Thr Asn Leu Phe Arg Leu Lys Ser Ile Asn Ser Ser Lys

1100 1105 1110

Tyr Glu Glu Phe Ile Lys Lys Phe Lys Asn Ile Tyr Phe Asp Asn

1115 1120 1125

Glu Glu Glu Asp Phe Lys Phe Ile Phe Asn Tyr Lys Asp Phe Ala

1130 1135 1140

Lys Ala Asn Leu Val Ile Leu Asn Asn Ile Lys Ser Lys Asp Trp

1145 1150 1155

Lys Ile Ser Thr Arg Gly Glu Arg Ile Ser Tyr Asn Ser Lys Lys

1160 1165 1170

Lys Glu Tyr Phe Tyr Val Gln Pro Thr Glu Phe Leu Ile Asn Lys

1175 1180 1185

Leu Lys Glu Leu Asn Ile Asp Tyr Glu Asn Ile Asp Ile Ile Pro

1190 1195 1200

Leu Ile Asp Asn Leu Glu Glu Lys Ala Lys Arg Lys Ile Leu Lys

1205 1210 1215

Ala Leu Phe Asp Thr Phe Lys Tyr Ser Val Gln Leu Arg Asn Tyr

1220 1225 1230

Asp Phe Glu Asn Asp Tyr Ile Ile Ser Pro Thr Ala Asp Asp Asn

1235 1240 1245

Gly Asn Tyr Tyr Asn Ser Asn Glu Ile Asp Ile Asp Lys Thr Asn

1250 1255 1260

Leu Pro Asn Asn Gly Asp Ala Asn Gly Ala Phe Asn Ile Ala Arg

1265 1270 1275

Lys Gly Leu Leu Leu Lys Asp Arg Ile Val Asn Ser Asn Glu Ser

1280 1285 1290

Lys Val Asp Leu Lys Ile Lys Asn Glu Asp Trp Ile Asn Phe Ile

1295 1300 1305

Ile Ser

1310

<210> 77

<211> 1307

<212> БЕЛОК

<213> Acidaminococcus sp.

<400> 77

Met Thr Gln Phe Glu Gly Phe Thr Asn Leu Tyr Gln Val Ser Lys Thr

1 5 10 15

Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Lys His Ile Gln

20 25 30

Glu Gln Gly Phe Ile Glu Glu Asp Lys Ala Arg Asn Asp His Tyr Lys

35 40 45

Glu Leu Lys Pro Ile Ile Asp Arg Ile Tyr Lys Thr Tyr Ala Asp Gln

50 55 60

Cys Leu Gln Leu Val Gln Leu Asp Trp Glu Asn Leu Ser Ala Ala Ile

65 70 75 80

Asp Ser Tyr Arg Lys Glu Lys Thr Glu Glu Thr Arg Asn Ala Leu Ile

85 90 95

Glu Glu Gln Ala Thr Tyr Arg Asn Ala Ile His Asp Tyr Phe Ile Gly

100 105 110

Arg Thr Asp Asn Leu Thr Asp Ala Ile Asn Lys Arg His Ala Glu Ile

115 120 125

Tyr Lys Gly Leu Phe Lys Ala Glu Leu Phe Asn Gly Lys Val Leu Lys

130 135 140

Gln Leu Gly Thr Val Thr Thr Thr Glu His Glu Asn Ala Leu Leu Arg

145 150 155 160

Ser Phe Asp Lys Phe Thr Thr Tyr Phe Ser Gly Phe Tyr Glu Asn Arg

165 170 175

Lys Asn Val Phe Ser Ala Glu Asp Ile Ser Thr Ala Ile Pro His Arg

180 185 190

Ile Val Gln Asp Asn Phe Pro Lys Phe Lys Glu Asn Cys His Ile Phe

195 200 205

Thr Arg Leu Ile Thr Ala Val Pro Ser Leu Arg Glu His Phe Glu Asn

210 215 220

Val Lys Lys Ala Ile Gly Ile Phe Val Ser Thr Ser Ile Glu Glu Val

225 230 235 240

Phe Ser Phe Pro Phe Tyr Asn Gln Leu Leu Thr Gln Thr Gln Ile Asp

245 250 255

Leu Tyr Asn Gln Leu Leu Gly Gly Ile Ser Arg Glu Ala Gly Thr Glu

260 265 270

Lys Ile Lys Gly Leu Asn Glu Val Leu Asn Leu Ala Ile Gln Lys Asn

275 280 285

Asp Glu Thr Ala His Ile Ile Ala Ser Leu Pro His Arg Phe Ile Pro

290 295 300

Leu Phe Lys Gln Ile Leu Ser Asp Arg Asn Thr Leu Ser Phe Ile Leu

305 310 315 320

Glu Glu Phe Lys Ser Asp Glu Glu Val Ile Gln Ser Phe Cys Lys Tyr

325 330 335

Lys Thr Leu Leu Arg Asn Glu Asn Val Leu Glu Thr Ala Glu Ala Leu

340 345 350

Phe Asn Glu Leu Asn Ser Ile Asp Leu Thr His Ile Phe Ile Ser His

355 360 365

Lys Lys Leu Glu Thr Ile Ser Ser Ala Leu Cys Asp His Trp Asp Thr

370 375 380

Leu Arg Asn Ala Leu Tyr Glu Arg Arg Ile Ser Glu Leu Thr Gly Lys

385 390 395 400

Ile Thr Lys Ser Ala Lys Glu Lys Val Gln Arg Ser Leu Lys His Glu

405 410 415

Asp Ile Asn Leu Gln Glu Ile Ile Ser Ala Ala Gly Lys Glu Leu Ser

420 425 430

Glu Ala Phe Lys Gln Lys Thr Ser Glu Ile Leu Ser His Ala His Ala

435 440 445

Ala Leu Asp Gln Pro Leu Pro Thr Thr Leu Lys Lys Gln Glu Glu Lys

450 455 460

Glu Ile Leu Lys Ser Gln Leu Asp Ser Leu Leu Gly Leu Tyr His Leu

465 470 475 480

Leu Asp Trp Phe Ala Val Asp Glu Ser Asn Glu Val Asp Pro Glu Phe

485 490 495

Ser Ala Arg Leu Thr Gly Ile Lys Leu Glu Met Glu Pro Ser Leu Ser

500 505 510

Phe Tyr Asn Lys Ala Arg Asn Tyr Ala Thr Lys Lys Pro Tyr Ser Val

515 520 525

Glu Lys Phe Lys Leu Asn Phe Gln Met Pro Thr Leu Ala Ser Gly Trp

530 535 540

Asp Val Asn Lys Glu Lys Asn Asn Gly Ala Ile Leu Phe Val Lys Asn

545 550 555 560

Gly Leu Tyr Tyr Leu Gly Ile Met Pro Lys Gln Lys Gly Arg Tyr Lys

565 570 575

Ala Leu Ser Phe Glu Pro Thr Glu Lys Thr Ser Glu Gly Phe Asp Lys

580 585 590

Met Tyr Tyr Asp Tyr Phe Pro Asp Ala Ala Lys Met Ile Pro Lys Cys

595 600 605

Ser Thr Gln Leu Lys Ala Val Thr Ala His Phe Gln Thr His Thr Thr

610 615 620

Pro Ile Leu Leu Ser Asn Asn Phe Ile Glu Pro Leu Glu Ile Thr Lys

625 630 635 640

Glu Ile Tyr Asp Leu Asn Asn Pro Glu Lys Glu Pro Lys Lys Phe Gln

645 650 655

Thr Ala Tyr Ala Lys Lys Thr Gly Asp Gln Lys Gly Tyr Arg Glu Ala

660 665 670

Leu Cys Lys Trp Ile Asp Phe Thr Arg Asp Phe Leu Ser Lys Tyr Thr

675 680 685

Lys Thr Thr Ser Ile Asp Leu Ser Ser Leu Arg Pro Ser Ser Gln Tyr

690 695 700

Lys Asp Leu Gly Glu Tyr Tyr Ala Glu Leu Asn Pro Leu Leu Tyr His

705 710 715 720

Ile Ser Phe Gln Arg Ile Ala Glu Lys Glu Ile Met Asp Ala Val Glu

725 730 735

Thr Gly Lys Leu Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ala Lys

740 745 750

Gly His His Gly Lys Pro Asn Leu His Thr Leu Tyr Trp Thr Gly Leu

755 760 765

Phe Ser Pro Glu Asn Leu Ala Lys Thr Ser Ile Lys Leu Asn Gly Gln

770 775 780

Ala Glu Leu Phe Tyr Arg Pro Lys Ser Arg Met Lys Arg Met Ala His

785 790 795 800

Arg Leu Gly Glu Lys Met Leu Asn Lys Lys Leu Lys Asp Gln Lys Thr

805 810 815

Pro Ile Pro Asp Thr Leu Tyr Gln Glu Leu Tyr Asp Tyr Val Asn His

820 825 830

Arg Leu Ser His Asp Leu Ser Asp Glu Ala Arg Ala Leu Leu Pro Asn

835 840 845

Val Ile Thr Lys Glu Val Ser His Glu Ile Ile Lys Asp Arg Arg Phe

850 855 860

Thr Ser Asp Lys Phe Phe Phe His Val Pro Ile Thr Leu Asn Tyr Gln

865 870 875 880

Ala Ala Asn Ser Pro Ser Lys Phe Asn Gln Arg Val Asn Ala Tyr Leu

885 890 895

Lys Glu His Pro Glu Thr Pro Ile Ile Gly Ile Asp Arg Gly Glu Arg

900 905 910

Asn Leu Ile Tyr Ile Thr Val Ile Asp Ser Thr Gly Lys Ile Leu Glu

915 920 925

Gln Arg Ser Leu Asn Thr Ile Gln Gln Phe Asp Tyr Gln Lys Lys Leu

930 935 940

Asp Asn Arg Glu Lys Glu Arg Val Ala Ala Arg Gln Ala Trp Ser Val

945 950 955 960

Val Gly Thr Ile Lys Asp Leu Lys Gln Gly Tyr Leu Ser Gln Val Ile

965 970 975

His Glu Ile Val Asp Leu Met Ile His Tyr Gln Ala Val Val Val Leu

980 985 990

Glu Asn Leu Asn Phe Gly Phe Lys Ser Lys Arg Thr Gly Ile Ala Glu

995 1000 1005

Lys Ala Val Tyr Gln Gln Phe Glu Lys Met Leu Ile Asp Lys Leu

1010 1015 1020

Asn Cys Leu Val Leu Lys Asp Tyr Pro Ala Glu Lys Val Gly Gly

1025 1030 1035

Val Leu Asn Pro Tyr Gln Leu Thr Asp Gln Phe Thr Ser Phe Ala

1040 1045 1050

Lys Met Gly Thr Gln Ser Gly Phe Leu Phe Tyr Val Pro Ala Pro

1055 1060 1065

Tyr Thr Ser Lys Ile Asp Pro Leu Thr Gly Phe Val Asp Pro Phe

1070 1075 1080

Val Trp Lys Thr Ile Lys Asn His Glu Ser Arg Lys His Phe Leu

1085 1090 1095

Glu Gly Phe Asp Phe Leu His Tyr Asp Val Lys Thr Gly Asp Phe

1100 1105 1110

Ile Leu His Phe Lys Met Asn Arg Asn Leu Ser Phe Gln Arg Gly

1115 1120 1125

Leu Pro Gly Phe Met Pro Ala Trp Asp Ile Val Phe Glu Lys Asn

1130 1135 1140

Glu Thr Gln Phe Asp Ala Lys Gly Thr Pro Phe Ile Ala Gly Lys

1145 1150 1155

Arg Ile Val Pro Val Ile Glu Asn His Arg Phe Thr Gly Arg Tyr

1160 1165 1170

Arg Asp Leu Tyr Pro Ala Asn Glu Leu Ile Ala Leu Leu Glu Glu

1175 1180 1185

Lys Gly Ile Val Phe Arg Asp Gly Ser Asn Ile Leu Pro Lys Leu

1190 1195 1200

Leu Glu Asn Asp Asp Ser His Ala Ile Asp Thr Met Val Ala Leu

1205 1210 1215

Ile Arg Ser Val Leu Gln Met Arg Asn Ser Asn Ala Ala Thr Gly

1220 1225 1230

Glu Asp Tyr Ile Asn Ser Pro Val Arg Asp Leu Asn Gly Val Cys

1235 1240 1245

Phe Asp Ser Arg Phe Gln Asn Pro Glu Trp Pro Met Asp Ala Asp

1250 1255 1260

Ala Asn Gly Ala Tyr His Ile Ala Leu Lys Gly Gln Leu Leu Leu

1265 1270 1275

Asn His Leu Lys Glu Ser Lys Asp Leu Lys Leu Gln Asn Gly Ile

1280 1285 1290

Ser Asn Gln Asp Trp Leu Ala Tyr Ile Gln Glu Leu Arg Asn

1295 1300 1305

<210> 78

<211> 1307

<212> БЕЛОК

<213> Francisella tularensis

<400> 78

Met Ser Ile Tyr Gln Glu Phe Val Asn Lys Tyr Ser Leu Ser Lys Thr

1 5 10 15

Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Asn Ile Lys

20 25 30

Ala Arg Gly Leu Ile Leu Asp Asp Glu Lys Arg Ala Lys Asp Tyr Lys

35 40 45

Lys Ala Lys Gln Ile Ile Asp Lys Tyr His Gln Phe Phe Ile Glu Glu

50 55 60

Ile Leu Ser Ser Val Cys Ile Ser Glu Asp Leu Leu Gln Asn Tyr Ser

65 70 75 80

Asp Val Tyr Phe Lys Leu Lys Lys Ser Asp Asp Asp Asn Leu Gln Lys

85 90 95

Asp Phe Lys Ser Ala Lys Asp Thr Ile Lys Lys Gln Ile Ser Lys Tyr

100 105 110

Ile Asn Asp Ser Glu Lys Phe Lys Asn Leu Phe Asn Gln Asn Leu Ile

115 120 125

Asp Ala Lys Lys Gly Gln Glu Ser Asp Leu Ile Leu Trp Leu Lys Gln

130 135 140

Ser Lys Asp Asn Gly Ile Glu Leu Phe Lys Ala Asn Ser Asp Ile Thr

145 150 155 160

Asp Ile Asp Glu Ala Leu Glu Ile Ile Lys Ser Phe Lys Gly Trp Thr

165 170 175

Thr Tyr Phe Lys Gly Phe His Glu Asn Arg Lys Asn Val Tyr Ser Ser

180 185 190

Asn Asp Ile Pro Thr Ser Ile Ile Tyr Arg Ile Val Asp Asp Asn Leu

195 200 205

Pro Lys Phe Leu Glu Asn Lys Ala Lys Tyr Glu Ser Leu Lys Asp Lys

210 215 220

Ala Pro Glu Ala Ile Asn Tyr Glu Gln Ile Lys Lys Asp Leu Ala Glu

225 230 235 240

Glu Leu Thr Phe Asp Ile Asp Tyr Lys Thr Ser Glu Val Asn Gln Arg

245 250 255

Val Phe Ser Leu Asp Glu Val Phe Glu Ile Ala Asn Phe Asn Asn Tyr

260 265 270

Leu Asn Gln Ser Gly Ile Thr Lys Phe Asn Thr Ile Ile Gly Gly Lys

275 280 285

Phe Val Asn Gly Glu Asn Thr Lys Arg Lys Gly Ile Asn Glu Tyr Ile

290 295 300

Asn Leu Tyr Ser Gln Gln Ile Asn Asp Lys Thr Leu Lys Lys Tyr Lys

305 310 315 320

Met Ser Val Leu Phe Lys Gln Ile Leu Ser Asp Thr Glu Ser Lys Ser

325 330 335

Phe Val Ile Asp Lys Leu Glu Asp Asp Ser Asp Val Val Thr Thr Met

340 345 350

Gln Ser Phe Tyr Glu Gln Ile Ala Ala Phe Lys Thr Val Glu Glu Lys

355 360 365

Ser Ile Lys Glu Thr Leu Ser Leu Leu Phe Asp Asp Leu Lys Ala Gln

370 375 380

Lys Leu Asp Leu Ser Lys Ile Tyr Phe Lys Asn Asp Lys Ser Leu Thr

385 390 395 400

Asp Leu Ser Gln Gln Val Phe Asp Asp Tyr Ser Val Ile Gly Thr Ala

405 410 415

Val Leu Glu Tyr Ile Thr Gln Gln Val Ala Pro Lys Asn Leu Asp Asn

420 425 430

Pro Ser Lys Lys Glu Gln Asp Leu Ile Ala Lys Lys Thr Glu Lys Ala

435 440 445

Lys Tyr Leu Ser Leu Glu Thr Ile Lys Leu Ala Leu Glu Glu Phe Asn

450 455 460

Lys His Arg Asp Ile Asp Lys Gln Cys Arg Phe Glu Glu Ile Leu Ser

465 470 475 480

Asn Phe Ala Ala Ile Pro Met Ile Phe Asp Glu Ile Ala Gln Asn Lys

485 490 495

Asp Asn Leu Ala Gln Ile Ser Ile Lys Tyr Gln Asn Gln Gly Lys Lys

500 505 510

Asp Leu Leu Gln Ala Ser Ala Glu Glu Asp Val Lys Ala Ile Lys Asp

515 520 525

Leu Leu Asp Gln Thr Asn Asn Leu Leu His Arg Leu Lys Ile Phe His

530 535 540

Ile Ser Gln Ser Glu Asp Lys Ala Asn Ile Leu Asp Lys Asp Glu His

545 550 555 560

Phe Tyr Leu Val Phe Glu Glu Cys Tyr Phe Glu Leu Ala Asn Ile Val

565 570 575

Pro Leu Tyr Asn Lys Ile Arg Asn Tyr Ile Thr Gln Lys Pro Tyr Ser

580 585 590

Asp Glu Lys Phe Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Ser Gly

595 600 605

Trp Asp Lys Asn Lys Glu Ser Ala Asn Thr Ala Ile Leu Phe Ile Lys

610 615 620

Asp Asp Lys Tyr Tyr Leu Gly Ile Met Asp Lys Lys His Asn Lys Ile

625 630 635 640

Phe Ser Asp Lys Ala Ile Glu Glu Asn Lys Gly Glu Gly Tyr Lys Lys

645 650 655

Ile Val Tyr Lys Gln Ile Ala Asp Ala Ser Lys Asp Ile Gln Asn Leu

660 665 670

Met Ile Ile Asp Gly Lys Thr Val Cys Lys Lys Gly Arg Lys Asp Arg

675 680 685

Asn Gly Val Asn Arg Gln Leu Leu Ser Leu Lys Arg Lys His Leu Pro

690 695 700

Glu Asn Ile Tyr Arg Ile Lys Glu Thr Lys Ser Tyr Leu Lys Asn Glu

705 710 715 720

Ala Arg Phe Ser Arg Lys Asp Leu Tyr Asp Phe Ile Asp Tyr Tyr Lys

725 730 735

Asp Arg Leu Asp Tyr Tyr Asp Phe Glu Phe Glu Leu Lys Pro Ser Asn

740 745 750

Glu Tyr Ser Asp Phe Asn Asp Phe Thr Asn His Ile Gly Ser Gln Gly

755 760 765

Tyr Lys Leu Thr Phe Glu Asn Ile Ser Gln Asp Tyr Ile Asn Ser Leu

770 775 780

Val Asn Glu Gly Lys Leu Tyr Leu Phe Gln Ile Tyr Ser Lys Asp Phe

785 790 795 800

Ser Ala Tyr Ser Lys Gly Arg Pro Asn Leu His Thr Leu Tyr Trp Lys

805 810 815

Ala Leu Phe Asp Glu Arg Asn Leu Gln Asp Val Val Tyr Lys Leu Asn

820 825 830

Gly Glu Ala Glu Leu Phe Tyr Arg Lys Gln Ser Ile Pro Lys Lys Ile

835 840 845

Thr His Pro Ala Lys Glu Thr Ile Ala Asn Lys Asn Lys Asp Asn Pro

850 855 860

Lys Lys Glu Ser Val Phe Glu Tyr Asp Leu Ile Lys Asp Lys Arg Phe

865 870 875 880

Thr Glu Asp Lys Phe Phe Phe His Cys Pro Ile Thr Ile Asn Phe Lys

885 890 895

Ser Ser Gly Ala Asn Lys Phe Asn Asp Glu Ile Asn Leu Leu Leu Lys

900 905 910

Glu Lys Ala Asn Asp Val His Ile Leu Ser Ile Asp Arg Gly Glu Arg

915 920 925

His Leu Ala Tyr Tyr Thr Leu Val Asp Gly Lys Gly Asn Ile Ile Lys

930 935 940

Gln Asp Asn Phe Asn Ile Ile Gly Asn Asp Arg Met Lys Thr Asn Tyr

945 950 955 960

His Asp Lys Leu Ala Ala Ile Glu Lys Asp Arg Asp Ser Ala Arg Lys

965 970 975

Asp Trp Lys Lys Ile Asn Asn Ile Lys Glu Met Lys Glu Gly Tyr Leu

980 985 990

Ser Gln Val Val His Glu Ile Ala Lys Leu Val Ile Glu Tyr Asn Ala

995 1000 1005

Ile Val Val Phe Glu Asp Leu Asn Phe Gly Phe Lys Arg Gly Arg

1010 1015 1020

Phe Lys Val Glu Lys Gln Val Tyr Gln Lys Leu Glu Lys Met Leu

1025 1030 1035

Ile Glu Lys Leu Asn Tyr Leu Val Phe Lys Asp Asn Glu Phe Asp

1040 1045 1050

Lys Thr Gly Gly Val Leu Arg Ala Tyr Gln Leu Thr Ala Pro Phe

1055 1060 1065

Glu Thr Phe Lys Lys Met Gly Lys Gln Thr Gly Ile Ile Tyr Tyr

1070 1075 1080

Val Pro Ala Gly Phe Thr Ser Lys Ile Cys Pro Val Thr Gly Phe

1085 1090 1095

Val Asn Gln Leu Tyr Pro Lys Tyr Glu Ser Val Ser Lys Ser Gln

1100 1105 1110

Glu Phe Phe Ser Lys Phe Asp Lys Ile Cys Tyr Asn Leu Asp Lys

1115 1120 1125

Gly Tyr Phe Glu Phe Ser Phe Asp Tyr Lys Asn Phe Gly Asp Lys

1130 1135 1140

Ala Ala Lys Gly Lys Trp Thr Ile Ala Ser Phe Gly Ser Arg Leu

1145 1150 1155

Ile Asn Phe Arg Asn Ser Asp Lys Asn His Asn Trp Asp Thr Arg

1160 1165 1170

Glu Val Tyr Pro Thr Lys Glu Leu Glu Lys Leu Leu Lys Asp Tyr

1175 1180 1185

Ser Ile Glu Tyr Gly His Gly Glu Cys Ile Lys Ala Ala Ile Cys

1190 1195 1200

Gly Glu Ser Asp Lys Lys Phe Phe Ala Lys Leu Thr Ser Val Leu

1205 1210 1215

Asn Thr Ile Leu Gln Met Arg Asn Ser Lys Thr Gly Thr Glu Leu

1220 1225 1230

Asp Tyr Leu Ile Ser Pro Val Ala Asp Val Asn Gly Asn Phe Phe

1235 1240 1245

Asp Ser Arg Gln Ala Pro Lys Asn Met Pro Gln Asp Ala Asp Ala

1250 1255 1260

Asn Gly Ala Tyr His Ile Gly Leu Lys Gly Leu Met Leu Leu Asp

1265 1270 1275

Arg Ile Lys Asn Asn Gln Glu Gly Lys Lys Leu Asn Leu Val Ile

1280 1285 1290

Lys Asn Glu Glu Tyr Phe Glu Phe Val Gln Asn Arg Asn Asn

1295 1300 1305

<210> 79

<211> 1305

<212> БЕЛОК

<213> Eubacterium sp.

<400> 79

Met Asn Lys Ala Ala Asp Asn Tyr Thr Gly Gly Asn Tyr Asp Glu Phe

1 5 10 15

Ile Ala Leu Ser Lys Val Gln Lys Thr Leu Arg Asn Glu Leu Lys Pro

20 25 30

Thr Pro Phe Thr Ala Glu His Ile Lys Gln Arg Gly Ile Ile Ser Glu

35 40 45

Asp Glu Tyr Arg Ala Gln Gln Ser Leu Glu Leu Lys Lys Ile Ala Asp

50 55 60

Glu Tyr Tyr Arg Asn Tyr Ile Thr His Lys Leu Asn Asp Ile Asn Asn

65 70 75 80

Leu Asp Phe Tyr Asn Leu Phe Asp Ala Ile Glu Glu Lys Tyr Lys Lys

85 90 95

Asn Asp Lys Asp Asn Arg Asp Lys Leu Asp Leu Val Glu Lys Ser Lys

100 105 110

Arg Gly Glu Ile Ala Lys Met Leu Ser Ala Asp Asp Asn Phe Lys Ser

115 120 125

Met Phe Glu Ala Lys Leu Ile Thr Lys Leu Leu Pro Asp Tyr Val Glu

130 135 140

Arg Asn Tyr Thr Gly Glu Asp Lys Glu Lys Ala Leu Glu Thr Leu Ala

145 150 155 160

Leu Phe Lys Gly Phe Thr Thr Tyr Phe Lys Gly Tyr Phe Lys Thr Arg

165 170 175

Lys Asn Met Phe Ser Gly Glu Gly Gly Ala Ser Ser Ile Cys His Arg

180 185 190

Ile Val Asn Val Asn Ala Ser Ile Phe Tyr Asp Asn Leu Lys Thr Phe

195 200 205

Met Arg Ile Gln Glu Lys Ala Gly Asp Glu Ile Ala Leu Ile Glu Glu

210 215 220

Glu Leu Thr Glu Lys Leu Asp Gly Trp Arg Leu Glu His Ile Phe Ser

225 230 235 240

Arg Asp Tyr Tyr Asn Glu Val Leu Ala Gln Lys Gly Ile Asp Tyr Tyr

245 250 255

Asn Gln Ile Cys Gly Asp Ile Asn Lys His Met Asn Leu Tyr Cys Gln

260 265 270

Gln Asn Lys Phe Lys Ala Asn Ile Phe Lys Met Met Lys Ile Gln Lys

275 280 285

Gln Ile Met Gly Ile Ser Glu Lys Ala Phe Glu Ile Pro Pro Met Tyr

290 295 300

Gln Asn Asp Glu Glu Val Tyr Ala Ser Phe Asn Glu Phe Ile Ser Arg

305 310 315 320

Leu Glu Glu Val Lys Leu Thr Asp Arg Leu Ile Asn Ile Leu Gln Asn

325 330 335

Ile Asn Ile Tyr Asn Thr Ala Lys Ile Tyr Ile Asn Ala Arg Tyr Tyr

340 345 350

Thr Asn Val Ser Ser Tyr Val Tyr Gly Gly Trp Gly Val Ile Asp Ser

355 360 365

Ala Ile Glu Arg Tyr Leu Tyr Asn Thr Ile Ala Gly Lys Gly Gln Ser

370 375 380

Lys Val Lys Lys Ile Glu Asn Ala Lys Lys Asp Asn Lys Phe Met Ser

385 390 395 400

Val Lys Glu Leu Asp Ser Ile Val Ala Glu Tyr Glu Pro Asp Tyr Phe

405 410 415

Asn Ala Pro Tyr Ile Asp Asp Asp Asp Asn Ala Val Lys Ala Phe Gly

420 425 430

Gly Gln Gly Val Leu Gly Tyr Phe Asn Lys Met Ser Glu Leu Leu Ala

435 440 445

Asp Val Ser Leu Tyr Thr Ile Asp Tyr Asn Ser Asp Asp Ser Leu Ile

450 455 460

Glu Asn Lys Glu Ser Ala Leu Arg Ile Lys Lys Gln Leu Asp Asp Ile

465 470 475 480

Met Ser Leu Tyr His Trp Leu Gln Thr Phe Ile Ile Asp Glu Val Val

485 490 495

Glu Lys Asp Asn Ala Phe Tyr Ala Glu Leu Glu Asp Ile Cys Cys Glu

500 505 510

Leu Glu Asn Val Val Thr Leu Tyr Asp Arg Ile Arg Asn Tyr Val Thr

515 520 525

Lys Lys Pro Tyr Ser Thr Gln Lys Phe Lys Leu Asn Phe Ala Ser Pro

530 535 540

Thr Leu Ala Ala Gly Trp Ser Arg Ser Lys Glu Phe Asp Asn Asn Ala

545 550 555 560

Ile Ile Leu Leu Arg Asn Asn Lys Tyr Tyr Ile Ala Ile Phe Asn Val

565 570 575

Asn Asn Lys Pro Asp Lys Gln Ile Ile Lys Gly Ser Glu Glu Gln Arg

580 585 590

Leu Ser Thr Asp Tyr Lys Lys Met Val Tyr Asn Leu Leu Pro Gly Pro

595 600 605

Asn Lys Met Leu Pro Lys Val Phe Ile Lys Ser Asp Thr Gly Lys Arg

610 615 620

Asp Tyr Asn Pro Ser Ser Tyr Ile Leu Glu Gly Tyr Glu Lys Asn Arg

625 630 635 640

His Ile Lys Ser Ser Gly Asn Phe Asp Ile Asn Tyr Cys His Asp Leu

645 650 655

Ile Asp Tyr Tyr Lys Ala Cys Ile Asn Lys His Pro Glu Trp Lys Asn

660 665 670

Tyr Gly Phe Lys Phe Lys Glu Thr Asn Gln Tyr Asn Asp Ile Gly Gln

675 680 685

Phe Tyr Lys Asp Val Glu Lys Gln Gly Tyr Ser Ile Ser Trp Ala Tyr

690 695 700

Ile Ser Glu Glu Asp Ile Asn Lys Leu Asp Glu Glu Gly Lys Ile Tyr

705 710 715 720

Leu Phe Glu Ile Tyr Asn Lys Asp Leu Ser Ala His Ser Thr Gly Arg

725 730 735

Asp Asn Leu His Thr Met Tyr Leu Lys Asn Ile Phe Ser Glu Asp Asn

740 745 750

Leu Lys Asn Ile Cys Ile Glu Leu Asn Gly Glu Ala Glu Leu Phe Tyr

755 760 765

Arg Lys Ser Ser Met Lys Ser Asn Ile Thr His Lys Lys Asp Thr Ile

770 775 780

Leu Val Asn Lys Thr Tyr Ile Asn Glu Thr Gly Val Arg Val Ser Leu

785 790 795 800

Ser Asp Glu Asp Tyr Met Lys Val Tyr Asn Tyr Tyr Asn Asn Asn Tyr

805 810 815

Val Ile Asp Thr Glu Asn Asp Lys Asn Leu Ile Asp Ile Ile Glu Lys

820 825 830

Ile Gly His Arg Lys Ser Lys Ile Asp Ile Val Lys Asp Lys Arg Tyr

835 840 845

Thr Glu Asp Lys Tyr Phe Leu Tyr Leu Pro Ile Thr Ile Asn Tyr Gly

850 855 860

Ile Glu Asp Glu Asn Val Asn Ser Lys Ile Ile Glu Tyr Ile Ala Lys

865 870 875 880

Gln Asp Asn Met Asn Val Ile Gly Ile Asp Arg Gly Glu Arg Asn Leu

885 890 895

Ile Tyr Ile Ser Val Ile Asp Asn Lys Gly Asn Ile Ile Glu Gln Lys

900 905 910

Ser Phe Asn Leu Val Asn Asn Tyr Asp Tyr Lys Asn Lys Leu Lys Asn

915 920 925

Met Glu Lys Thr Arg Asp Asn Ala Arg Lys Asn Trp Gln Glu Ile Gly

930 935 940

Lys Ile Lys Asp Val Lys Ser Gly Tyr Leu Ser Gly Val Ile Ser Lys

945 950 955 960

Ile Ala Arg Met Val Ile Asp Tyr Asn Ala Ile Ile Val Met Glu Asp

965 970 975

Leu Asn Lys Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Arg Gln Val

980 985 990

Tyr Gln Lys Phe Glu Asn Met Leu Ile Ser Lys Leu Asn Tyr Leu Val

995 1000 1005

Phe Lys Glu Arg Lys Ala Asp Glu Asn Gly Gly Ile Leu Arg Gly

1010 1015 1020

Tyr Gln Leu Thr Tyr Ile Pro Lys Ser Ile Lys Asn Val Gly Lys

1025 1030 1035

Gln Cys Gly Cys Ile Phe Tyr Val Pro Ala Ala Tyr Thr Ser Lys

1040 1045 1050

Ile Asp Pro Ala Thr Gly Phe Ile Asn Ile Phe Asp Phe Lys Lys

1055 1060 1065

Tyr Ser Gly Ser Gly Ile Asn Ala Lys Val Lys Asp Lys Lys Glu

1070 1075 1080

Phe Leu Met Ser Met Asn Ser Ile Arg Tyr Ile Asn Glu Cys Ser

1085 1090 1095

Glu Glu Tyr Glu Lys Ile Gly His Arg Glu Leu Phe Ala Phe Ser

1100 1105 1110

Phe Asp Tyr Asn Asn Phe Lys Thr Tyr Asn Val Ser Ser Pro Val

1115 1120 1125

Asn Glu Trp Thr Ala Tyr Thr Tyr Gly Glu Arg Ile Lys Lys Leu

1130 1135 1140

Tyr Lys Asp Gly Arg Trp Leu Arg Ser Glu Val Leu Asn Leu Thr

1145 1150 1155

Glu Asn Leu Ile Lys Leu Met Glu Gln Tyr Asn Ile Glu Tyr Lys

1160 1165 1170

Asp Gly His Asp Ile Arg Glu Asp Ile Ser His Met Asp Glu Thr

1175 1180 1185

Arg Asn Ala Asp Phe Ile Cys Ser Leu Phe Glu Glu Leu Lys Tyr

1190 1195 1200

Thr Val Gln Leu Arg Asn Ser Lys Ser Glu Ala Glu Asp Glu Asn

1205 1210 1215

Tyr Asp Arg Leu Val Ser Pro Ile Leu Asn Ser Ser Asn Gly Phe

1220 1225 1230

Tyr Asp Ser Ser Asp Tyr Met Glu Asn Glu Asn Asn Thr Thr His

1235 1240 1245

Thr Met Pro Lys Asp Ala Asp Ala Asn Gly Ala Tyr Cys Ile Ala

1250 1255 1260

Leu Lys Gly Leu Tyr Glu Ile Asn Lys Ile Lys Gln Asn Trp Ser

1265 1270 1275

Asp Asp Lys Lys Phe Lys Glu Asn Glu Leu Tyr Ile Asn Val Thr

1280 1285 1290

Glu Trp Leu Asp Tyr Ile Gln Asn Arg Arg Phe Glu

1295 1300 1305

<210> 80

<211> 1300

<212> БЕЛОК

<213> Francisella tularensis

<400> 80

Met Ser Ile Tyr Gln Glu Phe Val Asn Lys Tyr Ser Leu Ser Lys Thr

1 5 10 15

Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Asn Ile Lys

20 25 30

Ala Arg Gly Leu Ile Leu Asp Asp Glu Lys Arg Ala Lys Asp Tyr Lys

35 40 45

Lys Ala Lys Gln Ile Ile Asp Lys Tyr His Gln Phe Phe Ile Glu Glu

50 55 60

Ile Leu Ser Ser Val Cys Ile Ser Glu Asp Leu Leu Gln Asn Tyr Ser

65 70 75 80

Asp Val Tyr Phe Lys Leu Lys Lys Ser Asp Asp Asp Asn Leu Gln Lys

85 90 95

Asp Phe Lys Ser Ala Lys Asp Thr Ile Lys Lys Gln Ile Ser Glu Tyr

100 105 110

Ile Lys Asp Ser Glu Lys Phe Lys Asn Leu Phe Asn Gln Asn Leu Ile

115 120 125

Asp Ala Lys Lys Gly Gln Glu Ser Asp Leu Ile Leu Trp Leu Lys Gln

130 135 140

Ser Lys Asp Asn Gly Ile Glu Leu Phe Lys Ala Asn Ser Asp Ile Thr

145 150 155 160

Asp Ile Asp Glu Ala Leu Glu Ile Ile Lys Ser Phe Lys Gly Trp Thr

165 170 175

Thr Tyr Phe Lys Gly Phe His Glu Asn Arg Lys Asn Val Tyr Ser Ser

180 185 190

Asn Asp Ile Pro Thr Ser Ile Ile Tyr Arg Ile Val Asp Asp Asn Leu

195 200 205

Pro Lys Phe Leu Glu Asn Lys Ala Lys Tyr Glu Ser Leu Lys Asp Lys

210 215 220

Ala Pro Glu Ala Ile Asn Tyr Glu Gln Ile Lys Lys Asp Leu Ala Glu

225 230 235 240

Glu Leu Thr Phe Asp Ile Asp Tyr Lys Thr Ser Glu Val Asn Gln Arg

245 250 255

Val Phe Ser Leu Asp Glu Val Phe Glu Ile Ala Asn Phe Asn Asn Tyr

260 265 270

Leu Asn Gln Ser Gly Ile Thr Lys Phe Asn Thr Ile Ile Gly Gly Lys

275 280 285

Phe Val Asn Gly Glu Asn Thr Lys Arg Lys Gly Ile Asn Glu Tyr Ile

290 295 300

Asn Leu Tyr Ser Gln Gln Ile Asn Asp Lys Thr Leu Lys Lys Tyr Lys

305 310 315 320

Met Ser Val Leu Phe Lys Gln Ile Leu Ser Asp Thr Glu Ser Lys Ser

325 330 335

Phe Val Ile Asp Lys Leu Glu Asp Asp Ser Asp Val Val Thr Thr Met

340 345 350

Gln Ser Phe Tyr Glu Gln Ile Ala Ala Phe Lys Thr Val Glu Glu Lys

355 360 365

Ser Ile Lys Glu Thr Leu Ser Leu Leu Phe Asp Asp Leu Lys Ala Gln

370 375 380

Lys Leu Asp Leu Ser Lys Ile Tyr Phe Lys Asn Asp Lys Ser Leu Thr

385 390 395 400

Asp Leu Ser Gln Gln Val Phe Asp Asp Tyr Ser Val Ile Gly Thr Ala

405 410 415

Val Leu Glu Tyr Ile Thr Gln Gln Val Ala Pro Lys Asn Leu Asp Asn

420 425 430

Pro Ser Lys Lys Glu Gln Asp Leu Ile Ala Lys Lys Thr Glu Lys Ala

435 440 445

Lys Tyr Leu Ser Leu Glu Thr Ile Lys Leu Ala Leu Glu Glu Phe Asn

450 455 460

Lys His Arg Asp Ile Asp Lys Gln Cys Arg Phe Glu Glu Ile Leu Ala

465 470 475 480

Asn Phe Ala Ala Ile Pro Met Ile Phe Asp Glu Ile Ala Gln Asn Lys

485 490 495

Asp Asn Leu Ala Gln Ile Ser Ile Lys Tyr Gln Asn Gln Gly Lys Lys

500 505 510

Asp Leu Leu Gln Ala Ser Ala Glu Asp Asp Val Lys Ala Ile Lys Asp

515 520 525

Leu Leu Asp Gln Thr Asn Asn Leu Leu His Arg Leu Lys Ile Phe His

530 535 540

Ile Ser Gln Ser Glu Asp Lys Ala Asn Ile Leu Asp Lys Asp Glu His

545 550 555 560

Phe Tyr Leu Val Phe Glu Glu Cys Tyr Phe Glu Leu Ala Asn Ile Val

565 570 575

Pro Leu Tyr Asn Lys Ile Arg Asn Tyr Ile Thr Gln Lys Pro Tyr Ser

580 585 590

Asp Glu Lys Phe Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Asn Gly

595 600 605

Trp Asp Lys Asn Lys Glu Pro Asp Asn Thr Ala Ile Leu Phe Ile Lys

610 615 620

Asp Asp Lys Tyr Tyr Leu Gly Val Met Asn Lys Lys Asn Asn Lys Ile

625 630 635 640

Phe Asp Asp Lys Ala Ile Lys Glu Asn Lys Gly Glu Gly Tyr Lys Lys

645 650 655

Ile Val Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys Val

660 665 670

Phe Phe Ser Ala Lys Ser Ile Lys Phe Tyr Asn Pro Ser Glu Asp Ile

675 680 685

Leu Arg Ile Arg Asn His Ser Thr His Thr Lys Asn Gly Asn Pro Gln

690 695 700

Lys Gly Tyr Glu Lys Phe Glu Phe Asn Ile Glu Asp Cys Arg Lys Phe

705 710 715 720

Ile Asp Phe Tyr Lys Glu Ser Ile Ser Lys His Pro Glu Trp Lys Asp

725 730 735

Phe Gly Phe Arg Phe Ser Asp Thr Gln Arg Tyr Asn Ser Ile Asp Glu

740 745 750

Phe Tyr Arg Glu Val Glu Asn Gln Gly Tyr Lys Leu Thr Phe Glu Asn

755 760 765

Ile Ser Glu Ser Tyr Ile Asp Ser Val Val Asn Gln Gly Lys Leu Tyr

770 775 780

Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Ala Tyr Ser Lys Gly Arg

785 790 795 800

Pro Asn Leu His Thr Leu Tyr Trp Lys Ala Leu Phe Asp Glu Arg Asn

805 810 815

Leu Gln Asp Val Val Tyr Lys Leu Asn Gly Glu Ala Glu Leu Phe Tyr

820 825 830

Arg Lys Lys Ser Ile Pro Lys Lys Ile Thr His Pro Ala Lys Glu Ala

835 840 845

Ile Ala Asn Lys Asn Lys Asp Asn Pro Lys Lys Glu Ser Phe Phe Glu

850 855 860

Tyr Asp Leu Ile Lys Asp Lys Arg Phe Thr Glu Asp Lys Phe Phe Phe

865 870 875 880

His Cys Pro Ile Thr Ile Asn Phe Lys Ser Ser Gly Ala Asn Lys Phe

885 890 895

Asn Asp Glu Ile Asn Leu Leu Leu Lys Glu Lys Ala Asn Asp Val His

900 905 910

Ile Leu Ser Ile Asp Arg Gly Glu Arg His Leu Ala Tyr Tyr Thr Leu

915 920 925

Val Asp Gly Lys Gly Asn Ile Ile Lys Gln Asp Thr Phe Asn Ile Ile

930 935 940

Gly Asn Asp Arg Met Lys Thr Asn Tyr His Asp Lys Leu Ala Ala Ile

945 950 955 960

Glu Lys Asp Arg Asp Ser Ala Arg Lys Asp Trp Lys Lys Ile Asn Asn

965 970 975

Ile Lys Glu Met Lys Glu Gly Tyr Leu Ser Gln Val Val His Glu Ile

980 985 990

Ala Lys Leu Val Ile Glu His Asn Ala Ile Val Val Phe Glu Asp Leu

995 1000 1005

Asn Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Val

1010 1015 1020

Tyr Gln Lys Leu Glu Lys Met Leu Ile Glu Lys Leu Asn Tyr Leu

1025 1030 1035

Val Phe Lys Asp Asn Glu Phe Asp Lys Thr Gly Gly Val Leu Arg

1040 1045 1050

Ala Tyr Gln Leu Thr Ala Pro Phe Glu Thr Phe Lys Lys Met Gly

1055 1060 1065

Lys Gln Thr Gly Ile Ile Tyr Tyr Val Pro Ala Gly Phe Thr Ser

1070 1075 1080

Lys Ile Cys Pro Val Thr Gly Phe Val Asn Gln Leu Tyr Pro Lys

1085 1090 1095

Tyr Glu Ser Val Ser Lys Ser Gln Glu Phe Phe Ser Lys Phe Asp

1100 1105 1110

Lys Ile Cys Tyr Asn Leu Asp Lys Gly Tyr Phe Glu Phe Ser Phe

1115 1120 1125

Asp Tyr Lys Asn Phe Gly Asp Lys Ala Ala Lys Gly Lys Trp Thr

1130 1135 1140

Ile Ala Ser Phe Gly Ser Arg Leu Ile Asn Phe Arg Asn Ser Asp

1145 1150 1155

Lys Asn His Asn Trp Asp Thr Arg Glu Val Tyr Pro Thr Lys Glu

1160 1165 1170

Leu Glu Lys Leu Leu Lys Asp Tyr Ser Ile Glu Tyr Gly His Gly

1175 1180 1185

Glu Cys Ile Lys Ala Ala Ile Cys Gly Glu Ser Asp Lys Lys Phe

1190 1195 1200

Phe Ala Lys Leu Thr Ser Ile Leu Asn Thr Ile Leu Gln Met Arg

1205 1210 1215

Asn Ser Lys Thr Gly Thr Glu Leu Asp Tyr Leu Ile Ser Pro Val

1220 1225 1230

Ala Asp Val Asn Gly Asn Phe Phe Asp Ser Arg Gln Ala Pro Lys

1235 1240 1245

Asn Met Pro Gln Asp Ala Asp Ala Asn Gly Ala Tyr His Ile Gly

1250 1255 1260

Leu Lys Gly Leu Met Leu Leu Asp Arg Ile Lys Asn Asn Gln Glu

1265 1270 1275

Gly Lys Lys Leu Asn Leu Val Ile Lys Asn Glu Glu Tyr Phe Glu

1280 1285 1290

Phe Val Gln Asn Arg Asn Asn

1295 1300

<210> 81

<211> 1300

<212> БЕЛОК

<213> Francisella tularensis

<400> 81

Met Ser Ile Tyr Gln Glu Phe Val Asn Lys Tyr Ser Leu Ser Lys Thr

1 5 10 15

Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Asn Ile Lys

20 25 30

Ala Arg Gly Leu Ile Leu Asp Asp Glu Lys Arg Ala Lys Asp Tyr Lys

35 40 45

Lys Ala Lys Gln Ile Ile Asp Lys Tyr His Gln Phe Phe Ile Glu Glu

50 55 60

Ile Leu Ser Ser Val Cys Ile Ser Glu Asp Leu Leu Gln Asn Tyr Ser

65 70 75 80

Asp Val Tyr Phe Lys Leu Lys Lys Ser Asp Asp Asp Asn Leu Gln Lys

85 90 95

Asp Phe Lys Ser Ala Lys Asp Thr Ile Lys Lys Gln Ile Ser Glu Tyr

100 105 110

Ile Lys Asp Ser Glu Lys Phe Lys Asn Leu Phe Asn Gln Asn Leu Ile

115 120 125

Asp Ala Lys Lys Gly Gln Glu Ser Asp Leu Ile Leu Trp Leu Lys Gln

130 135 140

Ser Lys Asp Asn Gly Ile Glu Leu Phe Lys Ala Asn Ser Asp Ile Thr

145 150 155 160

Asp Ile Asp Glu Ala Leu Glu Ile Ile Lys Ser Phe Lys Gly Trp Thr

165 170 175

Thr Tyr Phe Lys Gly Phe His Glu Asn Arg Lys Asn Val Tyr Ser Ser

180 185 190

Asp Asp Ile Pro Thr Ser Ile Ile Tyr Arg Ile Val Asp Asp Asn Leu

195 200 205

Pro Lys Phe Leu Glu Asn Lys Ala Lys Tyr Glu Ser Leu Lys Asp Lys

210 215 220

Ala Pro Glu Ala Ile Asn Tyr Glu Gln Ile Lys Lys Asp Leu Ala Glu

225 230 235 240

Glu Leu Thr Phe Asp Ile Asp Tyr Lys Thr Ser Glu Val Asn Gln Arg

245 250 255

Val Phe Ser Leu Asp Glu Val Phe Glu Ile Ala Asn Phe Asn Asn Tyr

260 265 270

Leu Asn Gln Ser Gly Ile Thr Lys Phe Asn Thr Ile Ile Gly Gly Lys

275 280 285

Phe Val Asn Gly Glu Asn Thr Lys Arg Lys Gly Ile Asn Glu Tyr Ile

290 295 300

Asn Leu Tyr Ser Gln Gln Ile Asn Asp Lys Thr Leu Lys Lys Tyr Lys

305 310 315 320

Met Ser Val Leu Phe Lys Gln Ile Leu Ser Asp Thr Glu Ser Lys Ser

325 330 335

Phe Val Ile Asp Lys Leu Glu Asp Asp Ser Asp Val Val Thr Thr Met

340 345 350

Gln Ser Phe Tyr Glu Gln Ile Ala Ala Phe Lys Thr Val Glu Glu Lys

355 360 365

Ser Ile Lys Glu Thr Leu Ser Leu Leu Phe Asp Asp Leu Lys Ala Gln

370 375 380

Lys Leu Asp Leu Ser Lys Ile Tyr Phe Lys Asn Asp Lys Ser Leu Thr

385 390 395 400

Asp Leu Ser Gln Gln Val Phe Asp Asp Tyr Ser Val Ile Gly Thr Ala

405 410 415

Val Leu Glu Tyr Ile Thr Gln Gln Val Ala Pro Lys Asn Leu Asp Asn

420 425 430

Pro Ser Lys Lys Glu Gln Asp Leu Ile Ala Lys Lys Thr Glu Lys Ala

435 440 445

Lys Tyr Leu Ser Leu Glu Thr Ile Lys Leu Ala Leu Glu Glu Phe Asn

450 455 460

Lys His Arg Asp Ile Asp Lys Gln Cys Arg Phe Glu Glu Ile Leu Ala

465 470 475 480

Asn Phe Ala Ala Ile Pro Met Ile Phe Asp Glu Ile Ala Gln Asn Lys

485 490 495

Asp Asn Leu Ala Gln Ile Ser Leu Lys Tyr Gln Asn Gln Gly Lys Lys

500 505 510

Asp Leu Leu Gln Ala Ser Ala Glu Glu Asp Val Lys Ala Ile Lys Asp

515 520 525

Leu Leu Asp Gln Thr Asn Asn Leu Leu His Arg Leu Lys Ile Phe His

530 535 540

Ile Ser Gln Ser Glu Asp Lys Ala Asn Ile Leu Asp Lys Asp Glu His

545 550 555 560

Phe Tyr Leu Val Phe Glu Glu Cys Tyr Phe Glu Leu Ala Asn Ile Val

565 570 575

Pro Leu Tyr Asn Lys Ile Arg Asn Tyr Ile Thr Gln Lys Pro Tyr Ser

580 585 590

Asp Glu Lys Phe Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Asn Gly

595 600 605

Trp Asp Lys Asn Lys Glu Pro Asp Asn Thr Ala Ile Leu Phe Ile Lys

610 615 620

Asp Asp Lys Tyr Tyr Leu Gly Val Met Asn Lys Lys Asn Asn Lys Ile

625 630 635 640

Phe Asp Asp Lys Ala Ile Lys Glu Asn Lys Gly Glu Gly Tyr Lys Lys

645 650 655

Ile Val Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys Val

660 665 670

Phe Phe Ser Ala Lys Ser Ile Lys Phe Tyr Asn Pro Ser Glu Asp Ile

675 680 685

Leu Arg Ile Arg Asn His Ser Thr His Thr Lys Asn Gly Asn Pro Gln

690 695 700

Lys Gly Tyr Glu Lys Phe Glu Phe Asn Ile Glu Asp Cys Arg Lys Phe

705 710 715 720

Ile Asp Phe Tyr Lys Glu Ser Ile Ser Lys His Pro Glu Trp Lys Asp

725 730 735

Phe Gly Phe Arg Phe Ser Asp Thr Gln Arg Tyr Asn Ser Ile Asp Glu

740 745 750

Phe Tyr Arg Glu Val Glu Asn Gln Gly Tyr Lys Leu Thr Phe Glu Asn

755 760 765

Ile Ser Glu Ser Tyr Ile Asp Ser Val Val Asn Gln Gly Lys Leu Tyr

770 775 780

Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Ala Tyr Ser Lys Gly Arg

785 790 795 800

Pro Asn Leu His Thr Leu Tyr Trp Lys Ala Leu Phe Asp Glu Arg Asn

805 810 815

Leu Gln Asp Val Val Tyr Lys Leu Asn Gly Glu Ala Glu Leu Phe Tyr

820 825 830

Arg Lys Gln Ser Ile Pro Lys Lys Ile Thr His Pro Ala Lys Glu Ala

835 840 845

Ile Ala Asn Lys Asn Lys Asp Asn Pro Lys Lys Glu Ser Val Phe Glu

850 855 860

Tyr Asp Leu Ile Lys Asp Lys Arg Phe Thr Glu Asp Lys Phe Phe Phe

865 870 875 880

His Cys Pro Ile Thr Ile Asn Phe Lys Ser Ser Gly Ala Asn Lys Phe

885 890 895

Asn Asp Glu Ile Asn Leu Leu Leu Lys Glu Lys Ala Asn Asp Val His

900 905 910

Ile Leu Ser Ile Asp Arg Gly Glu Arg His Leu Ala Tyr Tyr Thr Leu

915 920 925

Val Asp Gly Lys Gly Asn Ile Ile Lys Gln Asp Thr Phe Asn Ile Ile

930 935 940

Gly Asn Asp Arg Met Lys Thr Asn Tyr His Asp Lys Leu Ala Ala Ile

945 950 955 960

Glu Lys Asp Arg Asp Ser Ala Arg Lys Asp Trp Lys Lys Ile Asn Asn

965 970 975

Ile Lys Glu Met Lys Glu Gly Tyr Leu Ser Gln Val Val His Glu Ile

980 985 990

Ala Lys Leu Val Ile Glu His Asn Ala Ile Val Val Phe Glu Asp Leu

995 1000 1005

Asn Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Val

1010 1015 1020

Tyr Gln Lys Leu Glu Lys Met Leu Ile Glu Lys Leu Asn Tyr Leu

1025 1030 1035

Val Phe Lys Asp Asn Glu Phe Asp Lys Thr Gly Gly Val Leu Arg

1040 1045 1050

Ala Tyr Gln Leu Thr Ala Pro Phe Glu Thr Phe Lys Lys Met Gly

1055 1060 1065

Lys Gln Thr Gly Ile Ile Tyr Tyr Val Pro Ala Gly Phe Thr Ser

1070 1075 1080

Lys Ile Cys Pro Val Thr Gly Phe Val Asn Gln Leu Tyr Pro Lys

1085 1090 1095

Tyr Glu Ser Val Ser Lys Ser Gln Glu Phe Phe Ser Lys Phe Asp

1100 1105 1110

Lys Ile Cys Tyr Asn Leu Asp Lys Gly Tyr Phe Glu Phe Ser Phe

1115 1120 1125

Asp Tyr Lys Asn Phe Gly Asp Lys Ala Ala Lys Gly Lys Trp Thr

1130 1135 1140

Ile Ala Ser Phe Gly Ser Arg Leu Ile Asn Phe Arg Asn Ser Asp

1145 1150 1155

Lys Asn His Asn Trp Asp Thr Arg Glu Val Tyr Pro Thr Lys Glu

1160 1165 1170

Leu Glu Lys Leu Leu Lys Asp Tyr Ser Ile Glu Tyr Gly His Gly

1175 1180 1185

Glu Cys Ile Lys Ala Ala Ile Cys Gly Glu Ser Asp Lys Lys Phe

1190 1195 1200

Phe Ala Lys Leu Thr Ser Val Leu Asn Thr Ile Leu Gln Met Arg

1205 1210 1215

Asn Ser Lys Thr Gly Thr Glu Leu Asp Tyr Leu Ile Ser Pro Val

1220 1225 1230

Ala Asp Val Asn Gly Asn Phe Phe Asp Ser Arg Gln Ala Pro Lys

1235 1240 1245

Asn Met Pro Gln Asp Ala Asp Ala Asn Gly Ala Tyr His Ile Gly

1250 1255 1260

Leu Lys Gly Leu Met Leu Leu Asp Arg Ile Lys Asn Asn Gln Glu

1265 1270 1275

Gly Lys Lys Leu Asn Leu Val Ile Lys Asn Glu Glu Tyr Phe Glu

1280 1285 1290

Phe Val Gln Asn Arg Asn Asn

1295 1300

<210> 82

<211> 1300

<212> БЕЛОК

<213> Francisella tularensis

<400> 82

Met Ser Ile Tyr Gln Glu Phe Val Asn Lys Tyr Ser Leu Ser Lys Thr

1 5 10 15

Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Leu Glu Asn Ile Lys

20 25 30

Ala Arg Gly Leu Ile Leu Asp Asp Glu Lys Arg Ala Lys Asp Tyr Lys

35 40 45

Lys Ala Lys Gln Ile Ile Asp Lys Tyr His Gln Phe Phe Ile Glu Glu

50 55 60

Ile Leu Ser Ser Val Cys Ile Ser Glu Asp Leu Leu Gln Asn Tyr Ser

65 70 75 80

Asp Val Tyr Phe Lys Leu Lys Lys Ser Asp Asp Asp Asn Leu Gln Lys

85 90 95

Asp Phe Lys Ser Ala Lys Asp Thr Ile Lys Lys Gln Ile Ser Glu Tyr

100 105 110

Ile Lys Asp Ser Glu Lys Phe Lys Asn Leu Phe Asn Gln Asn Leu Ile

115 120 125

Asp Ala Lys Lys Gly Gln Glu Ser Asp Leu Ile Leu Trp Leu Lys Gln

130 135 140

Ser Lys Asp Asn Gly Ile Glu Leu Phe Lys Ala Asn Ser Asp Ile Thr

145 150 155 160

Asp Ile Asp Glu Ala Leu Glu Ile Ile Lys Ser Phe Lys Gly Trp Thr

165 170 175

Thr Tyr Phe Lys Gly Phe His Glu Asn Arg Lys Asn Val Tyr Ser Ser

180 185 190

Asn Asp Ile Pro Thr Ser Ile Ile Tyr Arg Ile Val Asp Asp Asn Leu

195 200 205

Pro Lys Phe Leu Glu Asn Lys Ala Lys Tyr Glu Ser Leu Lys Asp Lys

210 215 220

Ala Pro Glu Ala Ile Asn Tyr Glu Gln Ile Lys Lys Asp Leu Ala Glu

225 230 235 240

Glu Leu Thr Phe Asp Ile Asp Tyr Lys Thr Ser Glu Val Asn Gln Arg

245 250 255

Val Phe Ser Leu Asp Glu Val Phe Glu Ile Ala Asn Phe Asn Asn Tyr

260 265 270

Leu Asn Gln Ser Gly Ile Thr Lys Phe Asn Thr Ile Ile Gly Gly Lys

275 280 285

Phe Val Asn Gly Glu Asn Thr Lys Arg Lys Gly Ile Asn Glu Tyr Ile

290 295 300

Asn Leu Tyr Ser Gln Gln Ile Asn Asp Lys Thr Leu Lys Lys Tyr Lys

305 310 315 320

Met Ser Val Leu Phe Lys Gln Ile Leu Ser Asp Thr Glu Ser Lys Ser

325 330 335

Phe Val Ile Asp Lys Leu Glu Asp Asp Ser Asp Val Val Thr Thr Met

340 345 350

Gln Ser Phe Tyr Glu Gln Ile Ala Ala Phe Lys Thr Val Glu Glu Lys

355 360 365

Ser Ile Lys Glu Thr Leu Ser Leu Leu Phe Asp Asp Leu Lys Ala Gln

370 375 380

Lys Leu Asp Leu Ser Lys Ile Tyr Phe Lys Asn Asp Lys Ser Leu Thr

385 390 395 400

Asp Leu Ser Gln Gln Val Phe Asp Asp Tyr Ser Val Ile Gly Thr Ala

405 410 415

Val Leu Glu Tyr Ile Thr Gln Gln Ile Ala Pro Lys Asn Leu Asp Asn

420 425 430

Pro Ser Lys Lys Glu Gln Glu Leu Ile Ala Lys Lys Thr Glu Lys Ala

435 440 445

Lys Tyr Leu Ser Leu Glu Thr Ile Lys Leu Ala Leu Glu Glu Phe Asn

450 455 460

Lys His Arg Asp Ile Asp Lys Gln Cys Arg Phe Glu Glu Ile Leu Ala

465 470 475 480

Asn Phe Ala Ala Ile Pro Met Ile Phe Asp Glu Ile Ala Gln Asn Lys

485 490 495

Asp Asn Leu Ala Gln Ile Ser Ile Lys Tyr Gln Asn Gln Gly Lys Lys

500 505 510

Asp Leu Leu Gln Ala Ser Ala Glu Asp Asp Val Lys Ala Ile Lys Asp

515 520 525

Leu Leu Asp Gln Thr Asn Asn Leu Leu His Lys Leu Lys Ile Phe His

530 535 540

Ile Ser Gln Ser Glu Asp Lys Ala Asn Ile Leu Asp Lys Asp Glu His

545 550 555 560

Phe Tyr Leu Val Phe Glu Glu Cys Tyr Phe Glu Leu Ala Asn Ile Val

565 570 575

Pro Leu Tyr Asn Lys Ile Arg Asn Tyr Ile Thr Gln Lys Pro Tyr Ser

580 585 590

Asp Glu Lys Phe Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Asn Gly

595 600 605

Trp Asp Lys Asn Lys Glu Pro Asp Asn Thr Ala Ile Leu Phe Ile Lys

610 615 620

Asp Asp Lys Tyr Tyr Leu Gly Val Met Asn Lys Lys Asn Asn Lys Ile

625 630 635 640

Phe Asp Asp Lys Ala Ile Lys Glu Asn Lys Gly Glu Gly Tyr Lys Lys

645 650 655

Ile Val Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys Val

660 665 670

Phe Phe Ser Ala Lys Ser Ile Lys Phe Tyr Asn Pro Ser Glu Asp Ile

675 680 685

Leu Arg Ile Arg Asn His Ser Thr His Thr Lys Asn Gly Ser Pro Gln

690 695 700

Lys Gly Tyr Glu Lys Phe Glu Phe Asn Ile Glu Asp Cys Arg Lys Phe

705 710 715 720

Ile Asp Phe Tyr Lys Gln Ser Ile Ser Lys His Pro Glu Trp Lys Asp

725 730 735

Phe Gly Phe Arg Phe Ser Asp Thr Gln Arg Tyr Asn Ser Ile Asp Glu

740 745 750

Phe Tyr Arg Glu Val Glu Asn Gln Gly Tyr Lys Leu Thr Phe Glu Asn

755 760 765

Ile Ser Glu Ser Tyr Ile Asp Ser Val Val Asn Gln Gly Lys Leu Tyr

770 775 780

Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Ala Tyr Ser Lys Gly Arg

785 790 795 800

Pro Asn Leu His Thr Leu Tyr Trp Lys Ala Leu Phe Asp Glu Arg Asn

805 810 815

Leu Gln Asp Val Val Tyr Lys Leu Asn Gly Glu Ala Glu Leu Phe Tyr

820 825 830

Arg Lys Gln Ser Ile Pro Lys Lys Ile Thr His Pro Ala Lys Glu Ala

835 840 845

Ile Ala Asn Lys Asn Lys Asp Asn Pro Lys Lys Glu Ser Val Phe Glu

850 855 860

Tyr Asp Leu Ile Lys Asp Lys Arg Phe Thr Glu Asp Lys Phe Phe Phe

865 870 875 880

His Cys Pro Ile Thr Ile Asn Phe Lys Ser Ser Gly Ala Asn Lys Phe

885 890 895

Asn Asp Glu Ile Asn Leu Leu Leu Lys Glu Lys Ala Asn Asp Val His

900 905 910

Ile Leu Ser Ile Asp Arg Gly Glu Arg His Leu Ala Tyr Tyr Thr Leu

915 920 925

Val Asp Gly Lys Gly Asn Ile Ile Lys Gln Asp Thr Phe Asn Ile Ile

930 935 940

Gly Asn Asp Arg Met Lys Thr Asn Tyr His Asp Lys Leu Ala Ala Ile

945 950 955 960

Glu Lys Asp Arg Asp Ser Ala Arg Lys Asp Trp Lys Lys Ile Asn Asn

965 970 975

Ile Lys Glu Met Lys Glu Gly Tyr Leu Ser Gln Val Val His Glu Ile

980 985 990

Ala Lys Leu Val Ile Glu Tyr Asn Ala Ile Val Val Phe Glu Asp Leu

995 1000 1005

Asn Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Val

1010 1015 1020

Tyr Gln Lys Leu Glu Lys Met Leu Ile Glu Lys Leu Asn Tyr Leu

1025 1030 1035

Val Phe Lys Asp Asn Glu Phe Asp Lys Thr Gly Gly Val Leu Arg

1040 1045 1050

Ala Tyr Gln Leu Thr Ala Pro Phe Glu Thr Phe Lys Lys Met Gly

1055 1060 1065

Lys Gln Thr Gly Ile Ile Tyr Tyr Val Pro Ala Gly Phe Thr Ser

1070 1075 1080

Lys Ile Cys Pro Val Thr Gly Phe Val Asn Gln Leu Tyr Pro Lys

1085 1090 1095

Tyr Glu Ser Val Ser Lys Ser Gln Glu Phe Phe Ser Lys Phe Asp

1100 1105 1110

Lys Ile Cys Tyr Asn Leu Asp Lys Gly Tyr Phe Glu Phe Ser Phe

1115 1120 1125

Asp Tyr Lys Asn Phe Gly Asp Lys Ala Ala Lys Gly Lys Trp Thr

1130 1135 1140

Ile Ala Ser Phe Gly Ser Arg Leu Ile Asn Phe Arg Asn Ser Asp

1145 1150 1155

Lys Asn His Asn Trp Asp Thr Arg Glu Val Tyr Pro Thr Lys Glu

1160 1165 1170

Leu Glu Lys Leu Leu Lys Asp Tyr Ser Ile Glu Tyr Gly His Gly

1175 1180 1185

Glu Cys Ile Lys Ala Ala Ile Cys Gly Glu Ser Asp Lys Lys Phe

1190 1195 1200

Phe Ala Lys Leu Thr Ser Val Leu Asn Thr Ile Leu Gln Met Arg

1205 1210 1215

Asn Ser Lys Thr Gly Thr Glu Leu Asp Tyr Leu Ile Ser Pro Val

1220 1225 1230

Ala Asp Val Asn Gly Asn Phe Phe Asp Ser Arg Gln Ala Pro Lys

1235 1240 1245

Asn Met Pro Gln Asp Ala Asp Ala Asn Gly Ala Tyr His Ile Gly

1250 1255 1260

Leu Lys Gly Leu Met Leu Leu Gly Arg Ile Lys Asn Asn Gln Glu

1265 1270 1275

Gly Lys Lys Leu Asn Leu Val Ile Lys Asn Glu Glu Tyr Phe Glu

1280 1285 1290

Phe Val Gln Asn Arg Asn Asn

1295 1300

<210> 83

<211> 1285

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность Candidatus Roizmanbacteria bacterium

<400> 83

Met Lys Ser Phe Asp Ser Phe Thr Asn Leu Tyr Ser Leu Ser Lys Thr

1 5 10 15

Leu Lys Phe Glu Met Arg Pro Val Gly Asn Thr Gln Lys Met Leu Asp

20 25 30

Asn Ala Gly Val Phe Glu Lys Asp Lys Leu Ile Gln Lys Lys Tyr Gly

35 40 45

Lys Thr Lys Pro Tyr Phe Asp Arg Leu His Arg Glu Phe Ile Glu Glu

50 55 60

Ala Leu Thr Gly Val Glu Leu Ile Gly Leu Asp Glu Asn Phe Arg Thr

65 70 75 80

Leu Val Asp Trp Gln Lys Asp Lys Lys Asn Asn Val Ala Met Lys Ala

85 90 95

Tyr Glu Asn Ser Leu Gln Arg Leu Arg Thr Glu Ile Gly Lys Ile Phe

100 105 110

Asn Leu Lys Ala Glu Asp Trp Val Lys Asn Lys Tyr Pro Ile Leu Gly

115 120 125

Leu Lys Asn Lys Asn Thr Asp Ile Leu Phe Glu Glu Ala Val Phe Gly

130 135 140

Ile Leu Lys Ala Arg Tyr Gly Glu Glu Lys Asp Thr Phe Ile Glu Val

145 150 155 160

Glu Glu Ile Asp Lys Thr Gly Lys Ser Lys Ile Asn Gln Ile Ser Ile

165 170 175

Phe Asp Ser Trp Lys Gly Phe Thr Gly Tyr Phe Lys Lys Phe Phe Glu

180 185 190

Thr Arg Lys Asn Phe Tyr Lys Asn Asp Gly Thr Ser Thr Ala Ile Ala

195 200 205

Thr Arg Ile Ile Asp Gln Asn Leu Lys Arg Phe Ile Asp Asn Leu Ser

210 215 220

Ile Val Glu Ser Val Arg Gln Lys Val Asp Leu Ala Glu Thr Glu Lys

225 230 235 240

Ser Phe Ser Ile Ser Leu Ser Gln Phe Phe Ser Ile Asp Phe Tyr Asn

245 250 255

Lys Cys Leu Leu Gln Asp Gly Ile Asp Tyr Tyr Asn Lys Ile Ile Gly

260 265 270

Gly Glu Thr Leu Lys Asn Gly Glu Lys Leu Ile Gly Leu Asn Glu Leu

275 280 285

Ile Asn Gln Tyr Arg Gln Asn Asn Lys Asp Gln Lys Ile Pro Phe Phe

290 295 300

Lys Leu Leu Asp Lys Gln Ile Leu Ser Glu Lys Ile Leu Phe Leu Asp

305 310 315 320

Glu Ile Lys Asn Asp Thr Glu Leu Ile Glu Ala Leu Ser Gln Phe Ala

325 330 335

Lys Thr Ala Glu Glu Lys Thr Lys Ile Val Lys Lys Leu Phe Ala Asp

340 345 350

Phe Val Glu Asn Asn Ser Lys Tyr Asp Leu Ala Gln Ile Tyr Ile Ser

355 360 365

Gln Glu Ala Phe Asn Thr Ile Ser Asn Lys Trp Thr Ser Glu Thr Glu

370 375 380

Thr Phe Ala Lys Tyr Leu Phe Glu Ala Met Lys Ser Gly Lys Leu Ala

385 390 395 400

Lys Tyr Glu Lys Lys Asp Asn Ser Tyr Lys Phe Pro Asp Phe Ile Ala

405 410 415

Leu Ser Gln Met Lys Ser Ala Leu Leu Ser Ile Ser Leu Glu Gly His

420 425 430

Phe Trp Lys Glu Lys Tyr Tyr Lys Ile Ser Lys Phe Gln Glu Lys Thr

435 440 445

Asn Trp Glu Gln Phe Leu Ala Ile Phe Leu Tyr Glu Phe Asn Ser Leu

450 455 460

Phe Ser Asp Lys Ile Asn Thr Lys Asp Gly Glu Thr Lys Gln Val Gly

465 470 475 480

Tyr Tyr Leu Phe Ala Lys Asp Leu His Asn Leu Ile Leu Ser Glu Gln

485 490 495

Ile Asp Ile Pro Lys Asp Ser Lys Val Thr Ile Lys Asp Phe Ala Asp

500 505 510

Ser Val Leu Thr Ile Tyr Gln Met Ala Lys Tyr Phe Ala Val Glu Lys

515 520 525

Lys Arg Ala Trp Leu Ala Glu Tyr Glu Leu Asp Ser Phe Tyr Thr Gln

530 535 540

Pro Asp Thr Gly Tyr Leu Gln Phe Tyr Asp Asn Ala Tyr Glu Asp Ile

545 550 555 560

Val Gln Val Tyr Asn Lys Leu Arg Asn Tyr Leu Thr Lys Lys Pro Tyr

565 570 575

Ser Glu Glu Lys Trp Lys Leu Asn Phe Glu Asn Ser Thr Leu Ala Asn

580 585 590

Gly Trp Asp Lys Asn Lys Glu Ser Asp Asn Ser Ala Val Ile Leu Gln

595 600 605

Lys Gly Gly Lys Tyr Tyr Leu Gly Leu Ile Thr Lys Gly His Asn Lys

610 615 620

Ile Phe Asp Asp Arg Phe Gln Glu Lys Phe Ile Val Gly Ile Glu Gly

625 630 635 640

Gly Lys Tyr Glu Lys Ile Val Tyr Lys Phe Phe Pro Asp Gln Ala Lys

645 650 655

Met Phe Pro Lys Val Cys Phe Ser Ala Lys Gly Leu Glu Phe Phe Arg

660 665 670

Pro Ser Glu Glu Ile Leu Arg Ile Tyr Asn Asn Ala Glu Phe Lys Lys

675 680 685

Gly Glu Thr Tyr Ser Ile Asp Ser Met Gln Lys Leu Ile Asp Phe Tyr

690 695 700

Lys Asp Cys Leu Thr Lys Tyr Glu Gly Trp Ala Cys Tyr Thr Phe Arg

705 710 715 720

His Leu Lys Pro Thr Glu Glu Tyr Gln Asn Asn Ile Gly Glu Phe Phe

725 730 735

Arg Asp Val Ala Glu Asp Gly Tyr Arg Ile Asp Phe Gln Gly Ile Ser

740 745 750

Asp Gln Tyr Ile His Glu Lys Asn Glu Lys Gly Glu Leu His Leu Phe

755 760 765

Glu Ile His Asn Lys Asp Trp Asn Leu Asp Lys Ala Arg Asp Gly Lys

770 775 780

Ser Lys Thr Thr Gln Lys Asn Leu His Thr Leu Tyr Phe Glu Ser Leu

785 790 795 800

Phe Ser Asn Asp Asn Val Val Gln Asn Phe Pro Ile Lys Leu Asn Gly

805 810 815

Gln Ala Glu Ile Phe Tyr Arg Pro Lys Thr Glu Lys Asp Lys Leu Glu

820 825 830

Ser Lys Lys Asp Lys Lys Gly Asn Lys Val Ile Asp His Lys Arg Tyr

835 840 845

Ser Glu Asn Lys Ile Phe Phe His Val Pro Leu Thr Leu Asn Arg Thr

850 855 860

Lys Asn Asp Ser Tyr Arg Phe Asn Ala Gln Ile Asn Asn Phe Leu Ala

865 870 875 880

Asn Asn Lys Asp Ile Asn Ile Ile Gly Val Asp Arg Gly Glu Lys His

885 890 895

Leu Val Tyr Tyr Ser Val Ile Thr Gln Ala Ser Asp Ile Leu Glu Ser

900 905 910

Gly Ser Leu Asn Glu Leu Asn Gly Val Asn Tyr Ala Glu Lys Leu Gly

915 920 925

Lys Lys Ala Glu Asn Arg Glu Gln Ala Arg Arg Asp Trp Gln Asp Val

930 935 940

Gln Gly Ile Lys Asp Leu Lys Lys Gly Tyr Ile Ser Gln Val Val Arg

945 950 955 960

Lys Leu Ala Asp Leu Ala Ile Lys His Asn Ala Ile Ile Ile Leu Glu

965 970 975

Asp Leu Asn Met Arg Phe Lys Gln Val Arg Gly Gly Ile Glu Lys Ser

980 985 990

Ile Tyr Gln Gln Leu Glu Lys Ala Leu Ile Asp Lys Leu Ser Phe Leu

995 1000 1005

Val Asp Lys Gly Glu Lys Asn Pro Glu Gln Ala Gly His Leu Leu

1010 1015 1020

Lys Ala Tyr Gln Leu Ser Ala Pro Phe Glu Thr Phe Gln Lys Met

1025 1030 1035

Gly Lys Gln Thr Gly Ile Ile Phe Tyr Thr Gln Ala Ser Tyr Thr

1040 1045 1050

Ser Lys Ser Asp Pro Val Thr Gly Trp Arg Pro His Leu Tyr Leu

1055 1060 1065

Lys Tyr Phe Ser Ala Lys Lys Ala Lys Asp Asp Ile Ala Lys Phe

1070 1075 1080

Thr Lys Ile Glu Phe Val Asn Asp Arg Phe Glu Leu Thr Tyr Asp

1085 1090 1095

Ile Lys Asp Phe Gln Gln Ala Lys Glu Tyr Pro Asn Lys Thr Val

1100 1105 1110

Trp Lys Val Cys Ser Asn Val Glu Arg Phe Arg Trp Asp Lys Asn

1115 1120 1125

Leu Asn Gln Asn Lys Gly Gly Tyr Thr His Tyr Thr Asn Ile Thr

1130 1135 1140

Glu Asn Ile Gln Glu Leu Phe Thr Lys Tyr Gly Ile Asp Ile Thr

1145 1150 1155

Lys Asp Leu Leu Thr Gln Ile Ser Thr Ile Asp Glu Lys Gln Asn

1160 1165 1170

Thr Ser Phe Phe Arg Asp Phe Ile Phe Tyr Phe Asn Leu Ile Cys

1175 1180 1185

Gln Ile Arg Asn Thr Asp Asp Ser Glu Ile Ala Lys Lys Asn Gly

1190 1195 1200

Lys Asp Asp Phe Ile Leu Ser Pro Val Glu Pro Phe Phe Asp Ser

1205 1210 1215

Arg Lys Asp Asn Gly Asn Lys Leu Pro Glu Asn Gly Asp Asp Asn

1220 1225 1230

Gly Ala Tyr Asn Ile Ala Arg Lys Gly Ile Val Ile Leu Asn Lys

1235 1240 1245

Ile Ser Gln Tyr Ser Glu Lys Asn Glu Asn Cys Glu Lys Met Lys

1250 1255 1260

Trp Gly Asp Leu Tyr Val Ser Asn Ile Asp Trp Asp Asn Phe Val

1265 1270 1275

Thr Gln Ala Asn Ala Arg His

1280 1285

<210> 84

<211> 1282

<212> БЕЛОК

<213> Eubacterium eligens

<400> 84

Met Asn Gly Asn Arg Ser Ile Val Tyr Arg Glu Phe Val Gly Val Thr

1 5 10 15

Pro Val Ala Lys Thr Leu Arg Asn Glu Leu Arg Pro Val Gly His Thr

20 25 30

Gln Glu His Ile Ile Gln Asn Gly Leu Ile Gln Glu Asp Glu Leu Arg

35 40 45

Gln Glu Lys Ser Thr Glu Leu Lys Asn Ile Met Asp Asp Tyr Tyr Arg

50 55 60

Glu Tyr Ile Asp Lys Ser Leu Ser Gly Leu Thr Asp Leu Asp Phe Thr

65 70 75 80

Leu Leu Phe Glu Leu Met Asn Ser Val Gln Ser Ser Leu Ser Lys Asp

85 90 95

Asn Lys Lys Ala Leu Glu Lys Glu His Asn Lys Met Arg Glu Gln Ile

100 105 110

Cys Thr His Leu Gln Ser Asp Ser Asp Tyr Lys Asn Met Phe Asn Ala

115 120 125

Lys Leu Phe Lys Glu Ile Leu Pro Asp Phe Ile Lys Asn Tyr Asn Gln

130 135 140

Tyr Asp Val Lys Asp Lys Ala Gly Lys Leu Glu Thr Leu Ala Leu Phe

145 150 155 160

Asn Gly Phe Ser Thr Tyr Phe Thr Asp Phe Phe Glu Lys Arg Lys Asn

165 170 175

Val Phe Thr Lys Glu Ala Val Ser Thr Ser Ile Ala Tyr Arg Ile Val

180 185 190

His Glu Asn Ser Leu Ile Phe Leu Ala Asn Met Thr Ser Tyr Lys Lys

195 200 205

Ile Ser Glu Lys Ala Leu Asp Glu Ile Glu Val Ile Glu Lys Asn Asn

210 215 220

Gln Asp Lys Met Gly Asp Trp Glu Leu Asn Gln Ile Phe Asn Pro Asp

225 230 235 240

Phe Tyr Asn Met Val Leu Ile Gln Ser Gly Ile Asp Phe Tyr Asn Glu

245 250 255

Ile Cys Gly Val Val Asn Ala His Met Asn Leu Tyr Cys Gln Gln Thr

260 265 270

Lys Asn Asn Tyr Asn Leu Phe Lys Met Arg Lys Leu His Lys Gln Ile

275 280 285

Leu Ala Tyr Thr Ser Thr Ser Phe Glu Val Pro Lys Met Phe Glu Asp

290 295 300

Asp Met Ser Val Tyr Asn Ala Val Asn Ala Phe Ile Asp Glu Thr Glu

305 310 315 320

Lys Gly Asn Ile Ile Gly Lys Leu Lys Asp Ile Val Asn Lys Tyr Asp

325 330 335

Glu Leu Asp Glu Lys Arg Ile Tyr Ile Ser Lys Asp Phe Tyr Glu Thr

340 345 350

Leu Ser Cys Phe Met Ser Gly Asn Trp Asn Leu Ile Thr Gly Cys Val

355 360 365

Glu Asn Phe Tyr Asp Glu Asn Ile His Ala Lys Gly Lys Ser Lys Glu

370 375 380

Glu Lys Val Lys Lys Ala Val Lys Glu Asp Lys Tyr Lys Ser Ile Asn

385 390 395 400

Asp Val Asn Asp Leu Val Glu Lys Tyr Ile Asp Glu Lys Glu Arg Asn

405 410 415

Glu Phe Lys Asn Ser Asn Ala Lys Gln Tyr Ile Arg Glu Ile Ser Asn

420 425 430

Ile Ile Thr Asp Thr Glu Thr Ala His Leu Glu Tyr Asp Glu His Ile

435 440 445

Ser Leu Ile Glu Ser Glu Glu Lys Ala Asp Glu Ile Lys Lys Arg Leu

450 455 460

Asp Met Tyr Met Asn Met Tyr His Trp Val Lys Ala Phe Ile Val Asp

465 470 475 480

Glu Val Leu Asp Arg Asp Glu Met Phe Tyr Ser Asp Ile Asp Asp Ile

485 490 495

Tyr Asn Ile Leu Glu Asn Ile Val Pro Leu Tyr Asn Arg Val Arg Asn

500 505 510

Tyr Val Thr Gln Lys Pro Tyr Thr Ser Lys Lys Ile Lys Leu Asn Phe

515 520 525

Gln Ser Pro Thr Leu Ala Asn Gly Trp Ser Gln Ser Lys Glu Phe Asp

530 535 540

Asn Asn Ala Ile Ile Leu Ile Arg Asp Asn Lys Tyr Tyr Leu Ala Ile

545 550 555 560

Phe Asn Ala Lys Asn Lys Pro Asp Lys Lys Ile Ile Gln Gly Asn Ser

565 570 575

Asp Lys Lys Asn Asp Asn Asp Tyr Lys Lys Met Val Tyr Asn Leu Leu

580 585 590

Pro Gly Ala Asn Lys Met Leu Pro Lys Val Phe Leu Ser Lys Lys Gly

595 600 605

Ile Glu Thr Phe Lys Pro Ser Asp Tyr Ile Ile Ser Gly Tyr Asn Ala

610 615 620

His Lys His Ile Lys Thr Ser Glu Asn Phe Asp Ile Ser Phe Cys Arg

625 630 635 640

Asp Leu Ile Asp Tyr Phe Lys Asn Ser Ile Glu Lys His Ala Glu Trp

645 650 655

Arg Lys Tyr Glu Phe Lys Phe Ser Ala Thr Asp Ser Tyr Asn Asp Ile

660 665 670

Ser Glu Phe Tyr Arg Glu Val Glu Met Gln Gly Tyr Arg Ile Asp Trp

675 680 685

Thr Tyr Ile Ser Glu Ala Asp Ile Asn Lys Leu Asp Glu Glu Gly Lys

690 695 700

Ile Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ala Glu Asn Ser Thr

705 710 715 720

Gly Lys Glu Asn Leu His Thr Met Tyr Phe Lys Asn Ile Phe Ser Glu

725 730 735

Glu Asn Leu Lys Asn Ile Val Ile Lys Leu Asn Gly Gln Ala Glu Leu

740 745 750

Phe Tyr Arg Lys Ala Ser Val Lys Asn Pro Val Lys His Lys Lys Asp

755 760 765

Ser Val Leu Val Asn Lys Thr Tyr Lys Asn Gln Leu Asp Asn Gly Asp

770 775 780

Val Val Arg Ile Pro Ile Pro Asp Asp Ile Tyr Asn Glu Ile Tyr Lys

785 790 795 800

Met Tyr Asn Gly Tyr Ile Lys Glu Ser Asp Leu Ser Glu Ala Ala Lys

805 810 815

Glu Tyr Leu Asp Lys Val Glu Val Arg Thr Ala Gln Lys Asp Ile Val

820 825 830

Lys Asp Tyr Arg Tyr Thr Val Asp Lys Tyr Phe Ile His Thr Pro Ile

835 840 845

Thr Ile Asn Tyr Lys Val Thr Ala Arg Asn Asn Val Asn Asp Met Ala

850 855 860

Val Lys Tyr Ile Ala Gln Asn Asp Asp Ile His Val Ile Gly Ile Asp

865 870 875 880

Arg Gly Glu Arg Asn Leu Ile Tyr Ile Ser Val Ile Asp Ser His Gly

885 890 895

Asn Ile Val Lys Gln Lys Ser Tyr Asn Ile Leu Asn Asn Tyr Asp Tyr

900 905 910

Lys Lys Lys Leu Val Glu Lys Glu Lys Thr Arg Glu Tyr Ala Arg Lys

915 920 925

Asn Trp Lys Ser Ile Gly Asn Ile Lys Glu Leu Lys Glu Gly Tyr Ile

930 935 940

Ser Gly Val Val His Glu Ile Ala Met Leu Met Val Glu Tyr Asn Ala

945 950 955 960

Ile Ile Ala Met Glu Asp Leu Asn Tyr Gly Phe Lys Arg Gly Arg Phe

965 970 975

Lys Val Glu Arg Gln Val Tyr Gln Lys Phe Glu Ser Met Leu Ile Asn

980 985 990

Lys Leu Asn Tyr Phe Ala Ser Lys Gly Lys Ser Val Asp Glu Pro Gly

995 1000 1005

Gly Leu Leu Lys Gly Tyr Gln Leu Thr Tyr Val Pro Asp Asn Ile

1010 1015 1020

Lys Asn Leu Gly Lys Gln Cys Gly Val Ile Phe Tyr Val Pro Ala

1025 1030 1035

Ala Phe Thr Ser Lys Ile Asp Pro Ser Thr Gly Phe Ile Ser Ala

1040 1045 1050

Phe Asn Phe Lys Ser Ile Ser Thr Asn Ala Ser Arg Lys Gln Phe

1055 1060 1065

Phe Met Gln Phe Asp Glu Ile Arg Tyr Cys Ala Glu Lys Asp Met

1070 1075 1080

Phe Ser Phe Gly Phe Asp Tyr Asn Asn Phe Asp Thr Tyr Asn Ile

1085 1090 1095

Thr Met Gly Lys Thr Gln Trp Thr Val Tyr Thr Asn Gly Glu Arg

1100 1105 1110

Leu Gln Ser Glu Phe Asn Asn Ala Arg Arg Thr Gly Lys Thr Lys

1115 1120 1125

Ser Ile Asn Leu Thr Glu Thr Ile Lys Leu Leu Leu Glu Asp Asn

1130 1135 1140

Glu Ile Asn Tyr Ala Asp Gly His Asp Val Arg Ile Asp Met Glu

1145 1150 1155

Lys Met Tyr Glu Asp Lys Asn Ser Glu Phe Phe Ala Gln Leu Leu

1160 1165 1170

Ser Leu Tyr Lys Leu Thr Val Gln Met Arg Asn Ser Tyr Thr Glu

1175 1180 1185

Ala Glu Glu Gln Glu Lys Gly Ile Ser Tyr Asp Lys Ile Ile Ser

1190 1195 1200

Pro Val Ile Asn Asp Glu Gly Glu Phe Phe Asp Ser Asp Asn Tyr

1205 1210 1215

Lys Glu Ser Asp Asp Lys Glu Cys Lys Met Pro Lys Asp Ala Asp

1220 1225 1230

Ala Asn Gly Ala Tyr Cys Ile Ala Leu Lys Gly Leu Tyr Glu Val

1235 1240 1245

Leu Lys Ile Lys Ser Glu Trp Thr Glu Asp Gly Phe Asp Arg Asn

1250 1255 1260

Cys Leu Lys Leu Pro His Ala Glu Trp Leu Asp Phe Ile Gln Asn

1265 1270 1275

Lys Arg Tyr Glu

1280

<210> 85

<211> 1282

<212> БЕЛОК

<213> Eubacterium eligens

<400> 85

Met Asn Gly Asn Arg Ser Ile Val Tyr Arg Glu Phe Val Gly Val Ile

1 5 10 15

Pro Val Ala Lys Thr Leu Arg Asn Glu Leu Arg Pro Val Gly His Thr

20 25 30

Gln Glu His Ile Ile Gln Asn Gly Leu Ile Gln Glu Asp Glu Leu Arg

35 40 45

Gln Glu Lys Ser Thr Glu Leu Lys Asn Ile Met Asp Asp Tyr Tyr Arg

50 55 60

Glu Tyr Ile Asp Lys Ser Leu Ser Gly Val Thr Asp Leu Asp Phe Thr

65 70 75 80

Leu Leu Phe Glu Leu Met Asn Leu Val Gln Ser Ser Pro Ser Lys Asp

85 90 95

Asn Lys Lys Ala Leu Glu Lys Glu Gln Ser Lys Met Arg Glu Gln Ile

100 105 110

Cys Thr His Leu Gln Ser Asp Ser Asn Tyr Lys Asn Ile Phe Asn Ala

115 120 125

Lys Leu Leu Lys Glu Ile Leu Pro Asp Phe Ile Lys Asn Tyr Asn Gln

130 135 140

Tyr Asp Val Lys Asp Lys Ala Gly Lys Leu Glu Thr Leu Ala Leu Phe

145 150 155 160

Asn Gly Phe Ser Thr Tyr Phe Thr Asp Phe Phe Glu Lys Arg Lys Asn

165 170 175

Val Phe Thr Lys Glu Ala Val Ser Thr Ser Ile Ala Tyr Arg Ile Val

180 185 190

His Glu Asn Ser Leu Ile Phe Leu Ala Asn Met Thr Ser Tyr Lys Lys

195 200 205

Ile Ser Glu Lys Ala Leu Asp Glu Ile Glu Val Ile Glu Lys Asn Asn

210 215 220

Gln Asp Lys Met Gly Asp Trp Glu Leu Asn Gln Ile Phe Asn Pro Asp

225 230 235 240

Phe Tyr Asn Met Val Leu Ile Gln Ser Gly Ile Asp Phe Tyr Asn Glu

245 250 255

Ile Cys Gly Val Val Asn Ala His Met Asn Leu Tyr Cys Gln Gln Thr

260 265 270

Lys Asn Asn Tyr Asn Leu Phe Lys Met Arg Lys Leu His Lys Gln Ile

275 280 285

Leu Ala Tyr Thr Ser Thr Ser Phe Glu Val Pro Lys Met Phe Glu Asp

290 295 300

Asp Met Ser Val Tyr Asn Ala Val Asn Ala Phe Ile Asp Glu Thr Glu

305 310 315 320

Lys Gly Asn Ile Ile Gly Lys Leu Lys Asp Ile Val Asn Lys Tyr Asp

325 330 335

Glu Leu Asp Glu Lys Arg Ile Tyr Ile Ser Lys Asp Phe Tyr Glu Thr

340 345 350

Leu Ser Cys Phe Met Ser Gly Asn Trp Asn Leu Ile Thr Gly Cys Val

355 360 365

Glu Asn Phe Tyr Asp Glu Asn Ile His Ala Lys Gly Lys Ser Lys Glu

370 375 380

Glu Lys Val Lys Lys Ala Val Lys Glu Asp Lys Tyr Lys Ser Ile Asn

385 390 395 400

Asp Val Asn Asp Leu Val Glu Lys Tyr Ile Asp Glu Lys Glu Arg Asn

405 410 415

Glu Phe Lys Asn Ser Asn Ala Lys Gln Tyr Ile Arg Glu Ile Ser Asn

420 425 430

Ile Ile Thr Asp Thr Glu Thr Ala His Leu Glu Tyr Asp Asp His Ile

435 440 445

Ser Leu Ile Glu Ser Glu Glu Lys Ala Asp Glu Met Lys Lys Arg Leu

450 455 460

Asp Met Tyr Met Asn Met Tyr His Trp Ala Lys Ala Phe Ile Val Asp

465 470 475 480

Glu Val Leu Asp Arg Asp Glu Met Phe Tyr Ser Asp Ile Asp Asp Ile

485 490 495

Tyr Asn Ile Leu Glu Asn Ile Val Pro Leu Tyr Asn Arg Val Arg Asn

500 505 510

Tyr Val Thr Gln Lys Pro Tyr Asn Ser Lys Lys Ile Lys Leu Asn Phe

515 520 525

Gln Ser Pro Thr Leu Ala Asn Gly Trp Ser Gln Ser Lys Glu Phe Asp

530 535 540

Asn Asn Ala Ile Ile Leu Ile Arg Asp Asn Lys Tyr Tyr Leu Ala Ile

545 550 555 560

Phe Asn Ala Lys Asn Lys Pro Asp Lys Lys Ile Ile Gln Gly Asn Ser

565 570 575

Asp Lys Lys Asn Asp Asn Asp Tyr Lys Lys Met Val Tyr Asn Leu Leu

580 585 590

Pro Gly Ala Asn Lys Met Leu Pro Lys Val Phe Leu Ser Lys Lys Gly

595 600 605

Ile Glu Thr Phe Lys Pro Ser Asp Tyr Ile Ile Ser Gly Tyr Asn Ala

610 615 620

His Lys His Ile Lys Thr Ser Glu Asn Phe Asp Ile Ser Phe Cys Arg

625 630 635 640

Asp Leu Ile Asp Tyr Phe Lys Asn Ser Ile Glu Lys His Ala Glu Trp

645 650 655

Arg Lys Tyr Glu Phe Lys Phe Ser Ala Thr Asp Ser Tyr Ser Asp Ile

660 665 670

Ser Glu Phe Tyr Arg Glu Val Glu Met Gln Gly Tyr Arg Ile Asp Trp

675 680 685

Thr Tyr Ile Ser Glu Ala Asp Ile Asn Lys Leu Asp Glu Glu Gly Lys

690 695 700

Ile Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ala Glu Asn Ser Thr

705 710 715 720

Gly Lys Glu Asn Leu His Thr Met Tyr Phe Lys Asn Ile Phe Ser Glu

725 730 735

Glu Asn Leu Lys Asp Ile Ile Ile Lys Leu Asn Gly Gln Ala Glu Leu

740 745 750

Phe Tyr Arg Arg Ala Ser Val Lys Asn Pro Val Lys His Lys Lys Asp

755 760 765

Ser Val Leu Val Asn Lys Thr Tyr Lys Asn Gln Leu Asp Asn Gly Asp

770 775 780

Val Val Arg Ile Pro Ile Pro Asp Asp Ile Tyr Asn Glu Ile Tyr Lys

785 790 795 800

Met Tyr Asn Gly Tyr Ile Lys Glu Ser Asp Leu Ser Glu Ala Ala Lys

805 810 815

Glu Tyr Leu Asp Lys Val Glu Val Arg Thr Ala Gln Lys Asp Ile Val

820 825 830

Lys Asp Tyr Arg Tyr Thr Val Asp Lys Tyr Phe Ile His Thr Pro Ile

835 840 845

Thr Ile Asn Tyr Lys Val Thr Ala Arg Asn Asn Val Asn Asp Met Val

850 855 860

Val Lys Tyr Ile Ala Gln Asn Asp Asp Ile His Val Ile Gly Ile Asp

865 870 875 880

Arg Gly Glu Arg Asn Leu Ile Tyr Ile Ser Val Ile Asp Ser His Gly

885 890 895

Asn Ile Val Lys Gln Lys Ser Tyr Asn Ile Leu Asn Asn Tyr Asp Tyr

900 905 910

Lys Lys Lys Leu Val Glu Lys Glu Lys Thr Arg Glu Tyr Ala Arg Lys

915 920 925

Asn Trp Lys Ser Ile Gly Asn Ile Lys Glu Leu Lys Glu Gly Tyr Ile

930 935 940

Ser Gly Val Val His Glu Ile Ala Met Leu Ile Val Glu Tyr Asn Ala

945 950 955 960

Ile Ile Ala Met Glu Asp Leu Asn Tyr Gly Phe Lys Arg Gly Arg Phe

965 970 975

Lys Val Glu Arg Gln Val Tyr Gln Lys Phe Glu Ser Met Leu Ile Asn

980 985 990

Lys Leu Asn Tyr Phe Ala Ser Lys Glu Lys Ser Val Asp Glu Pro Gly

995 1000 1005

Gly Leu Leu Lys Gly Tyr Gln Leu Thr Tyr Val Pro Asp Asn Ile

1010 1015 1020

Lys Asn Leu Gly Lys Gln Cys Gly Val Ile Phe Tyr Val Pro Ala

1025 1030 1035

Ala Phe Thr Ser Lys Ile Asp Pro Ser Thr Gly Phe Ile Ser Ala

1040 1045 1050

Phe Asn Phe Lys Ser Ile Ser Thr Asn Ala Ser Arg Lys Gln Phe

1055 1060 1065

Phe Met Gln Phe Asp Glu Ile Arg Tyr Cys Ala Glu Lys Asp Met

1070 1075 1080

Phe Ser Phe Gly Phe Asp Tyr Asn Asn Phe Asp Thr Tyr Asn Ile

1085 1090 1095

Thr Met Gly Lys Thr Gln Trp Thr Val Tyr Thr Asn Gly Glu Arg

1100 1105 1110

Leu Gln Ser Glu Phe Asn Asn Ala Arg Arg Thr Gly Lys Thr Lys

1115 1120 1125

Ser Ile Asn Leu Thr Glu Thr Ile Lys Leu Leu Leu Glu Asp Asn

1130 1135 1140

Glu Ile Asn Tyr Ala Asp Gly His Asp Ile Arg Ile Asp Met Glu

1145 1150 1155

Lys Met Asp Glu Asp Lys Lys Ser Glu Phe Phe Ala Gln Leu Leu

1160 1165 1170

Ser Leu Tyr Lys Leu Thr Val Gln Met Arg Asn Ser Tyr Thr Glu

1175 1180 1185

Ala Glu Glu Gln Glu Asn Gly Ile Ser Tyr Asp Lys Ile Ile Ser

1190 1195 1200

Pro Val Ile Asn Asp Glu Gly Glu Phe Phe Asp Ser Asp Asn Tyr

1205 1210 1215

Lys Glu Ser Asp Asp Lys Glu Cys Lys Met Pro Lys Asp Ala Asp

1220 1225 1230

Ala Asn Gly Ala Tyr Cys Ile Ala Leu Lys Gly Leu Tyr Glu Val

1235 1240 1245

Leu Lys Ile Lys Ser Glu Trp Thr Glu Asp Gly Phe Asp Arg Asn

1250 1255 1260

Cys Leu Lys Leu Pro His Ala Glu Trp Leu Asp Phe Ile Gln Asn

1265 1270 1275

Lys Arg Tyr Glu

1280

<210> 86

<211> 1273

<212> БЕЛОК

<213> Flavobacterium sp.

<400> 86

Met Lys Asn Phe Ser Asn Leu Tyr Gln Val Ser Lys Thr Val Arg Phe

1 5 10 15

Glu Leu Lys Pro Ile Gly Asn Thr Leu Glu Asn Ile Lys Asn Lys Ser

20 25 30

Leu Leu Lys Asn Asp Ser Ile Arg Ala Glu Ser Tyr Gln Lys Met Lys

35 40 45

Lys Thr Ile Asp Glu Phe His Lys Tyr Phe Ile Asp Leu Ala Leu Asn

50 55 60

Asn Lys Lys Leu Ser Tyr Leu Asn Glu Tyr Ile Ala Leu Tyr Thr Gln

65 70 75 80

Ser Ala Glu Ala Lys Lys Glu Asp Lys Phe Lys Ala Asp Phe Lys Lys

85 90 95

Val Gln Asp Asn Leu Arg Lys Glu Ile Val Ser Ser Phe Thr Glu Gly

100 105 110

Glu Ala Lys Ala Ile Phe Ser Val Leu Asp Lys Lys Glu Leu Ile Thr

115 120 125

Ile Glu Leu Glu Lys Trp Lys Asn Glu Asn Asn Leu Ala Val Tyr Leu

130 135 140

Asp Glu Ser Phe Lys Ser Phe Thr Thr Tyr Phe Thr Gly Phe His Gln

145 150 155 160

Asn Arg Lys Asn Met Tyr Ser Ala Glu Ala Asn Ser Thr Ala Ile Ala

165 170 175

Tyr Arg Leu Ile His Glu Asn Leu Pro Lys Phe Ile Glu Asn Ser Lys

180 185 190

Ala Phe Glu Lys Ser Ser Gln Ile Ala Glu Leu Gln Pro Lys Ile Glu

195 200 205

Lys Leu Tyr Lys Glu Phe Glu Ala Tyr Leu Asn Val Asn Ser Ile Ser

210 215 220

Glu Leu Phe Glu Ile Asp Tyr Phe Asn Glu Val Leu Thr Gln Lys Gly

225 230 235 240

Ile Thr Val Tyr Asn Asn Ile Ile Gly Gly Arg Thr Ala Thr Glu Gly

245 250 255

Lys Gln Lys Ile Gln Gly Leu Asn Glu Ile Ile Asn Leu Tyr Asn Gln

260 265 270

Thr Lys Pro Lys Asn Glu Arg Leu Pro Lys Leu Lys Gln Leu Tyr Lys

275 280 285

Gln Ile Leu Ser Asp Arg Ile Ser Leu Ser Phe Leu Pro Asp Ala Phe

290 295 300

Thr Glu Gly Lys Gln Val Leu Lys Ala Val Phe Glu Phe Tyr Lys Ile

305 310 315 320

Asn Leu Leu Ser Tyr Lys Gln Asp Gly Val Glu Glu Ser Gln Asn Leu

325 330 335

Leu Glu Leu Ile Gln Gln Val Val Lys Asn Leu Gly Asn Gln Asp Val

340 345 350

Asn Lys Ile Tyr Leu Lys Asn Asp Thr Ser Leu Thr Thr Ile Ala Gln

355 360 365

Gln Leu Phe Gly Asp Phe Ser Val Phe Ser Ala Ala Leu Gln Tyr Arg

370 375 380

Tyr Glu Thr Val Val Asn Pro Lys Tyr Thr Ala Glu Tyr Gln Lys Ala

385 390 395 400

Asn Glu Ala Lys Gln Glu Lys Leu Asp Lys Glu Lys Ile Lys Phe Val

405 410 415

Lys Gln Asp Tyr Phe Ser Ile Ala Phe Leu Gln Glu Val Val Ala Asp

420 425 430

Tyr Val Lys Thr Leu Asp Glu Asn Leu Asp Trp Lys Gln Lys Tyr Thr

435 440 445

Pro Ser Cys Ile Ala Asp Tyr Phe Thr Thr His Phe Ile Ala Lys Lys

450 455 460

Glu Asn Glu Ala Asp Lys Thr Phe Asn Phe Ile Ala Asn Ile Lys Ala

465 470 475 480

Lys Tyr Gln Cys Ile Gln Gly Ile Leu Glu Gln Ala Asp Asp Tyr Glu

485 490 495

Asp Glu Leu Lys Gln Asp Gln Lys Leu Ile Asp Asn Ile Lys Phe Phe

500 505 510

Leu Asp Ala Ile Leu Glu Val Val His Phe Ile Lys Pro Leu His Leu

515 520 525

Lys Ser Glu Ser Ile Thr Glu Lys Asp Asn Ala Phe Tyr Asp Val Phe

530 535 540

Glu Asn Tyr Tyr Glu Ala Leu Asn Val Val Thr Pro Leu Tyr Asn Met

545 550 555 560

Val Arg Asn Tyr Val Thr Gln Lys Pro Tyr Ser Thr Glu Lys Ile Lys

565 570 575

Leu Asn Phe Glu Asn Ala Gln Leu Leu Asn Gly Trp Asp Ala Asn Lys

580 585 590

Glu Lys Asp Tyr Leu Thr Thr Ile Leu Lys Arg Asp Gly Asn Tyr Phe

595 600 605

Leu Ala Ile Met Asp Lys Lys His Asn Lys Thr Phe Gln Gln Phe Thr

610 615 620

Glu Asp Asp Glu Asn Tyr Glu Lys Ile Val Tyr Lys Leu Leu Pro Gly

625 630 635 640

Val Asn Lys Met Leu Pro Lys Val Phe Phe Ser Asn Lys Asn Ile Ala

645 650 655

Phe Phe Asn Pro Ser Lys Glu Ile Leu Asp Asn Tyr Lys Asn Asn Thr

660 665 670

His Lys Lys Gly Ala Thr Phe Asn Leu Lys Asp Cys His Ala Leu Ile

675 680 685

Asp Phe Phe Lys Asp Ser Leu Asn Lys His Glu Asp Trp Lys Tyr Phe

690 695 700

Asp Phe Gln Phe Ser Glu Thr Lys Thr Tyr Gln Asp Leu Ser Gly Phe

705 710 715 720

Tyr Lys Glu Val Glu His Gln Gly Tyr Lys Ile Asn Phe Lys Lys Val

725 730 735

Ser Val Ser Gln Ile Asp Thr Leu Ile Glu Glu Gly Lys Met Tyr Leu

740 745 750

Phe Gln Ile Tyr Asn Lys Asp Phe Ser Pro Tyr Ala Lys Gly Lys Pro

755 760 765

Asn Met His Thr Leu Tyr Trp Lys Ala Leu Phe Glu Thr Gln Asn Leu

770 775 780

Glu Asn Val Ile Tyr Lys Leu Asn Gly Gln Ala Glu Ile Phe Phe Arg

785 790 795 800

Lys Ala Ser Ile Lys Lys Lys Asn Ile Ile Thr His Lys Ala His Gln

805 810 815

Pro Ile Ala Ala Lys Asn Pro Leu Thr Pro Thr Ala Lys Asn Thr Phe

820 825 830

Ala Tyr Asp Leu Ile Lys Asp Lys Arg Tyr Thr Val Asp Lys Phe Gln

835 840 845

Phe His Val Pro Ile Thr Met Asn Phe Lys Ala Thr Gly Asn Ser Tyr

850 855 860

Ile Asn Gln Asp Val Leu Ala Tyr Leu Lys Asp Asn Pro Glu Val Asn

865 870 875 880

Ile Ile Gly Leu Asp Arg Gly Glu Arg His Leu Val Tyr Leu Thr Leu

885 890 895

Ile Asp Gln Lys Gly Thr Ile Leu Leu Gln Glu Ser Leu Asn Val Ile

900 905 910

Gln Asp Glu Lys Thr His Thr Pro Tyr His Thr Leu Leu Asp Asn Lys

915 920 925

Glu Ile Ala Arg Asp Lys Ala Arg Lys Asn Trp Gly Ser Ile Glu Ser

930 935 940

Ile Lys Glu Leu Lys Glu Gly Tyr Ile Ser Gln Val Val His Lys Ile

945 950 955 960

Thr Lys Met Met Ile Glu His Asn Ala Ile Val Val Met Glu Asp Leu

965 970 975

Asn Phe Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Ile Tyr

980 985 990

Gln Lys Leu Glu Lys Met Leu Ile Asp Lys Leu Asn Tyr Leu Val Leu

995 1000 1005

Lys Asp Lys Gln Pro His Glu Leu Gly Gly Leu Tyr Asn Ala Leu

1010 1015 1020

Gln Leu Thr Asn Lys Phe Glu Ser Phe Gln Lys Met Gly Lys Gln

1025 1030 1035

Ser Gly Phe Leu Phe Tyr Val Pro Ala Trp Asn Thr Ser Lys Ile

1040 1045 1050

Asp Pro Thr Thr Gly Phe Val Asn Tyr Phe Tyr Thr Lys Tyr Glu

1055 1060 1065

Asn Val Glu Lys Ala Lys Thr Phe Phe Ser Lys Phe Asp Ser Ile

1070 1075 1080

Leu Tyr Asn Lys Thr Lys Gly Tyr Phe Glu Phe Val Val Lys Asn

1085 1090 1095

Tyr Ser Asp Phe Asn Pro Lys Ala Ala Asp Thr Arg Gln Glu Trp

1100 1105 1110

Thr Ile Cys Thr His Gly Glu Arg Ile Glu Thr Lys Arg Gln Lys

1115 1120 1125

Glu Gln Asn Asn Asn Phe Val Ser Thr Thr Ile Gln Leu Thr Glu

1130 1135 1140

Gln Phe Val Asn Phe Phe Glu Lys Val Gly Leu Asp Leu Ser Lys

1145 1150 1155

Glu Leu Lys Thr Gln Leu Ile Ala Gln Asn Glu Lys Ser Phe Phe

1160 1165 1170

Glu Glu Leu Phe His Leu Leu Lys Leu Thr Leu Gln Met Arg Asn

1175 1180 1185

Ser Glu Ser His Thr Glu Ile Asp Tyr Leu Ile Ser Pro Val Ala

1190 1195 1200

Asn Glu Lys Gly Ile Phe Tyr Asp Ser Arg Lys Ala Thr Ala Ser

1205 1210 1215

Leu Pro Ile Asp Ala Asp Ala Asn Gly Ala Tyr His Ile Ala Lys

1220 1225 1230

Lys Gly Leu Trp Ile Met Glu Gln Ile Asn Lys Thr Asn Ser Glu

1235 1240 1245

Asp Asp Leu Lys Lys Val Lys Leu Ala Ile Ser Asn Arg Glu Trp

1250 1255 1260

Leu Gln Tyr Val Gln Gln Val Gln Lys Lys

1265 1270

<210> 87

<211> 1264

<212> БЕЛОК

<213> Prevotella brevis

<400> 87

Met Lys Gln Phe Thr Asn Leu Tyr Gln Leu Ser Lys Thr Leu Arg Phe

1 5 10 15

Glu Leu Lys Pro Ile Gly Lys Thr Leu Glu His Ile Asn Ala Asn Gly

20 25 30

Phe Ile Asp Asn Asp Ala His Arg Ala Glu Ser Tyr Lys Lys Val Lys

35 40 45

Lys Leu Ile Asp Asp Tyr His Lys Asp Tyr Ile Glu Asn Val Leu Asn

50 55 60

Asn Phe Lys Leu Asn Gly Glu Tyr Leu Gln Ala Tyr Phe Asp Leu Tyr

65 70 75 80

Ser Gln Asp Thr Lys Asp Lys Gln Phe Lys Asp Ile Gln Asp Lys Leu

85 90 95

Arg Lys Ser Ile Ala Ser Ala Leu Lys Gly Asp Asp Arg Tyr Lys Thr

100 105 110

Ile Asp Lys Lys Glu Leu Ile Arg Gln Asp Met Lys Thr Phe Leu Lys

115 120 125

Lys Asp Thr Asp Lys Ala Leu Leu Asp Glu Phe Tyr Glu Phe Thr Thr

130 135 140

Tyr Phe Thr Gly Tyr His Glu Asn Arg Lys Asn Met Tyr Ser Asp Glu

145 150 155 160

Ala Lys Ser Thr Ala Ile Ala Tyr Arg Leu Ile His Asp Asn Leu Pro

165 170 175

Lys Phe Ile Asp Asn Ile Ala Val Phe Lys Lys Ile Ala Asn Thr Ser

180 185 190

Val Ala Asp Asn Phe Ser Thr Ile Tyr Lys Asn Phe Glu Glu Tyr Leu

195 200 205

Asn Val Asn Ser Ile Asp Glu Ile Phe Ser Leu Asp Tyr Tyr Asn Ile

210 215 220

Val Leu Thr Gln Thr Gln Ile Glu Val Tyr Asn Ser Ile Ile Gly Gly

225 230 235 240

Arg Thr Leu Glu Asp Asp Thr Lys Ile Gln Gly Ile Asn Glu Phe Val

245 250 255

Asn Leu Tyr Asn Gln Gln Leu Ala Asn Lys Lys Asp Arg Leu Pro Lys

260 265 270

Leu Lys Pro Leu Phe Lys Gln Ile Leu Ser Asp Arg Val Gln Leu Ser

275 280 285

Trp Leu Gln Glu Glu Phe Asn Thr Gly Ala Asp Val Leu Asn Ala Val

290 295 300

Lys Glu Tyr Cys Thr Ser Tyr Phe Asp Asn Val Glu Glu Ser Val Lys

305 310 315 320

Val Leu Leu Thr Gly Ile Ser Asp Tyr Asp Leu Ser Lys Ile Tyr Ile

325 330 335

Thr Asn Asp Leu Ala Leu Thr Asp Val Ser Gln Arg Met Phe Gly Glu

340 345 350

Trp Ser Ile Ile Pro Asn Ala Ile Glu Gln Arg Leu Arg Ser Asp Asn

355 360 365

Pro Lys Lys Thr Asn Glu Lys Glu Glu Lys Tyr Ser Asp Arg Ile Ser

370 375 380

Lys Leu Lys Lys Leu Pro Lys Ser Tyr Ser Leu Gly Tyr Ile Asn Glu

385 390 395 400

Cys Ile Ser Glu Leu Asn Gly Ile Asp Ile Ala Asp Tyr Tyr Ala Thr

405 410 415

Leu Gly Ala Ile Asn Thr Glu Ser Lys Gln Glu Pro Ser Ile Pro Thr

420 425 430

Ser Ile Gln Val His Tyr Asn Ala Leu Lys Pro Ile Leu Asp Thr Asp

435 440 445

Tyr Pro Arg Glu Lys Asn Leu Ser Gln Asp Lys Leu Thr Val Met Gln

450 455 460

Leu Lys Asp Leu Leu Asp Asp Phe Lys Ala Leu Gln His Phe Ile Lys

465 470 475 480

Pro Leu Leu Gly Asn Gly Asp Glu Ala Glu Lys Asp Glu Lys Phe Tyr

485 490 495

Gly Glu Leu Met Gln Leu Trp Glu Val Ile Asp Ser Ile Thr Pro Leu

500 505 510

Tyr Asn Lys Val Arg Asn Tyr Cys Thr Arg Lys Pro Phe Ser Thr Glu

515 520 525

Lys Ile Lys Val Asn Phe Glu Asn Ala Gln Leu Leu Asp Gly Trp Asp

530 535 540

Glu Asn Lys Glu Ser Thr Asn Ala Ser Ile Ile Leu Arg Lys Asn Gly

545 550 555 560

Met Tyr Tyr Leu Gly Ile Met Lys Lys Glu Tyr Arg Asn Ile Leu Thr

565 570 575

Lys Pro Met Pro Ser Asp Gly Asp Cys Tyr Asp Lys Val Val Tyr Lys

580 585 590

Phe Phe Lys Asp Ile Thr Thr Met Val Pro Lys Cys Thr Thr Gln Met

595 600 605

Lys Ser Val Lys Glu His Phe Ser Asn Ser Asn Asp Asp Tyr Thr Leu

610 615 620

Phe Glu Lys Asp Lys Phe Ile Ala Pro Val Val Ile Thr Lys Glu Ile

625 630 635 640

Phe Asp Leu Asn Asn Val Leu Tyr Asn Gly Val Lys Lys Phe Gln Ile

645 650 655

Gly Tyr Leu Asn Asn Thr Gly Asp Ser Phe Gly Tyr Asn His Ala Val

660 665 670

Glu Ile Trp Lys Ser Phe Cys Leu Lys Phe Leu Lys Ala Tyr Lys Ser

675 680 685

Thr Ser Ile Tyr Asp Phe Ser Ser Ile Glu Lys Asn Ile Gly Cys Tyr

690 695 700

Asn Asp Leu Asn Ser Phe Tyr Gly Ala Val Asn Leu Leu Leu Tyr Asn

705 710 715 720

Leu Thr Tyr Arg Lys Val Ser Val Asp Tyr Ile His Gln Leu Val Asp

725 730 735

Glu Asp Lys Met Tyr Leu Phe Met Ile Tyr Asn Lys Asp Phe Ser Thr

740 745 750

Tyr Ser Lys Gly Thr Pro Asn Met His Thr Leu Tyr Trp Lys Met Leu

755 760 765

Phe Asp Glu Ser Asn Leu Asn Asp Val Val Tyr Lys Leu Asn Gly Gln

770 775 780

Ala Glu Val Phe Tyr Arg Lys Lys Ser Ile Thr Tyr Gln His Pro Thr

785 790 795 800

His Pro Ala Asn Lys Pro Ile Asp Asn Lys Asn Val Asn Asn Pro Lys

805 810 815

Lys Gln Ser Asn Phe Glu Tyr Asp Leu Ile Lys Asp Lys Arg Tyr Thr

820 825 830

Val Asp Lys Phe Met Phe His Val Pro Ile Thr Leu Asn Phe Lys Gly

835 840 845

Met Gly Asn Gly Asp Ile Asn Met Gln Val Arg Glu Tyr Ile Lys Thr

850 855 860

Thr Asp Asp Leu His Phe Ile Gly Ile Asp Arg Gly Glu Arg His Leu

865 870 875 880

Leu Tyr Ile Cys Val Ile Asn Gly Lys Gly Glu Ile Val Glu Gln Tyr

885 890 895

Ser Leu Asn Glu Ile Val Asn Asn Tyr Lys Gly Thr Glu Tyr Lys Thr

900 905 910

Asp Tyr His Thr Leu Leu Ser Glu Arg Asp Lys Lys Arg Lys Glu Glu

915 920 925

Arg Ser Ser Trp Gln Thr Ile Glu Gly Ile Lys Glu Leu Lys Ser Gly

930 935 940

Tyr Leu Ser Gln Val Ile His Lys Ile Thr Gln Leu Met Ile Lys Tyr

945 950 955 960

Asn Ala Ile Val Leu Leu Glu Asp Leu Asn Met Gly Phe Lys Arg Gly

965 970 975

Arg Gln Lys Val Glu Ser Ser Val Tyr Gln Gln Phe Glu Lys Ala Leu

980 985 990

Ile Asp Lys Leu Asn Tyr Leu Val Asp Lys Asn Lys Asp Ala Asn Glu

995 1000 1005

Ile Gly Gly Leu Leu His Ala Tyr Gln Leu Thr Asn Asp Pro Lys

1010 1015 1020

Leu Pro Asn Lys Asn Ser Lys Gln Ser Gly Phe Leu Phe Tyr Val

1025 1030 1035

Pro Ala Trp Asn Thr Ser Lys Ile Asp Pro Val Thr Gly Phe Val

1040 1045 1050

Asn Leu Leu Asp Thr Arg Tyr Glu Asn Val Ala Lys Ala Gln Ala

1055 1060 1065

Phe Phe Lys Lys Phe Asp Ser Ile Arg Tyr Asn Lys Glu Tyr Asp

1070 1075 1080

Arg Phe Glu Phe Lys Phe Asp Tyr Ser Asn Phe Thr Ala Lys Ala

1085 1090 1095

Glu Asp Thr Arg Thr Gln Trp Thr Leu Cys Thr Tyr Gly Thr Arg

1100 1105 1110

Ile Glu Thr Phe Arg Asn Ala Glu Lys Asn Ser Asn Trp Asp Ser

1115 1120 1125

Arg Glu Ile Asp Leu Thr Thr Glu Trp Lys Thr Leu Phe Thr Gln

1130 1135 1140

His Asn Ile Pro Leu Asn Ala Asn Leu Lys Glu Ala Ile Leu Leu

1145 1150 1155

Gln Ala Asn Lys Asn Phe Tyr Thr Asp Ile Leu His Leu Met Lys

1160 1165 1170

Leu Thr Leu Gln Met Arg Asn Ser Val Thr Gly Thr Asp Ile Asp

1175 1180 1185

Tyr Met Val Ser Pro Val Ala Asn Glu Cys Gly Glu Phe Phe Asp

1190 1195 1200

Ser Arg Lys Val Lys Glu Gly Leu Pro Val Asn Ala Asp Ala Asn

1205 1210 1215

Gly Ala Tyr Asn Ile Ala Arg Lys Gly Leu Trp Leu Ala Gln Gln

1220 1225 1230

Ile Lys Asn Ala Asn Asp Leu Ser Asp Val Lys Leu Ala Ile Thr

1235 1240 1245

Asn Lys Glu Trp Leu Gln Phe Ala Gln Lys Lys Gln Tyr Leu Lys

1250 1255 1260

Asp

<210> 88

<211> 1264

<212> БЕЛОК

<213> Moraxella caprae

<400> 88

Met Leu Phe Gln Asp Phe Thr His Leu Tyr Pro Leu Ser Lys Thr Met

1 5 10 15

Arg Phe Glu Leu Lys Pro Ile Gly Lys Thr Leu Glu His Ile His Ala

20 25 30

Lys Asn Phe Leu Ser Gln Asp Glu Thr Met Ala Asp Met Tyr Gln Lys

35 40 45

Val Lys Ala Ile Leu Asp Asp Tyr His Arg Asp Phe Ile Ala Asp Met

50 55 60

Met Gly Glu Val Lys Leu Thr Lys Leu Ala Glu Phe Tyr Asp Val Tyr

65 70 75 80

Leu Lys Phe Arg Lys Asn Pro Lys Asp Asp Gly Leu Gln Lys Gln Leu

85 90 95

Lys Asp Leu Gln Ala Val Leu Arg Lys Glu Ile Val Lys Pro Ile Gly

100 105 110

Asn Gly Gly Lys Tyr Lys Ala Gly Tyr Asp Arg Leu Phe Gly Ala Lys

115 120 125

Leu Phe Lys Asp Gly Lys Glu Leu Gly Asp Leu Ala Lys Phe Val Ile

130 135 140

Ala Gln Glu Gly Glu Ser Ser Pro Lys Leu Ala His Leu Ala His Phe

145 150 155 160

Glu Lys Phe Ser Thr Tyr Phe Thr Gly Phe His Asp Asn Arg Lys Asn

165 170 175

Met Tyr Ser Asp Glu Asp Lys His Thr Ala Ile Thr Tyr Arg Leu Ile

180 185 190

His Glu Asn Leu Pro Arg Phe Ile Asp Asn Leu Gln Ile Leu Ala Thr

195 200 205

Ile Lys Gln Lys His Ser Ala Leu Tyr Asp Gln Ile Ile Asn Glu Leu

210 215 220

Thr Ala Ser Gly Leu Asp Val Ser Leu Ala Ser His Leu Asp Gly Tyr

225 230 235 240

His Lys Leu Leu Thr Gln Glu Gly Ile Thr Ala Tyr Asn Thr Leu Leu

245 250 255

Gly Gly Ile Ser Gly Glu Ala Gly Ser Arg Lys Ile Gln Gly Ile Asn

260 265 270

Glu Leu Ile Asn Ser His His Asn Gln His Cys His Lys Ser Glu Arg

275 280 285

Ile Ala Lys Leu Arg Pro Leu His Lys Gln Ile Leu Ser Asp Gly Met

290 295 300

Gly Val Ser Phe Leu Pro Ser Lys Phe Ala Asp Asp Ser Glu Met Cys

305 310 315 320

Gln Ala Val Asn Glu Phe Tyr Arg His Tyr Ala Asp Val Phe Ala Lys

325 330 335

Val Gln Ser Leu Phe Asp Gly Phe Asp Asp His Gln Lys Asp Gly Ile

340 345 350

Tyr Val Glu His Lys Asn Leu Asn Glu Leu Ser Lys Gln Ala Phe Gly

355 360 365

Asp Phe Ala Leu Leu Gly Arg Val Leu Asp Gly Tyr Tyr Val Asp Val

370 375 380

Val Asn Pro Glu Phe Asn Glu Arg Phe Ala Lys Ala Lys Thr Asp Asn

385 390 395 400

Ala Lys Ala Lys Leu Thr Lys Glu Lys Asp Lys Phe Ile Lys Gly Val

405 410 415

His Ser Leu Ala Ser Leu Glu Gln Ala Ile Glu His Tyr Thr Ala Arg

420 425 430

His Asp Asp Glu Ser Val Gln Ala Gly Lys Leu Gly Gln Tyr Phe Lys

435 440 445

His Gly Leu Ala Gly Val Asp Asn Pro Ile Gln Lys Ile His Asn Asn

450 455 460

His Ser Thr Ile Lys Gly Phe Leu Glu Arg Glu Arg Pro Ala Gly Glu

465 470 475 480

Arg Ala Leu Pro Lys Ile Lys Ser Gly Lys Asn Pro Glu Met Thr Gln

485 490 495

Leu Arg Gln Leu Lys Glu Leu Leu Asp Asn Ala Leu Asn Val Ala His

500 505 510

Phe Ala Lys Leu Leu Thr Thr Lys Thr Thr Leu Asp Asn Gln Asp Gly

515 520 525

Asn Phe Tyr Gly Glu Phe Gly Ala Leu Tyr Asp Glu Leu Ala Lys Ile

530 535 540

Pro Thr Leu Tyr Asn Lys Val Arg Asp Tyr Leu Ser Gln Lys Pro Phe

545 550 555 560

Ser Thr Glu Lys Tyr Lys Leu Asn Phe Gly Asn Pro Thr Leu Leu Asn

565 570 575

Gly Trp Asp Leu Asn Lys Glu Lys Asp Asn Phe Gly Ile Ile Leu Gln

580 585 590

Lys Asp Gly Cys Tyr Tyr Leu Ala Leu Leu Asp Lys Ala His Lys Lys

595 600 605

Val Phe Asp Asn Ala Pro Asn Thr Gly Lys Asn Val Tyr Gln Lys Met

610 615 620

Ile Tyr Lys Leu Leu Pro Gly Pro Asn Lys Met Leu Pro Lys Val Phe

625 630 635 640

Phe Ala Lys Ser Asn Leu Asp Tyr Tyr Asn Pro Ser Ala Glu Leu Leu

645 650 655

Asp Lys Tyr Ala Gln Gly Thr His Lys Lys Gly Asn Asn Phe Asn Leu

660 665 670

Lys Asp Cys His Ala Leu Ile Asp Phe Phe Lys Ala Gly Ile Asn Lys

675 680 685

His Pro Glu Trp Gln His Phe Gly Phe Lys Phe Ser Pro Thr Ser Ser

690 695 700

Tyr Gln Asp Leu Ser Asp Phe Tyr Arg Glu Val Glu Pro Gln Gly Tyr

705 710 715 720

Gln Val Lys Phe Val Asp Ile Asn Ala Asp Tyr Ile Asn Glu Leu Val

725 730 735

Glu Gln Gly Gln Leu Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser

740 745 750

Pro Lys Ala His Gly Lys Pro Asn Leu His Thr Leu Tyr Phe Lys Ala

755 760 765

Leu Phe Ser Lys Asp Asn Leu Ala Asn Pro Ile Tyr Lys Leu Asn Gly

770 775 780

Glu Ala Gln Ile Phe Tyr Arg Lys Ala Ser Leu Asp Met Asn Glu Thr

785 790 795 800

Thr Ile His Arg Ala Gly Glu Val Leu Glu Asn Lys Asn Pro Asp Asn

805 810 815

Pro Lys Lys Arg Gln Phe Val Tyr Asp Ile Ile Lys Asp Lys Arg Tyr

820 825 830

Thr Gln Asp Lys Phe Met Leu His Val Pro Ile Thr Met Asn Phe Gly

835 840 845

Val Gln Gly Met Thr Ile Lys Glu Phe Asn Lys Lys Val Asn Gln Ser

850 855 860

Ile Gln Gln Tyr Asp Glu Val Asn Val Ile Gly Ile Asp Arg Gly Glu

865 870 875 880

Arg His Leu Leu Tyr Leu Thr Val Ile Asn Ser Lys Gly Glu Ile Leu

885 890 895

Glu Gln Arg Ser Leu Asn Asp Ile Thr Thr Ala Ser Ala Asn Gly Thr

900 905 910

Gln Met Thr Thr Pro Tyr His Lys Ile Leu Asp Lys Arg Glu Ile Glu

915 920 925

Arg Leu Asn Ala Arg Val Gly Trp Gly Glu Ile Glu Thr Ile Lys Glu

930 935 940

Leu Lys Ser Gly Tyr Leu Ser His Val Val His Gln Ile Ser Gln Leu

945 950 955 960

Met Leu Lys Tyr Asn Ala Ile Val Val Leu Glu Asp Leu Asn Phe Gly

965 970 975

Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Ile Tyr Gln Asn Phe

980 985 990

Glu Asn Ala Leu Ile Lys Lys Leu Asn His Leu Val Leu Lys Asp Glu

995 1000 1005

Ala Asp Asp Glu Ile Gly Ser Tyr Lys Asn Ala Leu Gln Leu Thr

1010 1015 1020

Asn Asn Phe Thr Asp Leu Lys Ser Ile Gly Lys Gln Thr Gly Phe

1025 1030 1035

Leu Phe Tyr Val Pro Ala Trp Asn Thr Ser Lys Ile Asp Pro Glu

1040 1045 1050

Thr Gly Phe Val Asp Leu Leu Lys Pro Arg Tyr Glu Asn Ile Ala

1055 1060 1065

Gln Ser Gln Ala Phe Phe Gly Lys Phe Asp Lys Ile Cys Tyr Asn

1070 1075 1080

Ala Asp Lys Asp Tyr Phe Glu Phe His Ile Asp Tyr Ala Lys Phe

1085 1090 1095

Thr Asp Lys Ala Lys Asn Ser Arg Gln Ile Trp Lys Ile Cys Ser

1100 1105 1110

His Gly Asp Lys Arg Tyr Val Tyr Asp Lys Thr Ala Asn Gln Asn

1115 1120 1125

Lys Gly Ala Thr Lys Gly Ile Asn Val Asn Asp Glu Leu Lys Ser

1130 1135 1140

Leu Phe Ala Arg His His Ile Asn Asp Lys Gln Pro Asn Leu Val

1145 1150 1155

Met Asp Ile Cys Gln Asn Asn Asp Lys Glu Phe His Lys Ser Leu

1160 1165 1170

Ile Tyr Leu Leu Lys Thr Leu Leu Ala Leu Arg Tyr Ser Asn Ala

1175 1180 1185

Ser Ser Asp Glu Asp Phe Ile Leu Ser Pro Val Ala Asn Asp Glu

1190 1195 1200

Gly Met Phe Phe Asn Ser Ala Leu Ala Asp Asp Thr Gln Pro Gln

1205 1210 1215

Asn Ala Asp Ala Asn Gly Ala Tyr His Ile Ala Leu Lys Gly Leu

1220 1225 1230

Trp Val Leu Glu Gln Ile Lys Asn Ser Asp Asp Leu Asn Lys Val

1235 1240 1245

Lys Leu Ala Ile Asp Asn Gln Thr Trp Leu Asn Phe Ala Gln Asn

1250 1255 1260

Arg

<210> 89

<211> 1263

<212> БЕЛОК

<213> Leptospira inadai

<400> 89

Met Glu Asp Tyr Ser Gly Phe Val Asn Ile Tyr Ser Ile Gln Lys Thr

1 5 10 15

Leu Arg Phe Glu Leu Lys Pro Val Gly Lys Thr Leu Glu His Ile Glu

20 25 30

Lys Lys Gly Phe Leu Lys Lys Asp Lys Ile Arg Ala Glu Asp Tyr Lys

35 40 45

Ala Val Lys Lys Ile Ile Asp Lys Tyr His Arg Ala Tyr Ile Glu Glu

50 55 60

Val Phe Asp Ser Val Leu His Gln Lys Lys Lys Lys Asp Lys Thr Arg

65 70 75 80

Phe Ser Thr Gln Phe Ile Lys Glu Ile Lys Glu Phe Ser Glu Leu Tyr

85 90 95

Tyr Lys Thr Glu Lys Asn Ile Pro Asp Lys Glu Arg Leu Glu Ala Leu

100 105 110

Ser Glu Lys Leu Arg Lys Met Leu Val Gly Ala Phe Lys Gly Glu Phe

115 120 125

Ser Glu Glu Val Ala Glu Lys Tyr Lys Asn Leu Phe Ser Lys Glu Leu

130 135 140

Ile Arg Asn Glu Ile Glu Lys Phe Cys Glu Thr Asp Glu Glu Arg Lys

145 150 155 160

Gln Val Ser Asn Phe Lys Ser Phe Thr Thr Tyr Phe Thr Gly Phe His

165 170 175

Ser Asn Arg Gln Asn Ile Tyr Ser Asp Glu Lys Lys Ser Thr Ala Ile

180 185 190

Gly Tyr Arg Ile Ile His Gln Asn Leu Pro Lys Phe Leu Asp Asn Leu

195 200 205

Lys Ile Ile Glu Ser Ile Gln Arg Arg Phe Lys Asp Phe Pro Trp Ser

210 215 220

Asp Leu Lys Lys Asn Leu Lys Lys Ile Asp Lys Asn Ile Lys Leu Thr

225 230 235 240

Glu Tyr Phe Ser Ile Asp Gly Phe Val Asn Val Leu Asn Gln Lys Gly

245 250 255

Ile Asp Ala Tyr Asn Thr Ile Leu Gly Gly Lys Ser Glu Glu Ser Gly

260 265 270

Glu Lys Ile Gln Gly Leu Asn Glu Tyr Ile Asn Leu Tyr Arg Gln Lys

275 280 285

Asn Asn Ile Asp Arg Lys Asn Leu Pro Asn Val Lys Ile Leu Phe Lys

290 295 300

Gln Ile Leu Gly Asp Arg Glu Thr Lys Ser Phe Ile Pro Glu Ala Phe

305 310 315 320

Pro Asp Asp Gln Ser Val Leu Asn Ser Ile Thr Glu Phe Ala Lys Tyr

325 330 335

Leu Lys Leu Asp Lys Lys Lys Lys Ser Ile Ile Ala Glu Leu Lys Lys

340 345 350

Phe Leu Ser Ser Phe Asn Arg Tyr Glu Leu Asp Gly Ile Tyr Leu Ala

355 360 365

Asn Asp Asn Ser Leu Ala Ser Ile Ser Thr Phe Leu Phe Asp Asp Trp

370 375 380

Ser Phe Ile Lys Lys Ser Val Ser Phe Lys Tyr Asp Glu Ser Val Gly

385 390 395 400

Asp Pro Lys Lys Lys Ile Lys Ser Pro Leu Lys Tyr Glu Lys Glu Lys

405 410 415

Glu Lys Trp Leu Lys Gln Lys Tyr Tyr Thr Ile Ser Phe Leu Asn Asp

420 425 430

Ala Ile Glu Ser Tyr Ser Lys Ser Gln Asp Glu Lys Arg Val Lys Ile

435 440 445

Arg Leu Glu Ala Tyr Phe Ala Glu Phe Lys Ser Lys Asp Asp Ala Lys

450 455 460

Lys Gln Phe Asp Leu Leu Glu Arg Ile Glu Glu Ala Tyr Ala Ile Val

465 470 475 480

Glu Pro Leu Leu Gly Ala Glu Tyr Pro Arg Asp Arg Asn Leu Lys Ala

485 490 495

Asp Lys Lys Glu Val Gly Lys Ile Lys Asp Phe Leu Asp Ser Ile Lys

500 505 510

Ser Leu Gln Phe Phe Leu Lys Pro Leu Leu Ser Ala Glu Ile Phe Asp

515 520 525

Glu Lys Asp Leu Gly Phe Tyr Asn Gln Leu Glu Gly Tyr Tyr Glu Glu

530 535 540

Ile Asp Ser Ile Gly His Leu Tyr Asn Lys Val Arg Asn Tyr Leu Thr

545 550 555 560

Gly Lys Ile Tyr Ser Lys Glu Lys Phe Lys Leu Asn Phe Glu Asn Ser

565 570 575

Thr Leu Leu Lys Gly Trp Asp Glu Asn Arg Glu Val Ala Asn Leu Cys

580 585 590

Val Ile Phe Arg Glu Asp Gln Lys Tyr Tyr Leu Gly Val Met Asp Lys

595 600 605

Glu Asn Asn Thr Ile Leu Ser Asp Ile Pro Lys Val Lys Pro Asn Glu

610 615 620

Leu Phe Tyr Glu Lys Met Val Tyr Lys Leu Ile Pro Thr Pro His Met

625 630 635 640

Gln Leu Pro Arg Ile Ile Phe Ser Ser Asp Asn Leu Ser Ile Tyr Asn

645 650 655

Pro Ser Lys Ser Ile Leu Lys Ile Arg Glu Ala Lys Ser Phe Lys Glu

660 665 670

Gly Lys Asn Phe Lys Leu Lys Asp Cys His Lys Phe Ile Asp Phe Tyr

675 680 685

Lys Glu Ser Ile Ser Lys Asn Glu Asp Trp Ser Arg Phe Asp Phe Lys

690 695 700

Phe Ser Lys Thr Ser Ser Tyr Glu Asn Ile Ser Glu Phe Tyr Arg Glu

705 710 715 720

Val Glu Arg Gln Gly Tyr Asn Leu Asp Phe Lys Lys Val Ser Lys Phe

725 730 735

Tyr Ile Asp Ser Leu Val Glu Asp Gly Lys Leu Tyr Leu Phe Gln Ile

740 745 750

Tyr Asn Lys Asp Phe Ser Ile Phe Ser Lys Gly Lys Pro Asn Leu His

755 760 765

Thr Ile Tyr Phe Arg Ser Leu Phe Ser Lys Glu Asn Leu Lys Asp Val

770 775 780

Cys Leu Lys Leu Asn Gly Glu Ala Glu Met Phe Phe Arg Lys Lys Ser

785 790 795 800

Ile Asn Tyr Asp Glu Lys Lys Lys Arg Glu Gly His His Pro Glu Leu

805 810 815

Phe Glu Lys Leu Lys Tyr Pro Ile Leu Lys Asp Lys Arg Tyr Ser Glu

820 825 830

Asp Lys Phe Gln Phe His Leu Pro Ile Ser Leu Asn Phe Lys Ser Lys

835 840 845

Glu Arg Leu Asn Phe Asn Leu Lys Val Asn Glu Phe Leu Lys Arg Asn

850 855 860

Lys Asp Ile Asn Ile Ile Gly Ile Asp Arg Gly Glu Arg Asn Leu Leu

865 870 875 880

Tyr Leu Val Met Ile Asn Gln Lys Gly Glu Ile Leu Lys Gln Thr Leu

885 890 895

Leu Asp Ser Met Gln Ser Gly Lys Gly Arg Pro Glu Ile Asn Tyr Lys

900 905 910

Glu Lys Leu Gln Glu Lys Glu Ile Glu Arg Asp Lys Ala Arg Lys Ser

915 920 925

Trp Gly Thr Val Glu Asn Ile Lys Glu Leu Lys Glu Gly Tyr Leu Ser

930 935 940

Ile Val Ile His Gln Ile Ser Lys Leu Met Val Glu Asn Asn Ala Ile

945 950 955 960

Val Val Leu Glu Asp Leu Asn Ile Gly Phe Lys Arg Gly Arg Gln Lys

965 970 975

Val Glu Arg Gln Val Tyr Gln Lys Phe Glu Lys Met Leu Ile Asp Lys

980 985 990

Leu Asn Phe Leu Val Phe Lys Glu Asn Lys Pro Thr Glu Pro Gly Gly

995 1000 1005

Val Leu Lys Ala Tyr Gln Leu Thr Asp Glu Phe Gln Ser Phe Glu

1010 1015 1020

Lys Leu Ser Lys Gln Thr Gly Phe Leu Phe Tyr Val Pro Ser Trp

1025 1030 1035

Asn Thr Ser Lys Ile Asp Pro Arg Thr Gly Phe Ile Asp Phe Leu

1040 1045 1050

His Pro Ala Tyr Glu Asn Ile Glu Lys Ala Lys Gln Trp Ile Asn

1055 1060 1065

Lys Phe Asp Ser Ile Arg Phe Asn Ser Lys Met Asp Trp Phe Glu

1070 1075 1080

Phe Thr Ala Asp Thr Arg Lys Phe Ser Glu Asn Leu Met Leu Gly

1085 1090 1095

Lys Asn Arg Val Trp Val Ile Cys Thr Thr Asn Val Glu Arg Tyr

1100 1105 1110

Phe Thr Ser Lys Thr Ala Asn Ser Ser Ile Gln Tyr Asn Ser Ile

1115 1120 1125

Gln Ile Thr Glu Lys Leu Lys Glu Leu Phe Val Asp Ile Pro Phe

1130 1135 1140

Ser Asn Gly Gln Asp Leu Lys Pro Glu Ile Leu Arg Lys Asn Asp

1145 1150 1155

Ala Val Phe Phe Lys Ser Leu Leu Phe Tyr Ile Lys Thr Thr Leu

1160 1165 1170

Ser Leu Arg Gln Asn Asn Gly Lys Lys Gly Glu Glu Glu Lys Asp

1175 1180 1185

Phe Ile Leu Ser Pro Val Val Asp Ser Lys Gly Arg Phe Phe Asn

1190 1195 1200

Ser Leu Glu Ala Ser Asp Asp Glu Pro Lys Asp Ala Asp Ala Asn

1205 1210 1215

Gly Ala Tyr His Ile Ala Leu Lys Gly Leu Met Asn Leu Leu Val

1220 1225 1230

Leu Asn Glu Thr Lys Glu Glu Asn Leu Ser Arg Pro Lys Trp Lys

1235 1240 1245

Ile Lys Asn Lys Asp Trp Leu Glu Phe Val Trp Glu Arg Asn Arg

1250 1255 1260

<210> 90

<211> 1262

<212> БЕЛОК

<213> Porphyromonas crevioricanis

<400> 90

Met Pro Trp Ile Asp Leu Lys Asp Phe Thr Asn Leu Tyr Pro Val Ser

1 5 10 15

Lys Thr Leu Arg Phe Glu Leu Lys Pro Val Gly Lys Thr Leu Glu Asn

20 25 30

Ile Glu Lys Ala Gly Ile Leu Lys Glu Asp Glu His Arg Ala Glu Ser

35 40 45

Tyr Arg Arg Val Lys Lys Ile Ile Asp Thr Tyr His Lys Val Phe Ile

50 55 60

Asp Ser Ser Leu Glu Asn Met Ala Lys Met Gly Ile Glu Asn Glu Ile

65 70 75 80

Lys Ala Met Leu Gln Ser Phe Cys Glu Leu Tyr Lys Lys Asp His Arg

85 90 95

Thr Glu Gly Glu Asp Lys Ala Leu Asp Lys Ile Arg Ala Val Leu Arg

100 105 110

Gly Leu Ile Val Gly Ala Phe Thr Gly Val Cys Gly Arg Arg Glu Asn

115 120 125

Thr Val Gln Asn Glu Lys Tyr Glu Ser Leu Phe Lys Glu Lys Leu Ile

130 135 140

Lys Glu Ile Leu Pro Asp Phe Val Leu Ser Thr Glu Ala Glu Ser Leu

145 150 155 160

Pro Phe Ser Val Glu Glu Ala Thr Arg Ser Leu Lys Glu Phe Asp Ser

165 170 175

Phe Thr Ser Tyr Phe Ala Gly Phe Tyr Glu Asn Arg Lys Asn Ile Tyr

180 185 190

Ser Thr Lys Pro Gln Ser Thr Ala Ile Ala Tyr Arg Leu Ile His Glu

195 200 205

Asn Leu Pro Lys Phe Ile Asp Asn Ile Leu Val Phe Gln Lys Ile Lys

210 215 220

Glu Pro Ile Ala Lys Glu Leu Glu His Ile Arg Ala Asp Phe Ser Ala

225 230 235 240

Gly Gly Tyr Ile Lys Lys Asp Glu Arg Leu Glu Asp Ile Phe Ser Leu

245 250 255

Asn Tyr Tyr Ile His Val Leu Ser Gln Ala Gly Ile Glu Lys Tyr Asn

260 265 270

Ala Leu Ile Gly Lys Ile Val Thr Glu Gly Asp Gly Glu Met Lys Gly

275 280 285

Leu Asn Glu His Ile Asn Leu Tyr Asn Gln Gln Arg Gly Arg Glu Asp

290 295 300

Arg Leu Pro Leu Phe Arg Pro Leu Tyr Lys Gln Ile Leu Ser Asp Arg

305 310 315 320

Glu Gln Leu Ser Tyr Leu Pro Glu Ser Phe Glu Lys Asp Glu Glu Leu

325 330 335

Leu Arg Ala Leu Lys Glu Phe Tyr Asp His Ile Ala Glu Asp Ile Leu

340 345 350

Gly Arg Thr Gln Gln Leu Met Thr Ser Ile Ser Glu Tyr Asp Leu Ser

355 360 365

Arg Ile Tyr Val Arg Asn Asp Ser Gln Leu Thr Asp Ile Ser Lys Lys

370 375 380

Met Leu Gly Asp Trp Asn Ala Ile Tyr Met Ala Arg Glu Arg Ala Tyr

385 390 395 400

Asp His Glu Gln Ala Pro Lys Arg Ile Thr Ala Lys Tyr Glu Arg Asp

405 410 415

Arg Ile Lys Ala Leu Lys Gly Glu Glu Ser Ile Ser Leu Ala Asn Leu

420 425 430

Asn Ser Cys Ile Ala Phe Leu Asp Asn Val Arg Asp Cys Arg Val Asp

435 440 445

Thr Tyr Leu Ser Thr Leu Gly Gln Lys Glu Gly Pro His Gly Leu Ser

450 455 460

Asn Leu Val Glu Asn Val Phe Ala Ser Tyr His Glu Ala Glu Gln Leu

465 470 475 480

Leu Ser Phe Pro Tyr Pro Glu Glu Asn Asn Leu Ile Gln Asp Lys Asp

485 490 495

Asn Val Val Leu Ile Lys Asn Leu Leu Asp Asn Ile Ser Asp Leu Gln

500 505 510

Arg Phe Leu Lys Pro Leu Trp Gly Met Gly Asp Glu Pro Asp Lys Asp

515 520 525

Glu Arg Phe Tyr Gly Glu Tyr Asn Tyr Ile Arg Gly Ala Leu Asp Gln

530 535 540

Val Ile Pro Leu Tyr Asn Lys Val Arg Asn Tyr Leu Thr Arg Lys Pro

545 550 555 560

Tyr Ser Thr Arg Lys Val Lys Leu Asn Phe Gly Asn Ser Gln Leu Leu

565 570 575

Ser Gly Trp Asp Arg Asn Lys Glu Lys Asp Asn Ser Cys Val Ile Leu

580 585 590

Arg Lys Gly Gln Asn Phe Tyr Leu Ala Ile Met Asn Asn Arg His Lys

595 600 605

Arg Ser Phe Glu Asn Lys Val Leu Pro Glu Tyr Lys Glu Gly Glu Pro

610 615 620

Tyr Phe Glu Lys Met Asp Tyr Lys Phe Leu Pro Asp Pro Asn Lys Met

625 630 635 640

Leu Pro Lys Val Phe Leu Ser Lys Lys Gly Ile Glu Ile Tyr Glu Pro

645 650 655

Ser Pro Lys Leu Leu Glu Gln Tyr Gly His Gly Thr His Lys Lys Gly

660 665 670

Asp Thr Phe Ser Met Asp Asp Leu His Glu Leu Ile Asp Phe Phe Lys

675 680 685

His Ser Ile Glu Ala His Glu Asp Trp Lys Gln Phe Gly Phe Lys Phe

690 695 700

Ser Asp Thr Ala Thr Tyr Glu Asn Val Ser Ser Phe Tyr Arg Glu Val

705 710 715 720

Glu Asp Gln Gly Tyr Lys Leu Ser Phe Arg Lys Val Ser Glu Ser Tyr

725 730 735

Val Tyr Ser Leu Ile Asp Gln Gly Lys Leu Tyr Leu Phe Gln Ile Tyr

740 745 750

Asn Lys Asp Phe Ser Pro Cys Ser Lys Gly Thr Pro Asn Leu His Thr

755 760 765

Leu Tyr Trp Arg Met Leu Phe Asp Glu Arg Asn Leu Ala Asp Val Ile

770 775 780

Tyr Lys Leu Asp Gly Lys Ala Glu Ile Phe Phe Arg Glu Lys Ser Leu

785 790 795 800

Lys Asn Asp His Pro Thr His Pro Ala Gly Lys Pro Ile Lys Lys Lys

805 810 815

Ser Arg Gln Lys Lys Gly Glu Glu Ser Leu Phe Glu Tyr Asp Leu Val

820 825 830

Lys Asp Arg Arg Tyr Thr Met Asp Lys Phe Gln Phe His Val Pro Ile

835 840 845

Thr Met Asn Phe Lys Cys Ser Ala Gly Ser Lys Val Asn Asp Met Val

850 855 860

Asn Ala His Ile Arg Glu Ala Lys Asp Met His Val Ile Gly Ile Asp

865 870 875 880

Arg Gly Glu Arg Asn Leu Leu Tyr Ile Cys Val Ile Asp Ser Arg Gly

885 890 895

Thr Ile Leu Asp Gln Ile Ser Leu Asn Thr Ile Asn Asp Ile Asp Tyr

900 905 910

His Asp Leu Leu Glu Ser Arg Asp Lys Asp Arg Gln Gln Glu Arg Arg

915 920 925

Asn Trp Gln Thr Ile Glu Gly Ile Lys Glu Leu Lys Gln Gly Tyr Leu

930 935 940

Ser Gln Ala Val His Arg Ile Ala Glu Leu Met Val Ala Tyr Lys Ala

945 950 955 960

Val Val Ala Leu Glu Asp Leu Asn Met Gly Phe Lys Arg Gly Arg Gln

965 970 975

Lys Val Glu Ser Ser Val Tyr Gln Gln Phe Glu Lys Gln Leu Ile Asp

980 985 990

Lys Leu Asn Tyr Leu Val Asp Lys Lys Lys Arg Pro Glu Asp Ile Gly

995 1000 1005

Gly Leu Leu Arg Ala Tyr Gln Phe Thr Ala Pro Phe Lys Ser Phe

1010 1015 1020

Lys Glu Met Gly Lys Gln Asn Gly Phe Leu Phe Tyr Ile Pro Ala

1025 1030 1035

Trp Asn Thr Ser Asn Ile Asp Pro Thr Thr Gly Phe Val Asn Leu

1040 1045 1050

Phe His Ala Gln Tyr Glu Asn Val Asp Lys Ala Lys Ser Phe Phe

1055 1060 1065

Gln Lys Phe Asp Ser Ile Ser Tyr Asn Pro Lys Lys Asp Trp Phe

1070 1075 1080

Glu Phe Ala Phe Asp Tyr Lys Asn Phe Thr Lys Lys Ala Glu Gly

1085 1090 1095

Ser Arg Ser Met Trp Ile Leu Cys Thr His Gly Ser Arg Ile Lys

1100 1105 1110

Asn Phe Arg Asn Ser Gln Lys Asn Gly Gln Trp Asp Ser Glu Glu

1115 1120 1125

Phe Ala Leu Thr Glu Ala Phe Lys Ser Leu Phe Val Arg Tyr Glu

1130 1135 1140

Ile Asp Tyr Thr Ala Asp Leu Lys Thr Ala Ile Val Asp Glu Lys

1145 1150 1155

Gln Lys Asp Phe Phe Val Asp Leu Leu Lys Leu Phe Lys Leu Thr

1160 1165 1170

Val Gln Met Arg Asn Ser Trp Lys Glu Lys Asp Leu Asp Tyr Leu

1175 1180 1185

Ile Ser Pro Val Ala Gly Ala Asp Gly Arg Phe Phe Asp Thr Arg

1190 1195 1200

Glu Gly Asn Lys Ser Leu Pro Lys Asp Ala Asp Ala Asn Gly Ala

1205 1210 1215

Tyr Asn Ile Ala Leu Lys Gly Leu Trp Ala Leu Arg Gln Ile Arg

1220 1225 1230

Gln Thr Ser Glu Gly Gly Lys Leu Lys Leu Ala Ile Ser Asn Lys

1235 1240 1245

Glu Trp Leu Gln Phe Val Gln Glu Arg Ser Tyr Glu Lys Asp

1250 1255 1260

<210> 91

<211> 1262

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность Bacteroidetes из ротовой полости, таксон 274

<400> 91

Met Arg Lys Phe Asn Glu Phe Val Gly Leu Tyr Pro Ile Ser Lys Thr

1 5 10 15

Leu Arg Phe Glu Leu Lys Pro Ile Gly Lys Thr Leu Glu His Ile Gln

20 25 30

Arg Asn Lys Leu Leu Glu His Asp Ala Val Arg Ala Asp Asp Tyr Val

35 40 45

Lys Val Lys Lys Ile Ile Asp Lys Tyr His Lys Cys Leu Ile Asp Glu

50 55 60

Ala Leu Ser Gly Phe Thr Phe Asp Thr Glu Ala Asp Gly Arg Ser Asn

65 70 75 80

Asn Ser Leu Ser Glu Tyr Tyr Leu Tyr Tyr Asn Leu Lys Lys Arg Asn

85 90 95

Glu Gln Glu Gln Lys Thr Phe Lys Thr Ile Gln Asn Asn Leu Arg Lys

100 105 110

Gln Ile Val Asn Lys Leu Thr Gln Ser Glu Lys Tyr Lys Arg Ile Asp

115 120 125

Lys Lys Glu Leu Ile Thr Thr Asp Leu Pro Asp Phe Leu Thr Asn Glu

130 135 140

Ser Glu Lys Glu Leu Val Glu Lys Phe Lys Asn Phe Thr Thr Tyr Phe

145 150 155 160

Thr Glu Phe His Lys Asn Arg Lys Asn Met Tyr Ser Lys Glu Glu Lys

165 170 175

Ser Thr Ala Ile Ala Phe Arg Leu Ile Asn Glu Asn Leu Pro Lys Phe

180 185 190

Val Asp Asn Ile Ala Ala Phe Glu Lys Val Val Ser Ser Pro Leu Ala

195 200 205

Glu Lys Ile Asn Ala Leu Tyr Glu Asp Phe Lys Glu Tyr Leu Asn Val

210 215 220

Glu Glu Ile Ser Arg Val Phe Arg Leu Asp Tyr Tyr Asp Glu Leu Leu

225 230 235 240

Thr Gln Lys Gln Ile Asp Leu Tyr Asn Ala Ile Val Gly Gly Arg Thr

245 250 255

Glu Glu Asp Asn Lys Ile Gln Ile Lys Gly Leu Asn Gln Tyr Ile Asn

260 265 270

Glu Tyr Asn Gln Gln Gln Thr Asp Arg Ser Asn Arg Leu Pro Lys Leu

275 280 285

Lys Pro Leu Tyr Lys Gln Ile Leu Ser Asp Arg Glu Ser Val Ser Trp

290 295 300

Leu Pro Pro Lys Phe Asp Ser Asp Lys Asn Leu Leu Ile Lys Ile Lys

305 310 315 320

Glu Cys Tyr Asp Ala Leu Ser Glu Lys Glu Lys Val Phe Asp Lys Leu

325 330 335

Glu Ser Ile Leu Lys Ser Leu Ser Thr Tyr Asp Leu Ser Lys Ile Tyr

340 345 350

Ile Ser Asn Asp Ser Gln Leu Ser Tyr Ile Ser Gln Lys Met Phe Gly

355 360 365

Arg Trp Asp Ile Ile Ser Lys Ala Ile Arg Glu Asp Cys Ala Lys Arg

370 375 380

Asn Pro Gln Lys Ser Arg Glu Ser Leu Glu Lys Phe Ala Glu Arg Ile

385 390 395 400

Asp Lys Lys Leu Lys Thr Ile Asp Ser Ile Ser Ile Gly Asp Val Asp

405 410 415

Glu Cys Leu Ala Gln Leu Gly Glu Thr Tyr Val Lys Arg Val Glu Asp

420 425 430

Tyr Phe Val Ala Met Gly Glu Ser Glu Ile Asp Asp Glu Gln Thr Asp

435 440 445

Thr Thr Ser Phe Lys Lys Asn Ile Glu Gly Ala Tyr Glu Ser Val Lys

450 455 460

Glu Leu Leu Asn Asn Ala Asp Asn Ile Thr Asp Asn Asn Leu Met Gln

465 470 475 480

Asp Lys Gly Asn Val Glu Lys Ile Lys Thr Leu Leu Asp Ala Ile Lys

485 490 495

Asp Leu Gln Arg Phe Ile Lys Pro Leu Leu Gly Lys Gly Asp Glu Ala

500 505 510

Asp Lys Asp Gly Val Phe Tyr Gly Glu Phe Thr Ser Leu Trp Thr Lys

515 520 525

Leu Asp Gln Val Thr Pro Leu Tyr Asn Met Val Arg Asn Tyr Leu Thr

530 535 540

Ser Lys Pro Tyr Ser Thr Lys Lys Ile Lys Leu Asn Phe Glu Asn Ser

545 550 555 560

Thr Leu Met Asp Gly Trp Asp Leu Asn Lys Glu Pro Asp Asn Thr Thr

565 570 575

Val Ile Phe Cys Lys Asp Gly Leu Tyr Tyr Leu Gly Ile Met Gly Lys

580 585 590

Lys Tyr Asn Arg Val Phe Val Asp Arg Glu Asp Leu Pro His Asp Gly

595 600 605

Glu Cys Tyr Asp Lys Met Glu Tyr Lys Leu Leu Pro Gly Ala Asn Lys

610 615 620

Met Leu Pro Lys Val Phe Phe Ser Glu Thr Gly Ile Gln Arg Phe Leu

625 630 635 640

Pro Ser Glu Glu Leu Leu Gly Lys Tyr Glu Arg Gly Thr His Lys Lys

645 650 655

Gly Ala Gly Phe Asp Leu Gly Asp Cys Arg Ala Leu Ile Asp Phe Phe

660 665 670

Lys Lys Ser Ile Glu Arg His Asp Asp Trp Lys Lys Phe Asp Phe Lys

675 680 685

Phe Ser Asp Thr Ser Thr Tyr Gln Asp Ile Ser Glu Phe Tyr Arg Glu

690 695 700

Val Glu Gln Gln Gly Tyr Lys Met Ser Phe Arg Lys Val Ser Val Asp

705 710 715 720

Tyr Ile Lys Ser Leu Val Glu Glu Gly Lys Leu Tyr Leu Phe Gln Ile

725 730 735

Tyr Asn Lys Asp Phe Ser Ala His Ser Lys Gly Thr Pro Asn Met His

740 745 750

Thr Leu Tyr Trp Lys Met Leu Phe Asp Glu Glu Asn Leu Lys Asp Val

755 760 765

Val Tyr Lys Leu Asn Gly Glu Ala Glu Val Phe Phe Arg Lys Ser Ser

770 775 780

Ile Thr Val Gln Ser Pro Thr His Pro Ala Asn Ser Pro Ile Lys Asn

785 790 795 800

Lys Asn Lys Asp Asn Gln Lys Lys Glu Ser Lys Phe Glu Tyr Asp Leu

805 810 815

Ile Lys Asp Arg Arg Tyr Thr Val Asp Lys Phe Leu Phe His Val Pro

820 825 830

Ile Thr Met Asn Phe Lys Ser Val Gly Gly Ser Asn Ile Asn Gln Leu

835 840 845

Val Lys Arg His Ile Arg Ser Ala Thr Asp Leu His Ile Ile Gly Ile

850 855 860

Asp Arg Gly Glu Arg His Leu Leu Tyr Leu Thr Val Ile Asp Ser Arg

865 870 875 880

Gly Asn Ile Lys Glu Gln Phe Ser Leu Asn Glu Ile Val Asn Glu Tyr

885 890 895

Asn Gly Asn Thr Tyr Arg Thr Asp Tyr His Glu Leu Leu Asp Thr Arg

900 905 910

Glu Gly Glu Arg Thr Glu Ala Arg Arg Asn Trp Gln Thr Ile Gln Asn

915 920 925

Ile Arg Glu Leu Lys Glu Gly Tyr Leu Ser Gln Val Ile His Lys Ile

930 935 940

Ser Glu Leu Ala Ile Lys Tyr Asn Ala Val Ile Val Leu Glu Asp Leu

945 950 955 960

Asn Phe Gly Phe Met Arg Ser Arg Gln Lys Val Glu Lys Gln Val Tyr

965 970 975

Gln Lys Phe Glu Lys Met Leu Ile Asp Lys Leu Asn Tyr Leu Val Asp

980 985 990

Lys Lys Lys Pro Val Ala Glu Thr Gly Gly Leu Leu Arg Ala Tyr Gln

995 1000 1005

Leu Thr Gly Glu Phe Glu Ser Phe Lys Thr Leu Gly Lys Gln Ser

1010 1015 1020

Gly Ile Leu Phe Tyr Val Pro Ala Trp Asn Thr Ser Lys Ile Asp

1025 1030 1035

Pro Val Thr Gly Phe Val Asn Leu Phe Asp Thr His Tyr Glu Asn

1040 1045 1050

Ile Glu Lys Ala Lys Val Phe Phe Asp Lys Phe Lys Ser Ile Arg

1055 1060 1065

Tyr Asn Ser Asp Lys Asp Trp Phe Glu Phe Val Val Asp Asp Tyr

1070 1075 1080

Thr Arg Phe Ser Pro Lys Ala Glu Gly Thr Arg Arg Asp Trp Thr

1085 1090 1095

Ile Cys Thr Gln Gly Lys Arg Ile Gln Ile Cys Arg Asn His Gln

1100 1105 1110

Arg Asn Asn Glu Trp Glu Gly Gln Glu Ile Asp Leu Thr Lys Ala

1115 1120 1125

Phe Lys Glu His Phe Glu Ala Tyr Gly Val Asp Ile Ser Lys Asp

1130 1135 1140

Leu Arg Glu Gln Ile Asn Thr Gln Asn Lys Lys Glu Phe Phe Glu

1145 1150 1155

Glu Leu Leu Arg Leu Leu Arg Leu Thr Leu Gln Met Arg Asn Ser

1160 1165 1170

Met Pro Ser Ser Asp Ile Asp Tyr Leu Ile Ser Pro Val Ala Asn

1175 1180 1185

Asp Thr Gly Cys Phe Phe Asp Ser Arg Lys Gln Ala Glu Leu Lys

1190 1195 1200

Glu Asn Ala Val Leu Pro Met Asn Ala Asp Ala Asn Gly Ala Tyr

1205 1210 1215

Asn Ile Ala Arg Lys Gly Leu Leu Ala Ile Arg Lys Met Lys Gln

1220 1225 1230

Glu Glu Asn Asp Ser Ala Lys Ile Ser Leu Ala Ile Ser Asn Lys

1235 1240 1245

Glu Trp Leu Lys Phe Ala Gln Thr Lys Pro Tyr Leu Glu Asp

1250 1255 1260

<210> 92

<211> 1260

<212> БЕЛОК

<213> Porphyromonas crevioricanis

<400> 92

Met Asp Ser Leu Lys Asp Phe Thr Asn Leu Tyr Pro Val Ser Lys Thr

1 5 10 15

Leu Arg Phe Glu Leu Lys Pro Val Gly Lys Thr Leu Glu Asn Ile Glu

20 25 30

Lys Ala Gly Ile Leu Lys Glu Asp Glu His Arg Ala Glu Ser Tyr Arg

35 40 45

Arg Val Lys Lys Ile Ile Asp Thr Tyr His Lys Val Phe Ile Asp Ser

50 55 60

Ser Leu Glu Asn Met Ala Lys Met Gly Ile Glu Asn Glu Ile Lys Ala

65 70 75 80

Met Leu Gln Ser Phe Cys Glu Leu Tyr Lys Lys Asp His Arg Thr Glu

85 90 95

Gly Glu Asp Lys Ala Leu Asp Lys Ile Arg Ala Val Leu Arg Gly Leu

100 105 110

Ile Val Gly Ala Phe Thr Gly Val Cys Gly Arg Arg Glu Asn Thr Val

115 120 125

Gln Asn Glu Lys Tyr Glu Ser Leu Phe Lys Glu Lys Leu Ile Lys Glu

130 135 140

Ile Leu Pro Asp Phe Val Leu Ser Thr Glu Ala Glu Ser Leu Pro Phe

145 150 155 160

Ser Val Glu Glu Ala Thr Arg Ser Leu Lys Glu Phe Asp Ser Phe Thr

165 170 175

Ser Tyr Phe Ala Gly Phe Tyr Glu Asn Arg Lys Asn Ile Tyr Ser Thr

180 185 190

Lys Pro Gln Ser Thr Ala Ile Ala Tyr Arg Leu Ile His Glu Asn Leu

195 200 205

Pro Lys Phe Ile Asp Asn Ile Leu Val Phe Gln Lys Ile Lys Glu Pro

210 215 220

Ile Ala Lys Glu Leu Glu His Ile Arg Ala Asp Phe Ser Ala Gly Gly

225 230 235 240

Tyr Ile Lys Lys Asp Glu Arg Leu Glu Asp Ile Phe Ser Leu Asn Tyr

245 250 255

Tyr Ile His Val Leu Ser Gln Ala Gly Ile Glu Lys Tyr Asn Ala Leu

260 265 270

Ile Gly Lys Ile Val Thr Glu Gly Asp Gly Glu Met Lys Gly Leu Asn

275 280 285

Glu His Ile Asn Leu Tyr Asn Gln Gln Arg Gly Arg Glu Asp Arg Leu

290 295 300

Pro Leu Phe Arg Pro Leu Tyr Lys Gln Ile Leu Ser Asp Arg Glu Gln

305 310 315 320

Leu Ser Tyr Leu Pro Glu Ser Phe Glu Lys Asp Glu Glu Leu Leu Arg

325 330 335

Ala Leu Lys Glu Phe Tyr Asp His Ile Ala Glu Asp Ile Leu Gly Arg

340 345 350

Thr Gln Gln Leu Met Thr Ser Ile Ser Glu Tyr Asp Leu Ser Arg Ile

355 360 365

Tyr Val Arg Asn Asp Ser Gln Leu Thr Asp Ile Ser Lys Lys Met Leu

370 375 380

Gly Asp Trp Asn Ala Ile Tyr Met Ala Arg Glu Arg Ala Tyr Asp His

385 390 395 400

Glu Gln Ala Pro Lys Arg Ile Thr Ala Lys Tyr Glu Arg Asp Arg Ile

405 410 415

Lys Ala Leu Lys Gly Glu Glu Ser Ile Ser Leu Ala Asn Leu Asn Ser

420 425 430

Cys Ile Ala Phe Leu Asp Asn Val Arg Asp Cys Arg Val Asp Thr Tyr

435 440 445

Leu Ser Thr Leu Gly Gln Lys Glu Gly Pro His Gly Leu Ser Asn Leu

450 455 460

Val Glu Asn Val Phe Ala Ser Tyr His Glu Ala Glu Gln Leu Leu Ser

465 470 475 480

Phe Pro Tyr Pro Glu Glu Asn Asn Leu Ile Gln Asp Lys Asp Asn Val

485 490 495

Val Leu Ile Lys Asn Leu Leu Asp Asn Ile Ser Asp Leu Gln Arg Phe

500 505 510

Leu Lys Pro Leu Trp Gly Met Gly Asp Glu Pro Asp Lys Asp Glu Arg

515 520 525

Phe Tyr Gly Glu Tyr Asn Tyr Ile Arg Gly Ala Leu Asp Gln Val Ile

530 535 540

Pro Leu Tyr Asn Lys Val Arg Asn Tyr Leu Thr Arg Lys Pro Tyr Ser

545 550 555 560

Thr Arg Lys Val Lys Leu Asn Phe Gly Asn Ser Gln Leu Leu Ser Gly

565 570 575

Trp Asp Arg Asn Lys Glu Lys Asp Asn Ser Cys Val Ile Leu Arg Lys

580 585 590

Gly Gln Asn Phe Tyr Leu Ala Ile Met Asn Asn Arg His Lys Arg Ser

595 600 605

Phe Glu Asn Lys Met Leu Pro Glu Tyr Lys Glu Gly Glu Pro Tyr Phe

610 615 620

Glu Lys Met Asp Tyr Lys Phe Leu Pro Asp Pro Asn Lys Met Leu Pro

625 630 635 640

Lys Val Phe Leu Ser Lys Lys Gly Ile Glu Ile Tyr Lys Pro Ser Pro

645 650 655

Lys Leu Leu Glu Gln Tyr Gly His Gly Thr His Lys Lys Gly Asp Thr

660 665 670

Phe Ser Met Asp Asp Leu His Glu Leu Ile Asp Phe Phe Lys His Ser

675 680 685

Ile Glu Ala His Glu Asp Trp Lys Gln Phe Gly Phe Lys Phe Ser Asp

690 695 700

Thr Ala Thr Tyr Glu Asn Val Ser Ser Phe Tyr Arg Glu Val Glu Asp

705 710 715 720

Gln Gly Tyr Lys Leu Ser Phe Arg Lys Val Ser Glu Ser Tyr Val Tyr

725 730 735

Ser Leu Ile Asp Gln Gly Lys Leu Tyr Leu Phe Gln Ile Tyr Asn Lys

740 745 750

Asp Phe Ser Pro Cys Ser Lys Gly Thr Pro Asn Leu His Thr Leu Tyr

755 760 765

Trp Arg Met Leu Phe Asp Glu Arg Asn Leu Ala Asp Val Ile Tyr Lys

770 775 780

Leu Asp Gly Lys Ala Glu Ile Phe Phe Arg Glu Lys Ser Leu Lys Asn

785 790 795 800

Asp His Pro Thr His Pro Ala Gly Lys Pro Ile Lys Lys Lys Ser Arg

805 810 815

Gln Lys Lys Gly Glu Glu Ser Leu Phe Glu Tyr Asp Leu Val Lys Asp

820 825 830

Arg Arg Tyr Thr Met Asp Lys Phe Gln Phe His Val Pro Ile Thr Met

835 840 845

Asn Phe Lys Cys Ser Ala Gly Ser Lys Val Asn Asp Met Val Asn Ala

850 855 860

His Ile Arg Glu Ala Lys Asp Met His Val Ile Gly Ile Asp Arg Gly

865 870 875 880

Glu Arg Asn Leu Leu Tyr Ile Cys Val Ile Asp Ser Arg Gly Thr Ile

885 890 895

Leu Asp Gln Ile Ser Leu Asn Thr Ile Asn Asp Ile Asp Tyr His Asp

900 905 910

Leu Leu Glu Ser Arg Asp Lys Asp Arg Gln Gln Glu His Arg Asn Trp

915 920 925

Gln Thr Ile Glu Gly Ile Lys Glu Leu Lys Gln Gly Tyr Leu Ser Gln

930 935 940

Ala Val His Arg Ile Ala Glu Leu Met Val Ala Tyr Lys Ala Val Val

945 950 955 960

Ala Leu Glu Asp Leu Asn Met Gly Phe Lys Arg Gly Arg Gln Lys Val

965 970 975

Glu Ser Ser Val Tyr Gln Gln Phe Glu Lys Gln Leu Ile Asp Lys Leu

980 985 990

Asn Tyr Leu Val Asp Lys Lys Lys Arg Pro Glu Asp Ile Gly Gly Leu

995 1000 1005

Leu Arg Ala Tyr Gln Phe Thr Ala Pro Phe Lys Ser Phe Lys Glu

1010 1015 1020

Met Gly Lys Gln Asn Gly Phe Leu Phe Tyr Ile Pro Ala Trp Asn

1025 1030 1035

Thr Ser Asn Ile Asp Pro Thr Thr Gly Phe Val Asn Leu Phe His

1040 1045 1050

Val Gln Tyr Glu Asn Val Asp Lys Ala Lys Ser Phe Phe Gln Lys

1055 1060 1065

Phe Asp Ser Ile Ser Tyr Asn Pro Lys Lys Asp Trp Phe Glu Phe

1070 1075 1080

Ala Phe Asp Tyr Lys Asn Phe Thr Lys Lys Ala Glu Gly Ser Arg

1085 1090 1095

Ser Met Trp Ile Leu Cys Thr His Gly Ser Arg Ile Lys Asn Phe

1100 1105 1110

Arg Asn Ser Gln Lys Asn Gly Gln Trp Asp Ser Glu Glu Phe Ala

1115 1120 1125

Leu Thr Glu Ala Phe Lys Ser Leu Phe Val Arg Tyr Glu Ile Asp

1130 1135 1140

Tyr Thr Ala Asp Leu Lys Thr Ala Ile Val Asp Glu Lys Gln Lys

1145 1150 1155

Asp Phe Phe Val Asp Leu Leu Lys Leu Phe Lys Leu Thr Val Gln

1160 1165 1170

Met Arg Asn Ser Trp Lys Glu Lys Asp Leu Asp Tyr Leu Ile Ser

1175 1180 1185

Pro Val Ala Gly Ala Asp Gly Arg Phe Phe Asp Thr Arg Glu Gly

1190 1195 1200

Asn Lys Ser Leu Pro Lys Asp Ala Asp Ala Asn Gly Ala Tyr Asn

1205 1210 1215

Ile Ala Leu Lys Gly Leu Trp Ala Leu Arg Gln Ile Arg Gln Thr

1220 1225 1230

Ser Glu Gly Gly Lys Leu Lys Leu Ala Ile Ser Asn Lys Glu Trp

1235 1240 1245

Leu Gln Phe Val Gln Glu Arg Ser Tyr Glu Lys Asp

1250 1255 1260

<210> 93

<211> 1260

<212> БЕЛОК

<213> Porphyromonas crevioricanis

<400> 93

Met Asp Ser Leu Lys Asp Phe Thr Asn Leu Tyr Pro Val Ser Lys Thr

1 5 10 15

Leu Arg Phe Glu Leu Lys Pro Val Gly Lys Thr Leu Glu Asn Ile Glu

20 25 30

Lys Ala Gly Ile Leu Lys Glu Asp Glu His Arg Ala Glu Ser Tyr Arg

35 40 45

Arg Val Lys Lys Ile Ile Asp Thr Tyr His Lys Val Phe Ile Asp Ser

50 55 60

Ser Leu Glu Asn Met Ala Lys Met Gly Ile Glu Asn Glu Ile Lys Ala

65 70 75 80

Met Leu Gln Ser Phe Cys Glu Leu Tyr Lys Lys Asp His Arg Thr Glu

85 90 95

Gly Glu Asp Lys Ala Leu Asp Lys Ile Arg Ala Val Leu Arg Gly Leu

100 105 110

Ile Val Gly Ala Phe Thr Gly Val Cys Gly Arg Arg Glu Asn Thr Val

115 120 125

Gln Asn Glu Lys Tyr Glu Ser Leu Phe Lys Glu Lys Leu Ile Lys Glu

130 135 140

Ile Leu Pro Asp Phe Val Leu Ser Thr Glu Ala Glu Ser Leu Pro Phe

145 150 155 160

Ser Val Glu Glu Ala Thr Arg Ser Leu Lys Glu Phe Asp Ser Phe Thr

165 170 175

Ser Tyr Phe Ala Gly Phe Tyr Glu Asn Arg Lys Asn Ile Tyr Ser Thr

180 185 190

Lys Pro Gln Ser Thr Ala Ile Ala Tyr Arg Leu Ile His Glu Asn Leu

195 200 205

Pro Lys Phe Ile Asp Asn Ile Leu Val Phe Gln Lys Ile Lys Glu Pro

210 215 220

Ile Ala Lys Glu Leu Glu His Ile Arg Ala Asp Phe Ser Ala Gly Gly

225 230 235 240

Tyr Ile Lys Lys Asp Glu Arg Leu Glu Asp Ile Phe Ser Leu Asn Tyr

245 250 255

Tyr Ile His Val Leu Ser Gln Ala Gly Ile Glu Lys Tyr Asn Ala Leu

260 265 270

Ile Gly Lys Ile Val Thr Glu Gly Asp Gly Glu Met Lys Gly Leu Asn

275 280 285

Glu His Ile Asn Leu Tyr Asn Gln Gln Arg Gly Arg Glu Asp Arg Leu

290 295 300

Pro Leu Phe Arg Pro Leu Tyr Lys Gln Ile Leu Ser Asp Arg Glu Gln

305 310 315 320

Leu Ser Tyr Leu Pro Glu Ser Phe Glu Lys Asp Glu Glu Leu Leu Arg

325 330 335

Ala Leu Lys Glu Phe Tyr Asp His Ile Ala Glu Asp Ile Leu Gly Arg

340 345 350

Thr Gln Gln Leu Met Thr Ser Ile Ser Glu Tyr Asp Leu Ser Arg Ile

355 360 365

Tyr Val Arg Asn Asp Ser Gln Leu Thr Asp Ile Ser Lys Lys Met Leu

370 375 380

Gly Asp Trp Asn Ala Ile Tyr Met Ala Arg Glu Arg Ala Tyr Asp His

385 390 395 400

Glu Gln Ala Pro Lys Arg Ile Thr Ala Lys Tyr Glu Arg Asp Arg Ile

405 410 415

Lys Ala Leu Lys Gly Glu Glu Ser Ile Ser Leu Ala Asn Leu Asn Ser

420 425 430

Cys Ile Ala Phe Leu Asp Asn Val Arg Asp Cys Arg Val Asp Thr Tyr

435 440 445

Leu Ser Thr Leu Gly Gln Lys Glu Gly Pro His Gly Leu Ser Asn Leu

450 455 460

Val Glu Asn Val Phe Ala Ser Tyr His Glu Ala Glu Gln Leu Leu Ser

465 470 475 480

Phe Pro Tyr Pro Glu Glu Asn Asn Leu Ile Gln Asp Lys Asp Asn Val

485 490 495

Val Leu Ile Lys Asn Leu Leu Asp Asn Ile Ser Asp Leu Gln Arg Phe

500 505 510

Leu Lys Pro Leu Trp Gly Met Gly Asp Glu Pro Asp Lys Asp Glu Arg

515 520 525

Phe Tyr Gly Glu Tyr Asn Tyr Ile Arg Gly Ala Leu Asp Gln Val Ile

530 535 540

Pro Leu Tyr Asn Lys Val Arg Asn Tyr Leu Thr Arg Lys Pro Tyr Ser

545 550 555 560

Thr Arg Lys Val Lys Leu Asn Phe Gly Asn Ser Gln Leu Leu Ser Gly

565 570 575

Trp Asp Arg Asn Lys Glu Lys Asp Asn Ser Cys Val Ile Leu Arg Lys

580 585 590

Gly Gln Asn Phe Tyr Leu Ala Ile Met Asn Asn Arg His Lys Arg Ser

595 600 605

Phe Glu Asn Lys Val Leu Pro Glu Tyr Lys Glu Gly Glu Pro Tyr Phe

610 615 620

Glu Lys Met Asp Tyr Lys Phe Leu Pro Asp Pro Asn Lys Met Leu Pro

625 630 635 640

Lys Val Phe Leu Ser Lys Lys Gly Ile Glu Ile Tyr Lys Pro Ser Pro

645 650 655

Lys Leu Leu Glu Gln Tyr Gly His Gly Thr His Lys Lys Gly Asp Thr

660 665 670

Phe Ser Met Asp Asp Leu His Glu Leu Ile Asp Phe Phe Lys His Ser

675 680 685

Ile Glu Ala His Glu Asp Trp Lys Gln Phe Gly Phe Lys Phe Ser Asp

690 695 700

Thr Ala Thr Tyr Glu Asn Val Ser Ser Phe Tyr Arg Glu Val Glu Asp

705 710 715 720

Gln Gly Tyr Lys Leu Ser Phe Arg Lys Val Ser Glu Ser Tyr Val Tyr

725 730 735

Ser Leu Ile Asp Gln Gly Lys Leu Tyr Leu Phe Gln Ile Tyr Asn Lys

740 745 750

Asp Phe Ser Pro Cys Ser Lys Gly Thr Pro Asn Leu His Thr Leu Tyr

755 760 765

Trp Arg Met Leu Phe Asp Glu Arg Asn Leu Ala Asp Val Ile Tyr Lys

770 775 780

Leu Asp Gly Lys Ala Glu Ile Phe Phe Arg Glu Lys Ser Leu Lys Asn

785 790 795 800

Asp His Pro Thr His Pro Ala Gly Lys Pro Ile Lys Lys Lys Ser Arg

805 810 815

Gln Lys Lys Gly Glu Glu Ser Leu Phe Glu Tyr Asp Leu Val Lys Asp

820 825 830

Arg His Tyr Thr Met Asp Lys Phe Gln Phe His Val Pro Ile Thr Met

835 840 845

Asn Phe Lys Cys Ser Ala Gly Ser Lys Val Asn Asp Met Val Asn Ala

850 855 860

His Ile Arg Glu Ala Lys Asp Met His Val Ile Gly Ile Asp Arg Gly

865 870 875 880

Glu Arg Asn Leu Leu Tyr Ile Cys Val Ile Asp Ser Arg Gly Thr Ile

885 890 895

Leu Asp Gln Ile Ser Leu Asn Thr Ile Asn Asp Ile Asp Tyr His Asp

900 905 910

Leu Leu Glu Ser Arg Asp Lys Asp Arg Gln Gln Glu Arg Arg Asn Trp

915 920 925

Gln Thr Ile Glu Gly Ile Lys Glu Leu Lys Gln Gly Tyr Leu Ser Gln

930 935 940

Ala Val His Arg Ile Ala Glu Leu Met Val Ala Tyr Lys Ala Val Val

945 950 955 960

Ala Leu Glu Asp Leu Asn Met Gly Phe Lys Arg Gly Arg Gln Lys Val

965 970 975

Glu Ser Ser Val Tyr Gln Gln Phe Glu Lys Gln Leu Ile Asp Lys Leu

980 985 990

Asn Tyr Leu Val Asp Lys Lys Lys Arg Pro Glu Asp Ile Gly Gly Leu

995 1000 1005

Leu Arg Ala Tyr Gln Phe Thr Ala Pro Phe Lys Ser Phe Lys Glu

1010 1015 1020

Met Gly Lys Gln Asn Gly Phe Leu Phe Tyr Ile Pro Ala Trp Asn

1025 1030 1035

Thr Ser Asn Ile Asp Pro Thr Thr Gly Phe Val Asn Leu Phe His

1040 1045 1050

Ala Gln Tyr Glu Asn Val Asp Lys Ala Lys Ser Phe Phe Gln Lys

1055 1060 1065

Phe Asp Ser Ile Ser Tyr Asn Pro Lys Lys Asp Trp Phe Glu Phe

1070 1075 1080

Ala Phe Asp Tyr Lys Asn Phe Thr Lys Lys Ala Glu Gly Ser Arg

1085 1090 1095

Ser Met Trp Ile Leu Cys Thr His Gly Ser Arg Ile Lys Asn Phe

1100 1105 1110

Arg Asn Ser Gln Lys Asn Gly Gln Trp Asp Ser Glu Glu Phe Ala

1115 1120 1125

Leu Thr Glu Ala Phe Lys Ser Leu Phe Val Arg Tyr Glu Ile Asp

1130 1135 1140

Tyr Thr Ala Asp Leu Lys Thr Ala Ile Val Asp Glu Lys Gln Lys

1145 1150 1155

Asp Phe Phe Val Asp Leu Leu Lys Leu Phe Lys Leu Thr Val Gln

1160 1165 1170

Met Arg Asn Ser Trp Lys Glu Lys Asp Leu Asp Tyr Leu Ile Ser

1175 1180 1185

Pro Val Ala Gly Ala Asp Gly Arg Phe Phe Asp Thr Arg Glu Gly

1190 1195 1200

Asn Lys Ser Leu Pro Lys Asp Ala Asp Ala Asn Gly Ala Tyr Asn

1205 1210 1215

Ile Ala Leu Lys Gly Leu Trp Ala Leu Arg Gln Ile Arg Gln Thr

1220 1225 1230

Ser Glu Gly Gly Lys Leu Lys Leu Ala Ile Ser Asn Lys Glu Trp

1235 1240 1245

Leu Gln Phe Val Gln Glu Arg Ser Tyr Glu Lys Asp

1250 1255 1260

<210> 94

<211> 1260

<212> БЕЛОК

<213> Porphyromonas cansulci

<400> 94

Met Asp Ser Leu Lys Asp Phe Thr Asn Leu Tyr Pro Val Ser Lys Thr

1 5 10 15

Leu Arg Phe Glu Leu Lys Pro Val Gly Lys Thr Leu Glu Asn Ile Glu

20 25 30

Lys Ala Gly Ile Leu Lys Glu Asp Glu His Arg Ala Glu Ser Tyr Arg

35 40 45

Arg Val Lys Lys Ile Ile Asp Thr Tyr His Lys Val Phe Ile Asp Ser

50 55 60

Ser Leu Glu Asn Met Ala Lys Met Gly Ile Glu Asn Glu Ile Lys Ala

65 70 75 80

Met Leu Gln Ser Phe Cys Glu Leu Tyr Lys Lys Asp His Arg Thr Glu

85 90 95

Gly Glu Asp Lys Ala Leu Asp Lys Ile Arg Ala Val Leu Arg Gly Leu

100 105 110

Ile Val Gly Ala Phe Thr Gly Val Cys Gly Arg Arg Glu Asn Thr Val

115 120 125

Gln Asn Glu Lys Tyr Glu Ser Leu Phe Lys Glu Lys Leu Ile Lys Glu

130 135 140

Ile Leu Pro Asp Phe Val Leu Ser Thr Glu Ala Glu Ser Leu Pro Phe

145 150 155 160

Ser Val Glu Glu Ala Thr Arg Ser Leu Lys Glu Phe Asp Ser Phe Thr

165 170 175

Ser Tyr Phe Ala Gly Phe Tyr Glu Asn Arg Lys Asn Ile Tyr Ser Thr

180 185 190

Lys Pro Gln Ser Thr Ala Ile Ala Tyr Arg Leu Ile His Glu Asn Leu

195 200 205

Pro Lys Phe Ile Asp Asn Ile Leu Val Phe Gln Lys Ile Lys Glu Pro

210 215 220

Ile Ala Lys Glu Leu Glu His Ile Arg Ala Asp Phe Ser Ala Gly Gly

225 230 235 240

Tyr Ile Lys Lys Asp Glu Arg Leu Glu Asp Ile Phe Ser Leu Asn Tyr

245 250 255

Tyr Ile His Val Leu Ser Gln Ala Gly Ile Glu Lys Tyr Asn Ala Leu

260 265 270

Ile Gly Lys Ile Val Thr Glu Gly Asp Gly Glu Met Lys Gly Leu Asn

275 280 285

Glu His Ile Asn Leu Tyr Asn Gln Gln Arg Gly Arg Glu Asp Arg Leu

290 295 300

Pro Leu Phe Arg Pro Leu Tyr Lys Gln Ile Leu Ser Asp Arg Glu Gln

305 310 315 320

Leu Ser Tyr Leu Pro Glu Ser Phe Glu Lys Asp Glu Glu Leu Leu Arg

325 330 335

Ala Leu Lys Glu Phe Tyr Asp His Ile Ala Glu Asp Ile Leu Gly Arg

340 345 350

Thr Gln Gln Leu Met Thr Ser Ile Ser Glu Tyr Asp Leu Ser Arg Ile

355 360 365

Tyr Val Arg Asn Asp Ser Gln Leu Thr Asp Ile Ser Lys Lys Met Leu

370 375 380

Gly Asp Trp Asn Ala Ile Tyr Met Ala Arg Glu Arg Ala Tyr Asp His

385 390 395 400

Glu Gln Ala Pro Lys Arg Ile Thr Ala Lys Tyr Glu Arg Asp Arg Ile

405 410 415

Lys Ala Leu Lys Gly Glu Glu Ser Ile Ser Leu Ala Asn Leu Asn Ser

420 425 430

Cys Ile Ala Phe Leu Asp Asn Val Arg Asp Cys Arg Val Asp Thr Tyr

435 440 445

Leu Ser Thr Leu Gly Gln Lys Glu Gly Pro His Gly Leu Ser Asn Leu

450 455 460

Val Glu Asn Val Phe Ala Ser Tyr His Glu Ala Glu Gln Leu Leu Ser

465 470 475 480

Phe Pro Tyr Pro Glu Glu Asn Asn Leu Ile Gln Asp Lys Asp Asn Val

485 490 495

Val Leu Ile Lys Asn Leu Leu Asp Asn Ile Ser Asp Leu Gln Arg Phe

500 505 510

Leu Lys Pro Leu Trp Gly Met Gly Asp Glu Pro Asp Lys Asp Glu Arg

515 520 525

Phe Tyr Gly Glu Tyr Asn Tyr Ile Arg Gly Ala Leu Asp Gln Val Ile

530 535 540

Pro Leu Tyr Asn Lys Val Arg Asn Tyr Leu Thr Arg Lys Pro Tyr Ser

545 550 555 560

Thr Arg Lys Val Lys Leu Asn Phe Gly Asn Ser Gln Leu Leu Ser Gly

565 570 575

Trp Asp Arg Asn Lys Glu Lys Asp Asn Ser Cys Val Ile Leu Arg Lys

580 585 590

Gly Gln Asn Phe Tyr Leu Ala Ile Met Asn Asn Arg His Lys Arg Ser

595 600 605

Phe Glu Asn Lys Val Leu Pro Glu Tyr Lys Glu Gly Glu Pro Tyr Phe

610 615 620

Glu Lys Met Asp Tyr Lys Phe Leu Pro Asp Pro Asn Lys Met Leu Pro

625 630 635 640

Lys Val Phe Leu Ser Lys Lys Gly Ile Glu Ile Tyr Lys Pro Ser Pro

645 650 655

Lys Leu Leu Glu Gln Tyr Gly His Gly Thr His Lys Lys Gly Asp Thr

660 665 670

Phe Ser Met Asp Asp Leu His Glu Leu Ile Asp Phe Phe Lys His Ser

675 680 685

Ile Glu Ala His Glu Asp Trp Lys Gln Phe Gly Phe Lys Phe Ser Asp

690 695 700

Thr Ala Thr Tyr Glu Asn Val Ser Ser Phe Tyr Arg Glu Val Glu Asp

705 710 715 720

Gln Gly Tyr Lys Leu Ser Phe Arg Lys Val Ser Glu Ser Tyr Val Tyr

725 730 735

Ser Leu Ile Asp Gln Gly Lys Leu Tyr Leu Phe Gln Ile Tyr Asn Lys

740 745 750

Asp Phe Ser Pro Cys Ser Lys Gly Thr Pro Asn Leu His Thr Leu Tyr

755 760 765

Trp Arg Met Leu Phe Asp Glu Arg Asn Leu Ala Asp Val Ile Tyr Lys

770 775 780

Leu Asp Gly Lys Ala Glu Ile Phe Phe Arg Glu Lys Ser Leu Lys Asn

785 790 795 800

Asp His Pro Thr His Pro Ala Gly Lys Pro Ile Lys Lys Lys Ser Arg

805 810 815

Gln Lys Lys Gly Glu Glu Ser Leu Phe Glu Tyr Asp Leu Val Lys Asp

820 825 830

Arg Arg Tyr Thr Met Asp Lys Phe Gln Phe His Val Pro Ile Thr Met

835 840 845

Asn Phe Lys Cys Ser Ala Gly Ser Lys Val Asn Asp Met Val Asn Ala

850 855 860

His Ile Arg Glu Ala Lys Asp Met His Val Ile Gly Ile Asp Arg Gly

865 870 875 880

Glu Arg Asn Leu Leu Tyr Ile Cys Val Ile Asp Ser Arg Gly Thr Ile

885 890 895

Leu Asp Gln Ile Ser Leu Asn Thr Ile Asn Asp Ile Asp Tyr His Asp

900 905 910

Leu Leu Glu Ser Arg Asp Lys Asp Arg Gln Gln Glu Arg Arg Asn Trp

915 920 925

Gln Thr Ile Glu Gly Ile Lys Glu Leu Lys Gln Gly Tyr Leu Ser Gln

930 935 940

Ala Val His Arg Ile Ala Glu Leu Met Val Ala Tyr Lys Ala Val Val

945 950 955 960

Ala Leu Glu Asp Leu Asn Met Gly Phe Lys Arg Gly Arg Gln Lys Val

965 970 975

Glu Ser Ser Val Tyr Gln Gln Phe Glu Lys Gln Leu Ile Asp Lys Leu

980 985 990

Asn Tyr Leu Val Asp Lys Lys Lys Arg Pro Glu Asp Ile Gly Gly Leu

995 1000 1005

Leu Arg Ala Tyr Gln Phe Thr Ala Pro Phe Lys Ser Phe Lys Glu

1010 1015 1020

Met Gly Lys Gln Asn Gly Phe Leu Phe Tyr Ile Pro Ala Trp Asn

1025 1030 1035

Thr Ser Asn Ile Asp Pro Thr Thr Gly Phe Val Asn Leu Phe His

1040 1045 1050

Ala Gln Tyr Glu Asn Val Asp Lys Ala Lys Ser Phe Phe Gln Lys

1055 1060 1065

Phe Asp Ser Ile Ser Tyr Asn Pro Lys Lys Asp Trp Phe Glu Phe

1070 1075 1080

Ala Phe Asp Tyr Lys Asn Phe Thr Lys Lys Ala Glu Gly Ser Arg

1085 1090 1095

Ser Met Trp Ile Leu Cys Thr His Gly Ser Arg Ile Lys Asn Phe

1100 1105 1110

Arg Asn Ser Gln Lys Asn Gly Gln Trp Asp Ser Glu Glu Phe Ala

1115 1120 1125

Leu Thr Glu Ala Phe Lys Ser Leu Phe Val Arg Tyr Glu Ile Asp

1130 1135 1140

Tyr Thr Ala Asp Leu Lys Thr Ala Ile Val Asp Glu Lys Gln Lys

1145 1150 1155

Asp Phe Phe Val Asp Leu Leu Lys Leu Phe Lys Leu Thr Val Gln

1160 1165 1170

Met Arg Asn Ser Trp Lys Glu Lys Asp Leu Asp Tyr Leu Ile Ser

1175 1180 1185

Pro Val Ala Gly Ala Asp Gly Arg Phe Phe Asp Thr Arg Glu Gly

1190 1195 1200

Asn Lys Ser Leu Pro Lys Asp Ala Asp Ala Asn Gly Ala Tyr Asn

1205 1210 1215

Ile Ala Leu Lys Gly Leu Trp Ala Leu Arg Gln Ile Arg Gln Thr

1220 1225 1230

Ser Glu Gly Gly Lys Leu Lys Leu Ala Ile Ser Asn Lys Glu Trp

1235 1240 1245

Leu Gln Phe Val Gln Glu Arg Ser Tyr Glu Lys Asp

1250 1255 1260

<210> 95

<211> 1259

<212> БЕЛОК

<213> Synergistes jonesii

<400> 95

Met Ala Asn Ser Leu Lys Asp Phe Thr Asn Ile Tyr Gln Leu Ser Lys

1 5 10 15

Thr Leu Arg Phe Glu Leu Lys Pro Ile Gly Lys Thr Glu Glu His Ile

20 25 30

Asn Arg Lys Leu Ile Ile Met His Asp Glu Lys Arg Gly Glu Asp Tyr

35 40 45

Lys Ser Val Thr Lys Leu Ile Asp Asp Tyr His Arg Lys Phe Ile His

50 55 60

Glu Thr Leu Asp Pro Ala His Phe Asp Trp Asn Pro Leu Ala Glu Ala

65 70 75 80

Leu Ile Gln Ser Gly Ser Lys Asn Asn Lys Ala Leu Pro Ala Glu Gln

85 90 95

Lys Glu Met Arg Glu Lys Ile Ile Ser Met Phe Thr Ser Gln Ala Val

100 105 110

Tyr Lys Lys Leu Phe Lys Lys Glu Leu Phe Ser Glu Leu Leu Pro Glu

115 120 125

Met Ile Lys Ser Glu Leu Val Ser Asp Leu Glu Lys Gln Ala Gln Leu

130 135 140

Asp Ala Val Lys Ser Phe Asp Lys Phe Ser Thr Tyr Phe Thr Gly Phe

145 150 155 160

His Glu Asn Arg Lys Asn Ile Tyr Ser Lys Lys Asp Thr Ser Thr Ser

165 170 175

Ile Ala Phe Arg Ile Val His Gln Asn Phe Pro Lys Phe Leu Ala Asn

180 185 190

Val Arg Ala Tyr Thr Leu Ile Lys Glu Arg Ala Pro Glu Val Ile Asp

195 200 205

Lys Ala Gln Lys Glu Leu Ser Gly Ile Leu Gly Gly Lys Thr Leu Asp

210 215 220

Asp Ile Phe Ser Ile Glu Ser Phe Asn Asn Val Leu Thr Gln Asp Lys

225 230 235 240

Ile Asp Tyr Tyr Asn Gln Ile Ile Gly Gly Val Ser Gly Lys Ala Gly

245 250 255

Asp Lys Lys Leu Arg Gly Val Asn Glu Phe Ser Asn Leu Tyr Arg Gln

260 265 270

Gln His Pro Glu Val Ala Ser Leu Arg Ile Lys Met Val Pro Leu Tyr

275 280 285

Lys Gln Ile Leu Ser Asp Arg Thr Thr Leu Ser Phe Val Pro Glu Ala

290 295 300

Leu Lys Asp Asp Glu Gln Ala Ile Asn Ala Val Asp Gly Leu Arg Ser

305 310 315 320

Glu Leu Glu Arg Asn Asp Ile Phe Asn Arg Ile Lys Arg Leu Phe Gly

325 330 335

Lys Asn Asn Leu Tyr Ser Leu Asp Lys Ile Trp Ile Lys Asn Ser Ser

340 345 350

Ile Ser Ala Phe Ser Asn Glu Leu Phe Lys Asn Trp Ser Phe Ile Glu

355 360 365

Asp Ala Leu Lys Glu Phe Lys Glu Asn Glu Phe Asn Gly Ala Arg Ser

370 375 380

Ala Gly Lys Lys Ala Glu Lys Trp Leu Lys Ser Lys Tyr Phe Ser Phe

385 390 395 400

Ala Asp Ile Asp Ala Ala Val Lys Ser Tyr Ser Glu Gln Val Ser Ala

405 410 415

Asp Ile Ser Ser Ala Pro Ser Ala Ser Tyr Phe Ala Lys Phe Thr Asn

420 425 430

Leu Ile Glu Thr Ala Ala Glu Asn Gly Arg Lys Phe Ser Tyr Phe Ala

435 440 445

Ala Glu Ser Lys Ala Phe Arg Gly Asp Asp Gly Lys Thr Glu Ile Ile

450 455 460

Lys Ala Tyr Leu Asp Ser Leu Asn Asp Ile Leu His Cys Leu Lys Pro

465 470 475 480

Phe Glu Thr Glu Asp Ile Ser Asp Ile Asp Thr Glu Phe Tyr Ser Ala

485 490 495

Phe Ala Glu Ile Tyr Asp Ser Val Lys Asp Val Ile Pro Val Tyr Asn

500 505 510

Ala Val Arg Asn Tyr Thr Thr Gln Lys Pro Phe Ser Thr Glu Lys Phe

515 520 525

Lys Leu Asn Phe Glu Asn Pro Ala Leu Ala Lys Gly Trp Asp Lys Asn

530 535 540

Lys Glu Gln Asn Asn Thr Ala Ile Ile Leu Met Lys Asp Gly Lys Tyr

545 550 555 560

Tyr Leu Gly Val Ile Asp Lys Asn Asn Lys Leu Arg Ala Asp Asp Leu

565 570 575

Ala Asp Asp Gly Ser Ala Tyr Gly Tyr Met Lys Met Asn Tyr Lys Phe

580 585 590

Ile Pro Thr Pro His Met Glu Leu Pro Lys Val Phe Leu Pro Lys Arg

595 600 605

Ala Pro Lys Arg Tyr Asn Pro Ser Arg Glu Ile Leu Leu Ile Lys Glu

610 615 620

Asn Lys Thr Phe Ile Lys Asp Lys Asn Phe Asn Arg Thr Asp Cys His

625 630 635 640

Lys Leu Ile Asp Phe Phe Lys Asp Ser Ile Asn Lys His Lys Asp Trp

645 650 655

Arg Thr Phe Gly Phe Asp Phe Ser Asp Thr Asp Ser Tyr Glu Asp Ile

660 665 670

Ser Asp Phe Tyr Met Glu Val Gln Asp Gln Gly Tyr Lys Leu Thr Phe

675 680 685

Thr Arg Leu Ser Ala Glu Lys Ile Asp Lys Trp Val Glu Glu Gly Arg

690 695 700

Leu Phe Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ala Asp Gly Ala Gln

705 710 715 720

Gly Ser Pro Asn Leu His Thr Leu Tyr Trp Lys Ala Ile Phe Ser Glu

725 730 735

Glu Asn Leu Lys Asp Val Val Leu Lys Leu Asn Gly Glu Ala Glu Leu

740 745 750

Phe Phe Arg Arg Lys Ser Ile Asp Lys Pro Ala Val His Ala Lys Gly

755 760 765

Ser Met Lys Val Asn Arg Arg Asp Ile Asp Gly Asn Pro Ile Asp Glu

770 775 780

Gly Thr Tyr Val Glu Ile Cys Gly Tyr Ala Asn Gly Lys Arg Asp Met

785 790 795 800

Ala Ser Leu Asn Ala Gly Ala Arg Gly Leu Ile Glu Ser Gly Leu Val

805 810 815

Arg Ile Thr Glu Val Lys His Glu Leu Val Lys Asp Lys Arg Tyr Thr

820 825 830

Ile Asp Lys Tyr Phe Phe His Val Pro Phe Thr Ile Asn Phe Lys Ala

835 840 845

Gln Gly Gln Gly Asn Ile Asn Ser Asp Val Asn Leu Phe Leu Arg Asn

850 855 860

Asn Lys Asp Val Asn Ile Ile Gly Ile Asp Arg Gly Glu Arg Asn Leu

865 870 875 880

Val Tyr Val Ser Leu Ile Asp Arg Asp Gly His Ile Lys Leu Gln Lys

885 890 895

Asp Phe Asn Ile Ile Gly Gly Met Asp Tyr His Ala Lys Leu Asn Gln

900 905 910

Lys Glu Lys Glu Arg Asp Thr Ala Arg Lys Ser Trp Lys Thr Ile Gly

915 920 925

Thr Ile Lys Glu Leu Lys Glu Gly Tyr Leu Ser Gln Val Val His Glu

930 935 940

Ile Val Arg Leu Ala Val Asp Asn Asn Ala Val Ile Val Met Glu Asp

945 950 955 960

Leu Asn Ile Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln Val

965 970 975

Tyr Gln Lys Phe Glu Lys Met Leu Ile Asp Lys Leu Asn Tyr Leu Val

980 985 990

Phe Lys Asp Ala Gly Tyr Asp Ala Pro Cys Gly Ile Leu Lys Gly Leu

995 1000 1005

Gln Leu Thr Glu Lys Phe Glu Ser Phe Thr Lys Leu Gly Lys Gln

1010 1015 1020

Cys Gly Ile Ile Phe Tyr Ile Pro Ala Gly Tyr Thr Ser Lys Ile

1025 1030 1035

Asp Pro Thr Thr Gly Phe Val Asn Leu Phe Asn Ile Asn Asp Val

1040 1045 1050

Ser Ser Lys Glu Lys Gln Lys Asp Phe Ile Gly Lys Leu Asp Ser

1055 1060 1065

Ile Arg Phe Asp Ala Lys Arg Asp Met Phe Thr Phe Glu Phe Asp

1070 1075 1080

Tyr Asp Lys Phe Arg Thr Tyr Gln Thr Ser Tyr Arg Lys Lys Trp

1085 1090 1095

Ala Val Trp Thr Asn Gly Lys Arg Ile Val Arg Glu Lys Asp Lys

1100 1105 1110

Asp Gly Lys Phe Arg Met Asn Asp Arg Leu Leu Thr Glu Asp Met

1115 1120 1125

Lys Asn Ile Leu Asn Lys Tyr Ala Leu Ala Tyr Lys Ala Gly Glu

1130 1135 1140

Asp Ile Leu Pro Asp Val Ile Ser Arg Asp Lys Ser Leu Ala Ser

1145 1150 1155

Glu Ile Phe Tyr Val Phe Lys Asn Thr Leu Gln Met Arg Asn Ser

1160 1165 1170

Lys Arg Asp Thr Gly Glu Asp Phe Ile Ile Ser Pro Val Leu Asn

1175 1180 1185

Ala Lys Gly Arg Phe Phe Asp Ser Arg Lys Thr Asp Ala Ala Leu

1190 1195 1200

Pro Ile Asp Ala Asp Ala Asn Gly Ala Tyr His Ile Ala Leu Lys

1205 1210 1215

Gly Ser Leu Val Leu Asp Ala Ile Asp Glu Lys Leu Lys Glu Asp

1220 1225 1230

Gly Arg Ile Asp Tyr Lys Asp Met Ala Val Ser Asn Pro Lys Trp

1235 1240 1245

Phe Glu Phe Met Gln Thr Arg Lys Phe Asp Phe

1250 1255

<210> 96

<211> 1257

<212> БЕЛОК

<213> Prevotella bryantii

<400> 96

Met Gln Ile Asn Asn Leu Lys Ile Ile Tyr Met Lys Phe Thr Asp Phe

1 5 10 15

Thr Gly Leu Tyr Ser Leu Ser Lys Thr Leu Arg Phe Glu Leu Lys Pro

20 25 30

Ile Gly Lys Thr Leu Glu Asn Ile Lys Lys Ala Gly Leu Leu Glu Gln

35 40 45

Asp Gln His Arg Ala Asp Ser Tyr Lys Lys Val Lys Lys Ile Ile Asp

50 55 60

Glu Tyr His Lys Ala Phe Ile Glu Lys Ser Leu Ser Asn Phe Glu Leu

65 70 75 80

Lys Tyr Gln Ser Glu Asp Lys Leu Asp Ser Leu Glu Glu Tyr Leu Met

85 90 95

Tyr Tyr Ser Met Lys Arg Ile Glu Lys Thr Glu Lys Asp Lys Phe Ala

100 105 110

Lys Ile Gln Asp Asn Leu Arg Lys Gln Ile Ala Asp His Leu Lys Gly

115 120 125

Asp Glu Ser Tyr Lys Thr Ile Phe Ser Lys Asp Leu Ile Arg Lys Asn

130 135 140

Leu Pro Asp Phe Val Lys Ser Asp Glu Glu Arg Thr Leu Ile Lys Glu

145 150 155 160

Phe Lys Asp Phe Thr Thr Tyr Phe Lys Gly Phe Tyr Glu Asn Arg Glu

165 170 175

Asn Met Tyr Ser Ala Glu Asp Lys Ser Thr Ala Ile Ser His Arg Ile

180 185 190

Ile His Glu Asn Leu Pro Lys Phe Val Asp Asn Ile Asn Ala Phe Ser

195 200 205

Lys Ile Ile Leu Ile Pro Glu Leu Arg Glu Lys Leu Asn Gln Ile Tyr

210 215 220

Gln Asp Phe Glu Glu Tyr Leu Asn Val Glu Ser Ile Asp Glu Ile Phe

225 230 235 240

His Leu Asp Tyr Phe Ser Met Val Met Thr Gln Lys Gln Ile Glu Val

245 250 255

Tyr Asn Ala Ile Ile Gly Gly Lys Ser Thr Asn Asp Lys Lys Ile Gln

260 265 270

Gly Leu Asn Glu Tyr Ile Asn Leu Tyr Asn Gln Lys His Lys Asp Cys

275 280 285

Lys Leu Pro Lys Leu Lys Leu Leu Phe Lys Gln Ile Leu Ser Asp Arg

290 295 300

Ile Ala Ile Ser Trp Leu Pro Asp Asn Phe Lys Asp Asp Gln Glu Ala

305 310 315 320

Leu Asp Ser Ile Asp Thr Cys Tyr Lys Asn Leu Leu Asn Asp Gly Asn

325 330 335

Val Leu Gly Glu Gly Asn Leu Lys Leu Leu Leu Glu Asn Ile Asp Thr

340 345 350

Tyr Asn Leu Lys Gly Ile Phe Ile Arg Asn Asp Leu Gln Leu Thr Asp

355 360 365

Ile Ser Gln Lys Met Tyr Ala Ser Trp Asn Val Ile Gln Asp Ala Val

370 375 380

Ile Leu Asp Leu Lys Lys Gln Val Ser Arg Lys Lys Lys Glu Ser Ala

385 390 395 400

Glu Asp Tyr Asn Asp Arg Leu Lys Lys Leu Tyr Thr Ser Gln Glu Ser

405 410 415

Phe Ser Ile Gln Tyr Leu Asn Asp Cys Leu Arg Ala Tyr Gly Lys Thr

420 425 430

Glu Asn Ile Gln Asp Tyr Phe Ala Lys Leu Gly Ala Val Asn Asn Glu

435 440 445

His Glu Gln Thr Ile Asn Leu Phe Ala Gln Val Arg Asn Ala Tyr Thr

450 455 460

Ser Val Gln Ala Ile Leu Thr Thr Pro Tyr Pro Glu Asn Ala Asn Leu

465 470 475 480

Ala Gln Asp Lys Glu Thr Val Ala Leu Ile Lys Asn Leu Leu Asp Ser

485 490 495

Leu Lys Arg Leu Gln Arg Phe Ile Lys Pro Leu Leu Gly Lys Gly Asp

500 505 510

Glu Ser Asp Lys Asp Glu Arg Phe Tyr Gly Asp Phe Thr Pro Leu Trp

515 520 525

Glu Thr Leu Asn Gln Ile Thr Pro Leu Tyr Asn Met Val Arg Asn Tyr

530 535 540

Met Thr Arg Lys Pro Tyr Ser Gln Glu Lys Ile Lys Leu Asn Phe Glu

545 550 555 560

Asn Ser Thr Leu Leu Gly Gly Trp Asp Leu Asn Lys Glu His Asp Asn

565 570 575

Thr Ala Ile Ile Leu Arg Lys Asn Gly Leu Tyr Tyr Leu Ala Ile Met

580 585 590

Lys Lys Ser Ala Asn Lys Ile Phe Asp Lys Asp Lys Leu Asp Asn Ser

595 600 605

Gly Asp Cys Tyr Glu Lys Met Val Tyr Lys Leu Leu Pro Gly Ala Asn

610 615 620

Lys Met Leu Pro Lys Val Phe Phe Ser Lys Ser Arg Ile Asp Glu Phe

625 630 635 640

Lys Pro Ser Glu Asn Ile Ile Glu Asn Tyr Lys Lys Gly Thr His Lys

645 650 655

Lys Gly Ala Asn Phe Asn Leu Ala Asp Cys His Asn Leu Ile Asp Phe

660 665 670

Phe Lys Ser Ser Ile Ser Lys His Glu Asp Trp Ser Lys Phe Asn Phe

675 680 685

His Phe Ser Asp Thr Ser Ser Tyr Glu Asp Leu Ser Asp Phe Tyr Arg

690 695 700

Glu Val Glu Gln Gln Gly Tyr Ser Ile Ser Phe Cys Asp Val Ser Val

705 710 715 720

Glu Tyr Ile Asn Lys Met Val Glu Lys Gly Asp Leu Tyr Leu Phe Gln

725 730 735

Ile Tyr Asn Lys Asp Phe Ser Glu Phe Ser Lys Gly Thr Pro Asn Met

740 745 750

His Thr Leu Tyr Trp Asn Ser Leu Phe Ser Lys Glu Asn Leu Asn Asn

755 760 765

Ile Ile Tyr Lys Leu Asn Gly Gln Ala Glu Ile Phe Phe Arg Lys Lys

770 775 780

Ser Leu Asn Tyr Lys Arg Pro Thr His Pro Ala His Gln Ala Ile Lys

785 790 795 800

Asn Lys Asn Lys Cys Asn Glu Lys Lys Glu Ser Ile Phe Asp Tyr Asp

805 810 815

Leu Val Lys Asp Lys Arg Tyr Thr Val Asp Lys Phe Gln Phe His Val

820 825 830

Pro Ile Thr Met Asn Phe Lys Ser Thr Gly Asn Thr Asn Ile Asn Gln

835 840 845

Gln Val Ile Asp Tyr Leu Arg Thr Glu Asp Asp Thr His Ile Ile Gly

850 855 860

Ile Asp Arg Gly Glu Arg His Leu Leu Tyr Leu Val Val Ile Asp Ser

865 870 875 880

His Gly Lys Ile Val Glu Gln Phe Thr Leu Asn Glu Ile Val Asn Glu

885 890 895

Tyr Gly Gly Asn Ile Tyr Arg Thr Asn Tyr His Asp Leu Leu Asp Thr

900 905 910

Arg Glu Gln Asn Arg Glu Lys Ala Arg Glu Ser Trp Gln Thr Ile Glu

915 920 925

Asn Ile Lys Glu Leu Lys Glu Gly Tyr Ile Ser Gln Val Ile His Lys

930 935 940

Ile Thr Asp Leu Met Gln Lys Tyr His Ala Val Val Val Leu Glu Asp

945 950 955 960

Leu Asn Met Gly Phe Met Arg Gly Arg Gln Lys Val Glu Lys Gln Val

965 970 975

Tyr Gln Lys Phe Glu Glu Met Leu Ile Asn Lys Leu Asn Tyr Leu Val

980 985 990

Asn Lys Lys Ala Asp Gln Asn Ser Ala Gly Gly Leu Leu His Ala Tyr

995 1000 1005

Gln Leu Thr Ser Lys Phe Glu Ser Phe Gln Lys Leu Gly Lys Gln

1010 1015 1020

Ser Gly Phe Leu Phe Tyr Ile Pro Ala Trp Asn Thr Ser Lys Ile

1025 1030 1035

Asp Pro Val Thr Gly Phe Val Asn Leu Phe Asp Thr Arg Tyr Glu

1040 1045 1050

Ser Ile Asp Lys Ala Lys Ala Phe Phe Gly Lys Phe Asp Ser Ile

1055 1060 1065

Arg Tyr Asn Ala Asp Lys Asp Trp Phe Glu Phe Ala Phe Asp Tyr

1070 1075 1080

Asn Asn Phe Thr Thr Lys Ala Glu Gly Thr Arg Thr Asn Trp Thr

1085 1090 1095

Ile Cys Thr Tyr Gly Ser Arg Ile Arg Thr Phe Arg Asn Gln Ala

1100 1105 1110

Lys Asn Ser Gln Trp Asp Asn Glu Glu Ile Asp Leu Thr Lys Ala

1115 1120 1125

Tyr Lys Ala Phe Phe Ala Lys His Gly Ile Asn Ile Tyr Asp Asn

1130 1135 1140

Ile Lys Glu Ala Ile Ala Met Glu Thr Glu Lys Ser Phe Phe Glu

1145 1150 1155

Asp Leu Leu His Leu Leu Lys Leu Thr Leu Gln Met Arg Asn Ser

1160 1165 1170

Ile Thr Gly Thr Thr Thr Asp Tyr Leu Ile Ser Pro Val His Asp

1175 1180 1185

Ser Lys Gly Asn Phe Tyr Asp Ser Arg Ile Cys Asp Asn Ser Leu

1190 1195 1200

Pro Ala Asn Ala Asp Ala Asn Gly Ala Tyr Asn Ile Ala Arg Lys

1205 1210 1215

Gly Leu Met Leu Ile Gln Gln Ile Lys Asp Ser Thr Ser Ser Asn

1220 1225 1230

Arg Phe Lys Phe Ser Pro Ile Thr Asn Lys Asp Trp Leu Ile Phe

1235 1240 1245

Ala Gln Glu Lys Pro Tyr Leu Asn Asp

1250 1255

<210> 97

<211> 1253

<212> БЕЛОК

<213> Prevotella albensis

<400> 97

Met Asn Ile Lys Asn Phe Thr Gly Leu Tyr Pro Leu Ser Lys Thr Leu

1 5 10 15

Arg Phe Glu Leu Lys Pro Ile Gly Lys Thr Lys Glu Asn Ile Glu Lys

20 25 30

Asn Gly Ile Leu Thr Lys Asp Glu Gln Arg Ala Lys Asp Tyr Leu Ile

35 40 45

Val Lys Gly Phe Ile Asp Glu Tyr His Lys Gln Phe Ile Lys Asp Arg

50 55 60

Leu Trp Asp Phe Lys Leu Pro Leu Glu Ser Glu Gly Glu Lys Asn Ser

65 70 75 80

Leu Glu Glu Tyr Gln Glu Leu Tyr Glu Leu Thr Lys Arg Asn Asp Ala

85 90 95

Gln Glu Ala Asp Phe Thr Glu Ile Lys Asp Asn Leu Arg Ser Ser Ile

100 105 110

Thr Glu Gln Leu Thr Lys Ser Gly Ser Ala Tyr Asp Arg Ile Phe Lys

115 120 125

Lys Glu Phe Ile Arg Glu Asp Leu Val Asn Phe Leu Glu Asp Glu Lys

130 135 140

Asp Lys Asn Ile Val Lys Gln Phe Glu Asp Phe Thr Thr Tyr Phe Thr

145 150 155 160

Gly Phe Tyr Glu Asn Arg Lys Asn Met Tyr Ser Ser Glu Glu Lys Ser

165 170 175

Thr Ala Ile Ala Tyr Arg Leu Ile His Gln Asn Leu Pro Lys Phe Met

180 185 190

Asp Asn Met Arg Ser Phe Ala Lys Ile Ala Asn Ser Ser Val Ser Glu

195 200 205

His Phe Ser Asp Ile Tyr Glu Ser Trp Lys Glu Tyr Leu Asn Val Asn

210 215 220

Ser Ile Glu Glu Ile Phe Gln Leu Asp Tyr Phe Ser Glu Thr Leu Thr

225 230 235 240

Gln Pro His Ile Glu Val Tyr Asn Tyr Ile Ile Gly Lys Lys Val Leu

245 250 255

Glu Asp Gly Thr Glu Ile Lys Gly Ile Asn Glu Tyr Val Asn Leu Tyr

260 265 270

Asn Gln Gln Gln Lys Asp Lys Ser Lys Arg Leu Pro Phe Leu Val Pro

275 280 285

Leu Tyr Lys Gln Ile Leu Ser Asp Arg Glu Lys Leu Ser Trp Ile Ala

290 295 300

Glu Glu Phe Asp Ser Asp Lys Lys Met Leu Ser Ala Ile Thr Glu Ser

305 310 315 320

Tyr Asn His Leu His Asn Val Leu Met Gly Asn Glu Asn Glu Ser Leu

325 330 335

Arg Asn Leu Leu Leu Asn Ile Lys Asp Tyr Asn Leu Glu Lys Ile Asn

340 345 350

Ile Thr Asn Asp Leu Ser Leu Thr Glu Ile Ser Gln Asn Leu Phe Gly

355 360 365

Arg Tyr Asp Val Phe Thr Asn Gly Ile Lys Asn Lys Leu Arg Val Leu

370 375 380

Thr Pro Arg Lys Lys Lys Glu Thr Asp Glu Asn Phe Glu Asp Arg Ile

385 390 395 400

Asn Lys Ile Phe Lys Thr Gln Lys Ser Phe Ser Ile Ala Phe Leu Asn

405 410 415

Lys Leu Pro Gln Pro Glu Met Glu Asp Gly Lys Pro Arg Asn Ile Glu

420 425 430

Asp Tyr Phe Ile Thr Gln Gly Ala Ile Asn Thr Lys Ser Ile Gln Lys

435 440 445

Glu Asp Ile Phe Ala Gln Ile Glu Asn Ala Tyr Glu Asp Ala Gln Val

450 455 460

Phe Leu Gln Ile Lys Asp Thr Asp Asn Lys Leu Ser Gln Asn Lys Thr

465 470 475 480

Ala Val Glu Lys Ile Lys Thr Leu Leu Asp Ala Leu Lys Glu Leu Gln

485 490 495

His Phe Ile Lys Pro Leu Leu Gly Ser Gly Glu Glu Asn Glu Lys Asp

500 505 510

Glu Leu Phe Tyr Gly Ser Phe Leu Ala Ile Trp Asp Glu Leu Asp Thr

515 520 525

Ile Thr Pro Leu Tyr Asn Lys Val Arg Asn Trp Leu Thr Arg Lys Pro

530 535 540

Tyr Ser Thr Glu Lys Ile Lys Leu Asn Phe Asp Asn Ala Gln Leu Leu

545 550 555 560

Gly Gly Trp Asp Val Asn Lys Glu His Asp Cys Ala Gly Ile Leu Leu

565 570 575

Arg Lys Asn Asp Ser Tyr Tyr Leu Gly Ile Ile Asn Lys Lys Thr Asn

580 585 590

His Ile Phe Asp Thr Asp Ile Thr Pro Ser Asp Gly Glu Cys Tyr Asp

595 600 605

Lys Ile Asp Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys

610 615 620

Val Phe Phe Ser Lys Ser Arg Ile Lys Glu Phe Glu Pro Ser Glu Ala

625 630 635 640

Ile Ile Asn Cys Tyr Lys Lys Gly Thr His Lys Lys Gly Lys Asn Phe

645 650 655

Asn Leu Thr Asp Cys His Arg Leu Ile Asn Phe Phe Lys Thr Ser Ile

660 665 670

Glu Lys His Glu Asp Trp Ser Lys Phe Gly Phe Lys Phe Ser Asp Thr

675 680 685

Glu Thr Tyr Glu Asp Ile Ser Gly Phe Tyr Arg Glu Val Glu Gln Gln

690 695 700

Gly Tyr Arg Leu Thr Ser His Pro Val Ser Ala Ser Tyr Ile His Ser

705 710 715 720

Leu Val Lys Glu Gly Lys Leu Tyr Leu Phe Gln Ile Trp Asn Lys Asp

725 730 735

Phe Ser Gln Phe Ser Lys Gly Thr Pro Asn Leu His Thr Leu Tyr Trp

740 745 750

Lys Met Leu Phe Asp Lys Arg Asn Leu Ser Asp Val Val Tyr Lys Leu

755 760 765

Asn Gly Gln Ala Glu Val Phe Tyr Arg Lys Ser Ser Ile Glu His Gln

770 775 780

Asn Arg Ile Ile His Pro Ala Gln His Pro Ile Thr Asn Lys Asn Glu

785 790 795 800

Leu Asn Lys Lys His Thr Ser Thr Phe Lys Tyr Asp Ile Ile Lys Asp

805 810 815

Arg Arg Tyr Thr Val Asp Lys Phe Gln Phe His Val Pro Ile Thr Ile

820 825 830

Asn Phe Lys Ala Thr Gly Gln Asn Asn Ile Asn Pro Ile Val Gln Glu

835 840 845

Val Ile Arg Gln Asn Gly Ile Thr His Ile Ile Gly Ile Asp Arg Gly

850 855 860

Glu Arg His Leu Leu Tyr Leu Ser Leu Ile Asp Leu Lys Gly Asn Ile

865 870 875 880

Ile Lys Gln Met Thr Leu Asn Glu Ile Ile Asn Glu Tyr Lys Gly Val

885 890 895

Thr Tyr Lys Thr Asn Tyr His Asn Leu Leu Glu Lys Arg Glu Lys Glu

900 905 910

Arg Thr Glu Ala Arg His Ser Trp Ser Ser Ile Glu Ser Ile Lys Glu

915 920 925

Leu Lys Asp Gly Tyr Met Ser Gln Val Ile His Lys Ile Thr Asp Met

930 935 940

Met Val Lys Tyr Asn Ala Ile Val Val Leu Glu Asp Leu Asn Gly Gly

945 950 955 960

Phe Met Arg Gly Arg Gln Lys Val Glu Lys Gln Val Tyr Gln Lys Phe

965 970 975

Glu Lys Lys Leu Ile Asp Lys Leu Asn Tyr Leu Val Asp Lys Lys Leu

980 985 990

Asp Ala Asn Glu Val Gly Gly Val Leu Asn Ala Tyr Gln Leu Thr Asn

995 1000 1005

Lys Phe Glu Ser Phe Lys Lys Ile Gly Lys Gln Ser Gly Phe Leu

1010 1015 1020

Phe Tyr Ile Pro Ala Trp Asn Thr Ser Lys Ile Asp Pro Ile Thr

1025 1030 1035

Gly Phe Val Asn Leu Phe Asn Thr Arg Tyr Glu Ser Ile Lys Glu

1040 1045 1050

Thr Lys Val Phe Trp Ser Lys Phe Asp Ile Ile Arg Tyr Asn Lys

1055 1060 1065

Glu Lys Asn Trp Phe Glu Phe Val Phe Asp Tyr Asn Thr Phe Thr

1070 1075 1080

Thr Lys Ala Glu Gly Thr Arg Thr Lys Trp Thr Leu Cys Thr His

1085 1090 1095

Gly Thr Arg Ile Gln Thr Phe Arg Asn Pro Glu Lys Asn Ala Gln

1100 1105 1110

Trp Asp Asn Lys Glu Ile Asn Leu Thr Glu Ser Phe Lys Ala Leu

1115 1120 1125

Phe Glu Lys Tyr Lys Ile Asp Ile Thr Ser Asn Leu Lys Glu Ser

1130 1135 1140

Ile Met Gln Glu Thr Glu Lys Lys Phe Phe Gln Glu Leu His Asn

1145 1150 1155

Leu Leu His Leu Thr Leu Gln Met Arg Asn Ser Val Thr Gly Thr

1160 1165 1170

Asp Ile Asp Tyr Leu Ile Ser Pro Val Ala Asp Glu Asp Gly Asn

1175 1180 1185

Phe Tyr Asp Ser Arg Ile Asn Gly Lys Asn Phe Pro Glu Asn Ala

1190 1195 1200

Asp Ala Asn Gly Ala Tyr Asn Ile Ala Arg Lys Gly Leu Met Leu

1205 1210 1215

Ile Arg Gln Ile Lys Gln Ala Asp Pro Gln Lys Lys Phe Lys Phe

1220 1225 1230

Glu Thr Ile Thr Asn Lys Asp Trp Leu Lys Phe Ala Gln Asp Lys

1235 1240 1245

Pro Tyr Leu Lys Asp

1250

<210> 98

<211> 1250

<212> БЕЛОК

<213> Smithella sp.

<400> 98

Met Gln Thr Leu Phe Glu Asn Phe Thr Asn Gln Tyr Pro Val Ser Lys

1 5 10 15

Thr Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Lys Asp Phe Ile

20 25 30

Glu Gln Lys Gly Leu Leu Lys Lys Asp Glu Asp Arg Ala Glu Lys Tyr

35 40 45

Lys Lys Val Lys Asn Ile Ile Asp Glu Tyr His Lys Asp Phe Ile Glu

50 55 60

Lys Ser Leu Asn Gly Leu Lys Leu Asp Gly Leu Glu Lys Tyr Lys Thr

65 70 75 80

Leu Tyr Leu Lys Gln Glu Lys Asp Asp Lys Asp Lys Lys Ala Phe Asp

85 90 95

Lys Glu Lys Glu Asn Leu Arg Lys Gln Ile Ala Asn Ala Phe Arg Asn

100 105 110

Asn Glu Lys Phe Lys Thr Leu Phe Ala Lys Glu Leu Ile Lys Asn Asp

115 120 125

Leu Met Ser Phe Ala Cys Glu Glu Asp Lys Lys Asn Val Lys Glu Phe

130 135 140

Glu Ala Phe Thr Thr Tyr Phe Thr Gly Phe His Gln Asn Arg Ala Asn

145 150 155 160

Met Tyr Val Ala Asp Glu Lys Arg Thr Ala Ile Ala Ser Arg Leu Ile

165 170 175

His Glu Asn Leu Pro Lys Phe Ile Asp Asn Ile Lys Ile Phe Glu Lys

180 185 190

Met Lys Lys Glu Ala Pro Glu Leu Leu Ser Pro Phe Asn Gln Thr Leu

195 200 205

Lys Asp Met Lys Asp Val Ile Lys Gly Thr Thr Leu Glu Glu Ile Phe

210 215 220

Ser Leu Asp Tyr Phe Asn Lys Thr Leu Thr Gln Ser Gly Ile Asp Ile

225 230 235 240

Tyr Asn Ser Val Ile Gly Gly Arg Thr Pro Glu Glu Gly Lys Thr Lys

245 250 255

Ile Lys Gly Leu Asn Glu Tyr Ile Asn Thr Asp Phe Asn Gln Lys Gln

260 265 270

Thr Asp Lys Lys Lys Arg Gln Pro Lys Phe Lys Gln Leu Tyr Lys Gln

275 280 285

Ile Leu Ser Asp Arg Gln Ser Leu Ser Phe Ile Ala Glu Ala Phe Lys

290 295 300

Asn Asp Thr Glu Ile Leu Glu Ala Ile Glu Lys Phe Tyr Val Asn Glu

305 310 315 320

Leu Leu His Phe Ser Asn Glu Gly Lys Ser Thr Asn Val Leu Asp Ala

325 330 335

Ile Lys Asn Ala Val Ser Asn Leu Glu Ser Phe Asn Leu Thr Lys Met

340 345 350

Tyr Phe Arg Ser Gly Ala Ser Leu Thr Asp Val Ser Arg Lys Val Phe

355 360 365

Gly Glu Trp Ser Ile Ile Asn Arg Ala Leu Asp Asn Tyr Tyr Ala Thr

370 375 380

Thr Tyr Pro Ile Lys Pro Arg Glu Lys Ser Glu Lys Tyr Glu Glu Arg

385 390 395 400

Lys Glu Lys Trp Leu Lys Gln Asp Phe Asn Val Ser Leu Ile Gln Thr

405 410 415

Ala Ile Asp Glu Tyr Asp Asn Glu Thr Val Lys Gly Lys Asn Ser Gly

420 425 430

Lys Val Ile Ala Asp Tyr Phe Ala Lys Phe Cys Asp Asp Lys Glu Thr

435 440 445

Asp Leu Ile Gln Lys Val Asn Glu Gly Tyr Ile Ala Val Lys Asp Leu

450 455 460

Leu Asn Thr Pro Cys Pro Glu Asn Glu Lys Leu Gly Ser Asn Lys Asp

465 470 475 480

Gln Val Lys Gln Ile Lys Ala Phe Met Asp Ser Ile Met Asp Ile Met

485 490 495

His Phe Val Arg Pro Leu Ser Leu Lys Asp Thr Asp Lys Glu Lys Asp

500 505 510

Glu Thr Phe Tyr Ser Leu Phe Thr Pro Leu Tyr Asp His Leu Thr Gln

515 520 525

Thr Ile Ala Leu Tyr Asn Lys Val Arg Asn Tyr Leu Thr Gln Lys Pro

530 535 540

Tyr Ser Thr Glu Lys Ile Lys Leu Asn Phe Glu Asn Ser Thr Leu Leu

545 550 555 560

Gly Gly Trp Asp Leu Asn Lys Glu Thr Asp Asn Thr Ala Ile Ile Leu

565 570 575

Arg Lys Asp Asn Leu Tyr Tyr Leu Gly Ile Met Asp Lys Arg His Asn

580 585 590

Arg Ile Phe Arg Asn Val Pro Lys Ala Asp Lys Lys Asp Phe Cys Tyr

595 600 605

Glu Lys Met Val Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro

610 615 620

Lys Val Phe Phe Ser Gln Ser Arg Ile Gln Glu Phe Thr Pro Ser Ala

625 630 635 640

Lys Leu Leu Glu Asn Tyr Ala Asn Glu Thr His Lys Lys Gly Asp Asn

645 650 655

Phe Asn Leu Asn His Cys His Lys Leu Ile Asp Phe Phe Lys Asp Ser

660 665 670

Ile Asn Lys His Glu Asp Trp Lys Asn Phe Asp Phe Arg Phe Ser Ala

675 680 685

Thr Ser Thr Tyr Ala Asp Leu Ser Gly Phe Tyr His Glu Val Glu His

690 695 700

Gln Gly Tyr Lys Ile Ser Phe Gln Ser Val Ala Asp Ser Phe Ile Asp

705 710 715 720

Asp Leu Val Asn Glu Gly Lys Leu Tyr Leu Phe Gln Ile Tyr Asn Lys

725 730 735

Asp Phe Ser Pro Phe Ser Lys Gly Lys Pro Asn Leu His Thr Leu Tyr

740 745 750

Trp Lys Met Leu Phe Asp Glu Asn Asn Leu Lys Asp Val Val Tyr Lys

755 760 765

Leu Asn Gly Glu Ala Glu Val Phe Tyr Arg Lys Lys Ser Ile Ala Glu

770 775 780

Lys Asn Thr Thr Ile His Lys Ala Asn Glu Ser Ile Ile Asn Lys Asn

785 790 795 800

Pro Asp Asn Pro Lys Ala Thr Ser Thr Phe Asn Tyr Asp Ile Val Lys

805 810 815

Asp Lys Arg Tyr Thr Ile Asp Lys Phe Gln Phe His Ile Pro Ile Thr

820 825 830

Met Asn Phe Lys Ala Glu Gly Ile Phe Asn Met Asn Gln Arg Val Asn

835 840 845

Gln Phe Leu Lys Ala Asn Pro Asp Ile Asn Ile Ile Gly Ile Asp Arg

850 855 860

Gly Glu Arg His Leu Leu Tyr Tyr Ala Leu Ile Asn Gln Lys Gly Lys

865 870 875 880

Ile Leu Lys Gln Asp Thr Leu Asn Val Ile Ala Asn Glu Lys Gln Lys

885 890 895

Val Asp Tyr His Asn Leu Leu Asp Lys Lys Glu Gly Asp Arg Ala Thr

900 905 910

Ala Arg Gln Glu Trp Gly Val Ile Glu Thr Ile Lys Glu Leu Lys Glu

915 920 925

Gly Tyr Leu Ser Gln Val Ile His Lys Leu Thr Asp Leu Met Ile Glu

930 935 940

Asn Asn Ala Ile Ile Val Met Glu Asp Leu Asn Phe Gly Phe Lys Arg

945 950 955 960

Gly Arg Gln Lys Val Glu Lys Gln Val Tyr Gln Lys Phe Glu Lys Met

965 970 975

Leu Ile Asp Lys Leu Asn Tyr Leu Val Asp Lys Asn Lys Lys Ala Asn

980 985 990

Glu Leu Gly Gly Leu Leu Asn Ala Phe Gln Leu Ala Asn Lys Phe Glu

995 1000 1005

Ser Phe Gln Lys Met Gly Lys Gln Asn Gly Phe Ile Phe Tyr Val

1010 1015 1020

Pro Ala Trp Asn Thr Ser Lys Thr Asp Pro Ala Thr Gly Phe Ile

1025 1030 1035

Asp Phe Leu Lys Pro Arg Tyr Glu Asn Leu Asn Gln Ala Lys Asp

1040 1045 1050

Phe Phe Glu Lys Phe Asp Ser Ile Arg Leu Asn Ser Lys Ala Asp

1055 1060 1065

Tyr Phe Glu Phe Ala Phe Asp Phe Lys Asn Phe Thr Glu Lys Ala

1070 1075 1080

Asp Gly Gly Arg Thr Lys Trp Thr Val Cys Thr Thr Asn Glu Asp

1085 1090 1095

Arg Tyr Ala Trp Asn Arg Ala Leu Asn Asn Asn Arg Gly Ser Gln

1100 1105 1110

Glu Lys Tyr Asp Ile Thr Ala Glu Leu Lys Ser Leu Phe Asp Gly

1115 1120 1125

Lys Val Asp Tyr Lys Ser Gly Lys Asp Leu Lys Gln Gln Ile Ala

1130 1135 1140

Ser Gln Glu Ser Ala Asp Phe Phe Lys Ala Leu Met Lys Asn Leu

1145 1150 1155

Ser Ile Thr Leu Ser Leu Arg His Asn Asn Gly Glu Lys Gly Asp

1160 1165 1170

Asn Glu Gln Asp Tyr Ile Leu Ser Pro Val Ala Asp Ser Lys Gly

1175 1180 1185

Arg Phe Phe Asp Ser Arg Lys Ala Asp Asp Asp Met Pro Lys Asn

1190 1195 1200

Ala Asp Ala Asn Gly Ala Tyr His Ile Ala Leu Lys Gly Leu Trp

1205 1210 1215

Cys Leu Glu Gln Ile Ser Lys Thr Asp Asp Leu Lys Lys Val Lys

1220 1225 1230

Leu Ala Ile Ser Asn Lys Glu Trp Leu Glu Phe Val Gln Thr Leu

1235 1240 1245

Lys Gly

1250

<210> 99

<211> 1250

<212> БЕЛОК

<213> Smithella sp.

<400> 99

Met Gln Thr Leu Phe Glu Asn Phe Thr Asn Gln Tyr Pro Val Ser Lys

1 5 10 15

Thr Leu Arg Phe Glu Leu Ile Pro Gln Gly Lys Thr Lys Asp Phe Ile

20 25 30

Glu Gln Lys Gly Leu Leu Lys Lys Asp Glu Asp Arg Ala Glu Lys Tyr

35 40 45

Lys Lys Val Lys Asn Ile Ile Asp Glu Tyr His Lys Asp Phe Ile Glu

50 55 60

Lys Ser Leu Asn Gly Leu Lys Leu Asp Gly Leu Glu Glu Tyr Lys Thr

65 70 75 80

Leu Tyr Leu Lys Gln Glu Lys Asp Asp Lys Asp Lys Lys Ala Phe Asp

85 90 95

Lys Glu Lys Glu Asn Leu Arg Lys Gln Ile Ala Asn Ala Phe Arg Asn

100 105 110

Asn Glu Lys Phe Lys Thr Leu Phe Ala Lys Glu Leu Ile Lys Asn Asp

115 120 125

Leu Met Ser Phe Ala Cys Glu Glu Asp Lys Lys Asn Val Lys Glu Phe

130 135 140

Glu Ala Phe Thr Thr Tyr Phe Thr Gly Phe His Gln Asn Arg Ala Asn

145 150 155 160

Met Tyr Val Ala Asp Glu Lys Arg Thr Ala Ile Ala Ser Arg Leu Ile

165 170 175

His Glu Asn Leu Pro Lys Phe Ile Asp Asn Ile Lys Ile Phe Glu Lys

180 185 190

Met Lys Lys Glu Ala Pro Glu Leu Leu Ser Pro Phe Asn Gln Thr Leu

195 200 205

Lys Asp Met Lys Asp Val Ile Lys Gly Thr Thr Leu Glu Glu Ile Phe

210 215 220

Ser Leu Asp Tyr Phe Asn Lys Thr Leu Thr Gln Ser Gly Ile Asp Ile

225 230 235 240

Tyr Asn Ser Val Ile Gly Gly Arg Thr Pro Glu Glu Gly Lys Thr Lys

245 250 255

Ile Lys Gly Leu Asn Glu Tyr Ile Asn Thr Asp Phe Asn Gln Lys Gln

260 265 270

Thr Asp Lys Lys Lys Arg Gln Pro Lys Phe Lys Gln Leu Tyr Lys Gln

275 280 285

Ile Leu Ser Asp Arg Gln Ser Leu Ser Phe Ile Ala Glu Ala Phe Lys

290 295 300

Asn Asp Thr Glu Ile Leu Glu Ala Ile Glu Lys Phe Tyr Val Asn Glu

305 310 315 320

Leu Leu His Phe Ser Asn Glu Gly Lys Ser Thr Asn Val Leu Asp Ala

325 330 335

Ile Lys Asn Ala Val Ser Asn Leu Glu Ser Phe Asn Leu Thr Lys Ile

340 345 350

Tyr Phe Arg Ser Gly Thr Ser Leu Thr Asp Val Ser Arg Lys Val Phe

355 360 365

Gly Glu Trp Ser Ile Ile Asn Arg Ala Leu Asp Asn Tyr Tyr Ala Thr

370 375 380

Thr Tyr Pro Ile Lys Pro Arg Glu Lys Ser Glu Lys Tyr Glu Glu Arg

385 390 395 400

Lys Glu Lys Trp Leu Lys Gln Asp Phe Asn Val Ser Leu Ile Gln Thr

405 410 415

Ala Ile Asp Glu Tyr Asp Asn Glu Thr Val Lys Gly Lys Asn Ser Gly

420 425 430

Lys Val Ile Val Asp Tyr Phe Ala Lys Phe Cys Asp Asp Lys Glu Thr

435 440 445

Asp Leu Ile Gln Lys Val Asn Glu Gly Tyr Ile Ala Val Lys Asp Leu

450 455 460

Leu Asn Thr Pro Tyr Pro Glu Asn Glu Lys Leu Gly Ser Asn Lys Asp

465 470 475 480

Gln Val Lys Gln Ile Lys Ala Phe Met Asp Ser Ile Met Asp Ile Met

485 490 495

His Phe Val Arg Pro Leu Ser Leu Lys Asp Thr Asp Lys Glu Lys Asp

500 505 510

Glu Thr Phe Tyr Ser Leu Phe Thr Pro Leu Tyr Asp His Leu Thr Gln

515 520 525

Thr Ile Ala Leu Tyr Asn Lys Val Arg Asn Tyr Leu Thr Gln Lys Pro

530 535 540

Tyr Ser Thr Glu Lys Ile Lys Leu Asn Phe Glu Asn Ser Thr Leu Leu

545 550 555 560

Gly Gly Trp Asp Leu Asn Lys Glu Thr Asp Asn Thr Ala Ile Ile Leu

565 570 575

Arg Lys Glu Asn Leu Tyr Tyr Leu Gly Ile Met Asp Lys Arg His Asn

580 585 590

Arg Ile Phe Arg Asn Val Pro Lys Ala Asp Lys Lys Asp Ser Cys Tyr

595 600 605

Glu Lys Met Val Tyr Lys Leu Leu Pro Gly Ala Asn Lys Met Leu Pro

610 615 620

Lys Val Phe Phe Ser Gln Ser Arg Ile Gln Glu Phe Thr Pro Ser Ala

625 630 635 640

Lys Leu Leu Glu Asn Tyr Glu Asn Glu Thr His Lys Lys Gly Asp Asn

645 650 655

Phe Asn Leu Asn His Cys His Gln Leu Ile Asp Phe Phe Lys Asp Ser

660 665 670

Ile Asn Lys His Glu Asp Trp Lys Asn Phe Asp Phe Arg Phe Ser Ala

675 680 685

Thr Ser Thr Tyr Ala Asp Leu Ser Gly Phe Tyr His Glu Val Glu His

690 695 700

Gln Gly Tyr Lys Ile Ser Phe Gln Ser Ile Ala Asp Ser Phe Ile Asp

705 710 715 720

Asp Leu Val Asn Glu Gly Lys Leu Tyr Leu Phe Gln Ile Tyr Asn Lys

725 730 735

Asp Phe Ser Pro Phe Ser Lys Gly Lys Pro Asn Leu His Thr Leu Tyr

740 745 750

Trp Lys Met Leu Phe Asp Glu Asn Asn Leu Lys Asp Val Val Tyr Lys

755 760 765

Leu Asn Gly Glu Ala Glu Val Phe Tyr Arg Lys Lys Ser Ile Ala Glu

770 775 780

Lys Asn Thr Thr Ile His Lys Ala Asn Glu Ser Ile Ile Asn Lys Asn

785 790 795 800

Pro Asp Asn Pro Lys Ala Thr Ser Thr Phe Asn Tyr Asp Ile Val Lys

805 810 815

Asp Lys Arg Tyr Thr Ile Asp Lys Phe Gln Phe His Val Pro Ile Thr

820 825 830

Met Asn Phe Lys Ala Glu Gly Ile Phe Asn Met Asn Gln Arg Val Asn

835 840 845

Gln Phe Leu Lys Ala Asn Pro Asp Ile Asn Ile Ile Gly Ile Asp Arg

850 855 860

Gly Glu Arg His Leu Leu Tyr Tyr Thr Leu Ile Asn Gln Lys Gly Lys

865 870 875 880

Ile Leu Lys Gln Asp Thr Leu Asn Val Ile Ala Asn Glu Lys Gln Lys

885 890 895

Val Asp Tyr His Asn Leu Leu Asp Lys Lys Glu Gly Asp Arg Ala Thr

900 905 910

Ala Arg Gln Glu Trp Gly Val Ile Glu Thr Ile Lys Glu Leu Lys Glu

915 920 925

Gly Tyr Leu Ser Gln Val Ile His Lys Leu Thr Asp Leu Met Ile Glu

930 935 940

Asn Asn Ala Ile Ile Val Met Glu Asp Leu Asn Phe Gly Phe Lys Arg

945 950 955 960

Gly Arg Gln Lys Val Glu Lys Gln Val Tyr Gln Lys Phe Glu Lys Met

965 970 975

Leu Ile Asp Lys Leu Asn Tyr Leu Val Asp Lys Asn Lys Lys Ala Asn

980 985 990

Glu Leu Gly Gly Leu Leu Asn Ala Phe Gln Leu Ala Asn Lys Phe Glu

995 1000 1005

Ser Phe Gln Lys Met Gly Lys Gln Asn Gly Phe Ile Phe Tyr Val

1010 1015 1020

Pro Ala Trp Asn Thr Ser Lys Thr Asp Pro Ala Thr Gly Phe Ile

1025 1030 1035

Asp Phe Leu Lys Pro Arg Tyr Glu Asn Leu Lys Gln Ala Lys Asp

1040 1045 1050

Phe Phe Glu Lys Phe Asp Ser Ile Arg Leu Asn Ser Lys Ala Asp

1055 1060 1065

Tyr Phe Glu Phe Ala Phe Asp Phe Lys Asn Phe Thr Gly Lys Ala

1070 1075 1080

Asp Gly Gly Arg Thr Lys Trp Thr Val Cys Thr Thr Asn Glu Asp

1085 1090 1095

Arg Tyr Ala Trp Asn Arg Ala Leu Asn Asn Asn Arg Gly Ser Gln

1100 1105 1110

Glu Lys Tyr Asp Ile Thr Ala Glu Leu Lys Ser Leu Phe Asp Gly

1115 1120 1125

Lys Val Asp Tyr Lys Ser Gly Lys Asp Leu Lys Gln Gln Ile Ala

1130 1135 1140

Ser Gln Glu Leu Ala Asp Phe Phe Arg Thr Leu Met Lys Tyr Leu

1145 1150 1155

Ser Val Thr Leu Ser Leu Arg His Asn Asn Gly Glu Lys Gly Glu

1160 1165 1170

Thr Glu Gln Asp Tyr Ile Leu Ser Pro Val Ala Asp Ser Met Gly

1175 1180 1185

Lys Phe Phe Asp Ser Arg Lys Ala Gly Asp Asp Met Pro Lys Asn

1190 1195 1200

Ala Asp Ala Asn Gly Ala Tyr His Ile Ala Leu Lys Gly Leu Trp

1205 1210 1215

Cys Leu Glu Gln Ile Ser Lys Thr Asp Asp Leu Lys Lys Val Lys

1220 1225 1230

Leu Ala Ile Ser Asn Lys Glu Trp Leu Glu Phe Met Gln Thr Leu

1235 1240 1245

Lys Gly

1250

<210> 100

<211> 1247

<212> БЕЛОК

<213> Prevotella bryantii

<400> 100

Met Lys Phe Thr Asp Phe Thr Gly Leu Tyr Ser Leu Ser Lys Thr Leu

1 5 10 15

Arg Phe Glu Leu Lys Pro Ile Gly Lys Thr Leu Glu Asn Ile Lys Lys

20 25 30

Ala Gly Leu Leu Glu Gln Asp Gln His Arg Ala Asp Ser Tyr Lys Lys

35 40 45

Val Lys Lys Ile Ile Asp Glu Tyr His Lys Ala Phe Ile Glu Lys Ser

50 55 60

Leu Ser Asn Phe Glu Leu Lys Tyr Gln Ser Glu Asp Lys Leu Asp Ser

65 70 75 80

Leu Glu Glu Tyr Leu Met Tyr Tyr Ser Met Lys Arg Ile Glu Lys Thr

85 90 95

Glu Lys Asp Lys Phe Ala Lys Ile Gln Asp Asn Leu Arg Lys Gln Ile

100 105 110

Ala Asp His Leu Lys Gly Asp Glu Ser Tyr Lys Thr Ile Phe Ser Lys

115 120 125

Asp Leu Ile Arg Lys Asn Leu Pro Asp Phe Val Lys Ser Asp Glu Glu

130 135 140

Arg Thr Leu Ile Lys Glu Phe Lys Asp Phe Thr Thr Tyr Phe Lys Gly

145 150 155 160

Phe Tyr Glu Asn Arg Glu Asn Met Tyr Ser Ala Glu Asp Lys Ser Thr

165 170 175

Ala Ile Ser His Arg Ile Ile His Glu Asn Leu Pro Lys Phe Val Asp

180 185 190

Asn Ile Asn Ala Phe Ser Lys Ile Ile Leu Ile Pro Glu Leu Arg Glu

195 200 205

Lys Leu Asn Gln Ile Tyr Gln Asp Phe Glu Glu Tyr Leu Asn Val Glu

210 215 220

Ser Ile Asp Glu Ile Phe His Leu Asp Tyr Phe Ser Met Val Met Thr

225 230 235 240

Gln Lys Gln Ile Glu Val Tyr Asn Ala Ile Ile Gly Gly Lys Ser Thr

245 250 255

Asn Asp Lys Lys Ile Gln Gly Leu Asn Glu Tyr Ile Asn Leu Tyr Asn

260 265 270

Gln Lys His Lys Asp Cys Lys Leu Pro Lys Leu Lys Leu Leu Phe Lys

275 280 285

Gln Ile Leu Ser Asp Arg Ile Ala Ile Ser Trp Leu Pro Asp Asn Phe

290 295 300

Lys Asp Asp Gln Glu Ala Leu Asp Ser Ile Asp Thr Cys Tyr Lys Asn

305 310 315 320

Leu Leu Asn Asp Gly Asn Val Leu Gly Glu Gly Asn Leu Lys Leu Leu

325 330 335

Leu Glu Asn Ile Asp Thr Tyr Asn Leu Lys Gly Ile Phe Ile Arg Asn

340 345 350

Asp Leu Gln Leu Thr Asp Ile Ser Gln Lys Met Tyr Ala Ser Trp Asn

355 360 365

Val Ile Gln Asp Ala Val Ile Leu Asp Leu Lys Lys Gln Val Ser Arg

370 375 380

Lys Lys Lys Glu Ser Ala Glu Asp Tyr Asn Asp Arg Leu Lys Lys Leu

385 390 395 400

Tyr Thr Ser Gln Glu Ser Phe Ser Ile Gln Tyr Leu Asn Asp Cys Leu

405 410 415

Arg Ala Tyr Gly Lys Thr Glu Asn Ile Gln Asp Tyr Phe Ala Lys Leu

420 425 430

Gly Ala Val Asn Asn Glu His Glu Gln Thr Ile Asn Leu Phe Ala Gln

435 440 445

Val Arg Asn Ala Tyr Thr Ser Val Gln Ala Ile Leu Thr Thr Pro Tyr

450 455 460

Pro Glu Asn Ala Asn Leu Ala Gln Asp Lys Glu Thr Val Ala Leu Ile

465 470 475 480

Lys Asn Leu Leu Asp Ser Leu Lys Arg Leu Gln Arg Phe Ile Lys Pro

485 490 495

Leu Leu Gly Lys Gly Asp Glu Ser Asp Lys Asp Glu Arg Phe Tyr Gly

500 505 510

Asp Phe Thr Pro Leu Trp Glu Thr Leu Asn Gln Ile Thr Pro Leu Tyr

515 520 525

Asn Met Val Arg Asn Tyr Met Thr Arg Lys Pro Tyr Ser Gln Glu Lys

530 535 540

Ile Lys Leu Asn Phe Glu Asn Ser Thr Leu Leu Gly Gly Trp Asp Leu

545 550 555 560

Asn Lys Glu His Asp Asn Thr Ala Ile Ile Leu Arg Lys Asn Gly Leu

565 570 575

Tyr Tyr Leu Ala Ile Met Lys Lys Ser Ala Asn Lys Ile Phe Asp Lys

580 585 590

Asp Lys Leu Asp Asn Ser Gly Asp Cys Tyr Glu Lys Met Val Tyr Lys

595 600 605

Leu Leu Pro Gly Ala Asn Lys Met Leu Pro Lys Val Phe Phe Ser Lys

610 615 620

Ser Arg Ile Asp Glu Phe Lys Pro Ser Glu Asn Ile Ile Glu Asn Tyr

625 630 635 640

Lys Lys Gly Thr His Lys Lys Gly Ala Asn Phe Asn Leu Ala Asp Cys

645 650 655

His Asn Leu Ile Asp Phe Phe Lys Ser Ser Ile Ser Lys His Glu Asp

660 665 670

Trp Ser Lys Phe Asn Phe His Phe Ser Asp Thr Ser Ser Tyr Glu Asp

675 680 685

Leu Ser Asp Phe Tyr Arg Glu Val Glu Gln Gln Gly Tyr Ser Ile Ser

690 695 700

Phe Cys Asp Val Ser Val Glu Tyr Ile Asn Lys Met Val Glu Lys Gly

705 710 715 720

Asp Leu Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Glu Phe Ser

725 730 735

Lys Gly Thr Pro Asn Met His Thr Leu Tyr Trp Asn Ser Leu Phe Ser

740 745 750

Lys Glu Asn Leu Asn Asn Ile Ile Tyr Lys Leu Asn Gly Gln Ala Glu

755 760 765

Ile Phe Phe Arg Lys Lys Ser Leu Asn Tyr Lys Arg Pro Thr His Pro

770 775 780

Ala His Gln Ala Ile Lys Asn Lys Asn Lys Cys Asn Glu Lys Lys Glu

785 790 795 800

Ser Ile Phe Asp Tyr Asp Leu Val Lys Asp Lys Arg Tyr Thr Val Asp

805 810 815

Lys Phe Gln Phe His Val Pro Ile Thr Met Asn Phe Lys Ser Thr Gly

820 825 830

Asn Thr Asn Ile Asn Gln Gln Val Ile Asp Tyr Leu Arg Thr Glu Asp

835 840 845

Asp Thr His Ile Ile Gly Ile Asp Arg Gly Glu Arg His Leu Leu Tyr

850 855 860

Leu Val Val Ile Asp Ser His Gly Lys Ile Val Glu Gln Phe Thr Leu

865 870 875 880

Asn Glu Ile Val Asn Glu Tyr Gly Gly Asn Ile Tyr Arg Thr Asn Tyr

885 890 895

His Asp Leu Leu Asp Thr Arg Glu Gln Asn Arg Glu Lys Ala Arg Glu

900 905 910

Ser Trp Gln Thr Ile Glu Asn Ile Lys Glu Leu Lys Glu Gly Tyr Ile

915 920 925

Ser Gln Val Ile His Lys Ile Thr Asp Leu Met Gln Lys Tyr His Ala

930 935 940

Val Val Val Leu Glu Asp Leu Asn Met Gly Phe Met Arg Gly Arg Gln

945 950 955 960

Lys Val Glu Lys Gln Val Tyr Gln Lys Phe Glu Glu Met Leu Ile Asn

965 970 975

Lys Leu Asn Tyr Leu Val Asn Lys Lys Ala Asp Gln Asn Ser Ala Gly

980 985 990

Gly Leu Leu His Ala Tyr Gln Leu Thr Ser Lys Phe Glu Ser Phe Gln

995 1000 1005

Lys Leu Gly Lys Gln Ser Gly Phe Leu Phe Tyr Ile Pro Ala Trp

1010 1015 1020

Asn Thr Ser Lys Ile Asp Pro Val Thr Gly Phe Val Asn Leu Phe

1025 1030 1035

Asp Thr Arg Tyr Glu Ser Ile Asp Lys Ala Lys Ala Phe Phe Gly

1040 1045 1050

Lys Phe Asp Ser Ile Arg Tyr Asn Ala Asp Lys Asp Trp Phe Glu

1055 1060 1065

Phe Ala Phe Asp Tyr Asn Asn Phe Thr Thr Lys Ala Glu Gly Thr

1070 1075 1080

Arg Thr Asn Trp Thr Ile Cys Thr Tyr Gly Ser Arg Ile Arg Thr

1085 1090 1095

Phe Arg Asn Gln Ala Lys Asn Ser Gln Trp Asp Asn Glu Glu Ile

1100 1105 1110

Asp Leu Thr Lys Ala Tyr Lys Ala Phe Phe Ala Lys His Gly Ile

1115 1120 1125

Asn Ile Tyr Asp Asn Ile Lys Glu Ala Ile Ala Met Glu Thr Glu

1130 1135 1140

Lys Ser Phe Phe Glu Asp Leu Leu His Leu Leu Lys Leu Thr Leu

1145 1150 1155

Gln Met Arg Asn Ser Ile Thr Gly Thr Thr Thr Asp Tyr Leu Ile

1160 1165 1170

Ser Pro Val His Asp Ser Lys Gly Asn Phe Tyr Asp Ser Arg Ile

1175 1180 1185

Cys Asp Asn Ser Leu Pro Ala Asn Ala Asp Ala Asn Gly Ala Tyr

1190 1195 1200

Asn Ile Ala Arg Lys Gly Leu Met Leu Ile Gln Gln Ile Lys Asp

1205 1210 1215

Ser Thr Ser Ser Asn Arg Phe Lys Phe Ser Pro Ile Thr Asn Lys

1220 1225 1230

Asp Trp Leu Ile Phe Ala Gln Glu Lys Pro Tyr Leu Asn Asp

1235 1240 1245

<210> 101

<211> 1247

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность некультивируемой бактерии

<400> 101

Met Phe Lys Gly Asp Ala Phe Thr Gly Leu Tyr Glu Val Gln Lys Thr

1 5 10 15

Leu Arg Phe Glu Leu Val Pro Ile Gly Leu Thr Gln Ser Tyr Leu Glu

20 25 30

Asn Asp Trp Val Ile Gln Lys Asp Lys Glu Val Glu Glu Asn Tyr Gly

35 40 45

Lys Ile Lys Ala Tyr Phe Asp Leu Ile His Lys Glu Phe Val Arg Gln

50 55 60

Ser Leu Glu Asn Ala Trp Leu Cys Gln Leu Asp Asp Phe Tyr Glu Lys

65 70 75 80

Tyr Ile Glu Leu His Asn Ser Leu Glu Thr Arg Lys Asp Lys Asn Leu

85 90 95

Ala Lys Gln Phe Glu Lys Val Met Lys Ser Leu Lys Lys Glu Phe Val

100 105 110

Ser Phe Phe Asp Ala Lys Trp Asn Glu Trp Lys Gln Lys Phe Ser Phe

115 120 125

Leu Lys Lys Trp Trp Ile Asp Val Leu Asn Glu Lys Glu Val Leu Asp

130 135 140

Leu Met Ala Glu Phe Tyr Pro Asp Glu Lys Glu Leu Phe Asp Lys Phe

145 150 155 160

Asp Lys Phe Phe Thr Tyr Phe Ser Asn Phe Lys Glu Ser Arg Lys Asn

165 170 175

Phe Tyr Ala Asp Asp Gly Arg Ala Trp Ala Ile Ala Thr Arg Ala Ile

180 185 190

Asp Glu Asn Leu Ile Thr Phe Ile Lys Asn Ile Glu Asp Phe Lys Lys

195 200 205

Leu Asn Ser Ser Phe Arg Glu Phe Val Asn Asp Asn Phe Ser Glu Glu

210 215 220

Asp Lys Gln Ile Phe Glu Ile Asp Phe Tyr Asn Asn Cys Leu Leu Gln

225 230 235 240

Pro Trp Ile Asp Lys Tyr Asn Lys Ile Val Trp Trp Tyr Ser Leu Glu

245 250 255

Asn Trp Glu Lys Val Gln Trp Leu Asn Glu Lys Ile Asn Asn Phe Lys

260 265 270

Gln Asn Gln Asn Lys Ser Asn Ser Lys Asp Leu Lys Phe Pro Arg Met

275 280 285

Lys Leu Leu Tyr Lys Gln Ile Leu Gly Asp Lys Glu Lys Lys Val Tyr

290 295 300

Ile Asp Glu Ile Arg Asp Asp Lys Asn Leu Ile Asp Leu Ile Asp Asn

305 310 315 320

Ser Lys Arg Arg Asn Gln Ile Lys Ile Asp Asn Ala Asn Asp Ile Ile

325 330 335

Asn Asp Phe Ile Asn Asn Asn Ala Lys Phe Glu Leu Asp Lys Ile Tyr

340 345 350

Leu Thr Arg Gln Ser Ile Asn Thr Ile Ser Ser Lys Tyr Phe Ser Ser

355 360 365

Trp Asp Tyr Ile Arg Trp Tyr Phe Trp Thr Gly Glu Leu Gln Glu Phe

370 375 380

Val Ser Phe Tyr Asp Leu Lys Glu Thr Phe Trp Lys Ile Glu Tyr Glu

385 390 395 400

Thr Leu Glu Asn Ile Phe Lys Asp Cys Tyr Val Lys Gly Ile Asn Thr

405 410 415

Glu Ser Gln Asn Asn Ile Val Phe Glu Thr Gln Gly Ile Tyr Glu Asn

420 425 430

Phe Leu Asn Ile Phe Lys Phe Glu Phe Asn Gln Asn Ile Ser Gln Ile

435 440 445

Ser Leu Leu Glu Trp Glu Leu Asp Lys Ile Gln Asn Glu Asp Ile Lys

450 455 460

Lys Asn Glu Lys Gln Val Glu Val Ile Lys Asn Tyr Phe Asp Ser Val

465 470 475 480

Met Ser Val Tyr Lys Met Thr Lys Tyr Phe Ser Leu Glu Lys Trp Lys

485 490 495

Lys Arg Val Glu Leu Asp Thr Asp Asn Asn Phe Tyr Asn Asp Phe Asn

500 505 510

Glu Tyr Leu Glu Gly Phe Glu Ile Trp Lys Asp Tyr Asn Leu Val Arg

515 520 525

Asn Tyr Ile Thr Lys Lys Gln Val Asn Thr Asp Lys Ile Lys Leu Asn

530 535 540

Phe Asp Asn Ser Gln Phe Leu Thr Trp Trp Asp Lys Asp Lys Glu Asn

545 550 555 560

Glu Arg Leu Gly Ile Ile Leu Arg Arg Glu Trp Lys Tyr Tyr Leu Trp

565 570 575

Ile Leu Lys Lys Trp Asn Thr Leu Asn Phe Gly Asp Tyr Leu Gln Lys

580 585 590

Glu Trp Glu Ile Phe Tyr Glu Lys Met Asn Tyr Lys Gln Leu Asn Asn

595 600 605

Val Tyr Arg Gln Leu Pro Arg Leu Leu Phe Pro Leu Thr Lys Lys Leu

610 615 620

Asn Glu Leu Lys Trp Asp Glu Leu Lys Lys Tyr Leu Ser Lys Tyr Ile

625 630 635 640

Gln Asn Phe Trp Tyr Asn Glu Glu Ile Ala Gln Ile Lys Ile Glu Phe

645 650 655

Asp Ile Phe Gln Glu Ser Lys Glu Lys Trp Glu Lys Phe Asp Ile Asp

660 665 670

Lys Leu Arg Lys Leu Ile Glu Tyr Tyr Lys Lys Trp Val Leu Ala Leu

675 680 685

Tyr Ser Asp Leu Tyr Asp Leu Glu Phe Ile Lys Tyr Lys Asn Tyr Asp

690 695 700

Asp Leu Ser Ile Phe Tyr Ser Asp Val Glu Lys Lys Met Tyr Asn Leu

705 710 715 720

Asn Phe Thr Lys Ile Asp Lys Ser Leu Ile Asp Gly Lys Val Lys Ser

725 730 735

Trp Glu Leu Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Glu Ser

740 745 750

Lys Lys Glu Trp Ser Thr Glu Asn Ile His Thr Lys Tyr Phe Lys Leu

755 760 765

Leu Phe Asn Glu Lys Asn Leu Gln Asn Leu Val Val Lys Leu Ser Trp

770 775 780

Trp Ala Asp Ile Phe Phe Arg Asp Lys Thr Glu Asn Leu Lys Phe Lys

785 790 795 800

Lys Asp Lys Asn Gly Gln Glu Ile Leu Asp His Arg Arg Phe Ser Gln

805 810 815

Asp Lys Ile Met Phe His Ile Ser Ile Thr Leu Asn Ala Asn Cys Trp

820 825 830

Asp Lys Tyr Trp Phe Asn Gln Tyr Val Asn Glu Tyr Met Asn Lys Glu

835 840 845

Arg Asp Ile Lys Ile Ile Trp Ile Asp Arg Trp Glu Lys His Leu Ala

850 855 860

Tyr Tyr Cys Val Ile Asp Lys Ser Trp Lys Ile Phe Asn Asn Glu Ile

865 870 875 880

Trp Thr Leu Asn Glu Leu Asn Trp Val Asn Tyr Leu Glu Lys Leu Glu

885 890 895

Lys Ile Glu Ser Ser Arg Lys Asp Ser Arg Ile Ser Trp Trp Glu Ile

900 905 910

Glu Asn Ile Lys Glu Leu Lys Asn Gly Tyr Ile Ser Gln Val Ile Asn

915 920 925

Lys Leu Thr Glu Leu Ile Val Lys Tyr Asn Ala Ile Ile Val Phe Glu

930 935 940

Asp Leu Asn Ile Trp Phe Lys Arg Trp Arg Gln Lys Ile Glu Lys Gln

945 950 955 960

Ile Tyr Gln Lys Leu Glu Leu Ala Leu Ala Lys Lys Leu Asn Tyr Leu

965 970 975

Thr Gln Lys Asp Lys Lys Asp Asp Glu Ile Leu Trp Asn Leu Lys Ala

980 985 990

Leu Gln Leu Val Pro Lys Val Asn Asp Tyr Gln Asp Ile Trp Asn Tyr

995 1000 1005

Lys Gln Ser Trp Ile Met Phe Tyr Val Arg Ala Asn Tyr Thr Ser

1010 1015 1020

Val Thr Cys Pro Asn Cys Trp Leu Arg Lys Asn Leu Tyr Ile Ser

1025 1030 1035

Asn Ser Ala Thr Lys Glu Asn Gln Lys Lys Ser Leu Asn Ser Ile

1040 1045 1050

Ala Ile Lys Tyr Asn Asp Trp Lys Phe Ser Phe Ser Tyr Glu Ile

1055 1060 1065

Asp Asp Lys Ser Trp Lys Gln Lys Gln Ser Leu Asn Lys Lys Lys

1070 1075 1080

Phe Ile Val Tyr Ser Asp Ile Glu Arg Phe Val Tyr Ser Pro Leu

1085 1090 1095

Glu Lys Leu Thr Lys Val Ile Asp Val Asn Lys Lys Leu Leu Glu

1100 1105 1110

Leu Phe Arg Asp Phe Asn Leu Ser Leu Asp Ile Asn Lys Gln Ile

1115 1120 1125

Gln Glu Lys Asp Leu Asp Ser Val Phe Phe Lys Ser Leu Thr His

1130 1135 1140

Leu Phe Asn Leu Ile Leu Gln Leu Arg Asn Ser Asp Ser Lys Asp

1145 1150 1155

Asn Lys Asp Tyr Ile Ser Cys Pro Ser Cys Tyr Tyr His Ser Asn

1160 1165 1170

Asn Trp Leu Gln Trp Phe Glu Phe Asn Trp Asp Ala Asn Trp Ala

1175 1180 1185

Tyr Asn Ile Ala Arg Lys Gly Ile Ile Leu Leu Asp Arg Ile Arg

1190 1195 1200

Lys Asn Gln Glu Lys Pro Asp Leu Tyr Val Ser Asp Ile Asp Trp

1205 1210 1215

Asp Asn Phe Val Gln Ser Asn Gln Phe Pro Asn Thr Ile Ile Pro

1220 1225 1230

Ile Gln Asn Ile Glu Lys Gln Val Pro Leu Asn Ile Lys Ile

1235 1240 1245

<210> 102

<211> 1246

<212> БЕЛОК

<213> Porphyromonas macacae

<400> 102

Met Lys Thr Gln His Phe Phe Glu Asp Phe Thr Ser Leu Tyr Ser Leu

1 5 10 15

Ser Lys Thr Ile Arg Phe Glu Leu Lys Pro Ile Gly Lys Thr Leu Glu

20 25 30

Asn Ile Lys Lys Asn Gly Leu Ile Arg Arg Asp Glu Gln Arg Leu Asp

35 40 45

Asp Tyr Glu Lys Leu Lys Lys Val Ile Asp Glu Tyr His Glu Asp Phe

50 55 60

Ile Ala Asn Ile Leu Ser Ser Phe Ser Phe Ser Glu Glu Ile Leu Gln

65 70 75 80

Ser Tyr Ile Gln Asn Leu Ser Glu Ser Glu Ala Arg Ala Lys Ile Glu

85 90 95

Lys Thr Met Arg Asp Thr Leu Ala Lys Ala Phe Ser Glu Asp Glu Arg

100 105 110

Tyr Lys Ser Ile Phe Lys Lys Glu Leu Val Lys Lys Asp Ile Pro Val

115 120 125

Trp Cys Pro Ala Tyr Lys Ser Leu Cys Lys Lys Phe Asp Asn Phe Thr

130 135 140

Thr Ser Leu Val Pro Phe His Glu Asn Arg Lys Asn Leu Tyr Thr Ser

145 150 155 160

Asn Glu Ile Thr Ala Ser Ile Pro Tyr Arg Ile Val His Val Asn Leu

165 170 175

Pro Lys Phe Ile Gln Asn Ile Glu Ala Leu Cys Glu Leu Gln Lys Lys

180 185 190

Met Gly Ala Asp Leu Tyr Leu Glu Met Met Glu Asn Leu Arg Asn Val

195 200 205

Trp Pro Ser Phe Val Lys Thr Pro Asp Asp Leu Cys Asn Leu Lys Thr

210 215 220

Tyr Asn His Leu Met Val Gln Ser Ser Ile Ser Glu Tyr Asn Arg Phe

225 230 235 240

Val Gly Gly Tyr Ser Thr Glu Asp Gly Thr Lys His Gln Gly Ile Asn

245 250 255

Glu Trp Ile Asn Ile Tyr Arg Gln Arg Asn Lys Glu Met Arg Leu Pro

260 265 270

Gly Leu Val Phe Leu His Lys Gln Ile Leu Ala Lys Val Asp Ser Ser

275 280 285

Ser Phe Ile Ser Asp Thr Leu Glu Asn Asp Asp Gln Val Phe Cys Val

290 295 300

Leu Arg Gln Phe Arg Lys Leu Phe Trp Asn Thr Val Ser Ser Lys Glu

305 310 315 320

Asp Asp Ala Ala Ser Leu Lys Asp Leu Phe Cys Gly Leu Ser Gly Tyr

325 330 335

Asp Pro Glu Ala Ile Tyr Val Ser Asp Ala His Leu Ala Thr Ile Ser

340 345 350

Lys Asn Ile Phe Asp Arg Trp Asn Tyr Ile Ser Asp Ala Ile Arg Arg

355 360 365

Lys Thr Glu Val Leu Met Pro Arg Lys Lys Glu Ser Val Glu Arg Tyr

370 375 380

Ala Glu Lys Ile Ser Lys Gln Ile Lys Lys Arg Gln Ser Tyr Ser Leu

385 390 395 400

Ala Glu Leu Asp Asp Leu Leu Ala His Tyr Ser Glu Glu Ser Leu Pro

405 410 415

Ala Gly Phe Ser Leu Leu Ser Tyr Phe Thr Ser Leu Gly Gly Gln Lys

420 425 430

Tyr Leu Val Ser Asp Gly Glu Val Ile Leu Tyr Glu Glu Gly Ser Asn

435 440 445

Ile Trp Asp Glu Val Leu Ile Ala Phe Arg Asp Leu Gln Val Ile Leu

450 455 460

Asp Lys Asp Phe Thr Glu Lys Lys Leu Gly Lys Asp Glu Glu Ala Val

465 470 475 480

Ser Val Ile Lys Lys Ala Leu Asp Ser Ala Leu Arg Leu Arg Lys Phe

485 490 495

Phe Asp Leu Leu Ser Gly Thr Gly Ala Glu Ile Arg Arg Asp Ser Ser

500 505 510

Phe Tyr Ala Leu Tyr Thr Asp Arg Met Asp Lys Leu Lys Gly Leu Leu

515 520 525

Lys Met Tyr Asp Lys Val Arg Asn Tyr Leu Thr Lys Lys Pro Tyr Ser

530 535 540

Ile Glu Lys Phe Lys Leu His Phe Asp Asn Pro Ser Leu Leu Ser Gly

545 550 555 560

Trp Asp Lys Asn Lys Glu Leu Asn Asn Leu Ser Val Ile Phe Arg Gln

565 570 575

Asn Gly Tyr Tyr Tyr Leu Gly Ile Met Thr Pro Lys Gly Lys Asn Leu

580 585 590

Phe Lys Thr Leu Pro Lys Leu Gly Ala Glu Glu Met Phe Tyr Glu Lys

595 600 605

Met Glu Tyr Lys Gln Ile Ala Glu Pro Met Leu Met Leu Pro Lys Val

610 615 620

Phe Phe Pro Lys Lys Thr Lys Pro Ala Phe Ala Pro Asp Gln Ser Val

625 630 635 640

Val Asp Ile Tyr Asn Lys Lys Thr Phe Lys Thr Gly Gln Lys Gly Phe

645 650 655

Asn Lys Lys Asp Leu Tyr Arg Leu Ile Asp Phe Tyr Lys Glu Ala Leu

660 665 670

Thr Val His Glu Trp Lys Leu Phe Asn Phe Ser Phe Ser Pro Thr Glu

675 680 685

Gln Tyr Arg Asn Ile Gly Glu Phe Phe Asp Glu Val Arg Glu Gln Ala

690 695 700

Tyr Lys Val Ser Met Val Asn Val Pro Ala Ser Tyr Ile Asp Glu Ala

705 710 715 720

Val Glu Asn Gly Lys Leu Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe

725 730 735

Ser Pro Tyr Ser Lys Gly Ile Pro Asn Leu His Thr Leu Tyr Trp Lys

740 745 750

Ala Leu Phe Ser Glu Gln Asn Gln Ser Arg Val Tyr Lys Leu Cys Gly

755 760 765

Gly Gly Glu Leu Phe Tyr Arg Lys Ala Ser Leu His Met Gln Asp Thr

770 775 780

Thr Val His Pro Lys Gly Ile Ser Ile His Lys Lys Asn Leu Asn Lys

785 790 795 800

Lys Gly Glu Thr Ser Leu Phe Asn Tyr Asp Leu Val Lys Asp Lys Arg

805 810 815

Phe Thr Glu Asp Lys Phe Phe Phe His Val Pro Ile Ser Ile Asn Tyr

820 825 830

Lys Asn Lys Lys Ile Thr Asn Val Asn Gln Met Val Arg Asp Tyr Ile

835 840 845

Ala Gln Asn Asp Asp Leu Gln Ile Ile Gly Ile Asp Arg Gly Glu Arg

850 855 860

Asn Leu Leu Tyr Ile Ser Arg Ile Asp Thr Arg Gly Asn Leu Leu Glu

865 870 875 880

Gln Phe Ser Leu Asn Val Ile Glu Ser Asp Lys Gly Asp Leu Arg Thr

885 890 895

Asp Tyr Gln Lys Ile Leu Gly Asp Arg Glu Gln Glu Arg Leu Arg Arg

900 905 910

Arg Gln Glu Trp Lys Ser Ile Glu Ser Ile Lys Asp Leu Lys Asp Gly

915 920 925

Tyr Met Ser Gln Val Val His Lys Ile Cys Asn Met Val Val Glu His

930 935 940

Lys Ala Ile Val Val Leu Glu Asn Leu Asn Leu Ser Phe Met Lys Gly

945 950 955 960

Arg Lys Lys Val Glu Lys Ser Val Tyr Glu Lys Phe Glu Arg Met Leu

965 970 975

Val Asp Lys Leu Asn Tyr Leu Val Val Asp Lys Lys Asn Leu Ser Asn

980 985 990

Glu Pro Gly Gly Leu Tyr Ala Ala Tyr Gln Leu Thr Asn Pro Leu Phe

995 1000 1005

Ser Phe Glu Glu Leu His Arg Tyr Pro Gln Ser Gly Ile Leu Phe

1010 1015 1020

Phe Val Asp Pro Trp Asn Thr Ser Leu Thr Asp Pro Ser Thr Gly

1025 1030 1035

Phe Val Asn Leu Leu Gly Arg Ile Asn Tyr Thr Asn Val Gly Asp

1040 1045 1050

Ala Arg Lys Phe Phe Asp Arg Phe Asn Ala Ile Arg Tyr Asp Gly

1055 1060 1065

Lys Gly Asn Ile Leu Phe Asp Leu Asp Leu Ser Arg Phe Asp Val

1070 1075 1080

Arg Val Glu Thr Gln Arg Lys Leu Trp Thr Leu Thr Thr Phe Gly

1085 1090 1095

Ser Arg Ile Ala Lys Ser Lys Lys Ser Gly Lys Trp Met Val Glu

1100 1105 1110

Arg Ile Glu Asn Leu Ser Leu Cys Phe Leu Glu Leu Phe Glu Gln

1115 1120 1125

Phe Asn Ile Gly Tyr Arg Val Glu Lys Asp Leu Lys Lys Ala Ile

1130 1135 1140

Leu Ser Gln Asp Arg Lys Glu Phe Tyr Val Arg Leu Ile Tyr Leu

1145 1150 1155

Phe Asn Leu Met Met Gln Ile Arg Asn Ser Asp Gly Glu Glu Asp

1160 1165 1170

Tyr Ile Leu Ser Pro Ala Leu Asn Glu Lys Asn Leu Gln Phe Asp

1175 1180 1185

Ser Arg Leu Ile Glu Ala Lys Asp Leu Pro Val Asp Ala Asp Ala

1190 1195 1200

Asn Gly Ala Tyr Asn Val Ala Arg Lys Gly Leu Met Val Val Gln

1205 1210 1215

Arg Ile Lys Arg Gly Asp His Glu Ser Ile His Arg Ile Gly Arg

1220 1225 1230

Ala Gln Trp Leu Arg Tyr Val Gln Glu Gly Ile Val Glu

1235 1240 1245

<210> 103

<211> 1241

<212> БЕЛОК

<213> Butyrivibrio proteoclasticus

<400> 103

Met Leu Leu Tyr Glu Asn Tyr Thr Lys Arg Asn Gln Ile Thr Lys Ser

1 5 10 15

Leu Arg Leu Glu Leu Arg Pro Gln Gly Lys Thr Leu Arg Asn Ile Lys

20 25 30

Glu Leu Asn Leu Leu Glu Gln Asp Lys Ala Ile Tyr Ala Leu Leu Glu

35 40 45

Arg Leu Lys Pro Val Ile Asp Glu Gly Ile Lys Asp Ile Ala Arg Asp

50 55 60

Thr Leu Lys Asn Cys Glu Leu Ser Phe Glu Lys Leu Tyr Glu His Phe

65 70 75 80

Leu Ser Gly Asp Lys Lys Ala Tyr Ala Lys Glu Ser Glu Arg Leu Lys

85 90 95

Lys Glu Ile Val Lys Thr Leu Ile Lys Asn Leu Pro Glu Gly Ile Gly

100 105 110

Lys Ile Ser Glu Ile Asn Ser Ala Lys Tyr Leu Asn Gly Val Leu Tyr

115 120 125

Asp Phe Ile Asp Lys Thr His Lys Asp Ser Glu Glu Lys Gln Asn Ile

130 135 140

Leu Ser Asp Ile Leu Glu Thr Lys Gly Tyr Leu Ala Leu Phe Ser Lys

145 150 155 160

Phe Leu Thr Ser Arg Ile Thr Thr Leu Glu Gln Ser Met Pro Lys Arg

165 170 175

Val Ile Glu Asn Phe Glu Ile Tyr Ala Ala Asn Ile Pro Lys Met Gln

180 185 190

Asp Ala Leu Glu Arg Gly Ala Val Ser Phe Ala Ile Glu Tyr Glu Ser

195 200 205

Ile Cys Ser Val Asp Tyr Tyr Asn Gln Ile Leu Ser Gln Glu Asp Ile

210 215 220

Asp Ser Tyr Asn Arg Leu Ile Ser Gly Ile Met Asp Glu Asp Gly Ala

225 230 235 240

Lys Glu Lys Gly Ile Asn Gln Thr Ile Ser Glu Lys Asn Ile Lys Ile

245 250 255

Lys Ser Glu His Leu Glu Glu Lys Pro Phe Arg Ile Leu Lys Gln Leu

260 265 270

His Lys Gln Ile Leu Glu Glu Arg Glu Lys Ala Phe Thr Ile Asp His

275 280 285

Ile Asp Ser Asp Glu Glu Val Val Gln Val Thr Lys Glu Ala Phe Glu

290 295 300

Gln Thr Lys Glu Gln Trp Glu Asn Ile Lys Lys Ile Asn Gly Phe Tyr

305 310 315 320

Ala Lys Asp Pro Gly Asp Ile Thr Leu Phe Ile Val Val Gly Pro Asn

325 330 335

Gln Thr His Val Leu Ser Gln Leu Ile Tyr Gly Glu His Asp Arg Ile

340 345 350

Arg Leu Leu Leu Glu Glu Tyr Glu Lys Asn Thr Leu Glu Val Leu Pro

355 360 365

Arg Arg Thr Lys Ser Glu Lys Ala Arg Tyr Asp Lys Phe Val Asn Ala

370 375 380

Val Pro Lys Lys Val Ala Lys Glu Ser His Thr Phe Asp Gly Leu Gln

385 390 395 400

Lys Met Thr Gly Asp Asp Arg Leu Phe Ile Leu Tyr Arg Asp Glu Leu

405 410 415

Ala Arg Asn Tyr Met Arg Ile Lys Glu Ala Tyr Gly Thr Phe Glu Arg

420 425 430

Asp Ile Leu Lys Ser Arg Arg Gly Ile Lys Gly Asn Arg Asp Val Gln

435 440 445

Glu Ser Leu Val Ser Phe Tyr Asp Glu Leu Thr Lys Phe Arg Ser Ala

450 455 460

Leu Arg Ile Ile Asn Ser Gly Asn Asp Glu Lys Ala Asp Pro Ile Phe

465 470 475 480

Tyr Asn Thr Phe Asp Gly Ile Phe Glu Lys Ala Asn Arg Thr Tyr Lys

485 490 495

Ala Glu Asn Leu Cys Arg Asn Tyr Val Thr Lys Ser Pro Ala Asp Asp

500 505 510

Ala Arg Ile Met Ala Ser Cys Leu Gly Thr Pro Ala Arg Leu Arg Thr

515 520 525

His Trp Trp Asn Gly Glu Glu Asn Phe Ala Ile Asn Asp Val Ala Met

530 535 540

Ile Arg Arg Gly Asp Glu Tyr Tyr Tyr Phe Val Leu Thr Pro Asp Val

545 550 555 560

Lys Pro Val Asp Leu Lys Thr Lys Asp Glu Thr Asp Ala Gln Ile Phe

565 570 575

Val Gln Arg Lys Gly Ala Lys Ser Phe Leu Gly Leu Pro Lys Ala Leu

580 585 590

Phe Lys Cys Ile Leu Glu Pro Tyr Phe Glu Ser Pro Glu His Lys Asn

595 600 605

Asp Lys Asn Cys Val Ile Glu Glu Tyr Val Ser Lys Pro Leu Thr Ile

610 615 620

Asp Arg Arg Ala Tyr Asp Ile Phe Lys Asn Gly Thr Phe Lys Lys Thr

625 630 635 640

Asn Ile Gly Ile Asp Gly Leu Thr Glu Glu Lys Phe Lys Asp Asp Cys

645 650 655

Arg Tyr Leu Ile Asp Val Tyr Lys Glu Phe Ile Ala Val Tyr Thr Arg

660 665 670

Tyr Ser Cys Phe Asn Met Ser Gly Leu Lys Arg Ala Asp Glu Tyr Asn

675 680 685

Asp Ile Gly Glu Phe Phe Ser Asp Val Asp Thr Arg Leu Cys Thr Met

690 695 700

Glu Trp Ile Pro Val Ser Phe Glu Arg Ile Asn Asp Met Val Asp Lys

705 710 715 720

Lys Glu Gly Leu Leu Phe Leu Val Arg Ser Met Phe Leu Tyr Asn Arg

725 730 735

Pro Arg Lys Pro Tyr Glu Arg Thr Phe Ile Gln Leu Phe Ser Asp Ser

740 745 750

Asn Met Glu His Thr Ser Met Leu Leu Asn Ser Arg Ala Met Ile Gln

755 760 765

Tyr Arg Ala Ala Ser Leu Pro Arg Arg Val Thr His Lys Lys Gly Ser

770 775 780

Ile Leu Val Ala Leu Arg Asp Ser Asn Gly Glu His Ile Pro Met His

785 790 795 800

Ile Arg Glu Ala Ile Tyr Lys Met Lys Asn Asn Phe Asp Ile Ser Ser

805 810 815

Glu Asp Phe Ile Met Ala Lys Ala Tyr Leu Ala Glu His Asp Val Ala

820 825 830

Ile Lys Lys Ala Asn Glu Asp Ile Ile Arg Asn Arg Arg Tyr Thr Glu

835 840 845

Asp Lys Phe Phe Leu Ser Leu Ser Tyr Thr Lys Asn Ala Asp Ile Ser

850 855 860

Ala Arg Thr Leu Asp Tyr Ile Asn Asp Lys Val Glu Glu Asp Thr Gln

865 870 875 880

Asp Ser Arg Met Ala Val Ile Val Thr Arg Asn Leu Lys Asp Leu Thr

885 890 895

Tyr Val Ala Val Val Asp Glu Lys Asn Asn Val Leu Glu Glu Lys Ser

900 905 910

Leu Asn Glu Ile Asp Gly Val Asn Tyr Arg Glu Leu Leu Lys Glu Arg

915 920 925

Thr Lys Ile Lys Tyr His Asp Lys Thr Arg Leu Trp Gln Tyr Asp Val

930 935 940

Ser Ser Lys Gly Leu Lys Glu Ala Tyr Val Glu Leu Ala Val Thr Gln

945 950 955 960

Ile Ser Lys Leu Ala Thr Lys Tyr Asn Ala Val Val Val Val Glu Ser

965 970 975

Met Ser Ser Thr Phe Lys Asp Lys Phe Ser Phe Leu Asp Glu Gln Ile

980 985 990

Phe Lys Ala Phe Glu Ala Arg Leu Cys Ala Arg Met Ser Asp Leu Ser

995 1000 1005

Phe Asn Thr Ile Lys Glu Gly Glu Ala Gly Ser Ile Ser Asn Pro

1010 1015 1020

Ile Gln Val Ser Asn Asn Asn Gly Asn Ser Tyr Gln Asp Gly Val

1025 1030 1035

Ile Tyr Phe Leu Asn Asn Ala Tyr Thr Arg Thr Leu Cys Pro Asp

1040 1045 1050

Thr Gly Phe Val Asp Val Phe Asp Lys Thr Arg Leu Ile Thr Met

1055 1060 1065

Gln Ser Lys Arg Gln Phe Phe Ala Lys Met Lys Asp Ile Arg Ile

1070 1075 1080

Asp Asp Gly Glu Met Leu Phe Thr Phe Asn Leu Glu Glu Tyr Pro

1085 1090 1095

Thr Lys Arg Leu Leu Asp Arg Lys Glu Trp Thr Val Lys Ile Ala

1100 1105 1110

Gly Asp Gly Ser Tyr Phe Asp Lys Asp Lys Gly Glu Tyr Val Tyr

1115 1120 1125

Val Asn Asp Ile Val Arg Glu Gln Ile Ile Pro Ala Leu Leu Glu

1130 1135 1140

Asp Lys Ala Val Phe Asp Gly Asn Met Ala Glu Lys Phe Leu Asp

1145 1150 1155

Lys Thr Ala Ile Ser Gly Lys Ser Val Glu Leu Ile Tyr Lys Trp

1160 1165 1170

Phe Ala Asn Ala Leu Tyr Gly Ile Ile Thr Lys Lys Asp Gly Glu

1175 1180 1185

Lys Ile Tyr Arg Ser Pro Ile Thr Gly Thr Glu Ile Asp Val Ser

1190 1195 1200

Lys Asn Thr Thr Tyr Asn Phe Gly Lys Lys Phe Met Phe Lys Gln

1205 1210 1215

Glu Tyr Arg Gly Asp Gly Asp Phe Leu Asp Ala Phe Leu Asn Tyr

1220 1225 1230

Met Gln Ala Gln Asp Ile Ala Val

1235 1240

<210> 104

<211> 1238

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность Candidatus Methanoplasma termitum

<400> 104

Met Asn Asn Tyr Asp Glu Phe Thr Lys Leu Tyr Pro Ile Gln Lys Thr

1 5 10 15

Ile Arg Phe Glu Leu Lys Pro Gln Gly Arg Thr Met Glu His Leu Glu

20 25 30

Thr Phe Asn Phe Phe Glu Glu Asp Arg Asp Arg Ala Glu Lys Tyr Lys

35 40 45

Ile Leu Lys Glu Ala Ile Asp Glu Tyr His Lys Lys Phe Ile Asp Glu

50 55 60

His Leu Thr Asn Met Ser Leu Asp Trp Asn Ser Leu Lys Gln Ile Ser

65 70 75 80

Glu Lys Tyr Tyr Lys Ser Arg Glu Glu Lys Asp Lys Lys Val Phe Leu

85 90 95

Ser Glu Gln Lys Arg Met Arg Gln Glu Ile Val Ser Glu Phe Lys Lys

100 105 110

Asp Asp Arg Phe Lys Asp Leu Phe Ser Lys Lys Leu Phe Ser Glu Leu

115 120 125

Leu Lys Glu Glu Ile Tyr Lys Lys Gly Asn His Gln Glu Ile Asp Ala

130 135 140

Leu Lys Ser Phe Asp Lys Phe Ser Gly Tyr Phe Ile Gly Leu His Glu

145 150 155 160

Asn Arg Lys Asn Met Tyr Ser Asp Gly Asp Glu Ile Thr Ala Ile Ser

165 170 175

Asn Arg Ile Val Asn Glu Asn Phe Pro Lys Phe Leu Asp Asn Leu Gln

180 185 190

Lys Tyr Gln Glu Ala Arg Lys Lys Tyr Pro Glu Trp Ile Ile Lys Ala

195 200 205

Glu Ser Ala Leu Val Ala His Asn Ile Lys Met Asp Glu Val Phe Ser

210 215 220

Leu Glu Tyr Phe Asn Lys Val Leu Asn Gln Glu Gly Ile Gln Arg Tyr

225 230 235 240

Asn Leu Ala Leu Gly Gly Tyr Val Thr Lys Ser Gly Glu Lys Met Met

245 250 255

Gly Leu Asn Asp Ala Leu Asn Leu Ala His Gln Ser Glu Lys Ser Ser

260 265 270

Lys Gly Arg Ile His Met Thr Pro Leu Phe Lys Gln Ile Leu Ser Glu

275 280 285

Lys Glu Ser Phe Ser Tyr Ile Pro Asp Val Phe Thr Glu Asp Ser Gln

290 295 300

Leu Leu Pro Ser Ile Gly Gly Phe Phe Ala Gln Ile Glu Asn Asp Lys

305 310 315 320

Asp Gly Asn Ile Phe Asp Arg Ala Leu Glu Leu Ile Ser Ser Tyr Ala

325 330 335

Glu Tyr Asp Thr Glu Arg Ile Tyr Ile Arg Gln Ala Asp Ile Asn Arg

340 345 350

Val Ser Asn Val Ile Phe Gly Glu Trp Gly Thr Leu Gly Gly Leu Met

355 360 365

Arg Glu Tyr Lys Ala Asp Ser Ile Asn Asp Ile Asn Leu Glu Arg Thr

370 375 380

Cys Lys Lys Val Asp Lys Trp Leu Asp Ser Lys Glu Phe Ala Leu Ser

385 390 395 400

Asp Val Leu Glu Ala Ile Lys Arg Thr Gly Asn Asn Asp Ala Phe Asn

405 410 415

Glu Tyr Ile Ser Lys Met Arg Thr Ala Arg Glu Lys Ile Asp Ala Ala

420 425 430

Arg Lys Glu Met Lys Phe Ile Ser Glu Lys Ile Ser Gly Asp Glu Glu

435 440 445

Ser Ile His Ile Ile Lys Thr Leu Leu Asp Ser Val Gln Gln Phe Leu

450 455 460

His Phe Phe Asn Leu Phe Lys Ala Arg Gln Asp Ile Pro Leu Asp Gly

465 470 475 480

Ala Phe Tyr Ala Glu Phe Asp Glu Val His Ser Lys Leu Phe Ala Ile

485 490 495

Val Pro Leu Tyr Asn Lys Val Arg Asn Tyr Leu Thr Lys Asn Asn Leu

500 505 510

Asn Thr Lys Lys Ile Lys Leu Asn Phe Lys Asn Pro Thr Leu Ala Asn

515 520 525

Gly Trp Asp Gln Asn Lys Val Tyr Asp Tyr Ala Ser Leu Ile Phe Leu

530 535 540

Arg Asp Gly Asn Tyr Tyr Leu Gly Ile Ile Asn Pro Lys Arg Lys Lys

545 550 555 560

Asn Ile Lys Phe Glu Gln Gly Ser Gly Asn Gly Pro Phe Tyr Arg Lys

565 570 575

Met Val Tyr Lys Gln Ile Pro Gly Pro Asn Lys Asn Leu Pro Arg Val

580 585 590

Phe Leu Thr Ser Thr Lys Gly Lys Lys Glu Tyr Lys Pro Ser Lys Glu

595 600 605

Ile Ile Glu Gly Tyr Glu Ala Asp Lys His Ile Arg Gly Asp Lys Phe

610 615 620

Asp Leu Asp Phe Cys His Lys Leu Ile Asp Phe Phe Lys Glu Ser Ile

625 630 635 640

Glu Lys His Lys Asp Trp Ser Lys Phe Asn Phe Tyr Phe Ser Pro Thr

645 650 655

Glu Ser Tyr Gly Asp Ile Ser Glu Phe Tyr Leu Asp Val Glu Lys Gln

660 665 670

Gly Tyr Arg Met His Phe Glu Asn Ile Ser Ala Glu Thr Ile Asp Glu

675 680 685

Tyr Val Glu Lys Gly Asp Leu Phe Leu Phe Gln Ile Tyr Asn Lys Asp

690 695 700

Phe Val Lys Ala Ala Thr Gly Lys Lys Asp Met His Thr Ile Tyr Trp

705 710 715 720

Asn Ala Ala Phe Ser Pro Glu Asn Leu Gln Asp Val Val Val Lys Leu

725 730 735

Asn Gly Glu Ala Glu Leu Phe Tyr Arg Asp Lys Ser Asp Ile Lys Glu

740 745 750

Ile Val His Arg Glu Gly Glu Ile Leu Val Asn Arg Thr Tyr Asn Gly

755 760 765

Arg Thr Pro Val Pro Asp Lys Ile His Lys Lys Leu Thr Asp Tyr His

770 775 780

Asn Gly Arg Thr Lys Asp Leu Gly Glu Ala Lys Glu Tyr Leu Asp Lys

785 790 795 800

Val Arg Tyr Phe Lys Ala His Tyr Asp Ile Thr Lys Asp Arg Arg Tyr

805 810 815

Leu Asn Asp Lys Ile Tyr Phe His Val Pro Leu Thr Leu Asn Phe Lys

820 825 830

Ala Asn Gly Lys Lys Asn Leu Asn Lys Met Val Ile Glu Lys Phe Leu

835 840 845

Ser Asp Glu Lys Ala His Ile Ile Gly Ile Asp Arg Gly Glu Arg Asn

850 855 860

Leu Leu Tyr Tyr Ser Ile Ile Asp Arg Ser Gly Lys Ile Ile Asp Gln

865 870 875 880

Gln Ser Leu Asn Val Ile Asp Gly Phe Asp Tyr Arg Glu Lys Leu Asn

885 890 895

Gln Arg Glu Ile Glu Met Lys Asp Ala Arg Gln Ser Trp Asn Ala Ile

900 905 910

Gly Lys Ile Lys Asp Leu Lys Glu Gly Tyr Leu Ser Lys Ala Val His

915 920 925

Glu Ile Thr Lys Met Ala Ile Gln Tyr Asn Ala Ile Val Val Met Glu

930 935 940

Glu Leu Asn Tyr Gly Phe Lys Arg Gly Arg Phe Lys Val Glu Lys Gln

945 950 955 960

Ile Tyr Gln Lys Phe Glu Asn Met Leu Ile Asp Lys Met Asn Tyr Leu

965 970 975

Val Phe Lys Asp Ala Pro Asp Glu Ser Pro Gly Gly Val Leu Asn Ala

980 985 990

Tyr Gln Leu Thr Asn Pro Leu Glu Ser Phe Ala Lys Leu Gly Lys Gln

995 1000 1005

Thr Gly Ile Leu Phe Tyr Val Pro Ala Ala Tyr Thr Ser Lys Ile

1010 1015 1020

Asp Pro Thr Thr Gly Phe Val Asn Leu Phe Asn Thr Ser Ser Lys

1025 1030 1035

Thr Asn Ala Gln Glu Arg Lys Glu Phe Leu Gln Lys Phe Glu Ser

1040 1045 1050

Ile Ser Tyr Ser Ala Lys Asp Gly Gly Ile Phe Ala Phe Ala Phe

1055 1060 1065

Asp Tyr Arg Lys Phe Gly Thr Ser Lys Thr Asp His Lys Asn Val

1070 1075 1080

Trp Thr Ala Tyr Thr Asn Gly Glu Arg Met Arg Tyr Ile Lys Glu

1085 1090 1095

Lys Lys Arg Asn Glu Leu Phe Asp Pro Ser Lys Glu Ile Lys Glu

1100 1105 1110

Ala Leu Thr Ser Ser Gly Ile Lys Tyr Asp Gly Gly Gln Asn Ile

1115 1120 1125

Leu Pro Asp Ile Leu Arg Ser Asn Asn Asn Gly Leu Ile Tyr Thr

1130 1135 1140

Met Tyr Ser Ser Phe Ile Ala Ala Ile Gln Met Arg Val Tyr Asp

1145 1150 1155

Gly Lys Glu Asp Tyr Ile Ile Ser Pro Ile Lys Asn Ser Lys Gly

1160 1165 1170

Glu Phe Phe Arg Thr Asp Pro Lys Arg Arg Glu Leu Pro Ile Asp

1175 1180 1185

Ala Asp Ala Asn Gly Ala Tyr Asn Ile Ala Leu Arg Gly Glu Leu

1190 1195 1200

Thr Met Arg Ala Ile Ala Glu Lys Phe Asp Pro Asp Ser Glu Lys

1205 1210 1215

Met Ala Lys Leu Glu Leu Lys His Lys Asp Trp Phe Glu Phe Met

1220 1225 1230

Gln Thr Arg Gly Asp

1235

<210> 105

<211> 1235

<212> БЕЛОК

<213> Anaerovibrio sp.

<400> 105

Met Val Ala Phe Ile Asp Glu Phe Val Gly Gln Tyr Pro Val Ser Lys

1 5 10 15

Thr Leu Arg Phe Glu Ala Arg Pro Val Pro Glu Thr Lys Lys Trp Leu

20 25 30

Glu Ser Asp Gln Cys Ser Val Leu Phe Asn Asp Gln Lys Arg Asn Glu

35 40 45

Tyr Tyr Gly Val Leu Lys Glu Leu Leu Asp Asp Tyr Tyr Arg Ala Tyr

50 55 60

Ile Glu Asp Ala Leu Thr Ser Phe Thr Leu Asp Lys Ala Leu Leu Glu

65 70 75 80

Asn Ala Tyr Asp Leu Tyr Cys Asn Arg Asp Thr Asn Ala Phe Ser Ser

85 90 95

Cys Cys Glu Lys Leu Arg Lys Asp Leu Val Lys Ala Phe Gly Asn Leu

100 105 110

Lys Asp Tyr Leu Leu Gly Ser Asp Gln Leu Lys Asp Leu Val Lys Leu

115 120 125

Lys Ala Lys Val Asp Ala Pro Ala Gly Lys Gly Lys Lys Lys Ile Glu

130 135 140

Val Asp Ser Arg Leu Ile Asn Trp Leu Asn Asn Asn Ala Lys Tyr Ser

145 150 155 160

Ala Glu Asp Arg Glu Lys Tyr Ile Lys Ala Ile Glu Ser Phe Glu Gly

165 170 175

Phe Val Thr Tyr Leu Thr Asn Tyr Lys Gln Ala Arg Glu Asn Met Phe

180 185 190

Ser Ser Glu Asp Lys Ser Thr Ala Ile Ala Phe Arg Val Ile Asp Gln

195 200 205

Asn Met Val Thr Tyr Phe Gly Asn Ile Arg Ile Tyr Glu Lys Ile Lys

210 215 220

Ala Lys Tyr Pro Glu Leu Tyr Ser Ala Leu Lys Gly Phe Glu Lys Phe

225 230 235 240

Phe Ser Pro Thr Ala Tyr Ser Glu Ile Leu Ser Gln Ser Lys Ile Asp

245 250 255

Glu Tyr Asn Tyr Gln Cys Ile Gly Arg Pro Ile Asp Asp Ala Asp Phe

260 265 270

Lys Gly Val Asn Ser Leu Ile Asn Glu Tyr Arg Gln Lys Asn Gly Ile

275 280 285

Lys Ala Arg Glu Leu Pro Val Met Ser Met Leu Tyr Lys Gln Ile Leu

290 295 300

Ser Asp Arg Asp Asn Ser Phe Met Ser Glu Val Ile Asn Arg Asn Glu

305 310 315 320

Glu Ala Ile Glu Cys Ala Lys Asn Gly Tyr Lys Val Ser Tyr Ala Leu

325 330 335

Phe Asn Glu Leu Leu Gln Leu Tyr Lys Lys Ile Phe Thr Glu Asp Asn

340 345 350

Tyr Gly Asn Ile Tyr Val Lys Thr Gln Pro Leu Thr Glu Leu Ser Gln

355 360 365

Ala Leu Phe Gly Asp Trp Ser Ile Leu Arg Asn Ala Leu Asp Asn Gly

370 375 380

Lys Tyr Asp Lys Asp Ile Ile Asn Leu Ala Glu Leu Glu Lys Tyr Phe

385 390 395 400

Ser Glu Tyr Cys Lys Val Leu Asp Ala Asp Asp Ala Ala Lys Ile Gln

405 410 415

Asp Lys Phe Asn Leu Lys Asp Tyr Phe Ile Gln Lys Asn Ala Leu Asp

420 425 430

Ala Thr Leu Pro Asp Leu Asp Lys Ile Thr Gln Tyr Lys Pro His Leu

435 440 445

Asp Ala Met Leu Gln Ala Ile Arg Lys Tyr Lys Leu Phe Ser Met Tyr

450 455 460

Asn Gly Arg Lys Lys Met Asp Val Pro Glu Asn Gly Ile Asp Phe Ser

465 470 475 480

Asn Glu Phe Asn Ala Ile Tyr Asp Lys Leu Ser Glu Phe Ser Ile Leu

485 490 495

Tyr Asp Arg Ile Arg Asn Phe Ala Thr Lys Lys Pro Tyr Ser Asp Glu

500 505 510

Lys Met Lys Leu Ser Phe Asn Met Pro Thr Met Leu Ala Gly Trp Asp

515 520 525

Tyr Asn Asn Glu Thr Ala Asn Gly Cys Phe Leu Phe Ile Lys Asp Gly

530 535 540

Lys Tyr Phe Leu Gly Val Ala Asp Ser Lys Ser Lys Asn Ile Phe Asp

545 550 555 560

Phe Lys Lys Asn Pro His Leu Leu Asp Lys Tyr Ser Ser Lys Asp Ile

565 570 575

Tyr Tyr Lys Val Lys Tyr Lys Gln Val Ser Gly Ser Ala Lys Met Leu

580 585 590

Pro Lys Val Val Phe Ala Gly Ser Asn Glu Lys Ile Phe Gly His Leu

595 600 605

Ile Ser Lys Arg Ile Leu Glu Ile Arg Glu Lys Lys Leu Tyr Thr Ala

610 615 620

Ala Ala Gly Asp Arg Lys Ala Val Ala Glu Trp Ile Asp Phe Met Lys

625 630 635 640

Ser Ala Ile Ala Ile His Pro Glu Trp Asn Glu Tyr Phe Lys Phe Lys

645 650 655

Phe Lys Asn Thr Ala Glu Tyr Asp Asn Ala Asn Lys Phe Tyr Glu Asp

660 665 670

Ile Asp Lys Gln Thr Tyr Ser Leu Glu Lys Val Glu Ile Pro Thr Glu

675 680 685

Tyr Ile Asp Glu Met Val Ser Gln His Lys Leu Tyr Leu Phe Gln Leu

690 695 700

Tyr Thr Lys Asp Phe Ser Asp Lys Lys Lys Lys Lys Gly Thr Asp Asn

705 710 715 720

Leu His Thr Met Tyr Trp His Gly Val Phe Ser Asp Glu Asn Leu Lys

725 730 735

Ala Val Thr Glu Gly Thr Gln Pro Ile Ile Lys Leu Asn Gly Glu Ala

740 745 750

Glu Met Phe Met Arg Asn Pro Ser Ile Glu Phe Gln Val Thr His Glu

755 760 765

His Asn Lys Pro Ile Ala Asn Lys Asn Pro Leu Asn Thr Lys Lys Glu

770 775 780

Ser Val Phe Asn Tyr Asp Leu Ile Lys Asp Lys Arg Tyr Thr Glu Arg

785 790 795 800

Lys Phe Tyr Phe His Cys Pro Ile Thr Leu Asn Phe Arg Ala Asp Lys

805 810 815

Pro Ile Lys Tyr Asn Glu Lys Ile Asn Arg Phe Val Glu Asn Asn Pro

820 825 830

Asp Val Cys Ile Ile Gly Ile Asp Arg Gly Glu Arg His Leu Leu Tyr

835 840 845

Tyr Thr Val Ile Asn Gln Thr Gly Asp Ile Leu Glu Gln Gly Ser Leu

850 855 860

Asn Lys Ile Ser Gly Ser Tyr Thr Asn Asp Lys Gly Glu Lys Val Asn

865 870 875 880

Lys Glu Thr Asp Tyr His Asp Leu Leu Asp Arg Lys Glu Lys Gly Lys

885 890 895

His Val Ala Gln Gln Ala Trp Glu Thr Ile Glu Asn Ile Lys Glu Leu

900 905 910

Lys Ala Gly Tyr Leu Ser Gln Val Val Tyr Lys Leu Thr Gln Leu Met

915 920 925

Leu Gln Tyr Asn Ala Val Ile Val Leu Glu Asn Leu Asn Val Gly Phe

930 935 940

Lys Arg Gly Arg Thr Lys Val Glu Lys Gln Val Tyr Gln Lys Phe Glu

945 950 955 960

Lys Ala Met Ile Asp Lys Leu Asn Tyr Leu Val Phe Lys Asp Arg Gly

965 970 975

Tyr Glu Met Asn Gly Ser Tyr Ala Lys Gly Leu Gln Leu Thr Asp Lys

980 985 990

Phe Glu Ser Phe Asp Lys Ile Gly Lys Gln Thr Gly Cys Ile Tyr Tyr

995 1000 1005

Val Ile Pro Ser Tyr Thr Ser His Ile Asp Pro Lys Thr Gly Phe

1010 1015 1020

Val Asn Leu Leu Asn Ala Lys Leu Arg Tyr Glu Asn Ile Thr Lys

1025 1030 1035

Ala Gln Asp Thr Ile Arg Lys Phe Asp Ser Ile Ser Tyr Asn Ala

1040 1045 1050

Lys Ala Asp Tyr Phe Glu Phe Ala Phe Asp Tyr Arg Ser Phe Gly

1055 1060 1065

Val Asp Met Ala Arg Asn Glu Trp Val Val Cys Thr Cys Gly Asp

1070 1075 1080

Leu Arg Trp Glu Tyr Ser Ala Lys Thr Arg Glu Thr Lys Ala Tyr

1085 1090 1095

Ser Val Thr Asp Arg Leu Lys Glu Leu Phe Lys Ala His Gly Ile

1100 1105 1110

Asp Tyr Val Gly Gly Glu Asn Leu Val Ser His Ile Thr Glu Val

1115 1120 1125

Ala Asp Lys His Phe Leu Ser Thr Leu Leu Phe Tyr Leu Arg Leu

1130 1135 1140

Val Leu Lys Met Arg Tyr Thr Val Ser Gly Thr Glu Asn Glu Asn

1145 1150 1155

Asp Phe Ile Leu Ser Pro Val Glu Tyr Ala Pro Gly Lys Phe Phe

1160 1165 1170

Asp Ser Arg Glu Ala Thr Ser Thr Glu Pro Met Asn Ala Asp Ala

1175 1180 1185

Asn Gly Ala Tyr His Ile Ala Leu Lys Gly Leu Met Thr Ile Arg

1190 1195 1200

Gly Ile Glu Asp Gly Lys Leu His Asn Tyr Gly Lys Gly Gly Glu

1205 1210 1215

Asn Ala Ala Trp Phe Lys Phe Met Gln Asn Gln Glu Tyr Lys Asn

1220 1225 1230

Asn Gly

1235

<210> 106

<211> 1233

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность Lachnospiraceae bacterium

<400> 106

Met Asp Tyr Gly Asn Gly Gln Phe Glu Arg Arg Ala Pro Leu Thr Lys

1 5 10 15

Thr Ile Thr Leu Arg Leu Lys Pro Ile Gly Glu Thr Arg Glu Thr Ile

20 25 30

Arg Glu Gln Lys Leu Leu Glu Gln Asp Ala Ala Phe Arg Lys Leu Val

35 40 45

Glu Thr Val Thr Pro Ile Val Asp Asp Cys Ile Arg Lys Ile Ala Asp

50 55 60

Asn Ala Leu Cys His Phe Gly Thr Glu Tyr Asp Phe Ser Cys Leu Gly

65 70 75 80

Asn Ala Ile Ser Lys Asn Asp Ser Lys Ala Ile Lys Lys Glu Thr Glu

85 90 95

Lys Val Glu Lys Leu Leu Ala Lys Val Leu Thr Glu Asn Leu Pro Asp

100 105 110

Gly Leu Arg Lys Val Asn Asp Ile Asn Ser Ala Ala Phe Ile Gln Asp

115 120 125

Thr Leu Thr Ser Phe Val Gln Asp Asp Ala Asp Lys Arg Val Leu Ile

130 135 140

Gln Glu Leu Lys Gly Lys Thr Val Leu Met Gln Arg Phe Leu Thr Thr

145 150 155 160

Arg Ile Thr Ala Leu Thr Val Trp Leu Pro Asp Arg Val Phe Glu Asn

165 170 175

Phe Asn Ile Phe Ile Glu Asn Ala Glu Lys Met Arg Ile Leu Leu Asp

180 185 190

Ser Pro Leu Asn Glu Lys Ile Met Lys Phe Asp Pro Asp Ala Glu Gln

195 200 205

Tyr Ala Ser Leu Glu Phe Tyr Gly Gln Cys Leu Ser Gln Lys Asp Ile

210 215 220

Asp Ser Tyr Asn Leu Ile Ile Ser Gly Ile Tyr Ala Asp Asp Glu Val

225 230 235 240

Lys Asn Pro Gly Ile Asn Glu Ile Val Lys Glu Tyr Asn Gln Gln Ile

245 250 255

Arg Gly Asp Lys Asp Glu Ser Pro Leu Pro Lys Leu Lys Lys Leu His

260 265 270

Lys Gln Ile Leu Met Pro Val Glu Lys Ala Phe Phe Val Arg Val Leu

275 280 285

Ser Asn Asp Ser Asp Ala Arg Ser Ile Leu Glu Lys Ile Leu Lys Asp

290 295 300

Thr Glu Met Leu Pro Ser Lys Ile Ile Glu Ala Met Lys Glu Ala Asp

305 310 315 320

Ala Gly Asp Ile Ala Val Tyr Gly Ser Arg Leu His Glu Leu Ser His

325 330 335

Val Ile Tyr Gly Asp His Gly Lys Leu Ser Gln Ile Ile Tyr Asp Lys

340 345 350

Glu Ser Lys Arg Ile Ser Glu Leu Met Glu Thr Leu Ser Pro Lys Glu

355 360 365

Arg Lys Glu Ser Lys Lys Arg Leu Glu Gly Leu Glu Glu His Ile Arg

370 375 380

Lys Ser Thr Tyr Thr Phe Asp Glu Leu Asn Arg Tyr Ala Glu Lys Asn

385 390 395 400

Val Met Ala Ala Tyr Ile Ala Ala Val Glu Glu Ser Cys Ala Glu Ile

405 410 415

Met Arg Lys Glu Lys Asp Leu Arg Thr Leu Leu Ser Lys Glu Asp Val

420 425 430

Lys Ile Arg Gly Asn Arg His Asn Thr Leu Ile Val Lys Asn Tyr Phe

435 440 445

Asn Ala Trp Thr Val Phe Arg Asn Leu Ile Arg Ile Leu Arg Arg Lys

450 455 460

Ser Glu Ala Glu Ile Asp Ser Asp Phe Tyr Asp Val Leu Asp Asp Ser

465 470 475 480

Val Glu Val Leu Ser Leu Thr Tyr Lys Gly Glu Asn Leu Cys Arg Ser

485 490 495

Tyr Ile Thr Lys Lys Ile Gly Ser Asp Leu Lys Pro Glu Ile Ala Thr

500 505 510

Tyr Gly Ser Ala Leu Arg Pro Asn Ser Arg Trp Trp Ser Pro Gly Glu

515 520 525

Lys Phe Asn Val Lys Phe His Thr Ile Val Arg Arg Asp Gly Arg Leu

530 535 540

Tyr Tyr Phe Ile Leu Pro Lys Gly Ala Lys Pro Val Glu Leu Glu Asp

545 550 555 560

Met Asp Gly Asp Ile Glu Cys Leu Gln Met Arg Lys Ile Pro Asn Pro

565 570 575

Thr Ile Phe Leu Pro Lys Leu Val Phe Lys Asp Pro Glu Ala Phe Phe

580 585 590

Arg Asp Asn Pro Glu Ala Asp Glu Phe Val Phe Leu Ser Gly Met Lys

595 600 605

Ala Pro Val Thr Ile Thr Arg Glu Thr Tyr Glu Ala Tyr Arg Tyr Lys

610 615 620

Leu Tyr Thr Val Gly Lys Leu Arg Asp Gly Glu Val Ser Glu Glu Glu

625 630 635 640

Tyr Lys Arg Ala Leu Leu Gln Val Leu Thr Ala Tyr Lys Glu Phe Leu

645 650 655

Glu Asn Arg Met Ile Tyr Ala Asp Leu Asn Phe Gly Phe Lys Asp Leu

660 665 670

Glu Glu Tyr Lys Asp Ser Ser Glu Phe Ile Lys Gln Val Glu Thr His

675 680 685

Asn Thr Phe Met Cys Trp Ala Lys Val Ser Ser Ser Gln Leu Asp Asp

690 695 700

Leu Val Lys Ser Gly Asn Gly Leu Leu Phe Glu Ile Trp Ser Glu Arg

705 710 715 720

Leu Glu Ser Tyr Tyr Lys Tyr Gly Asn Glu Lys Val Leu Arg Gly Tyr

725 730 735

Glu Gly Val Leu Leu Ser Ile Leu Lys Asp Glu Asn Leu Val Ser Met

740 745 750

Arg Thr Leu Leu Asn Ser Arg Pro Met Leu Val Tyr Arg Pro Lys Glu

755 760 765

Ser Ser Lys Pro Met Val Val His Arg Asp Gly Ser Arg Val Val Asp

770 775 780

Arg Phe Asp Lys Asp Gly Lys Tyr Ile Pro Pro Glu Val His Asp Glu

785 790 795 800

Leu Tyr Arg Phe Phe Asn Asn Leu Leu Ile Lys Glu Lys Leu Gly Glu

805 810 815

Lys Ala Arg Lys Ile Leu Asp Asn Lys Lys Val Lys Val Lys Val Leu

820 825 830

Glu Ser Glu Arg Val Lys Trp Ser Lys Phe Tyr Asp Glu Gln Phe Ala

835 840 845

Val Thr Phe Ser Val Lys Lys Asn Ala Asp Cys Leu Asp Thr Thr Lys

850 855 860

Asp Leu Asn Ala Glu Val Met Glu Gln Tyr Ser Glu Ser Asn Arg Leu

865 870 875 880

Ile Leu Ile Arg Asn Thr Thr Asp Ile Leu Tyr Tyr Leu Val Leu Asp

885 890 895

Lys Asn Gly Lys Val Leu Lys Gln Arg Ser Leu Asn Ile Ile Asn Asp

900 905 910

Gly Ala Arg Asp Val Asp Trp Lys Glu Arg Phe Arg Gln Val Thr Lys

915 920 925

Asp Arg Asn Glu Gly Tyr Asn Glu Trp Asp Tyr Ser Arg Thr Ser Asn

930 935 940

Asp Leu Lys Glu Val Tyr Leu Asn Tyr Ala Leu Lys Glu Ile Ala Glu

945 950 955 960

Ala Val Ile Glu Tyr Asn Ala Ile Leu Ile Ile Glu Lys Met Ser Asn

965 970 975

Ala Phe Lys Asp Lys Tyr Ser Phe Leu Asp Asp Val Thr Phe Lys Gly

980 985 990

Phe Glu Thr Lys Leu Leu Ala Lys Leu Ser Asp Leu His Phe Arg Gly

995 1000 1005

Ile Lys Asp Gly Glu Pro Cys Ser Phe Thr Asn Pro Leu Gln Leu

1010 1015 1020

Cys Gln Asn Asp Ser Asn Lys Ile Leu Gln Asp Gly Val Ile Phe

1025 1030 1035

Met Val Pro Asn Ser Met Thr Arg Ser Leu Asp Pro Asp Thr Gly

1040 1045 1050

Phe Ile Phe Ala Ile Asn Asp His Asn Ile Arg Thr Lys Lys Ala

1055 1060 1065

Lys Leu Asn Phe Leu Ser Lys Phe Asp Gln Leu Lys Val Ser Ser

1070 1075 1080

Glu Gly Cys Leu Ile Met Lys Tyr Ser Gly Asp Ser Leu Pro Thr

1085 1090 1095

His Asn Thr Asp Asn Arg Val Trp Asn Cys Cys Cys Asn His Pro

1100 1105 1110

Ile Thr Asn Tyr Asp Arg Glu Thr Lys Lys Val Glu Phe Ile Glu

1115 1120 1125

Glu Pro Val Glu Glu Leu Ser Arg Val Leu Glu Glu Asn Gly Ile

1130 1135 1140

Glu Thr Asp Thr Glu Leu Asn Lys Leu Asn Glu Arg Glu Asn Val

1145 1150 1155

Pro Gly Lys Val Val Asp Ala Ile Tyr Ser Leu Val Leu Asn Tyr

1160 1165 1170

Leu Arg Gly Thr Val Ser Gly Val Ala Gly Gln Arg Ala Val Tyr

1175 1180 1185

Tyr Ser Pro Val Thr Gly Lys Lys Tyr Asp Ile Ser Phe Ile Gln

1190 1195 1200

Ala Met Asn Leu Asn Arg Lys Cys Asp Tyr Tyr Arg Ile Gly Ser

1205 1210 1215

Lys Glu Arg Gly Glu Trp Thr Asp Phe Val Ala Gln Leu Ile Asn

1220 1225 1230

<210> 107

<211> 1231

<212> БЕЛОК

<213> Butyrivibrio fibrisolvens

<400> 107

Met Tyr Tyr Glu Ser Leu Thr Lys Leu Tyr Pro Ile Lys Lys Thr Ile

1 5 10 15

Arg Asn Glu Leu Val Pro Ile Gly Lys Thr Leu Glu Asn Ile Lys Lys

20 25 30

Asn Asn Ile Leu Glu Ala Asp Glu Asp Arg Lys Ile Ala Tyr Ile Arg

35 40 45

Val Lys Ala Ile Met Asp Asp Tyr His Lys Arg Leu Ile Asn Glu Ala

50 55 60

Leu Ser Gly Phe Ala Leu Ile Asp Leu Asp Lys Ala Ala Asn Leu Tyr

65 70 75 80

Leu Ser Arg Ser Lys Ser Ala Asp Asp Ile Glu Ser Phe Ser Arg Phe

85 90 95

Gln Asp Lys Leu Arg Lys Ala Ile Ala Lys Arg Leu Arg Glu His Glu

100 105 110

Asn Phe Gly Lys Ile Gly Asn Lys Asp Ile Ile Pro Leu Leu Gln Lys

115 120 125

Leu Ser Glu Asn Glu Asp Asp Tyr Asn Ala Leu Glu Ser Phe Lys Asn

130 135 140

Phe Tyr Thr Tyr Phe Glu Ser Tyr Asn Asp Val Arg Leu Asn Leu Tyr

145 150 155 160

Ser Asp Lys Glu Lys Ser Ser Thr Val Ala Tyr Arg Leu Ile Asn Glu

165 170 175

Asn Leu Pro Arg Phe Leu Asp Asn Ile Arg Ala Tyr Asp Ala Val Gln

180 185 190

Lys Ala Gly Ile Thr Ser Glu Glu Leu Ser Ser Glu Ala Gln Asp Gly

195 200 205

Leu Phe Leu Val Asn Thr Phe Asn Asn Val Leu Ile Gln Asp Gly Ile

210 215 220

Asn Thr Tyr Asn Glu Asp Ile Gly Lys Leu Asn Val Ala Ile Asn Leu

225 230 235 240

Tyr Asn Gln Lys Asn Ala Ser Val Gln Gly Phe Arg Lys Val Pro Lys

245 250 255

Met Lys Val Leu Tyr Lys Gln Ile Leu Ser Asp Arg Glu Glu Ser Phe

260 265 270

Ile Asp Glu Phe Glu Ser Asp Thr Glu Leu Leu Asp Ser Leu Glu Ser

275 280 285

His Tyr Ala Asn Leu Ala Lys Tyr Phe Gly Ser Asn Lys Val Gln Leu

290 295 300

Leu Phe Thr Ala Leu Arg Glu Ser Lys Gly Val Asn Val Tyr Val Lys

305 310 315 320

Asn Asp Ile Ala Lys Thr Ser Phe Ser Asn Val Val Phe Gly Ser Trp

325 330 335

Ser Arg Ile Asp Glu Leu Ile Asn Gly Glu Tyr Asp Asp Asn Asn Asn

340 345 350

Arg Lys Lys Asp Glu Lys Tyr Tyr Asp Lys Arg Gln Lys Glu Leu Lys

355 360 365

Lys Asn Lys Ser Tyr Thr Ile Glu Lys Ile Ile Thr Leu Ser Thr Glu

370 375 380

Asp Val Asp Val Ile Gly Lys Tyr Ile Glu Lys Leu Glu Ser Asp Ile

385 390 395 400

Asp Asp Ile Arg Phe Lys Gly Lys Asn Phe Tyr Glu Ala Val Leu Cys

405 410 415

Gly His Asp Arg Ser Lys Lys Leu Ser Lys Asn Lys Gly Ala Val Glu

420 425 430

Ala Ile Lys Gly Tyr Leu Asp Ser Val Lys Asp Phe Glu Arg Asp Leu

435 440 445

Lys Leu Ile Asn Gly Ser Gly Gln Glu Leu Glu Lys Asn Leu Val Val

450 455 460

Tyr Gly Glu Gln Glu Ala Val Leu Ser Glu Leu Ser Gly Ile Asp Ser

465 470 475 480

Leu Tyr Asn Met Thr Arg Asn Tyr Leu Thr Lys Lys Pro Phe Ser Thr

485 490 495

Glu Lys Ile Lys Leu Asn Phe Asn Lys Pro Thr Phe Leu Asp Gly Trp

500 505 510

Asp Tyr Gly Asn Glu Glu Ala Tyr Leu Gly Phe Phe Met Ile Lys Glu

515 520 525

Gly Asn Tyr Phe Leu Ala Val Met Asp Ala Asn Trp Asn Lys Glu Phe

530 535 540

Arg Asn Ile Pro Ser Val Asp Lys Ser Asp Cys Tyr Lys Lys Val Ile

545 550 555 560

Tyr Lys Gln Ile Ser Ser Pro Glu Lys Ser Ile Gln Asn Leu Met Val

565 570 575

Ile Asp Gly Lys Thr Val Lys Lys Asn Gly Arg Lys Glu Lys Glu Gly

580 585 590

Ile His Ser Gly Glu Asn Leu Ile Leu Glu Glu Leu Lys Asn Thr Tyr

595 600 605

Leu Pro Lys Lys Ile Asn Asp Ile Arg Lys Arg Arg Ser Tyr Leu Asn

610 615 620

Gly Asp Thr Phe Ser Lys Lys Asp Leu Thr Glu Phe Ile Gly Tyr Tyr

625 630 635 640

Lys Gln Arg Val Ile Glu Tyr Tyr Asn Gly Tyr Ser Phe Tyr Phe Lys

645 650 655

Ser Asp Asp Asp Tyr Ala Ser Phe Lys Glu Phe Gln Glu Asp Val Gly

660 665 670

Arg Gln Ala Tyr Gln Ile Ser Tyr Val Asp Val Pro Val Ser Phe Val

675 680 685

Asp Asp Leu Ile Asn Ser Gly Lys Leu Tyr Leu Phe Arg Val Tyr Asn

690 695 700

Lys Asp Phe Ser Glu Tyr Ser Lys Gly Arg Leu Asn Leu His Thr Leu

705 710 715 720

Tyr Phe Lys Met Leu Phe Asp Glu Arg Asn Leu Lys Asn Val Val Tyr

725 730 735

Lys Leu Asn Gly Gln Ala Glu Val Phe Tyr Arg Pro Ser Ser Ile Lys

740 745 750

Lys Glu Glu Leu Ile Val His Arg Ala Gly Glu Glu Ile Lys Asn Lys

755 760 765

Asn Pro Lys Arg Ala Ala Gln Lys Pro Thr Arg Arg Leu Asp Tyr Asp

770 775 780

Ile Val Lys Asp Arg Arg Tyr Ser Gln Asp Lys Phe Met Leu His Thr

785 790 795 800

Ser Ile Ile Met Asn Phe Gly Ala Glu Glu Asn Val Ser Phe Asn Asp

805 810 815

Ile Val Asn Gly Val Leu Arg Asn Glu Asp Lys Val Asn Val Ile Gly

820 825 830

Ile Asp Arg Gly Glu Arg Asn Leu Leu Tyr Val Val Val Ile Asp Pro

835 840 845

Glu Gly Lys Ile Leu Glu Gln Arg Ser Leu Asn Cys Ile Thr Asp Ser

850 855 860

Asn Leu Asp Ile Glu Thr Asp Tyr His Arg Leu Leu Asp Glu Lys Glu

865 870 875 880

Ser Asp Arg Lys Ile Ala Arg Arg Asp Trp Thr Thr Ile Glu Asn Ile

885 890 895

Lys Glu Leu Lys Ala Gly Tyr Leu Ser Gln Val Val His Ile Val Ala

900 905 910

Glu Leu Val Leu Lys Tyr Asn Ala Ile Ile Cys Leu Glu Asp Leu Asn

915 920 925

Phe Gly Phe Lys Arg Gly Arg Gln Lys Val Glu Lys Gln Val Tyr Gln

930 935 940

Lys Phe Glu Lys Met Leu Ile Asp Lys Leu Asn Tyr Leu Val Met Asp

945 950 955 960

Lys Ser Arg Glu Gln Leu Ser Pro Glu Lys Ile Ser Gly Ala Leu Asn

965 970 975

Ala Leu Gln Leu Thr Pro Asp Phe Lys Ser Phe Lys Val Leu Gly Lys

980 985 990

Gln Thr Gly Ile Ile Tyr Tyr Val Pro Ala Tyr Leu Thr Ser Lys Ile

995 1000 1005

Asp Pro Met Thr Gly Phe Ala Asn Leu Phe Tyr Val Lys Tyr Glu

1010 1015 1020

Asn Val Asp Lys Ala Lys Glu Phe Phe Ser Lys Phe Asp Ser Ile

1025 1030 1035

Lys Tyr Asn Lys Asp Gly Lys Asn Trp Asn Thr Lys Gly Tyr Phe

1040 1045 1050

Glu Phe Ala Phe Asp Tyr Lys Lys Phe Thr Asp Arg Ala Tyr Gly

1055 1060 1065

Arg Val Ser Glu Trp Thr Val Cys Thr Val Gly Glu Arg Ile Ile

1070 1075 1080

Lys Phe Lys Asn Lys Glu Lys Asn Asn Ser Tyr Asp Asp Lys Val

1085 1090 1095

Ile Asp Leu Thr Asn Ser Leu Lys Glu Leu Phe Asp Ser Tyr Lys

1100 1105 1110

Val Thr Tyr Glu Ser Glu Val Asp Leu Lys Asp Ala Ile Leu Ala

1115 1120 1125

Ile Asp Asp Pro Ala Phe Tyr Arg Asp Leu Thr Arg Arg Leu Gln

1130 1135 1140

Gln Thr Leu Gln Met Arg Asn Ser Ser Cys Asp Gly Ser Arg Asp

1145 1150 1155

Tyr Ile Ile Ser Pro Val Lys Asn Ser Lys Gly Glu Phe Phe Cys

1160 1165 1170

Ser Asp Asn Asn Asp Asp Thr Thr Pro Asn Asp Ala Asp Ala Asn

1175 1180 1185

Gly Ala Phe Asn Ile Ala Arg Lys Gly Leu Trp Val Leu Asn Glu

1190 1195 1200

Ile Arg Asn Ser Glu Glu Gly Ser Lys Ile Asn Leu Ala Met Ser

1205 1210 1215

Asn Ala Gln Trp Leu Glu Tyr Ala Gln Asp Asn Thr Ile

1220 1225 1230

<210> 108

<211> 1230

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность Lachnospiraceae bacterium

<400> 108

Met His Glu Asn Asn Gly Lys Ile Ala Asp Asn Phe Ile Gly Ile Tyr

1 5 10 15

Pro Val Ser Lys Thr Leu Arg Phe Glu Leu Lys Pro Val Gly Lys Thr

20 25 30

Gln Glu Tyr Ile Glu Lys His Gly Ile Leu Asp Glu Asp Leu Lys Arg

35 40 45

Ala Gly Asp Tyr Lys Ser Val Lys Lys Ile Ile Asp Ala Tyr His Lys

50 55 60

Tyr Phe Ile Asp Glu Ala Leu Asn Gly Ile Gln Leu Asp Gly Leu Lys

65 70 75 80

Asn Tyr Tyr Glu Leu Tyr Glu Lys Lys Arg Asp Asn Asn Glu Glu Lys

85 90 95

Glu Phe Gln Lys Ile Gln Met Ser Leu Arg Lys Gln Ile Val Lys Arg

100 105 110

Phe Ser Glu His Pro Gln Tyr Lys Tyr Leu Phe Lys Lys Glu Leu Ile

115 120 125

Lys Asn Val Leu Pro Glu Phe Thr Lys Asp Asn Ala Glu Glu Gln Thr

130 135 140

Leu Val Lys Ser Phe Gln Glu Phe Thr Thr Tyr Phe Glu Gly Phe His

145 150 155 160

Gln Asn Arg Lys Asn Met Tyr Ser Asp Glu Glu Lys Ser Thr Ala Ile

165 170 175

Ala Tyr Arg Val Val His Gln Asn Leu Pro Lys Tyr Ile Asp Asn Met

180 185 190

Arg Ile Phe Ser Met Ile Leu Asn Thr Asp Ile Arg Ser Asp Leu Thr

195 200 205

Glu Leu Phe Asn Asn Leu Lys Thr Lys Met Asp Ile Thr Ile Val Glu

210 215 220

Glu Tyr Phe Ala Ile Asp Gly Phe Asn Lys Val Val Asn Gln Lys Gly

225 230 235 240

Ile Asp Val Tyr Asn Thr Ile Leu Gly Ala Phe Ser Thr Asp Asp Asn

245 250 255

Thr Lys Ile Lys Gly Leu Asn Glu Tyr Ile Asn Leu Tyr Asn Gln Lys

260 265 270

Asn Lys Ala Lys Leu Pro Lys Leu Lys Pro Leu Phe Lys Gln Ile Leu

275 280 285

Ser Asp Arg Asp Lys Ile Ser Phe Ile Pro Glu Gln Phe Asp Ser Asp

290 295 300

Thr Glu Val Leu Glu Ala Val Asp Met Phe Tyr Asn Arg Leu Leu Gln

305 310 315 320

Phe Val Ile Glu Asn Glu Gly Gln Ile Thr Ile Ser Lys Leu Leu Thr

325 330 335

Asn Phe Ser Ala Tyr Asp Leu Asn Lys Ile Tyr Val Lys Asn Asp Thr

340 345 350

Thr Ile Ser Ala Ile Ser Asn Asp Leu Phe Asp Asp Trp Ser Tyr Ile

355 360 365

Ser Lys Ala Val Arg Glu Asn Tyr Asp Ser Glu Asn Val Asp Lys Asn

370 375 380

Lys Arg Ala Ala Ala Tyr Glu Glu Lys Lys Glu Lys Ala Leu Ser Lys

385 390 395 400

Ile Lys Met Tyr Ser Ile Glu Glu Leu Asn Phe Phe Val Lys Lys Tyr

405 410 415

Ser Cys Asn Glu Cys His Ile Glu Gly Tyr Phe Glu Arg Arg Ile Leu

420 425 430

Glu Ile Leu Asp Lys Met Arg Tyr Ala Tyr Glu Ser Cys Lys Ile Leu

435 440 445

His Asp Lys Gly Leu Ile Asn Asn Ile Ser Leu Cys Gln Asp Arg Gln

450 455 460

Ala Ile Ser Glu Leu Lys Asp Phe Leu Asp Ser Ile Lys Glu Val Gln

465 470 475 480

Trp Leu Leu Lys Pro Leu Met Ile Gly Gln Glu Gln Ala Asp Lys Glu

485 490 495

Glu Ala Phe Tyr Thr Glu Leu Leu Arg Ile Trp Glu Glu Leu Glu Pro

500 505 510

Ile Thr Leu Leu Tyr Asn Lys Val Arg Asn Tyr Val Thr Lys Lys Pro

515 520 525

Tyr Thr Leu Glu Lys Val Lys Leu Asn Phe Tyr Lys Ser Thr Leu Leu

530 535 540

Asp Gly Trp Asp Lys Asn Lys Glu Lys Asp Asn Leu Gly Ile Ile Leu

545 550 555 560

Leu Lys Asp Gly Gln Tyr Tyr Leu Gly Ile Met Asn Arg Arg Asn Asn

565 570 575

Lys Ile Ala Asp Asp Ala Pro Leu Ala Lys Thr Asp Asn Val Tyr Arg

580 585 590

Lys Met Glu Tyr Lys Leu Leu Thr Lys Val Ser Ala Asn Leu Pro Arg

595 600 605

Ile Phe Leu Lys Asp Lys Tyr Asn Pro Ser Glu Glu Met Leu Glu Lys

610 615 620

Tyr Glu Lys Gly Thr His Leu Lys Gly Glu Asn Phe Cys Ile Asp Asp

625 630 635 640

Cys Arg Glu Leu Ile Asp Phe Phe Lys Lys Gly Ile Lys Gln Tyr Glu

645 650 655

Asp Trp Gly Gln Phe Asp Phe Lys Phe Ser Asp Thr Glu Ser Tyr Asp

660 665 670

Asp Ile Ser Ala Phe Tyr Lys Glu Val Glu His Gln Gly Tyr Lys Ile

675 680 685

Thr Phe Arg Asp Ile Asp Glu Thr Tyr Ile Asp Ser Leu Val Asn Glu

690 695 700

Gly Lys Leu Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser Pro Tyr

705 710 715 720

Ser Lys Gly Thr Lys Asn Leu His Thr Leu Tyr Trp Glu Met Leu Phe

725 730 735

Ser Gln Gln Asn Leu Gln Asn Ile Val Tyr Lys Leu Asn Gly Asn Ala

740 745 750

Glu Ile Phe Tyr Arg Lys Ala Ser Ile Asn Gln Lys Asp Val Val Val

755 760 765

His Lys Ala Asp Leu Pro Ile Lys Asn Lys Asp Pro Gln Asn Ser Lys

770 775 780

Lys Glu Ser Met Phe Asp Tyr Asp Ile Ile Lys Asp Lys Arg Phe Thr

785 790 795 800

Cys Asp Lys Tyr Gln Phe His Val Pro Ile Thr Met Asn Phe Lys Ala

805 810 815

Leu Gly Glu Asn His Phe Asn Arg Lys Val Asn Arg Leu Ile His Asp

820 825 830

Ala Glu Asn Met His Ile Ile Gly Ile Asp Arg Gly Glu Arg Asn Leu

835 840 845

Ile Tyr Leu Cys Met Ile Asp Met Lys Gly Asn Ile Val Lys Gln Ile

850 855 860

Ser Leu Asn Glu Ile Ile Ser Tyr Asp Lys Asn Lys Leu Glu His Lys

865 870 875 880

Arg Asn Tyr His Gln Leu Leu Lys Thr Arg Glu Asp Glu Asn Lys Ser

885 890 895

Ala Arg Gln Ser Trp Gln Thr Ile His Thr Ile Lys Glu Leu Lys Glu

900 905 910

Gly Tyr Leu Ser Gln Val Ile His Val Ile Thr Asp Leu Met Val Glu

915 920 925

Tyr Asn Ala Ile Val Val Leu Glu Asp Leu Asn Phe Gly Phe Lys Gln

930 935 940

Gly Arg Gln Lys Phe Glu Arg Gln Val Tyr Gln Lys Phe Glu Lys Met

945 950 955 960

Leu Ile Asp Lys Leu Asn Tyr Leu Val Asp Lys Ser Lys Gly Met Asp

965 970 975

Glu Asp Gly Gly Leu Leu His Ala Tyr Gln Leu Thr Asp Glu Phe Lys

980 985 990

Ser Phe Lys Gln Leu Gly Lys Gln Ser Gly Phe Leu Tyr Tyr Ile Pro

995 1000 1005

Ala Trp Asn Thr Ser Lys Leu Asp Pro Thr Thr Gly Phe Val Asn

1010 1015 1020

Leu Phe Tyr Thr Lys Tyr Glu Ser Val Glu Lys Ser Lys Glu Phe

1025 1030 1035

Ile Asn Asn Phe Thr Ser Ile Leu Tyr Asn Gln Glu Arg Glu Tyr

1040 1045 1050

Phe Glu Phe Leu Phe Asp Tyr Ser Ala Phe Thr Ser Lys Ala Glu

1055 1060 1065

Gly Ser Arg Leu Lys Trp Thr Val Cys Ser Lys Gly Glu Arg Val

1070 1075 1080

Glu Thr Tyr Arg Asn Pro Lys Lys Asn Asn Glu Trp Asp Thr Gln

1085 1090 1095

Lys Ile Asp Leu Thr Phe Glu Leu Lys Lys Leu Phe Asn Asp Tyr

1100 1105 1110

Ser Ile Ser Leu Leu Asp Gly Asp Leu Arg Glu Gln Met Gly Lys

1115 1120 1125

Ile Asp Lys Ala Asp Phe Tyr Lys Lys Phe Met Lys Leu Phe Ala

1130 1135 1140

Leu Ile Val Gln Met Arg Asn Ser Asp Glu Arg Glu Asp Lys Leu

1145 1150 1155

Ile Ser Pro Val Leu Asn Lys Tyr Gly Ala Phe Phe Glu Thr Gly

1160 1165 1170

Lys Asn Glu Arg Met Pro Leu Asp Ala Asp Ala Asn Gly Ala Tyr

1175 1180 1185

Asn Ile Ala Arg Lys Gly Leu Trp Ile Ile Glu Lys Ile Lys Asn

1190 1195 1200

Thr Asp Val Glu Gln Leu Asp Lys Val Lys Leu Thr Ile Ser Asn

1205 1210 1215

Lys Glu Trp Leu Gln Tyr Ala Gln Glu His Ile Leu

1220 1225 1230

<210> 109

<211> 1228

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность Lachnospiraceae bacterium

<400> 109

Met Ser Lys Leu Glu Lys Phe Thr Asn Cys Tyr Ser Leu Ser Lys Thr

1 5 10 15

Leu Arg Phe Lys Ala Ile Pro Val Gly Lys Thr Gln Glu Asn Ile Asp

20 25 30

Asn Lys Arg Leu Leu Val Glu Asp Glu Lys Arg Ala Glu Asp Tyr Lys

35 40 45

Gly Val Lys Lys Leu Leu Asp Arg Tyr Tyr Leu Ser Phe Ile Asn Asp

50 55 60

Val Leu His Ser Ile Lys Leu Lys Asn Leu Asn Asn Tyr Ile Ser Leu

65 70 75 80

Phe Arg Lys Lys Thr Arg Thr Glu Lys Glu Asn Lys Glu Leu Glu Asn

85 90 95

Leu Glu Ile Asn Leu Arg Lys Glu Ile Ala Lys Ala Phe Lys Gly Asn

100 105 110

Glu Gly Tyr Lys Ser Leu Phe Lys Lys Asp Ile Ile Glu Thr Ile Leu

115 120 125

Pro Glu Phe Leu Asp Asp Lys Asp Glu Ile Ala Leu Val Asn Ser Phe

130 135 140

Asn Gly Phe Thr Thr Ala Phe Thr Gly Phe Phe Asp Asn Arg Glu Asn

145 150 155 160

Met Phe Ser Glu Glu Ala Lys Ser Thr Ser Ile Ala Phe Arg Cys Ile

165 170 175

Asn Glu Asn Leu Thr Arg Tyr Ile Ser Asn Met Asp Ile Phe Glu Lys

180 185 190

Val Asp Ala Ile Phe Asp Lys His Glu Val Gln Glu Ile Lys Glu Lys

195 200 205

Ile Leu Asn Ser Asp Tyr Asp Val Glu Asp Phe Phe Glu Gly Glu Phe

210 215 220

Phe Asn Phe Val Leu Thr Gln Glu Gly Ile Asp Val Tyr Asn Ala Ile

225 230 235 240

Ile Gly Gly Phe Val Thr Glu Ser Gly Glu Lys Ile Lys Gly Leu Asn

245 250 255

Glu Tyr Ile Asn Leu Tyr Asn Gln Lys Thr Lys Gln Lys Leu Pro Lys

260 265 270

Phe Lys Pro Leu Tyr Lys Gln Val Leu Ser Asp Arg Glu Ser Leu Ser

275 280 285

Phe Tyr Gly Glu Gly Tyr Thr Ser Asp Glu Glu Val Leu Glu Val Phe

290 295 300

Arg Asn Thr Leu Asn Lys Asn Ser Glu Ile Phe Ser Ser Ile Lys Lys

305 310 315 320

Leu Glu Lys Leu Phe Lys Asn Phe Asp Glu Tyr Ser Ser Ala Gly Ile

325 330 335

Phe Val Lys Asn Gly Pro Ala Ile Ser Thr Ile Ser Lys Asp Ile Phe

340 345 350

Gly Glu Trp Asn Val Ile Arg Asp Lys Trp Asn Ala Glu Tyr Asp Asp

355 360 365

Ile His Leu Lys Lys Lys Ala Val Val Thr Glu Lys Tyr Glu Asp Asp

370 375 380

Arg Arg Lys Ser Phe Lys Lys Ile Gly Ser Phe Ser Leu Glu Gln Leu

385 390 395 400

Gln Glu Tyr Ala Asp Ala Asp Leu Ser Val Val Glu Lys Leu Lys Glu

405 410 415

Ile Ile Ile Gln Lys Val Asp Glu Ile Tyr Lys Val Tyr Gly Ser Ser

420 425 430

Glu Lys Leu Phe Asp Ala Asp Phe Val Leu Glu Lys Ser Leu Lys Lys

435 440 445

Asn Asp Ala Val Val Ala Ile Met Lys Asp Leu Leu Asp Ser Val Lys

450 455 460

Ser Phe Glu Asn Tyr Ile Lys Ala Phe Phe Gly Glu Gly Lys Glu Thr

465 470 475 480

Asn Arg Asp Glu Ser Phe Tyr Gly Asp Phe Val Leu Ala Tyr Asp Ile

485 490 495

Leu Leu Lys Val Asp His Ile Tyr Asp Ala Ile Arg Asn Tyr Val Thr

500 505 510

Gln Lys Pro Tyr Ser Lys Asp Lys Phe Lys Leu Tyr Phe Gln Asn Pro

515 520 525

Gln Phe Met Gly Gly Trp Asp Lys Asp Lys Glu Thr Asp Tyr Arg Ala

530 535 540

Thr Ile Leu Arg Tyr Gly Ser Lys Tyr Tyr Leu Ala Ile Met Asp Lys

545 550 555 560

Lys Tyr Ala Lys Cys Leu Gln Lys Ile Asp Lys Asp Asp Val Asn Gly

565 570 575

Asn Tyr Glu Lys Ile Asn Tyr Lys Leu Leu Pro Gly Pro Asn Lys Met

580 585 590

Leu Pro Lys Val Phe Phe Ser Lys Lys Trp Met Ala Tyr Tyr Asn Pro

595 600 605

Ser Glu Asp Ile Gln Lys Ile Tyr Lys Asn Gly Thr Phe Lys Lys Gly

610 615 620

Asp Met Phe Asn Leu Asn Asp Cys His Lys Leu Ile Asp Phe Phe Lys

625 630 635 640

Asp Ser Ile Ser Arg Tyr Pro Lys Trp Ser Asn Ala Tyr Asp Phe Asn

645 650 655

Phe Ser Glu Thr Glu Lys Tyr Lys Asp Ile Ala Gly Phe Tyr Arg Glu

660 665 670

Val Glu Glu Gln Gly Tyr Lys Val Ser Phe Glu Ser Ala Ser Lys Lys

675 680 685

Glu Val Asp Lys Leu Val Glu Glu Gly Lys Leu Tyr Met Phe Gln Ile

690 695 700

Tyr Asn Lys Asp Phe Ser Asp Lys Ser His Gly Thr Pro Asn Leu His

705 710 715 720

Thr Met Tyr Phe Lys Leu Leu Phe Asp Glu Asn Asn His Gly Gln Ile

725 730 735

Arg Leu Ser Gly Gly Ala Glu Leu Phe Met Arg Arg Ala Ser Leu Lys

740 745 750

Lys Glu Glu Leu Val Val His Pro Ala Asn Ser Pro Ile Ala Asn Lys

755 760 765

Asn Pro Asp Asn Pro Lys Lys Thr Thr Thr Leu Ser Tyr Asp Val Tyr

770 775 780

Lys Asp Lys Arg Phe Ser Glu Asp Gln Tyr Glu Leu His Ile Pro Ile

785 790 795 800

Ala Ile Asn Lys Cys Pro Lys Asn Ile Phe Lys Ile Asn Thr Glu Val

805 810 815

Arg Val Leu Leu Lys His Asp Asp Asn Pro Tyr Val Ile Gly Ile Asp

820 825 830

Arg Gly Glu Arg Asn Leu Leu Tyr Ile Val Val Val Asp Gly Lys Gly

835 840 845

Asn Ile Val Glu Gln Tyr Ser Leu Asn Glu Ile Ile Asn Asn Phe Asn

850 855 860

Gly Ile Arg Ile Lys Thr Asp Tyr His Ser Leu Leu Asp Lys Lys Glu

865 870 875 880

Lys Glu Arg Phe Glu Ala Arg Gln Asn Trp Thr Ser Ile Glu Asn Ile

885 890 895

Lys Glu Leu Lys Ala Gly Tyr Ile Ser Gln Val Val His Lys Ile Cys

900 905 910

Glu Leu Val Glu Lys Tyr Asp Ala Val Ile Ala Leu Glu Asp Leu Asn

915 920 925

Ser Gly Phe Lys Asn Ser Arg Val Lys Val Glu Lys Gln Val Tyr Gln

930 935 940

Lys Phe Glu Lys Met Leu Ile Asp Lys Leu Asn Tyr Met Val Asp Lys

945 950 955 960

Lys Ser Asn Pro Cys Ala Thr Gly Gly Ala Leu Lys Gly Tyr Gln Ile

965 970 975

Thr Asn Lys Phe Glu Ser Phe Lys Ser Met Ser Thr Gln Asn Gly Phe

980 985 990

Ile Phe Tyr Ile Pro Ala Trp Leu Thr Ser Lys Ile Asp Pro Ser Thr

995 1000 1005

Gly Phe Val Asn Leu Leu Lys Thr Lys Tyr Thr Ser Ile Ala Asp

1010 1015 1020

Ser Lys Lys Phe Ile Ser Ser Phe Asp Arg Ile Met Tyr Val Pro

1025 1030 1035

Glu Glu Asp Leu Phe Glu Phe Ala Leu Asp Tyr Lys Asn Phe Ser

1040 1045 1050

Arg Thr Asp Ala Asp Tyr Ile Lys Lys Trp Lys Leu Tyr Ser Tyr

1055 1060 1065

Gly Asn Arg Ile Arg Ile Phe Arg Asn Pro Lys Lys Asn Asn Val

1070 1075 1080

Phe Asp Trp Glu Glu Val Cys Leu Thr Ser Ala Tyr Lys Glu Leu

1085 1090 1095

Phe Asn Lys Tyr Gly Ile Asn Tyr Gln Gln Gly Asp Ile Arg Ala

1100 1105 1110

Leu Leu Cys Glu Gln Ser Asp Lys Ala Phe Tyr Ser Ser Phe Met

1115 1120 1125

Ala Leu Met Ser Leu Met Leu Gln Met Arg Asn Ser Ile Thr Gly

1130 1135 1140

Arg Thr Asp Val Asp Phe Leu Ile Ser Pro Val Lys Asn Ser Asp

1145 1150 1155

Gly Ile Phe Tyr Asp Ser Arg Asn Tyr Glu Ala Gln Glu Asn Ala

1160 1165 1170

Ile Leu Pro Lys Asn Ala Asp Ala Asn Gly Ala Tyr Asn Ile Ala

1175 1180 1185

Arg Lys Val Leu Trp Ala Ile Gly Gln Phe Lys Lys Ala Glu Asp

1190 1195 1200

Glu Lys Leu Asp Lys Val Lys Ile Ala Ile Ser Asn Lys Glu Trp

1205 1210 1215

Leu Glu Tyr Ala Gln Thr Ser Val Lys His

1220 1225

<210> 110

<211> 1227

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность Candidatus Methanomethylophilus alvus

<400> 110

Met Asp Ala Lys Glu Phe Thr Gly Gln Tyr Pro Leu Ser Lys Thr Leu

1 5 10 15

Arg Phe Glu Leu Arg Pro Ile Gly Arg Thr Trp Asp Asn Leu Glu Ala

20 25 30

Ser Gly Tyr Leu Ala Glu Asp Arg His Arg Ala Glu Cys Tyr Pro Arg

35 40 45

Ala Lys Glu Leu Leu Asp Asp Asn His Arg Ala Phe Leu Asn Arg Val

50 55 60

Leu Pro Gln Ile Asp Met Asp Trp His Pro Ile Ala Glu Ala Phe Cys

65 70 75 80

Lys Val His Lys Asn Pro Gly Asn Lys Glu Leu Ala Gln Asp Tyr Asn

85 90 95

Leu Gln Leu Ser Lys Arg Arg Lys Glu Ile Ser Ala Tyr Leu Gln Asp

100 105 110

Ala Asp Gly Tyr Lys Gly Leu Phe Ala Lys Pro Ala Leu Asp Glu Ala

115 120 125

Met Lys Ile Ala Lys Glu Asn Gly Asn Glu Ser Asp Ile Glu Val Leu

130 135 140

Glu Ala Phe Asn Gly Phe Ser Val Tyr Phe Thr Gly Tyr His Glu Ser

145 150 155 160

Arg Glu Asn Ile Tyr Ser Asp Glu Asp Met Val Ser Val Ala Tyr Arg

165 170 175

Ile Thr Glu Asp Asn Phe Pro Arg Phe Val Ser Asn Ala Leu Ile Phe

180 185 190

Asp Lys Leu Asn Glu Ser His Pro Asp Ile Ile Ser Glu Val Ser Gly

195 200 205

Asn Leu Gly Val Asp Asp Ile Gly Lys Tyr Phe Asp Val Ser Asn Tyr

210 215 220

Asn Asn Phe Leu Ser Gln Ala Gly Ile Asp Asp Tyr Asn His Ile Ile

225 230 235 240

Gly Gly His Thr Thr Glu Asp Gly Leu Ile Gln Ala Phe Asn Val Val

245 250 255

Leu Asn Leu Arg His Gln Lys Asp Pro Gly Phe Glu Lys Ile Gln Phe

260 265 270

Lys Gln Leu Tyr Lys Gln Ile Leu Ser Val Arg Thr Ser Lys Ser Tyr

275 280 285

Ile Pro Lys Gln Phe Asp Asn Ser Lys Glu Met Val Asp Cys Ile Cys

290 295 300

Asp Tyr Val Ser Lys Ile Glu Lys Ser Glu Thr Val Glu Arg Ala Leu

305 310 315 320

Lys Leu Val Arg Asn Ile Ser Ser Phe Asp Leu Arg Gly Ile Phe Val

325 330 335

Asn Lys Lys Asn Leu Arg Ile Leu Ser Asn Lys Leu Ile Gly Asp Trp

340 345 350

Asp Ala Ile Glu Thr Ala Leu Met His Ser Ser Ser Ser Glu Asn Asp

355 360 365

Lys Lys Ser Val Tyr Asp Ser Ala Glu Ala Phe Thr Leu Asp Asp Ile

370 375 380

Phe Ser Ser Val Lys Lys Phe Ser Asp Ala Ser Ala Glu Asp Ile Gly

385 390 395 400

Asn Arg Ala Glu Asp Ile Cys Arg Val Ile Ser Glu Thr Ala Pro Phe

405 410 415

Ile Asn Asp Leu Arg Ala Val Asp Leu Asp Ser Leu Asn Asp Asp Gly

420 425 430

Tyr Glu Ala Ala Val Ser Lys Ile Arg Glu Ser Leu Glu Pro Tyr Met

435 440 445

Asp Leu Phe His Glu Leu Glu Ile Phe Ser Val Gly Asp Glu Phe Pro

450 455 460

Lys Cys Ala Ala Phe Tyr Ser Glu Leu Glu Glu Val Ser Glu Gln Leu

465 470 475 480

Ile Glu Ile Ile Pro Leu Phe Asn Lys Ala Arg Ser Phe Cys Thr Arg

485 490 495

Lys Arg Tyr Ser Thr Asp Lys Ile Lys Val Asn Leu Lys Phe Pro Thr

500 505 510

Leu Ala Asp Gly Trp Asp Leu Asn Lys Glu Arg Asp Asn Lys Ala Ala

515 520 525

Ile Leu Arg Lys Asp Gly Lys Tyr Tyr Leu Ala Ile Leu Asp Met Lys

530 535 540

Lys Asp Leu Ser Ser Ile Arg Thr Ser Asp Glu Asp Glu Ser Ser Phe

545 550 555 560

Glu Lys Met Glu Tyr Lys Leu Leu Pro Ser Pro Val Lys Met Leu Pro

565 570 575

Lys Ile Phe Val Lys Ser Lys Ala Ala Lys Glu Lys Tyr Gly Leu Thr

580 585 590

Asp Arg Met Leu Glu Cys Tyr Asp Lys Gly Met His Lys Ser Gly Ser

595 600 605

Ala Phe Asp Leu Gly Phe Cys His Glu Leu Ile Asp Tyr Tyr Lys Arg

610 615 620

Cys Ile Ala Glu Tyr Pro Gly Trp Asp Val Phe Asp Phe Lys Phe Arg

625 630 635 640

Glu Thr Ser Asp Tyr Gly Ser Met Lys Glu Phe Asn Glu Asp Val Ala

645 650 655

Gly Ala Gly Tyr Tyr Met Ser Leu Arg Lys Ile Pro Cys Ser Glu Val

660 665 670

Tyr Arg Leu Leu Asp Glu Lys Ser Ile Tyr Leu Phe Gln Ile Tyr Asn

675 680 685

Lys Asp Tyr Ser Glu Asn Ala His Gly Asn Lys Asn Met His Thr Met

690 695 700

Tyr Trp Glu Gly Leu Phe Ser Pro Gln Asn Leu Glu Ser Pro Val Phe

705 710 715 720

Lys Leu Ser Gly Gly Ala Glu Leu Phe Phe Arg Lys Ser Ser Ile Pro

725 730 735

Asn Asp Ala Lys Thr Val His Pro Lys Gly Ser Val Leu Val Pro Arg

740 745 750

Asn Asp Val Asn Gly Arg Arg Ile Pro Asp Ser Ile Tyr Arg Glu Leu

755 760 765

Thr Arg Tyr Phe Asn Arg Gly Asp Cys Arg Ile Ser Asp Glu Ala Lys

770 775 780

Ser Tyr Leu Asp Lys Val Lys Thr Lys Lys Ala Asp His Asp Ile Val

785 790 795 800

Lys Asp Arg Arg Phe Thr Val Asp Lys Met Met Phe His Val Pro Ile

805 810 815

Ala Met Asn Phe Lys Ala Ile Ser Lys Pro Asn Leu Asn Lys Lys Val

820 825 830

Ile Asp Gly Ile Ile Asp Asp Gln Asp Leu Lys Ile Ile Gly Ile Asp

835 840 845

Arg Gly Glu Arg Asn Leu Ile Tyr Val Thr Met Val Asp Arg Lys Gly

850 855 860

Asn Ile Leu Tyr Gln Asp Ser Leu Asn Ile Leu Asn Gly Tyr Asp Tyr

865 870 875 880

Arg Lys Ala Leu Asp Val Arg Glu Tyr Asp Asn Lys Glu Ala Arg Arg

885 890 895

Asn Trp Thr Lys Val Glu Gly Ile Arg Lys Met Lys Glu Gly Tyr Leu

900 905 910

Ser Leu Ala Val Ser Lys Leu Ala Asp Met Ile Ile Glu Asn Asn Ala

915 920 925

Ile Ile Val Met Glu Asp Leu Asn His Gly Phe Lys Ala Gly Arg Ser

930 935 940

Lys Ile Glu Lys Gln Val Tyr Gln Lys Phe Glu Ser Met Leu Ile Asn

945 950 955 960

Lys Leu Gly Tyr Met Val Leu Lys Asp Lys Ser Ile Asp Gln Ser Gly

965 970 975

Gly Ala Leu His Gly Tyr Gln Leu Ala Asn His Val Thr Thr Leu Ala

980 985 990

Ser Val Gly Lys Gln Cys Gly Val Ile Phe Tyr Ile Pro Ala Ala Phe

995 1000 1005

Thr Ser Lys Ile Asp Pro Thr Thr Gly Phe Ala Asp Leu Phe Ala

1010 1015 1020

Leu Ser Asn Val Lys Asn Val Ala Ser Met Arg Glu Phe Phe Ser

1025 1030 1035

Lys Met Lys Ser Val Ile Tyr Asp Lys Ala Glu Gly Lys Phe Ala

1040 1045 1050

Phe Thr Phe Asp Tyr Leu Asp Tyr Asn Val Lys Ser Glu Cys Gly

1055 1060 1065

Arg Thr Leu Trp Thr Val Tyr Thr Val Gly Glu Arg Phe Thr Tyr

1070 1075 1080

Ser Arg Val Asn Arg Glu Tyr Val Arg Lys Val Pro Thr Asp Ile

1085 1090 1095

Ile Tyr Asp Ala Leu Gln Lys Ala Gly Ile Ser Val Glu Gly Asp

1100 1105 1110

Leu Arg Asp Arg Ile Ala Glu Ser Asp Gly Asp Thr Leu Lys Ser

1115 1120 1125

Ile Phe Tyr Ala Phe Lys Tyr Ala Leu Asp Met Arg Val Glu Asn

1130 1135 1140

Arg Glu Glu Asp Tyr Ile Gln Ser Pro Val Lys Asn Ala Ser Gly

1145 1150 1155

Glu Phe Phe Cys Ser Lys Asn Ala Gly Lys Ser Leu Pro Gln Asp

1160 1165 1170

Ser Asp Ala Asn Gly Ala Tyr Asn Ile Ala Leu Lys Gly Ile Leu

1175 1180 1185

Gln Leu Arg Met Leu Ser Glu Gln Tyr Asp Pro Asn Ala Glu Ser

1190 1195 1200

Ile Arg Leu Pro Leu Ile Thr Asn Lys Ala Trp Leu Thr Phe Met

1205 1210 1215

Gln Ser Gly Met Lys Thr Trp Lys Asn

1220 1225

<210> 111

<211> 1224

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность Lachnospiraceae bacterium

<400> 111

Met Gly Leu Tyr Asp Gly Phe Val Asn Arg Tyr Ser Val Ser Lys Thr

1 5 10 15

Leu Arg Phe Glu Leu Ile Pro Gln Gly Arg Thr Arg Glu Tyr Ile Glu

20 25 30

Thr Asn Gly Ile Leu Ser Asp Asp Glu Glu Arg Ala Lys Asp Tyr Lys

35 40 45

Thr Ile Lys Arg Leu Ile Asp Glu Tyr His Lys Asp Tyr Ile Ser Arg

50 55 60

Cys Leu Lys Asn Val Asn Ile Ser Cys Leu Glu Glu Tyr Tyr His Leu

65 70 75 80

Tyr Asn Ser Ser Asn Arg Asp Lys Arg His Glu Glu Leu Asp Ala Leu

85 90 95

Ser Asp Gln Met Arg Gly Glu Ile Ala Ser Phe Leu Thr Gly Asn Asp

100 105 110

Glu Tyr Lys Glu Gln Lys Ser Arg Asp Ile Ile Ile Asn Glu Arg Ile

115 120 125

Ile Asn Phe Ala Ser Thr Asp Glu Glu Leu Ala Ala Val Lys Arg Phe

130 135 140

Arg Lys Phe Thr Ser Tyr Phe Thr Gly Phe Phe Thr Asn Arg Glu Asn

145 150 155 160

Met Tyr Ser Ala Glu Lys Lys Ser Thr Ala Ile Ala His Arg Ile Ile

165 170 175

Asp Val Asn Leu Pro Lys Tyr Val Asp Asn Ile Lys Ala Phe Asn Thr

180 185 190

Ala Ile Glu Ala Gly Val Phe Asp Ile Ala Glu Phe Glu Ser Asn Phe

195 200 205

Lys Ala Ile Thr Asp Glu His Glu Val Ser Asp Leu Leu Asp Ile Thr

210 215 220

Lys Tyr Ser Arg Phe Ile Arg Asn Glu Asp Ile Ile Ile Tyr Asn Thr

225 230 235 240

Leu Leu Gly Gly Ile Ser Met Lys Asp Glu Lys Ile Gln Gly Leu Asn

245 250 255

Glu Leu Ile Asn Leu His Asn Gln Lys His Pro Gly Lys Lys Val Pro

260 265 270

Leu Leu Lys Val Leu Tyr Lys Gln Ile Leu Gly Asp Ser Gln Thr His

275 280 285

Ser Phe Val Asp Asp Gln Phe Glu Asp Asp Gln Gln Val Ile Asn Ala

290 295 300

Val Lys Ala Val Thr Asp Thr Phe Ser Glu Thr Leu Leu Gly Ser Leu

305 310 315 320

Lys Ile Ile Ile Asn Asn Ile Gly His Tyr Asp Leu Asp Arg Ile Tyr

325 330 335

Ile Lys Ala Gly Gln Asp Ile Thr Thr Leu Ser Lys Arg Ala Leu Asn

340 345 350

Asp Trp His Ile Ile Thr Glu Cys Leu Glu Ser Glu Tyr Asp Asp Lys

355 360 365

Phe Pro Lys Asn Lys Lys Ser Asp Thr Tyr Glu Glu Met Arg Asn Arg

370 375 380

Tyr Val Lys Ser Phe Lys Ser Phe Ser Ile Gly Arg Leu Asn Ser Leu

385 390 395 400

Val Thr Thr Tyr Thr Glu Gln Ala Cys Phe Leu Glu Asn Tyr Leu Gly

405 410 415

Ser Phe Gly Gly Asp Thr Asp Lys Asn Cys Leu Thr Asp Phe Thr Asn

420 425 430

Ser Leu Met Glu Val Glu His Leu Leu Asn Ser Glu Tyr Pro Val Thr

435 440 445

Asn Arg Leu Ile Thr Asp Tyr Glu Ser Val Arg Ile Leu Lys Arg Leu

450 455 460

Leu Asp Ser Glu Met Glu Val Ile His Phe Leu Lys Pro Leu Leu Gly

465 470 475 480

Asn Gly Asn Glu Ser Asp Lys Asp Leu Val Phe Tyr Gly Glu Phe Glu

485 490 495

Ala Glu Tyr Glu Lys Leu Leu Pro Val Ile Lys Val Tyr Asn Arg Val

500 505 510

Arg Asn Tyr Leu Thr Arg Lys Pro Phe Ser Thr Glu Lys Ile Lys Leu

515 520 525

Asn Phe Asn Ser Pro Thr Leu Leu Cys Gly Trp Ser Gln Ser Lys Glu

530 535 540

Lys Glu Tyr Met Gly Val Ile Leu Arg Lys Asp Gly Gln Tyr Tyr Leu

545 550 555 560

Gly Ile Met Thr Pro Ser Asn Lys Lys Ile Phe Ser Glu Ala Pro Lys

565 570 575

Pro Asp Glu Asp Cys Tyr Glu Lys Met Val Leu Arg Tyr Ile Pro His

580 585 590

Pro Tyr Gln Met Leu Pro Lys Val Phe Phe Ser Lys Ser Asn Ile Ala

595 600 605

Phe Phe Asn Pro Ser Asp Glu Ile Leu Arg Ile Lys Lys Gln Glu Ser

610 615 620

Phe Lys Lys Gly Lys Ser Phe Asn Arg Asp Asp Cys His Lys Phe Ile

625 630 635 640

Asp Phe Tyr Lys Asp Ser Ile Asn Arg His Glu Glu Trp Arg Lys Phe

645 650 655

Asn Phe Lys Phe Ser Asp Thr Asp Ser Tyr Glu Asp Ile Ser Arg Phe

660 665 670

Tyr Lys Glu Val Glu Asn Gln Ala Phe Ser Met Ser Phe Thr Lys Ile

675 680 685

Pro Thr Val Tyr Ile Asp Ser Leu Val Asp Glu Gly Lys Leu Tyr Leu

690 695 700

Phe Lys Leu His Asn Lys Asp Phe Ser Glu His Ser Lys Gly Lys Pro

705 710 715 720

Asn Leu His Thr Val Tyr Trp Asn Ala Leu Phe Ser Glu Tyr Asn Leu

725 730 735

Gln Asn Thr Val Tyr Gln Leu Asn Gly Ser Ala Glu Ile Phe Phe Arg

740 745 750

Lys Ala Ser Ile Pro Glu Asn Glu Arg Val Ile His Lys Lys Asn Val

755 760 765

Pro Ile Thr Arg Lys Val Ala Glu Leu Asn Gly Lys Lys Glu Val Ser

770 775 780

Val Phe Pro Tyr Asp Ile Ile Lys Asn Arg Arg Tyr Thr Val Asp Lys

785 790 795 800

Phe Gln Phe His Val Pro Leu Lys Met Asn Phe Lys Ala Asp Glu Lys

805 810 815

Lys Arg Ile Asn Asp Asp Val Ile Glu Ala Ile Arg Ser Asn Lys Gly

820 825 830

Ile His Val Ile Gly Ile Asp Arg Gly Glu Arg Asn Leu Leu Tyr Leu

835 840 845

Ser Leu Ile Asn Glu Glu Gly Arg Ile Ile Glu Gln Arg Ser Leu Asn

850 855 860

Ile Ile Asp Ser Gly Glu Gly His Thr Gln Asn Tyr Arg Asp Leu Leu

865 870 875 880

Asp Ser Arg Glu Lys Asp Arg Glu Lys Ala Arg Glu Asn Trp Gln Glu

885 890 895

Ile Gln Glu Ile Lys Asp Leu Lys Thr Gly Tyr Leu Ser Gln Ala Ile

900 905 910

His Thr Ile Thr Lys Trp Met Lys Glu Tyr Asn Ala Ile Ile Val Leu

915 920 925

Glu Asp Leu Asn Asp Arg Phe Thr Asn Gly Arg Lys Lys Val Glu Lys

930 935 940

Gln Val Tyr Gln Lys Phe Glu Lys Met Leu Ile Asp Lys Leu Asn Tyr

945 950 955 960

Tyr Val Asp Lys Asp Glu Glu Phe Asp Arg Met Gly Gly Thr His Arg

965 970 975

Ala Leu Gln Leu Thr Glu Lys Phe Glu Ser Phe Gln Lys Leu Gly Arg

980 985 990

Gln Thr Gly Phe Ile Phe Tyr Val Pro Ala Trp Asn Thr Ser Lys Leu

995 1000 1005

Asp Pro Thr Thr Gly Phe Val Asp Leu Leu Tyr Pro Lys Tyr Lys

1010 1015 1020

Ser Val Asp Ala Thr Lys Asp Phe Ile Lys Lys Phe Asp Phe Ile

1025 1030 1035

Arg Phe Asn Ser Glu Lys Asn Tyr Phe Glu Phe Gly Leu His Tyr

1040 1045 1050

Ser Asn Phe Thr Glu Arg Ala Ile Gly Cys Arg Asp Glu Trp Ile

1055 1060 1065

Leu Cys Ser Tyr Gly Asn Arg Ile Val Asn Phe Arg Asn Ala Ala

1070 1075 1080

Lys Asn Asn Ser Trp Asp Tyr Lys Glu Ile Asp Ile Thr Lys Gln

1085 1090 1095

Leu Leu Asp Leu Phe Glu Lys Asn Gly Ile Asp Val Lys Gln Glu

1100 1105 1110

Asn Leu Ile Asp Ser Ile Cys Glu Met Lys Asp Lys Pro Phe Phe

1115 1120 1125

Lys Ser Leu Ile Ala Asn Ile Lys Leu Ile Leu Gln Ile Arg Asn

1130 1135 1140

Ser Ala Ser Gly Thr Asp Ile Asp Tyr Met Ile Ser Pro Ala Met

1145 1150 1155

Asn Asp Arg Gly Glu Phe Phe Asp Thr Arg Lys Gly Leu Gln Gln

1160 1165 1170

Leu Pro Leu Asp Ala Asp Ala Asn Gly Ala Tyr Asn Ile Ala Lys

1175 1180 1185

Lys Gly Leu Trp Ile Val Asp Gln Ile Arg Asn Thr Thr Gly Asn

1190 1195 1200

Asn Val Lys Met Ala Met Ser Asn Arg Glu Trp Met His Phe Ala

1205 1210 1215

Gln Glu Ser Arg Leu Ala

1220

<210> 112

<211> 1214

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность бактерии кандидатного отдела WS6

<400> 112

Met Lys Asn Val Phe Gly Gly Phe Thr Asn Leu Tyr Ser Leu Thr Lys

1 5 10 15

Thr Leu Arg Phe Glu Leu Lys Pro Thr Ser Lys Thr Gln Lys Leu Met

20 25 30

Lys Arg Asn Asn Val Ile Gln Thr Asp Glu Glu Ile Asp Lys Leu Tyr

35 40 45

His Asp Glu Met Lys Pro Ile Leu Asp Glu Ile His Arg Arg Phe Ile

50 55 60

Asn Asp Ala Leu Ala Gln Lys Ile Phe Ile Ser Ala Ser Leu Asp Asn

65 70 75 80

Phe Leu Lys Val Val Lys Asn Tyr Lys Val Glu Ser Ala Lys Lys Asn

85 90 95

Ile Lys Gln Asn Gln Val Lys Leu Leu Gln Lys Glu Ile Thr Ile Lys

100 105 110

Thr Leu Gly Leu Arg Arg Glu Val Val Ser Gly Phe Ile Thr Val Ser

115 120 125

Lys Lys Trp Lys Asp Lys Tyr Val Gly Leu Gly Ile Lys Leu Lys Gly

130 135 140

Asp Gly Tyr Lys Val Leu Thr Glu Gln Ala Val Leu Asp Ile Leu Lys

145 150 155 160

Ile Glu Phe Pro Asn Lys Ala Lys Tyr Ile Asp Lys Phe Arg Gly Phe

165 170 175

Trp Thr Tyr Phe Ser Gly Phe Asn Glu Asn Arg Lys Asn Tyr Tyr Ser

180 185 190

Glu Glu Asp Lys Ala Thr Ser Ile Ala Asn Arg Ile Val Asn Glu Asn

195 200 205

Leu Ser Arg Tyr Ile Asp Asn Ile Ile Ala Phe Glu Glu Ile Leu Gln

210 215 220

Lys Ile Pro Asn Leu Lys Lys Phe Lys Gln Asp Leu Asp Ile Thr Ser

225 230 235 240

Tyr Asn Tyr Tyr Leu Asn Gln Ala Gly Ile Asp Lys Tyr Asn Lys Ile

245 250 255

Ile Gly Gly Tyr Ile Val Asp Lys Asp Lys Lys Ile Gln Gly Ile Asn

260 265 270

Glu Lys Val Asn Leu Tyr Thr Gln Gln Thr Lys Lys Lys Leu Pro Lys

275 280 285

Leu Lys Phe Leu Phe Lys Gln Ile Gly Ser Glu Arg Lys Gly Phe Gly

290 295 300

Ile Phe Glu Ile Lys Glu Gly Lys Glu Trp Glu Gln Leu Gly Asp Leu

305 310 315 320

Phe Lys Leu Gln Arg Thr Lys Ile Asn Ser Asn Gly Arg Glu Lys Gly

325 330 335

Leu Phe Asp Ser Leu Arg Thr Met Tyr Arg Glu Phe Phe Asp Glu Ile

340 345 350

Lys Arg Asp Ser Asn Ser Gln Ala Arg Tyr Ser Leu Asp Lys Ile Tyr

355 360 365

Phe Asn Lys Ala Ser Val Asn Thr Ile Ser Asn Ser Trp Phe Thr Asn

370 375 380

Trp Asn Lys Phe Ala Glu Leu Leu Asn Ile Lys Glu Asp Lys Lys Asn

385 390 395 400

Gly Glu Lys Lys Ile Pro Glu Gln Ile Ser Ile Glu Asp Ile Lys Asp

405 410 415

Ser Leu Ser Ile Ile Pro Lys Glu Asn Leu Glu Glu Leu Phe Lys Leu

420 425 430

Thr Asn Arg Glu Lys His Asp Arg Thr Arg Phe Phe Gly Ser Asn Ala

435 440 445

Trp Val Thr Phe Leu Asn Ile Trp Gln Asn Glu Ile Glu Glu Ser Phe

450 455 460

Asn Lys Leu Glu Glu Lys Glu Lys Asp Phe Lys Lys Asn Ala Ala Ile

465 470 475 480

Lys Phe Gln Lys Asn Asn Leu Val Gln Lys Asn Tyr Ile Lys Glu Val

485 490 495

Cys Asp Arg Met Leu Ala Ile Glu Arg Met Ala Lys Tyr His Leu Pro

500 505 510

Lys Asp Ser Asn Leu Ser Arg Glu Glu Asp Phe Tyr Trp Ile Ile Asp

515 520 525

Asn Leu Ser Glu Gln Arg Glu Ile Tyr Lys Tyr Tyr Asn Ala Phe Arg

530 535 540

Asn Tyr Ile Ser Lys Lys Pro Tyr Asn Lys Ser Lys Met Lys Leu Asn

545 550 555 560

Phe Glu Asn Gly Asn Leu Leu Gly Gly Trp Ser Asp Gly Gln Glu Arg

565 570 575

Asn Lys Ala Gly Val Ile Leu Arg Asn Gly Asn Lys Tyr Tyr Leu Gly

580 585 590

Val Leu Ile Asn Arg Gly Ile Phe Arg Thr Asp Lys Ile Asn Asn Glu

595 600 605

Ile Tyr Arg Thr Gly Ser Ser Lys Trp Glu Arg Leu Ile Leu Ser Asn

610 615 620

Leu Lys Phe Gln Thr Leu Ala Gly Lys Gly Phe Leu Gly Lys His Gly

625 630 635 640

Val Ser Tyr Gly Asn Met Asn Pro Glu Lys Ser Val Pro Ser Leu Gln

645 650 655

Lys Phe Ile Arg Glu Asn Tyr Leu Lys Lys Tyr Pro Gln Leu Thr Glu

660 665 670

Val Ser Asn Thr Lys Phe Leu Ser Lys Lys Asp Phe Asp Ala Ala Ile

675 680 685

Lys Glu Ala Leu Lys Glu Cys Phe Thr Met Asn Phe Ile Asn Ile Ala

690 695 700

Glu Asn Lys Leu Leu Glu Ala Glu Asp Lys Gly Asp Leu Tyr Leu Phe

705 710 715 720

Glu Ile Thr Asn Lys Asp Phe Ser Gly Lys Lys Ser Gly Lys Asp Asn

725 730 735

Ile His Thr Ile Tyr Trp Lys Tyr Leu Phe Ser Glu Ser Asn Cys Lys

740 745 750

Ser Pro Ile Ile Gly Leu Asn Gly Gly Ala Glu Ile Phe Phe Arg Glu

755 760 765

Gly Gln Lys Asp Lys Leu His Thr Lys Leu Asp Lys Lys Gly Lys Lys

770 775 780

Val Phe Asp Ala Lys Arg Tyr Ser Glu Asp Lys Leu Phe Phe His Val

785 790 795 800

Ser Ile Thr Ile Asn Tyr Gly Lys Pro Lys Asn Ile Lys Phe Arg Asp

805 810 815

Ile Ile Asn Gln Leu Ile Thr Ser Met Asn Val Asn Ile Ile Gly Ile

820 825 830

Asp Arg Gly Glu Lys His Leu Leu Tyr Tyr Ser Val Ile Asp Ser Asn

835 840 845

Gly Ile Ile Leu Lys Gln Gly Ser Leu Asn Lys Ile Arg Val Gly Asp

850 855 860

Lys Glu Val Asp Phe Asn Lys Lys Leu Thr Glu Arg Ala Asn Glu Met

865 870 875 880

Lys Lys Ala Arg Gln Ser Trp Glu Gln Ile Gly Asn Ile Lys Asn Phe

885 890 895

Lys Glu Gly Tyr Leu Ser Gln Ala Ile His Glu Ile Tyr Gln Leu Met

900 905 910

Ile Lys Tyr Asn Ala Ile Ile Val Leu Glu Asp Leu Asn Thr Glu Phe

915 920 925

Lys Ala Lys Arg Leu Ser Lys Val Glu Lys Ser Val Tyr Lys Lys Phe

930 935 940

Glu Leu Lys Leu Ala Arg Lys Leu Asn His Leu Ile Leu Lys Asp Arg

945 950 955 960

Asn Thr Asn Glu Ile Gly Gly Val Leu Lys Ala Tyr Gln Leu Thr Pro

965 970 975

Thr Ile Gly Gly Gly Asp Val Ser Lys Phe Glu Lys Ala Lys Gln Trp

980 985 990

Gly Met Met Phe Tyr Val Arg Ala Asn Tyr Thr Ser Thr Thr Asp Pro

995 1000 1005

Val Thr Gly Trp Arg Lys His Leu Tyr Ile Ser Asn Phe Ser Asn

1010 1015 1020

Asn Ser Val Ile Lys Ser Phe Phe Asp Pro Thr Asn Arg Asp Thr

1025 1030 1035

Gly Ile Glu Ile Phe Tyr Ser Gly Lys Tyr Arg Ser Trp Gly Phe

1040 1045 1050

Arg Tyr Val Gln Lys Glu Thr Gly Lys Lys Trp Glu Leu Phe Ala

1055 1060 1065

Thr Lys Glu Leu Glu Arg Phe Lys Tyr Asn Gln Thr Thr Lys Leu

1070 1075 1080

Cys Glu Lys Ile Asn Leu Tyr Asp Lys Phe Glu Glu Leu Phe Lys

1085 1090 1095

Gly Ile Asp Lys Ser Ala Asp Ile Tyr Ser Gln Leu Cys Asn Val

1100 1105 1110

Leu Asp Phe Arg Trp Lys Ser Leu Val Tyr Leu Trp Asn Leu Leu

1115 1120 1125

Asn Gln Ile Arg Asn Val Asp Lys Asn Ala Glu Gly Asn Lys Asn

1130 1135 1140

Asp Phe Ile Gln Ser Pro Val Tyr Pro Phe Phe Asp Ser Arg Lys

1145 1150 1155

Thr Asp Gly Lys Thr Glu Pro Ile Asn Gly Asp Ala Asn Gly Ala

1160 1165 1170

Leu Asn Ile Ala Arg Lys Gly Leu Met Leu Val Glu Arg Ile Lys

1175 1180 1185

Asn Asn Pro Glu Lys Tyr Glu Gln Leu Ile Arg Asp Thr Glu Trp

1190 1195 1200

Asp Ala Trp Ile Gln Asn Phe Asn Lys Val Asn

1205 1210

<210> 113

<211> 1200

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность Lachnospiraceae bacterium

<400> 113

Met Tyr Tyr Glu Ser Leu Thr Lys Gln Tyr Pro Val Ser Lys Thr Ile

1 5 10 15

Arg Asn Glu Leu Ile Pro Ile Gly Lys Thr Leu Asp Asn Ile Arg Gln

20 25 30

Asn Asn Ile Leu Glu Ser Asp Val Lys Arg Lys Gln Asn Tyr Glu His

35 40 45

Val Lys Gly Ile Leu Asp Glu Tyr His Lys Gln Leu Ile Asn Glu Ala

50 55 60

Leu Asp Asn Cys Thr Leu Pro Ser Leu Lys Ile Ala Ala Glu Ile Tyr

65 70 75 80

Leu Lys Asn Gln Lys Glu Val Ser Asp Arg Glu Asp Phe Asn Lys Thr

85 90 95

Gln Asp Leu Leu Arg Lys Glu Val Val Glu Lys Leu Lys Ala His Glu

100 105 110

Asn Phe Thr Lys Ile Gly Lys Lys Asp Ile Leu Asp Leu Leu Glu Lys

115 120 125

Leu Pro Ser Ile Ser Glu Asp Asp Tyr Asn Ala Leu Glu Ser Phe Arg

130 135 140

Asn Phe Tyr Thr Tyr Phe Thr Ser Tyr Asn Lys Val Arg Glu Asn Leu

145 150 155 160

Tyr Ser Asp Lys Glu Lys Ser Ser Thr Val Ala Tyr Arg Leu Ile Asn

165 170 175

Glu Asn Phe Pro Lys Phe Leu Asp Asn Val Lys Ser Tyr Arg Phe Val

180 185 190

Lys Thr Ala Gly Ile Leu Ala Asp Gly Leu Gly Glu Glu Glu Gln Asp

195 200 205

Ser Leu Phe Ile Val Glu Thr Phe Asn Lys Thr Leu Thr Gln Asp Gly

210 215 220

Ile Asp Thr Tyr Asn Ser Gln Val Gly Lys Ile Asn Ser Ser Ile Asn

225 230 235 240

Leu Tyr Asn Gln Lys Asn Gln Lys Ala Asn Gly Phe Arg Lys Ile Pro

245 250 255

Lys Met Lys Met Leu Tyr Lys Gln Ile Leu Ser Asp Arg Glu Glu Ser

260 265 270

Phe Ile Asp Glu Phe Gln Ser Asp Glu Val Leu Ile Asp Asn Val Glu

275 280 285

Ser Tyr Gly Ser Val Leu Ile Glu Ser Leu Lys Ser Ser Lys Val Ser

290 295 300

Ala Phe Phe Asp Ala Leu Arg Glu Ser Lys Gly Lys Asn Val Tyr Val

305 310 315 320

Lys Asn Asp Leu Ala Lys Thr Ala Met Ser Asn Ile Val Phe Glu Asn

325 330 335

Trp Arg Thr Phe Asp Asp Leu Leu Asn Gln Glu Tyr Asp Leu Ala Asn

340 345 350

Glu Asn Lys Lys Lys Asp Asp Lys Tyr Phe Glu Lys Arg Gln Lys Glu

355 360 365

Leu Lys Lys Asn Lys Ser Tyr Ser Leu Glu His Leu Cys Asn Leu Ser

370 375 380

Glu Asp Ser Cys Asn Leu Ile Glu Asn Tyr Ile His Gln Ile Ser Asp

385 390 395 400

Asp Ile Glu Asn Ile Ile Ile Asn Asn Glu Thr Phe Leu Arg Ile Val

405 410 415

Ile Asn Glu His Asp Arg Ser Arg Lys Leu Ala Lys Asn Arg Lys Ala

420 425 430

Val Lys Ala Ile Lys Asp Phe Leu Asp Ser Ile Lys Val Leu Glu Arg

435 440 445

Glu Leu Lys Leu Ile Asn Ser Ser Gly Gln Glu Leu Glu Lys Asp Leu

450 455 460

Ile Val Tyr Ser Ala His Glu Glu Leu Leu Val Glu Leu Lys Gln Val

465 470 475 480

Asp Ser Leu Tyr Asn Met Thr Arg Asn Tyr Leu Thr Lys Lys Pro Phe

485 490 495

Ser Thr Glu Lys Val Lys Leu Asn Phe Asn Arg Ser Thr Leu Leu Asn

500 505 510

Gly Trp Asp Arg Asn Lys Glu Thr Asp Asn Leu Gly Val Leu Leu Leu

515 520 525

Lys Asp Gly Lys Tyr Tyr Leu Gly Ile Met Asn Thr Ser Ala Asn Lys

530 535 540

Ala Phe Val Asn Pro Pro Val Ala Lys Thr Glu Lys Val Phe Lys Lys

545 550 555 560

Val Asp Tyr Lys Leu Leu Pro Val Pro Asn Gln Met Leu Pro Lys Val

565 570 575

Phe Phe Ala Lys Ser Asn Ile Asp Phe Tyr Asn Pro Ser Ser Glu Ile

580 585 590

Tyr Ser Asn Tyr Lys Lys Gly Thr His Lys Lys Gly Asn Met Phe Ser

595 600 605

Leu Glu Asp Cys His Asn Leu Ile Asp Phe Phe Lys Glu Ser Ile Ser

610 615 620

Lys His Glu Asp Trp Ser Lys Phe Gly Phe Lys Phe Ser Asp Thr Ala

625 630 635 640

Ser Tyr Asn Asp Ile Ser Glu Phe Tyr Arg Glu Val Glu Lys Gln Gly

645 650 655

Tyr Lys Leu Thr Tyr Thr Asp Ile Asp Glu Thr Tyr Ile Asn Asp Leu

660 665 670

Ile Glu Arg Asn Glu Leu Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe

675 680 685

Ser Met Tyr Ser Lys Gly Lys Leu Asn Leu His Thr Leu Tyr Phe Met

690 695 700

Met Leu Phe Asp Gln Arg Asn Ile Asp Asp Val Val Tyr Lys Leu Asn

705 710 715 720

Gly Glu Ala Glu Val Phe Tyr Arg Pro Ala Ser Ile Ser Glu Asp Glu

725 730 735

Leu Ile Ile His Lys Ala Gly Glu Glu Ile Lys Asn Lys Asn Pro Asn

740 745 750

Arg Ala Arg Thr Lys Glu Thr Ser Thr Phe Ser Tyr Asp Ile Val Lys

755 760 765

Asp Lys Arg Tyr Ser Lys Asp Lys Phe Thr Leu His Ile Pro Ile Thr

770 775 780

Met Asn Phe Gly Val Asp Glu Val Lys Arg Phe Asn Asp Ala Val Asn

785 790 795 800

Ser Ala Ile Arg Ile Asp Glu Asn Val Asn Val Ile Gly Ile Asp Arg

805 810 815

Gly Glu Arg Asn Leu Leu Tyr Val Val Val Ile Asp Ser Lys Gly Asn

820 825 830

Ile Leu Glu Gln Ile Ser Leu Asn Ser Ile Ile Asn Lys Glu Tyr Asp

835 840 845

Ile Glu Thr Asp Tyr His Ala Leu Leu Asp Glu Arg Glu Gly Gly Arg

850 855 860

Asp Lys Ala Arg Lys Asp Trp Asn Thr Val Glu Asn Ile Arg Asp Leu

865 870 875 880

Lys Ala Gly Tyr Leu Ser Gln Val Val Asn Val Val Ala Lys Leu Val

885 890 895

Leu Lys Tyr Asn Ala Ile Ile Cys Leu Glu Asp Leu Asn Phe Gly Phe

900 905 910

Lys Arg Gly Arg Gln Lys Val Glu Lys Gln Val Tyr Gln Lys Phe Glu

915 920 925

Lys Met Leu Ile Asp Lys Leu Asn Tyr Leu Val Ile Asp Lys Ser Arg

930 935 940

Glu Gln Thr Ser Pro Lys Glu Leu Gly Gly Ala Leu Asn Ala Leu Gln

945 950 955 960

Leu Thr Ser Lys Phe Lys Ser Phe Lys Glu Leu Gly Lys Gln Ser Gly

965 970 975

Val Ile Tyr Tyr Val Pro Ala Tyr Leu Thr Ser Lys Ile Asp Pro Thr

980 985 990

Thr Gly Phe Ala Asn Leu Phe Tyr Met Lys Cys Glu Asn Val Glu Lys

995 1000 1005

Ser Lys Arg Phe Phe Asp Gly Phe Asp Phe Ile Arg Phe Asn Ala

1010 1015 1020

Leu Glu Asn Val Phe Glu Phe Gly Phe Asp Tyr Arg Ser Phe Thr

1025 1030 1035

Gln Arg Ala Cys Gly Ile Asn Ser Lys Trp Thr Val Cys Thr Asn

1040 1045 1050

Gly Glu Arg Ile Ile Lys Tyr Arg Asn Pro Asp Lys Asn Asn Met

1055 1060 1065

Phe Asp Glu Lys Val Val Val Val Thr Asp Glu Met Lys Asn Leu

1070 1075 1080

Phe Glu Gln Tyr Lys Ile Pro Tyr Glu Asp Gly Arg Asn Val Lys

1085 1090 1095

Asp Met Ile Ile Ser Asn Glu Glu Ala Glu Phe Tyr Arg Arg Leu

1100 1105 1110

Tyr Arg Leu Leu Gln Gln Thr Leu Gln Met Arg Asn Ser Thr Ser

1115 1120 1125

Asp Gly Thr Arg Asp Tyr Ile Ile Ser Pro Val Lys Asn Lys Arg

1130 1135 1140

Glu Ala Tyr Phe Asn Ser Glu Leu Ser Asp Gly Ser Val Pro Lys

1145 1150 1155

Asp Ala Asp Ala Asn Gly Ala Tyr Asn Ile Ala Arg Lys Gly Leu

1160 1165 1170

Trp Val Leu Glu Gln Ile Arg Gln Lys Ser Glu Gly Glu Lys Ile

1175 1180 1185

Asn Leu Ala Met Thr Asn Ala Glu Trp Leu Glu Tyr

1190 1195 1200

<210> 114

<211> 1206

<212> БЕЛОК

<213> Butyrivibrio sp.

<400> 114

Met Tyr Tyr Gln Asn Leu Thr Lys Lys Tyr Pro Val Ser Lys Thr Ile

1 5 10 15

Arg Asn Glu Leu Ile Pro Ile Gly Lys Thr Leu Glu Asn Ile Arg Lys

20 25 30

Asn Asn Ile Leu Glu Ser Asp Val Lys Arg Lys Gln Asp Tyr Glu His

35 40 45

Val Lys Gly Ile Met Asp Glu Tyr His Lys Gln Leu Ile Asn Glu Ala

50 55 60

Leu Asp Asn Tyr Met Leu Pro Ser Leu Asn Gln Ala Ala Glu Ile Tyr

65 70 75 80

Leu Lys Lys His Val Asp Val Glu Asp Arg Glu Glu Phe Lys Lys Thr

85 90 95

Gln Asp Leu Leu Arg Arg Glu Val Thr Gly Arg Leu Lys Glu His Glu

100 105 110

Asn Tyr Thr Lys Ile Gly Lys Lys Asp Ile Leu Asp Leu Leu Glu Lys

115 120 125

Leu Pro Ser Ile Ser Glu Glu Asp Tyr Asn Ala Leu Glu Ser Phe Arg

130 135 140

Asn Phe Tyr Thr Tyr Phe Thr Ser Tyr Asn Lys Val Arg Glu Asn Leu

145 150 155 160

Tyr Ser Asp Glu Glu Lys Ser Ser Thr Val Ala Tyr Arg Leu Ile Asn

165 170 175

Glu Asn Leu Pro Lys Phe Leu Asp Asn Ile Lys Ser Tyr Ala Phe Val

180 185 190

Lys Ala Ala Gly Val Leu Ala Asp Cys Ile Glu Glu Glu Glu Gln Asp

195 200 205

Ala Leu Phe Met Val Glu Thr Phe Asn Met Thr Leu Thr Gln Glu Gly

210 215 220

Ile Asp Met Tyr Asn Tyr Gln Ile Gly Lys Val Asn Ser Ala Ile Asn

225 230 235 240

Leu Tyr Asn Gln Lys Asn His Lys Val Glu Glu Phe Lys Lys Ile Pro

245 250 255

Lys Met Lys Val Leu Tyr Lys Gln Ile Leu Ser Asp Arg Glu Glu Val

260 265 270

Phe Ile Gly Glu Phe Lys Asp Asp Glu Thr Leu Leu Ser Ser Ile Gly

275 280 285

Ala Tyr Gly Asn Val Leu Met Thr Tyr Leu Lys Ser Glu Lys Ile Asn

290 295 300

Ile Phe Phe Asp Ala Leu Arg Glu Ser Glu Gly Lys Asn Val Tyr Val

305 310 315 320

Lys Asn Asp Leu Ser Lys Thr Thr Met Ser Asn Ile Val Phe Gly Ser

325 330 335

Trp Ser Ala Phe Asp Glu Leu Leu Asn Gln Glu Tyr Asp Leu Ala Asn

340 345 350

Glu Asn Lys Lys Lys Asp Asp Lys Tyr Phe Glu Lys Arg Gln Lys Glu

355 360 365

Leu Lys Lys Asn Lys Ser Tyr Thr Leu Glu Gln Met Ser Asn Leu Ser

370 375 380

Lys Glu Asp Ile Ser Pro Ile Glu Asn Tyr Ile Glu Arg Ile Ser Glu

385 390 395 400

Asp Ile Glu Lys Ile Cys Ile Tyr Asn Gly Glu Phe Glu Lys Ile Val

405 410 415

Val Asn Glu His Asp Ser Ser Arg Lys Leu Ser Lys Asn Ile Lys Ala

420 425 430

Val Lys Val Ile Lys Asp Tyr Leu Asp Ser Ile Lys Glu Leu Glu His

435 440 445

Asp Ile Lys Leu Ile Asn Gly Ser Gly Gln Glu Leu Glu Lys Asn Leu

450 455 460

Val Val Tyr Val Gly Gln Glu Glu Ala Leu Glu Gln Leu Arg Pro Val

465 470 475 480

Asp Ser Leu Tyr Asn Leu Thr Arg Asn Tyr Leu Thr Lys Lys Pro Phe

485 490 495

Ser Thr Glu Lys Val Lys Leu Asn Phe Asn Lys Ser Thr Leu Leu Asn

500 505 510

Gly Trp Asp Lys Asn Lys Glu Thr Asp Asn Leu Gly Ile Leu Phe Phe

515 520 525

Lys Asp Gly Lys Tyr Tyr Leu Gly Ile Met Asn Thr Thr Ala Asn Lys

530 535 540

Ala Phe Val Asn Pro Pro Ala Ala Lys Thr Glu Asn Val Phe Lys Lys

545 550 555 560

Val Asp Tyr Lys Leu Leu Pro Gly Ser Asn Lys Met Leu Pro Lys Val

565 570 575

Phe Phe Ala Lys Ser Asn Ile Gly Tyr Tyr Asn Pro Ser Thr Glu Leu

580 585 590

Tyr Ser Asn Tyr Lys Lys Gly Thr His Lys Lys Gly Pro Ser Phe Ser

595 600 605

Ile Asp Asp Cys His Asn Leu Ile Asp Phe Phe Lys Glu Ser Ile Lys

610 615 620

Lys His Glu Asp Trp Ser Lys Phe Gly Phe Glu Phe Ser Asp Thr Ala

625 630 635 640

Asp Tyr Arg Asp Ile Ser Glu Phe Tyr Arg Glu Val Glu Lys Gln Gly

645 650 655

Tyr Lys Leu Thr Phe Thr Asp Ile Asp Glu Ser Tyr Ile Asn Asp Leu

660 665 670

Ile Glu Lys Asn Glu Leu Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe

675 680 685

Ser Glu Tyr Ser Lys Gly Lys Leu Asn Leu His Thr Leu Tyr Phe Met

690 695 700

Met Leu Phe Asp Gln Arg Asn Leu Asp Asn Val Val Tyr Lys Leu Asn

705 710 715 720

Gly Glu Ala Glu Val Phe Tyr Arg Pro Ala Ser Ile Ala Glu Asn Glu

725 730 735

Leu Val Ile His Lys Ala Gly Glu Gly Ile Lys Asn Lys Asn Pro Asn

740 745 750

Arg Ala Lys Val Lys Glu Thr Ser Thr Phe Ser Tyr Asp Ile Val Lys

755 760 765

Asp Lys Arg Tyr Ser Lys Tyr Lys Phe Thr Leu His Ile Pro Ile Thr

770 775 780

Met Asn Phe Gly Val Asp Glu Val Arg Arg Phe Asn Asp Val Ile Asn

785 790 795 800

Asn Ala Leu Arg Thr Asp Asp Asn Val Asn Val Ile Gly Ile Asp Arg

805 810 815

Gly Glu Arg Asn Leu Leu Tyr Val Val Val Ile Asn Ser Glu Gly Lys

820 825 830

Ile Leu Glu Gln Ile Ser Leu Asn Ser Ile Ile Asn Lys Glu Tyr Asp

835 840 845

Ile Glu Thr Asn Tyr His Ala Leu Leu Asp Glu Arg Glu Asp Asp Arg

850 855 860

Asn Lys Ala Arg Lys Asp Trp Asn Thr Ile Glu Asn Ile Lys Glu Leu

865 870 875 880

Lys Thr Gly Tyr Leu Ser Gln Val Val Asn Val Val Ala Lys Leu Val

885 890 895

Leu Lys Tyr Asn Ala Ile Ile Cys Leu Glu Asp Leu Asn Phe Gly Phe

900 905 910

Lys Arg Gly Arg Gln Lys Val Glu Lys Gln Val Tyr Gln Lys Phe Glu

915 920 925

Lys Met Leu Ile Glu Lys Leu Asn Tyr Leu Val Ile Asp Lys Ser Arg

930 935 940

Glu Gln Val Ser Pro Glu Lys Met Gly Gly Ala Leu Asn Ala Leu Gln

945 950 955 960

Leu Thr Ser Lys Phe Lys Ser Phe Ala Glu Leu Gly Lys Gln Ser Gly

965 970 975

Ile Ile Tyr Tyr Val Pro Ala Tyr Leu Thr Ser Lys Ile Asp Pro Thr

980 985 990

Thr Gly Phe Val Asn Leu Phe Tyr Ile Lys Tyr Glu Asn Ile Glu Lys

995 1000 1005

Ala Lys Gln Phe Phe Asp Gly Phe Asp Phe Ile Arg Phe Asn Lys

1010 1015 1020

Lys Asp Asp Met Phe Glu Phe Ser Phe Asp Tyr Lys Ser Phe Thr

1025 1030 1035

Gln Lys Ala Cys Gly Ile Arg Ser Lys Trp Ile Val Tyr Thr Asn

1040 1045 1050

Gly Glu Arg Ile Ile Lys Tyr Pro Asn Pro Glu Lys Asn Asn Leu

1055 1060 1065

Phe Asp Glu Lys Val Ile Asn Val Thr Asp Glu Ile Lys Gly Leu

1070 1075 1080

Phe Lys Gln Tyr Arg Ile Pro Tyr Glu Asn Gly Glu Asp Ile Lys

1085 1090 1095

Glu Ile Ile Ile Ser Lys Ala Glu Ala Asp Phe Tyr Lys Arg Leu

1100 1105 1110

Phe Arg Leu Leu His Gln Thr Leu Gln Met Arg Asn Ser Thr Ser

1115 1120 1125

Asp Gly Thr Arg Asp Tyr Ile Ile Ser Pro Val Lys Asn Asp Arg

1130 1135 1140

Gly Glu Phe Phe Cys Ser Glu Phe Ser Glu Gly Thr Met Pro Lys

1145 1150 1155

Asp Ala Asp Ala Asn Gly Ala Tyr Asn Ile Ala Arg Lys Gly Leu

1160 1165 1170

Trp Val Leu Glu Gln Ile Arg Gln Lys Asp Glu Gly Glu Lys Val

1175 1180 1185

Asn Leu Ser Met Thr Asn Ala Glu Trp Leu Lys Tyr Ala Gln Leu

1190 1195 1200

His Leu Leu

1205

<210> 115

<211> 1206

<212> БЕЛОК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность Lachnospiraceae bacterium

<400> 115

Met Glu Asn Tyr Tyr Asp Ser Leu Thr Arg Gln Tyr Pro Val Thr Lys

1 5 10 15

Thr Ile Arg Gln Glu Leu Lys Pro Val Gly Lys Thr Leu Glu Asn Ile

20 25 30

Lys Asn Ala Glu Ile Ile Glu Ala Asp Lys Gln Lys Lys Glu Ala Tyr

35 40 45

Val Lys Val Lys Glu Leu Met Asp Glu Phe His Lys Ser Ile Ile Glu

50 55 60

Lys Ser Leu Val Gly Ile Lys Leu Asp Gly Leu Ser Glu Phe Glu Lys

65 70 75 80

Leu Tyr Lys Ile Lys Thr Lys Thr Asp Glu Asp Lys Asn Arg Ile Ser

85 90 95

Glu Leu Phe Tyr Tyr Met Arg Lys Gln Ile Ala Asp Ala Leu Lys Asn

100 105 110

Ser Arg Asp Tyr Gly Tyr Val Asp Asn Lys Asp Leu Ile Glu Lys Ile

115 120 125

Leu Pro Glu Arg Val Lys Asp Glu Asn Ser Leu Asn Ala Leu Ser Cys

130 135 140

Phe Lys Gly Phe Thr Thr Tyr Phe Thr Asp Tyr Tyr Lys Asn Arg Lys

145 150 155 160

Asn Ile Tyr Ser Asp Glu Glu Lys His Ser Thr Val Gly Tyr Arg Cys

165 170 175

Ile Asn Glu Asn Leu Leu Ile Phe Met Ser Asn Ile Glu Val Tyr Gln

180 185 190

Ile Tyr Lys Lys Ala Asn Ile Lys Asn Asp Asn Tyr Asp Glu Glu Thr

195 200 205

Leu Asp Lys Thr Phe Met Ile Glu Ser Phe Asn Glu Cys Leu Thr Gln

210 215 220

Ser Gly Val Glu Ala Tyr Asn Ser Val Val Ala Ser Ile Lys Thr Ala

225 230 235 240

Thr Asn Leu Tyr Ile Gln Lys Asn Asn Lys Glu Glu Asn Phe Val Arg

245 250 255

Val Pro Lys Met Lys Val Leu Phe Lys Gln Ile Leu Ser Asp Arg Thr

260 265 270

Ser Leu Phe Asp Gly Leu Ile Ile Glu Ser Asp Asp Glu Leu Leu Asp

275 280 285

Lys Leu Cys Ser Phe Ser Ala Glu Val Asp Lys Phe Leu Pro Ile Asn

290 295 300

Ile Asp Arg Tyr Ile Lys Thr Leu Met Asp Ser Asn Asn Gly Thr Gly

305 310 315 320

Ile Tyr Val Lys Asn Asp Ser Ser Leu Thr Thr Leu Ser Asn Tyr Leu

325 330 335

Thr Asp Ser Trp Ser Ser Ile Arg Asn Ala Phe Asn Glu Asn Tyr Asp

340 345 350

Ala Lys Tyr Thr Gly Lys Val Asn Asp Lys Tyr Glu Glu Lys Arg Glu

355 360 365

Lys Ala Tyr Lys Ser Asn Asp Ser Phe Glu Leu Asn Tyr Ile Gln Asn

370 375 380

Leu Leu Gly Ile Asn Val Ile Asp Lys Tyr Ile Glu Arg Ile Asn Phe

385 390 395 400

Asp Ile Lys Glu Ile Cys Glu Ala Tyr Lys Glu Met Thr Lys Asn Cys

405 410 415

Phe Glu Asp His Asp Lys Thr Lys Lys Leu Gln Lys Asn Ile Lys Ala

420 425 430

Val Ala Ser Ile Lys Ser Tyr Leu Asp Ser Leu Lys Asn Ile Glu Arg

435 440 445

Asp Ile Lys Leu Leu Asn Gly Thr Gly Leu Glu Ser Arg Asn Glu Phe

450 455 460

Phe Tyr Gly Glu Gln Ser Thr Val Leu Glu Glu Ile Thr Lys Val Asp

465 470 475 480

Glu Leu Tyr Asn Ile Thr Arg Asn Tyr Leu Thr Lys Lys Pro Phe Ser

485 490 495

Thr Glu Lys Met Lys Leu Asn Phe Asn Asn Pro Gln Leu Leu Gly Gly

500 505 510

Trp Asp Val Asn Lys Glu Arg Asp Cys Tyr Gly Val Ile Leu Ile Lys

515 520 525

Asp Asn Asn Tyr Tyr Leu Gly Ile Met Asp Lys Ser Ala Asn Lys Ser

530 535 540

Phe Leu Asn Ile Lys Glu Ser Lys Asn Glu Asn Ala Tyr Lys Lys Val

545 550 555 560

Asn Cys Lys Leu Leu Pro Gly Pro Asn Lys Met Phe Pro Lys Val Phe

565 570 575

Phe Ala Lys Ser Asn Ile Asp Tyr Tyr Asp Pro Thr His Glu Ile Lys

580 585 590

Lys Leu Tyr Asp Lys Gly Thr Phe Lys Lys Gly Asn Ser Phe Asn Leu

595 600 605

Glu Asp Cys His Lys Leu Ile Asp Phe Tyr Lys Glu Ser Ile Lys Lys

610 615 620

Asn Asp Asp Trp Lys Asn Phe Asn Phe Asn Phe Ser Asp Thr Lys Asp

625 630 635 640

Tyr Glu Asp Ile Ser Gly Phe Phe Arg Glu Val Glu Ala Gln Asn Tyr

645 650 655

Lys Ile Thr Tyr Thr Asn Val Ser Cys Asp Phe Ile Glu Ser Leu Val

660 665 670

Asp Glu Gly Lys Leu Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser

675 680 685

Glu Tyr Ala Thr Gly Asn Leu Asn Leu His Thr Leu Tyr Leu Lys Met

690 695 700

Leu Phe Asp Glu Arg Asn Leu Lys Asp Leu Cys Ile Lys Met Asn Gly

705 710 715 720

Glu Ala Glu Val Phe Tyr Arg Pro Ala Ser Ile Leu Asp Glu Asp Lys

725 730 735

Val Val His Lys Ala Asn Gln Lys Ile Thr Asn Lys Asn Thr Asn Ser

740 745 750

Lys Lys Lys Glu Ser Ile Phe Ser Tyr Asp Ile Val Lys Asp Lys Arg

755 760 765

Tyr Thr Val Asp Lys Phe Phe Ile His Leu Pro Ile Thr Leu Asn Tyr

770 775 780

Lys Glu Gln Asn Val Ser Arg Phe Asn Asp Tyr Ile Arg Glu Ile Leu

785 790 795 800

Lys Lys Ser Lys Asn Ile Arg Val Ile Gly Ile Asp Arg Gly Glu Arg

805 810 815

Asn Leu Leu Tyr Val Val Val Cys Asp Ser Asp Gly Ser Ile Leu Tyr

820 825 830

Gln Arg Ser Ile Asn Glu Ile Val Ser Gly Ser His Lys Thr Asp Tyr

835 840 845

His Lys Leu Leu Asp Asn Lys Glu Lys Glu Arg Leu Ser Ser Arg Arg

850 855 860

Asp Trp Lys Thr Ile Glu Asn Ile Lys Asp Leu Lys Ala Gly Tyr Met

865 870 875 880

Ser Gln Val Val Asn Glu Ile Tyr Asn Leu Ile Leu Lys Tyr Asn Ala

885 890 895

Ile Val Val Leu Glu Asp Leu Asn Ile Gly Phe Lys Asn Gly Arg Lys

900 905 910

Lys Val Glu Lys Gln Val Tyr Gln Asn Phe Glu Lys Ala Leu Ile Asp

915 920 925

Lys Leu Asn Tyr Leu Cys Ile Asp Lys Thr Arg Glu Gln Leu Ser Pro

930 935 940

Ser Ser Pro Gly Gly Val Leu Asn Ala Tyr Gln Leu Thr Ala Lys Phe

945 950 955 960

Glu Ser Phe Glu Lys Ile Gly Lys Gln Thr Gly Cys Ile Phe Tyr Val

965 970 975

Pro Ala Tyr Leu Thr Ser Gln Ile Asp Pro Thr Thr Gly Phe Val Asn

980 985 990

Leu Phe Tyr Gln Lys Asp Thr Ser Lys Gln Gly Leu Gln Leu Phe Phe

995 1000 1005

Arg Lys Phe Lys Lys Ile Asn Phe Asp Lys Val Ala Ser Asn Phe

1010 1015 1020

Glu Phe Val Phe Asp Tyr Asn Asp Phe Thr Asn Lys Ala Glu Gly

1025 1030 1035

Thr Lys Thr Asn Trp Thr Ile Ser Thr Gln Gly Thr Arg Ile Ala

1040 1045 1050

Lys Tyr Arg Ser Asp Asp Ala Asn Gly Lys Trp Ile Ser Arg Thr

1055 1060 1065

Val His Pro Thr Asp Ile Ile Lys Glu Ala Leu Asn Arg Glu Lys

1070 1075 1080

Ile Asn Tyr Asn Asp Gly His Asp Leu Ile Asp Glu Ile Val Ser

1085 1090 1095

Ile Glu Lys Ser Ala Val Leu Lys Glu Ile Tyr Tyr Gly Phe Lys

1100 1105 1110

Leu Thr Leu Gln Leu Arg Asn Ser Thr Leu Ala Asn Glu Glu Glu

1115 1120 1125

Gln Glu Asp Tyr Ile Ile Ser Pro Val Lys Asn Ser Ser Gly Asn

1130 1135 1140

Tyr Phe Asp Ser Arg Ile Thr Ser Lys Glu Leu Pro Cys Asp Ala

1145 1150 1155

Asp Ala Asn Gly Ala Tyr Asn Ile Ala Arg Lys Gly Leu Trp Ala

1160 1165 1170

Leu Glu Gln Ile Arg Asn Ser Glu Asn Val Ser Lys Val Lys Leu

1175 1180 1185

Ala Ile Ser Asn Lys Glu Trp Phe Glu Tyr Thr Gln Asn Asn Ile

1190 1195 1200

Pro Ser Leu

1205

<210> 116

<211> 1205

<212> БЕЛОК

<213> Oribacterium sp.

<400> 116

Met Tyr Tyr Asp Gly Leu Thr Lys Gln Tyr Ala Leu Ser Lys Thr Ile

1 5 10 15

Arg Asn Glu Leu Val Pro Ile Gly Lys Thr Leu Asp Asn Ile Lys Lys

20 25 30

Asn Arg Ile Leu Glu Ala Asp Ile Lys Arg Lys Ser Asp Tyr Glu His

35 40 45

Val Lys Lys Leu Met Asp Met Tyr His Lys Lys Ile Ile Asn Glu Ala

50 55 60

Leu Asp Asn Phe Lys Leu Ser Val Leu Glu Asp Ala Ala Asp Ile Tyr

65 70 75 80

Phe Asn Lys Gln Asn Asp Glu Arg Asp Ile Asp Ala Phe Leu Lys Ile

85 90 95

Gln Asp Lys Leu Arg Lys Glu Ile Val Glu Gln Leu Lys Gly His Thr

100 105 110

Asp Tyr Ser Lys Val Gly Asn Lys Asp Phe Leu Gly Leu Leu Lys Ala

115 120 125

Ala Ser Thr Glu Glu Asp Arg Ile Leu Ile Glu Ser Phe Asp Asn Phe

130 135 140

Tyr Thr Tyr Phe Thr Ser Tyr Asn Lys Val Arg Ser Asn Leu Tyr Ser

145 150 155 160

Ala Glu Asp Lys Ser Ser Thr Val Ala Tyr Arg Leu Ile Asn Glu Asn

165 170 175

Leu Pro Lys Phe Phe Asp Asn Ile Lys Ala Tyr Arg Thr Val Arg Asn

180 185 190

Ala Gly Val Ile Ser Gly Asp Met Ser Ile Val Glu Gln Asp Glu Leu

195 200 205

Phe Glu Val Asp Thr Phe Asn His Thr Leu Thr Gln Tyr Gly Ile Asp

210 215 220

Thr Tyr Asn His Met Ile Gly Gln Leu Asn Ser Ala Ile Asn Leu Tyr

225 230 235 240

Asn Gln Lys Met His Gly Ala Gly Ser Phe Lys Lys Leu Pro Lys Met

245 250 255

Lys Glu Leu Tyr Lys Gln Leu Leu Thr Glu Arg Glu Glu Glu Phe Ile

260 265 270

Glu Glu Tyr Thr Asp Asp Glu Val Leu Ile Thr Ser Val His Asn Tyr

275 280 285

Val Ser Tyr Leu Ile Asp Tyr Leu Asn Ser Asp Lys Val Glu Ser Phe

290 295 300

Phe Asp Thr Leu Arg Lys Ser Asp Gly Lys Glu Val Phe Ile Lys Asn

305 310 315 320

Asp Val Ser Lys Thr Thr Met Ser Asn Ile Leu Phe Asp Asn Trp Ser

325 330 335

Thr Ile Asp Asp Leu Ile Asn His Glu Tyr Asp Ser Ala Pro Glu Asn

340 345 350

Val Lys Lys Thr Lys Asp Asp Lys Tyr Phe Glu Lys Arg Gln Lys Asp

355 360 365

Leu Lys Lys Asn Lys Ser Tyr Ser Leu Ser Lys Ile Ala Ala Leu Cys

370 375 380

Arg Asp Thr Thr Ile Leu Glu Lys Tyr Ile Arg Arg Leu Val Asp Asp

385 390 395 400

Ile Glu Lys Ile Tyr Thr Ser Asn Asn Val Phe Ser Asp Ile Val Leu

405 410 415

Ser Lys His Asp Arg Ser Lys Lys Leu Ser Lys Asn Thr Asn Ala Val

420 425 430

Gln Ala Ile Lys Asn Met Leu Asp Ser Ile Lys Asp Phe Glu His Asp

435 440 445

Val Met Leu Ile Asn Gly Ser Gly Gln Glu Ile Lys Lys Asn Leu Asn

450 455 460

Val Tyr Ser Glu Gln Glu Ala Leu Ala Gly Ile Leu Arg Gln Val Asp

465 470 475 480

His Ile Tyr Asn Leu Thr Arg Asn Tyr Leu Thr Lys Lys Pro Phe Ser

485 490 495

Thr Glu Lys Ile Lys Leu Asn Phe Asn Arg Pro Thr Phe Leu Asp Gly

500 505 510

Trp Asp Lys Asn Lys Glu Glu Ala Asn Leu Gly Ile Leu Leu Ile Lys

515 520 525

Asp Asn Arg Tyr Tyr Leu Gly Ile Met Asn Thr Ser Ser Asn Lys Ala

530 535 540

Phe Val Asn Pro Pro Lys Ala Ile Ser Asn Asp Ile Tyr Lys Lys Val

545 550 555 560

Asp Tyr Lys Leu Leu Pro Gly Pro Asn Lys Met Leu Pro Lys Val Phe

565 570 575

Phe Ala Thr Lys Asn Ile Ala Tyr Tyr Ala Pro Ser Glu Glu Leu Leu

580 585 590

Ser Lys Tyr Arg Lys Gly Thr His Lys Lys Gly Asp Ser Phe Ser Ile

595 600 605

Asp Asp Cys Arg Asn Leu Ile Asp Phe Phe Lys Ser Ser Ile Asn Lys

610 615 620

Asn Thr Asp Trp Ser Thr Phe Gly Phe Asn Phe Ser Asp Thr Asn Ser

625 630 635 640

Tyr Asn Asp Ile Ser Asp Phe Tyr Arg Glu Val Glu Lys Gln Gly Tyr

645 650 655

Lys Leu Ser Phe Thr Asp Ile Asp Ala Cys Tyr Ile Lys Asp Leu Val

660 665 670

Asp Asn Asn Glu Leu Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser

675 680 685

Pro Tyr Ser Lys Gly Lys Leu Asn Leu His Thr Leu Tyr Phe Lys Met

690 695 700

Leu Phe Asp Gln Arg Asn Leu Asp Asn Val Val Tyr Lys Leu Asn Gly

705 710 715 720

Glu Ala Glu Val Phe Tyr Arg Pro Ala Ser Ile Glu Ser Asp Glu Gln

725 730 735

Ile Ile His Lys Ser Gly Gln Asn Ile Lys Asn Lys Asn Gln Lys Arg

740 745 750

Ser Asn Cys Lys Lys Thr Ser Thr Phe Asp Tyr Asp Ile Val Lys Asp

755 760 765

Arg Arg Tyr Cys Lys Asp Lys Phe Met Leu His Leu Pro Ile Thr Val

770 775 780

Asn Phe Gly Thr Asn Glu Ser Gly Lys Phe Asn Glu Leu Val Asn Asn

785 790 795 800

Ala Ile Arg Ala Asp Lys Asp Val Asn Val Ile Gly Ile Asp Arg Gly

805 810 815

Glu Arg Asn Leu Leu Tyr Val Val Val Val Asp Pro Cys Gly Lys Ile

820 825 830

Ile Glu Gln Ile Ser Leu Asn Thr Ile Val Asp Lys Glu Tyr Asp Ile

835 840 845

Glu Thr Asp Tyr His Gln Leu Leu Asp Glu Lys Glu Gly Ser Arg Asp

850 855 860

Lys Ala Arg Lys Asp Trp Asn Thr Ile Glu Asn Ile Lys Glu Leu Lys

865 870 875 880

Glu Gly Tyr Leu Ser Gln Val Val Asn Ile Ile Ala Lys Leu Val Leu

885 890 895

Lys Tyr Asp Ala Ile Ile Cys Leu Glu Asp Leu Asn Phe Gly Phe Lys

900 905 910

Arg Gly Arg Gln Lys Val Glu Lys Gln Val Tyr Gln Lys Phe Glu Lys

915 920 925

Met Leu Ile Asp Lys Met Asn Tyr Leu Val Leu Asp Lys Ser Arg Lys

930 935 940

Gln Glu Ser Pro Gln Lys Pro Gly Gly Ala Leu Asn Ala Leu Gln Leu

945 950 955 960

Thr Ser Ala Phe Lys Ser Phe Lys Glu Leu Gly Lys Gln Thr Gly Ile

965 970 975

Ile Tyr Tyr Val Pro Ala Tyr Leu Thr Ser Lys Ile Asp Pro Thr Thr

980 985 990

Gly Phe Ala Asn Leu Phe Tyr Ile Lys Tyr Glu Ser Val Asp Lys Ala

995 1000 1005

Arg Asp Phe Phe Ser Lys Phe Asp Phe Ile Arg Tyr Asn Gln Met

1010 1015 1020

Asp Asn Tyr Phe Glu Phe Gly Phe Asp Tyr Lys Ser Phe Thr Glu

1025 1030 1035

Arg Ala Ser Gly Cys Lys Ser Lys Trp Ile Ala Cys Thr Asn Gly

1040 1045 1050

Glu Arg Ile Val Lys Tyr Arg Asn Ser Asp Lys Asn Asn Ser Phe

1055 1060 1065

Asp Asp Lys Thr Val Ile Leu Thr Asp Glu Tyr Arg Ser Leu Phe

1070 1075 1080

Asp Lys Tyr Leu Gln Asn Tyr Ile Asp Glu Asp Asp Leu Lys Asp

1085 1090 1095

Gln Ile Leu Gln Ile Asp Ser Ala Asp Phe Tyr Lys Asn Leu Ile

1100 1105 1110

Lys Leu Phe Gln Leu Thr Leu Gln Met Arg Asn Ser Ser Ser Asp

1115 1120 1125

Gly Lys Arg Asp Tyr Ile Ile Ser Pro Val Lys Asn Tyr Arg Glu

1130 1135 1140

Glu Phe Phe Cys Ser Glu Phe Ser Asp Asp Thr Phe Pro Arg Asp

1145 1150 1155

Ala Asp Ala Asn Gly Ala Tyr Asn Ile Ala Arg Lys Gly Leu Trp

1160 1165 1170

Val Ile Lys Gln Ile Arg Glu Thr Lys Ser Gly Thr Lys Ile Asn

1175 1180 1185

Leu Ala Met Ser Asn Ser Glu Trp Leu Glu Tyr Ala Gln Cys Asn

1190 1195 1200

Leu Leu

1205

<210> 117

<211> 1125

<212> БЕЛОК

<213> Pseudobutyrivibrio ruminis

<400> 117

Phe Asn Leu Ser Lys Glu Lys Asn Ser Val Asp Ala Phe Ser Lys Cys

1 5 10 15

Gln Asp Lys Leu Arg Lys Glu Ile Val Ser Leu Leu Lys Asn His Glu

20 25 30

Asn Phe Pro Lys Ile Gly Asn Lys Glu Ile Ile Lys Leu Leu Gln Ser

35 40 45

Leu Tyr Asp Asn Asp Thr Asp Tyr Lys Ala Leu Asp Ser Phe Ser Asn

50 55 60

Phe Tyr Thr Tyr Phe Ser Ser Tyr Asn Glu Val Arg Lys Asn Leu Tyr

65 70 75 80

Ser Asp Glu Glu Lys Ser Ser Thr Val Ala Tyr Arg Leu Ile Asn Glu

85 90 95

Asn Leu Pro Lys Phe Leu Asp Asn Ile Lys Ala Tyr Ala Ile Ala Lys

100 105 110

Lys Ala Gly Val Arg Ala Glu Gly Leu Ser Glu Glu Asp Gln Asp Cys

115 120 125

Leu Phe Ile Ile Glu Thr Phe Glu Arg Thr Leu Thr Gln Asp Gly Ile

130 135 140

Asp Asn Tyr Asn Ala Ala Ile Gly Lys Leu Asn Thr Ala Ile Asn Leu

145 150 155 160

Phe Asn Gln Gln Asn Lys Lys Gln Glu Gly Phe Arg Lys Val Pro Gln

165 170 175

Met Lys Cys Leu Tyr Lys Gln Ile Leu Ser Asp Arg Glu Glu Ala Phe

180 185 190

Ile Asp Glu Phe Ser Asp Asp Glu Asp Leu Ile Thr Asn Ile Glu Ser

195 200 205

Phe Ala Glu Asn Met Asn Val Phe Leu Asn Ser Glu Ile Ile Thr Asp

210 215 220

Phe Lys Ile Ala Leu Val Glu Ser Asp Gly Ser Leu Val Tyr Ile Lys

225 230 235 240

Asn Asp Val Ser Lys Thr Ser Phe Ser Asn Ile Val Phe Gly Ser Trp

245 250 255

Asn Ala Ile Asp Glu Lys Leu Ser Asp Glu Tyr Asp Leu Ala Asn Ser

260 265 270

Lys Lys Lys Lys Asp Glu Lys Tyr Tyr Glu Lys Arg Gln Lys Glu Leu

275 280 285

Lys Lys Asn Lys Ser Tyr Asp Leu Glu Thr Ile Ile Gly Leu Phe Asp

290 295 300

Asp Asn Ser Asp Val Ile Gly Lys Tyr Ile Glu Lys Leu Glu Ser Asp

305 310 315 320

Ile Thr Ala Ile Ala Glu Ala Lys Asn Asp Phe Asp Glu Ile Val Leu

325 330 335

Arg Lys His Asp Lys Asn Lys Ser Leu Arg Lys Asn Thr Asn Ala Val

340 345 350

Glu Ala Ile Lys Ser Tyr Leu Asp Thr Val Lys Asp Phe Glu Arg Asp

355 360 365

Ile Lys Leu Ile Asn Gly Ser Gly Gln Glu Val Glu Lys Asn Leu Val

370 375 380

Val Tyr Ala Glu Gln Glu Asn Ile Leu Ala Glu Ile Lys Asn Val Asp

385 390 395 400

Ser Leu Tyr Asn Met Ser Arg Asn Tyr Leu Thr Gln Lys Pro Phe Ser

405 410 415

Thr Glu Lys Phe Lys Leu Asn Phe Asn Arg Ala Thr Leu Leu Asn Gly

420 425 430

Trp Asp Lys Asn Lys Glu Thr Asp Asn Leu Gly Ile Leu Phe Glu Lys

435 440 445

Asp Gly Met Tyr Tyr Leu Gly Ile Met Asn Thr Lys Ala Asn Lys Ile

450 455 460

Phe Val Asn Ile Pro Lys Ala Thr Ser Asn Asp Val Tyr His Lys Val

465 470 475 480

Asn Tyr Lys Leu Leu Pro Gly Pro Asn Lys Met Leu Pro Lys Val Phe

485 490 495

Phe Ala Gln Ser Asn Leu Asp Tyr Tyr Lys Pro Ser Glu Glu Leu Leu

500 505 510

Ala Lys Tyr Lys Ala Gly Thr His Lys Lys Gly Asp Asn Phe Ser Leu

515 520 525

Glu Asp Cys His Ala Leu Ile Asp Phe Phe Lys Ala Ser Ile Glu Lys

530 535 540

His Pro Asp Trp Ser Ser Phe Gly Phe Glu Phe Ser Glu Thr Cys Thr

545 550 555 560

Tyr Glu Asp Leu Ser Gly Phe Tyr Arg Glu Val Glu Lys Gln Gly Tyr

565 570 575

Lys Ile Thr Tyr Thr Asp Val Asp Ala Asp Tyr Ile Thr Ser Leu Val

580 585 590

Glu Arg Asp Glu Leu Tyr Leu Phe Gln Ile Tyr Asn Lys Asp Phe Ser

595 600 605

Pro Tyr Ser Lys Gly Asn Leu Asn Leu His Thr Ile Tyr Leu Gln Met

610 615 620

Leu Phe Asp Gln Arg Asn Leu Asn Asn Val Val Tyr Lys Leu Asn Gly

625 630 635 640

Glu Ala Glu Val Phe Tyr Arg Pro Ala Ser Ile Asn Asp Glu Glu Val

645 650 655

Ile Ile His Lys Ala Gly Glu Glu Ile Lys Asn Lys Asn Ser Lys Arg

660 665 670

Ala Val Asp Lys Pro Thr Ser Lys Phe Gly Tyr Asp Ile Ile Lys Asp

675 680 685

Arg Arg Tyr Ser Lys Asp Lys Phe Met Leu His Ile Pro Val Thr Met

690 695 700

Asn Phe Gly Val Asp Glu Thr Arg Arg Phe Asn Asp Val Val Asn Asp

705 710 715 720

Ala Leu Arg Asn Asp Glu Lys Val Arg Val Ile Gly Ile Asp Arg Gly

725 730 735

Glu Arg Asn Leu Leu Tyr Val Val Val Val Asp Thr Asp Gly Thr Ile

740 745 750

Leu Glu Gln Ile Ser Leu Asn Ser Ile Ile Asn Asn Glu Tyr Ser Ile

755 760 765

Glu Thr Asp Tyr His Lys Leu Leu Asp Glu Lys Glu Gly Asp Arg Asp

770 775 780

Arg Ala Arg Lys Asn Trp Thr Thr Ile Glu Asn Ile Lys Glu Leu Lys

785 790 795 800

Glu Gly Tyr Leu Ser Gln Val Val Asn Val Ile Ala Lys Leu Val Leu

805 810 815

Lys Tyr Asn Ala Ile Ile Cys Leu Glu Asp Leu Asn Phe Gly Phe Lys

820 825 830

Arg Gly Arg Gln Lys Val Glu Lys Gln Val Tyr Gln Lys Phe Glu Lys

835 840 845

Met Leu Ile Asp Lys Leu Asn Tyr Leu Val Ile Asp Lys Ser Arg Lys

850 855 860

Gln Asp Lys Pro Glu Glu Phe Gly Gly Ala Leu Asn Ala Leu Gln Leu

865 870 875 880

Thr Ser Lys Phe Thr Ser Phe Lys Asp Met Gly Lys Gln Thr Gly Ile

885 890 895

Ile Tyr Tyr Val Pro Ala Tyr Leu Thr Ser Lys Ile Asp Pro Thr Thr

900 905 910

Gly Phe Ala Asn Leu Phe Tyr Val Lys Tyr Glu Asn Val Glu Lys Ala

915 920 925

Lys Glu Phe Phe Ser Arg Phe Asp Ser Ile Ser Tyr Asn Asn Glu Ser

930 935 940

Gly Tyr Phe Glu Phe Ala Phe Asp Tyr Lys Lys Phe Thr Asp Arg Ala

945 950 955 960

Cys Gly Ala Arg Ser Gln Trp Thr Val Cys Thr Tyr Gly Glu Arg Ile

965 970 975

Ile Lys Phe Arg Asn Thr Glu Lys Asn Asn Ser Phe Asp Asp Lys Thr

980 985 990

Ile Val Leu Ser Glu Glu Phe Lys Glu Leu Phe Ser Ile Tyr Gly Ile

995 1000 1005

Ser Tyr Glu Asp Gly Ala Glu Leu Lys Asn Lys Ile Met Ser Val

1010 1015 1020

Asp Glu Ala Asp Phe Phe Arg Ser Leu Thr Arg Leu Phe Gln Gln

1025 1030 1035

Thr Met Gln Met Arg Asn Ser Ser Asn Asp Val Thr Arg Asp Tyr

1040 1045 1050

Ile Ile Ser Pro Ile Met Asn Asp Arg Gly Glu Phe Phe Asn Ser

1055 1060 1065

Glu Ala Cys Asp Ala Ser Lys Pro Lys Asp Ala Asp Ala Asn Gly

1070 1075 1080

Ala Phe Asn Ile Ala Arg Lys Gly Leu Trp Val Leu Glu Gln Ile

1085 1090 1095

Arg Asn Thr Pro Ser Gly Asp Lys Leu Asn Leu Ala Met Ser Asn

1100 1105 1110

Ala Glu Trp Leu Glu Tyr Ala Gln Arg Asn Gln Ile

1115 1120 1125

<210> 118

<211> 1154

<212> БЕЛОК

<213> Proteocatella sphenisci

<400> 118

Met Glu Asn Phe Lys Asn Leu Tyr Pro Ile Asn Lys Thr Leu Arg Phe

1 5 10 15

Glu Leu Arg Pro Tyr Gly Lys Thr Leu Glu Asn Phe Lys Lys Ser Gly

20 25 30

Leu Leu Glu Lys Asp Ala Phe Lys Ala Asn Ser Arg Arg Ser Met Gln

35 40 45

Ala Ile Ile Asp Glu Lys Phe Lys Glu Thr Ile Glu Glu Arg Leu Lys

50 55 60

Tyr Thr Glu Phe Ser Glu Cys Asp Leu Gly Asn Met Thr Ser Lys Asp

65 70 75 80

Lys Lys Ile Thr Asp Lys Ala Ala Thr Asn Leu Lys Lys Gln Val Ile

85 90 95

Leu Ser Phe Asp Asp Glu Ile Phe Asn Asn Tyr Leu Lys Pro Asp Lys

100 105 110

Asn Ile Asp Ala Leu Phe Lys Asn Asp Pro Ser Asn Pro Val Ile Ser

115 120 125

Thr Phe Lys Gly Phe Thr Thr Tyr Phe Val Asn Phe Phe Glu Ile Arg

130 135 140

Lys His Ile Phe Lys Gly Glu Ser Ser Gly Ser Met Ala Tyr Arg Ile

145 150 155 160

Ile Asp Glu Asn Leu Thr Thr Tyr Leu Asn Asn Ile Glu Lys Ile Lys

165 170 175

Lys Leu Pro Glu Glu Leu Lys Ser Gln Leu Glu Gly Ile Asp Gln Ile

180 185 190

Asp Lys Leu Asn Asn Tyr Asn Glu Phe Ile Thr Gln Ser Gly Ile Thr

195 200 205

His Tyr Asn Glu Ile Ile Gly Gly Ile Ser Lys Ser Glu Asn Val Lys

210 215 220

Ile Gln Gly Ile Asn Glu Gly Ile Asn Leu Tyr Cys Gln Lys Asn Lys

225 230 235 240

Val Lys Leu Pro Arg Leu Thr Pro Leu Tyr Lys Met Ile Leu Ser Asp

245 250 255

Arg Val Ser Asn Ser Phe Val Leu Asp Thr Ile Glu Asn Asp Thr Glu

260 265 270

Leu Ile Glu Met Ile Ser Asp Leu Ile Asn Lys Thr Glu Ile Ser Gln

275 280 285

Asp Val Ile Met Ser Asp Ile Gln Asn Ile Phe Ile Lys Tyr Lys Gln

290 295 300

Leu Gly Asn Leu Pro Gly Ile Ser Tyr Ser Ser Ile Val Asn Ala Ile

305 310 315 320

Cys Ser Asp Tyr Asp Asn Asn Phe Gly Asp Gly Lys Arg Lys Lys Ser

325 330 335

Tyr Glu Asn Asp Arg Lys Lys His Leu Glu Thr Asn Val Tyr Ser Ile

340 345 350

Asn Tyr Ile Ser Glu Leu Leu Thr Asp Thr Asp Val Ser Ser Asn Ile

355 360 365

Lys Met Arg Tyr Lys Glu Leu Glu Gln Asn Tyr Gln Val Cys Lys Glu

370 375 380

Asn Phe Asn Ala Thr Asn Trp Met Asn Ile Lys Asn Ile Lys Gln Ser

385 390 395 400

Glu Lys Thr Asn Leu Ile Lys Asp Leu Leu Asp Ile Leu Lys Ser Ile

405 410 415

Gln Arg Phe Tyr Asp Leu Phe Asp Ile Val Asp Glu Asp Lys Asn Pro

420 425 430

Ser Ala Glu Phe Tyr Thr Trp Leu Ser Lys Asn Ala Glu Lys Leu Asp

435 440 445

Phe Glu Phe Asn Ser Val Tyr Asn Lys Ser Arg Asn Tyr Leu Thr Arg

450 455 460

Lys Gln Tyr Ser Asp Lys Lys Ile Lys Leu Asn Phe Asp Ser Pro Thr

465 470 475 480

Leu Ala Lys Gly Trp Asp Ala Asn Lys Glu Ile Asp Asn Ser Thr Ile

485 490 495

Ile Met Arg Lys Phe Asn Asn Asp Arg Gly Asp Tyr Asp Tyr Phe Leu

500 505 510

Gly Ile Trp Asn Lys Ser Thr Pro Ala Asn Glu Lys Ile Ile Pro Leu

515 520 525

Glu Asp Asn Gly Leu Phe Glu Lys Met Gln Tyr Lys Leu Tyr Pro Asp

530 535 540

Pro Ser Lys Met Leu Pro Lys Gln Phe Leu Ser Lys Ile Trp Lys Ala

545 550 555 560

Lys His Pro Thr Thr Pro Glu Phe Asp Lys Lys Tyr Lys Glu Gly Arg

565 570 575

His Lys Lys Gly Pro Asp Phe Glu Lys Glu Phe Leu His Glu Leu Ile

580 585 590

Asp Cys Phe Lys His Gly Leu Val Asn His Asp Glu Lys Tyr Gln Asp

595 600 605

Val Phe Gly Phe Asn Leu Arg Asn Thr Glu Asp Tyr Asn Ser Tyr Thr

610 615 620

Glu Phe Leu Glu Asp Val Glu Arg Cys Asn Tyr Asn Leu Ser Phe Asn

625 630 635 640

Lys Ile Ala Asp Thr Ser Asn Leu Ile Asn Asp Gly Lys Leu Tyr Val

645 650 655

Phe Gln Ile Trp Ser Lys Asp Phe Ser Ile Asp Ser Lys Gly Thr Lys

660 665 670

Asn Leu Asn Thr Ile Tyr Phe Glu Ser Leu Phe Ser Glu Glu Asn Met

675 680 685

Ile Glu Lys Met Phe Lys Leu Ser Gly Glu Ala Glu Ile Phe Tyr Arg

690 695 700

Pro Ala Ser Leu Asn Tyr Cys Glu Asp Ile Ile Lys Lys Gly His His

705 710 715 720

His Ala Glu Leu Lys Asp Lys Phe Asp Tyr Pro Ile Ile Lys Asp Lys

725 730 735

Arg Tyr Ser Gln Asp Lys Phe Phe Phe His Val Pro Met Val Ile Asn

740 745 750

Tyr Lys Ser Glu Lys Leu Asn Ser Lys Ser Leu Asn Asn Arg Thr Asn

755 760 765

Glu Asn Leu Gly Gln Phe Thr His Ile Ile Gly Ile Asp Arg Gly Glu

770 775 780

Arg His Leu Ile Tyr Leu Thr Val Val Asp Val Ser Thr Gly Glu Ile

785 790 795 800

Val Glu Gln Lys His Leu Asp Glu Ile Ile Asn Thr Asp Thr Lys Gly

805 810 815

Val Glu His Lys Thr His Tyr Leu Asn Lys Leu Glu Glu Lys Ser Lys

820 825 830

Thr Arg Asp Asn Glu Arg Lys Ser Trp Glu Ala Ile Glu Thr Ile Lys

835 840 845

Glu Leu Lys Glu Gly Tyr Ile Ser His Val Ile Asn Glu Ile Gln Lys

850 855 860

Leu Gln Glu Lys Tyr Asn Ala Leu Ile Val Met Glu Asn Leu Asn Tyr

865 870 875 880

Gly Phe Lys Asn Ser Arg Ile Lys Val Glu Lys Gln Val Tyr Gln Lys

885 890 895

Phe Glu Thr Ala Leu Ile Lys Lys Phe Asn Tyr Ile Ile Asp Lys Lys

900 905 910

Asp Pro Glu Thr Tyr Ile His Gly Tyr Gln Leu Thr Asn Pro Ile Thr

915 920 925

Thr Leu Asp Lys Ile Gly Asn Gln Ser Gly Ile Val Leu Tyr Ile Pro

930 935 940

Ala Trp Asn Thr Ser Lys Ile Asp Pro Val Thr Gly Phe Val Asn Leu

945 950 955 960

Leu Tyr Ala Asp Asp Leu Lys Tyr Lys Asn Gln Glu Gln Ala Lys Ser

965 970 975

Phe Ile Gln Lys Ile Asp Asn Ile Tyr Phe Glu Asn Gly Glu Phe Lys

980 985 990

Phe Asp Ile Asp Phe Ser Lys Trp Asn Asn Arg Tyr Ser Ile Ser Lys

995 1000 1005

Thr Lys Trp Thr Leu Thr Ser Tyr Gly Thr Arg Ile Gln Thr Phe

1010 1015 1020

Arg Asn Pro Gln Lys Asn Asn Lys Trp Asp Ser Ala Glu Tyr Asp

1025 1030 1035

Leu Thr Glu Glu Phe Lys Leu Ile Leu Asn Ile Asp Gly Thr Leu

1040 1045 1050

Lys Ser Gln Asp Val Glu Thr Tyr Lys Lys Phe Met Ser Leu Phe

1055 1060 1065

Lys Leu Met Leu Gln Leu Arg Asn Ser Val Thr Gly Thr Asp Ile

1070 1075 1080

Asp Tyr Met Ile Ser Pro Val Thr Asp Lys Thr Gly Thr His Phe

1085 1090 1095

Asp Ser Arg Glu Asn Ile Lys Asn Leu Pro Ala Asp Ala Asp Ala

1100 1105 1110

Asn Gly Ala Tyr Asn Ile Ala Arg Lys Gly Ile Met Ala Ile Glu

1115 1120 1125

Asn Ile Met Asn Gly Ile Ser Asp Pro Leu Lys Ile Ser Asn Glu

1130 1135 1140

Asp Tyr Leu Lys Tyr Ile Gln Asn Gln Gln Glu

1145 1150

<210> 119

<211> 34

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 119

ttagagaagt catttaataa ggccactgtt aaaa 34

<210> 120

<211> 34

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<220>

<223> Описание объединенной молекулы ДНК/РНК: Синтетический олигонуклеотид

<400> 120

ttcgagaagu cauuuaauaa ggccacuguu aaaa 34

<210> 121

<211> 34

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<220>

<223> Описание объединенной молекулы ДНК/РНК: Синтетический олигонуклеотид

<400> 121

ttcgagaagu cauuuaauaa ggccacuguu aaaa 34

<210> 122

<211> 34

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<220>

<223> Описание объединенной молекулы ДНК/РНК: Синтетический олигонуклеотид

<400> 122

ttcgagaagu cauuuaauaa ggccacuguu aaaa 34

<210> 123

<211> 34

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<220>

<223> Описание объединенной молекулы ДНК/РНК: Синтетический олигонуклеотид

<400> 123

ttcgagaagu cauuuaauaa ggccacuguu aaaa 34

<210> 124

<211> 24

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 124

ctgatggtcc atgtctgtta ctcg 24

<210> 125

<211> 20

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический праймер

<400> 125

ctgggactca ggcgggtcac 20

<210> 126

<211> 25

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический праймер

<400> 126

cctcacacaa cagcttcatg tcagc 25

<210> 127

<211> 3960

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полинуклеотид

<400> 127

atggccccaa agaagaagcg gaaggtcggt atccacggag tcccagcagc cggtagtaac 60

atcaaaaact ttaccgggct ctaccccctc agcaaaactt tgcgctttga actcaagcct 120

attggcaaaa ccaaggaaaa catcgagaaa aatggcatcc tgaccaagga cgagcaacgg 180

gctaaagact acctcatagt caaaggcttt attgacgagt atcacaagca gttcatcaaa 240

gacaggcttt gggactttaa attgcctctc gaaagtgagg gggagaagaa cagtctcgaa 300

gaataccagg aactgtacga gctcactaag cgcaacgatg cccaggaggc cgacttcacc 360

gagattaaag ataaccttcg cagctctatt accgaacagc tcacgaagtc tggatctgcg 420

tacgatcgga tttttaaaaa agagttcatt agagaagacc tggtcaactt cctcgaagat 480

gaaaaagata aaaatatcgt gaaacagttc gaggacttta ctacatattt tacgggtttt 540

tatgaaaata ggaagaacat gtactctagc gaagagaagt ccacggccat cgcataccgg 600

cttatccatc agaatctgcc aaaattcatg gacaacatga gaagttttgc caaaattgca 660

aattccagtg tttccgagca ctttagcgac atctatgaaa gctggaagga atatctgaat 720

gtaaatagca tcgaggaaat cttccagctc gactatttta gcgaaacctt gactcagcca 780

catattgagg tgtataacta tattatcggg aagaaagtcc tggaagacgg aaccgagata 840

aagggcatca acgagtatgt gaacctctac aatcagcagc agaaagataa gagtaaacga 900

ctgcctttcc tggtgccact gtataagcaa attttgtctg atagggaaaa actctcctgg 960

attgctgaag agttcgacag cgacaagaag atgctgagcg ctatcaccga gtcttacaac 1020

cacctgcaca acgtgttgat gggtaacgag aacgaaagcc tgcgaaatct gctgctgaat 1080

attaaggact ataacctgga gaaaattaat atcacaaacg acttgtctct caccgaaatc 1140

tcccagaatc tttttggccg atatgatgta ttcacaaatg ggatcaaaaa caagctgaga 1200

gtgttgactc caaggaagaa aaaggagacg gacgaaaatt ttgaggaccg cattaacaaa 1260

atttttaaga cccagaagtc cttcagcatc gcttttctga acaagctgcc tcagcccgaa 1320

atggaggatg ggaagccccg gaacattgag gactatttca ttacacaggg ggcgattaac 1380

accaaatcta tacagaaaga agatatcttc gcccaaattg agaatgcata cgaggatgca 1440

caggtgttcc tgcaaattaa ggacaccgac aacaaactta gccagaacaa gacggcggtg 1500

gaaaagatca aaactttgct ggacgccttg aaggaactcc agcacttcat caaaccgctg 1560

ctgggctctg gggaggagaa cgagaaagac gaactgttct acggttcctt cctggccatc 1620

tgggacgaac tggacaccat tacaccactt tataacaaag tgagaaattg gctgacccga 1680

aaaccatatt caacagaaaa aatcaaattg aatttcgaca acgctcagct gctgggaggg 1740

tgggatgtca ataaagaaca cgactgtgca ggtatcttgt tgcggaaaaa cgatagctac 1800

tatctcggaa ttatcaataa gaaaaccaac cacatctttg atacggatat tacgccatca 1860

gatggcgagt gctatgacaa aatcgactac aagctccttc ccggggcgaa caaaatgctt 1920

ccaaaggtgt tttttagtaa gtcccgaatc aaagagttcg agccatcaga ggccataatc 1980

aattgctata agaaggggac acacaaaaaa ggaaaaaact ttaacctgac ggactgtcac 2040

cgcctgatca acttttttaa gacctcaatc gagaaacacg aggattggtc aaaattcgga 2100

ttcaagttct ccgataccga aacgtatgag gatattagcg gtttttatag agaggtcgag 2160

cagcagggat acaggctgac gagccatcca gtcagtgcca gctatataca tagtctggtc 2220

aaggaaggaa aactgtacct cttccaaatc tggaacaagg acttttctca attctccaag 2280

gggaccccta acttgcacac tctctattgg aagatgctgt ttgacaaacg gaatcttagc 2340

gatgtggttt ataagctgaa tggccaggct gaagtgttct atagaaagag ctccattgaa 2400

caccagaacc gaattatcca ccccgctcag catcccatca caaataagaa tgagcttaac 2460

aaaaagcaca ctagcacctt caaatacgat atcatcaaag atcgcagata cacggtggat 2520

aaattccagt tccatgtgcc cattactata aattttaagg cgaccgggca gaacaacatc 2580

aacccaatcg tccaagaggt gattcgccaa aacggtatca cccacatcat aggcatcgat 2640

cgaggtgaac gccatcttct gtacctctct ctcatcgatt tgaaaggcaa catcatcaag 2700

cagatgactc tcaacgaaat tattaatgag tataagggtg tgacctataa gaccaactac 2760

cataacctcc tggagaagag ggagaaggag cggaccgagg ccagacactc ctggagtagt 2820

attgaaagca taaaagaact gaaggatgga tacatgtcac aggtgattca caaaattacg 2880

gacatgatgg ttaagtacaa tgcgattgtg gtcctggagg acctcaacgg ggggtttatg 2940

cgaggccgcc agaaggtcga gaagcaggtg taccagaaat ttgaaaaaaa gttgatcgac 3000

aagctgaact atctcgttga caagaaactc gacgctaacg aggtcggcgg agtactgaat 3060

gcttatcagc tgaccaacaa gttcgagtct ttcaagaaga ttgggaaaca aagcggattt 3120

ttgttctaca tccccgcctg gaacacaagc aaaatcgatc ctataacagg gttcgttaat 3180

ctgttcaaca ccaggtacga gtctatcaag gagacaaaag ttttttggtc taagtttgat 3240

attatccgat acaataaaga gaagaattgg ttcgagttcg tcttcgatta caataccttt 3300

acgactaaag cggagggaac acgcactaag tggactctgt gcacccacgg cactcgcatc 3360

cagacattcc ggaacccaga aaagaatgcc cagtgggaca ataaagagat caatttgact 3420

gagtccttca aagctctgtt tgaaaagtac aagatcgata tcaccagtaa tctcaaggaa 3480

tccatcatgc aggaaaccga gaagaagttc ttccaggaac tgcataatct gctccacctg 3540

accctgcaga tgaggaatag cgttactgga accgacatag actatttgat cagccccgtt 3600

gccgatgagg atggaaattt ctatgatagt cgcataaatg gcaaaaattt tccggagaat 3660

gccgatgcca atggcgcgta caacatcgca cgaaagggtc tgatgcttat tcggcagatc 3720

aagcaagcag atccacagaa gaaattcaag tttgagacaa tcaccaataa agactggctg 3780

aaattcgccc aagacaagcc ctatcttaaa gatggcagcg ggaaaaggcc ggcggccacg 3840

aaaaaggccg gccaggcaaa aaagaaaaag ggatcctacc catacgatgt tccagattac 3900

gcttatccct acgacgtgcc tgattatgca tacccatacg atgtccccga ctatgcctaa 3960

<210> 128

<211> 23

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 128

cctcactcct gctcggtgaa ttt 23

<210> 129

<211> 23

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 129

ctgatggtcc atgtctgtta ctc 23

<210> 130

<211> 6

<212> БЕЛОК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетическая 6xHis метка

<400> 130

His His His His His His

1 5

<210> 131

<211> 31

<212> ДНК

<213> Francisella novicida

<400> 131

gagaagtcat ttaataaggc cactgttaaa a 31

<210> 132

<211> 30

<212> ДНК

<213> Francisella novicida

<400> 132

gctactattc ctgtgccttc agataattca 30

<210> 133

<211> 27

<212> ДНК

<213> Francisella novicida

<400> 133

gtctagagcc ttttgtatta gtagccg 27

<210> 134

<211> 98

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<220>

<221> модифицированное_основание

<222> (30)..(37)

<223> a, c, t, g, неизвестное или другое

<400> 134

ggccagtgaa ttcgagctcg gtacccgggn nnnnnnngag aagtcattta ataaggccac 60

tgttaaaaag cttggcgtaa tcatggtcat agctgttt 98

<210> 135

<211> 98

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<220>

<221> модифицированное_основание

<222> (61)..(68)

<223> a, c, t, g, неизвестное или другое

<400> 135

ggccagtgaa ttcgagctcg gtacccgggg agaagtcatt taataaggcc actgttaaaa 60

nnnnnnnnag cttggcgtaa tcatggtcat agctgttt 98

<210> 136

<211> 25

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 136

gctgacatga agctgttgtg tgagg 25

<210> 137

<211> 21

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический праймер

<400> 137

ggccagtgaa ttcgagctcg g 21

<210> 138

<211> 28

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический праймер

<400> 138

caatttcaca caggaaacag ctatgacc 28

<210> 139

<211> 21

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический праймер

<400> 139

cggggctggc ttaactatgc g 21

<210> 140

<211> 20

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический праймер

<400> 140

gcccaatacg caaaccgcct 20

<210> 141

<211> 20

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический праймер

<400> 141

ccatcccctt ctgtgaatgt 20

<210> 142

<211> 20

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический праймер

<400> 142

tctccgtgtc tccaatctcc 20

<210> 143

<211> 20

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический праймер

<400> 143

ctgggactca ggcgggtcac 20

<210> 144

<211> 25

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический праймер

<400> 144

gctgacatga agctgttgtg tgagg 25

<210> 145

<211> 24

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 145

gagaagtcat ttaataaggc cact 24

<210> 146

<211> 22

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 146

gagaagtcat ttaataaggc ca 22

<210> 147

<211> 20

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 147

gagaagtcat ttaataaggc 20

<210> 148

<211> 18

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 148

gagaagtcat ttaataag 18

<210> 149

<211> 17

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 149

gagaagtcat ttaataa 17

<210> 150

<211> 16

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 150

gagaagtcat ttaata 16

<210> 151

<211> 24

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 151

gataagtcat ttaataaggc cact 24

<210> 152

<211> 24

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 152

gagaaggcat ttaataaggc cact 24

<210> 153

<211> 24

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 153

gagaagtcat gtaataaggc cact 24

<210> 154

<211> 24

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 154

gagaagtcat ttaagaaggc cact 24

<210> 155

<211> 24

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 155

gagaagtcat ttaataagtc cact 24

<210> 156

<211> 24

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 156

gagaagtcat ttaataaggc caat 24

<210> 157

<211> 42

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 157

atttctactg ttgtagatga gaagtcattt aataaggcca ct 42

<210> 158

<211> 41

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 158

tttctactgt tgtagatgag aagtcattta ataaggccac t 41

<210> 159

<211> 40

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 159

ttctactgtt gtagatgaga agtcatttaa taaggccact 40

<210> 160

<211> 39

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 160

tctactgttg tagatgagaa gtcatttaat aaggccact 39

<210> 161

<211> 35

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 161

ctgttgtaga tgagaagtca tttaataagg ccact 35

<210> 162

<211> 31

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 162

tgtagatgag aagtcattta ataaggccac t 31

<210> 163

<211> 19

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 163

aatttctgct gttgcagat 19

<210> 164

<211> 19

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 164

aatttccact gttgtggat 19

<210> 165

<211> 19

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 165

aattcctact gttgtaggt 19

<210> 166

<211> 19

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 166

aatttatact gttgtagat 19

<210> 167

<211> 19

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 167

aatttcgact gttgtagat 19

<210> 168

<211> 19

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 168

aatttctagt gttgtagat 19

<210> 169

<211> 19

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 169

aatttctact attgtagat 19

<210> 170

<211> 19

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 170

aatttctact gctgtagat 19

<210> 171

<211> 18

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 171

aatttctact ttgtagat 18

<210> 172

<211> 17

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 172

aatttctact tgtagat 17

<210> 173

<211> 19

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 173

aatttctact tttgtagaa 19

<210> 174

<211> 19

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 174

aatttctact tttgtagac 19

<210> 175

<211> 20

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 175

taatttctac tgttgtagat 20

<210> 176

<211> 23

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 176

cctcactcct gctcggtgaa ttt 23

<210> 177

<211> 20

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 177

taatttctac tgttgtagat 20

<210> 178

<211> 23

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 178

aggagtgttc agtctccgtg aac 23

<210> 179

<211> 20

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 179

taatttctac tgttgtagat 20

<210> 180

<211> 23

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 180

ctgatggtcc atgtctgtta ctc 23

<210> 181

<211> 20

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 181

taatttctac tgttgtagat 20

<210> 182

<211> 23

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 182

tttcccttca gctaaaataa agg 23

<210> 183

<211> 21

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 183

taatttctac taagtgtaga t 21

<210> 184

<211> 23

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 184

cctcactcct gctcggtgaa ttt 23

<210> 185

<211> 21

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 185

taatttctac taagtgtaga t 21

<210> 186

<211> 23

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 186

aggagtgttc agtctccgtg aac 23

<210> 187

<211> 21

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 187

taatttctac taagtgtaga t 21

<210> 188

<211> 23

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 188

ctgatggtcc atgtctgtta ctc 23

<210> 189

<211> 21

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 189

taatttctac taagtgtaga t 21

<210> 190

<211> 23

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 190

tttcccttca gctaaaataa agg 23

<210> 191

<211> 20

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 191

tcactcctgc tcggtgaatt 20

<210> 192

<211> 20

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 192

aaccctctgg ggaccgtttg 20

<210> 193

<211> 20

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 193

agtacgttaa tgtttcctga 20

<210> 194

<400> 194

000

<210> 195

<211> 20

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 195

taatttctac tgttgtagat 20

<210> 196

<211> 21

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 196

agaaatgcat ggttctcatg c 21

<210> 197

<211> 21

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 197

aaaattacct agtaattagg t 21

<210> 198

<211> 20

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 198

ggatttctac ttttgtagat 20

<210> 199

<211> 20

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 199

aaatttctac ttttgtagat 20

<210> 200

<211> 21

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 200

cgcgcccacg cggggcgcga c 21

<210> 201

<211> 20

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 201

taatttctac tcttgtagat 20

<210> 202

<211> 20

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 202

gaatttctac tattgtagat 20

<210> 203

<211> 21

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 203

gaatctctac tctttgtaga t 21

<210> 204

<211> 19

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 204

taatttctac tttgtagat 19

<210> 205

<211> 21

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 205

aaatttctac tgtttgtaga t 21

<210> 206

<211> 20

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 206

gaatttctac ttttgtagat 20

<210> 207

<211> 21

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 207

taatttctac taagtgtaga t 21

<210> 208

<211> 20

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 208

taatttctac tattgtagat 20

<210> 209

<211> 20

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 209

taatttctac ttcggtagat 20

<210> 210

<211> 20

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический олигонуклеотид

<400> 210

taatttctac tattgtagat 20

<210> 211

<211> 6569

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полинуклеотид

<400> 211

catcaaggaa ttggttctaa gcttatagaa gcaatgatta aggaagccaa aaaaaataat 60

attgatgcaa tatttgtctt aggtcatcca agttattatc caaaatttgg ttttaaacca 120

gccacagaat atcagataaa atgtgaatat gatgtcccag cggatgtttt tatggtacta 180

gatttgtcag ctaaactagc tagtttaaaa ggacaaactg tctactatgc cgatgagttt 240

ggcaaaattt tttagatcta caaaattata aactaaataa agattcttat aataacttta 300

tatataatcg aaatgtagag aattttataa ggagtcttta tcatgtcaat ttatcaagaa 360

tttgttaata aatatagttt aagtaaaact ctaagatttg agttaatccc acagggtaaa 420

acacttgaaa acataaaagc aagaggtttg attttagatg atgagaaaag agctaaagac 480

tacaaaaagg ctaaacaaat aattgataaa tatcatcagt tttttataga ggagatatta 540

agttcggttt gtattagcga agatttatta caaaactatt ctgatgttta ttttaaactt 600

aaaaagagtg atgatgataa tctacaaaaa gattttaaaa gtgcaaaaga tacgataaag 660

aaacaaatat ctgaatatat aaaggactca gagaaattta agaatttgtt taatcaaaac 720

cttatcgatg ctaaaaaagg gcaagagtca gatttaattc tatggctaaa gcaatctaag 780

gataatggta tagaactatt taaagccaat agtgatatca cagatataga tgaggcgtta 840

gaaataatca aatcttttaa aggttggaca acttatttta agggttttca tgaaaataga 900

aaaaatgttt atagtagcaa tgatattcct acatctatta tttataggat agtagatgat 960

aatttgccta aatttctaga aaataaagct aagtatgaga gtttaaaaga caaagctcca 1020

gaagctataa actatgaaca aattaaaaaa gatttggcag aagagctaac ctttgatatt 1080

gactacaaaa catctgaagt taatcaaaga gttttttcac ttgatgaagt ttttgagata 1140

gcaaacttta ataattatct aaatcaaagt ggtattacta aatttaatac tattattggt 1200

ggtaaatttg taaatggtga aaatacaaag agaaaaggta taaatgaata tataaatcta 1260

tactcacagc aaataaatga taaaacactc aaaaaatata aaatgagtgt tttatttaag 1320

caaattttaa gtgatacaga atctaaatct tttgtaattg ataagttaga agatgatagt 1380

gatgtagtta caacgatgca aagtttttat gagcaaatag cagcttttaa aacagtagaa 1440

gaaaaatcta ttaaagaaac actatcttta ttatttgatg atttaaaagc tcaaaaactt 1500

gatttgagta aaatttattt taaaaatgat aaatctctta ctgatctatc acaacaagtt 1560

tttgatgatt atagtgttat tggtacagcg gtactagaat atataactca acaaatagca 1620

cctaaaaatc ttgataaccc tagtaagaaa gagcaagaat taatagccaa aaaaactgaa 1680

aaagcaaaat acttatctct agaaactata aagcttgcct tagaagaatt taataagcat 1740

agagatatag ataaacagtg taggtttgaa gaaatacttg caaactttgc ggctattccg 1800

atgatatttg atgaaatagc tcaaaacaaa gacaatttgg cacagatatc tatcaaatat 1860

caaaatcaag gtaaaaaaga cctacttcaa gctagtgcgg aagatgatgt taaagctatc 1920

aaggatcttt tagatcaaac taataatctc ttacataaac taaaaatatt tcatattagt 1980

cagtcagaag ataaggcaaa tattttagac aaggatgagc atttttatct agtatttgag 2040

gagtgctact ttgagctagc gaatatagtg cctctttata acaaaattag aaactatata 2100

actcaaaagc catatagtga tgagaaattt aagctcaatt ttgagaactc gactttggct 2160

aatggttggg ataaaaataa agagcctgac aatacggcaa ttttatttat caaagatgat 2220

aaatattatc tgggtgtgat gaataagaaa aataacaaaa tatttgatga taaagctatc 2280

aaagaaaata aaggcgaggg ttataaaaaa attgtttata aacttttacc tggcgcaaat 2340

aaaatgttac ctaaggtttt cttttctgct aaatctataa aattttataa tcctagtgaa 2400

gatatactta gaataagaaa tcattccaca catacaaaaa atggtagtcc tcaaaaagga 2460

tatgaaaaat ttgagtttaa tattgaagat tgccgaaaat ttatagattt ttataaacag 2520

tctataagta agcatccgga gtggaaagat tttggattta gattttctga tactcaaaga 2580

tataattcta tagatgaatt ttatagagaa gttgaaaatc aaggctacaa actaactttt 2640

gaaaatatat cagagagcta tattgatagc gtagttaatc agggtaaatt gtacctattc 2700

caaatctata ataaagattt ttcagcttat agcaaagggc gaccaaatct acatacttta 2760

tattggaaag cgctgtttga tgagagaaat cttcaagatg tggtttataa gctaaatggt 2820

gaggcagagc ttttttatcg taaacaatca atacctaaaa aaatcactca cccagctaaa 2880

gaggcaatag ctaataaaaa caaagataat cctaaaaaag agagtgtttt tgaatatgat 2940

ttaatcaaag ataaacgctt tactgaagat aagtttttct ttcactgtcc tattacaatc 3000

aattttaaat ctagtggagc taataagttt aatgatgaaa tcaatttatt gctaaaagaa 3060

aaagcaaatg atgttcatat attaagtata gatagaggtg aaagacattt agcttactat 3120

actttggtag atggtaaagg caatatcatc aaacaagata ctttcaacat cattggtaat 3180

gatagaatga aaacaaacta ccatgataag cttgctgcaa tagagaaaga tagggattca 3240

gctaggaaag actggaaaaa gataaataac atcaaagaga tgaaagaggg ctatctatct 3300

caggtagttc atgaaatagc taagctagtt atagagtata atgctattgt ggtttttgag 3360

gatttaaatt ttggatttaa aagagggcgt ttcaaggtag agaagcaggt ctatcaaaag 3420

ttagaaaaaa tgctaattga gaaactaaac tatctagttt tcaaagataa tgagtttgat 3480

aaaactgggg gagtgcttag agcttatcag ctaacagcac cttttgagac ttttaaaaag 3540

atgggtaaac aaacaggtat tatctactat gtaccagctg gttttacttc aaaaatttgt 3600

cctgtaactg gttttgtaaa tcagttatat cctaagtatg aaagtgtcag caaatctcaa 3660

gagttcttta gtaagtttga caagatttgt tataaccttg ataagggcta ttttgagttt 3720

agttttgatt ataaaaactt tggtgacaag gctgccaaag gcaagtggac tatagctagc 3780

tttgggagta gattgattaa ctttagaaat tcagataaaa atcataattg ggatactcga 3840

gaagtttatc caactaaaga gttggagaaa ttgctaaaag attattctat cgaatatggg 3900

catggcgaat gtatcaaagc agctatttgc ggtgagagcg acaaaaagtt ttttgctaag 3960

ctaactagtg tcctaaatac tatcttacaa atgcgtaact caaaaacagg tactgagtta 4020

gattatctaa tttcaccagt agcagatgta aatggcaatt tctttgattc gcgacaggcg 4080

ccaaaaaata tgcctcaaga tgctgatgcc aatggtgctt atcatattgg gctaaaaggt 4140

ctgatgctac taggtaggat caaaaataat caagagggca aaaaactcaa tttggttatc 4200

aaaaatgaag agtattttga gttcgtgcag aataggaata actaattcat tcaagaatat 4260

attaccctgt cagtttagcg actattacct ctttaataat ttgcagggga attattttag 4320

taatagtaat atacacaaga gttattgatt atatggaaaa ttatatttag ataacatggt 4380

taaatgattt tatattctgt ccttactcga tatatttgca taatatctat agtaatgcct 4440

cagatactac atactattca tctagccaaa caaaagggcg cgatgctcat aaaagtatcg 4500

ataaaggaat ctatagtacc aaaaaagatg acctgatcgg tatcgatgtt attaaccata 4560

aatatggttt ggttggtaaa attgatgttt ttcataaaga taagggctta cttgtggaga 4620

gaaaaaggca aatcaagact atctatgatg gctataaata tcagctttat gcgcaatatt 4680

tttgtctcca agagatgggc tatgatgtca aagccattaa attttattcg atggttgata 4740

ataaatcata cccaatagct ataccaactt cagctgagtt agaaaagttt gaaaaacata 4800

ttcaaacaat caagcaatat aatccaatgg ataactcatt taggcaaaat attgaaaagt 4860

gtaaattttg tatatatgca aacttatgtg ataaaacgga cttgtagatt atgtttagta 4920

aaaatgatat tgaatcaaag aatatagttt ttgttaatat ttttgatgga gtgaaactta 4980

gtctatcatt ggggaatata gttataaaag ataaagaaac tgatgaggtg aaaactaagc 5040

tttctgttca taaagttctt gcattgttta tcgtaggtaa tatgacgatg acctcgcaac 5100

ttttagagac ctgtaagaaa aatgctatac agctagtttt tatgaaaaat agctttagac 5160

catatctatg ttttggtgat attgctgagg ctaatttttt agctagatat aagcaatata 5220

gtgtagttga gcaagatata agtttagcaa ggatttttat aacatcaaag atacgcaatc 5280

aacataactt agtcaaaagc ctaagagata aaactccaga gcagcaagag atagtcaaaa 5340

agaataaaca gctaatagca gagttagaaa atacaacaag cctagcggag ctaatgggta 5400

tagagggcaa tgttgccaaa aatttcttca aaggattcta tggacattta gatagttggc 5460

aagggcgcaa acctagaata aaacaggatc catataatgt tgttttagac ttgggctata 5520

gtatgttgtt taattttgta gagtgttttt tgcgactttt tggctttgat ttatacaagg 5580

gcttttgtca tcagacttgg tataagcgta aatccctagt ttgtgacttt gttgagccat 5640

ttagatgtat agtggataac caagttagaa aatcatggaa tctcgggcaa ttttctgtag 5700

aggattttgg ttgcaaaaat gagcagtttt atataaaaaa agataaaaca aaagactact 5760

caaaaatact ttttgccgag attatcagct acaagctaga gatatttgaa tatgtaagag 5820

aattttatcg tgcctttatg cgaggcaaag aaattgcaga gtatccaata ttttgttatg 5880

aaactaggag ggtgtatgtt gatagtcagt tatgatttta gtaataataa agtacgtgca 5940

aagtttgcca aatttctaga aagttatggt gtacgtttac aatattcggt atttgagctc 6000

aaatatagca agagaatgtt agacttgatt ttagctgaga tagaaaataa ctatgtacca 6060

ctatttacaa atgctgatag tgttttaatc tttaatgctc cagataaaga tgtgataaaa 6120

tatggttatg cgattcatag agaacaagag gttgttttta tagactaaaa attgcaaacc 6180

ttagtcttta tgttaaaata actactaagt tcttagagat atttaaaaat atgactgttg 6240

ttatatatca aaatgctaaa aaaatcatag attttaggtc tttttttgct gatttaggca 6300

aaaacgggtc taagaacttt aaataatttc tactgttgta gatgagaagt catttaataa 6360

ggccactgtt aaaagtctaa gaactttaaa taatttctac tgttgtagat gctactattc 6420

ctgtgccttc agataattca gtctaagaac tttaaataat ttctactgtt gtagatgtct 6480

agagcctttt gtattagtag ccggtctaag aactttaaat aatttctact gttgtagatt 6540

agcgatttat gaaggtcatt tttttgtct 6569

<210> 212

<211> 4170

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полинуклеотид

<400> 212

tttacacttt atgcttccgg ctcgtatgtt aggaggtctt tatcatgtca atttatcaag 60

aatttgttaa taaatatagt ttaagtaaaa ctctaagatt tgagttaatc ccacagggta 120

aaacacttga aaacataaaa gcaagaggtt tgattttaga tgatgagaaa agagctaaag 180

actacaaaaa ggctaaacaa ataattgata aatatcatca gttttttata gaggagatat 240

taagttcggt ttgtattagc gaagatttat tacaaaacta ttctgatgtt tattttaaac 300

ttaaaaagag tgatgatgat aatctacaaa aagattttaa aagtgcaaaa gatacgataa 360

agaaacaaat atctgaatat ataaaggact cagagaaatt taagaatttg tttaatcaaa 420

accttatcga tgctaaaaaa gggcaagagt cagatttaat tctatggcta aagcaatcta 480

aggataatgg tatagaacta tttaaagcca atagtgatat cacagatata gatgaggcgt 540

tagaaataat caaatctttt aaaggttgga caacttattt taagggtttt catgaaaata 600

gaaaaaatgt ttatagtagc aatgatattc ctacatctat tatttatagg atagtagatg 660

ataatttgcc taaatttcta gaaaataaag ctaagtatga gagtttaaaa gacaaagctc 720

cagaagctat aaactatgaa caaattaaaa aagatttggc agaagagcta acctttgata 780

ttgactacaa aacatctgaa gttaatcaaa gagttttttc acttgatgaa gtttttgaga 840

tagcaaactt taataattat ctaaatcaaa gtggtattac taaatttaat actattattg 900

gtggtaaatt tgtaaatggt gaaaatacaa agagaaaagg tataaatgaa tatataaatc 960

tatactcaca gcaaataaat gataaaacac tcaaaaaata taaaatgagt gttttattta 1020

agcaaatttt aagtgataca gaatctaaat cttttgtaat tgataagtta gaagatgata 1080

gtgatgtagt tacaacgatg caaagttttt atgagcaaat agcagctttt aaaacagtag 1140

aagaaaaatc tattaaagaa acactatctt tattatttga tgatttaaaa gctcaaaaac 1200

ttgatttgag taaaatttat tttaaaaatg ataaatctct tactgatcta tcacaacaag 1260

tttttgatga ttatagtgtt attggtacag cggtactaga atatataact caacaaatag 1320

cacctaaaaa tcttgataac cctagtaaga aagagcaaga attaatagcc aaaaaaactg 1380

aaaaagcaaa atacttatct ctagaaacta taaagcttgc cttagaagaa tttaataagc 1440

atagagatat agataaacag tgtaggtttg aagaaatact tgcaaacttt gcggctattc 1500

cgatgatatt tgatgaaata gctcaaaaca aagacaattt ggcacagata tctatcaaat 1560

atcaaaatca aggtaaaaaa gacctacttc aagctagtgc ggaagatgat gttaaagcta 1620

tcaaggatct tttagatcaa actaataatc tcttacataa actaaaaata tttcatatta 1680

gtcagtcaga agataaggca aatattttag acaaggatga gcatttttat ctagtatttg 1740

aggagtgcta ctttgagcta gcgaatatag tgcctcttta taacaaaatt agaaactata 1800

taactcaaaa gccatatagt gatgagaaat ttaagctcaa ttttgagaac tcgactttgg 1860

ctaatggttg ggataaaaat aaagagcctg acaatacggc aattttattt atcaaagatg 1920

ataaatatta tctgggtgtg atgaataaga aaaataacaa aatatttgat gataaagcta 1980

tcaaagaaaa taaaggcgag ggttataaaa aaattgttta taaactttta cctggcgcaa 2040

ataaaatgtt acctaaggtt ttcttttctg ctaaatctat aaaattttat aatcctagtg 2100

aagatatact tagaataaga aatcattcca cacatacaaa aaatggtagt cctcaaaaag 2160

gatatgaaaa atttgagttt aatattgaag attgccgaaa atttatagat ttttataaac 2220

agtctataag taagcatccg gagtggaaag attttggatt tagattttct gatactcaaa 2280

gatataattc tatagatgaa ttttatagag aagttgaaaa tcaaggctac aaactaactt 2340

ttgaaaatat atcagagagc tatattgata gcgtagttaa tcagggtaaa ttgtacctat 2400

tccaaatcta taataaagat ttttcagctt atagcaaagg gcgaccaaat ctacatactt 2460

tatattggaa agcgctgttt gatgagagaa atcttcaaga tgtggtttat aagctaaatg 2520

gtgaggcaga gcttttttat cgtaaacaat caatacctaa aaaaatcact cacccagcta 2580

aagaggcaat agctaataaa aacaaagata atcctaaaaa agagagtgtt tttgaatatg 2640

atttaatcaa agataaacgc tttactgaag ataagttttt ctttcactgt cctattacaa 2700

tcaattttaa atctagtgga gctaataagt ttaatgatga aatcaattta ttgctaaaag 2760

aaaaagcaaa tgatgttcat atattaagta tagatagagg tgaaagacat ttagcttact 2820

atactttggt agatggtaaa ggcaatatca tcaaacaaga tactttcaac atcattggta 2880

atgatagaat gaaaacaaac taccatgata agcttgctgc aatagagaaa gatagggatt 2940

cagctaggaa agactggaaa aagataaata acatcaaaga gatgaaagag ggctatctat 3000

ctcaggtagt tcatgaaata gctaagctag ttatagagta taatgctatt gtggtttttg 3060

aggatttaaa ttttggattt aaaagagggc gtttcaaggt agagaagcag gtctatcaaa 3120

agttagaaaa aatgctaatt gagaaactaa actatctagt tttcaaagat aatgagtttg 3180

ataaaactgg gggagtgctt agagcttatc agctaacagc accttttgag acttttaaaa 3240

agatgggtaa acaaacaggt attatctact atgtaccagc tggttttact tcaaaaattt 3300

gtcctgtaac tggttttgta aatcagttat atcctaagta tgaaagtgtc agcaaatctc 3360

aagagttctt tagtaagttt gacaagattt gttataacct tgataagggc tattttgagt 3420

ttagttttga ttataaaaac tttggtgaca aggctgccaa aggcaagtgg actatagcta 3480

gctttgggag tagattgatt aactttagaa attcagataa aaatcataat tgggatactc 3540

gagaagttta tccaactaaa gagttggaga aattgctaaa agattattct atcgaatatg 3600

ggcatggcga atgtatcaaa gcagctattt gcggtgagag cgacaaaaag ttttttgcta 3660

agctaactag tgtcctaaat actatcttac aaatgcgtaa ctcaaaaaca ggtactgagt 3720

tagattatct aatttcacca gtagcagatg taaatggcaa tttctttgat tcgcgacagg 3780

cgccaaaaaa tatgcctcaa gatgctgatg ccaatggtgc ttatcatatt gggctaaaag 3840

gtctgatgct actaggtagg atcaaaaata atcaagaggg caaaaaactc aatttggtta 3900

tcaaaaatga agagtatttt gagttcgtgc agaataggaa taactaattg acagctagct 3960

cagtcctagg tataatgcta gcgctgattt aggcaaaaac gggtctaaga actttaaata 4020

atttctactg ttgtagatga gaagtcattt aataaggcca ctgttaaaag tctaagaact 4080

ttaaataatt tctactgttg tagatgctac tattcctgtg ccttcagata attcagtcta 4140

agaactttaa ataatttcta ctgttgtaga 4170

<210> 213

<211> 4613

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полинуклеотид

<400> 213

ctgtctacta tgccgatgag tttggcaaaa ttttttagat ctacaaaatt ataaactaaa 60

taaagattct tataataact ttatatataa tcgaaatgta gagaatttta taaggagtct 120

ttatcatgtc aatttatcaa gaatttgtta ataaatatag tttaagtaaa actctaagat 180

ttgagttaat cccacagggt aaaacacttg aaaacataaa agcaagaggt ttgattttag 240

atgatgagaa aagagctaaa gactacaaaa aggctaaaca aataattgat aaatatcatc 300

agttttttat agaggagata ttaagttcgg tttgtattag cgaagattta ttacaaaact 360

attctgatgt ttattttaaa cttaaaaaga gtgatgatga taatctacaa aaagatttta 420

aaagtgcaaa agatacgata aagaaacaaa tatctgaata tataaaggac tcagagaaat 480

ttaagaattt gtttaatcaa aaccttatcg atgctaaaaa agggcaagag tcagatttaa 540

ttctatggct aaagcaatct aaggataatg gtatagaact atttaaagcc aatagtgata 600

tcacagatat agatgaggcg ttagaaataa tcaaatcttt taaaggttgg acaacttatt 660

ttaagggttt tcatgaaaat agaaaaaatg tttatagtag caatgatatt cctacatcta 720

ttatttatag gatagtagat gataatttgc ctaaatttct agaaaataaa gctaagtatg 780

agagtttaaa agacaaagct ccagaagcta taaactatga acaaattaaa aaagatttgg 840

cagaagagct aacctttgat attgactaca aaacatctga agttaatcaa agagtttttt 900

cacttgatga agtttttgag atagcaaact ttaataatta tctaaatcaa agtggtatta 960

ctaaatttaa tactattatt ggtggtaaat ttgtaaatgg tgaaaataca aagagaaaag 1020

gtataaatga atatataaat ctatactcac agcaaataaa tgataaaaca ctcaaaaaat 1080

ataaaatgag tgttttattt aagcaaattt taagtgatac agaatctaaa tcttttgtaa 1140

ttgataagtt agaagatgat agtgatgtag ttacaacgat gcaaagtttt tatgagcaaa 1200

tagcagcttt taaaacagta gaagaaaaat ctattaaaga aacactatct ttattatttg 1260

atgatttaaa agctcaaaaa cttgatttga gtaaaattta ttttaaaaat gataaatctc 1320

ttactgatct atcacaacaa gtttttgatg attatagtgt tattggtaca gcggtactag 1380

aatatataac tcaacaaata gcacctaaaa atcttgataa ccctagtaag aaagagcaag 1440

aattaatagc caaaaaaact gaaaaagcaa aatacttatc tctagaaact ataaagcttg 1500

ccttagaaga atttaataag catagagata tagataaaca gtgtaggttt gaagaaatac 1560

ttgcaaactt tgcggctatt ccgatgatat ttgatgaaat agctcaaaac aaagacaatt 1620

tggcacagat atctatcaaa tatcaaaatc aaggtaaaaa agacctactt caagctagtg 1680

cggaagatga tgttaaagct atcaaggatc ttttagatca aactaataat ctcttacata 1740

aactaaaaat atttcatatt agtcagtcag aagataaggc aaatatttta gacaaggatg 1800

agcattttta tctagtattt gaggagtgct actttgagct agcgaatata gtgcctcttt 1860

ataacaaaat tagaaactat ataactcaaa agccatatag tgatgagaaa tttaagctca 1920

attttgagaa ctcgactttg gctaatggtt gggataaaaa taaagagcct gacaatacgg 1980

caattttatt tatcaaagat gataaatatt atctgggtgt gatgaataag aaaaataaca 2040

aaatatttga tgataaagct atcaaagaaa ataaaggcga gggttataaa aaaattgttt 2100

ataaactttt acctggcgca aataaaatgt tacctaaggt tttcttttct gctaaatcta 2160

taaaatttta taatcctagt gaagatatac ttagaataag aaatcattcc acacatacaa 2220

aaaatggtag tcctcaaaaa ggatatgaaa aatttgagtt taatattgaa gattgccgaa 2280

aatttataga tttttataaa cagtctataa gtaagcatcc ggagtggaaa gattttggat 2340

ttagattttc tgatactcaa agatataatt ctatagatga attttataga gaagttgaaa 2400

atcaaggcta caaactaact tttgaaaata tatcagagag ctatattgat agcgtagtta 2460

atcagggtaa attgtaccta ttccaaatct ataataaaga tttttcagct tatagcaaag 2520

ggcgaccaaa tctacatact ttatattgga aagcgctgtt tgatgagaga aatcttcaag 2580

atgtggttta taagctaaat ggtgaggcag agctttttta tcgtaaacaa tcaataccta 2640

aaaaaatcac tcacccagct aaagaggcaa tagctaataa aaacaaagat aatcctaaaa 2700

aagagagtgt ttttgaatat gatttaatca aagataaacg ctttactgaa gataagtttt 2760

tctttcactg tcctattaca atcaatttta aatctagtgg agctaataag tttaatgatg 2820

aaatcaattt attgctaaaa gaaaaagcaa atgatgttca tatattaagt atagatagag 2880

gtgaaagaca tttagcttac tatactttgg tagatggtaa aggcaatatc atcaaacaag 2940

atactttcaa catcattggt aatgatagaa tgaaaacaaa ctaccatgat aagcttgctg 3000

caatagagaa agatagggat tcagctagga aagactggaa aaagataaat aacatcaaag 3060

agatgaaaga gggctatcta tctcaggtag ttcatgaaat agctaagcta gttatagagt 3120

ataatgctat tgtggttttt gaggatttaa attttggatt taaaagaggg cgtttcaagg 3180

tagagaagca ggtctatcaa aagttagaaa aaatgctaat tgagaaacta aactatctag 3240

ttttcaaaga taatgagttt gataaaactg ggggagtgct tagagcttat cagctaacag 3300

caccttttga gacttttaaa aagatgggta aacaaacagg tattatctac tatgtaccag 3360

ctggttttac ttcaaaaatt tgtcctgtaa ctggttttgt aaatcagtta tatcctaagt 3420

atgaaagtgt cagcaaatct caagagttct ttagtaagtt tgacaagatt tgttataacc 3480

ttgataaggg ctattttgag tttagttttg attataaaaa ctttggtgac aaggctgcca 3540

aaggcaagtg gactatagct agctttggga gtagattgat taactttaga aattcagata 3600

aaaatcataa ttgggatact cgagaagttt atccaactaa agagttggag aaattgctaa 3660

aagattattc tatcgaatat gggcatggcg aatgtatcaa agcagctatt tgcggtgaga 3720

gcgacaaaaa gttttttgct aagctaacta gtgtcctaaa tactatctta caaatgcgta 3780

actcaaaaac aggtactgag ttagattatc taatttcacc agtagcagat gtaaatggca 3840

atttctttga ttcgcgacag gcgccaaaaa atatgcctca agatgctgat gccaatggtg 3900

cttatcatat tgggctaaaa ggtctgatgc tactaggtag gatcaaaaat aatcaagagg 3960

gcaaaaaact caatttggtt atcaaaaatg aagagtattt tgagttcgtg cagaatagga 4020

ataactaatt cattcaagaa tatattaccc tgtcagttta gcgactatta cctctttaat 4080

aatttgcagg ggaattattt tagtaatagt aatatacaca agagttattg attatatgga 4140

aaattatatt tagataacat ggttaaatga ttttatattc tgtccttact cgatatattt 4200

tttatagact aaaaattgca aaccttagtc tttatgttaa aataactact aagttcttag 4260

agatatttaa aaatatgact gttgttatat atcaaaatgc taaaaaaatc atagatttta 4320

ggtctttttt tgctgattta ggcaaaaacg ggtctaagaa ctttaaataa tttctactgt 4380

tgtagatgag aagtcattta ataaggccac tgttaaaagt ctaagaactt taaataattt 4440

ctactgttgt agatgctact attcctgtgc cttcagataa ttcagtctaa gaactttaaa 4500

taatttctac tgttgtagat gtctagagcc ttttgtatta gtagccggtc taagaacttt 4560

aaataatttc tactgttgta gattagcgat ttatgaaggt catttttttg tct 4613

<210> 214

<211> 4035

<212> ДНК

<213> Francisella tularensis

<400> 214

atgagcatct accaggagtt cgtcaacaag tattcactga gtaagacact gcggttcgag 60

ctgatcccac agggcaagac actggagaac atcaaggccc gaggcctgat tctggacgat 120

gagaagcggg caaaagacta taagaaagcc aagcagatca ttgataaata ccaccagttc 180

tttatcgagg aaattctgag ctccgtgtgc atcagtgagg atctgctgca gaattactca 240

gacgtgtact tcaagctgaa gaagagcgac gatgacaacc tgcagaagga cttcaagtcc 300

gccaaggaca ccatcaagaa acagattagc gagtacatca aggactccga aaagtttaaa 360

aatctgttca accagaatct gatcgatgct aagaaaggcc aggagtccga cctgatcctg 420

tggctgaaac agtctaagga caatgggatt gaactgttca aggctaactc cgatatcact 480

gatattgacg aggcactgga aatcatcaag agcttcaagg gatggaccac atactttaaa 540

ggcttccacg agaaccgcaa gaacgtgtac tccagcaacg acattcctac ctccatcatc 600

taccgaatcg tcgatgacaa tctgccaaag ttcctggaga acaaggccaa atatgaatct 660

ctgaaggaca aagctcccga ggcaattaat tacgaacaga tcaagaaaga tctggctgag 720

gaactgacat tcgatatcga ctataagact agcgaggtga accagagggt cttttccctg 780

gacgaggtgt ttgaaatcgc caatttcaac aattacctga accagtccgg cattactaaa 840

ttcaatacca tcattggcgg gaagtttgtg aacggggaga ataccaagcg caagggaatt 900

aacgaataca tcaatctgta tagccagcag atcaacgaca aaactctgaa gaaatacaag 960

atgtctgtgc tgttcaaaca gatcctgagt gataccgagt ccaagtcttt tgtcattgat 1020

aaactggaag atgactcaga cgtggtcact accatgcaga gcttttatga gcagatcgcc 1080

gctttcaaga cagtggagga aaaatctatt aaggaaactc tgagtctgct gttcgatgac 1140

ctgaaagccc agaagctgga cctgagtaag atctacttca aaaacgataa gagtctgaca 1200

gacctgtcac agcaggtgtt tgatgactat tccgtgattg ggaccgccgt cctggagtac 1260

attacacagc agatcgctcc aaagaacctg gataatccct ctaagaaaga gcaggaactg 1320

atcgctaaga aaaccgagaa ggcaaaatat ctgagtctgg aaacaattaa gctggcactg 1380

gaggagttca acaagcacag ggatattgac aaacagtgcc gctttgagga aatcctggcc 1440

aacttcgcag ccatccccat gatttttgat gagatcgccc agaacaaaga caatctggct 1500

cagatcagta ttaagtacca gaaccagggc aagaaagacc tgctgcaggc ttcagcagaa 1560

gatgacgtga aagccatcaa ggatctgctg gaccagacca acaatctgct gcacaagctg 1620

aaaatcttcc atattagtca gtcagaggat aaggctaata tcctggataa agacgaacac 1680

ttctacctgg tgttcgagga atgttacttc gagctggcaa acattgtccc cctgtataac 1740

aagattagga actacatcac acagaagcct tactctgacg agaagtttaa actgaacttc 1800

gaaaatagta ccctggccaa cgggtgggat aagaacaagg agcctgacaa cacagctatc 1860

ctgttcatca aggatgacaa gtactatctg ggagtgatga ataagaaaaa caataagatc 1920

ttcgatgaca aagccattaa ggagaacaaa ggggaaggat acaagaaaat cgtgtataag 1980

ctgctgcccg gcgcaaataa gatgctgcct aaggtgttct tcagcgccaa gagtatcaaa 2040

ttctacaacc catccgagga catcctgcgg attagaaatc actcaacaca tactaagaac 2100

gggagccccc agaagggata tgagaaattt gagttcaaca tcgaggattg caggaagttt 2160

attgacttct acaagcagag catctccaaa caccctgaat ggaaggattt tggcttccgg 2220

ttttccgaca cacagagata taactctatc gacgagttct accgcgaggt ggaaaatcag 2280

gggtataagc tgacttttga gaacatttct gaaagttaca tcgacagcgt ggtcaatcag 2340

ggaaagctgt acctgttcca gatctataac aaagattttt cagcatacag caagggcaga 2400

ccaaacctgc atacactgta ctggaaggcc ctgttcgatg agaggaatct gcaggacgtg 2460

gtctataaac tgaacggaga ggccgaactg ttttaccgga agcagtctat tcctaagaaa 2520

atcactcacc cagctaagga ggccatcgct aacaagaaca aggacaatcc taagaaagag 2580

agcgtgttcg aatacgatct gattaaggac aagcggttca ccgaagataa gttctttttc 2640

cattgtccaa tcaccattaa cttcaagtca agcggcgcta acaagttcaa cgacgagatc 2700

aatctgctgc tgaaggaaaa agcaaacgat gtgcacatcc tgagcattga ccgaggagag 2760

cggcatctgg cctactatac cctggtggat ggcaaaggga atatcattaa gcaggataca 2820

ttcaacatca ttggcaatga ccggatgaaa accaactacc acgataaact ggctgcaatc 2880

gagaaggata gagactcagc taggaaggac tggaagaaaa tcaacaacat taaggagatg 2940

aaggaaggct atctgagcca ggtggtccat gagattgcaa agctggtcat cgaatacaat 3000

gccattgtgg tgttcgagga tctgaacttc ggctttaaga gggggcgctt taaggtggaa 3060

aaacaggtct atcagaagct ggagaaaatg ctgatcgaaa agctgaatta cctggtgttt 3120

aaagataacg agttcgacaa gaccggaggc gtcctgagag cctaccagct gacagctccc 3180

tttgaaactt tcaagaaaat gggaaaacag acaggcatca tctactatgt gccagccgga 3240

ttcacttcca agatctgccc cgtgaccggc tttgtcaacc agctgtaccc taaatatgag 3300

tcagtgagca agtcccagga atttttcagc aagttcgata agatctgtta taatctggac 3360

aaggggtact tcgagttttc cttcgattac aagaacttcg gcgacaaggc cgctaagggg 3420

aaatggacca ttgcctcctt cggatctcgc ctgatcaact ttcgaaattc cgataaaaac 3480

cacaattggg acactaggga ggtgtaccca accaaggagc tggaaaagct gctgaaagac 3540

tactctatcg agtatggaca tggcgaatgc atcaaggcag ccatctgtgg cgagagtgat 3600

aagaaatttt tcgccaagct gacctcagtg ctgaatacaa tcctgcagat gcggaactca 3660

aagaccggga cagaactgga ctatctgatt agccccgtgg ctgatgtcaa cggaaacttc 3720

ttcgacagca gacaggcacc caaaaatatg cctcaggatg cagacgccaa cggggcctac 3780

cacatcgggc tgaagggact gatgctgctg ggccggatca agaacaatca ggaggggaag 3840

aagctgaacc tggtcattaa gaacgaggaa tacttcgagt ttgtccagaa tagaaataac 3900

aaaaggccgg cggccacgaa aaaggccggc caggcaaaaa agaaaaaggg atcctaccca 3960

tacgatgttc cagattacgc ttatccctac gacgtgcctg attatgcata cccatatgat 4020

gtccccgact atgcc 4035

<210> 215

<211> 3834

<212> ДНК

<213> Неустановленное

<220>

<223> Описание неизвестного: Последовательность Lachnospiraceae bacterium

<400> 215

atggattacg gcaacggcca gtttgagcgg agagcccccc tgaccaagac aatcaccctg 60

cgcctgaagc ctatcggcga gacacgggag acaatccgcg agcagaagct gctggagcag 120

gacgccgcct tcagaaagct ggtggagaca gtgaccccta tcgtggacga ttgtatcagg 180

aagatcgccg ataacgccct gtgccacttt ggcaccgagt atgacttcag ctgtctgggc 240

aacgccatct ctaagaatga cagcaaggcc atcaagaagg agacagagaa ggtggagaag 300

ctgctggcca aggtgctgac cgagaatctg ccagatggcc tgcgcaaggt gaacgacatc 360

aattccgccg cctttatcca ggatacactg acctctttcg tgcaggacga tgccgacaag 420

cgggtgctga tccaggagct gaagggcaag accgtgctga tgcagcggtt cctgaccaca 480

cggatcacag ccctgaccgt gtggctgccc gacagagtgt tcgagaactt taatatcttc 540

atcgagaacg ccgagaagat gagaatcctg ctggactccc ctctgaatga gaagatcatg 600

aagtttgacc cagatgccga gcagtacgcc tctctggagt tctatggcca gtgcctgtct 660

cagaaggaca tcgatagcta caacctgatc atctccggca tctatgccga cgatgaggtg 720

aagaaccctg gcatcaatga gatcgtgaag gagtacaatc agcagatccg gggcgacaag 780

gatgagtccc cactgcccaa gctgaagaag ctgcacaagc agatcctgat gccagtggag 840

aaggccttct ttgtgcgcgt gctgtctaac gacagcgatg cccggagcat cctggagaag 900

atcctgaagg acacagagat gctgccctcc aagatcatcg aggccatgaa ggaggcagat 960

gcaggcgaca tcgccgtgta cggcagccgg ctgcacgagc tgagccacgt gatctacggc 1020

gatcacggca agctgtccca gatcatctat gacaaggagt ccaagaggat ctctgagctg 1080

atggagacac tgtctccaaa ggagcgcaag gagagcaaga agcggctgga gggcctggag 1140

gagcacatca gaaagtctac atacaccttc gacgagctga acaggtatgc cgagaagaat 1200

gtgatggcag catacatcgc agcagtggag gagtcttgtg ccgagatcat gagaaaggag 1260

aaggatctga ggaccctgct gagcaaggag gacgtgaaga tccggggcaa cagacacaat 1320

acactgatcg tgaagaacta ctttaatgcc tggaccgtgt tccggaacct gatcagaatc 1380

ctgaggcgca agtccgaggc cgagatcgac tctgacttct acgatgtgct ggacgattcc 1440

gtggaggtgc tgtctctgac atacaagggc gagaatctgt gccgcagcta tatcaccaag 1500

aagatcggct ccgacctgaa gcccgagatc gccacatacg gcagcgccct gaggcctaac 1560

agccgctggt ggtccccagg agagaagttt aatgtgaagt tccacaccat cgtgcggaga 1620

gatggccggc tgtactattt catcctgccc aagggcgcca agcctgtgga gctggaggac 1680

atggatggcg acatcgagtg tctgcagatg agaaagatcc ctaacccaac aatctttctg 1740

cccaagctgg tgttcaagga ccctgaggcc ttctttaggg ataatccaga ggccgacgag 1800

ttcgtgtttc tgagcggcat gaaggccccc gtgacaatca ccagagagac atacgaggcc 1860

tacaggtata agctgtatac cgtgggcaag ctgcgcgatg gcgaggtgtc cgaagaggag 1920

tacaagcggg ccctgctgca ggtgctgacc gcctacaagg agtttctgga gaacagaatg 1980

atctatgccg acctgaattt cggctttaag gatctggagg agtataagga cagctccgag 2040

tttatcaagc aggtggagac acacaacacc ttcatgtgct gggccaaggt gtctagctcc 2100

cagctggacg atctggtgaa gtctggcaac ggcctgctgt tcgagatctg gagcgagcgc 2160

ctggagtcct actataagta cggcaatgag aaggtgctgc ggggctatga gggcgtgctg 2220

ctgagcatcc tgaaggatga gaacctggtg tccatgcgga ccctgctgaa cagccggccc 2280

atgctggtgt accggccaaa ggagtctagc aagcctatgg tggtgcaccg ggatggcagc 2340

agagtggtgg acaggtttga taaggacggc aagtacatcc cccctgaggt gcacgacgag 2400

ctgtatcgct tctttaacaa tctgctgatc aaggagaagc tgggcgagaa ggcccggaag 2460

atcctggaca acaagaaggt gaaggtgaag gtgctggaga gcgagagagt gaagtggtcc 2520

aagttctacg atgagcagtt tgccgtgacc ttcagcgtga agaagaacgc cgattgtctg 2580

gacaccacaa aggacctgaa tgccgaagtg atggagcagt atagcgagtc caacagactg 2640

atcctgatca ggaataccac agatatcctg tactatctgg tgctggacaa gaatggcaag 2700

gtgctgaagc agagatccct gaacatcatc aatgacggcg ccagggatgt ggactggaag 2760

gagaggttcc gccaggtgac aaaggataga aacgagggct acaatgagtg ggattattcc 2820

aggacctcta acgacctgaa ggaggtgtac ctgaattatg ccctgaagga gatcgccgag 2880

gccgtgatcg agtacaacgc catcctgatc atcgagaaga tgtctaatgc ctttaaggac 2940

aagtatagct tcctggacga cgtgaccttc aagggcttcg agacaaagct gctggccaag 3000

ctgagcgatc tgcactttag gggcatcaag gacggcgagc catgttcctt cacaaacccc 3060

ctgcagctgt gccagaacga ttctaataag atcctgcagg acggcgtgat ctttatggtg 3120

ccaaattcta tgacacggag cctggacccc gacaccggct tcatctttgc catcaacgac 3180

cacaatatca ggaccaagaa ggccaagctg aactttctga gcaagttcga tcagctgaag 3240

gtgtcctctg agggctgcct gatcatgaag tacagcggcg attccctgcc tacacacaac 3300

accgacaatc gcgtgtggaa ctgctgttgc aatcacccaa tcacaaacta tgaccgggag 3360

acaaagaagg tggagttcat cgaggagccc gtggaggagc tgtcccgcgt gctggaggag 3420

aatggcatcg agacagacac cgagctgaac aagctgaatg agcgggagaa cgtgcctggc 3480

aaggtggtgg atgccatcta ctctctggtg ctgaattatc tgcgcggcac agtgagcgga 3540

gtggcaggac agagggccgt gtactatagc cctgtgaccg gcaagaagta cgatatctcc 3600

tttatccagg ccatgaacct gaataggaag tgtgactact ataggatcgg ctccaaggag 3660

aggggagagt ggaccgattt cgtggcccag ctgatcaaca aaaggccggc ggccacgaaa 3720

aaggccggcc aggcaaaaaa gaaaaaggga tcctacccat acgatgttcc agattacgct 3780

tatccctacg acgtgcctga ttatgcatac ccatatgatg tccccgacta tgcc 3834

<210> 216

<211> 4035

<212> ДНК

<213> Искусственная последовательность

<220>

<223> Описание искусственной последовательности: Синтетический полинуклеотид

<400> 216