Ссылка на правительственные гранты
Данное раскрытие было сделано при государственной поддержке по гранту HL121007, присужденному Национальными институтами здравоохранения (NIH - National Institutes of Health). Правительство имеет определенные права на данное изобретение.
Ссылка на Перечень последовательностей
Данная заявка включает в себя перечень последовательностей, представленный в электронном виде в виде текстового файла с именем 18923800202SEQ, созданного 4 июня 2018 года, размером 161 КБ. Перечень последовательностей включен в данный документ посредством ссылки.
Область техники
Данное раскрытие предоставляет молекулы нуклеиновой кислоты генома, мРНК, кДНК и полипептиды варианта B4GALT1, способы обнаружения присутствия этих молекул, способы модуляции эндогенных молекул нуклеиновой кислоты генома, мРНК, кДНК и полипептидов B4GALT1, методы определения риска развития сердечно-сосудистых заболеваний путем выявления наличия или отсутствия молекулы нуклеиновой кислоты генома, мРНК, кДНК и полипептидов варианта B4GALT1, а также методы лечения сердечно-сосудистых заболеваний.
Уровень техники
Различные публикации, включая патенты, опубликованные заявки, регистрационные номера, технические статьи и научные статьи, цитируются в описании. Каждая цитируемая публикация включена в данный документ посредством ссылки во всей ее полноте и для любых целей.
Бета-1,4-галактозилтрансфераза 1 (B4GALT1) является членом семейства генов бета-1,4-галактозилтрансферазы, которые кодируют мембранные гликопротеины типа II, которые играют роль в биосинтезе различных гликоконъюгатов и сахаридных структур. Фермент, кодируемый B4GALT1, играет критическую роль в процессировании N-связанных олигосахаридных фрагментов в гликопротеинах, а связанные с белком сахарные цепи часто модулируют биологические функции гликопротеина. Таким образом, нарушение активности B4GALT1 может изменить структуру всех гликопротеинов, содержащих N-связанные олигосахариды. Длинная форма фермента B4GALT1 локализована в транс-Гольджи, где он переносит остатки галактозила в остатки N-ацетилглюкозамина в ходе биосинтетической обработки гликанов с высоким содержанием маннозы в N-связанные олигосахариды сложного типа. Поскольку добавление галактозильных остатков является необходимым условием для добавления сиаловых кислот, дефект в B4GALT1 оказывает непрямой эффект блокирования добавления остатков сиаловой кислоты и, следовательно, может изменять период полураспада гликопротеинов плазмы. Сообщалось, что дефекты гликозилирования нарушают внутриклеточный перенос различных гликопротеинов, включая рецептор ЛПНП (ЛПНП - low density lipoproteins). Кроме того, структурные аномалии в N-связанных олигосахаридах могут изменять фолдинг (сворачивание) белков, что, в свою очередь, может изменять функцию гликопротеинов и их секрецию. Большой процент белков содержит N-связанное гликозилирование, включая рецепторы клеточной поверхности (например, рецепторы ЛПНП и рецепторы инсулина), а также различные циркулирующие белки плазмы (например, аполипопротеин B и фибриноген). Были сообщения о пациентах с генетическим заболеванием из-за гомозиготности по мутациям укорочения белков в гене B4GALT1. У одного такого пациента был тяжелый фенотип, характеризующийся а) тяжелыми нарушениями развития нервной системы (включая гидроцефалию), b) миопатией и c) нарушениями свертываемости крови. Как и предполагалось, в олигосахаридах, полученных из циркулирующего трансферрина, отсутствуют остатки галактозы и сиаловой кислоты. Два дополнительных пациента с таким же генетическим дефектом имели более мягкий фенотип, характеризующийся нарушениями свертывания крови, гепатопатией и дисморфизмом.
Сердечно-сосудистые заболевания являются основной причиной смерти в Соединенных Штатах и других западных странах. Основные факторы риска развития атеротромботических сердечно-сосудистых заболеваний, таких как инсульт и инфаркт миокарда, включают повышенный уровень холестерина в крови и склонность к тромбозам. Многие белки, которые участвуют в метаболизме и коагуляции липидов, гликозилированы и, таким образом, подвергаются модуляции с помощью B4GALT1. Знание генетических факторов, лежащих в основе развития и прогрессирования сердечно-сосудистых заболеваний, может улучшить стратификацию риска и обеспечить основу для новых терапевтических стратегий.
Краткое изложение сущности изобретения
Данное раскрытие относится к молекулам нуклеиновой кислоты, содержащим последовательность нуклеиновой кислоты, по меньшей мере, на около 90% идентичную геномной последовательности варианта B4GALT1 (которая содержит ОНП, обозначенный rs551564683), при условии, что последовательность нуклеиновой кислоты также содержит нуклеотиды, которые кодируют серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1.
Данное раскрытие также относится к молекулам нуклеиновой кислоты, содержащим последовательность нуклеиновой кислоты, по меньшей мере, на около 90% идентичную последовательности мРНК варианта B4GALT1 (которая содержит ОНП, обозначенный rs551564683), при условии, что последовательность нуклеиновой кислоты также кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1.
Данное раскрытие относится к молекулам кДНК, кодирующим полипептид B4GALT1, содержащим последовательность нуклеиновой кислоты, по меньшей мере, на около 90% идентичную последовательности кДНК варианта B4GALT1 (которая содержит ОНП, обозначенный rs551564683), при условии, что последовательность нуклеиновой кислоты также кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1.
Данное раскрытие также предоставляет векторы или экзогенные донорные последовательности, содержащие любую одну или более из этих молекул нуклеиновой кислоты.
Данное раскрытие также относится к выделенным полипептидам, содержащим аминокислотную последовательность, по меньшей мере, на около 90% идентичную полипептиду B4GALT1, имеющему серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1.
Данное раскрытие также относится к клеткам-хозяевам, содержащим любую одну из этих молекул нуклеиновой кислоты, функционально связанных с гетерологичным промотором, активным в клетке-хозяине.
Данное раскрытие также обеспечивает способы получения полипептида B4GALT1 путем культивирования клетки-хозяина, содержащей молекулу нуклеиновой кислоты, кодирующей полипептид B4GALT1, при этом указанная молекула нуклеиновой кислоты функционально связана с гетерологичным промотором, активным в клетке-хозяине, посредством чего указанная молекула нуклеиновой кислоты экспрессируется, и выделения изолированного полипептида.
Данное раскрытие также обеспечивает композиции, содержащие эти молекулы нуклеиновой кислоты или полипептиды и носитель для повышения их стабильности.
Данное раскрытие также обеспечивает способы обнаружения наличия или отсутствия молекулы нуклеиновой кислоты варианта B4GALT1 варианта (который содержит ОНП, обозначенный rs551564683) у человека, включающий выполнение анализа биологического образца от человека, который определяет содержит ли молекула нуклеиновой кислоты в биологическом образце последовательность нуклеиновой кислоты, которая кодирует вариантный полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1.
Данное раскрытие также предоставляет способы обнаружения присутствия варианта полипептида B4GALT1, имеющего серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1 у человека, включающий проведение анализа на биологическом образце от человека, который определяет наличие варианта полипептида B4GALT1.
Данное раскрытие также предоставляет способы определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания, включающие: a) проведение анализа биологического образца от субъекта-человека, который определяет, содержит ли молекула нуклеиновой кислоты в биологическом образце последовательность нуклеиновой кислоты, которая кодирует вариант полипептида B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1 ; и b) классификация субъекта-человека как подверженного пониженному риску развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты, содержащая последовательность нуклеиновой кислоты, которая кодирует вариант полипептида B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, обнаружена в биологическом образце или классифицирует человека, как имеющего повышенный риск развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты, содержащая последовательность нуклеиновой кислоты, которая кодирует вариант полипептида B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, не обнаружена в биологическом образце.
Данное раскрытие также предоставляет способы определения восприимчивости человека к развитию сердечно-сосудистого заболевания, включающие: a) проведение анализа биологического образца от человека, который определяет, содержит ли полипептид B4GALT1 в биологическом образце серин в позиции, соответствующей позиции 352; и b) классификацию субъекта-человека, как имеющего пониженный риск развития сердечно-сосудистого заболевания, если в биологическом образце обнаружен полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, или классификация субъекта-человека, как имеющего повышенный риск развития сердечно-сосудистого заболевания, если в биологическом образце не обнаружен полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1.
Данное раскрытие также обеспечивает направляющие молекулы РНК, эффективные для направления фермента Cas для связывания или расщепления эндогенного B4GALT1, причем направляющая РНК содержит нацеленный на ДНК сегмент, который гибридизуется с последовательностью, распознаваемой направляющей РНК, в последовательности эндогенного гена B4GALT1, которая включает в себя или является ближайшей (например, в пределах определенного числа нуклеотидов, таких как обсуждено ниже) к положению, соответствующему положениям с 53575 по 53577 гена B4GALT1 дикого типа.
Данное раскрытие также предоставляет способы модификации эндогенного гена B4GALT1 в клетке, включающие приведение генома клетки в контакт с: а) белком Cas; и b) направляющей РНК, которая образует комплекс с белком Cas и гибридизуется с последовательностью, распознаваемой направляющей РНК, в эндогенном гене B4GALT1, при этом последовательность, распознаваемая направляющей РНК, включает или находится близко от (например, в пределах определенного числа нуклеотидов, такого как обсуждается ниже) в положении, соответствующем положениям 53575-53577 гена B4GALT1 дикого типа, при этом белок Cas расщепляет эндогенный ген B4GALT1.
Данное раскрытие также предоставляет способы модификации эндогенного гена B4GALT1 в клетке, включающие приведение генома клетки в контакт с: а) белком Cas; и b) первой направляющей РНК, которая образует комплекс с белком Cas и гибридизуется с последовательностью распознаваемой первой направляющей РНК в эндогенном гене B4GALT1, при этом последовательность, распознаваемая первой направляющей РНК, включает старт-кодон гена B4GALT1 или находится в пределах 1000 нуклеотидов от старт-кодона, при этом белок Cas расщепляет или изменяет экспрессию эндогенного гена B4GALT1.
Данное раскрытие также предоставляет способы модификации клетки, включающие введение вектора экспрессии в клетку, причем вектор экспрессии содержит рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность, кодирующую полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1.
Данное раскрытие также предоставляет способы модификации клетки, включающие введение вектора экспрессии в клетку, при этом вектор экспрессии содержит молекулу нуклеиновой кислоты, кодирующую полипептид, который, по меньшей мере, на около 90% идентичен полипептиду B4GALT1, имеющему серин в положение, соответствующему положению 352 в полноразмерном/зрелом полипептиде B4GALT1, при этом полипептид также содержит серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1.
Данное раскрытие также предоставляет способы модификации клетки, включающие введение полипептида или его фрагмента в клетку, при этом полипептид, по меньшей мере, на 90% идентичен полипептиду B4GALT1, имеющему серин, в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1 и при этом полипептид также содержит серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1.
Данное раскрытие также предоставляет способы лечения субъекта, который не является носителем молекулы полипептида или нуклеиновой кислоты варианта B4GALT1 (который содержит ОНП, обозначенный rs551564683) и который имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту: а) белка Cas или нуклеиновой кислоты, кодирующей белок Cas; b) направляющей РНК или нуклеиновой кислоты, кодирующей направляющую РНК, при этом направляющая РНК образует комплекс с белком Cas и гибридизуется с последовательностью, распознаваемой направляющей РНК, в эндогенном гене B4GALT1, при этом последовательность, распознаваемая направляющей РНК, включает или находится близко к положению, соответствующему положениям 53575-53577 гена B4GALT1 дикого типа; и c) экзогенную донорную последовательность, содержащую 5' гомологичный конец, который гибридизуется с 5' последовательностью-мишенью в положениях, соответствующих положениям 53575-53577 гена B4GALT1 дикого типа, 3' гомологичный конец, который гибридизуется с 3' последовательностью-мишенью в положениях, соответствующих положениям 53575-53577 гена B4GALT1 дикого типа, и вставку нуклеиновой кислоты, содержащей нуклеотидную последовательность, кодирующую полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352, в полноразмерном/зрелом полипептиде B4GALT1, фланкированную 5'-плечом гомологии и 3'-плечом гомологии, при этом Cas расщепляет эндогенный ген B4GALT1 в клетке субъекта, а последовательность экзогенного донора рекомбинирует с эндогенным B4GALT1 геном в клетке, при этом при рекомбинации экзогенной донорной последовательности с эндогенным геном B4GALT1 серин вставляется в нуклеотиды, соответствующие положениям с 53575 по 53577 гена дикого типа B4GALT1.
Данное раскрытие также предоставляет способы лечения субъекта, который не является носителем молекулы полипептида или нуклеиновой кислоты варианта B4GALT1 (который содержит ОНП, обозначенный rs551564683) и который имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту: а) белка Cas или нуклеиновой кислоты, кодирующей белок Cas; b) первой направляющей РНК или нуклеиновой кислоты, кодирующей первую направляющую РНК, при этом первая направляющая РНК образует комплекс с белком Cas и гибридизуется с первой последовательностью, распознаваемой направляющей РНК, в эндогенном гене B4GALT1, при этом первая последовательность, распознаваемая направляющей РНК, содержит стартовый кодон для эндогенного гена B4GALT1 или находится в пределах около 1000 нуклеотидов от стартового кодона; и c) экспрессионный вектор, содержащий рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность, кодирующую полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, при этом Cas расщепляет или изменяет экспрессию эндогенного гена B4GALT1 в клетке у субъекта, а вектор экспрессии экспрессирует рекомбинантный ген B4GALT1 в клетке у субъекта.
Данное раскрытие также обеспечивает способы лечения субъекта, который не является носителем молекулы нуклеиновой кислоты или полипептида варианта B4GALT1 (который содержит ОНП, обозначенный rs551564683) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту антисмысловой ДНК, РНК, миРНК или кшРНК, которая гибридизуется с последовательностью внутри эндогенного гена B4GALT1 и снижает экспрессию полипептида B4GALT1 в клетке субъекта.
Данное раскрытие также обеспечивает способы лечения субъекта, который не является носителем молекулы полипептида или нуклеиновой кислоты варианта B4GALT1 (который содержит ОНП, обозначенный rs551564683) и имеет или подвержен развитию сердечно-сосудистых заболеваний, включающий введение вектора экспрессии субъекту, при этом вектор экспрессии содержит рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность, кодирующую полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, при этом вектор экспрессии экспрессирует рекомбинантный ген B4GALT1 в клетке субъекта.
Данное раскрытие также обеспечивает способы лечения субъекта, который не является носителем молекулы полипептида или нуклеиновой кислоты варианта B4GALT1 (который содержит ОНП, обозначенный rs551564683) и имеет или подвержен развитию сердечно-сосудистых заболеваний, включающий введение вектора экспрессии субъекту, при этом вектор экспрессии включает молекулу нуклеиновой кислоты, кодирующую полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, при этом вектор экспрессии экспрессирует нуклеиновую кислоту, кодирующую полипептид B4GALT1, в клетке у субъекта.
Данное раскрытие также предоставляет способы лечения субъекта, который не является носителем молекулы нуклеиновой кислоты или полипептида варианта B4GALT1 (который содержит ОНП, обозначенный rs551564683) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение мРНК субъекту, при этом мРНК кодирует полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, при этом мРНК экспрессирует полипептид B4GALT1 в клетке субъекта.
Данное раскрытие также предоставляет способы лечения субъекта, который не является носителем молекулы нуклеиновой кислоты или полипептида варианта B4GALT1 (который содержит ОНП, обозначенный rs551564683) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение полипептида B4GALT1, имеющего серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1 или его фрагмента субъекту.
В любом из способов, описанных или приведенных в качестве примера в данном документе, сердечно-сосудистое заболевание может содержать уровни одного или более сывороточных липидов, которые увеличивают атеросклеротический риск. Липиды сыворотки включают один или более из холестерина, ЛПНП (липопротеин низкой плотности - low density lipoprotein - LDL), ЛПВП (липопротеин высокой плотности - high density lipoprotein - HDL), триглицеридов, холестерина ЛПВП и холестерина не-ЛПВП или любой их субфракции (например, ЛПВП2, ЛПВП2a, ЛПВП2b, ЛПВП2c, ЛПВП3, ЛПВП3a, ЛПВП3b, ЛПВП3c, ЛПВП3d,ЛПНП1, ЛПНП2, ЛПНП3, липопротеин A, Lpa1, Lpa1, Lpa3, Lpa4 или Lpa5). Сердечно-сосудистое заболевание может включать повышенные уровни кальцификации коронарной артерии. Сердечно-сосудистое заболевание может характеризоваться повышенным уровнем перикардиального жира. Сердечно-сосудистое заболевание может включать атеротромботическое заболевание. Атеротромботическое заболевание может включать повышенные уровни фибриногена. Атеротромботическое заболевание может включать фибриноген-опосредованный сгусток крови. Сердечно-сосудистое заболевание может включать повышенные уровни фибриногена. Сердечно-сосудистое заболевание может содержать фибриноген-опосредованный сгусток крови. Сердечно-сосудистое заболевание может включать сгусток крови, образованный в результате активности фибриногена. Фибриноген-опосредованный сгусток крови или сгусток крови, образованный при участии активности фибриногена, может находиться в любой вене или артерии в организме.
Краткое описание графических материалов
На Фиг. 1 продемонстрированы результаты типичной полногеномной ассоциации варианта B4GALT1 с ЛПНП.
На Фиг. 2 продемонстрированы результаты типичной ассоциации TOPMed WGS варианта B4GALT1 с ЛПНП.
На Фиг. 3 продемонстрированы результаты типичной структуры гаплотипа основных ОНП (SNP), связанных с B4GALT1.
На Фиг. 4 продемонстрирована ассоциация варианта гена B4GALT1 с ЛПНП у амишей, идентифицированная секвенированием экзома.
На Фиг. 5 продемонстрировано, что частота варианта гена B4GALT1 более чем в 1000 раз выше у амишей.
На Фиг. 6 продемонстрирована ассоциация Asn352Ser B4GALT1 с пониженным содержанием липидов в сыворотке.
На Фиг. 7 продемонстрирована высокая степень ассоциации Asn352Ser B4GALT1 с уменьшением липидов в сыворотке и повышением АСТ.
На Фиг. 8 продемонстрирована ассоциация Asn352Ser B4GALT1 со всеми липидными субфракциями.
На Фиг. 9 продемонстрирована ассоциация Asn352Ser B4GALT1 с пониженными уровнями фибриногена.
На Фиг. 10 продемонстрировано уменьшение уровня транскрипта b4galt1 через 5 дней после оплодотворения личинок рыбок данио, которым инъецировали антисмысловой морфолино олигонуклеотид в указанных концентрациях.
На Фиг. 11 продемонстрирован диагностический маркер антисмысловых эффектов морфолиноолигонуклеотида вне мишени через 5 дней после оплодотворения личинок рыбок данио, которым вводили антисмысловой морфолино олигонуклеотид в указанных концентрациях.
Фиг. 12 демонстрирует среднюю концентрацию ЛПНП в гомогенатах через 5 дней после оплодотворения 100 личинок рыбок данио на эксперимент.
На Фиг. 13 продемонстрировано восстановление фенотипа ЛПНП-c путем коэкспрессии 50 мкг мРНК человеческого B4GALT1 в рыбках данио.
На Фиг. 14 продемонстрированы результаты генетической ассоциации между N352S B4GALT1 и ЛПНП с использованием целевого генотипирования.
На Фиг. 15 продемонстрированы изображения конфокальной микроскопии субклеточной локализации Flag-352Asn или Flag-352Ser.
На Фиг. 16 продемонстрированы изображения конфокальной микроскопии эндогенной субклеточной локализации B4GALT1, Flag-352Asn и Flag-352Se в связи с маркером trans Golgi Network TGN46.
На Фиг. 17 (панели A и B) продемонстрировано влияние 352Ser на устойчивые уровни белка B4GALT1; (Панель A) COS7-клетки, экспрессирующие 352Asn или 352Ser Flag-тег белки, слитые со свободным EGFP; и (Панель B) уровни экспрессии мРНК для гена B4GALT1, определенные с помощью анализа ОТ-кПЦР (RT-qPCR).
На Фиг. 18 (панели A, B и C) продемонстрировано влияние мутации 352Ser на активность; (Панели A и B) клетки COS7, экспрессирующие слитые белки 352Asn или 352Ser Flag-тэг, экспрессированные в клетках COS7 и проанализированные с помощью вестерн-блоттинга на B4GALT1 или Flag; (Панель C) Активность B4GALT1 в иммунопреципитатах.
На Фиг. 19 продемонстрировано соотношение три-сиало/ди-олиго по группе генотипа N352S B4GALT1.
На Фиг. 20 продемонстрирован репрезентативный HILIC-FLR-MS спектр N-гликанового анализа гликопротеина из подобранной пары рецессивных (SS) и доминантных (NN) гомозигот N352S B4GALT1.
Подробное описание сущности изобретения
Как указано в данном документе, в исследованиях секвенирования идентифицирован вариант B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1 вместо присутствующего аспарагина у около 11% -12% индивидуумов амишей Старого Порядка (OOA - Old Order Amish) (частота альтернативных аллелей=6%) и встречается крайне редко среди населения в целом. Эта мутация заменяет аспарагин на серин в положении 352 (N352S) человеческого белка длиной 398 аминокислот или в положении 311 короткой изоформы. Было обнаружено, что вариант B4GALT1 связан с более низкими уровнями холестерина липопротеинов низкой плотности (ЛПНП), общего холестерина и фибриногена и рСКФ (расчетная скорость клубочковой фильтрации - eGFR), повышенными уровнями аспартаттрансаминазы (AST) (но не аланинтрансаминазы (ALT)), и уровни экспрессии креатинкиназы и креатинина сыворотке, экспрессии в мышечной ткани (но не в печени или эритроцитах) и снижение уровня базофилов. Считается, что вариант N352S защищает от одного или более сердечно-сосудистых заболеваний. Также считается, что B4GALT1, включая его вариантный статус, можно использовать для диагностики риска развития сердечно-сосудистых заболеваний у пациента.
Фраза «соответствующий» при использовании в контексте нумерации какой-либо данной аминокислотной или полинуклеотидной последовательности относится к нумерации остатков указанной эталонной последовательности, когда данную аминокислотную или полинуклеотидную последовательность сравнивают с эталонной последовательностью (в данном случае ссылочной последовательностью является полинуклеотид (последовательность гДНК, последовательность мРНК, последовательность кДНК) или полипептид (дикого типа/полноразмерный B4GALT1). Другими словами, номер остатка или положение остатка данного полимера обозначено относительно контрольной последовательности, а не фактическим числовым положением остатка в данной аминокислотной или полинуклеотидной последовательности. Например, данная аминокислотная последовательность может быть выровнена с эталонной последовательностью путем введения пробелов/промежутков для оптимизации совпадения остатков между двумя последовательностями. В этих случаях, несмотря на наличие пробелов, нумерация остатка в данной аминокислотной или полинуклеотидной последовательности производится по отношению к контрольной последовательности, с которой он был выровнен.
Как используется в данном документе, формы единственного числа включают множественное, если контекст явно не предписывает иное.
Как используется в данном документе, и если иное не очевидно из контекста, «около» охватывает значения в пределах стандартного предела погрешности измерения (например, СОС (SEM - standart error of the mean)) заявленного значения.
Используемый в данном документе термин «и/или» относится и охватывает любые возможные комбинации одного или более связанных перечисленных пунктов, а также отсутствие комбинаций при интерпретации в альтернативе («или»).
Используемый в данном документе термин «содержащий» или «включающий» означает, что один или более из перечисленных элементов могут включать в себя другие элементы, конкретно не указанные. Например, композиция, которая «содержит» или «включает» белок, может содержать белок отдельно или в комбинации с другими ингредиентами. Переходная фраза «состоящий по существу из» означает, что объем формулы изобретения следует интерпретировать как охватывающий указанные элементы, перечисленные в формуле изобретения, и элементы, которые не оказывают существенного влияния на основные и новые характеристики заявленного объекта изобретения. Таким образом, термин «состоящий по существу из» при использовании в формуле изобретения данного раскрытия не предназначен для того, чтобы быть интерпретированным как эквивалент «содержащий».
Используемый в данном документе термин «необязательный» или «необязательно» означает, что описанные впоследствии событие или обстоятельство могут или не могут произойти, и что описание включает в себя случаи, в которых происходит событие или обстоятельство, и случаи, в которых это не происходит.
Как используется в данном документе, «или» относится к любому одному члену конкретного списка, а также включает в себя любую комбинацию членов этого списка.
Обозначение диапазона значений включает в себя все целые числа в пределах или определяющие диапазон (включая два значения конечной точки) и все поддиапазоны, определенные целыми числами в пределах диапазона.
Следует понимать, что конкретные признаки раскрытия, которые для ясности описаны в контексте отдельных вариантов осуществления, также могут быть предоставлены в комбинации в одном варианте осуществления. И наоборот, различные признаки раскрытия, которые для краткости описаны в контексте одного варианта осуществления, также могут быть предоставлены отдельно или в любой подходящей субкомбинации.
Данное раскрытие предоставляет выделенные геномные, мРНК и кДНК варианты B4GALT1 или любой их комплемент и выделенные варианты полипептида B4GALT1. Считается, что эти варианты связаны с уменьшенным риском развития различных сердечно-сосудистых заболеваний, включая, но не ограничиваясь этим, повышенные уровни липидов в сыворотке и повышенные уровни фибриногена, кальцификацию коронарных артерий, ишемическую болезнь сердца (CAD - coronary artery disease) и повышенные уровни аспартатаминотрансферазы (АСТ/AST), но не аланинтрансаминазы (АЛТ/ALT). Не желая быть связанными какой-либо теорией, полагают, что эти варианты B4GALT1 ассоциируются с экспрессией в мышечной ткани, а не с печенью или эритроцитами, о чем свидетельствуют экспериментально наблюдаемые повышенные уровни AST, но не ALT. Композиции, содержащие геномные и мРНК варианты B4GALT1, кДНК варианты B4GALT1 и выделенные полипептидные варианты B4GALT1, также представлены в данном документе. В данном документе также представлены молекулы нуклеиновой кислоты, которые гибридизуются с вариантами геномной и мРНК B4GALT1 и вариантами кДНК B4GALT1. Данное раскрытие также относится к векторам и клеткам, содержащим геномные варианты и варианты мРНК B4GALT1, кДНК варианты B4GALT1 и полипептидные варианты B4GALT1.
Данное раскрытие также обеспечивает способы обнаружения присутствия и/или уровней геномных и/или мРНК вариантов, кДНК вариантов B4GALT1 или их комплемента и/или полипептидных вариантов B4GALT1 в биологическом образце. Также предоставлены способы определения восприимчивости субъекта к развитию сердечно-сосудистого заболевания и способы диагностики субъекта с сердечно-сосудистым заболеванием или с риском сердечно-сосудистого заболевания. Также предоставлены способы модификации клетки путем использования любой комбинации нуклеазных агентов, экзогенных донорных последовательностей, активаторов транскрипции, репрессоров транскрипции и экспрессионных векторов для экспрессии рекомбинантного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1. Также предоставлены терапевтические и профилактические способы лечения субъекта, имеющего или подверженного риску развития сердечно-сосудистого заболевания.
Человеческая геномная нуклеиновая кислота B4GALT1 дикого типа имеет длину около 56,7 т.п.н., включает 6 экзонов и расположена в хромосоме 9 в геноме человека. Типичной последовательности генома человека дикого типа B4GALT1 присвоен номер доступа NCBI NG_008919.1 (SEQ ID NO:1). Геномный вариант человека B4GALT1 продемонстрирован в SEQ ID NO:2 и включает однонуклеотидный полиморфизм (ОНП) (от А до G в положении 53576; упоминается в данном документе как вариант B4GALT1). Вариант ОНП приводит к получению серина в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1 кодируемого варианта полипептида B4GALT1, а не в аспарагине, кодируемом полипептидом дикого типа B4GALT1. Вариант человеческой геномной нуклеиновой кислоты B4GALT1 содержит, например, три основания (например, «agt»), кодирующих серин в положениях, соответствующих положениям с 53575 по 53577 генома человека дикого типа B4GALT1, в отличие от трех оснований «aat» в положениях с 53575 по 53577 генома человека дикого типа B4GALT1 (сравнение SEQ ID NO:2 с SEQ ID NO:1 соответственно). В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит SEQ ID NO:2. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты состоит из SEQ ID NO:2. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты представляет собой комплемент любой геномной молекулы нуклеиновой кислоты B4GALT1, описанной в данном документе.
В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности с SEQ ID NO:2. В некоторых вариантах осуществления такая последовательность нуклеиновой кислоты также содержит нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100%, идентичны с SEQ ID NO:2, которая содержит экзоны 1-6 B4GALT1 гена. В некоторых вариантах осуществления такая последовательность нуклеиновой кислоты также содержит нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности с SEQ ID NO:2, содержащей экзон 5. В некоторых вариантах осуществления такая последовательность нуклеиновой кислоты также содержит нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит последовательность нуклеиновой кислоты, по меньшей мере, на около 90% идентичную последовательности SEQ ID NO:2, при условии, что последовательность нуклеиновой кислоты содержит нуклеотиды, соответствующие положениям с 53575 по 53577 последовательности SEQ ID NO:2.
Процентная комплементарность между отдельными участками последовательностей нуклеиновых кислот в нуклеиновых кислотах может быть определена обычным образом с использованием программ BLAST (базовые инструменты поиска локального выравнивания) и программ PowerBLAST (Altschul et al., J. Mol. Biol., 1990, 215, 403-410; Чжан и Мэдден, Genome Res., 1997, 7, 649-656) или с помощью программы Gap (пакет анализа последовательности Висконсин (Wisconsin Sequence Analysis Package) версия 8 для Unix, Genetics Computer Group, Университетский исследовательский парк, Мэдисон, Висконсин), используя настройки по умолчанию, который использует алгоритм Смита и Уотермана (Adv. Appl. Math., 1981, 2, 482-489).
В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат не всю геномную последовательность. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900, по меньшей мере, около 1000, по меньшей мере, около 2000, по меньшей мере, около 3000, по меньшей мере, около 4000, по меньшей мере, около 5000, по меньшей мере, около 6000, по меньшей мере, около 7000, по меньшей мере, около 8000, по меньшей мере, около 9000, по меньшей мере, около 10000, по меньшей мере, около 11000, по меньшей мере, около 12000, по меньшей мере, около 13000, по меньшей мере, около 14000, по меньшей мере, около 15000, по меньшей мере, около 16000, по меньшей мере, около 17000, по меньшей мере, около 18000, по меньшей мере, около 19000 или, по меньшей мере, около 20000 смежных (contiguous) нуклеотидов из SEQ ID NO:2. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также содержат нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900 или, по меньшей мере, около 1000 смежных нуклеотидов SEQ ID NO:2. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также содержат нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900 или, по меньшей мере, около 1000 смежных нуклеотидов экзона 5 SEQ ID NO:2. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также содержат нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2.
Например, в некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит, по меньшей мере, 15 смежных нуклеотидов с последовательностью SEQ ID NO:2, причем смежные нуклеотиды включают нуклеотиды с 53575 по 53577 последовательности SEQ ID NO:2. В некоторых таких вариантах осуществления выделенная молекула нуклеиновой кислоты содержит, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:2. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит от 15 до 50 смежных нуклеотидов с последовательностью SEQ ID NO:2, причем смежные нуклеотиды включают нуклеотиды с 53575 по 53577 последовательности с последовательностью SEQ ID NO:2. В некоторых таких вариантах осуществления выделенная молекула нуклеиновой кислоты содержит, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:2.
В некоторых вариантах осуществления данное изобретение относится к выделенной нуклеиновой кислоте, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична части SEQ ID NO:2, при этом часть SEQ ID NO:2 содержит нуклеотиды с 53575 по 53577 последовательности SEQ ID NO:2 и при этом часть SEQ ID NO:2 имеет длину, по меньшей мере, 15 нуклеотидов. В некоторых таких вариантах осуществления часть SEQ ID NO:2 имеет длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления данное изобретение относится к выделенной нуклеиновой кислоте, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична части SEQ ID NO:2, при этом часть SEQ ID NO:2 содержит нуклеотиды с 53575 по 53577 последовательности SEQ ID NO:2 и при этом часть SEQ ID NO:2 имеет длину от 15 до 50 нуклеотидов. В некоторых таких вариантах осуществления часть SEQ ID NO:2 имеет длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов.
В некоторых вариантах осуществления данное изобретение относится к выделенной нуклеиновой кислоте, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 95% идентична части SEQ ID NO:2, при этом часть SEQ ID NO:2 содержит нуклеотиды с 53575 по 53577 последовательности SEQ ID NO:2 и при этом часть SEQ ID NO:2 имеет длину, по меньшей мере, 15 нуклеотидов. В некоторых таких вариантах осуществления часть SEQ ID NO:2 имеет длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления данное изобретение относится к выделенной нуклеиновой кислоте, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 95% идентична части SEQ ID NO:2, при этом часть SEQ ID NO:2 содержит нуклеотиды с 53575 по 53577 последовательности SEQ ID NO:2 и при этом часть SEQ ID NO:2 имеет длину от 15 до 50 нуклеотидов. В некоторых таких вариантах осуществления часть SEQ ID NO:2 имеет длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов.
Такие выделенные молекулы нуклеиновой кислоты можно использовать, например, для экспрессии мРНК и белков варианта B4GALT1 или в качестве экзогенных донорных последовательностей. Понятно, что последовательности генов в популяции могут варьироваться из-за полиморфизмов, таких как ОНП. Приведенные в данном документе примеры являются только примерными последовательностями, и другие последовательности также возможны.
В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат миниген варианта B4GALT1, в котором один или более несущественных сегментов SEQ ID NO:2 были удалены по сравнению с соответствующим геном дикого типа B4GALT1. В некоторых вариантах осуществления удаленные несущественные сегменты содержат одну или более интронных последовательностей. В некоторых вариантах осуществления минигены B4GALT1 могут содержать, например, экзоны, соответствующие любому одному или более из экзонов 1-6, или любую комбинацию таких экзонов из варианта B4GALT1 (SEQ ID NO:2). В некоторых вариантах осуществления миниген содержит или состоит из экзона 5 SEQ ID NO:2. В некоторых вариантах осуществления изобретения миниген B4GALT1 имеетт, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности с SEQ ID NO:2, содержащей любой один или более экзонов 1-6 или любую комбинацию таких экзонов, В некоторых вариантах осуществления изобретения миниген B4GALT1 имеет, по меньшей мере, 70%, по меньшей мере, 75%, по меньшей мере, 80%, по меньшей мере, 85%, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности с SEQ ID NO:2, содержащей один или более экзонов 1-6 или любую комбинацию таких экзонов, и содержит нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления миниген B4GALT1 имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности с SEQ ID NO:2, содержащей экзон 5.
Данное раскрытие также относится к выделенным молекулам нуклеиновой кислоты, которые гибридизуются с вариантной геномной последовательностью B4GALT1 или с модифицированным минигеном B4GALT1. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900, по меньшей мере, около 1000, по меньшей мере, около 2000, по меньшей мере, около 3000, по меньшей мере, около 4000, по меньшей мере, около 5000, по меньшей мере, около 6000, по меньшей мере, около 7000, по меньшей мере, около 8000, по меньшей мере, около 9000, по меньшей мере, около 10000, по меньшей мере, около 11000, по меньшей мере, около 12000, по меньшей мере, около 13000, по меньшей мере, около 14000, по меньшей мере, около 15000, по меньшей мере, около 16000, по меньшей мере, около 17000, по меньшей мере, около 18000, по меньшей мере, около 19000 или, по меньшей мере, около 20000 нуклеотидов. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также гибридизуются в положениях с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с частью варианта генома или минигена B4GALT1 в сегменте, который включает или находится в пределах около 1000, в пределах около 500, в пределах около 400, в пределах около 300, в пределах около 200, в пределах около 100, в пределах около 50, в пределах около 45, в пределах около 40, в пределах около 35, в пределах около 30, в пределах около 25, в пределах около 20, в пределах около 15, в пределах около 10 или в пределах около 5 нуклеотидов в положениях с 53575 по 53577 из SEQ ID NO: 2. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с, по меньшей мере, около 15 смежными нуклеотидами молекулы нуклеиновой кислоты, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности варианту B4GALT1 геномной ДНК или минигена. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также гибридизуются в положениях с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из около от 15 до около 100 нуклеотидов или от около 15 до около 35 нуклеотидов.
Например, в некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит, по меньшей мере, 15 нуклеотидов, при этом выделенная молекула нуклеиновой кислоты гибридизуется с нуклеиновой кислотой, содержащей последовательность SEQ ID NO:2, при этом выделенная молекула нуклеиновой кислоты гибридизуется с частью SEQ ID NO:2, и при этом часть SEQ ID NO:2 содержит нуклеотиды с 53575 по 53577 последовательности SEQ ID NO:2. В некоторых таких вариантах осуществления выделенная молекула нуклеиновой кислоты содержит, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит от 15 до 50 нуклеотидов, при этом выделенная молекула нуклеиновой кислоты гибридизуется с нуклеиновой кислотой, содержащей последовательность SEQ ID NO:2, при этом выделенная молекула нуклеиновой кислоты гибридизуется с частью SEQ ID NO:2, и при этом часть SEQ ID NO:2 содержит нуклеотиды с 53575 по 53577 последовательности SEQ ID NO:2. В некоторых таких вариантах осуществления выделенная молекула нуклеиновой кислоты содержит, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов.
В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются, по меньшей мере, с 15 смежными нуклеотидами нуклеиновой кислоты, при этом смежные нуклеотиды, по меньшей мере, на 90% идентичны с SEQ ID NO:2, при этом смежные нуклеотиды содержат нуклеотиды с 53575 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2. В некоторых таких вариантах осуществления смежные нуклеотиды имеют длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются, по меньшей мере, с 15 смежными нуклеотидами нуклеиновой кислоты, при этом смежные нуклеотиды, по меньшей мере, на 95% идентичны с SEQ ID NO:2, при этом смежные нуклеотиды содержат нуклеотиды с 53575 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2. В некоторых таких вариантах осуществления смежные нуклеотиды имеют длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются, по меньшей мере, с 15 смежными нуклеотидами нуклеиновой кислоты, при этом смежные нуклеотиды, по меньшей мере, на 100% идентичности с SEQ ID NO:2, при этом смежные нуклеотиды содержат нуклеотиды с 53575 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2. В некоторых таких вариантах осуществления смежные нуклеотиды имеют длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов.
В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с 15-50 смежными нуклеотидами нуклеиновой кислоты, при этом смежные нуклеотиды, по меньшей мере, на 90% идентичны с SEQ ID NO:2, при этом смежные нуклеотиды содержат нуклеотиды с 53575 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2. В некоторых таких вариантах осуществления смежные нуклеотиды имеют длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с 15-50 смежными нуклеотидами нуклеиновой кислоты, при этом смежные нуклеотиды, по меньшей мере, на 95% идентичны с SEQ ID NO:2, при этом смежные нуклеотиды содержат нуклеотиды с 53575 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2. В некоторых таких вариантах осуществления смежные нуклеотиды имеют длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с 15-50 смежными нуклеотидами нуклеиновой кислоты, при этом смежные нуклеотиды, по меньшей мере, на 100% идентичности с SEQ ID NO:2, при этом смежные нуклеотиды содержат нуклеотиды с 53575 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2. В некоторых таких вариантах осуществления смежные нуклеотиды имеют длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов.
Такие изолированные молекулы нуклеиновой кислоты могут быть использованы, например, в качестве направляющих РНК, праймеров, зондов или экзогенных донорных последовательностей.
Репрезентативная геномная последовательность B4GALT1 дикого типа приведена в SEQ ID NO:1. Типичный вариант геномной последовательности B4GALT1 указан в SEQ ID NO:2.
Данное раскрытие также относится к выделенным молекулам нуклеиновой кислоты, содержащим вариант мРНК B4GALT1. Типичная мРНК человека B4GALT1 дикого типа имеет регистрационный номер NCBI NM_001497 (SEQ ID NO:3) и состоит из 4214 нуклеотидных оснований. Вариант мРНК B4GALT1 человека продемонстрирован в SEQ ID NO:4 и содержит ОНП (от A до G в положении 1244; упоминается в данном документе как вариант B4GALT1), что приводит к серину в положении, соответствующем положение 352 кодируемого B4GALT1 варианта полипептида. Вариант мРНК B4GALT1 человека включает, например, три основания «agu», кодирующие серин, в положениях, соответствующих положениям 1243-1245 мРНК человеческого дикого типа B4GALT1, в отличие от трех оснований «aau» в положения от 1243 до 1245 мРНК человеческого B4GALT1 дикого типа (сравнивая SEQ ID NO:4 с SEQ ID NO:3 соответственно). В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит SEQ ID NO:4. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты состоит из SEQ ID NO:4.
В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности с SEQ ID NO:4. В некоторых вариантах осуществления такие последовательности нуклеиновых кислот также содержат нуклеотиды, соответствующие положениям с 1243 по 1245 из SEQ ID NO:4. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из нуклеотидной последовательности, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности с SEQ ID NO:4, содержащей экзоны 1-6. В некоторых вариантах осуществления такие последовательности нуклеиновых кислот также содержат нуклеотиды, соответствующие положениям с 1243 по 1245 из SEQ ID NO:4. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты представляет собой комплемент любой молекулы мРНК B4GALT1, раскрытой в данном документе.
В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат меньше, чем вся последовательность мРНК. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900, по меньшей мере, около 1000, по меньшей мере, около 2000, по меньшей мере, около 3000 или, по меньшей мере, около 4000 смежных нуклеотидов SEQ ID NO:4. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также содержат нуклеотиды, соответствующие положениям 1243-1245 из SEQ ID NO:4. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900 или, по меньшей мере, около 1000 смежных нуклеотидов SEQ ID NO:4. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также содержат нуклеотиды, соответствующие положениям 1243-1245 из SEQ ID NO:4. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900 или, по меньшей мере, около 1000 смежных нуклеотидов экзонов 1-6 SEQ ID NO:4. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также содержат нуклеотиды, соответствующие положениям 1243-1245 из SEQ ID NO:4.
В некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична части SEQ ID NO:4, при этом часть SEQ ID NO:4 содержит нуклеотиды с 1243 по 1245 из SEQ ID NO:4 и при этом часть SEQ ID NO:4 содержит, по меньшей мере, 15 нуклеотидов SEQ ID NO:4. В некоторых таких вариантах осуществления часть SEQ ID NO:4 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов SEQ ID NO:4. В некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 95% идентична части SEQ ID NO:4, при этом часть SEQ ID NO:4 содержит нуклеотиды с 1243 по 1245 из SEQ ID NO:4 и при этом часть SEQ ID NO:4 содержит, по меньшей мере, 15 нуклеотидов SEQ ID NO:4. В некоторых таких вариантах осуществления часть SEQ ID NO:4 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов SEQ ID NO:4. В некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит последовательность нуклеиновой кислоты, которая на 100% идентична части SEQ ID NO:4, при этом часть SEQ ID NO:4 содержит нуклеотиды с 1243 по 1245 из SEQ ID. NO:4 и при этом часть SEQ ID NO:4 содержит, по меньшей мере, 15 нуклеотидов SEQ ID NO:4. В некоторых таких вариантах осуществления часть SEQ ID NO:4 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов SEQ ID NO:4. В некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична части SEQ ID NO:4, при этом часть SEQ ID NO:4 содержит нуклеотиды с 1243 по 1245 из SEQ ID NO:4 и при этом часть SEQ ID NO:4 содержит от 15 до 50 нуклеотидов SEQ ID NO:4. В некоторых таких вариантах осуществления часть SEQ ID NO:4 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов SEQ ID NO:4. В некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 95% идентична части SEQ ID NO:4, при этом часть SEQ ID NO:4 содержит нуклеотиды с 1243 по 1245 из SEQ ID NO:4 и при этом часть SEQ ID NO:4 содержит от 15 до 50 нуклеотидов SEQ ID NO:4. В некоторых таких вариантах осуществления часть SEQ ID NO:4 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов SEQ ID NO:4. В некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит последовательность нуклеиновой кислоты, которая на 100% идентична части SEQ ID NO:4, при этом часть SEQ ID NO:4 содержит нуклеотиды с 1243 по 1245 из SEQ ID. NO:4 и при этом часть SEQ ID NO:4 содержит от 15 до 50 нуклеотидов SEQ ID NO:4. В некоторых таких вариантах осуществления часть SEQ ID NO:4 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов SEQ ID NO:4.
Такие выделенные молекулы нуклеиновой кислоты можно использовать, например, для экспрессии вариантов полипептидов B4GALT1 или в качестве экзогенных донорных последовательностей. Понятно, что последовательности генов в популяции могут варьироваться из-за полиморфизмов, таких как ОНП. Приведенные в данном документе примеры являются только примерными последовательностями, и другие последовательности также возможны.
В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, кодирующей полипептид, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 91%, по меньшей мере, около 92%, по меньшей мере, около 93%, по меньшей мере, около 94%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичен вариантуу полипептида Asn352Ser B4GALT1 (SEQ ID NO:8) при условии, что полипептид содержит серин в положении, соответствующем положению 352. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, кодирующей полипептид, по меньшей мере, на около 90%, идентичной SEQ ID NO:8, при условии, что полипептид содержит серин в положении, соответствующем положению 352. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, кодирующей полипептид, по меньшей мере, на около 95%, идентичной SEQ ID NO:8, при условии, что полипептид содержит серин в положении, соответствующем положению 352.
Например, в некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит последовательность нуклеиновой кислоты, кодирующую полипептид, имеющий аминокислотную последовательность длиной по меньшей мере, 10 аминокислот, при этом аминокислотная последовательность на 90% идентична части аминокислотной последовательности SEQ ID NO:8, при этом указанная часть содержит серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых таких вариантах осуществления последовательность нуклеиновой кислоты кодирует полипептид, который имеет аминокислотную последовательность, которая имеет, по меньшей мере, 15, по меньшей мере, 20 или, по меньшей мере, 25 аминокислот. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит последовательность нуклеиновой кислоты, кодирующую полипептид, который имеет аминокислотную последовательность длиной по меньшей мере, 10 аминокислот, при этом указанная аминокислотная последовательность на 95% идентична части аминокислотной последовательности SEQ ID NO:8, при этом указанная часть содержит серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых таких вариантах осуществления последовательность нуклеиновой кислоты кодирует полипептид, который имеет аминокислотную последовательность, которая имеет, по меньшей мере, 15, по меньшей мере, 20 или, по меньшей мере, 25 аминокислот. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит последовательность нуклеиновой кислоты, кодирующую полипептид, который имеет аминокислотную последовательность длиной от 10 до 50 аминокислот, при этом аминокислотная последовательность на 90% идентична части аминокислотной последовательности SEQ ID NO:8, при этом часть содержит серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых таких вариантах осуществления последовательность нуклеиновой кислоты кодирует полипептид, который имеет аминокислотную последовательность, которая имеет, по меньшей мере, 15, по меньшей мере, 20 или, по меньшей мере, 25 аминокислот. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит последовательность нуклеиновой кислоты, кодирующую полипептид, имеющий аминокислотную последовательность длиной от 10 до 50 аминокислот, при этом указанная аминокислотная последовательность на 95% идентична части аминокислотной последовательности SEQ ID NO:8, при этом часть содержит серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых таких вариантах осуществления последовательность нуклеиновой кислоты кодирует полипептид, который имеет аминокислотную последовательность, которая имеет, по меньшей мере, 15, по меньшей мере, 20 или, по меньшей мере, 25 аминокислот. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, кодирующей полипептид, идентичный SEQ ID NO:8.
Данное раскрытие также относится к выделенным молекулам нуклеиновой кислоты, которые гибридизуются с вариантом последовательности мРНК B4GALT1. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900, по меньшей мере, около 1000, по меньшей мере, около 2000, по меньшей мере, около 3000 или, по меньшей мере, около 4000 нуклеотидов. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также гибридизуются в положениях с 1243 по 1245 из SEQ ID NO:4. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с частью варианта мРНК B4GALT1 в сегменте, который включает или находится в пределах около 1000, в пределах около 500, в пределах около 400, в пределах около 300, в пределах около 200, в пределах около 100 в пределах около 50, в пределах около 45, в пределах около 40, в пределах около 35, в пределах около 30, в пределах около 25, в пределах около 20, в пределах около 15, в пределах около 10 или в пределах около 5 нуклеотидов в положениях с 1243 по 1245 из SEQ ID NO:4.
В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов и гибридизуются с частью мРНК варианта B4GALT1 (например, SEQ ID NO:4) в сегменте, который включает или находится в пределах 5 нуклеотидов позиции с 1243 по 1245 из SEQ ID NO:4. В некоторых таких вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов, гибридизуются с частью мРНК варианта B4GALT1 (например, SEQ ID NO:4) в сегменте, который включает или находится в пределах 5 нуклеотидов положения 1243-1245 из SEQ ID NO:4 и гибридизуются с положениями 1243-1245 из SEQ ID NO:4. В некоторых таких вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат от 15 до 50 нуклеотидов и гибридизуются с частью мРНК варианта B4GALT1 (например, SEQ ID NO:4) в сегменте, который включает в себя положения с 1243 по 1245 из SEQ ID NO:4, и гибридизуйте в положениях с 1243 по 1245 из SEQ ID NO:4. В некоторых таких вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов.
В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с, по меньшей мере, около 15 смежными нуклеотидами молекулы нуклеиновой кислоты, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентично варианту B4GALT1 мРНК (например, для Например, SEQ ID NO:4). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты также гибридизуются в положениях с 1243 по 1245 из SEQ ID NO:4. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из около от 15 до около 100 нуклеотидов или от около 15 до около 35 нуклеотидов.
В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов и гибридизуются с частью мРНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях с 1243 по 1245 из SEQ ID NO:4. при этом вариант мРНК B4GALT1, по меньшей мере, на 90% идентичен мРНК варианта B4GALT1 (такой как, например, SEQ ID NO:4). В некоторых таких вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов и гибридизуются с частью мРНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях с 1243 по 1245 из SEQ ID NO:4. при этом вариант мРНК B4GALT1, по меньшей мере, на 95% идентичен мРНК варианта B4GALT1 (такой как, например, SEQ ID NO:4). В некоторых таких вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов, гибридизуются с частью мРНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях с 1243 по 1245 из SEQ ID NO:4. и гибридизуются в положениях с 1243 по 1245 из SEQ ID NO:4, при этом вариант мРНК B4GALT1, по меньшей мере, на 90% идентичен мРНК варианта B4GALT1 (такой как, например, SEQ ID NO:4). В некоторых таких вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов, гибридизуются с частью мРНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях с 1243 по 1245 из SEQ ID NO:4. и гибридизуются в положениях с 1243 по 1245 из SEQ ID NO:4, при этом вариант мРНК B4GALT1, по меньшей мере, на 95% идентичен мРНК варианта B4GALT1 (такой как, например, SEQ ID NO:4). В некоторых таких вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из 15-100 нуклеотидов или от 15 до 35 нуклеотидов.
Такие изолированные молекулы нуклеиновой кислоты могут быть использованы, например, в качестве направляющих РНК, праймеров, зондов или экзогенных донорных последовательностей.
Репрезентативная последовательность мРНК дикого типа B4GALT1 приведена в SEQ ID NO:3. Репрезентативная последовательность мРНК варианта B4GALT1 указана в SEQ ID NO:4.
Данное раскрытие также относится к молекулам нуклеиновой кислоты, включающим кДНК варианта B4GALT1, кодирующий весь или часть полипептид варианта B4GALT1. Типичная человеческая кДНК B4GALT1 дикого типа (например, кодирующая область мРНК, записанная как ДНК) состоит из 1197 нуклеотидных оснований (SEQ ID NO:5). КДНК варианта B4GALT1 человека продемонстрирована в SEQ ID NO:6 и содержит ОНП (от A до G в положении 1055; упоминается в данном документе как вариант B4GALT1), что приводит к серину в положении, соответствующем положение 352 кодируемого B4GALT1 варианта полипептида. КДНК вариантна B4GALT1 человеческа содержит, например, «agt», кодирующий серин в положениях, соответствующих положениям с 1054 по 1056 полной зрелой человеческой дикого типа B4GALT1 кДНК, в отличие от трех оснований «aat» кДНК человеческого B4GALT1 дикого типа в положениях с 1054 по 1056 (сравнение SEQ ID NO:6 с SEQ ID NO:5 соответственно). В некоторых вариантах осуществления молекула нуклеиновой кислоты содержит SEQ ID NO:6. В некоторых вариантах осуществления молекула нуклеиновой кислоты состоит из SEQ ID NO:6. В некоторых вариантах осуществления молекулы кДНК являются изолированными.
В некоторых вариантах осуществления молекулы кДНК содержат или состоят из последовательности нуклеиновой кислоты, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности с SEQ ID NO:6. В некоторых вариантах осуществления молекулы кДНК также содержат нуклеотиды, соответствующие положениям от 1054 до 1056 SEQ ID NO:6. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты представляет собой комплемент любой молекулы кДНК B4GALT1, описанной в данном документе.
В некоторых вариантах осуществления молекулы кДНК содержат меньше, чем вся последовательность кДНК. В некоторых вариантах осуществления молекулы кДНК содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900, по меньшей мере, около 1000 или, по меньшей мере, около 1100 смежных нуклеотидов из SEQ ID NO:6. В некоторых вариантах осуществления такие молекулы кДНК также содержат нуклеотиды, соответствующие положениям с 1054 по 1056 SEQ ID NO:6. В некоторых вариантах осуществления молекулы кДНК содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400 или, по меньшей мере, около 500 смежных нуклеотидов SEQ ID NO: 6 В некоторых вариантах осуществления такие молекулы кДНК также содержат нуклеотиды, соответствующие положениям с 1054 по 1056 SEQ ID NO:6.
Например, в некоторых вариантах осуществления молекула кДНК содержит, по меньшей мере, 15 смежных нуклеотидов с последовательностью SEQ ID NO:6, причем смежные нуклеотиды включают нуклеотиды с 1054 по 1056 последовательности с последовательностью SEQ ID NO:6. В некоторых таких вариантах осуществления выделенная молекула нуклеиновой кислоты содержит, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления молекула кДНК содержит от 15 до 50 смежных нуклеотидов SEQ ID NO:6, при этом смежные нуклеотиды включают нуклеотиды с 1054 по 1056 последовательности SEQ ID NO:6. В некоторых таких вариантах осуществления выделенная молекула нуклеиновой кислоты содержит, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична части SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID. NO:6 и при этом часть SEQ ID NO:6 содержит, по меньшей мере, 15 смежных нуклеотидов с нуклеотидами SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 95% идентична части SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID. NO:6 и при этом часть SEQ ID NO:6 содержит, по меньшей мере, 15 смежных нуклеотидов с нуклеотидами SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична части SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID. NO:6 и при этом часть SEQ ID NO:6 содержит от 15 до 50 смежных нуклеотидов с нуклеотидами SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 95% идентична части SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID. NO:6 и при этом часть SEQ ID NO:6 содержит от 15 до 50 смежных нуклеотидов с нуклеотидами SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит нуклеотиды 1054-1056 SEQ ID NO:6 в положениях, соответствующих нуклеотидам 1054-1056 SEQ ID NO:6, при этом молекула кДНК содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична части SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID NO:6 и при этом часть SEQ ID NO:6 содержит, по меньшей мере, 15 смежных нуклеотидов с нуклеотидами SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит нуклеотиды 1054-1056 SEQ ID NO:6 в положениях, соответствующих нуклеотидам 1054-1056 SEQ ID NO:6, при этом молекула кДНК содержит последовательность нуклеиновой кислоты, которая является, по меньшей мере, на 95% идентична части SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID NO:6 и при этом часть SEQ ID NO:6 содержит, по меньшей мере, 15 смежных нуклеотидов SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит нуклеотиды 1054-1056 SEQ ID NO:6 в положениях, соответствующих нуклеотидам 1054-1056 SEQ ID NO:6, при этом молекула кДНК содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична с SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID NO:6, и при этом часть SEQ ID NO:6 содержит от 15 до 50 смежных нуклеотидов SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит нуклеотиды 1054-1056 SEQ ID NO:6 в положениях, соответствующих нуклеотидам 1054-1056 SEQ ID NO:6, при этом молекула кДНК содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 95% идентична части SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID NO:6 и при этом часть SEQ ID NO:6 содержит от 15 до 50 смежных нуклеотидов. SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6.
Такие молекулы кДНК могут быть использованы, например, для экспрессии белков вариантов B4GALT1 или в качестве экзогенных донорных последовательностей. Понятно, что последовательности генов в популяции могут варьироваться из-за полиморфизмов, таких как ОНП. Приведенные в данном документе примеры являются только примерными последовательностями, и другие последовательности также возможны.
В некоторых вариантах осуществления молекулы кДНК содержат или состоят из последовательности нуклеиновой кислоты, кодирующей полипептид, по меньшей мере, на около 75%, по меньшей мере, около 80%, по меньшей мере, на около 85%, по меньшей мере, на около 90%, по меньшей мере, на около 91%, по меньшей мере, на около 92%, по меньшей мере, на около 93%, по меньшей мере, на около 94%, по меньшей мере, на около 95%, по меньшей мере, на около 96%, по меньшей мере, на около 97%, по меньшей мере, на около 98%, по меньшей мере, около 99% или 100% идентичностий варианту полипептида Asn352Ser B4GALT1 (SEQ ID NO:8) при условии, что полипептид содержит серин в положении, соответствующем положению 352. В некоторых вариантах осуществления молекулы кДНК содержат или состоят из последовательности нуклеиновой кислоты, кодирующей полипептид, по меньшей мере, на около 90%, идентичный SEQ ID NO:8, при условии, что полипептид содержит серин в положении, соответствующем положению 352. В некоторых вариантах осуществления молекулы кДНК содержат или состоят из последовательности нуклеиновой кислоты, кодирующей полипептид, по меньшей мере, на около 95%, идентичный SEQ ID NO:8, при условии, что полипептид содержит серин в положении, соответствующем положению 352. В некоторых вариантах осуществления молекула кДНК содержит или состоит из последовательности нуклеиновой кислоты, кодирующей полипептид, идентичный SEQ ID NO:8.
Данное раскрытие также относится к выделенным молекулам нуклеиновой кислоты, которые гибридизуются с вариантом последовательности кДНК B4GALT1. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900, по меньшей мере, около 1000 или, по меньшей мере, около 1100 нуклеотидов. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также гибридизуются в положениях с 1054 по 1056 SEQ ID NO:6. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты гибридизуются с частью кДНК варианта B4GALT1 в сегменте, который включает или находится в пределах около 600, в пределах около 500, в пределах около 400, в пределах около 300, в пределах около 200, в пределах около 100 в пределах около 50, в пределах около 45, в пределах около 40, в пределах около 35, в пределах около 30, в пределах около 25, в пределах около 20, в пределах около 15, в пределах около 10 или в пределах около 5 нуклеотидов в положениях с 1054 по 1056 SEQ ID NO:6. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с, по меньшей мере, около 15 смежными нуклеотидами молекулы кДНК, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности кДНК варианта B4GALT1 (такой как, например, SEQ ID NO:6). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты также гибридизуются с положениями 1054-1056 SEQ ID NO:6. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из около от 15 до около 100 нуклеотидов или от около 15 до около 35 нуклеотидов.
В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов и гибридизуются с частью кДНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях с 1054 по 1056 SEQ ID NO:6. при этом кДНК варианта B4GALT1, по меньшей мере, на 90% идентичен кДНК варианта B4GALT1 (такой как, например, SEQ ID NO:6). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов и гибридизуются с частью кДНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях с 1054 по 1056 SEQ ID NO:6. при этом кДНК варианта B4GALT1, по меньшей мере, на 95% идентичен кДНК варианта B4GALT1 (такой как, например, SEQ ID NO:6). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов и гибридизуются с частью кДНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях от 1054 до 1056 SEQ ID NO:6, при этом указанный кДНК варианта B4GALT1 на 100% идентичен кДНК варианта B4GALT1 (такой как, например, SEQ ID NO:6). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов и гибридизуются с частью кДНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях от 1054 до 1056 SEQ ID NO:6, и гибридизуют в положениях 1054-1056 SEQ ID NO:6, при этом указанный кДНК варианта B4GALT1, по меньшей мере, на 90% идентичен кДНК варианта B4GALT1 (такой как, например, SEQ ID NO:6). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов, гибридизуются с частью кДНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях от 1054 до 1056 SEQ ID NO:6, и гибридизуются в положениях 1054-1056 SEQ ID NO:6, при этом указанный кДНК варианта B4GALT1, по меньшей мере, на 95% идентичен кДНК варианта B4GALT1 (такой как, например, SEQ ID NO:6). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов, гибридизуются с частью кДНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях от 1054 до 1056 SEQ ID NO:6, и гибридизуются в положениях 1054-1056 SEQ ID NO:6, при этом кДНК варианта B4GALT1 на 100% идентичен кДНК варианта B4GALT1 (такой как, например, SEQ ID NO:6). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из 15-100 нуклеотидов или из 15-35 нуклеотидов.
Такие изолированные молекулы нуклеиновой кислоты можно использовать, например, в качестве направляющих РНК, праймеров, зондов, последовательностей экзогенных доноров, антисмысловых РНК, миРНК или кшРНК.
Репрезентативная последовательность кДНК B4GALT1 дикого типа приведена в SEQ ID NO:5. Типичная последовательность кДНК B4GALT1 приведена в SEQ ID NO:6.
Молекулы нуклеиновой кислоты, раскрытые в данном документе, могут содержать последовательность нуклеиновой кислоты встречающегося в природе гена B4GALT1 или транскрипт мРНК или могут содержать неприродную последовательность. В некоторых вариантах осуществления встречающаяся в природе последовательность может отличаться от не встречающейся в природе последовательности вследствие синонимических мутаций или мутаций, которые не влияют на кодированный полипептид B4GALT1. Например, последовательность может быть идентичной, за исключением синонимических мутаций или мутаций, которые не влияют на кодированный полипептид B4GALT1. Синонимической мутацией или заменой является замена одного нуклеотида другим в экзоне гена, кодирующего белок, так что полученная аминокислотная последовательность не модифицируется. Это возможно из-за вырожденности генетического кода, поскольку некоторые аминокислоты кодируются более чем одним трехосновным парным кодоном. Синонимические замены используются, например, в процессе оптимизации кодонов. Молекулы нуклеиновой кислоты, раскрытые в данном описании, могут быть оптимизированы по кодонам.
В данном документе также представлены функциональные полинуклеотиды, которые могут взаимодействовать с раскрытыми молекулами нуклеиновых кислот. Функциональные полинуклеотиды представляют собой молекулы нуклеиновых кислот, которые выполняют специфическую функцию, такую как связывание молекулы-мишени или катализирование конкретной реакции. Примеры функциональных полинуклеотидов включают, но не ограничиваются ими, антисмысловые молекулы, аптамеры, рибозимы, молекулы, образующие триплекс, и внешние направляющие последовательности. Функциональные полинуклеотиды могут действовать как эффекторы, ингибиторы, модуляторы и стимуляторы специфической активности, которой обладает молекула-мишень, или функциональные полинуклеотиды могут обладать активностью de novo, независимой от любых других молекул.
Антисмысловые молекулы предназначены для взаимодействия с целевой молекулой нуклеиновой кислоты посредством либо канонического, либо неканонического спаривания оснований. Взаимодействие антисмысловой молекулы и молекулы-мишени предназначено для стимулирования разрушения молекулы-мишени посредством, например, опосредованной РНКазой-Н деградации гибридной РНК-ДНК. Альтернативно, антисмысловая молекула предназначена для прерывания функции процессинга, которая обычно происходит на молекуле-мишени, такой как транскрипция или репликация. Антисмысловые молекулы могут быть сконструированы на основе последовательности молекулы-мишени. Существуют многочисленные способы оптимизации антисмысловой эффективности путем определения наиболее доступных областей молекулы-мишени. Типичные способы включают, но не ограничиваются ими, эксперименты отбора in vitro и исследования модификации ДНК с использованием DMS и DEPC. Антисмысловые молекулы обычно связывают молекулу-мишень с константой диссоциации (kd), меньшей или равной около 10-6, меньшей или равной около 10-8, меньшей или равной около 10-10, или меньше или равно около 10-12. Репрезентативную выборку методов и приемов, которые помогают в разработке и использовании антисмысловых молекул, можно найти в следующем неограничивающем списке патентов США: 5135917; 5294533; 5627158; 5641754; 5691317; 5780607; 5786138; 5849903; 5856103; 5919772; 5955590; 5990088; 5994320; 5998602; 6005095; 6007995; 6013522; 6017898; 6018042; 6025198; 6033910; 6040296; 6046004; 6046319; и 6057437. Примеры антисмысловых молекул включают, но не ограничиваются ими, антисмысловые РНК, малые интерферирующие РНК (миРНК) и короткие шпилевидные РНК (кшРНК).
Выделенные молекулы нуклеиновой кислоты, раскрытые в данном описании, могут содержать РНК, ДНК или как РНК, так и ДНК. Выделенные молекулы нуклеиновой кислоты также могут быть связаны или слиты с гетерологичной последовательностью нуклеиновой кислоты, такой как вектор, или гетерологичной меткой. Например, выделенные молекулы нуклеиновой кислоты, раскрытые в данном документе, могут находиться в векторной или экзогенной донорной последовательности, содержащей выделенную молекулу нуклеиновой кислоты и гетерологичную последовательность нуклеиновой кислоты. Выделенные молекулы нуклеиновой кислоты также могут быть связаны или слиты с гетерологичной меткой, такой как флуоресцентная метка. Другие примеры меток раскрыты в другом месте в данном документе.
Метка может быть детектируемой непосредственно (например, флуорофор) или опосредованно обнаруживаемой (например, гаптен, фермент или гаситель флуорофора). Такие метки могут быть обнаружены с помощью спектроскопических, фотохимических, биохимических, иммунохимических или химических средств. Такие метки включают, например, радиоактивные метки, которые можно измерять с помощью приборов для счета радиации; пигменты, красители или другие хромогены, которые можно визуально наблюдать или измерять с помощью спектрофотометра; спиновые метки, которые можно измерить с помощью анализатора спиновых меток; и флуоресцентные метки (например, флуорофоры), при этом выходной сигнал генерируется возбуждением подходящего молекулярного аддукта и может быть визуализирован путем возбуждения светом, который поглощается красителем, или может быть измерен с помощью стандартных флуорометров или систем визуализации. Метка также может быть, например, хемилюминесцентным веществом, при этом выходной сигнал генерируется путем химической модификации сигнального соединения; металлосодержащее вещество; или фермент, где происходит фермент-зависимая вторичная генерация сигнала, такая как образование окрашенного продукта из бесцветного субстрата. Термин «метка» может также относиться к «метке» или гаптену, который может селективно связываться с конъюгированной молекулой, так что конъюгированная молекула, когда она добавляется впоследствии вместе с субстратом, используется для генерации детектируемого сигнала. Например, можно использовать биотин в качестве метки, а затем использовать конъюгат авидина или стрептавидина с пероксидазой хрена (HRP - horseradish peroxidase) для связывания с меткой, а затем использовать калориметрический субстрат (например, тетраметилбензидин (TMB)) или флуорогенный субстрат для обнаружения наличие HRP. Типичные метки, которые можно использовать в качестве меток для облегчения очистки, включают, но не ограничиваются ими, myc, HA, FLAG или 3XFLAG, 6XHis или полигистидин, глутатион-S-трансферазу (GST), мальтозосвязывающий белок, эпитопную метку или Fc часть иммуноглобулина. Известны многочисленные метки, которые включают, например, частицы, флуорофоры, гаптены, ферменты и их калориметрические, флуорогенные и хемилюминесцентные субстраты и другие метки.
Раскрытые молекулы нуклеиновой кислоты могут состоять, например, из нуклеотидов или неприродных или модифицированных нуклеотидов, таких как нуклеотидные аналоги или нуклеотидные заменители. Такие нуклеотиды включают нуклеотид, который содержит модифицированную основную, сахарную или фосфатную группу или который включает в себя неприродный фрагмент в своей структуре. Примеры неприродных нуклеотидов включают, но не ограничиваются ими, дидезоксинуклеотиды, биотинилированные, аминированные, дезаминированные, алкилированные, бензилированные и меченные флуорофором нуклеотиды.
Молекулы нуклеиновой кислоты, раскрытые в данном описании, также могут содержать один или более нуклеотидных аналогов или замен. Нуклеотидный аналог представляет собой нуклеотид, который содержит модификацию основания, сахара или фосфата. Модификации основного фрагмента включают, но не ограничиваются ими, природные и синтетические модификации A, C, G и T/U, а также различные пуриновые или пиримидиновые основания, такие как, например, псевдоуридин, урацил-5-ил, гипоксантин-9-ил (I) и 2-аминоаденин-9-ил. Модифицированные основания включают, но не ограничиваются этим, 5-метилцитозин (5-me-C), 5-гидроксиметилцитозин, ксантин, гипоксантин, 2-аминоаденин, 6-метил и другие алкильные производные аденина и гуанина, 2-пропил и другие алкильные производные аденина и гуанина, 2-тиоурацил, 2 -тиотимин и 2-тиоцитозин, 5-галоурацил и цитозин, 5-пропинилурацил и цитозин, 6-азоурацил, цитозин и тимин, 5-урацил (псевдоурацил), 4-тиоурацил, 8-галоген, 8-амино, 8-тиол, 8-тиоалкил, 8-гидроксил и другие 8-замещенные аденины и гуанины, 5-галоген, особенно 5-бром, 5-трифторметил и другие 5-замещенные урацилы и цитозины, 7-метилгуанин и 7-метиладенин, 8-азагуанин и 8-азааденин, 7-деазагуанин и 7-деазааденин и 3-деазагуанин и 3-деазааденин. Некоторые нуклеотидные аналоги, такие как, например, 5-замещенные пиримидины, 6-азапиримидины и N-2, N-6 и O-6-замещенные пурины, включая, но не ограничиваясь этим, 2-аминопропиладенин, 5-пропинилурацил, 5-пропинилцитозин и 5-метилцитозин могут повысить стабильность образования дуплекса. Часто основные модификации могут быть объединены, например, с модификацией сахара, такой как 2'-O-метоксиэтил, для достижения уникальных свойств, таких как повышенная стабильность дуплекса.
Аналоги нуклеотидов также могут включать модификации сахарного фрагмента. Модификации сахарного фрагмента включают, но не ограничиваются ими, природные модификации рибозы и дезоксирибозы, а также синтетические модификации. Модификации сахара включают, но не ограничиваются, следующие модификации в положении 2 ': ОЙ; F; O-, S- или N-алкил; O-, S- или N-алкенил; O-, S- или N-алкинил; или O-алкил-O-алкил, где алкил, алкенил и алкинил могут быть замещенным или незамещенным C1-10 алкилом или C2-10 алкенилом и C2-10 алкинилом. Примерные 2' модификации сахара также включают, но не ограничиваются ими, -O [(CH2)nO]mCH3, -O (CH2)nOCH3, -O (CH2)nNH2, -O (CH2)nCH3, -O (CH2)n-ONH2и -O (CH2)nON [(CH2)nCH3)]2, где n и m составляют от 1 до около 10.
Другие модификации в положении 2' включают, но не ограничиваются ими, С1-10 алкил, замещенный низший алкил, алкарил, аралкил, О-алкарил или О-аралкил, SH, SCH3, OCN, Cl, Br, CN, CF3, OCF3, SOCH3, SO2CH3, ONO2, NO2, N3, NH2, гетероциклоалкил, гетероциклоалкиларил, аминоалкиламино, полиалкиламино, замещенный силил, группа расщепления РНК, репортерная группа, интеркалятор, группа для улучшения фармакокинетических свойств олигонуклеотида или группа для улучшения фармакодинамических свойств олигонуклеотида и других заместителей, имеющих сходные свойства, Аналогичные модификации могут быть также сделаны в других положениях сахара, в частности в положении 3' сахара на 3' концевом нуклеотиде или в 2'-5' связанных олигонуклеотидах и положении 5' 5' концевого нуклеотида. Модифицированные сахара также могут включать те, которые содержат модификации в кислороде мостикового кольца, такие как СН2 и S. Аналоги нуклеотидного сахара также могут иметь миметики сахара, такие как циклобутильные фрагменты, вместо пентофуранозильного сахара.
Нуклеотидные аналоги также могут быть модифицированы в фосфатном фрагменте. Модифицированные фосфатные фрагменты включают, но не ограничиваются ими, те, которые могут быть модифицированы таким образом, что связь между двумя нуклеотидами содержит фосфоротиоат, хиральный фосфоротиоат, фосфородитиоат, фосфотриэфир, аминоалкилфосфотриэфир, метил и другие алкилфосфонаты, включая 3'-алкиленфосфонаты и хиральные фосфонаты, фосфинаты, фосфорамидаты, в том числе 3'-аминофосфорамидат и аминоалкилфосфорамидаты, тионофосфорамидаты, тионоалкилфосфонаты, тионоалкилфосфотриэфиры и боранофосфаты. Эти фосфатные или модифицированные фосфатные связи между двумя нуклеотидами могут быть через 3'-5' связь или 2'-5' связь, и эта связь может содержать обратную полярность, такую как 3'-5' к 5'-3' или 2'-5' к 5'-2'. Различные соли, смешанные соли и формы свободных кислот также включены.
Нуклеотидные заменители включают молекулы, имеющие функциональные свойства, сходные с нуклеотидами, но которые не содержат фосфатный фрагмент, такой как пептидная нуклеиновая кислота (ПНК - PNA - peptide nucleic acid). Нуклеотидные заменители включают молекулы, которые распознают нуклеиновые кислоты способом Уотсона-Крика или Хугстина, но которые связаны друг с другом посредством фрагмента, отличного от фосфатного фрагмента. Нуклеотидные заменители способны соответствовать структуре типа двойной спирали при взаимодействии с соответствующей нуклеиновой кислотой-мишенью.
Нуклеотидные заменители также включают нуклеотиды или нуклеотидные аналоги, у которых были заменены фосфатный фрагмент или сахарный фрагмент. В некоторых вариантах осуществления нуклеотидные заменители могут не содержать стандартный атом фосфора. Заместителями для фосфата могут быть, например, алкильные или циклоалкильные межнуклеозидные связи с короткой цепью, смешанные гетероатомные и алкильные или циклоалкильные межнуклеозидные связи или одна или более гетероатомных или гетероциклических межнуклеозидных связей с короткой цепью. К ним относятся те, которые имеют морфолино-связи (образованные частично из сахарной части нуклеозида); силоксановые магистрали; сульфидные, сульфоксидные и сульфоновые основные цепи; формацетильный и тиоформацетильный остовы; метиленформацетильный и тиоформацетильный каркасы; алкенсодержащие основные цепи; сульфаматные магистрали; метиленимино и метиленгидразино; сульфонатные и сульфонамидные магистрали; амидные магистрали; и другие, имеющие смешанные N, O, S и CH2 составных частей.
Понятно также, что при замене нуклеотида и сахарная, и фосфатная части нуклеотида могут быть заменены, например, связью амидного типа (аминоэтилглицин) (ПНК).
Также возможно связывать другие типы молекул (конъюгатов) с нуклеотидами или аналогами нуклеотидов для усиления, например, клеточного поглощения. Конъюгаты могут быть химически связаны с нуклеотидными или нуклеотидными аналогами. Такие конъюгаты включают, например, липидные фрагменты, такие как холестериновый фрагмент, желчную кислоту, тиоэфир, такой как гексил-S-тритилтиол, тиохолестерин, алифатическую цепь, такую как додекандиол или ундецильные остатки, фосфолипид, такой как дигексадецил-rac-глицерин или триэтиламмоний-1,2-ди-O-гексадецил-рац-глицеро-3-H-фосфонат, полиаминовая или полиэтиленгликолевая цепь, адамантановая уксусная кислота, пальмитиловый фрагмент или октадециламинный или гексиламино-карбонил-оксихолестериновый фрагмент.
Данное раскрытие также предоставляет векторы, содержащие любую одну или большее количество молекул нуклеиновой кислоты раскрытых в данном документе. В некоторых вариантах осуществления векторы содержат любую одну или более молекул нуклеиновой кислоты, раскрытой в данном документе, и гетерологичную нуклеиновую кислоту. Векторы могут быть вирусными или невирусными векторами, способными транспортировать молекулу нуклеиновой кислоты. В некоторых вариантах осуществления вектор представляет собой плазмиду или космиду (например, кольцевую двухцепочечную ДНК, в которую могут быть лигированы дополнительные сегменты ДНК). В некоторых вариантах осуществления вектор представляет собой вирусный вектор, в котором дополнительные сегменты ДНК могут быть лигированы в вирусный геном. В некоторых вариантах осуществления вектор может автономно реплицироваться в клетке-хозяине, в которую он введен (например, бактериальные векторы, имеющие бактериальный источник репликации, и эписомальные векторы млекопитающих). В некоторых вариантах осуществления вектор (например, неэпизомальные векторы млекопитающих) может быть интегрирован в геном клетки-хозяина при введении в клетку-хозяина и, таким образом, реплицируется вместе с геномом-хозяином. Более того, конкретные векторы могут направлять экспрессию генов, с которыми они функционально связаны. Такие векторы упоминаются в данном документе как «рекомбинантные векторы экспрессии» или «векторы экспрессии». Такие векторы также могут быть нацеливающими векторами (то есть экзогенными донорскими последовательностями).
В некоторых вариантах осуществления белки, кодируемые различными генетическими вариантами, раскрытыми в данном документе, экспрессируются путем вставки молекул нуклеиновой кислоты, кодирующих раскрытые генетические варианты, в векторы экспрессии, так что гены оперативно связаны с последовательностями контроля экспрессии, такими как последовательности транскрипции и контроля трансляции. Векторы экспрессии включают, но не ограничиваются ими, плазмиды, космиды, ретровирусы, аденовирусы, аденоассоциированные вирусы (AAV), вирусы растений, такие как вирус мозаики цветной капусты и вирус табачной мозаики, дрожжевые искусственные хромосомы (YAC), эписомы, полученные из вируса Эпштейна-Барр (EBV) и тому подобное. В некоторых вариантах осуществления молекулы нуклеиновой кислоты, содержащие раскрытые генетические варианты, могут быть лигированы в вектор таким образом, что транскрипционные и трансляционные контрольные последовательности внутри вектора выполняют предназначенную для них функцию регуляции транскрипции и трансляции генетического варианта. Вектор экспрессии и последовательности контроля экспрессии выбирают так, чтобы они были совместимы с используемой клеткой-хозяином экспрессии. Последовательности нуклеиновых кислот, содержащие раскрытые генетические варианты, могут быть вставлены в отдельные векторы или в тот же вектор экспрессии, что и вариантная генетическая информация. Последовательность нуклеиновой кислоты, содержащую раскрытые генетические варианты, может быть вставлена в вектор экспрессии стандартными способами (например, лигирование комплементарных сайтов рестрикции на нуклеиновую кислоту, содержащую раскрытые генетические варианты и вектор, или лигирование тупого конца, если сайты рестрикции отсутствуют),
В дополнение к последовательности нуклеиновой кислоты, содержащей раскрытые генетические варианты, рекомбинантные векторы экспрессии могут нести регуляторные последовательности, которые контролируют экспрессию генетического варианта в клетке-хозяине. Конструкция вектора экспрессии, включая выбор регуляторных последовательностей, может зависеть от таких факторов, как выбор клетки-хозяина, подлежащей трансформации, желаемый уровень экспрессии белка и так далее. Требуемые регуляторные последовательности для экспрессии клеток-хозяев млекопитающих могут включать, например, вирусные элементы, которые направляют высокие уровни экспрессии белка в клетках млекопитающих, такие как промоторы и/или энхансеры, полученные из ретровирусных LTR, цитомегаловируса (CMV) (такой как промотор CMV/энхансер), Simian Virus 40 (SV40) (такой как промотор/энхансер SV40), аденовируса (например, главный поздний промотор аденовируса (AdMLP)), полиомы и сильных промоторов млекопитающих, таких как нативные промоторы иммуноглобулина и актина. Способы экспрессии полипептидов в бактериальных клетках или клетках грибов (например, дрожжевых клетках) также хорошо известны.
Промотор может быть, например, конститутивно активным промотором, условным промотором, индуцибельным промотором, ограниченным во времени промотором (например, промотором, регулируемым развитием) или пространственно ограниченным промотором (например, клеточно-специфичным или тканеспецифичным промотером). Примеры промоторов можно найти, например, в WO 2013/176772.
Примеры индуцибельных промоторов включают, например, химически регулируемые промоторы и физически регулируемые промоторы. Химически регулируемые промоторы включают, например, регулируемые спиртом промоторы (например, промотор гена алкогольдегидрогеназы (alcA)), регулируемые тетрациклином промоторы (например, чувствительный к тетрациклину промотор, последовательность оператора тетрациклина (tetO), tet-On промотор или tet-Off промотор), регулируемые стероидами промоторы (например, промотор глюкокортикоидного рецептора крысы, промотор рецептора эстрогена или промотор рецептора экдизона) или регулируемые металлом промоторы (например, промотор металлопротеина). Физически регулируемые промоторы включают в себя, например, регулируемые температурой промоторы (например, промотор теплового шока) и регулируемые светом промоторы (например, светоиндуцируемый промотор или светопрессуемый промотор).
Тканеспецифичными промоторами могут быть, например, нейрон-специфические промоторы, глия-специфические промоторы, специфичные для мышечных клеток промоторы, специфичные для клеток сердца промоторы, специфичные для клеток почек промоторы, специфичные для костных клеток промоторы, специфичные для эндотелиальных клеток промоторы, или специфичные для иммунных клеток промоторы (например, промотор В-клеток или промотор Т-клеток).
Регуляторы, регулируемые развитием, включают, например, промоторы, активные только во время эмбриональной стадии развития или только во взрослой клетке.
В дополнение к последовательности нуклеиновой кислоты, содержащей раскрытые генетические варианты и регуляторные последовательности, рекомбинантные векторы экспрессии могут нести дополнительные последовательности, такие как последовательности, которые регулируют репликацию вектора в клетках-хозяевах (например, происхождение репликации) и селектируемые маркерные гены. Селектируемый маркерный ген может облегчить отбор клеток-хозяев, в которые был введен вектор (см., например, Патенты США 4399216; 4634665 и 5179017). Например, селектируемый маркерный ген может придавать устойчивость к лекарствам, таким как G418, гигромицин или метотрексат, в клетке-хозяине, в которую был введен вектор. Типичные селектируемые маркерные гены включают, но не ограничиваются ими, ген дигидрофолатредуктазы (DHFR - dihydrofolate reductase) (для использования в клетках-хозяевах dhfr с селекцией/амплификацией метотрексата), ген neo (для селекции G418) и ген глутамат-синтетазы (GS).
Данное раскрытие также относится к выделенным полипептидам, содержащим полипептид варианта B4GALT1 (Asn352Ser). Иллюстративному полипептиду B4GALT1 человека дикого типа присвоен регистрационный номер UniProt P15291 (SEQ ID NO:7), и он состоит из 398 аминокислот. Человеческий вариантный полипептид B4GALT1 содержит серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1 (SEQ ID NO:8), в отличие от аспарагина в том же положении у человека дикого типа B4GALT1 (сравнение SEQ ID NO:8 с SEQ ID NO:7 соответственно). В некоторых вариантах осуществления выделенный полипептид содержит SEQ ID NO:8. В некоторых вариантах осуществления выделенный полипептид состоит из SEQ ID NO:8.
В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая имеет, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 90% идентична последовательности SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 90% идентична последовательности SEQ ID NO:8, и содержат серин в положении, соответствующем положению 352 последовательности SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 90% идентична SEQ ID NO:8, при условии, что выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8.
В некоторых вариантах осуществления выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 95% идентична последовательности SEQ ID NO:8. В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 95% идентична последовательности SEQ ID NO:8, и содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 95% идентична последовательности SEQ ID NO:8, при условии, что выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 98% идентична последовательности SEQ ID NO:8. В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 98% идентична последовательности SEQ ID NO:8, и содержат серин в положении, соответствующем положению 352 последовательности SEQ ID NO:8. В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 98% идентична последовательности SEQ ID NO:8, при условии, что выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 99% идентична последовательности SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 99% идентична последовательности SEQ ID NO:8, и содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 99% идентична последовательности SEQ ID NO:8, при условии, что выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8.
В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 150, по меньшей мере, около 200, по меньшей мере, около 250, по меньшей мере, около 300 или, по меньшей мере, около 350 смежных аминокислот из SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на около 70%, по меньшей мере, на около 75%, по меньшей мере, на около 80%, по меньшей мере, на около 85%, по меньшей мере, на около 90%, по меньшей мере, на около 91%, по меньшей мере, на около 92%, по меньшей мере, на около 93%, по меньшей мере, на около 94%, по меньшей мере, на около 95%, по меньшей мере, на около 96%, по меньшей мере, на около 97%, по меньшей мере, на около 98%, по меньшей мере, на около 99%, или на 100% идентичной, по меньшей мере, около 8, по меньшей мере, около 10, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 150, по меньшей мере, около 200, по меньшей мере, около 250, по меньшей мере, около 300 или, по меньшей мере, около 350 смежных аминокислот SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на около 90%, по меньшей мере, на около 91%, по меньшей мере, на около 92%, по меньшей мере, на около 93%, по меньшей мере, на около 94%, по меньшей мере, на около 95%, по меньшей мере, на около 96%, по меньшей мере, на около 97%, по меньшей мере, на около 98%, по меньшей мере, на около 99% или на 100% идентичной, по меньшей мере, около 8, по меньшей мере, около 10, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 150, по меньшей мере, около 200, по меньшей мере, около 250, по меньшей мере, около 300 или, по меньшей мере, около 350 смежных аминокислот SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO:8.
В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 90% идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8. В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 90%, идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8, и выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO: 8. В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 95% идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 95% идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8, и выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO: 8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 98% идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 98% идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8, и выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO: 8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 99% идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 99% идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8, и выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO: 8.
В некоторых вариантах осуществления выделенные полипептиды включают или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90 или, по меньшей мере, около 100 смежных аминокислот SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на около 70%, по меньшей мере, на около 75%, по меньшей мере, на около 80%, по меньшей мере, на около 85%, по меньшей мере, на около 90%, по меньшей мере, на около 91%, по меньшей мере, на около 92%, по меньшей мере, на около 93%, по меньшей мере, на около 94%, по меньшей мере, на около 95%, по меньшей мере, на около 96%, по меньшей мере, на около 97%, по меньшей мере, на около 98%, по меньшей мере, на около 99%, или на 100% идентичной, по меньшей мере, около 8, по меньшей мере, около 10, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90 или, по меньшей мере, около 100 смежных аминокислот из SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на около 90%, по меньшей мере, на около 91%, по меньшей мере, на около 92%, по меньшей мере, на около 93%, по меньшей мере, на около 94%, по меньшей мере, на около 95%, по меньшей мере, на около 96%, по меньшей мере, на около 97%, по меньшей мере, на около 98%, по меньшей мере, на около 99% или 100% идентично, по меньшей мере, около 8, по меньшей мере, около 10, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, или, по меньшей мере, около 100 смежных аминокислот SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO:8.
Репрезентативная полипептидная последовательность B4GALT1 дикого типа приведена в SEQ ID NO:7. Типичная полипептидная последовательность B4GALT1 приведена в SEQ ID NO:8.
Выделенные полипептиды, раскрытые в данном описании, могут содержать аминокислотную последовательность встречающегося в природе полипептида B4GALT1 или встречающейся в природе последовательности. В некоторых вариантах осуществления встречающаяся в природе последовательность может отличаться от не встречающейся в природе последовательности вследствие консервативных аминокислотных замен. Например, последовательность может быть идентичной, за исключением консервативных аминокислотных замен.
В некоторых вариантах осуществления выделенные полипептиды, раскрытые в данном документе, связаны или слиты с гетерологичными полипептидами или гетерологичными молекулами или метками, многочисленные примеры которых раскрыты в другом месте в данном документе. Например, белки могут быть слиты с гетерологичным полипептидом, обеспечивающим повышенную или пониженную стабильность. Слитый домен или гетерологичный полипептид может быть расположен на N-конце, С-конце или внутри полипептида. Партнер слияния может, например, способствовать получению Т-хелперных эпитопов (иммунологический партнер слияния) или может способствовать экспрессии белка (энхансера экспрессии) с более высокими выходами, чем нативный рекомбинантный полипептид. Некоторые партнеры по слиянию являются как иммунологическими партнерами, так и партнерами по повышению экспрессии. Другие партнеры по слиянию могут быть выбраны для увеличения растворимости полипептида или для облегчения нацеливания полипептида на желаемые внутриклеточные компартменты. Некоторые партнеры по слиянию включают аффинные метки, которые облегчают очистку полипептида.
В некоторых вариантах осуществления слитый белок непосредственно слит с гетерологичной молекулой или связан с гетерологичной молекулой через линкер, такой как пептидный линкер. Подходящие пептидные линкерные последовательности могут быть выбраны, например, на основе следующих факторов: 1) способность принимать гибкую расширенную конформацию; 2) устойчивость к принятию вторичной структуры, которая могла бы взаимодействовать с функциональными эпитопами на первом и втором полипептидах; и 3) отсутствие гидрофобных или заряженных остатков, которые могли бы реагировать с полипептидными функциональными эпитопами. Например, пептидные линкерные последовательности могут содержать остатки Gly, Asn и Ser. Другие почти нейтральные аминокислоты, такие как Thr и Ala, также могут быть использованы в линкерной последовательности. Аминокислотные последовательности, которые могут быть с успехом использованы в качестве линкеров, включают последовательности, раскрытые, например, в Maratea et al., Gene, 1985, 40, 39-46; Murphy et al., Proc. Natl. Acad. Sci. США, 1986, 83, 8258-8262; и патенты США 4935233 и 4751180. Линкерная последовательность обычно может иметь длину, например, от 1 до 50 аминокислот. Линкерные последовательности обычно не требуются, когда первый и второй полипептиды имеют несущественные N-концевые аминокислотные области, которые можно использовать для разделения функциональных доменов и предотвращения стерического вмешательства.
В некоторых вариантах осуществления полипептиды функционально связаны с проникающим в клетку доменом. Например, проникающий в клетку домен может быть получен из белка ТАТ ВИЧ-1, проникающего в клетки TLM мотива вируса гепатита В человека, MPG, Pep-1, VP22, и проникающего в клетку пептида из вируса простого герпеса или пептидной последовательности полиаргинина. См., например, WO 2014/089290. Проникающий в клетку домен может быть локализован на N-конце, C-конце или в любом месте белка.
В некоторых вариантах осуществления полипептиды функционально связаны с гетерологичным полипептидом для простоты отслеживания или очистки, таким как флуоресцентный белок, метка очистки или метка эпитопа. Примеры флуоресцентных белков включают, но не ограничиваются ими, зеленые флуоресцентные белки (например, GFP, GFP-2, tagGFP, turboGFP, eGFP, Emerald, Azami Green, мономерный Azami Green, CopGFP, AceGFP, ZsGreenl), желтые флуоресцентные белки (например, YFP, eYFP, цитрин, венера, YPet, PhiYFP, ZsYellowl), голубые флуоресцентные белки (например, eBFP, eBFP2, азурит, mKalamal, GFPuv, сапфир, T-сапфир), синие флуоресцентные белки (например, eCFP, Cerulean, CyPet, AmCyanl, Midoriishi-Cyan), красные флуоресцентные белки (mKate, mKate2, mPlum, мономер DsRed, mCherry, mRFP1, DsRed-Express, DsRed2, DsRed-мономер, HcRed-тандем, HcRedl, AsRed2, eqFP611, mRaspberry, mStrawberry, Jred) оранжевые флуоресцентные белки (mOrange, mKO, Kusabira-Orange, мономерный Kusabira-Orange, mTangerine, tdTomato) и любой другой подходящий флуоресцентный белок. Примеры тэгов включают, но не ограничиваются ими, глутатион-S-трансферазу (GST), хитин-связывающий белок (CBP), мальтозосвязывающий белок, тиоредоксин (TRX), поли (NANP), тэг тандемной аффинной очистки (TAP), myc, AcV5, AU1, AU5, E, ECS, E2, FLAG, гемагглютинин (HA), nus, Softag 1, Softag 3, Strep, SBP, Glu-Glu, HSV, KT3, S, S1, T7, V5, VSV- G, гистидин (His), биотин-карбоксильный белок-носитель (BCCP) и кальмодулин. В некоторых вариантах осуществления гетерологичная молекула представляет собой Fc-домен иммуноглобулина, пептидную метку, домен трансдукции, поли (этиленгликоль), полисиаловую кислоту или гликолевую кислоту.
В некоторых вариантах осуществления выделенные полипептиды включают неприродные или модифицированные аминокислоты или пептидные аналоги. Например, существует множество D-аминокислот или аминокислот, которые имеют функциональный заместитель, отличный от встречающихся в природе аминокислот. Раскрываются противоположные стереоизомеры встречающихся в природе пептидов, а также стереоизомеры пептидных аналогов. Эти аминокислоты могут быть легко включены в полипептидные цепи путем зарядки молекул тРНК выбранной аминокислотой и конструирования генетических конструкций, которые используют, например, янтарные кодоны, для вставки аналога аминокислоты в пептидную цепь сайт-специфическим способом.
В некоторых вариантах осуществления выделенные полипептиды представляют собой пептидные миметики, которые могут быть получены, чтобы напоминать пептиды, но которые не связаны через природную пептидную связь. Например, связи для аминокислот или аналогов аминокислот включают, но не ограничиваются ими, -CH2NH-, -CH2S-, -CH2-, -CH=CH- (цис и транс), -COCH2-, -CH (OH) CH2- и -CHH2SO-. Аналоги пептидов могут иметь более одного атома между атомами связи, такие как ß-аланин, гаминомасляная кислота и тому подобное. Аминокислотные аналоги и пептидные аналоги часто имеют улучшенные или желательные свойства, такие как более экономичное производство, более высокая химическая стабильность, улучшенные фармакологические свойства (период полураспада, абсорбция, активность, эффективность и т. д.). Измененная специфичность (например, широкий спектр биологической активности), сниженная антигенность и другие желательные свойства.
В некоторых вариантах осуществления выделенные полипептиды содержат D-аминокислоты, которые можно использовать для получения более стабильных пептидов, поскольку D-аминокислоты не распознаются пептидазами. Систематическое замещение одной или более аминокислот консенсусной последовательности на D-аминокислоту того же типа (например, D-лизин вместо L-лизина) можно использовать для получения более стабильных пептидов. Остатки цистеина могут быть использованы для циклизации или присоединения двух или более пептидов вместе. Это может быть полезным для ограничения пептидов в определенных конформациях (см., например, Rizo and Gierasch, Ann. Rev. Biochem., 1992, 61, 387).
Данное раскрытие также относится к молекулам нуклеиновой кислоты, кодирующим любой из полипептидов, раскрытых в данном документе. Это включает все вырожденные последовательности, относящиеся к конкретной полипептидной последовательности (то есть все нуклеиновые кислоты, имеющие последовательность, кодирующую одну конкретную полипептидную последовательность, а также все нуклеиновые кислоты, включая вырожденные нуклеиновые кислоты, кодирующие раскрытые варианты и производные белковых последовательностей). Таким образом, хотя каждая конкретная последовательность нуклеиновой кислоты не может быть записана в данном документе, все и каждая последовательность фактически раскрывается и описывается в данном документе посредством раскрытых полипептидных последовательностей.
Данное раскрытие также относится к композициям, содержащим любую одну или более молекул нуклеиновой кислоты и/или любой один или более полипептидов, раскрытых в данном документе. В некоторых вариантах осуществления композиции содержат носитель. В некоторых вариантах осуществления носитель повышает стабильность молекулы нуклеиновой кислоты и/или полипептида (например, продлевая период хранения при данных условиях (например, -20°C, 4°C или температуре окружающей среды), для которых остаются продукты разложения ниже порогового значения, такого как ниже 0,5 мас.% исходной нуклеиновой кислоты или белка, или повышение стабильности in vivo). Примеры носителей включают, но не ограничиваются ими, микросферы из поли (молочной кислоты) (PLA), микросферы из поли (D, L-молочной-гликолевой кислоты) (PLGA), липосомы, мицеллы, обратные мицеллы, липидные кохлеаты, и липидные микротрубочки.
Данное раскрытие также предоставляет способы получения любого из полипептидов B4GALT1 или их фрагментов, раскрытых в данном документе. Такие полипептиды B4GALT1 или их фрагменты могут быть получены любым подходящим способом. Например, полипептиды B4GALT1 или их фрагменты могут быть получены из клеток-хозяев, содержащих молекулы нуклеиновой кислоты (например, рекомбинантные векторы экспрессии), кодирующие такие полипептиды B4GALT1 или их фрагменты. Такие способы могут включать культивирование клетки-хозяина, содержащей молекулу нуклеиновой кислоты (например, рекомбинантный вектор экспрессии), кодирующую полипептид B4GALT1 или его фрагмент, в условиях, достаточных для получения полипептида B4GALT1 или его фрагмента, в результате чего получается полипептид B4GALT1 или его фрагмент. Нуклеиновая кислота может быть функционально связана с активным промотором в клетке-хозяине, и культивирование можно проводить в условиях, в которых экспрессируется нуклеиновая кислота. Такие способы могут дополнительно включать извлечение экспрессированного полипептида B4GALT1 или его фрагмента. Извлечение может дополнительно включать очистку полипептида B4GALT1 или его фрагмента.
Примеры подходящих систем для экспрессии белка включают клетки-хозяева, такие как, например: системы экспрессии бактериальных клеток (например, Escherichia coli, Lactococcus lactis), системы экспрессии дрожжевых клеток (например, Saccharomyces cerevisiae, Pichia pastoris), системы экспрессии клеток насекомых (например, бакуловирус-опосредованная экспрессия белка) и системы экспрессии клеток млекопитающих.
Примеры молекул нуклеиновых кислот, кодирующих полипептиды B4GALT1 или их фрагменты, раскрыты более подробно в другом месте данного документа. В некоторых вариантах осуществления молекулы нуклеиновой кислоты оптимизированы по кодонам для экспрессии в клетке-хозяине. В некоторых вариантах осуществления молекулы нуклеиновой кислоты функционально связаны с активным промотором в клетке-хозяине. Промотор может быть гетерологичным промотором (т.е. промотором, который не является природным промотором B4GALT1). Примеры промоторов, подходящих для Escherichia coli, включают, но не ограничиваются ими, арабинозу, lac, tac и T7 промоторы. Примеры промоторов, подходящих для Lactococcus lactis, включают, но не ограничиваются ими, промоторы P170 и низина. Примеры промоторов, подходящих для Saccharomyces cerevisiae, включают, но не ограничиваются ими, конститутивные промоторы, такие как промоторы алкогольдегидрогеназы (ADHI) или энолазы (ENO) или индуцибельные промоторы, такие как PHO, CUP1, GAL1 и G10. Примеры промоторов, подходящих для Pichia pastoris, включают, но не ограничиваются ими, промотор алкогольоксидазы I (AOX I), промотор глицеральдегид-3-фосфат-дегидрогеназы (GAP) и промотор глутатион-зависимой формальдегид-дегидрогеназы (FLDI). Примером промотора, подходящего для бакуловирус-опосредованной системы, является поздний вирусный сильный полиэдриновый промотор.
В некоторых вариантах осуществления молекулы нуклеиновой кислоты кодируют метку в рамке с полипептидом B4GALT1 или его фрагментом для облегчения очистки белка. Примеры тегов раскрыты в другом месте в данном документе. Такие метки могут, например, связываться с лигандом-партнером (например, иммобилизованным на смоле), так что меченый белок может быть выделен из всех других белков (например, белков клетки-хозяина). Аффинная хроматография, высокоэффективная жидкостная хроматография (ВЭЖХ) и эксклюзионная хроматография (SEC - size exclusion chromatography) являются примерами методов, которые можно использовать для улучшения чистоты экспрессируемого белка.
Другие способы также могут быть использованы для получения полипептидов B4GALT1 или их фрагментов. Например, два или более пептидов или полипептидов могут быть связаны друг с другом методами химии белка. Например, пептиды или полипептиды могут быть химически синтезированы с использованием химии Fmoc (9-флуоренилметилоксикарбонил) или Boc (tert-бутилоксикарбоноил). Такие пептиды или полипептиды могут быть синтезированы стандартными химическими реакциями. Например, пептид или полипептид может быть синтезирован и не отщеплен от его синтетической смолы, тогда как другой фрагмент пептида или белка может быть синтезирован и впоследствии отщеплен от смолы, тем самым подвергая концевую группу, которая функционально блокирована на другом фрагменте. В результате реакций конденсации пептидов эти два фрагмента могут быть ковалентно связаны через пептидную связь на их карбоксильном и аминоконце, соответственно. Альтернативно, пептид или полипептид может быть независимо синтезирован in vivo, как описано в данном документе. После выделения эти независимые пептиды или полипептиды могут быть связаны с образованием пептида или его фрагмента посредством аналогичных реакций конденсации пептидов.
В некоторых вариантах осуществления ферментативное лигирование клонированных или синтетических пептидных сегментов позволяет соединять относительно короткие пептидные фрагменты для получения более крупных пептидных фрагментов, полипептидов или целых белковых доменов (Abrahmsen et al., Biochemistry, 1991, 30, 4151). Альтернативно, нативное химическое лигирование синтетических пептидов может быть использовано для синтетического конструирования больших пептидов или полипептидов из более коротких пептидных фрагментов. Этот метод может состоять из двухэтапной химической реакции (см. Dawson et al., Science, 1994, 266, 776-779). Первым этапом может быть хемоселективная реакция незащищенного синтетического пептидтиоэфира с другим незащищенным пептидным сегментом, содержащим аминоконцевой остаток Cys, с получением промежуточного соединения, связанного с тиоэфиром, в качестве исходного ковалентного продукта. Без изменения условий реакции это промежуточное соединение может подвергаться спонтанной, быстрой внутримолекулярной реакции с образованием нативной пептидной связи в месте лигирования.
В некоторых вариантах осуществления незащищенные пептидные сегменты могут быть химически связаны, когда связь, образованная между пептидными сегментами в результате химического лигирования, представляет собой неестественную (непептидную) связь (см. Schnolzer et al., Science, 1992, 256)., 221).
Данное раскрытие также относится к клеткам (например, рекомбинантным клеткам-хозяевам), содержащим любую одну или более молекул нуклеиновой кислоты и/или любой один или более полипептидов, раскрытых в данном документе. Клетки могут быть in vitro, ex vivo или in vivo. Молекулы нуклеиновой кислоты могут быть связаны с промотором и другими регуляторными последовательностями, поэтому они экспрессируются с образованием кодируемого белка.
В некоторых вариантах осуществления клетка представляет собой тотипотентную клетку или плюрипотентную клетку (например, эмбрионую стволовую (ES) клетку, такую как ES клетка грызунов, ES клетка мыши или ES клетка крысы). Тотипотентные клетки включают недифференцированные клетки, которые могут давать клетки любого типа, а плюрипотентные клетки включают недифференцированные клетки, которые обладают способностью развиваться в более чем один тип дифференцированных клеток. Такими плюрипотентными и/или тотипотентными клетками могут быть, например, ES клетки или ES-подобные клетки, такие как индуцированные плюрипотентные стволовые (iPS) клетки. ES клетки включают в себя эмбриональные тотипотентные или плюрипотентные клетки, которые способны вносить вклад в любую ткань развивающегося эмбриона при введении в эмбрион. ES клетки могут быть получены из внутренней клеточной массы бластоцисты и способны дифференцироваться в клетки любого из трех слоев зародышей позвоночных (энтодерма, эктодерма и мезодерма).
В некоторых вариантах осуществления клетка представляет собой первичную (primary) соматическую клетку или клетку, которая не является первичной соматической клеткой. Соматические клетки могут включать любую клетку, которая не является гаметой, зародышевой клеткой, гаметоцитом или недифференцированной стволовой клеткой. В некоторых вариантах осуществления клетка также может быть первичной клеткой. Первичные клетки включают клетки или культуры клеток, которые были выделены непосредственно из организма, органа или ткани. Первичные клетки включают клетки, которые не являются ни трансформированными, ни иммортализированными. Первичные клетки включают любую клетку, полученную из организма, органа или ткани, которая ранее не была введена в культуру ткани или ранее была введена в культуру ткани, но не способна бесконечно вводится в культуру ткани. Такие клетки могут быть выделены общепринятыми методами и включают, например, соматические клетки, кроветворные клетки, эндотелиальные клетки, эпителиальные клетки, фибробласты, мезенхимные клетки, кератиноциты, меланоциты, моноциты, мононуклеарные клетки, адипоциты, преадипоциты, нейроны, глиальные клетки, гепатоциты, скелетные миобласты и гладкомышечные клетки. Например, первичные клетки могут быть получены из соединительных тканей, мышечных тканей, тканей нервной системы или эпителиальных тканей.
В некоторых вариантах осуществления клетки могут обычно не размножаться бесконечно, но из-за мутации или изменения избегают нормального клеточного старения и вместо этого могут продолжать подвергаться делению. Такие мутации или изменения могут происходить естественным путем или быть преднамеренно вызванными. Примеры иммортализованных клеток включают, но не ограничиваются ими, клетки яичника китайского хомячка (СНО), клетки эмбриональной почки человека (например, клетки HEK 293) и клетки эмбриональной фибробласта мыши (например, клетки 3T3). Многочисленные типы иммортализованных клеток хорошо известны. Иммортализированные или первичные клетки включают клетки, которые обычно используются для культивирования или для экспрессии рекомбинантных генов или белков. В некоторых вариантах осуществления клетка представляет собой дифференцированную клетку, такую как клетка печени (например, клетка печени человека).
Клетка может быть из любого источника. Например, клетка может быть эукариотической клеткой, животной клеткой, растительной клеткой или грибковой (например, дрожжевой) клеткой. Такими клетками могут быть клетки рыб или клетки птиц, или такие клетки могут быть клетками млекопитающих, такими как клетки человека, клетки млекопитающих, отличных от человека, клетки грызунов, клетки мыши или клетки крысы. Млекопитающие включают, но не ограничиваются ими, людей, приматов, не являющихся людьми, обезьян, макак, кошек, собак, лошадей, быков, оленей, бизонов, овец, грызунов (например, мышей, крыс, хомяков, морских свинок), домашний скот (например, виды крупного рогатого скота, такие как коровы, быки и т.д.; виды овец, такие как овцы, козы и т.д.; и виды свиней, такие как свиньи и кабаны). Птицы включают, но не ограничиваются ими, кур, индеек, страусов, гусей, уток и т.д. Домашние животные и сельскохозяйственные животные также включаются/имеются ввиду. Термин «животное, отличное от человека» исключает людей.
Данное раскрытие также обеспечивает способы обнаружения присутствия варианта гена, мРНК, кДНК и/или полипептида B4GALT1 в биологическом образце от субъекта-человека. Понятно, что последовательности генов в популяции и мРНК и белки, кодируемые такими генами, могут варьироваться из-за полиморфизмов, таких как однонуклеотидные полиморфизмы. Последовательности, представленные в данном документе для гена, мРНК, кДНК и полипептида B4GALT1, являются только иллюстративными последовательностями. Также возможны другие последовательности для гена, мРНК, кДНК и полипептида B4GALT1.
Биологический образец может быть получен из любой клетки, ткани или биологической жидкости от субъекта. Образец может содержать любую клинически значимую ткань, такую как образец костного мозга, биопсия опухоли, тонкоигольный аспират или образец жидкости организма, такой как кровь, плазма, сыворотка, лимфа, асцитическая жидкость, кистозная жидкость или моча. В некоторых случаях образец содержит щечный тампон. Образец, используемый в способах, раскрытых в данном документе, будет варьироваться в зависимости от формата анализа, природы метода обнаружения и тканей, клеток или экстрактов, которые используются в качестве образца. Биологический образец может быть обработан по-разному в зависимости от используемого анализа. Например, при обнаружении варианта молекулы нуклеиновой кислоты B4GALT1 можно использовать предварительную обработку, предназначенную для выделения или обогащения образца для геномной ДНК. Для этой цели можно использовать множество известных методов. При определении уровня мРНК B4GALT1 можно использовать различные методы для обогащения биологического образца мРНК. Могут быть использованы различные методы для определения наличия или уровня мРНК или присутствия определенного варианта геномного локуса ДНК.
В некоторых вариантах осуществления данное изобретение относится к способам обнаружения наличия или отсутствия варианта молекулы нуклеиновой кислоты B4GALT1, включающему секвенирование, по меньшей мере, части нуклеиновой кислоты в биологическом образце, чтобы определить, содержит ли нуклеиновая кислота нуклеотиды с 53757 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2.
В некоторых вариантах осуществления данное изобретение относится к способам обнаружения наличия или отсутствия варианта молекулы нуклеиновой кислоты B4GALT1, включающему секвенирование, по меньшей мере, части нуклеиновой кислоты в биологическом образце для определения того, содержит ли нуклеиновая кислота нуклеотиды с 1243 по 1245 из SEQ ID NO:4 в положениях, которые соответствуют положениям с 1243 по 1245 из SEQ ID NO:4.
В некоторых вариантах осуществления данное изобретение относится к способам обнаружения присутствия или отсутствия варианта молекулы нуклеиновой кислоты B4GALT1 варианта, включающему секвенирование, по меньшей мере, части нуклеиновой кислоты в биологическом образце для определения того, содержит ли нуклеиновая кислота нуклеотиды с 1054 по 1056 последовательности SEQ ID NO:6 в положениях, которые соответствуют положениям 1054-1056 SEQ ID NO:6.
В некоторых вариантах осуществления способы обнаружения наличия или отсутствия варианта молекулы нуклеиновой кислоты (например, гена, мРНК или кДНК) B4GALT1 у человека включают в себя: выполнение анализа на биологическом образце от человека, который определяет, содержит ли молекула нуклеиновой кислоты в биологическом образце последовательность нуклеиновой кислоты, которая кодирует серин в положении 352 SEQ ID NO:8. В некоторых вариантах осуществления биологический образец содержит клетку или клеточный лизат. Такие способы могут включать, например, получение биологического образца от субъекта, содержащего ген B4GALT1, мРНК или кДНК, и проведение анализа биологического образца, который определяет, что положение гена, мРНК или кДНК B4GALT1 соответствующие положениям с 53757 по 53577 из SEQ ID NO:2 (ген), положениям с 1243 по 1245 из SEQ ID NO:4 (мРНК) или положениям 1054-1056 SEQ ID NO:6 (кДНК) кодирует серин вместо аспарагина в положении, соответствующем положению 352 варианта полипептида B4GALT1. Такие анализы могут включать, например, определение идентичности этих положений конкретной молекулы нуклеиновой кислоты B4GALT1.
В некоторых вариантах осуществления анализ включает в себя: секвенирование части геномной последовательности молекулы нуклеиновой кислоты B4GALT1 в биологическом образце от человека, при этом секвенированная часть включает положения, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2; секвенирование части последовательности молекулы нуклеиновой кислоты мРНК B4GALT1 в биологическом образце от человека, при этом секвенированная часть включает положения, соответствующие положениям с 1243 по 1245 из SEQ ID NO:4; или секвенирование части последовательности молекулы нуклеиновой кислоты кДНК B4GALT1 в биологическом образце от человека, при этом секвенированная часть включает положения, соответствующие положениям с 1054 по 1056 последовательности SEQ ID NO:6.
В некоторых вариантах осуществления анализ включает в себя: a) приведение биологического образца в контакт с праймером, гибридизующимся с: i) частью геномной последовательности B4GALT1, которая является ближайшей к положению геномной последовательности B4GALT1, соответствующей положениям с 53575 по 53577 из SEQ ID NO:2; ii) частью последовательности мРНК B4GALT1, которая находится вблизи положения мРНК B4GALT1, соответствующего положениям с 1243 по 1245 из SEQ ID NO:4; или iii) частью последовательности кДНК B4GALT1, которая находится вблизи положения кДНК B4GALT1, соответствующего положениям 1054-1056 SEQ ID NO:6; b) удлинение праймера, по меньшей мере, далее: i) положение геномной последовательности B4GALT1, соответствующее положениям с 53575 по 53577; ii) положение мРНК B4GALT1, соответствующее положениям с 1243 по 1245; или iii) положение кДНК B4GALT1, соответствующее положениям с 1054 по 1056; и c) определение того, содержит ли продукт удлинения праймера нуклеотиды в положениях: i) соответствующих положениям 53575-53577 геномной последовательности B4GALT1 ; ii) соответствующих положениям с 1243 по 1245 мРНК B4GALT1 ; или iii) соответствующих положениям с 1054 по 1056 кДНК B4GALT1 ; которые кодируют серин в положении 352 из SEQ ID NO:8. В некоторых вариантах осуществления анализируется только геномная ДНК B4GALT1. В некоторых вариантах осуществления анализируется только мРНК B4GALT1. В некоторых вариантах осуществления анализируется только кДНК B4GALT1.
В некоторых вариантах осуществления анализ включает контакт биологического образца с праймером или зондом, который специфически гибридизуется с вариабельной геномной последовательностью B4GALT1, последовательностью мРНК или последовательностью кДНК, а не с соответствующей последовательностью B4GALT1 дикого типа в строгих условиях, и определение того, произошла ли гибридизация.
В некоторых вариантах осуществления описанные выше анализы включают РНК-секвенирование (RNA-Seq). В некоторых вариантах осуществления анализы также включают полимеразную цепную реакцию с обратной транскрипцией (ОТ-ПЦР).
В некоторых вариантах осуществления в этих способах используются зонды и праймеры с достаточной длиной нуклеотида, чтобы связываться с последовательностью нуклеиновой кислоты-мишени и специфически обнаруживать и/или идентифицировать полинуклеотид, содержащий вариантный ген, мРНК или кДНК B4GALT1. Условия гибридизации или условия реакции могут быть определены оператором для достижения этого результата. Эта длина может быть любой длины, достаточной для использования в выбранном способе обнаружения. Обычно, например, около 8, около 11, около 14, около 16, около 18, около 20, около 22, около 24, около 26, около 28, около 30, около 40, около 50, около 75, около 100, около 200, около 300, около 400, около 500, около 600 или около 700 нуклеотидов или более, или от около 11 до около 20, от около 20 до около 30, от около 30 до около 40, от около 40 до около 50, от около 50 до около 100, от около 100 до около 200, от около 200 до около 300, от около 300 до около 400, от около 400 до около 500, от около 500 до около 600, от около 600 до около 700 или от около 700 до около 800 или более нуклеотидов в длину. Такие зонды и праймеры могут специфически гибридизоваться с последовательностью-мишенью в условиях гибридизации с высокой строгостью. Зонды и праймеры могут иметь полную идентичность последовательности нуклеиновой кислоты смежных нуклеотидов с последовательностью-мишенью, хотя зонды, отличающиеся от последовательности нуклеиновой кислоты-мишени и сохраняющие способность специфически обнаруживать и/или идентифицировать последовательность нуклеиновой кислоты-мишени, могут быть сконструированы обычными способами. Соответственно, зонды и праймеры могут иметь около 80%, около 85%, около 90%, около 91%, около 92%, около 93%, около 94%, около 95%, около 96%, около 97%, около 98% около 99% или 100% идентичности или комплементарности последовательности к целевой молекуле нуклеиновой кислоты.
В некоторых вариантах осуществления специфические праймеры можно использовать для амплификации варианта мРНК или кДНК варианта B4GALT1 и/или B4GALT1, чтобы получить ампликон, который можно использовать в качестве специфического зонда или сам можно обнаружить для идентификации варианта B4GALT1 локус или для определения уровня специфической B4GALT1 мРНК или кДНК в биологическом образце. Вариантный локус B4GALT1 можно использовать для обозначения последовательности геномной нуклеиновой кислоты, включающей положение, соответствующее положениям с 53575 по 53577 в SEQ ID NO:2. Когда зонд гибридизуется с молекулой нуклеиновой кислоты в биологическом образце в условиях, которые позволяют связать зонд с молекулой нуклеиновой кислоты, это связывание может быть обнаружено и позволяет указывать на присутствие варианта локуса B4GALT1 или наличие или уровень мРНК или кДНК варианта B4GALT1 в биологическом образце. Такая идентификация связанного зонда была описана. Конкретный зонд может содержать последовательность, по меньшей мере, на около 80%, от на около 80% до на около 85%, от на около 85% до на около 90%, от на около 90% до на около 95% и от на около 95% до на около 100% идентичную (или комплементарную) определенной области варианта гена B4GALT1. Конкретный зонд может содержать последовательность, по меньшей мере, на около 80%, от на около 80% до на около 85%, от на около 85% до на около 90%, от на около 90% до на около 95% и от на около 95% до на около 100% идентичную (или комплементарную) определенной области мРНК варианта B4GALT1. Конкретный зонд может содержать последовательность, по меньшей мере, на около 80%, от на около 80% до на около 85%, от на около 85% до на около 90%, от на около 90% до на около 95% и от на около 95% до на около 100% идентиченую (или комплементарную) определенной области кДНК варианта B4GALT1.
В некоторых вариантах осуществления для определения того, содержит ли комплемент нуклеиновой кислоты биологического образца нуклеиновые последовательности, кодирующие серин, в положениях с 53575 по 53577 в локусе гена варианта B4GALT1 (SEQ ID NO:2), биологический образец может быть подвергнут воздействию нуклеиновой кислоты. Метод кислотной амплификации с использованием пары праймеров, который включает первый праймер, полученный из 5'-фланкирующей последовательности, смежной с положениями с 53575 по 53577, и второй праймер, полученный из 3' фланкирующей последовательности, смежной с положениями с 53575 по 53577, для получения ампликона, который является диагностическим для присутствия ОНП в положениях с 53575 по 53577 в локусе гена варианта B4GALT1 (SEQ ID NO:2). В некоторых вариантах осуществления длина ампликона может варьироваться от объединенной длины пар праймеров плюс одна пара нуклеотидных оснований до любой длины ампликона, продуцируемой по протоколу амплификации ДНК. Это расстояние может составлять от одной пары нуклеотидных оснований до пределов реакции амплификации или около двадцати тысяч нуклеотидных пар оснований. Необязательно, пара праймеров окружает область, включающую положения с 53575 по 53577 и, по меньшей мере, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более нуклеотидов на каждой стороне от положений 53575 до 53577. Подобные ампликоны могут быть получены из последовательностей мРНК и/или кДНК.
Типичные способы получения и использования зондов и праймеров описаны, например, в Molecular Cloning: A Laboratory Manual, 2nd Ed., Vol. 1-3, ed. Sambrook et al., Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y. 1989 (далее, “Sambrook et al., 1989”); Current Protocols in Molecular Biology, ed. Ausubel et al., Greene Publishing and Wiley-Interscience, New York, 1992 (с периодическими обновлениями) (далее «Ausubel et al., 1992»); и Innis et al., PCR Protocols: A Guide to Methods and Applications, Academic Press: San Diego, 1990. Пары праймеров для ПЦР могут быть получены из известной последовательности, например, с использованием компьютерных программ, предназначенных для этой цели, таких как инструмент анализа праймеров для ПЦР в Vector NTI версии 10 (Informax Inc., Bethesda Md.); PrimerSelect (DNASTAR Inc., Мэдисон, Висконсин); и Primer3 (версия 0.4.0. COPYRGT., 1991, Институт биомедицинских исследований Уайтхеда, Кембридж, штат Массачусетс). Кроме того, последовательность можно визуально сканировать и вручную определять праймеры с использованием известных рекомендаций.
Как более подробно описано ниже, любой традиционный метод гибридизации, амплификации или секвенирования нуклеиновых кислот можно использовать для специфического выявления присутствия варианта локуса гена варианта B4GALT1 и/или уровня мРНК или кДНК варианта B4GALT1. В некоторых вариантах осуществления молекулу нуклеиновой кислоты можно использовать либо в качестве праймера для амплификации области нуклеиновой кислоты B4GALT1, либо молекулу нуклеиновой кислоты можно использовать в качестве зонда, который гибридизуется в жестких условиях с молекулой нуклеиновой кислоты, содержащей локус гена варианта B4GALT1 или молекула нуклеиновой кислоты, содержащая мРНК или кДНК варианта B4GALT1.
Известно множество способов связанных с нуклеиновыми кислотами, включая, например, секвенирование нуклеиновых кислот, гибридизацию нуклеиновых кислот и амплификацию нуклеиновых кислот. Иллюстративные примеры методов секвенирования нуклеиновых кислот включают, но не ограничиваются ими, секвенирование терминированием цепи (Sanger) и секвенирование терминированием красителем.
Другие способы включают способы гибридизации нуклеиновых кислот, отличные от секвенирования, включая использование меченых праймеров или зондов, направленных против очищенной ДНК, амплифицированной ДНК и фиксированных клеточных препаратов (флуоресценция in situ гибридизация). В некоторых способах нуклеиновую кислоту-мишень можно амплифицировать до или одновременно с детекцией. Иллюстративные примеры методов амплификации нуклеиновых кислот включают, но не ограничиваются ими, полимеразную цепную реакцию (ПЦР), лигазную цепную реакцию (LCR - ligase chain reaction), амплификацию смещения цепи (SDA - strand displacement amplification) и амплификацию на основе последовательности нуклеиновой кислоты (NASBA - nucleic acid sequence based amplification). Другие способы включают, но не ограничиваются ими, лигазную цепную реакцию, амплификацию смещения цепи и термофильную SDA (tSDA - thermophilic SDA).
Любой метод может использоваться для обнаружения не амплифицированных или амплифицированных полинуклеотидов, включая, например, анализ защиты от гибридизации (HPA), количественную оценку процесса амплификации в режиме реального времени и определение количества последовательности-мишени, первоначально присутствующей в образце, но который не основан на усилении в реальном времени.
Также предоставлены способы идентификации нуклеиновых кислот, которые не обязательно требуют амплификации последовательности и основаны, например, на известных способах гибридизации Саузерн (ДНК: ДНК) блоттинга, in situ гибридизации (ISH) и флуоресцентной in situ гибридизации (FISH) хромосомного материала с использованием соответствующих зондов. Саузерн-блоттинг может быть использован для обнаружения специфических последовательностей нуклеиновых кислот. В таких способах нуклеиновая кислота, которая извлекается из образца, фрагментируется, электрофоретически отделяется на матричном геле и переносится на мембранный фильтр. Связанная с фильтром нуклеиновая кислота подвергается гибридизации с меченым зондом, комплементарным представляющей интерес последовательности. Детектируется гибридизованый зонд, связанный с фильтром.
В способах гибридизации могут применяться жесткие условия, так что зонд или праймер будут специфически гибридизоваться с его мишенью. В некоторых вариантах осуществления полинуклеотидный праймер или зонд в строгих условиях будет гибридизоваться с его последовательностью-мишенью (например, с локусом гена, мРНК или кДНК варианта B4GALT1) в значительно большей степени, чем с другими последовательностями, например, соответствующими последовательностям дикого типа B4GALT1 (локуса, мРНК или кДНК), так как минимум в 2 раза больше фона или в 10 раз выше фона. Строгие условия зависят от последовательности и будут разными в разных обстоятельствах. Контролируя строгость условий гибридизации и/или отмывки, можно идентифицировать последовательности-мишени, которые на 100% комплементарны зонду (гомологичное зондирование). Альтернативно, условия жесткости могут быть скорректированы, чтобы допускать некоторое несовпадение последовательностей, так что обнаруживаются более низкие степени идентичности (гетерологичное зондирование). Обычно длина зонда составляет менее 1000 нуклеотидов или менее 500 нуклеотидов.
Подходящие условия жесткости, которые способствуют гибридизации ДНК, например, 6X хлорид натрия/цитрат натрия (SSC) при температуре около 45°C с последующей промывкой 2X SSC при 50°C, известны или могут быть найдены в Current Protocols in Molecular Biology, John Wiley & Sons, N.Y. (1989), 6.3.1-6.3.6. Как правило, строгие условия для гибридизации и детектирования будут такими, в которых концентрация соли составляет менее чем около 1,5 М иона Na, обычно около от 0,01 до 1,0 М иона Na (или других солей) при рН от 7,0 до 8,3 и температура имеет, по меньшей мере, около 30°С для коротких зондов (например, от 10 до 50 нуклеотидов) и, по меньшей мере, около 60°С для более длинных зондов (например, более 50 нуклеотидов). Жесткие условия также могут быть достигнуты с добавлением дестабилизирующих агентов, таких как формамид. Типичные условия низкой жесткости включают гибридизацию с буферным раствором от 30 до 35% формамида, 1М NaCl, 1% SDS (додецилсульфат натрия) при 37°C и промывку в 1X-2X SSC (20X SSC=3,0 М NaCl/0,3 М тринатрийцитрата) при температуре от 50 до 55°С. Типичные условия умеренной строгости включают гибридизацию в 40-45% формамиде, 1,0 М NaCl, 1% SDS при 37°С и промывку в 0,5X-1X SSC при 55-60°С. Типичные условия высокой жесткости включают гибридизацию в 50% формамиде, 1 М NaCl, 1% SDS при 37°C и промывку в 0,1X SSC при 60-65°C. Необязательно, промывочные буферы могут содержать от около 0,1% до около 1% SDS. Продолжительность гибридизации обычно составляет менее чем около 24 часов, обычно от около 4 до около 12 часов. Продолжительность времени отмывки будет, по меньшей мере, продолжительностью, достаточной для достижения равновесия.
В реакциях гибридизации специфичность обычно является функцией промывок после гибридизации, критическими факторами являются ионная сила и температура конечного промывочного раствора. Для гибридов ДНК-ДНК Tm можно аппроксимировать по уравнению Майнкота и Вала (Meinkoth, Wahl) Anal. Biochem., 1984, 138, 267-284: Тм=81,5°С+16,6 (log M) + 0,41 (% ГХ) - 0,61 (% форм) - 500/л; где M - молярность одновалентных катионов,% GC - процентное содержание нуклеозидов гуанозина и цитозина в ДНК,% форм - процентное содержание формамида в растворе гибридизации, а L - длина гибрида в парах оснований. Tm - это температура (при определенной ионной силе и pH), при которой 50% комплементарной последовательности-мишени гибридизуется с идеально подобранным зондом. Tm уменьшается на около 1°C на каждый 1% несоответствия; таким образом, Tm, условия гибридизации и/или отмывки можно регулировать для гибридизации с последовательностями желаемой идентичности. Например, если ищутся последовательности с идентичностью ≥90%, Tm можно уменьшить на 10°C. Как правило, строгие условия выбираются так, чтобы они были на около 5°C ниже, чем температура плавления (Tm) для конкретной последовательности и ее комплемента при определенной ионной силе и pH. Однако в сильно строгих условиях можно использовать гибридизацию и/или отмывку при температуре на 1, 2, 3 или 4°С ниже, чем температура плавления (Тm); в умеренно строгих условиях можно использовать гибридизацию и/или отмывку при температуре 6, 7, 8, 9 или 10°С ниже, чем температура плавления (Тm); В условиях низкой строгости можно использовать гибридизацию и/или отмывку при температуре 11, 12, 13, 14, 15 или 20°С ниже, чем температура плавления (Тm). Используя уравнение, композиции для гибридизации и промывки и требуемый Тm, специалисты в данной области техники поймут, что вариации в строгости гибридизации и/или промывочных растворов по своей природе описаны. Если желаемая степень несоответствия приводит к тому, что Tm составляет менее 45°C (водный раствор) или 32°C (раствор формамида), оптимально увеличить концентрацию SSC, чтобы можно было использовать более высокую температуру.
Также предоставлены способы обнаружения присутствия или уровней полипептида варианта B4GALT1 в биологическом образце, включая, например, секвенирование белка и иммуноанализ. В некоторых вариантах осуществления способ обнаружения присутствия Asn352Ser B4GALT1 у субъекта-человека включает выполнение анализа биологического образца от субъекта-человека, который определяет присутствие Asn352Ser B4GALT1 в биологическом образце.
Иллюстративные неограничивающие примеры методов секвенирования белка включают, но не ограничиваются ими, масс-спектрометрию и деградацию по Эдману. Иллюстративные примеры иммуноанализов включают, но не ограничиваются ими, иммунопреципитацию, вестерн-блот, иммуногистохимию, ИФА, иммуноцитохимию, проточную цитометрию и иммуно-ПЦР. Поликлональные или моноклональные антитела, которые можно детектировать с использованием различных известных методов (например, калориметрических, флуоресцентных, хемилюминесцентных или радиоактивных), подходят для использования в иммуноанализах.
Данное раскрытие также предоставляет способы для определения восприимчивости субъекта к развитию сердечно-сосудистого заболевания или риска развития сердечно-сосудистого заболевания. Субъектом может быть любой организм, включая, например, человека, млекопитающее, не являющееся человеком, грызуна, мышь или крысу. В некоторых вариантах осуществления способы включают обнаружение присутствия варианта геномной ДНК, мРНК или кДНК варианта B4GALT1 в биологическом образце от субъекта. Понятно, что последовательности генов в популяции и мРНК, кодируемые такими генами, могут варьироваться из-за полиморфизмов, таких как ОНП. Представленные в данном документе последовательности для гена мРНК, кДНК и полипептида B4GALT1, являются только примерными последовательностями, и другие такие последовательности также возможны.
Неограничивающие примеры сердечно-сосудистых заболеваний включают повышенный уровень одного или более сывороточных липидов. Липиды сыворотки включают один или более из холестерина, ЛПНП, ЛПВП, триглицеридов, холестерина ЛПВП и холестерина не-ЛПВП или любой их субфракции (например, ЛПВП2, ЛПВП2a, ЛПВП2b, ЛПВП2c, ЛПВП3, ЛПВП3a, ЛПВП3b, ЛПВП3c, ЛПВП3d ЛПНП1, ЛПНП2, ЛПНП3, липопротеина A, Lpa1, Lpa1, Lpa3, Lpa4 или Lpa5). Сердечно-сосудистое заболевание может включать повышенные уровни кальцификации коронарной артерии. Сердечно-сосудистое заболевание может характеризаваться гликозилированием типа IId (CDG-IId). Сердечно-сосудистое заболевание может содержать повышенный уровень перикардиального жира. Сердечно-сосудистое заболевание может также включать в себя ишемическую болезнь сердца (ИБС), инфаркт миокарда (ИМ), заболевание периферических артерий (ПАД), инсульт, эмболию легочной артерии, тромбоз глубоких вен (ТГВ) и кровоточащие диатезы и коагулопатии. Сердечно-сосудистое заболевание может включать атеротромботическое заболевание. Атеротромботическое заболевание может включать повышенные уровни фибриногена. Атеротромботическое заболевание может включать фибриноген-опосредованный сгусток крови. Сердечно-сосудистое заболевание может включать повышенные уровни фибриногена. Сердечно-сосудистое заболевание может содержать фибриноген-опосредованный сгусток крови. Сердечно-сосудистое заболевание может включать сгусток крови, образованный в результате активности фибриногена. Фибриноген-опосредованный сгусток крови или сгусток крови, образованный при участии активности фибриногена, может находиться в любой вене или артерии в организме.
В некоторых вариантах осуществления способы определения предрасположенности субъекта-человека к развитию сердечно-сосудистого заболевания, включают: a) проведение анализа биологического образца от субъекта-человека, который определяет, содержит ли молекула нуклеиновой кислоты в биологическом образце последовательность нуклеиновой кислоты, которая кодирует вариант полипептида B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1 ; и b) классификация субъекта-человека как подверженного пониженному риску развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты, содержащая последовательность нуклеиновой кислоты, которая кодирует вариант полипептида B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, обнаружена в биологическом образце или классифицирует человека как имеющего повышенный риск развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты, содержащая последовательность нуклеиновой кислоты, которая кодирует вариант полипептида B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, не обнаружена в биологическом образце. В некоторых воплощениях вариант полипептида Asn352Ser B4GALT1 содержит SEQ ID NO:8. В некоторых вариантах осуществления молекула нуклеиновой кислоты в биологическом образце представляет собой геномную ДНК, мРНК или кДНК.
В некоторых вариантах осуществления данное изобретение раскрывает способы определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания, включающие: a) выполнение анализа биологического образца от субъекта-человека, который определяет, содержит ли молекула нуклеиновой кислоты в биологическом образце нуклеотиды 53757-53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2; и b) классификация субъекта-человека как подверженного пониженному риску развития сердечно-сосудистого заболевания, если обнаружена молекула нуклеиновой кислоты, содержащая нуклеотиды с 53757 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2. в биологическом образце или классифицируют человека как находящегося в группе повышенного риска развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты, содержащая нуклеотиды с 53757 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2 не обнаружена в биологическом образце.
В некоторых вариантах осуществления данное изобретение раскрывает способы определения восприимчивости человека к развитию сердечно-сосудистого заболевания, включающие: a) проведение анализа биологического образца от человека, который определяет, содержит ли молекула нуклеиновой кислоты в биологическом образце нуклеотиды 1243- 1245 из SEQ ID NO:4 в положениях, которые соответствуют положениям 1243-1245 из SEQ ID NO:4; и b) классификация субъекта-человека, как имеющего пониженный риск развития сердечно-сосудистого заболевания, если обнаружена молекула нуклеиновой кислоты, содержащая нуклеотиды 1243-1245 из SEQ ID NO:4 в положениях, которые соответствуют положениям 1243-1245 из SEQ ID NO:4 в биологическом образце или классифицируют человека, как находящегося в группе повышенного риска развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты, содержащая нуклеотиды с 1243 по 1245 из SEQ ID NO:4 в положениях, которые соответствуют положениям с 1243 по 1245 из SEQ ID NO:4 не обнаружен в биологическом образце.
В некоторых вариантах осуществления данное изобретение раскрывает способы определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания, включающие: a) проведение анализа биологического образца от субъекта-человека, который определяет, содержит ли молекула нуклеиновой кислоты в биологическом образце нуклеотиды 1054 до 1056 SEQ ID NO:6 в положениях, которые соответствуют положениям 1054-1056 SEQ ID NO:6; и b) классификация субъекта-человека, как имеющего пониженный риск развития сердечно-сосудистого заболевания, если обнаружена молекула нуклеиновой кислоты, содержащая нуклеотиды 1054-1056 SEQ ID NO:6 в положениях, которые соответствуют положениям 1054-1056 SEQ ID NO:6 в биологическом образце или классификации субъекта-человека как подверженного повышенному риску развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты, содержащая нуклеотиды 1054-1056 SEQ ID NO:6 в положениях, которые соответствуют положениям 1054-1056 SEQ ID NO:6 не обнаружена в биологическом образце.
В некоторых вариантах осуществления способы включают обнаружение присутствия геномной ДНК варианта B4GALT1 в биологическом образце. В некоторых вариантах осуществления такие способы включают определение восприимчивости субъекта к развитию сердечно-сосудистого заболевания или риска развития сердечно-сосудистого заболевания, включающие: а) получение биологического образца от субъекта, который содержит геномную ДНК; b) проведение анализа геномной ДНК, который определяет идентичность нуклеотидов в ДНК, занимающих положения, соответствующие положениям с 53575 по 53577 варианта гена B4GALT1 (см., например, SEQ ID NO:2); и c) классификация субъекта как подверженного пониженному риску развития сердечно-сосудистого заболевания, если положения в геномной ДНК, соответствующие положениям с 53575 по 53577 варианта гена B4GALT1, кодируют серин, а не аспарагин. Альтернативно, субъект может быть классифицирован как имеющий повышенный риск развития сердечно-сосудистого заболевания, если положения в геномной ДНК, соответствующие положениям с 53575 по 53577 варианта гена B4GALT1, не кодируют серин, а кодируют аспарагин.
В некоторых вариантах осуществления такие способы включают диагностирование субъекта с сердечно-сосудистым заболеванием, включающие: а) получение биологического образца от субъекта, который содержит геномную ДНК; b) проведение анализа геномной ДНК, который определяет идентичность нуклеотидов в ДНК, занимающих положения, соответствующие положениям с 53575 по 53577 варианта гена B4GALT1 (см., например, SEQ ID NO:2); и с) классификация субъекта как имеющего сердечно-сосудистое заболевание, если положения в геномной ДНК, соответствующие положениям 53575-53577 варианта гена B4GALT1, кодируют серин, а не аспарагин. Альтернативно, субъект может быть классифицирован как не имеющий сердечно-сосудистых заболеваний, если положения в геномной ДНК, соответствующие положениям с 53575 по 53577 варианта гена B4GALT1, не кодируют серин, а кодируют аспарагин.
В некоторых вариантах осуществления способы включают обнаружение присутствия варианта мРНК B4GALT1 в биологическом образце. В некоторых вариантах осуществления такие способы включают определение восприимчивости субъекта к развитию сердечно-сосудистого заболевания или риска развития сердечно-сосудистого заболевания, включающие: а) получение биологического образца у субъекта, который содержит мРНК; b) проведение анализа мРНК, который определяет идентичность нуклеотидов в мРНК, занимающей положения, соответствующие положениям с 1243 по 1245 варианта мРНК B4GALT1 (см., например, SEQ ID NO:4); и c) классификация субъекта как подверженного пониженному риску развития сердечно-сосудистого заболевания, если положения в мРНК, соответствующие положениям с 1243 по 1245 варианта мРНК B4GALT1, кодируют серин, а не аспарагин. Альтернативно, субъект может быть классифицирован как подверженный повышенному риску развития сердечно-сосудистого заболевания, если положения в мРНК, соответствующие положениям с 1243 по 1245 варианта мРНК B4GALT1, не кодируют серин, а кодируют аспарагин.
В некоторых вариантах осуществления такие способы включают диагностирование субъекта с сердечно-сосудистым заболеванием, включающие: а) получение биологического образца от субъекта, который содержит мРНК; b) проведение анализа мРНК, который определяет идентичность нуклеотидов в мРНК, занимающих положения, соответствующие положениям с 1243 по 1245 варианта мРНК B4GALT1 (см., например, SEQ ID NO:4); и с) классификация субъекта как имеющего сердечно-сосудистое заболевание, если положения в мРНК, соответствующие положениям с 1243 по 1245 мРНК варианта B4GALT1, кодируют серин, а не аспарагин. Альтернативно, субъект может быть классифицирован как не имеющий сердечно-сосудистых заболеваний, если положения в мРНК, соответствующие положениям с 1243 по 1245 варианта мРНК B4GALT1, не кодируют серин, а кодируют аспарагин.
В некоторых вариантах осуществления способы включают обнаружение присутствия кДНК варианта B4GALT1 в биологическом образце. В некоторых вариантах осуществления такие способы включают определение восприимчивости субъекта к развитию сердечно-сосудистого заболевания или риска развития сердечно-сосудистого заболевания, включающие: а) получение биологического образца от субъекта, который содержит кДНК; b) проведение анализа кДНК, который определяет идентичность нуклеотидов в кДНК, занимающих положения, соответствующие положениям с 1054 по 1056 кДНК варианта B4GALT1 (см., например, SEQ ID NO:6); и c) классификация субъекта как подверженного пониженному риску развития сердечно-сосудистого заболевания, если положения в кДНК, соответствующие положениям с 1054 по 1056 кДНК варианта B4GALT1, кодируют серин, а не аспарагин. С другой стороны, субъект может быть классифицирован как подверженный повышенному риску развития сердечно-сосудистого заболевания, если положения в кДНК, соответствующие положениям с 1054 по 1056 кДНК варианта B4GALT1, не кодируют серин, а кодируют аспарагин.
В некоторых вариантах осуществления такие способы включают диагностирование субъекта с сердечно-сосудистым заболеванием, включающие: а) получение биологического образца от субъекта, который содержит кДНК; b) проведение анализа кДНК, который определяет идентичность нуклеотидов в кДНК, занимающих положения, соответствующие положениям с 1054 по 1056 кДНК варианта B4GALT1 (см., например, SEQ ID NO:6); и с) классификацию субъекта как имеющего сердечно-сосудистое заболевание, если положения в кДНК, соответствующие положениям с 1054 по 1056 кДНК варианта B4GALT1, кодируют серин, а не аспарагин. Альтернативно, субъект может быть классифицирован как не имеющий сердечно-сосудистых заболеваний, если положения в кДНК, соответствующие положениям с 1054 по 1056 кДНК варианта B4GALT1, не кодируют серин, а кодируют аспарагин.
В некоторых вариантах осуществления анализ включает в себя: секвенирование части геномной последовательности B4GALT1 молекулы нуклеиновой кислоты в биологическом образце от человека, при этом секвенированная часть включает положения, соответствующие положениям с 53575 по 53577 из SEQ ID NO: 2; секвенирование части последовательности мРНК B4GALT1 молекулы нуклеиновой кислоты в биологическом образце от человека, при этом секвенированная часть включает положения, соответствующие положениям с 1243 по 1245 из SEQ ID NO:4; или секвенирование части последовательности кДНК B4GALT1 молекулы нуклеиновой кислоты в биологическом образце от человека, при этом секвенированная часть включает положения, соответствующие положениям с 1054 по 1056 последовательности SEQ ID NO:6.
В некоторых вариантах осуществления анализ включает в себя: a) приведение биологического образца в контакт с праймером, гибридизующимся с: i) частью геномной последовательности B4GALT1, которая находится вблизи положения геномной последовательности B4GALT1, соответствующей положениям с 53575 по 53577 из SEQ ID NO:2; ii) частью последовательности мРНК B4GALT1, которая находится вблизи положения мРНК B4GALT1, соответствующего положениям с 1243 по 1245 из SEQ ID NO:4; или iii) частью последовательности кДНК B4GALT1, которая находится вблизи положения кДНК B4GALT1, соответствующего положениям 1054-1056 SEQ ID NO:6; b) удлинение праймера, по меньшей мере, далее: i) положения геномной последовательности B4GALT1, соответствующего положениям с 53575 по 53577; ii) положения мРНК B4GALT1, соответствующего положениям с 1243 по 1245; или iii) положения кДНК B4GALT1, соответствующего положениям с 1054 по 1056; и c) определение того, содержит ли продукт удлинения праймера нуклеотиды в положениях: i), соответствующих положениям 53575-53577 геномной последовательности B4GALT1 ; ii) соответствующих положениям с 1243 по 1245 мРНК B4GALT1 ; или iii) соответствующих положениям с 1054 по 1056 кДНК B4GALT1 ; которые кодируют серин в положении 352 SEQ ID NO:8.
В некоторых вариантах осуществления анализ включает контакт биологического образца с праймером или зондом, который специфически гибридизуется с геномной последовательностью B4GALT1 варианта, последовательностью мРНК или последовательностью кДНК, а не с соответствующей последовательностью B4GALT1 дикого типа в строгих условиях, и определение того, произошла ли гибридизация. В некоторых вариантах осуществления праймер или зонд специфически гибридизуется с положениями в геномной ДНК в биологическом образце, которые соответствуют положениям с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления праймер или зонд специфически гибридизуется с положениями в мРНК в биологическом образце, которые соответствуют положениям с 1243 по 1245 из SEQ ID NO:4. В некоторых вариантах осуществления праймер или зонд специфически гибридизуется с положениями в кДНК в биологическом образце, которые соответствуют положениям с 1054 по 1056 SEQ ID NO:6.
Другие анализы, которые можно использовать в способах, раскрытых в данном документе, включают, например, полимеразную цепную реакцию с обратной транскрипцией (ОТ-ПЦР) или количественную ОТ-ПЦР (кОТ-ПЦР). Еще другие анализы, которые можно использовать в способах, раскрытых в данном документе, включают, например, секвенирование РНК (RNA-Seq) с последующим определением наличия и количества вариантной мРНК или кДНК в биологическом образце.
Данное раскрытие также предоставляет способы определения восприимчивости человека к развитию сердечно-сосудистого заболевания или диагностирования субъекта, как имеющего сердечно-сосудистое заболевание, включающие: a) проведение анализа биологического образца от человека, который определяет, содержит ли полипептид B4GALT1 в биологическом образце серин в позиции, соответствующей позиции 352 SEQ ID NO:8; и b) классификацию субъекта-человека, как имеющего пониженный риск развития сердечно-сосудистого заболевания, если в биологическом образце обнаружен полипептид B4GALT1, содержащий серин в положении, соответствующем положению 352 SEQ ID NO:8, или классификация субъекта-человека, как имеющего повышенный риск развития сердечно-сосудистого заболевания, если в биологическом образце не обнаружен полипептид B4GALT1, содержащий серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления способы дополнительно включают получение биологического образца от субъекта.
В некоторых вариантах осуществления, когда у субъекта диагностировано сердечно-сосудистое заболевание или имеется повышенный риск развития сердечно-сосудистого заболевания, субъекту вводят терапевтическое или профилактическое средство, которое лечит или предотвращает сердечно-сосудистое заболевание. Альтернативно, способ может дополнительно включать введение терапевтического агента, предназначенного для предотвращения или ослабления одного или более симптомов, связанных с прогрессированием до более клинически прогрессирующих стадий сердечно-сосудистого заболевания, особенно у пациентов с повышенными уровнями ЛПНП и/или тех пациентов, которые имели или находятся на стадии повышенного риска тромботических явлений.
Данное раскрытие также предоставляет способы модификации клетки посредством использования любой комбинации нуклеазных агентов, экзогенных донорных последовательностей, активаторов транскрипции, транскрипционных репрессоров, антисмысловых молекул, таких как антисмысловая РНК, миРНК и кшРНК, полипептиды B4GALT1 или их фрагменты, и векторы экспрессии для экспрессии рекомбинантного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1. Способы могут применятся in vitro, ex vivo или in vivo. Нуклеазные агенты, экзогенные донорные последовательности, активаторы транскрипции, репрессоры транскрипции, антисмысловые молекулы, такие как антисмысловые РНК, миРНК и кшРНК, полипептиды B4GALT1 или их фрагменты и векторы экспрессии могут быть введены в клетку в любой форме и любыми способами. как описано в другом месте в данном документе, и все или некоторые могут быть введены одновременно или последовательно в любой комбинации. Некоторые методы включают только изменение эндогенного гена B4GALT1 в клетке. Некоторые методы включают только изменение экспрессии эндогенного гена B4GALT1 путем использования активаторов или репрессоров транскрипции или путем использования антисмысловых молекул, таких как антисмысловая РНК, миРНК и кшРНК. Некоторые способы включают только введение рекомбинантного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1 или его фрагмент, в клетку. Некоторые способы включают только введение полипептида B4GALT1 или его фрагмента в клетку (например, любой из или любую комбинацию полипептидов B4GALT1 или их фрагментов, раскрытых в данном документе). Другие способы включают как изменение эндогенного гена B4GALT1 в клетке, так и введение полипептида B4GALT1 или его фрагмента или его рекомбинантного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1 или его фрагмент, в клетку. Другие способы включают, как изменение экспрессии эндогенного гена B4GALT1 в клетке, так и введение полипептида B4GALT1 или его фрагмента или его рекомбинантного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид или его фрагмент B4GALT1.
В данном раскрытии представлены способы модификации эндогенного гена B4GALT1 в геноме клетки (например, плюрипотентной клетки или дифференцированной клетки) с использованием нуклеазных агентов и/или последовательностей экзогенного донора. Способы могут встречаться in vitro, ex vivo или in vivo. Нуклеазный агент может использоваться отдельно или в комбинации с экзогенной донорной последовательностью. Альтернативно, экзогенная донорная последовательность может использоваться отдельно или в комбинации с нуклеазным агентом.
Восстановление в ответ на двухцепочечные разрывы (DSB -double-strand breaks) происходит главным образом через два консервативных пути восстановления ДНК: негомологичное соединение концов (NHEJ -non-homologous end joining) и гомологичную рекомбинацию (HR - homologous recombination) (см., Kasparek & Humphrey, Seminars in Cell & Dev. Biol., 2011, 22, 886-897). Восстановление целевой нуклеиновой кислоты (например, эндогенного гена B4GALT1), опосредованное экзогенной донорной последовательностью, может включать любой процесс обмена генетической информацией между двумя полинуклеотидами. Например, NHEJ также может приводить к целенаправленной интеграции экзогенной донорной последовательности посредством прямого лигирования концов разрыва с концами экзогенной донорной последовательности (т.е. захват на основе NHEJ). Восстановление также может происходить посредством гомологичного направленного восстановления (HDR - homology directed repair) или гомологичной рекомбинации (HR). HDR или HR включает форму восстановления нуклеиновой кислоты, которая может требовать гомологии нуклеотидной последовательности, использует «донорную» молекулу в качестве матрицы для восстановления «целевой» молекулы (то есть той, которая испытала разрыв двухцепочечной цепи) и ведет к передаче генетической информации от донора к цели/мишени.
Целевые генетические модификации в эндогенном гене B4GALT1 в геноме могут быть получены путем контакта клетки с экзогенной донорной последовательностью, содержащей 5' плече гомологии, которое гибридизуется с 5'-последовательностью-мишенью в целевом геномном локусе внутри эндогенного гена B4GALT1 и 3' плече гомологии, которое гибридизуется с 3'-последовательностью-мишенью в целевом геномном локусе внутри эндогенного гена B4GALT1. Экзогенная донорная последовательность может рекомбинировать с целевым геномным локусом, чтобы генерировать целевую генетическую модификацию эндогенного гена B4GALT1. В качестве одного примера, 5' плечо гомологии может гибридизоваться с целевой последовательностью 5' положения, соответствующего положениям с 53575 по 53577 из SEQ ID NO:1, и 3' плечо гомологии может гибридизоваться с целевой последовательностью 3' положения соответствующего положениям с 53575 по 53577 из SEQ ID NO:1. Такие способы могут привести, например, к гену B4GALT1, который содержит нуклеотидную последовательность, кодирующую серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида, полученного из него. Примеры экзогенных донорных последовательностей раскрыты в другом месте данного документа.
Например, целевые генетические модификации эндогенного гена B4GALT1 в геноме могут быть получены путем контакта клетки или генома клетки с белком Cas и одной или большим количеством направляющими РНК, которые гибридизуются с одной или большим количеством последовательностями распознаваемыми направляющей РНК в целевом геномном локусе в эндогенном гене B4GALT1. Например, такие способы могут включать приведение клетки в контакт с белком Cas и направляющей РНК, которая гибридизуется с последовательностью, распознаваемой направляющей РНК, в эндогенном гене B4GALT1. В некоторых вариантах осуществления последовательность, распознаваемая направляющей РНК, расположена в области, соответствующей экзону 5 SEQ ID NO:1. В некоторых вариантах осуществления последовательность, распознаваемая направляющей РНК, может включать или находиться вблизи положения, соответствующего положениям с 53575 по 53577 последовательности SEQ ID NO:1. Например, последовательность, распознаваемая направляющей РНК, может находиться в пределах около 1000, в пределах около 500, в пределах около 400, в пределах около 300, в пределах около 200, в пределах около 100, в пределах около 50, в пределах около 45, в пределах около 40, в пределах около 35, в пределах около 30, в пределах около 25, в пределах около 20, в пределах около 15, в пределах около 10 или в пределах около 5 нуклеотидов от положения, соответствующего положениям с 53575 по 53577 из SEQ ID NO:1. В качестве еще одного примера, последовательность, распознаваемая направляющей РНК, может включать или быть близкой к стартовому кодону эндогенного гена B4GALT1 или стоп-кодону эндогенного гена B4GALT1. Например, последовательность, распознаваемая направляющей РНК, может находиться в пределах около 10, в пределах около 20, в пределах около 30, в пределах около 40, в пределах около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500, или в пределах около 1000 нуклеотидов от старт-кодона или стоп-кодона. Белок Cas и направляющая РНК образуют комплекс, а белок Cas расщепляет последовательность распознаваемую направляющей РНК. Расщепление белком Cas может привести к двухцепочечным или одноцепочечным разрывам (например, если белок Cas является никазой). Такие методы могут привести, например, к эндогенному гену B4GALT1, в котором нарушена область, соответствующая экзону 5 SEQ ID NO:1, нарушен стартовый кодон, нарушен стоп-кодон или кодирующая последовательность удалена. Примеры и варианты белков Cas (например, Cas9) и направляющих РНК, которые можно использовать в способах, описаны в другом месте данного документа.
В некоторых вариантах осуществления могут быть использованы два или более нуклеазных агента. Например, могут быть использованы два нуклеазных агента, каждый из которых направлен на последовательность распознаваемую нуклеазой в области, соответствующей экзону 5 SEQ ID NO:1, или включает положение или близко к положению, соответствующему положениям с 53575 по 53577 из SEQ ID NO:1 (например, в пределах около 1000, в пределах около 500, в пределах около 400, в пределах около 300, в пределах около 200, в пределах около 100, в пределах около 50, в пределах около 45, в пределах около 40, в пределах около 35, в пределах около 30, в пределах около 25, в пределах около 20, в пределах около 15, в пределах около 10 или в пределах около 5 нуклеотидов в положениях, соответствующих положениям с 53575 по 53577 из SEQ ID NO:1). В качестве другого примера можно использовать два или более нуклеазных агента, каждый из которых направлен на последовательность распознаваемую нуклеазой, включающую или расположенную близко к стартовому кодону. В качестве другого примера можно использовать два нуклеазных агента, один из которых направлен на последовательность распознаваемую нуклеазой, включающую или находящуюся близко к стартовому кодону, а другой направлен на последовательность распознаваемую нуклеазой, включающую или расположенную рядом со стоп-кодоном, при этом расщепление нуклеазными агентами может привести к делеции кодирующей области между двумя последовательностями распознаваемыми нуклеазой. В качестве еще одного примера можно использовать три или более нуклеазных агента, с одной или большим количеством (например, двумя) нацеливающими последовательностями распознаваемыми нуклеазой, включающими или расположенными близко к стартовому кодону, и одной или большим количеством (например, двумя) нацеливающими последовательностями распознаваемыми нуклеазой, включающими или находящимся вблизи стоп-кодона, при этом расщепление нуклеазными агентами может привести к делеции кодирующей области между последовательностью распознаваемой нуклеазой, включающей или находящейся вблизи к стартовому кодону, и последовательностью распознаваемой нуклеазой, включающей или расположенной рядом со стоп-кодоном.
В некоторых вариантах осуществления клетка может быть дополнительно приведена в контакт с одной или большим количеством дополнительными направляющими РНК, которые гибридизуются с дополнительными последовательностями распознаваемыми направляющими РНК в целевом геномном локусе в эндогенном гене B4GALT1. При контакте клетки с одной или большим количеством дополнительными направляющими РНК (например, со второй направляющей РНК, которая гибридизуется со второй последовательностью, распознаваемой направляющей РНК), расщепление белком Cas может создать два или более двухцепочечных разрывов или два или более одноцепочечных разрывов (например, если белок Cas является никазой).
В некоторых вариантах осуществления клетка может быть дополнительно приведена в контакт с одной или большим количеством экзогенных донорных последовательностей, которые рекомбинируют с целевым геномным локусом в эндогенном гене B4GALT1 для генерации целевой генетической модификации. Примеры и варианты последовательностей экзогенных доноров, которые можно использовать в указанных способах, раскрыты в другом месте данного документа.
Белок Cas, направляющая(ие) РНК и экзогенная(ые) донорная(ые) последовательность(и) могут быть введены в клетку в любой форме и любым способом, как описано в другом месте данного документа, и весь или некоторые из белка Cas, направляющей(их) РНК, и экзогенной(ых) донорная(ых) последовательность(ей) можгут быть введены одновременно или последовательно в любой комбинации.
В некоторых вариантах осуществления репарация целевой нуклеиновой кислоты (например, эндогенного гена B4GALT1) экзогенной донорной последовательностью происходит посредством гомологически направленной репарации (HDR). Гомологически направленная репарация может происходить, когда белок Cas расщепляет обе цепи ДНК в эндогенном гене B4GALT1 для создания двухцепочечного разрыва, когда белок Cas является никазой, которая расщепляет одну цепь ДНК в целевой нуклеиновой кислоте для создания одноцепочечного разрыва, или когда используются никазы Cas для создания двухцепочечного разрыва, образованного двумя смещенными никами. В таких способах экзогенная донорная последовательность содержит 5' и 3' гомологичные группы, соответствующие 5' и 3' последовательностям-мишеням. Последовательность(и) распознаваемой(ые) направляющей(ими) РНК или сайт(ы) расщепления могут быть смежными с 5'-последовательностью-мишенью, смежными с 3'-последовательностью-мишенью, смежными как с 5'-последовательностью-мишенью, так и с 3'-последовательностью-мишенью, или не находится рядом ни с 5'-последовательностью-мишенью, ни с 3'-последовательностью-мишенью. В некоторых вариантах осуществления экзогенная донорная последовательность может дополнительно включать вставку нуклеиновой кислоты, фланкированную 5' и 3' плечами гомологии, и вставку нуклеиновой кислоты вставленую между 5' и 3'-последовательностями-мишенями. Если вставка нуклеиновой кислоты отсутствует, экзогенная донорная последовательность может функционировать для удаления геномной последовательности между 5' и 3'-последовательностями-мишенями. Примеры экзогенных донорных последовательностей раскрыты в другом месте данного документа.
С другой стороны, репарация эндогенного гена B4GALT1, опосредованного экзогенной донорной последовательностью, может происходить посредством лигирования, опосредованного негомологичным присоединением концов (NHEJ). В таких способах, по меньшей мере, один конец последовательности экзогенного донора содержит короткую одноцепочечную область, которая комплементарна, по меньшей мере, одному выступу (overhang), созданному посредством Cas-опосредованного расщепления в эндогенном гене B4GALT1. Комплементарный конец в последовательности экзогенного донора может фланкировать вставку нуклеиновой кислоты. Например, каждый конец экзогенной донорной последовательности может содержать короткую одноцепочечную область, которая комплементарна выступу (overhang), созданному Cas-опосредованным расщеплением в эндогенном гене B4GALT1, и эти комплементарные области в экзогенной последовательности донора могут фланкировать вставки нуклеиновой кислоты.
Выступы (т.е. липкие концы) могут быть созданы путем резекции тупых концов двухцепочечного разрыва, созданного Cas-опосредованным расщеплением. Такая резекция может генерировать области микрогомологии, необходимые для соединения фрагментов, но это может создавать нежелательные или неконтролируемые изменения в гене B4GALT1. С другой стороны, такие выступы могут быть созданы с помощью парных ников Cas. Например, клетка может связываться с первой и второй никазами, которые расщепляют противоположные цепи ДНК, в результате чего геном модифицируется посредством двойного надреза. Это может быть достигнуто путем контакта клетки с первой никазой белка Cas, первой направляющей РНК, которая гибридизуется с первой последовательностью, распознаваемой направляющей РНК, в целевом геномном локусе в эндогенном гене B4GALT1, второй никазой белка Cas, и второй направляющая РНК, которая гибридизуется со второй последовательностью, распознаваемой направляющей РНК, в целевом геномном локусе в эндогенном гене B4GALT1. Первый белок Cas и первая направляющая РНК образуют первый комплекс, а второй белок Cas и вторая направляющая РНК образуют второй комплекс. Первая никаза с белком Cas расщепляет первую цепь геномной ДНК в первой последовательности, распознаваемой направляющей РНК, вторая никаза белка Cas расщепляет вторую цепь геномной ДНК во второй последовательности, распознаваемой направляющей РНК, и, необязательно, экзогенная донорная последовательность рекомбинирует с геномным локусом-мишенью в эндогенном гене B4GALT1 для генерации целевой генетической модификации.
Первая никаза может расщеплять первую цепь геномной ДНК (т.е. комплементарную цепь), а вторая никаза может расщеплять вторую цепь геномной ДНК (то есть некомплементарную цепь). Первую и вторую никазы можно создать, например, путем мутации каталитического остатка в домене RuvC (например, мутации D10A, описанной в другом месте в данном документе) Cas9 или мутации каталитического остатка в домене HNH (например, мутации H840A, описанной в другом месте в данном документе) из Cas9. В таких способах двойное надрезание может быть использовано для создания двухцепочечного разрыва, имеющего ступенчатые концы (т.е. выступы). Первую и вторую последовательности, распознаваемые направляющими РНК, можно расположить так, чтобы создать сайт расщепления таким образом, чтобы ники, созданные первыми и вторыми никазами на первой и второй цепях ДНК, создавали двухцепочечный разрыв. Выступы создаются, когда разрезы в первой и второй последовательностях распознаваемых РНК CRISPR смещены. Окно смещения может составлять, например, по меньшей мере, около 5 п.н., по меньшей мере, около 10 п.н., по меньшей мере, около 20 п.н., по меньшей мере, около 30 п.н., по меньшей мере, около 40 п.н., по меньшей мере, около 50 п.н., по меньшей мере, около 60 п.н., по меньшей мере, около 70 п.н., по меньшей мере, около 80 п.н., по меньшей мере, около 90 п.н., по меньшей мере, около 100 п.н. или более. См., например, Ran et al., Cell, 2013, 154, 1380-1389; Mali et al., Nat. Biotech., 213, 31, 833-838; и Shen et al., Nat. Methods, 2014, 11, 399-404.
Различные типы целевых генетических модификаций могут быть введены с использованием способов, описанных в данном документе. Такие целевые модификации могут включать, например, добавления одного или более нуклеотидов, делеции одного или более нуклеотидов, замены одного или более нуклеотидов, точечную мутацию или их комбинацию. Например, по меньшей мере, 1, по меньшей мере, 2, по меньшей мере, 3, по меньшей мере, 4, по меньшей мере, 5, по меньшей мере, 7, по меньшей мере, 8, по меньшей мере, 8, по меньшей мере, 9 или, по меньшей мере, 10 или более нуклеотидов могут быть изменены (например, удалены, вставленны или замещенны) для формирования целевой геномной модификации.
Такие целевые генетические модификации могут привести к нарушению целевого геномного локуса. Нарушение может включать в себя изменение регуляторного элемента (например, промотора или энхансера), миссенс-мутацию, нонсенс-мутацию, мутацию сдвига рамки, мутацию усечения, нулевую мутацию или вставку или делеция небольшого количества нуклеотидов (например, вызывая мутацию сдвига рамки), и это может привести к инактивации (т.е. потере функции) или потере аллеля. Например, целевая модификация может включать разрушение стартового кодона эндогенного гена B4GALT1, так что стартовый кодон больше не функционирует.
В некоторых вариантах осуществления целевая модификация может включать делецию между первой и второй последовательностями распознаваемыми направляющей РНК или сайтами расщепления Cas. Если используется экзогенная донорная последовательность (например, репарационная матрица или направляющий вектор), модификация может включать делецию между первой и второй последовательностями распознаваемыми направляющими РНК или сайтами расщепления Cas, а также вставку нуклеиновой кислоты между 5' и 3' целевой последовательности.
В некоторых вариантах осуществления, если используется экзогенная донорная последовательность, одна или в сочетании с нуклеазным агентом, модификация может включать делецию между 5' и 3' последовательностями-мишенями, а также вставку нуклеиновой кислоты между 5' и 3' последовательностями-мишенями в паре первой и второй гомологичных хромосом, что приводит к гомозиготному модифицированному геному. С другой стороны, если экзогенная донорная последовательность содержит 5' и 3' плечи гомологии без вставки нуклеиновой кислоты, модификация может включать делецию между 5' и 3' последовательностями-мишенями.
Делеция между первой и второй последовательностями распознаваемыми направляющей РНК или делеция между 5' и 3' последовательностями-мишенями может быть точной делецией, в которой удаленная нуклеиновая кислота состоит только из последовательности нуклеиновой кислоты между первым и вторым сайтом расщепления нуклеазы или только последовательности нуклеиновой кислоты между 5' и 3' последовательностями-мишенями, так что в модифицированном геномном локусе-мишени нет дополнительных удалений или вставок. Делеция между первой и второй последовательностями распознаваемыми направляющей РНК может также быть неточным удалением, простирающимся за пределы первого и второго сайтов расщепления нуклеазой, что согласуется с неточным восстановлением с помощью негомологичного присоединения концов (NHEJ), что приводит к дополнительным делециям и/или вставкам в модифицированном геномном локусе. Например, делеция может составлять около 1 п.н., около 2 п.н., около 3 п.н., около 4 п.н., около 5 п.н., около 10 п.н., около 20 п.н., около 30 п.н., около 40 п.н., около 50 п.н., около 100 около 200 п.н., около 300 п.н., около 400 п.н., около 500 п.н. Аналогичным образом, модифицированный геномный локус может содержать дополнительные вставки, согласующиеся с неточным восстановлением NHEJ, такие как вставки около 1 п.н., около 2 п.н., около 3 п.н., около 4 п.н., около 5 п.н., около 10 п.н., около 20 п.н., около 30, около 40, около 50, около 100, около 200, около 300, около 400, около 500 или более.
Целевой генетической модификацией может быть, например, двуаллельная модификация или моноаллельная модификация. Двуаллельные модификации включают события, в которых одна и та же модификация вносится в один и тот же локус в соответствующих гомологичных хромосомах (например, в диплоидной клетке), или когда разные модификации вносятся в один и тот же локус в соответствующих гомологичных хромосомах. В некоторых вариантах осуществления целевая генетическая модификация представляет собой моноаллельную модификацию. Моноаллельная модификация включает события, в которых модификация сделана только для одного аллеля (то есть модификация эндогенного гена B4GALT1 только в одной из двух гомологичных хромосом). Гомологичные хромосомы включают в себя хромосомы, которые имеют одинаковые гены в тех же локусах, но, возможно, разные аллели (например, хромосомы, которые спарены во время мейоза).
Моноаллельная мутация может привести к гетерозиготной клетке по целевой модификации B4GALT1. Гетерозиготность включает ситуацию, в которой только один аллель гена B4GALT1 (то есть соответствующие аллели на обеих гомологичных хромосомах) имеют целевую модификацию.
Двуаллельная модификация может привести к гомозиготности по целевой модификации. Гомозиготность включает ситуации, в которых оба аллеля гена B4GALT1 (то есть соответствующие аллели на обеих гомологичных хромосомах) имеют направленную модификацию. Альтернативно, двуаллельная модификация может приводить к сложной гетерозиготности (например, гемизиготности) для целевой модификации. Сложная гетерозиготность включает ситуации, в которых оба аллеля локуса-мишени (т.е. аллели на обеих гомологичных хромосомах) были модифицированы, но они были модифицированы различными способами (например, целевая модификация в одном аллеле и инактивация или разрушение другого аллеля).
Раскрытые в данном документе способы могут дополнительно включать идентификацию клетки, имеющей модифицированный ген B4GALT1. Различные методы могут быть использованы для идентификации клеток, имеющих целевую генетическую модификацию, такую как делеция или вставка. Такие способы могут включать идентификацию одной клетки, имеющей целевую генетическую модификацию в гене B4GALT1. Скрининг может быть выполнен для идентификации таких клеток с модифицированными геномными локусами. Этап скрининга может включать количественный анализ для оценки модификации аллеля (MOA-modification of allele) (например, анализы потери аллеля (LOA - loss-of-allele) и/или усиления аллеля (GOA - gain-of-allele)) родительской хромосомы.
Другие примеры подходящих количественных анализов включают флуоресцентно-опосредованную гибридизацию in situ (FISH- fluorescence in situ hybridization), сравнительную геномную гибридизацию, изотермическую амплификацию ДНК, количественную гибридизацию с иммобилизованным зондом(ами), зонды INVADER®, зонды TAQMAN® Molecular Beacon или Технологию зондов ECLIPSE™. Обычные анализы для скрининга на целевые модификации, такие как ПЦР протяженных участков, Саузерн-блоттинг или секвенирование Сэнгера, также могут быть использованы. Такие анализы обычно используются для получения доказательств связи между встроенным нацеливающим вектором и целевым геномным локусом. Например, для анализа ПЦР протяженных участков один праймер может распознавать последовательность внутри вставленной ДНК, в то время как другой распознает последовательность локуса генома-мишени за пределами концов плеч гомологии целевого вектора.
Секвенирование следующего поколения (NGS - next generation sequencing) также можно использовать для скрининга. Секвенирование следующего поколения также может называться «NGS» или «массивно-параллельная последовательность» или «высокопроизводительная последовательность». В некоторых вариантах осуществления нет необходимости проводить скрининг на целевые клетки с использованием маркеров выбора. Например, на анализы MOA и NGS, описанные в данном документе, можно положиться, не используя кассеты селекции.
Данное раскрытие также предоставляет способы изменения экспрессии нуклеиновых кислот, кодирующих полипептиды B4GALT1. В некоторых вариантах осуществления экспрессия изменяется посредством расщепления нуклеазным агентом, чтобы вызвать разрушение нуклеиновой кислоты, кодирующей эндогенный полипептид B4GALT1, как описано более подробно в другом месте данного документа. В некоторых вариантах осуществления экспрессия изменяется посредством использования ДНК-связывающего белка, слитого или связанного с доменом активации транскрипции или доменом репрессии транскрипции. В некоторых вариантах осуществления экспрессия изменяется посредством использования интерференционных композиций РНК, таких как антисмысловая РНК, кшРНК или siRNA.
В некоторых вариантах осуществления экспрессию эндогенного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1, можно модифицировать путем контакта клетки или генома в клетке с нуклеазным агентом, который индуцирует один или более ников или дважды разрывы цепи в распознаваемой последовательности в целевом геномном локусе внутри эндогенного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1. Такое расщепление может привести к нарушению экспрессии эндогенного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1. Например, последовательность распознаваемая нуклеазой может включать или быть ближайшей к стартовому кодону эндогенного гена B4GALT1. Например, распознаваемая последовательность может находиться в пределах около 10, в пределах около 20, в пределах около 30, в пределах около 40, в пределах около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500 или в пределах около 1000 нуклеотидов от стартового кодона, и расщепление нуклеазным агентом может нарушить стартовый кодон. В некоторых вариантах осуществления могут быть использованы два или более нуклеазных агента, каждый из которых направлен на последовательность распознаваемую нуклеазой, включающую или расположенную близко к стартовому кодону. В некоторых вариантах осуществления могут быть использованы два нуклеазных агента, один из которых направлен на последовательность распознаваемую нуклеазой, включающую в себя или расположенную близко к стартовому кодону, а другой направлен на последовательность распознаваемую нуклеазой, включающую или соседствующую со стоп-кодоном, при этом расщепление нуклеазными агентами может привести к делеции кодирующей области между двумя последовательностями распознаваемыми нуклеазами. В некоторых вариантах осуществления могут быть использованы три или более нуклеазных агента с одной или большим количеством (например, двумя) нацеливающими последовательностями распознаваемыми нуклеазами, включающими или расположенными близко к стартовому кодону, и одной или большим количеством (например, двумя) целивыми последовательностями распознаваемыми нуклеазами, включающими или близкими к стоп-кодону, при этом расщепление нуклеазными агентами может привести к делеции кодирующей области между последовательностями распознаваемыми нуклеазами, включающими или близкими к стартовому кодону, и последовательностью распознаваемой нуклеазой, включающей или расположенной рядом со стоп-кодоном. Другие примеры модификации эндогенного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1, раскрыты в данном документе в другом месте.
В некоторых вариантах осуществления экспрессия эндогенного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1, может быть модифицирована путем контакта клетки или генома в клетке с ДНК-связывающим белком, который связывается с целевым геномным локусом внутри эндогенного гена B4GALT1. ДНК-связывающий белок может представлять собой, например, нуклеазо-неактивный белок Cas, слитый с доменом активатора транскрипции или доменом репрессора транскрипции. Другие примеры ДНК-связывающих белков включают белки цинкового пальца, слитые с доменом активатора транскрипции или доменом репрессора транскрипции, или белки, подобные активатору транскрипции (TALE), слитые с доменом активатора транскрипции или доменом репрессора транскрипции. Примеры таких белков раскрыты в данном документе в другом месте.
Распознаваемая ДНК-связывающим белком последовательность (например, последовательность, распознаваемая направляющей РНК) может находиться в любом месте эндогенного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1, подходящий для изменения экспрессии. В некоторых вариантах осуществления распознаваемая последовательность может находиться в регуляторном элементе, таком как энхансер или промотор, или может находиться в непосредственной близости от регуляторного элемента. Например, распознаваемая последовательность может включать или быть близкой к стартовому кодону эндогенного гена B4GALT1. В некоторых вариантах осуществления распознаваемая последовательность может находиться в пределах около 10, около 20, около 30, около 40, около 50, около 100, около 200, около 300, около 400, около 500 или в пределах около 1000 нуклеотидов стартового кодона.
В некоторых вариантах осуществления антисмысловые молекулы могут быть использованы для изменения экспрессии эндогенного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1. Примеры антисмысловых молекул включают, но не ограничиваются ими, антисмысловые РНК, миРНК и кшРНК. Такие антисмысловые РНК, миРНК или кшРНК могут быть предназначены для нацеливания на любой участок мРНК. Например, антисмысловые РНК, миРНК или кшРНК могут быть сконструированы для нацеливания на область, уникальную для мРНК B4GALT1.
Описанные в данном документе нуклеиновые кислоты и белки могут быть введены в клетку любым способом. В некоторых вариантах осуществления введение может осуществляться любым способом, и один или более компонентов (например, два компонента или все компоненты) могут быть введены в клетку одновременно или последовательно в любой комбинации. Например, экзогенная донорная последовательность может быть введена до введения нуклеазного агента, или она может быть введена после введения нуклеазного агента (например, экзогенная донорная последовательность может быть введена около 1, около 2, около 3, около 4 (около 8, около 12, около 24, около 36, около 48 или около 72 часов до или после введения нуклеазного агента). Приведение генома клетки в контакт с нуклеазным агентом или последовательностью экзогенного донора может включать введение одного или более нуклеазных агентов или нуклеиновых кислот, кодирующих нуклеазные агенты (например, один или более белков Cas или нуклеиновых кислот, кодирующих один или более белков Cas, и один или более направляющие РНК или нуклеиновые кислоты, кодирующие одну или более направляющих РНК (т.е. одну или более РНК CRISPR и одну или более тракрРНК)) и/или одну или более экзогенных донорных последовательностей в клетку. Контакт с геномом клетки (т.е. контакт с клеткой) может включать введение в клетку только одного из вышеуказанных компонентов, одного или более компонентов или всех компонентов.
Нуклеазный агент может быть введен в клетку в форме белка или в форме нуклеиновой кислоты, кодирующей нуклеазный агент, такой как РНК (например, мессенджер РНК (мРНК)) или ДНК. При введении в форме ДНК она может быть функционально связана с активным в клетке промотором. Такие ДНК могут находиться в одной или более конструкциях экспрессии.
В некоторых вариантах осуществления белок Cas может быть введен в клетку в форме белка, такого как белок Cas, образующий комплекс с нРНК, или в форме нуклеиновой кислоты, кодирующей белок Cas, такой как РНК (например, мессенджер РНК (мРНК)) или ДНК. Направляющая РНК может быть введена в клетку в форме РНК или в форме ДНК, кодирующей направляющую РНК. При введении в форме ДНК ДНК, кодирующая белок Cas и/или направляющую РНК, может быть функционально связана с активным в клетке промотором. Такие ДНК могут находиться в одной или более конструкциях экспрессии. Например, такие экспрессирующие конструкции могут быть компонентами одной молекулы нуклеиновой кислоты. Альтернативно, они могут быть разделены в любой комбинации между двумя или более молекулами нуклеиновой кислоты (то есть ДНК, кодирующие одну или более РНК CRISPR, ДНК, кодирующие одну или более тракрРНК, и ДНК, кодирующая белок Cas, могут быть компонентами отдельных молекул нуклеиновой кислоты).
В некоторых вариантах осуществления ДНК, кодирующая нуклеазный агент (например, белок Cas и направляющую РНК), и/или ДНК, кодирующая экзогенную донорную последовательность, может быть введена в клетку через мини-циркулярную ДНК. Мини-циркулярная ДНК представляет собой суперскрученные молекулы ДНК, которые можно использовать для невирусного переноса генов, которые не имеют ни источника репликации, ни маркера отбора антибиотиков. Таким образом, мини- циркулярная ДНК обычно меньше по размеру, чем плазмидный вектор. Эти ДНК лишены бактериальной ДНК и, следовательно, лишены неметилированных мотивов CpG, обнаруженных в бактериальной ДНК.
Способы, описанные в данном документе, не зависят от конкретного способа введения нуклеиновой кислоты или белка в клетку, при этом нуклеиновая кислота или белок получает доступ внутрь, по меньшей мере, одной клетки. Способы введения нуклеиновых кислот и белков в клетки различных типов известны и включают, но не ограничиваются ими, методы стабильной трансфекции, методы временной трансфекции и методы, опосредованные вирусом.
Протоколы трансфекции, а также протоколы введения нуклеиновых кислот или белков в клетки могут различаться. Неограничивающие способы трансфекции включают химические способы трансфекции с использованием липосом, наночастиц, кальция, дендримеров и катионных полимеров, таких как DEAE-декстран или полиэтиленимин. Нехимические методы включают электропорацию, сонопорацию и оптическую трансфекцию. Трансфекция на основе частиц включает использование генной пушки или магнитную трансфекцию. Вирусные методы также могут быть использованы для трансфекции.
Введение нуклеиновых кислот или белков в клетку также может быть опосредовано электропорацией, внутрицитоплазматической инъекцией, вирусной инфекцией, аденовирусом, аденоассоциированным вирусом, лентивирусом, ретровирусом, трансфекцией, липид-опосредованной трансфекцией или путем nucleofection. Нуклеофекция - это усовершенствованная технология электропорации, которая позволяет доставлять субстраты нуклеиновых кислот не только в цитоплазму, но и через ядерную мембрану и в ядро. Кроме того, использование нуклеофекции в раскрытых в данном документе способах обычно требует гораздо меньше клеток, чем обычная электропорация (например, только около 2 миллионов по сравнению с 7 миллионами при обычной электропорации). В некоторых вариантах осуществления нуклеофекция выполняется с использованием системы LONZA® NUCLEOFECTOR™.
Введение нуклеиновых кислот или белков в клетку также может быть осуществлено путем микроинъекции. Микроинъекция мРНК обычно происходит в цитоплазму (например, для доставки мРНК непосредственно в механизм трансляции), тогда как микроинъекция белка или ДНК, кодирующей ДНК, кодирующую белок Cas, обычно происходит в ядро. Альтернативно, микроинъекция может быть осуществлена путем инъекции как в ядро, так и в цитоплазму: сначала можно ввести иглу в ядро, и можно ввести первое количество, и, удаляя иглу из клетки, можно ввести второе количество в цитоплазму. Если белок нуклеазного агента вводится в цитоплазму, белок может содержать сигнал ядерной локализации для обеспечения доставки в ядро/пронуклеус.
Другие способы введения нуклеиновой кислоты или белков в клетку могут включать, например, векторную доставку, опосредованную частицами доставку, опосредованную экзосомами доставку, опосредованную липидными наночастицами доставку, опосредованную проникновением в клетку пептидную доставку или доставку опосредованную имплантируемым устройством. Способы введения нуклеиновых кислот или белков субъекту для модификации клеток in vivo раскрыты в другом месте данного документа. Введение нуклеиновых кислот и белков в клетки также может быть достигнуто путем гидродинамической доставки (HDD - hydrodynamic delivery).
Другие способы введения нуклеиновой кислоты или белков в клетку могут включать, например, векторную доставку, опосредованную частицами доставку, опосредованную экзосомами доставку, опосредованную липидными наночастицами доставку, опосредованную проникновением в клетку пептидную доставку или доставку опосредованную имплантируемым устройством. В некоторых вариантах осуществления нуклеиновую кислоту или белок можно вводить в клетку в носителе, таком как микросфера поли (молочной кислоты) (PLA), микросфера поли (D, L-молочная-когликолевой кислоты) (PLGA), липосома, мицелла, обратная мицелла, липидный кохлеат или липидная микротрубочка.
Введение нуклеиновых кислот или белков в клетку может быть выполнено один раз или более раз за период времени. В некоторых вариантах осуществления введение может выполняться, по меньшей мере, два раза в течение периода времени, по меньшей мере, три раза в течение периода времени, по меньшей мере, четыре раза в течение периода времени, по меньшей мере, пять раз в течение периода времени, по меньшей мере, шесть раз в течение периода времени, по меньшей мере, семь раз в течение периода времени, по меньшей мере, восемь раз в течение периода времени, по меньшей мере, девять раз в течение периода времени, по меньшей мере, десять раз в течение периода времени, в, по меньшей мере, одиннадцать раз, по меньшей мере, двенадцать раз в период времени, по меньшей мере, тринадцать раз в период времени, по меньшей мере, четырнадцать раз в период времени, по меньшей мере, пятнадцать раз в период времени, по меньшей мере, шестнадцать раз в период период времени, по меньшей мере, семнадцать раз в период времени, по меньшей мере, восемнадцать раз в период времени, по меньшей мере, девятнадцать раз в период времени или, по меньшей мере, двадцать раз в период времени.
В некоторых вариантах осуществления клетки, используемые в способах и композициях, имеют конструкцию ДНК, стабильно включенную в их геном. В таких случаях приведение в контакт может включать обеспечение клетки конструкцией, уже стабильно включенной в ее геном. В некоторых вариантах осуществления клетка, используемая в способах, раскрытых в данном документе, может иметь ранее существующий Cas-кодирующий ген, стабильно включенный в свой геном (то есть, Cas-готовую клетку). В некоторых вариантах осуществления полинуклеотид интегрируется в геном клетки и способен наследоваться его потомством. Любой протокол может быть использован для стабильного включения конструкций ДНК или различных компонентов целевой системы геномной интеграции.
Любой нуклеазный агент, который вызывает разрыв-ник или двухцепочечный разрыв в желаемой распознаваемой последовательности, или любой ДНК-связывающий белок, который связывается с желаемой распознаваемой последовательностью, можно использовать в способах и композициях, раскрытых в данном документе. Природный или нативный нуклеазный агент можно использовать при условии, что нуклеазный агент вызывает разрыв или двухцепочечный разрыв в желаемой распознаваемой последовательности. Аналогично, природный или нативный ДНК-связывающий белок может быть использован при условии, что ДНК-связывающий белок связывается с желаемой распознаваемой последовательностью. Альтернативно, можно использовать модифицированный или сконструированный нуклеазный агент или ДНК-связывающий белок. Инженерный нуклеазный агент или ДНК-связывающий белок может быть получен из нативного, встречающегося в природе нуклеазного агента или ДНК-связывающего белка, или он может быть искусственно создан или синтезирован. Сконструированный нуклеазный агент или ДНК-связывающий белок может распознавать распознаваемую последовательность, например, при этом распознаваемая последовательность не является последовательностью, которая была бы распознана нативным (не сконструированным или немодифицированным) нуклеазным агентом или ДНК-связывающим белком. Модификация нуклеазного агента или ДНК-связывающего белка может включать всего одну аминокислоту в агенте расщепляющего белка или один нуклеотид в агенте расщепляющей нуклеиновой кислоты.
Распознаваемые последовательности для нуклеазного агента включают последовательность ДНК, при которой нуклеазный агент индуцирует разрыв ника или двухцепочечной цепи. Аналогично, распознаваемые последовательности для ДНК-связывающего белка включают последовательность ДНК, с которой будет связываться ДНК-связывающий белок. Распознаваемая последовательность может быть эндогенной (или нативной) для клетки, или распознаваемая последовательность может быть экзогенной для клетки. Распознаваемая последовательность также может быть экзогенной по отношению к интересующим полинуклеотидам, которые желательно позиционировать в локусе-мишени. В некоторых вариантах осуществления распознаваемая последовательность присутствует только один раз в геноме клетки-хозяина.
Также представлены активные варианты и фрагменты приведенных в качестве примера распознаваемых последовательностей. Такие активные варианты могут составлять, по меньшей мере, 65%, по меньшей мере, 70%, по меньшей мере, 75%, по меньшей мере, 80%, по меньшей мере, 85%, по меньшей мере, 90%, по меньшей мере, 91%, по меньшей мере, 92%, по меньшей мере, 93%, по меньшей мере, 94%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98% или, по меньшей мере, 99% или 100% идентичности последовательности с данной распознаваемой последовательностью, при этом активные варианты сохраняют биологическую активность и пригодны для распознавания и расщепления нуклеазным агентом специфичным/зависимым от последовательности образом. Известны анализы для измерения двухцепочечного разрыва распознаваемой последовательности с помощью нуклеазного агента (например, анализ qPCR TAQMAN®, Frendewey et al., Methods in Enzymology, 2010, 476, 295-307).
Длина распознаваемой последовательности может варьироваться и включает, например, распознаваемые последовательности, которые составляют от около 30 до около 36 п.н. для пары белка цинкового пальца или нуклеазы цинкового пальца (ZFN) (то есть от около 15 до около 18 п.н. каждый ZFN), около 36 п.н. для белка TALE или эффекторной нуклеазы, подобной активатору транскрипции (TALEN), или около 20 п.н. для РНК-направляющей CRISPR/Cas9.
Распознаваемая последовательность ДНК-связывающего белка или нуклеазного агента может быть расположена где угодно в или около целевого геномного локуса. Распознаваемая последовательность может быть расположена внутри кодирующей области гена (например, гена B4GALT1) или в регуляторных областях, которые влияют на экспрессию гена. Распознаваемая последовательность ДНК-связывающего белка или нуклеазного агента может быть расположена в интроне, экзоне, промоторе, энхансере, регуляторной области или любой небелковой кодирующей области.
Одним типом ДНК-связывающего белка, который можно использовать в различных способах и композициях, раскрытых в данном документе, является TALE. TALE может быть слит или связан, например, с доменом эпигенетической модификации, доменом активации транскрипции или доменом репрессора транскрипции. Примеры таких доменов описаны ниже в отношении белков Cas и также могут быть найдены, например, в публикации РСТ WO 2011/145121. Соответственно, один тип нуклеазного агента, который можно использовать в различных способах и композициях, раскрытых в данном документе, представляет собой ТАЛЕН. Эффекторные нуклеазы, подобные активатору транскрипции (TAL), представляют собой класс специфических для последовательности нуклеаз, которые можно использовать для двухцепочечных разрывов в определенных последовательностях-мишенях в геноме прокариотического или эукариотического организма. Эффекторные нуклеазы TAL получают путем слияния нативного или сконструированного эффектора TAL или его функциональной части с каталитическим доменом эндонуклеазы, такой как FokI. Уникальный, модульный TAL-эффекторный ДНК-связывающий домен позволяет создавать белки с потенциально любой специфичностью распознавания ДНК. Таким образом, ДНК-связывающие домены эффекторных нуклеаз TAL могут быть сконструированы так, чтобы распознавать специфические сайты-мишени ДНК, и, таким образом, использоваться для создания двухцепочечных разрывов в желаемых последовательностях-мишенях. Примеры подходящих нуклеаз TAL и способы получения подходящих нуклеаз TAL раскрыты, например, в публикациях заявки на патент США 2011/0239315; 2011/0269234; 2011/0145940; 2003/0232410; 2005/0208489; 2005/0026157; 2005/0064474; 2006/0188987; и 2006/0063231.
В некоторых TALEN каждый мономер TALEN содержит от около 33 до около 35 повторов TAL, которые распознают одну пару оснований через два гипервариабельных остатка. В некоторых TALEN нуклеиновым агентом является химерный белок, содержащий ДНК-связывающий домен на основе TAL-повтора, функционально связанный с независимой нуклеазой, такой как эндонуклеаза FokI. Например, нуклеазный агент может содержать первый ДНК-связывающий домен на основе повтора TAL и второй ДНК-связывающий домен на основе повтора TAL, где каждый из первого и второго ДНК-связывающих доменов на основе повтора TAL функционально связан с нуклеазу FokI, где первый и второй ДНК-связывающий домен на основе повтора TAL распознают две смежные последовательности ДНК-мишени в каждой цепи последовательности ДНК-мишени, разделенные спейсерной последовательностью различной длины (от около 12 до около 20 п.н.), и где субъединицы нуклеазы FokI димеризуются, чтобы создать активную нуклеазу, которая делает двойной разрыв цепи в последовательности-мишени.
Другим примером ДНК-связывающего белка является белок цинкового пальца. Такие белки цинкового пальца могут быть связаны или слиты, например, с доменом эпигенетической модификации, доменом активации транскрипции или доменом репрессора транскрипции. Примеры таких доменов описаны ниже в отношении белков Cas и также могут быть найдены, например, в публикации РСТ WO 2011/145121. Соответственно, другим примером нуклеазного агента, который можно использовать в различных способах и композициях, раскрытых в данном документе, является ZFN. В некоторых ZFN каждый мономер ZFN содержит три или более ДНК-связывающих домена на основе цинкового пальца, причем каждый ДНК-связывающий домен на основе цинкового пальца связывается с дочерним сайтом в 3 п.н. В других ZFN ZFN представляет собой химерный белок, содержащий ДНК-связывающий домен на основе цинкового пальца, функционально связанный с независимой нуклеазой, такой как эндонуклеаза FokI. Например, нуклеазный агент может содержать первую ZFN и вторую ZFN, где каждая из первой ZFN и второй ZFN функционально связана с субъединицей нуклеазы FokI, при этом первая и вторая ZFN распознают две смежные последовательности ДНК-мишени в каждой нить последовательности ДНК-мишени разделена спейсером от около 5 до около 7 п.н., причем субъединицы нуклеазы FokI димеризуются с образованием активной нуклеазы, которая приводит к разрыву двойной цепи.
Другие подходящие ДНК-связывающие белки и нуклеазные агенты для использования в способах и композициях, описанных в данном документе, включают системы CRISPR-Cas, которые описаны в другом месте в данном документе.
ДНК-связывающий белок или нуклеазный агент может быть введен в клетку любым известным способом. Полипептид, кодирующий ДНК-связывающий белок или нуклеазный агент, может быть непосредственно введен в клетку. Альтернативно, полинуклеотид, кодирующий ДНК-связывающий белок или нуклеазный агент, может быть введен в клетку. Когда полинуклеотид, кодирующий ДНК-связывающий белок или нуклеазный агент, вводится в клетку, ДНК-связывающий белок или нуклеазный агент может временно, условно или конститутивно экспрессироваться в клетке. Например, полинуклеотид, кодирующий ДНК-связывающий белок или нуклеазный агент, может содержаться в кассете экспрессии и быть функционально связанным с условным промотором, индуцибельным промотором, конститутивным промотором или тканеспецифичным промотором. Такие промоторы обсуждаются более подробно в другом месте данного документа. В некоторых вариантах осуществления ДНК-связывающий белок или нуклеазный агент может быть введен в клетку в виде мРНК, кодирующей ДНК-связывающий белок или нуклеазный агент.
Полинуклеотид, кодирующий ДНК-связывающий белок или нуклеазный агент, может быть стабильно интегрирован в геном клетки и функционально связан с активным в клетке промотором. Альтернативно, полинуклеотид, кодирующий ДНК-связывающий белок или нуклеазный агент, может находиться в нацеливающем векторе или в векторе или плазмиде, которая отделена от нацеливающего вектора, содержащего вставочный полинуклеотид.
Когда ДНК-связывающий белок или нуклеазный агент вводится в клетку путем введения полинуклеотида, кодирующего ДНК-связывающий белок или нуклеазный агент, такой полинуклеотид, кодирующий ДНК-связывающий белок или нуклеазный агент, может быть модифицирован для замены кодонов, имеющих более высокую частоту использования в интересующей клетке по сравнению с природной полинуклеотидной последовательностью, кодирующей ДНК-связывающий белок или нуклеазный агент. В некоторых вариантах осуществления полинуклеотид, кодирующий ДНК-связывающий белок или нуклеазный агент, может быть модифицирован для замены кодонов, имеющих более высокую частоту использования, в данной интересующей прокариотической или эукариотической клетке, включая бактериальную клетку, дрожжевую клетку, клетку человека, клетку не человека, клетку млекопитающего, клетку грызуна, клетку мыши, клетку крысы или любую другую интересующую клетку-хозяин по сравнению с природной полинуклеотидной последовательностью.
В описанных в данном документе способах могут использоваться короткие палиндромные повторы, регулярно расположенные группами (CRISPR)/CRISPR (Cas) или компоненты таких систем для модификации генома в клетке. Системы CRISPR-Cas включают в себя транскрипты и другие элементы, участвующие в экспрессии или управлении активностью генов Cas. Система CRISPR-Cas может быть системой типа I, типа II или типа III. Альтернативно, системой CRISPR/Cas может быть, например, система типа V (например, подтип VA или подтип VB). Способы и композиции, раскрытые в данном документе, могут использовать системы CRISPR-Cas с использованием комплексов CRISPR (содержащих направляющую РНК (нРНК) в комплексе с белком Cas) для сайт-направленного расщепления нуклеиновых кислот.
Системы CRISPR-Cas, используемые в описанных в данном документе способах, не встречаются в природе. Например, некоторые системы CRISPR-Cas используют не встречающиеся в природе комплексы CRISPR, содержащие нРНК и белок Cas, которые не встречаются в природе вместе.
Белки Cas обычно содержат, по меньшей мере, один домен распознавания или связывания РНК, который может взаимодействовать с направляющими РНК (нРНК, более подробно описанные ниже). Белки Cas также могут содержать нуклеазные домены (например, домены ДНКазы или РНКазы), ДНК-связывающие домены, геликазные домены, домены межбелкового взаимодействия, домены димеризации и другие домены. Нуклеазный домен обладает каталитической активностью в отношении расщепления нуклеиновой кислоты, которое включает разрыв ковалентных связей молекулы нуклеиновой кислоты. Расщепление может привести к тупым концам или в выступающим концам, и оно может быть одноцепочечным или двухцепочечным. Белок Cas9 дикого типа обычно создает тупой продукт расщепления. С другой стороны, белок Cpf1 дикого типа (например, FnCpf1) может приводить к продукту расщепления с 5'-нуклеотидным выступом, причем расщепление происходит после 18-й пары оснований из последовательности PAM на нецелевой цепи и после 23-й пары оснований в целевом участке. Белок Cas может обладать полной активностью расщепления для создания двухцепочечного разрыва в эндогенном гене B4GALT1 (например, двухцепочечного разрыва с тупыми концами), или это может быть никаза, которая создает ращепление одной цепи в эндогенном гене B4GALT1.
Примеры белков Cas включают, но не ограничиваются ими, Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas5e (CasD), Cas6, Cas6e, Cas6f, Cas7, Cas8a1, Cas8a2, Cas8b, Cas8c, Cas9 (Csn1 или Csx12), Cas10, Casl0d, CasF, CasG, CasH, Csy1, Csy2, Csy3, Cse1 (CasA), Cse2 (CasB), Cse3 (CasE), Cse4 (CasC), Csc1, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx15, Csf1, Csf2, Csf3, Csf4, и Cu1966, и их гомологи или модифицированные версии.
В некоторых вариантах осуществления белок Cas представляет собой белок Cas9 или происходит из белка Cas9 из системы CRISPR-Cas типа II. Белки Cas9 происходят из системы CRISPR-Cas типа II и обычно имеют четыре ключевых мотива с консервативной архитектурой. Мотивы 1, 2 и 4 являются RuvC-подобными мотивами, и мотив 3 является HNH мотивом. Типичные белки Cas9 включают, но не ограничиваются ими, те из Streptococcus pyogenes, Streptococcus thermophilus, Streptococcus sp., Staphylococcus aureus, Nocardiopsis dassonvillei, Streptomyces pristinaespiralis, Streptomyces viridochromogenes, Streptomyces viridochromogenes, Streptosporangium roseum, Streptosporangium roseum, Alicyclobacillus acidocaldarius, Bacillus pseudomycoides, Bacillus selenitireducens, Exiguobacterium sibiricum, Lactobacillus delbrueckii, Lactobacillus salivarius, Microscilla marina, Burkholderiales bacterium, Polaromonas naphthalenivorans, Polaromonas sp., Crocosphaera watsonii, Cyanothece sp., Microcystis aeruginosa, Synechococcus sp., Acetohalobium arabaticum, Ammonifex degensii, Caldicelulosiruptor becscii, Candidatus Desulforudis, Clostridium botulinum, Clostridium difficile, Finegoldia magna, Natranaerobius thermophilus, Pelotomaculum thermopropionicum, Acidithiobacillus caldus, Acidithiobacillus ferrooxidans, Allochromatium vinosum, Marinobacter sp., Nitrosococcus halophilus, Nitrosococcus watsoni, Pseudoalteromonas haloplanktis, Ktedonobacter racemifer, Methanohalobium evestigatum, Anabaena variabilis, Nodularia spumigena, Nostoc sp., Arthrospira maxima, Arthrospira platensis, Arthrospira sp., Lyngbya sp., Microcoleus chthonoplastes, Oscillatoria sp., Petrotoga mobilis, Thermosipho africanus, or Acaryochloris marina. Дополнительные примеры членов семейства Cas9 описаны в публикации РСТ WO 2014/131833. Cas9 из S. pyogenes (присвоенный регистрационный номер SwissProt Q99ZW2) представляет собой иллюстративный фермент. Cas9 от S. aureus (присвоенный регистрационный номер UniProt J7RUA5) представляет собой еще один иллюстративный фермент.
Другим примером белка Cas является белок Cpf1 (CRISPR от Prevotella и Francisella 1). Cpf1 представляет собой большой белок (около 1300 аминокислот), который содержит RuvC-подобный нуклеазный домен, гомологичный соответствующему домену Cas9, наряду с аналогом характерного богатого аргинином кластера Cas9. Однако в Cpf1 отсутствует нуклеазный домен HNH, который присутствует в белках Cas9, а RuvC-подобный домен является смежным в последовательности Cpf1, в отличие от Cas9, где он содержит длинные вставки, включая домен HNH. Типичные белки Cpf1 включают, но не ограничиваются ими, белки из Francisella tularensis 1, Francisella tularensis subsp. novicida, Prevotella albensis, Lachnospiraceae bacterium MC2017 1, Butyrivibrio proteoclasticus, Peregrinibacteria bacterium GW2011_GWA2_33_10, Parcubacteria bacterium GW2011_GWC2_44_17, Smithella sp. SCADC, Acidaminococcus sp. BV3L6, Lachnospiraceae bacterium MA2020, Candidatus Methanoplasma termitum, Eubacterium eligens, Moraxella bovoculi 237, Leptospira inadai, Lachnospiraceae bacterium ND2006, Porphyromonas crevioricanis 3, Prevotella disiens, and Porphyromonas macacae. Cpf1 from Francisella novicida U112 (FnCpf1; присвоенный номер доступа UniProt A0Q7Q2) является иллюстративным ферментом.
Белки Cas могут быть белками дикого типа (т.е. белками, встречающимися в природе), модифицированными белками Cas (то есть вариантами белков Cas) или фрагментами белков Cas или дикого типа. Белки Cas также могут быть активными вариантами или фрагментами белков Cas дикого типа или модифицированных. Активные варианты или фрагменты могут составлять, по меньшей мере, 80%, по меньшей мере, 85%, по меньшей мере, 90%, по меньшей мере, 91%, по меньшей мере, 92%, по меньшей мере, 93%, по меньшей мере, 94%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, или, по меньшей мере, 99% или 100% идентичности последовательности с диким типом или модифицированным белком Cas или его частью, при этом активные варианты сохраняют способность разрезать в желаемом сайте расщепления и, следовательно, сохраняют активность по индуцированию ников и двухцепочечных разрывов. Анализы на активность по индуцированию ников и двухцепочечных разрывов известны и обычно измеряют общую активность и специфичность белка Cas на ДНК-субстратах, содержащих сайт расщепления.
Белки Cas могут содержать, по меньшей мере, один нуклеазный домен, такой как ДНКазный домен. Например, белок Cpf1 дикого типа обычно содержит RuvC-подобный домен, который расщепляет обе цепи ДНК-мишени, возможно, в димерной конфигурации. Белки Cas могут содержать, по меньшей мере, два нуклеазных домена, таких как ДНКазные домены. Например, белок Cas9 дикого типа обычно содержит RuvC-подобный нуклеазный домен и HNH-подобный нуклеазный домен. Каждый из доменов RuvC и HNH может разрезать разные нити двухцепочечной ДНК, чтобы сделать двухцепочечный разрыв в ДНК.
Белки Cas (например, нуклеазоактивные белки Cas или нуклеазоактивные белки Cas) также могут быть функционально связаны с гетерологичными полипептидами в качестве белков слияния. Например, белок Cas может быть слит с доменом расщепления, доменом эпигенетической модификации, доменом активации транскрипции или доменом репрессора транскрипции. Примеры доменов активации транскрипции включают домен активации VP16 вируса простого герпеса, VP64 (который является тетрамерным производным VP16), домен активации NFκB p65, домены активации p53 1 и 2, домен активации CREB (белок, связывающий элемент ответа cAMP), домен активации E2A и домен активации NFAT (ядерный фактор активированных Т-клеток). Другие примеры включают, но не ограничиваются ими, домены активации из Oct1, Oct-2A, SP1, AP-2, CTF1, P300, CBP, PCAF, SRC1, PvALF, ERF-2, OsGAI, HALF-1, C1, AP1, ARF-5, ARF-6, ARF-7, ARF-8, CPRF1, CPRF4, MYC-RP/GP, TRAB1PC4, и HSF1 См., например, публикацию заявки на патент США 2016/0237456, европейский патент EP3045537 и публикацию PCT WO 2011/145121.
В некоторых вариантах осуществления может использоваться система активации транскрипции, содержащая слитый белок dCas9-VP64 в паре с MS2-p65-HSF1. Направляющие РНК в таких системах могут быть сконструированы с аптамерными последовательностями, присоединенными к тетра-петле енРНК и стволовой петле 2, предназначенным для связывания димеризованных белков оболочки бактериофага MS2. См., например, Konermann et al., Nature, 2015, 517, 583-588. Примеры доменов репрессоров транскрипции включают индуцибельные домены раннего репрессора цАМФ (ICER), домены репрессоров, связанные с Kruppel-box box A (KRAB-A), репрессоры доменов, богатых глицином YY1, Sp1-подобные репрессоры, E (spl) репрессоры, ΙκΒ репрессор и MeCP2, Другие примеры включают, но не ограничиваются ими, репрессорные транскрипционные домены из A/B, KOX, TGF-бета-индуцибельного раннего гена (TIEG - TGF-beta-inducible early gene), v-erbA, SID, SID4X, MBD2, MBD3, DNMT1, DNMG3A, DNMT3B, Rb, ROM2, см., например, европейский патент EP3045537 и публикацию PCT WO 2011/145121. Белки Cas также могут быть слиты с гетерологичным полипептидом, обеспечивающим повышенную или пониженную стабильность. Слитый домен или гетерологичный полипептид может быть расположен на N-конце, С-конце или внутри белка Cas.
Примером слитого белка Cas является белок Cas, слитый с гетерологичным полипептидом, который обеспечивает субклеточную локализацию. Такие гетерологичные полипептиды могут включать, например, один или более сигналов ядерной локализации (NLS - nuclear localization signals), таких как NLS SV40 для нацеливания на ядро, сигнал локализации митохондрий для нацеливания на митохондрии, сигнал удержания ER и тому подобное. Такие субклеточные сигналы локализации могут быть локализованы на N-конце, C-конце или в любом месте внутри белка Cas. NLS может содержать отрезок основных аминокислот и может представлять собой последовательность из одного компонента или последовательность из двух частей.
Белки Cas также могут быть функционально связаны с проникающим в клетку доменом. Например, проникающий в клетку домен может быть получен из белка ТАТ ВИЧ-1, проникающего в клетки TLM мотива вируса гепатита В человека, MPG, Pep-1, VP22, пептида, проникающего в клетки вируса простого герпеса, или пептидная последовательность полиаргинина. Проникающий в клетку домен может быть локализован на N-конце, C-конце или в любом месте белка Cas.
Белки Cas также могут быть функционально связаны с гетерологичным полипептидом для простоты отслеживания или очистки, таким как флуоресцентный белок, метка очистки или метка эпитопа. Примеры флуоресцентных белков включают зеленые флуоресцентные белки (например, GFP, GFP-2, tagGFP, turboGFP, eGFP, Emerald, Azami Green, мономерный Azami Green, CopGFP, AceGFP, ZsGreenl), желтые флуоресцентные белки (например, YFP, eYFP, цитрин, Венера, YPet, PhiYFP, ZsYellowl), голубые флуоресцентные белки (например, eBFP, eBFP2, азурит, mKalamal, GFPuv, сапфир, T-сапфир), голубые флуоресцентные белки (например, eCFP, Cerulean, CyPet, AmCyanl, Midoriishi-Cyan) красные флуоресцентные белки (mKate, mKate2, mPlum, мономер DsRed, mCherry, mRFP1, DsRed-Express, DsRed2, DsRed-мономер, HcRed-тандем, HcRedl, AsRed2, eqFP611, mRaspberry, jresse, mredsberry) mKO, Kusabira-Orange, мономерный Kusabira-Orange, mTangerine, tdTomato) и любой другой подходящий флуоресцентный белок. Примеры меток включают глутатион-S-трансферазу (GST), хитин-связывающий белок (CBP), мальтозосвязывающий белок, тиоредоксин (TRX), поли (NANP), метку тандемной аффинной очистки (TAP), myc, AcV5, AU1, AU5, E, ECS, E2, FLAG, гемагглютинин (HA), nus, Softag 1, Softag 3, Strep, SBP, Glu-Glu, HSV, KT3, S, S1, T7, V5, VSV-G, гистидин (His), биотин-карбоксильный белок-носитель (BCCP) и кальмодулин.
Белки Cas9 также могут быть связаны с экзогенными донорными последовательностями или мечеными нуклеиновыми кислотами. Такое закрепление (то есть физическое связывание) может быть достигнуто посредством ковалентных взаимодействий или нековалентных взаимодействий, и закрепление может быть прямым (например, посредством прямого слияния или химического конъюгирования, что может быть достигнуто путем модификации остатков цистеина или лизина в белке или интеине). модификации), или может быть достигнуто с помощью одного или более промежуточных линкеров или адаптерных молекул, таких как стрептавидин или аптамеры. Нековалентные стратегии синтеза конъюгатов белок-нуклеиновая кислота включают биотин-стрептавидин и никель-гистидиновые методы. Конъюгаты ковалентный белок-нуклеиновая кислота могут быть синтезированы путем соединения подходящим образом функционализированных нуклеиновых кислот и белков с использованием широкого спектра химикатов. Некоторые из этих химикатов включают прямое присоединение олигонуклеотида к аминокислотному остатку на поверхности белка (например, лизинамин или тиол цистеина), в то время как другие более сложные схемы требуют посттрансляционной модификации белка или участия каталитического или домен реактивного белка. Способы ковалентного присоединения белков к нуклеиновым кислотам могут включать, например, химическое сшивание олигонуклеотидов с остатками белка лизина или цистеина, экспрессию лигирования белка, хемоферментные методы и использование фотоаптамеров. Экзогенная донорная последовательность или меченая нуклеиновая кислота могут быть связаны с С-концом, N-концом или с внутренней областью внутри белка Cas9. В некоторых вариантах осуществления экзогенная донорная последовательность или меченая нуклеиновая кислота связаны с C-концом или N-концом белка Cas9. Аналогично, белок Cas9 может быть связан с 5'-концом, 3'-концом или с внутренней областью в пределах последовательности экзогенного донора или меченой нуклеиновой кислоты. В некоторых вариантах осуществления белок Cas9 связан с 5'-концом или 3'-концом экзогенной донорной последовательности или меченой нуклеиновой кислоты.
Белки Cas могут быть предоставлены в любой форме. Например, белок Cas может быть предоставлен в форме белка, такого как белок Cas, образующий комплекс с нРНК. Альтернативно, белок Cas может быть предоставлен в форме нуклеиновой кислоты, кодирующей белок Cas, такой как РНК (например, мессенджер РНК (мРНК)) или ДНК. В некоторых вариантах осуществления нуклеиновая кислота, кодирующая белок Cas, может быть оптимизирована по кодонам для эффективной трансляции в белок в конкретной клетке или организме. Например, нуклеиновую кислоту, кодирующую белок Cas, можно модифицировать для замены кодонов, имеющих более высокую частоту использования, в бактериальной клетке, дрожжевой клетке, человеческой клетке, клетке, не человека, клетке млекопитающего, клетке грызуна, клетке мыши, клетке крысы или любой другой интересующей клетке-хозяине по сравнению с природной полинуклеотидной последовательностью. Когда нуклеиновую кислоту, кодирующую белок Cas, вводят в клетку, белок Cas может временно, условно или конститутивно экспрессироваться в клетке.
Нуклеиновые кислоты, кодирующие белки Cas, могут быть стабильно интегрированы в геном клетки и функционально связаны с активным в клетке промотором. Альтернативно, нуклеиновые кислоты, кодирующие белки Cas, могут быть функционально связаны с промотором в конструкции экспрессии. Экспрессирующие конструкции включают любые конструкции нуклеиновых кислот, способные направлять экспрессию гена или другой интересующей последовательности нуклеиновой кислоты (например, гена Cas) и которые могут переносить такую интересующую последовательность нуклеиновой кислоты в клетку-мишень. Например, нуклеиновая кислота, кодирующая белок Cas, может находиться в нацеливающем векторе, содержащем вставку нуклеиновой кислоты, и/или в векторе, содержащем ДНК, кодирующую нРНК. Альтернативно, он может находиться в векторе или плазмиде, которая отделена от вектора-мишени, содержащего вставку нуклеиновой кислоты, и/или отделена от вектора, содержащего ДНК, кодирующую эту рРНК. Промоторы, которые можно использовать в экспрессионной конструкции, включают промоторы, активные, например, в одной или более клетках эукариот, клетке человека, клетке, не человека, клетке млекопитающего, клетке млекопитающего, не человека, клетке грызунов, клетке мыши, клетке крысы, клетке хомяка, клетке кролика, плюрипотентной клетке, эмбриональной стволовой клетке (ES) или зиготе. Такими промоторами могут быть, например, условные промоторы, индуцибельные промоторы, конститутивные промоторы или тканеспецифичные промоторы. В некоторых вариантах осуществления промотор может представлять собой двунаправленный промотор, управляющий экспрессией как белка Cas в одном направлении, так и направляющей РНК в другом направлении. Такие двунаправленные промоторы могут состоять из: 1) полного традиционного однонаправленного промотора Pol III, который содержит 3 внешних элемента управления: элемент дистальной последовательности (DSE - distal sequence element), элемент проксимальной последовательности (PSE - proximal sequence element) и блок TATA; и 2) второй основной промотор Pol III, который включает PSE и блок TATA, слитый с 5'-концом DSE в обратной ориентации. Например, в промоторе H1 DSE соседствует с PSE и блоком TATA, и промотор можно сделать двунаправленным, создав гибридный промотор, в котором транскрипция в обратном направлении контролируется путем добавления блока PSE и TATA, полученного из промоутер U6. Использование двунаправленного промотора для экспрессии генов, кодирующих белок Cas, и направляющей РНК одновременно позволяет создавать компактные кассеты экспрессии для облегчения доставки.
Данное раскрытие также предоставляет направляющую РНК (нРНК), которая связывается с белком Cas (например, белком Cas9) и нацеливает белок Cas на определенное место в целевой ДНК (например, ген B4GALT1). В некоторых вариантах осуществления направляющая РНК эффективна для направления фермента Cas для связывания или расщепления эндогенного гена B4GALT1, при этом направляющая РНК содержит направленный на ДНК сегмент, который гибридизуется с последовательностью, распознаваемой направляющей РНК, в эндогенном гене. B4GALT1 ген, который включает или находится, например, в положениях с 53575 по 53577 из SEQ ID NO:1. Например, последовательность, распознаваемая направляющей РНК, может находиться в пределах около 5, около 10, около 15, около 20, около 25, около 30, около 35, около 40, около 45, около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500 или в пределах около 1000 нуклеотидов от положений с 53575 по 53577 из SEQ ID NO:1. Другие типичные направляющие РНК содержат ДНК-нацеливающий сегмент, который гибридизуется с последовательностью, распознаваемой направляющей РНК, в эндогенном гене B4GALT1, который находится в области, соответствующей экзону 5 SEQ ID NO:1. Другие иллюстративные направляющие РНК содержат ДНК-нацеливающий сегмент, который гибридизуется с последовательностью, распознаваемой направляющей РНК, в эндогенном гене B4GALT1, которая включает в себя или находится вблизи стартового кодона эндогенного гена B4GALT1 или включает в себя или находится рядом с стоп-кодоном эндогенного гена B4GALT1. Например, последовательность, распознаваемая направляющей РНК, может находиться в пределах около 5, около 10, около 15, около 20, около 25, около 30, около 35, около 40, около 45, около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500 или в пределах около 1000 нуклеотидов от стартового кодона или в пределах около 5, в пределах около 10, в пределах около 15, в пределах около 20, в пределах около 25, в пределах около 30, в пределах около 35, в пределах около 40, в пределах около 45, в пределах около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500 или в пределах около 1000 нуклеотидов от стоп-кодона. Эндогенный ген B4GALT1 может быть геном B4GALT1 из любого организма. Например, ген B4GALT1 может быть геном B4GALT1 человека или ортологом из другого организма, такого как млекопитающее отличное от человека, грызун, мышь или крыса.
В некоторых вариантах осуществления последовательности распознаваемые направляющей РНК присутствуют на 5'-конце гена B4GALT1 человека. В некоторых вариантах осуществления последовательности распознаваемые направляющей РНК соседствуют с сайтом начала транскрипции (TSS - transcription start site) гена B4GALT1 человека. В некоторых вариантах осуществления последовательности распознаваемые направляющей РНК присутствуют на 3'-конце гена B4GALT1 человека. В некоторых вариантах осуществления последовательности распознаваемые направляющей РНК находятся вблизи положений с 53575 по 53577 из SEQ ID NO:1. Иллюстративные последовательности распознаваемые направляющей РНК, расположенные вблизи позиций с 53575 по 53577 из SEQ ID NO:1, включают, но не ограничиваются ими, ATTAGTTTTTAGAGGCATGT (SEQ ID NO:9) и GGCTCTCAGGCCAAGTGTAT (SEQ ID NO:10) (обе от 5' до позиций 53575 до 53577 из SEQ ID NO:1) и TACTCCTTCCCCCTTTAGGA (SEQ ID NO:11) и GTCCGAGGCTCTGGGCCTAG (SEQID NO:12) (оба 3' в положениях с 53575 по 53577 из SEQ ID NO:1).
Направляющие РНК могут содержать два сегмента: сегмент, нацеленный на ДНК, и сегмент, связывающий белок. Некоторые рРНК содержат две отдельные молекулы РНК: РНК-активатор (например, тракрРНК (tractrRNA)) и РНК-мишень (например, CRISPR РНК или crРНК). Другие рРНК представляют собой одну молекулу РНК (один полинуклеотид РНК; одну молекулу рРНК, однонаправленную РНК или енРНК). Например, для Cas9, одиночная направляющая РНК может содержать кРНК, слитую с тракрРНК (например, через линкер). Например, для Cpf1 требуется только кРНК для достижения расщепления. НРНК включают как двухмолекулярные (т.е. модульные) нРНК, так и одномолекулярные нРНК.
Направленный на ДНК сегмент (крРНК - crRNA) данной нРНК содержит нуклеотидную последовательность, которая комплементарна последовательности (т.е. последовательности, распознаваемой направляющей РНК) в ДНК-мишени. Направленный на ДНК сегмент нРНК взаимодействует с ДНК-мишенью (например, геном B4GALT1) специфичным для последовательности образом посредством гибридизации (т.е. спаривания оснований). По существу, нуклеотидная последовательность сегмента, нацеленного на ДНК, может варьироваться и определять местоположение внутри ДНК-мишени, с которым будут взаимодействовать нРНК и ДНК-мишень. Направленный на ДНК сегмент рассматриваемой нРНК может быть модифицирован для гибридизации с любой желаемой последовательностью в целевой ДНК. Встречающиеся в природе крРНК различаются в зависимости от системы CRISPR-Cas и организма, но часто содержат направляющий сегмент длиной около от 21 до 72 нуклеотидов, фланкированный двумя прямыми повторами (DR - direct repeats) длиной от около 21 до около 46 нуклеотидов. В случае S. pyogenesDR имеют длину 36 нуклеотидов, а целевой участок составляет 30 нуклеотидов. 3'-расположенный DR является комплементарным и гибридизуется с соответствующей трактрРНК, которая, в свою очередь, связывается с белком Cas.
Направленный на ДНК сегмент может иметь длину, по меньшей мере, около 12 нуклеотидов, по меньшей мере, около 15 нуклеотидов, по меньшей мере, около 17 нуклеотидов, по меньшей мере, около 18 нуклеотидов, по меньшей мере, около 19 нуклеотидов, по меньшей мере, около 20 нуклеотидов, по меньшей мере, около 25 нуклеотиды, по меньшей мере, около 30 нуклеотидов, по меньшей мере, около 35 нуклеотидов или, по меньшей мере, около 40 нуклеотидов. Такие ДНК-нацеленные сегменты могут иметь длину от около 12 нуклеотидов до около 100 нуклеотидов, от около 12 нуклеотидов до около 80 нуклеотидов, от около 12 нуклеотидов до около 50 нуклеотидов, от около 12 нуклеотидов до около 40 нуклеотидов, от около 12 нуклеотидов до около 30 нуклеотидов, от около 12 нуклеотидов до около 25 нуклеотидов или от около 12 нуклеотидов до около 20 нуклеотидов. Например, целевой сегмент ДНК может составлять от около 15 нуклеотидов до около 25 нуклеотидов (например, от около 17 нуклеотидов до около 20 нуклеотидов или около 17 нуклеотидов, около 18 нуклеотидов, около 19 нуклеотидов или около 20 нуклеотидов). См., например, публикацию заявки США 2016/0024523. Для Cas9 из S. pyogenes типичный ДНК-нацеливающий сегмент имеет длину от около 16 до около 20 нуклеотидов или от около 17 до около 20 нуклеотидов. Для Cas9 из S. aureus типичный ДНК-нацеливающий сегмент имеет длину от около 21 до около 23 нуклеотидов. Для Cpf1 типичный ДНК-нацеливающий сегмент имеет длину, по меньшей мере, около 16 нуклеотидов или, по меньшей мере, около 18 нуклеотидов.
Процент комплементарности между последовательностью, нацеленной на ДНК, и последовательностью, распознаваемой направляющей РНК, в ДНК-мишени может составлять, по меньшей мере, около 60%, по меньшей мере, около 65%, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80% (по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100%). Процент комплементарности между последовательностью, нацеленной на ДНК, и последовательностью, распознаваемой направляющей РНК, в ДНК-мишени может составлять, по меньшей мере, около 60% по сравнению с около 20 смежными нуклеотидами. В качестве примера, процентная комплементарность между ДНК-нацеливающей последовательностью и последовательностью, распознаваемой направляющей РНК, в ДНК-мишени составляет около 100% по сравнению с около 14 смежными нуклеотидами на 5'-конце последовательности, распознаваемой направляющей РНК, в пределах комплементарной цепи мишени. ДНК и всего около 0% по сравнению с остатком. В таком случае можно предположить, что ДНК-нацеливающая последовательность имеет длину около 14 нуклеотидов. В качестве другого примера, процент комплементарности между последовательностью, нацеленной на ДНК, и последовательностью, распознаваемой направляющей РНК, в ДНК-мишени составляет около 100% по сравнению с семью смежными нуклеотидами на 5'-конце последовательности, распознаваемой направляющей РНК, в пределах комплементарной цепи ДНК-мишени и всего около 0% по сравнению с остатком. В таком случае можно предположить, что ДНК-нацеливающая последовательность имеет длину около 7 нуклеотидов. В некоторых направляющих РНК, по меньшей мере, около 17 нуклеотидов в последовательности ДНК-мишени являются комплементарными ДНК-мишени. Например, ДНК-нацеливающая последовательность может иметь длину около 20 нуклеотидов и может содержать 1, 2 или 3 несовпадения с ДНК-мишенью (последовательностью, распознаваемой направляющей РНК). В некоторых вариантах осуществления несоответствия не являются смежными с последовательностью соседнего мотива прототипа (PAM) (например, несоответствия находятся на 5'-конце последовательности, нацеленной на ДНК, или несоответствия составляют, по меньшей мере, 2, по меньшей мере, 3, по меньшей мере, 4, по меньшей мере, 5, по меньшей мере, 6, по меньшей мере, 7, по меньшей мере, 8, по меньшей мере, 9, по меньшей мере, 9, по меньшей мере, 10, по меньшей мере, 11, по меньшей мере, 12, по меньшей мере, 13, по меньшей мере, 14, по меньшей мере, 15, по меньшей мере, 16, по меньшей мере, 17, по меньшей мере, 18 или, по меньшей мере, 19 пар оснований от последовательности PAM).
Направляющие РНК могут включать модификации или последовательности, которые обеспечивают дополнительные желательные признаки (например, измененную или регулируемую стабильность; субклеточное нацеливание; отслеживание с помощью флуоресцентной метки; сайт связывания для белка или белкового комплекса и тому подобное). Примеры таких модификаций включают, например, 5' кэп (например, 7-метилгуанилатный кэп (m7G)); 3' полиаденилированный хвост (то есть 3' поли (А) хвост); последовательность рибосвитча (например, для обеспечения регулируемой стабильности и/или регулируемой доступности белков и/или белковых комплексов); последовательность контроля стабильности; последовательность, которая образует дцРНК дуплекс (то есть шпильку); модификация или последовательность, которая направляет РНК в субклеточное местоположение (например, ядро, митохондрии, хлоропласты и тому подобное); модификацию или последовательность, которая обеспечивает отслеживание (например, прямое конъюгирование с флуоресцентной молекулой, конъюгирование с фрагментом, который облегчает детектирование флуоресценции, последовательность, которая позволяет детектирование флуоресценции и т. д.); модификация или последовательность, которая обеспечивает сайт связывания для белков (например, белков, которые действуют на ДНК, включая активаторы транскрипции, репрессоры транскрипции, ДНК-метилтрансферазы, ДНК-деметилазы, гистонацетилтрансферазы, гистондеацетилазы и тому подобное); и их комбинации.
Направляющие РНК могут быть предоставлены в любой форме. Например, нРНК может быть предоставлена в форме РНК, либо в виде двух молекул (отдельная крРНК и тракрРНК), либо в виде одной молекулы (енРНК) и, необязательно, в форме комплекса с белком Cas. Например, нРНК могут быть получены путем транскрипции in vitro с использованием, например, РНК-полимеразы T7. Направляющие РНК также могут быть получены химическим синтезом.
НРНК также может быть предоставлена в форме ДНК, кодирующей нРНК. ДНК, кодирующая нРНК, может кодировать одну молекулу РНК (енРНК) или отдельные молекулы РНК (например, отдельные крРНК и тракрРНК). В последнем случае ДНК, кодирующая рРНК, может быть представлена как одна молекула ДНК или как отдельных молекул ДНК, кодирующих кРНК и тракрРНК, соответственно. Когда нРНК предоставляется в форме ДНК, она может временно, условно или конститутивно экспрессироваться в клетке. ДНК, кодирующие нРНК, могут быть стабильно интегрированы в геном клетки и функционально связаны с активным в клетке промотором. Альтернативно, ДНК, кодирующие нРНК, могут быть функционально связаны с промотором в конструкции экспрессии. Например, ДНК, кодирующая нРНК, может находиться в векторе, содержащем гетерологичную нуклеиновую кислоту. Вектор может дополнительно содержать экзогенную донорную последовательность и/или вектор может дополнительно содержать нуклеиновую кислоту, кодирующую белок Cas. Альтернативно, ДНК, кодирующая эту нРНК, может находиться в векторе или плазмиде, которая отделена от вектора, содержащего экзогенную донорную последовательность, и/или вектора, содержащего нуклеиновую кислоту, кодирующую белок Cas. Промоторы, которые можно использовать в таких экспрессирующих конструкциях, включают промоторы, активные, например, в одной или более из эукариотических клеток, человеческих клеток, клеток, отличных от человека, млекопитающих, клеток, и не клетка млекопитающего человека, клетка, клетка мыши, клетка крысы, клетка хомяка, клетка кролика, плюрипотентная клетка, эмбриональная стволовая клетка или зигота. Такими промоторами могут быть, например, условные промоторы, индуцибельные промоторы, конститутивные промоторы или тканеспецифичные промоторы. Такими промоторами также могут быть, например, двунаправленные промоторы. Конкретные примеры подходящих промоторов включают промотор РНК-полимеразы III, такой как промотор U6 человека, промотор U6-полимеразы III крысы или промотор U6-полимеразы III мыши.
Данное раскрытие также предоставляет композиции, содержащие одну или более направляющих РНК (например, 1, 2, 3, 4 или более направляющих РНК), раскрытых в данном документе, и носитель, повышающий стабильность выделенной нуклеиновой кислоты или белка (например, продлевая период при заданные условия хранения (например, -20°C, 4°C или температура окружающей среды), для которых продукты разложения остаются ниже порогового значения, такого как ниже 0,5% по массе исходной нуклеиновой кислоты или белка, или повышение стабильности в Vivo). Примеры таких носителей включают в себя, но не ограничиваются ими, микросферы из поли (молочной кислоты) (PLA), микросферы из поли (D, L-молочной-гликолевой кислоты) (PLGA), липосомы, мицеллы, обратные мицеллы, липидные кохлеаты и липидные микротрубочки. Такие композиции могут дополнительно содержать белок Cas, такой как белок Cas9, или нуклеиновую кислоту, кодирующую белок Cas. Такие композиции могут дополнительно содержать одну или более (например, 1, 2, 3, 4 или более) экзогенных донорных последовательностей и/или одну или более (например, 1, 2, 3, 4 или более) нацеливающих векторов и/или один или более (например, 1, 2, 3, 4 или более) векторов экспрессии, как раскрыто в другом месте в данном документе.
Последовательности распознаваемые направляющей РНК включают последовательности нуклеиновых кислот, присутствующие в ДНК-мишени (например, ген B4GALT1), с которой будет связываться ДНК-нацеливающий сегмент нРНК, при условии наличия достаточных условий для связывания. Например, последовательности, распознаваемые направляющими РНК, включают в себя последовательности, к которым разработана направляющая РНК, чтобы иметь комплементарность, при этом гибридизация между последовательностью, распознаваемой направляющей РНК, и последовательностью, нацеленной на ДНК, способствует образованию комплекса CRISPR. Полная комплементарность не обязательно требуется при условии, что существует достаточная комплементарность, чтобы вызвать гибридизацию и способствовать образованию комплекса CRISPR. последовательности, распознаваемые направляющими РНК, также включают сайты расщепления для белков Cas, более подробно описанные ниже. Последовательность, распознаваемая направляющей РНК, может содержать любой полинуклеотид, который может быть расположен, например, в ядре или цитоплазме клетки или в органелле клетки, такой как митохондрия или хлоропласт.
Последовательность, распознаваемая направляющей РНК, в ДНК-мишени может быть мишенью (то есть связываться, гибридизоваться или быть комплементарной) белка Cas или нРНК. Подходящие условия связывания ДНК/РНК включают физиологические условия, обычно присутствующие в клетке. Другие подходящие условия связывания ДНК/РНК известны.
Белок Cas может расщеплять нуклеиновую кислоту в месте внутри или снаружи последовательности нуклеиновой кислоты, присутствующей в ДНК-мишени, с которой будет связываться направленный на ДНК сегмент нРНК. «Сайт расщепления» включает положение нуклеиновой кислоты, в которой белок Cas производит разрыв одной цепи или разрыв двойной цепи. Например, образование комплекса CRISPR (содержащего нРНК, гибридизованную с последовательностью, распознаваемой направляющей РНК, и образовавшей комплекс с белком Cas), может привести к расщеплению одной или обеих цепей в или около (например, в пределах 1, в пределах 2, в течение 3, в пределах 4, в пределах 5, в течение 6, в пределах 7, в пределах 8, в пределах 9, в пределах 10, в пределах 20 или в пределах 50 или более пар оснований от) последовательности нуклеиновой кислоты, присутствующей в ДНК-мишени, к которой направлен ДНК-нацеливающий сегмент нРНК будет связывать. Сайт расщепления может быть только на одной цепи или на обеих цепях нуклеиновой кислоты. Сайты расщепления могут находиться в одном и том же положении на обеих цепях нуклеиновой кислоты (образуя тупые концы) или могут быть в разных сайтах на каждой цепочке (продуцируя ступенчатые концы (то есть, выступы)). В некоторых вариантах осуществления последовательность, распознаваемая направляющей РНК никазы, на первой цепи отделена от последовательности, распознаваемой направляющей РНК никазы, на второй цепи, по меньшей мере, на 2, по меньшей мере, на 3, по меньшей мере, на 4, по меньшей мере, на 5, по меньшей мере, на 6, по меньшей мере, на 7, по меньшей мере, на 8, по меньшей мере, на 9, по меньшей мере, на 10, по меньшей мере, на 15, по меньшей мере, на 20, по меньшей мере, на 25, по меньшей мере, на 30, по меньшей мере, на 40, по меньшей мере, на 50, по меньшей мере, на 75, по меньшей мере, на 100, по меньшей мере, на 250, по меньшей мере, на 500 или, по меньшей мере, на 1000 пар оснований.
Сайт-специфическое расщепление ДНК-мишени белками Cas может происходить в местах, определяемых как i) комплементарностью спаривания оснований между нРНК и ДНК-мишенью, так и ii) коротким мотивом, называемым протоспейсерным смежным мотивом (PAM - protospacer adjacent motif), в ДНК-мишени. PAM может фланкировать последовательность, распознаваемую направляющей РНК. В некоторых вариантах осуществления последовательность, распознаваемая направляющей РНК, может быть фланкирована на 3'-конце PAM. Альтернативно, последовательность, распознаваемая направляющей РНК, может быть фланкирована на 5'-конце PAM. Например, сайт расщепления белков Cas может составлять от около 1 до около 10 или от около 2 до около 5 пар оснований (например, 3 пары оснований) выше или ниже последовательности PAM. В некоторых случаях (например, когда используется Cas9 из S. pyogenes или тесно связанный Cas9), последовательность PAM некомплементарной цепи может быть 5'-N1GG-3', где N1 представляет собой любой нуклеотид ДНК и находится непосредственно в 3' от последовательности, распознаваемой направляющей РНК, некомплементарной цепи ДНК-мишени. Таким образом, последовательность PAM комплементарной цепи будет иметь вид 5'-CCN2-3', где N2 является любым нуклеотидом ДНК и находится непосредственно в 5' от последовательности, распознаваемой направляющей РНК, комплементарной цепи мишени. ДНК. В некоторых таких случаях N1 и N2 могут быть взаимодополняющими, а N1-N2 может быть любой парой оснований (например, N1= C и N2= G; N1= G и N2= C; N1= A и N2= T; или N1= T и N2= A). В случае Cas9 из S. Aureus PAM может быть NNGRRT (SEQ ID NO:13) или NNGRR (SEQ ID NO:14), где N может A, G, C или T, и R может быть G или A. В некоторых случаях (например, для FnCpf1) последовательность PAM может находиться выше 5'-конца и иметь последовательность 5'-TTN-3'.
Примеры последовательностей, распознаваемых направляющими РНК, включают последовательность ДНК, комплементарную ДНК-нацеливающему сегменту нРНК, или такую последовательность ДНК в дополнение к последовательности PAM. Например, мотив-мишень может представлять собой последовательность из 20 нуклеотидов ДНК, непосредственно предшествующую мотиву NGG, распознаваемому белком Cas9, например GN19NGG (SEQ ID NO:15) или N20NGG (SEQ ID NO:16) (см., например, публикация PCT WO 2014/165825). Гуанин на 5'-конце может облегчать транскрипцию РНК-полимеразой в клетках. Другие примеры последовательностей, распознаваемых направляющими РНК, могут включать два гуаниновых нуклеотида на 5'-конце (например, GGN20NGG; SEQ ID NO:17) для облегчения эффективной транскрипции с помощью T7 полимеразы in vitro. См., например, публикация PCT WO 2014/065596. Другие последовательности, распознаваемые направляющей РНК, могут иметь длину от около 4 до около 22 нуклеотидов, включая 5'G или GG и 3'GG или NGG. В некоторых вариантах осуществления последовательности, распознаваемые направляющей РНК, могут иметь длину от около 14 до около 20 нуклеотидов.
Последовательность, распознаваемая направляющей РНК, может быть любой последовательностью нуклеиновой кислоты, эндогенной или экзогенной для клетки. Последовательность, распознаваемая направляющей РНК, может представлять собой последовательность, кодирующую продукт гена (например, белок) или некодирующую последовательность (например, регуляторную последовательность), или может включать и то и другое.
В некоторых вариантах осуществления последовательность, распознаваемая направляющей РНК, может находиться в области, соответствующей экзону 5 SEQ ID NO:1. В некоторых вариантах осуществления последовательность, распознаваемая направляющей РНК, может включать или находиться вблизи положений с 53575 по 53577 из SEQ ID NO:1. Например, последовательность, распознаваемая направляющей РНК, может находиться в пределах около 1000, в пределах около 500, в пределах около 400, в пределах около 300, в пределах около 200, в пределах около 100, в пределах около 50, в пределах около 45, в пределах около 40, в пределах около 35, в пределах около 30, в пределах около 25, в пределах около 20, в пределах около 15, в пределах около 10 или в пределах около 5 нуклеотидов в положении, соответствующем положениям с 53575 по 53577 из SEQ ID NO:1. В некоторых вариантах осуществления последовательность, распознаваемая направляющей РНК, может включать или быть ближайшей к стартовому кодону эндогенного гена B4GALT1 или стоп-кодону эндогенного гена B4GALT1. Например, последовательность, распознаваемая направляющей РНК, может находиться в пределах около 10, в пределах около 20, в пределах около 30, в пределах около 40, в пределах около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500, или в пределах около 1000 нуклеотидов от старт-кодона или стоп-кодона.
Описанные в данном документе способы и композиции могут использовать экзогенные донорные последовательности (например, направляющие векторы или матрицы репарации) для модификации эндогенного гена B4GALT1, либо без расщепления эндогенного гена B4GALT1, либо после расщепления эндогенного гена B4GALT1 нуклеазный агент. Экзогенная донорная последовательность относится к любой нуклеиновой кислоте или вектору, которые включают элементы, которые необходимы для обеспечения сайт-специфической рекомбинации с последовательностью-мишенью. Использование экзогенных донорных последовательностей в сочетании с нуклеазными агентами может привести к более точным модификациям в эндогенном гене B4GALT1 путем стимулирования гомологически направленной репарации.
В таких способах нуклеазный агент расщепляет эндогенный ген B4GALT1 для создания одноцепочечного разрыва (nick) или двухцепочечного разрыва, и экзогенная донорная последовательность рекомбинирует с эндогенным геном B4GALT1 посредством лигироания, опосредованного негомологичноым присоединением концов (NHEJ), или через направляемую гомологией репарацию. Восстановление с использованием экзогенной донорной последовательности может удалить или нарушить сайт расщепления нуклеазой, так что на целевые аллели не может быть повторно направлен нуклеазный агент.
Экзогенные донорные последовательности могут включать дезоксирибонуклеиновую кислоту (ДНК) или рибонуклеиновую кислоту (РНК), они могут быть одноцепочечными или двухцепочечными, и они могут быть в линейной или циркулярной форме. Например, экзогенная донорная последовательность может представлять собой одноцепочечный олигодезоксинуклеотид (оцОДН - ssODN - single-stranded oligodeoxynucleotide). Типичная экзогенная донорная последовательность имеет длину от около 50 нуклеотидов до около 5 т.п.н., длину от около 50 нуклеотидов до около 3 т.п.н. или длину от около 50 до около 1000 нуклеотидов. Другие типичные экзогенные донорные последовательности имеют длину от около 40 до около 200 нуклеотидов. Например, последовательность экзогенного донора может составлять от около 50 до около 60, от около 60 до около 70, от около 70 до около 80, от около 80 до около 90, от около 90 до около 100, от около 100 до около 110 от около 110 до около 120, от около 120 до около 130, от около 130 до около 140, от около 140 до около 150, от около 150 до около 160, от около 160 до около 170, от около 170 до около 180, длиной от около 180 до около 190 или от около 190 до около 200 нуклеотидов. Альтернативно, последовательность экзогенного донора может составлять от около 50 до около 100, от около 100 до около 200, от около 200 до около 300, от около 300 до около 400, от около 400 до около 500, от около 500 до около 600, от около 600 до около 700, от около 700 до около 800, от около 800 до около 900 или от около 900 до около 1000 нуклеотидов в длину. Альтернативно, последовательность экзогенного донора может составлять от около 1 до около 1,5 т.п.н., от около 1,5 т.п.н. до около 2 т.п.н., от около 2 т.п.н. до около 2,5 т.п.н., от около 2,5 т.п.н. до около 3 т.п.н., от около 3 т.п.н. до около 3,5 т.п.н., от около 3,5 т.п.н. до около 4 т.п.н., от около 4 т.п.н. до около 4,5 т.п.н. или от около 4,5 т.п.н. до около 5 т.п.н. в длину. Альтернативно, последовательность экзогенного донора может составлять, например, не более около 5 т.п.н., не более около 4,5 т.п.н., не более около 4 т.п.н., не более около 3,5 т.п.н., не более около 3 т.п.н., не более около 2,5 т.п.н., не более около 2 т.п.н., не более около 1,5 т.п.н., не более около 1 т.п.н., не более около 900 нуклеотидов, не более около 800 нуклеотидов, не более около 700 нуклеотидов, не более около 600 нуклеотидов, не более 500 нуклеотидов, не более 400 нуклеотидов, не более 300 нуклеотидов, не более 200 нуклеотидов, не более 100 нуклеотидов и не более 50 нуклеотидов в длину.
В некоторых вариантах осуществления экзогенная донорная последовательность представляет собой оцОДН, который имеет длину от около 80 нуклеотидов до около 200 нуклеотидов (например, около 120 нуклеотидов в длину). В другом примере экзогенные донорные последовательности представляют собой оцОДН длиной от около 80 нуклеотидов до около 3 т.п.н. Такой оцОДН может иметь, например, плечи гомологии, каждое из которых имеет длину от около 40 нуклеотидов до около 60 нуклеотидов. Такой оцОДН может также иметь плечи гомологии, например, длиной от около 30 нуклеотидов до 100 нуклеотидов. Группы гомологии могут быть симметричными (например, каждая около 40 нуклеотидов или каждая около 60 нуклеотидов в длину), или они могут быть асимметричными (например, одна группа гомологии, которая имеет длину около 36 нуклеотидов, и одна группа гомологии, которая имеет около 91 нуклеотидов в длину).
Последовательности экзогенных доноров могут включать модификации или последовательности, которые обеспечивают дополнительные желательные признаки (например, измененную или регулируемую стабильность; отслеживание или обнаружение с помощью флуоресцентной метки; сайт связывания для белка или белкового комплекса и т. д.). Последовательности экзогенных доноров могут включать одну или более флуоресцентных меток, меток для очистки, меток эпитопов или их комбинации. Например, последовательность экзогенного донора может содержать одну или более флуоресцентных меток (например, флуоресцентных белков или других флуорофоров или красителей), таких как, по меньшей мере, 1, по меньшей мере, 2, по меньшей мере, 3, по меньшей мере, 4 или, по меньшей мере, 5 флуоресцентных меток, Типичные флуоресцентные метки включают флуорофоры, такие как флуоресцеин (например, 6-карбоксифлуоресцеин (6-FAM)), техасский красный, HEX, Cy3, Cy5, Cy5.5, Pacific Blue, 5-(и-6)-карбокситетраметилродамин (TAMRA - tetramethylrhodamine) и Cy7. Широкий спектр флуоресцентных красителей коммерчески доступен для мечения олигонуклеотидов (например, от Integrated DNA Technologies). Такие флуоресцентные метки (например, внутренние флуоресцентные метки) можно использовать, например, для обнаружения последовательности экзогенного донора, которая непосредственно интегрирована в расщепленный эндогенный ген B4GALT1, имеющий выступающие концы, совместимые с концами экзогенного донора последовательность. Метка или тэг могут находиться на 5'-конце, 3'-конце или внутри последовательности экзогенного донора. Например, экзогенная донорная последовательность может быть конъюгирована на 5'-конце с флуорофором IR700 от Integrated DNA Technologies (5'IRDYE®700).
Экзогенные донорные последовательности также могут содержать вставки нуклеиновых кислот, включающие сегменты ДНК, которые должны быть интегрированы в эндогенный ген B4GALT1. Интеграция вставки нуклеиновой кислоты в эндогенный ген B4GALT1 может привести к добавлению представляющей интерес последовательности нуклеиновой кислоты в эндогенном гене B4GALT1, удалению представляющей интерес последовательности нуклеиновой кислоты в эндогенном гене B4GALT1 или замене представляющей интерес последовательности нуклеиновой кислоты в эндогенном гене B4GALT1 (т.е. делеция и вставка). Некоторые экзогенные донорные последовательности предназначены для вставки вставки нуклеиновой кислоты в эндогенный ген B4GALT1 без какой-либо соответствующей делеции в эндогенном гене B4GALT1. Другие последовательности экзогенных доноров предназначены для удаления представляющей интерес последовательности нуклеиновой кислоты в эндогенном гене B4GALT1 без какой-либо соответствующей вставки вставки нуклеиновой кислоты. Другие экзогенные донорные последовательности предназначены для удаления представляющей интерес последовательности нуклеиновой кислоты в эндогенном гене B4GALT1 и замены ее вставкой нуклеиновой кислоты.
Вставка нуклеиновой кислоты и соответствующая нуклеиновая кислота в эндогенном гене B4GALT1, который удаляется и/или заменяется, может иметь различную длину. Примерная вставка нуклеиновой кислоты или соответствующая нуклеиновая кислота в эндогенном гене B4GALT1, который удаляется и/или заменяется, имеет длину от около 1 нуклеотида до около 5 т.п.н. или длину от около 1 нуклеотида до около 1000 нуклеотидов. Например, вставка нуклеиновой кислоты или соответствующая нуклеиновая кислота в эндогенном гене B4GALT1, который удаляется и/или заменяется, может составлять от около 1 до около 10, от около 10 до около 20, от около 20 до около 30, от около От 30 до около 40, от около 40 до около 50, от около 50 до около 60, от около 60 до около 70, от около 70 до около 80, от около 80 до около 90, от около 90 до около 100, от около 100 до около 110, от около 110 до около 120, от около 120 до около 130, от около 130 до около 140, от около 140 до около 150, от около 150 до около 160, от около 160 до около 170, от около 170 до длиной около 180, длиной от около 180 до около 190 или длиной от около 190 до около 200 нуклеотидов. Аналогично, вставка нуклеиновой кислоты или соответствующая нуклеиновая кислота в эндогенном гене B4GALT1, который удаляется и/или заменяется, может составлять от около 1 до около 100, от около 100 до около 200, от около 200 до около 300, от около 300 до около 400, от около 400 до около 500, от около 500 до около 600, от около 600 до около 700, от около 700 до около 800, от около 800 до около 900 или от около 900 до около 1000 нуклеотидов в длину. Аналогично, вставка нуклеиновой кислоты или соответствующая нуклеиновая кислота в эндогенном гене B4GALT1, который удаляется и/или заменяется, может составлять от около 1 до около 1,5 т.п.н., от около 1,5 до около 2 т.п.н., от около 2 до около 2 т.п.н. 2,5 т.п.н., от около 2,5 т.п.н. до около 3 т.п.н., от около 3 т.п.н. до около 3,5 т.п.н., от около 3,5 т.п.н. до около 4 т.п.н., от около 4 т.п.н. до около 4,5 т.п.н. или длины от около 4,5 т.п.н. до около 5 т.п.н.,
Вставка нуклеиновой кислоты может содержать геномную ДНК или ДНК любого другого типа. Например, вставка нуклеиновой кислоты может содержать кДНК.
Вставка нуклеиновой кислоты может содержать последовательность, которая гомологична всему или части эндогенного гена B4GALT1 (например, часть гена, кодирующая конкретный мотив или область полипептида B4GALT1). Например, вставка нуклеиновой кислоты может содержать последовательность, которая содержит одну или более точечных мутаций (например, 1, 2, 3, 4, 5 или более) или одну или более вставок или делеций нуклеотидов по сравнению с последовательностью, нацеленной на замену в эндогенный ген B4GALT1.
Вставка нуклеиновой кислоты или соответствующая нуклеиновая кислота в эндогенном гене B4GALT1, который удаляется и/или заменяется, может представлять собой кодирующую область, такую как экзон; некодирующую область, такую как интрон, нетранслируемую область или регуляторную область (например, промотор, энхансер или транскрипционный репрессор-связывающий элемент); или любую их комбинацию.
Вставки нуклеиновой кислоты также могут содержать полинуклеотид, кодирующий маркер селекции. Альтернативно, во вставках нуклеиновой кислоты может отсутствовать полинуклеотид, кодирующий маркер селекции. Маркер селекции может содержаться в кассете селекции. В некоторых вариантах осуществления кассета выбора может быть кассетой самоудаления. В качестве примера, самоудаляющаяся кассета может содержать ген Cre (содержит два экзона, кодирующих рекомбиназу Cre, которые разделены интроном), функционально связанный с промотором мыши Prm1 и геном устойчивости к неомицину, функционально связанным с промотором убиквитина человека. Иллюстративные маркеры селекции включают неомицин-фосфотрансферазу (neor), гигромицин B-фосфотрансферазу (hygr), пуромицин-N-ацетилтрансферазу (puror), бластицидин S-деаминазу (bsrr), ксантин/гуанин фосфорибозил трансферазу (gpt) или тимидинкиназу вируса простого герпеса (HSV-k) или их комбинацию. Полинуклеотид, кодирующий маркер селекции, может быть функционально связан с активным промотором в клетке-мишени. Примеры промоторов описаны в данном документе в другом месте.
Вставка нуклеиновой кислоты также может содержать репортерный ген. Примеры репортерных генов включают гены, кодирующие люциферазу, β-галактозидазу, зеленый флуоресцентный белок (GFP), усиленный зеленый флуоресцентный белок (eGFP), голубой флуоресцентный белок (CFP), желтый флуоресцентный белок (YFP), усиленный желтый флуоресцентный белок (eYFP), синий флуоресцентный белок (BFP), усиленный синий флуоресцентный белок (eBFP), DsRed, ZsGreen, MmGFP, mPlum, mCherry, tdTomato, mStrawberry, J-Red, mOrange, mKO, mCitrine, Venus, YPet, Emerald, CyPet, Cerulean, T-Sapphire и щелочную фосфатазу. Такие репортерные гены могут быть функционально связаны с активным промотором в клетке-мишени. Примеры промоторов описаны в данном документе в другом месте.
Вставка нуклеиновой кислоты также может содержать одну или более кассет экспрессии или делеционных кассет. Конкретная кассета может содержать одну или более представляющих интерес нуклеотидных последовательностей, полинуклеотид, кодирующий маркер селекции, и репортерный ген вместе с различными регуляторными компонентами, которые влияют на экспрессию. Примеры селектируемых маркеров и репортерных генов, которые могут быть включены, подробно обсуждаются в другом месте данного документа.
Вставка нуклеиновой кислоты может содержать нуклеиновую кислоту, фланкированную сайт-специфическими рекомбинационными последовательностями-мишенями. Альтернативно, вставка нуклеиновой кислоты может содержать одну или более сайт-специфических рекомбинационных последовательностей-мишеней. Хотя вся вставка нуклеиновой кислоты может быть фланкирована такими сайт-специфическими рекомбинационными последовательностями-мишенями, любой участок или отдельный интересующий полинуклеотид внутри вставки нуклеиновой кислоты также может быть фланкирован такими сайтами. Сайт-специфические рекомбинационные последовательности-мишени, которые могут фланкировать вставку нуклеиновой кислоты или любой представляющий интерес полинуклеотид во вставке нуклеиновой кислоты, могут включать, например, loxP, lox511, lox2272, lox66, lox71, loxM2, lox5171, FRT, FRT11, FRT71, attp, att, FRT, rox или их комбинацию. В некоторых вариантах сайты сайт-специфической рекомбинации фланкируют полинуклеотид, кодирующий маркер селекции и/или ген-репортер, содержащийся во вставке нуклеиновой кислоты. После интеграции вставки нуклеиновой кислоты в эндогенный ген B4GALT1 последовательности между сайтами сайт-специфической рекомбинации могут быть удалены. В некоторых вариантах осуществления могут быть использованы две экзогенные донорные последовательности, каждая со вставкой нуклеиновой кислоты, содержащей сайт-специфический сайт рекомбинации. Экзогенные донорные последовательности могут быть нацелены на 5' и 3' области, фланкирующие интересующую нуклеиновую кислоту. После интеграции двух вставок нуклеиновой кислоты в локус мишени генома, представляющая интерес нуклеиновая кислота между двумя вставленными сайт-специфическими сайтами рекомбинации может быть удалена.
Вставки нуклеиновой кислоты также могут содержать один или более сайтов рестрикции для эндонуклеаз рестрикции (т.е. ферментов рестрикции), которые включают эндонуклеазы типа I, типа II, типа III и типа IV. Эндонуклеазы рестрикции типа I и типа III распознают специфические распознаваемые последовательности, но обычно расщепляют в вариабельной позиции от сайта связывания нуклеазы, который может находиться на расстоянии сотен пар оснований от сайта распознавния (распознаваемой последовательности). В системах типа II рестрикционная активность не зависит от какой-либо активности метилазы, и расщепление обычно происходит в определенных сайтах внутри или вблизи сайта связывания. Большинство ферментов типа II пересекают палиндромные последовательности, однако ферменты типа IIa распознают непалиндромные распознаваемые последовательности и расщепляются за пределами распознаваемой последовательности, ферменты типа IIb разрезают последовательности дважды с обоими сайтами вне распознаваемой последовательности, а ферменты типа II распознают асимметричную распознаваемую последовательность и расщепляют на одной стороне и на определенном расстоянии от около 1 до около 20 нуклеотидов от распознаваемой последовательности. Рестрикционные ферменты типа IV нацелены на метилированную ДНК.
В некоторых вариантах осуществления экзогенные донорные последовательности имеют короткие одноцепочечные области на 5'-конце и/или 3'-конце, которые комплементарны одному или более выступам, созданным нуклеазо-опосредованным или Cas-протеин-опосредованным расщеплением в геноме-мишени. локус (например, в гене B4GALT1). Эти выступы могут также упоминаться как 5' и 3' плечи гомологии. Например, некоторые экзогенные донорные последовательности имеют короткие одноцепочечные области на 5' конце и/или 3' конце, которые комплементарны одному или более выступам, создаваемым опосредованным Cas-белком расщеплением на 5' и/или 3' цели последовательности в целевом геномном локусе. В некоторых вариантах осуществления такие экзогенные донорные последовательности имеют комплементарную область только на 5'-конце или только на 3'-конце. Например, некоторые такие экзогенные донорные последовательности имеют комплементарную область только на 5'-конце, комплементарном выступу, созданному на 5'-последовательности-мишени в целевом геномном локусе, или только на 3'-конце, комплементарном выступу, созданному на 3'-конце последовательность-мишень в целевом геномном локусе. Другие такие экзогенные донорные последовательности имеют комплементарные области как на 5', так и на 3' концах. Например, другие такие экзогенные донорные последовательности имеют комплементарные области как на 5', так и на 3' концах, например, комплементарные первому и второму выступам, соответственно, генерируемые Cas-опосредованным расщеплением в целевом геномном локусе. Например, если экзогенная донорная последовательность является двухцепочечной, одноцепочечные комплементарные области могут простираться от 5'-конца верхней цепи донорной последовательности до 5'-конца нижней цепи донорной последовательности, создавая выступы на каждом конце. Альтернативно, одноцепочечная комплементарная область может простираться от 3'-конца верхней цепи донорной последовательности и от 3'-конца нижней цепи матрицы, создавая 3'-выступы.
Комплементарные области могут иметь любую длину, достаточную для стимулирования лигирования между экзогенной донорнрной последовательностью и эндогенным геном B4GALT1. Типичные комплементарные области имеют длину от около 1 до около 5 нуклеотидов, длину от около 1 до около 25 нуклеотидов или длину от около 5 до около 150 нуклеотидов. Например, дополнительная область может составлять, по меньшей мере, около 1, по меньшей мере, около 2, по меньшей мере, около 3, по меньшей мере, около 4, по меньшей мере, около 5, по меньшей мере, около 6, по меньшей мере, около 7, по меньшей мере, около 8, по меньшей мере, около 9, по меньшей мере, около 10, по меньшей мере, около 11, по меньшей мере, около 12, по меньшей мере, около 13, по меньшей мере, около 14, по меньшей мере, около 15, по меньшей мере, около 16, по меньшей мере, около 17, по меньшей мере, около 18, по меньшей мере, около 19, по меньшей мере, около 20, по меньшей мере, около 21, по меньшей мере, около 22, по меньшей мере, около 23, по меньшей мере, около 24 или, по меньшей мере, около 25 нуклеотидов в длину. Альтернативно, комплементарная область может составлять от около 5 до около 10, от около 10 до около 20, от около 20 до около 30, от около 30 до около 40, от около 40 до около 50, от около 50 до около 60, от около 60 до около 70, около От 70 до 80, от 80 до 90, от 90 до 100, от 100 до 110, от 110 до 120, от 120 до 130, от 130 до 140, от 140 до 150 нуклеотидов в длину, или больше.
Такие комплементарные области могут дополнять выступы, создаваемые двумя парами никаз. Два двухцепочечных разрыва с разнесенными концами могут быть созданы с помощью первой и второй никаз, которые расщепляют противоположные нити ДНК, чтобы создать первый двухцепочечный разрыв, и третьей и четвертой никаз, которые расщепляют противоположные нити ДНК, чтобы создать второй двухцепочечный разрыв. Например, белок Cas может быть использован для обозначения первой, второй, третьей и четвертой последовательностей, распознаваемых направляющими РНК, соответствующих первой, второй, третьей и четвертой направляющим РНК. Первую и вторую последовательности, распознаваемые направляющими РНК, можно расположить так, чтобы создать первый сайт расщепления таким образом, чтобы ники, созданные первой и второй никазами на первой и второй цепях ДНК, создавали двухцепочечный разрыв (то есть первый сайт расщепления содержит разрезы в первой и второй последовательностях, распознаваемых направляющими РНК). Аналогично, третья и четвертая последовательности, распознаваемые направляющими РНК, могут быть расположены таким образом для создания второго сайта расщепления, чтобы ники, созданные третьей и четвертой никазами на первой и второй цепях ДНК, создавали двухцепочечный разрыв (т.е. второй сайт расщепления содержит ники в третьей и четвертой последовательностях, распознаваемых направляющими РНК). В некоторых вариантах осуществления ники в первой и второй последовательностях, распознаваемых направляющими РНК, и/или в третьей и четвертой последовательностях, распознаваемых направляющими РНК, могут быть смещенными никами, которые создают выступы. Окно смещения может составлять, например, по меньшей мере, около 5 п.н., по меньшей мере, около 10 п.н., по меньшей мере, около 20 п.н., по меньшей мере, около 30 п.н., по меньшей мере, около 40 п.н., по меньшей мере, около 50 п.н., по меньшей мере, около 60 п.н., по меньшей мере, около 70 п.н., по меньшей мере, около 80 п.н., по меньшей мере, около 90 п.н. или, по меньшей мере, около 100 п.н. или более. В таких вариантах осуществления может быть сконструирована двухцепочечная экзогенная донорная последовательность с одноцепочечными комплементарными областями, которые комплементарны выступам, создаваемым никами в первой и второй последовательностях, распознаваемых направляющими РНК, и никами в третьей и четвертой последовательностях, распознаваемых направляющими РНК. Такая экзогенная донорная последовательность может быть затем вставлена путем лигирования, опосредованного присоединением негомологичных концов.
В некоторых вариантах осуществления экзогенные донорные последовательности (т.е. направляющие векторы) содержат плечи гомологии. Если экзогенная донорная последовательность также содержит вставку нуклеиновой кислоты, плечи гомологии могут фланкировать вставку нуклеиновой кислоты. Для простоты ссылки плечи гомологии упоминаются в данном документе как 5' и 3' (то есть, выше и ниже по последовательности) плечи гомологии. Эта терминология относится к относительному положению плечей гомологии относительно вставки нуклеиновой кислоты в последовательности экзогенного донора.
Плече гомологии и последовательность-мишень соответствуют друг другу, когда две области имеют достаточный уровень идентичности последовательности друг с другом, чтобы действовать в качестве субстрата для реакции гомологичной рекомбинации. Идентичность последовательности между конкретной последовательностью-мишенью и соответствующим плечом гомологии, обнаруженным в экзогенной донорной последовательности, может быть любой степени идентичности последовательности, которая позволяет происходить гомологичной рекомбинации. Например, степень идентичности последовательности, общая для группы гомологии экзогенной донорной последовательности (или ее фрагмента) и целевой последовательности (или ее фрагмента), может составлять, по меньшей мере, 50%, по меньшей мере, 55%, по меньшей мере, 60%, по меньшей мере, 65%, по меньшей мере, 70%, по меньшей мере, 75%, по меньшей мере, 80%, по меньшей мере, 81%, по меньшей мере, 82%, по меньшей мере, 83%, по меньшей мере, 84%, по меньшей мере, 85%, по меньшей мере, 86%, по меньшей мере, 87%, по меньшей мере, 88%, по меньшей мере, 89%, по меньшей мере, 90%, по меньшей мере, 91%, по меньшей мере, 92%, по меньшей мере, 93%, по меньшей мере, 94%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности последовательности, так что последовательности подвергаются гомологичной рекомбинации. Более того, соответствующая область гомологии между плечом гомологии и соответствующей последовательностью-мишенью может иметь любую длину, достаточную для обеспечения гомологичной рекомбинации. Иллюстративные плечи гомологии имеют длину от около 25 нуклеотидов до около 2,5 т.п.н., длину от около 25 нуклеотидов до около 1,5 т.п.н. или длину от около 25 до около 500 нуклеотидов. Например, данный участок гомологии (или каждое из плеч гомологии) и/или соответствующая последовательность-мишень могут содержать соответствующие области гомологии, которые составляют от около 25 до около 30, от около 30 до около 40, от около 40 до около 50, от около 50 до около 60, от около 60 до около 70, от около 70 до около 80, от около 80 до около 90, от около 90 до около 100, от около 100 до около 150, от около 150 до около 200, от от около 200 до около 250, от около 250 до около 300, от около 300 до около 350, от около 350 до около 400, от около 400 до около 450 или от около 450 до около 500 нуклеотидов в длину, так что гомология достаточна для гомологичной рекомбинации с соответствующими последовательностями-мишенями в эндогенном гене B4GALT1. Альтернативно, конкретное плечо гомологии (или каждое плечо гомологии) и/или соответствующая последовательность-мишень могут содержать соответствующие области гомологии, которые составляют от около 0,5 т.п.н. до около 1 т.п.н., от около 1 т.п.н. до около 1,5 т.п.н., от около 1,5 т.п.н. до около 2 т.п.н. или длиной от 2 до 2,5 т.п.н.. Например, каждое из плечей гомологии может иметь длину около 750 нуклеотидов. Плечи гомологии могут быть симметричными (каждое приблизительно одинакового размера в длину), или они могут быть асимметричными (одно длиннее другого).
Плечи гомологии могут соответствовать локусу, который является нативным для клетки (например, целевой локус). Альтернативно, они могут соответствовать области гетерологичного или экзогенного сегмента ДНК, которая была интегрирована в геном клетки, включая, например, трансгены, экспрессионные кассеты или гетерологичные или экзогенные области ДНК. В некоторых вариантах осуществления плечи гомологии направленного вектора могут соответствовать области дрожжевой искусственной хромосомы (YAC), бактериальной искусственной хромосомы (BAC), искусственной хромосомы человека или любой другой сконструированной области, содержащейся в подходящей клетке-хозяине. В некоторых вариантах осуществления плечи гомологии целевого вектора могут соответствовать или быть получены из области библиотеки BAC, космидной библиотеки или библиотеки фага P1 или могут быть получены из синтетической ДНК.
Когда нуклеазный агент используется в комбинации с экзогенной донорной последовательностью, 5'- и 3'-последовательности-мишени обычно располагаются в достаточной близости от сайта расщепления нуклеазой, чтобы способствовать возникновению события гомологичной рекомбинации между последовательностями-мишенями и гомологическое плечо при одноцепочечном разрыве (nick) или двухцепочечном разрыве в месте расщепления нуклеазой. Сайты расщепления нуклеазой включают в себя последовательность ДНК, в которой нуклеиновым агентом создается разрыв или двухцепочечный разрыв (например, белок Cas9, образующий комплекс с направляющей РНК). Последовательности-мишени внутри эндогенного гена B4GALT1, которые соответствуют 5' и 3' группам гомологии экзогенной донорной последовательности, «расположены в достаточной близости» от сайта расщепления нуклеазой, если расстояние такое, чтобы способствовать возникновению события гомологичной рекомбинации между 5' и 3' последовательностями-мишенями и плечами гомологии при одноцепочечном разрыве или двухцепочечном разрыве в сайте расщепления нуклеазой. Таким образом, последовательности-мишени, соответствующие 5' и/или 3' группам гомологии экзогенной донорной последовательности, могут быть, например, в пределах, по меньшей мере, 1 нуклеотида от данного сайта расщепления нуклеазой или в пределах, по меньшей мере, от 10 нуклеотидов до около 1000 нуклеотидов от конкретного сайта расщепления нуклеазой. В некоторых вариантах осуществления сайт расщепления нуклеазой может быть непосредственно смежен, по меньшей мере, с одной или обеими последовательностями-мишенями.
Пространственные отношения последовательностей-мишеней, которые соответствуют группам гомологии последовательности экзогенного донора и сайта расщепления нуклеазой, могут варьироваться. В некоторых вариантах осуществления последовательности-мишени могут быть расположены 5' от сайта расщепления нуклеазой, последовательности-мишени могут быть расположены 3' от сайта расщепления нуклеазой, или последовательности-мишени могут фланкировать сайт расщепления нуклеазой.
Данное раскрытие также предоставляет терапевтические способы и способы лечения или профилактики сердечно-сосудистых заболеваний у субъекта, страдающего или подверженного риску заболевания, с использованием способов, раскрытых в данном документе, для модификации или изменения экспрессии эндогенного гена B4GALT1. Данное раскрытие также предоставляет терапевтические способы и способы лечения или профилактики сердечно-сосудистых заболеваний у субъекта, страдающего или подверженного риску заболевания, с использованием способов уменьшения экспрессии эндогенной мРНК B4GALT1 или с использованием способов обеспечения рекомбинантных нуклеиновых кислот, кодирующих B4GALT1 полипептиды, обеспечивающие мРНК, кодирующие полипептиды B4GALT1, или предоставляющие полипептиды B4GALT1 субъекту. Способы могут включать введение одной или более молекул нуклеиновой кислоты или белков субъекту, в орган субъекта или в клетку субъекта (например, in vivo или ex vivo).
В некоторых вариантах осуществления раскрытие относится к мРНК, кодирующим полипептиды B4GALT1 (например, полинуклеотиды, как обсуждается в данном документе, например, мРНК, которая содержит последовательность SEQ ID NO:4) для применения в терапии. В некоторых таких вариантах осуществления терапия представляет собой лечение или предотвращение сердечно-сосудистого заболевания.
В некоторых вариантах осуществления раскрытие предоставляет полипептиды B4GALT1 (например, полипептиды, как описано в данном документе, например полипептиды, которые содержат последовательность SEQ ID NO:8) для применения в терапии. В некоторых таких вариантах осуществления терапия представляет собой лечение или предотвращение сердечно-сосудистого заболевания.
Субъекты включают людей и других млекопитающих (например, кошек, собак, грызунов, мышей или крыс) или не млекопитающих (например, птицы), которые получают профилактическое или терапевтическое лечение. Такими субъектами могут быть, например, субъект (например, человек), который не является носителем варианта B4GALT1 (или является только гетерозиготным носителем варианта B4GALT1) и имеет или подвержен развитию сердечно-сосудистой системы. условие.
Неограничивающие примеры сердечно-сосудистых заболеваний включают повышенный уровень одного или более сывороточных липидов. Липиды сыворотки включают один или более из холестерина, ЛПНП, ЛПВП, триглицеридов, холестерина ЛПВП и холестерина не-ЛПВП или любого их субфракции (например, ЛПВП2, ЛПВП2a, ЛПВП2b, ЛПВП2c, ЛПВП3, ЛПВП3a, ЛПВП3b, ЛПВП3c, ЛПВП3d, ЛПНП1, ЛПНП2, ЛПНП3, липопротеин A, Lpa1, Lpa1, Lpa3, Lpa4 или Lpa5). Сердечно-сосудистое заболевание может включать повышенные уровни кальцификации коронарной артерии. Сердечно-сосудистое заболевание может включать гликозилирование типа IId (CDG-Iid - Type IId glycosylation). Сердечно-сосудистое заболевание может содержать повышенный уровень перикардиального жира. Сердечно-сосудистое заболевание может включать атеротромботическое заболевание. Атеротромботическое заболевание может включать повышенные уровни фибриногена. Атеротромботическое заболевание может включать фибриноген-опосредованный сгусток крови. Сердечно-сосудистое заболевание может включать повышенные уровни фибриногена. Сердечно-сосудистое заболевание может содержать фибриноген-опосредованный сгусток крови. Сердечно-сосудистое заболевание может включать сгусток крови, образованный в результате активности фибриногена. Фибриноген-опосредованный сгусток крови или сгусток крови, образованный при участии активности фибриногена, может находиться в любой вене или артерии в организме.
Такие методы могут включать редактирование генома или генную терапию. Например, эндогенный ген B4GALT1, который не является вариантом B4GALT1, может быть модифицирован для включения варианта, связанного с вариантом B4GALT1 (то есть замена аспарагина на серин в положении, соответствующем положению 352 из полноразмерного/зрелого полипептида B4GALT1). В качестве другого примера, эндогенный ген B4GALT1, который не является вариантом B4GALT1, может быть нокаутирован или инактивирован. Аналогично, эндогенный ген B4GALT1, который не является вариантом B4GALT1, может быть нокаутирован или инактивирован, и ген B4GALT1, содержащий модификацию, связанную с вариантом B4GALT1 (например, полный миниген варианта B4GALT1, включающий модификацию), может быть введен и экспрессирован. Точно так же эндогенный ген B4GALT1, который не является вариантом B4GALT1, может быть нокаутирован или инактивирован, и может быть введена и экспрессирована рекомбинантная ДНК, кодирующая вариантный полипептид B4GALT1, и может быть введена и экспрессирована вариантная мРНК, кодирующая полипептид B4GALT1 (например, внутриклеточная белково-заместительная терапия), и/или может быть введен вариант полипептида B4GALT1 (например, белково-заместительная терапия).
В некоторых вариантах осуществления способы включают введение и экспрессию рекомбинантного гена B4GALT1, содержащего модификацию, связанную с вариантом B4GALT1 rs551564683 (например, полный вариант B4GALT1 или миниген, содержащий модификацию кислоты), введение и экспрессирование рекомбинантных нуклеиновых кислот (например, ДНК), кодирующий вариант полипептида B4GALT1 или его фрагменты, вводящий и экспрессирующий одну или более мРНК, кодирующих полипептид варианта B4GALT1 или его фрагменты (например, внутриклеточная заместительная терапия белка), или вводящий вариант полипептида B4GALT1 или их фрагменты (например, белково-заместительная терапия) без выбивания или инактивации эндогенного гена B4GALT1, который не является вариантом B4GALT1. В некоторых вариантах осуществления такие способы также могут быть выполнены в сочетании со способами, в которых эндогенная мРНК B4GALT1, которая не является вариантом B4GALT1, нацелена на сниженную экспрессию, например, путем использования антисмысловой РНК, миРНК или кшРНК.
Ген или миниген B4GALT1 или ДНК, кодирующая вариант полипептида B4GALT1 или его фрагментов, может быть введен и экспрессирован в форме вектора экспрессии, который не модифицирует геном, он может быть введен в форме целевого вектора таким образом, что он геномно интегрируется в эндогенный локус B4GALT1, или он может быть введен так, что он геномно интегрируется в локус, отличный от эндогенного локуса B4GALT1, такой как локус безопасной гавани (safe harbor locus). Геномно интегрированный ген B4GALT1 может быть функционально связан с промотором B4GALT1 или с другим промотором, таким как эндогенный промотор в сайте интеграции. Локусы безопасной гавани - это хромосомные сайты, где трансгены могут стабильно и надежно экспрессироваться во всех представляющих интерес тканях без неблагоприятного воздействия на структуру или экспрессию генов. Локусы безопасной гавани могут иметь, например, одну или более или все следующие характеристики: 1) расстояние более чем около 50 т.п.н. от 5'-конца любого гена; расстояние более чем около 300 т.п.н. от любого связанного с раком гена; расстояние более 300 т.п.н. от любой микроРНК; вне генной транскрипционной единицы и вне ультраконсервативных областей. Примеры подходящих локусов безопасной гавани включают, но не ограничиваются ими, сайт 1 аденоассоциированного вируса (AAVS1), локус гена рецептора 5 хемокинов (CC мотив) (CCR5) и человеческий ортолог локуса ROSA26 мыши.
В некоторых вариантах осуществления способы включают способ лечения субъекта, который не является носителем варианта B4GALT1 (или является только гетерозиготным носителем варианта B4GALT1) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту или введение в клетку субъекта: а) нуклеазного агента (или кодирующего нуклеиновую кислоту), который связывается с последовательностью, распознаваемой нуклеазой, в эндогенном гене B4GALT1, при этом последовательность, распознаваемая нуклеазой, включает или находится вблизи положений С 53575 по 53577 из SEQ ID NO:1; и b) экзогенной донорной последовательности, содержащей 5' гомологичный конец, который гибридизуется с 5' последовательностью-мишенью в положениях с 53575 по 53577 из SEQ ID NO:1, и вставку нуклеиновой кислоты, содержащей последовательность нуклеиновой кислоты, кодирующую серин, фланкированный 5' плечем гомологии и 3' плечем гомологии. Нуклеазный агент может расщеплять эндогенный ген B4GALT1 в клетке у субъекта, а последовательность экзогенного донора может рекомбинировать с эндогенным геном B4GALT1 в клетке, при этом при рекомбинации экзогенной донорной последовательности с эндогенным B4GALT1 геном, последовательность нуклеиновой кислоты, кодирующая серин, вставлена в нуклеотиды, соответствующие положениям с 53575 по 53577 последовательности SEQ ID NO:1. Примеры нуклеазных агентов (например, белка Cas9 и направляющей РНК), которые можно использовать в таких способах, раскрыты в другом месте данного документа.
В некоторых вариантах осуществления способы включают способ лечения субъекта, который не является носителем варианта B4GALT1 (или является только гетерозиготным носителем варианта B4GALT1) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту или введение в клетку субъекта экзогенной донорной последовательности, содержащей 5' плече гомологии, которая гибридизуется с целевой последовательностью 5' в положении, соответствующем положениям с 53575 по 53577 из SEQ ID NO:1, 3'-гомологии плечо, которое гибридизуется с целевой последовательностью 3' в положениях с 53575 по 53577 из SEQ ID NO:1, и вставка нуклеиновой кислоты, содержащая нуклеотидную последовательность, кодирующую серин, фланкированную 5' плечем гомологии и 3' плечем гомологии. Экзогенная донорная последовательность может рекомбинировать с эндогенным геном B4GALT1 в клетке, причем при рекомбинации экзогенной донорной последовательности с эндогенным геном B4GALT1 нуклеотидная последовательность, кодирующая серин, вставляется в нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:1.
Некоторые такие способы включают способ лечения субъекта, который не является носителем варианта B4GALT1 (или является только гетерозиготным носителем варианта B4GALT1) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту или введение в клетку субъекта: а) нуклеазного агента (или кодирующую его, нуклеиновую кислоту), который связывается с последовательностью, распознаваемой нуклеазой, в эндогенном гене B4GALT1, при этом последовательность, распознаваемая нуклеазой, содержит стартовый кодон для эндогенного гена B4GALT1 или находится в пределах около 10, около 20, около 30, около 40, около 50, около 100, около 200, около 300, около 400, около 500 или около 1000 нуклеотидов от стартового кодона или выбрана из SEQ ID NO: 9-12. Нуклеазный агент может расщеплять и нарушать экспрессию эндогенного гена B4GALT1 в клетке субъекта.
В некоторых вариантах осуществления способы включают способ лечения субъекта, который не является носителем варианта B4GALT1 (или является только гетерозиготным носителем варианта B4GALT1) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту или введение в клетку субъекта: а) нуклеазного агента (или кодирующую его нуклеиновую кислоту), который связывается с последовательностью, распознаваемой нуклеазой, в эндогенном гене B4GALT1, при этом последовательность, распознаваемая нуклеазой, содержит стартовый кодон для эндогенного гена B4GALT1 или находится в пределах около 10, в пределах около 20, в пределах около 30, в пределах около 40, в пределах около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500 или в пределах около 1000 нуклеотидов стартового кодона или выбрана из SEQ ID NO:9-12; и b) вектора экспрессии, содержащего рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность в положениях с 53575 по 53577, кодирующую серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1. Вектор экспрессии может быть таким, который не интегрируется в геном. Альтернативно, может быть введен направляющий вектор (то есть экзогенная донорная последовательность), содержащий рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность в положениях с 53575 по 53577, кодирующую серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1. Нуклеазный агент может расщеплять и нарушать экспрессию гена B4GALT1 в клетке субъекта, а вектор экспрессии может экспрессировать рекомбинантный ген B4GALT1 в клетке субъекта. Альтернативно, геномно интегрированный рекомбинантный ген B4GALT1 может экспрессироваться в клетке субъекта. Примеры нуклеазных агентов (например, нуклеазоактивного белка Cas9 и направляющей РНК), которые можно использовать в таких способах, раскрыты в другом месте данного документа. Примеры подходящих направляющих РНК и последовательностей, распознаваемых направляющими РНК, также раскрыты в другом месте данного документа. Стадия b) может альтернативно включать введение вектора экспрессии или нацеливающего вектора, содержащего нуклеиновую кислоту (например, ДНК), кодирующую полипептид B4GALT1, который имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту полипептида Asn352Ser B4GALT1 или его фрагмента и/или содержащему последовательность, которая имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту мРНК B4GALT1 или его фрагменту. Аналогично, стадия b) может также включать введение мРНК, кодирующей полипептид Asn352Ser B4GALT1 , который составляет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99%, или на 100% идентичности варианту полипептида Asn352Ser B4GALT1 или его фрагмента и/или имеющего комплементарную ДНК (или ее часть), которая имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту мРНК B4GALT1 или его фрагменту. Аналогично, стадия b) может также включать введение белка, содержащего аминокислотную последовательность, которая имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту полипептида Asn352Ser B4GALT1 или его фрагмента.
В некоторых вариантах осуществления второй нуклеазный агент также вводится в субъект или в клетку у субъекта, где второй нуклеазный агент связывается со второй последовательностью, распознаваемой нуклеазой, в эндогенном гене B4GALT1, при этом вторая последовательность, распознаваемая нуклеазой, содержит стоп-кодон для эндогенного гена B4GALT1 или находится в пределах около 10, в пределах около 20, в пределах около 30, в пределах около 40,в пределах около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500 или в пределах около 1000 нуклеотидов стоп-кодона или выбрана из SEQ ID NO:9-12, при этом нуклеазный агент расщепляет эндогенный ген B4GALT1 в клетке, как в первой последовательности, распознаваемой нуклеазой, так и во второй последовательности, распознаваемой нуклеазой, при этом клетка модифицирована для включения делеции между первой последовательностью, распознаваемой нуклеазой, и второй последовательностью, распознаваемой нуклеазой. В некоторых вариантах осуществления второй нуклеазный агент может представлять собой белок Cas9 и направляющую РНК. Подходящие направляющие РНК и последовательности, распознаваемые направляющими РНК, в непосредственной близости от стоп-кодона раскрыты в другом месте данного документа.
В некоторых вариантах осуществления способы также могут включать способ лечения субъекта, который не является носителем варианта B4GALT1 (или является только гетерозиготным носителем варианта B4GALT1) и имеет или подвержен развитию сердечно-сосудистого заболевания включающий введение субъекту или введение в клетку субъекта: антисмысловой РНК, миРНК или кшРНК, которая гибридизуется с последовательностью в области внутри эндогенной мРНК B4GALT1. Например, антисмысловая РНК, миРНК или кшРНК могут гибридизоваться с последовательностью в пределах области в экзоне 5 SEQ ID NO:3 (мРНК B4GALT1) и снижать экспрессию мРНК B4GALT1 в клетке субъекта. В некоторых вариантах осуществления такие способы могут дополнительно включать введение субъекту вектора экспрессии, содержащего рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность, кодирующую серин, вставленный в положениях с 53575 по 53577 последовательности SEQ ID NO:2. Вектор экспрессии может быть таким, который не интегрируется геномно. Альтернативно, может быть введен направляющий вектор (то есть экзогенная донорная последовательность), содержащий рекомбинантный ген B4GALT1, содержащий последовательность нуклеиновой кислоты, кодирующую серин, в положениях, соответствующих положениям с 53575 по 53577 из SEQ ID NO:2. В способах, в которых используется вектор экспрессии, вектор экспрессии может экспрессировать рекомбинантный ген B4GALT1 в клетке субъекта. Альтернативно, в способах, в которых рекомбинантный ген B4GALT1 геномно интегрирован, рекомбинантный ген B4GALT1 может экспрессироваться в клетке у субъекта.
В некоторых вариантах осуществления такие способы могут альтернативно включать введение вектора экспрессии или нацеленного вектора, содержащего нуклеиновую кислоту (например, ДНК), кодирующую полипептид B4GALT1, который имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту полипептида Asn352Ser B4GALT1 или его фрагмента и/или содержащему последовательность, которая имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности мРНК варианта B4GALT1 или ее фрагмента. Аналогично, такие способы могут альтернативно включать введение мРНК, кодирующей полипептид, который, по меньшей мере, на 90%, по меньшей мере, на 95%, по меньшей мере, на 96%, по меньшей мере, на 97%, по меньшей мере, на 98%, по меньшей мере, на 99% или на 100% идентичен варианту B4GALT1 полипептида Asn352Ser или его фрагмента и/или имеющий комплементарную ДНК (или ее часть), которая имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту мРНК B4GALT1 или его фрагменту. Аналогичным образом, такие способы могут альтернативно включать введение полипептида, содержащего последовательность, которая, по меньшей мере, на 90%, по меньшей мере, на 95%, по меньшей мере, на 96%, по меньшей мере, на 97%, по меньшей мере, на 98%, по меньшей мере, на 99% или на 100% идентична варианту полипептида Asn352Ser B4GALT1 или его фрагмента.
В некоторых вариантах осуществления такие способы могут включать способы лечения субъекта, который не является носителем варианта B4GALT1 (или является только гетерозиготным носителем варианта B4GALT1) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту или введение в клетку субъекта вектора экспрессии, при этом вектор экспрессии содержит рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность в положениях с 53575 по 53577, которые кодируют серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1, при этом вектор экспрессии экспрессирует рекомбинантный ген B4GALT1 в клетке субъекта. Вектор экспрессии может быть таким, который не интегрируется геномно. Альтернативно, может быть введен направляющий вектор (то есть экзогенная донорная последовательность), содержащий рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность в положениях с 53575 по 53577 из SEQ ID NO:2, которая кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1. В способах, в которых используется вектор экспрессии, вектор экспрессии может экспрессировать рекомбинантный ген B4GALT1 в клетке субъекта. Альтернативно, в способах, в которых рекомбинантный ген B4GALT1 геномно интегрирован, рекомбинантный ген B4GALT1 может экспрессироваться в клетке у субъекта.
Такие способы могут альтернативно включать введение вектора экспрессии или направленного вектора, содержащего нуклеиновую кислоту (например, ДНК), кодирующую полипептид B4GALT1, который составляет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту полипептида Asn352Ser B4GALT1 или его фрагменту и/или содержащему последовательность, которая имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту B4GALT1 мРНК или его фрагменту. Аналогично, такие способы могут альтернативно включать введение мРНК, кодирующей полипептид, который, по меньшей мере, на 90%, по меньшей мере, на 95%, по меньшей мере, на 96%, по меньшей мере, на 97%, по меньшей мере, на 98%, по меньшей мере, на 99% или на 100% идентичен варианту полипептида B4GALT1 или его фрагмента и/или имеющий комплементарную ДНК (или ее часть), которая имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту мРНК B4GALT1 или его фрагменту. Аналогичным образом, такие способы могут альтернативно включать введение белка, содержащего последовательность, которая, по меньшей мере, на 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентична варианту полипептида Asn352Ser B4GALT1 или его фрагменту.
Подходящие векторы экспрессии и рекомбинантные гены B4GALT1 для использования в любом из указанных выше способов раскрыты в другом месте данного документа. Например, рекомбинантный ген B4GALT1 может представлять собой полный вариантный гена B4GALT1 или может быть минигеном B4GALT1, в котором один или более несущественных сегментов гена удалены по отношению к соответствующему гену дикого типа B4GALT1. В качестве примера, удаленные сегменты могут содержать одну или более интронных последовательностей, а миниген может содержать экзоны с 1 по 6. Примером полного варианта варианта B4GALT1 является ген, который, по меньшей мере, на 90%, по меньшей мере, на 95%, по меньшей мере, на 96%, по меньшей мере, на 97%, по меньшей мере, на 98%, по меньшей мере, на 99% или на 100% идентичен SEQ ID NO: 2.
В некоторых вариантах осуществления такие способы включают способ модификации клетки у субъекта, имеющего или подверженного развитию сердечно-сосудистого заболевания. В таких способах нуклеазные агенты и/или экзогенные донорные последовательности и/или рекомбинантные экспрессирующие векторы могут быть введены в клетку путем введения в эффективном режиме, означающем дозировку, путь введения и частоту введения, которые задерживают начало, уменьшают тяжесть ингибируют дальнейшее ухудшение и/или улучшают, по меньшей мере, один признак или симптом сердечно-сосудистого заболевания, подвергаемого лечению. Термин «симптом» относится к субъективным признакам заболевания, воспринимаемым субъектом, а «признак» относится к объективным признакам заболевания, наблюдаемым врачом. Если субъект уже страдает от заболевания, режим можно назвать терапевтически эффективным режимом. Если субъект подвергается повышенному риску заболевания по отношению к популяции в целом, но еще не испытывает симптомов, этот режим можно назвать профилактически эффективным режимом. В некоторых случаях терапевтическая или профилактическая эффективность может наблюдаться у отдельного пациента по сравнению с историческими контролями или прошлым опытом у того же субъекта. В других случаях терапевтическая или профилактическая эффективность может быть продемонстрирована в доклинических или клинических испытаниях в популяции обработанных субъектов относительно контрольной популяции необработанных субъектов.
Доставка может быть любым подходящим способом, как раскрыто в другом месте в данном документе. Например, нуклеазные агенты или экзогенные донорные последовательности или рекомбинантные векторы экспрессии могут быть доставлены, например, посредством доставки вектора, доставки вируса, доставки, опосредованной частицами, доставки, опосредованной наночастицами, доставки, опосредованной липосомами, доставки, опосредованной экзосомой, доставки, опосредованной липидами, доставки, опосредованной липидными наночастицами, доставки, опосредованной пермеабилизацией клеток, или доставки, опосредованной имплантируемым устройством. Конкретные примеры включают гидродинамическую доставку, вирус-опосредованную доставку и липид-наночастицами-опосредованную доставку.
Введение может осуществляться любым подходящим путем, включая, но не ограничиваясь этим, парентеральный, внутривенный, оральный, подкожный, внутриартериальный, внутричерепной, интратекальный, внутрибрюшинный, местный, интраназальный или внутримышечный. Конкретным примером, который часто используется, например, для заместительной белковой терапии, является внутривенная инфузия. Частота введения и количество дозировок могут зависеть от периода полураспада нуклеазных агентов или последовательностей экзогенных доноров или рекомбинантных экспрессирующих векторов, состояния субъекта и пути введения среди других факторов. Фармацевтические композиции для введения желательно являются стерильными и по существу изотоническими и изготовлены в условиях GMP. Фармацевтические композиции могут быть предоставлены в единичной дозированной форме (то есть в дозировке для однократного введения). Фармацевтические композиции могут быть составлены с использованием одного или более физиологически и фармацевтически приемлемых носителей, разбавителей, наполнителей или вспомогательных веществ. Состав зависит от выбранного пути введения. Термин «фармацевтически приемлемый» означает, что носитель, разбавитель, эксципиент или вспомогательное вещество совместимы с другими ингредиентами препарата и по существу не вредны для их реципиента.
Другие такие способы включают способ, осуществляемый ex-vivo в клетке от субъекта, имеющего или подверженного развитию сердечно-сосудистого заболевания. Затем клетка с целевой генетической модификацией может быть трансплантирована обратно субъекту.
Данное раскрытие обеспечивает способы снижения ЛПНП у субъекта, нуждающегося в этом, путем снижения экспрессии эндогенного B4GALT1 дикого типа или увеличения экспрессии Asn352Ser B4GALT1 любым из способов, описанных в данном документе. Данное раскрытие обеспечивает способы снижения общего холестерина у субъекта, нуждающегося в этом, путем снижения экспрессии эндогенного B4GALT1 дикого типа или увеличения экспрессии Asn352Ser B4GALT1 любым из способов, описанных в данном документе. Данное раскрытие обеспечивает способы уменьшения фибриногена у субъекта, нуждающегося в этом, путем уменьшения экспрессии эндогенного B4GALT1 дикого типа или увеличения экспрессии Asn352Ser B4GALT1 любым из способов, описанных в данном документе. Данное раскрытие обеспечивает способы снижения рСКФ у субъекта, нуждающегося в этом, путем уменьшения экспрессии эндогенного B4GALT1 дикого типа или увеличения экспрессии Asn352Ser B4GALT1 любым из способов, описанных в данном документе. Данное раскрытие обеспечивает способы увеличения AST, но не ALT, у субъекта, нуждающегося в этом, путем снижения экспрессии эндогенного B4GALT1 дикого типа или увеличения экспрессии Asn352Ser B4GALT1 любым из способов, описанных в данном документе. Данное раскрытие обеспечивает способы увеличения креатинина у субъекта, нуждающегося в этом, путем уменьшения экспрессии эндогенного B4GALT1 дикого типа или увеличения экспрессии Asn352Ser B4GALT1 любым из способов, описанных в данном документе.
Данное раскрытие также предоставляет способы диагностики риска развития сердечно-сосудистого заболевания или диагностики риска развития сердечно-сосудистого заболевания и его лечения у субъекта, нуждающегося в этом, включающие: проведение теста, предоставляющего результаты анализа образца от субъекта на наличие или отсутствие варианта гена, мРНК, кДНК или полипептида варианта B4GALT1, как описано в данном документе; и у тех субъектов, которые не имеют варианта гена, мРНК, кДНК или полипептида варианта B4GALT1, введение субъекту терапевтического средства, такого как описано в данном документе. Можно использовать любой из описанных в данном документе тестов, с помощью которых определяют наличие или отсутствие варианта гена, мРНК, кДНК или полипептида варианта B4GALT1.
Данное раскрытие также обеспечивает использование любого из вариантов B4GALT1 генов, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновых кислот, раскрытых в данном документе, при производстве лекарственного средства для снижения ЛПНП, снижения общего холестерина, снижения фибриногена, уменьшения eGFR, увеличения AST (но не ALT) и повышение уровня креатинина у субъекта, нуждающегося в этом. Данное раскрытие также обеспечивает применение любого из вариантов генов B4GALT1, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновой кислоты при изготовлении лекарственного средства для лечения ишемической болезни сердца, кальцификации коронарной артерии и связанных с ними нарушений.
Данное раскрытие также обеспечивает использование любого из вариантов B4GALT1 генов, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновой кислоты, раскрытых в данном документе, для снижения ЛПНП, снижения общего холестерина, снижения фибриногена, снижения рСКФ, увеличения AST (но не ALT) и повышение уровня креатинина у субъекта, нуждающегося в этом.
Данное раскрытие также обеспечивает применение любого из гена, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновых кислот варианта B4GALT1 для лечения ишемической болезни сердца, кальцификации коронарных артерий, гликозилирования типа IId (CDG-IId) и связанных с ним нарушений.
Данное раскрытие также обеспечивает использованиелюбого из гена, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновых кислот варианта B4GALT1, раскрытых в данном документе, для модификации гена B4GALT1 в клетке у субъекта, нуждающегося в этом.
Данное раскрытие также обеспечивает применение любого из гена, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновых кислот варианта B4GALT1, раскрытых в данном документе, для изменения экспрессии гена B4GALT1 в клетке нуждающегося в этом субъекта.
Данное раскрытие также обеспечивает применение любого из гена, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновых кислот варианта B4GALT1, описанных в данном документе, для диагностики риска развития любых сердечно-сосудистых заболеваний, раскрытых в данном документе.
Данное раскрытие также обеспечивает использование любого из гена, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновых кислот варианта B4GALT1, описанных в данном документе, для диагностики субъекта, имеющего любое из сердечно-сосудистых заболеваний, раскрытых в данном документе.
Все патентные документы, веб-сайты, другие публикации, регистрационные номера и тому подобное, указанные выше или ниже, включены в качестве ссылки во всей их полноте для всех целей в той же степени, как если бы каждый отдельный элемент был специально и индивидуально указан для включения в качестве ссылки. Если разные версии последовательности связаны с номером доступа в разное время, подразумевается версия, связанная с номером доступа на дату подачи данной заявки. Дата вступления в силу означает более раннюю из фактической даты подачи или даты подачи приоритетной заявки со ссылкой на регистрационный номер, если применимо. Аналогичным образом, если разные версии публикации, веб-сайта и т.п. публикуются в разное время, подразумевается последняя версия, опубликованная на дату подачи заявки, если не указано иное. Любой признак, этап, элемент, вариант осуществления или аспект данного раскрытия может использоваться в сочетании с любым другим признаком, этапом, элементом, вариантом осуществления или аспектом, если специально не указано иное. Хотя данное раскрытие было описано более подробно с помощью иллюстрации и примера в целях ясности и понимания, будет очевидно, что определенные изменения и модификации могут быть осуществлены в рамках объема прилагаемой формулы изобретения.
Указанные в данном документе нуклеотидные и аминокислотные последовательности продемонстрированы с использованием стандартных буквенных сокращений для нуклеотидных оснований и однобуквенного кода для аминокислот. Нуклеотидные последовательности следуют стандартному соглашению, начиная с 5'-конца последовательности и продвигаясь вперед (то есть слева направо в каждой строке) до 3'-конца. Показана только одна цепь каждой нуклеотидной последовательности, но считается, что комплементарная цепь включена в любую ссылку на отображаемую цепь. Аминокислотные последовательности следуют стандартному соглашению, начиная с амино-конца последовательности и продвигаясь вперед (то есть слева направо в каждой строке) к карбокси-концу.
Заявка США № 62/659344, поданная 18 апреля 2018 года, заявка США № 62/550161, поданная 25 августа 2017 года, и заявка США № 62/515140, поданная 5 июня 2017 года, включены в данный документ посредством ссылки во всей их полноте.
Следующие примеры предоставлены для более подробного описания вариантов осуществления. Они предназначены для иллюстрации, а не для ограничения заявленных вариантов осуществления.
ПРИМЕРЫ
Пример 1: Определение нового локуса на хромосоме 9p.21, ассоциированного с сывороточными липидными признаками, со статистической значимостьбю в рамках генома
Материалы и методы:
Генотипирование на массиве и контроль качества: Геномная ДНК была извлечена из цельной крови у индивидуумов ООА (Old Order Amish) и количественно оценена с использованием пикогрин (picogreen). Генотипирование по всему геному было выполнено с помощью массивов Affymetrix 500K и 6.0 в центре биополимерных исследований Университета Мэриленда. Алгоритм BRLMM был использован для проявления генотипа. Образцы со степнью проявления <0,93, высоким уровнем Менделевской ошибки или гендерным несоответствием были исключены. ОНП с степенью проявления <0,95, HWEpval <1,0E-6 или MAF <0,01 были исключены. ОНП на хромосомах X и Y и митохондриальный геном также были исключены.
ПГС (полногеномное секвенирование - WGS - Whole Genome Sequencing) и КК(контроль качества - QC - Quality Control): Подготовка библиотеки и секвенирование всего генома проводились в Институте им. Брода в МТИ (Broad Institute of MIT) и Гарварде. Ядро ресурсов информатики NHLBI в Мичиганском университете выполнило выравнивание, проявление оснований и оценку качества последовательности всех образцов TOPMed и доставило файлы bcf для всех вариантов, которые прошли все фильтры качества с глубиной прочтения по меньшей мере, 10, которая использовалась для анализа. Далее КК применялся к этим файлам, включая делецию всех сайтов в LCR или Х-хромосоме. Варианты с > 5% степнью пропусков, H-значением р <1,0E-09 и MAF <0,1% также были удалены. Контроль качества образцов был выполнен для удаления образцов с > 5% степени пропусков, высоким уровнем Менделевской ошибки (в некоторых случаях) или одинаковыми (МЗ - монозиготными) близнецами (один из каждой пары).
ПЭС (полноэкзомное секвенирование - WES - Whole Exome Sequencing) и КК: Захват и секвенирование экзома проводили в Центре генетики Regeneron (RGC), как более подробно описано ниже. Вкратце, захваченные библиотеки были секвенированы на платформе Illumina HiSeq 2500 с химией v4 с использованием парных чтений со скоростью 75 п.н. Секвенирование парных концов захваченных оснований было выполнено так, чтобы > 85% оснований были покрыты 20 раз или более, что достаточно для проявления гетерозиготных вариантов по большинству целевых оснований. Выравнивание чтения и проявление варианта выполнялись с использованием BWA-MEM и GATK, как это реализовано в конвейере анализа RGC DNAseq. Образцы со степенью проявления <0,90, высоким уровнем Менделевских ошибок, одинаковыми (MZ) близнецами (по одной на каждую пару) или гендерным несоответствием были исключены. ОНП с степенью проявления <0,90 и мономорфными ОНП также были исключены. ОНП в хромосомах X и Y и митохондриальный геном также были исключены.
Анализ ассоциации: Пробы крови натощак собирали и использовали для анализа липидов. ЛПНП рассчитывали по формуле Фридевальда, и в некоторых анализах с субъектами, принимающими препараты, снижающие уровень липидов, корректировали путем деления их уровней ЛПНП на 0,7. Анализ генетической ассоциации был выполнен с использованием линейных смешанных моделей для учета семейной корреляции с использованием основанной на родословной матрице родства и/или семейной коррекции, которая оценивает родство по ПЭС. Анализ также корректировался по возрасту, возрасту в квадрате, полу, когорте и генотипу APOB R3527Q. APOB R3527Q часто встречается у амишей и ранее было установлено, что он оказывает сильное влияние на уровни ЛПНП (58 мг/дл) (Shen et al., Arch Intern. Med., 2010, 170, 1850-1855), и, следовательно, эффект этого варианта в анализе ЛПНП был принят во внимание. В качестве порога значимости использовали скорректированное по геному p-значение 5,0E-08.
Определение связи между областью хромосомы 9p и ЛПНП с использованием Полногеномного Поиска Ассоциаций (ПГПА - GWAS - Genome Wide Association):
Для выявления причинных вариантов в новых генах, связанных с сердечно-сосудистыми факторами риска, был проведен анализ полногеномнойф ассоциаций с использованием 1852 субъектов-амишей Старого порядка, генотипированных Affymetrix 500K и 6.0 массивов. Основные характеристики этих участников приведены в Таблице 1.
Таблица 1: Основные характеристики исследуемых популяций
вание)
Точное картирование
Почти все образцы точного картирования ПГС (96%) были включены в образцы для ПГПА.
Только 30% образцов ПЭС были включены в образцы ПГПА или ПГС.
Как продемонстрировано на Фиг. 1, был обнаружен сильный новый сигнал ассоциации между ЛПНП и локусом на хромосоме 9p. Основным ассоциированным ОНП был rs855453 (p=2.2E-08) и имел частоту 15% у амишей и 25% у населения в целом. Незначительный аллель Т был связан с более низким уровнем ЛПНП на 10 мг/дл. Таким образом, этот ОНП по ПГПА распространен как у амишей, так и в других популяциях, и имеет большой размер эффекта, но никогда не был идентифицирован ни в одном из крупных метаанализов ПГПА. Эти характеристики соответствуют характеристикам предыдущих исследований (APOC3 и LIPE), и на основании этого был сделан вывод, что этот ОНП ПГПА не был причинно-функциональным вариантом в этом регионе, а скорее связан с неравновесным сцеплением (LD - linkage disequilibrium) с другим вариантом, который редко встречается среди населения в целом, но встречается среди населения амишей. Кроме того, многочисленные исследования, основанные на 5 независимых скрещиваниях нескольких штаммов, также обнаружили, что синтеническая область генома крысы, расположенная на хромосоме 5 крысы, содержит QTL для уровня холестерина и триглицеридов в сыворотке (база данных генома крысы (RGD - Rat Genome Database). Scl12.26. 35. 44, 54 и Stl 28).
Подтверждение с использованием Полноэкзомного Секвенирования (ПЭС -WES - Whole Exome Sequencing):
ПЭС после КК для 4565 особей амишей, основные характеристики которых приведены в Таблице 1, впоследствии были использованы. Результаты смешанного модельного полноэкзомного анализа ЛПНП идентифицировали миссенс-вариант B4GALT1 rs551564683 как наиболее значимую связь с p-значением 3,3E-18 и размером эффекта на 14,7 мг/дл более низкого ЛПНП. Вариант rs551564683 имел MAF 6% у амишей, в то время как чрезвычайно редкий среди населения в целом. Вариант находится в бдОНП без информации о частоте или населении, не существует в базе данных ExAC (60 000 образцов), и только одна копия была найдена в ПГС из 15 387 не-амишей в наборе данных Trans-Omics для точной медицины NHLBI (TOPMed). Кроме того, в совокупности данных других популяционных когорт, доступных для исследователей - всего 125 401 особь, - было найдено только 79 гетерозигот и 5 гомозигот по этому варианту (демонстрируя более чем 1000-кратное обогащение в популяции амишей). Этот несоответствующий вариант находится на расстоянии 500 Кб от варианта ПГПА с оценкой r2 LD, равной 0,5. Там нет идеально коррелированных вариантов с rs551564683; Фактически, следующим наиболее значимым ОНП является rs149557496 с p-значением E-14. Таким образом, не только сила ассоциации rs551564683 подтверждает, что локус ПГПА хромосомы 9 является реальным, но и rs551564683 обладает всеми характеристиками, ожидаемыми для случайного варианта.
Точное картирование области 9p хромосомы с использованием Полногеномного Секвенирования (ПГС):
ПГС, доступное на меньшем образце, использовалось, чтобы заполнить пробелы в последовательности экзома, чтобы предоставить дополнительные доказательства того, что rs551564683 является причинно-следственным/функциональным. Данные ПГС для 1083 OOA были сгенерированы как часть программы TOPMed. Основные характеристики образцов ПГС приведены в Таблице 1. ПГС захватывает все ОНП и инделы (вставка/делеция) - как кодирующие, так и некодирующие - которые могут коррелировать с лучшими вариантами в интересующей области. Поскольку верхние варианты имеют частоту ~ 6%, очень маловероятно, что будет недостаточно чтения последовательности, чтобы вызывающий вариант пропустил вариант. Тем по меньшей мере,, могут быть варианты, исключенные во время процедуры контроля качества. Изучив варианты, которые не прошли КК, в анализ были добавлены 2 дополнительных варианта. Анализ ассоциации идентифицировал миссенс ОНП (N352S) rs551564683 в гене B4GALT1 как наиболее значимый вариант с ЛПНП в этом регионе с p-значением 2,9E-06 и размером эффекта -16,4 мг/дл (см. Таблицу 2).
Таблица 2: Средний (n) уровень ЛПНП (мг/дл) по генотипу, содержащему rs551564683, в ООА
Набор данных TOPMed ПГС предоставил 20 вариантов, связанных с ЛПНП, с p-значениями от 2.9E-06 до 2.5E-05 и сильно, но не идеально, коррелированными с лучшим попаданием rs551564683 (r2=0,83-0,94) (см. Красный на Фиг. 2). Условный анализ с поправкой на rs551564683 полностью отменил сигнал ассоциации 20 вариантов и не выявил никаких других сигналов в этой области, что сильно указывало на один причинный вариант.
Путем тщательного изучения этих 20 вариантов (см. красный на Фиг. 2) варианты были разделены на 2 группы: 7 красных вариантов внутри заштрихованного треугольника и 13 не заштрихованных красных вариантов. 7 красных вариантов в заштрихованном треугольнике были почти полностью коррелировали друг с другом и имели r2 0,83 с наибольшим хитом rs551564683. Эти 7 вариантов были безопасно исключены как причинно-следственные/функциональные по трем причинам: 1) они относительно распространены за пределами OOA (maf> 1%), 2) они не показали никакой связи с ЛПНП в 3877 образцах из Framingham Heart Study (FHS)) в TOPMed, и 3) один из этих 7 вариантов имел p-значение ассоциации ЛПНП 6,3E-14 против 3,3E-18 для наибольшего попадания rs551564683 в данных ПЭС по 4565 субъектам OOA.
Другая группа вариантов в заштрихованном прямоугольнике на Фиг. 2 также имела ассоциацию со значением р только около 10E-6 и эти варианты полностью коррелировали друг с другом и имели r2 0,68 с наибольшим попаданием rs551564683. Эта группа была также исключена как причинно-следственная/функциональная, поскольку ее члены распространены за пределами OOA (maf ~ 4%) и не показали никакой связи с ЛПНП в 3877 образцах из FHS в рамках TOPMed.
Остались лучшие хиты rs551564683 и 13 незатененных красных вариантов на Фиг. 2, которые простираются на 4 Мб на коротком плече хромосомы 9 с 31,5 Мб до 35,5 Мб. Как описано выше, эти 13 вариантов были почти полностью связаны друг с другом и имели r2 0,91-0,94 с наибольшим хитом rs551564683. Среди этих вариантов самый высокий код rs551564683 был единственным вариантом кодирования, и он был классифицирован как повреждающий или вредный с помощью 5 из 9 алгоритмов, которые предсказывают влияние варианта на функцию белка. Топ-рейтинг rs551564683, и у этих 13 вариантов в ООА было 6% маф (maf), хотя в общей популяции их почти не было.
Анализ гаплотипов:
Несовершенный r2 между различными локусами является результатом событий рекомбинации. Был проведен детальный анализ основных 14-ОНП гаплотипов. На Фиг. 3 продемонстрированы 3 основных гаплотипа в этой области 4 Мб. Есть 115 субъектов (1 гомозигота и 114 гетерозигот) с гаплотипом А, которые имели идентичные генотипы по 14 ОНП, не предоставили информации о том, какой ОНП может быть причиной. Шесть субъектов имели гаплотип B, который содержал гетерозиготные генотипы по rs551564683 плюс 4 расположенных выше ОНП, и 7 субъектов имели гаплотип C, который содержал гетерозиготные генотипы по rs551564683 плюс 9 расположенных ниже ОНП. Рекомбинантные гаплотипы B и C сгруппированы у родственных субъектов, что свидетельствует о том, что они не являются артефактами ошибки генотипирования. В Таблице 3 продемонстрированы значения p rs551564683 после добавления индивидуумов с гаплотипами B и C в одну группу по сравнению с индивидуумами с гаплотипом A.
Таблица 3: Результаты анализа гаплотипов
Добавление каждого из гаплотипов B и C в отдельности улучшило значение p, а добавление обоих из них улучшило значение p еще больше. Улучшенные значения р показали, что оба гаплотипа В и С несут аллель являющийся причиной. Единственный общий ОНП между B и C был rs551564683, который считался вариантом, являющимся причиной.
Врожденное нарушение гликозилирования связанное с B4GALT1 согласуется с функциональной ролью rs551564683:
Было проведено Полнофенотипический Поиск Ассоциаций (ПФПА -PheWAS - phenotype-wide association study) для проверки ассоциации rs551564683 со всеми признаками в базе данных амишей. Самая сильная связь после ЛПНП (р=3,3E-18) и общего холестерина (р=3,0E-18) была обнаружена с аспартаттрансаминазой (АСТ) (р=3,0E-8), где гомозиготы рецессивных аллелей имели двукратное повышение уровня АСТ по сравнению с гомозиготами дикого типа. Ранее сообщалось о повышении АСТ в случае врожденного расстройства гликозилирования (CGD - Congenital Disorder of Glycosylation), вызванного введением сдвига рамки в B4GALT1, что привело к усеченному дисфункциональному белку. Кроме того, наблюдалась сильная связь с уровнями фибриногена (p=5,0E-4), где уровень рецессивных гомозигот был на около 20% ниже, чем у дикого типа, что соответствовало дефекту свертывания крови у того же пациента с CDG. Кроме того, в небольшом эксперименте было выявлено 50% повышение (p=0,02) уровня креатинкиназы в сыворотке у 13 рецессивных аллельных гомозигот по сравнению с 13 гомозиготами дикого типа. Эта согласованность в фенотипе, связанном с миссенс-ОНП и вызванными усеченной вставкой в B4GALT1, еще более подтверждает, что B4GALT1 rs551564683 ОНП является причинно-следственным/функциональным геном и вариантом в этой области.
Ассоциация между липидными субфракциями и rs551564683 была исследована в подгруппе из 759 индивидуумова-амишей, и была обнаружена ассоциация с более низкими уровнями почти всех субфракций со значительными или незначительными p-значениями, как продемонстрировано в Таблице 4.
Показатель кальцификации коронарных артерий, показатель кальцификации аорты и перикардиальный жир показали тенденцию ассоциации с более низкими уровнями, но без значимых p-значений.
ПФПА также обнаружил, что rs551564683 ассоциируется с более высоким креатинином и более низкой СКФ, а также с более высоким гематокритом и низкими базофилами.
Таблица 4: Ассоциация между rs551564683 и липидными субфракциями у 759 особей ООА
Пример 2: Подготовка проб и секвенирование
Концентрации образцов геномной ДНК были получены от амишей, а затем перенесены в собственное учреждение и хранились при -80°C (LiCONiC TubeStore) до анализа последовательности. Количество образца определяли по флуоресценции (Life Technologies), а качество оценивали, прогоняя 100 нг образца в 2% предварительно залитом агарозном геле (Life Technologies).
Образцы ДНК были нормализованы, и каждый образец был обработан до средней длины фрагмента 150 пар оснований с использованием сфокусированной акустической энергии (Covaris LE220). Порезанную геномную ДНК готовили для захвата экзома с помощью специального набора реагентов от Kapa Biosystems с использованием полностью автоматизированного подхода, разработанного собственными силами. Уникальный штрих-код из 6 пар оснований был добавлен к каждому фрагменту ДНК во время подготовки библиотеки для облегчения захвата и секвенирования мультиплексного экзома. Равные количества образца объединяли перед захватом экзома с помощью инструмента для дизайна xGen, доступном от IDT, с некоторыми модификациями. Мультиплексированные образцы были секвенированы с использованием парного секвенирования 75 пар оснований на Illumina v4 HiSeq 2500.
Необработанные данные последовательности, сгенерированные на платформе Illumina Hiseq 2500, были загружены на высокопроизводительный вычислительный ресурс в DNAnexus (DNAnexus Inc., Mountain View, CA), а автоматизированные рабочие процессы обработали необработанные файлы.bcl в аннотированные проявления вариантов. Исходные показания были назначены для соответствующих образцов для анализа на основе конкретных штрих-кодов образцов с использованием программного обеспечения CASAVA (Illumina Inc., Сан-Диего, Калифорния).
Затем показания для конкретных образцов были приведены в соответствие с эталонной последовательностью с использованием BWA-mem (Li and Durbin, Bioinformatics, 2009, 25, 1754-1760). Это привело к созданию файла двоичного выравнивания (BAM - binary alignment) для каждого образца со всеми считываниями конкретного образца и геномными координатами, с которыми сопоставлено каждое чтение. После выравнивания чтения образца были оценены, чтобы идентифицировать и помечать дубликаты чтения с помощью инструмента Picard MarkDuplicates (picard.sourceforge.net), создавая файл выравнивания с каждым отмеченным дублированием чтения (duplicatesMarked.BAM).
Набор инструментов для анализа генома (GATK - Genome Analysis Toolkit) (Van der Auwera, Cur. Protocols in Bioinformatics, 2013, 11, 11-33; McKenna, Genome Res., 2010, 20, 1297-1303) затем использовался для проведения локальной перестройки выровненных и помеченных как дубликаты чтений каждого образца. Затем GATK HaplotypeCaller использовался для обработки перестроенных считываний, помеченных как дубликаты, и для идентификации всех экзонных положений, в которых образец отличается от эталона генома, включая вариации одиночного нуклеотида и инделы, а также зиготность варианта в образце в любой позиции где этот конкретный образец отличается от эталонного.
Связанные измерения, включая количество считываний, назначенных как для эталонного, так и для альтернативного аллеля, качество генотипа, представляющее достоверность вызова генотипа, и общее качество варианта проявления в этой позиции, выводились на каждом сайте варианта. Затем для оценки общего показателя качества вариантов выборки использовали перекалибровку показателя качества вариантов (VQSR - Variant Quality Score Recalibration) из GATK, используя обучающие наборы данных для оценки и пересчета этого показателя для повышения специфичности. Метрическая статистика была собрана для каждого образца, чтобы оценить производительность захвата, производительность выравнивания и проявление варианта. После завершения когортного секвенирования VCF на уровне проекта был создан путем совместного генотипирования с использованием GATK для получения генотипа и связанной метрической информации для всех образцов в любом месте, где любой образец в когорте несет вариант из эталонного генома. Именно этот VCF на уровне проекта использовался для последующего статистического анализа. В дополнение к VQSR варианты были аннотированы с помощью метрики «Качество по глубине» (QD - Quality By Depth) с использованием GATK, а также биаллельных вариантов с QD> 2,0, показателями пропущенности <1% и равновесными p-значениями Харди-Вайнберга> 1,0×10-6 были сохранены для дальнейшего анализа.
До анализа данных последовательностей расположенных ниже, образцы с сообщенным пол, который не соответствовал генетически определенному полу, образцы с высокими показателями гетерозиготности, низким охватом последовательности (определяемый как охват в 20 раз менее 75% целевых оснований) или необычно высокой степенью скрытности родства и генетически идентифицированные дубликаты образцов были исключены.
Варианты последовательности были аннотированы с использованием конвейера аннотаций, который использует ANNOVAR (Wang et al., Nuc. Acids Res., 2010, 38, e164) и другие настраиваемые алгоритмы для аннотирования и анализа. Варианты были классифицированы в соответствии с их потенциальными функциональными эффектами, а затем отфильтрованы по их наблюдаемым частотам в общедоступных базах данных по контролю населения и базах данных, чтобы отфильтровать распространенные полиморфизмы и высокочастотные, вероятно, доброкачественные варианты. Алгоритмы биоинформационного прогнозирования функциональных эффектов вариантов наряду с оценками сохранения, основанными на сопоставлении нескольких видов, были включены в процесс аннотирования вариантов и использовались для информирования о потенциальной вредности идентифицированных вариантов-кандидатов.
Пример 3: Частота N352S B4GALT1 rs551564683 увеличена у амишей
Посредством секвенирования экзома и анализа ассоциации у ~ 4700 субъектов-амишей было обнаружено, что rs551564683 на хромосоме 9 тесно связана с уровнем общего холестерина (p=1,3E-10) (см. Фиг. 4). RS551564683 кодирует миссенс-вариант, в котором серин заменен на аспарагин в положении 352 в белке B4GALT1. Следующим наиболее высоко-ассоциированным с ЛНП вариантом в регионе был rs149557496 с p-значением только 10-5, что указывает на то, что вариант N352S является наиболее вероятным причинным вариантом. Ссылаясь конкретно на Фиг. 4, в данных последовательности экзома варианта в самом высоком LD с Asn352Ser B4GALT1 был rs149557496 в HRCT1, удаленный 2,8 Мб, R2 0,78, значение P с ЛПНП у амишей 10-5. Данные по последовательности всего генома у амишей (TOPMED) не смогли идентифицировать вариант, более тесно связанный с ЛПНП-C в этом регионе.
Дальнейший анализ показал, что частота вариаций N352S B4GALT1 была более чем в 1000 раз увеличена в популяции амишей (см. Рис. 5). Данные показали, что в когорте 4725 амишей было идентифицировано 548 гетерозиготных носителей для аллеля, содержащего rs551564683, и 13 носителей были гомозиготными по аллелю (см. Рис. 5). Для сравнения, был проанализирован совокупный набор данных других популяционных когорт, доступных исследователям - всего 125 401 особь - и только 79 гетерозигот и 5 гомозигот были идентифицированы в этом совокупном наборе данных. Частота аллелей в когорте амишей оценивалась около в 0,06 по сравнению с около 0,0025 в наборе данных (см. Фиг. 5). Считается, что генетический дрейф может объяснить более высокую частоту этого аллеля у амишей.
Пример 4: N352S B4GALT1 связан со снижением уровня липидов в сыворотке и повышением АСТ
Была оценена ассоциация вариации N352S B4GALT1 с различными фенотипами, включая сывороточные липиды, ишемическую болезнь сердца (ИБС - CAD -coronary artery disease) и особенностями печени. Ассоциации были проведены на основе когорты амишей, с индивидуумами, которые были гомозиготными по эталонному аллелю, которые были гетерозиготными по альтернативному аллелю и которые были гомозиготными по альтернативному аллелю. Были определены генотипические средства для липидных и печеночных признаков и риска развития ИБС, а меры воздействия были скорректированы путем устранения влияния возраста и квадрата возраста субъекта, пола субъекта и исследования (поскольку данные о фенотипе были собраны из нескольких исследований за период лет). В случае перикардиального жира генотипические средства были дополнительно скорректированы на ИМТ. Величины влияния вариации на измеренные фенотипы измеряли с 95% доверительным интервалом. Признаки и результаты представлены на Фиг. 6, Фиг. 7 и Фиг. 8.
Как продемонстрировано на Фиг. 6, наличие вариации N352S, как правило, коррелировало с уменьшением сывороточных липидов, особенно для общего холестерина (значение p 1,3×10-10) и ЛПНП (значение p 1,8×10-9), который достиг сильной статистической значимости. Индивидуумы, гетерозиготные и гомозиготные по этому изменению, продемонстрировали снижение уровней ЛПНП на 17,3 мг/дл и 31,2 мг/дл соответственно. Существовала тенденция между вариантом и уменьшением кальцификации коронарной артерии. Кроме того, наличие этой вариации коррелировало с повышенными уровнями аспартатаминотрансферазы (АСТ) (значение p 6,0 × 10-8). Было определено, что значение p для рецессивной модели для уровней АСТ составляет 9 × 10-23. Изменения, по-видимому, не коррелируют с повышенными уровнями аланинаминотрансферазы (АЛТ), уровнями щелочной фосфатазы или уровнями жира в печени. Уровни холестерина, ЛПНП и АСТ графически продемонстрированы на Фиг. 7. На Фиг. 7 уровни холестерина, ЛПНП и АСТ продемонстрированы для субъектов, которые были гомозиготными (ТТ) для эталонного аллеля, гетерозиготными (СТ) для альтернативного аллеля и гомозиготными (СС) для альтернативного аллеля. Показанные значения не скорректированы. Значения были пересчитаны на основе корректировок по возрасту и квадрату возраста, полу и исследованию (Таблица в нижней части рисунка 7).
Влияние изменения N352S на липидные субфракции также оценивали. Эти результаты продемонстрированы на Фиг. 8. Ассоциации были проведены на основе когорты амишей, с индивидуумами, которые были гомозиготными по эталонному аллелю, которые были гетерозиготными по альтернативному аллелю и которые были гомозиготными по альтернативному аллелю. Результаты на Фиг. 8 демонстрируют, что изменение N352S B4GALT1 ассоциируется с уменьшением во всех протестированных липидных субфракциях.
Пример 5: N352S B4GALT1 связан со сниженным уровнем фибриногена
Ассоциация вариаций N352S B4GALT1 с уровнями фибриногена также была оценена в подмножестве образцов. Что касается сывороточных липидов, CAD и особенностей печени, оцененных в Примере 4, связь с уровнями фибриногена была выполнена на основе когорты амишей, с лицами, которые были гомозиготными по альтернативному аллелю, которые были гетерозиготными по эталонному аллелю, и которые были гомозиготными по альтернативному аллелю. Генотипические средние значения уровней фибриногена были определены в двух подгруппах индивидуумов - индивидуумах, не принимавших режим клопидогрела (наивные по препарату), и индивидуумов, принимавших режим клопидогрела (на клопидогреле), и, как часть анализа, средние уровни в каждой группе были скорректированы путем устранения влияния возраста субъекта и возраста в квадрате, пола субъекта и исследования. Величины эффекта изменения уровней фибриногена измеряли при доверительном интервале 95%. Как продемонстрировано на Фиг. 9, наличие вариации N352S было связано с пониженными уровнями фибриногена у каждого из наивных препаратов (значение p 1,15×10-3) и на клопидогреле (значение p 2,74×10-5) группы. Подгруппа, не получавшая лекарств, показала снижение фибриногена на около 24 мг/дл (см. Рис. 9). Подгруппа по клопидогрелу показала снижение фибриногена на около 32,5 мг/дл (см. Рис. 9).
Пример 6: Дополнительные ассоциации N352S B4GALT1
В когорте амишей также была проведена оценка связей между вариацией N352S B4GALT1 и другими признаками, включая уровни креатинина, расчетную скорость клубочковой фильтрации (рСКФ), уровни базофилов и процент гематокрита. Как продемонстрировано на Фиг. 9, вариант слабо связан с небольшим повышением уровней креатинина, но незначительно связан с рСКФ, уровнями базофилов или процентом гематокрита.
Пример 7: Нокаут ортолога b4galt1 у рыбок данио
Параллельно с данными, полученными в клеточных анализах, была использована модель рыбок данио для изучения влияния Asn352Ser B4GALT1 на ЛПНП.
Разведение данио, морфолино инъекция и валидация
Запасы рыбок данио дикого типа (Tubingen) использовали для создания эмбрионов для инъекции морфолино. Взрослую рыбу содержали и разводили при 27-29°С, а эмбрионы выращивали при 28,5°С. Все животные содержались и разводимлись в соответствии с протоколами, утвержденными Комитетом по уходу и использованию животных Университета штата Мэриленд. Морфолино-антисмысловые олигонуклеотиды (MO) были получены (Gene Tools, Inc.) на основе ранее опубликованных MO, нацеленных против b4galt1 (Machingo et al., Dev. Biol., 2006, 297, 471-482). MO инъецировали на стадии 1-2 клеток и проверяли путем количественной оценки кОТ-ПЦР транскрипта b4galt1 дикого типа. Токсичность, не являющуюся целью, оценивали с помощью количественной оценки с помощью кОТ-ПЦРR изоформы delta113 p53 (Robu et al., PLoS Genet., 2007, 3, e78). В экспериментах по сохранению мРНК мРНК B4GALT1 человека транскрибировали из плазмидного вектора pCS2+, содержащего открытую рамку считывания (ORF - open reading frame) гена дикого типа или варианта N352S. мРНК смешивали с МО в различных концентрациях и совместно вводили в 1-2 эмбриона на клеточной стадии. Для каждого эксперимента с инъекцией инъецировали всего 200-400 эмбрионов, и каждый эксперимент повторяли минимум три раза.
Количественная оценка ЛПНП у рыбок данио
Сто личинок через 5 дней после оплодотворения (dpf - days post fertilization) гомогенизировали в эксперименте в 400 мкл охлажденного льдом 10 мкМ бутилированного гидрокситолуола. Гомогенат фильтровали через мембранный фильтр Dura PVDF 0,45 мкм (Millipore) для подготовки к экстракции липидов. Используя набор для анализа холестерина ЛПВП и ЛПНП/ЛПОНП (Cell Biolabs, Inc.), гомогенат обрабатывали в соответствии с протоколом производителя. После осаждения и разбавления образцы анализировали флуориметрическим анализом с использованием планшет-ридера SpectraMax Gemini EM и программного обеспечения для сбора и анализа данных микропланшетов SoftMax Pro (Molecular Devices).
Геномный нокаут ортолога рыбок данио (b4galt1) был получен с использованием CRISPR/Cas9-опосредованного нацеливания на экзон 2. В соответствии с сообщениями об эмбриональной летальности нокаутированных животных у мышей, инъецированные животные F0 не были жизнеспособными для взрослой жизни и постоянно умирали на ювенильных стадиях. Чтобы обойти отсутствие жизнеспособности, использовался нокдаун-подход с использованием ранее сообщавшегося антисмыслового антисмыслового морфолино-олигонуклеотида (МО), блокирующего сплайсинг, вводимого эмбрионам (Machingo et al., Dev. Biol., 2006, 297, 471-482). Эффективность МО была подтверждена при двух разных концентрациях с помощью кОТ-ПЦР (см. Рис. 10) и исключила возможность нецелевой токсичности (см. Рис. 11). Чтобы количественно оценить изменения в уровнях ЛПНП, инъецировали 8 нг МО и инъецированные эмбрионы культивировали до 5 дней после оплодотворения (dpf), на этой стадии личинки анализировали на общий ЛПНП согласно ранее опубликованным протоколам (O'Hare et al., J. Lipid Res., 2014, 55, 2242-2253). Наблюдалось значительное снижение ЛПНП у личинок с инъекцией МО по сравнению с контрольными личинками, что согласуется с ролью b4galt1 в гомеостазе ЛПНП (см. Рис. 12). Этот результат был подтвержден с использованием второго нацеленного на сплайсинг экзона 2 МО, который приводил к снижению концентрации ЛПНП при инъекции 2 нг МО (данные не продемонстрированы). Чтобы подтвердить специфичность этих наблюдений и проверить функциональность человеческого B4GALT1 у рыбок данио, полноразмерная мРНК, кодирующая ген человека, была сгенерирована транскрипцией in vitro из плазмиды pCS2+, несущей открытую рамку считывания (ORF) человеческого гена. Чтобы оценить способность мРНК человека дикого типа спасать фенотип нокдауна, ее вводили совместно с b4galt1 MO в эмбрионы и оценивали ЛПНП у личинок, не подвергшихся воздействию. Три концентрации мРНК (10 мкг, 25 мкг и 50 мкг) совместно вводили с 8 нг МО. Совместная инъекция 50 мкг мРНК B4GALT1 приводила к уровням ЛПНП, которые были статистически неотличимы от уровней у личинок, которым инъецировали только контрольный МО (значение р=0,14), что позволяет предположить, что мРНК человека может сохранить эффекты нокдауна гена рыбок данио. (см. Фиг. 12; личинки обрабатывали МО против b4galt1, МО совместно инъецировали мРНК B4GALT1 человека ДТ (сохранение ДТ) или МО совместно инъецировали с мРНК B4GALT1, кодирующей мутацию Asn352Ser (спасение N352S)).
Эти данные подтверждают использование этой системы для функциональной интерпретации вариантов в человеческом B4GALT1 и предполагают, что мРНК B4GALT1 дикого типа человека является функциональной у рыбок данио в отношении регуляции системных уровней ЛПНП. Влияние p.Asn352Ser на функцию B4GALT1 было дополнительно изучено. Используя сайт-направленный мутагенез (O'Hare et al., Hepatology, 2017, 65, 1526-1542), в кодирующую последовательность человеческой конструкции ORF B4GALT1 было введено T-C-изменение для генерации полноразмерной мРНК. Совместная инъекция мРНК B4GALT1 p.352Ser с МО приводила к снижению способности к сохранению фенотипа ЛПНП. Полученная концентрация ЛПНП была на 15% ниже, чем в результате совместной инъекции мРНК дикого типа с МО, со статистически значимым эффектом (39,9 мкМ по сравнению с 46,6 мкМ, р-значение=0,02). Однако этот уровень ЛПНП также был статистически выше, чем у одного b4galt1 MO (значение p=0,01) (см. Рис. 12), что указывает на частичный дефект функции, вызванный миссенс вариантом.
Пример 8: Целевое генотипирование
Целевое генотипирование ОНП с использованием системы QuantStudio (Thermo Fisher Scientific) было проведено для 3236 пациентов с ООА. Основываясь на структуре LD 14 ОНП, семь ОНП были отобраны для генотипирования, и свидетельство ассоциации для rs551564683 было 4,1E-13, в то время как для других ОНП было около E-10 (Фиг. 14), подтверждая, что rs551564683 представляет собой вариант, являющийся причиной в этом регионе.
Пример 9: N352S B4GALT1 вызывает снижение ферментативной активности при отсутствии изменения стабильности белка или клеточной локализации
Исследования свойств B4GALT1 проводили в клетках COS-7 и Huh7, сверхэкспрессирующих человеческий флаг-B4GALT1, меченный эпитопом 352Asn, или меченный эпитопом флаг-B4GALT1 352Ser (Фиг. 15 и 16). Как продемонстрировано на Фиг. 15, изображения конфокальной микроскопии Flag-352Asn или Flag-352Ser с использованием антител B4GALT1 или Flag указывают на идентичную картину окрашивания (маркер масштаба=10 мкм). Как продемонстрировано на Фиг. 16, субклеточная локализация с помощью непрямой иммунофлюоресценции клеток Huh7 показала совместную локализацию эндогенно экспрессированных B4GALT1 и TGN56, маркера аппарата Гольджи. Аналогичная картина совместной локализации наблюдалась независимо от того, были ли гиперэкспрессированы меченый человеческий эпитоп Flag-B4GALT1 352Sn или меченный эпитоп Flag-B4GALT1 352Ser (Фиг. 16). Как продемонстрировано на Фиг. 16, эндогенные B4GALT1, Flag-352Asn и Flag-352ser сверхэкспрессированы в клетках гепатомы Huh7 человека, совместно локализованных с маркером TGN46 сети транс Гольджи. Показаны изображения конфокальной микроскопии эндогенной субклеточной локализации B4GALT1, Flag-352Asn и Flag-352Se в связи с маркером сети транс Гольджи TGN46 с маркером масштаба=10 мкм.
В клетках COS-7 наблюдалось низкое содержание эндогенного B4GALT1 (Фиг. 17, панель B), поэтому эту клеточную линию использовали для оценки влияния миссенс-мутации на стабильность белка и/или уровни в стационарном состоянии, а также активность галактозилтрансферазы. Результаты показали, что миссенс-мутация не влияет на стабильность белка и/или уровни устойчивого состояния (с помощью вестерн-блоттинга) (Фиг. 17). На Фиг. 17 продемонстрировано влияние 352Ser на стабильность белка и/или уровни устойчивого состояния. На панели A продемонстрированы клетки COS7, экспрессирующие либо белки-метки 352Asn, либо 352Ser Flag-метки, слитые со свободным EGFP, которые были экспрессированы в клетках COS7. Клеточные лизаты анализировали вестерн-блоттингом на B4GALT1, Bactin и EGFP с использованием коммерческих антител. Показан один из четырех подобных экспериментов. На панели B продемонстрированы уровни экспрессии мРНК для гена B4GALT1, определенные с помощью анализа кОТ-ПЦР. Данные представляют собой среднее значение ± СО из 4 экспериментов.
Для определения каталитической активности 352Ser лизаты нетрансфицированных клеток COS-7 и клеток COS-7, трансфицированных одним вектором экспрессии или содержащих вставку кДНК дикого типа или мутантного B4GALT1, анализировали на активность галактозилтрансферазы. При нормализации относительно экспрессии FLAG-меченного белка (эксперимент по иммуноблоттингу на Фиг. 18, панели A и B) ферментативная активность 352Ser была на около 50% ниже по сравнению с 352 Asn (Фиг. 18, панель C). На Фиг. 18 продемонстрировано влияние мутации 352Ser на активность. На панелях A и B продемонстрированы клетки COS7, экспрессирующие слияние белков-меток 352Asn или 352Ser Flag, экспрессированных в клетках COS7. Клеточные лизаты инкубировали с кроличьим анти-Flag IgG или кроличьим преиммунным контрольным IgG. Иммунопреципитаты анализировали вестерн-блоттингом на B4GALT1 или Flag с использованием коммерческих антител. Показан один из четырех подобных экспериментов. Панель C демонстрирует активность B4GALT1 в иммунопреципитатах, измеренную с помощью коммерческого набора (R&D). Каждая точка данных представляет собой среднее значение рассчитанного соотношения удельной активности B4GALT1 с количеством белка 352Asn или 352Ser, выделенного в иммуннопреципитатах. Сигналы от вестерн-блоттинга ECL определяли количественно денситометрией с использованием программного обеспечения ImageJ. Данные представляют собой среднее значение ± SE для 4 экспериментов (*, p <0,05, 352 Asn против 352Ser).
Эти эксперименты демонстрируют, что эта миссенс-мутация не влияет на уровень экспрессии белка и его локализацию, но приводит к снижению ферментативной активности.
Пример 10: Тест на трансферрин с дефектами гликозилирования при врожденных нарушениях гликозилирования (CDG - Congenital Disorders of Glycosylation)
Тест CDG проводили с использованием образцов сыворотки по 0,1 мл от 24 субъектов из 3 групп генотипов (8 рецессивных гомозигот, 8 гетерозигот и 8 основных гомозигот). Каждая рецессивная (minor) гомозигота была сопоставлена с гетерозиготой и доминантной (major) гомозиготой, которые являются либо родными братьями или сестрами, либо близкородственными однополыми индивидами на основе коэффициента родства. Возраст и статус носителя также соответствовали по основным аллельным генам, изменяющим липиды, в APOBR3527Q.
Разбавленные водой образцы дважды промывали с использованием иммуноаффинной колонки. Профилирование гликозилирования элюированных белков проводили с использованием масс-спектрометра с двумя диапазонами сканирования, специфичными для APOCIII и трансферрина. Соотношения гликоформ каждого белка использовали для определения дефицита гликозилирования. Тест CDG проводился в медицинской лаборатории Клиники Mayo.
Результаты показали, что все 24 образца имели нормальные уровни соотношения моноолигосахарид/диолигосахарид трансферрин, соотношение α-олигосахарид/диолигосахарид трансферрин, соотношение ApoCIII-1/ApoCIII-2 и ApoCIII-0/ApoCIII-2 коэффициент. Однако, хотя все образцы дикого типа имели нормальные уровни соотношения три-сиало/диолигосахарид-трансферрин, уровень у всех гетерозигот находился в промежуточном диапазоне, а уровень у всех рецессивных гомозигот был ненормальным и значительно выше, чем у подходящего дикого типа и гетерозигот (р=7,6 Е-10) (Фиг. 19). Эти результаты демонстрируют, что эта миссенс-мутация связана с дефектным гликозилированием в результате снижения ферментативной активности B4GALT1.
Пример 11: Глобальный анализ N-связанных гликанов гликопротеинов плазмы крови
Чтобы определить, влияют ли десиалилирование и гипогалактозилирование только на трансферрин или распространяются на другие гликопротеины, группа аналитической химии из Regneron провела глобальный анализ N-гликанов. Обогащенные лектином гликопротеины экстрагировали из сыворотки из 5 пар доминантных и рецессивных гомозигот в двух экземплярах, и для меченых гликанов проводили глобальное разделение N-связанных гликанов с помощью хроматографии гидрофильного взаимодействия, определяли по флуоресценции и анализировали с помощью масс-спектрометрии (HILIC -FLR-MS) (Фиг. 20 и Таблица 5). Ссылаясь на Фиг. 20, продемонстрирован репрезентативный HILIC-FLR-MS спектр N-гликанового анализа гликопротеина из согласованной пары рецессивных (SS) и доминантных (NN) гомозигот N352S B4GALT1. Результаты показали, что рецессивные гомозиготы имеют значительно более высокие уровни гипогалактозилированных и менее сиалилированных гликанов, включая двуразветвленные гликаны только с одной галактозой и одной сиаловой кислотой (р=3,1 Е-5), асиалированные двуразветвленные гликаны с одной галактозой (р=0,001), и усеченные двуразветвленные гликаны, в которых отсутствуют как галактозы, так и сиаловые кислоты (р=0,005). С другой стороны, рецессивные гомозиготы имеют значительно более низкие уровни (р=0,001) двуразветвленные гликанов с двумя галактозами и двумя сиаловыми кислотами (Таблица 5). Наблюдалось значительное снижение общего галактозилирования (р=9,2 Е-5) и сиалилирования (р=0,001) среди малых гомозигот, при этом не было различий в уровне фукозилирования (р=0,5). Как CDT, так и общий N-гликанный анализ сыворотки демонстрируют значительно повышенные уровни углевод-дефицитных гликопротеинов у рецессивных гомозигот, что указывает на то, что N352S B4GALT1 ведет к дефектному гликозилированию белка.
Таблица 5: Средний (+СО)% площади пика значительно различающихся гликанов между рецессивными и доминантными гомозиготами
Данное раскрытие не ограничено вариантами осуществления, описанными и приведенными в качестве примеров выше, но допускает изменения и модификации в пределах объема прилагаемой формулы изобретения. Данное раскрытие также не должно быть каким-либо образом ограничено использованием любых заголовков, перечисленных в данном документе.
--->
ПЕРЕЧЕНЬ ПОСЛЕДОВАТЕЛЬНОСТЕЙ
<110> Regeneron Pharmaceuticals, Inc.
University of Maryland, Baltimore
<120> Варианты B4GALT1 и их применение
<130> 189238.00202 (3040) (10351-WO01)
<160> 17
<170> PatentIn версия 3.5
<210> 1
<211> 56718
<212> ДНК
<213> Homo sapiens
<220>
<223> геномная последовательность B4GALT1 дикого типа
<400> 1
gcgcctcggg cggcttctcg ccgctcccag gtctggctgg ctggaggagt 50
ctcagctctc agccgctcgc ccgcccccgc tccgggccct cccctagtcg 100
ccgctgtggg gcagcgcctg gcgggcggcc cgcgggcggg tcgcctcccc 150
tcctgtagcc cacacccttc ttaaagcggc ggcgggaaga tgaggcttcg 200
ggagccgctc ctgagcggca gcgccgcgat gccaggcgcg tccctacagc 250
gggcctgccg cctgctcgtg gccgtctgcg ctctgcacct tggcgtcacc 300
ctcgtttact acctggctgg ccgcgacctg agccgcctgc cccaactggt 350
cggagtctcc acaccgctgc agggcggctc gaacagtgcc gccgccatcg 400
ggcagtcctc cggggagctc cggaccggag gggcccggcc gccgcctcct 450
ctaggcgcct cctcccagcc gcgcccgggt ggcgactcca gcccagtcgt 500
ggattctggc cctggccccg ctagcaactt gacctcggtc ccagtgcccc 550
acaccaccgc actgtcgctg cccgcctgcc ctgaggagtc cccgctgctt 600
ggtaaggact cgggtcggcg ccagtcggag gattgggacc cccccggatt 650
tccccgacag ggtcccccag acattccctc aggctggctc ttctacgaca 700
gccagcctcc ctcttctgga tcagagtttt aaatcccaga cagaggcttg 750
ggactggatg ggagagaagg tttgcgaggt gggtccctgg ggagtcctgt 800
tggaggcgtg gggccgggac cgcacaggga agtcccgagg cccctctagc 850
cccagaacca gagaaggcct tggagacttc cctgctgtgg cccgaggctc 900
aggaagtttt ggagtttggg tctgcttagg gcttcgagca gccttgcact 950
gagaactctg gtagggacct cgagtaatcc actccctttt ggggactgac 1000
gtgaggctcc cggtggggaa ggagactgac ctctcggttc acgtgtcttg 1050
ccatagagcc actctcctga gtgggttttt ctcctgatcg tttgggccaa 1100
gtgacttctc tctgaacctc atatttctct tctgggataa taaatggtca 1150
ccctttcaag gggttgtttt ggaagatatt gtgaacaatg gtaaataagg 1200
gcttaattaa tgagggtaag ccctcagtaa attgtcactg tgtgttcatt 1250
tcttcctctg tgtggatcgt gaccgagagc ccttccccct agcctcctcc 1300
tggtatgggt acccaaaacc taggtgagca gggatctctc ccaggggcag 1350
agagcttgtg tactctgggt gttagagggc taaaatataa ccagtcaaca 1400
ccacgttgcc catttctggt acttccggta gcagcctgag tctcaattat 1450
cttgcccaga tgatctgaac tctgacctct agcctgtttc agcataggca 1500
gagagcttga gtaggtgagt ttgcattcct catagcagct ggctgagcct 1550
agtctggact tctctttgac ctgtaaccta caggcccaca ggcccaaggc 1600
aaccacaggt tgcttccagg gttaccacac aggtggtttc tcatttctaa 1650
tgctaggttt tagataattg ttgtaagtga ggggccctgg caggcaggat 1700
gacatcctgc caataggagt tttctgtcac tttcccacag agccctggct 1750
actacatact cttgctcaat ttcgccagta attgcgtcaa tgtgttcata 1800
tcaagtttgg gaagaacatc ttggaattgg tcagacgtga actgtggtaa 1850
taatgggggc ttgttttttt aagcagataa ttaaattcct ttgcatttga 1900
tgattattct gggaagcaga ctagtcccat aaaatgaaat ggactctgcc 1950
ttgctgctaa gtgtctgact tgagacatgc tatcgagttt ctcaaaatct 2000
cttccttgtg taaaatgtgg ttgtcgatga ttaccttaca ggggtttttt 2050
taagactaaa tgagatcgtg tacattaaat acaggcactc aggctgggca 2100
tggtggctca cgcctgtaat cctagcactt tgggaggctg aggggagtgg 2150
atcacttgag gttaggagtt tgagaccagc ctggccaata tggtgaaaca 2200
ccatcccatc tctacaaaaa tacaaaaaag ttagccaggg gtggtggcat 2250
cgcagctact caggaggccg aggcaggaga attgcttgaa cctgggaggc 2300
agaggttgca gtgagtcaag attgtgccag tacactccag cctgggcgac 2350
gaagcaagac tgtctaaaaa aaaaaaaaaa aaaaaaaata cgggcactca 2400
atacaccgta taataataat atagtaataa tatttgctta ggatctttaa 2450
aaagtttcat tttttcagac tcccacagaa atggctctgc acagcagagt 2500
gaagggggag agagactgag tctccaggcc agaaaaaggc caggtttttt 2550
gcttttgttt ttagttgttg cctggatatt gcacagaaag aaaaaataat 2600
tagcaagtta aacaaaagta ccgcaaagtt gattacattg gtatttgagt 2650
atcacatctt ctctcagaag cgtaagagac aaggtcgtga ccatacctct 2700
gcttagtttt gttttgtaat ggtgttgcta gtgatcggct tgtcaccagt 2750
tactggtgtt tctaaatgga ctataattgg ctacttgaaa ggacttcctg 2800
agaaagaaca ttttggagga cgaggagaga gtgccttctc tattttggct 2850
gctttcatgt gacatgcaag agaccatgac gtttaggctg ctgctgaggc 2900
agccccagaa atgggggccg agaggtcttt tcttcatttt aatagggtct 2950
gtaggtttgg gtggttaggt acagttctca gaatggaggt tcctggctat 3000
gaggccttga gaaagctgaa agtctccttg ggagtgtgtg ggtgggggga 3050
gtcgagccca tctgttcatg ggcaggtgtc agccaaagcc cttgcgggtg 3100
gttttgaggt tggtgggaga aagcatccgt ggggtttaga gttgtggcct 3150
tttcactact tgcagttcct ttccccgact tggctttact ttctggtgtc 3200
caggggtctg ggccagatgc tgagattcct ctcagctgac aggtgtgggt 3250
tatgggcaaa cccttccctg gaggacataa ggcaccggat tggactgctg 3300
atgggttgct gttggagttg tcagggcctt ggaatagtct tcagatagac 3350
ttgggttagt gtgacctggg gcaggctgca ggtttggagc catagtaccc 3400
cccgccccca caccgggcac cctgctctgg gctaatgtga ggcttgcagg 3450
agtgagtgat gcagtgggaa ggggggcctt tcctgaggat tctacagctt 3500
tctccaggga atcctcccag gtagtttagg cctgcaggtg ctatgctatc 3550
cttctttcct aaccctgtct caggtcctca gcggggccat gcggcatcca 3600
cttataaccc tgcagcgagg ccctcttttc tggccacctg ggtgtttgcc 3650
tgctgagatg ggaggaacag tggccttggg cttcttcccc cgtcatgttt 3700
atctctgctc agattgggca gcagctcaat gggacttgac cagctgtggc 3750
actgccagtc tgaagatgag tagggtgatg gggggaggtg ggcagtacct 3800
gaagctgaac tggtgagaga ggcaggctgg cctgggggct cagctggggc 3850
ctgggatggt tggtacagtc ccctcagggg ggtaggggag tgagtgttag 3900
actgcttaag cctcagaggc cgctcttgcc cacctatgct ttgaggagat 3950
cctcttcatt tgttcaaagg gaagactctg atctagagat gggcacttgg 4000
accagcaaac agcagctaca ggtagccagg gcacccgagg agcacttgct 4050
catgagccgg tttccctggt ttttatgggg gctgttgctg agcgtctgcc 4100
agggtttgtg tcctagcact tgctggtctt tgctgggctc tcagctctca 4150
ggtgtttctc taccagcacg tttccccctc cctcatatgc acacatgtgg 4200
acacaagcag gctgcccagg acagagtgta ctttgaggct tgggaaagga 4250
ctctctctcg cccttttggg gatgagcctt ggaacctcat caccttccgg 4300
cttggggtgg agcttcatcc tgggggttga agctttaggc tcagataact 4350
agtcttgtaa gccagttttg tcctgttgtt tttttcgtgg aaaataatgt 4400
attgacgtat acacagacat tctttgtcta acagtctgag attgagaaat 4450
accctccatg actatttggt ttgctttcat ggtgaaactt ggtcgctttc 4500
ttagacacag cctatggcaa taagagtgat ccctggctgc tgtaattcat 4550
tccagacttt gagcaaacac aaggcaccgc ctccacctgc agtggagcct 4600
ctgatgaacc aaatggaaac tccttgggga atggggagta agagccaaat 4650
gtgggattgg acttaaactg cagcttctta gaactgtagc attccacgat 4700
gggattgtct agtgctcttc ctggaggtta ctattcaata gttggctagt 4750
gcacaggttc aggggtgacc tgatatgccc tagcgtttca gaagatccct 4800
gcaaggtgtg tcttttggtc catctgaagg gtcttgtatg gtgatcttgt 4850
atggatatcc gtgacggcta aggcatctga taacttcatt ccttcagttc 4900
cagcagtgtt cctgtattat gctgggcact agagctacaa agaagaaaac 4950
aaagtgcctc ctcttcagga actcttaatt taggcagggg aggcataatt 5000
gaacagtgct gaggtcatct aggggaacca aagtgtgtat ttatcccctt 5050
ccctatcact cccctccctc cttcatttct tcctttcttc tttcagaaac 5100
tccaagttca tatcaaaatt ctccagccct ggttttattt ggttgtgtga 5150
aaattttcct ctaatttctg aagctatgca ttagttctgc tgagtaatct 5200
ttaacttgct gctttataat gattataatg agatatcact gggtattatg 5250
gtctttgggt agcagcaggg tagggatttc caggctggga ctaagctaat 5300
ttatgggttg ggaattatgg ggcagttaat agcaaggcag tccaagcttt 5350
ccacagattc caccctaggg accatccaga cttaaggaac agggccggca 5400
ggctcatccc ctttgcactc agctgggcta tgggtgtgtg tttgtgaaag 5450
aggtttattc agtagtcata cctgctgatt tccctgctat ctgtttaccc 5500
agtgcctcct gtaccttgtt tcttactctt tgttctctgc tcttactatg 5550
aagaagcaga gactggaatt ctgcttgaac ccacatctac ctggaaattc 5600
cagtttttct tgtccagtgg agcagcaatc cagttgtttt aggacaaatg 5650
gtctgccctt gaagcttaaa tcctttgagg gcctggcatg gtgacagttt 5700
tacatttggc tttggtatag actggtgtgg tccctgggca gtgaggtcac 5750
tgtaaggcca gccagccaga ccctggctcc taggggaatt aacaaggcat 5800
gggattagac tcacagggtc cctcctgtcc ctaaacttgg taggggttcc 5850
tgggagccag actgcgatta agattgtaga gacctgagac ctgagttgta 5900
ggggcctctg tgttgatctg ggccattgcc gggtgagctg aggcggtcac 5950
tagctcaagg agtgatctca ggatattgtt ctgtaagtca gagacctcca 6000
ggttggagag tggggcttgg gggtggggga cagggtttag tggggagctg 6050
gttctgggtg aatgtggcct aaagggattt gtccttagaa gacagagggg 6100
tgagtcacac actcagtgct tcaggttcca ctttgcggct tggcctcagc 6150
ccgccccttc cctgcacaaa tgaaggccag gggctatata attggctgtt 6200
gctgaattct ttggcagtga ttttaaagtc tggtctgggt gtgttatgta 6250
gctgcttctc tatccactcc ccacacccgc tgcttctcca gagcccctca 6300
caaagcccag gcagagagag agagagagag agagagaatg acttgcctca 6350
cagagatgtt ggggataggg ataggggtat gggtctttgc ttttgccttt 6400
tgagggggga taatctcttc cttcatttta aaagtaaaaa gtaatgcagg 6450
ctcattgaaa ataatttgaa aagttgaaag agatataaaa gcacacccaa 6500
attcctatca cccaaaagaa acataccggc atatttccta ctagtctttt 6550
tcatgtttaa gaatatagct gatatatttt tttttctttt tctttttgag 6600
acagggtttt tgctctgtca cccaggctgg agtgcagtga tcacggctca 6650
ctgcagcctc gacctctcgg gctaagcgat tctcccactt cagtctcccg 6700
agttgctggg accacaggtg cacaccgcca tgcctgacta atttttgtat 6750
tttttgtaga gatggggttt tgccatgttg cctaggctgg tctcgaactc 6800
cagagctcaa gtgattcacc tgccttggcc tcccaaagcg ctgggattat 6850
aggtgtcagt caccacaccc agtgttatag ctgttgtctt tatagatgaa 6900
cagatagatt gacatagatt catgtagata gcctggtgtt cagcattttt 6950
catttaagat tctgtcacag acttgaccct atacctttaa aaatcacaaa 7000
ggcagtatca tagtctgtca gctgaatatg ccataactta aaaaaatcat 7050
tcaactgttg ctgaacacac acatatacat atatagtttt tgttttttct 7100
tagtgatgta gtgatgcttg tgcagaaagc tttatgtact ttttggatgg 7150
tttctgtagg agagctttct aaaaaaggaa aaaaagtgtt gaatgttttt 7200
tgagaagggc tagattttca agccagtctt acaaaaggat agactcattg 7250
gaaattccag atttgcttag tgctggcaga tgagtatcac ttattgctga 7300
acaatgtgtc tagaattctg attaaaaaag aaactaggtc caggaagtgc 7350
ctgggggcag gggcaaaggg ccaggctgca ggataggctc ttaggatctg 7400
gctgagcaga aatctgctgt gaacagaatc ggtgggggtg atgctttctc 7450
agtaacttct ccatttgttt ctttagcagc taagtccctg tgctggactt 7500
ctgtggacta ctgtggctct ggggctgtgg ttgtgggtga acaacagcta 7550
gctaaaccag tgctgttgac atcattgaga tgtgacgcac aggaaggtgg 7600
gagcaagctt gcaaatcaga ttctgaaaca tatagcacag ctctcccacc 7650
tccaggtggt cctgagatct agggaggagc catagtgaga aactttaggt 7700
ttctaggaat tctcttaggg agaagctctc ttagggagag gcagaacctg 7750
gttctcagtt ggggctgatt caggtgggtt agatcaataa agcctcaggc 7800
cagtgtgcca ggctattccc aaggagtata ctttgaagtt actcccttta 7850
gaatgtcctc agtggagata aattctctct gaggagcagt tttgtctgcc 7900
ggggtcattt ggcacaaagc ctggagtgct agggcgaggt tgcactgagg 7950
gaaggggcag gattatgtca gcagtgtgac ggatacagtg tgaggtcagg 8000
ctccttcctg ccccaccacg ggggcctaga ggtcatgggg agggtccctg 8050
gcaggggatt caatcattgc ttggccccat gacagagtat attctaaaaa 8100
tgccttaagt ttttttcttt caaagtttct tcctgttttg cataatggcc 8150
ttttgccttt gacatcctga aaccgcagag ctgtcattgg tgttgcagga 8200
cactgccagc ttgaaaaaaa tcaacaacaa aaaaagaaac aggaaaggat 8250
gtggagttca gggtgcggcc tagggaagct ggtatttgcg ttatgggatt 8300
gtggggatgt ggtattaagg tgttgggtag cgcctgacat ttagaggagt 8350
actctgggca gagtccctgc ctgcccaaga ataggtagaa ttgagtcttc 8400
acaccaaagt caggagagac cccctccccc caggaagaga atgaacaggg 8450
actcatttcc tcattcagca aacttttatt ggtaactaca ctatatgaag 8500
tgtgagagat agacatgaac aagagaggcc cccactcttg ggcagtccct 8550
tagtagtagt agatagactc tggcaatatg gtgtggtcag agagaggaag 8600
cctgggtgct ttgagggtac tgaggaggtg cagggagcca aatgggtggt 8650
ctgggccagg gccagagtca gaatgaagga cctctcttcc agacgttgat 8700
tttagcatct ctgtctctca gtatgtttga acagtctccc ttattggaag 8750
ggcaggagtc tactgctaaa agtaacctgc gatttcctct acttgctgtc 8800
atgtggaaag aatactaaag ctgaaattcc aaaagttgca cacctttacc 8850
agcagggcag gagaggaaag gaaatggagg cagagtgagc tgaagatgat 8900
aaaagaaaga gaaggtggtg cagtttggac tgttatggac agaggaagtc 8950
tgagggtagc tggactgagg gatcaaaggg aggcagttga aagggaagag 9000
agctgcagag agggatttct tggtctgcag agggtaggag caagccttga 9050
aggctgctgg agtgaggatt ccgagccctg gtctttattc tttttctaat 9100
tcattacatc attttaggca agtcctaact cctttggtct ctgttgtctt 9150
tctgaaattt gagtgggctg ggcctgctgg tctttagcct ctgtctttct 9200
ctacctccta gattccagtt tggcgagtgg gggggaaaac ctggttgtat 9250
atgcaacgtg aaaggcctct ggaattcctt ttgaagctca ctacccatga 9300
ggcttctgct aaggatttca tcatgtctgt ctaagcagac ataaaaattt 9350
tagcaggtgg atgacccgta gaaatggcac aaggaatgtt tctttctgtc 9400
acactgtggt atttgattta agaaagttgt tatcctctct gtgcctcagt 9450
gttctcactt gtaaaatggc aataacagta tccacctcat agatgttatg 9500
aaatacaggt agtagccacg aaagggctta aaacagtgcc taacacagaa 9550
taagttgtga atatatgtta tttattattg gtagtataat gcttatttgt 9600
gaagattttg gcttttgctt tataggacct tttttttttt tagttgaaaa 9650
tacaatgtta ccatgttaaa tgttaaaaaa aattctactt accattgtaa 9700
cagaacatgc tcccacttct gtaacagagc ttgctattac ttttcaaatg 9750
catacatatt ccaatgcata tattccaatg cagttgtaga gtgaaactgt 9800
ttgcatgcag ccatttttat ccaacattat cttataaaat gttatgttgt 9850
ttatgattat cctaattatc ttttgttgct gtctagtatc cttatagata 9900
ttccattagc atacactatt ccaggtttca ctatcgtcga taatctagat 9950
atgaacattt ttgtagtgtg tagctctttg cttcagttga attactttcc 10000
tgggataaat tcctggggaa gaatttctag gccagaggat atggtcatct 10050
tgacaatact gattcacatt gctgcattgc tttccaagag gtttggaatc 10100
attcacaggt tctaaattgg aaaatcctgg cttttgaagt atgtggattc 10150
taagggcgat ttggatctag ctggagcctc acactgacac ttccagccag 10200
tgtgtgtgtg tgtgtgtgtg tgtgtgtgtg tgtgtgtagt tccctatgct 10250
ggacaccgtg tgtgtgtgtg tgtgtgtgtg tgtgtgtgtg tgtgtagttc 10300
cctatgctgg acaccatgtg gcctttctgg acattagggt tttcctgtga 10350
ttgcctcaga gcagttcctg ttgaattcac tctgtgtcca caaaaggagc 10400
cttactgtgg ctctttcaac acccacctac ctttgccaag ttggtttaca 10450
gaaagtaaga acattctttc cttcttcctt gatatgtggc gctaaaccta 10500
tagcatgggg caggctctgg ctttaaaaac ctgacttaaa aataatggtg 10550
ttgatcaaaa agtttgtgga tcagtttttg gaaacactgc atgtagccat 10600
ccatagaaac ttatattctg ttgggctagc ctgggcgcct gatcatttaa 10650
ctcatgtgga tgaacttcta tgtaatagcc ctggtgtatg ggatccagaa 10700
acagggccct aatgaagaaa ggcttttaaa ttatgttgga taaaaataag 10750
ttgttacaat agcccaaagt ctgcaaatat gaattgccag ttctgtcctt 10800
gtagtcatcc accatgtgcc tgcatctttt gtagactctt gtagattcag 10850
aagcccactg aattgcataa atgatggaat gattttagac ttagtgattt 10900
cagtgactaa aagtttacag atcctggccg ggcacagtgg ctcacacccg 10950
tattcccagc actttgggag gccgaggtgg gtggatcacc tgaggtcagg 11000
agtttgagac cagcctggcc aacatggtga aaccttgtct ctactaaaaa 11050
tacaaaaatt agccgggtgt ggtggcatgc acctgttgtc ccagctactt 11100
gggaggctga ggtgggagaa tggcttgaac ctgggaggcg gaggttgcag 11150
tgagcccaca tcaggccact gcactccagc ctgggtgaca gagtgagact 11200
ctgtctccac ctcccccgcc ccccgaaaaa aaaaaaagtt tacagatcca 11250
gcagatgggg catattcaat ttgtgacagc cactcccttc accttatagc 11300
tatgtcatat gtcttcttct cctttgactg cattctgcag cagtcagttg 11350
tgacttaata tggcactctg ggcccactga attaggtcag agctgctagt 11400
agtatattgt tcctagagac ctagggcaag attttcttac tacataaaat 11450
gagggagata atttcttacc tcaagatgtt ggtaagagga gtgaatgagg 11500
ttagttatat ggtaatatca gtactctgaa tgtcttttga tcaatgccta 11550
actcatcttc ttgggcacaa aaggcataca gtcagcaccc ttaggccaca 11600
tataaaattc ctccaaatgc aggttttcat ctgccttggg gcagagtcaa 11650
gagaaagaag aggaagaggc gtgaggctct gaccacaact tagggacaga 11700
atatagccca aagcgagtac cccaggccac aaggagaagg ccgctatctt 11750
gttgaatcca cagcactgga aacttggagt gtgtgttccc ctgtgtcagt 11800
tacactggaa ttttatggct gctcacattc ttcccttcag gtggacgttg 11850
ttcatcagta tcctgggcaa gaggccatca taaaccacag acagctgagt 11900
gattaggaag aggagctgaa gagggagcat tagatgtttg attgagtctt 11950
aggtgagaaa gtatatcatt aaaacaaaaa gatagatgta ggcgggctca 12000
gtcttgtgtg cctggtgtgt tggtagaaaa actaaagcac aagcctgtag 12050
ataacctgct ttattctacc tcggggctgg tgttggaatc caggatgcca 12100
gaccctaaag tccagctctc tttccaacct actgaataat ccgagagaaa 12150
tcatgttctc tctctgggcc tcagtttgcc catgtataaa atgagatgaa 12200
ggattggctg ggatgctctc cagagtctct tcctgcctgg agttctgacg 12250
tagccatgta ctcctgctca gcatcgctaa atggctttgt ggtaggacca 12300
ttgagtgctg cctccattag ggccagctat gtaatgctgg ggtggctgtc 12350
actgggccct aagagccagg attggtctta ctggagaaat ccacatccac 12400
ctaaacttaa gacccagggg tgtccaatct tttggcttcc ccaggccaca 12450
ctggaagaag aattgtcttg gaccgcatat aaaatacact aattatagcc 12500
gatgaggtta aaaaaaaaaa actcaatatt ttaagagagt tcatgaattt 12550
gtgttgagct gcattcaaag ccatcctggc cgcatgtggc ccatgggcca 12600
tcggttggac atgcttgctt tagacctccc agcaattcta gtctctaaac 12650
aggaaatcaa aagtcaagat gaatagataa gttggtcagt gtgaaaaagt 12700
aattggtggg agccactgta gatgcagggt tctaggctcc atcaacaacc 12750
acctacatca ctgaacgaaa gataatgctt gttcagcact tattacatgc 12800
caaccatggt aaaaatactt cagatgcatt gttttcatga actctcacag 12850
cagctctttt tcttgcctaa atgccccgtt agaacctcca gtacaatgtt 12900
aaatagatat gctaagagac aacatatgtg tcttgttagg gggaaaatat 12950
ccagtctttg actattaaga atggtgttag cagtgggttt ttcctaggtg 13000
ccctttatca ggttgaggaa gttcctttct attcctggtt tgttgagtat 13050
ttttatcatg aaaaggtgat gggttttgtc aaatgctttt ctgtgtctgt 13100
tgagatgatc atgttttttt gtcatttatt ctattgatat ggtatattat 13150
acattgattt ttcagatatt aatcttgcat acctgggata aatcccactt 13200
ggtcatggtg tataattctt tttatttgtt gctggattga gtttgctagt 13250
attttgttga tttgtattca taacagatag tggtctgtag tctttccctc 13300
cctccctccc tccctccctc cctcccttcc ttccttcctc tctctctctc 13350
tctctcccct cccctccctt cttttcccct cctctcccct ccccttccct 13400
ttcttctctt tcatagttgt ttaccactgt cagaaaaggt ctgttcgttt 13450
tctttcgtcg tgagatcttt gtttggtttt ggtatcaggg taatactgcc 13500
tcaaaaaatg agtagggaag tgttccttcc tcttctgtat tttgagagag 13550
tttgtggtcg gtttttatta attcttcttt aaatatctgg tagcgttcac 13600
cagtaaagcc atctgggcct gatgttttct ttgtggaaaa ctttttgatt 13650
cctaattcag tttctggtta taggtctatt cagaccttct attttttctt 13700
aagtcagttt tgatagtttg tgtcttccaa ggagtttgct tcatctaagt 13750
catctaattt gttggcatac atttcatagt gattccttat gatccttttt 13800
atttccgtta aagttggtgt agggatagtc cctctttcat tactgattat 13850
aataatttga attttctttt tttcttagtc ttgccaaaag cttgtcattt 13900
ttattgatct tttcagagga ccaactttga gttcattatt tgttctcttt 13950
gttcttattt ttctgcttca ttaacttctc taatctttat tctttcattc 14000
tgcttgcttt tggttaagtt tgctttttct ggtgtcttaa ggtagaaggt 14050
taggttactg atttgagatt taaagatcat gctctttaaa cgttttgata 14100
gatactgtca gtttgccctc tggctttttc tcattaacag tgtataggag 14150
tgcttattcc tcacactcat accagccctg ggtgttacta acctttatat 14200
atttgccagt atcatattca gacatagtat cttgttttaa tatgtttctc 14250
tgattactga tgaagttaag caaattttca cgtgtttatt ggccatctgt 14300
ctttcttttt tcatcctttc tttcaagatg ggagtctttg ccatgttgcc 14350
caggctggac tcgaactcct gggctcaaat gatcttcctg cctcagcctc 14400
ctgagtagct gggactatag gcgtgagcca ccatggctgg cttgcccatt 14450
tgtatttctt atgtgagtat tttttctttt tttttgaagt ggagtctcac 14500
tccatccccc agagtggagt gcagttgtcc gatcttggct cactgcaacc 14550
accgcctccc aggttcaagt gattctcaca ccttagcctc ccaagtatct 14600
gggactatag gtgtgtgcca ccacacctgg ctaatatttg tatttttagc 14650
agagatgggg tttcaccatg ttggccaggc tggtttcaaa ctggcctcaa 14700
gtgattcacc tgcctcggcc tcccaaagtg ctgggattac aggtgtgagc 14750
cactgtgccc agctgacttt ttttttcttt tttttaaccc tttttttttt 14800
ttaccctttt tttggcccat ttttttttac cctttttctt ttaacccatt 14850
tttctattag ttttaaaaat atgtttgcag gagcttttta tattgtggat 14900
ttttcttgtt tattacatat catttgtaaa tatggtctct ccatctgtca 14950
ctcttcttta tctctggttt ctttagctat gtagaagttg ttatgttatg 15000
ttatgttatg ttatgttatg ttatgttatg ttatgttatg ttatgttatt 15050
ttttggagag ggagtcttgc tctgtcgccc aggctggagt gcagtggtga 15100
aatctcggct cactgcaacc tctgcctcct gggttcaagc gattctcctg 15150
cctcagcttc ccgagaagct gtgattacag gcacccgcca ccacacccag 15200
ctaatttttg tgttttagta gagacggggt ttcactatgt aggtcaagct 15250
gatctcaaac tcctgatctc aaatgatcct cccaaagtgc tggggttaca 15300
ggcgtgagcc actgcactcg gccagaagtt ttgaattttt atgtgtttaa 15350
atctatgttt tcctttatga cttcaggttg ctttcatact taagcaggtc 15400
ttcaccatcc caaaatgata aaatttttct cctgagtttt cttctaagtt 15450
ggttctttag aagccaccaa cttggcttcg acagcaaaag atgaacagaa 15500
tttctgttca actctcatgc tgcaagaagc tttatgtaat actccaggga 15550
ccctttaagg tcccagagtt ttcctccaaa tctatcagtg attctagtgg 15600
ctaagagtag aaatgtgaaa atttagccat gtgtgctgat agagctgtag 15650
taatttgtaa gctctgaagt tctaaggagt caggggagaa gggaaagtaa 15700
catttattga acatctatta gctcaataag aacatgcgat aagtatgtat 15750
atgtattatt tcacttacat ctgaaaggaa ggcataatta tccccactcc 15800
ttagagaagg aaattggagc tggctacatt taaagtagtc ctgacaccag 15850
agagatattg ccaggagtac ttggctggct gagtgcccag atggcccata 15900
ggagtagtgg gccctccaca gtccaaggtc tggttctagg tggagagaga 15950
aggatgtgct cgtagtcagc accgcagctc cagaaaatct gctggggctc 16000
caaaactgat tagaggggca gctgactcag taataaaact cccaggagac 16050
ttacttacat actggaatgc aaagttgcag ctttactggg aagattagaa 16100
ctgttattga gtagcttaga aatctctggc tgaattcact gcaagggaag 16150
ccgcaggata agctaactgc tggtgagtca gcagtcagag cagggaagtg 16200
aatttaacat tagatgggtc agtctctcgt ggctgatgaa ttcatcccca 16250
caatactgta cacctgcctt agggaccttt gtctggacta ggggttgggg 16300
tccccctcct ttgtacagcc ctggaaggac acatccagct ccatccgcca 16350
tctctccctt acttatttcc ttccttcctt ccttctttcc atccagccat 16400
caagcttcct ttcatggcca ataatcatca ttggggtcta ctcatggact 16450
ctcttgcctc atgtatttgt tttattttgt cctcattccc acttctattt 16500
cccaggtata tcacaggcaa ctattctaac gtatttatag tttgtgtatc 16550
tgtttttgct cttgccaaaa tggaagccac tgctttatac atagatgtat 16600
tcttaacttt aaaaaaaatt tttttagatt aacctacaat aaaattggct 16650
ttttggcata tagtctataa attttaacac atacatattt ttgtgtatct 16700
accaccacaa tcaggataca gaacagttcc atcaccccaa aaaaatccct 16750
cttgtagtca cattctcctc ccacccttaa tcccaggcaa ccactgatct 16800
attcttcatt actattgttt tgtctttttg aggatgtcac ataaatggag 16850
tcacacagta tatatacatt tttttaaaca tatgtaaatg gcattttata 16900
gctcattttg attatatgtt tttcatccag ttctgttttt tttttttatt 16950
tttaaaaagt ttgacataac ttcagactta cagaaaagtt gttagactaa 17000
tacaaagaat tcctggatat cctttggagt ccctaaatgt taacatttta 17050
ctatatttac tttttccttc tctctctctc tctctctcgc tctgtgtgtg 17100
tgtgtgtgtg tgtgtgtgtg tgtgtatcta cctgtagata gatagatatt 17150
aatataattt tagatagatg tatctagatc tctctctctc atatatatgt 17200
gtgtgtgtat atatctatat ctatatctat atatatctcc ttttaccctt 17250
aaatattcag tgtatatttc ctaacaacaa ggtgatttaa aaatatatat 17300
ataaacatag tataattaac aatcaggaca tcaacattga aacatttctg 17350
ctatgtcatc tacaggcctt aggaagactt tgtcaggtgc cccaataata 17400
gccttgatgg tagaagaaaa ccatgtgttg tattcagttg tcatgtctct 17450
tagtgtcttg taatctgaaa taattcccaa gccctttgga tttcatgaca 17500
gtgacattgt tgaagagtac aggccagtta ttttgtagaa ggtctctcag 17550
tttaggtctg tctgatgttt cctcctgatc agattcaggt tattcacttt 17600
tgacaggaat accactgaaa tgatgctgag ttcttctcag tgtaacgaga 17650
tctagagaca cacactgtca gtttgttcct tattggcagt gtgaaccttg 17700
aggatttcat tgtagtggca tttggcatta ctccattata gttactattt 17750
taccatttta aattaaaact atctggccgg gcgtagtagc tcatgtctgt 17800
aatcccagca ctttaggagg ctgaggcggg caaattgctt gaggtcagaa 17850
gtttgaaacc atcctagcca acataacatg gtgaaacgcc atctctataa 17900
aaaatacaaa aaattagcct ggcgtggtgg cgcatttgta gttccagcta 17950
ctcaggaggc tgaggcacaa ggcttgcttg agcctgggag gcggaggttg 18000
cagtgagctg aaatcacgcc actgcactct agccagggtg acagagtgag 18050
actctgtctc aaaaaaaaaa agtaaataaa taaaaaaatt ttttaagtat 18100
cttatgggca tatacttgtc ctgttactcc tcaaactttc atccactttt 18150
ttttttttaa attttttttc ttacctttca tcgttttctt gatatccact 18200
gggttttagc atctacaaat gattcttgcc tgaatcagtt attatggtag 18250
ttgatggttt tctaattcca ttattccttc tatgtttgtt aattttggca 18300
ttcttctata aggaagagct tacccttttt ccctattaat taattcatat 18350
attaatgcag acctatgcat tcttacttca ttaaatcata atcctttact 18400
atcattatgt attctgatgt tcagactatc ccagatttag ccaataagat 18450
ccccttcagg ggaatggtct ttgggattcc tctttagagg ttcctggttc 18500
ctgttttctt ttgacatatc ctattactct ttgagcattt tttttttttt 18550
ttttactttt aggcacagca agaagttcca tggtcctctt gttctttccc 18600
caactcagcc ctagagtcag tcacttctcc aatgagctct agttcctttt 18650
agtagagaat cataattaga aaacaagaat cagtgccaag tgtgcacctt 18700
tgtttttaag gtccatccac gttgccgtgt atatgtccag catgttgatt 18750
ctaactgctg aataatacct catgattgtc atccatccca gtgtttcttt 18800
ttcccttctg taatgaggga ctcctggact gcctccagca ttaccttcac 18850
aaatattgct gtgaggaaaa tccttaaacg tttcctttat gggcaacgtg 18900
tgagcatgtt tatgttgatt caggggtgcc agacacagct ccagaatggc 18950
tgcctcagtt tacatttcca ccagcagagc atgacaggct ctgtgtctcc 19000
gtgaataatc agcattaacc agcttcctat tttttgccaa actaatagat 19050
gtgctaggat aactctttgt tttaacttgt ttttctctga ttaccaatga 19100
gctggagcat ttcttcatat gcctgatggt ctttgggatt cctcttaggt 19150
aaattgctta ttcattataa tcctttgcct gtttttcact ggagttctta 19200
tatttttctt gaagatatgc aggaattcct tatacatcct agatattaat 19250
cccttcctgg tctcagacat tgcagatatc ttctgaatct gttatttact 19300
tatttattta caattttttt tttaagagtt ggggttttgc tctgtcaccc 19350
agactggagt gcagtggtat gatcatgact cattgtggcc tcgcaatcct 19400
gggcttaagc gatcctccca cctcagcctc ctgagtagtt gggactacag 19450
gtatgcacca ccagacttgg ctaattttat tttatttttt agagatggaa 19500
gtcttaatat gttgctcagg ccaatcttga actcctggcc tcaagcaatc 19550
tttccacctc agcctcctgc atctattata tatatgttca ctttgctcat 19600
gctgtatttt gttgcaacat aaaactattt ttcccattgt tttgtgcagt 19650
ctctcaccag cactcttctt tttctgtaac tgtgttaatg ccctttgttc 19700
ttccatatgt taggtatgct ggtatagttg aactctgctg actctcctca 19750
gtaaacagtc tctttttatg acaccttatc ctctactgaa ttctctctat 19800
caagaatgac ttggccgggc atgggggctc atgcctgtaa tcccagcatt 19850
ctgggaggcc gaggtgggca gatcacccga ggtcagaagt tcaagaccag 19900
cccggccaac acggtgaaac cctgtctcta tgaaaataca aaaatcagct 19950
gggcgtggtg gcaggtgcct gtaatcccag ctacttggga ggctgaggcg 20000
ggagaatcac ttgaacctga gggggaggtt gcagtaagcc gggatggcac 20050
attgcactcc agactgggtg atggagaaac tccatctcag ggggaaaaaa 20100
aaaaaaaaaa aaagaatgac ttgtcttcct cttagagtgt gaggtctaca 20150
tacaaatatt attcttgtat tcagcaaatg tatgtcatag gcctagtgtg 20200
tgttaggaac tgtgctgtca ccaacaaagt ttagagaggt tataaaactt 20250
gactgtagct ttttagaggt ggaggagtga tttgaaacct aggctgtaat 20300
tccttcctcc tgtgattcct tcctactgtg ttgccttccc ttgaaaattg 20350
catttggggg ccaggtgtgg tggctctcgc ctgtaatccc agcactttgg 20400
gaggctgagg cgggtggatc acctgaggtc aggagttcaa gaccagcctg 20450
gccaacatgg cgaaaccccg tctttactaa aaatacaaaa attagctgga 20500
tgtggtgtgt ggtgacatgc acctatattc ccaggtactc agtaggctga 20550
ggcaagagaa tcacttgaac ccaggaggca gaggctgcag tgagctgaaa 20600
ttgcaccact gcactccagc ctgagtgaca gagtgagact ctgtctcaaa 20650
aaaaaaaaaa agaaaagaaa gaaaattgca tttagttcct gtagactgtg 20700
tgtcaaatgt ctaaatctct tctaacaaat ggcctaagga ggtgcaaagc 20750
gaagcatcct caccagcatc ctgacttggc agtgaggcat gggaccctgg 20800
agggagtagt ggtaagtgtg actctggaat tcttcctggg ctacttgtca 20850
gtgactggct ccagattgag aggagagccc agaggacaca ggtggctgcc 20900
ccagcctgga ggtgaaagtc ttaaaataaa atgccagatg cctagaccat 20950
tctaaacctt tctgagaagc tgaaatcatc ccttctggaa gcgctctagt 21000
tctaaaagga cagatataca gcaagatctt cctggggcta atatggagtt 21050
tataggcaag taggcctcag aacctttccc tggtagtgat atctgtgggc 21100
aggcacagtt tccacacttt ccagaaattc cagcggaagg agtgagaagg 21150
aggaatctgc ccttgagtga ggaccaaaga aagcagaaat tcctcttggg 21200
aatttttcct ccagagacca aacactactt gggagcttgt ttactgggct 21250
ttaaaagctt gtgaccccca gtcactcttt cttgacccca aggctttgca 21300
tttctgtggc ttccccactg gacagaagtg gaactgtcat gctgcctgtt 21350
ctggggtctc ccagaggttt ccccatgtcc tctccttgct tctactgccc 21400
cacagaattg gggatctgtg accacatatg gtatagaatt aatgcttgag 21450
aatggtttag ttcagtgatg tcaaataaga ttcactttta tgccacctcc 21500
atcagttgaa ggcccccctg gcccctaaat tggaaaagat tctgagacag 21550
aatccccgtg ggtacagcgc agggacagta aaggcacgtg tgctgtgatt 21600
tgctatccac tgtgtggatg catccaggaa tatcagaacc ctggaagatt 21650
atttaagggg aagttaggac agcttttttg ccaatccaag ggtgttcttg 21700
aggaagtctg tcttcctgta tggccttcag tttctttcct gtgtaaccat 21750
ggggccaaca cataattccc acagctctat tggcccttgt ctgccaggat 21800
tctctagggt ctgattcgag gtggatcctg gccctttgag gtggcagaat 21850
ctgatcatgg tgctgtttcc ttagatttag gccttgatac ccttggcgag 21900
agcatcctgg gctgagtgac cacctgaggt ttttctggtg attttgtgac 21950
ccatgtaaaa ctttgagctt tgggattatt ctctcaagga aatagtgaca 22000
tttggtgaag agcctgtttg gtgtggctat gtgaggctta gccaagaaaa 22050
tgcaccattt ttattaggag gttaggccat ccgttgccac aaagtgtcag 22100
atgctaggcc tagagcctgg agaaaactta ttttaaaatt gatggggtgc 22150
tggaggggtt ggggggtggt ggctgtagct catgaatcag gtgctaaacc 22200
tagaaacaaa aggcctcatg tggcagactg tttctgagca cagatgaatg 22250
gatgagcaac tggcgcaact ttgcccagtt ggtccagctt cccacttggc 22300
cacctaggct tgctgtgaag acctcgtctg gcagaaatga gagtgttttt 22350
gccccatctt gatcttaact gtaatttaag actaaaatct tagattctaa 22400
aacatcaaag gcaagatggc tcccagctct gtgagctcag cttctcacct 22450
cttagttgaa caagtgcagt gtgggtcaat acatgattgc tgctcttgct 22500
gccaggaact gtcccagcat agaaaggaat gggacacaat ccctgccgtc 22550
aagattctaa gggaggaagc aggcaggtcg actggtgcct catctctgca 22600
gggctccagc caaggtttgt gaaggatttt gcaggcatat ggagtgggga 22650
ctgattgatc ccgagagggg actggggaaa gctctgaaga ggggatgaca 22700
tttggtttga actccaaaaa atggttgctt tacctgtttc ctgaagtttt 22750
tgaggtggct tataagaaca tataccataa aaaggaccaa tataaattta 22800
aaatcagaaa aagagaaaat gggctgggca tggtggctca tgcctgtaat 22850
cccagcactt tgggaggcca aggtgggtgg atcgtgaggt caggagatcg 22900
agaccatcct gcctggccaa catggtgaaa ccccggctct actaaaaata 22950
caaaaaatta gctgggtgtg gtggcacatg cctgtagtcc cacctacttg 23000
ggaggctgag gcaggagaat cgcttgaaac ctgggaggcg gaggttgcag 23050
tgagctgaga tcgcaccact gcactccagc ctgggcgaca gagtgagact 23100
cctcctcaaa aataaataaa taaagagaaa atggaactta gaaaattaag 23150
aggaagagtg aaaaggtaga tatttagtca ggcacagtgg ctcatgcctg 23200
taatcccaac actttgggag gccaagacag gaaaatctct tgagaccagg 23250
agcttgagac ttgcctggca acatctcagg tgagacctta tctctacaaa 23300
aaatttaaaa attagctgag ctgtgtggct cgtgactgtg atcccagcta 23350
ctcaggaggc cgagaccaca gcccaggagg atcgcttggg cccagcagtt 23400
tgaggctgca gtgagctggc accactgcaa ttcagcctgg gctacagagc 23450
aagacccagt ttaaaaaaaa aaaaaaagat attcaaacca tgggtcccaa 23500
cgtagttatt atatttgacc atttgcaaaa gctgaaagca aaacatgtta 23550
cacattttca gagaggaaaa tacacagtag ttcctgagtg taagttgttt 23600
ttcttgacct cattcttaaa ttgcttcatg agggtgggag ggaagtggta 23650
gttaataagt gaacctgtaa accagcgttt ctcaaaatgt agtccaggga 23700
attgcatcaa aattgcagtt acctacagtg cttgttaaaa tgcagattcc 23750
tgggcccctg ccccaggctt atcaaatcaa tctggtgagt aggactcaag 23800
aacctgtaaa ttcacatact tctgcagatg attcttcttg cactgcacag 23850
catgaaagcc tctgcaatag acagaaagct accagcattg cgaaagcaac 23900
ttgagtgctt ggcctttgaa ggttgagtgg gactttaatg agggagagag 23950
taaggcatga gaaatggcag ttccactgag gtcagtcagt ggttcattgc 24000
tgacgaagtc acttttaagt catgttttag aagaactacc aagtgtggca 24050
ggtcaggcat gtggcaggac tgtttctgag cacagatgaa tggatgagca 24100
cctggcccca ctgtgcccag ttggtctagc ttcccacttg gccacctacg 24150
gtctgctgtg tggaccttgt ctggcagtct cctttaattt attttttatt 24200
atttttttct ttttgagatg gagtcttgct ttgttgccca ggctagagtg 24250
cagtggcatg atctcggctc actgcagcct ccacttccca ggttccagcg 24300
attctcctgc ctcagcctcc caggtagctg ggatcacagg caagtgccac 24350
cacgcccagc taatttttgt atttttaata gagacatggt tttaccatgt 24400
tggccaggct ggtctcgaac tcctgacctc aggtgatcca cccatctcag 24450
cctcccaaaa tgctggaatt acaggtgtga gccaccgcac ctggcctatt 24500
ttttttcagc aaattctttg tttttctctc tgttcccaaa tgcagggtac 24550
tgagaccaca gatgtattct gtttcctgtt gaaaaaatgt ttctcactta 24600
gctgggtgtg gtagcatgca ctgcagtccc acgggaggct gaggcgagag 24650
gattgcttga gcccaggagt tcgataatca tgccattgca ctctggtctg 24700
ggtaacagag cgagaaactg tctcttaaaa aaaagaaaaa gaaaaagagg 24750
tcctagggaa agaaacaaat agtggcttgg atggtgagtt ggtggaaaga 24800
acagtgggtg ttgggggtgt tgaacttgtg tttgtgtgtg gtgtacccaa 24850
gacatatcat gtcagcatta agaatagact attcctgttt tctggtcact 24900
gagttgtatg ttttgacatc cttattttgg aagatacttc cttactagga 24950
atgggatagg gagggggtca cctttcccat ctgtgggtca tattttaaaa 25000
tatttattgt tcaagtttaa agatataacc aaaggtataa agaaaaatac 25050
cacaaacatc tgatttaaga aacaaaccag ccgagcgcgg tggctcgtgc 25100
ctgtaatccc agcactgtgg gaggccgagg caggcagatc atgaggtcaa 25150
gagatcgaga ccatcctggc caacatggtg aaaccccgtc tctactgaaa 25200
atacaaaaat taactggtca tggtggtgtg tgcctgtagt cccagctact 25250
cgggaggctg tggcaggaga atcgcttgaa cccaggaggc ggaggttgta 25300
gtgagccaag attgtgccac tgcattctag cctggcgaca gagtgagact 25350
ccgtctcaaa aagaaaaaaa aaagaaagaa atcatttcct acaccttcga 25400
agccttcatg agttagattt tgaaacagtg caaaatgctt cacgtgagaa 25450
tcgagagtcc cttctggtgg ctctccatcc cctgctcttc tgtcaggttt 25500
tcttgtaggt ttatggaaac ctttgttact tgtgcaggtg gcagagaagc 25550
agagaggata gctgcgcgcc acccacacag ctaggattta ttggcgtact 25600
cccacgtgca tggcagccaa gtggacacaa ctctgtgatg aatcctccca 25650
agagaactga ggggccctga tggaggagct gcttctttgc aaagctttcc 25700
ttgactctct tcctgtcccc tagttgattc cccttctgtg ctagttttag 25750
cttattgttt gttacctgtc acacttagca gtactgttgg ctttgctggt 25800
ctccttgact actgggggta aagacctttt gttgttgttg ttgagacaga 25850
gtcttgctct gtcgcccagg ctggagtgca atggcgtgat ttcggctcac 25900
tgcaaccttc acctcccagg ttcaagagat tctcctgcct cagcctccta 25950
agtagctggg attacagcta caccacaccc ggttaatttt tgtattttta 26000
atagagatgg ggtttagtag agatggggtt tcaccatgtt ggccaggctg 26050
gtctcaagcc cctgacctca aggtgacctg cctgtctcag cctcccaaag 26100
tgctgggatt acagacatga gccaccatgc ccagcctcaa agacctcttc 26150
tttacttgct caccctgccg cccactcccc taccaacccc tgcatgccct 26200
ataccacctg gcacatgata catactaact gggtacatgt ttgaatatga 26250
atggatgtgg tgctgtgaat gcttagggga agtgggtgaa atgcttaaga 26300
accaaccttg agtggtctgg gaaggcttcc tgggagggtg gtgtttgagc 26350
taaggccagg cagctgttag atttgttaga ctgaagccct tgcagactta 26400
gagagcttgt gctcttccca gaatgacggg tgagccacgt acagtaaatg 26450
gtgcttctca tttctagccc aaggggcctc aaggggcacc gtgatttcac 26500
gagaatgctg caagcaaatc ttttctcaag ctggggaatt tggtggtaat 26550
gcctggctca gcttgcggtg cgcacctggc ctttggaaga ttggtacaga 26600
gagaagcggc ccatccacat gagcctgtgg aacagcactg gtgggggagc 26650
tgatttgtga agaggggctg tgcagtgtac tgtcaggtct gagacccagg 26700
aagaaattcc agtatcccag ctctcagaat cacagagttc taggcactgc 26750
ctagttccac gtgttcccaa atgtttcctg aatacttgga tttcctgtcc 26800
agagaatttt caaaacaaac ttagaggcct gacccatggc tgccaaggaa 26850
ggattttttt tttaaattaa attttaaaaa tcagtccagc atgaaaatct 26900
atgatgattt cataagagaa aggacatttt aatattcaaa gagtaagaag 26950
cacttaatct tggaagaaag ggcattccta tactttgatt acctttagtt 27000
taattaaaaa acacctacat ggtctttact tctgtgattt cattcctggg 27050
ctagtgaaac attgtcacaa taaagcatca ggccaacgct tctttcgacc 27100
cactggccaa tcagttgaca aacagtgact agatgtttca gcctattttg 27150
ctgaggctaa aggattgaac tagtgcttca gccagcatga aaaccagtca 27200
ggagtccgtg ctggtgttgg cttagattag cagggccttt gatggagggg 27250
catgtatgtg tttgggtttg ctgtgccagg caggggagca gtggaatttg 27300
tctgaattga gctcacacat tgaagttatt gagcgactta catgcaaggc 27350
catgacctgg actcccagcc gagaggccca cgtggcgggg cttgagctgg 27400
gggagccgag gacagcttac atctgctcat ctgcttacgt aaccctgcct 27450
cccagcttcc agagccaaga aaacacacaa gccagcccag cggggccgag 27500
agcctgtggt agcacacgcc atgcgccgca cagcaagggc gccttggctc 27550
ggcttgaggc ctgtcatgaa gccctcagcc ctctgcctcc tcccagagct 27600
tctccccacc accccaggca gtggctctga aacctggtcg caggtctgca 27650
tgattctgaa cagaggtagt cgttgccttc ctggagtctg agctctctgg 27700
agtttctcac tgggacagag ccaggtgtgt agcagagcat ggtccctgca 27750
gtatggcagg aggtgtgcag ggcattcagg aggcctcctg gctggcactc 27800
gacccaatta gtcattcaac gccaggtctg gggctgctgt ctgttgtctc 27850
aaaggtgtga gctgcaagat ccttagagtt gtggagaaaa aattgccaga 27900
ttggcaagaa gggcaggatt gggggtcaag gtgtctcagt gtgttggaag 27950
catgatgggg gttgtgcaag gggcacagcg agttcagaag ggagcaggag 28000
agtgagaaga ggctgttcag tgataaagct ctgcacagag ccattggagg 28050
agcaagctcc ttgaccatcc ttaaaccagg gtaattttca tttaggttct 28100
gccacacgct cagcagggaa ctcctggaag gcaggatttg tcttgtccat 28150
cctccctccc tacctcaacc cactcctcct tgggctggca cacagtaggt 28200
acccagaaag tatcaattga aacaaattga aagtggtctt gatacatatc 28250
acagggcaag tttgcagtta acagacattt cagagtaaag actctctggc 28300
ttggtgctcg atcggcttct gtgggttgtc agcatgctgt ggacagcccc 28350
ggcatgggag cgagtgggcg tgtgtgtgtg tgtatgtgag ggtgagagag 28400
cgttagtgtg tgtgttgggg ttggggagag aggaggggga atagaagatg 28450
gaccacccgg gtatcagctt ctgccctggg gagatggtgg tgtcagttgc 28500
tgagggaatc ctgagaagca ggtctggctg taggtggtga tggtggtggg 28550
gttgcatgag aatccatttg gggcaggttg aatttgaggt gcccatgaca 28600
tatggctagc catgttctgt tggctgtgag gtcaggagag agacatgaga 28650
tggaaacaga ggtttgggaa ctgtcatgtg cttaaaccaa agacctgggt 28700
atagggagag tgagaagaga agggggcaaa gatggacatc caagaaagaa 28750
gctgagaaag cctaggaatt tgaggtaaga ggagacgtag gtaaatgtga 28800
cgcttggtga tcaaggcttc tttccacctc tcctatgctg gacactcacg 28850
tctcctgtct gcttggaaat tcatgctgag ggcagggaag gtgggagcaa 28900
ggatttgtct aaagatcttg ctttggatcc ctgcactcct cctggtttac 28950
caagtgtcac tggacacgtc agggcgttct gagaccttag agagcatcca 29000
gtcctgtccc tgcagtttac aaatgaggaa accagtaccc tgagagtggc 29050
tgtactatcc actctcagga taccaaagat catctggaaa gtcactggtg 29100
gagctggacc ggggcccagg catctcttct cctgtccggg gctcttgact 29150
tcaggaccac ctttctgaaa cccatgatgg ggcaacacca ggacactttc 29200
cagcctgcag gtgtctgtcc cgcggaagcg agccaggcca catgtgaatt 29250
cctgttttct gggtgggttt cagaaggtac gagcaagtcg gcagggtgac 29300
agcccaggtg cttcttgggt tccccaaaac gcggttatgt ttagcagcat 29350
cctcagaacc aaaggtgggg tgggggctgc agatgttgtg ggggccctct 29400
gaagtgaaaa gagccctgtg acagatcttt tcttcatgtt tttcacaagt 29450
tcactgtgca gcagggcccc cccagtagcc tttgcccagg gttgggtgtt 29500
gggcagccca ggcctggctg accttgtggg gaagggtgtg aatggtggga 29550
atccccgagg gccctctttg cccgaaagcc ctaagccttg acatcagatg 29600
cccatcagat ggtccatcgg agccctacta cccagcttgc ccagtgagaa 29650
tcatctgggc tccttgttag gtagccattt aggtccttcc caaaatccac 29700
agactctcta agggaagggc ccgagatgct gtacttgtac taacttcctc 29750
aagcaattct tgtgataggt ttgggaaaaa cttgtccagg gtgaccactg 29800
actgagtcct ggtcttctct gaagagcaca gtgcctgctc actttagggc 29850
accctgggag gtgggagctg gctcagcagg cagtcttata agggactgag 29900
cttcaaggcc tctgtccctc caggagggag gtgcatgacc agagagggag 29950
gcctgaggat cttcttccct gccccagagg gtctgctgcc tgagctctgt 30000
gatagcgcag agagtaaaag gatcaagctt gattgaggcc tatctctcaa 30050
tgcgaaagtt tgctagttaa gaggagagtg ggaagggcat ttctggcaaa 30100
gagaaaagtg tggacaggca tggcttaagg gatggggagg gagacagaca 30150
gagctgaggg tgaagggcct tttgctcagc tgtgggcctt ggccttccct 30200
tgtgcaggga cacacagcct tagagccact ggaggtttta gtgggaaagt 30250
aatatggtcg gggctgtatc tcagaagaaa acaaactaat gggaacaggt 30300
cctgtgatgg tggacctggg tcagctacgg agggagggaa gatgtgagat 30350
gtgtactggg gaagggggtg gaagtggcag ctatctggtg agaggaagca 30400
ggcccacagc tttttttctc aagctgttga attcagaagg gcgagtgatt 30450
ccgggagtag ggggtgcttg gagagccacg cgttattgat aaacagggca 30500
ggctgaagcc tgctcactgg ccctgggcgg gttctcacca gcatgtttca 30550
ggttttgatc tgtgcttgtg gttggtgttc ctacctgttc tctaggttcc 30600
ttcctttgtt cttgtggctc atttgcttca caggtgaagc tggttacact 30650
agagtaacag ttcccaaagt gtgttccctg gaaaaatggt tctgtagcca 30700
aataagcttg ggaaatggtg ggttaaatat aacgaagggg gtttttcgac 30750
tgcacaactt ctcagagcct ttggtgtgtg tcgtgacttt gcagaagcag 30800
gatttaatac gcagcattcc cgttcttatt tgaccacgag acatgttttt 30850
ccattaagca tcttgctggg tctgatgttt tctggaaccc attttgaggc 30900
ggtctggtct gcagagagta tggggagcct gggttcaagc cttggctctt 30950
gactctcagc agagccttga ttccctgtgt tgcctggact gcaccacgtg 31000
taccacatac ccggtatgtg acgttttcct catccctctt cccacctgcc 31050
gttacctcac aatccacaat ctgcacctca tccatttttc ttctgaggca 31100
agcactctct tactaactta cttatctcat ctgcatccat gttcttctag 31150
gccagaaact tgggagtcat ccctccctct ttgttacttc ttcttcctct 31200
ttgttacttt atcccctctg ttactaaaca ttcttctgtg tttccagcta 31250
tttcttttat tttccctcgg tctcctttgg ggtttctttg cctccatctc 31300
tcccagacct tggttcacct tccatcgagt cccttcctgg gacatgggca 31350
ctcatgccac tcctgctacc ttccacttcg aagctaactc cctccacact 31400
gacgtcccca acatgcatgc atacacacac acacacacac acacacatac 31450
acacacacac acacacactt ccccagttag gctagaatca gagagatgat 31500
gtcagccatt tgtccaaggc cacgcagctg ggaggtcaca gagctaagtc 31550
tcaacctcag gggttttgag aaattgcctt ctcatccgtg atcactgatt 31600
tctacaacag cctgtcagga agtctgggta gaaattactt ccattttaca 31650
gtggagtcag agcggggagg gtcctgggca ggcgagtgct tcacagagtg 31700
accaaccatc taggtttgcc ccacactgaa gggggtttct ggggatggtt 31750
ggtcacccta atgctggatg tggtgcctga tgctgggcag gagggccctc 31800
tccgtggcca cgttgcctcc caggaggaga catttcctct gcagctgcag 31850
ctgcagcctg gccatctgat gcagcctgtg gagcggtggc gagtcctgtg 31900
gcctgctaac ttctccctcc ctccacctct ctagtgggcc ccatgctgat 31950
tgagtttaac atgcctgtgg acctggagct cgtggcaaag cagaacccaa 32000
atgtgaagat gggcggccgc tatgccccca gggactgcgt ctctcctcac 32050
aaggtggcca tcatcattcc attccgcaac cggcaggagc acctcaagta 32100
ctggctatat tatttgcacc cagtcctgca gcgccagcag ctggactatg 32150
gcatctatgt tatcaaccag gtgaggcctg ggaaggtgga atgagagagg 32200
gtgtgtgtgc atgcagatgt gtatcagatg tgtgtgtaat gagggcaggg 32250
gaaggggagt gatttcacag acacctggca cttacagcga ggaaccagcc 32300
ccccagccac caccagtgca gatgaggtaa acgccaaaca gtgtgcttgc 32350
ctattgctgt caactctata gccaagggaa atgctggagt gttttcgttg 32400
ttctgttttt gttttctgga agtagccttc cagcaagatt gggaaaaaag 32450
acaaccctaa ttattccaaa gtacacactg attattccct ggctttgtgt 32500
agctgtgtat tttcctttta aaaataaaac caccatttag atgtcagact 32550
tttaggtaac ttcaaagttt atccagtcag tcagagcgtg tctcctgggg 32600
cacctggaga cagtgccctt agttcaggtc acatgcctac atgccagccc 32650
ctggtgaaat atctggagaa gtctgattcg tgggccatct gagagttatg 32700
tggactgggc cgagtctgag aaaaagtttc tcactgctcg tctgatccat 32750
atgtgttggg ctttagccct gcttaggaaa gtaatgctaa ggataggtca 32800
actttcatca ccatggcatg gagaatcaga ttgatctaag aggcatcttt 32850
attgaaataa atttttcagt ttatttgagg agcattattt tcccaagagt 32900
ataactttga tatttcaaga ttacccctaa cacttaaatt catgttttta 32950
gactataacc tcctaggtgc aatgacacat ctaacttatc taagcaccca 33000
gtttcattga aattcatttg aagagtctga gtacgcccat ttctacaagg 33050
cccaatgtcc atttcatttc gagataaact ctgctttagg taggaggatt 33100
gttggcagtt tacggcttcc atcaaggtca aggaactctg tgcaccttcc 33150
ctatgacccc aggggaagca ctcgaggact gctgtggcat tgtgctgcat 33200
cacttgctgc agggagattc tgaagaagtg taaggtctca gtcctgccct 33250
gtcccgaagc ctccaaccca cttctggcaa gtgggacctt cccagggaac 33300
aatttgttaa cagacccaaa tatcctgtga ttggatggtg gctgccaaat 33350
gctttggaag ctcagaggaa ggagagagag caatggcttg gaagaaccag 33400
gatataaact aggttctaaa gtctgcaggg agatgggctt ctcagctggg 33450
gccagtgagc agggacctta aggcagaaag gagccttgca tgttcctgga 33500
aattgagatg cccactgggg taggaaagca ccagaagctc tgggaccagg 33550
tgtcagagtt aagcctgtga ggcaggagag agcagaacaa gccctgttac 33600
aaggaaactg aagcaggaga gcaggtggtg ggcaaacccc ttgaggctgt 33650
ttgaattctt cggccaagtg aggtacagac cagggcccta tgaacacctg 33700
caagcaagac agccacgcag ttgtgggtca ccttggaaga atattggaga 33750
atgcaagaga gaacaggtaa atgtcctgca aaatgcgggt cactttaacc 33800
caacacatat tcatttaaga aaagctctgt gattgagaaa catttgtctg 33850
atgccagtta gcacatacca atgacggcaa gattcaggag cctgttatta 33900
aagcagtggc agcgagcacc tggaagaggc ggccaccatc accaggagcc 33950
agcagggatg actaataagc cgtgccagct gcatctcgtt tctctcttga 34000
cagttgctat gccagtagat gagggatgta ctgtggatac aatgctgtca 34050
tatcttattc agcagggcat ctgatagcat cccacaaatc tgcctgagta 34100
gaagacagac agctgtggtc tgggtgccat ataggtaggt taaaatatat 34150
atttgggcct aggcgcagtg gctcatgcct gtaatcccag cactttggga 34200
ggccaaggca ggcggatcac ttgaagtcag gagttcaaga ccagcctggc 34250
caacatggcg aaaccccgtc tctactaaaa atacaaaaat tagctggaca 34300
tagtggtggg cggctgtaat cccagctact cgggaggctg aggcaggaga 34350
atctcttgaa cccaggaggc agaggttgca gtgagccgag atcatgccac 34400
tgcactccag cctgggcaac agagtgagac tctgtctcaa aaaaataaaa 34450
taaataaata aataaataaa atatatactt gggtaaagag gataaaagag 34500
ttagcgatga tgctgaattt ttgaactgag gtggctgttt tcaaggaaga 34550
ctggagggtg ggatgctacg tctagatatg ttgcagttta ggtgaatgtg 34600
agacttccct gttttgaagt caaatattgg accagtaaaa tctagccatc 34650
agcttaaatt cctatgatac aatttacata ctccccaggc tcaacacagt 34700
agatttctga atgtcctctg ccagctacat gctcctgccc acctcaatcc 34750
gagtagatgg aacaactaac caagccagct cagaccggtg gcacagctgt 34800
gctggctaac actgggcacc acctaagaga gtgcttctcc aaaagtgtgc 34850
ttccccaaat ggagcgaaat acgcttgagg aatgttgggt tgaaccatgt 34900
aaagcaggtc tcattcccgc agagcctttg gtaccccggt gtacactgta 34950
accccagaag tgtttcctga gcttgcctga cgagacaact tttccaagaa 35000
ccgtctcaag tgatgagtgt tttgtgagtc acactttggg gaaagcgggc 35050
ctaagttagc atctcctccc agctgcctcc ctgctttccc tggaacacta 35100
ggaactgccc gtcctccctc cctccctcct cttcccactt cacaacttag 35150
catcaggaat attttagttt tggtttttca aacatatata cctccttttt 35200
tcttatcttg tcaatatcat cttttttttt tctttgcttt tcctcatact 35250
tttttttctc ttcatccttt ccttctccaa gggttaactt tccaccttag 35300
gagaatcttt tctgcttttt ctcccacttc cccagctact ctcttatcat 35350
ctgctccaat ctcaccctaa ttgatcattt tgggaaaata tggtcagagt 35400
ccagataact aagttgagaa atgcttaaac tctgccatac ctttccagta 35450
aagaatatta cctaataaat aataaaatgg taatgggaaa cctgaaccct 35500
gaaaaaaaag aggtggaagg agaaacattt ggagcacatc ctgtctacaa 35550
attaggaact gcctgtgtta tctgttttat ggttatattc tagaagaaga 35600
aagggatttt gtagcacctg gttttgacct ttctgcactg tttgttgagc 35650
aaataaacct tatgggctgt tagccctctt tatagcctct cagcttatcc 35700
ctggcccaga caccctgctg tcattttgac ttttcattcc cacacacaca 35750
tacacatgca cacacatgta cacacacaca cataccattt aagattagac 35800
agaagtaatg ctcaaaatgg agtggcttct gagacattta gtccaagggt 35850
tcccaaacag gcttttcagt atcagatttc tttctgcccc attgaaatgc 35900
tacacaacct tccgcttaca gcaggtcaca agggtttcat tctacttgaa 35950
gtaggggcca tgtcccattt ccacttcctt ggcttcccat tcagtcactg 36000
ctaggatttg cctagacccc tgaggccaga caatgtagaa acttctgctc 36050
catgtcacag gtgaggaaac aggctcagag agggacaggc tccgaaagtc 36100
acatagacaa cagtagggct gcggctcaaa ccccagcgtc tgactccagg 36150
tttagtgcct tctcagggca tcagtgacac tcctcatggc cagggtgccc 36200
ccagtgttgc tcacagtctg gtatccaggg ctgagagtgt gctgtgtgct 36250
cagactgcct gggttcagtc ctggcactgc cactttacag tcagtgacct 36300
caggcaggtt acttaagctc tgcaggcctc agtttcctcc ttggtgggga 36350
gggttatgag gcatccttct catggtaaac cttcagtaaa taccagccgt 36400
tactaggagg gtccactcct gcctctccac tctccattca tcctgcctgt 36450
ttcctctgcc tgcttcctct gcctgcttct gtggtggtga attcttcatg 36500
gctcccaccg cctcctgctg cacccccact cagggcccgc atcaggaccc 36550
ttcctcctat tggtttgaac tccttggagt cagagggtaa tggatagtgg 36600
agtgagccag gtggcagaat ctcagaggcc atcccgggcc tataagcctc 36650
ttcaaaatag ggccacgtat caagctttac acacaggagt gaactttcac 36700
aagttgttat gactcatact ctgtctatag taagctgtta accactccca 36750
tttggcttat gcctctgtaa ttattgtact aacttatatc ttaaaataag 36800
gatattgaag gaatgagccg ggagaggctt tcctggttga gatatagaag 36850
aacaagagtt gctctttttc cttaaggtct ctcctcccac ccctgacctt 36900
agctcaccag catgggagaa tactatttga ctccttgtac tctgagacgt 36950
ggatttcaag atatagcatt ccaacttcaa cggcagcaag aaaagaagca 37000
acagaaggag aagacatcat agcaaacagg gatgcatgct gcatttccta 37050
atactcaaac ccggaaacga gacttcactc aaggtgaagg gagggcaggt 37100
caccacctgg tagcactagc cctaaattaa ggaatgcaga atgtttgtgg 37150
gattgcccat cataaaaatt acaaaatgag taaggaatgc aggcacagct 37200
ggccaggtgg gtttgtcaca accatggcag ccctttgccc cacagccagt 37250
acacagaact ggtctctcca attccgattg catatcttct ggcacctctg 37300
ttcctctccc tcagctgccc aggatttttc tggttctgac catgttactt 37350
cctcttttaa acctgttagc atttcacgac tgcctacagg caacggtcta 37400
aatggtcgga aggcccaagc ttagcatccg agaccctgac ctacctccag 37450
ccacttcctc ctcctctcca cttcactgga ctccccatct ccacccagac 37500
acctctgttc tcccctctgt gtgcctttgc ttatgctgtc ccctgtgttc 37550
ctagtgtgtc tctggctatc ttttaagctt ccctccccaa cctcattagt 37600
tctgtggagc ccctggaata gagctgactt ctccttccct gctgctccca 37650
ggctgctcag aactttctgg aaagggatga ttatctgagt tccagcctca 37700
ccccagcccc cggactctga gtccctcatg tctgcctccc ttctttctct 37750
ctgaccacac agctggtaca tagtcagtac agacgcagtc agtgagtgga 37800
gcacggggct tctctccagg attcctgccc ctttgtttat ccctagtctc 37850
aggactccct actcctggtc ttctgcctaa atctgtgcct cttggaagtg 37900
aagcctccgt tcccagtggg gccaggtcct gacccttggg aacttgcagg 37950
atccctccct tgggcctctc cccgaagctt ccagctcaat gctgaccaga 38000
gcacaggctg cctgtgacag tccttggggt gacctccctt atcaggaaaa 38050
atgcagaaaa cctattaata ccttagcctt gtgattgtta atggtcacaa 38100
aactccttta gggtcctttg gactcagcac ctttatggtc tcactttgaa 38150
ttttgaacct cccacctccc cccatccccc agagtaaggc aaatggtctt 38200
ctgattgttc ctgcagaggg aaggctccac aggtaagcac acgatggcca 38250
ggaagcagag ctggagcctg cctgaaaggc tgtggagaaa tggagggagg 38300
gctgccctga ggactctgtc tggctttgaa gttttctact gtttcctttt 38350
cttctgtgca ctgttttagg atgatggggt gatagttcca ggctggttga 38400
ggatggattt ggagacagtc ctttgtaccc tcagtgagca agagtatctg 38450
tcaccctacc tcagcagttg tctctgtcac tggtccaagc agctggttcc 38500
tacacaaggt caagatcaac tggggagaag cagactcctg ggtctatccc 38550
attagtgagg acagctgcct gggcttatgg cctcattggt ttggtttcta 38600
tcttgatcat ctctaccatc cccccatccc ggccttccat tttctacctc 38650
agctgtcagt gcacagattg atgtgtgtgg gaacggagct tgggaggagt 38700
ggggtagggc tggtcctgtc ctgtagcctc cccttccttc gggcacttgg 38750
accctttgga gcttgccggg gtggggaatg ggagtgggaa ggccagggag 38800
tgtctctgca ccatcactgt ttgagtgttg cccctttgct gtgtgcccca 38850
cctagtctat gtgtgtctct gttctctggg gactcaattt gctggtgaat 38900
tgcttccatg gacattgttc tgggaaatgc cattttttct gctcacccat 38950
gactctgtga caaggaatga cagcttatta ggaatttgtt tttgcattgg 39000
aacagtggtc atcagaatgg gccccttttc ccttgcagct ttgacatttg 39050
cctctctttt cctcacctct ctcccttgca tccacccttt tctctttttc 39100
ttcttttttg ttttccttct agcaggggcc ttttaccttt acttgttaat 39150
cctgtttgta gcaaagcaag tggaaggagg agttcctctc tgatctgctt 39200
cttattctcc acctaccttc tcttctgtac tttccgcctc ctagagagag 39250
agagagagag aggaatgccg acctaactac cgctgccact gctgctgcca 39300
ccaccgctgc caccaccacc ctggtaatgt tcacatgtcc tcaaatcaac 39350
ccagagccag ggccctgctg gtcaggggga ggctatgtaa ataatcccat 39400
gagtgtgcca tcctcaggcc ctggggtctc ctaggcaaga ccagggcctc 39450
tgtgggctct ctcggaaatg ctgaggttgc tggaagccag cccgtcatac 39500
agggtctgag agtttaactt cttttaaatt aaaccacagt tgagctcatg 39550
ctgtgtgtgt ataaactttt gtatcctgct ttttccttaa attctttatc 39600
atcagcatct tcccatgtta tttcatagtc ttcatcatca tcactttcca 39650
taccttcata gtagttgatc gtagaattcc atcataatta acttgtcttt 39700
tctctcttag aagtccctta ggtaatgtcc aattttccgt gagtgtaagt 39750
aataccataa tgaacatctt ggagtctgaa gtttattctg tgttggtttg 39800
ttccacattt aggatcattt tcccaggcta gattttcaga tgtgggatta 39850
tgggttcaga tatggtttac acatttttat agttcttaat acagatggcc 39900
aaattgcttt ctgaaagaga agcttttctt aagtattttt ctccaacttg 39950
tatcttaaac atcctgaaca tgcttagcac cactgtcttg atatatctgc 40000
ggaaagccac gtctccactt ttcagtgtgt cgggccctgg gagaggcagg 40050
catcctgcgc tggctccttg gagctgggtt taaaattgtc tcctctggct 40100
gggcgtggtg gctcacacct gtaatcccag tactttggga ggccgaggtg 40150
ggcggatcac taggtcagga gatcgagacc atcctggcta acatggtgaa 40200
accccgtctc tactaaaaat acaaaaaatt agccgggcgt ggtggcgggc 40250
acttgaaaag tcccagctac tcgggaggct gaggcaggag aatgatatga 40300
acccgggagg cggagcttgc agtgagccga gatcgcgcca ctgcactcca 40350
gcctgggcga cagagtgaga ctccatttta aaaaaacaaa caaacaaaac 40400
aaaaaaacaa acaaacaaaa actgtctctt ctgtgctcac ttcacccaga 40450
atccctgttg ggctcttcaa ggagctcagt tctctctgaa agcaacttta 40500
tagcctcagt ccagtctgtg ttcctgtgtg gcaggggtca agggtatgct 40550
cactcttgag agtggtgtct ttggttgacc aagaaccact cccatagcct 40600
ggtccctaac ccttgaaggc ccatctctct cactcactgg ggtgaagagt 40650
ttaaatctca gatccaagtt ttgttgagag ctctgagcta ccatattgct 40700
atggttaaca atagttaaca atgttaacaa tggttaacta tggttaacaa 40750
tagttaacaa tgtttaacaa ctagagccca gctgggtgtg gtggcatgtg 40800
ctaacagtcc cagcttctca agaggctgag gtgagaagat tgctggagtc 40850
caggagctca aggccagcct gggcaacatg gcgagaccct gtctcccctg 40900
caaaaaaaca acaacaacaa aagcaaaact agagcccaac tgctgtgaac 40950
tcatggctga gtagatatta ttagccctcc acaaactcag catttgtata 41000
atcccaggct gtttccagta attctctggg gatcatctcc cagcctgtcc 41050
actgttccag gatccacact taggcctata ggaatgcccc gtcagagctt 41100
ctgctgccgc tgatctgtta ctgtttcatg caacccactc ggcctagttc 41150
cttcctctta ctgtctcagt gggcacagaa aagcatacag agggtgtttc 41200
agcaaacatt gccactggct gcagacctgc ccccggatct gtcctgttga 41250
gagcttagtg ctgcgttctt gcatggtggg gaggggtgtg gctctgtgat 41300
gagccagggc atgtgtatag gagcaacagt gtctctctta tcacgtagaa 41350
gttctgactc attgcgagtc ttggctttgg gttaatggtt ccagccatgt 41400
tgctgctgtg tcttttggtg caggagaggc tgggcacagt tggtccctaa 41450
gccattatgg ataagggatg tgtctgctga tatacacaca tggacctgac 41500
atccagggaa ggcagggtga ttggacagaa cagttcttcc agaagctgtt 41550
ggaacttgga caagagtggc ccttggcttt ctgtagttgg tcatctgtcc 41600
cctgttgcaa tcaggggaag gccacacttg ccttccttaa ccacagttag 41650
gattttcttg gggattagac cagattctag cacctgtcct gaacctctcg 41700
ccccgcccct acaaaggctg cttgcaagtg tagtgcacat acacagggag 41750
caggtggggc atggaagtgg aagtggagcc cctgcctttg gcccttgggg 41800
gaggcactgt ctgcttaccc acggttgttg cctcatagga atcatacaac 41850
agcttcctaa ctggtctcct tgccttcagt tggattgggg cacaaatccc 41900
tccttgacat ataaaccatg gtttaaggct ccctgtggcc taaataaaga 41950
taaagcttaa gtatcttaac aagcacctaa cccttctccc cagcctcggt 42000
gatttggctc atcgctgcct tcatgtttca ttctggcttc actcattcgg 42050
aatttcttgt agttccttgg ctgttctctt ttccttaccg cctttacaaa 42100
tgctctcacc atgcatgctt ttctctgctc ctacagatgc cttctctccc 42150
agcaccgcct ccagagtcta tgtctggtcg attctgtctg ctgtctccag 42200
tccccatctt gtggcagtct ctgctcaatc atttggggat tttatatgtt 42250
ttctggcctt tcttttgggg gcctgtcttc tccttctaaa agcagccagt 42300
tgacctagaa ggaagggata actgtaactc ttgtctacca acataagatt 42350
aggcccaccc tttaaaagct gcgtctttga aagggacacc tgcacccagc 42400
atgctggctt ctcttcacca agcgtgactt cctacgcatt tcacaggcct 42450
ccagaggtcc ccctgactct cttctgctgt gagaaactct aatcatgtaa 42500
gccacaggct aattcccttg agccttaaat gtttttagta atttcccatt 42550
catcagagaa gcaggatttg ggaggaattt tgaagcaaac actacagaag 42600
gcagagtctc caggtaggat atctaagaga catttggaat ggtctgactg 42650
ttcaagatgg atgggaaagc ctcttcctgt aatgatagta gccaacattt 42700
gttgtcaggc agtggggccc catttttgag atggggtctc tgtcacccag 42750
gttggagtgc ggtggtgctg tcatggctca ctgcaacctc agcctccccg 42800
ggctgggtct tcttaattct gaaaaaccca gcttttaaag ggtggaccta 42850
atcttatgtt ggtagacaat gttgtctcat ttaatacaat gcacatgctc 42900
tccccataac acaaaagagg gaactgaggc ctggaggtgt gatgtacccc 42950
aagtcacata gctaataaat aaagaagcca gcattcctgg gattaaaaat 43000
gcatgtgtct gtcactgtgg tgtatttggt gcttgatcaa tgtttacttg 43050
agcaaatgga ggggcagagg taccgatgag tgtgctcagt gaggagggca 43100
ggagtgaagc tgggcgtctt cccgcctctt gtgagtggtg gggcttggtg 43150
agcttgccag ggcctgtctt tcttatcaaa gaaggtgtgt gccccagtgt 43200
tacagcattt cacccaaagc agcctagaaa atgcttgact tttctgtcat 43250
tccggggagg acactttcct cctccactgt tctgctggcc tggtgtaccc 43300
acggcccctg atagatgata gcacctgcta aagtgcacca tgcccttccg 43350
tctcactgca tcccacagat gaggccaggc tgggatgagg gagaaaggga 43400
gggatatata gttcaggtta ttttggaaaa ctgcctgacc aattttaagt 43450
ctgggccgga cactggggca tctcaccacg ttgaaagggc cgtggcaccc 43500
cgggcggtga aaggggctgg aaccaggtct gcttcttggg cttctcctcc 43550
agggtgccat tgctcatggg ccttggctgc agaggtgctc attcgtggtt 43600
ccaaaattcc aattcctggg agaggaaaaa tgcttagttc agtctcagtt 43650
aggcctctgc ttagatcaaa cagccaaggc cagtaggccc agtcctatgg 43700
tagagacatg gcctcaaaga gccctctgct gcagttgttg gggagtgtac 43750
caagagaagg gagcattgtc ctgggctggg cagccctggg ggtctagtgc 43800
atagatgtag aaaggctctg ttggtatacc tccctttgct tgttggaaag 43850
tgctcaacgg ggctgaattg tgtttgacag tgtaagtctg ggctggggtg 43900
agggttgtta caagattgtc aagatgatta aatgaaatgc catttgaaac 43950
acttatccat gccttgtgta tggtatcccc accagtgaat attcacagta 44000
tattataata attccaacaa cttcataatt ttcatatgca atttctaaac 44050
tttgaacttt tttttttttt tttttttttt tgagacagtg tctcgctctg 44100
ttgcccaggc tggagtgcag tggcgcaatc ttggctcact gcaacctcca 44150
cctcccggct tcaagtgatt ctcctgcctc agcctcctga gtagctagga 44200
atccaggcgc ccgccaccac acccagctaa tttttgtatt tttagtagag 44250
acgggctttc gccatgttgg ccaggctggt ctcaaactcc tgacctgagg 44300
tgatccaccg ccttggcctt ccaaagtgct aggattacat acgtgagcca 44350
ctgtgcccgg caattttttg tgtttttagt agagatgggg tttcaccatg 44400
ttggccaggc tggtctcgaa ctcctgacct caagtgatct gcccgcctca 44450
gcctccctaa tgctgggatt acaggtgtga gccaccacgc ccagcctaaa 44500
ctttgaattt ctttgaaccc atgacttaca cagaattagc tgaacgcaga 44550
attccaaatc aactcagcct gtgggacagc caaaaaacac agtgtgcctt 44600
tgggctcctt cactcaccac gcggggttag aaaactttgt cagaggcttt 44650
aaaaaaggag ctcttgtgtg taaaatgttt ccttgattct ctttctggtg 44700
cctctctttc tctaagtggt ttgcttcccc aagttcccca cctgagtctg 44750
ggtggctgtg gcacatctgt gcattctgta cgcacacagg cagccttttg 44800
gagtgccagt ttccaggtct tggttttatt tatttattta tttatttttt 44850
tgagatgggg gtctcactct gccgcccagg ctggagtgca gtggtgccgt 44900
catggctcac tgcaacctca acctccctgg gatcagttga gcctcctacc 44950
tcagcctcca gagtactagg gaccaccatg cctggcaaat ttttgtaatt 45000
ttttgtagag gcagagtctc accatgttgc tcaggctggt ctcgagctcc 45050
tagactcaag tgatctgccc accttggcct cccaagtgtt aggattacaa 45100
gtgtgagcca ccatgcccag cccaggtcat cttttgaggg catggagaga 45150
agactttgag catcccactt ttgagattgt gtaccagtcg caagccccta 45200
tgacacactt tttccccaaa gtagagggct ctgactatgt tgatcccaag 45250
agagatggga aagagcattg aatgaggatt ccaaagtatt gggccttagt 45300
tcgtttcctc atgttggtgt tgtgaagatt ctggttagga taacagcatg 45350
tgtgcaggag gctttgtgaa ctgctgagag tgaggcgtgg caatgtcagt 45400
gctaggtttg tccttactaa cctggggcca tgggaattga taagaccaga 45450
ttcccaactc taccccacaa tgtgatccct gtggtgaccc ctcacagggc 45500
tctttggtcg agcttcccag aagggatcac catctgccat tgtatgttga 45550
accccattca ttcattcatt cattcagcca accagcaact atttgttgag 45600
ctcttattgt gtgagaagca gtcttcaagg aactgggtga ataaaaaaaa 45650
caaaacatcc taaccttcat tgagcttaca ttcttactga aagaaaacaa 45700
ataaaacata catgtaatcc tagcactttg ggaggccaag gcaggcggat 45750
cacttgaggt caggaatttg aaaccagcct ggccaacgtg aaacccatct 45800
ctactgaaaa ttaaaaaaaa aaaaaaaaaa aagccgggca tggtggcaca 45850
tgcctgtaat cccagctact cgcgaggcta aggcaggaga atcgcttgaa 45900
tcctggaggc agaggttgca gtgagccaag atcataccat tatactccag 45950
cctcagtgat gaagcaagac tccatctcaa aaataaaaaa taaaaataaa 46000
aatatgcatt ccctttgcac cagcacactt ggtgcctggg gacctcgtgg 46050
ttggcaccct gaagcaggtg tccctcttct gtcttgcaca ccttgcttct 46100
gtcctggtgt gtatggcatg gccttctgcc ctccatggtg agcactgtga 46150
gggcagaggt tgagttgggt ttgctgtatt tctcaggtgc ctaggtttgt 46200
gcttgacagg tagatggaag gcacacaatg tggtcatcaa acctcagtca 46250
accatataag gaaggtagaa gtgaaaagtc ccataggtac ccaactaatg 46300
tcaccagttt cctggatacc tttcctggag tttatttata gtgtgtataa 46350
ataaatgatg tatgtgttta aatgcctttt tcacctttcc ttttagagct 46400
gcctcttttt aacagttcca ttccattgta tggatgtact atgatttatt 46450
gaaccagttc cctactgatt attctgtttt ttgcagtctt ttgttatgat 46500
gaacattcca cagtgacaat gttgttcata gtcattcaca cacatgcaag 46550
tccttctgca ggatatattt ctagagggga attgctgact cagaggtttt 46600
ggtactctgt gttgattgta gagtgacggc agaaaagtga ggcccaagag 46650
tttcctagtg accatgtgta gtggacaagt caccagtccc tgtgagtgtt 46700
tggcccaaag gctttaaggc atttgatatc actgtttttg tttctgcacc 46750
aggcgggaga cactatattc aatcgtgcta agctcctcaa tgttggcttt 46800
caagaagcct tgaaggacta tgactacacc tgctttgtgt ttagtgacgt 46850
ggacctcatt ccaatgaatg accataatgc gtacaggtgt ttttcacagc 46900
cacggcacat ttccgttgca atggataagt ttggattcag gtaagagata 46950
ctcagtcaga atctgtggta aacatgtctc tctcatgtgt tgactaggaa 47000
atgcagtcct ggcagctcaa gagtgcctct ttaagctctg gagcagaatg 47050
cctcctctga gaaatgggtg ctttgtatta gttgagatgg aaagaagaga 47100
ccagaaatgc ctgtagtctc tgcacatcca gacaaaaaca aattttcccc 47150
cctttttttt ttttgtttgt tttttgagac agggtctggc tctgtcaccc 47200
aggctggagt gcagtgccgt gatcttggct caccgcaacc tctgcctccc 47250
gggttcatgc catcctgtca cctcagcctc ctgagtagct gggactacaa 47300
acacttgcca ccatgcgcag ctaatttttg tatattttgt agagatgggg 47350
ttttgctgta ttgcccagtc tggtctcgaa ctcctgagct caagcaatcc 47400
atctgccttg gcctctcgaa gtgctggatt ataggcatgt ggcaccatgc 47450
ctggcctaag aacagttttt agcatttggg aggggctctc atctttaagc 47500
tccaaatgat actgtatttt cttgcttttt tctttctctt gccccacaag 47550
ttttggaaag taaattggaa tagttttccc ccactgaatt atttagcttg 47600
tatacctcag cagatgttcc ttggcctgtt ttgttttgtt tttgagacag 47650
ggtcttgctc tgtcacccag gctggagtgc agtgacacaa tcatggctca 47700
ctgcagcctt gactgcctgg gctcaatcca tcctgcagcc tcagcctcct 47750
gagtagttgg gactacaggc atgagccagc atgtccagct aattttttat 47800
ttttagtgga gatgaggtct ggctatgttg cccaagctgg gcttgaactc 47850
ttgggctcaa gtgatcctct cacctcagcc ttccaaagca ttgggattac 47900
aggtgtgaac cactgctccc gcccttggcc ctataagaag gaatgtgatt 47950
ctgttttcca gcagggcaca aacttctgct taaatacaaa gcccaaattt 48000
ttccaccaaa atgcccctag tgaagtggcc agcccagatg cccgactagc 48050
gtattatcca aagcatattg tcattggtgg aaaatggcct tatagtccat 48100
tgttttgtct taaaagtaaa tatataaata aacttgtata ttgtttccta 48150
attccgtgtt tatattaaca taaaagtgtt ttaaattacc tgtcagtggc 48200
caggtgcagt ggctcgtgcc tgtaatcgca gcactttggg aggccgaggc 48250
gggcagatca cctgaggtca ggagttcgag accagcctga ccagcatggt 48300
gaaaccctgt ctctactaaa aatacaaaaa ttagccaggt gtggtggcag 48350
gtgcctgtaa tcccagctac tcgggaagct gaggcaggag aattgcttga 48400
acccgggagg cagaggttgc agtgagttga gatcgcgcca ttgaacttca 48450
acttgggcaa cagagcaaga ctctgtctca gagaaagaaa aaaaaaaacc 48500
tatcagttga ataacaaaac cctttccttc cttgctttaa gtgaatctga 48550
agatccagga gctgtgctgc aggtaccctc tatgttgggt acccctggtt 48600
taggctgact agtacagtgt ggttggctca tgtagacagc agacccttta 48650
ttttagatac aacttttttt ctttttcttt tatttttttt gagacagagt 48700
cttgcttgtc acccagcctg gagtgcagtg gcgtgatcat ggctcactat 48750
agccttaaac tccctggctc aagtgatcct ctcacctcgg ctttcctagt 48800
agctgggacc acaggtgtgg gccagcaccc ctggctgatt taaaaaaaaa 48850
aaaatttttt tttttagaga tgtctcacta tgttacccag gctggtcttg 48900
aactcctggg ggctcaagca atcctcctgc tttgacctcc caaagtgctg 48950
ggatgacagg catgaactac tgcacctgct gagatgcaac agctttctgt 49000
cagactcatt ttattctcat catttcttcc tgtcctccct tgctgggagc 49050
atgagagctg tgatgggaat ataggaatgt atgaagtcct tctcccagat 49100
caaaaatcct aacttcttgt cttaaaggga ggaaaatttg aatgtaacct 49150
tacttttaga ctcttcagaa atccttctat acccttccgt ccccgctttc 49200
acccttcctc cctctccgtg tgtgtatctt cttctcttga aacacacagg 49250
tttataccct gacccctctt gattcatccc ttgaagcaca gtggtgaaca 49300
aggaaggggc ccgtgatgcc ctaattcttt gccacagcac catgtttgtt 49350
tcacaaggag cctggcaggt ttgggcttgg ggcagatagg ggagagaaag 49400
cagcagagac agcaaaacca aatcatgtca gcttggcatg tacttccctc 49450
tgaaatagct aagaatccat ttctgtaaaa gcactgatta tcagaaaacc 49500
ttattggcct ggccaccttt ggttcaaacc ctcacattaa taatgtggac 49550
agtagtatga ggtgtgccaa aggtggatga ctcagcacct aagtgatgac 49600
acctaattac gaataggttc attaaagcag accccctggg gacctttgct 49650
tgaggatcct tacagtcaga attcctgaat atatttgaaa ataataattg 49700
catctttatt ttcatatgtt ctgtatggtt tggctgactt ccccctcaaa 49750
gtctgagtta gagttttcct taatttatgt gatgggtttg gtctttttgg 49800
attccagaaa gagctgggtg tggtttggag ctgcactcag agtcacacaa 49850
aaccacagcc tttagagaac ccacaggaag gctttggggc acgtcctgat 49900
tcttgacatt tctcatcagt gctgactttg tatcccttag gagttcacaa 49950
ttcataacca ctgaaatatt aaaatacaaa aagttttgga aggatgagag 50000
cccagatgct ctactacttg aaaatatgtt aaaacataag ttcatcatta 50050
tacattttgc taaatcagga taaagtctga agtttcaaag aagttttatt 50100
ttagcaaatt ttcagaaaca ctgcctcaac tgttagggcc agtgttctag 50150
tcagtatgcc tttggaagca tgaaagctgg attggtcgat aggatgggtg 50200
tggaaggggg gctgtgactg ggtgggtaca gagaggctct gaaacaatct 50250
cagattccag gagttcctgg ataaggactt catgtgcggg aacagagcac 50300
aggagaagca gattcctgag ccactcagga agaactgggc ctaggcctgc 50350
tcttgtcact gactggcttt ctacataacc acagaaacag cactgtgttg 50400
tagaaagagg aagatcatac tttttgatat ctgtgtctaa tttaaggtca 50450
tctgagccct gatagaaaag caaaacagac aaaacccttg taactgctcc 50500
ctcccacccc acccaccatc aaaaaagctt tagagaggct ggacatggtg 50550
gctcttgcct gtgatcccag cactttggga ggctaaggtg ggtggatcac 50600
ctgaggtcag gagttcgaga ccagcctgac caatatggtg aaaccccatc 50650
tgtactaaaa atacaaaaat tagccaggtg tggtggcaca cgcctgtagt 50700
cccagctact tgggaggctg agacaggaga attacttgaa aacctgggag 50750
gcggaggttg cagtgagccg agatcacgcc attgtactcc agcctgggct 50800
acagagcgag actccttcaa aaaaaaaaaa aaaaaaagat ccggtttggt 50850
gtcttacaac tgtaatccca gcactttggg aggccgaggc cggtggatca 50900
cgaggttaag agatcaagac catcctgacc aacatggtga aaccctgtct 50950
ctactaaaaa ttagctgggc gtggtggcag gcgcctgtag tcccagctcc 51000
tcaggaggct gaggcagaag aatcgcttga acccgggagg cggaagttgc 51050
agtgagccta gatcgcgccc ctgcactcca gcctggcaac agagcaagac 51100
tacgtctcaa aaaaaaaata aataaaaact ctagagaagc aaaaagaata 51150
actttaaaag tgtttatgtt ctcagcaagc tttattttgg ggatgtcaga 51200
acttaactaa ccactgctcc ttctgtgtgt atgtttttcc tccagcctac 51250
cttatgttca gtattttgga ggtgtctctg ctctaagtaa acaacagttt 51300
ctaaccatca atggatttcc taataattat tggggctggg gaggagaaga 51350
tgatgacatt tttaacaggt aatggtcata acttagatat ctttctcctc 51400
tgtcaacctt cacttccagt tttttaacca atgcttggtt gttccccaag 51450
gactgaccct cagatgggat gcacccctag tcagcccaca ttcttaggtg 51500
tggcttccta caggtcctgc aggtgctaaa agggatctgt aggaaaatga 51550
gtttctgaga tttttgtatt ggcctggaaa aatgtcaaat gggaaccaag 51600
tgacggggca agtttacttt gacttgctgc atgccgtttt gtactcaagg 51650
agtaaaccaa tgtcctttgt aaaaatccct cctttcatta tggtcccctt 51700
tcactgtgaa acaagtttcc ttgagcagaa tcctaactgt cttcacagaa 51750
gctttgtgtt atatttttat tttggagtat tttcacatat acaaaagaga 51800
tactgtagta taataaacct ttgaggacct atccagcccc agcaaccatt 51850
atggcctggt cagttctgtc ccatccacat cctggggctc tttttaagct 51900
ggtaaatcat tatgatgtgg gttgtcattt acagtggtaa aaaacatcta 51950
tcagtagcat ttgaaagaac attctgctca gtcctctggc tgtagaggct 52000
tcaaccccac cagccaccga tgagcacctt ctccctccag gagccagtct 52050
gagctcatta ctgagtttaa tatcagaata caccctggtg cagcctttct 52100
aaattgcagt accagttaac agaaggtgtc tgtcagagca acacccaagt 52150
cattcaagtt accattgtgt gcaaacttaa cagagaccca cgtcttcaat 52200
ataagccttg aaggaaactc cagttttagt atgtagatgg ggtatcaagt 52250
gtgtgcacat tgaacatctg ctgcatacag agcactgtgc caggcaggcc 52300
caggacactg aaaacctgga catagggtcc agacagaagc aagcctgctt 52350
ccacagaggc actcctgggc agacactctg gactgatatg acagtgtgca 52400
gggccgacag gataccacag gtctgaatgg tcagaacagc tggggaggga 52450
gggagcatcc gcaggcatct agtcccatgc taacgcagtg gcactagaag 52500
gatgggtggt gtgtggagca actttcttga aagataaagg acctaacact 52550
ttctatgcac cacttactgt gtgccaggca aggccaggaa tgtttaagtg 52600
gtctgggatc agccagttct gcctcttaac taactttgct gtcctgctct 52650
ccaggctttc attttggtcc tcattccttt tccttggacc aacacagaat 52700
cctccaccct gttctggctg cctctagtct tgttctcagc cctccatttg 52750
tttttttctg ccttttccca catgttctga agccctccat tcgtatacta 52800
ctttccagag acttccccat ggctaaaagc attttggaaa tactgtatat 52850
taggcccctt tcagatactg gcaaccgttt gtgggatgct ctgagaaggc 52900
ctctgtgact tagcctggcc cttttcagcc catcacctgc cacgtcctac 52950
cccagaccct tgtcaccagt ccccaggagc ttacgttgct ccctgagggc 53000
actaggcttg ctctcacttc catgcctttg cctgtgccat cctggctgcc 53050
caaaatgcta tggcagatac ctgttcatcc tcaactgggc tctgcctagg 53100
cttgctccag cagaggttac aaactctatg cttcttcctc tgtgtctcca 53150
acctcatctt cctcttctca cctccatcct ggccctaaag gccctatgtt 53200
tgaagcattc acactgtata ttctgtgggg cacacggccc cagtgtctgg 53250
cacatggtag tcaacaccac aaaccgcaga accagttgta aaaggacatg 53300
gagtcggaat gtgagtttta accagggtca tgctgggctg ggttctggca 53350
tgatgctggg ttgtgggctg agtgagaaca gcaagggtga tggtggatgg 53400
agcaacagtc ttgcagccgg ggctctcagg ccaagtgtat ggcagctctg 53450
tgataatgac tttcccttta ctctttgcag attagttttt agaggcatgt 53500
ctatatctcg cccaaatgct gtggtcggga ggtgtcgcat gatccgccac 53550
tcaagagaca agaaaaatga acccaatcct cagaggtgca ttctttgttt 53600
attcatactc cttccccctt taggatgagg taggctgcag gtccgaggct 53650
ctgggcctag agggaaattg aggtggtcag gttacagtgg agagggagga 53700
ggaagtacgt gtgatgattt cttcttaaga tttttgtttt aagacaatct 53750
ccttgtgctc ttttccttgt aggtttgacc gaattgcaca cacaaaggag 53800
acaatgctct ctgatggttt gaactcactc acctaccagg tgctggatgt 53850
acagagatac ccattgtata cccaaatcac agtggacatc gggacaccga 53900
gctagcgttt tggtacacgg ataagagacc tgaaattagc cagggacctc 53950
tgctgtgtgt ctctgccaat ctgctgggct ggtccctctc atttttacca 54000
gtctgagtga caggtcccct tcgctcatca ttcagatggc tttccagatg 54050
accaggacga gtgggatatt ttgcccccaa cttggctcgg catgtgaatt 54100
cttagctctg caaggtgttt atgcctttgc gggtttcttg atgtgttcgc 54150
agtgtcaccc cagagtcaga actgtacaca tcccaaaatt tggtggccgt 54200
ggaacacatt cccggtgata gaattgctaa attgtcgtga aataggttag 54250
aatttttctt taaattatgg ttttcttatt cgtgaaaatt cggagagtgc 54300
tgctaaaatt ggattggtgt gatctttttg gtagttgtaa tttaacagaa 54350
aaacacaaaa tttcaaccat tcttaatgtt acgtcctccc cccaccccct 54400
tctttcagtg gtatgcaacc actgcaatca ctgtgcatat gtcttttctt 54450
agcaaaagga ttttaaaact tgagccctgg accttttgtc ctatgtgtgt 54500
ggattccagg gcaactctag catcagagca aaagccttgg gtttctcgca 54550
ttcagtggcc tatctccaga ttgtctgatt tctgaatgta aagttgttgt 54600
gttttttttt aaatagtagt ttgtagtatt ttaaagaaag aacagatcga 54650
gttctaatta tgatctagct tgattttgtg ttgatccaaa tttgcatagc 54700
tgtttaatgt taagtcatga caatttattt ttcttggcat gctatgtaaa 54750
cttgaatttc ctatgtattt ttattgtggt gttttaaata tggggagggg 54800
tattgagcat tttttaggga gaaaaataaa tatatgctgt agtggccaca 54850
aataggccta tgatttagct ggcaggccag gttttctcaa gagcaaaatc 54900
accctctggc cccttggcag gtaaggcctc ccggtcagca ttatcctgcc 54950
agacctcggg gaggatacct gggagacaga agcctctgca cctactgtgc 55000
agaactctcc acttccccaa ccctccccag gtgggcaggg cggagggagc 55050
ctcagcctcc ttagactgac ccctcaggcc cctaggctgg ggggttgtaa 55100
ataacagcag tcaggttgtt taccagccct ttgcacctcc ccaggcagag 55150
ggagcctctg ttctggtggg ggccacctcc ctcagaggct ctgctagcca 55200
cactccgtgg cccacccttt gttaccagtt cttcctcctt cctcttttcc 55250
cctgcctttc tcattccttc cttcgtctcc ctttttgttc ctttgcctct 55300
tgcctgtccc ctaaaacttg actgtggcac tcagggtcaa acagactatc 55350
cattccccag catgaatgtg ccttttaatt agtgatctag aaagaagttc 55400
agccgaaccc acaccccaac tccctcccaa gaacttcggt gcctaaagcc 55450
tcctgttcca cctcaggttt tcacaggtgc tcccacccca gttgaggctc 55500
ccacccacag ggctgtctgt cacaaaccca cctctgttgg gagctattga 55550
gccacctggg atgagatgac acaaggcact cctaccactg agcgcctttg 55600
ccaggtccag cctgggctca ggttccaaga ctcagctgcc taatcccagg 55650
gttgagcctt gtgctcgtgg cggaccccaa accactgccc tcctgggtac 55700
cagccctcag tgtggaggct gagctggtgc ctggccccag tcttatctgt 55750
gcctttactg ctttgcgcat ctcagatgct aacttggttc tttttccaga 55800
agcctttgta ttggttaaaa attattttcc attgcagaag cagctggact 55850
atgcaaaaag tatttctctg tcagttcccc actctatacc aaggatatta 55900
ttaaaactag aaatgactgc attgagaggg agttgtggga aataagaaga 55950
atgaaagcct ctctttctgt ccgcagatcc tgacttttcc aaagtgcctt 56000
aaaagaaatc agacaaatgc cctgagtggt aacttctgtg ttattttact 56050
cttaaaacca aactctacct tttcttgttg tttttttttt tttttttttt 56100
ttttttttgg ttaccttctc attcatgtca agtatgtggt tcattcttag 56150
aaccaaggga aatactgctc cccccatttg ctgacgtagt gctctcatgg 56200
gctcacctgg gcccaaggca cagccagggc acagttaggc ctggatgttt 56250
gcctggtccg tgagatgccg cgggtcctgt ttccttactg gggatttcag 56300
ggctgggggt tcagggagca tttccttttc ctgggagtta tgaccgcgaa 56350
gttgtcatgt gccgtgccct tttctgtttc tgtgtatcct attgctggtg 56400
actctgtgtg aactggcctt tgggaaagat cagagagggc agaggtggca 56450
caggacagta aaggagatgc tgtgctggcc ttcagcctgg acagggtctc 56500
tgctgactgc caggggcggg ggctctgcat agccaggatg acggctttca 56550
tgtcccagag acctgttgtg ctgtgtattt tgatttcctg tgtatgcaaa 56600
tgtgtgtatt taccattgtg tagggggctg tgtctgatct tggtgttcaa 56650
aacagaactg tatttttgcc tttaaaatta aataatataa cgtgaataaa 56700
tgaccctatc tttgtaac 56718
<210> 2
<211> 56718
<212> ДНК
<213> Homo sapien
<220>
<223> геномная последовательность варианта B4GALT1
<400> 2
gcgcctcggg cggcttctcg ccgctcccag gtctggctgg ctggaggagt 50
ctcagctctc agccgctcgc ccgcccccgc tccgggccct cccctagtcg 100
ccgctgtggg gcagcgcctg gcgggcggcc cgcgggcggg tcgcctcccc 150
tcctgtagcc cacacccttc ttaaagcggc ggcgggaaga tgaggcttcg 200
ggagccgctc ctgagcggca gcgccgcgat gccaggcgcg tccctacagc 250
gggcctgccg cctgctcgtg gccgtctgcg ctctgcacct tggcgtcacc 300
ctcgtttact acctggctgg ccgcgacctg agccgcctgc cccaactggt 350
cggagtctcc acaccgctgc agggcggctc gaacagtgcc gccgccatcg 400
ggcagtcctc cggggagctc cggaccggag gggcccggcc gccgcctcct 450
ctaggcgcct cctcccagcc gcgcccgggt ggcgactcca gcccagtcgt 500
ggattctggc cctggccccg ctagcaactt gacctcggtc ccagtgcccc 550
acaccaccgc actgtcgctg cccgcctgcc ctgaggagtc cccgctgctt 600
ggtaaggact cgggtcggcg ccagtcggag gattgggacc cccccggatt 650
tccccgacag ggtcccccag acattccctc aggctggctc ttctacgaca 700
gccagcctcc ctcttctgga tcagagtttt aaatcccaga cagaggcttg 750
ggactggatg ggagagaagg tttgcgaggt gggtccctgg ggagtcctgt 800
tggaggcgtg gggccgggac cgcacaggga agtcccgagg cccctctagc 850
cccagaacca gagaaggcct tggagacttc cctgctgtgg cccgaggctc 900
aggaagtttt ggagtttggg tctgcttagg gcttcgagca gccttgcact 950
gagaactctg gtagggacct cgagtaatcc actccctttt ggggactgac 1000
gtgaggctcc cggtggggaa ggagactgac ctctcggttc acgtgtcttg 1050
ccatagagcc actctcctga gtgggttttt ctcctgatcg tttgggccaa 1100
gtgacttctc tctgaacctc atatttctct tctgggataa taaatggtca 1150
ccctttcaag gggttgtttt ggaagatatt gtgaacaatg gtaaataagg 1200
gcttaattaa tgagggtaag ccctcagtaa attgtcactg tgtgttcatt 1250
tcttcctctg tgtggatcgt gaccgagagc ccttccccct agcctcctcc 1300
tggtatgggt acccaaaacc taggtgagca gggatctctc ccaggggcag 1350
agagcttgtg tactctgggt gttagagggc taaaatataa ccagtcaaca 1400
ccacgttgcc catttctggt acttccggta gcagcctgag tctcaattat 1450
cttgcccaga tgatctgaac tctgacctct agcctgtttc agcataggca 1500
gagagcttga gtaggtgagt ttgcattcct catagcagct ggctgagcct 1550
agtctggact tctctttgac ctgtaaccta caggcccaca ggcccaaggc 1600
aaccacaggt tgcttccagg gttaccacac aggtggtttc tcatttctaa 1650
tgctaggttt tagataattg ttgtaagtga ggggccctgg caggcaggat 1700
gacatcctgc caataggagt tttctgtcac tttcccacag agccctggct 1750
actacatact cttgctcaat ttcgccagta attgcgtcaa tgtgttcata 1800
tcaagtttgg gaagaacatc ttggaattgg tcagacgtga actgtggtaa 1850
taatgggggc ttgttttttt aagcagataa ttaaattcct ttgcatttga 1900
tgattattct gggaagcaga ctagtcccat aaaatgaaat ggactctgcc 1950
ttgctgctaa gtgtctgact tgagacatgc tatcgagttt ctcaaaatct 2000
cttccttgtg taaaatgtgg ttgtcgatga ttaccttaca ggggtttttt 2050
taagactaaa tgagatcgtg tacattaaat acaggcactc aggctgggca 2100
tggtggctca cgcctgtaat cctagcactt tgggaggctg aggggagtgg 2150
atcacttgag gttaggagtt tgagaccagc ctggccaata tggtgaaaca 2200
ccatcccatc tctacaaaaa tacaaaaaag ttagccaggg gtggtggcat 2250
cgcagctact caggaggccg aggcaggaga attgcttgaa cctgggaggc 2300
agaggttgca gtgagtcaag attgtgccag tacactccag cctgggcgac 2350
gaagcaagac tgtctaaaaa aaaaaaaaaa aaaaaaaata cgggcactca 2400
atacaccgta taataataat atagtaataa tatttgctta ggatctttaa 2450
aaagtttcat tttttcagac tcccacagaa atggctctgc acagcagagt 2500
gaagggggag agagactgag tctccaggcc agaaaaaggc caggtttttt 2550
gcttttgttt ttagttgttg cctggatatt gcacagaaag aaaaaataat 2600
tagcaagtta aacaaaagta ccgcaaagtt gattacattg gtatttgagt 2650
atcacatctt ctctcagaag cgtaagagac aaggtcgtga ccatacctct 2700
gcttagtttt gttttgtaat ggtgttgcta gtgatcggct tgtcaccagt 2750
tactggtgtt tctaaatgga ctataattgg ctacttgaaa ggacttcctg 2800
agaaagaaca ttttggagga cgaggagaga gtgccttctc tattttggct 2850
gctttcatgt gacatgcaag agaccatgac gtttaggctg ctgctgaggc 2900
agccccagaa atgggggccg agaggtcttt tcttcatttt aatagggtct 2950
gtaggtttgg gtggttaggt acagttctca gaatggaggt tcctggctat 3000
gaggccttga gaaagctgaa agtctccttg ggagtgtgtg ggtgggggga 3050
gtcgagccca tctgttcatg ggcaggtgtc agccaaagcc cttgcgggtg 3100
gttttgaggt tggtgggaga aagcatccgt ggggtttaga gttgtggcct 3150
tttcactact tgcagttcct ttccccgact tggctttact ttctggtgtc 3200
caggggtctg ggccagatgc tgagattcct ctcagctgac aggtgtgggt 3250
tatgggcaaa cccttccctg gaggacataa ggcaccggat tggactgctg 3300
atgggttgct gttggagttg tcagggcctt ggaatagtct tcagatagac 3350
ttgggttagt gtgacctggg gcaggctgca ggtttggagc catagtaccc 3400
cccgccccca caccgggcac cctgctctgg gctaatgtga ggcttgcagg 3450
agtgagtgat gcagtgggaa ggggggcctt tcctgaggat tctacagctt 3500
tctccaggga atcctcccag gtagtttagg cctgcaggtg ctatgctatc 3550
cttctttcct aaccctgtct caggtcctca gcggggccat gcggcatcca 3600
cttataaccc tgcagcgagg ccctcttttc tggccacctg ggtgtttgcc 3650
tgctgagatg ggaggaacag tggccttggg cttcttcccc cgtcatgttt 3700
atctctgctc agattgggca gcagctcaat gggacttgac cagctgtggc 3750
actgccagtc tgaagatgag tagggtgatg gggggaggtg ggcagtacct 3800
gaagctgaac tggtgagaga ggcaggctgg cctgggggct cagctggggc 3850
ctgggatggt tggtacagtc ccctcagggg ggtaggggag tgagtgttag 3900
actgcttaag cctcagaggc cgctcttgcc cacctatgct ttgaggagat 3950
cctcttcatt tgttcaaagg gaagactctg atctagagat gggcacttgg 4000
accagcaaac agcagctaca ggtagccagg gcacccgagg agcacttgct 4050
catgagccgg tttccctggt ttttatgggg gctgttgctg agcgtctgcc 4100
agggtttgtg tcctagcact tgctggtctt tgctgggctc tcagctctca 4150
ggtgtttctc taccagcacg tttccccctc cctcatatgc acacatgtgg 4200
acacaagcag gctgcccagg acagagtgta ctttgaggct tgggaaagga 4250
ctctctctcg cccttttggg gatgagcctt ggaacctcat caccttccgg 4300
cttggggtgg agcttcatcc tgggggttga agctttaggc tcagataact 4350
agtcttgtaa gccagttttg tcctgttgtt tttttcgtgg aaaataatgt 4400
attgacgtat acacagacat tctttgtcta acagtctgag attgagaaat 4450
accctccatg actatttggt ttgctttcat ggtgaaactt ggtcgctttc 4500
ttagacacag cctatggcaa taagagtgat ccctggctgc tgtaattcat 4550
tccagacttt gagcaaacac aaggcaccgc ctccacctgc agtggagcct 4600
ctgatgaacc aaatggaaac tccttgggga atggggagta agagccaaat 4650
gtgggattgg acttaaactg cagcttctta gaactgtagc attccacgat 4700
gggattgtct agtgctcttc ctggaggtta ctattcaata gttggctagt 4750
gcacaggttc aggggtgacc tgatatgccc tagcgtttca gaagatccct 4800
gcaaggtgtg tcttttggtc catctgaagg gtcttgtatg gtgatcttgt 4850
atggatatcc gtgacggcta aggcatctga taacttcatt ccttcagttc 4900
cagcagtgtt cctgtattat gctgggcact agagctacaa agaagaaaac 4950
aaagtgcctc ctcttcagga actcttaatt taggcagggg aggcataatt 5000
gaacagtgct gaggtcatct aggggaacca aagtgtgtat ttatcccctt 5050
ccctatcact cccctccctc cttcatttct tcctttcttc tttcagaaac 5100
tccaagttca tatcaaaatt ctccagccct ggttttattt ggttgtgtga 5150
aaattttcct ctaatttctg aagctatgca ttagttctgc tgagtaatct 5200
ttaacttgct gctttataat gattataatg agatatcact gggtattatg 5250
gtctttgggt agcagcaggg tagggatttc caggctggga ctaagctaat 5300
ttatgggttg ggaattatgg ggcagttaat agcaaggcag tccaagcttt 5350
ccacagattc caccctaggg accatccaga cttaaggaac agggccggca 5400
ggctcatccc ctttgcactc agctgggcta tgggtgtgtg tttgtgaaag 5450
aggtttattc agtagtcata cctgctgatt tccctgctat ctgtttaccc 5500
agtgcctcct gtaccttgtt tcttactctt tgttctctgc tcttactatg 5550
aagaagcaga gactggaatt ctgcttgaac ccacatctac ctggaaattc 5600
cagtttttct tgtccagtgg agcagcaatc cagttgtttt aggacaaatg 5650
gtctgccctt gaagcttaaa tcctttgagg gcctggcatg gtgacagttt 5700
tacatttggc tttggtatag actggtgtgg tccctgggca gtgaggtcac 5750
tgtaaggcca gccagccaga ccctggctcc taggggaatt aacaaggcat 5800
gggattagac tcacagggtc cctcctgtcc ctaaacttgg taggggttcc 5850
tgggagccag actgcgatta agattgtaga gacctgagac ctgagttgta 5900
ggggcctctg tgttgatctg ggccattgcc gggtgagctg aggcggtcac 5950
tagctcaagg agtgatctca ggatattgtt ctgtaagtca gagacctcca 6000
ggttggagag tggggcttgg gggtggggga cagggtttag tggggagctg 6050
gttctgggtg aatgtggcct aaagggattt gtccttagaa gacagagggg 6100
tgagtcacac actcagtgct tcaggttcca ctttgcggct tggcctcagc 6150
ccgccccttc cctgcacaaa tgaaggccag gggctatata attggctgtt 6200
gctgaattct ttggcagtga ttttaaagtc tggtctgggt gtgttatgta 6250
gctgcttctc tatccactcc ccacacccgc tgcttctcca gagcccctca 6300
caaagcccag gcagagagag agagagagag agagagaatg acttgcctca 6350
cagagatgtt ggggataggg ataggggtat gggtctttgc ttttgccttt 6400
tgagggggga taatctcttc cttcatttta aaagtaaaaa gtaatgcagg 6450
ctcattgaaa ataatttgaa aagttgaaag agatataaaa gcacacccaa 6500
attcctatca cccaaaagaa acataccggc atatttccta ctagtctttt 6550
tcatgtttaa gaatatagct gatatatttt tttttctttt tctttttgag 6600
acagggtttt tgctctgtca cccaggctgg agtgcagtga tcacggctca 6650
ctgcagcctc gacctctcgg gctaagcgat tctcccactt cagtctcccg 6700
agttgctggg accacaggtg cacaccgcca tgcctgacta atttttgtat 6750
tttttgtaga gatggggttt tgccatgttg cctaggctgg tctcgaactc 6800
cagagctcaa gtgattcacc tgccttggcc tcccaaagcg ctgggattat 6850
aggtgtcagt caccacaccc agtgttatag ctgttgtctt tatagatgaa 6900
cagatagatt gacatagatt catgtagata gcctggtgtt cagcattttt 6950
catttaagat tctgtcacag acttgaccct atacctttaa aaatcacaaa 7000
ggcagtatca tagtctgtca gctgaatatg ccataactta aaaaaatcat 7050
tcaactgttg ctgaacacac acatatacat atatagtttt tgttttttct 7100
tagtgatgta gtgatgcttg tgcagaaagc tttatgtact ttttggatgg 7150
tttctgtagg agagctttct aaaaaaggaa aaaaagtgtt gaatgttttt 7200
tgagaagggc tagattttca agccagtctt acaaaaggat agactcattg 7250
gaaattccag atttgcttag tgctggcaga tgagtatcac ttattgctga 7300
acaatgtgtc tagaattctg attaaaaaag aaactaggtc caggaagtgc 7350
ctgggggcag gggcaaaggg ccaggctgca ggataggctc ttaggatctg 7400
gctgagcaga aatctgctgt gaacagaatc ggtgggggtg atgctttctc 7450
agtaacttct ccatttgttt ctttagcagc taagtccctg tgctggactt 7500
ctgtggacta ctgtggctct ggggctgtgg ttgtgggtga acaacagcta 7550
gctaaaccag tgctgttgac atcattgaga tgtgacgcac aggaaggtgg 7600
gagcaagctt gcaaatcaga ttctgaaaca tatagcacag ctctcccacc 7650
tccaggtggt cctgagatct agggaggagc catagtgaga aactttaggt 7700
ttctaggaat tctcttaggg agaagctctc ttagggagag gcagaacctg 7750
gttctcagtt ggggctgatt caggtgggtt agatcaataa agcctcaggc 7800
cagtgtgcca ggctattccc aaggagtata ctttgaagtt actcccttta 7850
gaatgtcctc agtggagata aattctctct gaggagcagt tttgtctgcc 7900
ggggtcattt ggcacaaagc ctggagtgct agggcgaggt tgcactgagg 7950
gaaggggcag gattatgtca gcagtgtgac ggatacagtg tgaggtcagg 8000
ctccttcctg ccccaccacg ggggcctaga ggtcatgggg agggtccctg 8050
gcaggggatt caatcattgc ttggccccat gacagagtat attctaaaaa 8100
tgccttaagt ttttttcttt caaagtttct tcctgttttg cataatggcc 8150
ttttgccttt gacatcctga aaccgcagag ctgtcattgg tgttgcagga 8200
cactgccagc ttgaaaaaaa tcaacaacaa aaaaagaaac aggaaaggat 8250
gtggagttca gggtgcggcc tagggaagct ggtatttgcg ttatgggatt 8300
gtggggatgt ggtattaagg tgttgggtag cgcctgacat ttagaggagt 8350
actctgggca gagtccctgc ctgcccaaga ataggtagaa ttgagtcttc 8400
acaccaaagt caggagagac cccctccccc caggaagaga atgaacaggg 8450
actcatttcc tcattcagca aacttttatt ggtaactaca ctatatgaag 8500
tgtgagagat agacatgaac aagagaggcc cccactcttg ggcagtccct 8550
tagtagtagt agatagactc tggcaatatg gtgtggtcag agagaggaag 8600
cctgggtgct ttgagggtac tgaggaggtg cagggagcca aatgggtggt 8650
ctgggccagg gccagagtca gaatgaagga cctctcttcc agacgttgat 8700
tttagcatct ctgtctctca gtatgtttga acagtctccc ttattggaag 8750
ggcaggagtc tactgctaaa agtaacctgc gatttcctct acttgctgtc 8800
atgtggaaag aatactaaag ctgaaattcc aaaagttgca cacctttacc 8850
agcagggcag gagaggaaag gaaatggagg cagagtgagc tgaagatgat 8900
aaaagaaaga gaaggtggtg cagtttggac tgttatggac agaggaagtc 8950
tgagggtagc tggactgagg gatcaaaggg aggcagttga aagggaagag 9000
agctgcagag agggatttct tggtctgcag agggtaggag caagccttga 9050
aggctgctgg agtgaggatt ccgagccctg gtctttattc tttttctaat 9100
tcattacatc attttaggca agtcctaact cctttggtct ctgttgtctt 9150
tctgaaattt gagtgggctg ggcctgctgg tctttagcct ctgtctttct 9200
ctacctccta gattccagtt tggcgagtgg gggggaaaac ctggttgtat 9250
atgcaacgtg aaaggcctct ggaattcctt ttgaagctca ctacccatga 9300
ggcttctgct aaggatttca tcatgtctgt ctaagcagac ataaaaattt 9350
tagcaggtgg atgacccgta gaaatggcac aaggaatgtt tctttctgtc 9400
acactgtggt atttgattta agaaagttgt tatcctctct gtgcctcagt 9450
gttctcactt gtaaaatggc aataacagta tccacctcat agatgttatg 9500
aaatacaggt agtagccacg aaagggctta aaacagtgcc taacacagaa 9550
taagttgtga atatatgtta tttattattg gtagtataat gcttatttgt 9600
gaagattttg gcttttgctt tataggacct tttttttttt tagttgaaaa 9650
tacaatgtta ccatgttaaa tgttaaaaaa aattctactt accattgtaa 9700
cagaacatgc tcccacttct gtaacagagc ttgctattac ttttcaaatg 9750
catacatatt ccaatgcata tattccaatg cagttgtaga gtgaaactgt 9800
ttgcatgcag ccatttttat ccaacattat cttataaaat gttatgttgt 9850
ttatgattat cctaattatc ttttgttgct gtctagtatc cttatagata 9900
ttccattagc atacactatt ccaggtttca ctatcgtcga taatctagat 9950
atgaacattt ttgtagtgtg tagctctttg cttcagttga attactttcc 10000
tgggataaat tcctggggaa gaatttctag gccagaggat atggtcatct 10050
tgacaatact gattcacatt gctgcattgc tttccaagag gtttggaatc 10100
attcacaggt tctaaattgg aaaatcctgg cttttgaagt atgtggattc 10150
taagggcgat ttggatctag ctggagcctc acactgacac ttccagccag 10200
tgtgtgtgtg tgtgtgtgtg tgtgtgtgtg tgtgtgtagt tccctatgct 10250
ggacaccgtg tgtgtgtgtg tgtgtgtgtg tgtgtgtgtg tgtgtagttc 10300
cctatgctgg acaccatgtg gcctttctgg acattagggt tttcctgtga 10350
ttgcctcaga gcagttcctg ttgaattcac tctgtgtcca caaaaggagc 10400
cttactgtgg ctctttcaac acccacctac ctttgccaag ttggtttaca 10450
gaaagtaaga acattctttc cttcttcctt gatatgtggc gctaaaccta 10500
tagcatgggg caggctctgg ctttaaaaac ctgacttaaa aataatggtg 10550
ttgatcaaaa agtttgtgga tcagtttttg gaaacactgc atgtagccat 10600
ccatagaaac ttatattctg ttgggctagc ctgggcgcct gatcatttaa 10650
ctcatgtgga tgaacttcta tgtaatagcc ctggtgtatg ggatccagaa 10700
acagggccct aatgaagaaa ggcttttaaa ttatgttgga taaaaataag 10750
ttgttacaat agcccaaagt ctgcaaatat gaattgccag ttctgtcctt 10800
gtagtcatcc accatgtgcc tgcatctttt gtagactctt gtagattcag 10850
aagcccactg aattgcataa atgatggaat gattttagac ttagtgattt 10900
cagtgactaa aagtttacag atcctggccg ggcacagtgg ctcacacccg 10950
tattcccagc actttgggag gccgaggtgg gtggatcacc tgaggtcagg 11000
agtttgagac cagcctggcc aacatggtga aaccttgtct ctactaaaaa 11050
tacaaaaatt agccgggtgt ggtggcatgc acctgttgtc ccagctactt 11100
gggaggctga ggtgggagaa tggcttgaac ctgggaggcg gaggttgcag 11150
tgagcccaca tcaggccact gcactccagc ctgggtgaca gagtgagact 11200
ctgtctccac ctcccccgcc ccccgaaaaa aaaaaaagtt tacagatcca 11250
gcagatgggg catattcaat ttgtgacagc cactcccttc accttatagc 11300
tatgtcatat gtcttcttct cctttgactg cattctgcag cagtcagttg 11350
tgacttaata tggcactctg ggcccactga attaggtcag agctgctagt 11400
agtatattgt tcctagagac ctagggcaag attttcttac tacataaaat 11450
gagggagata atttcttacc tcaagatgtt ggtaagagga gtgaatgagg 11500
ttagttatat ggtaatatca gtactctgaa tgtcttttga tcaatgccta 11550
actcatcttc ttgggcacaa aaggcataca gtcagcaccc ttaggccaca 11600
tataaaattc ctccaaatgc aggttttcat ctgccttggg gcagagtcaa 11650
gagaaagaag aggaagaggc gtgaggctct gaccacaact tagggacaga 11700
atatagccca aagcgagtac cccaggccac aaggagaagg ccgctatctt 11750
gttgaatcca cagcactgga aacttggagt gtgtgttccc ctgtgtcagt 11800
tacactggaa ttttatggct gctcacattc ttcccttcag gtggacgttg 11850
ttcatcagta tcctgggcaa gaggccatca taaaccacag acagctgagt 11900
gattaggaag aggagctgaa gagggagcat tagatgtttg attgagtctt 11950
aggtgagaaa gtatatcatt aaaacaaaaa gatagatgta ggcgggctca 12000
gtcttgtgtg cctggtgtgt tggtagaaaa actaaagcac aagcctgtag 12050
ataacctgct ttattctacc tcggggctgg tgttggaatc caggatgcca 12100
gaccctaaag tccagctctc tttccaacct actgaataat ccgagagaaa 12150
tcatgttctc tctctgggcc tcagtttgcc catgtataaa atgagatgaa 12200
ggattggctg ggatgctctc cagagtctct tcctgcctgg agttctgacg 12250
tagccatgta ctcctgctca gcatcgctaa atggctttgt ggtaggacca 12300
ttgagtgctg cctccattag ggccagctat gtaatgctgg ggtggctgtc 12350
actgggccct aagagccagg attggtctta ctggagaaat ccacatccac 12400
ctaaacttaa gacccagggg tgtccaatct tttggcttcc ccaggccaca 12450
ctggaagaag aattgtcttg gaccgcatat aaaatacact aattatagcc 12500
gatgaggtta aaaaaaaaaa actcaatatt ttaagagagt tcatgaattt 12550
gtgttgagct gcattcaaag ccatcctggc cgcatgtggc ccatgggcca 12600
tcggttggac atgcttgctt tagacctccc agcaattcta gtctctaaac 12650
aggaaatcaa aagtcaagat gaatagataa gttggtcagt gtgaaaaagt 12700
aattggtggg agccactgta gatgcagggt tctaggctcc atcaacaacc 12750
acctacatca ctgaacgaaa gataatgctt gttcagcact tattacatgc 12800
caaccatggt aaaaatactt cagatgcatt gttttcatga actctcacag 12850
cagctctttt tcttgcctaa atgccccgtt agaacctcca gtacaatgtt 12900
aaatagatat gctaagagac aacatatgtg tcttgttagg gggaaaatat 12950
ccagtctttg actattaaga atggtgttag cagtgggttt ttcctaggtg 13000
ccctttatca ggttgaggaa gttcctttct attcctggtt tgttgagtat 13050
ttttatcatg aaaaggtgat gggttttgtc aaatgctttt ctgtgtctgt 13100
tgagatgatc atgttttttt gtcatttatt ctattgatat ggtatattat 13150
acattgattt ttcagatatt aatcttgcat acctgggata aatcccactt 13200
ggtcatggtg tataattctt tttatttgtt gctggattga gtttgctagt 13250
attttgttga tttgtattca taacagatag tggtctgtag tctttccctc 13300
cctccctccc tccctccctc cctcccttcc ttccttcctc tctctctctc 13350
tctctcccct cccctccctt cttttcccct cctctcccct ccccttccct 13400
ttcttctctt tcatagttgt ttaccactgt cagaaaaggt ctgttcgttt 13450
tctttcgtcg tgagatcttt gtttggtttt ggtatcaggg taatactgcc 13500
tcaaaaaatg agtagggaag tgttccttcc tcttctgtat tttgagagag 13550
tttgtggtcg gtttttatta attcttcttt aaatatctgg tagcgttcac 13600
cagtaaagcc atctgggcct gatgttttct ttgtggaaaa ctttttgatt 13650
cctaattcag tttctggtta taggtctatt cagaccttct attttttctt 13700
aagtcagttt tgatagtttg tgtcttccaa ggagtttgct tcatctaagt 13750
catctaattt gttggcatac atttcatagt gattccttat gatccttttt 13800
atttccgtta aagttggtgt agggatagtc cctctttcat tactgattat 13850
aataatttga attttctttt tttcttagtc ttgccaaaag cttgtcattt 13900
ttattgatct tttcagagga ccaactttga gttcattatt tgttctcttt 13950
gttcttattt ttctgcttca ttaacttctc taatctttat tctttcattc 14000
tgcttgcttt tggttaagtt tgctttttct ggtgtcttaa ggtagaaggt 14050
taggttactg atttgagatt taaagatcat gctctttaaa cgttttgata 14100
gatactgtca gtttgccctc tggctttttc tcattaacag tgtataggag 14150
tgcttattcc tcacactcat accagccctg ggtgttacta acctttatat 14200
atttgccagt atcatattca gacatagtat cttgttttaa tatgtttctc 14250
tgattactga tgaagttaag caaattttca cgtgtttatt ggccatctgt 14300
ctttcttttt tcatcctttc tttcaagatg ggagtctttg ccatgttgcc 14350
caggctggac tcgaactcct gggctcaaat gatcttcctg cctcagcctc 14400
ctgagtagct gggactatag gcgtgagcca ccatggctgg cttgcccatt 14450
tgtatttctt atgtgagtat tttttctttt tttttgaagt ggagtctcac 14500
tccatccccc agagtggagt gcagttgtcc gatcttggct cactgcaacc 14550
accgcctccc aggttcaagt gattctcaca ccttagcctc ccaagtatct 14600
gggactatag gtgtgtgcca ccacacctgg ctaatatttg tatttttagc 14650
agagatgggg tttcaccatg ttggccaggc tggtttcaaa ctggcctcaa 14700
gtgattcacc tgcctcggcc tcccaaagtg ctgggattac aggtgtgagc 14750
cactgtgccc agctgacttt ttttttcttt tttttaaccc tttttttttt 14800
ttaccctttt tttggcccat ttttttttac cctttttctt ttaacccatt 14850
tttctattag ttttaaaaat atgtttgcag gagcttttta tattgtggat 14900
ttttcttgtt tattacatat catttgtaaa tatggtctct ccatctgtca 14950
ctcttcttta tctctggttt ctttagctat gtagaagttg ttatgttatg 15000
ttatgttatg ttatgttatg ttatgttatg ttatgttatg ttatgttatt 15050
ttttggagag ggagtcttgc tctgtcgccc aggctggagt gcagtggtga 15100
aatctcggct cactgcaacc tctgcctcct gggttcaagc gattctcctg 15150
cctcagcttc ccgagaagct gtgattacag gcacccgcca ccacacccag 15200
ctaatttttg tgttttagta gagacggggt ttcactatgt aggtcaagct 15250
gatctcaaac tcctgatctc aaatgatcct cccaaagtgc tggggttaca 15300
ggcgtgagcc actgcactcg gccagaagtt ttgaattttt atgtgtttaa 15350
atctatgttt tcctttatga cttcaggttg ctttcatact taagcaggtc 15400
ttcaccatcc caaaatgata aaatttttct cctgagtttt cttctaagtt 15450
ggttctttag aagccaccaa cttggcttcg acagcaaaag atgaacagaa 15500
tttctgttca actctcatgc tgcaagaagc tttatgtaat actccaggga 15550
ccctttaagg tcccagagtt ttcctccaaa tctatcagtg attctagtgg 15600
ctaagagtag aaatgtgaaa atttagccat gtgtgctgat agagctgtag 15650
taatttgtaa gctctgaagt tctaaggagt caggggagaa gggaaagtaa 15700
catttattga acatctatta gctcaataag aacatgcgat aagtatgtat 15750
atgtattatt tcacttacat ctgaaaggaa ggcataatta tccccactcc 15800
ttagagaagg aaattggagc tggctacatt taaagtagtc ctgacaccag 15850
agagatattg ccaggagtac ttggctggct gagtgcccag atggcccata 15900
ggagtagtgg gccctccaca gtccaaggtc tggttctagg tggagagaga 15950
aggatgtgct cgtagtcagc accgcagctc cagaaaatct gctggggctc 16000
caaaactgat tagaggggca gctgactcag taataaaact cccaggagac 16050
ttacttacat actggaatgc aaagttgcag ctttactggg aagattagaa 16100
ctgttattga gtagcttaga aatctctggc tgaattcact gcaagggaag 16150
ccgcaggata agctaactgc tggtgagtca gcagtcagag cagggaagtg 16200
aatttaacat tagatgggtc agtctctcgt ggctgatgaa ttcatcccca 16250
caatactgta cacctgcctt agggaccttt gtctggacta ggggttgggg 16300
tccccctcct ttgtacagcc ctggaaggac acatccagct ccatccgcca 16350
tctctccctt acttatttcc ttccttcctt ccttctttcc atccagccat 16400
caagcttcct ttcatggcca ataatcatca ttggggtcta ctcatggact 16450
ctcttgcctc atgtatttgt tttattttgt cctcattccc acttctattt 16500
cccaggtata tcacaggcaa ctattctaac gtatttatag tttgtgtatc 16550
tgtttttgct cttgccaaaa tggaagccac tgctttatac atagatgtat 16600
tcttaacttt aaaaaaaatt tttttagatt aacctacaat aaaattggct 16650
ttttggcata tagtctataa attttaacac atacatattt ttgtgtatct 16700
accaccacaa tcaggataca gaacagttcc atcaccccaa aaaaatccct 16750
cttgtagtca cattctcctc ccacccttaa tcccaggcaa ccactgatct 16800
attcttcatt actattgttt tgtctttttg aggatgtcac ataaatggag 16850
tcacacagta tatatacatt tttttaaaca tatgtaaatg gcattttata 16900
gctcattttg attatatgtt tttcatccag ttctgttttt tttttttatt 16950
tttaaaaagt ttgacataac ttcagactta cagaaaagtt gttagactaa 17000
tacaaagaat tcctggatat cctttggagt ccctaaatgt taacatttta 17050
ctatatttac tttttccttc tctctctctc tctctctcgc tctgtgtgtg 17100
tgtgtgtgtg tgtgtgtgtg tgtgtatcta cctgtagata gatagatatt 17150
aatataattt tagatagatg tatctagatc tctctctctc atatatatgt 17200
gtgtgtgtat atatctatat ctatatctat atatatctcc ttttaccctt 17250
aaatattcag tgtatatttc ctaacaacaa ggtgatttaa aaatatatat 17300
ataaacatag tataattaac aatcaggaca tcaacattga aacatttctg 17350
ctatgtcatc tacaggcctt aggaagactt tgtcaggtgc cccaataata 17400
gccttgatgg tagaagaaaa ccatgtgttg tattcagttg tcatgtctct 17450
tagtgtcttg taatctgaaa taattcccaa gccctttgga tttcatgaca 17500
gtgacattgt tgaagagtac aggccagtta ttttgtagaa ggtctctcag 17550
tttaggtctg tctgatgttt cctcctgatc agattcaggt tattcacttt 17600
tgacaggaat accactgaaa tgatgctgag ttcttctcag tgtaacgaga 17650
tctagagaca cacactgtca gtttgttcct tattggcagt gtgaaccttg 17700
aggatttcat tgtagtggca tttggcatta ctccattata gttactattt 17750
taccatttta aattaaaact atctggccgg gcgtagtagc tcatgtctgt 17800
aatcccagca ctttaggagg ctgaggcggg caaattgctt gaggtcagaa 17850
gtttgaaacc atcctagcca acataacatg gtgaaacgcc atctctataa 17900
aaaatacaaa aaattagcct ggcgtggtgg cgcatttgta gttccagcta 17950
ctcaggaggc tgaggcacaa ggcttgcttg agcctgggag gcggaggttg 18000
cagtgagctg aaatcacgcc actgcactct agccagggtg acagagtgag 18050
actctgtctc aaaaaaaaaa agtaaataaa taaaaaaatt ttttaagtat 18100
cttatgggca tatacttgtc ctgttactcc tcaaactttc atccactttt 18150
ttttttttaa attttttttc ttacctttca tcgttttctt gatatccact 18200
gggttttagc atctacaaat gattcttgcc tgaatcagtt attatggtag 18250
ttgatggttt tctaattcca ttattccttc tatgtttgtt aattttggca 18300
ttcttctata aggaagagct tacccttttt ccctattaat taattcatat 18350
attaatgcag acctatgcat tcttacttca ttaaatcata atcctttact 18400
atcattatgt attctgatgt tcagactatc ccagatttag ccaataagat 18450
ccccttcagg ggaatggtct ttgggattcc tctttagagg ttcctggttc 18500
ctgttttctt ttgacatatc ctattactct ttgagcattt tttttttttt 18550
ttttactttt aggcacagca agaagttcca tggtcctctt gttctttccc 18600
caactcagcc ctagagtcag tcacttctcc aatgagctct agttcctttt 18650
agtagagaat cataattaga aaacaagaat cagtgccaag tgtgcacctt 18700
tgtttttaag gtccatccac gttgccgtgt atatgtccag catgttgatt 18750
ctaactgctg aataatacct catgattgtc atccatccca gtgtttcttt 18800
ttcccttctg taatgaggga ctcctggact gcctccagca ttaccttcac 18850
aaatattgct gtgaggaaaa tccttaaacg tttcctttat gggcaacgtg 18900
tgagcatgtt tatgttgatt caggggtgcc agacacagct ccagaatggc 18950
tgcctcagtt tacatttcca ccagcagagc atgacaggct ctgtgtctcc 19000
gtgaataatc agcattaacc agcttcctat tttttgccaa actaatagat 19050
gtgctaggat aactctttgt tttaacttgt ttttctctga ttaccaatga 19100
gctggagcat ttcttcatat gcctgatggt ctttgggatt cctcttaggt 19150
aaattgctta ttcattataa tcctttgcct gtttttcact ggagttctta 19200
tatttttctt gaagatatgc aggaattcct tatacatcct agatattaat 19250
cccttcctgg tctcagacat tgcagatatc ttctgaatct gttatttact 19300
tatttattta caattttttt tttaagagtt ggggttttgc tctgtcaccc 19350
agactggagt gcagtggtat gatcatgact cattgtggcc tcgcaatcct 19400
gggcttaagc gatcctccca cctcagcctc ctgagtagtt gggactacag 19450
gtatgcacca ccagacttgg ctaattttat tttatttttt agagatggaa 19500
gtcttaatat gttgctcagg ccaatcttga actcctggcc tcaagcaatc 19550
tttccacctc agcctcctgc atctattata tatatgttca ctttgctcat 19600
gctgtatttt gttgcaacat aaaactattt ttcccattgt tttgtgcagt 19650
ctctcaccag cactcttctt tttctgtaac tgtgttaatg ccctttgttc 19700
ttccatatgt taggtatgct ggtatagttg aactctgctg actctcctca 19750
gtaaacagtc tctttttatg acaccttatc ctctactgaa ttctctctat 19800
caagaatgac ttggccgggc atgggggctc atgcctgtaa tcccagcatt 19850
ctgggaggcc gaggtgggca gatcacccga ggtcagaagt tcaagaccag 19900
cccggccaac acggtgaaac cctgtctcta tgaaaataca aaaatcagct 19950
gggcgtggtg gcaggtgcct gtaatcccag ctacttggga ggctgaggcg 20000
ggagaatcac ttgaacctga gggggaggtt gcagtaagcc gggatggcac 20050
attgcactcc agactgggtg atggagaaac tccatctcag ggggaaaaaa 20100
aaaaaaaaaa aaagaatgac ttgtcttcct cttagagtgt gaggtctaca 20150
tacaaatatt attcttgtat tcagcaaatg tatgtcatag gcctagtgtg 20200
tgttaggaac tgtgctgtca ccaacaaagt ttagagaggt tataaaactt 20250
gactgtagct ttttagaggt ggaggagtga tttgaaacct aggctgtaat 20300
tccttcctcc tgtgattcct tcctactgtg ttgccttccc ttgaaaattg 20350
catttggggg ccaggtgtgg tggctctcgc ctgtaatccc agcactttgg 20400
gaggctgagg cgggtggatc acctgaggtc aggagttcaa gaccagcctg 20450
gccaacatgg cgaaaccccg tctttactaa aaatacaaaa attagctgga 20500
tgtggtgtgt ggtgacatgc acctatattc ccaggtactc agtaggctga 20550
ggcaagagaa tcacttgaac ccaggaggca gaggctgcag tgagctgaaa 20600
ttgcaccact gcactccagc ctgagtgaca gagtgagact ctgtctcaaa 20650
aaaaaaaaaa agaaaagaaa gaaaattgca tttagttcct gtagactgtg 20700
tgtcaaatgt ctaaatctct tctaacaaat ggcctaagga ggtgcaaagc 20750
gaagcatcct caccagcatc ctgacttggc agtgaggcat gggaccctgg 20800
agggagtagt ggtaagtgtg actctggaat tcttcctggg ctacttgtca 20850
gtgactggct ccagattgag aggagagccc agaggacaca ggtggctgcc 20900
ccagcctgga ggtgaaagtc ttaaaataaa atgccagatg cctagaccat 20950
tctaaacctt tctgagaagc tgaaatcatc ccttctggaa gcgctctagt 21000
tctaaaagga cagatataca gcaagatctt cctggggcta atatggagtt 21050
tataggcaag taggcctcag aacctttccc tggtagtgat atctgtgggc 21100
aggcacagtt tccacacttt ccagaaattc cagcggaagg agtgagaagg 21150
aggaatctgc ccttgagtga ggaccaaaga aagcagaaat tcctcttggg 21200
aatttttcct ccagagacca aacactactt gggagcttgt ttactgggct 21250
ttaaaagctt gtgaccccca gtcactcttt cttgacccca aggctttgca 21300
tttctgtggc ttccccactg gacagaagtg gaactgtcat gctgcctgtt 21350
ctggggtctc ccagaggttt ccccatgtcc tctccttgct tctactgccc 21400
cacagaattg gggatctgtg accacatatg gtatagaatt aatgcttgag 21450
aatggtttag ttcagtgatg tcaaataaga ttcactttta tgccacctcc 21500
atcagttgaa ggcccccctg gcccctaaat tggaaaagat tctgagacag 21550
aatccccgtg ggtacagcgc agggacagta aaggcacgtg tgctgtgatt 21600
tgctatccac tgtgtggatg catccaggaa tatcagaacc ctggaagatt 21650
atttaagggg aagttaggac agcttttttg ccaatccaag ggtgttcttg 21700
aggaagtctg tcttcctgta tggccttcag tttctttcct gtgtaaccat 21750
ggggccaaca cataattccc acagctctat tggcccttgt ctgccaggat 21800
tctctagggt ctgattcgag gtggatcctg gccctttgag gtggcagaat 21850
ctgatcatgg tgctgtttcc ttagatttag gccttgatac ccttggcgag 21900
agcatcctgg gctgagtgac cacctgaggt ttttctggtg attttgtgac 21950
ccatgtaaaa ctttgagctt tgggattatt ctctcaagga aatagtgaca 22000
tttggtgaag agcctgtttg gtgtggctat gtgaggctta gccaagaaaa 22050
tgcaccattt ttattaggag gttaggccat ccgttgccac aaagtgtcag 22100
atgctaggcc tagagcctgg agaaaactta ttttaaaatt gatggggtgc 22150
tggaggggtt ggggggtggt ggctgtagct catgaatcag gtgctaaacc 22200
tagaaacaaa aggcctcatg tggcagactg tttctgagca cagatgaatg 22250
gatgagcaac tggcgcaact ttgcccagtt ggtccagctt cccacttggc 22300
cacctaggct tgctgtgaag acctcgtctg gcagaaatga gagtgttttt 22350
gccccatctt gatcttaact gtaatttaag actaaaatct tagattctaa 22400
aacatcaaag gcaagatggc tcccagctct gtgagctcag cttctcacct 22450
cttagttgaa caagtgcagt gtgggtcaat acatgattgc tgctcttgct 22500
gccaggaact gtcccagcat agaaaggaat gggacacaat ccctgccgtc 22550
aagattctaa gggaggaagc aggcaggtcg actggtgcct catctctgca 22600
gggctccagc caaggtttgt gaaggatttt gcaggcatat ggagtgggga 22650
ctgattgatc ccgagagggg actggggaaa gctctgaaga ggggatgaca 22700
tttggtttga actccaaaaa atggttgctt tacctgtttc ctgaagtttt 22750
tgaggtggct tataagaaca tataccataa aaaggaccaa tataaattta 22800
aaatcagaaa aagagaaaat gggctgggca tggtggctca tgcctgtaat 22850
cccagcactt tgggaggcca aggtgggtgg atcgtgaggt caggagatcg 22900
agaccatcct gcctggccaa catggtgaaa ccccggctct actaaaaata 22950
caaaaaatta gctgggtgtg gtggcacatg cctgtagtcc cacctacttg 23000
ggaggctgag gcaggagaat cgcttgaaac ctgggaggcg gaggttgcag 23050
tgagctgaga tcgcaccact gcactccagc ctgggcgaca gagtgagact 23100
cctcctcaaa aataaataaa taaagagaaa atggaactta gaaaattaag 23150
aggaagagtg aaaaggtaga tatttagtca ggcacagtgg ctcatgcctg 23200
taatcccaac actttgggag gccaagacag gaaaatctct tgagaccagg 23250
agcttgagac ttgcctggca acatctcagg tgagacctta tctctacaaa 23300
aaatttaaaa attagctgag ctgtgtggct cgtgactgtg atcccagcta 23350
ctcaggaggc cgagaccaca gcccaggagg atcgcttggg cccagcagtt 23400
tgaggctgca gtgagctggc accactgcaa ttcagcctgg gctacagagc 23450
aagacccagt ttaaaaaaaa aaaaaaagat attcaaacca tgggtcccaa 23500
cgtagttatt atatttgacc atttgcaaaa gctgaaagca aaacatgtta 23550
cacattttca gagaggaaaa tacacagtag ttcctgagtg taagttgttt 23600
ttcttgacct cattcttaaa ttgcttcatg agggtgggag ggaagtggta 23650
gttaataagt gaacctgtaa accagcgttt ctcaaaatgt agtccaggga 23700
attgcatcaa aattgcagtt acctacagtg cttgttaaaa tgcagattcc 23750
tgggcccctg ccccaggctt atcaaatcaa tctggtgagt aggactcaag 23800
aacctgtaaa ttcacatact tctgcagatg attcttcttg cactgcacag 23850
catgaaagcc tctgcaatag acagaaagct accagcattg cgaaagcaac 23900
ttgagtgctt ggcctttgaa ggttgagtgg gactttaatg agggagagag 23950
taaggcatga gaaatggcag ttccactgag gtcagtcagt ggttcattgc 24000
tgacgaagtc acttttaagt catgttttag aagaactacc aagtgtggca 24050
ggtcaggcat gtggcaggac tgtttctgag cacagatgaa tggatgagca 24100
cctggcccca ctgtgcccag ttggtctagc ttcccacttg gccacctacg 24150
gtctgctgtg tggaccttgt ctggcagtct cctttaattt attttttatt 24200
atttttttct ttttgagatg gagtcttgct ttgttgccca ggctagagtg 24250
cagtggcatg atctcggctc actgcagcct ccacttccca ggttccagcg 24300
attctcctgc ctcagcctcc caggtagctg ggatcacagg caagtgccac 24350
cacgcccagc taatttttgt atttttaata gagacatggt tttaccatgt 24400
tggccaggct ggtctcgaac tcctgacctc aggtgatcca cccatctcag 24450
cctcccaaaa tgctggaatt acaggtgtga gccaccgcac ctggcctatt 24500
ttttttcagc aaattctttg tttttctctc tgttcccaaa tgcagggtac 24550
tgagaccaca gatgtattct gtttcctgtt gaaaaaatgt ttctcactta 24600
gctgggtgtg gtagcatgca ctgcagtccc acgggaggct gaggcgagag 24650
gattgcttga gcccaggagt tcgataatca tgccattgca ctctggtctg 24700
ggtaacagag cgagaaactg tctcttaaaa aaaagaaaaa gaaaaagagg 24750
tcctagggaa agaaacaaat agtggcttgg atggtgagtt ggtggaaaga 24800
acagtgggtg ttgggggtgt tgaacttgtg tttgtgtgtg gtgtacccaa 24850
gacatatcat gtcagcatta agaatagact attcctgttt tctggtcact 24900
gagttgtatg ttttgacatc cttattttgg aagatacttc cttactagga 24950
atgggatagg gagggggtca cctttcccat ctgtgggtca tattttaaaa 25000
tatttattgt tcaagtttaa agatataacc aaaggtataa agaaaaatac 25050
cacaaacatc tgatttaaga aacaaaccag ccgagcgcgg tggctcgtgc 25100
ctgtaatccc agcactgtgg gaggccgagg caggcagatc atgaggtcaa 25150
gagatcgaga ccatcctggc caacatggtg aaaccccgtc tctactgaaa 25200
atacaaaaat taactggtca tggtggtgtg tgcctgtagt cccagctact 25250
cgggaggctg tggcaggaga atcgcttgaa cccaggaggc ggaggttgta 25300
gtgagccaag attgtgccac tgcattctag cctggcgaca gagtgagact 25350
ccgtctcaaa aagaaaaaaa aaagaaagaa atcatttcct acaccttcga 25400
agccttcatg agttagattt tgaaacagtg caaaatgctt cacgtgagaa 25450
tcgagagtcc cttctggtgg ctctccatcc cctgctcttc tgtcaggttt 25500
tcttgtaggt ttatggaaac ctttgttact tgtgcaggtg gcagagaagc 25550
agagaggata gctgcgcgcc acccacacag ctaggattta ttggcgtact 25600
cccacgtgca tggcagccaa gtggacacaa ctctgtgatg aatcctccca 25650
agagaactga ggggccctga tggaggagct gcttctttgc aaagctttcc 25700
ttgactctct tcctgtcccc tagttgattc cccttctgtg ctagttttag 25750
cttattgttt gttacctgtc acacttagca gtactgttgg ctttgctggt 25800
ctccttgact actgggggta aagacctttt gttgttgttg ttgagacaga 25850
gtcttgctct gtcgcccagg ctggagtgca atggcgtgat ttcggctcac 25900
tgcaaccttc acctcccagg ttcaagagat tctcctgcct cagcctccta 25950
agtagctggg attacagcta caccacaccc ggttaatttt tgtattttta 26000
atagagatgg ggtttagtag agatggggtt tcaccatgtt ggccaggctg 26050
gtctcaagcc cctgacctca aggtgacctg cctgtctcag cctcccaaag 26100
tgctgggatt acagacatga gccaccatgc ccagcctcaa agacctcttc 26150
tttacttgct caccctgccg cccactcccc taccaacccc tgcatgccct 26200
ataccacctg gcacatgata catactaact gggtacatgt ttgaatatga 26250
atggatgtgg tgctgtgaat gcttagggga agtgggtgaa atgcttaaga 26300
accaaccttg agtggtctgg gaaggcttcc tgggagggtg gtgtttgagc 26350
taaggccagg cagctgttag atttgttaga ctgaagccct tgcagactta 26400
gagagcttgt gctcttccca gaatgacggg tgagccacgt acagtaaatg 26450
gtgcttctca tttctagccc aaggggcctc aaggggcacc gtgatttcac 26500
gagaatgctg caagcaaatc ttttctcaag ctggggaatt tggtggtaat 26550
gcctggctca gcttgcggtg cgcacctggc ctttggaaga ttggtacaga 26600
gagaagcggc ccatccacat gagcctgtgg aacagcactg gtgggggagc 26650
tgatttgtga agaggggctg tgcagtgtac tgtcaggtct gagacccagg 26700
aagaaattcc agtatcccag ctctcagaat cacagagttc taggcactgc 26750
ctagttccac gtgttcccaa atgtttcctg aatacttgga tttcctgtcc 26800
agagaatttt caaaacaaac ttagaggcct gacccatggc tgccaaggaa 26850
ggattttttt tttaaattaa attttaaaaa tcagtccagc atgaaaatct 26900
atgatgattt cataagagaa aggacatttt aatattcaaa gagtaagaag 26950
cacttaatct tggaagaaag ggcattccta tactttgatt acctttagtt 27000
taattaaaaa acacctacat ggtctttact tctgtgattt cattcctggg 27050
ctagtgaaac attgtcacaa taaagcatca ggccaacgct tctttcgacc 27100
cactggccaa tcagttgaca aacagtgact agatgtttca gcctattttg 27150
ctgaggctaa aggattgaac tagtgcttca gccagcatga aaaccagtca 27200
ggagtccgtg ctggtgttgg cttagattag cagggccttt gatggagggg 27250
catgtatgtg tttgggtttg ctgtgccagg caggggagca gtggaatttg 27300
tctgaattga gctcacacat tgaagttatt gagcgactta catgcaaggc 27350
catgacctgg actcccagcc gagaggccca cgtggcgggg cttgagctgg 27400
gggagccgag gacagcttac atctgctcat ctgcttacgt aaccctgcct 27450
cccagcttcc agagccaaga aaacacacaa gccagcccag cggggccgag 27500
agcctgtggt agcacacgcc atgcgccgca cagcaagggc gccttggctc 27550
ggcttgaggc ctgtcatgaa gccctcagcc ctctgcctcc tcccagagct 27600
tctccccacc accccaggca gtggctctga aacctggtcg caggtctgca 27650
tgattctgaa cagaggtagt cgttgccttc ctggagtctg agctctctgg 27700
agtttctcac tgggacagag ccaggtgtgt agcagagcat ggtccctgca 27750
gtatggcagg aggtgtgcag ggcattcagg aggcctcctg gctggcactc 27800
gacccaatta gtcattcaac gccaggtctg gggctgctgt ctgttgtctc 27850
aaaggtgtga gctgcaagat ccttagagtt gtggagaaaa aattgccaga 27900
ttggcaagaa gggcaggatt gggggtcaag gtgtctcagt gtgttggaag 27950
catgatgggg gttgtgcaag gggcacagcg agttcagaag ggagcaggag 28000
agtgagaaga ggctgttcag tgataaagct ctgcacagag ccattggagg 28050
agcaagctcc ttgaccatcc ttaaaccagg gtaattttca tttaggttct 28100
gccacacgct cagcagggaa ctcctggaag gcaggatttg tcttgtccat 28150
cctccctccc tacctcaacc cactcctcct tgggctggca cacagtaggt 28200
acccagaaag tatcaattga aacaaattga aagtggtctt gatacatatc 28250
acagggcaag tttgcagtta acagacattt cagagtaaag actctctggc 28300
ttggtgctcg atcggcttct gtgggttgtc agcatgctgt ggacagcccc 28350
ggcatgggag cgagtgggcg tgtgtgtgtg tgtatgtgag ggtgagagag 28400
cgttagtgtg tgtgttgggg ttggggagag aggaggggga atagaagatg 28450
gaccacccgg gtatcagctt ctgccctggg gagatggtgg tgtcagttgc 28500
tgagggaatc ctgagaagca ggtctggctg taggtggtga tggtggtggg 28550
gttgcatgag aatccatttg gggcaggttg aatttgaggt gcccatgaca 28600
tatggctagc catgttctgt tggctgtgag gtcaggagag agacatgaga 28650
tggaaacaga ggtttgggaa ctgtcatgtg cttaaaccaa agacctgggt 28700
atagggagag tgagaagaga agggggcaaa gatggacatc caagaaagaa 28750
gctgagaaag cctaggaatt tgaggtaaga ggagacgtag gtaaatgtga 28800
cgcttggtga tcaaggcttc tttccacctc tcctatgctg gacactcacg 28850
tctcctgtct gcttggaaat tcatgctgag ggcagggaag gtgggagcaa 28900
ggatttgtct aaagatcttg ctttggatcc ctgcactcct cctggtttac 28950
caagtgtcac tggacacgtc agggcgttct gagaccttag agagcatcca 29000
gtcctgtccc tgcagtttac aaatgaggaa accagtaccc tgagagtggc 29050
tgtactatcc actctcagga taccaaagat catctggaaa gtcactggtg 29100
gagctggacc ggggcccagg catctcttct cctgtccggg gctcttgact 29150
tcaggaccac ctttctgaaa cccatgatgg ggcaacacca ggacactttc 29200
cagcctgcag gtgtctgtcc cgcggaagcg agccaggcca catgtgaatt 29250
cctgttttct gggtgggttt cagaaggtac gagcaagtcg gcagggtgac 29300
agcccaggtg cttcttgggt tccccaaaac gcggttatgt ttagcagcat 29350
cctcagaacc aaaggtgggg tgggggctgc agatgttgtg ggggccctct 29400
gaagtgaaaa gagccctgtg acagatcttt tcttcatgtt tttcacaagt 29450
tcactgtgca gcagggcccc cccagtagcc tttgcccagg gttgggtgtt 29500
gggcagccca ggcctggctg accttgtggg gaagggtgtg aatggtggga 29550
atccccgagg gccctctttg cccgaaagcc ctaagccttg acatcagatg 29600
cccatcagat ggtccatcgg agccctacta cccagcttgc ccagtgagaa 29650
tcatctgggc tccttgttag gtagccattt aggtccttcc caaaatccac 29700
agactctcta agggaagggc ccgagatgct gtacttgtac taacttcctc 29750
aagcaattct tgtgataggt ttgggaaaaa cttgtccagg gtgaccactg 29800
actgagtcct ggtcttctct gaagagcaca gtgcctgctc actttagggc 29850
accctgggag gtgggagctg gctcagcagg cagtcttata agggactgag 29900
cttcaaggcc tctgtccctc caggagggag gtgcatgacc agagagggag 29950
gcctgaggat cttcttccct gccccagagg gtctgctgcc tgagctctgt 30000
gatagcgcag agagtaaaag gatcaagctt gattgaggcc tatctctcaa 30050
tgcgaaagtt tgctagttaa gaggagagtg ggaagggcat ttctggcaaa 30100
gagaaaagtg tggacaggca tggcttaagg gatggggagg gagacagaca 30150
gagctgaggg tgaagggcct tttgctcagc tgtgggcctt ggccttccct 30200
tgtgcaggga cacacagcct tagagccact ggaggtttta gtgggaaagt 30250
aatatggtcg gggctgtatc tcagaagaaa acaaactaat gggaacaggt 30300
cctgtgatgg tggacctggg tcagctacgg agggagggaa gatgtgagat 30350
gtgtactggg gaagggggtg gaagtggcag ctatctggtg agaggaagca 30400
ggcccacagc tttttttctc aagctgttga attcagaagg gcgagtgatt 30450
ccgggagtag ggggtgcttg gagagccacg cgttattgat aaacagggca 30500
ggctgaagcc tgctcactgg ccctgggcgg gttctcacca gcatgtttca 30550
ggttttgatc tgtgcttgtg gttggtgttc ctacctgttc tctaggttcc 30600
ttcctttgtt cttgtggctc atttgcttca caggtgaagc tggttacact 30650
agagtaacag ttcccaaagt gtgttccctg gaaaaatggt tctgtagcca 30700
aataagcttg ggaaatggtg ggttaaatat aacgaagggg gtttttcgac 30750
tgcacaactt ctcagagcct ttggtgtgtg tcgtgacttt gcagaagcag 30800
gatttaatac gcagcattcc cgttcttatt tgaccacgag acatgttttt 30850
ccattaagca tcttgctggg tctgatgttt tctggaaccc attttgaggc 30900
ggtctggtct gcagagagta tggggagcct gggttcaagc cttggctctt 30950
gactctcagc agagccttga ttccctgtgt tgcctggact gcaccacgtg 31000
taccacatac ccggtatgtg acgttttcct catccctctt cccacctgcc 31050
gttacctcac aatccacaat ctgcacctca tccatttttc ttctgaggca 31100
agcactctct tactaactta cttatctcat ctgcatccat gttcttctag 31150
gccagaaact tgggagtcat ccctccctct ttgttacttc ttcttcctct 31200
ttgttacttt atcccctctg ttactaaaca ttcttctgtg tttccagcta 31250
tttcttttat tttccctcgg tctcctttgg ggtttctttg cctccatctc 31300
tcccagacct tggttcacct tccatcgagt cccttcctgg gacatgggca 31350
ctcatgccac tcctgctacc ttccacttcg aagctaactc cctccacact 31400
gacgtcccca acatgcatgc atacacacac acacacacac acacacatac 31450
acacacacac acacacactt ccccagttag gctagaatca gagagatgat 31500
gtcagccatt tgtccaaggc cacgcagctg ggaggtcaca gagctaagtc 31550
tcaacctcag gggttttgag aaattgcctt ctcatccgtg atcactgatt 31600
tctacaacag cctgtcagga agtctgggta gaaattactt ccattttaca 31650
gtggagtcag agcggggagg gtcctgggca ggcgagtgct tcacagagtg 31700
accaaccatc taggtttgcc ccacactgaa gggggtttct ggggatggtt 31750
ggtcacccta atgctggatg tggtgcctga tgctgggcag gagggccctc 31800
tccgtggcca cgttgcctcc caggaggaga catttcctct gcagctgcag 31850
ctgcagcctg gccatctgat gcagcctgtg gagcggtggc gagtcctgtg 31900
gcctgctaac ttctccctcc ctccacctct ctagtgggcc ccatgctgat 31950
tgagtttaac atgcctgtgg acctggagct cgtggcaaag cagaacccaa 32000
atgtgaagat gggcggccgc tatgccccca gggactgcgt ctctcctcac 32050
aaggtggcca tcatcattcc attccgcaac cggcaggagc acctcaagta 32100
ctggctatat tatttgcacc cagtcctgca gcgccagcag ctggactatg 32150
gcatctatgt tatcaaccag gtgaggcctg ggaaggtgga atgagagagg 32200
gtgtgtgtgc atgcagatgt gtatcagatg tgtgtgtaat gagggcaggg 32250
gaaggggagt gatttcacag acacctggca cttacagcga ggaaccagcc 32300
ccccagccac caccagtgca gatgaggtaa acgccaaaca gtgtgcttgc 32350
ctattgctgt caactctata gccaagggaa atgctggagt gttttcgttg 32400
ttctgttttt gttttctgga agtagccttc cagcaagatt gggaaaaaag 32450
acaaccctaa ttattccaaa gtacacactg attattccct ggctttgtgt 32500
agctgtgtat tttcctttta aaaataaaac caccatttag atgtcagact 32550
tttaggtaac ttcaaagttt atccagtcag tcagagcgtg tctcctgggg 32600
cacctggaga cagtgccctt agttcaggtc acatgcctac atgccagccc 32650
ctggtgaaat atctggagaa gtctgattcg tgggccatct gagagttatg 32700
tggactgggc cgagtctgag aaaaagtttc tcactgctcg tctgatccat 32750
atgtgttggg ctttagccct gcttaggaaa gtaatgctaa ggataggtca 32800
actttcatca ccatggcatg gagaatcaga ttgatctaag aggcatcttt 32850
attgaaataa atttttcagt ttatttgagg agcattattt tcccaagagt 32900
ataactttga tatttcaaga ttacccctaa cacttaaatt catgttttta 32950
gactataacc tcctaggtgc aatgacacat ctaacttatc taagcaccca 33000
gtttcattga aattcatttg aagagtctga gtacgcccat ttctacaagg 33050
cccaatgtcc atttcatttc gagataaact ctgctttagg taggaggatt 33100
gttggcagtt tacggcttcc atcaaggtca aggaactctg tgcaccttcc 33150
ctatgacccc aggggaagca ctcgaggact gctgtggcat tgtgctgcat 33200
cacttgctgc agggagattc tgaagaagtg taaggtctca gtcctgccct 33250
gtcccgaagc ctccaaccca cttctggcaa gtgggacctt cccagggaac 33300
aatttgttaa cagacccaaa tatcctgtga ttggatggtg gctgccaaat 33350
gctttggaag ctcagaggaa ggagagagag caatggcttg gaagaaccag 33400
gatataaact aggttctaaa gtctgcaggg agatgggctt ctcagctggg 33450
gccagtgagc agggacctta aggcagaaag gagccttgca tgttcctgga 33500
aattgagatg cccactgggg taggaaagca ccagaagctc tgggaccagg 33550
tgtcagagtt aagcctgtga ggcaggagag agcagaacaa gccctgttac 33600
aaggaaactg aagcaggaga gcaggtggtg ggcaaacccc ttgaggctgt 33650
ttgaattctt cggccaagtg aggtacagac cagggcccta tgaacacctg 33700
caagcaagac agccacgcag ttgtgggtca ccttggaaga atattggaga 33750
atgcaagaga gaacaggtaa atgtcctgca aaatgcgggt cactttaacc 33800
caacacatat tcatttaaga aaagctctgt gattgagaaa catttgtctg 33850
atgccagtta gcacatacca atgacggcaa gattcaggag cctgttatta 33900
aagcagtggc agcgagcacc tggaagaggc ggccaccatc accaggagcc 33950
agcagggatg actaataagc cgtgccagct gcatctcgtt tctctcttga 34000
cagttgctat gccagtagat gagggatgta ctgtggatac aatgctgtca 34050
tatcttattc agcagggcat ctgatagcat cccacaaatc tgcctgagta 34100
gaagacagac agctgtggtc tgggtgccat ataggtaggt taaaatatat 34150
atttgggcct aggcgcagtg gctcatgcct gtaatcccag cactttggga 34200
ggccaaggca ggcggatcac ttgaagtcag gagttcaaga ccagcctggc 34250
caacatggcg aaaccccgtc tctactaaaa atacaaaaat tagctggaca 34300
tagtggtggg cggctgtaat cccagctact cgggaggctg aggcaggaga 34350
atctcttgaa cccaggaggc agaggttgca gtgagccgag atcatgccac 34400
tgcactccag cctgggcaac agagtgagac tctgtctcaa aaaaataaaa 34450
taaataaata aataaataaa atatatactt gggtaaagag gataaaagag 34500
ttagcgatga tgctgaattt ttgaactgag gtggctgttt tcaaggaaga 34550
ctggagggtg ggatgctacg tctagatatg ttgcagttta ggtgaatgtg 34600
agacttccct gttttgaagt caaatattgg accagtaaaa tctagccatc 34650
agcttaaatt cctatgatac aatttacata ctccccaggc tcaacacagt 34700
agatttctga atgtcctctg ccagctacat gctcctgccc acctcaatcc 34750
gagtagatgg aacaactaac caagccagct cagaccggtg gcacagctgt 34800
gctggctaac actgggcacc acctaagaga gtgcttctcc aaaagtgtgc 34850
ttccccaaat ggagcgaaat acgcttgagg aatgttgggt tgaaccatgt 34900
aaagcaggtc tcattcccgc agagcctttg gtaccccggt gtacactgta 34950
accccagaag tgtttcctga gcttgcctga cgagacaact tttccaagaa 35000
ccgtctcaag tgatgagtgt tttgtgagtc acactttggg gaaagcgggc 35050
ctaagttagc atctcctccc agctgcctcc ctgctttccc tggaacacta 35100
ggaactgccc gtcctccctc cctccctcct cttcccactt cacaacttag 35150
catcaggaat attttagttt tggtttttca aacatatata cctccttttt 35200
tcttatcttg tcaatatcat cttttttttt tctttgcttt tcctcatact 35250
tttttttctc ttcatccttt ccttctccaa gggttaactt tccaccttag 35300
gagaatcttt tctgcttttt ctcccacttc cccagctact ctcttatcat 35350
ctgctccaat ctcaccctaa ttgatcattt tgggaaaata tggtcagagt 35400
ccagataact aagttgagaa atgcttaaac tctgccatac ctttccagta 35450
aagaatatta cctaataaat aataaaatgg taatgggaaa cctgaaccct 35500
gaaaaaaaag aggtggaagg agaaacattt ggagcacatc ctgtctacaa 35550
attaggaact gcctgtgtta tctgttttat ggttatattc tagaagaaga 35600
aagggatttt gtagcacctg gttttgacct ttctgcactg tttgttgagc 35650
aaataaacct tatgggctgt tagccctctt tatagcctct cagcttatcc 35700
ctggcccaga caccctgctg tcattttgac ttttcattcc cacacacaca 35750
tacacatgca cacacatgta cacacacaca cataccattt aagattagac 35800
agaagtaatg ctcaaaatgg agtggcttct gagacattta gtccaagggt 35850
tcccaaacag gcttttcagt atcagatttc tttctgcccc attgaaatgc 35900
tacacaacct tccgcttaca gcaggtcaca agggtttcat tctacttgaa 35950
gtaggggcca tgtcccattt ccacttcctt ggcttcccat tcagtcactg 36000
ctaggatttg cctagacccc tgaggccaga caatgtagaa acttctgctc 36050
catgtcacag gtgaggaaac aggctcagag agggacaggc tccgaaagtc 36100
acatagacaa cagtagggct gcggctcaaa ccccagcgtc tgactccagg 36150
tttagtgcct tctcagggca tcagtgacac tcctcatggc cagggtgccc 36200
ccagtgttgc tcacagtctg gtatccaggg ctgagagtgt gctgtgtgct 36250
cagactgcct gggttcagtc ctggcactgc cactttacag tcagtgacct 36300
caggcaggtt acttaagctc tgcaggcctc agtttcctcc ttggtgggga 36350
gggttatgag gcatccttct catggtaaac cttcagtaaa taccagccgt 36400
tactaggagg gtccactcct gcctctccac tctccattca tcctgcctgt 36450
ttcctctgcc tgcttcctct gcctgcttct gtggtggtga attcttcatg 36500
gctcccaccg cctcctgctg cacccccact cagggcccgc atcaggaccc 36550
ttcctcctat tggtttgaac tccttggagt cagagggtaa tggatagtgg 36600
agtgagccag gtggcagaat ctcagaggcc atcccgggcc tataagcctc 36650
ttcaaaatag ggccacgtat caagctttac acacaggagt gaactttcac 36700
aagttgttat gactcatact ctgtctatag taagctgtta accactccca 36750
tttggcttat gcctctgtaa ttattgtact aacttatatc ttaaaataag 36800
gatattgaag gaatgagccg ggagaggctt tcctggttga gatatagaag 36850
aacaagagtt gctctttttc cttaaggtct ctcctcccac ccctgacctt 36900
agctcaccag catgggagaa tactatttga ctccttgtac tctgagacgt 36950
ggatttcaag atatagcatt ccaacttcaa cggcagcaag aaaagaagca 37000
acagaaggag aagacatcat agcaaacagg gatgcatgct gcatttccta 37050
atactcaaac ccggaaacga gacttcactc aaggtgaagg gagggcaggt 37100
caccacctgg tagcactagc cctaaattaa ggaatgcaga atgtttgtgg 37150
gattgcccat cataaaaatt acaaaatgag taaggaatgc aggcacagct 37200
ggccaggtgg gtttgtcaca accatggcag ccctttgccc cacagccagt 37250
acacagaact ggtctctcca attccgattg catatcttct ggcacctctg 37300
ttcctctccc tcagctgccc aggatttttc tggttctgac catgttactt 37350
cctcttttaa acctgttagc atttcacgac tgcctacagg caacggtcta 37400
aatggtcgga aggcccaagc ttagcatccg agaccctgac ctacctccag 37450
ccacttcctc ctcctctcca cttcactgga ctccccatct ccacccagac 37500
acctctgttc tcccctctgt gtgcctttgc ttatgctgtc ccctgtgttc 37550
ctagtgtgtc tctggctatc ttttaagctt ccctccccaa cctcattagt 37600
tctgtggagc ccctggaata gagctgactt ctccttccct gctgctccca 37650
ggctgctcag aactttctgg aaagggatga ttatctgagt tccagcctca 37700
ccccagcccc cggactctga gtccctcatg tctgcctccc ttctttctct 37750
ctgaccacac agctggtaca tagtcagtac agacgcagtc agtgagtgga 37800
gcacggggct tctctccagg attcctgccc ctttgtttat ccctagtctc 37850
aggactccct actcctggtc ttctgcctaa atctgtgcct cttggaagtg 37900
aagcctccgt tcccagtggg gccaggtcct gacccttggg aacttgcagg 37950
atccctccct tgggcctctc cccgaagctt ccagctcaat gctgaccaga 38000
gcacaggctg cctgtgacag tccttggggt gacctccctt atcaggaaaa 38050
atgcagaaaa cctattaata ccttagcctt gtgattgtta atggtcacaa 38100
aactccttta gggtcctttg gactcagcac ctttatggtc tcactttgaa 38150
ttttgaacct cccacctccc cccatccccc agagtaaggc aaatggtctt 38200
ctgattgttc ctgcagaggg aaggctccac aggtaagcac acgatggcca 38250
ggaagcagag ctggagcctg cctgaaaggc tgtggagaaa tggagggagg 38300
gctgccctga ggactctgtc tggctttgaa gttttctact gtttcctttt 38350
cttctgtgca ctgttttagg atgatggggt gatagttcca ggctggttga 38400
ggatggattt ggagacagtc ctttgtaccc tcagtgagca agagtatctg 38450
tcaccctacc tcagcagttg tctctgtcac tggtccaagc agctggttcc 38500
tacacaaggt caagatcaac tggggagaag cagactcctg ggtctatccc 38550
attagtgagg acagctgcct gggcttatgg cctcattggt ttggtttcta 38600
tcttgatcat ctctaccatc cccccatccc ggccttccat tttctacctc 38650
agctgtcagt gcacagattg atgtgtgtgg gaacggagct tgggaggagt 38700
ggggtagggc tggtcctgtc ctgtagcctc cccttccttc gggcacttgg 38750
accctttgga gcttgccggg gtggggaatg ggagtgggaa ggccagggag 38800
tgtctctgca ccatcactgt ttgagtgttg cccctttgct gtgtgcccca 38850
cctagtctat gtgtgtctct gttctctggg gactcaattt gctggtgaat 38900
tgcttccatg gacattgttc tgggaaatgc cattttttct gctcacccat 38950
gactctgtga caaggaatga cagcttatta ggaatttgtt tttgcattgg 39000
aacagtggtc atcagaatgg gccccttttc ccttgcagct ttgacatttg 39050
cctctctttt cctcacctct ctcccttgca tccacccttt tctctttttc 39100
ttcttttttg ttttccttct agcaggggcc ttttaccttt acttgttaat 39150
cctgtttgta gcaaagcaag tggaaggagg agttcctctc tgatctgctt 39200
cttattctcc acctaccttc tcttctgtac tttccgcctc ctagagagag 39250
agagagagag aggaatgccg acctaactac cgctgccact gctgctgcca 39300
ccaccgctgc caccaccacc ctggtaatgt tcacatgtcc tcaaatcaac 39350
ccagagccag ggccctgctg gtcaggggga ggctatgtaa ataatcccat 39400
gagtgtgcca tcctcaggcc ctggggtctc ctaggcaaga ccagggcctc 39450
tgtgggctct ctcggaaatg ctgaggttgc tggaagccag cccgtcatac 39500
agggtctgag agtttaactt cttttaaatt aaaccacagt tgagctcatg 39550
ctgtgtgtgt ataaactttt gtatcctgct ttttccttaa attctttatc 39600
atcagcatct tcccatgtta tttcatagtc ttcatcatca tcactttcca 39650
taccttcata gtagttgatc gtagaattcc atcataatta acttgtcttt 39700
tctctcttag aagtccctta ggtaatgtcc aattttccgt gagtgtaagt 39750
aataccataa tgaacatctt ggagtctgaa gtttattctg tgttggtttg 39800
ttccacattt aggatcattt tcccaggcta gattttcaga tgtgggatta 39850
tgggttcaga tatggtttac acatttttat agttcttaat acagatggcc 39900
aaattgcttt ctgaaagaga agcttttctt aagtattttt ctccaacttg 39950
tatcttaaac atcctgaaca tgcttagcac cactgtcttg atatatctgc 40000
ggaaagccac gtctccactt ttcagtgtgt cgggccctgg gagaggcagg 40050
catcctgcgc tggctccttg gagctgggtt taaaattgtc tcctctggct 40100
gggcgtggtg gctcacacct gtaatcccag tactttggga ggccgaggtg 40150
ggcggatcac taggtcagga gatcgagacc atcctggcta acatggtgaa 40200
accccgtctc tactaaaaat acaaaaaatt agccgggcgt ggtggcgggc 40250
acttgaaaag tcccagctac tcgggaggct gaggcaggag aatgatatga 40300
acccgggagg cggagcttgc agtgagccga gatcgcgcca ctgcactcca 40350
gcctgggcga cagagtgaga ctccatttta aaaaaacaaa caaacaaaac 40400
aaaaaaacaa acaaacaaaa actgtctctt ctgtgctcac ttcacccaga 40450
atccctgttg ggctcttcaa ggagctcagt tctctctgaa agcaacttta 40500
tagcctcagt ccagtctgtg ttcctgtgtg gcaggggtca agggtatgct 40550
cactcttgag agtggtgtct ttggttgacc aagaaccact cccatagcct 40600
ggtccctaac ccttgaaggc ccatctctct cactcactgg ggtgaagagt 40650
ttaaatctca gatccaagtt ttgttgagag ctctgagcta ccatattgct 40700
atggttaaca atagttaaca atgttaacaa tggttaacta tggttaacaa 40750
tagttaacaa tgtttaacaa ctagagccca gctgggtgtg gtggcatgtg 40800
ctaacagtcc cagcttctca agaggctgag gtgagaagat tgctggagtc 40850
caggagctca aggccagcct gggcaacatg gcgagaccct gtctcccctg 40900
caaaaaaaca acaacaacaa aagcaaaact agagcccaac tgctgtgaac 40950
tcatggctga gtagatatta ttagccctcc acaaactcag catttgtata 41000
atcccaggct gtttccagta attctctggg gatcatctcc cagcctgtcc 41050
actgttccag gatccacact taggcctata ggaatgcccc gtcagagctt 41100
ctgctgccgc tgatctgtta ctgtttcatg caacccactc ggcctagttc 41150
cttcctctta ctgtctcagt gggcacagaa aagcatacag agggtgtttc 41200
agcaaacatt gccactggct gcagacctgc ccccggatct gtcctgttga 41250
gagcttagtg ctgcgttctt gcatggtggg gaggggtgtg gctctgtgat 41300
gagccagggc atgtgtatag gagcaacagt gtctctctta tcacgtagaa 41350
gttctgactc attgcgagtc ttggctttgg gttaatggtt ccagccatgt 41400
tgctgctgtg tcttttggtg caggagaggc tgggcacagt tggtccctaa 41450
gccattatgg ataagggatg tgtctgctga tatacacaca tggacctgac 41500
atccagggaa ggcagggtga ttggacagaa cagttcttcc agaagctgtt 41550
ggaacttgga caagagtggc ccttggcttt ctgtagttgg tcatctgtcc 41600
cctgttgcaa tcaggggaag gccacacttg ccttccttaa ccacagttag 41650
gattttcttg gggattagac cagattctag cacctgtcct gaacctctcg 41700
ccccgcccct acaaaggctg cttgcaagtg tagtgcacat acacagggag 41750
caggtggggc atggaagtgg aagtggagcc cctgcctttg gcccttgggg 41800
gaggcactgt ctgcttaccc acggttgttg cctcatagga atcatacaac 41850
agcttcctaa ctggtctcct tgccttcagt tggattgggg cacaaatccc 41900
tccttgacat ataaaccatg gtttaaggct ccctgtggcc taaataaaga 41950
taaagcttaa gtatcttaac aagcacctaa cccttctccc cagcctcggt 42000
gatttggctc atcgctgcct tcatgtttca ttctggcttc actcattcgg 42050
aatttcttgt agttccttgg ctgttctctt ttccttaccg cctttacaaa 42100
tgctctcacc atgcatgctt ttctctgctc ctacagatgc cttctctccc 42150
agcaccgcct ccagagtcta tgtctggtcg attctgtctg ctgtctccag 42200
tccccatctt gtggcagtct ctgctcaatc atttggggat tttatatgtt 42250
ttctggcctt tcttttgggg gcctgtcttc tccttctaaa agcagccagt 42300
tgacctagaa ggaagggata actgtaactc ttgtctacca acataagatt 42350
aggcccaccc tttaaaagct gcgtctttga aagggacacc tgcacccagc 42400
atgctggctt ctcttcacca agcgtgactt cctacgcatt tcacaggcct 42450
ccagaggtcc ccctgactct cttctgctgt gagaaactct aatcatgtaa 42500
gccacaggct aattcccttg agccttaaat gtttttagta atttcccatt 42550
catcagagaa gcaggatttg ggaggaattt tgaagcaaac actacagaag 42600
gcagagtctc caggtaggat atctaagaga catttggaat ggtctgactg 42650
ttcaagatgg atgggaaagc ctcttcctgt aatgatagta gccaacattt 42700
gttgtcaggc agtggggccc catttttgag atggggtctc tgtcacccag 42750
gttggagtgc ggtggtgctg tcatggctca ctgcaacctc agcctccccg 42800
ggctgggtct tcttaattct gaaaaaccca gcttttaaag ggtggaccta 42850
atcttatgtt ggtagacaat gttgtctcat ttaatacaat gcacatgctc 42900
tccccataac acaaaagagg gaactgaggc ctggaggtgt gatgtacccc 42950
aagtcacata gctaataaat aaagaagcca gcattcctgg gattaaaaat 43000
gcatgtgtct gtcactgtgg tgtatttggt gcttgatcaa tgtttacttg 43050
agcaaatgga ggggcagagg taccgatgag tgtgctcagt gaggagggca 43100
ggagtgaagc tgggcgtctt cccgcctctt gtgagtggtg gggcttggtg 43150
agcttgccag ggcctgtctt tcttatcaaa gaaggtgtgt gccccagtgt 43200
tacagcattt cacccaaagc agcctagaaa atgcttgact tttctgtcat 43250
tccggggagg acactttcct cctccactgt tctgctggcc tggtgtaccc 43300
acggcccctg atagatgata gcacctgcta aagtgcacca tgcccttccg 43350
tctcactgca tcccacagat gaggccaggc tgggatgagg gagaaaggga 43400
gggatatata gttcaggtta ttttggaaaa ctgcctgacc aattttaagt 43450
ctgggccgga cactggggca tctcaccacg ttgaaagggc cgtggcaccc 43500
cgggcggtga aaggggctgg aaccaggtct gcttcttggg cttctcctcc 43550
agggtgccat tgctcatggg ccttggctgc agaggtgctc attcgtggtt 43600
ccaaaattcc aattcctggg agaggaaaaa tgcttagttc agtctcagtt 43650
aggcctctgc ttagatcaaa cagccaaggc cagtaggccc agtcctatgg 43700
tagagacatg gcctcaaaga gccctctgct gcagttgttg gggagtgtac 43750
caagagaagg gagcattgtc ctgggctggg cagccctggg ggtctagtgc 43800
atagatgtag aaaggctctg ttggtatacc tccctttgct tgttggaaag 43850
tgctcaacgg ggctgaattg tgtttgacag tgtaagtctg ggctggggtg 43900
agggttgtta caagattgtc aagatgatta aatgaaatgc catttgaaac 43950
acttatccat gccttgtgta tggtatcccc accagtgaat attcacagta 44000
tattataata attccaacaa cttcataatt ttcatatgca atttctaaac 44050
tttgaacttt tttttttttt tttttttttt tgagacagtg tctcgctctg 44100
ttgcccaggc tggagtgcag tggcgcaatc ttggctcact gcaacctcca 44150
cctcccggct tcaagtgatt ctcctgcctc agcctcctga gtagctagga 44200
atccaggcgc ccgccaccac acccagctaa tttttgtatt tttagtagag 44250
acgggctttc gccatgttgg ccaggctggt ctcaaactcc tgacctgagg 44300
tgatccaccg ccttggcctt ccaaagtgct aggattacat acgtgagcca 44350
ctgtgcccgg caattttttg tgtttttagt agagatgggg tttcaccatg 44400
ttggccaggc tggtctcgaa ctcctgacct caagtgatct gcccgcctca 44450
gcctccctaa tgctgggatt acaggtgtga gccaccacgc ccagcctaaa 44500
ctttgaattt ctttgaaccc atgacttaca cagaattagc tgaacgcaga 44550
attccaaatc aactcagcct gtgggacagc caaaaaacac agtgtgcctt 44600
tgggctcctt cactcaccac gcggggttag aaaactttgt cagaggcttt 44650
aaaaaaggag ctcttgtgtg taaaatgttt ccttgattct ctttctggtg 44700
cctctctttc tctaagtggt ttgcttcccc aagttcccca cctgagtctg 44750
ggtggctgtg gcacatctgt gcattctgta cgcacacagg cagccttttg 44800
gagtgccagt ttccaggtct tggttttatt tatttattta tttatttttt 44850
tgagatgggg gtctcactct gccgcccagg ctggagtgca gtggtgccgt 44900
catggctcac tgcaacctca acctccctgg gatcagttga gcctcctacc 44950
tcagcctcca gagtactagg gaccaccatg cctggcaaat ttttgtaatt 45000
ttttgtagag gcagagtctc accatgttgc tcaggctggt ctcgagctcc 45050
tagactcaag tgatctgccc accttggcct cccaagtgtt aggattacaa 45100
gtgtgagcca ccatgcccag cccaggtcat cttttgaggg catggagaga 45150
agactttgag catcccactt ttgagattgt gtaccagtcg caagccccta 45200
tgacacactt tttccccaaa gtagagggct ctgactatgt tgatcccaag 45250
agagatggga aagagcattg aatgaggatt ccaaagtatt gggccttagt 45300
tcgtttcctc atgttggtgt tgtgaagatt ctggttagga taacagcatg 45350
tgtgcaggag gctttgtgaa ctgctgagag tgaggcgtgg caatgtcagt 45400
gctaggtttg tccttactaa cctggggcca tgggaattga taagaccaga 45450
ttcccaactc taccccacaa tgtgatccct gtggtgaccc ctcacagggc 45500
tctttggtcg agcttcccag aagggatcac catctgccat tgtatgttga 45550
accccattca ttcattcatt cattcagcca accagcaact atttgttgag 45600
ctcttattgt gtgagaagca gtcttcaagg aactgggtga ataaaaaaaa 45650
caaaacatcc taaccttcat tgagcttaca ttcttactga aagaaaacaa 45700
ataaaacata catgtaatcc tagcactttg ggaggccaag gcaggcggat 45750
cacttgaggt caggaatttg aaaccagcct ggccaacgtg aaacccatct 45800
ctactgaaaa ttaaaaaaaa aaaaaaaaaa aagccgggca tggtggcaca 45850
tgcctgtaat cccagctact cgcgaggcta aggcaggaga atcgcttgaa 45900
tcctggaggc agaggttgca gtgagccaag atcataccat tatactccag 45950
cctcagtgat gaagcaagac tccatctcaa aaataaaaaa taaaaataaa 46000
aatatgcatt ccctttgcac cagcacactt ggtgcctggg gacctcgtgg 46050
ttggcaccct gaagcaggtg tccctcttct gtcttgcaca ccttgcttct 46100
gtcctggtgt gtatggcatg gccttctgcc ctccatggtg agcactgtga 46150
gggcagaggt tgagttgggt ttgctgtatt tctcaggtgc ctaggtttgt 46200
gcttgacagg tagatggaag gcacacaatg tggtcatcaa acctcagtca 46250
accatataag gaaggtagaa gtgaaaagtc ccataggtac ccaactaatg 46300
tcaccagttt cctggatacc tttcctggag tttatttata gtgtgtataa 46350
ataaatgatg tatgtgttta aatgcctttt tcacctttcc ttttagagct 46400
gcctcttttt aacagttcca ttccattgta tggatgtact atgatttatt 46450
gaaccagttc cctactgatt attctgtttt ttgcagtctt ttgttatgat 46500
gaacattcca cagtgacaat gttgttcata gtcattcaca cacatgcaag 46550
tccttctgca ggatatattt ctagagggga attgctgact cagaggtttt 46600
ggtactctgt gttgattgta gagtgacggc agaaaagtga ggcccaagag 46650
tttcctagtg accatgtgta gtggacaagt caccagtccc tgtgagtgtt 46700
tggcccaaag gctttaaggc atttgatatc actgtttttg tttctgcacc 46750
aggcgggaga cactatattc aatcgtgcta agctcctcaa tgttggcttt 46800
caagaagcct tgaaggacta tgactacacc tgctttgtgt ttagtgacgt 46850
ggacctcatt ccaatgaatg accataatgc gtacaggtgt ttttcacagc 46900
cacggcacat ttccgttgca atggataagt ttggattcag gtaagagata 46950
ctcagtcaga atctgtggta aacatgtctc tctcatgtgt tgactaggaa 47000
atgcagtcct ggcagctcaa gagtgcctct ttaagctctg gagcagaatg 47050
cctcctctga gaaatgggtg ctttgtatta gttgagatgg aaagaagaga 47100
ccagaaatgc ctgtagtctc tgcacatcca gacaaaaaca aattttcccc 47150
cctttttttt ttttgtttgt tttttgagac agggtctggc tctgtcaccc 47200
aggctggagt gcagtgccgt gatcttggct caccgcaacc tctgcctccc 47250
gggttcatgc catcctgtca cctcagcctc ctgagtagct gggactacaa 47300
acacttgcca ccatgcgcag ctaatttttg tatattttgt agagatgggg 47350
ttttgctgta ttgcccagtc tggtctcgaa ctcctgagct caagcaatcc 47400
atctgccttg gcctctcgaa gtgctggatt ataggcatgt ggcaccatgc 47450
ctggcctaag aacagttttt agcatttggg aggggctctc atctttaagc 47500
tccaaatgat actgtatttt cttgcttttt tctttctctt gccccacaag 47550
ttttggaaag taaattggaa tagttttccc ccactgaatt atttagcttg 47600
tatacctcag cagatgttcc ttggcctgtt ttgttttgtt tttgagacag 47650
ggtcttgctc tgtcacccag gctggagtgc agtgacacaa tcatggctca 47700
ctgcagcctt gactgcctgg gctcaatcca tcctgcagcc tcagcctcct 47750
gagtagttgg gactacaggc atgagccagc atgtccagct aattttttat 47800
ttttagtgga gatgaggtct ggctatgttg cccaagctgg gcttgaactc 47850
ttgggctcaa gtgatcctct cacctcagcc ttccaaagca ttgggattac 47900
aggtgtgaac cactgctccc gcccttggcc ctataagaag gaatgtgatt 47950
ctgttttcca gcagggcaca aacttctgct taaatacaaa gcccaaattt 48000
ttccaccaaa atgcccctag tgaagtggcc agcccagatg cccgactagc 48050
gtattatcca aagcatattg tcattggtgg aaaatggcct tatagtccat 48100
tgttttgtct taaaagtaaa tatataaata aacttgtata ttgtttccta 48150
attccgtgtt tatattaaca taaaagtgtt ttaaattacc tgtcagtggc 48200
caggtgcagt ggctcgtgcc tgtaatcgca gcactttggg aggccgaggc 48250
gggcagatca cctgaggtca ggagttcgag accagcctga ccagcatggt 48300
gaaaccctgt ctctactaaa aatacaaaaa ttagccaggt gtggtggcag 48350
gtgcctgtaa tcccagctac tcgggaagct gaggcaggag aattgcttga 48400
acccgggagg cagaggttgc agtgagttga gatcgcgcca ttgaacttca 48450
acttgggcaa cagagcaaga ctctgtctca gagaaagaaa aaaaaaaacc 48500
tatcagttga ataacaaaac cctttccttc cttgctttaa gtgaatctga 48550
agatccagga gctgtgctgc aggtaccctc tatgttgggt acccctggtt 48600
taggctgact agtacagtgt ggttggctca tgtagacagc agacccttta 48650
ttttagatac aacttttttt ctttttcttt tatttttttt gagacagagt 48700
cttgcttgtc acccagcctg gagtgcagtg gcgtgatcat ggctcactat 48750
agccttaaac tccctggctc aagtgatcct ctcacctcgg ctttcctagt 48800
agctgggacc acaggtgtgg gccagcaccc ctggctgatt taaaaaaaaa 48850
aaaatttttt tttttagaga tgtctcacta tgttacccag gctggtcttg 48900
aactcctggg ggctcaagca atcctcctgc tttgacctcc caaagtgctg 48950
ggatgacagg catgaactac tgcacctgct gagatgcaac agctttctgt 49000
cagactcatt ttattctcat catttcttcc tgtcctccct tgctgggagc 49050
atgagagctg tgatgggaat ataggaatgt atgaagtcct tctcccagat 49100
caaaaatcct aacttcttgt cttaaaggga ggaaaatttg aatgtaacct 49150
tacttttaga ctcttcagaa atccttctat acccttccgt ccccgctttc 49200
acccttcctc cctctccgtg tgtgtatctt cttctcttga aacacacagg 49250
tttataccct gacccctctt gattcatccc ttgaagcaca gtggtgaaca 49300
aggaaggggc ccgtgatgcc ctaattcttt gccacagcac catgtttgtt 49350
tcacaaggag cctggcaggt ttgggcttgg ggcagatagg ggagagaaag 49400
cagcagagac agcaaaacca aatcatgtca gcttggcatg tacttccctc 49450
tgaaatagct aagaatccat ttctgtaaaa gcactgatta tcagaaaacc 49500
ttattggcct ggccaccttt ggttcaaacc ctcacattaa taatgtggac 49550
agtagtatga ggtgtgccaa aggtggatga ctcagcacct aagtgatgac 49600
acctaattac gaataggttc attaaagcag accccctggg gacctttgct 49650
tgaggatcct tacagtcaga attcctgaat atatttgaaa ataataattg 49700
catctttatt ttcatatgtt ctgtatggtt tggctgactt ccccctcaaa 49750
gtctgagtta gagttttcct taatttatgt gatgggtttg gtctttttgg 49800
attccagaaa gagctgggtg tggtttggag ctgcactcag agtcacacaa 49850
aaccacagcc tttagagaac ccacaggaag gctttggggc acgtcctgat 49900
tcttgacatt tctcatcagt gctgactttg tatcccttag gagttcacaa 49950
ttcataacca ctgaaatatt aaaatacaaa aagttttgga aggatgagag 50000
cccagatgct ctactacttg aaaatatgtt aaaacataag ttcatcatta 50050
tacattttgc taaatcagga taaagtctga agtttcaaag aagttttatt 50100
ttagcaaatt ttcagaaaca ctgcctcaac tgttagggcc agtgttctag 50150
tcagtatgcc tttggaagca tgaaagctgg attggtcgat aggatgggtg 50200
tggaaggggg gctgtgactg ggtgggtaca gagaggctct gaaacaatct 50250
cagattccag gagttcctgg ataaggactt catgtgcggg aacagagcac 50300
aggagaagca gattcctgag ccactcagga agaactgggc ctaggcctgc 50350
tcttgtcact gactggcttt ctacataacc acagaaacag cactgtgttg 50400
tagaaagagg aagatcatac tttttgatat ctgtgtctaa tttaaggtca 50450
tctgagccct gatagaaaag caaaacagac aaaacccttg taactgctcc 50500
ctcccacccc acccaccatc aaaaaagctt tagagaggct ggacatggtg 50550
gctcttgcct gtgatcccag cactttggga ggctaaggtg ggtggatcac 50600
ctgaggtcag gagttcgaga ccagcctgac caatatggtg aaaccccatc 50650
tgtactaaaa atacaaaaat tagccaggtg tggtggcaca cgcctgtagt 50700
cccagctact tgggaggctg agacaggaga attacttgaa aacctgggag 50750
gcggaggttg cagtgagccg agatcacgcc attgtactcc agcctgggct 50800
acagagcgag actccttcaa aaaaaaaaaa aaaaaaagat ccggtttggt 50850
gtcttacaac tgtaatccca gcactttggg aggccgaggc cggtggatca 50900
cgaggttaag agatcaagac catcctgacc aacatggtga aaccctgtct 50950
ctactaaaaa ttagctgggc gtggtggcag gcgcctgtag tcccagctcc 51000
tcaggaggct gaggcagaag aatcgcttga acccgggagg cggaagttgc 51050
agtgagccta gatcgcgccc ctgcactcca gcctggcaac agagcaagac 51100
tacgtctcaa aaaaaaaata aataaaaact ctagagaagc aaaaagaata 51150
actttaaaag tgtttatgtt ctcagcaagc tttattttgg ggatgtcaga 51200
acttaactaa ccactgctcc ttctgtgtgt atgtttttcc tccagcctac 51250
cttatgttca gtattttgga ggtgtctctg ctctaagtaa acaacagttt 51300
ctaaccatca atggatttcc taataattat tggggctggg gaggagaaga 51350
tgatgacatt tttaacaggt aatggtcata acttagatat ctttctcctc 51400
tgtcaacctt cacttccagt tttttaacca atgcttggtt gttccccaag 51450
gactgaccct cagatgggat gcacccctag tcagcccaca ttcttaggtg 51500
tggcttccta caggtcctgc aggtgctaaa agggatctgt aggaaaatga 51550
gtttctgaga tttttgtatt ggcctggaaa aatgtcaaat gggaaccaag 51600
tgacggggca agtttacttt gacttgctgc atgccgtttt gtactcaagg 51650
agtaaaccaa tgtcctttgt aaaaatccct cctttcatta tggtcccctt 51700
tcactgtgaa acaagtttcc ttgagcagaa tcctaactgt cttcacagaa 51750
gctttgtgtt atatttttat tttggagtat tttcacatat acaaaagaga 51800
tactgtagta taataaacct ttgaggacct atccagcccc agcaaccatt 51850
atggcctggt cagttctgtc ccatccacat cctggggctc tttttaagct 51900
ggtaaatcat tatgatgtgg gttgtcattt acagtggtaa aaaacatcta 51950
tcagtagcat ttgaaagaac attctgctca gtcctctggc tgtagaggct 52000
tcaaccccac cagccaccga tgagcacctt ctccctccag gagccagtct 52050
gagctcatta ctgagtttaa tatcagaata caccctggtg cagcctttct 52100
aaattgcagt accagttaac agaaggtgtc tgtcagagca acacccaagt 52150
cattcaagtt accattgtgt gcaaacttaa cagagaccca cgtcttcaat 52200
ataagccttg aaggaaactc cagttttagt atgtagatgg ggtatcaagt 52250
gtgtgcacat tgaacatctg ctgcatacag agcactgtgc caggcaggcc 52300
caggacactg aaaacctgga catagggtcc agacagaagc aagcctgctt 52350
ccacagaggc actcctgggc agacactctg gactgatatg acagtgtgca 52400
gggccgacag gataccacag gtctgaatgg tcagaacagc tggggaggga 52450
gggagcatcc gcaggcatct agtcccatgc taacgcagtg gcactagaag 52500
gatgggtggt gtgtggagca actttcttga aagataaagg acctaacact 52550
ttctatgcac cacttactgt gtgccaggca aggccaggaa tgtttaagtg 52600
gtctgggatc agccagttct gcctcttaac taactttgct gtcctgctct 52650
ccaggctttc attttggtcc tcattccttt tccttggacc aacacagaat 52700
cctccaccct gttctggctg cctctagtct tgttctcagc cctccatttg 52750
tttttttctg ccttttccca catgttctga agccctccat tcgtatacta 52800
ctttccagag acttccccat ggctaaaagc attttggaaa tactgtatat 52850
taggcccctt tcagatactg gcaaccgttt gtgggatgct ctgagaaggc 52900
ctctgtgact tagcctggcc cttttcagcc catcacctgc cacgtcctac 52950
cccagaccct tgtcaccagt ccccaggagc ttacgttgct ccctgagggc 53000
actaggcttg ctctcacttc catgcctttg cctgtgccat cctggctgcc 53050
caaaatgcta tggcagatac ctgttcatcc tcaactgggc tctgcctagg 53100
cttgctccag cagaggttac aaactctatg cttcttcctc tgtgtctcca 53150
acctcatctt cctcttctca cctccatcct ggccctaaag gccctatgtt 53200
tgaagcattc acactgtata ttctgtgggg cacacggccc cagtgtctgg 53250
cacatggtag tcaacaccac aaaccgcaga accagttgta aaaggacatg 53300
gagtcggaat gtgagtttta accagggtca tgctgggctg ggttctggca 53350
tgatgctggg ttgtgggctg agtgagaaca gcaagggtga tggtggatgg 53400
agcaacagtc ttgcagccgg ggctctcagg ccaagtgtat ggcagctctg 53450
tgataatgac tttcccttta ctctttgcag attagttttt agaggcatgt 53500
ctatatctcg cccaaatgct gtggtcggga ggtgtcgcat gatccgccac 53550
tcaagagaca agaaaaatga acccagtcct cagaggtgca ttctttgttt 53600
attcatactc cttccccctt taggatgagg taggctgcag gtccgaggct 53650
ctgggcctag agggaaattg aggtggtcag gttacagtgg agagggagga 53700
ggaagtacgt gtgatgattt cttcttaaga tttttgtttt aagacaatct 53750
ccttgtgctc ttttccttgt aggtttgacc gaattgcaca cacaaaggag 53800
acaatgctct ctgatggttt gaactcactc acctaccagg tgctggatgt 53850
acagagatac ccattgtata cccaaatcac agtggacatc gggacaccga 53900
gctagcgttt tggtacacgg ataagagacc tgaaattagc cagggacctc 53950
tgctgtgtgt ctctgccaat ctgctgggct ggtccctctc atttttacca 54000
gtctgagtga caggtcccct tcgctcatca ttcagatggc tttccagatg 54050
accaggacga gtgggatatt ttgcccccaa cttggctcgg catgtgaatt 54100
cttagctctg caaggtgttt atgcctttgc gggtttcttg atgtgttcgc 54150
agtgtcaccc cagagtcaga actgtacaca tcccaaaatt tggtggccgt 54200
ggaacacatt cccggtgata gaattgctaa attgtcgtga aataggttag 54250
aatttttctt taaattatgg ttttcttatt cgtgaaaatt cggagagtgc 54300
tgctaaaatt ggattggtgt gatctttttg gtagttgtaa tttaacagaa 54350
aaacacaaaa tttcaaccat tcttaatgtt acgtcctccc cccaccccct 54400
tctttcagtg gtatgcaacc actgcaatca ctgtgcatat gtcttttctt 54450
agcaaaagga ttttaaaact tgagccctgg accttttgtc ctatgtgtgt 54500
ggattccagg gcaactctag catcagagca aaagccttgg gtttctcgca 54550
ttcagtggcc tatctccaga ttgtctgatt tctgaatgta aagttgttgt 54600
gttttttttt aaatagtagt ttgtagtatt ttaaagaaag aacagatcga 54650
gttctaatta tgatctagct tgattttgtg ttgatccaaa tttgcatagc 54700
tgtttaatgt taagtcatga caatttattt ttcttggcat gctatgtaaa 54750
cttgaatttc ctatgtattt ttattgtggt gttttaaata tggggagggg 54800
tattgagcat tttttaggga gaaaaataaa tatatgctgt agtggccaca 54850
aataggccta tgatttagct ggcaggccag gttttctcaa gagcaaaatc 54900
accctctggc cccttggcag gtaaggcctc ccggtcagca ttatcctgcc 54950
agacctcggg gaggatacct gggagacaga agcctctgca cctactgtgc 55000
agaactctcc acttccccaa ccctccccag gtgggcaggg cggagggagc 55050
ctcagcctcc ttagactgac ccctcaggcc cctaggctgg ggggttgtaa 55100
ataacagcag tcaggttgtt taccagccct ttgcacctcc ccaggcagag 55150
ggagcctctg ttctggtggg ggccacctcc ctcagaggct ctgctagcca 55200
cactccgtgg cccacccttt gttaccagtt cttcctcctt cctcttttcc 55250
cctgcctttc tcattccttc cttcgtctcc ctttttgttc ctttgcctct 55300
tgcctgtccc ctaaaacttg actgtggcac tcagggtcaa acagactatc 55350
cattccccag catgaatgtg ccttttaatt agtgatctag aaagaagttc 55400
agccgaaccc acaccccaac tccctcccaa gaacttcggt gcctaaagcc 55450
tcctgttcca cctcaggttt tcacaggtgc tcccacccca gttgaggctc 55500
ccacccacag ggctgtctgt cacaaaccca cctctgttgg gagctattga 55550
gccacctggg atgagatgac acaaggcact cctaccactg agcgcctttg 55600
ccaggtccag cctgggctca ggttccaaga ctcagctgcc taatcccagg 55650
gttgagcctt gtgctcgtgg cggaccccaa accactgccc tcctgggtac 55700
cagccctcag tgtggaggct gagctggtgc ctggccccag tcttatctgt 55750
gcctttactg ctttgcgcat ctcagatgct aacttggttc tttttccaga 55800
agcctttgta ttggttaaaa attattttcc attgcagaag cagctggact 55850
atgcaaaaag tatttctctg tcagttcccc actctatacc aaggatatta 55900
ttaaaactag aaatgactgc attgagaggg agttgtggga aataagaaga 55950
atgaaagcct ctctttctgt ccgcagatcc tgacttttcc aaagtgcctt 56000
aaaagaaatc agacaaatgc cctgagtggt aacttctgtg ttattttact 56050
cttaaaacca aactctacct tttcttgttg tttttttttt tttttttttt 56100
ttttttttgg ttaccttctc attcatgtca agtatgtggt tcattcttag 56150
aaccaaggga aatactgctc cccccatttg ctgacgtagt gctctcatgg 56200
gctcacctgg gcccaaggca cagccagggc acagttaggc ctggatgttt 56250
gcctggtccg tgagatgccg cgggtcctgt ttccttactg gggatttcag 56300
ggctgggggt tcagggagca tttccttttc ctgggagtta tgaccgcgaa 56350
gttgtcatgt gccgtgccct tttctgtttc tgtgtatcct attgctggtg 56400
actctgtgtg aactggcctt tgggaaagat cagagagggc agaggtggca 56450
caggacagta aaggagatgc tgtgctggcc ttcagcctgg acagggtctc 56500
tgctgactgc caggggcggg ggctctgcat agccaggatg acggctttca 56550
tgtcccagag acctgttgtg ctgtgtattt tgatttcctg tgtatgcaaa 56600
tgtgtgtatt taccattgtg tagggggctg tgtctgatct tggtgttcaa 56650
aacagaactg tatttttgcc tttaaaatta aataatataa cgtgaataaa 56700
tgaccctatc tttgtaac 56718
<210> 3
<211> 4214
<212> ДНК
<213> Homo sapien
<220>
<223> последовательность мРНК B4GALT1 дикого типа
<400> 3
gcgccucggg cggcuucucg ccgcucccag gucuggcugg cuggaggagu 50
cucagcucuc agccgcucgc ccgcccccgc uccgggcccu ccccuagucg 100
ccgcuguggg gcagcgccug gcgggcggcc cgcgggcggg ucgccucccc 150
uccuguagcc cacacccuuc uuaaagcggc ggcgggaaga ugaggcuucg 200
ggagccgcuc cugagcggca gcgccgcgau gccaggcgcg ucccuacagc 250
gggccugccg ccugcucgug gccgucugcg cucugcaccu uggcgucacc 300
cucguuuacu accuggcugg ccgcgaccug agccgccugc cccaacuggu 350
cggagucucc acaccgcugc agggcggcuc gaacagugcc gccgccaucg 400
ggcaguccuc cggggagcuc cggaccggag gggcccggcc gccgccuccu 450
cuaggcgccu ccucccagcc gcgcccgggu ggcgacucca gcccagucgu 500
ggauucuggc ccuggccccg cuagcaacuu gaccucgguc ccagugcccc 550
acaccaccgc acugucgcug cccgccugcc cugaggaguc cccgcugcuu 600
gugggcccca ugcugauuga guuuaacaug ccuguggacc uggagcucgu 650
ggcaaagcag aacccaaaug ugaagauggg cggccgcuau gcccccaggg 700
acugcgucuc uccucacaag guggccauca ucauuccauu ccgcaaccgg 750
caggagcacc ucaaguacug gcuauauuau uugcacccag uccugcagcg 800
ccagcagcug gacuauggca ucuauguuau caaccaggcg ggagacacua 850
uauucaaucg ugcuaagcuc cucaauguug gcuuucaaga agccuugaag 900
gacuaugacu acaccugcuu uguguuuagu gacguggacc ucauuccaau 950
gaaugaccau aaugcguaca gguguuuuuc acagccacgg cacauuuccg 1000
uugcaaugga uaaguuugga uucagccuac cuuauguuca guauuuugga 1050
ggugucucug cucuaaguaa acaacaguuu cuaaccauca auggauuucc 1100
uaauaauuau uggggcuggg gaggagaaga ugaugacauu uuuaacagau 1150
uaguuuuuag aggcaugucu auaucucgcc caaaugcugu ggucgggagg 1200
ugucgcauga uccgccacuc aagagacaag aaaaaugaac ccaauccuca 1250
gagguuugac cgaauugcac acacaaagga gacaaugcuc ucugaugguu 1300
ugaacucacu caccuaccag gugcuggaug uacagagaua cccauuguau 1350
acccaaauca caguggacau cgggacaccg agcuagcguu uugguacacg 1400
gauaagagac cugaaauuag ccagggaccu cugcugugug ucucugccaa 1450
ucugcugggc uggucccucu cauuuuuacc agucugagug acaggucccc 1500
uucgcucauc auucagaugg cuuuccagau gaccaggacg agugggauau 1550
uuugccccca acuuggcucg gcaugugaau ucuuagcucu gcaagguguu 1600
uaugccuuug cggguuucuu gauguguucg cagugucacc ccagagucag 1650
aacuguacac aucccaaaau uugguggccg uggaacacau ucccggugau 1700
agaauugcua aauugucgug aaauagguua gaauuuuucu uuaaauuaug 1750
guuuucuuau ucgugaaaau ucggagagug cugcuaaaau uggauuggug 1800
ugaucuuuuu gguaguugua auuuaacaga aaaacacaaa auuucaacca 1850
uucuuaaugu uacguccucc ccccaccccc uucuuucagu gguaugcaac 1900
cacugcaauc acugugcaua ugucuuuucu uagcaaaagg auuuuaaaac 1950
uugagcccug gaccuuuugu ccuaugugug uggauuccag ggcaacucua 2000
gcaucagagc aaaagccuug gguuucucgc auucaguggc cuaucuccag 2050
auugucugau uucugaaugu aaaguuguug uguuuuuuuu uaaauaguag 2100
uuuguaguau uuuaaagaaa gaacagaucg aguucuaauu augaucuagc 2150
uugauuuugu guugauccaa auuugcauag cuguuuaaug uuaagucaug 2200
acaauuuauu uuucuuggca ugcuauguaa acuugaauuu ccuauguauu 2250
uuuauugugg uguuuuaaau auggggaggg guauugagca uuuuuuaggg 2300
agaaaaauaa auauaugcug uaguggccac aaauaggccu augauuuagc 2350
uggcaggcca gguuuucuca agagcaaaau cacccucugg ccccuuggca 2400
gguaaggccu cccggucagc auuauccugc cagaccucgg ggaggauacc 2450
ugggagacag aagccucugc accuacugug cagaacucuc cacuucccca 2500
acccucccca ggugggcagg gcggagggag ccucagccuc cuuagacuga 2550
ccccucaggc cccuaggcug ggggguugua aauaacagca gucagguugu 2600
uuaccagccc uuugcaccuc cccaggcaga gggagccucu guucuggugg 2650
gggccaccuc ccucagaggc ucugcuagcc acacuccgug gcccacccuu 2700
uguuaccagu ucuuccuccu uccucuuuuc cccugccuuu cucauuccuu 2750
ccuucgucuc ccuuuuuguu ccuuugccuc uugccugucc ccuaaaacuu 2800
gacuguggca cucaggguca aacagacuau ccauucccca gcaugaaugu 2850
gccuuuuaau uagugaucua gaaagaaguu cagccgaacc cacaccccaa 2900
cucccuccca agaacuucgg ugccuaaagc cuccuguucc accucagguu 2950
uucacaggug cucccacccc aguugaggcu cccacccaca gggcugucug 3000
ucacaaaccc accucuguug ggagcuauug agccaccugg gaugagauga 3050
cacaaggcac uccuaccacu gagcgccuuu gccaggucca gccugggcuc 3100
agguuccaag acucagcugc cuaaucccag gguugagccu ugugcucgug 3150
gcggacccca aaccacugcc cuccugggua ccagcccuca guguggaggc 3200
ugagcuggug ccuggcccca gucuuaucug ugccuuuacu gcuuugcgca 3250
ucucagaugc uaacuugguu cuuuuuccag aagccuuugu auugguuaaa 3300
aauuauuuuc cauugcagaa gcagcuggac uaugcaaaaa guauuucucu 3350
gucaguuccc cacucuauac caaggauauu auuaaaacua gaaaugacug 3400
cauugagagg gaguuguggg aaauaagaag aaugaaagcc ucucuuucug 3450
uccgcagauc cugacuuuuc caaagugccu uaaaagaaau cagacaaaug 3500
cccugagugg uaacuucugu guuauuuuac ucuuaaaacc aaacucuacc 3550
uuuucuuguu guuuuuuuuu uuuuuuuuuu uuuuuuuuug guuaccuucu 3600
cauucauguc aaguaugugg uucauucuua gaaccaaggg aaauacugcu 3650
ccccccauuu gcugacguag ugcucucaug ggcucaccug ggcccaaggc 3700
acagccaggg cacaguuagg ccuggauguu ugccuggucc gugagaugcc 3750
gcggguccug uuuccuuacu ggggauuuca gggcuggggg uucagggagc 3800
auuuccuuuu ccugggaguu augaccgcga aguugucaug ugccgugccc 3850
uuuucuguuu cuguguaucc uauugcuggu gacucugugu gaacuggccu 3900
uugggaaaga ucagagaggg cagagguggc acaggacagu aaaggagaug 3950
cugugcuggc cuucagccug gacagggucu cugcugacug ccaggggcgg 4000
gggcucugca uagccaggau gacggcuuuc augucccaga gaccuguugu 4050
gcuguguauu uugauuuccu guguaugcaa auguguguau uuaccauugu 4100
guagggggcu gugucugauc uugguguuca aaacagaacu guauuuuugc 4150
cuuuaaaauu aaauaauaua acgugaauaa augacccuau cuuuguaaca 4200
aaaaaaaaaa aaaa 4214
<210> 4
<211> 4214
<212> ДНК
<213> Homo sapien
<220>
<223> последовательность мРНК варианта B4GALT1
<400> 4
gcgccucggg cggcuucucg ccgcucccag gucuggcugg cuggaggagu 50
cucagcucuc agccgcucgc ccgcccccgc uccgggcccu ccccuagucg 100
ccgcuguggg gcagcgccug gcgggcggcc cgcgggcggg ucgccucccc 150
uccuguagcc cacacccuuc uuaaagcggc ggcgggaaga ugaggcuucg 200
ggagccgcuc cugagcggca gcgccgcgau gccaggcgcg ucccuacagc 250
gggccugccg ccugcucgug gccgucugcg cucugcaccu uggcgucacc 300
cucguuuacu accuggcugg ccgcgaccug agccgccugc cccaacuggu 350
cggagucucc acaccgcugc agggcggcuc gaacagugcc gccgccaucg 400
ggcaguccuc cggggagcuc cggaccggag gggcccggcc gccgccuccu 450
cuaggcgccu ccucccagcc gcgcccgggu ggcgacucca gcccagucgu 500
ggauucuggc ccuggccccg cuagcaacuu gaccucgguc ccagugcccc 550
acaccaccgc acugucgcug cccgccugcc cugaggaguc cccgcugcuu 600
gugggcccca ugcugauuga guuuaacaug ccuguggacc uggagcucgu 650
ggcaaagcag aacccaaaug ugaagauggg cggccgcuau gcccccaggg 700
acugcgucuc uccucacaag guggccauca ucauuccauu ccgcaaccgg 750
caggagcacc ucaaguacug gcuauauuau uugcacccag uccugcagcg 800
ccagcagcug gacuauggca ucuauguuau caaccaggcg ggagacacua 850
uauucaaucg ugcuaagcuc cucaauguug gcuuucaaga agccuugaag 900
gacuaugacu acaccugcuu uguguuuagu gacguggacc ucauuccaau 950
gaaugaccau aaugcguaca gguguuuuuc acagccacgg cacauuuccg 1000
uugcaaugga uaaguuugga uucagccuac cuuauguuca guauuuugga 1050
ggugucucug cucuaaguaa acaacaguuu cuaaccauca auggauuucc 1100
uaauaauuau uggggcuggg gaggagaaga ugaugacauu uuuaacagau 1150
uaguuuuuag aggcaugucu auaucucgcc caaaugcugu ggucgggagg 1200
ugucgcauga uccgccacuc aagagacaag aaaaaugaac ccaguccuca 1250
gagguuugac cgaauugcac acacaaagga gacaaugcuc ucugaugguu 1300
ugaacucacu caccuaccag gugcuggaug uacagagaua cccauuguau 1350
acccaaauca caguggacau cgggacaccg agcuagcguu uugguacacg 1400
gauaagagac cugaaauuag ccagggaccu cugcugugug ucucugccaa 1450
ucugcugggc uggucccucu cauuuuuacc agucugagug acaggucccc 1500
uucgcucauc auucagaugg cuuuccagau gaccaggacg agugggauau 1550
uuugccccca acuuggcucg gcaugugaau ucuuagcucu gcaagguguu 1600
uaugccuuug cggguuucuu gauguguucg cagugucacc ccagagucag 1650
aacuguacac aucccaaaau uugguggccg uggaacacau ucccggugau 1700
agaauugcua aauugucgug aaauagguua gaauuuuucu uuaaauuaug 1750
guuuucuuau ucgugaaaau ucggagagug cugcuaaaau uggauuggug 1800
ugaucuuuuu gguaguugua auuuaacaga aaaacacaaa auuucaacca 1850
uucuuaaugu uacguccucc ccccaccccc uucuuucagu gguaugcaac 1900
cacugcaauc acugugcaua ugucuuuucu uagcaaaagg auuuuaaaac 1950
uugagcccug gaccuuuugu ccuaugugug uggauuccag ggcaacucua 2000
gcaucagagc aaaagccuug gguuucucgc auucaguggc cuaucuccag 2050
auugucugau uucugaaugu aaaguuguug uguuuuuuuu uaaauaguag 2100
uuuguaguau uuuaaagaaa gaacagaucg aguucuaauu augaucuagc 2150
uugauuuugu guugauccaa auuugcauag cuguuuaaug uuaagucaug 2200
acaauuuauu uuucuuggca ugcuauguaa acuugaauuu ccuauguauu 2250
uuuauugugg uguuuuaaau auggggaggg guauugagca uuuuuuaggg 2300
agaaaaauaa auauaugcug uaguggccac aaauaggccu augauuuagc 2350
uggcaggcca gguuuucuca agagcaaaau cacccucugg ccccuuggca 2400
gguaaggccu cccggucagc auuauccugc cagaccucgg ggaggauacc 2450
ugggagacag aagccucugc accuacugug cagaacucuc cacuucccca 2500
acccucccca ggugggcagg gcggagggag ccucagccuc cuuagacuga 2550
ccccucaggc cccuaggcug ggggguugua aauaacagca gucagguugu 2600
uuaccagccc uuugcaccuc cccaggcaga gggagccucu guucuggugg 2650
gggccaccuc ccucagaggc ucugcuagcc acacuccgug gcccacccuu 2700
uguuaccagu ucuuccuccu uccucuuuuc cccugccuuu cucauuccuu 2750
ccuucgucuc ccuuuuuguu ccuuugccuc uugccugucc ccuaaaacuu 2800
gacuguggca cucaggguca aacagacuau ccauucccca gcaugaaugu 2850
gccuuuuaau uagugaucua gaaagaaguu cagccgaacc cacaccccaa 2900
cucccuccca agaacuucgg ugccuaaagc cuccuguucc accucagguu 2950
uucacaggug cucccacccc aguugaggcu cccacccaca gggcugucug 3000
ucacaaaccc accucuguug ggagcuauug agccaccugg gaugagauga 3050
cacaaggcac uccuaccacu gagcgccuuu gccaggucca gccugggcuc 3100
agguuccaag acucagcugc cuaaucccag gguugagccu ugugcucgug 3150
gcggacccca aaccacugcc cuccugggua ccagcccuca guguggaggc 3200
ugagcuggug ccuggcccca gucuuaucug ugccuuuacu gcuuugcgca 3250
ucucagaugc uaacuugguu cuuuuuccag aagccuuugu auugguuaaa 3300
aauuauuuuc cauugcagaa gcagcuggac uaugcaaaaa guauuucucu 3350
gucaguuccc cacucuauac caaggauauu auuaaaacua gaaaugacug 3400
cauugagagg gaguuguggg aaauaagaag aaugaaagcc ucucuuucug 3450
uccgcagauc cugacuuuuc caaagugccu uaaaagaaau cagacaaaug 3500
cccugagugg uaacuucugu guuauuuuac ucuuaaaacc aaacucuacc 3550
uuuucuuguu guuuuuuuuu uuuuuuuuuu uuuuuuuuug guuaccuucu 3600
cauucauguc aaguaugugg uucauucuua gaaccaaggg aaauacugcu 3650
ccccccauuu gcugacguag ugcucucaug ggcucaccug ggcccaaggc 3700
acagccaggg cacaguuagg ccuggauguu ugccuggucc gugagaugcc 3750
gcggguccug uuuccuuacu ggggauuuca gggcuggggg uucagggagc 3800
auuuccuuuu ccugggaguu augaccgcga aguugucaug ugccgugccc 3850
uuuucuguuu cuguguaucc uauugcuggu gacucugugu gaacuggccu 3900
uugggaaaga ucagagaggg cagagguggc acaggacagu aaaggagaug 3950
cugugcuggc cuucagccug gacagggucu cugcugacug ccaggggcgg 4000
gggcucugca uagccaggau gacggcuuuc augucccaga gaccuguugu 4050
gcuguguauu uugauuuccu guguaugcaa auguguguau uuaccauugu 4100
guagggggcu gugucugauc uugguguuca aaacagaacu guauuuuugc 4150
cuuuaaaauu aaauaauaua acgugaauaa augacccuau cuuuguaaca 4200
aaaaaaaaaa aaaa 4214
<210> 5
<211> 1197
<212> ДНК
<213> Homo sapien
<220>
<223> последовательность кДНК B4GALT1 дикого типа
<400> 5
atgaggcttc gggagccgct cctgagcggc agcgccgcga tgccaggcgc 50
gtccctacag cgggcctgcc gcctgctcgt ggccgtctgc gctctgcacc 100
ttggcgtcac cctcgtttac tacctggctg gccgcgacct gagccgcctg 150
ccccaactgg tcggagtctc cacaccgctg cagggcggct cgaacagtgc 200
cgccgccatc gggcagtcct ccggggagct ccggaccgga ggggcccggc 250
cgccgcctcc tctaggcgcc tcctcccagc cgcgcccggg tggcgactcc 300
agcccagtcg tggattctgg ccctggcccc gctagcaact tgacctcggt 350
cccagtgccc cacaccaccg cactgtcgct gcccgcctgc cctgaggagt 400
ccccgctgct tgtgggcccc atgctgattg agtttaacat gcctgtggac 450
ctggagctcg tggcaaagca gaacccaaat gtgaagatgg gcggccgcta 500
tgcccccagg gactgcgtct ctcctcacaa ggtggccatc atcattccat 550
tccgcaaccg gcaggagcac ctcaagtact ggctatatta tttgcaccca 600
gtcctgcagc gccagcagct ggactatggc atctatgtta tcaaccaggc 650
gggagacact atattcaatc gtgctaagct cctcaatgtt ggctttcaag 700
aagccttgaa ggactatgac tacacctgct ttgtgtttag tgacgtggac 750
ctcattccaa tgaatgacca taatgcgtac aggtgttttt cacagccacg 800
gcacatttcc gttgcaatgg ataagtttgg attcagccta ccttatgttc 850
agtattttgg aggtgtctct gctctaagta aacaacagtt tctaaccatc 900
aatggatttc ctaataatta ttggggctgg ggaggagaag atgatgacat 950
ttttaacaga ttagttttta gaggcatgtc tatatctcgc ccaaatgctg 1000
tggtcgggag gtgtcgcatg atccgccact caagagacaa gaaaaatgaa 1050
cccaatcctc agaggtttga ccgaattgca cacacaaagg agacaatgct 1100
ctctgatggt ttgaactcac tcacctacca ggtgctggat gtacagagat 1150
acccattgta tacccaaatc acagtggaca tcgggacacc gagctag 1197
<210> 6
<211> 1197
<212> ДНК
<213> Homo sapien
<220>
<223> последовательность кДНК варианта B4GALT1
<400> 6
atgaggcttc gggagccgct cctgagcggc agcgccgcga tgccaggcgc 50
gtccctacag cgggcctgcc gcctgctcgt ggccgtctgc gctctgcacc 100
ttggcgtcac cctcgtttac tacctggctg gccgcgacct gagccgcctg 150
ccccaactgg tcggagtctc cacaccgctg cagggcggct cgaacagtgc 200
cgccgccatc gggcagtcct ccggggagct ccggaccgga ggggcccggc 250
cgccgcctcc tctaggcgcc tcctcccagc cgcgcccggg tggcgactcc 300
agcccagtcg tggattctgg ccctggcccc gctagcaact tgacctcggt 350
cccagtgccc cacaccaccg cactgtcgct gcccgcctgc cctgaggagt 400
ccccgctgct tgtgggcccc atgctgattg agtttaacat gcctgtggac 450
ctggagctcg tggcaaagca gaacccaaat gtgaagatgg gcggccgcta 500
tgcccccagg gactgcgtct ctcctcacaa ggtggccatc atcattccat 550
tccgcaaccg gcaggagcac ctcaagtact ggctatatta tttgcaccca 600
gtcctgcagc gccagcagct ggactatggc atctatgtta tcaaccaggc 650
gggagacact atattcaatc gtgctaagct cctcaatgtt ggctttcaag 700
aagccttgaa ggactatgac tacacctgct ttgtgtttag tgacgtggac 750
ctcattccaa tgaatgacca taatgcgtac aggtgttttt cacagccacg 800
gcacatttcc gttgcaatgg ataagtttgg attcagccta ccttatgttc 850
agtattttgg aggtgtctct gctctaagta aacaacagtt tctaaccatc 900
aatggatttc ctaataatta ttggggctgg ggaggagaag atgatgacat 950
ttttaacaga ttagttttta gaggcatgtc tatatctcgc ccaaatgctg 1000
tggtcgggag gtgtcgcatg atccgccact caagagacaa gaaaaatgaa 1050
cccagtcctc agaggtttga ccgaattgca cacacaaagg agacaatgct 1100
ctctgatggt ttgaactcac tcacctacca ggtgctggat gtacagagat 1150
acccattgta tacccaaatc acagtggaca tcgggacacc gagctag 1197
<210> 7
<211> 398
<212> БЕЛОК
<213> Homo sapien
<220>
<223> последовательность B4GALT1 дикого типа
<400> 7
Met Arg Leu Arg Glu Pro Leu Leu Ser Gly Ser Ala Ala Met Pro Gly
1 5 10 15
Ala Ser Leu Gln Arg Ala Cys Arg Leu Leu Val Ala Val Cys Ala Leu
20 25 30
His Leu Gly Val Thr Leu Val Tyr Tyr Leu Ala Gly Arg Asp Leu Ser
35 40 45
Arg Leu Pro Gln Leu Val Gly Val Ser Thr Pro Leu Gln Gly Gly Ser
50 55 60
Asn Ser Ala Ala Ala Ile Gly Gln Ser Ser Gly Glu Leu Arg Thr Gly
65 70 75 80
Gly Ala Arg Pro Pro Pro Pro Leu Gly Ala Ser Ser Gln Pro Arg Pro
85 90 95
Gly Gly Asp Ser Ser Pro Val Val Asp Ser Gly Pro Gly Pro Ala Ser
100 105 110
Asn Leu Thr Ser Val Pro Val Pro His Thr Thr Ala Leu Ser Leu Pro
115 120 125
Ala Cys Pro Glu Glu Ser Pro Leu Leu Val Gly Pro Met Leu Ile Glu
130 135 140
Phe Asn Met Pro Val Asp Leu Glu Leu Val Ala Lys Gln Asn Pro Asn
145 150 155 160
Val Lys Met Gly Gly Arg Tyr Ala Pro Arg Asp Cys Val Ser Pro His
165 170 175
Lys Val Ala Ile Ile Ile Pro Phe Arg Asn Arg Gln Glu His Leu Lys
180 185 190
Tyr Trp Leu Tyr Tyr Leu His Pro Val Leu Gln Arg Gln Gln Leu Asp
195 200 205
Tyr Gly Ile Tyr Val Ile Asn Gln Ala Gly Asp Thr Ile Phe Asn Arg
210 215 220
Ala Lys Leu Leu Asn Val Gly Phe Gln Glu Ala Leu Lys Asp Tyr Asp
225 230 235 240
Tyr Thr Cys Phe Val Phe Ser Asp Val Asp Leu Ile Pro Met Asn Asp
245 250 255
His Asn Ala Tyr Arg Cys Phe Ser Gln Pro Arg His Ile Ser Val Ala
260 265 270
Met Asp Lys Phe Gly Phe Ser Leu Pro Tyr Val Gln Tyr Phe Gly Gly
275 280 285
Val Ser Ala Leu Ser Lys Gln Gln Phe Leu Thr Ile Asn Gly Phe Pro
290 295 300
Asn Asn Tyr Trp Gly Trp Gly Gly Glu Asp Asp Asp Ile Phe Asn Arg
305 310 315 320
Leu Val Phe Arg Gly Met Ser Ile Ser Arg Pro Asn Ala Val Val Gly
325 330 335
Arg Cys Arg Met Ile Arg His Ser Arg Asp Lys Lys Asn Glu Pro Asn
340 345 350
Pro Gln Arg Phe Asp Arg Ile Ala His Thr Lys Glu Thr Met Leu Ser
355 360 365
Asp Gly Leu Asn Ser Leu Thr Tyr Gln Val Leu Asp Val Gln Arg Tyr
370 375 380
Pro Leu Tyr Thr Gln Ile Thr Val Asp Ile Gly Thr Pro Ser
385 390 395
<210> 8
<211> 398
<212> БЕЛОК
<213> Homo sapien
<220>
<223> последовательность варианта B4GALT1
<400> 8
Met Arg Leu Arg Glu Pro Leu Leu Ser Gly Ser Ala Ala Met Pro Gly
1 5 10 15
Ala Ser Leu Gln Arg Ala Cys Arg Leu Leu Val Ala Val Cys Ala Leu
20 25 30
His Leu Gly Val Thr Leu Val Tyr Tyr Leu Ala Gly Arg Asp Leu Ser
35 40 45
Arg Leu Pro Gln Leu Val Gly Val Ser Thr Pro Leu Gln Gly Gly Ser
50 55 60
Asn Ser Ala Ala Ala Ile Gly Gln Ser Ser Gly Glu Leu Arg Thr Gly
65 70 75 80
Gly Ala Arg Pro Pro Pro Pro Leu Gly Ala Ser Ser Gln Pro Arg Pro
85 90 95
Gly Gly Asp Ser Ser Pro Val Val Asp Ser Gly Pro Gly Pro Ala Ser
100 105 110
Asn Leu Thr Ser Val Pro Val Pro His Thr Thr Ala Leu Ser Leu Pro
115 120 125
Ala Cys Pro Glu Glu Ser Pro Leu Leu Val Gly Pro Met Leu Ile Glu
130 135 140
Phe Asn Met Pro Val Asp Leu Glu Leu Val Ala Lys Gln Asn Pro Asn
145 150 155 160
Val Lys Met Gly Gly Arg Tyr Ala Pro Arg Asp Cys Val Ser Pro His
165 170 175
Lys Val Ala Ile Ile Ile Pro Phe Arg Asn Arg Gln Glu His Leu Lys
180 185 190
Tyr Trp Leu Tyr Tyr Leu His Pro Val Leu Gln Arg Gln Gln Leu Asp
195 200 205
Tyr Gly Ile Tyr Val Ile Asn Gln Ala Gly Asp Thr Ile Phe Asn Arg
210 215 220
Ala Lys Leu Leu Asn Val Gly Phe Gln Glu Ala Leu Lys Asp Tyr Asp
225 230 235 240
Tyr Thr Cys Phe Val Phe Ser Asp Val Asp Leu Ile Pro Met Asn Asp
245 250 255
His Asn Ala Tyr Arg Cys Phe Ser Gln Pro Arg His Ile Ser Val Ala
260 265 270
Met Asp Lys Phe Gly Phe Ser Leu Pro Tyr Val Gln Tyr Phe Gly Gly
275 280 285
Val Ser Ala Leu Ser Lys Gln Gln Phe Leu Thr Ile Asn Gly Phe Pro
290 295 300
Asn Asn Tyr Trp Gly Trp Gly Gly Glu Asp Asp Asp Ile Phe Asn Arg
305 310 315 320
Leu Val Phe Arg Gly Met Ser Ile Ser Arg Pro Asn Ala Val Val Gly
325 330 335
Arg Cys Arg Met Ile Arg His Ser Arg Asp Lys Lys Asn Glu Pro Ser
340 345 350
Pro Gln Arg Phe Asp Arg Ile Ala His Thr Lys Glu Thr Met Leu Ser
355 360 365
Asp Gly Leu Asn Ser Leu Thr Tyr Gln Val Leu Asp Val Gln Arg Tyr
370 375 380
Pro Leu Tyr Thr Gln Ile Thr Val Asp Ile Gly Thr Pro Ser
385 390 395
<210> 9
<211> 20
<212> ДНК
<213> Искусственная Последовательность
<220>
<223> последовательности распознавания направляющей РНК
<400> 9
attagttttt agaggcatgt 20
<210> 10
<211> 20
<212> ДНК
<213> Искусственная Последовательность
<220>
<223> последовательности распознавания направляющей РНК
<400> 10
ggctctcagg ccaagtgtat 20
<210> 11
<211> 20
<212> ДНК
<213> Искусственная Последовательность
<220>
<223> последовательности распознавания направляющей РНК
<400> 11
tactccttcc ccctttagga 20
<210> 12
<211> 20
<212> ДНК
<213> Искусственная Последовательность
<220>
<223> последовательности распознавания направляющей РНК
<400> 12
gtccgaggct ctgggcctag 20
<210> 13
<211> 6
<212> ДНК
<213> Искусственная Последовательность
<220>
<223> PAM для Cas9 из S. aureus
<220>
<221> n представляет собой A, G, C, или T
<222> (1) .. (2)
<220>
<221> r представляет собой A или G
<222> (4) .. (5)
<400> 13
nngrrt 6
<210> 14
<211> 5
<212> ДНК
<213> Искусственная Последовательность
<220>
<223> PAM для Cas9 из S. aureus
<220>
<221> n представляет собой A, G, C, или T
<222> (1) .. (2)
<220>
<221> r представляет собой A или G
<222> (4) .. (5)
<400> 14
nngrr 5
<210> 15
<211> 23
<212> ДНК
<213> Искусственная Последовательность
<220>
<223> целевой мотив предшествующий NGG узнаваемый белком Cas9
<220>
<221> n представляет собой A, G, C, или T
<222> (2) .. (21)
<400> 15
gnnnnnnnnn nnnnnnnnnn ngg 23
<210> 16
<211> 23
<212> ДНК
<213> Искусственная Последовательность
<220>
<223> целевой мотив предшествующий NGG узнаваемый белком Cas9
<220>
<221> n представляет собой A, G, C, или T
<222> (1) .. (21)
<400> 16
nnnnnnnnnn nnnnnnnnnn ngg 23
<210> 17
<211> 25
<212> ДНК
<213> Искусственная Последовательность
<220>
<223> последовательность распознавания РНК
<220>
<221> n представляет собой A, G, C, или T
<222> (3) .. (23)
<400> 17
ggnnnnnnnn nnnnnnnnnn nnngg 25
<---
Изобретение относится к области биотехнологии, а именно к выделенному полипептиду варианта B4GALT1, содержащему серин, соответствующий положению 352, слитому белку, его содержащему, а также к выделенной молекуле нуклеиновой кислоты, его кодирующей. Также раскрыт способ модификации клетки, предусматривающий использование вышеуказанной молекулы нуклеиновой кислоты, а также способ обнаружения варианта молекулы нуклеиновой кислоты B4GALT1, кодирующей серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1. Изобретение эффективно для определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания у субъекта, а также для лечения субъекта, который не является носителем варианта B4GALT1 и имеет или подвержен развитию сердечно-сосудистого заболевания у субъекта. 19 н. и 17 з.п. ф-лы, 20 ил., 5 табл., 11 пр.
1. Выделенная молекула нуклеиновой кислоты, кодирующая полипептид варианта бета-1,4-галактозилтрансферазы 1 (B4GALT1), содержащая последовательность нуклеиновой кислоты, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичную SEQ ID NO: 1, при условии, что указанная последовательность нуклеиновой кислоты содержит кодон, соответствующий положениям 53575-53577 SEQ ID NO: 1, который кодирует серин, или его комплемент.
2. Выделенная молекула нуклеиновой кислоты по п. 1, где указанная последовательность нуклеиновой кислоты содержит нуклеотиды, соответствующие положениям с 53575 по 53577 SEQ ID NO: 2.
3. Выделенная молекула нуклеиновой кислоты по п. 1 или 2, где указанная последовательность нуклеиновой кислоты по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или, по меньшей мере на около 99% идентична части SEQ ID NO:2, содержащей экзоны с 1 по 6 гена B4GALT1.
4. Выделенная молекула нуклеиновой кислоты по п. 1 или 2, где указанная последовательность нуклеиновой кислоты включает SEQ ID NO: 2.
5. Выделенная молекула нуклеиновой кислоты, кодирующая полипептид варианта B4GALT1, содержащая последовательность нуклеиновой кислоты, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или, по меньшей мере на около 99%, идентичную SEQ ID NO: 4, при условии, что указанная последовательность нуклеиновой кислоты содержит кодон, кодирующий серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1, или его комплемент.
6. Выделенная молекула нуклеиновой кислоты по п. 5, где указанная последовательность нуклеиновой кислоты по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или, по меньшей мере на около 99% идентична части SEQ ID NO: 4, содержащей экзоны с 1 по 6 гена B4GALT1.
7. Выделенная молекула нуклеиновой кислоты по п. 5 или 6, где указанная последовательность нуклеиновой кислоты содержит SEQ ID NO: 4.
8. Выделенная молекула нуклеиновой кислоты, кодирующая полипептид варианта B4GALT1, содержащая последовательность нуклеиновой кислоты, кодирующую полипептид, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичный SEQ ID NO: 8, при условии, что полипептид содержит серин в положении 352, или ее комплемент.
9. Выделенная молекула нуклеиновой кислоты по п. 8, где указанная последовательность нуклеиновой кислоты кодирует полипептидную последовательность SEQ ID NO: 8.
10. кДНК, кодирующая белок бета-1,4-галактозилтрансферазы 1 человека (B4GALT1), содержащий последовательность нуклеиновой кислоты, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичную SEQ ID NO: 6, при условии, что указанная последовательность нуклеиновой кислоты кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1, или ее комплемент.
11. кДНК по п. 10, где указанная последовательность нуклеиновой кислоты содержит SEQ ID NO: 6.
12. Выделенный полипептид варианта B4GALT1 для диагностики риска развития сердечно-сосудистых заболеваний у пациента, содержащий аминокислотную последовательность, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичную полипептиду варианта B4GALT1, содержащему SEQ ID NO: 8, при условии, что указанный полипептид содержит серин, соответствующий положению 352 SEQ ID NO: 8, где полипептид связан с пониженными уровнями холестерина липопротеинов низкой плотности (ЛПНП), общего холестерина или фибриногена и eGFR или повышенным уровнем аспартаттрансаминазы (AST).
13. Выделенный полипептид варианта B4GALT1 для определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания, содержащий аминокислотную последовательность, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичную полипептиду варианта B4GALT1, содержащему SEQ ID NO: 8, при условии, что указанный полипептид содержит серин, соответствующий положению 352 SEQ ID NO: 8, где полипептид связан с пониженными уровнями холестерина липопротеинов низкой плотности (ЛПНП), общего холестерина или фибриногена и eGFR или повышенным уровнем аспартаттрансаминазы (AST).
14. Полипептид по п. 12 или 13, где указанный вариантный полипептид B4GALT1 содержит SEQ ID NO: 8.
15. Выделенный слитый полипептид варианта B4GALT1 для диагностики риска развития сердечно-сосудистых заболеваний у пациента, содержащий аминокислотную последовательность, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичную полипептиду варианта B4GALT1, содержащему SEQ ID NO: 8, при условии, что указанный полипептид содержит серин, соответствующий положению 352 SEQ ID NO: 8, где полипептид варианта связан с гетерологичным полипептидом или содержит гетерологичную метку.
16. Выделенный слитый полипептид варианта B4GALT1 для определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания, содержащий аминокислотную последовательность, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичную полипептиду варианта B4GALT1, содержащему SEQ ID NO: 8, при условии, что указанный полипептид содержит серин, соответствующий положению 352 SEQ ID NO: 8, где полипептид варианта связан с гетерологичным полипептидом или содержит гетерологичную метку.
17. Полипептид по п. 15 или 16, где указанный гетерологичный полипептид содержит Fc-домен иммуноглобулина, пептидный тэг, флуоресцентный белок или домен трансдукции.
18. Способ обнаружения варианта молекулы нуклеиновой кислоты B4GALT1, кодирующей серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1, у субъекта-человека, включающий анализ образца, полученного от субъекта, для определения того, содержит ли молекула нуклеиновой кислоты в образце последовательность нуклеиновой кислоты, которая кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1.
19. Способ по п. 18, где указанный анализ включает:
секвенирование части молекулы нуклеиновой кислоты геномной последовательности B4GALT1 в образце, при этом секвенированная часть включает в себя положения, соответствующие положениям с 53575 по 53577 SEQ ID NO: 2;
секвенирование части молекулы нуклеиновой кислоты последовательности мРНК B4GALT1 в образце, при этом секвенированная часть включает положения, соответствующие положениям с 1243 по 1245 SEQ ID NO: 4; или же
секвенирование части молекулы нуклеиновой кислоты последовательности кДНК B4GALT1 в образце, при этом секвенированная часть включает положения, соответствующие положениям с 1054 по 1056 SEQ ID NO: 6.
20. Способ по п. 18, где указанный анализ включает:
а) приведение образца в контакт с праймером, гибридизующимся с: i) частью геномной последовательности B4GALT1, которая находится вблизи положения геномной последовательности B4GALT1, соответствующего положениям с 53575 по 53577 SEQ ID NO: 2; ii) частью последовательности мРНК B4GALT1, которая находится вблизи положения мРНК B4GALT1, соответствующего положениям с 1243 по 1245 SEQ ID NO: 4; или iii) частью последовательности кДНК B4GALT1, которая находится вблизи положения кДНК B4GALT1, соответствующего положениям 1054-1056 SEQ ID NO: 6;
b) удлинение праймера, по меньшей мере, далее: i) положения геномной последовательности B4GALT1, соответствующего положениям с 53575 по 53577; ii) положения мРНК B4GALT1, соответствующего положениям с 1243 по 1245; или iii) положения кДНК B4GALT1, соответствующего положениям с 1054 по 1056; а также
c) определение того, содержит ли продукт удлинения праймера нуклеотиды в положениях: i) соответствующих положениям с 53575 по 53577 геномной последовательности B4GALT1; ii) соответствующие положениям 1243-1245 мРНК B4GALT1; или iii) соответствующие положениям с 1054 по 1056 кДНК B4GALT1; которые кодируют серин в положении 352 SEQ ID NO: 8.
21. Способ по п. 18, где указанный анализ включает контакт образца с праймером или зондом, который специфически гибридизуется с геномной последовательностью, последовательностью мРНК или последовательностью кДНК варианта B4GALT1, а не с соответствующей последовательностью дикого типа B4GALT1 в строгих условиях гибридизации и определение того, произошла ли гибридизация.
22. Способ обнаружения присутствия Asn352Ser B4GALT1 у человека, включающий выполнение анализа образца, полученного от человека, для определения того, содержит ли белок B4GALT1 в образце остаток серина в положении 352.
23. Способ определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания у субъекта, где сердечно-сосудистое заболевание включает повышенный холестерин липопротеинов низкой плотности (ЛПНП), повышенный общий холестерин, повышенный фибриноген, повышенную расчетную скорость клубочковой фильтрации (eGFR) или пониженную аспартаттрансаминазу (AST), при этом указанный способ включает:
а) анализ образца, полученного от субъекта, для определения того, содержит ли молекула нуклеиновой кислоты в образце последовательность нуклеиновой кислоты, которая кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1; а также
b) классификация субъекта-человека, как подверженного пониженному риску развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты содержит последовательность нуклеиновой кислоты, которая кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1, или классификацию субъекта-человека, как подверженного повышенному риску развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты не содержит последовательность нуклеиновой кислоты, которая кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1.
24. Способ по п. 23, где указанный анализ включает:
секвенирование части молекулы нуклеиновой кислоты геномной последовательности B4GALT1 в образце, при этом секвенированная часть включает в себя положения, соответствующие положениям с 53575 по 53577 SEQ ID NO: 2;
секвенирование части молекулы нуклеиновой кислоты последовательности мРНК B4GALT1 в образце, при этом секвенированная часть включает положения, соответствующие положениям с 1243 по 1245 SEQ ID NO: 4; или
секвенирование части молекулы нуклеиновой кислоты последовательности кДНК B4GALT1 в образце, при этом секвенированная часть включает положения, соответствующие положениям с 1054 по 1056 последовательности SEQ ID NO: 6.
25. Способ по п. 23, где указанный анализ включает:
а) приведение образца в контакт с праймером, гибридизующимся с: i) частью геномной последовательности B4GALT1, которая находится вблизи положения геномной последовательности B4GALT1, соответствующего положениям с 53575 по 53577 SEQ ID NO: 2; ii) частью последовательности мРНК B4GALT1, которая находится вблизи положения мРНК B4GALT1, соответствующего положениям с 1243 по 1245 SEQ ID NO: 4; или iii) частью последовательности кДНК B4GALT1, которая находится вблизи положения кДНК B4GALT1, соответствующего положениям 1054-1056 SEQ ID NO: 6;
b) удлинение праймера, по меньшей мере, далее: i) положения геномной последовательности B4GALT1, соответствующего положениям с 53575 по 53577; ii) положения мРНК B4GALT1, соответствующего положениям с 1243 по 1245; или iii) положения кДНК B4GALT1, соответствующего положениям с 1054 по 1056; а также
c) определение того, содержит ли продукт удлинения праймера нуклеотиды в положениях: i) соответствующих положениям с 53575 по 53577 геномной последовательности B4GALT1; ii) соответствующих положениям 1243-1245 мРНК B4GALT1; или iii) соответствующих положениям с 1054 по 1056 кДНК B4GALT1; которые кодируют серин в положении 352 SEQ ID NO: 8.
26. Способ по п. 23, где указанный анализ включает контакт образца с праймером или зондом, который специфически гибридизуется с геномной последовательностью, последовательностью мРНК или последовательностью кДНК варианта B4GALT1, а не с соответствующей последовательностью B4GALT1 дикого типа в строгих условиях гибридизации и определение того, произошла ли гибридизация.
27. Способ определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания у субъекта, где сердечно-сосудистое заболевание включает повышенный холестерин липопротеинов низкой плотности (ЛПНП), повышенный общий холестерин, повышенный фибриноген, повышенную расчетную скорость клубочковой фильтрации (eGFR) или пониженную аспартаттрансаминазу (AST), при этом указанный способ включает:
а) проведение анализа образца, полученного от субъекта-человека, для определения того, содержит ли белок B4GALT1 в образце остаток серина в положении 352; а также
b) классификация субъекта-человека как подверженного пониженному риску развития сердечно-сосудистого заболевания, если полипептид B4GALT1 содержит серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1, или классификацию субъекта-человека как подверженного повышенному риску развития сердечно-сосудистого заболевания, если полипептид B4GALT1 не содержит серина в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1.
28. Способ модификации клетки, включающий введение вектора экспрессии в клетку, при этом указанный вектор экспрессии содержит рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность, кодирующую серин, вставленный в положения, соответствующие положениям с 53575 по 53577 SEQ ID NO: 2.
29. Способ по п. 28, где указанный рекомбинантный ген B4GALT1 представляет собой миниген B4GALT1, в котором один или более несущественных сегментов гена были удалены по отношению к соответствующему гену B4GALT1 дикого типа.
30. Способ модификации клетки, включающий введение вектора экспрессии в клетку, при этом вектор экспрессии содержит молекулу нуклеиновой кислоты, кодирующую полипептид B4GALT1, который по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичен SEQ ID NO: 8 и содержит серин в положении 352, соответствующем SEQ ID NO: 8.
31. Способ модификации клетки, включающий введение полипептида B4GALT1 или его фрагмента в клетку, при этом полипептид B4GALT1 по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичен SEQ ID NO: 8 и содержит серин в положении 352, соответствующем SEQ ID NO: 8, где полипептид связан с пониженными уровнями холестерина липопротеинов низкой плотности (ЛПНП), общего холестерина или фибриногена и eGFR или повышенным уровнем аспартаттрансаминазы (AST).
32. Способ лечения субъекта, который не является носителем варианта B4GALT1 и имеет или подвержен риску развития сердечно-сосудистого заболевания у субъекта, где сердечно-сосудистое заболевание включает повышенный холестерин липопротеинов низкой плотности (ЛПНП), повышенный общий холестерин, повышенный фибриноген, повышенную расчетную скорость клубочковой фильтрации (eGFR) или пониженную аспартаттрансаминазу (AST), при этом указанный способ включает введение вектора экспрессии субъекту, при этом вектор экспрессии содержит рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность, кодирующую серин в положениях, соответствующих положениям с 53575 по 53577 SEQ ID NO: 2, при этом указанный вектор экспрессии экспрессирует рекомбинантный ген B4GALT1 в клетке субъекта.
33. Способ по п. 32, где указанный рекомбинантный ген B4GALT1 по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичен SEQ ID NO: 2.
34. Способ лечения субъекта, который не является носителем варианта B4GALT1 и имеет или подвержен развитию сердечно-сосудистого заболевания у субъекта, где сердечно-сосудистое заболевание включает повышенный холестерин липопротеинов низкой плотности (ЛПНП), повышенный общий холестерин, повышенный фибриноген, повышенную расчетную скорость клубочковой фильтрации (eGFR) или пониженную аспартаттрансаминазу (AST), при этом указанный способ включает введение вектора экспрессии указанному субъекту, при этом указанный вектор экспрессии содержит нуклеиновую кислоту, кодирующую полипептид B4GALT1, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичную SEQ ID NO: 8, при этом указанный вектор экспрессии экспрессирует нуклеиновую кислоту, кодирующую полипептид B4GALT1 в клетке у субъекта.
35. Способ лечения субъекта, который не является носителем варианта B4GALT1 и имеет или подвержен риску развития сердечно-сосудистого заболевания у субъекта, где сердечно-сосудистое заболевание включает повышенный холестерин липопротеинов низкой плотности (ЛПНП), повышенный общий холестерин, повышенный фибриноген, повышенную расчетную скорость клубочковой фильтрации (eGFR) или пониженную аспартаттрансаминазу (AST), при этом указанный способ включает введение мРНК субъекту, при этом мРНК кодирует полипептид B4GALT1, который по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере, на около 99% идентичен SEQ ID NO:8, при этом указанная мРНК экспрессирует полипептид B4GALT1 в клетке субъекта.
36. Способ лечения субъекта, который не является носителем варианта B4GALT1 и имеет или подвержен развитию сердечно-сосудистого заболевания у субъекта, где сердечно-сосудистое заболевание включает повышенный холестерин липопротеинов низкой плотности (ЛПНП), повышенный общий холестерин, повышенный фибриноген, повышенную расчетную скорость клубочковой фильтрации (eGFR) или пониженную аспартаттрансаминазу (AST), при этом указанный способ включает введение белка Asn352Ser B4GALT1 или его фрагмента субъекту, при этом указанный полипептид B4GALT1 по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичен SEQ ID NO: 8, при условии, что полипептид содержит серин, соответствующий позиции 352 SEQ ID NO: 8.
ROBERT E | |||
HUMPHREYS et al., Isolation and immunologic characterization of a human | |||
B-lymphocyte-specific, cell surface antigen, J Exp Med, 1976, 144(1), pp.98-112 | |||
Плунжерный насос | 1924 |
|
SU1497A1 |
WO 2009025645 A1, 26.02.2009 | |||
СПОСОБ ЛЕЧЕНИЯ КОРОНАРНОЙ НЕДОСТАТОЧНОСТИ ПРИ МОДЕЛИРУЕМОЙ ИШЕМИИ МИОКАРДА | 2010 |
|
RU2444378C1 |
Авторы
Даты
2023-10-19—Публикация
2018-06-04—Подача