ВАРИАНТЫ B4GALT1 И ИХ ПРИМЕНЕНИЕ Российский патент 2023 года по МПК C12N9/10 C12N15/86 

Описание патента на изобретение RU2805557C2

Ссылка на правительственные гранты

Данное раскрытие было сделано при государственной поддержке по гранту HL121007, присужденному Национальными институтами здравоохранения (NIH - National Institutes of Health). Правительство имеет определенные права на данное изобретение.

Ссылка на Перечень последовательностей

Данная заявка включает в себя перечень последовательностей, представленный в электронном виде в виде текстового файла с именем 18923800202SEQ, созданного 4 июня 2018 года, размером 161 КБ. Перечень последовательностей включен в данный документ посредством ссылки.

Область техники

Данное раскрытие предоставляет молекулы нуклеиновой кислоты генома, мРНК, кДНК и полипептиды варианта B4GALT1, способы обнаружения присутствия этих молекул, способы модуляции эндогенных молекул нуклеиновой кислоты генома, мРНК, кДНК и полипептидов B4GALT1, методы определения риска развития сердечно-сосудистых заболеваний путем выявления наличия или отсутствия молекулы нуклеиновой кислоты генома, мРНК, кДНК и полипептидов варианта B4GALT1, а также методы лечения сердечно-сосудистых заболеваний.

Уровень техники

Различные публикации, включая патенты, опубликованные заявки, регистрационные номера, технические статьи и научные статьи, цитируются в описании. Каждая цитируемая публикация включена в данный документ посредством ссылки во всей ее полноте и для любых целей.

Бета-1,4-галактозилтрансфераза 1 (B4GALT1) является членом семейства генов бета-1,4-галактозилтрансферазы, которые кодируют мембранные гликопротеины типа II, которые играют роль в биосинтезе различных гликоконъюгатов и сахаридных структур. Фермент, кодируемый B4GALT1, играет критическую роль в процессировании N-связанных олигосахаридных фрагментов в гликопротеинах, а связанные с белком сахарные цепи часто модулируют биологические функции гликопротеина. Таким образом, нарушение активности B4GALT1 может изменить структуру всех гликопротеинов, содержащих N-связанные олигосахариды. Длинная форма фермента B4GALT1 локализована в транс-Гольджи, где он переносит остатки галактозила в остатки N-ацетилглюкозамина в ходе биосинтетической обработки гликанов с высоким содержанием маннозы в N-связанные олигосахариды сложного типа. Поскольку добавление галактозильных остатков является необходимым условием для добавления сиаловых кислот, дефект в B4GALT1 оказывает непрямой эффект блокирования добавления остатков сиаловой кислоты и, следовательно, может изменять период полураспада гликопротеинов плазмы. Сообщалось, что дефекты гликозилирования нарушают внутриклеточный перенос различных гликопротеинов, включая рецептор ЛПНП (ЛПНП - low density lipoproteins). Кроме того, структурные аномалии в N-связанных олигосахаридах могут изменять фолдинг (сворачивание) белков, что, в свою очередь, может изменять функцию гликопротеинов и их секрецию. Большой процент белков содержит N-связанное гликозилирование, включая рецепторы клеточной поверхности (например, рецепторы ЛПНП и рецепторы инсулина), а также различные циркулирующие белки плазмы (например, аполипопротеин B и фибриноген). Были сообщения о пациентах с генетическим заболеванием из-за гомозиготности по мутациям укорочения белков в гене B4GALT1. У одного такого пациента был тяжелый фенотип, характеризующийся а) тяжелыми нарушениями развития нервной системы (включая гидроцефалию), b) миопатией и c) нарушениями свертываемости крови. Как и предполагалось, в олигосахаридах, полученных из циркулирующего трансферрина, отсутствуют остатки галактозы и сиаловой кислоты. Два дополнительных пациента с таким же генетическим дефектом имели более мягкий фенотип, характеризующийся нарушениями свертывания крови, гепатопатией и дисморфизмом.

Сердечно-сосудистые заболевания являются основной причиной смерти в Соединенных Штатах и других западных странах. Основные факторы риска развития атеротромботических сердечно-сосудистых заболеваний, таких как инсульт и инфаркт миокарда, включают повышенный уровень холестерина в крови и склонность к тромбозам. Многие белки, которые участвуют в метаболизме и коагуляции липидов, гликозилированы и, таким образом, подвергаются модуляции с помощью B4GALT1. Знание генетических факторов, лежащих в основе развития и прогрессирования сердечно-сосудистых заболеваний, может улучшить стратификацию риска и обеспечить основу для новых терапевтических стратегий.

Краткое изложение сущности изобретения

Данное раскрытие относится к молекулам нуклеиновой кислоты, содержащим последовательность нуклеиновой кислоты, по меньшей мере, на около 90% идентичную геномной последовательности варианта B4GALT1 (которая содержит ОНП, обозначенный rs551564683), при условии, что последовательность нуклеиновой кислоты также содержит нуклеотиды, которые кодируют серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1.

Данное раскрытие также относится к молекулам нуклеиновой кислоты, содержащим последовательность нуклеиновой кислоты, по меньшей мере, на около 90% идентичную последовательности мРНК варианта B4GALT1 (которая содержит ОНП, обозначенный rs551564683), при условии, что последовательность нуклеиновой кислоты также кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1.

Данное раскрытие относится к молекулам кДНК, кодирующим полипептид B4GALT1, содержащим последовательность нуклеиновой кислоты, по меньшей мере, на около 90% идентичную последовательности кДНК варианта B4GALT1 (которая содержит ОНП, обозначенный rs551564683), при условии, что последовательность нуклеиновой кислоты также кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1.

Данное раскрытие также предоставляет векторы или экзогенные донорные последовательности, содержащие любую одну или более из этих молекул нуклеиновой кислоты.

Данное раскрытие также относится к выделенным полипептидам, содержащим аминокислотную последовательность, по меньшей мере, на около 90% идентичную полипептиду B4GALT1, имеющему серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1.

Данное раскрытие также относится к клеткам-хозяевам, содержащим любую одну из этих молекул нуклеиновой кислоты, функционально связанных с гетерологичным промотором, активным в клетке-хозяине.

Данное раскрытие также обеспечивает способы получения полипептида B4GALT1 путем культивирования клетки-хозяина, содержащей молекулу нуклеиновой кислоты, кодирующей полипептид B4GALT1, при этом указанная молекула нуклеиновой кислоты функционально связана с гетерологичным промотором, активным в клетке-хозяине, посредством чего указанная молекула нуклеиновой кислоты экспрессируется, и выделения изолированного полипептида.

Данное раскрытие также обеспечивает композиции, содержащие эти молекулы нуклеиновой кислоты или полипептиды и носитель для повышения их стабильности.

Данное раскрытие также обеспечивает способы обнаружения наличия или отсутствия молекулы нуклеиновой кислоты варианта B4GALT1 варианта (который содержит ОНП, обозначенный rs551564683) у человека, включающий выполнение анализа биологического образца от человека, который определяет содержит ли молекула нуклеиновой кислоты в биологическом образце последовательность нуклеиновой кислоты, которая кодирует вариантный полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1.

Данное раскрытие также предоставляет способы обнаружения присутствия варианта полипептида B4GALT1, имеющего серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1 у человека, включающий проведение анализа на биологическом образце от человека, который определяет наличие варианта полипептида B4GALT1.

Данное раскрытие также предоставляет способы определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания, включающие: a) проведение анализа биологического образца от субъекта-человека, который определяет, содержит ли молекула нуклеиновой кислоты в биологическом образце последовательность нуклеиновой кислоты, которая кодирует вариант полипептида B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1 ; и b) классификация субъекта-человека как подверженного пониженному риску развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты, содержащая последовательность нуклеиновой кислоты, которая кодирует вариант полипептида B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, обнаружена в биологическом образце или классифицирует человека, как имеющего повышенный риск развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты, содержащая последовательность нуклеиновой кислоты, которая кодирует вариант полипептида B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, не обнаружена в биологическом образце.

Данное раскрытие также предоставляет способы определения восприимчивости человека к развитию сердечно-сосудистого заболевания, включающие: a) проведение анализа биологического образца от человека, который определяет, содержит ли полипептид B4GALT1 в биологическом образце серин в позиции, соответствующей позиции 352; и b) классификацию субъекта-человека, как имеющего пониженный риск развития сердечно-сосудистого заболевания, если в биологическом образце обнаружен полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, или классификация субъекта-человека, как имеющего повышенный риск развития сердечно-сосудистого заболевания, если в биологическом образце не обнаружен полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1.

Данное раскрытие также обеспечивает направляющие молекулы РНК, эффективные для направления фермента Cas для связывания или расщепления эндогенного B4GALT1, причем направляющая РНК содержит нацеленный на ДНК сегмент, который гибридизуется с последовательностью, распознаваемой направляющей РНК, в последовательности эндогенного гена B4GALT1, которая включает в себя или является ближайшей (например, в пределах определенного числа нуклеотидов, таких как обсуждено ниже) к положению, соответствующему положениям с 53575 по 53577 гена B4GALT1 дикого типа.

Данное раскрытие также предоставляет способы модификации эндогенного гена B4GALT1 в клетке, включающие приведение генома клетки в контакт с: а) белком Cas; и b) направляющей РНК, которая образует комплекс с белком Cas и гибридизуется с последовательностью, распознаваемой направляющей РНК, в эндогенном гене B4GALT1, при этом последовательность, распознаваемая направляющей РНК, включает или находится близко от (например, в пределах определенного числа нуклеотидов, такого как обсуждается ниже) в положении, соответствующем положениям 53575-53577 гена B4GALT1 дикого типа, при этом белок Cas расщепляет эндогенный ген B4GALT1.

Данное раскрытие также предоставляет способы модификации эндогенного гена B4GALT1 в клетке, включающие приведение генома клетки в контакт с: а) белком Cas; и b) первой направляющей РНК, которая образует комплекс с белком Cas и гибридизуется с последовательностью распознаваемой первой направляющей РНК в эндогенном гене B4GALT1, при этом последовательность, распознаваемая первой направляющей РНК, включает старт-кодон гена B4GALT1 или находится в пределах 1000 нуклеотидов от старт-кодона, при этом белок Cas расщепляет или изменяет экспрессию эндогенного гена B4GALT1.

Данное раскрытие также предоставляет способы модификации клетки, включающие введение вектора экспрессии в клетку, причем вектор экспрессии содержит рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность, кодирующую полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1.

Данное раскрытие также предоставляет способы модификации клетки, включающие введение вектора экспрессии в клетку, при этом вектор экспрессии содержит молекулу нуклеиновой кислоты, кодирующую полипептид, который, по меньшей мере, на около 90% идентичен полипептиду B4GALT1, имеющему серин в положение, соответствующему положению 352 в полноразмерном/зрелом полипептиде B4GALT1, при этом полипептид также содержит серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1.

Данное раскрытие также предоставляет способы модификации клетки, включающие введение полипептида или его фрагмента в клетку, при этом полипептид, по меньшей мере, на 90% идентичен полипептиду B4GALT1, имеющему серин, в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1 и при этом полипептид также содержит серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1.

Данное раскрытие также предоставляет способы лечения субъекта, который не является носителем молекулы полипептида или нуклеиновой кислоты варианта B4GALT1 (который содержит ОНП, обозначенный rs551564683) и который имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту: а) белка Cas или нуклеиновой кислоты, кодирующей белок Cas; b) направляющей РНК или нуклеиновой кислоты, кодирующей направляющую РНК, при этом направляющая РНК образует комплекс с белком Cas и гибридизуется с последовательностью, распознаваемой направляющей РНК, в эндогенном гене B4GALT1, при этом последовательность, распознаваемая направляющей РНК, включает или находится близко к положению, соответствующему положениям 53575-53577 гена B4GALT1 дикого типа; и c) экзогенную донорную последовательность, содержащую 5' гомологичный конец, который гибридизуется с 5' последовательностью-мишенью в положениях, соответствующих положениям 53575-53577 гена B4GALT1 дикого типа, 3' гомологичный конец, который гибридизуется с 3' последовательностью-мишенью в положениях, соответствующих положениям 53575-53577 гена B4GALT1 дикого типа, и вставку нуклеиновой кислоты, содержащей нуклеотидную последовательность, кодирующую полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352, в полноразмерном/зрелом полипептиде B4GALT1, фланкированную 5'-плечом гомологии и 3'-плечом гомологии, при этом Cas расщепляет эндогенный ген B4GALT1 в клетке субъекта, а последовательность экзогенного донора рекомбинирует с эндогенным B4GALT1 геном в клетке, при этом при рекомбинации экзогенной донорной последовательности с эндогенным геном B4GALT1 серин вставляется в нуклеотиды, соответствующие положениям с 53575 по 53577 гена дикого типа B4GALT1.

Данное раскрытие также предоставляет способы лечения субъекта, который не является носителем молекулы полипептида или нуклеиновой кислоты варианта B4GALT1 (который содержит ОНП, обозначенный rs551564683) и который имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту: а) белка Cas или нуклеиновой кислоты, кодирующей белок Cas; b) первой направляющей РНК или нуклеиновой кислоты, кодирующей первую направляющую РНК, при этом первая направляющая РНК образует комплекс с белком Cas и гибридизуется с первой последовательностью, распознаваемой направляющей РНК, в эндогенном гене B4GALT1, при этом первая последовательность, распознаваемая направляющей РНК, содержит стартовый кодон для эндогенного гена B4GALT1 или находится в пределах около 1000 нуклеотидов от стартового кодона; и c) экспрессионный вектор, содержащий рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность, кодирующую полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, при этом Cas расщепляет или изменяет экспрессию эндогенного гена B4GALT1 в клетке у субъекта, а вектор экспрессии экспрессирует рекомбинантный ген B4GALT1 в клетке у субъекта.

Данное раскрытие также обеспечивает способы лечения субъекта, который не является носителем молекулы нуклеиновой кислоты или полипептида варианта B4GALT1 (который содержит ОНП, обозначенный rs551564683) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту антисмысловой ДНК, РНК, миРНК или кшРНК, которая гибридизуется с последовательностью внутри эндогенного гена B4GALT1 и снижает экспрессию полипептида B4GALT1 в клетке субъекта.

Данное раскрытие также обеспечивает способы лечения субъекта, который не является носителем молекулы полипептида или нуклеиновой кислоты варианта B4GALT1 (который содержит ОНП, обозначенный rs551564683) и имеет или подвержен развитию сердечно-сосудистых заболеваний, включающий введение вектора экспрессии субъекту, при этом вектор экспрессии содержит рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность, кодирующую полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, при этом вектор экспрессии экспрессирует рекомбинантный ген B4GALT1 в клетке субъекта.

Данное раскрытие также обеспечивает способы лечения субъекта, который не является носителем молекулы полипептида или нуклеиновой кислоты варианта B4GALT1 (который содержит ОНП, обозначенный rs551564683) и имеет или подвержен развитию сердечно-сосудистых заболеваний, включающий введение вектора экспрессии субъекту, при этом вектор экспрессии включает молекулу нуклеиновой кислоты, кодирующую полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, при этом вектор экспрессии экспрессирует нуклеиновую кислоту, кодирующую полипептид B4GALT1, в клетке у субъекта.

Данное раскрытие также предоставляет способы лечения субъекта, который не является носителем молекулы нуклеиновой кислоты или полипептида варианта B4GALT1 (который содержит ОНП, обозначенный rs551564683) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение мРНК субъекту, при этом мРНК кодирует полипептид B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, при этом мРНК экспрессирует полипептид B4GALT1 в клетке субъекта.

Данное раскрытие также предоставляет способы лечения субъекта, который не является носителем молекулы нуклеиновой кислоты или полипептида варианта B4GALT1 (который содержит ОНП, обозначенный rs551564683) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение полипептида B4GALT1, имеющего серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1 или его фрагмента субъекту.

В любом из способов, описанных или приведенных в качестве примера в данном документе, сердечно-сосудистое заболевание может содержать уровни одного или более сывороточных липидов, которые увеличивают атеросклеротический риск. Липиды сыворотки включают один или более из холестерина, ЛПНП (липопротеин низкой плотности - low density lipoprotein - LDL), ЛПВП (липопротеин высокой плотности - high density lipoprotein - HDL), триглицеридов, холестерина ЛПВП и холестерина не-ЛПВП или любой их субфракции (например, ЛПВП2, ЛПВП2a, ЛПВП2b, ЛПВП2c, ЛПВП3, ЛПВП3a, ЛПВП3b, ЛПВП3c, ЛПВП3d,ЛПНП1, ЛПНП2, ЛПНП3, липопротеин A, Lpa1, Lpa1, Lpa3, Lpa4 или Lpa5). Сердечно-сосудистое заболевание может включать повышенные уровни кальцификации коронарной артерии. Сердечно-сосудистое заболевание может характеризоваться повышенным уровнем перикардиального жира. Сердечно-сосудистое заболевание может включать атеротромботическое заболевание. Атеротромботическое заболевание может включать повышенные уровни фибриногена. Атеротромботическое заболевание может включать фибриноген-опосредованный сгусток крови. Сердечно-сосудистое заболевание может включать повышенные уровни фибриногена. Сердечно-сосудистое заболевание может содержать фибриноген-опосредованный сгусток крови. Сердечно-сосудистое заболевание может включать сгусток крови, образованный в результате активности фибриногена. Фибриноген-опосредованный сгусток крови или сгусток крови, образованный при участии активности фибриногена, может находиться в любой вене или артерии в организме.

Краткое описание графических материалов

На Фиг. 1 продемонстрированы результаты типичной полногеномной ассоциации варианта B4GALT1 с ЛПНП.

На Фиг. 2 продемонстрированы результаты типичной ассоциации TOPMed WGS варианта B4GALT1 с ЛПНП.

На Фиг. 3 продемонстрированы результаты типичной структуры гаплотипа основных ОНП (SNP), связанных с B4GALT1.

На Фиг. 4 продемонстрирована ассоциация варианта гена B4GALT1 с ЛПНП у амишей, идентифицированная секвенированием экзома.

На Фиг. 5 продемонстрировано, что частота варианта гена B4GALT1 более чем в 1000 раз выше у амишей.

На Фиг. 6 продемонстрирована ассоциация Asn352Ser B4GALT1 с пониженным содержанием липидов в сыворотке.

На Фиг. 7 продемонстрирована высокая степень ассоциации Asn352Ser B4GALT1 с уменьшением липидов в сыворотке и повышением АСТ.

На Фиг. 8 продемонстрирована ассоциация Asn352Ser B4GALT1 со всеми липидными субфракциями.

На Фиг. 9 продемонстрирована ассоциация Asn352Ser B4GALT1 с пониженными уровнями фибриногена.

На Фиг. 10 продемонстрировано уменьшение уровня транскрипта b4galt1 через 5 дней после оплодотворения личинок рыбок данио, которым инъецировали антисмысловой морфолино олигонуклеотид в указанных концентрациях.

На Фиг. 11 продемонстрирован диагностический маркер антисмысловых эффектов морфолиноолигонуклеотида вне мишени через 5 дней после оплодотворения личинок рыбок данио, которым вводили антисмысловой морфолино олигонуклеотид в указанных концентрациях.

Фиг. 12 демонстрирует среднюю концентрацию ЛПНП в гомогенатах через 5 дней после оплодотворения 100 личинок рыбок данио на эксперимент.

На Фиг. 13 продемонстрировано восстановление фенотипа ЛПНП-c путем коэкспрессии 50 мкг мРНК человеческого B4GALT1 в рыбках данио.

На Фиг. 14 продемонстрированы результаты генетической ассоциации между N352S B4GALT1 и ЛПНП с использованием целевого генотипирования.

На Фиг. 15 продемонстрированы изображения конфокальной микроскопии субклеточной локализации Flag-352Asn или Flag-352Ser.

На Фиг. 16 продемонстрированы изображения конфокальной микроскопии эндогенной субклеточной локализации B4GALT1, Flag-352Asn и Flag-352Se в связи с маркером trans Golgi Network TGN46.

На Фиг. 17 (панели A и B) продемонстрировано влияние 352Ser на устойчивые уровни белка B4GALT1; (Панель A) COS7-клетки, экспрессирующие 352Asn или 352Ser Flag-тег белки, слитые со свободным EGFP; и (Панель B) уровни экспрессии мРНК для гена B4GALT1, определенные с помощью анализа ОТ-кПЦР (RT-qPCR).

На Фиг. 18 (панели A, B и C) продемонстрировано влияние мутации 352Ser на активность; (Панели A и B) клетки COS7, экспрессирующие слитые белки 352Asn или 352Ser Flag-тэг, экспрессированные в клетках COS7 и проанализированные с помощью вестерн-блоттинга на B4GALT1 или Flag; (Панель C) Активность B4GALT1 в иммунопреципитатах.

На Фиг. 19 продемонстрировано соотношение три-сиало/ди-олиго по группе генотипа N352S B4GALT1.

На Фиг. 20 продемонстрирован репрезентативный HILIC-FLR-MS спектр N-гликанового анализа гликопротеина из подобранной пары рецессивных (SS) и доминантных (NN) гомозигот N352S B4GALT1.

Подробное описание сущности изобретения

Как указано в данном документе, в исследованиях секвенирования идентифицирован вариант B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1 вместо присутствующего аспарагина у около 11% -12% индивидуумов амишей Старого Порядка (OOA - Old Order Amish) (частота альтернативных аллелей=6%) и встречается крайне редко среди населения в целом. Эта мутация заменяет аспарагин на серин в положении 352 (N352S) человеческого белка длиной 398 аминокислот или в положении 311 короткой изоформы. Было обнаружено, что вариант B4GALT1 связан с более низкими уровнями холестерина липопротеинов низкой плотности (ЛПНП), общего холестерина и фибриногена и рСКФ (расчетная скорость клубочковой фильтрации - eGFR), повышенными уровнями аспартаттрансаминазы (AST) (но не аланинтрансаминазы (ALT)), и уровни экспрессии креатинкиназы и креатинина сыворотке, экспрессии в мышечной ткани (но не в печени или эритроцитах) и снижение уровня базофилов. Считается, что вариант N352S защищает от одного или более сердечно-сосудистых заболеваний. Также считается, что B4GALT1, включая его вариантный статус, можно использовать для диагностики риска развития сердечно-сосудистых заболеваний у пациента.

Фраза «соответствующий» при использовании в контексте нумерации какой-либо данной аминокислотной или полинуклеотидной последовательности относится к нумерации остатков указанной эталонной последовательности, когда данную аминокислотную или полинуклеотидную последовательность сравнивают с эталонной последовательностью (в данном случае ссылочной последовательностью является полинуклеотид (последовательность гДНК, последовательность мРНК, последовательность кДНК) или полипептид (дикого типа/полноразмерный B4GALT1). Другими словами, номер остатка или положение остатка данного полимера обозначено относительно контрольной последовательности, а не фактическим числовым положением остатка в данной аминокислотной или полинуклеотидной последовательности. Например, данная аминокислотная последовательность может быть выровнена с эталонной последовательностью путем введения пробелов/промежутков для оптимизации совпадения остатков между двумя последовательностями. В этих случаях, несмотря на наличие пробелов, нумерация остатка в данной аминокислотной или полинуклеотидной последовательности производится по отношению к контрольной последовательности, с которой он был выровнен.

Как используется в данном документе, формы единственного числа включают множественное, если контекст явно не предписывает иное.

Как используется в данном документе, и если иное не очевидно из контекста, «около» охватывает значения в пределах стандартного предела погрешности измерения (например, СОС (SEM - standart error of the mean)) заявленного значения.

Используемый в данном документе термин «и/или» относится и охватывает любые возможные комбинации одного или более связанных перечисленных пунктов, а также отсутствие комбинаций при интерпретации в альтернативе («или»).

Используемый в данном документе термин «содержащий» или «включающий» означает, что один или более из перечисленных элементов могут включать в себя другие элементы, конкретно не указанные. Например, композиция, которая «содержит» или «включает» белок, может содержать белок отдельно или в комбинации с другими ингредиентами. Переходная фраза «состоящий по существу из» означает, что объем формулы изобретения следует интерпретировать как охватывающий указанные элементы, перечисленные в формуле изобретения, и элементы, которые не оказывают существенного влияния на основные и новые характеристики заявленного объекта изобретения. Таким образом, термин «состоящий по существу из» при использовании в формуле изобретения данного раскрытия не предназначен для того, чтобы быть интерпретированным как эквивалент «содержащий».

Используемый в данном документе термин «необязательный» или «необязательно» означает, что описанные впоследствии событие или обстоятельство могут или не могут произойти, и что описание включает в себя случаи, в которых происходит событие или обстоятельство, и случаи, в которых это не происходит.

Как используется в данном документе, «или» относится к любому одному члену конкретного списка, а также включает в себя любую комбинацию членов этого списка.

Обозначение диапазона значений включает в себя все целые числа в пределах или определяющие диапазон (включая два значения конечной точки) и все поддиапазоны, определенные целыми числами в пределах диапазона.

Следует понимать, что конкретные признаки раскрытия, которые для ясности описаны в контексте отдельных вариантов осуществления, также могут быть предоставлены в комбинации в одном варианте осуществления. И наоборот, различные признаки раскрытия, которые для краткости описаны в контексте одного варианта осуществления, также могут быть предоставлены отдельно или в любой подходящей субкомбинации.

Данное раскрытие предоставляет выделенные геномные, мРНК и кДНК варианты B4GALT1 или любой их комплемент и выделенные варианты полипептида B4GALT1. Считается, что эти варианты связаны с уменьшенным риском развития различных сердечно-сосудистых заболеваний, включая, но не ограничиваясь этим, повышенные уровни липидов в сыворотке и повышенные уровни фибриногена, кальцификацию коронарных артерий, ишемическую болезнь сердца (CAD - coronary artery disease) и повышенные уровни аспартатаминотрансферазы (АСТ/AST), но не аланинтрансаминазы (АЛТ/ALT). Не желая быть связанными какой-либо теорией, полагают, что эти варианты B4GALT1 ассоциируются с экспрессией в мышечной ткани, а не с печенью или эритроцитами, о чем свидетельствуют экспериментально наблюдаемые повышенные уровни AST, но не ALT. Композиции, содержащие геномные и мРНК варианты B4GALT1, кДНК варианты B4GALT1 и выделенные полипептидные варианты B4GALT1, также представлены в данном документе. В данном документе также представлены молекулы нуклеиновой кислоты, которые гибридизуются с вариантами геномной и мРНК B4GALT1 и вариантами кДНК B4GALT1. Данное раскрытие также относится к векторам и клеткам, содержащим геномные варианты и варианты мРНК B4GALT1, кДНК варианты B4GALT1 и полипептидные варианты B4GALT1.

Данное раскрытие также обеспечивает способы обнаружения присутствия и/или уровней геномных и/или мРНК вариантов, кДНК вариантов B4GALT1 или их комплемента и/или полипептидных вариантов B4GALT1 в биологическом образце. Также предоставлены способы определения восприимчивости субъекта к развитию сердечно-сосудистого заболевания и способы диагностики субъекта с сердечно-сосудистым заболеванием или с риском сердечно-сосудистого заболевания. Также предоставлены способы модификации клетки путем использования любой комбинации нуклеазных агентов, экзогенных донорных последовательностей, активаторов транскрипции, репрессоров транскрипции и экспрессионных векторов для экспрессии рекомбинантного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1. Также предоставлены терапевтические и профилактические способы лечения субъекта, имеющего или подверженного риску развития сердечно-сосудистого заболевания.

Человеческая геномная нуклеиновая кислота B4GALT1 дикого типа имеет длину около 56,7 т.п.н., включает 6 экзонов и расположена в хромосоме 9 в геноме человека. Типичной последовательности генома человека дикого типа B4GALT1 присвоен номер доступа NCBI NG_008919.1 (SEQ ID NO:1). Геномный вариант человека B4GALT1 продемонстрирован в SEQ ID NO:2 и включает однонуклеотидный полиморфизм (ОНП) (от А до G в положении 53576; упоминается в данном документе как вариант B4GALT1). Вариант ОНП приводит к получению серина в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1 кодируемого варианта полипептида B4GALT1, а не в аспарагине, кодируемом полипептидом дикого типа B4GALT1. Вариант человеческой геномной нуклеиновой кислоты B4GALT1 содержит, например, три основания (например, «agt»), кодирующих серин в положениях, соответствующих положениям с 53575 по 53577 генома человека дикого типа B4GALT1, в отличие от трех оснований «aat» в положениях с 53575 по 53577 генома человека дикого типа B4GALT1 (сравнение SEQ ID NO:2 с SEQ ID NO:1 соответственно). В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит SEQ ID NO:2. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты состоит из SEQ ID NO:2. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты представляет собой комплемент любой геномной молекулы нуклеиновой кислоты B4GALT1, описанной в данном документе.

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности с SEQ ID NO:2. В некоторых вариантах осуществления такая последовательность нуклеиновой кислоты также содержит нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100%, идентичны с SEQ ID NO:2, которая содержит экзоны 1-6 B4GALT1 гена. В некоторых вариантах осуществления такая последовательность нуклеиновой кислоты также содержит нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности с SEQ ID NO:2, содержащей экзон 5. В некоторых вариантах осуществления такая последовательность нуклеиновой кислоты также содержит нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит последовательность нуклеиновой кислоты, по меньшей мере, на около 90% идентичную последовательности SEQ ID NO:2, при условии, что последовательность нуклеиновой кислоты содержит нуклеотиды, соответствующие положениям с 53575 по 53577 последовательности SEQ ID NO:2.

Процентная комплементарность между отдельными участками последовательностей нуклеиновых кислот в нуклеиновых кислотах может быть определена обычным образом с использованием программ BLAST (базовые инструменты поиска локального выравнивания) и программ PowerBLAST (Altschul et al., J. Mol. Biol., 1990, 215, 403-410; Чжан и Мэдден, Genome Res., 1997, 7, 649-656) или с помощью программы Gap (пакет анализа последовательности Висконсин (Wisconsin Sequence Analysis Package) версия 8 для Unix, Genetics Computer Group, Университетский исследовательский парк, Мэдисон, Висконсин), используя настройки по умолчанию, который использует алгоритм Смита и Уотермана (Adv. Appl. Math., 1981, 2, 482-489).

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат не всю геномную последовательность. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900, по меньшей мере, около 1000, по меньшей мере, около 2000, по меньшей мере, около 3000, по меньшей мере, около 4000, по меньшей мере, около 5000, по меньшей мере, около 6000, по меньшей мере, около 7000, по меньшей мере, около 8000, по меньшей мере, около 9000, по меньшей мере, около 10000, по меньшей мере, около 11000, по меньшей мере, около 12000, по меньшей мере, около 13000, по меньшей мере, около 14000, по меньшей мере, около 15000, по меньшей мере, около 16000, по меньшей мере, около 17000, по меньшей мере, около 18000, по меньшей мере, около 19000 или, по меньшей мере, около 20000 смежных (contiguous) нуклеотидов из SEQ ID NO:2. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также содержат нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900 или, по меньшей мере, около 1000 смежных нуклеотидов SEQ ID NO:2. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также содержат нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900 или, по меньшей мере, около 1000 смежных нуклеотидов экзона 5 SEQ ID NO:2. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также содержат нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2.

Например, в некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит, по меньшей мере, 15 смежных нуклеотидов с последовательностью SEQ ID NO:2, причем смежные нуклеотиды включают нуклеотиды с 53575 по 53577 последовательности SEQ ID NO:2. В некоторых таких вариантах осуществления выделенная молекула нуклеиновой кислоты содержит, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:2. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит от 15 до 50 смежных нуклеотидов с последовательностью SEQ ID NO:2, причем смежные нуклеотиды включают нуклеотиды с 53575 по 53577 последовательности с последовательностью SEQ ID NO:2. В некоторых таких вариантах осуществления выделенная молекула нуклеиновой кислоты содержит, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:2.

В некоторых вариантах осуществления данное изобретение относится к выделенной нуклеиновой кислоте, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична части SEQ ID NO:2, при этом часть SEQ ID NO:2 содержит нуклеотиды с 53575 по 53577 последовательности SEQ ID NO:2 и при этом часть SEQ ID NO:2 имеет длину, по меньшей мере, 15 нуклеотидов. В некоторых таких вариантах осуществления часть SEQ ID NO:2 имеет длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления данное изобретение относится к выделенной нуклеиновой кислоте, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична части SEQ ID NO:2, при этом часть SEQ ID NO:2 содержит нуклеотиды с 53575 по 53577 последовательности SEQ ID NO:2 и при этом часть SEQ ID NO:2 имеет длину от 15 до 50 нуклеотидов. В некоторых таких вариантах осуществления часть SEQ ID NO:2 имеет длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов.

В некоторых вариантах осуществления данное изобретение относится к выделенной нуклеиновой кислоте, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 95% идентична части SEQ ID NO:2, при этом часть SEQ ID NO:2 содержит нуклеотиды с 53575 по 53577 последовательности SEQ ID NO:2 и при этом часть SEQ ID NO:2 имеет длину, по меньшей мере, 15 нуклеотидов. В некоторых таких вариантах осуществления часть SEQ ID NO:2 имеет длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления данное изобретение относится к выделенной нуклеиновой кислоте, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 95% идентична части SEQ ID NO:2, при этом часть SEQ ID NO:2 содержит нуклеотиды с 53575 по 53577 последовательности SEQ ID NO:2 и при этом часть SEQ ID NO:2 имеет длину от 15 до 50 нуклеотидов. В некоторых таких вариантах осуществления часть SEQ ID NO:2 имеет длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов.

Такие выделенные молекулы нуклеиновой кислоты можно использовать, например, для экспрессии мРНК и белков варианта B4GALT1 или в качестве экзогенных донорных последовательностей. Понятно, что последовательности генов в популяции могут варьироваться из-за полиморфизмов, таких как ОНП. Приведенные в данном документе примеры являются только примерными последовательностями, и другие последовательности также возможны.

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат миниген варианта B4GALT1, в котором один или более несущественных сегментов SEQ ID NO:2 были удалены по сравнению с соответствующим геном дикого типа B4GALT1. В некоторых вариантах осуществления удаленные несущественные сегменты содержат одну или более интронных последовательностей. В некоторых вариантах осуществления минигены B4GALT1 могут содержать, например, экзоны, соответствующие любому одному или более из экзонов 1-6, или любую комбинацию таких экзонов из варианта B4GALT1 (SEQ ID NO:2). В некоторых вариантах осуществления миниген содержит или состоит из экзона 5 SEQ ID NO:2. В некоторых вариантах осуществления изобретения миниген B4GALT1 имеетт, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности с SEQ ID NO:2, содержащей любой один или более экзонов 1-6 или любую комбинацию таких экзонов, В некоторых вариантах осуществления изобретения миниген B4GALT1 имеет, по меньшей мере, 70%, по меньшей мере, 75%, по меньшей мере, 80%, по меньшей мере, 85%, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности с SEQ ID NO:2, содержащей один или более экзонов 1-6 или любую комбинацию таких экзонов, и содержит нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления миниген B4GALT1 имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности с SEQ ID NO:2, содержащей экзон 5.

Данное раскрытие также относится к выделенным молекулам нуклеиновой кислоты, которые гибридизуются с вариантной геномной последовательностью B4GALT1 или с модифицированным минигеном B4GALT1. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900, по меньшей мере, около 1000, по меньшей мере, около 2000, по меньшей мере, около 3000, по меньшей мере, около 4000, по меньшей мере, около 5000, по меньшей мере, около 6000, по меньшей мере, около 7000, по меньшей мере, около 8000, по меньшей мере, около 9000, по меньшей мере, около 10000, по меньшей мере, около 11000, по меньшей мере, около 12000, по меньшей мере, около 13000, по меньшей мере, около 14000, по меньшей мере, около 15000, по меньшей мере, около 16000, по меньшей мере, около 17000, по меньшей мере, около 18000, по меньшей мере, около 19000 или, по меньшей мере, около 20000 нуклеотидов. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также гибридизуются в положениях с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с частью варианта генома или минигена B4GALT1 в сегменте, который включает или находится в пределах около 1000, в пределах около 500, в пределах около 400, в пределах около 300, в пределах около 200, в пределах около 100, в пределах около 50, в пределах около 45, в пределах около 40, в пределах около 35, в пределах около 30, в пределах около 25, в пределах около 20, в пределах около 15, в пределах около 10 или в пределах около 5 нуклеотидов в положениях с 53575 по 53577 из SEQ ID NO: 2. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с, по меньшей мере, около 15 смежными нуклеотидами молекулы нуклеиновой кислоты, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности варианту B4GALT1 геномной ДНК или минигена. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также гибридизуются в положениях с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из около от 15 до около 100 нуклеотидов или от около 15 до около 35 нуклеотидов.

Например, в некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит, по меньшей мере, 15 нуклеотидов, при этом выделенная молекула нуклеиновой кислоты гибридизуется с нуклеиновой кислотой, содержащей последовательность SEQ ID NO:2, при этом выделенная молекула нуклеиновой кислоты гибридизуется с частью SEQ ID NO:2, и при этом часть SEQ ID NO:2 содержит нуклеотиды с 53575 по 53577 последовательности SEQ ID NO:2. В некоторых таких вариантах осуществления выделенная молекула нуклеиновой кислоты содержит, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит от 15 до 50 нуклеотидов, при этом выделенная молекула нуклеиновой кислоты гибридизуется с нуклеиновой кислотой, содержащей последовательность SEQ ID NO:2, при этом выделенная молекула нуклеиновой кислоты гибридизуется с частью SEQ ID NO:2, и при этом часть SEQ ID NO:2 содержит нуклеотиды с 53575 по 53577 последовательности SEQ ID NO:2. В некоторых таких вариантах осуществления выделенная молекула нуклеиновой кислоты содержит, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов.

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются, по меньшей мере, с 15 смежными нуклеотидами нуклеиновой кислоты, при этом смежные нуклеотиды, по меньшей мере, на 90% идентичны с SEQ ID NO:2, при этом смежные нуклеотиды содержат нуклеотиды с 53575 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2. В некоторых таких вариантах осуществления смежные нуклеотиды имеют длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются, по меньшей мере, с 15 смежными нуклеотидами нуклеиновой кислоты, при этом смежные нуклеотиды, по меньшей мере, на 95% идентичны с SEQ ID NO:2, при этом смежные нуклеотиды содержат нуклеотиды с 53575 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2. В некоторых таких вариантах осуществления смежные нуклеотиды имеют длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются, по меньшей мере, с 15 смежными нуклеотидами нуклеиновой кислоты, при этом смежные нуклеотиды, по меньшей мере, на 100% идентичности с SEQ ID NO:2, при этом смежные нуклеотиды содержат нуклеотиды с 53575 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2. В некоторых таких вариантах осуществления смежные нуклеотиды имеют длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов.

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с 15-50 смежными нуклеотидами нуклеиновой кислоты, при этом смежные нуклеотиды, по меньшей мере, на 90% идентичны с SEQ ID NO:2, при этом смежные нуклеотиды содержат нуклеотиды с 53575 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2. В некоторых таких вариантах осуществления смежные нуклеотиды имеют длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с 15-50 смежными нуклеотидами нуклеиновой кислоты, при этом смежные нуклеотиды, по меньшей мере, на 95% идентичны с SEQ ID NO:2, при этом смежные нуклеотиды содержат нуклеотиды с 53575 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2. В некоторых таких вариантах осуществления смежные нуклеотиды имеют длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с 15-50 смежными нуклеотидами нуклеиновой кислоты, при этом смежные нуклеотиды, по меньшей мере, на 100% идентичности с SEQ ID NO:2, при этом смежные нуклеотиды содержат нуклеотиды с 53575 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2. В некоторых таких вариантах осуществления смежные нуклеотиды имеют длину, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов.

Такие изолированные молекулы нуклеиновой кислоты могут быть использованы, например, в качестве направляющих РНК, праймеров, зондов или экзогенных донорных последовательностей.

Репрезентативная геномная последовательность B4GALT1 дикого типа приведена в SEQ ID NO:1. Типичный вариант геномной последовательности B4GALT1 указан в SEQ ID NO:2.

Данное раскрытие также относится к выделенным молекулам нуклеиновой кислоты, содержащим вариант мРНК B4GALT1. Типичная мРНК человека B4GALT1 дикого типа имеет регистрационный номер NCBI NM_001497 (SEQ ID NO:3) и состоит из 4214 нуклеотидных оснований. Вариант мРНК B4GALT1 человека продемонстрирован в SEQ ID NO:4 и содержит ОНП (от A до G в положении 1244; упоминается в данном документе как вариант B4GALT1), что приводит к серину в положении, соответствующем положение 352 кодируемого B4GALT1 варианта полипептида. Вариант мРНК B4GALT1 человека включает, например, три основания «agu», кодирующие серин, в положениях, соответствующих положениям 1243-1245 мРНК человеческого дикого типа B4GALT1, в отличие от трех оснований «aau» в положения от 1243 до 1245 мРНК человеческого B4GALT1 дикого типа (сравнивая SEQ ID NO:4 с SEQ ID NO:3 соответственно). В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит SEQ ID NO:4. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты состоит из SEQ ID NO:4.

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности с SEQ ID NO:4. В некоторых вариантах осуществления такие последовательности нуклеиновых кислот также содержат нуклеотиды, соответствующие положениям с 1243 по 1245 из SEQ ID NO:4. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из нуклеотидной последовательности, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности с SEQ ID NO:4, содержащей экзоны 1-6. В некоторых вариантах осуществления такие последовательности нуклеиновых кислот также содержат нуклеотиды, соответствующие положениям с 1243 по 1245 из SEQ ID NO:4. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты представляет собой комплемент любой молекулы мРНК B4GALT1, раскрытой в данном документе.

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат меньше, чем вся последовательность мРНК. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900, по меньшей мере, около 1000, по меньшей мере, около 2000, по меньшей мере, около 3000 или, по меньшей мере, около 4000 смежных нуклеотидов SEQ ID NO:4. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также содержат нуклеотиды, соответствующие положениям 1243-1245 из SEQ ID NO:4. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900 или, по меньшей мере, около 1000 смежных нуклеотидов SEQ ID NO:4. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также содержат нуклеотиды, соответствующие положениям 1243-1245 из SEQ ID NO:4. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900 или, по меньшей мере, около 1000 смежных нуклеотидов экзонов 1-6 SEQ ID NO:4. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также содержат нуклеотиды, соответствующие положениям 1243-1245 из SEQ ID NO:4.

В некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична части SEQ ID NO:4, при этом часть SEQ ID NO:4 содержит нуклеотиды с 1243 по 1245 из SEQ ID NO:4 и при этом часть SEQ ID NO:4 содержит, по меньшей мере, 15 нуклеотидов SEQ ID NO:4. В некоторых таких вариантах осуществления часть SEQ ID NO:4 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов SEQ ID NO:4. В некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 95% идентична части SEQ ID NO:4, при этом часть SEQ ID NO:4 содержит нуклеотиды с 1243 по 1245 из SEQ ID NO:4 и при этом часть SEQ ID NO:4 содержит, по меньшей мере, 15 нуклеотидов SEQ ID NO:4. В некоторых таких вариантах осуществления часть SEQ ID NO:4 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов SEQ ID NO:4. В некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит последовательность нуклеиновой кислоты, которая на 100% идентична части SEQ ID NO:4, при этом часть SEQ ID NO:4 содержит нуклеотиды с 1243 по 1245 из SEQ ID. NO:4 и при этом часть SEQ ID NO:4 содержит, по меньшей мере, 15 нуклеотидов SEQ ID NO:4. В некоторых таких вариантах осуществления часть SEQ ID NO:4 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов SEQ ID NO:4. В некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична части SEQ ID NO:4, при этом часть SEQ ID NO:4 содержит нуклеотиды с 1243 по 1245 из SEQ ID NO:4 и при этом часть SEQ ID NO:4 содержит от 15 до 50 нуклеотидов SEQ ID NO:4. В некоторых таких вариантах осуществления часть SEQ ID NO:4 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов SEQ ID NO:4. В некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 95% идентична части SEQ ID NO:4, при этом часть SEQ ID NO:4 содержит нуклеотиды с 1243 по 1245 из SEQ ID NO:4 и при этом часть SEQ ID NO:4 содержит от 15 до 50 нуклеотидов SEQ ID NO:4. В некоторых таких вариантах осуществления часть SEQ ID NO:4 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов SEQ ID NO:4. В некоторых вариантах осуществления данное изобретение относится к выделенной молекуле нуклеиновой кислоты, которая содержит последовательность нуклеиновой кислоты, которая на 100% идентична части SEQ ID NO:4, при этом часть SEQ ID NO:4 содержит нуклеотиды с 1243 по 1245 из SEQ ID. NO:4 и при этом часть SEQ ID NO:4 содержит от 15 до 50 нуклеотидов SEQ ID NO:4. В некоторых таких вариантах осуществления часть SEQ ID NO:4 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов SEQ ID NO:4.

Такие выделенные молекулы нуклеиновой кислоты можно использовать, например, для экспрессии вариантов полипептидов B4GALT1 или в качестве экзогенных донорных последовательностей. Понятно, что последовательности генов в популяции могут варьироваться из-за полиморфизмов, таких как ОНП. Приведенные в данном документе примеры являются только примерными последовательностями, и другие последовательности также возможны.

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, кодирующей полипептид, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 91%, по меньшей мере, около 92%, по меньшей мере, около 93%, по меньшей мере, около 94%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичен вариантуу полипептида Asn352Ser B4GALT1 (SEQ ID NO:8) при условии, что полипептид содержит серин в положении, соответствующем положению 352. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, кодирующей полипептид, по меньшей мере, на около 90%, идентичной SEQ ID NO:8, при условии, что полипептид содержит серин в положении, соответствующем положению 352. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, кодирующей полипептид, по меньшей мере, на около 95%, идентичной SEQ ID NO:8, при условии, что полипептид содержит серин в положении, соответствующем положению 352.

Например, в некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит последовательность нуклеиновой кислоты, кодирующую полипептид, имеющий аминокислотную последовательность длиной по меньшей мере, 10 аминокислот, при этом аминокислотная последовательность на 90% идентична части аминокислотной последовательности SEQ ID NO:8, при этом указанная часть содержит серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых таких вариантах осуществления последовательность нуклеиновой кислоты кодирует полипептид, который имеет аминокислотную последовательность, которая имеет, по меньшей мере, 15, по меньшей мере, 20 или, по меньшей мере, 25 аминокислот. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит последовательность нуклеиновой кислоты, кодирующую полипептид, который имеет аминокислотную последовательность длиной по меньшей мере, 10 аминокислот, при этом указанная аминокислотная последовательность на 95% идентична части аминокислотной последовательности SEQ ID NO:8, при этом указанная часть содержит серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых таких вариантах осуществления последовательность нуклеиновой кислоты кодирует полипептид, который имеет аминокислотную последовательность, которая имеет, по меньшей мере, 15, по меньшей мере, 20 или, по меньшей мере, 25 аминокислот. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит последовательность нуклеиновой кислоты, кодирующую полипептид, который имеет аминокислотную последовательность длиной от 10 до 50 аминокислот, при этом аминокислотная последовательность на 90% идентична части аминокислотной последовательности SEQ ID NO:8, при этом часть содержит серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых таких вариантах осуществления последовательность нуклеиновой кислоты кодирует полипептид, который имеет аминокислотную последовательность, которая имеет, по меньшей мере, 15, по меньшей мере, 20 или, по меньшей мере, 25 аминокислот. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты содержит последовательность нуклеиновой кислоты, кодирующую полипептид, имеющий аминокислотную последовательность длиной от 10 до 50 аминокислот, при этом указанная аминокислотная последовательность на 95% идентична части аминокислотной последовательности SEQ ID NO:8, при этом часть содержит серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых таких вариантах осуществления последовательность нуклеиновой кислоты кодирует полипептид, который имеет аминокислотную последовательность, которая имеет, по меньшей мере, 15, по меньшей мере, 20 или, по меньшей мере, 25 аминокислот. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из последовательности нуклеиновой кислоты, кодирующей полипептид, идентичный SEQ ID NO:8.

Данное раскрытие также относится к выделенным молекулам нуклеиновой кислоты, которые гибридизуются с вариантом последовательности мРНК B4GALT1. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900, по меньшей мере, около 1000, по меньшей мере, около 2000, по меньшей мере, около 3000 или, по меньшей мере, около 4000 нуклеотидов. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также гибридизуются в положениях с 1243 по 1245 из SEQ ID NO:4. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с частью варианта мРНК B4GALT1 в сегменте, который включает или находится в пределах около 1000, в пределах около 500, в пределах около 400, в пределах около 300, в пределах около 200, в пределах около 100 в пределах около 50, в пределах около 45, в пределах около 40, в пределах около 35, в пределах около 30, в пределах около 25, в пределах около 20, в пределах около 15, в пределах около 10 или в пределах около 5 нуклеотидов в положениях с 1243 по 1245 из SEQ ID NO:4.

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов и гибридизуются с частью мРНК варианта B4GALT1 (например, SEQ ID NO:4) в сегменте, который включает или находится в пределах 5 нуклеотидов позиции с 1243 по 1245 из SEQ ID NO:4. В некоторых таких вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов, гибридизуются с частью мРНК варианта B4GALT1 (например, SEQ ID NO:4) в сегменте, который включает или находится в пределах 5 нуклеотидов положения 1243-1245 из SEQ ID NO:4 и гибридизуются с положениями 1243-1245 из SEQ ID NO:4. В некоторых таких вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат от 15 до 50 нуклеотидов и гибридизуются с частью мРНК варианта B4GALT1 (например, SEQ ID NO:4) в сегменте, который включает в себя положения с 1243 по 1245 из SEQ ID NO:4, и гибридизуйте в положениях с 1243 по 1245 из SEQ ID NO:4. В некоторых таких вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов.

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с, по меньшей мере, около 15 смежными нуклеотидами молекулы нуклеиновой кислоты, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентично варианту B4GALT1 мРНК (например, для Например, SEQ ID NO:4). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты также гибридизуются в положениях с 1243 по 1245 из SEQ ID NO:4. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из около от 15 до около 100 нуклеотидов или от около 15 до около 35 нуклеотидов.

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов и гибридизуются с частью мРНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях с 1243 по 1245 из SEQ ID NO:4. при этом вариант мРНК B4GALT1, по меньшей мере, на 90% идентичен мРНК варианта B4GALT1 (такой как, например, SEQ ID NO:4). В некоторых таких вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов и гибридизуются с частью мРНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях с 1243 по 1245 из SEQ ID NO:4. при этом вариант мРНК B4GALT1, по меньшей мере, на 95% идентичен мРНК варианта B4GALT1 (такой как, например, SEQ ID NO:4). В некоторых таких вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов, гибридизуются с частью мРНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях с 1243 по 1245 из SEQ ID NO:4. и гибридизуются в положениях с 1243 по 1245 из SEQ ID NO:4, при этом вариант мРНК B4GALT1, по меньшей мере, на 90% идентичен мРНК варианта B4GALT1 (такой как, например, SEQ ID NO:4). В некоторых таких вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов, гибридизуются с частью мРНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях с 1243 по 1245 из SEQ ID NO:4. и гибридизуются в положениях с 1243 по 1245 из SEQ ID NO:4, при этом вариант мРНК B4GALT1, по меньшей мере, на 95% идентичен мРНК варианта B4GALT1 (такой как, например, SEQ ID NO:4). В некоторых таких вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 нуклеотидов. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из 15-100 нуклеотидов или от 15 до 35 нуклеотидов.

Такие изолированные молекулы нуклеиновой кислоты могут быть использованы, например, в качестве направляющих РНК, праймеров, зондов или экзогенных донорных последовательностей.

Репрезентативная последовательность мРНК дикого типа B4GALT1 приведена в SEQ ID NO:3. Репрезентативная последовательность мРНК варианта B4GALT1 указана в SEQ ID NO:4.

Данное раскрытие также относится к молекулам нуклеиновой кислоты, включающим кДНК варианта B4GALT1, кодирующий весь или часть полипептид варианта B4GALT1. Типичная человеческая кДНК B4GALT1 дикого типа (например, кодирующая область мРНК, записанная как ДНК) состоит из 1197 нуклеотидных оснований (SEQ ID NO:5). КДНК варианта B4GALT1 человека продемонстрирована в SEQ ID NO:6 и содержит ОНП (от A до G в положении 1055; упоминается в данном документе как вариант B4GALT1), что приводит к серину в положении, соответствующем положение 352 кодируемого B4GALT1 варианта полипептида. КДНК вариантна B4GALT1 человеческа содержит, например, «agt», кодирующий серин в положениях, соответствующих положениям с 1054 по 1056 полной зрелой человеческой дикого типа B4GALT1 кДНК, в отличие от трех оснований «aat» кДНК человеческого B4GALT1 дикого типа в положениях с 1054 по 1056 (сравнение SEQ ID NO:6 с SEQ ID NO:5 соответственно). В некоторых вариантах осуществления молекула нуклеиновой кислоты содержит SEQ ID NO:6. В некоторых вариантах осуществления молекула нуклеиновой кислоты состоит из SEQ ID NO:6. В некоторых вариантах осуществления молекулы кДНК являются изолированными.

В некоторых вариантах осуществления молекулы кДНК содержат или состоят из последовательности нуклеиновой кислоты, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности с SEQ ID NO:6. В некоторых вариантах осуществления молекулы кДНК также содержат нуклеотиды, соответствующие положениям от 1054 до 1056 SEQ ID NO:6. В некоторых вариантах осуществления выделенная молекула нуклеиновой кислоты представляет собой комплемент любой молекулы кДНК B4GALT1, описанной в данном документе.

В некоторых вариантах осуществления молекулы кДНК содержат меньше, чем вся последовательность кДНК. В некоторых вариантах осуществления молекулы кДНК содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900, по меньшей мере, около 1000 или, по меньшей мере, около 1100 смежных нуклеотидов из SEQ ID NO:6. В некоторых вариантах осуществления такие молекулы кДНК также содержат нуклеотиды, соответствующие положениям с 1054 по 1056 SEQ ID NO:6. В некоторых вариантах осуществления молекулы кДНК содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400 или, по меньшей мере, около 500 смежных нуклеотидов SEQ ID NO: 6 В некоторых вариантах осуществления такие молекулы кДНК также содержат нуклеотиды, соответствующие положениям с 1054 по 1056 SEQ ID NO:6.

Например, в некоторых вариантах осуществления молекула кДНК содержит, по меньшей мере, 15 смежных нуклеотидов с последовательностью SEQ ID NO:6, причем смежные нуклеотиды включают нуклеотиды с 1054 по 1056 последовательности с последовательностью SEQ ID NO:6. В некоторых таких вариантах осуществления выделенная молекула нуклеиновой кислоты содержит, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления молекула кДНК содержит от 15 до 50 смежных нуклеотидов SEQ ID NO:6, при этом смежные нуклеотиды включают нуклеотиды с 1054 по 1056 последовательности SEQ ID NO:6. В некоторых таких вариантах осуществления выделенная молекула нуклеиновой кислоты содержит, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична части SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID. NO:6 и при этом часть SEQ ID NO:6 содержит, по меньшей мере, 15 смежных нуклеотидов с нуклеотидами SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 95% идентична части SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID. NO:6 и при этом часть SEQ ID NO:6 содержит, по меньшей мере, 15 смежных нуклеотидов с нуклеотидами SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична части SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID. NO:6 и при этом часть SEQ ID NO:6 содержит от 15 до 50 смежных нуклеотидов с нуклеотидами SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 95% идентична части SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID. NO:6 и при этом часть SEQ ID NO:6 содержит от 15 до 50 смежных нуклеотидов с нуклеотидами SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит нуклеотиды 1054-1056 SEQ ID NO:6 в положениях, соответствующих нуклеотидам 1054-1056 SEQ ID NO:6, при этом молекула кДНК содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична части SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID NO:6 и при этом часть SEQ ID NO:6 содержит, по меньшей мере, 15 смежных нуклеотидов с нуклеотидами SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит нуклеотиды 1054-1056 SEQ ID NO:6 в положениях, соответствующих нуклеотидам 1054-1056 SEQ ID NO:6, при этом молекула кДНК содержит последовательность нуклеиновой кислоты, которая является, по меньшей мере, на 95% идентична части SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID NO:6 и при этом часть SEQ ID NO:6 содержит, по меньшей мере, 15 смежных нуклеотидов SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит нуклеотиды 1054-1056 SEQ ID NO:6 в положениях, соответствующих нуклеотидам 1054-1056 SEQ ID NO:6, при этом молекула кДНК содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 90% идентична с SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID NO:6, и при этом часть SEQ ID NO:6 содержит от 15 до 50 смежных нуклеотидов SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6. В некоторых вариантах осуществления данное изобретение относится к молекуле кДНК, которая содержит нуклеотиды 1054-1056 SEQ ID NO:6 в положениях, соответствующих нуклеотидам 1054-1056 SEQ ID NO:6, при этом молекула кДНК содержит последовательность нуклеиновой кислоты, которая, по меньшей мере, на 95% идентична части SEQ ID NO:6, при этом часть SEQ ID NO:6 содержит нуклеотиды с 1054 по 1056 последовательности SEQ ID NO:6 и при этом часть SEQ ID NO:6 содержит от 15 до 50 смежных нуклеотидов. SEQ ID NO:6. В некоторых таких вариантах осуществления часть SEQ ID NO:6 имеет, по меньшей мере, 20, по меньшей мере, 25 или, по меньшей мере, 30 смежных нуклеотидов SEQ ID NO:6.

Такие молекулы кДНК могут быть использованы, например, для экспрессии белков вариантов B4GALT1 или в качестве экзогенных донорных последовательностей. Понятно, что последовательности генов в популяции могут варьироваться из-за полиморфизмов, таких как ОНП. Приведенные в данном документе примеры являются только примерными последовательностями, и другие последовательности также возможны.

В некоторых вариантах осуществления молекулы кДНК содержат или состоят из последовательности нуклеиновой кислоты, кодирующей полипептид, по меньшей мере, на около 75%, по меньшей мере, около 80%, по меньшей мере, на около 85%, по меньшей мере, на около 90%, по меньшей мере, на около 91%, по меньшей мере, на около 92%, по меньшей мере, на около 93%, по меньшей мере, на около 94%, по меньшей мере, на около 95%, по меньшей мере, на около 96%, по меньшей мере, на около 97%, по меньшей мере, на около 98%, по меньшей мере, около 99% или 100% идентичностий варианту полипептида Asn352Ser B4GALT1 (SEQ ID NO:8) при условии, что полипептид содержит серин в положении, соответствующем положению 352. В некоторых вариантах осуществления молекулы кДНК содержат или состоят из последовательности нуклеиновой кислоты, кодирующей полипептид, по меньшей мере, на около 90%, идентичный SEQ ID NO:8, при условии, что полипептид содержит серин в положении, соответствующем положению 352. В некоторых вариантах осуществления молекулы кДНК содержат или состоят из последовательности нуклеиновой кислоты, кодирующей полипептид, по меньшей мере, на около 95%, идентичный SEQ ID NO:8, при условии, что полипептид содержит серин в положении, соответствующем положению 352. В некоторых вариантах осуществления молекула кДНК содержит или состоит из последовательности нуклеиновой кислоты, кодирующей полипептид, идентичный SEQ ID NO:8.

Данное раскрытие также относится к выделенным молекулам нуклеиновой кислоты, которые гибридизуются с вариантом последовательности кДНК B4GALT1. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 200, по меньшей мере, около 300, по меньшей мере, около 400, по меньшей мере, около 500, по меньшей мере, около 600, по меньшей мере, около 700, по меньшей мере, около 800, по меньшей мере, около 900, по меньшей мере, около 1000 или, по меньшей мере, около 1100 нуклеотидов. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты также гибридизуются в положениях с 1054 по 1056 SEQ ID NO:6. В некоторых вариантах осуществления такие изолированные молекулы нуклеиновой кислоты гибридизуются с частью кДНК варианта B4GALT1 в сегменте, который включает или находится в пределах около 600, в пределах около 500, в пределах около 400, в пределах около 300, в пределах около 200, в пределах около 100 в пределах около 50, в пределах около 45, в пределах около 40, в пределах около 35, в пределах около 30, в пределах около 25, в пределах около 20, в пределах около 15, в пределах около 10 или в пределах около 5 нуклеотидов в положениях с 1054 по 1056 SEQ ID NO:6. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты гибридизуются с, по меньшей мере, около 15 смежными нуклеотидами молекулы кДНК, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности кДНК варианта B4GALT1 (такой как, например, SEQ ID NO:6). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты также гибридизуются с положениями 1054-1056 SEQ ID NO:6. В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из около от 15 до около 100 нуклеотидов или от около 15 до около 35 нуклеотидов.

В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов и гибридизуются с частью кДНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях с 1054 по 1056 SEQ ID NO:6. при этом кДНК варианта B4GALT1, по меньшей мере, на 90% идентичен кДНК варианта B4GALT1 (такой как, например, SEQ ID NO:6). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов и гибридизуются с частью кДНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях с 1054 по 1056 SEQ ID NO:6. при этом кДНК варианта B4GALT1, по меньшей мере, на 95% идентичен кДНК варианта B4GALT1 (такой как, например, SEQ ID NO:6). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов и гибридизуются с частью кДНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях от 1054 до 1056 SEQ ID NO:6, при этом указанный кДНК варианта B4GALT1 на 100% идентичен кДНК варианта B4GALT1 (такой как, например, SEQ ID NO:6). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов и гибридизуются с частью кДНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях от 1054 до 1056 SEQ ID NO:6, и гибридизуют в положениях 1054-1056 SEQ ID NO:6, при этом указанный кДНК варианта B4GALT1, по меньшей мере, на 90% идентичен кДНК варианта B4GALT1 (такой как, например, SEQ ID NO:6). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов, гибридизуются с частью кДНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях от 1054 до 1056 SEQ ID NO:6, и гибридизуются в положениях 1054-1056 SEQ ID NO:6, при этом указанный кДНК варианта B4GALT1, по меньшей мере, на 95% идентичен кДНК варианта B4GALT1 (такой как, например, SEQ ID NO:6). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят, по меньшей мере, из 15 нуклеотидов, гибридизуются с частью кДНК варианта B4GALT1 в сегменте, который включает или находится в пределах 5 нуклеотидов в положениях от 1054 до 1056 SEQ ID NO:6, и гибридизуются в положениях 1054-1056 SEQ ID NO:6, при этом кДНК варианта B4GALT1 на 100% идентичен кДНК варианта B4GALT1 (такой как, например, SEQ ID NO:6). В некоторых вариантах осуществления выделенные молекулы нуклеиновой кислоты содержат или состоят из 15-100 нуклеотидов или из 15-35 нуклеотидов.

Такие изолированные молекулы нуклеиновой кислоты можно использовать, например, в качестве направляющих РНК, праймеров, зондов, последовательностей экзогенных доноров, антисмысловых РНК, миРНК или кшРНК.

Репрезентативная последовательность кДНК B4GALT1 дикого типа приведена в SEQ ID NO:5. Типичная последовательность кДНК B4GALT1 приведена в SEQ ID NO:6.

Молекулы нуклеиновой кислоты, раскрытые в данном документе, могут содержать последовательность нуклеиновой кислоты встречающегося в природе гена B4GALT1 или транскрипт мРНК или могут содержать неприродную последовательность. В некоторых вариантах осуществления встречающаяся в природе последовательность может отличаться от не встречающейся в природе последовательности вследствие синонимических мутаций или мутаций, которые не влияют на кодированный полипептид B4GALT1. Например, последовательность может быть идентичной, за исключением синонимических мутаций или мутаций, которые не влияют на кодированный полипептид B4GALT1. Синонимической мутацией или заменой является замена одного нуклеотида другим в экзоне гена, кодирующего белок, так что полученная аминокислотная последовательность не модифицируется. Это возможно из-за вырожденности генетического кода, поскольку некоторые аминокислоты кодируются более чем одним трехосновным парным кодоном. Синонимические замены используются, например, в процессе оптимизации кодонов. Молекулы нуклеиновой кислоты, раскрытые в данном описании, могут быть оптимизированы по кодонам.

В данном документе также представлены функциональные полинуклеотиды, которые могут взаимодействовать с раскрытыми молекулами нуклеиновых кислот. Функциональные полинуклеотиды представляют собой молекулы нуклеиновых кислот, которые выполняют специфическую функцию, такую как связывание молекулы-мишени или катализирование конкретной реакции. Примеры функциональных полинуклеотидов включают, но не ограничиваются ими, антисмысловые молекулы, аптамеры, рибозимы, молекулы, образующие триплекс, и внешние направляющие последовательности. Функциональные полинуклеотиды могут действовать как эффекторы, ингибиторы, модуляторы и стимуляторы специфической активности, которой обладает молекула-мишень, или функциональные полинуклеотиды могут обладать активностью de novo, независимой от любых других молекул.

Антисмысловые молекулы предназначены для взаимодействия с целевой молекулой нуклеиновой кислоты посредством либо канонического, либо неканонического спаривания оснований. Взаимодействие антисмысловой молекулы и молекулы-мишени предназначено для стимулирования разрушения молекулы-мишени посредством, например, опосредованной РНКазой-Н деградации гибридной РНК-ДНК. Альтернативно, антисмысловая молекула предназначена для прерывания функции процессинга, которая обычно происходит на молекуле-мишени, такой как транскрипция или репликация. Антисмысловые молекулы могут быть сконструированы на основе последовательности молекулы-мишени. Существуют многочисленные способы оптимизации антисмысловой эффективности путем определения наиболее доступных областей молекулы-мишени. Типичные способы включают, но не ограничиваются ими, эксперименты отбора in vitro и исследования модификации ДНК с использованием DMS и DEPC. Антисмысловые молекулы обычно связывают молекулу-мишень с константой диссоциации (kd), меньшей или равной около 10-6, меньшей или равной около 10-8, меньшей или равной около 10-10, или меньше или равно около 10-12. Репрезентативную выборку методов и приемов, которые помогают в разработке и использовании антисмысловых молекул, можно найти в следующем неограничивающем списке патентов США: 5135917; 5294533; 5627158; 5641754; 5691317; 5780607; 5786138; 5849903; 5856103; 5919772; 5955590; 5990088; 5994320; 5998602; 6005095; 6007995; 6013522; 6017898; 6018042; 6025198; 6033910; 6040296; 6046004; 6046319; и 6057437. Примеры антисмысловых молекул включают, но не ограничиваются ими, антисмысловые РНК, малые интерферирующие РНК (миРНК) и короткие шпилевидные РНК (кшРНК).

Выделенные молекулы нуклеиновой кислоты, раскрытые в данном описании, могут содержать РНК, ДНК или как РНК, так и ДНК. Выделенные молекулы нуклеиновой кислоты также могут быть связаны или слиты с гетерологичной последовательностью нуклеиновой кислоты, такой как вектор, или гетерологичной меткой. Например, выделенные молекулы нуклеиновой кислоты, раскрытые в данном документе, могут находиться в векторной или экзогенной донорной последовательности, содержащей выделенную молекулу нуклеиновой кислоты и гетерологичную последовательность нуклеиновой кислоты. Выделенные молекулы нуклеиновой кислоты также могут быть связаны или слиты с гетерологичной меткой, такой как флуоресцентная метка. Другие примеры меток раскрыты в другом месте в данном документе.

Метка может быть детектируемой непосредственно (например, флуорофор) или опосредованно обнаруживаемой (например, гаптен, фермент или гаситель флуорофора). Такие метки могут быть обнаружены с помощью спектроскопических, фотохимических, биохимических, иммунохимических или химических средств. Такие метки включают, например, радиоактивные метки, которые можно измерять с помощью приборов для счета радиации; пигменты, красители или другие хромогены, которые можно визуально наблюдать или измерять с помощью спектрофотометра; спиновые метки, которые можно измерить с помощью анализатора спиновых меток; и флуоресцентные метки (например, флуорофоры), при этом выходной сигнал генерируется возбуждением подходящего молекулярного аддукта и может быть визуализирован путем возбуждения светом, который поглощается красителем, или может быть измерен с помощью стандартных флуорометров или систем визуализации. Метка также может быть, например, хемилюминесцентным веществом, при этом выходной сигнал генерируется путем химической модификации сигнального соединения; металлосодержащее вещество; или фермент, где происходит фермент-зависимая вторичная генерация сигнала, такая как образование окрашенного продукта из бесцветного субстрата. Термин «метка» может также относиться к «метке» или гаптену, который может селективно связываться с конъюгированной молекулой, так что конъюгированная молекула, когда она добавляется впоследствии вместе с субстратом, используется для генерации детектируемого сигнала. Например, можно использовать биотин в качестве метки, а затем использовать конъюгат авидина или стрептавидина с пероксидазой хрена (HRP - horseradish peroxidase) для связывания с меткой, а затем использовать калориметрический субстрат (например, тетраметилбензидин (TMB)) или флуорогенный субстрат для обнаружения наличие HRP. Типичные метки, которые можно использовать в качестве меток для облегчения очистки, включают, но не ограничиваются ими, myc, HA, FLAG или 3XFLAG, 6XHis или полигистидин, глутатион-S-трансферазу (GST), мальтозосвязывающий белок, эпитопную метку или Fc часть иммуноглобулина. Известны многочисленные метки, которые включают, например, частицы, флуорофоры, гаптены, ферменты и их калориметрические, флуорогенные и хемилюминесцентные субстраты и другие метки.

Раскрытые молекулы нуклеиновой кислоты могут состоять, например, из нуклеотидов или неприродных или модифицированных нуклеотидов, таких как нуклеотидные аналоги или нуклеотидные заменители. Такие нуклеотиды включают нуклеотид, который содержит модифицированную основную, сахарную или фосфатную группу или который включает в себя неприродный фрагмент в своей структуре. Примеры неприродных нуклеотидов включают, но не ограничиваются ими, дидезоксинуклеотиды, биотинилированные, аминированные, дезаминированные, алкилированные, бензилированные и меченные флуорофором нуклеотиды.

Молекулы нуклеиновой кислоты, раскрытые в данном описании, также могут содержать один или более нуклеотидных аналогов или замен. Нуклеотидный аналог представляет собой нуклеотид, который содержит модификацию основания, сахара или фосфата. Модификации основного фрагмента включают, но не ограничиваются ими, природные и синтетические модификации A, C, G и T/U, а также различные пуриновые или пиримидиновые основания, такие как, например, псевдоуридин, урацил-5-ил, гипоксантин-9-ил (I) и 2-аминоаденин-9-ил. Модифицированные основания включают, но не ограничиваются этим, 5-метилцитозин (5-me-C), 5-гидроксиметилцитозин, ксантин, гипоксантин, 2-аминоаденин, 6-метил и другие алкильные производные аденина и гуанина, 2-пропил и другие алкильные производные аденина и гуанина, 2-тиоурацил, 2 -тиотимин и 2-тиоцитозин, 5-галоурацил и цитозин, 5-пропинилурацил и цитозин, 6-азоурацил, цитозин и тимин, 5-урацил (псевдоурацил), 4-тиоурацил, 8-галоген, 8-амино, 8-тиол, 8-тиоалкил, 8-гидроксил и другие 8-замещенные аденины и гуанины, 5-галоген, особенно 5-бром, 5-трифторметил и другие 5-замещенные урацилы и цитозины, 7-метилгуанин и 7-метиладенин, 8-азагуанин и 8-азааденин, 7-деазагуанин и 7-деазааденин и 3-деазагуанин и 3-деазааденин. Некоторые нуклеотидные аналоги, такие как, например, 5-замещенные пиримидины, 6-азапиримидины и N-2, N-6 и O-6-замещенные пурины, включая, но не ограничиваясь этим, 2-аминопропиладенин, 5-пропинилурацил, 5-пропинилцитозин и 5-метилцитозин могут повысить стабильность образования дуплекса. Часто основные модификации могут быть объединены, например, с модификацией сахара, такой как 2'-O-метоксиэтил, для достижения уникальных свойств, таких как повышенная стабильность дуплекса.

Аналоги нуклеотидов также могут включать модификации сахарного фрагмента. Модификации сахарного фрагмента включают, но не ограничиваются ими, природные модификации рибозы и дезоксирибозы, а также синтетические модификации. Модификации сахара включают, но не ограничиваются, следующие модификации в положении 2 ': ОЙ; F; O-, S- или N-алкил; O-, S- или N-алкенил; O-, S- или N-алкинил; или O-алкил-O-алкил, где алкил, алкенил и алкинил могут быть замещенным или незамещенным C1-10 алкилом или C2-10 алкенилом и C2-10 алкинилом. Примерные 2' модификации сахара также включают, но не ограничиваются ими, -O [(CH2)nO]mCH3, -O (CH2)nOCH3, -O (CH2)nNH2, -O (CH2)nCH3, -O (CH2)n-ONH2и -O (CH2)nON [(CH2)nCH3)]2, где n и m составляют от 1 до около 10.

Другие модификации в положении 2' включают, но не ограничиваются ими, С1-10 алкил, замещенный низший алкил, алкарил, аралкил, О-алкарил или О-аралкил, SH, SCH3, OCN, Cl, Br, CN, CF3, OCF3, SOCH3, SO2CH3, ONO2, NO2, N3, NH2, гетероциклоалкил, гетероциклоалкиларил, аминоалкиламино, полиалкиламино, замещенный силил, группа расщепления РНК, репортерная группа, интеркалятор, группа для улучшения фармакокинетических свойств олигонуклеотида или группа для улучшения фармакодинамических свойств олигонуклеотида и других заместителей, имеющих сходные свойства, Аналогичные модификации могут быть также сделаны в других положениях сахара, в частности в положении 3' сахара на 3' концевом нуклеотиде или в 2'-5' связанных олигонуклеотидах и положении 5' 5' концевого нуклеотида. Модифицированные сахара также могут включать те, которые содержат модификации в кислороде мостикового кольца, такие как СН2 и S. Аналоги нуклеотидного сахара также могут иметь миметики сахара, такие как циклобутильные фрагменты, вместо пентофуранозильного сахара.

Нуклеотидные аналоги также могут быть модифицированы в фосфатном фрагменте. Модифицированные фосфатные фрагменты включают, но не ограничиваются ими, те, которые могут быть модифицированы таким образом, что связь между двумя нуклеотидами содержит фосфоротиоат, хиральный фосфоротиоат, фосфородитиоат, фосфотриэфир, аминоалкилфосфотриэфир, метил и другие алкилфосфонаты, включая 3'-алкиленфосфонаты и хиральные фосфонаты, фосфинаты, фосфорамидаты, в том числе 3'-аминофосфорамидат и аминоалкилфосфорамидаты, тионофосфорамидаты, тионоалкилфосфонаты, тионоалкилфосфотриэфиры и боранофосфаты. Эти фосфатные или модифицированные фосфатные связи между двумя нуклеотидами могут быть через 3'-5' связь или 2'-5' связь, и эта связь может содержать обратную полярность, такую как 3'-5' к 5'-3' или 2'-5' к 5'-2'. Различные соли, смешанные соли и формы свободных кислот также включены.

Нуклеотидные заменители включают молекулы, имеющие функциональные свойства, сходные с нуклеотидами, но которые не содержат фосфатный фрагмент, такой как пептидная нуклеиновая кислота (ПНК - PNA - peptide nucleic acid). Нуклеотидные заменители включают молекулы, которые распознают нуклеиновые кислоты способом Уотсона-Крика или Хугстина, но которые связаны друг с другом посредством фрагмента, отличного от фосфатного фрагмента. Нуклеотидные заменители способны соответствовать структуре типа двойной спирали при взаимодействии с соответствующей нуклеиновой кислотой-мишенью.

Нуклеотидные заменители также включают нуклеотиды или нуклеотидные аналоги, у которых были заменены фосфатный фрагмент или сахарный фрагмент. В некоторых вариантах осуществления нуклеотидные заменители могут не содержать стандартный атом фосфора. Заместителями для фосфата могут быть, например, алкильные или циклоалкильные межнуклеозидные связи с короткой цепью, смешанные гетероатомные и алкильные или циклоалкильные межнуклеозидные связи или одна или более гетероатомных или гетероциклических межнуклеозидных связей с короткой цепью. К ним относятся те, которые имеют морфолино-связи (образованные частично из сахарной части нуклеозида); силоксановые магистрали; сульфидные, сульфоксидные и сульфоновые основные цепи; формацетильный и тиоформацетильный остовы; метиленформацетильный и тиоформацетильный каркасы; алкенсодержащие основные цепи; сульфаматные магистрали; метиленимино и метиленгидразино; сульфонатные и сульфонамидные магистрали; амидные магистрали; и другие, имеющие смешанные N, O, S и CH2 составных частей.

Понятно также, что при замене нуклеотида и сахарная, и фосфатная части нуклеотида могут быть заменены, например, связью амидного типа (аминоэтилглицин) (ПНК).

Также возможно связывать другие типы молекул (конъюгатов) с нуклеотидами или аналогами нуклеотидов для усиления, например, клеточного поглощения. Конъюгаты могут быть химически связаны с нуклеотидными или нуклеотидными аналогами. Такие конъюгаты включают, например, липидные фрагменты, такие как холестериновый фрагмент, желчную кислоту, тиоэфир, такой как гексил-S-тритилтиол, тиохолестерин, алифатическую цепь, такую как додекандиол или ундецильные остатки, фосфолипид, такой как дигексадецил-rac-глицерин или триэтиламмоний-1,2-ди-O-гексадецил-рац-глицеро-3-H-фосфонат, полиаминовая или полиэтиленгликолевая цепь, адамантановая уксусная кислота, пальмитиловый фрагмент или октадециламинный или гексиламино-карбонил-оксихолестериновый фрагмент.

Данное раскрытие также предоставляет векторы, содержащие любую одну или большее количество молекул нуклеиновой кислоты раскрытых в данном документе. В некоторых вариантах осуществления векторы содержат любую одну или более молекул нуклеиновой кислоты, раскрытой в данном документе, и гетерологичную нуклеиновую кислоту. Векторы могут быть вирусными или невирусными векторами, способными транспортировать молекулу нуклеиновой кислоты. В некоторых вариантах осуществления вектор представляет собой плазмиду или космиду (например, кольцевую двухцепочечную ДНК, в которую могут быть лигированы дополнительные сегменты ДНК). В некоторых вариантах осуществления вектор представляет собой вирусный вектор, в котором дополнительные сегменты ДНК могут быть лигированы в вирусный геном. В некоторых вариантах осуществления вектор может автономно реплицироваться в клетке-хозяине, в которую он введен (например, бактериальные векторы, имеющие бактериальный источник репликации, и эписомальные векторы млекопитающих). В некоторых вариантах осуществления вектор (например, неэпизомальные векторы млекопитающих) может быть интегрирован в геном клетки-хозяина при введении в клетку-хозяина и, таким образом, реплицируется вместе с геномом-хозяином. Более того, конкретные векторы могут направлять экспрессию генов, с которыми они функционально связаны. Такие векторы упоминаются в данном документе как «рекомбинантные векторы экспрессии» или «векторы экспрессии». Такие векторы также могут быть нацеливающими векторами (то есть экзогенными донорскими последовательностями).

В некоторых вариантах осуществления белки, кодируемые различными генетическими вариантами, раскрытыми в данном документе, экспрессируются путем вставки молекул нуклеиновой кислоты, кодирующих раскрытые генетические варианты, в векторы экспрессии, так что гены оперативно связаны с последовательностями контроля экспрессии, такими как последовательности транскрипции и контроля трансляции. Векторы экспрессии включают, но не ограничиваются ими, плазмиды, космиды, ретровирусы, аденовирусы, аденоассоциированные вирусы (AAV), вирусы растений, такие как вирус мозаики цветной капусты и вирус табачной мозаики, дрожжевые искусственные хромосомы (YAC), эписомы, полученные из вируса Эпштейна-Барр (EBV) и тому подобное. В некоторых вариантах осуществления молекулы нуклеиновой кислоты, содержащие раскрытые генетические варианты, могут быть лигированы в вектор таким образом, что транскрипционные и трансляционные контрольные последовательности внутри вектора выполняют предназначенную для них функцию регуляции транскрипции и трансляции генетического варианта. Вектор экспрессии и последовательности контроля экспрессии выбирают так, чтобы они были совместимы с используемой клеткой-хозяином экспрессии. Последовательности нуклеиновых кислот, содержащие раскрытые генетические варианты, могут быть вставлены в отдельные векторы или в тот же вектор экспрессии, что и вариантная генетическая информация. Последовательность нуклеиновой кислоты, содержащую раскрытые генетические варианты, может быть вставлена в вектор экспрессии стандартными способами (например, лигирование комплементарных сайтов рестрикции на нуклеиновую кислоту, содержащую раскрытые генетические варианты и вектор, или лигирование тупого конца, если сайты рестрикции отсутствуют),

В дополнение к последовательности нуклеиновой кислоты, содержащей раскрытые генетические варианты, рекомбинантные векторы экспрессии могут нести регуляторные последовательности, которые контролируют экспрессию генетического варианта в клетке-хозяине. Конструкция вектора экспрессии, включая выбор регуляторных последовательностей, может зависеть от таких факторов, как выбор клетки-хозяина, подлежащей трансформации, желаемый уровень экспрессии белка и так далее. Требуемые регуляторные последовательности для экспрессии клеток-хозяев млекопитающих могут включать, например, вирусные элементы, которые направляют высокие уровни экспрессии белка в клетках млекопитающих, такие как промоторы и/или энхансеры, полученные из ретровирусных LTR, цитомегаловируса (CMV) (такой как промотор CMV/энхансер), Simian Virus 40 (SV40) (такой как промотор/энхансер SV40), аденовируса (например, главный поздний промотор аденовируса (AdMLP)), полиомы и сильных промоторов млекопитающих, таких как нативные промоторы иммуноглобулина и актина. Способы экспрессии полипептидов в бактериальных клетках или клетках грибов (например, дрожжевых клетках) также хорошо известны.

Промотор может быть, например, конститутивно активным промотором, условным промотором, индуцибельным промотором, ограниченным во времени промотором (например, промотором, регулируемым развитием) или пространственно ограниченным промотором (например, клеточно-специфичным или тканеспецифичным промотером). Примеры промоторов можно найти, например, в WO 2013/176772.

Примеры индуцибельных промоторов включают, например, химически регулируемые промоторы и физически регулируемые промоторы. Химически регулируемые промоторы включают, например, регулируемые спиртом промоторы (например, промотор гена алкогольдегидрогеназы (alcA)), регулируемые тетрациклином промоторы (например, чувствительный к тетрациклину промотор, последовательность оператора тетрациклина (tetO), tet-On промотор или tet-Off промотор), регулируемые стероидами промоторы (например, промотор глюкокортикоидного рецептора крысы, промотор рецептора эстрогена или промотор рецептора экдизона) или регулируемые металлом промоторы (например, промотор металлопротеина). Физически регулируемые промоторы включают в себя, например, регулируемые температурой промоторы (например, промотор теплового шока) и регулируемые светом промоторы (например, светоиндуцируемый промотор или светопрессуемый промотор).

Тканеспецифичными промоторами могут быть, например, нейрон-специфические промоторы, глия-специфические промоторы, специфичные для мышечных клеток промоторы, специфичные для клеток сердца промоторы, специфичные для клеток почек промоторы, специфичные для костных клеток промоторы, специфичные для эндотелиальных клеток промоторы, или специфичные для иммунных клеток промоторы (например, промотор В-клеток или промотор Т-клеток).

Регуляторы, регулируемые развитием, включают, например, промоторы, активные только во время эмбриональной стадии развития или только во взрослой клетке.

В дополнение к последовательности нуклеиновой кислоты, содержащей раскрытые генетические варианты и регуляторные последовательности, рекомбинантные векторы экспрессии могут нести дополнительные последовательности, такие как последовательности, которые регулируют репликацию вектора в клетках-хозяевах (например, происхождение репликации) и селектируемые маркерные гены. Селектируемый маркерный ген может облегчить отбор клеток-хозяев, в которые был введен вектор (см., например, Патенты США 4399216; 4634665 и 5179017). Например, селектируемый маркерный ген может придавать устойчивость к лекарствам, таким как G418, гигромицин или метотрексат, в клетке-хозяине, в которую был введен вектор. Типичные селектируемые маркерные гены включают, но не ограничиваются ими, ген дигидрофолатредуктазы (DHFR - dihydrofolate reductase) (для использования в клетках-хозяевах dhfr с селекцией/амплификацией метотрексата), ген neo (для селекции G418) и ген глутамат-синтетазы (GS).

Данное раскрытие также относится к выделенным полипептидам, содержащим полипептид варианта B4GALT1 (Asn352Ser). Иллюстративному полипептиду B4GALT1 человека дикого типа присвоен регистрационный номер UniProt P15291 (SEQ ID NO:7), и он состоит из 398 аминокислот. Человеческий вариантный полипептид B4GALT1 содержит серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1 (SEQ ID NO:8), в отличие от аспарагина в том же положении у человека дикого типа B4GALT1 (сравнение SEQ ID NO:8 с SEQ ID NO:7 соответственно). В некоторых вариантах осуществления выделенный полипептид содержит SEQ ID NO:8. В некоторых вариантах осуществления выделенный полипептид состоит из SEQ ID NO:8.

В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая имеет, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80%, по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая имеет, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 96%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100% идентичности SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 90% идентична последовательности SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 90% идентична последовательности SEQ ID NO:8, и содержат серин в положении, соответствующем положению 352 последовательности SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 90% идентична SEQ ID NO:8, при условии, что выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8.

В некоторых вариантах осуществления выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 95% идентична последовательности SEQ ID NO:8. В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 95% идентична последовательности SEQ ID NO:8, и содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 95% идентична последовательности SEQ ID NO:8, при условии, что выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 98% идентична последовательности SEQ ID NO:8. В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 98% идентична последовательности SEQ ID NO:8, и содержат серин в положении, соответствующем положению 352 последовательности SEQ ID NO:8. В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 98% идентична последовательности SEQ ID NO:8, при условии, что выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 99% идентична последовательности SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 99% идентична последовательности SEQ ID NO:8, и содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, которая, по меньшей мере, на около 99% идентична последовательности SEQ ID NO:8, при условии, что выделенные полипептиды содержат серин в положении, соответствующем положению 352 SEQ ID NO:8.

В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 150, по меньшей мере, около 200, по меньшей мере, около 250, по меньшей мере, около 300 или, по меньшей мере, около 350 смежных аминокислот из SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на около 70%, по меньшей мере, на около 75%, по меньшей мере, на около 80%, по меньшей мере, на около 85%, по меньшей мере, на около 90%, по меньшей мере, на около 91%, по меньшей мере, на около 92%, по меньшей мере, на около 93%, по меньшей мере, на около 94%, по меньшей мере, на около 95%, по меньшей мере, на около 96%, по меньшей мере, на около 97%, по меньшей мере, на около 98%, по меньшей мере, на около 99%, или на 100% идентичной, по меньшей мере, около 8, по меньшей мере, около 10, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 150, по меньшей мере, около 200, по меньшей мере, около 250, по меньшей мере, около 300 или, по меньшей мере, около 350 смежных аминокислот SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на около 90%, по меньшей мере, на около 91%, по меньшей мере, на около 92%, по меньшей мере, на около 93%, по меньшей мере, на около 94%, по меньшей мере, на около 95%, по меньшей мере, на около 96%, по меньшей мере, на около 97%, по меньшей мере, на около 98%, по меньшей мере, на около 99% или на 100% идентичной, по меньшей мере, около 8, по меньшей мере, около 10, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, по меньшей мере, около 100, по меньшей мере, около 150, по меньшей мере, около 200, по меньшей мере, около 250, по меньшей мере, около 300 или, по меньшей мере, около 350 смежных аминокислот SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO:8.

В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 90% идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8. В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 90%, идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8, и выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO: 8. В некоторых вариантах осуществления изобретения выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 95% идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 95% идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8, и выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO: 8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 98% идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 98% идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8, и выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO: 8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 99% идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на 99% идентичной, по меньшей мере, 300 смежным аминокислотам SEQ ID NO:8, и выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO: 8.

В некоторых вариантах осуществления выделенные полипептиды включают или состоят из, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90 или, по меньшей мере, около 100 смежных аминокислот SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на около 70%, по меньшей мере, на около 75%, по меньшей мере, на около 80%, по меньшей мере, на около 85%, по меньшей мере, на около 90%, по меньшей мере, на около 91%, по меньшей мере, на около 92%, по меньшей мере, на около 93%, по меньшей мере, на около 94%, по меньшей мере, на около 95%, по меньшей мере, на около 96%, по меньшей мере, на около 97%, по меньшей мере, на около 98%, по меньшей мере, на около 99%, или на 100% идентичной, по меньшей мере, около 8, по меньшей мере, около 10, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90 или, по меньшей мере, около 100 смежных аминокислот из SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды содержат или состоят из аминокислотной последовательности, по меньшей мере, на около 90%, по меньшей мере, на около 91%, по меньшей мере, на около 92%, по меньшей мере, на около 93%, по меньшей мере, на около 94%, по меньшей мере, на около 95%, по меньшей мере, на около 96%, по меньшей мере, на около 97%, по меньшей мере, на около 98%, по меньшей мере, на около 99% или 100% идентично, по меньшей мере, около 8, по меньшей мере, около 10, по меньшей мере, около 15, по меньшей мере, около 20, по меньшей мере, около 25, по меньшей мере, около 30, по меньшей мере, около 35, по меньшей мере, около 40, по меньшей мере, около 45, по меньшей мере, около 50, по меньшей мере, около 60, по меньшей мере, около 70, по меньшей мере, около 80, по меньшей мере, около 90, или, по меньшей мере, около 100 смежных аминокислот SEQ ID NO:8. В некоторых вариантах осуществления выделенные полипептиды также содержат серин в положении, соответствующем положению 352 SEQ ID NO:8.

Репрезентативная полипептидная последовательность B4GALT1 дикого типа приведена в SEQ ID NO:7. Типичная полипептидная последовательность B4GALT1 приведена в SEQ ID NO:8.

Выделенные полипептиды, раскрытые в данном описании, могут содержать аминокислотную последовательность встречающегося в природе полипептида B4GALT1 или встречающейся в природе последовательности. В некоторых вариантах осуществления встречающаяся в природе последовательность может отличаться от не встречающейся в природе последовательности вследствие консервативных аминокислотных замен. Например, последовательность может быть идентичной, за исключением консервативных аминокислотных замен.

В некоторых вариантах осуществления выделенные полипептиды, раскрытые в данном документе, связаны или слиты с гетерологичными полипептидами или гетерологичными молекулами или метками, многочисленные примеры которых раскрыты в другом месте в данном документе. Например, белки могут быть слиты с гетерологичным полипептидом, обеспечивающим повышенную или пониженную стабильность. Слитый домен или гетерологичный полипептид может быть расположен на N-конце, С-конце или внутри полипептида. Партнер слияния может, например, способствовать получению Т-хелперных эпитопов (иммунологический партнер слияния) или может способствовать экспрессии белка (энхансера экспрессии) с более высокими выходами, чем нативный рекомбинантный полипептид. Некоторые партнеры по слиянию являются как иммунологическими партнерами, так и партнерами по повышению экспрессии. Другие партнеры по слиянию могут быть выбраны для увеличения растворимости полипептида или для облегчения нацеливания полипептида на желаемые внутриклеточные компартменты. Некоторые партнеры по слиянию включают аффинные метки, которые облегчают очистку полипептида.

В некоторых вариантах осуществления слитый белок непосредственно слит с гетерологичной молекулой или связан с гетерологичной молекулой через линкер, такой как пептидный линкер. Подходящие пептидные линкерные последовательности могут быть выбраны, например, на основе следующих факторов: 1) способность принимать гибкую расширенную конформацию; 2) устойчивость к принятию вторичной структуры, которая могла бы взаимодействовать с функциональными эпитопами на первом и втором полипептидах; и 3) отсутствие гидрофобных или заряженных остатков, которые могли бы реагировать с полипептидными функциональными эпитопами. Например, пептидные линкерные последовательности могут содержать остатки Gly, Asn и Ser. Другие почти нейтральные аминокислоты, такие как Thr и Ala, также могут быть использованы в линкерной последовательности. Аминокислотные последовательности, которые могут быть с успехом использованы в качестве линкеров, включают последовательности, раскрытые, например, в Maratea et al., Gene, 1985, 40, 39-46; Murphy et al., Proc. Natl. Acad. Sci. США, 1986, 83, 8258-8262; и патенты США 4935233 и 4751180. Линкерная последовательность обычно может иметь длину, например, от 1 до 50 аминокислот. Линкерные последовательности обычно не требуются, когда первый и второй полипептиды имеют несущественные N-концевые аминокислотные области, которые можно использовать для разделения функциональных доменов и предотвращения стерического вмешательства.

В некоторых вариантах осуществления полипептиды функционально связаны с проникающим в клетку доменом. Например, проникающий в клетку домен может быть получен из белка ТАТ ВИЧ-1, проникающего в клетки TLM мотива вируса гепатита В человека, MPG, Pep-1, VP22, и проникающего в клетку пептида из вируса простого герпеса или пептидной последовательности полиаргинина. См., например, WO 2014/089290. Проникающий в клетку домен может быть локализован на N-конце, C-конце или в любом месте белка.

В некоторых вариантах осуществления полипептиды функционально связаны с гетерологичным полипептидом для простоты отслеживания или очистки, таким как флуоресцентный белок, метка очистки или метка эпитопа. Примеры флуоресцентных белков включают, но не ограничиваются ими, зеленые флуоресцентные белки (например, GFP, GFP-2, tagGFP, turboGFP, eGFP, Emerald, Azami Green, мономерный Azami Green, CopGFP, AceGFP, ZsGreenl), желтые флуоресцентные белки (например, YFP, eYFP, цитрин, венера, YPet, PhiYFP, ZsYellowl), голубые флуоресцентные белки (например, eBFP, eBFP2, азурит, mKalamal, GFPuv, сапфир, T-сапфир), синие флуоресцентные белки (например, eCFP, Cerulean, CyPet, AmCyanl, Midoriishi-Cyan), красные флуоресцентные белки (mKate, mKate2, mPlum, мономер DsRed, mCherry, mRFP1, DsRed-Express, DsRed2, DsRed-мономер, HcRed-тандем, HcRedl, AsRed2, eqFP611, mRaspberry, mStrawberry, Jred) оранжевые флуоресцентные белки (mOrange, mKO, Kusabira-Orange, мономерный Kusabira-Orange, mTangerine, tdTomato) и любой другой подходящий флуоресцентный белок. Примеры тэгов включают, но не ограничиваются ими, глутатион-S-трансферазу (GST), хитин-связывающий белок (CBP), мальтозосвязывающий белок, тиоредоксин (TRX), поли (NANP), тэг тандемной аффинной очистки (TAP), myc, AcV5, AU1, AU5, E, ECS, E2, FLAG, гемагглютинин (HA), nus, Softag 1, Softag 3, Strep, SBP, Glu-Glu, HSV, KT3, S, S1, T7, V5, VSV- G, гистидин (His), биотин-карбоксильный белок-носитель (BCCP) и кальмодулин. В некоторых вариантах осуществления гетерологичная молекула представляет собой Fc-домен иммуноглобулина, пептидную метку, домен трансдукции, поли (этиленгликоль), полисиаловую кислоту или гликолевую кислоту.

В некоторых вариантах осуществления выделенные полипептиды включают неприродные или модифицированные аминокислоты или пептидные аналоги. Например, существует множество D-аминокислот или аминокислот, которые имеют функциональный заместитель, отличный от встречающихся в природе аминокислот. Раскрываются противоположные стереоизомеры встречающихся в природе пептидов, а также стереоизомеры пептидных аналогов. Эти аминокислоты могут быть легко включены в полипептидные цепи путем зарядки молекул тРНК выбранной аминокислотой и конструирования генетических конструкций, которые используют, например, янтарные кодоны, для вставки аналога аминокислоты в пептидную цепь сайт-специфическим способом.

В некоторых вариантах осуществления выделенные полипептиды представляют собой пептидные миметики, которые могут быть получены, чтобы напоминать пептиды, но которые не связаны через природную пептидную связь. Например, связи для аминокислот или аналогов аминокислот включают, но не ограничиваются ими, -CH2NH-, -CH2S-, -CH2-, -CH=CH- (цис и транс), -COCH2-, -CH (OH) CH2- и -CHH2SO-. Аналоги пептидов могут иметь более одного атома между атомами связи, такие как ß-аланин, гаминомасляная кислота и тому подобное. Аминокислотные аналоги и пептидные аналоги часто имеют улучшенные или желательные свойства, такие как более экономичное производство, более высокая химическая стабильность, улучшенные фармакологические свойства (период полураспада, абсорбция, активность, эффективность и т. д.). Измененная специфичность (например, широкий спектр биологической активности), сниженная антигенность и другие желательные свойства.

В некоторых вариантах осуществления выделенные полипептиды содержат D-аминокислоты, которые можно использовать для получения более стабильных пептидов, поскольку D-аминокислоты не распознаются пептидазами. Систематическое замещение одной или более аминокислот консенсусной последовательности на D-аминокислоту того же типа (например, D-лизин вместо L-лизина) можно использовать для получения более стабильных пептидов. Остатки цистеина могут быть использованы для циклизации или присоединения двух или более пептидов вместе. Это может быть полезным для ограничения пептидов в определенных конформациях (см., например, Rizo and Gierasch, Ann. Rev. Biochem., 1992, 61, 387).

Данное раскрытие также относится к молекулам нуклеиновой кислоты, кодирующим любой из полипептидов, раскрытых в данном документе. Это включает все вырожденные последовательности, относящиеся к конкретной полипептидной последовательности (то есть все нуклеиновые кислоты, имеющие последовательность, кодирующую одну конкретную полипептидную последовательность, а также все нуклеиновые кислоты, включая вырожденные нуклеиновые кислоты, кодирующие раскрытые варианты и производные белковых последовательностей). Таким образом, хотя каждая конкретная последовательность нуклеиновой кислоты не может быть записана в данном документе, все и каждая последовательность фактически раскрывается и описывается в данном документе посредством раскрытых полипептидных последовательностей.

Данное раскрытие также относится к композициям, содержащим любую одну или более молекул нуклеиновой кислоты и/или любой один или более полипептидов, раскрытых в данном документе. В некоторых вариантах осуществления композиции содержат носитель. В некоторых вариантах осуществления носитель повышает стабильность молекулы нуклеиновой кислоты и/или полипептида (например, продлевая период хранения при данных условиях (например, -20°C, 4°C или температуре окружающей среды), для которых остаются продукты разложения ниже порогового значения, такого как ниже 0,5 мас.% исходной нуклеиновой кислоты или белка, или повышение стабильности in vivo). Примеры носителей включают, но не ограничиваются ими, микросферы из поли (молочной кислоты) (PLA), микросферы из поли (D, L-молочной-гликолевой кислоты) (PLGA), липосомы, мицеллы, обратные мицеллы, липидные кохлеаты, и липидные микротрубочки.

Данное раскрытие также предоставляет способы получения любого из полипептидов B4GALT1 или их фрагментов, раскрытых в данном документе. Такие полипептиды B4GALT1 или их фрагменты могут быть получены любым подходящим способом. Например, полипептиды B4GALT1 или их фрагменты могут быть получены из клеток-хозяев, содержащих молекулы нуклеиновой кислоты (например, рекомбинантные векторы экспрессии), кодирующие такие полипептиды B4GALT1 или их фрагменты. Такие способы могут включать культивирование клетки-хозяина, содержащей молекулу нуклеиновой кислоты (например, рекомбинантный вектор экспрессии), кодирующую полипептид B4GALT1 или его фрагмент, в условиях, достаточных для получения полипептида B4GALT1 или его фрагмента, в результате чего получается полипептид B4GALT1 или его фрагмент. Нуклеиновая кислота может быть функционально связана с активным промотором в клетке-хозяине, и культивирование можно проводить в условиях, в которых экспрессируется нуклеиновая кислота. Такие способы могут дополнительно включать извлечение экспрессированного полипептида B4GALT1 или его фрагмента. Извлечение может дополнительно включать очистку полипептида B4GALT1 или его фрагмента.

Примеры подходящих систем для экспрессии белка включают клетки-хозяева, такие как, например: системы экспрессии бактериальных клеток (например, Escherichia coli, Lactococcus lactis), системы экспрессии дрожжевых клеток (например, Saccharomyces cerevisiae, Pichia pastoris), системы экспрессии клеток насекомых (например, бакуловирус-опосредованная экспрессия белка) и системы экспрессии клеток млекопитающих.

Примеры молекул нуклеиновых кислот, кодирующих полипептиды B4GALT1 или их фрагменты, раскрыты более подробно в другом месте данного документа. В некоторых вариантах осуществления молекулы нуклеиновой кислоты оптимизированы по кодонам для экспрессии в клетке-хозяине. В некоторых вариантах осуществления молекулы нуклеиновой кислоты функционально связаны с активным промотором в клетке-хозяине. Промотор может быть гетерологичным промотором (т.е. промотором, который не является природным промотором B4GALT1). Примеры промоторов, подходящих для Escherichia coli, включают, но не ограничиваются ими, арабинозу, lac, tac и T7 промоторы. Примеры промоторов, подходящих для Lactococcus lactis, включают, но не ограничиваются ими, промоторы P170 и низина. Примеры промоторов, подходящих для Saccharomyces cerevisiae, включают, но не ограничиваются ими, конститутивные промоторы, такие как промоторы алкогольдегидрогеназы (ADHI) или энолазы (ENO) или индуцибельные промоторы, такие как PHO, CUP1, GAL1 и G10. Примеры промоторов, подходящих для Pichia pastoris, включают, но не ограничиваются ими, промотор алкогольоксидазы I (AOX I), промотор глицеральдегид-3-фосфат-дегидрогеназы (GAP) и промотор глутатион-зависимой формальдегид-дегидрогеназы (FLDI). Примером промотора, подходящего для бакуловирус-опосредованной системы, является поздний вирусный сильный полиэдриновый промотор.

В некоторых вариантах осуществления молекулы нуклеиновой кислоты кодируют метку в рамке с полипептидом B4GALT1 или его фрагментом для облегчения очистки белка. Примеры тегов раскрыты в другом месте в данном документе. Такие метки могут, например, связываться с лигандом-партнером (например, иммобилизованным на смоле), так что меченый белок может быть выделен из всех других белков (например, белков клетки-хозяина). Аффинная хроматография, высокоэффективная жидкостная хроматография (ВЭЖХ) и эксклюзионная хроматография (SEC - size exclusion chromatography) являются примерами методов, которые можно использовать для улучшения чистоты экспрессируемого белка.

Другие способы также могут быть использованы для получения полипептидов B4GALT1 или их фрагментов. Например, два или более пептидов или полипептидов могут быть связаны друг с другом методами химии белка. Например, пептиды или полипептиды могут быть химически синтезированы с использованием химии Fmoc (9-флуоренилметилоксикарбонил) или Boc (tert-бутилоксикарбоноил). Такие пептиды или полипептиды могут быть синтезированы стандартными химическими реакциями. Например, пептид или полипептид может быть синтезирован и не отщеплен от его синтетической смолы, тогда как другой фрагмент пептида или белка может быть синтезирован и впоследствии отщеплен от смолы, тем самым подвергая концевую группу, которая функционально блокирована на другом фрагменте. В результате реакций конденсации пептидов эти два фрагмента могут быть ковалентно связаны через пептидную связь на их карбоксильном и аминоконце, соответственно. Альтернативно, пептид или полипептид может быть независимо синтезирован in vivo, как описано в данном документе. После выделения эти независимые пептиды или полипептиды могут быть связаны с образованием пептида или его фрагмента посредством аналогичных реакций конденсации пептидов.

В некоторых вариантах осуществления ферментативное лигирование клонированных или синтетических пептидных сегментов позволяет соединять относительно короткие пептидные фрагменты для получения более крупных пептидных фрагментов, полипептидов или целых белковых доменов (Abrahmsen et al., Biochemistry, 1991, 30, 4151). Альтернативно, нативное химическое лигирование синтетических пептидов может быть использовано для синтетического конструирования больших пептидов или полипептидов из более коротких пептидных фрагментов. Этот метод может состоять из двухэтапной химической реакции (см. Dawson et al., Science, 1994, 266, 776-779). Первым этапом может быть хемоселективная реакция незащищенного синтетического пептидтиоэфира с другим незащищенным пептидным сегментом, содержащим аминоконцевой остаток Cys, с получением промежуточного соединения, связанного с тиоэфиром, в качестве исходного ковалентного продукта. Без изменения условий реакции это промежуточное соединение может подвергаться спонтанной, быстрой внутримолекулярной реакции с образованием нативной пептидной связи в месте лигирования.

В некоторых вариантах осуществления незащищенные пептидные сегменты могут быть химически связаны, когда связь, образованная между пептидными сегментами в результате химического лигирования, представляет собой неестественную (непептидную) связь (см. Schnolzer et al., Science, 1992, 256)., 221).

Данное раскрытие также относится к клеткам (например, рекомбинантным клеткам-хозяевам), содержащим любую одну или более молекул нуклеиновой кислоты и/или любой один или более полипептидов, раскрытых в данном документе. Клетки могут быть in vitro, ex vivo или in vivo. Молекулы нуклеиновой кислоты могут быть связаны с промотором и другими регуляторными последовательностями, поэтому они экспрессируются с образованием кодируемого белка.

В некоторых вариантах осуществления клетка представляет собой тотипотентную клетку или плюрипотентную клетку (например, эмбрионую стволовую (ES) клетку, такую как ES клетка грызунов, ES клетка мыши или ES клетка крысы). Тотипотентные клетки включают недифференцированные клетки, которые могут давать клетки любого типа, а плюрипотентные клетки включают недифференцированные клетки, которые обладают способностью развиваться в более чем один тип дифференцированных клеток. Такими плюрипотентными и/или тотипотентными клетками могут быть, например, ES клетки или ES-подобные клетки, такие как индуцированные плюрипотентные стволовые (iPS) клетки. ES клетки включают в себя эмбриональные тотипотентные или плюрипотентные клетки, которые способны вносить вклад в любую ткань развивающегося эмбриона при введении в эмбрион. ES клетки могут быть получены из внутренней клеточной массы бластоцисты и способны дифференцироваться в клетки любого из трех слоев зародышей позвоночных (энтодерма, эктодерма и мезодерма).

В некоторых вариантах осуществления клетка представляет собой первичную (primary) соматическую клетку или клетку, которая не является первичной соматической клеткой. Соматические клетки могут включать любую клетку, которая не является гаметой, зародышевой клеткой, гаметоцитом или недифференцированной стволовой клеткой. В некоторых вариантах осуществления клетка также может быть первичной клеткой. Первичные клетки включают клетки или культуры клеток, которые были выделены непосредственно из организма, органа или ткани. Первичные клетки включают клетки, которые не являются ни трансформированными, ни иммортализированными. Первичные клетки включают любую клетку, полученную из организма, органа или ткани, которая ранее не была введена в культуру ткани или ранее была введена в культуру ткани, но не способна бесконечно вводится в культуру ткани. Такие клетки могут быть выделены общепринятыми методами и включают, например, соматические клетки, кроветворные клетки, эндотелиальные клетки, эпителиальные клетки, фибробласты, мезенхимные клетки, кератиноциты, меланоциты, моноциты, мононуклеарные клетки, адипоциты, преадипоциты, нейроны, глиальные клетки, гепатоциты, скелетные миобласты и гладкомышечные клетки. Например, первичные клетки могут быть получены из соединительных тканей, мышечных тканей, тканей нервной системы или эпителиальных тканей.

В некоторых вариантах осуществления клетки могут обычно не размножаться бесконечно, но из-за мутации или изменения избегают нормального клеточного старения и вместо этого могут продолжать подвергаться делению. Такие мутации или изменения могут происходить естественным путем или быть преднамеренно вызванными. Примеры иммортализованных клеток включают, но не ограничиваются ими, клетки яичника китайского хомячка (СНО), клетки эмбриональной почки человека (например, клетки HEK 293) и клетки эмбриональной фибробласта мыши (например, клетки 3T3). Многочисленные типы иммортализованных клеток хорошо известны. Иммортализированные или первичные клетки включают клетки, которые обычно используются для культивирования или для экспрессии рекомбинантных генов или белков. В некоторых вариантах осуществления клетка представляет собой дифференцированную клетку, такую как клетка печени (например, клетка печени человека).

Клетка может быть из любого источника. Например, клетка может быть эукариотической клеткой, животной клеткой, растительной клеткой или грибковой (например, дрожжевой) клеткой. Такими клетками могут быть клетки рыб или клетки птиц, или такие клетки могут быть клетками млекопитающих, такими как клетки человека, клетки млекопитающих, отличных от человека, клетки грызунов, клетки мыши или клетки крысы. Млекопитающие включают, но не ограничиваются ими, людей, приматов, не являющихся людьми, обезьян, макак, кошек, собак, лошадей, быков, оленей, бизонов, овец, грызунов (например, мышей, крыс, хомяков, морских свинок), домашний скот (например, виды крупного рогатого скота, такие как коровы, быки и т.д.; виды овец, такие как овцы, козы и т.д.; и виды свиней, такие как свиньи и кабаны). Птицы включают, но не ограничиваются ими, кур, индеек, страусов, гусей, уток и т.д. Домашние животные и сельскохозяйственные животные также включаются/имеются ввиду. Термин «животное, отличное от человека» исключает людей.

Данное раскрытие также обеспечивает способы обнаружения присутствия варианта гена, мРНК, кДНК и/или полипептида B4GALT1 в биологическом образце от субъекта-человека. Понятно, что последовательности генов в популяции и мРНК и белки, кодируемые такими генами, могут варьироваться из-за полиморфизмов, таких как однонуклеотидные полиморфизмы. Последовательности, представленные в данном документе для гена, мРНК, кДНК и полипептида B4GALT1, являются только иллюстративными последовательностями. Также возможны другие последовательности для гена, мРНК, кДНК и полипептида B4GALT1.

Биологический образец может быть получен из любой клетки, ткани или биологической жидкости от субъекта. Образец может содержать любую клинически значимую ткань, такую как образец костного мозга, биопсия опухоли, тонкоигольный аспират или образец жидкости организма, такой как кровь, плазма, сыворотка, лимфа, асцитическая жидкость, кистозная жидкость или моча. В некоторых случаях образец содержит щечный тампон. Образец, используемый в способах, раскрытых в данном документе, будет варьироваться в зависимости от формата анализа, природы метода обнаружения и тканей, клеток или экстрактов, которые используются в качестве образца. Биологический образец может быть обработан по-разному в зависимости от используемого анализа. Например, при обнаружении варианта молекулы нуклеиновой кислоты B4GALT1 можно использовать предварительную обработку, предназначенную для выделения или обогащения образца для геномной ДНК. Для этой цели можно использовать множество известных методов. При определении уровня мРНК B4GALT1 можно использовать различные методы для обогащения биологического образца мРНК. Могут быть использованы различные методы для определения наличия или уровня мРНК или присутствия определенного варианта геномного локуса ДНК.

В некоторых вариантах осуществления данное изобретение относится к способам обнаружения наличия или отсутствия варианта молекулы нуклеиновой кислоты B4GALT1, включающему секвенирование, по меньшей мере, части нуклеиновой кислоты в биологическом образце, чтобы определить, содержит ли нуклеиновая кислота нуклеотиды с 53757 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2.

В некоторых вариантах осуществления данное изобретение относится к способам обнаружения наличия или отсутствия варианта молекулы нуклеиновой кислоты B4GALT1, включающему секвенирование, по меньшей мере, части нуклеиновой кислоты в биологическом образце для определения того, содержит ли нуклеиновая кислота нуклеотиды с 1243 по 1245 из SEQ ID NO:4 в положениях, которые соответствуют положениям с 1243 по 1245 из SEQ ID NO:4.

В некоторых вариантах осуществления данное изобретение относится к способам обнаружения присутствия или отсутствия варианта молекулы нуклеиновой кислоты B4GALT1 варианта, включающему секвенирование, по меньшей мере, части нуклеиновой кислоты в биологическом образце для определения того, содержит ли нуклеиновая кислота нуклеотиды с 1054 по 1056 последовательности SEQ ID NO:6 в положениях, которые соответствуют положениям 1054-1056 SEQ ID NO:6.

В некоторых вариантах осуществления способы обнаружения наличия или отсутствия варианта молекулы нуклеиновой кислоты (например, гена, мРНК или кДНК) B4GALT1 у человека включают в себя: выполнение анализа на биологическом образце от человека, который определяет, содержит ли молекула нуклеиновой кислоты в биологическом образце последовательность нуклеиновой кислоты, которая кодирует серин в положении 352 SEQ ID NO:8. В некоторых вариантах осуществления биологический образец содержит клетку или клеточный лизат. Такие способы могут включать, например, получение биологического образца от субъекта, содержащего ген B4GALT1, мРНК или кДНК, и проведение анализа биологического образца, который определяет, что положение гена, мРНК или кДНК B4GALT1 соответствующие положениям с 53757 по 53577 из SEQ ID NO:2 (ген), положениям с 1243 по 1245 из SEQ ID NO:4 (мРНК) или положениям 1054-1056 SEQ ID NO:6 (кДНК) кодирует серин вместо аспарагина в положении, соответствующем положению 352 варианта полипептида B4GALT1. Такие анализы могут включать, например, определение идентичности этих положений конкретной молекулы нуклеиновой кислоты B4GALT1.

В некоторых вариантах осуществления анализ включает в себя: секвенирование части геномной последовательности молекулы нуклеиновой кислоты B4GALT1 в биологическом образце от человека, при этом секвенированная часть включает положения, соответствующие положениям с 53575 по 53577 из SEQ ID NO:2; секвенирование части последовательности молекулы нуклеиновой кислоты мРНК B4GALT1 в биологическом образце от человека, при этом секвенированная часть включает положения, соответствующие положениям с 1243 по 1245 из SEQ ID NO:4; или секвенирование части последовательности молекулы нуклеиновой кислоты кДНК B4GALT1 в биологическом образце от человека, при этом секвенированная часть включает положения, соответствующие положениям с 1054 по 1056 последовательности SEQ ID NO:6.

В некоторых вариантах осуществления анализ включает в себя: a) приведение биологического образца в контакт с праймером, гибридизующимся с: i) частью геномной последовательности B4GALT1, которая является ближайшей к положению геномной последовательности B4GALT1, соответствующей положениям с 53575 по 53577 из SEQ ID NO:2; ii) частью последовательности мРНК B4GALT1, которая находится вблизи положения мРНК B4GALT1, соответствующего положениям с 1243 по 1245 из SEQ ID NO:4; или iii) частью последовательности кДНК B4GALT1, которая находится вблизи положения кДНК B4GALT1, соответствующего положениям 1054-1056 SEQ ID NO:6; b) удлинение праймера, по меньшей мере, далее: i) положение геномной последовательности B4GALT1, соответствующее положениям с 53575 по 53577; ii) положение мРНК B4GALT1, соответствующее положениям с 1243 по 1245; или iii) положение кДНК B4GALT1, соответствующее положениям с 1054 по 1056; и c) определение того, содержит ли продукт удлинения праймера нуклеотиды в положениях: i) соответствующих положениям 53575-53577 геномной последовательности B4GALT1 ; ii) соответствующих положениям с 1243 по 1245 мРНК B4GALT1 ; или iii) соответствующих положениям с 1054 по 1056 кДНК B4GALT1 ; которые кодируют серин в положении 352 из SEQ ID NO:8. В некоторых вариантах осуществления анализируется только геномная ДНК B4GALT1. В некоторых вариантах осуществления анализируется только мРНК B4GALT1. В некоторых вариантах осуществления анализируется только кДНК B4GALT1.

В некоторых вариантах осуществления анализ включает контакт биологического образца с праймером или зондом, который специфически гибридизуется с вариабельной геномной последовательностью B4GALT1, последовательностью мРНК или последовательностью кДНК, а не с соответствующей последовательностью B4GALT1 дикого типа в строгих условиях, и определение того, произошла ли гибридизация.

В некоторых вариантах осуществления описанные выше анализы включают РНК-секвенирование (RNA-Seq). В некоторых вариантах осуществления анализы также включают полимеразную цепную реакцию с обратной транскрипцией (ОТ-ПЦР).

В некоторых вариантах осуществления в этих способах используются зонды и праймеры с достаточной длиной нуклеотида, чтобы связываться с последовательностью нуклеиновой кислоты-мишени и специфически обнаруживать и/или идентифицировать полинуклеотид, содержащий вариантный ген, мРНК или кДНК B4GALT1. Условия гибридизации или условия реакции могут быть определены оператором для достижения этого результата. Эта длина может быть любой длины, достаточной для использования в выбранном способе обнаружения. Обычно, например, около 8, около 11, около 14, около 16, около 18, около 20, около 22, около 24, около 26, около 28, около 30, около 40, около 50, около 75, около 100, около 200, около 300, около 400, около 500, около 600 или около 700 нуклеотидов или более, или от около 11 до около 20, от около 20 до около 30, от около 30 до около 40, от около 40 до около 50, от около 50 до около 100, от около 100 до около 200, от около 200 до около 300, от около 300 до около 400, от около 400 до около 500, от около 500 до около 600, от около 600 до около 700 или от около 700 до около 800 или более нуклеотидов в длину. Такие зонды и праймеры могут специфически гибридизоваться с последовательностью-мишенью в условиях гибридизации с высокой строгостью. Зонды и праймеры могут иметь полную идентичность последовательности нуклеиновой кислоты смежных нуклеотидов с последовательностью-мишенью, хотя зонды, отличающиеся от последовательности нуклеиновой кислоты-мишени и сохраняющие способность специфически обнаруживать и/или идентифицировать последовательность нуклеиновой кислоты-мишени, могут быть сконструированы обычными способами. Соответственно, зонды и праймеры могут иметь около 80%, около 85%, около 90%, около 91%, около 92%, около 93%, около 94%, около 95%, около 96%, около 97%, около 98% около 99% или 100% идентичности или комплементарности последовательности к целевой молекуле нуклеиновой кислоты.

В некоторых вариантах осуществления специфические праймеры можно использовать для амплификации варианта мРНК или кДНК варианта B4GALT1 и/или B4GALT1, чтобы получить ампликон, который можно использовать в качестве специфического зонда или сам можно обнаружить для идентификации варианта B4GALT1 локус или для определения уровня специфической B4GALT1 мРНК или кДНК в биологическом образце. Вариантный локус B4GALT1 можно использовать для обозначения последовательности геномной нуклеиновой кислоты, включающей положение, соответствующее положениям с 53575 по 53577 в SEQ ID NO:2. Когда зонд гибридизуется с молекулой нуклеиновой кислоты в биологическом образце в условиях, которые позволяют связать зонд с молекулой нуклеиновой кислоты, это связывание может быть обнаружено и позволяет указывать на присутствие варианта локуса B4GALT1 или наличие или уровень мРНК или кДНК варианта B4GALT1 в биологическом образце. Такая идентификация связанного зонда была описана. Конкретный зонд может содержать последовательность, по меньшей мере, на около 80%, от на около 80% до на около 85%, от на около 85% до на около 90%, от на около 90% до на около 95% и от на около 95% до на около 100% идентичную (или комплементарную) определенной области варианта гена B4GALT1. Конкретный зонд может содержать последовательность, по меньшей мере, на около 80%, от на около 80% до на около 85%, от на около 85% до на около 90%, от на около 90% до на около 95% и от на около 95% до на около 100% идентичную (или комплементарную) определенной области мРНК варианта B4GALT1. Конкретный зонд может содержать последовательность, по меньшей мере, на около 80%, от на около 80% до на около 85%, от на около 85% до на около 90%, от на около 90% до на около 95% и от на около 95% до на около 100% идентиченую (или комплементарную) определенной области кДНК варианта B4GALT1.

В некоторых вариантах осуществления для определения того, содержит ли комплемент нуклеиновой кислоты биологического образца нуклеиновые последовательности, кодирующие серин, в положениях с 53575 по 53577 в локусе гена варианта B4GALT1 (SEQ ID NO:2), биологический образец может быть подвергнут воздействию нуклеиновой кислоты. Метод кислотной амплификации с использованием пары праймеров, который включает первый праймер, полученный из 5'-фланкирующей последовательности, смежной с положениями с 53575 по 53577, и второй праймер, полученный из 3' фланкирующей последовательности, смежной с положениями с 53575 по 53577, для получения ампликона, который является диагностическим для присутствия ОНП в положениях с 53575 по 53577 в локусе гена варианта B4GALT1 (SEQ ID NO:2). В некоторых вариантах осуществления длина ампликона может варьироваться от объединенной длины пар праймеров плюс одна пара нуклеотидных оснований до любой длины ампликона, продуцируемой по протоколу амплификации ДНК. Это расстояние может составлять от одной пары нуклеотидных оснований до пределов реакции амплификации или около двадцати тысяч нуклеотидных пар оснований. Необязательно, пара праймеров окружает область, включающую положения с 53575 по 53577 и, по меньшей мере, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 или более нуклеотидов на каждой стороне от положений 53575 до 53577. Подобные ампликоны могут быть получены из последовательностей мРНК и/или кДНК.

Типичные способы получения и использования зондов и праймеров описаны, например, в Molecular Cloning: A Laboratory Manual, 2nd Ed., Vol. 1-3, ed. Sambrook et al., Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y. 1989 (далее, “Sambrook et al., 1989”); Current Protocols in Molecular Biology, ed. Ausubel et al., Greene Publishing and Wiley-Interscience, New York, 1992 (с периодическими обновлениями) (далее «Ausubel et al., 1992»); и Innis et al., PCR Protocols: A Guide to Methods and Applications, Academic Press: San Diego, 1990. Пары праймеров для ПЦР могут быть получены из известной последовательности, например, с использованием компьютерных программ, предназначенных для этой цели, таких как инструмент анализа праймеров для ПЦР в Vector NTI версии 10 (Informax Inc., Bethesda Md.); PrimerSelect (DNASTAR Inc., Мэдисон, Висконсин); и Primer3 (версия 0.4.0. COPYRGT., 1991, Институт биомедицинских исследований Уайтхеда, Кембридж, штат Массачусетс). Кроме того, последовательность можно визуально сканировать и вручную определять праймеры с использованием известных рекомендаций.

Как более подробно описано ниже, любой традиционный метод гибридизации, амплификации или секвенирования нуклеиновых кислот можно использовать для специфического выявления присутствия варианта локуса гена варианта B4GALT1 и/или уровня мРНК или кДНК варианта B4GALT1. В некоторых вариантах осуществления молекулу нуклеиновой кислоты можно использовать либо в качестве праймера для амплификации области нуклеиновой кислоты B4GALT1, либо молекулу нуклеиновой кислоты можно использовать в качестве зонда, который гибридизуется в жестких условиях с молекулой нуклеиновой кислоты, содержащей локус гена варианта B4GALT1 или молекула нуклеиновой кислоты, содержащая мРНК или кДНК варианта B4GALT1.

Известно множество способов связанных с нуклеиновыми кислотами, включая, например, секвенирование нуклеиновых кислот, гибридизацию нуклеиновых кислот и амплификацию нуклеиновых кислот. Иллюстративные примеры методов секвенирования нуклеиновых кислот включают, но не ограничиваются ими, секвенирование терминированием цепи (Sanger) и секвенирование терминированием красителем.

Другие способы включают способы гибридизации нуклеиновых кислот, отличные от секвенирования, включая использование меченых праймеров или зондов, направленных против очищенной ДНК, амплифицированной ДНК и фиксированных клеточных препаратов (флуоресценция in situ гибридизация). В некоторых способах нуклеиновую кислоту-мишень можно амплифицировать до или одновременно с детекцией. Иллюстративные примеры методов амплификации нуклеиновых кислот включают, но не ограничиваются ими, полимеразную цепную реакцию (ПЦР), лигазную цепную реакцию (LCR - ligase chain reaction), амплификацию смещения цепи (SDA - strand displacement amplification) и амплификацию на основе последовательности нуклеиновой кислоты (NASBA - nucleic acid sequence based amplification). Другие способы включают, но не ограничиваются ими, лигазную цепную реакцию, амплификацию смещения цепи и термофильную SDA (tSDA - thermophilic SDA).

Любой метод может использоваться для обнаружения не амплифицированных или амплифицированных полинуклеотидов, включая, например, анализ защиты от гибридизации (HPA), количественную оценку процесса амплификации в режиме реального времени и определение количества последовательности-мишени, первоначально присутствующей в образце, но который не основан на усилении в реальном времени.

Также предоставлены способы идентификации нуклеиновых кислот, которые не обязательно требуют амплификации последовательности и основаны, например, на известных способах гибридизации Саузерн (ДНК: ДНК) блоттинга, in situ гибридизации (ISH) и флуоресцентной in situ гибридизации (FISH) хромосомного материала с использованием соответствующих зондов. Саузерн-блоттинг может быть использован для обнаружения специфических последовательностей нуклеиновых кислот. В таких способах нуклеиновая кислота, которая извлекается из образца, фрагментируется, электрофоретически отделяется на матричном геле и переносится на мембранный фильтр. Связанная с фильтром нуклеиновая кислота подвергается гибридизации с меченым зондом, комплементарным представляющей интерес последовательности. Детектируется гибридизованый зонд, связанный с фильтром.

В способах гибридизации могут применяться жесткие условия, так что зонд или праймер будут специфически гибридизоваться с его мишенью. В некоторых вариантах осуществления полинуклеотидный праймер или зонд в строгих условиях будет гибридизоваться с его последовательностью-мишенью (например, с локусом гена, мРНК или кДНК варианта B4GALT1) в значительно большей степени, чем с другими последовательностями, например, соответствующими последовательностям дикого типа B4GALT1 (локуса, мРНК или кДНК), так как минимум в 2 раза больше фона или в 10 раз выше фона. Строгие условия зависят от последовательности и будут разными в разных обстоятельствах. Контролируя строгость условий гибридизации и/или отмывки, можно идентифицировать последовательности-мишени, которые на 100% комплементарны зонду (гомологичное зондирование). Альтернативно, условия жесткости могут быть скорректированы, чтобы допускать некоторое несовпадение последовательностей, так что обнаруживаются более низкие степени идентичности (гетерологичное зондирование). Обычно длина зонда составляет менее 1000 нуклеотидов или менее 500 нуклеотидов.

Подходящие условия жесткости, которые способствуют гибридизации ДНК, например, 6X хлорид натрия/цитрат натрия (SSC) при температуре около 45°C с последующей промывкой 2X SSC при 50°C, известны или могут быть найдены в Current Protocols in Molecular Biology, John Wiley & Sons, N.Y. (1989), 6.3.1-6.3.6. Как правило, строгие условия для гибридизации и детектирования будут такими, в которых концентрация соли составляет менее чем около 1,5 М иона Na, обычно около от 0,01 до 1,0 М иона Na (или других солей) при рН от 7,0 до 8,3 и температура имеет, по меньшей мере, около 30°С для коротких зондов (например, от 10 до 50 нуклеотидов) и, по меньшей мере, около 60°С для более длинных зондов (например, более 50 нуклеотидов). Жесткие условия также могут быть достигнуты с добавлением дестабилизирующих агентов, таких как формамид. Типичные условия низкой жесткости включают гибридизацию с буферным раствором от 30 до 35% формамида, 1М NaCl, 1% SDS (додецилсульфат натрия) при 37°C и промывку в 1X-2X SSC (20X SSC=3,0 М NaCl/0,3 М тринатрийцитрата) при температуре от 50 до 55°С. Типичные условия умеренной строгости включают гибридизацию в 40-45% формамиде, 1,0 М NaCl, 1% SDS при 37°С и промывку в 0,5X-1X SSC при 55-60°С. Типичные условия высокой жесткости включают гибридизацию в 50% формамиде, 1 М NaCl, 1% SDS при 37°C и промывку в 0,1X SSC при 60-65°C. Необязательно, промывочные буферы могут содержать от около 0,1% до около 1% SDS. Продолжительность гибридизации обычно составляет менее чем около 24 часов, обычно от около 4 до около 12 часов. Продолжительность времени отмывки будет, по меньшей мере, продолжительностью, достаточной для достижения равновесия.

В реакциях гибридизации специфичность обычно является функцией промывок после гибридизации, критическими факторами являются ионная сила и температура конечного промывочного раствора. Для гибридов ДНК-ДНК Tm можно аппроксимировать по уравнению Майнкота и Вала (Meinkoth, Wahl) Anal. Biochem., 1984, 138, 267-284: Тм=81,5°С+16,6 (log M) + 0,41 (% ГХ) - 0,61 (% форм) - 500/л; где M - молярность одновалентных катионов,% GC - процентное содержание нуклеозидов гуанозина и цитозина в ДНК,% форм - процентное содержание формамида в растворе гибридизации, а L - длина гибрида в парах оснований. Tm - это температура (при определенной ионной силе и pH), при которой 50% комплементарной последовательности-мишени гибридизуется с идеально подобранным зондом. Tm уменьшается на около 1°C на каждый 1% несоответствия; таким образом, Tm, условия гибридизации и/или отмывки можно регулировать для гибридизации с последовательностями желаемой идентичности. Например, если ищутся последовательности с идентичностью ≥90%, Tm можно уменьшить на 10°C. Как правило, строгие условия выбираются так, чтобы они были на около 5°C ниже, чем температура плавления (Tm) для конкретной последовательности и ее комплемента при определенной ионной силе и pH. Однако в сильно строгих условиях можно использовать гибридизацию и/или отмывку при температуре на 1, 2, 3 или 4°С ниже, чем температура плавления (Тm); в умеренно строгих условиях можно использовать гибридизацию и/или отмывку при температуре 6, 7, 8, 9 или 10°С ниже, чем температура плавления (Тm); В условиях низкой строгости можно использовать гибридизацию и/или отмывку при температуре 11, 12, 13, 14, 15 или 20°С ниже, чем температура плавления (Тm). Используя уравнение, композиции для гибридизации и промывки и требуемый Тm, специалисты в данной области техники поймут, что вариации в строгости гибридизации и/или промывочных растворов по своей природе описаны. Если желаемая степень несоответствия приводит к тому, что Tm составляет менее 45°C (водный раствор) или 32°C (раствор формамида), оптимально увеличить концентрацию SSC, чтобы можно было использовать более высокую температуру.

Также предоставлены способы обнаружения присутствия или уровней полипептида варианта B4GALT1 в биологическом образце, включая, например, секвенирование белка и иммуноанализ. В некоторых вариантах осуществления способ обнаружения присутствия Asn352Ser B4GALT1 у субъекта-человека включает выполнение анализа биологического образца от субъекта-человека, который определяет присутствие Asn352Ser B4GALT1 в биологическом образце.

Иллюстративные неограничивающие примеры методов секвенирования белка включают, но не ограничиваются ими, масс-спектрометрию и деградацию по Эдману. Иллюстративные примеры иммуноанализов включают, но не ограничиваются ими, иммунопреципитацию, вестерн-блот, иммуногистохимию, ИФА, иммуноцитохимию, проточную цитометрию и иммуно-ПЦР. Поликлональные или моноклональные антитела, которые можно детектировать с использованием различных известных методов (например, калориметрических, флуоресцентных, хемилюминесцентных или радиоактивных), подходят для использования в иммуноанализах.

Данное раскрытие также предоставляет способы для определения восприимчивости субъекта к развитию сердечно-сосудистого заболевания или риска развития сердечно-сосудистого заболевания. Субъектом может быть любой организм, включая, например, человека, млекопитающее, не являющееся человеком, грызуна, мышь или крысу. В некоторых вариантах осуществления способы включают обнаружение присутствия варианта геномной ДНК, мРНК или кДНК варианта B4GALT1 в биологическом образце от субъекта. Понятно, что последовательности генов в популяции и мРНК, кодируемые такими генами, могут варьироваться из-за полиморфизмов, таких как ОНП. Представленные в данном документе последовательности для гена мРНК, кДНК и полипептида B4GALT1, являются только примерными последовательностями, и другие такие последовательности также возможны.

Неограничивающие примеры сердечно-сосудистых заболеваний включают повышенный уровень одного или более сывороточных липидов. Липиды сыворотки включают один или более из холестерина, ЛПНП, ЛПВП, триглицеридов, холестерина ЛПВП и холестерина не-ЛПВП или любой их субфракции (например, ЛПВП2, ЛПВП2a, ЛПВП2b, ЛПВП2c, ЛПВП3, ЛПВП3a, ЛПВП3b, ЛПВП3c, ЛПВП3d ЛПНП1, ЛПНП2, ЛПНП3, липопротеина A, Lpa1, Lpa1, Lpa3, Lpa4 или Lpa5). Сердечно-сосудистое заболевание может включать повышенные уровни кальцификации коронарной артерии. Сердечно-сосудистое заболевание может характеризаваться гликозилированием типа IId (CDG-IId). Сердечно-сосудистое заболевание может содержать повышенный уровень перикардиального жира. Сердечно-сосудистое заболевание может также включать в себя ишемическую болезнь сердца (ИБС), инфаркт миокарда (ИМ), заболевание периферических артерий (ПАД), инсульт, эмболию легочной артерии, тромбоз глубоких вен (ТГВ) и кровоточащие диатезы и коагулопатии. Сердечно-сосудистое заболевание может включать атеротромботическое заболевание. Атеротромботическое заболевание может включать повышенные уровни фибриногена. Атеротромботическое заболевание может включать фибриноген-опосредованный сгусток крови. Сердечно-сосудистое заболевание может включать повышенные уровни фибриногена. Сердечно-сосудистое заболевание может содержать фибриноген-опосредованный сгусток крови. Сердечно-сосудистое заболевание может включать сгусток крови, образованный в результате активности фибриногена. Фибриноген-опосредованный сгусток крови или сгусток крови, образованный при участии активности фибриногена, может находиться в любой вене или артерии в организме.

В некоторых вариантах осуществления способы определения предрасположенности субъекта-человека к развитию сердечно-сосудистого заболевания, включают: a) проведение анализа биологического образца от субъекта-человека, который определяет, содержит ли молекула нуклеиновой кислоты в биологическом образце последовательность нуклеиновой кислоты, которая кодирует вариант полипептида B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1 ; и b) классификация субъекта-человека как подверженного пониженному риску развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты, содержащая последовательность нуклеиновой кислоты, которая кодирует вариант полипептида B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, обнаружена в биологическом образце или классифицирует человека как имеющего повышенный риск развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты, содержащая последовательность нуклеиновой кислоты, которая кодирует вариант полипептида B4GALT1, имеющий серин в положении, соответствующем положению 352 в полноразмерном/зрелом полипептиде B4GALT1, не обнаружена в биологическом образце. В некоторых воплощениях вариант полипептида Asn352Ser B4GALT1 содержит SEQ ID NO:8. В некоторых вариантах осуществления молекула нуклеиновой кислоты в биологическом образце представляет собой геномную ДНК, мРНК или кДНК.

В некоторых вариантах осуществления данное изобретение раскрывает способы определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания, включающие: a) выполнение анализа биологического образца от субъекта-человека, который определяет, содержит ли молекула нуклеиновой кислоты в биологическом образце нуклеотиды 53757-53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2; и b) классификация субъекта-человека как подверженного пониженному риску развития сердечно-сосудистого заболевания, если обнаружена молекула нуклеиновой кислоты, содержащая нуклеотиды с 53757 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2. в биологическом образце или классифицируют человека как находящегося в группе повышенного риска развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты, содержащая нуклеотиды с 53757 по 53577 из SEQ ID NO:2 в положениях, которые соответствуют положениям с 53757 по 53577 из SEQ ID NO:2 не обнаружена в биологическом образце.

В некоторых вариантах осуществления данное изобретение раскрывает способы определения восприимчивости человека к развитию сердечно-сосудистого заболевания, включающие: a) проведение анализа биологического образца от человека, который определяет, содержит ли молекула нуклеиновой кислоты в биологическом образце нуклеотиды 1243- 1245 из SEQ ID NO:4 в положениях, которые соответствуют положениям 1243-1245 из SEQ ID NO:4; и b) классификация субъекта-человека, как имеющего пониженный риск развития сердечно-сосудистого заболевания, если обнаружена молекула нуклеиновой кислоты, содержащая нуклеотиды 1243-1245 из SEQ ID NO:4 в положениях, которые соответствуют положениям 1243-1245 из SEQ ID NO:4 в биологическом образце или классифицируют человека, как находящегося в группе повышенного риска развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты, содержащая нуклеотиды с 1243 по 1245 из SEQ ID NO:4 в положениях, которые соответствуют положениям с 1243 по 1245 из SEQ ID NO:4 не обнаружен в биологическом образце.

В некоторых вариантах осуществления данное изобретение раскрывает способы определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания, включающие: a) проведение анализа биологического образца от субъекта-человека, который определяет, содержит ли молекула нуклеиновой кислоты в биологическом образце нуклеотиды 1054 до 1056 SEQ ID NO:6 в положениях, которые соответствуют положениям 1054-1056 SEQ ID NO:6; и b) классификация субъекта-человека, как имеющего пониженный риск развития сердечно-сосудистого заболевания, если обнаружена молекула нуклеиновой кислоты, содержащая нуклеотиды 1054-1056 SEQ ID NO:6 в положениях, которые соответствуют положениям 1054-1056 SEQ ID NO:6 в биологическом образце или классификации субъекта-человека как подверженного повышенному риску развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты, содержащая нуклеотиды 1054-1056 SEQ ID NO:6 в положениях, которые соответствуют положениям 1054-1056 SEQ ID NO:6 не обнаружена в биологическом образце.

В некоторых вариантах осуществления способы включают обнаружение присутствия геномной ДНК варианта B4GALT1 в биологическом образце. В некоторых вариантах осуществления такие способы включают определение восприимчивости субъекта к развитию сердечно-сосудистого заболевания или риска развития сердечно-сосудистого заболевания, включающие: а) получение биологического образца от субъекта, который содержит геномную ДНК; b) проведение анализа геномной ДНК, который определяет идентичность нуклеотидов в ДНК, занимающих положения, соответствующие положениям с 53575 по 53577 варианта гена B4GALT1 (см., например, SEQ ID NO:2); и c) классификация субъекта как подверженного пониженному риску развития сердечно-сосудистого заболевания, если положения в геномной ДНК, соответствующие положениям с 53575 по 53577 варианта гена B4GALT1, кодируют серин, а не аспарагин. Альтернативно, субъект может быть классифицирован как имеющий повышенный риск развития сердечно-сосудистого заболевания, если положения в геномной ДНК, соответствующие положениям с 53575 по 53577 варианта гена B4GALT1, не кодируют серин, а кодируют аспарагин.

В некоторых вариантах осуществления такие способы включают диагностирование субъекта с сердечно-сосудистым заболеванием, включающие: а) получение биологического образца от субъекта, который содержит геномную ДНК; b) проведение анализа геномной ДНК, который определяет идентичность нуклеотидов в ДНК, занимающих положения, соответствующие положениям с 53575 по 53577 варианта гена B4GALT1 (см., например, SEQ ID NO:2); и с) классификация субъекта как имеющего сердечно-сосудистое заболевание, если положения в геномной ДНК, соответствующие положениям 53575-53577 варианта гена B4GALT1, кодируют серин, а не аспарагин. Альтернативно, субъект может быть классифицирован как не имеющий сердечно-сосудистых заболеваний, если положения в геномной ДНК, соответствующие положениям с 53575 по 53577 варианта гена B4GALT1, не кодируют серин, а кодируют аспарагин.

В некоторых вариантах осуществления способы включают обнаружение присутствия варианта мРНК B4GALT1 в биологическом образце. В некоторых вариантах осуществления такие способы включают определение восприимчивости субъекта к развитию сердечно-сосудистого заболевания или риска развития сердечно-сосудистого заболевания, включающие: а) получение биологического образца у субъекта, который содержит мРНК; b) проведение анализа мРНК, который определяет идентичность нуклеотидов в мРНК, занимающей положения, соответствующие положениям с 1243 по 1245 варианта мРНК B4GALT1 (см., например, SEQ ID NO:4); и c) классификация субъекта как подверженного пониженному риску развития сердечно-сосудистого заболевания, если положения в мРНК, соответствующие положениям с 1243 по 1245 варианта мРНК B4GALT1, кодируют серин, а не аспарагин. Альтернативно, субъект может быть классифицирован как подверженный повышенному риску развития сердечно-сосудистого заболевания, если положения в мРНК, соответствующие положениям с 1243 по 1245 варианта мРНК B4GALT1, не кодируют серин, а кодируют аспарагин.

В некоторых вариантах осуществления такие способы включают диагностирование субъекта с сердечно-сосудистым заболеванием, включающие: а) получение биологического образца от субъекта, который содержит мРНК; b) проведение анализа мРНК, который определяет идентичность нуклеотидов в мРНК, занимающих положения, соответствующие положениям с 1243 по 1245 варианта мРНК B4GALT1 (см., например, SEQ ID NO:4); и с) классификация субъекта как имеющего сердечно-сосудистое заболевание, если положения в мРНК, соответствующие положениям с 1243 по 1245 мРНК варианта B4GALT1, кодируют серин, а не аспарагин. Альтернативно, субъект может быть классифицирован как не имеющий сердечно-сосудистых заболеваний, если положения в мРНК, соответствующие положениям с 1243 по 1245 варианта мРНК B4GALT1, не кодируют серин, а кодируют аспарагин.

В некоторых вариантах осуществления способы включают обнаружение присутствия кДНК варианта B4GALT1 в биологическом образце. В некоторых вариантах осуществления такие способы включают определение восприимчивости субъекта к развитию сердечно-сосудистого заболевания или риска развития сердечно-сосудистого заболевания, включающие: а) получение биологического образца от субъекта, который содержит кДНК; b) проведение анализа кДНК, который определяет идентичность нуклеотидов в кДНК, занимающих положения, соответствующие положениям с 1054 по 1056 кДНК варианта B4GALT1 (см., например, SEQ ID NO:6); и c) классификация субъекта как подверженного пониженному риску развития сердечно-сосудистого заболевания, если положения в кДНК, соответствующие положениям с 1054 по 1056 кДНК варианта B4GALT1, кодируют серин, а не аспарагин. С другой стороны, субъект может быть классифицирован как подверженный повышенному риску развития сердечно-сосудистого заболевания, если положения в кДНК, соответствующие положениям с 1054 по 1056 кДНК варианта B4GALT1, не кодируют серин, а кодируют аспарагин.

В некоторых вариантах осуществления такие способы включают диагностирование субъекта с сердечно-сосудистым заболеванием, включающие: а) получение биологического образца от субъекта, который содержит кДНК; b) проведение анализа кДНК, который определяет идентичность нуклеотидов в кДНК, занимающих положения, соответствующие положениям с 1054 по 1056 кДНК варианта B4GALT1 (см., например, SEQ ID NO:6); и с) классификацию субъекта как имеющего сердечно-сосудистое заболевание, если положения в кДНК, соответствующие положениям с 1054 по 1056 кДНК варианта B4GALT1, кодируют серин, а не аспарагин. Альтернативно, субъект может быть классифицирован как не имеющий сердечно-сосудистых заболеваний, если положения в кДНК, соответствующие положениям с 1054 по 1056 кДНК варианта B4GALT1, не кодируют серин, а кодируют аспарагин.

В некоторых вариантах осуществления анализ включает в себя: секвенирование части геномной последовательности B4GALT1 молекулы нуклеиновой кислоты в биологическом образце от человека, при этом секвенированная часть включает положения, соответствующие положениям с 53575 по 53577 из SEQ ID NO: 2; секвенирование части последовательности мРНК B4GALT1 молекулы нуклеиновой кислоты в биологическом образце от человека, при этом секвенированная часть включает положения, соответствующие положениям с 1243 по 1245 из SEQ ID NO:4; или секвенирование части последовательности кДНК B4GALT1 молекулы нуклеиновой кислоты в биологическом образце от человека, при этом секвенированная часть включает положения, соответствующие положениям с 1054 по 1056 последовательности SEQ ID NO:6.

В некоторых вариантах осуществления анализ включает в себя: a) приведение биологического образца в контакт с праймером, гибридизующимся с: i) частью геномной последовательности B4GALT1, которая находится вблизи положения геномной последовательности B4GALT1, соответствующей положениям с 53575 по 53577 из SEQ ID NO:2; ii) частью последовательности мРНК B4GALT1, которая находится вблизи положения мРНК B4GALT1, соответствующего положениям с 1243 по 1245 из SEQ ID NO:4; или iii) частью последовательности кДНК B4GALT1, которая находится вблизи положения кДНК B4GALT1, соответствующего положениям 1054-1056 SEQ ID NO:6; b) удлинение праймера, по меньшей мере, далее: i) положения геномной последовательности B4GALT1, соответствующего положениям с 53575 по 53577; ii) положения мРНК B4GALT1, соответствующего положениям с 1243 по 1245; или iii) положения кДНК B4GALT1, соответствующего положениям с 1054 по 1056; и c) определение того, содержит ли продукт удлинения праймера нуклеотиды в положениях: i), соответствующих положениям 53575-53577 геномной последовательности B4GALT1 ; ii) соответствующих положениям с 1243 по 1245 мРНК B4GALT1 ; или iii) соответствующих положениям с 1054 по 1056 кДНК B4GALT1 ; которые кодируют серин в положении 352 SEQ ID NO:8.

В некоторых вариантах осуществления анализ включает контакт биологического образца с праймером или зондом, который специфически гибридизуется с геномной последовательностью B4GALT1 варианта, последовательностью мРНК или последовательностью кДНК, а не с соответствующей последовательностью B4GALT1 дикого типа в строгих условиях, и определение того, произошла ли гибридизация. В некоторых вариантах осуществления праймер или зонд специфически гибридизуется с положениями в геномной ДНК в биологическом образце, которые соответствуют положениям с 53575 по 53577 из SEQ ID NO:2. В некоторых вариантах осуществления праймер или зонд специфически гибридизуется с положениями в мРНК в биологическом образце, которые соответствуют положениям с 1243 по 1245 из SEQ ID NO:4. В некоторых вариантах осуществления праймер или зонд специфически гибридизуется с положениями в кДНК в биологическом образце, которые соответствуют положениям с 1054 по 1056 SEQ ID NO:6.

Другие анализы, которые можно использовать в способах, раскрытых в данном документе, включают, например, полимеразную цепную реакцию с обратной транскрипцией (ОТ-ПЦР) или количественную ОТ-ПЦР (кОТ-ПЦР). Еще другие анализы, которые можно использовать в способах, раскрытых в данном документе, включают, например, секвенирование РНК (RNA-Seq) с последующим определением наличия и количества вариантной мРНК или кДНК в биологическом образце.

Данное раскрытие также предоставляет способы определения восприимчивости человека к развитию сердечно-сосудистого заболевания или диагностирования субъекта, как имеющего сердечно-сосудистое заболевание, включающие: a) проведение анализа биологического образца от человека, который определяет, содержит ли полипептид B4GALT1 в биологическом образце серин в позиции, соответствующей позиции 352 SEQ ID NO:8; и b) классификацию субъекта-человека, как имеющего пониженный риск развития сердечно-сосудистого заболевания, если в биологическом образце обнаружен полипептид B4GALT1, содержащий серин в положении, соответствующем положению 352 SEQ ID NO:8, или классификация субъекта-человека, как имеющего повышенный риск развития сердечно-сосудистого заболевания, если в биологическом образце не обнаружен полипептид B4GALT1, содержащий серин в положении, соответствующем положению 352 SEQ ID NO:8. В некоторых вариантах осуществления способы дополнительно включают получение биологического образца от субъекта.

В некоторых вариантах осуществления, когда у субъекта диагностировано сердечно-сосудистое заболевание или имеется повышенный риск развития сердечно-сосудистого заболевания, субъекту вводят терапевтическое или профилактическое средство, которое лечит или предотвращает сердечно-сосудистое заболевание. Альтернативно, способ может дополнительно включать введение терапевтического агента, предназначенного для предотвращения или ослабления одного или более симптомов, связанных с прогрессированием до более клинически прогрессирующих стадий сердечно-сосудистого заболевания, особенно у пациентов с повышенными уровнями ЛПНП и/или тех пациентов, которые имели или находятся на стадии повышенного риска тромботических явлений.

Данное раскрытие также предоставляет способы модификации клетки посредством использования любой комбинации нуклеазных агентов, экзогенных донорных последовательностей, активаторов транскрипции, транскрипционных репрессоров, антисмысловых молекул, таких как антисмысловая РНК, миРНК и кшРНК, полипептиды B4GALT1 или их фрагменты, и векторы экспрессии для экспрессии рекомбинантного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1. Способы могут применятся in vitro, ex vivo или in vivo. Нуклеазные агенты, экзогенные донорные последовательности, активаторы транскрипции, репрессоры транскрипции, антисмысловые молекулы, такие как антисмысловые РНК, миРНК и кшРНК, полипептиды B4GALT1 или их фрагменты и векторы экспрессии могут быть введены в клетку в любой форме и любыми способами. как описано в другом месте в данном документе, и все или некоторые могут быть введены одновременно или последовательно в любой комбинации. Некоторые методы включают только изменение эндогенного гена B4GALT1 в клетке. Некоторые методы включают только изменение экспрессии эндогенного гена B4GALT1 путем использования активаторов или репрессоров транскрипции или путем использования антисмысловых молекул, таких как антисмысловая РНК, миРНК и кшРНК. Некоторые способы включают только введение рекомбинантного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1 или его фрагмент, в клетку. Некоторые способы включают только введение полипептида B4GALT1 или его фрагмента в клетку (например, любой из или любую комбинацию полипептидов B4GALT1 или их фрагментов, раскрытых в данном документе). Другие способы включают как изменение эндогенного гена B4GALT1 в клетке, так и введение полипептида B4GALT1 или его фрагмента или его рекомбинантного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1 или его фрагмент, в клетку. Другие способы включают, как изменение экспрессии эндогенного гена B4GALT1 в клетке, так и введение полипептида B4GALT1 или его фрагмента или его рекомбинантного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид или его фрагмент B4GALT1.

В данном раскрытии представлены способы модификации эндогенного гена B4GALT1 в геноме клетки (например, плюрипотентной клетки или дифференцированной клетки) с использованием нуклеазных агентов и/или последовательностей экзогенного донора. Способы могут встречаться in vitro, ex vivo или in vivo. Нуклеазный агент может использоваться отдельно или в комбинации с экзогенной донорной последовательностью. Альтернативно, экзогенная донорная последовательность может использоваться отдельно или в комбинации с нуклеазным агентом.

Восстановление в ответ на двухцепочечные разрывы (DSB -double-strand breaks) происходит главным образом через два консервативных пути восстановления ДНК: негомологичное соединение концов (NHEJ -non-homologous end joining) и гомологичную рекомбинацию (HR - homologous recombination) (см., Kasparek & Humphrey, Seminars in Cell & Dev. Biol., 2011, 22, 886-897). Восстановление целевой нуклеиновой кислоты (например, эндогенного гена B4GALT1), опосредованное экзогенной донорной последовательностью, может включать любой процесс обмена генетической информацией между двумя полинуклеотидами. Например, NHEJ также может приводить к целенаправленной интеграции экзогенной донорной последовательности посредством прямого лигирования концов разрыва с концами экзогенной донорной последовательности (т.е. захват на основе NHEJ). Восстановление также может происходить посредством гомологичного направленного восстановления (HDR - homology directed repair) или гомологичной рекомбинации (HR). HDR или HR включает форму восстановления нуклеиновой кислоты, которая может требовать гомологии нуклеотидной последовательности, использует «донорную» молекулу в качестве матрицы для восстановления «целевой» молекулы (то есть той, которая испытала разрыв двухцепочечной цепи) и ведет к передаче генетической информации от донора к цели/мишени.

Целевые генетические модификации в эндогенном гене B4GALT1 в геноме могут быть получены путем контакта клетки с экзогенной донорной последовательностью, содержащей 5' плече гомологии, которое гибридизуется с 5'-последовательностью-мишенью в целевом геномном локусе внутри эндогенного гена B4GALT1 и 3' плече гомологии, которое гибридизуется с 3'-последовательностью-мишенью в целевом геномном локусе внутри эндогенного гена B4GALT1. Экзогенная донорная последовательность может рекомбинировать с целевым геномным локусом, чтобы генерировать целевую генетическую модификацию эндогенного гена B4GALT1. В качестве одного примера, 5' плечо гомологии может гибридизоваться с целевой последовательностью 5' положения, соответствующего положениям с 53575 по 53577 из SEQ ID NO:1, и 3' плечо гомологии может гибридизоваться с целевой последовательностью 3' положения соответствующего положениям с 53575 по 53577 из SEQ ID NO:1. Такие способы могут привести, например, к гену B4GALT1, который содержит нуклеотидную последовательность, кодирующую серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида, полученного из него. Примеры экзогенных донорных последовательностей раскрыты в другом месте данного документа.

Например, целевые генетические модификации эндогенного гена B4GALT1 в геноме могут быть получены путем контакта клетки или генома клетки с белком Cas и одной или большим количеством направляющими РНК, которые гибридизуются с одной или большим количеством последовательностями распознаваемыми направляющей РНК в целевом геномном локусе в эндогенном гене B4GALT1. Например, такие способы могут включать приведение клетки в контакт с белком Cas и направляющей РНК, которая гибридизуется с последовательностью, распознаваемой направляющей РНК, в эндогенном гене B4GALT1. В некоторых вариантах осуществления последовательность, распознаваемая направляющей РНК, расположена в области, соответствующей экзону 5 SEQ ID NO:1. В некоторых вариантах осуществления последовательность, распознаваемая направляющей РНК, может включать или находиться вблизи положения, соответствующего положениям с 53575 по 53577 последовательности SEQ ID NO:1. Например, последовательность, распознаваемая направляющей РНК, может находиться в пределах около 1000, в пределах около 500, в пределах около 400, в пределах около 300, в пределах около 200, в пределах около 100, в пределах около 50, в пределах около 45, в пределах около 40, в пределах около 35, в пределах около 30, в пределах около 25, в пределах около 20, в пределах около 15, в пределах около 10 или в пределах около 5 нуклеотидов от положения, соответствующего положениям с 53575 по 53577 из SEQ ID NO:1. В качестве еще одного примера, последовательность, распознаваемая направляющей РНК, может включать или быть близкой к стартовому кодону эндогенного гена B4GALT1 или стоп-кодону эндогенного гена B4GALT1. Например, последовательность, распознаваемая направляющей РНК, может находиться в пределах около 10, в пределах около 20, в пределах около 30, в пределах около 40, в пределах около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500, или в пределах около 1000 нуклеотидов от старт-кодона или стоп-кодона. Белок Cas и направляющая РНК образуют комплекс, а белок Cas расщепляет последовательность распознаваемую направляющей РНК. Расщепление белком Cas может привести к двухцепочечным или одноцепочечным разрывам (например, если белок Cas является никазой). Такие методы могут привести, например, к эндогенному гену B4GALT1, в котором нарушена область, соответствующая экзону 5 SEQ ID NO:1, нарушен стартовый кодон, нарушен стоп-кодон или кодирующая последовательность удалена. Примеры и варианты белков Cas (например, Cas9) и направляющих РНК, которые можно использовать в способах, описаны в другом месте данного документа.

В некоторых вариантах осуществления могут быть использованы два или более нуклеазных агента. Например, могут быть использованы два нуклеазных агента, каждый из которых направлен на последовательность распознаваемую нуклеазой в области, соответствующей экзону 5 SEQ ID NO:1, или включает положение или близко к положению, соответствующему положениям с 53575 по 53577 из SEQ ID NO:1 (например, в пределах около 1000, в пределах около 500, в пределах около 400, в пределах около 300, в пределах около 200, в пределах около 100, в пределах около 50, в пределах около 45, в пределах около 40, в пределах около 35, в пределах около 30, в пределах около 25, в пределах около 20, в пределах около 15, в пределах около 10 или в пределах около 5 нуклеотидов в положениях, соответствующих положениям с 53575 по 53577 из SEQ ID NO:1). В качестве другого примера можно использовать два или более нуклеазных агента, каждый из которых направлен на последовательность распознаваемую нуклеазой, включающую или расположенную близко к стартовому кодону. В качестве другого примера можно использовать два нуклеазных агента, один из которых направлен на последовательность распознаваемую нуклеазой, включающую или находящуюся близко к стартовому кодону, а другой направлен на последовательность распознаваемую нуклеазой, включающую или расположенную рядом со стоп-кодоном, при этом расщепление нуклеазными агентами может привести к делеции кодирующей области между двумя последовательностями распознаваемыми нуклеазой. В качестве еще одного примера можно использовать три или более нуклеазных агента, с одной или большим количеством (например, двумя) нацеливающими последовательностями распознаваемыми нуклеазой, включающими или расположенными близко к стартовому кодону, и одной или большим количеством (например, двумя) нацеливающими последовательностями распознаваемыми нуклеазой, включающими или находящимся вблизи стоп-кодона, при этом расщепление нуклеазными агентами может привести к делеции кодирующей области между последовательностью распознаваемой нуклеазой, включающей или находящейся вблизи к стартовому кодону, и последовательностью распознаваемой нуклеазой, включающей или расположенной рядом со стоп-кодоном.

В некоторых вариантах осуществления клетка может быть дополнительно приведена в контакт с одной или большим количеством дополнительными направляющими РНК, которые гибридизуются с дополнительными последовательностями распознаваемыми направляющими РНК в целевом геномном локусе в эндогенном гене B4GALT1. При контакте клетки с одной или большим количеством дополнительными направляющими РНК (например, со второй направляющей РНК, которая гибридизуется со второй последовательностью, распознаваемой направляющей РНК), расщепление белком Cas может создать два или более двухцепочечных разрывов или два или более одноцепочечных разрывов (например, если белок Cas является никазой).

В некоторых вариантах осуществления клетка может быть дополнительно приведена в контакт с одной или большим количеством экзогенных донорных последовательностей, которые рекомбинируют с целевым геномным локусом в эндогенном гене B4GALT1 для генерации целевой генетической модификации. Примеры и варианты последовательностей экзогенных доноров, которые можно использовать в указанных способах, раскрыты в другом месте данного документа.

Белок Cas, направляющая(ие) РНК и экзогенная(ые) донорная(ые) последовательность(и) могут быть введены в клетку в любой форме и любым способом, как описано в другом месте данного документа, и весь или некоторые из белка Cas, направляющей(их) РНК, и экзогенной(ых) донорная(ых) последовательность(ей) можгут быть введены одновременно или последовательно в любой комбинации.

В некоторых вариантах осуществления репарация целевой нуклеиновой кислоты (например, эндогенного гена B4GALT1) экзогенной донорной последовательностью происходит посредством гомологически направленной репарации (HDR). Гомологически направленная репарация может происходить, когда белок Cas расщепляет обе цепи ДНК в эндогенном гене B4GALT1 для создания двухцепочечного разрыва, когда белок Cas является никазой, которая расщепляет одну цепь ДНК в целевой нуклеиновой кислоте для создания одноцепочечного разрыва, или когда используются никазы Cas для создания двухцепочечного разрыва, образованного двумя смещенными никами. В таких способах экзогенная донорная последовательность содержит 5' и 3' гомологичные группы, соответствующие 5' и 3' последовательностям-мишеням. Последовательность(и) распознаваемой(ые) направляющей(ими) РНК или сайт(ы) расщепления могут быть смежными с 5'-последовательностью-мишенью, смежными с 3'-последовательностью-мишенью, смежными как с 5'-последовательностью-мишенью, так и с 3'-последовательностью-мишенью, или не находится рядом ни с 5'-последовательностью-мишенью, ни с 3'-последовательностью-мишенью. В некоторых вариантах осуществления экзогенная донорная последовательность может дополнительно включать вставку нуклеиновой кислоты, фланкированную 5' и 3' плечами гомологии, и вставку нуклеиновой кислоты вставленую между 5' и 3'-последовательностями-мишенями. Если вставка нуклеиновой кислоты отсутствует, экзогенная донорная последовательность может функционировать для удаления геномной последовательности между 5' и 3'-последовательностями-мишенями. Примеры экзогенных донорных последовательностей раскрыты в другом месте данного документа.

С другой стороны, репарация эндогенного гена B4GALT1, опосредованного экзогенной донорной последовательностью, может происходить посредством лигирования, опосредованного негомологичным присоединением концов (NHEJ). В таких способах, по меньшей мере, один конец последовательности экзогенного донора содержит короткую одноцепочечную область, которая комплементарна, по меньшей мере, одному выступу (overhang), созданному посредством Cas-опосредованного расщепления в эндогенном гене B4GALT1. Комплементарный конец в последовательности экзогенного донора может фланкировать вставку нуклеиновой кислоты. Например, каждый конец экзогенной донорной последовательности может содержать короткую одноцепочечную область, которая комплементарна выступу (overhang), созданному Cas-опосредованным расщеплением в эндогенном гене B4GALT1, и эти комплементарные области в экзогенной последовательности донора могут фланкировать вставки нуклеиновой кислоты.

Выступы (т.е. липкие концы) могут быть созданы путем резекции тупых концов двухцепочечного разрыва, созданного Cas-опосредованным расщеплением. Такая резекция может генерировать области микрогомологии, необходимые для соединения фрагментов, но это может создавать нежелательные или неконтролируемые изменения в гене B4GALT1. С другой стороны, такие выступы могут быть созданы с помощью парных ников Cas. Например, клетка может связываться с первой и второй никазами, которые расщепляют противоположные цепи ДНК, в результате чего геном модифицируется посредством двойного надреза. Это может быть достигнуто путем контакта клетки с первой никазой белка Cas, первой направляющей РНК, которая гибридизуется с первой последовательностью, распознаваемой направляющей РНК, в целевом геномном локусе в эндогенном гене B4GALT1, второй никазой белка Cas, и второй направляющая РНК, которая гибридизуется со второй последовательностью, распознаваемой направляющей РНК, в целевом геномном локусе в эндогенном гене B4GALT1. Первый белок Cas и первая направляющая РНК образуют первый комплекс, а второй белок Cas и вторая направляющая РНК образуют второй комплекс. Первая никаза с белком Cas расщепляет первую цепь геномной ДНК в первой последовательности, распознаваемой направляющей РНК, вторая никаза белка Cas расщепляет вторую цепь геномной ДНК во второй последовательности, распознаваемой направляющей РНК, и, необязательно, экзогенная донорная последовательность рекомбинирует с геномным локусом-мишенью в эндогенном гене B4GALT1 для генерации целевой генетической модификации.

Первая никаза может расщеплять первую цепь геномной ДНК (т.е. комплементарную цепь), а вторая никаза может расщеплять вторую цепь геномной ДНК (то есть некомплементарную цепь). Первую и вторую никазы можно создать, например, путем мутации каталитического остатка в домене RuvC (например, мутации D10A, описанной в другом месте в данном документе) Cas9 или мутации каталитического остатка в домене HNH (например, мутации H840A, описанной в другом месте в данном документе) из Cas9. В таких способах двойное надрезание может быть использовано для создания двухцепочечного разрыва, имеющего ступенчатые концы (т.е. выступы). Первую и вторую последовательности, распознаваемые направляющими РНК, можно расположить так, чтобы создать сайт расщепления таким образом, чтобы ники, созданные первыми и вторыми никазами на первой и второй цепях ДНК, создавали двухцепочечный разрыв. Выступы создаются, когда разрезы в первой и второй последовательностях распознаваемых РНК CRISPR смещены. Окно смещения может составлять, например, по меньшей мере, около 5 п.н., по меньшей мере, около 10 п.н., по меньшей мере, около 20 п.н., по меньшей мере, около 30 п.н., по меньшей мере, около 40 п.н., по меньшей мере, около 50 п.н., по меньшей мере, около 60 п.н., по меньшей мере, около 70 п.н., по меньшей мере, около 80 п.н., по меньшей мере, около 90 п.н., по меньшей мере, около 100 п.н. или более. См., например, Ran et al., Cell, 2013, 154, 1380-1389; Mali et al., Nat. Biotech., 213, 31, 833-838; и Shen et al., Nat. Methods, 2014, 11, 399-404.

Различные типы целевых генетических модификаций могут быть введены с использованием способов, описанных в данном документе. Такие целевые модификации могут включать, например, добавления одного или более нуклеотидов, делеции одного или более нуклеотидов, замены одного или более нуклеотидов, точечную мутацию или их комбинацию. Например, по меньшей мере, 1, по меньшей мере, 2, по меньшей мере, 3, по меньшей мере, 4, по меньшей мере, 5, по меньшей мере, 7, по меньшей мере, 8, по меньшей мере, 8, по меньшей мере, 9 или, по меньшей мере, 10 или более нуклеотидов могут быть изменены (например, удалены, вставленны или замещенны) для формирования целевой геномной модификации.

Такие целевые генетические модификации могут привести к нарушению целевого геномного локуса. Нарушение может включать в себя изменение регуляторного элемента (например, промотора или энхансера), миссенс-мутацию, нонсенс-мутацию, мутацию сдвига рамки, мутацию усечения, нулевую мутацию или вставку или делеция небольшого количества нуклеотидов (например, вызывая мутацию сдвига рамки), и это может привести к инактивации (т.е. потере функции) или потере аллеля. Например, целевая модификация может включать разрушение стартового кодона эндогенного гена B4GALT1, так что стартовый кодон больше не функционирует.

В некоторых вариантах осуществления целевая модификация может включать делецию между первой и второй последовательностями распознаваемыми направляющей РНК или сайтами расщепления Cas. Если используется экзогенная донорная последовательность (например, репарационная матрица или направляющий вектор), модификация может включать делецию между первой и второй последовательностями распознаваемыми направляющими РНК или сайтами расщепления Cas, а также вставку нуклеиновой кислоты между 5' и 3' целевой последовательности.

В некоторых вариантах осуществления, если используется экзогенная донорная последовательность, одна или в сочетании с нуклеазным агентом, модификация может включать делецию между 5' и 3' последовательностями-мишенями, а также вставку нуклеиновой кислоты между 5' и 3' последовательностями-мишенями в паре первой и второй гомологичных хромосом, что приводит к гомозиготному модифицированному геному. С другой стороны, если экзогенная донорная последовательность содержит 5' и 3' плечи гомологии без вставки нуклеиновой кислоты, модификация может включать делецию между 5' и 3' последовательностями-мишенями.

Делеция между первой и второй последовательностями распознаваемыми направляющей РНК или делеция между 5' и 3' последовательностями-мишенями может быть точной делецией, в которой удаленная нуклеиновая кислота состоит только из последовательности нуклеиновой кислоты между первым и вторым сайтом расщепления нуклеазы или только последовательности нуклеиновой кислоты между 5' и 3' последовательностями-мишенями, так что в модифицированном геномном локусе-мишени нет дополнительных удалений или вставок. Делеция между первой и второй последовательностями распознаваемыми направляющей РНК может также быть неточным удалением, простирающимся за пределы первого и второго сайтов расщепления нуклеазой, что согласуется с неточным восстановлением с помощью негомологичного присоединения концов (NHEJ), что приводит к дополнительным делециям и/или вставкам в модифицированном геномном локусе. Например, делеция может составлять около 1 п.н., около 2 п.н., около 3 п.н., около 4 п.н., около 5 п.н., около 10 п.н., около 20 п.н., около 30 п.н., около 40 п.н., около 50 п.н., около 100 около 200 п.н., около 300 п.н., около 400 п.н., около 500 п.н. Аналогичным образом, модифицированный геномный локус может содержать дополнительные вставки, согласующиеся с неточным восстановлением NHEJ, такие как вставки около 1 п.н., около 2 п.н., около 3 п.н., около 4 п.н., около 5 п.н., около 10 п.н., около 20 п.н., около 30, около 40, около 50, около 100, около 200, около 300, около 400, около 500 или более.

Целевой генетической модификацией может быть, например, двуаллельная модификация или моноаллельная модификация. Двуаллельные модификации включают события, в которых одна и та же модификация вносится в один и тот же локус в соответствующих гомологичных хромосомах (например, в диплоидной клетке), или когда разные модификации вносятся в один и тот же локус в соответствующих гомологичных хромосомах. В некоторых вариантах осуществления целевая генетическая модификация представляет собой моноаллельную модификацию. Моноаллельная модификация включает события, в которых модификация сделана только для одного аллеля (то есть модификация эндогенного гена B4GALT1 только в одной из двух гомологичных хромосом). Гомологичные хромосомы включают в себя хромосомы, которые имеют одинаковые гены в тех же локусах, но, возможно, разные аллели (например, хромосомы, которые спарены во время мейоза).

Моноаллельная мутация может привести к гетерозиготной клетке по целевой модификации B4GALT1. Гетерозиготность включает ситуацию, в которой только один аллель гена B4GALT1 (то есть соответствующие аллели на обеих гомологичных хромосомах) имеют целевую модификацию.

Двуаллельная модификация может привести к гомозиготности по целевой модификации. Гомозиготность включает ситуации, в которых оба аллеля гена B4GALT1 (то есть соответствующие аллели на обеих гомологичных хромосомах) имеют направленную модификацию. Альтернативно, двуаллельная модификация может приводить к сложной гетерозиготности (например, гемизиготности) для целевой модификации. Сложная гетерозиготность включает ситуации, в которых оба аллеля локуса-мишени (т.е. аллели на обеих гомологичных хромосомах) были модифицированы, но они были модифицированы различными способами (например, целевая модификация в одном аллеле и инактивация или разрушение другого аллеля).

Раскрытые в данном документе способы могут дополнительно включать идентификацию клетки, имеющей модифицированный ген B4GALT1. Различные методы могут быть использованы для идентификации клеток, имеющих целевую генетическую модификацию, такую как делеция или вставка. Такие способы могут включать идентификацию одной клетки, имеющей целевую генетическую модификацию в гене B4GALT1. Скрининг может быть выполнен для идентификации таких клеток с модифицированными геномными локусами. Этап скрининга может включать количественный анализ для оценки модификации аллеля (MOA-modification of allele) (например, анализы потери аллеля (LOA - loss-of-allele) и/или усиления аллеля (GOA - gain-of-allele)) родительской хромосомы.

Другие примеры подходящих количественных анализов включают флуоресцентно-опосредованную гибридизацию in situ (FISH- fluorescence in situ hybridization), сравнительную геномную гибридизацию, изотермическую амплификацию ДНК, количественную гибридизацию с иммобилизованным зондом(ами), зонды INVADER®, зонды TAQMAN® Molecular Beacon или Технологию зондов ECLIPSE™. Обычные анализы для скрининга на целевые модификации, такие как ПЦР протяженных участков, Саузерн-блоттинг или секвенирование Сэнгера, также могут быть использованы. Такие анализы обычно используются для получения доказательств связи между встроенным нацеливающим вектором и целевым геномным локусом. Например, для анализа ПЦР протяженных участков один праймер может распознавать последовательность внутри вставленной ДНК, в то время как другой распознает последовательность локуса генома-мишени за пределами концов плеч гомологии целевого вектора.

Секвенирование следующего поколения (NGS - next generation sequencing) также можно использовать для скрининга. Секвенирование следующего поколения также может называться «NGS» или «массивно-параллельная последовательность» или «высокопроизводительная последовательность». В некоторых вариантах осуществления нет необходимости проводить скрининг на целевые клетки с использованием маркеров выбора. Например, на анализы MOA и NGS, описанные в данном документе, можно положиться, не используя кассеты селекции.

Данное раскрытие также предоставляет способы изменения экспрессии нуклеиновых кислот, кодирующих полипептиды B4GALT1. В некоторых вариантах осуществления экспрессия изменяется посредством расщепления нуклеазным агентом, чтобы вызвать разрушение нуклеиновой кислоты, кодирующей эндогенный полипептид B4GALT1, как описано более подробно в другом месте данного документа. В некоторых вариантах осуществления экспрессия изменяется посредством использования ДНК-связывающего белка, слитого или связанного с доменом активации транскрипции или доменом репрессии транскрипции. В некоторых вариантах осуществления экспрессия изменяется посредством использования интерференционных композиций РНК, таких как антисмысловая РНК, кшРНК или siRNA.

В некоторых вариантах осуществления экспрессию эндогенного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1, можно модифицировать путем контакта клетки или генома в клетке с нуклеазным агентом, который индуцирует один или более ников или дважды разрывы цепи в распознаваемой последовательности в целевом геномном локусе внутри эндогенного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1. Такое расщепление может привести к нарушению экспрессии эндогенного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1. Например, последовательность распознаваемая нуклеазой может включать или быть ближайшей к стартовому кодону эндогенного гена B4GALT1. Например, распознаваемая последовательность может находиться в пределах около 10, в пределах около 20, в пределах около 30, в пределах около 40, в пределах около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500 или в пределах около 1000 нуклеотидов от стартового кодона, и расщепление нуклеазным агентом может нарушить стартовый кодон. В некоторых вариантах осуществления могут быть использованы два или более нуклеазных агента, каждый из которых направлен на последовательность распознаваемую нуклеазой, включающую или расположенную близко к стартовому кодону. В некоторых вариантах осуществления могут быть использованы два нуклеазных агента, один из которых направлен на последовательность распознаваемую нуклеазой, включающую в себя или расположенную близко к стартовому кодону, а другой направлен на последовательность распознаваемую нуклеазой, включающую или соседствующую со стоп-кодоном, при этом расщепление нуклеазными агентами может привести к делеции кодирующей области между двумя последовательностями распознаваемыми нуклеазами. В некоторых вариантах осуществления могут быть использованы три или более нуклеазных агента с одной или большим количеством (например, двумя) нацеливающими последовательностями распознаваемыми нуклеазами, включающими или расположенными близко к стартовому кодону, и одной или большим количеством (например, двумя) целивыми последовательностями распознаваемыми нуклеазами, включающими или близкими к стоп-кодону, при этом расщепление нуклеазными агентами может привести к делеции кодирующей области между последовательностями распознаваемыми нуклеазами, включающими или близкими к стартовому кодону, и последовательностью распознаваемой нуклеазой, включающей или расположенной рядом со стоп-кодоном. Другие примеры модификации эндогенного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1, раскрыты в данном документе в другом месте.

В некоторых вариантах осуществления экспрессия эндогенного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1, может быть модифицирована путем контакта клетки или генома в клетке с ДНК-связывающим белком, который связывается с целевым геномным локусом внутри эндогенного гена B4GALT1. ДНК-связывающий белок может представлять собой, например, нуклеазо-неактивный белок Cas, слитый с доменом активатора транскрипции или доменом репрессора транскрипции. Другие примеры ДНК-связывающих белков включают белки цинкового пальца, слитые с доменом активатора транскрипции или доменом репрессора транскрипции, или белки, подобные активатору транскрипции (TALE), слитые с доменом активатора транскрипции или доменом репрессора транскрипции. Примеры таких белков раскрыты в данном документе в другом месте.

Распознаваемая ДНК-связывающим белком последовательность (например, последовательность, распознаваемая направляющей РНК) может находиться в любом месте эндогенного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1, подходящий для изменения экспрессии. В некоторых вариантах осуществления распознаваемая последовательность может находиться в регуляторном элементе, таком как энхансер или промотор, или может находиться в непосредственной близости от регуляторного элемента. Например, распознаваемая последовательность может включать или быть близкой к стартовому кодону эндогенного гена B4GALT1. В некоторых вариантах осуществления распознаваемая последовательность может находиться в пределах около 10, около 20, около 30, около 40, около 50, около 100, около 200, около 300, около 400, около 500 или в пределах около 1000 нуклеотидов стартового кодона.

В некоторых вариантах осуществления антисмысловые молекулы могут быть использованы для изменения экспрессии эндогенного гена B4GALT1 или нуклеиновой кислоты, кодирующей полипептид B4GALT1. Примеры антисмысловых молекул включают, но не ограничиваются ими, антисмысловые РНК, миРНК и кшРНК. Такие антисмысловые РНК, миРНК или кшРНК могут быть предназначены для нацеливания на любой участок мРНК. Например, антисмысловые РНК, миРНК или кшРНК могут быть сконструированы для нацеливания на область, уникальную для мРНК B4GALT1.

Описанные в данном документе нуклеиновые кислоты и белки могут быть введены в клетку любым способом. В некоторых вариантах осуществления введение может осуществляться любым способом, и один или более компонентов (например, два компонента или все компоненты) могут быть введены в клетку одновременно или последовательно в любой комбинации. Например, экзогенная донорная последовательность может быть введена до введения нуклеазного агента, или она может быть введена после введения нуклеазного агента (например, экзогенная донорная последовательность может быть введена около 1, около 2, около 3, около 4 (около 8, около 12, около 24, около 36, около 48 или около 72 часов до или после введения нуклеазного агента). Приведение генома клетки в контакт с нуклеазным агентом или последовательностью экзогенного донора может включать введение одного или более нуклеазных агентов или нуклеиновых кислот, кодирующих нуклеазные агенты (например, один или более белков Cas или нуклеиновых кислот, кодирующих один или более белков Cas, и один или более направляющие РНК или нуклеиновые кислоты, кодирующие одну или более направляющих РНК (т.е. одну или более РНК CRISPR и одну или более тракрРНК)) и/или одну или более экзогенных донорных последовательностей в клетку. Контакт с геномом клетки (т.е. контакт с клеткой) может включать введение в клетку только одного из вышеуказанных компонентов, одного или более компонентов или всех компонентов.

Нуклеазный агент может быть введен в клетку в форме белка или в форме нуклеиновой кислоты, кодирующей нуклеазный агент, такой как РНК (например, мессенджер РНК (мРНК)) или ДНК. При введении в форме ДНК она может быть функционально связана с активным в клетке промотором. Такие ДНК могут находиться в одной или более конструкциях экспрессии.

В некоторых вариантах осуществления белок Cas может быть введен в клетку в форме белка, такого как белок Cas, образующий комплекс с нРНК, или в форме нуклеиновой кислоты, кодирующей белок Cas, такой как РНК (например, мессенджер РНК (мРНК)) или ДНК. Направляющая РНК может быть введена в клетку в форме РНК или в форме ДНК, кодирующей направляющую РНК. При введении в форме ДНК ДНК, кодирующая белок Cas и/или направляющую РНК, может быть функционально связана с активным в клетке промотором. Такие ДНК могут находиться в одной или более конструкциях экспрессии. Например, такие экспрессирующие конструкции могут быть компонентами одной молекулы нуклеиновой кислоты. Альтернативно, они могут быть разделены в любой комбинации между двумя или более молекулами нуклеиновой кислоты (то есть ДНК, кодирующие одну или более РНК CRISPR, ДНК, кодирующие одну или более тракрРНК, и ДНК, кодирующая белок Cas, могут быть компонентами отдельных молекул нуклеиновой кислоты).

В некоторых вариантах осуществления ДНК, кодирующая нуклеазный агент (например, белок Cas и направляющую РНК), и/или ДНК, кодирующая экзогенную донорную последовательность, может быть введена в клетку через мини-циркулярную ДНК. Мини-циркулярная ДНК представляет собой суперскрученные молекулы ДНК, которые можно использовать для невирусного переноса генов, которые не имеют ни источника репликации, ни маркера отбора антибиотиков. Таким образом, мини- циркулярная ДНК обычно меньше по размеру, чем плазмидный вектор. Эти ДНК лишены бактериальной ДНК и, следовательно, лишены неметилированных мотивов CpG, обнаруженных в бактериальной ДНК.

Способы, описанные в данном документе, не зависят от конкретного способа введения нуклеиновой кислоты или белка в клетку, при этом нуклеиновая кислота или белок получает доступ внутрь, по меньшей мере, одной клетки. Способы введения нуклеиновых кислот и белков в клетки различных типов известны и включают, но не ограничиваются ими, методы стабильной трансфекции, методы временной трансфекции и методы, опосредованные вирусом.

Протоколы трансфекции, а также протоколы введения нуклеиновых кислот или белков в клетки могут различаться. Неограничивающие способы трансфекции включают химические способы трансфекции с использованием липосом, наночастиц, кальция, дендримеров и катионных полимеров, таких как DEAE-декстран или полиэтиленимин. Нехимические методы включают электропорацию, сонопорацию и оптическую трансфекцию. Трансфекция на основе частиц включает использование генной пушки или магнитную трансфекцию. Вирусные методы также могут быть использованы для трансфекции.

Введение нуклеиновых кислот или белков в клетку также может быть опосредовано электропорацией, внутрицитоплазматической инъекцией, вирусной инфекцией, аденовирусом, аденоассоциированным вирусом, лентивирусом, ретровирусом, трансфекцией, липид-опосредованной трансфекцией или путем nucleofection. Нуклеофекция - это усовершенствованная технология электропорации, которая позволяет доставлять субстраты нуклеиновых кислот не только в цитоплазму, но и через ядерную мембрану и в ядро. Кроме того, использование нуклеофекции в раскрытых в данном документе способах обычно требует гораздо меньше клеток, чем обычная электропорация (например, только около 2 миллионов по сравнению с 7 миллионами при обычной электропорации). В некоторых вариантах осуществления нуклеофекция выполняется с использованием системы LONZA® NUCLEOFECTOR™.

Введение нуклеиновых кислот или белков в клетку также может быть осуществлено путем микроинъекции. Микроинъекция мРНК обычно происходит в цитоплазму (например, для доставки мРНК непосредственно в механизм трансляции), тогда как микроинъекция белка или ДНК, кодирующей ДНК, кодирующую белок Cas, обычно происходит в ядро. Альтернативно, микроинъекция может быть осуществлена путем инъекции как в ядро, так и в цитоплазму: сначала можно ввести иглу в ядро, и можно ввести первое количество, и, удаляя иглу из клетки, можно ввести второе количество в цитоплазму. Если белок нуклеазного агента вводится в цитоплазму, белок может содержать сигнал ядерной локализации для обеспечения доставки в ядро/пронуклеус.

Другие способы введения нуклеиновой кислоты или белков в клетку могут включать, например, векторную доставку, опосредованную частицами доставку, опосредованную экзосомами доставку, опосредованную липидными наночастицами доставку, опосредованную проникновением в клетку пептидную доставку или доставку опосредованную имплантируемым устройством. Способы введения нуклеиновых кислот или белков субъекту для модификации клеток in vivo раскрыты в другом месте данного документа. Введение нуклеиновых кислот и белков в клетки также может быть достигнуто путем гидродинамической доставки (HDD - hydrodynamic delivery).

Другие способы введения нуклеиновой кислоты или белков в клетку могут включать, например, векторную доставку, опосредованную частицами доставку, опосредованную экзосомами доставку, опосредованную липидными наночастицами доставку, опосредованную проникновением в клетку пептидную доставку или доставку опосредованную имплантируемым устройством. В некоторых вариантах осуществления нуклеиновую кислоту или белок можно вводить в клетку в носителе, таком как микросфера поли (молочной кислоты) (PLA), микросфера поли (D, L-молочная-когликолевой кислоты) (PLGA), липосома, мицелла, обратная мицелла, липидный кохлеат или липидная микротрубочка.

Введение нуклеиновых кислот или белков в клетку может быть выполнено один раз или более раз за период времени. В некоторых вариантах осуществления введение может выполняться, по меньшей мере, два раза в течение периода времени, по меньшей мере, три раза в течение периода времени, по меньшей мере, четыре раза в течение периода времени, по меньшей мере, пять раз в течение периода времени, по меньшей мере, шесть раз в течение периода времени, по меньшей мере, семь раз в течение периода времени, по меньшей мере, восемь раз в течение периода времени, по меньшей мере, девять раз в течение периода времени, по меньшей мере, десять раз в течение периода времени, в, по меньшей мере, одиннадцать раз, по меньшей мере, двенадцать раз в период времени, по меньшей мере, тринадцать раз в период времени, по меньшей мере, четырнадцать раз в период времени, по меньшей мере, пятнадцать раз в период времени, по меньшей мере, шестнадцать раз в период период времени, по меньшей мере, семнадцать раз в период времени, по меньшей мере, восемнадцать раз в период времени, по меньшей мере, девятнадцать раз в период времени или, по меньшей мере, двадцать раз в период времени.

В некоторых вариантах осуществления клетки, используемые в способах и композициях, имеют конструкцию ДНК, стабильно включенную в их геном. В таких случаях приведение в контакт может включать обеспечение клетки конструкцией, уже стабильно включенной в ее геном. В некоторых вариантах осуществления клетка, используемая в способах, раскрытых в данном документе, может иметь ранее существующий Cas-кодирующий ген, стабильно включенный в свой геном (то есть, Cas-готовую клетку). В некоторых вариантах осуществления полинуклеотид интегрируется в геном клетки и способен наследоваться его потомством. Любой протокол может быть использован для стабильного включения конструкций ДНК или различных компонентов целевой системы геномной интеграции.

Любой нуклеазный агент, который вызывает разрыв-ник или двухцепочечный разрыв в желаемой распознаваемой последовательности, или любой ДНК-связывающий белок, который связывается с желаемой распознаваемой последовательностью, можно использовать в способах и композициях, раскрытых в данном документе. Природный или нативный нуклеазный агент можно использовать при условии, что нуклеазный агент вызывает разрыв или двухцепочечный разрыв в желаемой распознаваемой последовательности. Аналогично, природный или нативный ДНК-связывающий белок может быть использован при условии, что ДНК-связывающий белок связывается с желаемой распознаваемой последовательностью. Альтернативно, можно использовать модифицированный или сконструированный нуклеазный агент или ДНК-связывающий белок. Инженерный нуклеазный агент или ДНК-связывающий белок может быть получен из нативного, встречающегося в природе нуклеазного агента или ДНК-связывающего белка, или он может быть искусственно создан или синтезирован. Сконструированный нуклеазный агент или ДНК-связывающий белок может распознавать распознаваемую последовательность, например, при этом распознаваемая последовательность не является последовательностью, которая была бы распознана нативным (не сконструированным или немодифицированным) нуклеазным агентом или ДНК-связывающим белком. Модификация нуклеазного агента или ДНК-связывающего белка может включать всего одну аминокислоту в агенте расщепляющего белка или один нуклеотид в агенте расщепляющей нуклеиновой кислоты.

Распознаваемые последовательности для нуклеазного агента включают последовательность ДНК, при которой нуклеазный агент индуцирует разрыв ника или двухцепочечной цепи. Аналогично, распознаваемые последовательности для ДНК-связывающего белка включают последовательность ДНК, с которой будет связываться ДНК-связывающий белок. Распознаваемая последовательность может быть эндогенной (или нативной) для клетки, или распознаваемая последовательность может быть экзогенной для клетки. Распознаваемая последовательность также может быть экзогенной по отношению к интересующим полинуклеотидам, которые желательно позиционировать в локусе-мишени. В некоторых вариантах осуществления распознаваемая последовательность присутствует только один раз в геноме клетки-хозяина.

Также представлены активные варианты и фрагменты приведенных в качестве примера распознаваемых последовательностей. Такие активные варианты могут составлять, по меньшей мере, 65%, по меньшей мере, 70%, по меньшей мере, 75%, по меньшей мере, 80%, по меньшей мере, 85%, по меньшей мере, 90%, по меньшей мере, 91%, по меньшей мере, 92%, по меньшей мере, 93%, по меньшей мере, 94%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98% или, по меньшей мере, 99% или 100% идентичности последовательности с данной распознаваемой последовательностью, при этом активные варианты сохраняют биологическую активность и пригодны для распознавания и расщепления нуклеазным агентом специфичным/зависимым от последовательности образом. Известны анализы для измерения двухцепочечного разрыва распознаваемой последовательности с помощью нуклеазного агента (например, анализ qPCR TAQMAN®, Frendewey et al., Methods in Enzymology, 2010, 476, 295-307).

Длина распознаваемой последовательности может варьироваться и включает, например, распознаваемые последовательности, которые составляют от около 30 до около 36 п.н. для пары белка цинкового пальца или нуклеазы цинкового пальца (ZFN) (то есть от около 15 до около 18 п.н. каждый ZFN), около 36 п.н. для белка TALE или эффекторной нуклеазы, подобной активатору транскрипции (TALEN), или около 20 п.н. для РНК-направляющей CRISPR/Cas9.

Распознаваемая последовательность ДНК-связывающего белка или нуклеазного агента может быть расположена где угодно в или около целевого геномного локуса. Распознаваемая последовательность может быть расположена внутри кодирующей области гена (например, гена B4GALT1) или в регуляторных областях, которые влияют на экспрессию гена. Распознаваемая последовательность ДНК-связывающего белка или нуклеазного агента может быть расположена в интроне, экзоне, промоторе, энхансере, регуляторной области или любой небелковой кодирующей области.

Одним типом ДНК-связывающего белка, который можно использовать в различных способах и композициях, раскрытых в данном документе, является TALE. TALE может быть слит или связан, например, с доменом эпигенетической модификации, доменом активации транскрипции или доменом репрессора транскрипции. Примеры таких доменов описаны ниже в отношении белков Cas и также могут быть найдены, например, в публикации РСТ WO 2011/145121. Соответственно, один тип нуклеазного агента, который можно использовать в различных способах и композициях, раскрытых в данном документе, представляет собой ТАЛЕН. Эффекторные нуклеазы, подобные активатору транскрипции (TAL), представляют собой класс специфических для последовательности нуклеаз, которые можно использовать для двухцепочечных разрывов в определенных последовательностях-мишенях в геноме прокариотического или эукариотического организма. Эффекторные нуклеазы TAL получают путем слияния нативного или сконструированного эффектора TAL или его функциональной части с каталитическим доменом эндонуклеазы, такой как FokI. Уникальный, модульный TAL-эффекторный ДНК-связывающий домен позволяет создавать белки с потенциально любой специфичностью распознавания ДНК. Таким образом, ДНК-связывающие домены эффекторных нуклеаз TAL могут быть сконструированы так, чтобы распознавать специфические сайты-мишени ДНК, и, таким образом, использоваться для создания двухцепочечных разрывов в желаемых последовательностях-мишенях. Примеры подходящих нуклеаз TAL и способы получения подходящих нуклеаз TAL раскрыты, например, в публикациях заявки на патент США 2011/0239315; 2011/0269234; 2011/0145940; 2003/0232410; 2005/0208489; 2005/0026157; 2005/0064474; 2006/0188987; и 2006/0063231.

В некоторых TALEN каждый мономер TALEN содержит от около 33 до около 35 повторов TAL, которые распознают одну пару оснований через два гипервариабельных остатка. В некоторых TALEN нуклеиновым агентом является химерный белок, содержащий ДНК-связывающий домен на основе TAL-повтора, функционально связанный с независимой нуклеазой, такой как эндонуклеаза FokI. Например, нуклеазный агент может содержать первый ДНК-связывающий домен на основе повтора TAL и второй ДНК-связывающий домен на основе повтора TAL, где каждый из первого и второго ДНК-связывающих доменов на основе повтора TAL функционально связан с нуклеазу FokI, где первый и второй ДНК-связывающий домен на основе повтора TAL распознают две смежные последовательности ДНК-мишени в каждой цепи последовательности ДНК-мишени, разделенные спейсерной последовательностью различной длины (от около 12 до около 20 п.н.), и где субъединицы нуклеазы FokI димеризуются, чтобы создать активную нуклеазу, которая делает двойной разрыв цепи в последовательности-мишени.

Другим примером ДНК-связывающего белка является белок цинкового пальца. Такие белки цинкового пальца могут быть связаны или слиты, например, с доменом эпигенетической модификации, доменом активации транскрипции или доменом репрессора транскрипции. Примеры таких доменов описаны ниже в отношении белков Cas и также могут быть найдены, например, в публикации РСТ WO 2011/145121. Соответственно, другим примером нуклеазного агента, который можно использовать в различных способах и композициях, раскрытых в данном документе, является ZFN. В некоторых ZFN каждый мономер ZFN содержит три или более ДНК-связывающих домена на основе цинкового пальца, причем каждый ДНК-связывающий домен на основе цинкового пальца связывается с дочерним сайтом в 3 п.н. В других ZFN ZFN представляет собой химерный белок, содержащий ДНК-связывающий домен на основе цинкового пальца, функционально связанный с независимой нуклеазой, такой как эндонуклеаза FokI. Например, нуклеазный агент может содержать первую ZFN и вторую ZFN, где каждая из первой ZFN и второй ZFN функционально связана с субъединицей нуклеазы FokI, при этом первая и вторая ZFN распознают две смежные последовательности ДНК-мишени в каждой нить последовательности ДНК-мишени разделена спейсером от около 5 до около 7 п.н., причем субъединицы нуклеазы FokI димеризуются с образованием активной нуклеазы, которая приводит к разрыву двойной цепи.

Другие подходящие ДНК-связывающие белки и нуклеазные агенты для использования в способах и композициях, описанных в данном документе, включают системы CRISPR-Cas, которые описаны в другом месте в данном документе.

ДНК-связывающий белок или нуклеазный агент может быть введен в клетку любым известным способом. Полипептид, кодирующий ДНК-связывающий белок или нуклеазный агент, может быть непосредственно введен в клетку. Альтернативно, полинуклеотид, кодирующий ДНК-связывающий белок или нуклеазный агент, может быть введен в клетку. Когда полинуклеотид, кодирующий ДНК-связывающий белок или нуклеазный агент, вводится в клетку, ДНК-связывающий белок или нуклеазный агент может временно, условно или конститутивно экспрессироваться в клетке. Например, полинуклеотид, кодирующий ДНК-связывающий белок или нуклеазный агент, может содержаться в кассете экспрессии и быть функционально связанным с условным промотором, индуцибельным промотором, конститутивным промотором или тканеспецифичным промотором. Такие промоторы обсуждаются более подробно в другом месте данного документа. В некоторых вариантах осуществления ДНК-связывающий белок или нуклеазный агент может быть введен в клетку в виде мРНК, кодирующей ДНК-связывающий белок или нуклеазный агент.

Полинуклеотид, кодирующий ДНК-связывающий белок или нуклеазный агент, может быть стабильно интегрирован в геном клетки и функционально связан с активным в клетке промотором. Альтернативно, полинуклеотид, кодирующий ДНК-связывающий белок или нуклеазный агент, может находиться в нацеливающем векторе или в векторе или плазмиде, которая отделена от нацеливающего вектора, содержащего вставочный полинуклеотид.

Когда ДНК-связывающий белок или нуклеазный агент вводится в клетку путем введения полинуклеотида, кодирующего ДНК-связывающий белок или нуклеазный агент, такой полинуклеотид, кодирующий ДНК-связывающий белок или нуклеазный агент, может быть модифицирован для замены кодонов, имеющих более высокую частоту использования в интересующей клетке по сравнению с природной полинуклеотидной последовательностью, кодирующей ДНК-связывающий белок или нуклеазный агент. В некоторых вариантах осуществления полинуклеотид, кодирующий ДНК-связывающий белок или нуклеазный агент, может быть модифицирован для замены кодонов, имеющих более высокую частоту использования, в данной интересующей прокариотической или эукариотической клетке, включая бактериальную клетку, дрожжевую клетку, клетку человека, клетку не человека, клетку млекопитающего, клетку грызуна, клетку мыши, клетку крысы или любую другую интересующую клетку-хозяин по сравнению с природной полинуклеотидной последовательностью.

В описанных в данном документе способах могут использоваться короткие палиндромные повторы, регулярно расположенные группами (CRISPR)/CRISPR (Cas) или компоненты таких систем для модификации генома в клетке. Системы CRISPR-Cas включают в себя транскрипты и другие элементы, участвующие в экспрессии или управлении активностью генов Cas. Система CRISPR-Cas может быть системой типа I, типа II или типа III. Альтернативно, системой CRISPR/Cas может быть, например, система типа V (например, подтип VA или подтип VB). Способы и композиции, раскрытые в данном документе, могут использовать системы CRISPR-Cas с использованием комплексов CRISPR (содержащих направляющую РНК (нРНК) в комплексе с белком Cas) для сайт-направленного расщепления нуклеиновых кислот.

Системы CRISPR-Cas, используемые в описанных в данном документе способах, не встречаются в природе. Например, некоторые системы CRISPR-Cas используют не встречающиеся в природе комплексы CRISPR, содержащие нРНК и белок Cas, которые не встречаются в природе вместе.

Белки Cas обычно содержат, по меньшей мере, один домен распознавания или связывания РНК, который может взаимодействовать с направляющими РНК (нРНК, более подробно описанные ниже). Белки Cas также могут содержать нуклеазные домены (например, домены ДНКазы или РНКазы), ДНК-связывающие домены, геликазные домены, домены межбелкового взаимодействия, домены димеризации и другие домены. Нуклеазный домен обладает каталитической активностью в отношении расщепления нуклеиновой кислоты, которое включает разрыв ковалентных связей молекулы нуклеиновой кислоты. Расщепление может привести к тупым концам или в выступающим концам, и оно может быть одноцепочечным или двухцепочечным. Белок Cas9 дикого типа обычно создает тупой продукт расщепления. С другой стороны, белок Cpf1 дикого типа (например, FnCpf1) может приводить к продукту расщепления с 5'-нуклеотидным выступом, причем расщепление происходит после 18-й пары оснований из последовательности PAM на нецелевой цепи и после 23-й пары оснований в целевом участке. Белок Cas может обладать полной активностью расщепления для создания двухцепочечного разрыва в эндогенном гене B4GALT1 (например, двухцепочечного разрыва с тупыми концами), или это может быть никаза, которая создает ращепление одной цепи в эндогенном гене B4GALT1.

Примеры белков Cas включают, но не ограничиваются ими, Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas5e (CasD), Cas6, Cas6e, Cas6f, Cas7, Cas8a1, Cas8a2, Cas8b, Cas8c, Cas9 (Csn1 или Csx12), Cas10, Casl0d, CasF, CasG, CasH, Csy1, Csy2, Csy3, Cse1 (CasA), Cse2 (CasB), Cse3 (CasE), Cse4 (CasC), Csc1, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx15, Csf1, Csf2, Csf3, Csf4, и Cu1966, и их гомологи или модифицированные версии.

В некоторых вариантах осуществления белок Cas представляет собой белок Cas9 или происходит из белка Cas9 из системы CRISPR-Cas типа II. Белки Cas9 происходят из системы CRISPR-Cas типа II и обычно имеют четыре ключевых мотива с консервативной архитектурой. Мотивы 1, 2 и 4 являются RuvC-подобными мотивами, и мотив 3 является HNH мотивом. Типичные белки Cas9 включают, но не ограничиваются ими, те из Streptococcus pyogenes, Streptococcus thermophilus, Streptococcus sp., Staphylococcus aureus, Nocardiopsis dassonvillei, Streptomyces pristinaespiralis, Streptomyces viridochromogenes, Streptomyces viridochromogenes, Streptosporangium roseum, Streptosporangium roseum, Alicyclobacillus acidocaldarius, Bacillus pseudomycoides, Bacillus selenitireducens, Exiguobacterium sibiricum, Lactobacillus delbrueckii, Lactobacillus salivarius, Microscilla marina, Burkholderiales bacterium, Polaromonas naphthalenivorans, Polaromonas sp., Crocosphaera watsonii, Cyanothece sp., Microcystis aeruginosa, Synechococcus sp., Acetohalobium arabaticum, Ammonifex degensii, Caldicelulosiruptor becscii, Candidatus Desulforudis, Clostridium botulinum, Clostridium difficile, Finegoldia magna, Natranaerobius thermophilus, Pelotomaculum thermopropionicum, Acidithiobacillus caldus, Acidithiobacillus ferrooxidans, Allochromatium vinosum, Marinobacter sp., Nitrosococcus halophilus, Nitrosococcus watsoni, Pseudoalteromonas haloplanktis, Ktedonobacter racemifer, Methanohalobium evestigatum, Anabaena variabilis, Nodularia spumigena, Nostoc sp., Arthrospira maxima, Arthrospira platensis, Arthrospira sp., Lyngbya sp., Microcoleus chthonoplastes, Oscillatoria sp., Petrotoga mobilis, Thermosipho africanus, or Acaryochloris marina. Дополнительные примеры членов семейства Cas9 описаны в публикации РСТ WO 2014/131833. Cas9 из S. pyogenes (присвоенный регистрационный номер SwissProt Q99ZW2) представляет собой иллюстративный фермент. Cas9 от S. aureus (присвоенный регистрационный номер UniProt J7RUA5) представляет собой еще один иллюстративный фермент.

Другим примером белка Cas является белок Cpf1 (CRISPR от Prevotella и Francisella 1). Cpf1 представляет собой большой белок (около 1300 аминокислот), который содержит RuvC-подобный нуклеазный домен, гомологичный соответствующему домену Cas9, наряду с аналогом характерного богатого аргинином кластера Cas9. Однако в Cpf1 отсутствует нуклеазный домен HNH, который присутствует в белках Cas9, а RuvC-подобный домен является смежным в последовательности Cpf1, в отличие от Cas9, где он содержит длинные вставки, включая домен HNH. Типичные белки Cpf1 включают, но не ограничиваются ими, белки из Francisella tularensis 1, Francisella tularensis subsp. novicida, Prevotella albensis, Lachnospiraceae bacterium MC2017 1, Butyrivibrio proteoclasticus, Peregrinibacteria bacterium GW2011_GWA2_33_10, Parcubacteria bacterium GW2011_GWC2_44_17, Smithella sp. SCADC, Acidaminococcus sp. BV3L6, Lachnospiraceae bacterium MA2020, Candidatus Methanoplasma termitum, Eubacterium eligens, Moraxella bovoculi 237, Leptospira inadai, Lachnospiraceae bacterium ND2006, Porphyromonas crevioricanis 3, Prevotella disiens, and Porphyromonas macacae. Cpf1 from Francisella novicida U112 (FnCpf1; присвоенный номер доступа UniProt A0Q7Q2) является иллюстративным ферментом.

Белки Cas могут быть белками дикого типа (т.е. белками, встречающимися в природе), модифицированными белками Cas (то есть вариантами белков Cas) или фрагментами белков Cas или дикого типа. Белки Cas также могут быть активными вариантами или фрагментами белков Cas дикого типа или модифицированных. Активные варианты или фрагменты могут составлять, по меньшей мере, 80%, по меньшей мере, 85%, по меньшей мере, 90%, по меньшей мере, 91%, по меньшей мере, 92%, по меньшей мере, 93%, по меньшей мере, 94%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, или, по меньшей мере, 99% или 100% идентичности последовательности с диким типом или модифицированным белком Cas или его частью, при этом активные варианты сохраняют способность разрезать в желаемом сайте расщепления и, следовательно, сохраняют активность по индуцированию ников и двухцепочечных разрывов. Анализы на активность по индуцированию ников и двухцепочечных разрывов известны и обычно измеряют общую активность и специфичность белка Cas на ДНК-субстратах, содержащих сайт расщепления.

Белки Cas могут содержать, по меньшей мере, один нуклеазный домен, такой как ДНКазный домен. Например, белок Cpf1 дикого типа обычно содержит RuvC-подобный домен, который расщепляет обе цепи ДНК-мишени, возможно, в димерной конфигурации. Белки Cas могут содержать, по меньшей мере, два нуклеазных домена, таких как ДНКазные домены. Например, белок Cas9 дикого типа обычно содержит RuvC-подобный нуклеазный домен и HNH-подобный нуклеазный домен. Каждый из доменов RuvC и HNH может разрезать разные нити двухцепочечной ДНК, чтобы сделать двухцепочечный разрыв в ДНК.

Белки Cas (например, нуклеазоактивные белки Cas или нуклеазоактивные белки Cas) также могут быть функционально связаны с гетерологичными полипептидами в качестве белков слияния. Например, белок Cas может быть слит с доменом расщепления, доменом эпигенетической модификации, доменом активации транскрипции или доменом репрессора транскрипции. Примеры доменов активации транскрипции включают домен активации VP16 вируса простого герпеса, VP64 (который является тетрамерным производным VP16), домен активации NFκB p65, домены активации p53 1 и 2, домен активации CREB (белок, связывающий элемент ответа cAMP), домен активации E2A и домен активации NFAT (ядерный фактор активированных Т-клеток). Другие примеры включают, но не ограничиваются ими, домены активации из Oct1, Oct-2A, SP1, AP-2, CTF1, P300, CBP, PCAF, SRC1, PvALF, ERF-2, OsGAI, HALF-1, C1, AP1, ARF-5, ARF-6, ARF-7, ARF-8, CPRF1, CPRF4, MYC-RP/GP, TRAB1PC4, и HSF1 См., например, публикацию заявки на патент США 2016/0237456, европейский патент EP3045537 и публикацию PCT WO 2011/145121.

В некоторых вариантах осуществления может использоваться система активации транскрипции, содержащая слитый белок dCas9-VP64 в паре с MS2-p65-HSF1. Направляющие РНК в таких системах могут быть сконструированы с аптамерными последовательностями, присоединенными к тетра-петле енРНК и стволовой петле 2, предназначенным для связывания димеризованных белков оболочки бактериофага MS2. См., например, Konermann et al., Nature, 2015, 517, 583-588. Примеры доменов репрессоров транскрипции включают индуцибельные домены раннего репрессора цАМФ (ICER), домены репрессоров, связанные с Kruppel-box box A (KRAB-A), репрессоры доменов, богатых глицином YY1, Sp1-подобные репрессоры, E (spl) репрессоры, ΙκΒ репрессор и MeCP2, Другие примеры включают, но не ограничиваются ими, репрессорные транскрипционные домены из A/B, KOX, TGF-бета-индуцибельного раннего гена (TIEG - TGF-beta-inducible early gene), v-erbA, SID, SID4X, MBD2, MBD3, DNMT1, DNMG3A, DNMT3B, Rb, ROM2, см., например, европейский патент EP3045537 и публикацию PCT WO 2011/145121. Белки Cas также могут быть слиты с гетерологичным полипептидом, обеспечивающим повышенную или пониженную стабильность. Слитый домен или гетерологичный полипептид может быть расположен на N-конце, С-конце или внутри белка Cas.

Примером слитого белка Cas является белок Cas, слитый с гетерологичным полипептидом, который обеспечивает субклеточную локализацию. Такие гетерологичные полипептиды могут включать, например, один или более сигналов ядерной локализации (NLS - nuclear localization signals), таких как NLS SV40 для нацеливания на ядро, сигнал локализации митохондрий для нацеливания на митохондрии, сигнал удержания ER и тому подобное. Такие субклеточные сигналы локализации могут быть локализованы на N-конце, C-конце или в любом месте внутри белка Cas. NLS может содержать отрезок основных аминокислот и может представлять собой последовательность из одного компонента или последовательность из двух частей.

Белки Cas также могут быть функционально связаны с проникающим в клетку доменом. Например, проникающий в клетку домен может быть получен из белка ТАТ ВИЧ-1, проникающего в клетки TLM мотива вируса гепатита В человека, MPG, Pep-1, VP22, пептида, проникающего в клетки вируса простого герпеса, или пептидная последовательность полиаргинина. Проникающий в клетку домен может быть локализован на N-конце, C-конце или в любом месте белка Cas.

Белки Cas также могут быть функционально связаны с гетерологичным полипептидом для простоты отслеживания или очистки, таким как флуоресцентный белок, метка очистки или метка эпитопа. Примеры флуоресцентных белков включают зеленые флуоресцентные белки (например, GFP, GFP-2, tagGFP, turboGFP, eGFP, Emerald, Azami Green, мономерный Azami Green, CopGFP, AceGFP, ZsGreenl), желтые флуоресцентные белки (например, YFP, eYFP, цитрин, Венера, YPet, PhiYFP, ZsYellowl), голубые флуоресцентные белки (например, eBFP, eBFP2, азурит, mKalamal, GFPuv, сапфир, T-сапфир), голубые флуоресцентные белки (например, eCFP, Cerulean, CyPet, AmCyanl, Midoriishi-Cyan) красные флуоресцентные белки (mKate, mKate2, mPlum, мономер DsRed, mCherry, mRFP1, DsRed-Express, DsRed2, DsRed-мономер, HcRed-тандем, HcRedl, AsRed2, eqFP611, mRaspberry, jresse, mredsberry) mKO, Kusabira-Orange, мономерный Kusabira-Orange, mTangerine, tdTomato) и любой другой подходящий флуоресцентный белок. Примеры меток включают глутатион-S-трансферазу (GST), хитин-связывающий белок (CBP), мальтозосвязывающий белок, тиоредоксин (TRX), поли (NANP), метку тандемной аффинной очистки (TAP), myc, AcV5, AU1, AU5, E, ECS, E2, FLAG, гемагглютинин (HA), nus, Softag 1, Softag 3, Strep, SBP, Glu-Glu, HSV, KT3, S, S1, T7, V5, VSV-G, гистидин (His), биотин-карбоксильный белок-носитель (BCCP) и кальмодулин.

Белки Cas9 также могут быть связаны с экзогенными донорными последовательностями или мечеными нуклеиновыми кислотами. Такое закрепление (то есть физическое связывание) может быть достигнуто посредством ковалентных взаимодействий или нековалентных взаимодействий, и закрепление может быть прямым (например, посредством прямого слияния или химического конъюгирования, что может быть достигнуто путем модификации остатков цистеина или лизина в белке или интеине). модификации), или может быть достигнуто с помощью одного или более промежуточных линкеров или адаптерных молекул, таких как стрептавидин или аптамеры. Нековалентные стратегии синтеза конъюгатов белок-нуклеиновая кислота включают биотин-стрептавидин и никель-гистидиновые методы. Конъюгаты ковалентный белок-нуклеиновая кислота могут быть синтезированы путем соединения подходящим образом функционализированных нуклеиновых кислот и белков с использованием широкого спектра химикатов. Некоторые из этих химикатов включают прямое присоединение олигонуклеотида к аминокислотному остатку на поверхности белка (например, лизинамин или тиол цистеина), в то время как другие более сложные схемы требуют посттрансляционной модификации белка или участия каталитического или домен реактивного белка. Способы ковалентного присоединения белков к нуклеиновым кислотам могут включать, например, химическое сшивание олигонуклеотидов с остатками белка лизина или цистеина, экспрессию лигирования белка, хемоферментные методы и использование фотоаптамеров. Экзогенная донорная последовательность или меченая нуклеиновая кислота могут быть связаны с С-концом, N-концом или с внутренней областью внутри белка Cas9. В некоторых вариантах осуществления экзогенная донорная последовательность или меченая нуклеиновая кислота связаны с C-концом или N-концом белка Cas9. Аналогично, белок Cas9 может быть связан с 5'-концом, 3'-концом или с внутренней областью в пределах последовательности экзогенного донора или меченой нуклеиновой кислоты. В некоторых вариантах осуществления белок Cas9 связан с 5'-концом или 3'-концом экзогенной донорной последовательности или меченой нуклеиновой кислоты.

Белки Cas могут быть предоставлены в любой форме. Например, белок Cas может быть предоставлен в форме белка, такого как белок Cas, образующий комплекс с нРНК. Альтернативно, белок Cas может быть предоставлен в форме нуклеиновой кислоты, кодирующей белок Cas, такой как РНК (например, мессенджер РНК (мРНК)) или ДНК. В некоторых вариантах осуществления нуклеиновая кислота, кодирующая белок Cas, может быть оптимизирована по кодонам для эффективной трансляции в белок в конкретной клетке или организме. Например, нуклеиновую кислоту, кодирующую белок Cas, можно модифицировать для замены кодонов, имеющих более высокую частоту использования, в бактериальной клетке, дрожжевой клетке, человеческой клетке, клетке, не человека, клетке млекопитающего, клетке грызуна, клетке мыши, клетке крысы или любой другой интересующей клетке-хозяине по сравнению с природной полинуклеотидной последовательностью. Когда нуклеиновую кислоту, кодирующую белок Cas, вводят в клетку, белок Cas может временно, условно или конститутивно экспрессироваться в клетке.

Нуклеиновые кислоты, кодирующие белки Cas, могут быть стабильно интегрированы в геном клетки и функционально связаны с активным в клетке промотором. Альтернативно, нуклеиновые кислоты, кодирующие белки Cas, могут быть функционально связаны с промотором в конструкции экспрессии. Экспрессирующие конструкции включают любые конструкции нуклеиновых кислот, способные направлять экспрессию гена или другой интересующей последовательности нуклеиновой кислоты (например, гена Cas) и которые могут переносить такую интересующую последовательность нуклеиновой кислоты в клетку-мишень. Например, нуклеиновая кислота, кодирующая белок Cas, может находиться в нацеливающем векторе, содержащем вставку нуклеиновой кислоты, и/или в векторе, содержащем ДНК, кодирующую нРНК. Альтернативно, он может находиться в векторе или плазмиде, которая отделена от вектора-мишени, содержащего вставку нуклеиновой кислоты, и/или отделена от вектора, содержащего ДНК, кодирующую эту рРНК. Промоторы, которые можно использовать в экспрессионной конструкции, включают промоторы, активные, например, в одной или более клетках эукариот, клетке человека, клетке, не человека, клетке млекопитающего, клетке млекопитающего, не человека, клетке грызунов, клетке мыши, клетке крысы, клетке хомяка, клетке кролика, плюрипотентной клетке, эмбриональной стволовой клетке (ES) или зиготе. Такими промоторами могут быть, например, условные промоторы, индуцибельные промоторы, конститутивные промоторы или тканеспецифичные промоторы. В некоторых вариантах осуществления промотор может представлять собой двунаправленный промотор, управляющий экспрессией как белка Cas в одном направлении, так и направляющей РНК в другом направлении. Такие двунаправленные промоторы могут состоять из: 1) полного традиционного однонаправленного промотора Pol III, который содержит 3 внешних элемента управления: элемент дистальной последовательности (DSE - distal sequence element), элемент проксимальной последовательности (PSE - proximal sequence element) и блок TATA; и 2) второй основной промотор Pol III, который включает PSE и блок TATA, слитый с 5'-концом DSE в обратной ориентации. Например, в промоторе H1 DSE соседствует с PSE и блоком TATA, и промотор можно сделать двунаправленным, создав гибридный промотор, в котором транскрипция в обратном направлении контролируется путем добавления блока PSE и TATA, полученного из промоутер U6. Использование двунаправленного промотора для экспрессии генов, кодирующих белок Cas, и направляющей РНК одновременно позволяет создавать компактные кассеты экспрессии для облегчения доставки.

Данное раскрытие также предоставляет направляющую РНК (нРНК), которая связывается с белком Cas (например, белком Cas9) и нацеливает белок Cas на определенное место в целевой ДНК (например, ген B4GALT1). В некоторых вариантах осуществления направляющая РНК эффективна для направления фермента Cas для связывания или расщепления эндогенного гена B4GALT1, при этом направляющая РНК содержит направленный на ДНК сегмент, который гибридизуется с последовательностью, распознаваемой направляющей РНК, в эндогенном гене. B4GALT1 ген, который включает или находится, например, в положениях с 53575 по 53577 из SEQ ID NO:1. Например, последовательность, распознаваемая направляющей РНК, может находиться в пределах около 5, около 10, около 15, около 20, около 25, около 30, около 35, около 40, около 45, около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500 или в пределах около 1000 нуклеотидов от положений с 53575 по 53577 из SEQ ID NO:1. Другие типичные направляющие РНК содержат ДНК-нацеливающий сегмент, который гибридизуется с последовательностью, распознаваемой направляющей РНК, в эндогенном гене B4GALT1, который находится в области, соответствующей экзону 5 SEQ ID NO:1. Другие иллюстративные направляющие РНК содержат ДНК-нацеливающий сегмент, который гибридизуется с последовательностью, распознаваемой направляющей РНК, в эндогенном гене B4GALT1, которая включает в себя или находится вблизи стартового кодона эндогенного гена B4GALT1 или включает в себя или находится рядом с стоп-кодоном эндогенного гена B4GALT1. Например, последовательность, распознаваемая направляющей РНК, может находиться в пределах около 5, около 10, около 15, около 20, около 25, около 30, около 35, около 40, около 45, около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500 или в пределах около 1000 нуклеотидов от стартового кодона или в пределах около 5, в пределах около 10, в пределах около 15, в пределах около 20, в пределах около 25, в пределах около 30, в пределах около 35, в пределах около 40, в пределах около 45, в пределах около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500 или в пределах около 1000 нуклеотидов от стоп-кодона. Эндогенный ген B4GALT1 может быть геном B4GALT1 из любого организма. Например, ген B4GALT1 может быть геном B4GALT1 человека или ортологом из другого организма, такого как млекопитающее отличное от человека, грызун, мышь или крыса.

В некоторых вариантах осуществления последовательности распознаваемые направляющей РНК присутствуют на 5'-конце гена B4GALT1 человека. В некоторых вариантах осуществления последовательности распознаваемые направляющей РНК соседствуют с сайтом начала транскрипции (TSS - transcription start site) гена B4GALT1 человека. В некоторых вариантах осуществления последовательности распознаваемые направляющей РНК присутствуют на 3'-конце гена B4GALT1 человека. В некоторых вариантах осуществления последовательности распознаваемые направляющей РНК находятся вблизи положений с 53575 по 53577 из SEQ ID NO:1. Иллюстративные последовательности распознаваемые направляющей РНК, расположенные вблизи позиций с 53575 по 53577 из SEQ ID NO:1, включают, но не ограничиваются ими, ATTAGTTTTTAGAGGCATGT (SEQ ID NO:9) и GGCTCTCAGGCCAAGTGTAT (SEQ ID NO:10) (обе от 5' до позиций 53575 до 53577 из SEQ ID NO:1) и TACTCCTTCCCCCTTTAGGA (SEQ ID NO:11) и GTCCGAGGCTCTGGGCCTAG (SEQID NO:12) (оба 3' в положениях с 53575 по 53577 из SEQ ID NO:1).

Направляющие РНК могут содержать два сегмента: сегмент, нацеленный на ДНК, и сегмент, связывающий белок. Некоторые рРНК содержат две отдельные молекулы РНК: РНК-активатор (например, тракрРНК (tractrRNA)) и РНК-мишень (например, CRISPR РНК или crРНК). Другие рРНК представляют собой одну молекулу РНК (один полинуклеотид РНК; одну молекулу рРНК, однонаправленную РНК или енРНК). Например, для Cas9, одиночная направляющая РНК может содержать кРНК, слитую с тракрРНК (например, через линкер). Например, для Cpf1 требуется только кРНК для достижения расщепления. НРНК включают как двухмолекулярные (т.е. модульные) нРНК, так и одномолекулярные нРНК.

Направленный на ДНК сегмент (крРНК - crRNA) данной нРНК содержит нуклеотидную последовательность, которая комплементарна последовательности (т.е. последовательности, распознаваемой направляющей РНК) в ДНК-мишени. Направленный на ДНК сегмент нРНК взаимодействует с ДНК-мишенью (например, геном B4GALT1) специфичным для последовательности образом посредством гибридизации (т.е. спаривания оснований). По существу, нуклеотидная последовательность сегмента, нацеленного на ДНК, может варьироваться и определять местоположение внутри ДНК-мишени, с которым будут взаимодействовать нРНК и ДНК-мишень. Направленный на ДНК сегмент рассматриваемой нРНК может быть модифицирован для гибридизации с любой желаемой последовательностью в целевой ДНК. Встречающиеся в природе крРНК различаются в зависимости от системы CRISPR-Cas и организма, но часто содержат направляющий сегмент длиной около от 21 до 72 нуклеотидов, фланкированный двумя прямыми повторами (DR - direct repeats) длиной от около 21 до около 46 нуклеотидов. В случае S. pyogenesDR имеют длину 36 нуклеотидов, а целевой участок составляет 30 нуклеотидов. 3'-расположенный DR является комплементарным и гибридизуется с соответствующей трактрРНК, которая, в свою очередь, связывается с белком Cas.

Направленный на ДНК сегмент может иметь длину, по меньшей мере, около 12 нуклеотидов, по меньшей мере, около 15 нуклеотидов, по меньшей мере, около 17 нуклеотидов, по меньшей мере, около 18 нуклеотидов, по меньшей мере, около 19 нуклеотидов, по меньшей мере, около 20 нуклеотидов, по меньшей мере, около 25 нуклеотиды, по меньшей мере, около 30 нуклеотидов, по меньшей мере, около 35 нуклеотидов или, по меньшей мере, около 40 нуклеотидов. Такие ДНК-нацеленные сегменты могут иметь длину от около 12 нуклеотидов до около 100 нуклеотидов, от около 12 нуклеотидов до около 80 нуклеотидов, от около 12 нуклеотидов до около 50 нуклеотидов, от около 12 нуклеотидов до около 40 нуклеотидов, от около 12 нуклеотидов до около 30 нуклеотидов, от около 12 нуклеотидов до около 25 нуклеотидов или от около 12 нуклеотидов до около 20 нуклеотидов. Например, целевой сегмент ДНК может составлять от около 15 нуклеотидов до около 25 нуклеотидов (например, от около 17 нуклеотидов до около 20 нуклеотидов или около 17 нуклеотидов, около 18 нуклеотидов, около 19 нуклеотидов или около 20 нуклеотидов). См., например, публикацию заявки США 2016/0024523. Для Cas9 из S. pyogenes типичный ДНК-нацеливающий сегмент имеет длину от около 16 до около 20 нуклеотидов или от около 17 до около 20 нуклеотидов. Для Cas9 из S. aureus типичный ДНК-нацеливающий сегмент имеет длину от около 21 до около 23 нуклеотидов. Для Cpf1 типичный ДНК-нацеливающий сегмент имеет длину, по меньшей мере, около 16 нуклеотидов или, по меньшей мере, около 18 нуклеотидов.

Процент комплементарности между последовательностью, нацеленной на ДНК, и последовательностью, распознаваемой направляющей РНК, в ДНК-мишени может составлять, по меньшей мере, около 60%, по меньшей мере, около 65%, по меньшей мере, около 70%, по меньшей мере, около 75%, по меньшей мере, около 80% (по меньшей мере, около 85%, по меньшей мере, около 90%, по меньшей мере, около 95%, по меньшей мере, около 97%, по меньшей мере, около 98%, по меньшей мере, около 99% или 100%). Процент комплементарности между последовательностью, нацеленной на ДНК, и последовательностью, распознаваемой направляющей РНК, в ДНК-мишени может составлять, по меньшей мере, около 60% по сравнению с около 20 смежными нуклеотидами. В качестве примера, процентная комплементарность между ДНК-нацеливающей последовательностью и последовательностью, распознаваемой направляющей РНК, в ДНК-мишени составляет около 100% по сравнению с около 14 смежными нуклеотидами на 5'-конце последовательности, распознаваемой направляющей РНК, в пределах комплементарной цепи мишени. ДНК и всего около 0% по сравнению с остатком. В таком случае можно предположить, что ДНК-нацеливающая последовательность имеет длину около 14 нуклеотидов. В качестве другого примера, процент комплементарности между последовательностью, нацеленной на ДНК, и последовательностью, распознаваемой направляющей РНК, в ДНК-мишени составляет около 100% по сравнению с семью смежными нуклеотидами на 5'-конце последовательности, распознаваемой направляющей РНК, в пределах комплементарной цепи ДНК-мишени и всего около 0% по сравнению с остатком. В таком случае можно предположить, что ДНК-нацеливающая последовательность имеет длину около 7 нуклеотидов. В некоторых направляющих РНК, по меньшей мере, около 17 нуклеотидов в последовательности ДНК-мишени являются комплементарными ДНК-мишени. Например, ДНК-нацеливающая последовательность может иметь длину около 20 нуклеотидов и может содержать 1, 2 или 3 несовпадения с ДНК-мишенью (последовательностью, распознаваемой направляющей РНК). В некоторых вариантах осуществления несоответствия не являются смежными с последовательностью соседнего мотива прототипа (PAM) (например, несоответствия находятся на 5'-конце последовательности, нацеленной на ДНК, или несоответствия составляют, по меньшей мере, 2, по меньшей мере, 3, по меньшей мере, 4, по меньшей мере, 5, по меньшей мере, 6, по меньшей мере, 7, по меньшей мере, 8, по меньшей мере, 9, по меньшей мере, 9, по меньшей мере, 10, по меньшей мере, 11, по меньшей мере, 12, по меньшей мере, 13, по меньшей мере, 14, по меньшей мере, 15, по меньшей мере, 16, по меньшей мере, 17, по меньшей мере, 18 или, по меньшей мере, 19 пар оснований от последовательности PAM).

Направляющие РНК могут включать модификации или последовательности, которые обеспечивают дополнительные желательные признаки (например, измененную или регулируемую стабильность; субклеточное нацеливание; отслеживание с помощью флуоресцентной метки; сайт связывания для белка или белкового комплекса и тому подобное). Примеры таких модификаций включают, например, 5' кэп (например, 7-метилгуанилатный кэп (m7G)); 3' полиаденилированный хвост (то есть 3' поли (А) хвост); последовательность рибосвитча (например, для обеспечения регулируемой стабильности и/или регулируемой доступности белков и/или белковых комплексов); последовательность контроля стабильности; последовательность, которая образует дцРНК дуплекс (то есть шпильку); модификация или последовательность, которая направляет РНК в субклеточное местоположение (например, ядро, митохондрии, хлоропласты и тому подобное); модификацию или последовательность, которая обеспечивает отслеживание (например, прямое конъюгирование с флуоресцентной молекулой, конъюгирование с фрагментом, который облегчает детектирование флуоресценции, последовательность, которая позволяет детектирование флуоресценции и т. д.); модификация или последовательность, которая обеспечивает сайт связывания для белков (например, белков, которые действуют на ДНК, включая активаторы транскрипции, репрессоры транскрипции, ДНК-метилтрансферазы, ДНК-деметилазы, гистонацетилтрансферазы, гистондеацетилазы и тому подобное); и их комбинации.

Направляющие РНК могут быть предоставлены в любой форме. Например, нРНК может быть предоставлена в форме РНК, либо в виде двух молекул (отдельная крРНК и тракрРНК), либо в виде одной молекулы (енРНК) и, необязательно, в форме комплекса с белком Cas. Например, нРНК могут быть получены путем транскрипции in vitro с использованием, например, РНК-полимеразы T7. Направляющие РНК также могут быть получены химическим синтезом.

НРНК также может быть предоставлена в форме ДНК, кодирующей нРНК. ДНК, кодирующая нРНК, может кодировать одну молекулу РНК (енРНК) или отдельные молекулы РНК (например, отдельные крРНК и тракрРНК). В последнем случае ДНК, кодирующая рРНК, может быть представлена как одна молекула ДНК или как отдельных молекул ДНК, кодирующих кРНК и тракрРНК, соответственно. Когда нРНК предоставляется в форме ДНК, она может временно, условно или конститутивно экспрессироваться в клетке. ДНК, кодирующие нРНК, могут быть стабильно интегрированы в геном клетки и функционально связаны с активным в клетке промотором. Альтернативно, ДНК, кодирующие нРНК, могут быть функционально связаны с промотором в конструкции экспрессии. Например, ДНК, кодирующая нРНК, может находиться в векторе, содержащем гетерологичную нуклеиновую кислоту. Вектор может дополнительно содержать экзогенную донорную последовательность и/или вектор может дополнительно содержать нуклеиновую кислоту, кодирующую белок Cas. Альтернативно, ДНК, кодирующая эту нРНК, может находиться в векторе или плазмиде, которая отделена от вектора, содержащего экзогенную донорную последовательность, и/или вектора, содержащего нуклеиновую кислоту, кодирующую белок Cas. Промоторы, которые можно использовать в таких экспрессирующих конструкциях, включают промоторы, активные, например, в одной или более из эукариотических клеток, человеческих клеток, клеток, отличных от человека, млекопитающих, клеток, и не клетка млекопитающего человека, клетка, клетка мыши, клетка крысы, клетка хомяка, клетка кролика, плюрипотентная клетка, эмбриональная стволовая клетка или зигота. Такими промоторами могут быть, например, условные промоторы, индуцибельные промоторы, конститутивные промоторы или тканеспецифичные промоторы. Такими промоторами также могут быть, например, двунаправленные промоторы. Конкретные примеры подходящих промоторов включают промотор РНК-полимеразы III, такой как промотор U6 человека, промотор U6-полимеразы III крысы или промотор U6-полимеразы III мыши.

Данное раскрытие также предоставляет композиции, содержащие одну или более направляющих РНК (например, 1, 2, 3, 4 или более направляющих РНК), раскрытых в данном документе, и носитель, повышающий стабильность выделенной нуклеиновой кислоты или белка (например, продлевая период при заданные условия хранения (например, -20°C, 4°C или температура окружающей среды), для которых продукты разложения остаются ниже порогового значения, такого как ниже 0,5% по массе исходной нуклеиновой кислоты или белка, или повышение стабильности в Vivo). Примеры таких носителей включают в себя, но не ограничиваются ими, микросферы из поли (молочной кислоты) (PLA), микросферы из поли (D, L-молочной-гликолевой кислоты) (PLGA), липосомы, мицеллы, обратные мицеллы, липидные кохлеаты и липидные микротрубочки. Такие композиции могут дополнительно содержать белок Cas, такой как белок Cas9, или нуклеиновую кислоту, кодирующую белок Cas. Такие композиции могут дополнительно содержать одну или более (например, 1, 2, 3, 4 или более) экзогенных донорных последовательностей и/или одну или более (например, 1, 2, 3, 4 или более) нацеливающих векторов и/или один или более (например, 1, 2, 3, 4 или более) векторов экспрессии, как раскрыто в другом месте в данном документе.

Последовательности распознаваемые направляющей РНК включают последовательности нуклеиновых кислот, присутствующие в ДНК-мишени (например, ген B4GALT1), с которой будет связываться ДНК-нацеливающий сегмент нРНК, при условии наличия достаточных условий для связывания. Например, последовательности, распознаваемые направляющими РНК, включают в себя последовательности, к которым разработана направляющая РНК, чтобы иметь комплементарность, при этом гибридизация между последовательностью, распознаваемой направляющей РНК, и последовательностью, нацеленной на ДНК, способствует образованию комплекса CRISPR. Полная комплементарность не обязательно требуется при условии, что существует достаточная комплементарность, чтобы вызвать гибридизацию и способствовать образованию комплекса CRISPR. последовательности, распознаваемые направляющими РНК, также включают сайты расщепления для белков Cas, более подробно описанные ниже. Последовательность, распознаваемая направляющей РНК, может содержать любой полинуклеотид, который может быть расположен, например, в ядре или цитоплазме клетки или в органелле клетки, такой как митохондрия или хлоропласт.

Последовательность, распознаваемая направляющей РНК, в ДНК-мишени может быть мишенью (то есть связываться, гибридизоваться или быть комплементарной) белка Cas или нРНК. Подходящие условия связывания ДНК/РНК включают физиологические условия, обычно присутствующие в клетке. Другие подходящие условия связывания ДНК/РНК известны.

Белок Cas может расщеплять нуклеиновую кислоту в месте внутри или снаружи последовательности нуклеиновой кислоты, присутствующей в ДНК-мишени, с которой будет связываться направленный на ДНК сегмент нРНК. «Сайт расщепления» включает положение нуклеиновой кислоты, в которой белок Cas производит разрыв одной цепи или разрыв двойной цепи. Например, образование комплекса CRISPR (содержащего нРНК, гибридизованную с последовательностью, распознаваемой направляющей РНК, и образовавшей комплекс с белком Cas), может привести к расщеплению одной или обеих цепей в или около (например, в пределах 1, в пределах 2, в течение 3, в пределах 4, в пределах 5, в течение 6, в пределах 7, в пределах 8, в пределах 9, в пределах 10, в пределах 20 или в пределах 50 или более пар оснований от) последовательности нуклеиновой кислоты, присутствующей в ДНК-мишени, к которой направлен ДНК-нацеливающий сегмент нРНК будет связывать. Сайт расщепления может быть только на одной цепи или на обеих цепях нуклеиновой кислоты. Сайты расщепления могут находиться в одном и том же положении на обеих цепях нуклеиновой кислоты (образуя тупые концы) или могут быть в разных сайтах на каждой цепочке (продуцируя ступенчатые концы (то есть, выступы)). В некоторых вариантах осуществления последовательность, распознаваемая направляющей РНК никазы, на первой цепи отделена от последовательности, распознаваемой направляющей РНК никазы, на второй цепи, по меньшей мере, на 2, по меньшей мере, на 3, по меньшей мере, на 4, по меньшей мере, на 5, по меньшей мере, на 6, по меньшей мере, на 7, по меньшей мере, на 8, по меньшей мере, на 9, по меньшей мере, на 10, по меньшей мере, на 15, по меньшей мере, на 20, по меньшей мере, на 25, по меньшей мере, на 30, по меньшей мере, на 40, по меньшей мере, на 50, по меньшей мере, на 75, по меньшей мере, на 100, по меньшей мере, на 250, по меньшей мере, на 500 или, по меньшей мере, на 1000 пар оснований.

Сайт-специфическое расщепление ДНК-мишени белками Cas может происходить в местах, определяемых как i) комплементарностью спаривания оснований между нРНК и ДНК-мишенью, так и ii) коротким мотивом, называемым протоспейсерным смежным мотивом (PAM - protospacer adjacent motif), в ДНК-мишени. PAM может фланкировать последовательность, распознаваемую направляющей РНК. В некоторых вариантах осуществления последовательность, распознаваемая направляющей РНК, может быть фланкирована на 3'-конце PAM. Альтернативно, последовательность, распознаваемая направляющей РНК, может быть фланкирована на 5'-конце PAM. Например, сайт расщепления белков Cas может составлять от около 1 до около 10 или от около 2 до около 5 пар оснований (например, 3 пары оснований) выше или ниже последовательности PAM. В некоторых случаях (например, когда используется Cas9 из S. pyogenes или тесно связанный Cas9), последовательность PAM некомплементарной цепи может быть 5'-N1GG-3', где N1 представляет собой любой нуклеотид ДНК и находится непосредственно в 3' от последовательности, распознаваемой направляющей РНК, некомплементарной цепи ДНК-мишени. Таким образом, последовательность PAM комплементарной цепи будет иметь вид 5'-CCN2-3', где N2 является любым нуклеотидом ДНК и находится непосредственно в 5' от последовательности, распознаваемой направляющей РНК, комплементарной цепи мишени. ДНК. В некоторых таких случаях N1 и N2 могут быть взаимодополняющими, а N1-N2 может быть любой парой оснований (например, N1= C и N2= G; N1= G и N2= C; N1= A и N2= T; или N1= T и N2= A). В случае Cas9 из S. Aureus PAM может быть NNGRRT (SEQ ID NO:13) или NNGRR (SEQ ID NO:14), где N может A, G, C или T, и R может быть G или A. В некоторых случаях (например, для FnCpf1) последовательность PAM может находиться выше 5'-конца и иметь последовательность 5'-TTN-3'.

Примеры последовательностей, распознаваемых направляющими РНК, включают последовательность ДНК, комплементарную ДНК-нацеливающему сегменту нРНК, или такую последовательность ДНК в дополнение к последовательности PAM. Например, мотив-мишень может представлять собой последовательность из 20 нуклеотидов ДНК, непосредственно предшествующую мотиву NGG, распознаваемому белком Cas9, например GN19NGG (SEQ ID NO:15) или N20NGG (SEQ ID NO:16) (см., например, публикация PCT WO 2014/165825). Гуанин на 5'-конце может облегчать транскрипцию РНК-полимеразой в клетках. Другие примеры последовательностей, распознаваемых направляющими РНК, могут включать два гуаниновых нуклеотида на 5'-конце (например, GGN20NGG; SEQ ID NO:17) для облегчения эффективной транскрипции с помощью T7 полимеразы in vitro. См., например, публикация PCT WO 2014/065596. Другие последовательности, распознаваемые направляющей РНК, могут иметь длину от около 4 до около 22 нуклеотидов, включая 5'G или GG и 3'GG или NGG. В некоторых вариантах осуществления последовательности, распознаваемые направляющей РНК, могут иметь длину от около 14 до около 20 нуклеотидов.

Последовательность, распознаваемая направляющей РНК, может быть любой последовательностью нуклеиновой кислоты, эндогенной или экзогенной для клетки. Последовательность, распознаваемая направляющей РНК, может представлять собой последовательность, кодирующую продукт гена (например, белок) или некодирующую последовательность (например, регуляторную последовательность), или может включать и то и другое.

В некоторых вариантах осуществления последовательность, распознаваемая направляющей РНК, может находиться в области, соответствующей экзону 5 SEQ ID NO:1. В некоторых вариантах осуществления последовательность, распознаваемая направляющей РНК, может включать или находиться вблизи положений с 53575 по 53577 из SEQ ID NO:1. Например, последовательность, распознаваемая направляющей РНК, может находиться в пределах около 1000, в пределах около 500, в пределах около 400, в пределах около 300, в пределах около 200, в пределах около 100, в пределах около 50, в пределах около 45, в пределах около 40, в пределах около 35, в пределах около 30, в пределах около 25, в пределах около 20, в пределах около 15, в пределах около 10 или в пределах около 5 нуклеотидов в положении, соответствующем положениям с 53575 по 53577 из SEQ ID NO:1. В некоторых вариантах осуществления последовательность, распознаваемая направляющей РНК, может включать или быть ближайшей к стартовому кодону эндогенного гена B4GALT1 или стоп-кодону эндогенного гена B4GALT1. Например, последовательность, распознаваемая направляющей РНК, может находиться в пределах около 10, в пределах около 20, в пределах около 30, в пределах около 40, в пределах около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500, или в пределах около 1000 нуклеотидов от старт-кодона или стоп-кодона.

Описанные в данном документе способы и композиции могут использовать экзогенные донорные последовательности (например, направляющие векторы или матрицы репарации) для модификации эндогенного гена B4GALT1, либо без расщепления эндогенного гена B4GALT1, либо после расщепления эндогенного гена B4GALT1 нуклеазный агент. Экзогенная донорная последовательность относится к любой нуклеиновой кислоте или вектору, которые включают элементы, которые необходимы для обеспечения сайт-специфической рекомбинации с последовательностью-мишенью. Использование экзогенных донорных последовательностей в сочетании с нуклеазными агентами может привести к более точным модификациям в эндогенном гене B4GALT1 путем стимулирования гомологически направленной репарации.

В таких способах нуклеазный агент расщепляет эндогенный ген B4GALT1 для создания одноцепочечного разрыва (nick) или двухцепочечного разрыва, и экзогенная донорная последовательность рекомбинирует с эндогенным геном B4GALT1 посредством лигироания, опосредованного негомологичноым присоединением концов (NHEJ), или через направляемую гомологией репарацию. Восстановление с использованием экзогенной донорной последовательности может удалить или нарушить сайт расщепления нуклеазой, так что на целевые аллели не может быть повторно направлен нуклеазный агент.

Экзогенные донорные последовательности могут включать дезоксирибонуклеиновую кислоту (ДНК) или рибонуклеиновую кислоту (РНК), они могут быть одноцепочечными или двухцепочечными, и они могут быть в линейной или циркулярной форме. Например, экзогенная донорная последовательность может представлять собой одноцепочечный олигодезоксинуклеотид (оцОДН - ssODN - single-stranded oligodeoxynucleotide). Типичная экзогенная донорная последовательность имеет длину от около 50 нуклеотидов до около 5 т.п.н., длину от около 50 нуклеотидов до около 3 т.п.н. или длину от около 50 до около 1000 нуклеотидов. Другие типичные экзогенные донорные последовательности имеют длину от около 40 до около 200 нуклеотидов. Например, последовательность экзогенного донора может составлять от около 50 до около 60, от около 60 до около 70, от около 70 до около 80, от около 80 до около 90, от около 90 до около 100, от около 100 до около 110 от около 110 до около 120, от около 120 до около 130, от около 130 до около 140, от около 140 до около 150, от около 150 до около 160, от около 160 до около 170, от около 170 до около 180, длиной от около 180 до около 190 или от около 190 до около 200 нуклеотидов. Альтернативно, последовательность экзогенного донора может составлять от около 50 до около 100, от около 100 до около 200, от около 200 до около 300, от около 300 до около 400, от около 400 до около 500, от около 500 до около 600, от около 600 до около 700, от около 700 до около 800, от около 800 до около 900 или от около 900 до около 1000 нуклеотидов в длину. Альтернативно, последовательность экзогенного донора может составлять от около 1 до около 1,5 т.п.н., от около 1,5 т.п.н. до около 2 т.п.н., от около 2 т.п.н. до около 2,5 т.п.н., от около 2,5 т.п.н. до около 3 т.п.н., от около 3 т.п.н. до около 3,5 т.п.н., от около 3,5 т.п.н. до около 4 т.п.н., от около 4 т.п.н. до около 4,5 т.п.н. или от около 4,5 т.п.н. до около 5 т.п.н. в длину. Альтернативно, последовательность экзогенного донора может составлять, например, не более около 5 т.п.н., не более около 4,5 т.п.н., не более около 4 т.п.н., не более около 3,5 т.п.н., не более около 3 т.п.н., не более около 2,5 т.п.н., не более около 2 т.п.н., не более около 1,5 т.п.н., не более около 1 т.п.н., не более около 900 нуклеотидов, не более около 800 нуклеотидов, не более около 700 нуклеотидов, не более около 600 нуклеотидов, не более 500 нуклеотидов, не более 400 нуклеотидов, не более 300 нуклеотидов, не более 200 нуклеотидов, не более 100 нуклеотидов и не более 50 нуклеотидов в длину.

В некоторых вариантах осуществления экзогенная донорная последовательность представляет собой оцОДН, который имеет длину от около 80 нуклеотидов до около 200 нуклеотидов (например, около 120 нуклеотидов в длину). В другом примере экзогенные донорные последовательности представляют собой оцОДН длиной от около 80 нуклеотидов до около 3 т.п.н. Такой оцОДН может иметь, например, плечи гомологии, каждое из которых имеет длину от около 40 нуклеотидов до около 60 нуклеотидов. Такой оцОДН может также иметь плечи гомологии, например, длиной от около 30 нуклеотидов до 100 нуклеотидов. Группы гомологии могут быть симметричными (например, каждая около 40 нуклеотидов или каждая около 60 нуклеотидов в длину), или они могут быть асимметричными (например, одна группа гомологии, которая имеет длину около 36 нуклеотидов, и одна группа гомологии, которая имеет около 91 нуклеотидов в длину).

Последовательности экзогенных доноров могут включать модификации или последовательности, которые обеспечивают дополнительные желательные признаки (например, измененную или регулируемую стабильность; отслеживание или обнаружение с помощью флуоресцентной метки; сайт связывания для белка или белкового комплекса и т. д.). Последовательности экзогенных доноров могут включать одну или более флуоресцентных меток, меток для очистки, меток эпитопов или их комбинации. Например, последовательность экзогенного донора может содержать одну или более флуоресцентных меток (например, флуоресцентных белков или других флуорофоров или красителей), таких как, по меньшей мере, 1, по меньшей мере, 2, по меньшей мере, 3, по меньшей мере, 4 или, по меньшей мере, 5 флуоресцентных меток, Типичные флуоресцентные метки включают флуорофоры, такие как флуоресцеин (например, 6-карбоксифлуоресцеин (6-FAM)), техасский красный, HEX, Cy3, Cy5, Cy5.5, Pacific Blue, 5-(и-6)-карбокситетраметилродамин (TAMRA - tetramethylrhodamine) и Cy7. Широкий спектр флуоресцентных красителей коммерчески доступен для мечения олигонуклеотидов (например, от Integrated DNA Technologies). Такие флуоресцентные метки (например, внутренние флуоресцентные метки) можно использовать, например, для обнаружения последовательности экзогенного донора, которая непосредственно интегрирована в расщепленный эндогенный ген B4GALT1, имеющий выступающие концы, совместимые с концами экзогенного донора последовательность. Метка или тэг могут находиться на 5'-конце, 3'-конце или внутри последовательности экзогенного донора. Например, экзогенная донорная последовательность может быть конъюгирована на 5'-конце с флуорофором IR700 от Integrated DNA Technologies (5'IRDYE®700).

Экзогенные донорные последовательности также могут содержать вставки нуклеиновых кислот, включающие сегменты ДНК, которые должны быть интегрированы в эндогенный ген B4GALT1. Интеграция вставки нуклеиновой кислоты в эндогенный ген B4GALT1 может привести к добавлению представляющей интерес последовательности нуклеиновой кислоты в эндогенном гене B4GALT1, удалению представляющей интерес последовательности нуклеиновой кислоты в эндогенном гене B4GALT1 или замене представляющей интерес последовательности нуклеиновой кислоты в эндогенном гене B4GALT1 (т.е. делеция и вставка). Некоторые экзогенные донорные последовательности предназначены для вставки вставки нуклеиновой кислоты в эндогенный ген B4GALT1 без какой-либо соответствующей делеции в эндогенном гене B4GALT1. Другие последовательности экзогенных доноров предназначены для удаления представляющей интерес последовательности нуклеиновой кислоты в эндогенном гене B4GALT1 без какой-либо соответствующей вставки вставки нуклеиновой кислоты. Другие экзогенные донорные последовательности предназначены для удаления представляющей интерес последовательности нуклеиновой кислоты в эндогенном гене B4GALT1 и замены ее вставкой нуклеиновой кислоты.

Вставка нуклеиновой кислоты и соответствующая нуклеиновая кислота в эндогенном гене B4GALT1, который удаляется и/или заменяется, может иметь различную длину. Примерная вставка нуклеиновой кислоты или соответствующая нуклеиновая кислота в эндогенном гене B4GALT1, который удаляется и/или заменяется, имеет длину от около 1 нуклеотида до около 5 т.п.н. или длину от около 1 нуклеотида до около 1000 нуклеотидов. Например, вставка нуклеиновой кислоты или соответствующая нуклеиновая кислота в эндогенном гене B4GALT1, который удаляется и/или заменяется, может составлять от около 1 до около 10, от около 10 до около 20, от около 20 до около 30, от около От 30 до около 40, от около 40 до около 50, от около 50 до около 60, от около 60 до около 70, от около 70 до около 80, от около 80 до около 90, от около 90 до около 100, от около 100 до около 110, от около 110 до около 120, от около 120 до около 130, от около 130 до около 140, от около 140 до около 150, от около 150 до около 160, от около 160 до около 170, от около 170 до длиной около 180, длиной от около 180 до около 190 или длиной от около 190 до около 200 нуклеотидов. Аналогично, вставка нуклеиновой кислоты или соответствующая нуклеиновая кислота в эндогенном гене B4GALT1, который удаляется и/или заменяется, может составлять от около 1 до около 100, от около 100 до около 200, от около 200 до около 300, от около 300 до около 400, от около 400 до около 500, от около 500 до около 600, от около 600 до около 700, от около 700 до около 800, от около 800 до около 900 или от около 900 до около 1000 нуклеотидов в длину. Аналогично, вставка нуклеиновой кислоты или соответствующая нуклеиновая кислота в эндогенном гене B4GALT1, который удаляется и/или заменяется, может составлять от около 1 до около 1,5 т.п.н., от около 1,5 до около 2 т.п.н., от около 2 до около 2 т.п.н. 2,5 т.п.н., от около 2,5 т.п.н. до около 3 т.п.н., от около 3 т.п.н. до около 3,5 т.п.н., от около 3,5 т.п.н. до около 4 т.п.н., от около 4 т.п.н. до около 4,5 т.п.н. или длины от около 4,5 т.п.н. до около 5 т.п.н.,

Вставка нуклеиновой кислоты может содержать геномную ДНК или ДНК любого другого типа. Например, вставка нуклеиновой кислоты может содержать кДНК.

Вставка нуклеиновой кислоты может содержать последовательность, которая гомологична всему или части эндогенного гена B4GALT1 (например, часть гена, кодирующая конкретный мотив или область полипептида B4GALT1). Например, вставка нуклеиновой кислоты может содержать последовательность, которая содержит одну или более точечных мутаций (например, 1, 2, 3, 4, 5 или более) или одну или более вставок или делеций нуклеотидов по сравнению с последовательностью, нацеленной на замену в эндогенный ген B4GALT1.

Вставка нуклеиновой кислоты или соответствующая нуклеиновая кислота в эндогенном гене B4GALT1, который удаляется и/или заменяется, может представлять собой кодирующую область, такую как экзон; некодирующую область, такую как интрон, нетранслируемую область или регуляторную область (например, промотор, энхансер или транскрипционный репрессор-связывающий элемент); или любую их комбинацию.

Вставки нуклеиновой кислоты также могут содержать полинуклеотид, кодирующий маркер селекции. Альтернативно, во вставках нуклеиновой кислоты может отсутствовать полинуклеотид, кодирующий маркер селекции. Маркер селекции может содержаться в кассете селекции. В некоторых вариантах осуществления кассета выбора может быть кассетой самоудаления. В качестве примера, самоудаляющаяся кассета может содержать ген Cre (содержит два экзона, кодирующих рекомбиназу Cre, которые разделены интроном), функционально связанный с промотором мыши Prm1 и геном устойчивости к неомицину, функционально связанным с промотором убиквитина человека. Иллюстративные маркеры селекции включают неомицин-фосфотрансферазу (neor), гигромицин B-фосфотрансферазу (hygr), пуромицин-N-ацетилтрансферазу (puror), бластицидин S-деаминазу (bsrr), ксантин/гуанин фосфорибозил трансферазу (gpt) или тимидинкиназу вируса простого герпеса (HSV-k) или их комбинацию. Полинуклеотид, кодирующий маркер селекции, может быть функционально связан с активным промотором в клетке-мишени. Примеры промоторов описаны в данном документе в другом месте.

Вставка нуклеиновой кислоты также может содержать репортерный ген. Примеры репортерных генов включают гены, кодирующие люциферазу, β-галактозидазу, зеленый флуоресцентный белок (GFP), усиленный зеленый флуоресцентный белок (eGFP), голубой флуоресцентный белок (CFP), желтый флуоресцентный белок (YFP), усиленный желтый флуоресцентный белок (eYFP), синий флуоресцентный белок (BFP), усиленный синий флуоресцентный белок (eBFP), DsRed, ZsGreen, MmGFP, mPlum, mCherry, tdTomato, mStrawberry, J-Red, mOrange, mKO, mCitrine, Venus, YPet, Emerald, CyPet, Cerulean, T-Sapphire и щелочную фосфатазу. Такие репортерные гены могут быть функционально связаны с активным промотором в клетке-мишени. Примеры промоторов описаны в данном документе в другом месте.

Вставка нуклеиновой кислоты также может содержать одну или более кассет экспрессии или делеционных кассет. Конкретная кассета может содержать одну или более представляющих интерес нуклеотидных последовательностей, полинуклеотид, кодирующий маркер селекции, и репортерный ген вместе с различными регуляторными компонентами, которые влияют на экспрессию. Примеры селектируемых маркеров и репортерных генов, которые могут быть включены, подробно обсуждаются в другом месте данного документа.

Вставка нуклеиновой кислоты может содержать нуклеиновую кислоту, фланкированную сайт-специфическими рекомбинационными последовательностями-мишенями. Альтернативно, вставка нуклеиновой кислоты может содержать одну или более сайт-специфических рекомбинационных последовательностей-мишеней. Хотя вся вставка нуклеиновой кислоты может быть фланкирована такими сайт-специфическими рекомбинационными последовательностями-мишенями, любой участок или отдельный интересующий полинуклеотид внутри вставки нуклеиновой кислоты также может быть фланкирован такими сайтами. Сайт-специфические рекомбинационные последовательности-мишени, которые могут фланкировать вставку нуклеиновой кислоты или любой представляющий интерес полинуклеотид во вставке нуклеиновой кислоты, могут включать, например, loxP, lox511, lox2272, lox66, lox71, loxM2, lox5171, FRT, FRT11, FRT71, attp, att, FRT, rox или их комбинацию. В некоторых вариантах сайты сайт-специфической рекомбинации фланкируют полинуклеотид, кодирующий маркер селекции и/или ген-репортер, содержащийся во вставке нуклеиновой кислоты. После интеграции вставки нуклеиновой кислоты в эндогенный ген B4GALT1 последовательности между сайтами сайт-специфической рекомбинации могут быть удалены. В некоторых вариантах осуществления могут быть использованы две экзогенные донорные последовательности, каждая со вставкой нуклеиновой кислоты, содержащей сайт-специфический сайт рекомбинации. Экзогенные донорные последовательности могут быть нацелены на 5' и 3' области, фланкирующие интересующую нуклеиновую кислоту. После интеграции двух вставок нуклеиновой кислоты в локус мишени генома, представляющая интерес нуклеиновая кислота между двумя вставленными сайт-специфическими сайтами рекомбинации может быть удалена.

Вставки нуклеиновой кислоты также могут содержать один или более сайтов рестрикции для эндонуклеаз рестрикции (т.е. ферментов рестрикции), которые включают эндонуклеазы типа I, типа II, типа III и типа IV. Эндонуклеазы рестрикции типа I и типа III распознают специфические распознаваемые последовательности, но обычно расщепляют в вариабельной позиции от сайта связывания нуклеазы, который может находиться на расстоянии сотен пар оснований от сайта распознавния (распознаваемой последовательности). В системах типа II рестрикционная активность не зависит от какой-либо активности метилазы, и расщепление обычно происходит в определенных сайтах внутри или вблизи сайта связывания. Большинство ферментов типа II пересекают палиндромные последовательности, однако ферменты типа IIa распознают непалиндромные распознаваемые последовательности и расщепляются за пределами распознаваемой последовательности, ферменты типа IIb разрезают последовательности дважды с обоими сайтами вне распознаваемой последовательности, а ферменты типа II распознают асимметричную распознаваемую последовательность и расщепляют на одной стороне и на определенном расстоянии от около 1 до около 20 нуклеотидов от распознаваемой последовательности. Рестрикционные ферменты типа IV нацелены на метилированную ДНК.

В некоторых вариантах осуществления экзогенные донорные последовательности имеют короткие одноцепочечные области на 5'-конце и/или 3'-конце, которые комплементарны одному или более выступам, созданным нуклеазо-опосредованным или Cas-протеин-опосредованным расщеплением в геноме-мишени. локус (например, в гене B4GALT1). Эти выступы могут также упоминаться как 5' и 3' плечи гомологии. Например, некоторые экзогенные донорные последовательности имеют короткие одноцепочечные области на 5' конце и/или 3' конце, которые комплементарны одному или более выступам, создаваемым опосредованным Cas-белком расщеплением на 5' и/или 3' цели последовательности в целевом геномном локусе. В некоторых вариантах осуществления такие экзогенные донорные последовательности имеют комплементарную область только на 5'-конце или только на 3'-конце. Например, некоторые такие экзогенные донорные последовательности имеют комплементарную область только на 5'-конце, комплементарном выступу, созданному на 5'-последовательности-мишени в целевом геномном локусе, или только на 3'-конце, комплементарном выступу, созданному на 3'-конце последовательность-мишень в целевом геномном локусе. Другие такие экзогенные донорные последовательности имеют комплементарные области как на 5', так и на 3' концах. Например, другие такие экзогенные донорные последовательности имеют комплементарные области как на 5', так и на 3' концах, например, комплементарные первому и второму выступам, соответственно, генерируемые Cas-опосредованным расщеплением в целевом геномном локусе. Например, если экзогенная донорная последовательность является двухцепочечной, одноцепочечные комплементарные области могут простираться от 5'-конца верхней цепи донорной последовательности до 5'-конца нижней цепи донорной последовательности, создавая выступы на каждом конце. Альтернативно, одноцепочечная комплементарная область может простираться от 3'-конца верхней цепи донорной последовательности и от 3'-конца нижней цепи матрицы, создавая 3'-выступы.

Комплементарные области могут иметь любую длину, достаточную для стимулирования лигирования между экзогенной донорнрной последовательностью и эндогенным геном B4GALT1. Типичные комплементарные области имеют длину от около 1 до около 5 нуклеотидов, длину от около 1 до около 25 нуклеотидов или длину от около 5 до около 150 нуклеотидов. Например, дополнительная область может составлять, по меньшей мере, около 1, по меньшей мере, около 2, по меньшей мере, около 3, по меньшей мере, около 4, по меньшей мере, около 5, по меньшей мере, около 6, по меньшей мере, около 7, по меньшей мере, около 8, по меньшей мере, около 9, по меньшей мере, около 10, по меньшей мере, около 11, по меньшей мере, около 12, по меньшей мере, около 13, по меньшей мере, около 14, по меньшей мере, около 15, по меньшей мере, около 16, по меньшей мере, около 17, по меньшей мере, около 18, по меньшей мере, около 19, по меньшей мере, около 20, по меньшей мере, около 21, по меньшей мере, около 22, по меньшей мере, около 23, по меньшей мере, около 24 или, по меньшей мере, около 25 нуклеотидов в длину. Альтернативно, комплементарная область может составлять от около 5 до около 10, от около 10 до около 20, от около 20 до около 30, от около 30 до около 40, от около 40 до около 50, от около 50 до около 60, от около 60 до около 70, около От 70 до 80, от 80 до 90, от 90 до 100, от 100 до 110, от 110 до 120, от 120 до 130, от 130 до 140, от 140 до 150 нуклеотидов в длину, или больше.

Такие комплементарные области могут дополнять выступы, создаваемые двумя парами никаз. Два двухцепочечных разрыва с разнесенными концами могут быть созданы с помощью первой и второй никаз, которые расщепляют противоположные нити ДНК, чтобы создать первый двухцепочечный разрыв, и третьей и четвертой никаз, которые расщепляют противоположные нити ДНК, чтобы создать второй двухцепочечный разрыв. Например, белок Cas может быть использован для обозначения первой, второй, третьей и четвертой последовательностей, распознаваемых направляющими РНК, соответствующих первой, второй, третьей и четвертой направляющим РНК. Первую и вторую последовательности, распознаваемые направляющими РНК, можно расположить так, чтобы создать первый сайт расщепления таким образом, чтобы ники, созданные первой и второй никазами на первой и второй цепях ДНК, создавали двухцепочечный разрыв (то есть первый сайт расщепления содержит разрезы в первой и второй последовательностях, распознаваемых направляющими РНК). Аналогично, третья и четвертая последовательности, распознаваемые направляющими РНК, могут быть расположены таким образом для создания второго сайта расщепления, чтобы ники, созданные третьей и четвертой никазами на первой и второй цепях ДНК, создавали двухцепочечный разрыв (т.е. второй сайт расщепления содержит ники в третьей и четвертой последовательностях, распознаваемых направляющими РНК). В некоторых вариантах осуществления ники в первой и второй последовательностях, распознаваемых направляющими РНК, и/или в третьей и четвертой последовательностях, распознаваемых направляющими РНК, могут быть смещенными никами, которые создают выступы. Окно смещения может составлять, например, по меньшей мере, около 5 п.н., по меньшей мере, около 10 п.н., по меньшей мере, около 20 п.н., по меньшей мере, около 30 п.н., по меньшей мере, около 40 п.н., по меньшей мере, около 50 п.н., по меньшей мере, около 60 п.н., по меньшей мере, около 70 п.н., по меньшей мере, около 80 п.н., по меньшей мере, около 90 п.н. или, по меньшей мере, около 100 п.н. или более. В таких вариантах осуществления может быть сконструирована двухцепочечная экзогенная донорная последовательность с одноцепочечными комплементарными областями, которые комплементарны выступам, создаваемым никами в первой и второй последовательностях, распознаваемых направляющими РНК, и никами в третьей и четвертой последовательностях, распознаваемых направляющими РНК. Такая экзогенная донорная последовательность может быть затем вставлена путем лигирования, опосредованного присоединением негомологичных концов.

В некоторых вариантах осуществления экзогенные донорные последовательности (т.е. направляющие векторы) содержат плечи гомологии. Если экзогенная донорная последовательность также содержит вставку нуклеиновой кислоты, плечи гомологии могут фланкировать вставку нуклеиновой кислоты. Для простоты ссылки плечи гомологии упоминаются в данном документе как 5' и 3' (то есть, выше и ниже по последовательности) плечи гомологии. Эта терминология относится к относительному положению плечей гомологии относительно вставки нуклеиновой кислоты в последовательности экзогенного донора.

Плече гомологии и последовательность-мишень соответствуют друг другу, когда две области имеют достаточный уровень идентичности последовательности друг с другом, чтобы действовать в качестве субстрата для реакции гомологичной рекомбинации. Идентичность последовательности между конкретной последовательностью-мишенью и соответствующим плечом гомологии, обнаруженным в экзогенной донорной последовательности, может быть любой степени идентичности последовательности, которая позволяет происходить гомологичной рекомбинации. Например, степень идентичности последовательности, общая для группы гомологии экзогенной донорной последовательности (или ее фрагмента) и целевой последовательности (или ее фрагмента), может составлять, по меньшей мере, 50%, по меньшей мере, 55%, по меньшей мере, 60%, по меньшей мере, 65%, по меньшей мере, 70%, по меньшей мере, 75%, по меньшей мере, 80%, по меньшей мере, 81%, по меньшей мере, 82%, по меньшей мере, 83%, по меньшей мере, 84%, по меньшей мере, 85%, по меньшей мере, 86%, по меньшей мере, 87%, по меньшей мере, 88%, по меньшей мере, 89%, по меньшей мере, 90%, по меньшей мере, 91%, по меньшей мере, 92%, по меньшей мере, 93%, по меньшей мере, 94%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности последовательности, так что последовательности подвергаются гомологичной рекомбинации. Более того, соответствующая область гомологии между плечом гомологии и соответствующей последовательностью-мишенью может иметь любую длину, достаточную для обеспечения гомологичной рекомбинации. Иллюстративные плечи гомологии имеют длину от около 25 нуклеотидов до около 2,5 т.п.н., длину от около 25 нуклеотидов до около 1,5 т.п.н. или длину от около 25 до около 500 нуклеотидов. Например, данный участок гомологии (или каждое из плеч гомологии) и/или соответствующая последовательность-мишень могут содержать соответствующие области гомологии, которые составляют от около 25 до около 30, от около 30 до около 40, от около 40 до около 50, от около 50 до около 60, от около 60 до около 70, от около 70 до около 80, от около 80 до около 90, от около 90 до около 100, от около 100 до около 150, от около 150 до около 200, от от около 200 до около 250, от около 250 до около 300, от около 300 до около 350, от около 350 до около 400, от около 400 до около 450 или от около 450 до около 500 нуклеотидов в длину, так что гомология достаточна для гомологичной рекомбинации с соответствующими последовательностями-мишенями в эндогенном гене B4GALT1. Альтернативно, конкретное плечо гомологии (или каждое плечо гомологии) и/или соответствующая последовательность-мишень могут содержать соответствующие области гомологии, которые составляют от около 0,5 т.п.н. до около 1 т.п.н., от около 1 т.п.н. до около 1,5 т.п.н., от около 1,5 т.п.н. до около 2 т.п.н. или длиной от 2 до 2,5 т.п.н.. Например, каждое из плечей гомологии может иметь длину около 750 нуклеотидов. Плечи гомологии могут быть симметричными (каждое приблизительно одинакового размера в длину), или они могут быть асимметричными (одно длиннее другого).

Плечи гомологии могут соответствовать локусу, который является нативным для клетки (например, целевой локус). Альтернативно, они могут соответствовать области гетерологичного или экзогенного сегмента ДНК, которая была интегрирована в геном клетки, включая, например, трансгены, экспрессионные кассеты или гетерологичные или экзогенные области ДНК. В некоторых вариантах осуществления плечи гомологии направленного вектора могут соответствовать области дрожжевой искусственной хромосомы (YAC), бактериальной искусственной хромосомы (BAC), искусственной хромосомы человека или любой другой сконструированной области, содержащейся в подходящей клетке-хозяине. В некоторых вариантах осуществления плечи гомологии целевого вектора могут соответствовать или быть получены из области библиотеки BAC, космидной библиотеки или библиотеки фага P1 или могут быть получены из синтетической ДНК.

Когда нуклеазный агент используется в комбинации с экзогенной донорной последовательностью, 5'- и 3'-последовательности-мишени обычно располагаются в достаточной близости от сайта расщепления нуклеазой, чтобы способствовать возникновению события гомологичной рекомбинации между последовательностями-мишенями и гомологическое плечо при одноцепочечном разрыве (nick) или двухцепочечном разрыве в месте расщепления нуклеазой. Сайты расщепления нуклеазой включают в себя последовательность ДНК, в которой нуклеиновым агентом создается разрыв или двухцепочечный разрыв (например, белок Cas9, образующий комплекс с направляющей РНК). Последовательности-мишени внутри эндогенного гена B4GALT1, которые соответствуют 5' и 3' группам гомологии экзогенной донорной последовательности, «расположены в достаточной близости» от сайта расщепления нуклеазой, если расстояние такое, чтобы способствовать возникновению события гомологичной рекомбинации между 5' и 3' последовательностями-мишенями и плечами гомологии при одноцепочечном разрыве или двухцепочечном разрыве в сайте расщепления нуклеазой. Таким образом, последовательности-мишени, соответствующие 5' и/или 3' группам гомологии экзогенной донорной последовательности, могут быть, например, в пределах, по меньшей мере, 1 нуклеотида от данного сайта расщепления нуклеазой или в пределах, по меньшей мере, от 10 нуклеотидов до около 1000 нуклеотидов от конкретного сайта расщепления нуклеазой. В некоторых вариантах осуществления сайт расщепления нуклеазой может быть непосредственно смежен, по меньшей мере, с одной или обеими последовательностями-мишенями.

Пространственные отношения последовательностей-мишеней, которые соответствуют группам гомологии последовательности экзогенного донора и сайта расщепления нуклеазой, могут варьироваться. В некоторых вариантах осуществления последовательности-мишени могут быть расположены 5' от сайта расщепления нуклеазой, последовательности-мишени могут быть расположены 3' от сайта расщепления нуклеазой, или последовательности-мишени могут фланкировать сайт расщепления нуклеазой.

Данное раскрытие также предоставляет терапевтические способы и способы лечения или профилактики сердечно-сосудистых заболеваний у субъекта, страдающего или подверженного риску заболевания, с использованием способов, раскрытых в данном документе, для модификации или изменения экспрессии эндогенного гена B4GALT1. Данное раскрытие также предоставляет терапевтические способы и способы лечения или профилактики сердечно-сосудистых заболеваний у субъекта, страдающего или подверженного риску заболевания, с использованием способов уменьшения экспрессии эндогенной мРНК B4GALT1 или с использованием способов обеспечения рекомбинантных нуклеиновых кислот, кодирующих B4GALT1 полипептиды, обеспечивающие мРНК, кодирующие полипептиды B4GALT1, или предоставляющие полипептиды B4GALT1 субъекту. Способы могут включать введение одной или более молекул нуклеиновой кислоты или белков субъекту, в орган субъекта или в клетку субъекта (например, in vivo или ex vivo).

В некоторых вариантах осуществления раскрытие относится к мРНК, кодирующим полипептиды B4GALT1 (например, полинуклеотиды, как обсуждается в данном документе, например, мРНК, которая содержит последовательность SEQ ID NO:4) для применения в терапии. В некоторых таких вариантах осуществления терапия представляет собой лечение или предотвращение сердечно-сосудистого заболевания.

В некоторых вариантах осуществления раскрытие предоставляет полипептиды B4GALT1 (например, полипептиды, как описано в данном документе, например полипептиды, которые содержат последовательность SEQ ID NO:8) для применения в терапии. В некоторых таких вариантах осуществления терапия представляет собой лечение или предотвращение сердечно-сосудистого заболевания.

Субъекты включают людей и других млекопитающих (например, кошек, собак, грызунов, мышей или крыс) или не млекопитающих (например, птицы), которые получают профилактическое или терапевтическое лечение. Такими субъектами могут быть, например, субъект (например, человек), который не является носителем варианта B4GALT1 (или является только гетерозиготным носителем варианта B4GALT1) и имеет или подвержен развитию сердечно-сосудистой системы. условие.

Неограничивающие примеры сердечно-сосудистых заболеваний включают повышенный уровень одного или более сывороточных липидов. Липиды сыворотки включают один или более из холестерина, ЛПНП, ЛПВП, триглицеридов, холестерина ЛПВП и холестерина не-ЛПВП или любого их субфракции (например, ЛПВП2, ЛПВП2a, ЛПВП2b, ЛПВП2c, ЛПВП3, ЛПВП3a, ЛПВП3b, ЛПВП3c, ЛПВП3d, ЛПНП1, ЛПНП2, ЛПНП3, липопротеин A, Lpa1, Lpa1, Lpa3, Lpa4 или Lpa5). Сердечно-сосудистое заболевание может включать повышенные уровни кальцификации коронарной артерии. Сердечно-сосудистое заболевание может включать гликозилирование типа IId (CDG-Iid - Type IId glycosylation). Сердечно-сосудистое заболевание может содержать повышенный уровень перикардиального жира. Сердечно-сосудистое заболевание может включать атеротромботическое заболевание. Атеротромботическое заболевание может включать повышенные уровни фибриногена. Атеротромботическое заболевание может включать фибриноген-опосредованный сгусток крови. Сердечно-сосудистое заболевание может включать повышенные уровни фибриногена. Сердечно-сосудистое заболевание может содержать фибриноген-опосредованный сгусток крови. Сердечно-сосудистое заболевание может включать сгусток крови, образованный в результате активности фибриногена. Фибриноген-опосредованный сгусток крови или сгусток крови, образованный при участии активности фибриногена, может находиться в любой вене или артерии в организме.

Такие методы могут включать редактирование генома или генную терапию. Например, эндогенный ген B4GALT1, который не является вариантом B4GALT1, может быть модифицирован для включения варианта, связанного с вариантом B4GALT1 (то есть замена аспарагина на серин в положении, соответствующем положению 352 из полноразмерного/зрелого полипептида B4GALT1). В качестве другого примера, эндогенный ген B4GALT1, который не является вариантом B4GALT1, может быть нокаутирован или инактивирован. Аналогично, эндогенный ген B4GALT1, который не является вариантом B4GALT1, может быть нокаутирован или инактивирован, и ген B4GALT1, содержащий модификацию, связанную с вариантом B4GALT1 (например, полный миниген варианта B4GALT1, включающий модификацию), может быть введен и экспрессирован. Точно так же эндогенный ген B4GALT1, который не является вариантом B4GALT1, может быть нокаутирован или инактивирован, и может быть введена и экспрессирована рекомбинантная ДНК, кодирующая вариантный полипептид B4GALT1, и может быть введена и экспрессирована вариантная мРНК, кодирующая полипептид B4GALT1 (например, внутриклеточная белково-заместительная терапия), и/или может быть введен вариант полипептида B4GALT1 (например, белково-заместительная терапия).

В некоторых вариантах осуществления способы включают введение и экспрессию рекомбинантного гена B4GALT1, содержащего модификацию, связанную с вариантом B4GALT1 rs551564683 (например, полный вариант B4GALT1 или миниген, содержащий модификацию кислоты), введение и экспрессирование рекомбинантных нуклеиновых кислот (например, ДНК), кодирующий вариант полипептида B4GALT1 или его фрагменты, вводящий и экспрессирующий одну или более мРНК, кодирующих полипептид варианта B4GALT1 или его фрагменты (например, внутриклеточная заместительная терапия белка), или вводящий вариант полипептида B4GALT1 или их фрагменты (например, белково-заместительная терапия) без выбивания или инактивации эндогенного гена B4GALT1, который не является вариантом B4GALT1. В некоторых вариантах осуществления такие способы также могут быть выполнены в сочетании со способами, в которых эндогенная мРНК B4GALT1, которая не является вариантом B4GALT1, нацелена на сниженную экспрессию, например, путем использования антисмысловой РНК, миРНК или кшРНК.

Ген или миниген B4GALT1 или ДНК, кодирующая вариант полипептида B4GALT1 или его фрагментов, может быть введен и экспрессирован в форме вектора экспрессии, который не модифицирует геном, он может быть введен в форме целевого вектора таким образом, что он геномно интегрируется в эндогенный локус B4GALT1, или он может быть введен так, что он геномно интегрируется в локус, отличный от эндогенного локуса B4GALT1, такой как локус безопасной гавани (safe harbor locus). Геномно интегрированный ген B4GALT1 может быть функционально связан с промотором B4GALT1 или с другим промотором, таким как эндогенный промотор в сайте интеграции. Локусы безопасной гавани - это хромосомные сайты, где трансгены могут стабильно и надежно экспрессироваться во всех представляющих интерес тканях без неблагоприятного воздействия на структуру или экспрессию генов. Локусы безопасной гавани могут иметь, например, одну или более или все следующие характеристики: 1) расстояние более чем около 50 т.п.н. от 5'-конца любого гена; расстояние более чем около 300 т.п.н. от любого связанного с раком гена; расстояние более 300 т.п.н. от любой микроРНК; вне генной транскрипционной единицы и вне ультраконсервативных областей. Примеры подходящих локусов безопасной гавани включают, но не ограничиваются ими, сайт 1 аденоассоциированного вируса (AAVS1), локус гена рецептора 5 хемокинов (CC мотив) (CCR5) и человеческий ортолог локуса ROSA26 мыши.

В некоторых вариантах осуществления способы включают способ лечения субъекта, который не является носителем варианта B4GALT1 (или является только гетерозиготным носителем варианта B4GALT1) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту или введение в клетку субъекта: а) нуклеазного агента (или кодирующего нуклеиновую кислоту), который связывается с последовательностью, распознаваемой нуклеазой, в эндогенном гене B4GALT1, при этом последовательность, распознаваемая нуклеазой, включает или находится вблизи положений С 53575 по 53577 из SEQ ID NO:1; и b) экзогенной донорной последовательности, содержащей 5' гомологичный конец, который гибридизуется с 5' последовательностью-мишенью в положениях с 53575 по 53577 из SEQ ID NO:1, и вставку нуклеиновой кислоты, содержащей последовательность нуклеиновой кислоты, кодирующую серин, фланкированный 5' плечем гомологии и 3' плечем гомологии. Нуклеазный агент может расщеплять эндогенный ген B4GALT1 в клетке у субъекта, а последовательность экзогенного донора может рекомбинировать с эндогенным геном B4GALT1 в клетке, при этом при рекомбинации экзогенной донорной последовательности с эндогенным B4GALT1 геном, последовательность нуклеиновой кислоты, кодирующая серин, вставлена в нуклеотиды, соответствующие положениям с 53575 по 53577 последовательности SEQ ID NO:1. Примеры нуклеазных агентов (например, белка Cas9 и направляющей РНК), которые можно использовать в таких способах, раскрыты в другом месте данного документа.

В некоторых вариантах осуществления способы включают способ лечения субъекта, который не является носителем варианта B4GALT1 (или является только гетерозиготным носителем варианта B4GALT1) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту или введение в клетку субъекта экзогенной донорной последовательности, содержащей 5' плече гомологии, которая гибридизуется с целевой последовательностью 5' в положении, соответствующем положениям с 53575 по 53577 из SEQ ID NO:1, 3'-гомологии плечо, которое гибридизуется с целевой последовательностью 3' в положениях с 53575 по 53577 из SEQ ID NO:1, и вставка нуклеиновой кислоты, содержащая нуклеотидную последовательность, кодирующую серин, фланкированную 5' плечем гомологии и 3' плечем гомологии. Экзогенная донорная последовательность может рекомбинировать с эндогенным геном B4GALT1 в клетке, причем при рекомбинации экзогенной донорной последовательности с эндогенным геном B4GALT1 нуклеотидная последовательность, кодирующая серин, вставляется в нуклеотиды, соответствующие положениям с 53575 по 53577 из SEQ ID NO:1.

Некоторые такие способы включают способ лечения субъекта, который не является носителем варианта B4GALT1 (или является только гетерозиготным носителем варианта B4GALT1) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту или введение в клетку субъекта: а) нуклеазного агента (или кодирующую его, нуклеиновую кислоту), который связывается с последовательностью, распознаваемой нуклеазой, в эндогенном гене B4GALT1, при этом последовательность, распознаваемая нуклеазой, содержит стартовый кодон для эндогенного гена B4GALT1 или находится в пределах около 10, около 20, около 30, около 40, около 50, около 100, около 200, около 300, около 400, около 500 или около 1000 нуклеотидов от стартового кодона или выбрана из SEQ ID NO: 9-12. Нуклеазный агент может расщеплять и нарушать экспрессию эндогенного гена B4GALT1 в клетке субъекта.

В некоторых вариантах осуществления способы включают способ лечения субъекта, который не является носителем варианта B4GALT1 (или является только гетерозиготным носителем варианта B4GALT1) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту или введение в клетку субъекта: а) нуклеазного агента (или кодирующую его нуклеиновую кислоту), который связывается с последовательностью, распознаваемой нуклеазой, в эндогенном гене B4GALT1, при этом последовательность, распознаваемая нуклеазой, содержит стартовый кодон для эндогенного гена B4GALT1 или находится в пределах около 10, в пределах около 20, в пределах около 30, в пределах около 40, в пределах около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500 или в пределах около 1000 нуклеотидов стартового кодона или выбрана из SEQ ID NO:9-12; и b) вектора экспрессии, содержащего рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность в положениях с 53575 по 53577, кодирующую серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1. Вектор экспрессии может быть таким, который не интегрируется в геном. Альтернативно, может быть введен направляющий вектор (то есть экзогенная донорная последовательность), содержащий рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность в положениях с 53575 по 53577, кодирующую серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1. Нуклеазный агент может расщеплять и нарушать экспрессию гена B4GALT1 в клетке субъекта, а вектор экспрессии может экспрессировать рекомбинантный ген B4GALT1 в клетке субъекта. Альтернативно, геномно интегрированный рекомбинантный ген B4GALT1 может экспрессироваться в клетке субъекта. Примеры нуклеазных агентов (например, нуклеазоактивного белка Cas9 и направляющей РНК), которые можно использовать в таких способах, раскрыты в другом месте данного документа. Примеры подходящих направляющих РНК и последовательностей, распознаваемых направляющими РНК, также раскрыты в другом месте данного документа. Стадия b) может альтернативно включать введение вектора экспрессии или нацеливающего вектора, содержащего нуклеиновую кислоту (например, ДНК), кодирующую полипептид B4GALT1, который имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту полипептида Asn352Ser B4GALT1 или его фрагмента и/или содержащему последовательность, которая имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту мРНК B4GALT1 или его фрагменту. Аналогично, стадия b) может также включать введение мРНК, кодирующей полипептид Asn352Ser B4GALT1 , который составляет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99%, или на 100% идентичности варианту полипептида Asn352Ser B4GALT1 или его фрагмента и/или имеющего комплементарную ДНК (или ее часть), которая имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту мРНК B4GALT1 или его фрагменту. Аналогично, стадия b) может также включать введение белка, содержащего аминокислотную последовательность, которая имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту полипептида Asn352Ser B4GALT1 или его фрагмента.

В некоторых вариантах осуществления второй нуклеазный агент также вводится в субъект или в клетку у субъекта, где второй нуклеазный агент связывается со второй последовательностью, распознаваемой нуклеазой, в эндогенном гене B4GALT1, при этом вторая последовательность, распознаваемая нуклеазой, содержит стоп-кодон для эндогенного гена B4GALT1 или находится в пределах около 10, в пределах около 20, в пределах около 30, в пределах около 40,в пределах около 50, в пределах около 100, в пределах около 200, в пределах около 300, в пределах около 400, в пределах около 500 или в пределах около 1000 нуклеотидов стоп-кодона или выбрана из SEQ ID NO:9-12, при этом нуклеазный агент расщепляет эндогенный ген B4GALT1 в клетке, как в первой последовательности, распознаваемой нуклеазой, так и во второй последовательности, распознаваемой нуклеазой, при этом клетка модифицирована для включения делеции между первой последовательностью, распознаваемой нуклеазой, и второй последовательностью, распознаваемой нуклеазой. В некоторых вариантах осуществления второй нуклеазный агент может представлять собой белок Cas9 и направляющую РНК. Подходящие направляющие РНК и последовательности, распознаваемые направляющими РНК, в непосредственной близости от стоп-кодона раскрыты в другом месте данного документа.

В некоторых вариантах осуществления способы также могут включать способ лечения субъекта, который не является носителем варианта B4GALT1 (или является только гетерозиготным носителем варианта B4GALT1) и имеет или подвержен развитию сердечно-сосудистого заболевания включающий введение субъекту или введение в клетку субъекта: антисмысловой РНК, миРНК или кшРНК, которая гибридизуется с последовательностью в области внутри эндогенной мРНК B4GALT1. Например, антисмысловая РНК, миРНК или кшРНК могут гибридизоваться с последовательностью в пределах области в экзоне 5 SEQ ID NO:3 (мРНК B4GALT1) и снижать экспрессию мРНК B4GALT1 в клетке субъекта. В некоторых вариантах осуществления такие способы могут дополнительно включать введение субъекту вектора экспрессии, содержащего рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность, кодирующую серин, вставленный в положениях с 53575 по 53577 последовательности SEQ ID NO:2. Вектор экспрессии может быть таким, который не интегрируется геномно. Альтернативно, может быть введен направляющий вектор (то есть экзогенная донорная последовательность), содержащий рекомбинантный ген B4GALT1, содержащий последовательность нуклеиновой кислоты, кодирующую серин, в положениях, соответствующих положениям с 53575 по 53577 из SEQ ID NO:2. В способах, в которых используется вектор экспрессии, вектор экспрессии может экспрессировать рекомбинантный ген B4GALT1 в клетке субъекта. Альтернативно, в способах, в которых рекомбинантный ген B4GALT1 геномно интегрирован, рекомбинантный ген B4GALT1 может экспрессироваться в клетке у субъекта.

В некоторых вариантах осуществления такие способы могут альтернативно включать введение вектора экспрессии или нацеленного вектора, содержащего нуклеиновую кислоту (например, ДНК), кодирующую полипептид B4GALT1, который имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту полипептида Asn352Ser B4GALT1 или его фрагмента и/или содержащему последовательность, которая имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности мРНК варианта B4GALT1 или ее фрагмента. Аналогично, такие способы могут альтернативно включать введение мРНК, кодирующей полипептид, который, по меньшей мере, на 90%, по меньшей мере, на 95%, по меньшей мере, на 96%, по меньшей мере, на 97%, по меньшей мере, на 98%, по меньшей мере, на 99% или на 100% идентичен варианту B4GALT1 полипептида Asn352Ser или его фрагмента и/или имеющий комплементарную ДНК (или ее часть), которая имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту мРНК B4GALT1 или его фрагменту. Аналогичным образом, такие способы могут альтернативно включать введение полипептида, содержащего последовательность, которая, по меньшей мере, на 90%, по меньшей мере, на 95%, по меньшей мере, на 96%, по меньшей мере, на 97%, по меньшей мере, на 98%, по меньшей мере, на 99% или на 100% идентична варианту полипептида Asn352Ser B4GALT1 или его фрагмента.

В некоторых вариантах осуществления такие способы могут включать способы лечения субъекта, который не является носителем варианта B4GALT1 (или является только гетерозиготным носителем варианта B4GALT1) и имеет или подвержен развитию сердечно-сосудистого заболевания, включающий введение субъекту или введение в клетку субъекта вектора экспрессии, при этом вектор экспрессии содержит рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность в положениях с 53575 по 53577, которые кодируют серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1, при этом вектор экспрессии экспрессирует рекомбинантный ген B4GALT1 в клетке субъекта. Вектор экспрессии может быть таким, который не интегрируется геномно. Альтернативно, может быть введен направляющий вектор (то есть экзогенная донорная последовательность), содержащий рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность в положениях с 53575 по 53577 из SEQ ID NO:2, которая кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1. В способах, в которых используется вектор экспрессии, вектор экспрессии может экспрессировать рекомбинантный ген B4GALT1 в клетке субъекта. Альтернативно, в способах, в которых рекомбинантный ген B4GALT1 геномно интегрирован, рекомбинантный ген B4GALT1 может экспрессироваться в клетке у субъекта.

Такие способы могут альтернативно включать введение вектора экспрессии или направленного вектора, содержащего нуклеиновую кислоту (например, ДНК), кодирующую полипептид B4GALT1, который составляет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту полипептида Asn352Ser B4GALT1 или его фрагменту и/или содержащему последовательность, которая имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту B4GALT1 мРНК или его фрагменту. Аналогично, такие способы могут альтернативно включать введение мРНК, кодирующей полипептид, который, по меньшей мере, на 90%, по меньшей мере, на 95%, по меньшей мере, на 96%, по меньшей мере, на 97%, по меньшей мере, на 98%, по меньшей мере, на 99% или на 100% идентичен варианту полипептида B4GALT1 или его фрагмента и/или имеющий комплементарную ДНК (или ее часть), которая имеет, по меньшей мере, 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентичности варианту мРНК B4GALT1 или его фрагменту. Аналогичным образом, такие способы могут альтернативно включать введение белка, содержащего последовательность, которая, по меньшей мере, на 90%, по меньшей мере, 95%, по меньшей мере, 96%, по меньшей мере, 97%, по меньшей мере, 98%, по меньшей мере, 99% или 100% идентична варианту полипептида Asn352Ser B4GALT1 или его фрагменту.

Подходящие векторы экспрессии и рекомбинантные гены B4GALT1 для использования в любом из указанных выше способов раскрыты в другом месте данного документа. Например, рекомбинантный ген B4GALT1 может представлять собой полный вариантный гена B4GALT1 или может быть минигеном B4GALT1, в котором один или более несущественных сегментов гена удалены по отношению к соответствующему гену дикого типа B4GALT1. В качестве примера, удаленные сегменты могут содержать одну или более интронных последовательностей, а миниген может содержать экзоны с 1 по 6. Примером полного варианта варианта B4GALT1 является ген, который, по меньшей мере, на 90%, по меньшей мере, на 95%, по меньшей мере, на 96%, по меньшей мере, на 97%, по меньшей мере, на 98%, по меньшей мере, на 99% или на 100% идентичен SEQ ID NO: 2.

В некоторых вариантах осуществления такие способы включают способ модификации клетки у субъекта, имеющего или подверженного развитию сердечно-сосудистого заболевания. В таких способах нуклеазные агенты и/или экзогенные донорные последовательности и/или рекомбинантные экспрессирующие векторы могут быть введены в клетку путем введения в эффективном режиме, означающем дозировку, путь введения и частоту введения, которые задерживают начало, уменьшают тяжесть ингибируют дальнейшее ухудшение и/или улучшают, по меньшей мере, один признак или симптом сердечно-сосудистого заболевания, подвергаемого лечению. Термин «симптом» относится к субъективным признакам заболевания, воспринимаемым субъектом, а «признак» относится к объективным признакам заболевания, наблюдаемым врачом. Если субъект уже страдает от заболевания, режим можно назвать терапевтически эффективным режимом. Если субъект подвергается повышенному риску заболевания по отношению к популяции в целом, но еще не испытывает симптомов, этот режим можно назвать профилактически эффективным режимом. В некоторых случаях терапевтическая или профилактическая эффективность может наблюдаться у отдельного пациента по сравнению с историческими контролями или прошлым опытом у того же субъекта. В других случаях терапевтическая или профилактическая эффективность может быть продемонстрирована в доклинических или клинических испытаниях в популяции обработанных субъектов относительно контрольной популяции необработанных субъектов.

Доставка может быть любым подходящим способом, как раскрыто в другом месте в данном документе. Например, нуклеазные агенты или экзогенные донорные последовательности или рекомбинантные векторы экспрессии могут быть доставлены, например, посредством доставки вектора, доставки вируса, доставки, опосредованной частицами, доставки, опосредованной наночастицами, доставки, опосредованной липосомами, доставки, опосредованной экзосомой, доставки, опосредованной липидами, доставки, опосредованной липидными наночастицами, доставки, опосредованной пермеабилизацией клеток, или доставки, опосредованной имплантируемым устройством. Конкретные примеры включают гидродинамическую доставку, вирус-опосредованную доставку и липид-наночастицами-опосредованную доставку.

Введение может осуществляться любым подходящим путем, включая, но не ограничиваясь этим, парентеральный, внутривенный, оральный, подкожный, внутриартериальный, внутричерепной, интратекальный, внутрибрюшинный, местный, интраназальный или внутримышечный. Конкретным примером, который часто используется, например, для заместительной белковой терапии, является внутривенная инфузия. Частота введения и количество дозировок могут зависеть от периода полураспада нуклеазных агентов или последовательностей экзогенных доноров или рекомбинантных экспрессирующих векторов, состояния субъекта и пути введения среди других факторов. Фармацевтические композиции для введения желательно являются стерильными и по существу изотоническими и изготовлены в условиях GMP. Фармацевтические композиции могут быть предоставлены в единичной дозированной форме (то есть в дозировке для однократного введения). Фармацевтические композиции могут быть составлены с использованием одного или более физиологически и фармацевтически приемлемых носителей, разбавителей, наполнителей или вспомогательных веществ. Состав зависит от выбранного пути введения. Термин «фармацевтически приемлемый» означает, что носитель, разбавитель, эксципиент или вспомогательное вещество совместимы с другими ингредиентами препарата и по существу не вредны для их реципиента.

Другие такие способы включают способ, осуществляемый ex-vivo в клетке от субъекта, имеющего или подверженного развитию сердечно-сосудистого заболевания. Затем клетка с целевой генетической модификацией может быть трансплантирована обратно субъекту.

Данное раскрытие обеспечивает способы снижения ЛПНП у субъекта, нуждающегося в этом, путем снижения экспрессии эндогенного B4GALT1 дикого типа или увеличения экспрессии Asn352Ser B4GALT1 любым из способов, описанных в данном документе. Данное раскрытие обеспечивает способы снижения общего холестерина у субъекта, нуждающегося в этом, путем снижения экспрессии эндогенного B4GALT1 дикого типа или увеличения экспрессии Asn352Ser B4GALT1 любым из способов, описанных в данном документе. Данное раскрытие обеспечивает способы уменьшения фибриногена у субъекта, нуждающегося в этом, путем уменьшения экспрессии эндогенного B4GALT1 дикого типа или увеличения экспрессии Asn352Ser B4GALT1 любым из способов, описанных в данном документе. Данное раскрытие обеспечивает способы снижения рСКФ у субъекта, нуждающегося в этом, путем уменьшения экспрессии эндогенного B4GALT1 дикого типа или увеличения экспрессии Asn352Ser B4GALT1 любым из способов, описанных в данном документе. Данное раскрытие обеспечивает способы увеличения AST, но не ALT, у субъекта, нуждающегося в этом, путем снижения экспрессии эндогенного B4GALT1 дикого типа или увеличения экспрессии Asn352Ser B4GALT1 любым из способов, описанных в данном документе. Данное раскрытие обеспечивает способы увеличения креатинина у субъекта, нуждающегося в этом, путем уменьшения экспрессии эндогенного B4GALT1 дикого типа или увеличения экспрессии Asn352Ser B4GALT1 любым из способов, описанных в данном документе.

Данное раскрытие также предоставляет способы диагностики риска развития сердечно-сосудистого заболевания или диагностики риска развития сердечно-сосудистого заболевания и его лечения у субъекта, нуждающегося в этом, включающие: проведение теста, предоставляющего результаты анализа образца от субъекта на наличие или отсутствие варианта гена, мРНК, кДНК или полипептида варианта B4GALT1, как описано в данном документе; и у тех субъектов, которые не имеют варианта гена, мРНК, кДНК или полипептида варианта B4GALT1, введение субъекту терапевтического средства, такого как описано в данном документе. Можно использовать любой из описанных в данном документе тестов, с помощью которых определяют наличие или отсутствие варианта гена, мРНК, кДНК или полипептида варианта B4GALT1.

Данное раскрытие также обеспечивает использование любого из вариантов B4GALT1 генов, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновых кислот, раскрытых в данном документе, при производстве лекарственного средства для снижения ЛПНП, снижения общего холестерина, снижения фибриногена, уменьшения eGFR, увеличения AST (но не ALT) и повышение уровня креатинина у субъекта, нуждающегося в этом. Данное раскрытие также обеспечивает применение любого из вариантов генов B4GALT1, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновой кислоты при изготовлении лекарственного средства для лечения ишемической болезни сердца, кальцификации коронарной артерии и связанных с ними нарушений.

Данное раскрытие также обеспечивает использование любого из вариантов B4GALT1 генов, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновой кислоты, раскрытых в данном документе, для снижения ЛПНП, снижения общего холестерина, снижения фибриногена, снижения рСКФ, увеличения AST (но не ALT) и повышение уровня креатинина у субъекта, нуждающегося в этом.

Данное раскрытие также обеспечивает применение любого из гена, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновых кислот варианта B4GALT1 для лечения ишемической болезни сердца, кальцификации коронарных артерий, гликозилирования типа IId (CDG-IId) и связанных с ним нарушений.

Данное раскрытие также обеспечивает использованиелюбого из гена, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновых кислот варианта B4GALT1, раскрытых в данном документе, для модификации гена B4GALT1 в клетке у субъекта, нуждающегося в этом.

Данное раскрытие также обеспечивает применение любого из гена, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновых кислот варианта B4GALT1, раскрытых в данном документе, для изменения экспрессии гена B4GALT1 в клетке нуждающегося в этом субъекта.

Данное раскрытие также обеспечивает применение любого из гена, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновых кислот варианта B4GALT1, описанных в данном документе, для диагностики риска развития любых сердечно-сосудистых заболеваний, раскрытых в данном документе.

Данное раскрытие также обеспечивает использование любого из гена, мРНК, кДНК, полипептидов и гибридизующихся молекул нуклеиновых кислот варианта B4GALT1, описанных в данном документе, для диагностики субъекта, имеющего любое из сердечно-сосудистых заболеваний, раскрытых в данном документе.

Все патентные документы, веб-сайты, другие публикации, регистрационные номера и тому подобное, указанные выше или ниже, включены в качестве ссылки во всей их полноте для всех целей в той же степени, как если бы каждый отдельный элемент был специально и индивидуально указан для включения в качестве ссылки. Если разные версии последовательности связаны с номером доступа в разное время, подразумевается версия, связанная с номером доступа на дату подачи данной заявки. Дата вступления в силу означает более раннюю из фактической даты подачи или даты подачи приоритетной заявки со ссылкой на регистрационный номер, если применимо. Аналогичным образом, если разные версии публикации, веб-сайта и т.п. публикуются в разное время, подразумевается последняя версия, опубликованная на дату подачи заявки, если не указано иное. Любой признак, этап, элемент, вариант осуществления или аспект данного раскрытия может использоваться в сочетании с любым другим признаком, этапом, элементом, вариантом осуществления или аспектом, если специально не указано иное. Хотя данное раскрытие было описано более подробно с помощью иллюстрации и примера в целях ясности и понимания, будет очевидно, что определенные изменения и модификации могут быть осуществлены в рамках объема прилагаемой формулы изобретения.

Указанные в данном документе нуклеотидные и аминокислотные последовательности продемонстрированы с использованием стандартных буквенных сокращений для нуклеотидных оснований и однобуквенного кода для аминокислот. Нуклеотидные последовательности следуют стандартному соглашению, начиная с 5'-конца последовательности и продвигаясь вперед (то есть слева направо в каждой строке) до 3'-конца. Показана только одна цепь каждой нуклеотидной последовательности, но считается, что комплементарная цепь включена в любую ссылку на отображаемую цепь. Аминокислотные последовательности следуют стандартному соглашению, начиная с амино-конца последовательности и продвигаясь вперед (то есть слева направо в каждой строке) к карбокси-концу.

Заявка США № 62/659344, поданная 18 апреля 2018 года, заявка США № 62/550161, поданная 25 августа 2017 года, и заявка США № 62/515140, поданная 5 июня 2017 года, включены в данный документ посредством ссылки во всей их полноте.

Следующие примеры предоставлены для более подробного описания вариантов осуществления. Они предназначены для иллюстрации, а не для ограничения заявленных вариантов осуществления.

ПРИМЕРЫ

Пример 1: Определение нового локуса на хромосоме 9p.21, ассоциированного с сывороточными липидными признаками, со статистической значимостьбю в рамках генома

Материалы и методы:

Генотипирование на массиве и контроль качества: Геномная ДНК была извлечена из цельной крови у индивидуумов ООА (Old Order Amish) и количественно оценена с использованием пикогрин (picogreen). Генотипирование по всему геному было выполнено с помощью массивов Affymetrix 500K и 6.0 в центре биополимерных исследований Университета Мэриленда. Алгоритм BRLMM был использован для проявления генотипа. Образцы со степнью проявления <0,93, высоким уровнем Менделевской ошибки или гендерным несоответствием были исключены. ОНП с степенью проявления <0,95, HWEpval <1,0E-6 или MAF <0,01 были исключены. ОНП на хромосомах X и Y и митохондриальный геном также были исключены.

ПГС (полногеномное секвенирование - WGS - Whole Genome Sequencing) и КК(контроль качества - QC - Quality Control): Подготовка библиотеки и секвенирование всего генома проводились в Институте им. Брода в МТИ (Broad Institute of MIT) и Гарварде. Ядро ресурсов информатики NHLBI в Мичиганском университете выполнило выравнивание, проявление оснований и оценку качества последовательности всех образцов TOPMed и доставило файлы bcf для всех вариантов, которые прошли все фильтры качества с глубиной прочтения по меньшей мере, 10, которая использовалась для анализа. Далее КК применялся к этим файлам, включая делецию всех сайтов в LCR или Х-хромосоме. Варианты с > 5% степнью пропусков, H-значением р <1,0E-09 и MAF <0,1% также были удалены. Контроль качества образцов был выполнен для удаления образцов с > 5% степени пропусков, высоким уровнем Менделевской ошибки (в некоторых случаях) или одинаковыми (МЗ - монозиготными) близнецами (один из каждой пары).

ПЭС (полноэкзомное секвенирование - WES - Whole Exome Sequencing) и КК: Захват и секвенирование экзома проводили в Центре генетики Regeneron (RGC), как более подробно описано ниже. Вкратце, захваченные библиотеки были секвенированы на платформе Illumina HiSeq 2500 с химией v4 с использованием парных чтений со скоростью 75 п.н. Секвенирование парных концов захваченных оснований было выполнено так, чтобы > 85% оснований были покрыты 20 раз или более, что достаточно для проявления гетерозиготных вариантов по большинству целевых оснований. Выравнивание чтения и проявление варианта выполнялись с использованием BWA-MEM и GATK, как это реализовано в конвейере анализа RGC DNAseq. Образцы со степенью проявления <0,90, высоким уровнем Менделевских ошибок, одинаковыми (MZ) близнецами (по одной на каждую пару) или гендерным несоответствием были исключены. ОНП с степенью проявления <0,90 и мономорфными ОНП также были исключены. ОНП в хромосомах X и Y и митохондриальный геном также были исключены.

Анализ ассоциации: Пробы крови натощак собирали и использовали для анализа липидов. ЛПНП рассчитывали по формуле Фридевальда, и в некоторых анализах с субъектами, принимающими препараты, снижающие уровень липидов, корректировали путем деления их уровней ЛПНП на 0,7. Анализ генетической ассоциации был выполнен с использованием линейных смешанных моделей для учета семейной корреляции с использованием основанной на родословной матрице родства и/или семейной коррекции, которая оценивает родство по ПЭС. Анализ также корректировался по возрасту, возрасту в квадрате, полу, когорте и генотипу APOB R3527Q. APOB R3527Q часто встречается у амишей и ранее было установлено, что он оказывает сильное влияние на уровни ЛПНП (58 мг/дл) (Shen et al., Arch Intern. Med., 2010, 170, 1850-1855), и, следовательно, эффект этого варианта в анализе ЛПНП был принят во внимание. В качестве порога значимости использовали скорректированное по геному p-значение 5,0E-08.

Определение связи между областью хромосомы 9p и ЛПНП с использованием Полногеномного Поиска Ассоциаций (ПГПА - GWAS - Genome Wide Association):

Для выявления причинных вариантов в новых генах, связанных с сердечно-сосудистыми факторами риска, был проведен анализ полногеномнойф ассоциаций с использованием 1852 субъектов-амишей Старого порядка, генотипированных Affymetrix 500K и 6.0 массивов. Основные характеристики этих участников приведены в Таблице 1.

Таблица 1: Основные характеристики исследуемых популяций

ПГПА анализ ПГС (Полногеномное Секвениро
вание)
Точное картирование
ПЭС (Полноэкзомное Секвенирование) Подтверждение
N 1852 1083 4565 Мужчина (%) 48 50 43 Возраст (лет) 51,1 ± 16,3 50,4 ± 16,8 41,7 ± 15,2 ИМТ (BMI) (кг/м2) 27,4 ± 5,0 26,9 ± 4,5 26,6 ± 4,9 САД (SBP) (мм рт. cт.) 121,1 ± 16,0 120,9 ± 15,6 115,1 ± 16,1 ДАД (DBP) (мм рт. cт.) 73,6 ± 9,4 74,4 ± 9,6 71,6 ± 9,6 Холестерин (мг/дл) 210,6 ± 46,3 211,8 ± 46,9 208,2 ± 49,2 ЛПВП (мг/дл) 56,1 ± 14,8 55,9 ± 15,6 60,9 ± 16,4 ЛПНП (мг/дл) 138,2 ± 42,1 140,4 ± 43,2 132,7 ± 44,9 Триглицериды (мг/дл) 80,4 ± 53,0 77,7 ± 48,8 72,1 ± 45,6 Препараты снижающие холестерин (%) 2,4 3,2 1,9 Диабет (%) 2,6 2,4 2,2

Почти все образцы точного картирования ПГС (96%) были включены в образцы для ПГПА.

Только 30% образцов ПЭС были включены в образцы ПГПА или ПГС.

Как продемонстрировано на Фиг. 1, был обнаружен сильный новый сигнал ассоциации между ЛПНП и локусом на хромосоме 9p. Основным ассоциированным ОНП был rs855453 (p=2.2E-08) и имел частоту 15% у амишей и 25% у населения в целом. Незначительный аллель Т был связан с более низким уровнем ЛПНП на 10 мг/дл. Таким образом, этот ОНП по ПГПА распространен как у амишей, так и в других популяциях, и имеет большой размер эффекта, но никогда не был идентифицирован ни в одном из крупных метаанализов ПГПА. Эти характеристики соответствуют характеристикам предыдущих исследований (APOC3 и LIPE), и на основании этого был сделан вывод, что этот ОНП ПГПА не был причинно-функциональным вариантом в этом регионе, а скорее связан с неравновесным сцеплением (LD - linkage disequilibrium) с другим вариантом, который редко встречается среди населения в целом, но встречается среди населения амишей. Кроме того, многочисленные исследования, основанные на 5 независимых скрещиваниях нескольких штаммов, также обнаружили, что синтеническая область генома крысы, расположенная на хромосоме 5 крысы, содержит QTL для уровня холестерина и триглицеридов в сыворотке (база данных генома крысы (RGD - Rat Genome Database). Scl12.26. 35. 44, 54 и Stl 28).

Подтверждение с использованием Полноэкзомного Секвенирования (ПЭС -WES - Whole Exome Sequencing):

ПЭС после КК для 4565 особей амишей, основные характеристики которых приведены в Таблице 1, впоследствии были использованы. Результаты смешанного модельного полноэкзомного анализа ЛПНП идентифицировали миссенс-вариант B4GALT1 rs551564683 как наиболее значимую связь с p-значением 3,3E-18 и размером эффекта на 14,7 мг/дл более низкого ЛПНП. Вариант rs551564683 имел MAF 6% у амишей, в то время как чрезвычайно редкий среди населения в целом. Вариант находится в бдОНП без информации о частоте или населении, не существует в базе данных ExAC (60 000 образцов), и только одна копия была найдена в ПГС из 15 387 не-амишей в наборе данных Trans-Omics для точной медицины NHLBI (TOPMed). Кроме того, в совокупности данных других популяционных когорт, доступных для исследователей - всего 125 401 особь, - было найдено только 79 гетерозигот и 5 гомозигот по этому варианту (демонстрируя более чем 1000-кратное обогащение в популяции амишей). Этот несоответствующий вариант находится на расстоянии 500 Кб от варианта ПГПА с оценкой r2 LD, равной 0,5. Там нет идеально коррелированных вариантов с rs551564683; Фактически, следующим наиболее значимым ОНП является rs149557496 с p-значением E-14. Таким образом, не только сила ассоциации rs551564683 подтверждает, что локус ПГПА хромосомы 9 является реальным, но и rs551564683 обладает всеми характеристиками, ожидаемыми для случайного варианта.

Точное картирование области 9p хромосомы с использованием Полногеномного Секвенирования (ПГС):

ПГС, доступное на меньшем образце, использовалось, чтобы заполнить пробелы в последовательности экзома, чтобы предоставить дополнительные доказательства того, что rs551564683 является причинно-следственным/функциональным. Данные ПГС для 1083 OOA были сгенерированы как часть программы TOPMed. Основные характеристики образцов ПГС приведены в Таблице 1. ПГС захватывает все ОНП и инделы (вставка/делеция) - как кодирующие, так и некодирующие - которые могут коррелировать с лучшими вариантами в интересующей области. Поскольку верхние варианты имеют частоту ~ 6%, очень маловероятно, что будет недостаточно чтения последовательности, чтобы вызывающий вариант пропустил вариант. Тем по меньшей мере,, могут быть варианты, исключенные во время процедуры контроля качества. Изучив варианты, которые не прошли КК, в анализ были добавлены 2 дополнительных варианта. Анализ ассоциации идентифицировал миссенс ОНП (N352S) rs551564683 в гене B4GALT1 как наиболее значимый вариант с ЛПНП в этом регионе с p-значением 2,9E-06 и размером эффекта -16,4 мг/дл (см. Таблицу 2).

Таблица 2: Средний (n) уровень ЛПНП (мг/дл) по генотипу, содержащему rs551564683, в ООА

когорта TT TC CC Р-значение Подтверждение ПЭС (n=4,565) 135 (n=4025) 118 (n=529) 103 (n=12) 3,3 × 10-18 Точное картирование по ПГС (n=1,083) 144 (n=952) 128 (n=130) 87 (n=1) 2,9 × 10-6

Набор данных TOPMed ПГС предоставил 20 вариантов, связанных с ЛПНП, с p-значениями от 2.9E-06 до 2.5E-05 и сильно, но не идеально, коррелированными с лучшим попаданием rs551564683 (r2=0,83-0,94) (см. Красный на Фиг. 2). Условный анализ с поправкой на rs551564683 полностью отменил сигнал ассоциации 20 вариантов и не выявил никаких других сигналов в этой области, что сильно указывало на один причинный вариант.

Путем тщательного изучения этих 20 вариантов (см. красный на Фиг. 2) варианты были разделены на 2 группы: 7 красных вариантов внутри заштрихованного треугольника и 13 не заштрихованных красных вариантов. 7 красных вариантов в заштрихованном треугольнике были почти полностью коррелировали друг с другом и имели r2 0,83 с наибольшим хитом rs551564683. Эти 7 вариантов были безопасно исключены как причинно-следственные/функциональные по трем причинам: 1) они относительно распространены за пределами OOA (maf> 1%), 2) они не показали никакой связи с ЛПНП в 3877 образцах из Framingham Heart Study (FHS)) в TOPMed, и 3) один из этих 7 вариантов имел p-значение ассоциации ЛПНП 6,3E-14 против 3,3E-18 для наибольшего попадания rs551564683 в данных ПЭС по 4565 субъектам OOA.

Другая группа вариантов в заштрихованном прямоугольнике на Фиг. 2 также имела ассоциацию со значением р только около 10E-6 и эти варианты полностью коррелировали друг с другом и имели r2 0,68 с наибольшим попаданием rs551564683. Эта группа была также исключена как причинно-следственная/функциональная, поскольку ее члены распространены за пределами OOA (maf ~ 4%) и не показали никакой связи с ЛПНП в 3877 образцах из FHS в рамках TOPMed.

Остались лучшие хиты rs551564683 и 13 незатененных красных вариантов на Фиг. 2, которые простираются на 4 Мб на коротком плече хромосомы 9 с 31,5 Мб до 35,5 Мб. Как описано выше, эти 13 вариантов были почти полностью связаны друг с другом и имели r2 0,91-0,94 с наибольшим хитом rs551564683. Среди этих вариантов самый высокий код rs551564683 был единственным вариантом кодирования, и он был классифицирован как повреждающий или вредный с помощью 5 из 9 алгоритмов, которые предсказывают влияние варианта на функцию белка. Топ-рейтинг rs551564683, и у этих 13 вариантов в ООА было 6% маф (maf), хотя в общей популяции их почти не было.

Анализ гаплотипов:

Несовершенный r2 между различными локусами является результатом событий рекомбинации. Был проведен детальный анализ основных 14-ОНП гаплотипов. На Фиг. 3 продемонстрированы 3 основных гаплотипа в этой области 4 Мб. Есть 115 субъектов (1 гомозигота и 114 гетерозигот) с гаплотипом А, которые имели идентичные генотипы по 14 ОНП, не предоставили информации о том, какой ОНП может быть причиной. Шесть субъектов имели гаплотип B, который содержал гетерозиготные генотипы по rs551564683 плюс 4 расположенных выше ОНП, и 7 субъектов имели гаплотип C, который содержал гетерозиготные генотипы по rs551564683 плюс 9 расположенных ниже ОНП. Рекомбинантные гаплотипы B и C сгруппированы у родственных субъектов, что свидетельствует о том, что они не являются артефактами ошибки генотипирования. В Таблице 3 продемонстрированы значения p rs551564683 после добавления индивидуумов с гаплотипами B и C в одну группу по сравнению с индивидуумами с гаплотипом A.

Таблица 3: Результаты анализа гаплотипов

A B C B+C Носители 115 7 6 13 Всего N 1063 1070 1069 1076 rs551564683 3,43E-05 1,40E-05 1,18E-05 4,82E-06

Добавление каждого из гаплотипов B и C в отдельности улучшило значение p, а добавление обоих из них улучшило значение p еще больше. Улучшенные значения р показали, что оба гаплотипа В и С несут аллель являющийся причиной. Единственный общий ОНП между B и C был rs551564683, который считался вариантом, являющимся причиной.

Врожденное нарушение гликозилирования связанное с B4GALT1 согласуется с функциональной ролью rs551564683:

Было проведено Полнофенотипический Поиск Ассоциаций (ПФПА -PheWAS - phenotype-wide association study) для проверки ассоциации rs551564683 со всеми признаками в базе данных амишей. Самая сильная связь после ЛПНП (р=3,3E-18) и общего холестерина (р=3,0E-18) была обнаружена с аспартаттрансаминазой (АСТ) (р=3,0E-8), где гомозиготы рецессивных аллелей имели двукратное повышение уровня АСТ по сравнению с гомозиготами дикого типа. Ранее сообщалось о повышении АСТ в случае врожденного расстройства гликозилирования (CGD - Congenital Disorder of Glycosylation), вызванного введением сдвига рамки в B4GALT1, что привело к усеченному дисфункциональному белку. Кроме того, наблюдалась сильная связь с уровнями фибриногена (p=5,0E-4), где уровень рецессивных гомозигот был на около 20% ниже, чем у дикого типа, что соответствовало дефекту свертывания крови у того же пациента с CDG. Кроме того, в небольшом эксперименте было выявлено 50% повышение (p=0,02) уровня креатинкиназы в сыворотке у 13 рецессивных аллельных гомозигот по сравнению с 13 гомозиготами дикого типа. Эта согласованность в фенотипе, связанном с миссенс-ОНП и вызванными усеченной вставкой в B4GALT1, еще более подтверждает, что B4GALT1 rs551564683 ОНП является причинно-следственным/функциональным геном и вариантом в этой области.

Ассоциация между липидными субфракциями и rs551564683 была исследована в подгруппе из 759 индивидуумова-амишей, и была обнаружена ассоциация с более низкими уровнями почти всех субфракций со значительными или незначительными p-значениями, как продемонстрировано в Таблице 4.

Показатель кальцификации коронарных артерий, показатель кальцификации аорты и перикардиальный жир показали тенденцию ассоциации с более низкими уровнями, но без значимых p-значений.

ПФПА также обнаружил, что rs551564683 ассоциируется с более высоким креатинином и более низкой СКФ, а также с более высоким гематокритом и низкими базофилами.

Таблица 4: Ассоциация между rs551564683 и липидными субфракциями у 759 особей ООА

Признак размер эффекта р-значение Хол -1,66E+01 3,79E-04 ЛПВП -4,16E+00 8,72E-03 ЛПВП2 -1,51E+00 4,53E-02 ЛПВП2a -9,26E-01 9,93E-02 ЛПВП2b -1,94E-01 2,96E-01 ЛПВП2c -2,64E-01 2,14E-01 ЛПВП3 -2,64E+00 3,98E-03 ЛПВП3a -1,51E+00 2,00E-02 ЛПВП3b -1,68E-01 4,16E-01 ЛПВП3c -5,93E-01 1,47E-02 ЛПВП3d -4,44E-01 2,48E-02 ЛППП -7,31E-01 4,92E-01 ЛППП1 -1,19E-02 9,73E-01 ЛППП2 -7,65E-01 3,37E-01 ЛПНП -1,23E+01 2,37E-03 ЛПНП1 -2,22E+00 7,20E-02 ЛПНП2 -5,64E+00 3,99E-02 ЛПНП3 -3,81E+00 1,32E-01 ЛПНП4 -3,96E-02 9,65E-01 ЛПНПРеальн. -1,12E+01 9,53E-04 Lpa -2,15E-01 6,34E-01 Lpa1 -2,91E-01 3,00E-01 LpA2 4,67E-02 8,27E-01 Lpa3 2,31E-01 5,04E-01 Lpa4 -2,91E-02 9,19E-01 Lpa5 -2,48E-01 3,11E-01 Остаточный Липопротеин -7,23E-01 5,97E-01 TCЛПВП отношение -3,29E-02 7,68E-01 Общ.НеЛПНП -1,24E+01 3,97E-03 Общ.lЛПОНП -1,03E-01 8,70E-01 Триглицерид 2,19E+00 6,46E-01 ЛПОНП1плюс2 -4,10E-02 8,86E-01 ЛПОНП3 6,15E-03 9,86E-01 ЛПОНП3a 2,28E-02 8,97E-01 ЛПОНП3b -6,57E-02 7,30E-01

Пример 2: Подготовка проб и секвенирование

Концентрации образцов геномной ДНК были получены от амишей, а затем перенесены в собственное учреждение и хранились при -80°C (LiCONiC TubeStore) до анализа последовательности. Количество образца определяли по флуоресценции (Life Technologies), а качество оценивали, прогоняя 100 нг образца в 2% предварительно залитом агарозном геле (Life Technologies).

Образцы ДНК были нормализованы, и каждый образец был обработан до средней длины фрагмента 150 пар оснований с использованием сфокусированной акустической энергии (Covaris LE220). Порезанную геномную ДНК готовили для захвата экзома с помощью специального набора реагентов от Kapa Biosystems с использованием полностью автоматизированного подхода, разработанного собственными силами. Уникальный штрих-код из 6 пар оснований был добавлен к каждому фрагменту ДНК во время подготовки библиотеки для облегчения захвата и секвенирования мультиплексного экзома. Равные количества образца объединяли перед захватом экзома с помощью инструмента для дизайна xGen, доступном от IDT, с некоторыми модификациями. Мультиплексированные образцы были секвенированы с использованием парного секвенирования 75 пар оснований на Illumina v4 HiSeq 2500.

Необработанные данные последовательности, сгенерированные на платформе Illumina Hiseq 2500, были загружены на высокопроизводительный вычислительный ресурс в DNAnexus (DNAnexus Inc., Mountain View, CA), а автоматизированные рабочие процессы обработали необработанные файлы.bcl в аннотированные проявления вариантов. Исходные показания были назначены для соответствующих образцов для анализа на основе конкретных штрих-кодов образцов с использованием программного обеспечения CASAVA (Illumina Inc., Сан-Диего, Калифорния).

Затем показания для конкретных образцов были приведены в соответствие с эталонной последовательностью с использованием BWA-mem (Li and Durbin, Bioinformatics, 2009, 25, 1754-1760). Это привело к созданию файла двоичного выравнивания (BAM - binary alignment) для каждого образца со всеми считываниями конкретного образца и геномными координатами, с которыми сопоставлено каждое чтение. После выравнивания чтения образца были оценены, чтобы идентифицировать и помечать дубликаты чтения с помощью инструмента Picard MarkDuplicates (picard.sourceforge.net), создавая файл выравнивания с каждым отмеченным дублированием чтения (duplicatesMarked.BAM).

Набор инструментов для анализа генома (GATK - Genome Analysis Toolkit) (Van der Auwera, Cur. Protocols in Bioinformatics, 2013, 11, 11-33; McKenna, Genome Res., 2010, 20, 1297-1303) затем использовался для проведения локальной перестройки выровненных и помеченных как дубликаты чтений каждого образца. Затем GATK HaplotypeCaller использовался для обработки перестроенных считываний, помеченных как дубликаты, и для идентификации всех экзонных положений, в которых образец отличается от эталона генома, включая вариации одиночного нуклеотида и инделы, а также зиготность варианта в образце в любой позиции где этот конкретный образец отличается от эталонного.

Связанные измерения, включая количество считываний, назначенных как для эталонного, так и для альтернативного аллеля, качество генотипа, представляющее достоверность вызова генотипа, и общее качество варианта проявления в этой позиции, выводились на каждом сайте варианта. Затем для оценки общего показателя качества вариантов выборки использовали перекалибровку показателя качества вариантов (VQSR - Variant Quality Score Recalibration) из GATK, используя обучающие наборы данных для оценки и пересчета этого показателя для повышения специфичности. Метрическая статистика была собрана для каждого образца, чтобы оценить производительность захвата, производительность выравнивания и проявление варианта. После завершения когортного секвенирования VCF на уровне проекта был создан путем совместного генотипирования с использованием GATK для получения генотипа и связанной метрической информации для всех образцов в любом месте, где любой образец в когорте несет вариант из эталонного генома. Именно этот VCF на уровне проекта использовался для последующего статистического анализа. В дополнение к VQSR варианты были аннотированы с помощью метрики «Качество по глубине» (QD - Quality By Depth) с использованием GATK, а также биаллельных вариантов с QD> 2,0, показателями пропущенности <1% и равновесными p-значениями Харди-Вайнберга> 1,0×10-6 были сохранены для дальнейшего анализа.

До анализа данных последовательностей расположенных ниже, образцы с сообщенным пол, который не соответствовал генетически определенному полу, образцы с высокими показателями гетерозиготности, низким охватом последовательности (определяемый как охват в 20 раз менее 75% целевых оснований) или необычно высокой степенью скрытности родства и генетически идентифицированные дубликаты образцов были исключены.

Варианты последовательности были аннотированы с использованием конвейера аннотаций, который использует ANNOVAR (Wang et al., Nuc. Acids Res., 2010, 38, e164) и другие настраиваемые алгоритмы для аннотирования и анализа. Варианты были классифицированы в соответствии с их потенциальными функциональными эффектами, а затем отфильтрованы по их наблюдаемым частотам в общедоступных базах данных по контролю населения и базах данных, чтобы отфильтровать распространенные полиморфизмы и высокочастотные, вероятно, доброкачественные варианты. Алгоритмы биоинформационного прогнозирования функциональных эффектов вариантов наряду с оценками сохранения, основанными на сопоставлении нескольких видов, были включены в процесс аннотирования вариантов и использовались для информирования о потенциальной вредности идентифицированных вариантов-кандидатов.

Пример 3: Частота N352S B4GALT1 rs551564683 увеличена у амишей

Посредством секвенирования экзома и анализа ассоциации у ~ 4700 субъектов-амишей было обнаружено, что rs551564683 на хромосоме 9 тесно связана с уровнем общего холестерина (p=1,3E-10) (см. Фиг. 4). RS551564683 кодирует миссенс-вариант, в котором серин заменен на аспарагин в положении 352 в белке B4GALT1. Следующим наиболее высоко-ассоциированным с ЛНП вариантом в регионе был rs149557496 с p-значением только 10-5, что указывает на то, что вариант N352S является наиболее вероятным причинным вариантом. Ссылаясь конкретно на Фиг. 4, в данных последовательности экзома варианта в самом высоком LD с Asn352Ser B4GALT1 был rs149557496 в HRCT1, удаленный 2,8 Мб, R2 0,78, значение P с ЛПНП у амишей 10-5. Данные по последовательности всего генома у амишей (TOPMED) не смогли идентифицировать вариант, более тесно связанный с ЛПНП-C в этом регионе.

Дальнейший анализ показал, что частота вариаций N352S B4GALT1 была более чем в 1000 раз увеличена в популяции амишей (см. Рис. 5). Данные показали, что в когорте 4725 амишей было идентифицировано 548 гетерозиготных носителей для аллеля, содержащего rs551564683, и 13 носителей были гомозиготными по аллелю (см. Рис. 5). Для сравнения, был проанализирован совокупный набор данных других популяционных когорт, доступных исследователям - всего 125 401 особь - и только 79 гетерозигот и 5 гомозигот были идентифицированы в этом совокупном наборе данных. Частота аллелей в когорте амишей оценивалась около в 0,06 по сравнению с около 0,0025 в наборе данных (см. Фиг. 5). Считается, что генетический дрейф может объяснить более высокую частоту этого аллеля у амишей.

Пример 4: N352S B4GALT1 связан со снижением уровня липидов в сыворотке и повышением АСТ

Была оценена ассоциация вариации N352S B4GALT1 с различными фенотипами, включая сывороточные липиды, ишемическую болезнь сердца (ИБС - CAD -coronary artery disease) и особенностями печени. Ассоциации были проведены на основе когорты амишей, с индивидуумами, которые были гомозиготными по эталонному аллелю, которые были гетерозиготными по альтернативному аллелю и которые были гомозиготными по альтернативному аллелю. Были определены генотипические средства для липидных и печеночных признаков и риска развития ИБС, а меры воздействия были скорректированы путем устранения влияния возраста и квадрата возраста субъекта, пола субъекта и исследования (поскольку данные о фенотипе были собраны из нескольких исследований за период лет). В случае перикардиального жира генотипические средства были дополнительно скорректированы на ИМТ. Величины влияния вариации на измеренные фенотипы измеряли с 95% доверительным интервалом. Признаки и результаты представлены на Фиг. 6, Фиг. 7 и Фиг. 8.

Как продемонстрировано на Фиг. 6, наличие вариации N352S, как правило, коррелировало с уменьшением сывороточных липидов, особенно для общего холестерина (значение p 1,3×10-10) и ЛПНП (значение p 1,8×10-9), который достиг сильной статистической значимости. Индивидуумы, гетерозиготные и гомозиготные по этому изменению, продемонстрировали снижение уровней ЛПНП на 17,3 мг/дл и 31,2 мг/дл соответственно. Существовала тенденция между вариантом и уменьшением кальцификации коронарной артерии. Кроме того, наличие этой вариации коррелировало с повышенными уровнями аспартатаминотрансферазы (АСТ) (значение p 6,0 × 10-8). Было определено, что значение p для рецессивной модели для уровней АСТ составляет 9 × 10-23. Изменения, по-видимому, не коррелируют с повышенными уровнями аланинаминотрансферазы (АЛТ), уровнями щелочной фосфатазы или уровнями жира в печени. Уровни холестерина, ЛПНП и АСТ графически продемонстрированы на Фиг. 7. На Фиг. 7 уровни холестерина, ЛПНП и АСТ продемонстрированы для субъектов, которые были гомозиготными (ТТ) для эталонного аллеля, гетерозиготными (СТ) для альтернативного аллеля и гомозиготными (СС) для альтернативного аллеля. Показанные значения не скорректированы. Значения были пересчитаны на основе корректировок по возрасту и квадрату возраста, полу и исследованию (Таблица в нижней части рисунка 7).

Влияние изменения N352S на липидные субфракции также оценивали. Эти результаты продемонстрированы на Фиг. 8. Ассоциации были проведены на основе когорты амишей, с индивидуумами, которые были гомозиготными по эталонному аллелю, которые были гетерозиготными по альтернативному аллелю и которые были гомозиготными по альтернативному аллелю. Результаты на Фиг. 8 демонстрируют, что изменение N352S B4GALT1 ассоциируется с уменьшением во всех протестированных липидных субфракциях.

Пример 5: N352S B4GALT1 связан со сниженным уровнем фибриногена

Ассоциация вариаций N352S B4GALT1 с уровнями фибриногена также была оценена в подмножестве образцов. Что касается сывороточных липидов, CAD и особенностей печени, оцененных в Примере 4, связь с уровнями фибриногена была выполнена на основе когорты амишей, с лицами, которые были гомозиготными по альтернативному аллелю, которые были гетерозиготными по эталонному аллелю, и которые были гомозиготными по альтернативному аллелю. Генотипические средние значения уровней фибриногена были определены в двух подгруппах индивидуумов - индивидуумах, не принимавших режим клопидогрела (наивные по препарату), и индивидуумов, принимавших режим клопидогрела (на клопидогреле), и, как часть анализа, средние уровни в каждой группе были скорректированы путем устранения влияния возраста субъекта и возраста в квадрате, пола субъекта и исследования. Величины эффекта изменения уровней фибриногена измеряли при доверительном интервале 95%. Как продемонстрировано на Фиг. 9, наличие вариации N352S было связано с пониженными уровнями фибриногена у каждого из наивных препаратов (значение p 1,15×10-3) и на клопидогреле (значение p 2,74×10-5) группы. Подгруппа, не получавшая лекарств, показала снижение фибриногена на около 24 мг/дл (см. Рис. 9). Подгруппа по клопидогрелу показала снижение фибриногена на около 32,5 мг/дл (см. Рис. 9).

Пример 6: Дополнительные ассоциации N352S B4GALT1

В когорте амишей также была проведена оценка связей между вариацией N352S B4GALT1 и другими признаками, включая уровни креатинина, расчетную скорость клубочковой фильтрации (рСКФ), уровни базофилов и процент гематокрита. Как продемонстрировано на Фиг. 9, вариант слабо связан с небольшим повышением уровней креатинина, но незначительно связан с рСКФ, уровнями базофилов или процентом гематокрита.

Пример 7: Нокаут ортолога b4galt1 у рыбок данио

Параллельно с данными, полученными в клеточных анализах, была использована модель рыбок данио для изучения влияния Asn352Ser B4GALT1 на ЛПНП.

Разведение данио, морфолино инъекция и валидация

Запасы рыбок данио дикого типа (Tubingen) использовали для создания эмбрионов для инъекции морфолино. Взрослую рыбу содержали и разводили при 27-29°С, а эмбрионы выращивали при 28,5°С. Все животные содержались и разводимлись в соответствии с протоколами, утвержденными Комитетом по уходу и использованию животных Университета штата Мэриленд. Морфолино-антисмысловые олигонуклеотиды (MO) были получены (Gene Tools, Inc.) на основе ранее опубликованных MO, нацеленных против b4galt1 (Machingo et al., Dev. Biol., 2006, 297, 471-482). MO инъецировали на стадии 1-2 клеток и проверяли путем количественной оценки кОТ-ПЦР транскрипта b4galt1 дикого типа. Токсичность, не являющуюся целью, оценивали с помощью количественной оценки с помощью кОТ-ПЦРR изоформы delta113 p53 (Robu et al., PLoS Genet., 2007, 3, e78). В экспериментах по сохранению мРНК мРНК B4GALT1 человека транскрибировали из плазмидного вектора pCS2+, содержащего открытую рамку считывания (ORF - open reading frame) гена дикого типа или варианта N352S. мРНК смешивали с МО в различных концентрациях и совместно вводили в 1-2 эмбриона на клеточной стадии. Для каждого эксперимента с инъекцией инъецировали всего 200-400 эмбрионов, и каждый эксперимент повторяли минимум три раза.

Количественная оценка ЛПНП у рыбок данио

Сто личинок через 5 дней после оплодотворения (dpf - days post fertilization) гомогенизировали в эксперименте в 400 мкл охлажденного льдом 10 мкМ бутилированного гидрокситолуола. Гомогенат фильтровали через мембранный фильтр Dura PVDF 0,45 мкм (Millipore) для подготовки к экстракции липидов. Используя набор для анализа холестерина ЛПВП и ЛПНП/ЛПОНП (Cell Biolabs, Inc.), гомогенат обрабатывали в соответствии с протоколом производителя. После осаждения и разбавления образцы анализировали флуориметрическим анализом с использованием планшет-ридера SpectraMax Gemini EM и программного обеспечения для сбора и анализа данных микропланшетов SoftMax Pro (Molecular Devices).

Геномный нокаут ортолога рыбок данио (b4galt1) был получен с использованием CRISPR/Cas9-опосредованного нацеливания на экзон 2. В соответствии с сообщениями об эмбриональной летальности нокаутированных животных у мышей, инъецированные животные F0 не были жизнеспособными для взрослой жизни и постоянно умирали на ювенильных стадиях. Чтобы обойти отсутствие жизнеспособности, использовался нокдаун-подход с использованием ранее сообщавшегося антисмыслового антисмыслового морфолино-олигонуклеотида (МО), блокирующего сплайсинг, вводимого эмбрионам (Machingo et al., Dev. Biol., 2006, 297, 471-482). Эффективность МО была подтверждена при двух разных концентрациях с помощью кОТ-ПЦР (см. Рис. 10) и исключила возможность нецелевой токсичности (см. Рис. 11). Чтобы количественно оценить изменения в уровнях ЛПНП, инъецировали 8 нг МО и инъецированные эмбрионы культивировали до 5 дней после оплодотворения (dpf), на этой стадии личинки анализировали на общий ЛПНП согласно ранее опубликованным протоколам (O'Hare et al., J. Lipid Res., 2014, 55, 2242-2253). Наблюдалось значительное снижение ЛПНП у личинок с инъекцией МО по сравнению с контрольными личинками, что согласуется с ролью b4galt1 в гомеостазе ЛПНП (см. Рис. 12). Этот результат был подтвержден с использованием второго нацеленного на сплайсинг экзона 2 МО, который приводил к снижению концентрации ЛПНП при инъекции 2 нг МО (данные не продемонстрированы). Чтобы подтвердить специфичность этих наблюдений и проверить функциональность человеческого B4GALT1 у рыбок данио, полноразмерная мРНК, кодирующая ген человека, была сгенерирована транскрипцией in vitro из плазмиды pCS2+, несущей открытую рамку считывания (ORF) человеческого гена. Чтобы оценить способность мРНК человека дикого типа спасать фенотип нокдауна, ее вводили совместно с b4galt1 MO в эмбрионы и оценивали ЛПНП у личинок, не подвергшихся воздействию. Три концентрации мРНК (10 мкг, 25 мкг и 50 мкг) совместно вводили с 8 нг МО. Совместная инъекция 50 мкг мРНК B4GALT1 приводила к уровням ЛПНП, которые были статистически неотличимы от уровней у личинок, которым инъецировали только контрольный МО (значение р=0,14), что позволяет предположить, что мРНК человека может сохранить эффекты нокдауна гена рыбок данио. (см. Фиг. 12; личинки обрабатывали МО против b4galt1, МО совместно инъецировали мРНК B4GALT1 человека ДТ (сохранение ДТ) или МО совместно инъецировали с мРНК B4GALT1, кодирующей мутацию Asn352Ser (спасение N352S)).

Эти данные подтверждают использование этой системы для функциональной интерпретации вариантов в человеческом B4GALT1 и предполагают, что мРНК B4GALT1 дикого типа человека является функциональной у рыбок данио в отношении регуляции системных уровней ЛПНП. Влияние p.Asn352Ser на функцию B4GALT1 было дополнительно изучено. Используя сайт-направленный мутагенез (O'Hare et al., Hepatology, 2017, 65, 1526-1542), в кодирующую последовательность человеческой конструкции ORF B4GALT1 было введено T-C-изменение для генерации полноразмерной мРНК. Совместная инъекция мРНК B4GALT1 p.352Ser с МО приводила к снижению способности к сохранению фенотипа ЛПНП. Полученная концентрация ЛПНП была на 15% ниже, чем в результате совместной инъекции мРНК дикого типа с МО, со статистически значимым эффектом (39,9 мкМ по сравнению с 46,6 мкМ, р-значение=0,02). Однако этот уровень ЛПНП также был статистически выше, чем у одного b4galt1 MO (значение p=0,01) (см. Рис. 12), что указывает на частичный дефект функции, вызванный миссенс вариантом.

Пример 8: Целевое генотипирование

Целевое генотипирование ОНП с использованием системы QuantStudio (Thermo Fisher Scientific) было проведено для 3236 пациентов с ООА. Основываясь на структуре LD 14 ОНП, семь ОНП были отобраны для генотипирования, и свидетельство ассоциации для rs551564683 было 4,1E-13, в то время как для других ОНП было около E-10 (Фиг. 14), подтверждая, что rs551564683 представляет собой вариант, являющийся причиной в этом регионе.

Пример 9: N352S B4GALT1 вызывает снижение ферментативной активности при отсутствии изменения стабильности белка или клеточной локализации

Исследования свойств B4GALT1 проводили в клетках COS-7 и Huh7, сверхэкспрессирующих человеческий флаг-B4GALT1, меченный эпитопом 352Asn, или меченный эпитопом флаг-B4GALT1 352Ser (Фиг. 15 и 16). Как продемонстрировано на Фиг. 15, изображения конфокальной микроскопии Flag-352Asn или Flag-352Ser с использованием антител B4GALT1 или Flag указывают на идентичную картину окрашивания (маркер масштаба=10 мкм). Как продемонстрировано на Фиг. 16, субклеточная локализация с помощью непрямой иммунофлюоресценции клеток Huh7 показала совместную локализацию эндогенно экспрессированных B4GALT1 и TGN56, маркера аппарата Гольджи. Аналогичная картина совместной локализации наблюдалась независимо от того, были ли гиперэкспрессированы меченый человеческий эпитоп Flag-B4GALT1 352Sn или меченный эпитоп Flag-B4GALT1 352Ser (Фиг. 16). Как продемонстрировано на Фиг. 16, эндогенные B4GALT1, Flag-352Asn и Flag-352ser сверхэкспрессированы в клетках гепатомы Huh7 человека, совместно локализованных с маркером TGN46 сети транс Гольджи. Показаны изображения конфокальной микроскопии эндогенной субклеточной локализации B4GALT1, Flag-352Asn и Flag-352Se в связи с маркером сети транс Гольджи TGN46 с маркером масштаба=10 мкм.

В клетках COS-7 наблюдалось низкое содержание эндогенного B4GALT1 (Фиг. 17, панель B), поэтому эту клеточную линию использовали для оценки влияния миссенс-мутации на стабильность белка и/или уровни в стационарном состоянии, а также активность галактозилтрансферазы. Результаты показали, что миссенс-мутация не влияет на стабильность белка и/или уровни устойчивого состояния (с помощью вестерн-блоттинга) (Фиг. 17). На Фиг. 17 продемонстрировано влияние 352Ser на стабильность белка и/или уровни устойчивого состояния. На панели A продемонстрированы клетки COS7, экспрессирующие либо белки-метки 352Asn, либо 352Ser Flag-метки, слитые со свободным EGFP, которые были экспрессированы в клетках COS7. Клеточные лизаты анализировали вестерн-блоттингом на B4GALT1, Bactin и EGFP с использованием коммерческих антител. Показан один из четырех подобных экспериментов. На панели B продемонстрированы уровни экспрессии мРНК для гена B4GALT1, определенные с помощью анализа кОТ-ПЦР. Данные представляют собой среднее значение ± СО из 4 экспериментов.

Для определения каталитической активности 352Ser лизаты нетрансфицированных клеток COS-7 и клеток COS-7, трансфицированных одним вектором экспрессии или содержащих вставку кДНК дикого типа или мутантного B4GALT1, анализировали на активность галактозилтрансферазы. При нормализации относительно экспрессии FLAG-меченного белка (эксперимент по иммуноблоттингу на Фиг. 18, панели A и B) ферментативная активность 352Ser была на около 50% ниже по сравнению с 352 Asn (Фиг. 18, панель C). На Фиг. 18 продемонстрировано влияние мутации 352Ser на активность. На панелях A и B продемонстрированы клетки COS7, экспрессирующие слияние белков-меток 352Asn или 352Ser Flag, экспрессированных в клетках COS7. Клеточные лизаты инкубировали с кроличьим анти-Flag IgG или кроличьим преиммунным контрольным IgG. Иммунопреципитаты анализировали вестерн-блоттингом на B4GALT1 или Flag с использованием коммерческих антител. Показан один из четырех подобных экспериментов. Панель C демонстрирует активность B4GALT1 в иммунопреципитатах, измеренную с помощью коммерческого набора (R&D). Каждая точка данных представляет собой среднее значение рассчитанного соотношения удельной активности B4GALT1 с количеством белка 352Asn или 352Ser, выделенного в иммуннопреципитатах. Сигналы от вестерн-блоттинга ECL определяли количественно денситометрией с использованием программного обеспечения ImageJ. Данные представляют собой среднее значение ± SE для 4 экспериментов (*, p <0,05, 352 Asn против 352Ser).

Эти эксперименты демонстрируют, что эта миссенс-мутация не влияет на уровень экспрессии белка и его локализацию, но приводит к снижению ферментативной активности.

Пример 10: Тест на трансферрин с дефектами гликозилирования при врожденных нарушениях гликозилирования (CDG - Congenital Disorders of Glycosylation)

Тест CDG проводили с использованием образцов сыворотки по 0,1 мл от 24 субъектов из 3 групп генотипов (8 рецессивных гомозигот, 8 гетерозигот и 8 основных гомозигот). Каждая рецессивная (minor) гомозигота была сопоставлена с гетерозиготой и доминантной (major) гомозиготой, которые являются либо родными братьями или сестрами, либо близкородственными однополыми индивидами на основе коэффициента родства. Возраст и статус носителя также соответствовали по основным аллельным генам, изменяющим липиды, в APOBR3527Q.

Разбавленные водой образцы дважды промывали с использованием иммуноаффинной колонки. Профилирование гликозилирования элюированных белков проводили с использованием масс-спектрометра с двумя диапазонами сканирования, специфичными для APOCIII и трансферрина. Соотношения гликоформ каждого белка использовали для определения дефицита гликозилирования. Тест CDG проводился в медицинской лаборатории Клиники Mayo.

Результаты показали, что все 24 образца имели нормальные уровни соотношения моноолигосахарид/диолигосахарид трансферрин, соотношение α-олигосахарид/диолигосахарид трансферрин, соотношение ApoCIII-1/ApoCIII-2 и ApoCIII-0/ApoCIII-2 коэффициент. Однако, хотя все образцы дикого типа имели нормальные уровни соотношения три-сиало/диолигосахарид-трансферрин, уровень у всех гетерозигот находился в промежуточном диапазоне, а уровень у всех рецессивных гомозигот был ненормальным и значительно выше, чем у подходящего дикого типа и гетерозигот (р=7,6 Е-10) (Фиг. 19). Эти результаты демонстрируют, что эта миссенс-мутация связана с дефектным гликозилированием в результате снижения ферментативной активности B4GALT1.

Пример 11: Глобальный анализ N-связанных гликанов гликопротеинов плазмы крови

Чтобы определить, влияют ли десиалилирование и гипогалактозилирование только на трансферрин или распространяются на другие гликопротеины, группа аналитической химии из Regneron провела глобальный анализ N-гликанов. Обогащенные лектином гликопротеины экстрагировали из сыворотки из 5 пар доминантных и рецессивных гомозигот в двух экземплярах, и для меченых гликанов проводили глобальное разделение N-связанных гликанов с помощью хроматографии гидрофильного взаимодействия, определяли по флуоресценции и анализировали с помощью масс-спектрометрии (HILIC -FLR-MS) (Фиг. 20 и Таблица 5). Ссылаясь на Фиг. 20, продемонстрирован репрезентативный HILIC-FLR-MS спектр N-гликанового анализа гликопротеина из согласованной пары рецессивных (SS) и доминантных (NN) гомозигот N352S B4GALT1. Результаты показали, что рецессивные гомозиготы имеют значительно более высокие уровни гипогалактозилированных и менее сиалилированных гликанов, включая двуразветвленные гликаны только с одной галактозой и одной сиаловой кислотой (р=3,1 Е-5), асиалированные двуразветвленные гликаны с одной галактозой (р=0,001), и усеченные двуразветвленные гликаны, в которых отсутствуют как галактозы, так и сиаловые кислоты (р=0,005). С другой стороны, рецессивные гомозиготы имеют значительно более низкие уровни (р=0,001) двуразветвленные гликанов с двумя галактозами и двумя сиаловыми кислотами (Таблица 5). Наблюдалось значительное снижение общего галактозилирования (р=9,2 Е-5) и сиалилирования (р=0,001) среди малых гомозигот, при этом не было различий в уровне фукозилирования (р=0,5). Как CDT, так и общий N-гликанный анализ сыворотки демонстрируют значительно повышенные уровни углевод-дефицитных гликопротеинов у рецессивных гомозигот, что указывает на то, что N352S B4GALT1 ведет к дефектному гликозилированию белка.

Таблица 5: Средний (+СО)% площади пика значительно различающихся гликанов между рецессивными и доминантными гомозиготами

Гликан Доминантная гомозигота Рецессивная гомозигота P значение G0F 0,58+0,34 1,84+0,48 0,005 G1 0,19+0,12 0,91+0,16 0,001 G1S1 0,63+0,16 4,7+0,38 3,1E-5 G2S2 39,3+0,79 31,5+1,8 0,001

Данное раскрытие не ограничено вариантами осуществления, описанными и приведенными в качестве примеров выше, но допускает изменения и модификации в пределах объема прилагаемой формулы изобретения. Данное раскрытие также не должно быть каким-либо образом ограничено использованием любых заголовков, перечисленных в данном документе.

--->

ПЕРЕЧЕНЬ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

<110> Regeneron Pharmaceuticals, Inc.

University of Maryland, Baltimore

<120> Варианты B4GALT1 и их применение

<130> 189238.00202 (3040) (10351-WO01)

<160> 17

<170> PatentIn версия 3.5

<210> 1

<211> 56718

<212> ДНК

<213> Homo sapiens

<220>

<223> геномная последовательность B4GALT1 дикого типа

<400> 1

gcgcctcggg cggcttctcg ccgctcccag gtctggctgg ctggaggagt 50

ctcagctctc agccgctcgc ccgcccccgc tccgggccct cccctagtcg 100

ccgctgtggg gcagcgcctg gcgggcggcc cgcgggcggg tcgcctcccc 150

tcctgtagcc cacacccttc ttaaagcggc ggcgggaaga tgaggcttcg 200

ggagccgctc ctgagcggca gcgccgcgat gccaggcgcg tccctacagc 250

gggcctgccg cctgctcgtg gccgtctgcg ctctgcacct tggcgtcacc 300

ctcgtttact acctggctgg ccgcgacctg agccgcctgc cccaactggt 350

cggagtctcc acaccgctgc agggcggctc gaacagtgcc gccgccatcg 400

ggcagtcctc cggggagctc cggaccggag gggcccggcc gccgcctcct 450

ctaggcgcct cctcccagcc gcgcccgggt ggcgactcca gcccagtcgt 500

ggattctggc cctggccccg ctagcaactt gacctcggtc ccagtgcccc 550

acaccaccgc actgtcgctg cccgcctgcc ctgaggagtc cccgctgctt 600

ggtaaggact cgggtcggcg ccagtcggag gattgggacc cccccggatt 650

tccccgacag ggtcccccag acattccctc aggctggctc ttctacgaca 700

gccagcctcc ctcttctgga tcagagtttt aaatcccaga cagaggcttg 750

ggactggatg ggagagaagg tttgcgaggt gggtccctgg ggagtcctgt 800

tggaggcgtg gggccgggac cgcacaggga agtcccgagg cccctctagc 850

cccagaacca gagaaggcct tggagacttc cctgctgtgg cccgaggctc 900

aggaagtttt ggagtttggg tctgcttagg gcttcgagca gccttgcact 950

gagaactctg gtagggacct cgagtaatcc actccctttt ggggactgac 1000

gtgaggctcc cggtggggaa ggagactgac ctctcggttc acgtgtcttg 1050

ccatagagcc actctcctga gtgggttttt ctcctgatcg tttgggccaa 1100

gtgacttctc tctgaacctc atatttctct tctgggataa taaatggtca 1150

ccctttcaag gggttgtttt ggaagatatt gtgaacaatg gtaaataagg 1200

gcttaattaa tgagggtaag ccctcagtaa attgtcactg tgtgttcatt 1250

tcttcctctg tgtggatcgt gaccgagagc ccttccccct agcctcctcc 1300

tggtatgggt acccaaaacc taggtgagca gggatctctc ccaggggcag 1350

agagcttgtg tactctgggt gttagagggc taaaatataa ccagtcaaca 1400

ccacgttgcc catttctggt acttccggta gcagcctgag tctcaattat 1450

cttgcccaga tgatctgaac tctgacctct agcctgtttc agcataggca 1500

gagagcttga gtaggtgagt ttgcattcct catagcagct ggctgagcct 1550

agtctggact tctctttgac ctgtaaccta caggcccaca ggcccaaggc 1600

aaccacaggt tgcttccagg gttaccacac aggtggtttc tcatttctaa 1650

tgctaggttt tagataattg ttgtaagtga ggggccctgg caggcaggat 1700

gacatcctgc caataggagt tttctgtcac tttcccacag agccctggct 1750

actacatact cttgctcaat ttcgccagta attgcgtcaa tgtgttcata 1800

tcaagtttgg gaagaacatc ttggaattgg tcagacgtga actgtggtaa 1850

taatgggggc ttgttttttt aagcagataa ttaaattcct ttgcatttga 1900

tgattattct gggaagcaga ctagtcccat aaaatgaaat ggactctgcc 1950

ttgctgctaa gtgtctgact tgagacatgc tatcgagttt ctcaaaatct 2000

cttccttgtg taaaatgtgg ttgtcgatga ttaccttaca ggggtttttt 2050

taagactaaa tgagatcgtg tacattaaat acaggcactc aggctgggca 2100

tggtggctca cgcctgtaat cctagcactt tgggaggctg aggggagtgg 2150

atcacttgag gttaggagtt tgagaccagc ctggccaata tggtgaaaca 2200

ccatcccatc tctacaaaaa tacaaaaaag ttagccaggg gtggtggcat 2250

cgcagctact caggaggccg aggcaggaga attgcttgaa cctgggaggc 2300

agaggttgca gtgagtcaag attgtgccag tacactccag cctgggcgac 2350

gaagcaagac tgtctaaaaa aaaaaaaaaa aaaaaaaata cgggcactca 2400

atacaccgta taataataat atagtaataa tatttgctta ggatctttaa 2450

aaagtttcat tttttcagac tcccacagaa atggctctgc acagcagagt 2500

gaagggggag agagactgag tctccaggcc agaaaaaggc caggtttttt 2550

gcttttgttt ttagttgttg cctggatatt gcacagaaag aaaaaataat 2600

tagcaagtta aacaaaagta ccgcaaagtt gattacattg gtatttgagt 2650

atcacatctt ctctcagaag cgtaagagac aaggtcgtga ccatacctct 2700

gcttagtttt gttttgtaat ggtgttgcta gtgatcggct tgtcaccagt 2750

tactggtgtt tctaaatgga ctataattgg ctacttgaaa ggacttcctg 2800

agaaagaaca ttttggagga cgaggagaga gtgccttctc tattttggct 2850

gctttcatgt gacatgcaag agaccatgac gtttaggctg ctgctgaggc 2900

agccccagaa atgggggccg agaggtcttt tcttcatttt aatagggtct 2950

gtaggtttgg gtggttaggt acagttctca gaatggaggt tcctggctat 3000

gaggccttga gaaagctgaa agtctccttg ggagtgtgtg ggtgggggga 3050

gtcgagccca tctgttcatg ggcaggtgtc agccaaagcc cttgcgggtg 3100

gttttgaggt tggtgggaga aagcatccgt ggggtttaga gttgtggcct 3150

tttcactact tgcagttcct ttccccgact tggctttact ttctggtgtc 3200

caggggtctg ggccagatgc tgagattcct ctcagctgac aggtgtgggt 3250

tatgggcaaa cccttccctg gaggacataa ggcaccggat tggactgctg 3300

atgggttgct gttggagttg tcagggcctt ggaatagtct tcagatagac 3350

ttgggttagt gtgacctggg gcaggctgca ggtttggagc catagtaccc 3400

cccgccccca caccgggcac cctgctctgg gctaatgtga ggcttgcagg 3450

agtgagtgat gcagtgggaa ggggggcctt tcctgaggat tctacagctt 3500

tctccaggga atcctcccag gtagtttagg cctgcaggtg ctatgctatc 3550

cttctttcct aaccctgtct caggtcctca gcggggccat gcggcatcca 3600

cttataaccc tgcagcgagg ccctcttttc tggccacctg ggtgtttgcc 3650

tgctgagatg ggaggaacag tggccttggg cttcttcccc cgtcatgttt 3700

atctctgctc agattgggca gcagctcaat gggacttgac cagctgtggc 3750

actgccagtc tgaagatgag tagggtgatg gggggaggtg ggcagtacct 3800

gaagctgaac tggtgagaga ggcaggctgg cctgggggct cagctggggc 3850

ctgggatggt tggtacagtc ccctcagggg ggtaggggag tgagtgttag 3900

actgcttaag cctcagaggc cgctcttgcc cacctatgct ttgaggagat 3950

cctcttcatt tgttcaaagg gaagactctg atctagagat gggcacttgg 4000

accagcaaac agcagctaca ggtagccagg gcacccgagg agcacttgct 4050

catgagccgg tttccctggt ttttatgggg gctgttgctg agcgtctgcc 4100

agggtttgtg tcctagcact tgctggtctt tgctgggctc tcagctctca 4150

ggtgtttctc taccagcacg tttccccctc cctcatatgc acacatgtgg 4200

acacaagcag gctgcccagg acagagtgta ctttgaggct tgggaaagga 4250

ctctctctcg cccttttggg gatgagcctt ggaacctcat caccttccgg 4300

cttggggtgg agcttcatcc tgggggttga agctttaggc tcagataact 4350

agtcttgtaa gccagttttg tcctgttgtt tttttcgtgg aaaataatgt 4400

attgacgtat acacagacat tctttgtcta acagtctgag attgagaaat 4450

accctccatg actatttggt ttgctttcat ggtgaaactt ggtcgctttc 4500

ttagacacag cctatggcaa taagagtgat ccctggctgc tgtaattcat 4550

tccagacttt gagcaaacac aaggcaccgc ctccacctgc agtggagcct 4600

ctgatgaacc aaatggaaac tccttgggga atggggagta agagccaaat 4650

gtgggattgg acttaaactg cagcttctta gaactgtagc attccacgat 4700

gggattgtct agtgctcttc ctggaggtta ctattcaata gttggctagt 4750

gcacaggttc aggggtgacc tgatatgccc tagcgtttca gaagatccct 4800

gcaaggtgtg tcttttggtc catctgaagg gtcttgtatg gtgatcttgt 4850

atggatatcc gtgacggcta aggcatctga taacttcatt ccttcagttc 4900

cagcagtgtt cctgtattat gctgggcact agagctacaa agaagaaaac 4950

aaagtgcctc ctcttcagga actcttaatt taggcagggg aggcataatt 5000

gaacagtgct gaggtcatct aggggaacca aagtgtgtat ttatcccctt 5050

ccctatcact cccctccctc cttcatttct tcctttcttc tttcagaaac 5100

tccaagttca tatcaaaatt ctccagccct ggttttattt ggttgtgtga 5150

aaattttcct ctaatttctg aagctatgca ttagttctgc tgagtaatct 5200

ttaacttgct gctttataat gattataatg agatatcact gggtattatg 5250

gtctttgggt agcagcaggg tagggatttc caggctggga ctaagctaat 5300

ttatgggttg ggaattatgg ggcagttaat agcaaggcag tccaagcttt 5350

ccacagattc caccctaggg accatccaga cttaaggaac agggccggca 5400

ggctcatccc ctttgcactc agctgggcta tgggtgtgtg tttgtgaaag 5450

aggtttattc agtagtcata cctgctgatt tccctgctat ctgtttaccc 5500

agtgcctcct gtaccttgtt tcttactctt tgttctctgc tcttactatg 5550

aagaagcaga gactggaatt ctgcttgaac ccacatctac ctggaaattc 5600

cagtttttct tgtccagtgg agcagcaatc cagttgtttt aggacaaatg 5650

gtctgccctt gaagcttaaa tcctttgagg gcctggcatg gtgacagttt 5700

tacatttggc tttggtatag actggtgtgg tccctgggca gtgaggtcac 5750

tgtaaggcca gccagccaga ccctggctcc taggggaatt aacaaggcat 5800

gggattagac tcacagggtc cctcctgtcc ctaaacttgg taggggttcc 5850

tgggagccag actgcgatta agattgtaga gacctgagac ctgagttgta 5900

ggggcctctg tgttgatctg ggccattgcc gggtgagctg aggcggtcac 5950

tagctcaagg agtgatctca ggatattgtt ctgtaagtca gagacctcca 6000

ggttggagag tggggcttgg gggtggggga cagggtttag tggggagctg 6050

gttctgggtg aatgtggcct aaagggattt gtccttagaa gacagagggg 6100

tgagtcacac actcagtgct tcaggttcca ctttgcggct tggcctcagc 6150

ccgccccttc cctgcacaaa tgaaggccag gggctatata attggctgtt 6200

gctgaattct ttggcagtga ttttaaagtc tggtctgggt gtgttatgta 6250

gctgcttctc tatccactcc ccacacccgc tgcttctcca gagcccctca 6300

caaagcccag gcagagagag agagagagag agagagaatg acttgcctca 6350

cagagatgtt ggggataggg ataggggtat gggtctttgc ttttgccttt 6400

tgagggggga taatctcttc cttcatttta aaagtaaaaa gtaatgcagg 6450

ctcattgaaa ataatttgaa aagttgaaag agatataaaa gcacacccaa 6500

attcctatca cccaaaagaa acataccggc atatttccta ctagtctttt 6550

tcatgtttaa gaatatagct gatatatttt tttttctttt tctttttgag 6600

acagggtttt tgctctgtca cccaggctgg agtgcagtga tcacggctca 6650

ctgcagcctc gacctctcgg gctaagcgat tctcccactt cagtctcccg 6700

agttgctggg accacaggtg cacaccgcca tgcctgacta atttttgtat 6750

tttttgtaga gatggggttt tgccatgttg cctaggctgg tctcgaactc 6800

cagagctcaa gtgattcacc tgccttggcc tcccaaagcg ctgggattat 6850

aggtgtcagt caccacaccc agtgttatag ctgttgtctt tatagatgaa 6900

cagatagatt gacatagatt catgtagata gcctggtgtt cagcattttt 6950

catttaagat tctgtcacag acttgaccct atacctttaa aaatcacaaa 7000

ggcagtatca tagtctgtca gctgaatatg ccataactta aaaaaatcat 7050

tcaactgttg ctgaacacac acatatacat atatagtttt tgttttttct 7100

tagtgatgta gtgatgcttg tgcagaaagc tttatgtact ttttggatgg 7150

tttctgtagg agagctttct aaaaaaggaa aaaaagtgtt gaatgttttt 7200

tgagaagggc tagattttca agccagtctt acaaaaggat agactcattg 7250

gaaattccag atttgcttag tgctggcaga tgagtatcac ttattgctga 7300

acaatgtgtc tagaattctg attaaaaaag aaactaggtc caggaagtgc 7350

ctgggggcag gggcaaaggg ccaggctgca ggataggctc ttaggatctg 7400

gctgagcaga aatctgctgt gaacagaatc ggtgggggtg atgctttctc 7450

agtaacttct ccatttgttt ctttagcagc taagtccctg tgctggactt 7500

ctgtggacta ctgtggctct ggggctgtgg ttgtgggtga acaacagcta 7550

gctaaaccag tgctgttgac atcattgaga tgtgacgcac aggaaggtgg 7600

gagcaagctt gcaaatcaga ttctgaaaca tatagcacag ctctcccacc 7650

tccaggtggt cctgagatct agggaggagc catagtgaga aactttaggt 7700

ttctaggaat tctcttaggg agaagctctc ttagggagag gcagaacctg 7750

gttctcagtt ggggctgatt caggtgggtt agatcaataa agcctcaggc 7800

cagtgtgcca ggctattccc aaggagtata ctttgaagtt actcccttta 7850

gaatgtcctc agtggagata aattctctct gaggagcagt tttgtctgcc 7900

ggggtcattt ggcacaaagc ctggagtgct agggcgaggt tgcactgagg 7950

gaaggggcag gattatgtca gcagtgtgac ggatacagtg tgaggtcagg 8000

ctccttcctg ccccaccacg ggggcctaga ggtcatgggg agggtccctg 8050

gcaggggatt caatcattgc ttggccccat gacagagtat attctaaaaa 8100

tgccttaagt ttttttcttt caaagtttct tcctgttttg cataatggcc 8150

ttttgccttt gacatcctga aaccgcagag ctgtcattgg tgttgcagga 8200

cactgccagc ttgaaaaaaa tcaacaacaa aaaaagaaac aggaaaggat 8250

gtggagttca gggtgcggcc tagggaagct ggtatttgcg ttatgggatt 8300

gtggggatgt ggtattaagg tgttgggtag cgcctgacat ttagaggagt 8350

actctgggca gagtccctgc ctgcccaaga ataggtagaa ttgagtcttc 8400

acaccaaagt caggagagac cccctccccc caggaagaga atgaacaggg 8450

actcatttcc tcattcagca aacttttatt ggtaactaca ctatatgaag 8500

tgtgagagat agacatgaac aagagaggcc cccactcttg ggcagtccct 8550

tagtagtagt agatagactc tggcaatatg gtgtggtcag agagaggaag 8600

cctgggtgct ttgagggtac tgaggaggtg cagggagcca aatgggtggt 8650

ctgggccagg gccagagtca gaatgaagga cctctcttcc agacgttgat 8700

tttagcatct ctgtctctca gtatgtttga acagtctccc ttattggaag 8750

ggcaggagtc tactgctaaa agtaacctgc gatttcctct acttgctgtc 8800

atgtggaaag aatactaaag ctgaaattcc aaaagttgca cacctttacc 8850

agcagggcag gagaggaaag gaaatggagg cagagtgagc tgaagatgat 8900

aaaagaaaga gaaggtggtg cagtttggac tgttatggac agaggaagtc 8950

tgagggtagc tggactgagg gatcaaaggg aggcagttga aagggaagag 9000

agctgcagag agggatttct tggtctgcag agggtaggag caagccttga 9050

aggctgctgg agtgaggatt ccgagccctg gtctttattc tttttctaat 9100

tcattacatc attttaggca agtcctaact cctttggtct ctgttgtctt 9150

tctgaaattt gagtgggctg ggcctgctgg tctttagcct ctgtctttct 9200

ctacctccta gattccagtt tggcgagtgg gggggaaaac ctggttgtat 9250

atgcaacgtg aaaggcctct ggaattcctt ttgaagctca ctacccatga 9300

ggcttctgct aaggatttca tcatgtctgt ctaagcagac ataaaaattt 9350

tagcaggtgg atgacccgta gaaatggcac aaggaatgtt tctttctgtc 9400

acactgtggt atttgattta agaaagttgt tatcctctct gtgcctcagt 9450

gttctcactt gtaaaatggc aataacagta tccacctcat agatgttatg 9500

aaatacaggt agtagccacg aaagggctta aaacagtgcc taacacagaa 9550

taagttgtga atatatgtta tttattattg gtagtataat gcttatttgt 9600

gaagattttg gcttttgctt tataggacct tttttttttt tagttgaaaa 9650

tacaatgtta ccatgttaaa tgttaaaaaa aattctactt accattgtaa 9700

cagaacatgc tcccacttct gtaacagagc ttgctattac ttttcaaatg 9750

catacatatt ccaatgcata tattccaatg cagttgtaga gtgaaactgt 9800

ttgcatgcag ccatttttat ccaacattat cttataaaat gttatgttgt 9850

ttatgattat cctaattatc ttttgttgct gtctagtatc cttatagata 9900

ttccattagc atacactatt ccaggtttca ctatcgtcga taatctagat 9950

atgaacattt ttgtagtgtg tagctctttg cttcagttga attactttcc 10000

tgggataaat tcctggggaa gaatttctag gccagaggat atggtcatct 10050

tgacaatact gattcacatt gctgcattgc tttccaagag gtttggaatc 10100

attcacaggt tctaaattgg aaaatcctgg cttttgaagt atgtggattc 10150

taagggcgat ttggatctag ctggagcctc acactgacac ttccagccag 10200

tgtgtgtgtg tgtgtgtgtg tgtgtgtgtg tgtgtgtagt tccctatgct 10250

ggacaccgtg tgtgtgtgtg tgtgtgtgtg tgtgtgtgtg tgtgtagttc 10300

cctatgctgg acaccatgtg gcctttctgg acattagggt tttcctgtga 10350

ttgcctcaga gcagttcctg ttgaattcac tctgtgtcca caaaaggagc 10400

cttactgtgg ctctttcaac acccacctac ctttgccaag ttggtttaca 10450

gaaagtaaga acattctttc cttcttcctt gatatgtggc gctaaaccta 10500

tagcatgggg caggctctgg ctttaaaaac ctgacttaaa aataatggtg 10550

ttgatcaaaa agtttgtgga tcagtttttg gaaacactgc atgtagccat 10600

ccatagaaac ttatattctg ttgggctagc ctgggcgcct gatcatttaa 10650

ctcatgtgga tgaacttcta tgtaatagcc ctggtgtatg ggatccagaa 10700

acagggccct aatgaagaaa ggcttttaaa ttatgttgga taaaaataag 10750

ttgttacaat agcccaaagt ctgcaaatat gaattgccag ttctgtcctt 10800

gtagtcatcc accatgtgcc tgcatctttt gtagactctt gtagattcag 10850

aagcccactg aattgcataa atgatggaat gattttagac ttagtgattt 10900

cagtgactaa aagtttacag atcctggccg ggcacagtgg ctcacacccg 10950

tattcccagc actttgggag gccgaggtgg gtggatcacc tgaggtcagg 11000

agtttgagac cagcctggcc aacatggtga aaccttgtct ctactaaaaa 11050

tacaaaaatt agccgggtgt ggtggcatgc acctgttgtc ccagctactt 11100

gggaggctga ggtgggagaa tggcttgaac ctgggaggcg gaggttgcag 11150

tgagcccaca tcaggccact gcactccagc ctgggtgaca gagtgagact 11200

ctgtctccac ctcccccgcc ccccgaaaaa aaaaaaagtt tacagatcca 11250

gcagatgggg catattcaat ttgtgacagc cactcccttc accttatagc 11300

tatgtcatat gtcttcttct cctttgactg cattctgcag cagtcagttg 11350

tgacttaata tggcactctg ggcccactga attaggtcag agctgctagt 11400

agtatattgt tcctagagac ctagggcaag attttcttac tacataaaat 11450

gagggagata atttcttacc tcaagatgtt ggtaagagga gtgaatgagg 11500

ttagttatat ggtaatatca gtactctgaa tgtcttttga tcaatgccta 11550

actcatcttc ttgggcacaa aaggcataca gtcagcaccc ttaggccaca 11600

tataaaattc ctccaaatgc aggttttcat ctgccttggg gcagagtcaa 11650

gagaaagaag aggaagaggc gtgaggctct gaccacaact tagggacaga 11700

atatagccca aagcgagtac cccaggccac aaggagaagg ccgctatctt 11750

gttgaatcca cagcactgga aacttggagt gtgtgttccc ctgtgtcagt 11800

tacactggaa ttttatggct gctcacattc ttcccttcag gtggacgttg 11850

ttcatcagta tcctgggcaa gaggccatca taaaccacag acagctgagt 11900

gattaggaag aggagctgaa gagggagcat tagatgtttg attgagtctt 11950

aggtgagaaa gtatatcatt aaaacaaaaa gatagatgta ggcgggctca 12000

gtcttgtgtg cctggtgtgt tggtagaaaa actaaagcac aagcctgtag 12050

ataacctgct ttattctacc tcggggctgg tgttggaatc caggatgcca 12100

gaccctaaag tccagctctc tttccaacct actgaataat ccgagagaaa 12150

tcatgttctc tctctgggcc tcagtttgcc catgtataaa atgagatgaa 12200

ggattggctg ggatgctctc cagagtctct tcctgcctgg agttctgacg 12250

tagccatgta ctcctgctca gcatcgctaa atggctttgt ggtaggacca 12300

ttgagtgctg cctccattag ggccagctat gtaatgctgg ggtggctgtc 12350

actgggccct aagagccagg attggtctta ctggagaaat ccacatccac 12400

ctaaacttaa gacccagggg tgtccaatct tttggcttcc ccaggccaca 12450

ctggaagaag aattgtcttg gaccgcatat aaaatacact aattatagcc 12500

gatgaggtta aaaaaaaaaa actcaatatt ttaagagagt tcatgaattt 12550

gtgttgagct gcattcaaag ccatcctggc cgcatgtggc ccatgggcca 12600

tcggttggac atgcttgctt tagacctccc agcaattcta gtctctaaac 12650

aggaaatcaa aagtcaagat gaatagataa gttggtcagt gtgaaaaagt 12700

aattggtggg agccactgta gatgcagggt tctaggctcc atcaacaacc 12750

acctacatca ctgaacgaaa gataatgctt gttcagcact tattacatgc 12800

caaccatggt aaaaatactt cagatgcatt gttttcatga actctcacag 12850

cagctctttt tcttgcctaa atgccccgtt agaacctcca gtacaatgtt 12900

aaatagatat gctaagagac aacatatgtg tcttgttagg gggaaaatat 12950

ccagtctttg actattaaga atggtgttag cagtgggttt ttcctaggtg 13000

ccctttatca ggttgaggaa gttcctttct attcctggtt tgttgagtat 13050

ttttatcatg aaaaggtgat gggttttgtc aaatgctttt ctgtgtctgt 13100

tgagatgatc atgttttttt gtcatttatt ctattgatat ggtatattat 13150

acattgattt ttcagatatt aatcttgcat acctgggata aatcccactt 13200

ggtcatggtg tataattctt tttatttgtt gctggattga gtttgctagt 13250

attttgttga tttgtattca taacagatag tggtctgtag tctttccctc 13300

cctccctccc tccctccctc cctcccttcc ttccttcctc tctctctctc 13350

tctctcccct cccctccctt cttttcccct cctctcccct ccccttccct 13400

ttcttctctt tcatagttgt ttaccactgt cagaaaaggt ctgttcgttt 13450

tctttcgtcg tgagatcttt gtttggtttt ggtatcaggg taatactgcc 13500

tcaaaaaatg agtagggaag tgttccttcc tcttctgtat tttgagagag 13550

tttgtggtcg gtttttatta attcttcttt aaatatctgg tagcgttcac 13600

cagtaaagcc atctgggcct gatgttttct ttgtggaaaa ctttttgatt 13650

cctaattcag tttctggtta taggtctatt cagaccttct attttttctt 13700

aagtcagttt tgatagtttg tgtcttccaa ggagtttgct tcatctaagt 13750

catctaattt gttggcatac atttcatagt gattccttat gatccttttt 13800

atttccgtta aagttggtgt agggatagtc cctctttcat tactgattat 13850

aataatttga attttctttt tttcttagtc ttgccaaaag cttgtcattt 13900

ttattgatct tttcagagga ccaactttga gttcattatt tgttctcttt 13950

gttcttattt ttctgcttca ttaacttctc taatctttat tctttcattc 14000

tgcttgcttt tggttaagtt tgctttttct ggtgtcttaa ggtagaaggt 14050

taggttactg atttgagatt taaagatcat gctctttaaa cgttttgata 14100

gatactgtca gtttgccctc tggctttttc tcattaacag tgtataggag 14150

tgcttattcc tcacactcat accagccctg ggtgttacta acctttatat 14200

atttgccagt atcatattca gacatagtat cttgttttaa tatgtttctc 14250

tgattactga tgaagttaag caaattttca cgtgtttatt ggccatctgt 14300

ctttcttttt tcatcctttc tttcaagatg ggagtctttg ccatgttgcc 14350

caggctggac tcgaactcct gggctcaaat gatcttcctg cctcagcctc 14400

ctgagtagct gggactatag gcgtgagcca ccatggctgg cttgcccatt 14450

tgtatttctt atgtgagtat tttttctttt tttttgaagt ggagtctcac 14500

tccatccccc agagtggagt gcagttgtcc gatcttggct cactgcaacc 14550

accgcctccc aggttcaagt gattctcaca ccttagcctc ccaagtatct 14600

gggactatag gtgtgtgcca ccacacctgg ctaatatttg tatttttagc 14650

agagatgggg tttcaccatg ttggccaggc tggtttcaaa ctggcctcaa 14700

gtgattcacc tgcctcggcc tcccaaagtg ctgggattac aggtgtgagc 14750

cactgtgccc agctgacttt ttttttcttt tttttaaccc tttttttttt 14800

ttaccctttt tttggcccat ttttttttac cctttttctt ttaacccatt 14850

tttctattag ttttaaaaat atgtttgcag gagcttttta tattgtggat 14900

ttttcttgtt tattacatat catttgtaaa tatggtctct ccatctgtca 14950

ctcttcttta tctctggttt ctttagctat gtagaagttg ttatgttatg 15000

ttatgttatg ttatgttatg ttatgttatg ttatgttatg ttatgttatt 15050

ttttggagag ggagtcttgc tctgtcgccc aggctggagt gcagtggtga 15100

aatctcggct cactgcaacc tctgcctcct gggttcaagc gattctcctg 15150

cctcagcttc ccgagaagct gtgattacag gcacccgcca ccacacccag 15200

ctaatttttg tgttttagta gagacggggt ttcactatgt aggtcaagct 15250

gatctcaaac tcctgatctc aaatgatcct cccaaagtgc tggggttaca 15300

ggcgtgagcc actgcactcg gccagaagtt ttgaattttt atgtgtttaa 15350

atctatgttt tcctttatga cttcaggttg ctttcatact taagcaggtc 15400

ttcaccatcc caaaatgata aaatttttct cctgagtttt cttctaagtt 15450

ggttctttag aagccaccaa cttggcttcg acagcaaaag atgaacagaa 15500

tttctgttca actctcatgc tgcaagaagc tttatgtaat actccaggga 15550

ccctttaagg tcccagagtt ttcctccaaa tctatcagtg attctagtgg 15600

ctaagagtag aaatgtgaaa atttagccat gtgtgctgat agagctgtag 15650

taatttgtaa gctctgaagt tctaaggagt caggggagaa gggaaagtaa 15700

catttattga acatctatta gctcaataag aacatgcgat aagtatgtat 15750

atgtattatt tcacttacat ctgaaaggaa ggcataatta tccccactcc 15800

ttagagaagg aaattggagc tggctacatt taaagtagtc ctgacaccag 15850

agagatattg ccaggagtac ttggctggct gagtgcccag atggcccata 15900

ggagtagtgg gccctccaca gtccaaggtc tggttctagg tggagagaga 15950

aggatgtgct cgtagtcagc accgcagctc cagaaaatct gctggggctc 16000

caaaactgat tagaggggca gctgactcag taataaaact cccaggagac 16050

ttacttacat actggaatgc aaagttgcag ctttactggg aagattagaa 16100

ctgttattga gtagcttaga aatctctggc tgaattcact gcaagggaag 16150

ccgcaggata agctaactgc tggtgagtca gcagtcagag cagggaagtg 16200

aatttaacat tagatgggtc agtctctcgt ggctgatgaa ttcatcccca 16250

caatactgta cacctgcctt agggaccttt gtctggacta ggggttgggg 16300

tccccctcct ttgtacagcc ctggaaggac acatccagct ccatccgcca 16350

tctctccctt acttatttcc ttccttcctt ccttctttcc atccagccat 16400

caagcttcct ttcatggcca ataatcatca ttggggtcta ctcatggact 16450

ctcttgcctc atgtatttgt tttattttgt cctcattccc acttctattt 16500

cccaggtata tcacaggcaa ctattctaac gtatttatag tttgtgtatc 16550

tgtttttgct cttgccaaaa tggaagccac tgctttatac atagatgtat 16600

tcttaacttt aaaaaaaatt tttttagatt aacctacaat aaaattggct 16650

ttttggcata tagtctataa attttaacac atacatattt ttgtgtatct 16700

accaccacaa tcaggataca gaacagttcc atcaccccaa aaaaatccct 16750

cttgtagtca cattctcctc ccacccttaa tcccaggcaa ccactgatct 16800

attcttcatt actattgttt tgtctttttg aggatgtcac ataaatggag 16850

tcacacagta tatatacatt tttttaaaca tatgtaaatg gcattttata 16900

gctcattttg attatatgtt tttcatccag ttctgttttt tttttttatt 16950

tttaaaaagt ttgacataac ttcagactta cagaaaagtt gttagactaa 17000

tacaaagaat tcctggatat cctttggagt ccctaaatgt taacatttta 17050

ctatatttac tttttccttc tctctctctc tctctctcgc tctgtgtgtg 17100

tgtgtgtgtg tgtgtgtgtg tgtgtatcta cctgtagata gatagatatt 17150

aatataattt tagatagatg tatctagatc tctctctctc atatatatgt 17200

gtgtgtgtat atatctatat ctatatctat atatatctcc ttttaccctt 17250

aaatattcag tgtatatttc ctaacaacaa ggtgatttaa aaatatatat 17300

ataaacatag tataattaac aatcaggaca tcaacattga aacatttctg 17350

ctatgtcatc tacaggcctt aggaagactt tgtcaggtgc cccaataata 17400

gccttgatgg tagaagaaaa ccatgtgttg tattcagttg tcatgtctct 17450

tagtgtcttg taatctgaaa taattcccaa gccctttgga tttcatgaca 17500

gtgacattgt tgaagagtac aggccagtta ttttgtagaa ggtctctcag 17550

tttaggtctg tctgatgttt cctcctgatc agattcaggt tattcacttt 17600

tgacaggaat accactgaaa tgatgctgag ttcttctcag tgtaacgaga 17650

tctagagaca cacactgtca gtttgttcct tattggcagt gtgaaccttg 17700

aggatttcat tgtagtggca tttggcatta ctccattata gttactattt 17750

taccatttta aattaaaact atctggccgg gcgtagtagc tcatgtctgt 17800

aatcccagca ctttaggagg ctgaggcggg caaattgctt gaggtcagaa 17850

gtttgaaacc atcctagcca acataacatg gtgaaacgcc atctctataa 17900

aaaatacaaa aaattagcct ggcgtggtgg cgcatttgta gttccagcta 17950

ctcaggaggc tgaggcacaa ggcttgcttg agcctgggag gcggaggttg 18000

cagtgagctg aaatcacgcc actgcactct agccagggtg acagagtgag 18050

actctgtctc aaaaaaaaaa agtaaataaa taaaaaaatt ttttaagtat 18100

cttatgggca tatacttgtc ctgttactcc tcaaactttc atccactttt 18150

ttttttttaa attttttttc ttacctttca tcgttttctt gatatccact 18200

gggttttagc atctacaaat gattcttgcc tgaatcagtt attatggtag 18250

ttgatggttt tctaattcca ttattccttc tatgtttgtt aattttggca 18300

ttcttctata aggaagagct tacccttttt ccctattaat taattcatat 18350

attaatgcag acctatgcat tcttacttca ttaaatcata atcctttact 18400

atcattatgt attctgatgt tcagactatc ccagatttag ccaataagat 18450

ccccttcagg ggaatggtct ttgggattcc tctttagagg ttcctggttc 18500

ctgttttctt ttgacatatc ctattactct ttgagcattt tttttttttt 18550

ttttactttt aggcacagca agaagttcca tggtcctctt gttctttccc 18600

caactcagcc ctagagtcag tcacttctcc aatgagctct agttcctttt 18650

agtagagaat cataattaga aaacaagaat cagtgccaag tgtgcacctt 18700

tgtttttaag gtccatccac gttgccgtgt atatgtccag catgttgatt 18750

ctaactgctg aataatacct catgattgtc atccatccca gtgtttcttt 18800

ttcccttctg taatgaggga ctcctggact gcctccagca ttaccttcac 18850

aaatattgct gtgaggaaaa tccttaaacg tttcctttat gggcaacgtg 18900

tgagcatgtt tatgttgatt caggggtgcc agacacagct ccagaatggc 18950

tgcctcagtt tacatttcca ccagcagagc atgacaggct ctgtgtctcc 19000

gtgaataatc agcattaacc agcttcctat tttttgccaa actaatagat 19050

gtgctaggat aactctttgt tttaacttgt ttttctctga ttaccaatga 19100

gctggagcat ttcttcatat gcctgatggt ctttgggatt cctcttaggt 19150

aaattgctta ttcattataa tcctttgcct gtttttcact ggagttctta 19200

tatttttctt gaagatatgc aggaattcct tatacatcct agatattaat 19250

cccttcctgg tctcagacat tgcagatatc ttctgaatct gttatttact 19300

tatttattta caattttttt tttaagagtt ggggttttgc tctgtcaccc 19350

agactggagt gcagtggtat gatcatgact cattgtggcc tcgcaatcct 19400

gggcttaagc gatcctccca cctcagcctc ctgagtagtt gggactacag 19450

gtatgcacca ccagacttgg ctaattttat tttatttttt agagatggaa 19500

gtcttaatat gttgctcagg ccaatcttga actcctggcc tcaagcaatc 19550

tttccacctc agcctcctgc atctattata tatatgttca ctttgctcat 19600

gctgtatttt gttgcaacat aaaactattt ttcccattgt tttgtgcagt 19650

ctctcaccag cactcttctt tttctgtaac tgtgttaatg ccctttgttc 19700

ttccatatgt taggtatgct ggtatagttg aactctgctg actctcctca 19750

gtaaacagtc tctttttatg acaccttatc ctctactgaa ttctctctat 19800

caagaatgac ttggccgggc atgggggctc atgcctgtaa tcccagcatt 19850

ctgggaggcc gaggtgggca gatcacccga ggtcagaagt tcaagaccag 19900

cccggccaac acggtgaaac cctgtctcta tgaaaataca aaaatcagct 19950

gggcgtggtg gcaggtgcct gtaatcccag ctacttggga ggctgaggcg 20000

ggagaatcac ttgaacctga gggggaggtt gcagtaagcc gggatggcac 20050

attgcactcc agactgggtg atggagaaac tccatctcag ggggaaaaaa 20100

aaaaaaaaaa aaagaatgac ttgtcttcct cttagagtgt gaggtctaca 20150

tacaaatatt attcttgtat tcagcaaatg tatgtcatag gcctagtgtg 20200

tgttaggaac tgtgctgtca ccaacaaagt ttagagaggt tataaaactt 20250

gactgtagct ttttagaggt ggaggagtga tttgaaacct aggctgtaat 20300

tccttcctcc tgtgattcct tcctactgtg ttgccttccc ttgaaaattg 20350

catttggggg ccaggtgtgg tggctctcgc ctgtaatccc agcactttgg 20400

gaggctgagg cgggtggatc acctgaggtc aggagttcaa gaccagcctg 20450

gccaacatgg cgaaaccccg tctttactaa aaatacaaaa attagctgga 20500

tgtggtgtgt ggtgacatgc acctatattc ccaggtactc agtaggctga 20550

ggcaagagaa tcacttgaac ccaggaggca gaggctgcag tgagctgaaa 20600

ttgcaccact gcactccagc ctgagtgaca gagtgagact ctgtctcaaa 20650

aaaaaaaaaa agaaaagaaa gaaaattgca tttagttcct gtagactgtg 20700

tgtcaaatgt ctaaatctct tctaacaaat ggcctaagga ggtgcaaagc 20750

gaagcatcct caccagcatc ctgacttggc agtgaggcat gggaccctgg 20800

agggagtagt ggtaagtgtg actctggaat tcttcctggg ctacttgtca 20850

gtgactggct ccagattgag aggagagccc agaggacaca ggtggctgcc 20900

ccagcctgga ggtgaaagtc ttaaaataaa atgccagatg cctagaccat 20950

tctaaacctt tctgagaagc tgaaatcatc ccttctggaa gcgctctagt 21000

tctaaaagga cagatataca gcaagatctt cctggggcta atatggagtt 21050

tataggcaag taggcctcag aacctttccc tggtagtgat atctgtgggc 21100

aggcacagtt tccacacttt ccagaaattc cagcggaagg agtgagaagg 21150

aggaatctgc ccttgagtga ggaccaaaga aagcagaaat tcctcttggg 21200

aatttttcct ccagagacca aacactactt gggagcttgt ttactgggct 21250

ttaaaagctt gtgaccccca gtcactcttt cttgacccca aggctttgca 21300

tttctgtggc ttccccactg gacagaagtg gaactgtcat gctgcctgtt 21350

ctggggtctc ccagaggttt ccccatgtcc tctccttgct tctactgccc 21400

cacagaattg gggatctgtg accacatatg gtatagaatt aatgcttgag 21450

aatggtttag ttcagtgatg tcaaataaga ttcactttta tgccacctcc 21500

atcagttgaa ggcccccctg gcccctaaat tggaaaagat tctgagacag 21550

aatccccgtg ggtacagcgc agggacagta aaggcacgtg tgctgtgatt 21600

tgctatccac tgtgtggatg catccaggaa tatcagaacc ctggaagatt 21650

atttaagggg aagttaggac agcttttttg ccaatccaag ggtgttcttg 21700

aggaagtctg tcttcctgta tggccttcag tttctttcct gtgtaaccat 21750

ggggccaaca cataattccc acagctctat tggcccttgt ctgccaggat 21800

tctctagggt ctgattcgag gtggatcctg gccctttgag gtggcagaat 21850

ctgatcatgg tgctgtttcc ttagatttag gccttgatac ccttggcgag 21900

agcatcctgg gctgagtgac cacctgaggt ttttctggtg attttgtgac 21950

ccatgtaaaa ctttgagctt tgggattatt ctctcaagga aatagtgaca 22000

tttggtgaag agcctgtttg gtgtggctat gtgaggctta gccaagaaaa 22050

tgcaccattt ttattaggag gttaggccat ccgttgccac aaagtgtcag 22100

atgctaggcc tagagcctgg agaaaactta ttttaaaatt gatggggtgc 22150

tggaggggtt ggggggtggt ggctgtagct catgaatcag gtgctaaacc 22200

tagaaacaaa aggcctcatg tggcagactg tttctgagca cagatgaatg 22250

gatgagcaac tggcgcaact ttgcccagtt ggtccagctt cccacttggc 22300

cacctaggct tgctgtgaag acctcgtctg gcagaaatga gagtgttttt 22350

gccccatctt gatcttaact gtaatttaag actaaaatct tagattctaa 22400

aacatcaaag gcaagatggc tcccagctct gtgagctcag cttctcacct 22450

cttagttgaa caagtgcagt gtgggtcaat acatgattgc tgctcttgct 22500

gccaggaact gtcccagcat agaaaggaat gggacacaat ccctgccgtc 22550

aagattctaa gggaggaagc aggcaggtcg actggtgcct catctctgca 22600

gggctccagc caaggtttgt gaaggatttt gcaggcatat ggagtgggga 22650

ctgattgatc ccgagagggg actggggaaa gctctgaaga ggggatgaca 22700

tttggtttga actccaaaaa atggttgctt tacctgtttc ctgaagtttt 22750

tgaggtggct tataagaaca tataccataa aaaggaccaa tataaattta 22800

aaatcagaaa aagagaaaat gggctgggca tggtggctca tgcctgtaat 22850

cccagcactt tgggaggcca aggtgggtgg atcgtgaggt caggagatcg 22900

agaccatcct gcctggccaa catggtgaaa ccccggctct actaaaaata 22950

caaaaaatta gctgggtgtg gtggcacatg cctgtagtcc cacctacttg 23000

ggaggctgag gcaggagaat cgcttgaaac ctgggaggcg gaggttgcag 23050

tgagctgaga tcgcaccact gcactccagc ctgggcgaca gagtgagact 23100

cctcctcaaa aataaataaa taaagagaaa atggaactta gaaaattaag 23150

aggaagagtg aaaaggtaga tatttagtca ggcacagtgg ctcatgcctg 23200

taatcccaac actttgggag gccaagacag gaaaatctct tgagaccagg 23250

agcttgagac ttgcctggca acatctcagg tgagacctta tctctacaaa 23300

aaatttaaaa attagctgag ctgtgtggct cgtgactgtg atcccagcta 23350

ctcaggaggc cgagaccaca gcccaggagg atcgcttggg cccagcagtt 23400

tgaggctgca gtgagctggc accactgcaa ttcagcctgg gctacagagc 23450

aagacccagt ttaaaaaaaa aaaaaaagat attcaaacca tgggtcccaa 23500

cgtagttatt atatttgacc atttgcaaaa gctgaaagca aaacatgtta 23550

cacattttca gagaggaaaa tacacagtag ttcctgagtg taagttgttt 23600

ttcttgacct cattcttaaa ttgcttcatg agggtgggag ggaagtggta 23650

gttaataagt gaacctgtaa accagcgttt ctcaaaatgt agtccaggga 23700

attgcatcaa aattgcagtt acctacagtg cttgttaaaa tgcagattcc 23750

tgggcccctg ccccaggctt atcaaatcaa tctggtgagt aggactcaag 23800

aacctgtaaa ttcacatact tctgcagatg attcttcttg cactgcacag 23850

catgaaagcc tctgcaatag acagaaagct accagcattg cgaaagcaac 23900

ttgagtgctt ggcctttgaa ggttgagtgg gactttaatg agggagagag 23950

taaggcatga gaaatggcag ttccactgag gtcagtcagt ggttcattgc 24000

tgacgaagtc acttttaagt catgttttag aagaactacc aagtgtggca 24050

ggtcaggcat gtggcaggac tgtttctgag cacagatgaa tggatgagca 24100

cctggcccca ctgtgcccag ttggtctagc ttcccacttg gccacctacg 24150

gtctgctgtg tggaccttgt ctggcagtct cctttaattt attttttatt 24200

atttttttct ttttgagatg gagtcttgct ttgttgccca ggctagagtg 24250

cagtggcatg atctcggctc actgcagcct ccacttccca ggttccagcg 24300

attctcctgc ctcagcctcc caggtagctg ggatcacagg caagtgccac 24350

cacgcccagc taatttttgt atttttaata gagacatggt tttaccatgt 24400

tggccaggct ggtctcgaac tcctgacctc aggtgatcca cccatctcag 24450

cctcccaaaa tgctggaatt acaggtgtga gccaccgcac ctggcctatt 24500

ttttttcagc aaattctttg tttttctctc tgttcccaaa tgcagggtac 24550

tgagaccaca gatgtattct gtttcctgtt gaaaaaatgt ttctcactta 24600

gctgggtgtg gtagcatgca ctgcagtccc acgggaggct gaggcgagag 24650

gattgcttga gcccaggagt tcgataatca tgccattgca ctctggtctg 24700

ggtaacagag cgagaaactg tctcttaaaa aaaagaaaaa gaaaaagagg 24750

tcctagggaa agaaacaaat agtggcttgg atggtgagtt ggtggaaaga 24800

acagtgggtg ttgggggtgt tgaacttgtg tttgtgtgtg gtgtacccaa 24850

gacatatcat gtcagcatta agaatagact attcctgttt tctggtcact 24900

gagttgtatg ttttgacatc cttattttgg aagatacttc cttactagga 24950

atgggatagg gagggggtca cctttcccat ctgtgggtca tattttaaaa 25000

tatttattgt tcaagtttaa agatataacc aaaggtataa agaaaaatac 25050

cacaaacatc tgatttaaga aacaaaccag ccgagcgcgg tggctcgtgc 25100

ctgtaatccc agcactgtgg gaggccgagg caggcagatc atgaggtcaa 25150

gagatcgaga ccatcctggc caacatggtg aaaccccgtc tctactgaaa 25200

atacaaaaat taactggtca tggtggtgtg tgcctgtagt cccagctact 25250

cgggaggctg tggcaggaga atcgcttgaa cccaggaggc ggaggttgta 25300

gtgagccaag attgtgccac tgcattctag cctggcgaca gagtgagact 25350

ccgtctcaaa aagaaaaaaa aaagaaagaa atcatttcct acaccttcga 25400

agccttcatg agttagattt tgaaacagtg caaaatgctt cacgtgagaa 25450

tcgagagtcc cttctggtgg ctctccatcc cctgctcttc tgtcaggttt 25500

tcttgtaggt ttatggaaac ctttgttact tgtgcaggtg gcagagaagc 25550

agagaggata gctgcgcgcc acccacacag ctaggattta ttggcgtact 25600

cccacgtgca tggcagccaa gtggacacaa ctctgtgatg aatcctccca 25650

agagaactga ggggccctga tggaggagct gcttctttgc aaagctttcc 25700

ttgactctct tcctgtcccc tagttgattc cccttctgtg ctagttttag 25750

cttattgttt gttacctgtc acacttagca gtactgttgg ctttgctggt 25800

ctccttgact actgggggta aagacctttt gttgttgttg ttgagacaga 25850

gtcttgctct gtcgcccagg ctggagtgca atggcgtgat ttcggctcac 25900

tgcaaccttc acctcccagg ttcaagagat tctcctgcct cagcctccta 25950

agtagctggg attacagcta caccacaccc ggttaatttt tgtattttta 26000

atagagatgg ggtttagtag agatggggtt tcaccatgtt ggccaggctg 26050

gtctcaagcc cctgacctca aggtgacctg cctgtctcag cctcccaaag 26100

tgctgggatt acagacatga gccaccatgc ccagcctcaa agacctcttc 26150

tttacttgct caccctgccg cccactcccc taccaacccc tgcatgccct 26200

ataccacctg gcacatgata catactaact gggtacatgt ttgaatatga 26250

atggatgtgg tgctgtgaat gcttagggga agtgggtgaa atgcttaaga 26300

accaaccttg agtggtctgg gaaggcttcc tgggagggtg gtgtttgagc 26350

taaggccagg cagctgttag atttgttaga ctgaagccct tgcagactta 26400

gagagcttgt gctcttccca gaatgacggg tgagccacgt acagtaaatg 26450

gtgcttctca tttctagccc aaggggcctc aaggggcacc gtgatttcac 26500

gagaatgctg caagcaaatc ttttctcaag ctggggaatt tggtggtaat 26550

gcctggctca gcttgcggtg cgcacctggc ctttggaaga ttggtacaga 26600

gagaagcggc ccatccacat gagcctgtgg aacagcactg gtgggggagc 26650

tgatttgtga agaggggctg tgcagtgtac tgtcaggtct gagacccagg 26700

aagaaattcc agtatcccag ctctcagaat cacagagttc taggcactgc 26750

ctagttccac gtgttcccaa atgtttcctg aatacttgga tttcctgtcc 26800

agagaatttt caaaacaaac ttagaggcct gacccatggc tgccaaggaa 26850

ggattttttt tttaaattaa attttaaaaa tcagtccagc atgaaaatct 26900

atgatgattt cataagagaa aggacatttt aatattcaaa gagtaagaag 26950

cacttaatct tggaagaaag ggcattccta tactttgatt acctttagtt 27000

taattaaaaa acacctacat ggtctttact tctgtgattt cattcctggg 27050

ctagtgaaac attgtcacaa taaagcatca ggccaacgct tctttcgacc 27100

cactggccaa tcagttgaca aacagtgact agatgtttca gcctattttg 27150

ctgaggctaa aggattgaac tagtgcttca gccagcatga aaaccagtca 27200

ggagtccgtg ctggtgttgg cttagattag cagggccttt gatggagggg 27250

catgtatgtg tttgggtttg ctgtgccagg caggggagca gtggaatttg 27300

tctgaattga gctcacacat tgaagttatt gagcgactta catgcaaggc 27350

catgacctgg actcccagcc gagaggccca cgtggcgggg cttgagctgg 27400

gggagccgag gacagcttac atctgctcat ctgcttacgt aaccctgcct 27450

cccagcttcc agagccaaga aaacacacaa gccagcccag cggggccgag 27500

agcctgtggt agcacacgcc atgcgccgca cagcaagggc gccttggctc 27550

ggcttgaggc ctgtcatgaa gccctcagcc ctctgcctcc tcccagagct 27600

tctccccacc accccaggca gtggctctga aacctggtcg caggtctgca 27650

tgattctgaa cagaggtagt cgttgccttc ctggagtctg agctctctgg 27700

agtttctcac tgggacagag ccaggtgtgt agcagagcat ggtccctgca 27750

gtatggcagg aggtgtgcag ggcattcagg aggcctcctg gctggcactc 27800

gacccaatta gtcattcaac gccaggtctg gggctgctgt ctgttgtctc 27850

aaaggtgtga gctgcaagat ccttagagtt gtggagaaaa aattgccaga 27900

ttggcaagaa gggcaggatt gggggtcaag gtgtctcagt gtgttggaag 27950

catgatgggg gttgtgcaag gggcacagcg agttcagaag ggagcaggag 28000

agtgagaaga ggctgttcag tgataaagct ctgcacagag ccattggagg 28050

agcaagctcc ttgaccatcc ttaaaccagg gtaattttca tttaggttct 28100

gccacacgct cagcagggaa ctcctggaag gcaggatttg tcttgtccat 28150

cctccctccc tacctcaacc cactcctcct tgggctggca cacagtaggt 28200

acccagaaag tatcaattga aacaaattga aagtggtctt gatacatatc 28250

acagggcaag tttgcagtta acagacattt cagagtaaag actctctggc 28300

ttggtgctcg atcggcttct gtgggttgtc agcatgctgt ggacagcccc 28350

ggcatgggag cgagtgggcg tgtgtgtgtg tgtatgtgag ggtgagagag 28400

cgttagtgtg tgtgttgggg ttggggagag aggaggggga atagaagatg 28450

gaccacccgg gtatcagctt ctgccctggg gagatggtgg tgtcagttgc 28500

tgagggaatc ctgagaagca ggtctggctg taggtggtga tggtggtggg 28550

gttgcatgag aatccatttg gggcaggttg aatttgaggt gcccatgaca 28600

tatggctagc catgttctgt tggctgtgag gtcaggagag agacatgaga 28650

tggaaacaga ggtttgggaa ctgtcatgtg cttaaaccaa agacctgggt 28700

atagggagag tgagaagaga agggggcaaa gatggacatc caagaaagaa 28750

gctgagaaag cctaggaatt tgaggtaaga ggagacgtag gtaaatgtga 28800

cgcttggtga tcaaggcttc tttccacctc tcctatgctg gacactcacg 28850

tctcctgtct gcttggaaat tcatgctgag ggcagggaag gtgggagcaa 28900

ggatttgtct aaagatcttg ctttggatcc ctgcactcct cctggtttac 28950

caagtgtcac tggacacgtc agggcgttct gagaccttag agagcatcca 29000

gtcctgtccc tgcagtttac aaatgaggaa accagtaccc tgagagtggc 29050

tgtactatcc actctcagga taccaaagat catctggaaa gtcactggtg 29100

gagctggacc ggggcccagg catctcttct cctgtccggg gctcttgact 29150

tcaggaccac ctttctgaaa cccatgatgg ggcaacacca ggacactttc 29200

cagcctgcag gtgtctgtcc cgcggaagcg agccaggcca catgtgaatt 29250

cctgttttct gggtgggttt cagaaggtac gagcaagtcg gcagggtgac 29300

agcccaggtg cttcttgggt tccccaaaac gcggttatgt ttagcagcat 29350

cctcagaacc aaaggtgggg tgggggctgc agatgttgtg ggggccctct 29400

gaagtgaaaa gagccctgtg acagatcttt tcttcatgtt tttcacaagt 29450

tcactgtgca gcagggcccc cccagtagcc tttgcccagg gttgggtgtt 29500

gggcagccca ggcctggctg accttgtggg gaagggtgtg aatggtggga 29550

atccccgagg gccctctttg cccgaaagcc ctaagccttg acatcagatg 29600

cccatcagat ggtccatcgg agccctacta cccagcttgc ccagtgagaa 29650

tcatctgggc tccttgttag gtagccattt aggtccttcc caaaatccac 29700

agactctcta agggaagggc ccgagatgct gtacttgtac taacttcctc 29750

aagcaattct tgtgataggt ttgggaaaaa cttgtccagg gtgaccactg 29800

actgagtcct ggtcttctct gaagagcaca gtgcctgctc actttagggc 29850

accctgggag gtgggagctg gctcagcagg cagtcttata agggactgag 29900

cttcaaggcc tctgtccctc caggagggag gtgcatgacc agagagggag 29950

gcctgaggat cttcttccct gccccagagg gtctgctgcc tgagctctgt 30000

gatagcgcag agagtaaaag gatcaagctt gattgaggcc tatctctcaa 30050

tgcgaaagtt tgctagttaa gaggagagtg ggaagggcat ttctggcaaa 30100

gagaaaagtg tggacaggca tggcttaagg gatggggagg gagacagaca 30150

gagctgaggg tgaagggcct tttgctcagc tgtgggcctt ggccttccct 30200

tgtgcaggga cacacagcct tagagccact ggaggtttta gtgggaaagt 30250

aatatggtcg gggctgtatc tcagaagaaa acaaactaat gggaacaggt 30300

cctgtgatgg tggacctggg tcagctacgg agggagggaa gatgtgagat 30350

gtgtactggg gaagggggtg gaagtggcag ctatctggtg agaggaagca 30400

ggcccacagc tttttttctc aagctgttga attcagaagg gcgagtgatt 30450

ccgggagtag ggggtgcttg gagagccacg cgttattgat aaacagggca 30500

ggctgaagcc tgctcactgg ccctgggcgg gttctcacca gcatgtttca 30550

ggttttgatc tgtgcttgtg gttggtgttc ctacctgttc tctaggttcc 30600

ttcctttgtt cttgtggctc atttgcttca caggtgaagc tggttacact 30650

agagtaacag ttcccaaagt gtgttccctg gaaaaatggt tctgtagcca 30700

aataagcttg ggaaatggtg ggttaaatat aacgaagggg gtttttcgac 30750

tgcacaactt ctcagagcct ttggtgtgtg tcgtgacttt gcagaagcag 30800

gatttaatac gcagcattcc cgttcttatt tgaccacgag acatgttttt 30850

ccattaagca tcttgctggg tctgatgttt tctggaaccc attttgaggc 30900

ggtctggtct gcagagagta tggggagcct gggttcaagc cttggctctt 30950

gactctcagc agagccttga ttccctgtgt tgcctggact gcaccacgtg 31000

taccacatac ccggtatgtg acgttttcct catccctctt cccacctgcc 31050

gttacctcac aatccacaat ctgcacctca tccatttttc ttctgaggca 31100

agcactctct tactaactta cttatctcat ctgcatccat gttcttctag 31150

gccagaaact tgggagtcat ccctccctct ttgttacttc ttcttcctct 31200

ttgttacttt atcccctctg ttactaaaca ttcttctgtg tttccagcta 31250

tttcttttat tttccctcgg tctcctttgg ggtttctttg cctccatctc 31300

tcccagacct tggttcacct tccatcgagt cccttcctgg gacatgggca 31350

ctcatgccac tcctgctacc ttccacttcg aagctaactc cctccacact 31400

gacgtcccca acatgcatgc atacacacac acacacacac acacacatac 31450

acacacacac acacacactt ccccagttag gctagaatca gagagatgat 31500

gtcagccatt tgtccaaggc cacgcagctg ggaggtcaca gagctaagtc 31550

tcaacctcag gggttttgag aaattgcctt ctcatccgtg atcactgatt 31600

tctacaacag cctgtcagga agtctgggta gaaattactt ccattttaca 31650

gtggagtcag agcggggagg gtcctgggca ggcgagtgct tcacagagtg 31700

accaaccatc taggtttgcc ccacactgaa gggggtttct ggggatggtt 31750

ggtcacccta atgctggatg tggtgcctga tgctgggcag gagggccctc 31800

tccgtggcca cgttgcctcc caggaggaga catttcctct gcagctgcag 31850

ctgcagcctg gccatctgat gcagcctgtg gagcggtggc gagtcctgtg 31900

gcctgctaac ttctccctcc ctccacctct ctagtgggcc ccatgctgat 31950

tgagtttaac atgcctgtgg acctggagct cgtggcaaag cagaacccaa 32000

atgtgaagat gggcggccgc tatgccccca gggactgcgt ctctcctcac 32050

aaggtggcca tcatcattcc attccgcaac cggcaggagc acctcaagta 32100

ctggctatat tatttgcacc cagtcctgca gcgccagcag ctggactatg 32150

gcatctatgt tatcaaccag gtgaggcctg ggaaggtgga atgagagagg 32200

gtgtgtgtgc atgcagatgt gtatcagatg tgtgtgtaat gagggcaggg 32250

gaaggggagt gatttcacag acacctggca cttacagcga ggaaccagcc 32300

ccccagccac caccagtgca gatgaggtaa acgccaaaca gtgtgcttgc 32350

ctattgctgt caactctata gccaagggaa atgctggagt gttttcgttg 32400

ttctgttttt gttttctgga agtagccttc cagcaagatt gggaaaaaag 32450

acaaccctaa ttattccaaa gtacacactg attattccct ggctttgtgt 32500

agctgtgtat tttcctttta aaaataaaac caccatttag atgtcagact 32550

tttaggtaac ttcaaagttt atccagtcag tcagagcgtg tctcctgggg 32600

cacctggaga cagtgccctt agttcaggtc acatgcctac atgccagccc 32650

ctggtgaaat atctggagaa gtctgattcg tgggccatct gagagttatg 32700

tggactgggc cgagtctgag aaaaagtttc tcactgctcg tctgatccat 32750

atgtgttggg ctttagccct gcttaggaaa gtaatgctaa ggataggtca 32800

actttcatca ccatggcatg gagaatcaga ttgatctaag aggcatcttt 32850

attgaaataa atttttcagt ttatttgagg agcattattt tcccaagagt 32900

ataactttga tatttcaaga ttacccctaa cacttaaatt catgttttta 32950

gactataacc tcctaggtgc aatgacacat ctaacttatc taagcaccca 33000

gtttcattga aattcatttg aagagtctga gtacgcccat ttctacaagg 33050

cccaatgtcc atttcatttc gagataaact ctgctttagg taggaggatt 33100

gttggcagtt tacggcttcc atcaaggtca aggaactctg tgcaccttcc 33150

ctatgacccc aggggaagca ctcgaggact gctgtggcat tgtgctgcat 33200

cacttgctgc agggagattc tgaagaagtg taaggtctca gtcctgccct 33250

gtcccgaagc ctccaaccca cttctggcaa gtgggacctt cccagggaac 33300

aatttgttaa cagacccaaa tatcctgtga ttggatggtg gctgccaaat 33350

gctttggaag ctcagaggaa ggagagagag caatggcttg gaagaaccag 33400

gatataaact aggttctaaa gtctgcaggg agatgggctt ctcagctggg 33450

gccagtgagc agggacctta aggcagaaag gagccttgca tgttcctgga 33500

aattgagatg cccactgggg taggaaagca ccagaagctc tgggaccagg 33550

tgtcagagtt aagcctgtga ggcaggagag agcagaacaa gccctgttac 33600

aaggaaactg aagcaggaga gcaggtggtg ggcaaacccc ttgaggctgt 33650

ttgaattctt cggccaagtg aggtacagac cagggcccta tgaacacctg 33700

caagcaagac agccacgcag ttgtgggtca ccttggaaga atattggaga 33750

atgcaagaga gaacaggtaa atgtcctgca aaatgcgggt cactttaacc 33800

caacacatat tcatttaaga aaagctctgt gattgagaaa catttgtctg 33850

atgccagtta gcacatacca atgacggcaa gattcaggag cctgttatta 33900

aagcagtggc agcgagcacc tggaagaggc ggccaccatc accaggagcc 33950

agcagggatg actaataagc cgtgccagct gcatctcgtt tctctcttga 34000

cagttgctat gccagtagat gagggatgta ctgtggatac aatgctgtca 34050

tatcttattc agcagggcat ctgatagcat cccacaaatc tgcctgagta 34100

gaagacagac agctgtggtc tgggtgccat ataggtaggt taaaatatat 34150

atttgggcct aggcgcagtg gctcatgcct gtaatcccag cactttggga 34200

ggccaaggca ggcggatcac ttgaagtcag gagttcaaga ccagcctggc 34250

caacatggcg aaaccccgtc tctactaaaa atacaaaaat tagctggaca 34300

tagtggtggg cggctgtaat cccagctact cgggaggctg aggcaggaga 34350

atctcttgaa cccaggaggc agaggttgca gtgagccgag atcatgccac 34400

tgcactccag cctgggcaac agagtgagac tctgtctcaa aaaaataaaa 34450

taaataaata aataaataaa atatatactt gggtaaagag gataaaagag 34500

ttagcgatga tgctgaattt ttgaactgag gtggctgttt tcaaggaaga 34550

ctggagggtg ggatgctacg tctagatatg ttgcagttta ggtgaatgtg 34600

agacttccct gttttgaagt caaatattgg accagtaaaa tctagccatc 34650

agcttaaatt cctatgatac aatttacata ctccccaggc tcaacacagt 34700

agatttctga atgtcctctg ccagctacat gctcctgccc acctcaatcc 34750

gagtagatgg aacaactaac caagccagct cagaccggtg gcacagctgt 34800

gctggctaac actgggcacc acctaagaga gtgcttctcc aaaagtgtgc 34850

ttccccaaat ggagcgaaat acgcttgagg aatgttgggt tgaaccatgt 34900

aaagcaggtc tcattcccgc agagcctttg gtaccccggt gtacactgta 34950

accccagaag tgtttcctga gcttgcctga cgagacaact tttccaagaa 35000

ccgtctcaag tgatgagtgt tttgtgagtc acactttggg gaaagcgggc 35050

ctaagttagc atctcctccc agctgcctcc ctgctttccc tggaacacta 35100

ggaactgccc gtcctccctc cctccctcct cttcccactt cacaacttag 35150

catcaggaat attttagttt tggtttttca aacatatata cctccttttt 35200

tcttatcttg tcaatatcat cttttttttt tctttgcttt tcctcatact 35250

tttttttctc ttcatccttt ccttctccaa gggttaactt tccaccttag 35300

gagaatcttt tctgcttttt ctcccacttc cccagctact ctcttatcat 35350

ctgctccaat ctcaccctaa ttgatcattt tgggaaaata tggtcagagt 35400

ccagataact aagttgagaa atgcttaaac tctgccatac ctttccagta 35450

aagaatatta cctaataaat aataaaatgg taatgggaaa cctgaaccct 35500

gaaaaaaaag aggtggaagg agaaacattt ggagcacatc ctgtctacaa 35550

attaggaact gcctgtgtta tctgttttat ggttatattc tagaagaaga 35600

aagggatttt gtagcacctg gttttgacct ttctgcactg tttgttgagc 35650

aaataaacct tatgggctgt tagccctctt tatagcctct cagcttatcc 35700

ctggcccaga caccctgctg tcattttgac ttttcattcc cacacacaca 35750

tacacatgca cacacatgta cacacacaca cataccattt aagattagac 35800

agaagtaatg ctcaaaatgg agtggcttct gagacattta gtccaagggt 35850

tcccaaacag gcttttcagt atcagatttc tttctgcccc attgaaatgc 35900

tacacaacct tccgcttaca gcaggtcaca agggtttcat tctacttgaa 35950

gtaggggcca tgtcccattt ccacttcctt ggcttcccat tcagtcactg 36000

ctaggatttg cctagacccc tgaggccaga caatgtagaa acttctgctc 36050

catgtcacag gtgaggaaac aggctcagag agggacaggc tccgaaagtc 36100

acatagacaa cagtagggct gcggctcaaa ccccagcgtc tgactccagg 36150

tttagtgcct tctcagggca tcagtgacac tcctcatggc cagggtgccc 36200

ccagtgttgc tcacagtctg gtatccaggg ctgagagtgt gctgtgtgct 36250

cagactgcct gggttcagtc ctggcactgc cactttacag tcagtgacct 36300

caggcaggtt acttaagctc tgcaggcctc agtttcctcc ttggtgggga 36350

gggttatgag gcatccttct catggtaaac cttcagtaaa taccagccgt 36400

tactaggagg gtccactcct gcctctccac tctccattca tcctgcctgt 36450

ttcctctgcc tgcttcctct gcctgcttct gtggtggtga attcttcatg 36500

gctcccaccg cctcctgctg cacccccact cagggcccgc atcaggaccc 36550

ttcctcctat tggtttgaac tccttggagt cagagggtaa tggatagtgg 36600

agtgagccag gtggcagaat ctcagaggcc atcccgggcc tataagcctc 36650

ttcaaaatag ggccacgtat caagctttac acacaggagt gaactttcac 36700

aagttgttat gactcatact ctgtctatag taagctgtta accactccca 36750

tttggcttat gcctctgtaa ttattgtact aacttatatc ttaaaataag 36800

gatattgaag gaatgagccg ggagaggctt tcctggttga gatatagaag 36850

aacaagagtt gctctttttc cttaaggtct ctcctcccac ccctgacctt 36900

agctcaccag catgggagaa tactatttga ctccttgtac tctgagacgt 36950

ggatttcaag atatagcatt ccaacttcaa cggcagcaag aaaagaagca 37000

acagaaggag aagacatcat agcaaacagg gatgcatgct gcatttccta 37050

atactcaaac ccggaaacga gacttcactc aaggtgaagg gagggcaggt 37100

caccacctgg tagcactagc cctaaattaa ggaatgcaga atgtttgtgg 37150

gattgcccat cataaaaatt acaaaatgag taaggaatgc aggcacagct 37200

ggccaggtgg gtttgtcaca accatggcag ccctttgccc cacagccagt 37250

acacagaact ggtctctcca attccgattg catatcttct ggcacctctg 37300

ttcctctccc tcagctgccc aggatttttc tggttctgac catgttactt 37350

cctcttttaa acctgttagc atttcacgac tgcctacagg caacggtcta 37400

aatggtcgga aggcccaagc ttagcatccg agaccctgac ctacctccag 37450

ccacttcctc ctcctctcca cttcactgga ctccccatct ccacccagac 37500

acctctgttc tcccctctgt gtgcctttgc ttatgctgtc ccctgtgttc 37550

ctagtgtgtc tctggctatc ttttaagctt ccctccccaa cctcattagt 37600

tctgtggagc ccctggaata gagctgactt ctccttccct gctgctccca 37650

ggctgctcag aactttctgg aaagggatga ttatctgagt tccagcctca 37700

ccccagcccc cggactctga gtccctcatg tctgcctccc ttctttctct 37750

ctgaccacac agctggtaca tagtcagtac agacgcagtc agtgagtgga 37800

gcacggggct tctctccagg attcctgccc ctttgtttat ccctagtctc 37850

aggactccct actcctggtc ttctgcctaa atctgtgcct cttggaagtg 37900

aagcctccgt tcccagtggg gccaggtcct gacccttggg aacttgcagg 37950

atccctccct tgggcctctc cccgaagctt ccagctcaat gctgaccaga 38000

gcacaggctg cctgtgacag tccttggggt gacctccctt atcaggaaaa 38050

atgcagaaaa cctattaata ccttagcctt gtgattgtta atggtcacaa 38100

aactccttta gggtcctttg gactcagcac ctttatggtc tcactttgaa 38150

ttttgaacct cccacctccc cccatccccc agagtaaggc aaatggtctt 38200

ctgattgttc ctgcagaggg aaggctccac aggtaagcac acgatggcca 38250

ggaagcagag ctggagcctg cctgaaaggc tgtggagaaa tggagggagg 38300

gctgccctga ggactctgtc tggctttgaa gttttctact gtttcctttt 38350

cttctgtgca ctgttttagg atgatggggt gatagttcca ggctggttga 38400

ggatggattt ggagacagtc ctttgtaccc tcagtgagca agagtatctg 38450

tcaccctacc tcagcagttg tctctgtcac tggtccaagc agctggttcc 38500

tacacaaggt caagatcaac tggggagaag cagactcctg ggtctatccc 38550

attagtgagg acagctgcct gggcttatgg cctcattggt ttggtttcta 38600

tcttgatcat ctctaccatc cccccatccc ggccttccat tttctacctc 38650

agctgtcagt gcacagattg atgtgtgtgg gaacggagct tgggaggagt 38700

ggggtagggc tggtcctgtc ctgtagcctc cccttccttc gggcacttgg 38750

accctttgga gcttgccggg gtggggaatg ggagtgggaa ggccagggag 38800

tgtctctgca ccatcactgt ttgagtgttg cccctttgct gtgtgcccca 38850

cctagtctat gtgtgtctct gttctctggg gactcaattt gctggtgaat 38900

tgcttccatg gacattgttc tgggaaatgc cattttttct gctcacccat 38950

gactctgtga caaggaatga cagcttatta ggaatttgtt tttgcattgg 39000

aacagtggtc atcagaatgg gccccttttc ccttgcagct ttgacatttg 39050

cctctctttt cctcacctct ctcccttgca tccacccttt tctctttttc 39100

ttcttttttg ttttccttct agcaggggcc ttttaccttt acttgttaat 39150

cctgtttgta gcaaagcaag tggaaggagg agttcctctc tgatctgctt 39200

cttattctcc acctaccttc tcttctgtac tttccgcctc ctagagagag 39250

agagagagag aggaatgccg acctaactac cgctgccact gctgctgcca 39300

ccaccgctgc caccaccacc ctggtaatgt tcacatgtcc tcaaatcaac 39350

ccagagccag ggccctgctg gtcaggggga ggctatgtaa ataatcccat 39400

gagtgtgcca tcctcaggcc ctggggtctc ctaggcaaga ccagggcctc 39450

tgtgggctct ctcggaaatg ctgaggttgc tggaagccag cccgtcatac 39500

agggtctgag agtttaactt cttttaaatt aaaccacagt tgagctcatg 39550

ctgtgtgtgt ataaactttt gtatcctgct ttttccttaa attctttatc 39600

atcagcatct tcccatgtta tttcatagtc ttcatcatca tcactttcca 39650

taccttcata gtagttgatc gtagaattcc atcataatta acttgtcttt 39700

tctctcttag aagtccctta ggtaatgtcc aattttccgt gagtgtaagt 39750

aataccataa tgaacatctt ggagtctgaa gtttattctg tgttggtttg 39800

ttccacattt aggatcattt tcccaggcta gattttcaga tgtgggatta 39850

tgggttcaga tatggtttac acatttttat agttcttaat acagatggcc 39900

aaattgcttt ctgaaagaga agcttttctt aagtattttt ctccaacttg 39950

tatcttaaac atcctgaaca tgcttagcac cactgtcttg atatatctgc 40000

ggaaagccac gtctccactt ttcagtgtgt cgggccctgg gagaggcagg 40050

catcctgcgc tggctccttg gagctgggtt taaaattgtc tcctctggct 40100

gggcgtggtg gctcacacct gtaatcccag tactttggga ggccgaggtg 40150

ggcggatcac taggtcagga gatcgagacc atcctggcta acatggtgaa 40200

accccgtctc tactaaaaat acaaaaaatt agccgggcgt ggtggcgggc 40250

acttgaaaag tcccagctac tcgggaggct gaggcaggag aatgatatga 40300

acccgggagg cggagcttgc agtgagccga gatcgcgcca ctgcactcca 40350

gcctgggcga cagagtgaga ctccatttta aaaaaacaaa caaacaaaac 40400

aaaaaaacaa acaaacaaaa actgtctctt ctgtgctcac ttcacccaga 40450

atccctgttg ggctcttcaa ggagctcagt tctctctgaa agcaacttta 40500

tagcctcagt ccagtctgtg ttcctgtgtg gcaggggtca agggtatgct 40550

cactcttgag agtggtgtct ttggttgacc aagaaccact cccatagcct 40600

ggtccctaac ccttgaaggc ccatctctct cactcactgg ggtgaagagt 40650

ttaaatctca gatccaagtt ttgttgagag ctctgagcta ccatattgct 40700

atggttaaca atagttaaca atgttaacaa tggttaacta tggttaacaa 40750

tagttaacaa tgtttaacaa ctagagccca gctgggtgtg gtggcatgtg 40800

ctaacagtcc cagcttctca agaggctgag gtgagaagat tgctggagtc 40850

caggagctca aggccagcct gggcaacatg gcgagaccct gtctcccctg 40900

caaaaaaaca acaacaacaa aagcaaaact agagcccaac tgctgtgaac 40950

tcatggctga gtagatatta ttagccctcc acaaactcag catttgtata 41000

atcccaggct gtttccagta attctctggg gatcatctcc cagcctgtcc 41050

actgttccag gatccacact taggcctata ggaatgcccc gtcagagctt 41100

ctgctgccgc tgatctgtta ctgtttcatg caacccactc ggcctagttc 41150

cttcctctta ctgtctcagt gggcacagaa aagcatacag agggtgtttc 41200

agcaaacatt gccactggct gcagacctgc ccccggatct gtcctgttga 41250

gagcttagtg ctgcgttctt gcatggtggg gaggggtgtg gctctgtgat 41300

gagccagggc atgtgtatag gagcaacagt gtctctctta tcacgtagaa 41350

gttctgactc attgcgagtc ttggctttgg gttaatggtt ccagccatgt 41400

tgctgctgtg tcttttggtg caggagaggc tgggcacagt tggtccctaa 41450

gccattatgg ataagggatg tgtctgctga tatacacaca tggacctgac 41500

atccagggaa ggcagggtga ttggacagaa cagttcttcc agaagctgtt 41550

ggaacttgga caagagtggc ccttggcttt ctgtagttgg tcatctgtcc 41600

cctgttgcaa tcaggggaag gccacacttg ccttccttaa ccacagttag 41650

gattttcttg gggattagac cagattctag cacctgtcct gaacctctcg 41700

ccccgcccct acaaaggctg cttgcaagtg tagtgcacat acacagggag 41750

caggtggggc atggaagtgg aagtggagcc cctgcctttg gcccttgggg 41800

gaggcactgt ctgcttaccc acggttgttg cctcatagga atcatacaac 41850

agcttcctaa ctggtctcct tgccttcagt tggattgggg cacaaatccc 41900

tccttgacat ataaaccatg gtttaaggct ccctgtggcc taaataaaga 41950

taaagcttaa gtatcttaac aagcacctaa cccttctccc cagcctcggt 42000

gatttggctc atcgctgcct tcatgtttca ttctggcttc actcattcgg 42050

aatttcttgt agttccttgg ctgttctctt ttccttaccg cctttacaaa 42100

tgctctcacc atgcatgctt ttctctgctc ctacagatgc cttctctccc 42150

agcaccgcct ccagagtcta tgtctggtcg attctgtctg ctgtctccag 42200

tccccatctt gtggcagtct ctgctcaatc atttggggat tttatatgtt 42250

ttctggcctt tcttttgggg gcctgtcttc tccttctaaa agcagccagt 42300

tgacctagaa ggaagggata actgtaactc ttgtctacca acataagatt 42350

aggcccaccc tttaaaagct gcgtctttga aagggacacc tgcacccagc 42400

atgctggctt ctcttcacca agcgtgactt cctacgcatt tcacaggcct 42450

ccagaggtcc ccctgactct cttctgctgt gagaaactct aatcatgtaa 42500

gccacaggct aattcccttg agccttaaat gtttttagta atttcccatt 42550

catcagagaa gcaggatttg ggaggaattt tgaagcaaac actacagaag 42600

gcagagtctc caggtaggat atctaagaga catttggaat ggtctgactg 42650

ttcaagatgg atgggaaagc ctcttcctgt aatgatagta gccaacattt 42700

gttgtcaggc agtggggccc catttttgag atggggtctc tgtcacccag 42750

gttggagtgc ggtggtgctg tcatggctca ctgcaacctc agcctccccg 42800

ggctgggtct tcttaattct gaaaaaccca gcttttaaag ggtggaccta 42850

atcttatgtt ggtagacaat gttgtctcat ttaatacaat gcacatgctc 42900

tccccataac acaaaagagg gaactgaggc ctggaggtgt gatgtacccc 42950

aagtcacata gctaataaat aaagaagcca gcattcctgg gattaaaaat 43000

gcatgtgtct gtcactgtgg tgtatttggt gcttgatcaa tgtttacttg 43050

agcaaatgga ggggcagagg taccgatgag tgtgctcagt gaggagggca 43100

ggagtgaagc tgggcgtctt cccgcctctt gtgagtggtg gggcttggtg 43150

agcttgccag ggcctgtctt tcttatcaaa gaaggtgtgt gccccagtgt 43200

tacagcattt cacccaaagc agcctagaaa atgcttgact tttctgtcat 43250

tccggggagg acactttcct cctccactgt tctgctggcc tggtgtaccc 43300

acggcccctg atagatgata gcacctgcta aagtgcacca tgcccttccg 43350

tctcactgca tcccacagat gaggccaggc tgggatgagg gagaaaggga 43400

gggatatata gttcaggtta ttttggaaaa ctgcctgacc aattttaagt 43450

ctgggccgga cactggggca tctcaccacg ttgaaagggc cgtggcaccc 43500

cgggcggtga aaggggctgg aaccaggtct gcttcttggg cttctcctcc 43550

agggtgccat tgctcatggg ccttggctgc agaggtgctc attcgtggtt 43600

ccaaaattcc aattcctggg agaggaaaaa tgcttagttc agtctcagtt 43650

aggcctctgc ttagatcaaa cagccaaggc cagtaggccc agtcctatgg 43700

tagagacatg gcctcaaaga gccctctgct gcagttgttg gggagtgtac 43750

caagagaagg gagcattgtc ctgggctggg cagccctggg ggtctagtgc 43800

atagatgtag aaaggctctg ttggtatacc tccctttgct tgttggaaag 43850

tgctcaacgg ggctgaattg tgtttgacag tgtaagtctg ggctggggtg 43900

agggttgtta caagattgtc aagatgatta aatgaaatgc catttgaaac 43950

acttatccat gccttgtgta tggtatcccc accagtgaat attcacagta 44000

tattataata attccaacaa cttcataatt ttcatatgca atttctaaac 44050

tttgaacttt tttttttttt tttttttttt tgagacagtg tctcgctctg 44100

ttgcccaggc tggagtgcag tggcgcaatc ttggctcact gcaacctcca 44150

cctcccggct tcaagtgatt ctcctgcctc agcctcctga gtagctagga 44200

atccaggcgc ccgccaccac acccagctaa tttttgtatt tttagtagag 44250

acgggctttc gccatgttgg ccaggctggt ctcaaactcc tgacctgagg 44300

tgatccaccg ccttggcctt ccaaagtgct aggattacat acgtgagcca 44350

ctgtgcccgg caattttttg tgtttttagt agagatgggg tttcaccatg 44400

ttggccaggc tggtctcgaa ctcctgacct caagtgatct gcccgcctca 44450

gcctccctaa tgctgggatt acaggtgtga gccaccacgc ccagcctaaa 44500

ctttgaattt ctttgaaccc atgacttaca cagaattagc tgaacgcaga 44550

attccaaatc aactcagcct gtgggacagc caaaaaacac agtgtgcctt 44600

tgggctcctt cactcaccac gcggggttag aaaactttgt cagaggcttt 44650

aaaaaaggag ctcttgtgtg taaaatgttt ccttgattct ctttctggtg 44700

cctctctttc tctaagtggt ttgcttcccc aagttcccca cctgagtctg 44750

ggtggctgtg gcacatctgt gcattctgta cgcacacagg cagccttttg 44800

gagtgccagt ttccaggtct tggttttatt tatttattta tttatttttt 44850

tgagatgggg gtctcactct gccgcccagg ctggagtgca gtggtgccgt 44900

catggctcac tgcaacctca acctccctgg gatcagttga gcctcctacc 44950

tcagcctcca gagtactagg gaccaccatg cctggcaaat ttttgtaatt 45000

ttttgtagag gcagagtctc accatgttgc tcaggctggt ctcgagctcc 45050

tagactcaag tgatctgccc accttggcct cccaagtgtt aggattacaa 45100

gtgtgagcca ccatgcccag cccaggtcat cttttgaggg catggagaga 45150

agactttgag catcccactt ttgagattgt gtaccagtcg caagccccta 45200

tgacacactt tttccccaaa gtagagggct ctgactatgt tgatcccaag 45250

agagatggga aagagcattg aatgaggatt ccaaagtatt gggccttagt 45300

tcgtttcctc atgttggtgt tgtgaagatt ctggttagga taacagcatg 45350

tgtgcaggag gctttgtgaa ctgctgagag tgaggcgtgg caatgtcagt 45400

gctaggtttg tccttactaa cctggggcca tgggaattga taagaccaga 45450

ttcccaactc taccccacaa tgtgatccct gtggtgaccc ctcacagggc 45500

tctttggtcg agcttcccag aagggatcac catctgccat tgtatgttga 45550

accccattca ttcattcatt cattcagcca accagcaact atttgttgag 45600

ctcttattgt gtgagaagca gtcttcaagg aactgggtga ataaaaaaaa 45650

caaaacatcc taaccttcat tgagcttaca ttcttactga aagaaaacaa 45700

ataaaacata catgtaatcc tagcactttg ggaggccaag gcaggcggat 45750

cacttgaggt caggaatttg aaaccagcct ggccaacgtg aaacccatct 45800

ctactgaaaa ttaaaaaaaa aaaaaaaaaa aagccgggca tggtggcaca 45850

tgcctgtaat cccagctact cgcgaggcta aggcaggaga atcgcttgaa 45900

tcctggaggc agaggttgca gtgagccaag atcataccat tatactccag 45950

cctcagtgat gaagcaagac tccatctcaa aaataaaaaa taaaaataaa 46000

aatatgcatt ccctttgcac cagcacactt ggtgcctggg gacctcgtgg 46050

ttggcaccct gaagcaggtg tccctcttct gtcttgcaca ccttgcttct 46100

gtcctggtgt gtatggcatg gccttctgcc ctccatggtg agcactgtga 46150

gggcagaggt tgagttgggt ttgctgtatt tctcaggtgc ctaggtttgt 46200

gcttgacagg tagatggaag gcacacaatg tggtcatcaa acctcagtca 46250

accatataag gaaggtagaa gtgaaaagtc ccataggtac ccaactaatg 46300

tcaccagttt cctggatacc tttcctggag tttatttata gtgtgtataa 46350

ataaatgatg tatgtgttta aatgcctttt tcacctttcc ttttagagct 46400

gcctcttttt aacagttcca ttccattgta tggatgtact atgatttatt 46450

gaaccagttc cctactgatt attctgtttt ttgcagtctt ttgttatgat 46500

gaacattcca cagtgacaat gttgttcata gtcattcaca cacatgcaag 46550

tccttctgca ggatatattt ctagagggga attgctgact cagaggtttt 46600

ggtactctgt gttgattgta gagtgacggc agaaaagtga ggcccaagag 46650

tttcctagtg accatgtgta gtggacaagt caccagtccc tgtgagtgtt 46700

tggcccaaag gctttaaggc atttgatatc actgtttttg tttctgcacc 46750

aggcgggaga cactatattc aatcgtgcta agctcctcaa tgttggcttt 46800

caagaagcct tgaaggacta tgactacacc tgctttgtgt ttagtgacgt 46850

ggacctcatt ccaatgaatg accataatgc gtacaggtgt ttttcacagc 46900

cacggcacat ttccgttgca atggataagt ttggattcag gtaagagata 46950

ctcagtcaga atctgtggta aacatgtctc tctcatgtgt tgactaggaa 47000

atgcagtcct ggcagctcaa gagtgcctct ttaagctctg gagcagaatg 47050

cctcctctga gaaatgggtg ctttgtatta gttgagatgg aaagaagaga 47100

ccagaaatgc ctgtagtctc tgcacatcca gacaaaaaca aattttcccc 47150

cctttttttt ttttgtttgt tttttgagac agggtctggc tctgtcaccc 47200

aggctggagt gcagtgccgt gatcttggct caccgcaacc tctgcctccc 47250

gggttcatgc catcctgtca cctcagcctc ctgagtagct gggactacaa 47300

acacttgcca ccatgcgcag ctaatttttg tatattttgt agagatgggg 47350

ttttgctgta ttgcccagtc tggtctcgaa ctcctgagct caagcaatcc 47400

atctgccttg gcctctcgaa gtgctggatt ataggcatgt ggcaccatgc 47450

ctggcctaag aacagttttt agcatttggg aggggctctc atctttaagc 47500

tccaaatgat actgtatttt cttgcttttt tctttctctt gccccacaag 47550

ttttggaaag taaattggaa tagttttccc ccactgaatt atttagcttg 47600

tatacctcag cagatgttcc ttggcctgtt ttgttttgtt tttgagacag 47650

ggtcttgctc tgtcacccag gctggagtgc agtgacacaa tcatggctca 47700

ctgcagcctt gactgcctgg gctcaatcca tcctgcagcc tcagcctcct 47750

gagtagttgg gactacaggc atgagccagc atgtccagct aattttttat 47800

ttttagtgga gatgaggtct ggctatgttg cccaagctgg gcttgaactc 47850

ttgggctcaa gtgatcctct cacctcagcc ttccaaagca ttgggattac 47900

aggtgtgaac cactgctccc gcccttggcc ctataagaag gaatgtgatt 47950

ctgttttcca gcagggcaca aacttctgct taaatacaaa gcccaaattt 48000

ttccaccaaa atgcccctag tgaagtggcc agcccagatg cccgactagc 48050

gtattatcca aagcatattg tcattggtgg aaaatggcct tatagtccat 48100

tgttttgtct taaaagtaaa tatataaata aacttgtata ttgtttccta 48150

attccgtgtt tatattaaca taaaagtgtt ttaaattacc tgtcagtggc 48200

caggtgcagt ggctcgtgcc tgtaatcgca gcactttggg aggccgaggc 48250

gggcagatca cctgaggtca ggagttcgag accagcctga ccagcatggt 48300

gaaaccctgt ctctactaaa aatacaaaaa ttagccaggt gtggtggcag 48350

gtgcctgtaa tcccagctac tcgggaagct gaggcaggag aattgcttga 48400

acccgggagg cagaggttgc agtgagttga gatcgcgcca ttgaacttca 48450

acttgggcaa cagagcaaga ctctgtctca gagaaagaaa aaaaaaaacc 48500

tatcagttga ataacaaaac cctttccttc cttgctttaa gtgaatctga 48550

agatccagga gctgtgctgc aggtaccctc tatgttgggt acccctggtt 48600

taggctgact agtacagtgt ggttggctca tgtagacagc agacccttta 48650

ttttagatac aacttttttt ctttttcttt tatttttttt gagacagagt 48700

cttgcttgtc acccagcctg gagtgcagtg gcgtgatcat ggctcactat 48750

agccttaaac tccctggctc aagtgatcct ctcacctcgg ctttcctagt 48800

agctgggacc acaggtgtgg gccagcaccc ctggctgatt taaaaaaaaa 48850

aaaatttttt tttttagaga tgtctcacta tgttacccag gctggtcttg 48900

aactcctggg ggctcaagca atcctcctgc tttgacctcc caaagtgctg 48950

ggatgacagg catgaactac tgcacctgct gagatgcaac agctttctgt 49000

cagactcatt ttattctcat catttcttcc tgtcctccct tgctgggagc 49050

atgagagctg tgatgggaat ataggaatgt atgaagtcct tctcccagat 49100

caaaaatcct aacttcttgt cttaaaggga ggaaaatttg aatgtaacct 49150

tacttttaga ctcttcagaa atccttctat acccttccgt ccccgctttc 49200

acccttcctc cctctccgtg tgtgtatctt cttctcttga aacacacagg 49250

tttataccct gacccctctt gattcatccc ttgaagcaca gtggtgaaca 49300

aggaaggggc ccgtgatgcc ctaattcttt gccacagcac catgtttgtt 49350

tcacaaggag cctggcaggt ttgggcttgg ggcagatagg ggagagaaag 49400

cagcagagac agcaaaacca aatcatgtca gcttggcatg tacttccctc 49450

tgaaatagct aagaatccat ttctgtaaaa gcactgatta tcagaaaacc 49500

ttattggcct ggccaccttt ggttcaaacc ctcacattaa taatgtggac 49550

agtagtatga ggtgtgccaa aggtggatga ctcagcacct aagtgatgac 49600

acctaattac gaataggttc attaaagcag accccctggg gacctttgct 49650

tgaggatcct tacagtcaga attcctgaat atatttgaaa ataataattg 49700

catctttatt ttcatatgtt ctgtatggtt tggctgactt ccccctcaaa 49750

gtctgagtta gagttttcct taatttatgt gatgggtttg gtctttttgg 49800

attccagaaa gagctgggtg tggtttggag ctgcactcag agtcacacaa 49850

aaccacagcc tttagagaac ccacaggaag gctttggggc acgtcctgat 49900

tcttgacatt tctcatcagt gctgactttg tatcccttag gagttcacaa 49950

ttcataacca ctgaaatatt aaaatacaaa aagttttgga aggatgagag 50000

cccagatgct ctactacttg aaaatatgtt aaaacataag ttcatcatta 50050

tacattttgc taaatcagga taaagtctga agtttcaaag aagttttatt 50100

ttagcaaatt ttcagaaaca ctgcctcaac tgttagggcc agtgttctag 50150

tcagtatgcc tttggaagca tgaaagctgg attggtcgat aggatgggtg 50200

tggaaggggg gctgtgactg ggtgggtaca gagaggctct gaaacaatct 50250

cagattccag gagttcctgg ataaggactt catgtgcggg aacagagcac 50300

aggagaagca gattcctgag ccactcagga agaactgggc ctaggcctgc 50350

tcttgtcact gactggcttt ctacataacc acagaaacag cactgtgttg 50400

tagaaagagg aagatcatac tttttgatat ctgtgtctaa tttaaggtca 50450

tctgagccct gatagaaaag caaaacagac aaaacccttg taactgctcc 50500

ctcccacccc acccaccatc aaaaaagctt tagagaggct ggacatggtg 50550

gctcttgcct gtgatcccag cactttggga ggctaaggtg ggtggatcac 50600

ctgaggtcag gagttcgaga ccagcctgac caatatggtg aaaccccatc 50650

tgtactaaaa atacaaaaat tagccaggtg tggtggcaca cgcctgtagt 50700

cccagctact tgggaggctg agacaggaga attacttgaa aacctgggag 50750

gcggaggttg cagtgagccg agatcacgcc attgtactcc agcctgggct 50800

acagagcgag actccttcaa aaaaaaaaaa aaaaaaagat ccggtttggt 50850

gtcttacaac tgtaatccca gcactttggg aggccgaggc cggtggatca 50900

cgaggttaag agatcaagac catcctgacc aacatggtga aaccctgtct 50950

ctactaaaaa ttagctgggc gtggtggcag gcgcctgtag tcccagctcc 51000

tcaggaggct gaggcagaag aatcgcttga acccgggagg cggaagttgc 51050

agtgagccta gatcgcgccc ctgcactcca gcctggcaac agagcaagac 51100

tacgtctcaa aaaaaaaata aataaaaact ctagagaagc aaaaagaata 51150

actttaaaag tgtttatgtt ctcagcaagc tttattttgg ggatgtcaga 51200

acttaactaa ccactgctcc ttctgtgtgt atgtttttcc tccagcctac 51250

cttatgttca gtattttgga ggtgtctctg ctctaagtaa acaacagttt 51300

ctaaccatca atggatttcc taataattat tggggctggg gaggagaaga 51350

tgatgacatt tttaacaggt aatggtcata acttagatat ctttctcctc 51400

tgtcaacctt cacttccagt tttttaacca atgcttggtt gttccccaag 51450

gactgaccct cagatgggat gcacccctag tcagcccaca ttcttaggtg 51500

tggcttccta caggtcctgc aggtgctaaa agggatctgt aggaaaatga 51550

gtttctgaga tttttgtatt ggcctggaaa aatgtcaaat gggaaccaag 51600

tgacggggca agtttacttt gacttgctgc atgccgtttt gtactcaagg 51650

agtaaaccaa tgtcctttgt aaaaatccct cctttcatta tggtcccctt 51700

tcactgtgaa acaagtttcc ttgagcagaa tcctaactgt cttcacagaa 51750

gctttgtgtt atatttttat tttggagtat tttcacatat acaaaagaga 51800

tactgtagta taataaacct ttgaggacct atccagcccc agcaaccatt 51850

atggcctggt cagttctgtc ccatccacat cctggggctc tttttaagct 51900

ggtaaatcat tatgatgtgg gttgtcattt acagtggtaa aaaacatcta 51950

tcagtagcat ttgaaagaac attctgctca gtcctctggc tgtagaggct 52000

tcaaccccac cagccaccga tgagcacctt ctccctccag gagccagtct 52050

gagctcatta ctgagtttaa tatcagaata caccctggtg cagcctttct 52100

aaattgcagt accagttaac agaaggtgtc tgtcagagca acacccaagt 52150

cattcaagtt accattgtgt gcaaacttaa cagagaccca cgtcttcaat 52200

ataagccttg aaggaaactc cagttttagt atgtagatgg ggtatcaagt 52250

gtgtgcacat tgaacatctg ctgcatacag agcactgtgc caggcaggcc 52300

caggacactg aaaacctgga catagggtcc agacagaagc aagcctgctt 52350

ccacagaggc actcctgggc agacactctg gactgatatg acagtgtgca 52400

gggccgacag gataccacag gtctgaatgg tcagaacagc tggggaggga 52450

gggagcatcc gcaggcatct agtcccatgc taacgcagtg gcactagaag 52500

gatgggtggt gtgtggagca actttcttga aagataaagg acctaacact 52550

ttctatgcac cacttactgt gtgccaggca aggccaggaa tgtttaagtg 52600

gtctgggatc agccagttct gcctcttaac taactttgct gtcctgctct 52650

ccaggctttc attttggtcc tcattccttt tccttggacc aacacagaat 52700

cctccaccct gttctggctg cctctagtct tgttctcagc cctccatttg 52750

tttttttctg ccttttccca catgttctga agccctccat tcgtatacta 52800

ctttccagag acttccccat ggctaaaagc attttggaaa tactgtatat 52850

taggcccctt tcagatactg gcaaccgttt gtgggatgct ctgagaaggc 52900

ctctgtgact tagcctggcc cttttcagcc catcacctgc cacgtcctac 52950

cccagaccct tgtcaccagt ccccaggagc ttacgttgct ccctgagggc 53000

actaggcttg ctctcacttc catgcctttg cctgtgccat cctggctgcc 53050

caaaatgcta tggcagatac ctgttcatcc tcaactgggc tctgcctagg 53100

cttgctccag cagaggttac aaactctatg cttcttcctc tgtgtctcca 53150

acctcatctt cctcttctca cctccatcct ggccctaaag gccctatgtt 53200

tgaagcattc acactgtata ttctgtgggg cacacggccc cagtgtctgg 53250

cacatggtag tcaacaccac aaaccgcaga accagttgta aaaggacatg 53300

gagtcggaat gtgagtttta accagggtca tgctgggctg ggttctggca 53350

tgatgctggg ttgtgggctg agtgagaaca gcaagggtga tggtggatgg 53400

agcaacagtc ttgcagccgg ggctctcagg ccaagtgtat ggcagctctg 53450

tgataatgac tttcccttta ctctttgcag attagttttt agaggcatgt 53500

ctatatctcg cccaaatgct gtggtcggga ggtgtcgcat gatccgccac 53550

tcaagagaca agaaaaatga acccaatcct cagaggtgca ttctttgttt 53600

attcatactc cttccccctt taggatgagg taggctgcag gtccgaggct 53650

ctgggcctag agggaaattg aggtggtcag gttacagtgg agagggagga 53700

ggaagtacgt gtgatgattt cttcttaaga tttttgtttt aagacaatct 53750

ccttgtgctc ttttccttgt aggtttgacc gaattgcaca cacaaaggag 53800

acaatgctct ctgatggttt gaactcactc acctaccagg tgctggatgt 53850

acagagatac ccattgtata cccaaatcac agtggacatc gggacaccga 53900

gctagcgttt tggtacacgg ataagagacc tgaaattagc cagggacctc 53950

tgctgtgtgt ctctgccaat ctgctgggct ggtccctctc atttttacca 54000

gtctgagtga caggtcccct tcgctcatca ttcagatggc tttccagatg 54050

accaggacga gtgggatatt ttgcccccaa cttggctcgg catgtgaatt 54100

cttagctctg caaggtgttt atgcctttgc gggtttcttg atgtgttcgc 54150

agtgtcaccc cagagtcaga actgtacaca tcccaaaatt tggtggccgt 54200

ggaacacatt cccggtgata gaattgctaa attgtcgtga aataggttag 54250

aatttttctt taaattatgg ttttcttatt cgtgaaaatt cggagagtgc 54300

tgctaaaatt ggattggtgt gatctttttg gtagttgtaa tttaacagaa 54350

aaacacaaaa tttcaaccat tcttaatgtt acgtcctccc cccaccccct 54400

tctttcagtg gtatgcaacc actgcaatca ctgtgcatat gtcttttctt 54450

agcaaaagga ttttaaaact tgagccctgg accttttgtc ctatgtgtgt 54500

ggattccagg gcaactctag catcagagca aaagccttgg gtttctcgca 54550

ttcagtggcc tatctccaga ttgtctgatt tctgaatgta aagttgttgt 54600

gttttttttt aaatagtagt ttgtagtatt ttaaagaaag aacagatcga 54650

gttctaatta tgatctagct tgattttgtg ttgatccaaa tttgcatagc 54700

tgtttaatgt taagtcatga caatttattt ttcttggcat gctatgtaaa 54750

cttgaatttc ctatgtattt ttattgtggt gttttaaata tggggagggg 54800

tattgagcat tttttaggga gaaaaataaa tatatgctgt agtggccaca 54850

aataggccta tgatttagct ggcaggccag gttttctcaa gagcaaaatc 54900

accctctggc cccttggcag gtaaggcctc ccggtcagca ttatcctgcc 54950

agacctcggg gaggatacct gggagacaga agcctctgca cctactgtgc 55000

agaactctcc acttccccaa ccctccccag gtgggcaggg cggagggagc 55050

ctcagcctcc ttagactgac ccctcaggcc cctaggctgg ggggttgtaa 55100

ataacagcag tcaggttgtt taccagccct ttgcacctcc ccaggcagag 55150

ggagcctctg ttctggtggg ggccacctcc ctcagaggct ctgctagcca 55200

cactccgtgg cccacccttt gttaccagtt cttcctcctt cctcttttcc 55250

cctgcctttc tcattccttc cttcgtctcc ctttttgttc ctttgcctct 55300

tgcctgtccc ctaaaacttg actgtggcac tcagggtcaa acagactatc 55350

cattccccag catgaatgtg ccttttaatt agtgatctag aaagaagttc 55400

agccgaaccc acaccccaac tccctcccaa gaacttcggt gcctaaagcc 55450

tcctgttcca cctcaggttt tcacaggtgc tcccacccca gttgaggctc 55500

ccacccacag ggctgtctgt cacaaaccca cctctgttgg gagctattga 55550

gccacctggg atgagatgac acaaggcact cctaccactg agcgcctttg 55600

ccaggtccag cctgggctca ggttccaaga ctcagctgcc taatcccagg 55650

gttgagcctt gtgctcgtgg cggaccccaa accactgccc tcctgggtac 55700

cagccctcag tgtggaggct gagctggtgc ctggccccag tcttatctgt 55750

gcctttactg ctttgcgcat ctcagatgct aacttggttc tttttccaga 55800

agcctttgta ttggttaaaa attattttcc attgcagaag cagctggact 55850

atgcaaaaag tatttctctg tcagttcccc actctatacc aaggatatta 55900

ttaaaactag aaatgactgc attgagaggg agttgtggga aataagaaga 55950

atgaaagcct ctctttctgt ccgcagatcc tgacttttcc aaagtgcctt 56000

aaaagaaatc agacaaatgc cctgagtggt aacttctgtg ttattttact 56050

cttaaaacca aactctacct tttcttgttg tttttttttt tttttttttt 56100

ttttttttgg ttaccttctc attcatgtca agtatgtggt tcattcttag 56150

aaccaaggga aatactgctc cccccatttg ctgacgtagt gctctcatgg 56200

gctcacctgg gcccaaggca cagccagggc acagttaggc ctggatgttt 56250

gcctggtccg tgagatgccg cgggtcctgt ttccttactg gggatttcag 56300

ggctgggggt tcagggagca tttccttttc ctgggagtta tgaccgcgaa 56350

gttgtcatgt gccgtgccct tttctgtttc tgtgtatcct attgctggtg 56400

actctgtgtg aactggcctt tgggaaagat cagagagggc agaggtggca 56450

caggacagta aaggagatgc tgtgctggcc ttcagcctgg acagggtctc 56500

tgctgactgc caggggcggg ggctctgcat agccaggatg acggctttca 56550

tgtcccagag acctgttgtg ctgtgtattt tgatttcctg tgtatgcaaa 56600

tgtgtgtatt taccattgtg tagggggctg tgtctgatct tggtgttcaa 56650

aacagaactg tatttttgcc tttaaaatta aataatataa cgtgaataaa 56700

tgaccctatc tttgtaac 56718

<210> 2

<211> 56718

<212> ДНК

<213> Homo sapien

<220>

<223> геномная последовательность варианта B4GALT1

<400> 2

gcgcctcggg cggcttctcg ccgctcccag gtctggctgg ctggaggagt 50

ctcagctctc agccgctcgc ccgcccccgc tccgggccct cccctagtcg 100

ccgctgtggg gcagcgcctg gcgggcggcc cgcgggcggg tcgcctcccc 150

tcctgtagcc cacacccttc ttaaagcggc ggcgggaaga tgaggcttcg 200

ggagccgctc ctgagcggca gcgccgcgat gccaggcgcg tccctacagc 250

gggcctgccg cctgctcgtg gccgtctgcg ctctgcacct tggcgtcacc 300

ctcgtttact acctggctgg ccgcgacctg agccgcctgc cccaactggt 350

cggagtctcc acaccgctgc agggcggctc gaacagtgcc gccgccatcg 400

ggcagtcctc cggggagctc cggaccggag gggcccggcc gccgcctcct 450

ctaggcgcct cctcccagcc gcgcccgggt ggcgactcca gcccagtcgt 500

ggattctggc cctggccccg ctagcaactt gacctcggtc ccagtgcccc 550

acaccaccgc actgtcgctg cccgcctgcc ctgaggagtc cccgctgctt 600

ggtaaggact cgggtcggcg ccagtcggag gattgggacc cccccggatt 650

tccccgacag ggtcccccag acattccctc aggctggctc ttctacgaca 700

gccagcctcc ctcttctgga tcagagtttt aaatcccaga cagaggcttg 750

ggactggatg ggagagaagg tttgcgaggt gggtccctgg ggagtcctgt 800

tggaggcgtg gggccgggac cgcacaggga agtcccgagg cccctctagc 850

cccagaacca gagaaggcct tggagacttc cctgctgtgg cccgaggctc 900

aggaagtttt ggagtttggg tctgcttagg gcttcgagca gccttgcact 950

gagaactctg gtagggacct cgagtaatcc actccctttt ggggactgac 1000

gtgaggctcc cggtggggaa ggagactgac ctctcggttc acgtgtcttg 1050

ccatagagcc actctcctga gtgggttttt ctcctgatcg tttgggccaa 1100

gtgacttctc tctgaacctc atatttctct tctgggataa taaatggtca 1150

ccctttcaag gggttgtttt ggaagatatt gtgaacaatg gtaaataagg 1200

gcttaattaa tgagggtaag ccctcagtaa attgtcactg tgtgttcatt 1250

tcttcctctg tgtggatcgt gaccgagagc ccttccccct agcctcctcc 1300

tggtatgggt acccaaaacc taggtgagca gggatctctc ccaggggcag 1350

agagcttgtg tactctgggt gttagagggc taaaatataa ccagtcaaca 1400

ccacgttgcc catttctggt acttccggta gcagcctgag tctcaattat 1450

cttgcccaga tgatctgaac tctgacctct agcctgtttc agcataggca 1500

gagagcttga gtaggtgagt ttgcattcct catagcagct ggctgagcct 1550

agtctggact tctctttgac ctgtaaccta caggcccaca ggcccaaggc 1600

aaccacaggt tgcttccagg gttaccacac aggtggtttc tcatttctaa 1650

tgctaggttt tagataattg ttgtaagtga ggggccctgg caggcaggat 1700

gacatcctgc caataggagt tttctgtcac tttcccacag agccctggct 1750

actacatact cttgctcaat ttcgccagta attgcgtcaa tgtgttcata 1800

tcaagtttgg gaagaacatc ttggaattgg tcagacgtga actgtggtaa 1850

taatgggggc ttgttttttt aagcagataa ttaaattcct ttgcatttga 1900

tgattattct gggaagcaga ctagtcccat aaaatgaaat ggactctgcc 1950

ttgctgctaa gtgtctgact tgagacatgc tatcgagttt ctcaaaatct 2000

cttccttgtg taaaatgtgg ttgtcgatga ttaccttaca ggggtttttt 2050

taagactaaa tgagatcgtg tacattaaat acaggcactc aggctgggca 2100

tggtggctca cgcctgtaat cctagcactt tgggaggctg aggggagtgg 2150

atcacttgag gttaggagtt tgagaccagc ctggccaata tggtgaaaca 2200

ccatcccatc tctacaaaaa tacaaaaaag ttagccaggg gtggtggcat 2250

cgcagctact caggaggccg aggcaggaga attgcttgaa cctgggaggc 2300

agaggttgca gtgagtcaag attgtgccag tacactccag cctgggcgac 2350

gaagcaagac tgtctaaaaa aaaaaaaaaa aaaaaaaata cgggcactca 2400

atacaccgta taataataat atagtaataa tatttgctta ggatctttaa 2450

aaagtttcat tttttcagac tcccacagaa atggctctgc acagcagagt 2500

gaagggggag agagactgag tctccaggcc agaaaaaggc caggtttttt 2550

gcttttgttt ttagttgttg cctggatatt gcacagaaag aaaaaataat 2600

tagcaagtta aacaaaagta ccgcaaagtt gattacattg gtatttgagt 2650

atcacatctt ctctcagaag cgtaagagac aaggtcgtga ccatacctct 2700

gcttagtttt gttttgtaat ggtgttgcta gtgatcggct tgtcaccagt 2750

tactggtgtt tctaaatgga ctataattgg ctacttgaaa ggacttcctg 2800

agaaagaaca ttttggagga cgaggagaga gtgccttctc tattttggct 2850

gctttcatgt gacatgcaag agaccatgac gtttaggctg ctgctgaggc 2900

agccccagaa atgggggccg agaggtcttt tcttcatttt aatagggtct 2950

gtaggtttgg gtggttaggt acagttctca gaatggaggt tcctggctat 3000

gaggccttga gaaagctgaa agtctccttg ggagtgtgtg ggtgggggga 3050

gtcgagccca tctgttcatg ggcaggtgtc agccaaagcc cttgcgggtg 3100

gttttgaggt tggtgggaga aagcatccgt ggggtttaga gttgtggcct 3150

tttcactact tgcagttcct ttccccgact tggctttact ttctggtgtc 3200

caggggtctg ggccagatgc tgagattcct ctcagctgac aggtgtgggt 3250

tatgggcaaa cccttccctg gaggacataa ggcaccggat tggactgctg 3300

atgggttgct gttggagttg tcagggcctt ggaatagtct tcagatagac 3350

ttgggttagt gtgacctggg gcaggctgca ggtttggagc catagtaccc 3400

cccgccccca caccgggcac cctgctctgg gctaatgtga ggcttgcagg 3450

agtgagtgat gcagtgggaa ggggggcctt tcctgaggat tctacagctt 3500

tctccaggga atcctcccag gtagtttagg cctgcaggtg ctatgctatc 3550

cttctttcct aaccctgtct caggtcctca gcggggccat gcggcatcca 3600

cttataaccc tgcagcgagg ccctcttttc tggccacctg ggtgtttgcc 3650

tgctgagatg ggaggaacag tggccttggg cttcttcccc cgtcatgttt 3700

atctctgctc agattgggca gcagctcaat gggacttgac cagctgtggc 3750

actgccagtc tgaagatgag tagggtgatg gggggaggtg ggcagtacct 3800

gaagctgaac tggtgagaga ggcaggctgg cctgggggct cagctggggc 3850

ctgggatggt tggtacagtc ccctcagggg ggtaggggag tgagtgttag 3900

actgcttaag cctcagaggc cgctcttgcc cacctatgct ttgaggagat 3950

cctcttcatt tgttcaaagg gaagactctg atctagagat gggcacttgg 4000

accagcaaac agcagctaca ggtagccagg gcacccgagg agcacttgct 4050

catgagccgg tttccctggt ttttatgggg gctgttgctg agcgtctgcc 4100

agggtttgtg tcctagcact tgctggtctt tgctgggctc tcagctctca 4150

ggtgtttctc taccagcacg tttccccctc cctcatatgc acacatgtgg 4200

acacaagcag gctgcccagg acagagtgta ctttgaggct tgggaaagga 4250

ctctctctcg cccttttggg gatgagcctt ggaacctcat caccttccgg 4300

cttggggtgg agcttcatcc tgggggttga agctttaggc tcagataact 4350

agtcttgtaa gccagttttg tcctgttgtt tttttcgtgg aaaataatgt 4400

attgacgtat acacagacat tctttgtcta acagtctgag attgagaaat 4450

accctccatg actatttggt ttgctttcat ggtgaaactt ggtcgctttc 4500

ttagacacag cctatggcaa taagagtgat ccctggctgc tgtaattcat 4550

tccagacttt gagcaaacac aaggcaccgc ctccacctgc agtggagcct 4600

ctgatgaacc aaatggaaac tccttgggga atggggagta agagccaaat 4650

gtgggattgg acttaaactg cagcttctta gaactgtagc attccacgat 4700

gggattgtct agtgctcttc ctggaggtta ctattcaata gttggctagt 4750

gcacaggttc aggggtgacc tgatatgccc tagcgtttca gaagatccct 4800

gcaaggtgtg tcttttggtc catctgaagg gtcttgtatg gtgatcttgt 4850

atggatatcc gtgacggcta aggcatctga taacttcatt ccttcagttc 4900

cagcagtgtt cctgtattat gctgggcact agagctacaa agaagaaaac 4950

aaagtgcctc ctcttcagga actcttaatt taggcagggg aggcataatt 5000

gaacagtgct gaggtcatct aggggaacca aagtgtgtat ttatcccctt 5050

ccctatcact cccctccctc cttcatttct tcctttcttc tttcagaaac 5100

tccaagttca tatcaaaatt ctccagccct ggttttattt ggttgtgtga 5150

aaattttcct ctaatttctg aagctatgca ttagttctgc tgagtaatct 5200

ttaacttgct gctttataat gattataatg agatatcact gggtattatg 5250

gtctttgggt agcagcaggg tagggatttc caggctggga ctaagctaat 5300

ttatgggttg ggaattatgg ggcagttaat agcaaggcag tccaagcttt 5350

ccacagattc caccctaggg accatccaga cttaaggaac agggccggca 5400

ggctcatccc ctttgcactc agctgggcta tgggtgtgtg tttgtgaaag 5450

aggtttattc agtagtcata cctgctgatt tccctgctat ctgtttaccc 5500

agtgcctcct gtaccttgtt tcttactctt tgttctctgc tcttactatg 5550

aagaagcaga gactggaatt ctgcttgaac ccacatctac ctggaaattc 5600

cagtttttct tgtccagtgg agcagcaatc cagttgtttt aggacaaatg 5650

gtctgccctt gaagcttaaa tcctttgagg gcctggcatg gtgacagttt 5700

tacatttggc tttggtatag actggtgtgg tccctgggca gtgaggtcac 5750

tgtaaggcca gccagccaga ccctggctcc taggggaatt aacaaggcat 5800

gggattagac tcacagggtc cctcctgtcc ctaaacttgg taggggttcc 5850

tgggagccag actgcgatta agattgtaga gacctgagac ctgagttgta 5900

ggggcctctg tgttgatctg ggccattgcc gggtgagctg aggcggtcac 5950

tagctcaagg agtgatctca ggatattgtt ctgtaagtca gagacctcca 6000

ggttggagag tggggcttgg gggtggggga cagggtttag tggggagctg 6050

gttctgggtg aatgtggcct aaagggattt gtccttagaa gacagagggg 6100

tgagtcacac actcagtgct tcaggttcca ctttgcggct tggcctcagc 6150

ccgccccttc cctgcacaaa tgaaggccag gggctatata attggctgtt 6200

gctgaattct ttggcagtga ttttaaagtc tggtctgggt gtgttatgta 6250

gctgcttctc tatccactcc ccacacccgc tgcttctcca gagcccctca 6300

caaagcccag gcagagagag agagagagag agagagaatg acttgcctca 6350

cagagatgtt ggggataggg ataggggtat gggtctttgc ttttgccttt 6400

tgagggggga taatctcttc cttcatttta aaagtaaaaa gtaatgcagg 6450

ctcattgaaa ataatttgaa aagttgaaag agatataaaa gcacacccaa 6500

attcctatca cccaaaagaa acataccggc atatttccta ctagtctttt 6550

tcatgtttaa gaatatagct gatatatttt tttttctttt tctttttgag 6600

acagggtttt tgctctgtca cccaggctgg agtgcagtga tcacggctca 6650

ctgcagcctc gacctctcgg gctaagcgat tctcccactt cagtctcccg 6700

agttgctggg accacaggtg cacaccgcca tgcctgacta atttttgtat 6750

tttttgtaga gatggggttt tgccatgttg cctaggctgg tctcgaactc 6800

cagagctcaa gtgattcacc tgccttggcc tcccaaagcg ctgggattat 6850

aggtgtcagt caccacaccc agtgttatag ctgttgtctt tatagatgaa 6900

cagatagatt gacatagatt catgtagata gcctggtgtt cagcattttt 6950

catttaagat tctgtcacag acttgaccct atacctttaa aaatcacaaa 7000

ggcagtatca tagtctgtca gctgaatatg ccataactta aaaaaatcat 7050

tcaactgttg ctgaacacac acatatacat atatagtttt tgttttttct 7100

tagtgatgta gtgatgcttg tgcagaaagc tttatgtact ttttggatgg 7150

tttctgtagg agagctttct aaaaaaggaa aaaaagtgtt gaatgttttt 7200

tgagaagggc tagattttca agccagtctt acaaaaggat agactcattg 7250

gaaattccag atttgcttag tgctggcaga tgagtatcac ttattgctga 7300

acaatgtgtc tagaattctg attaaaaaag aaactaggtc caggaagtgc 7350

ctgggggcag gggcaaaggg ccaggctgca ggataggctc ttaggatctg 7400

gctgagcaga aatctgctgt gaacagaatc ggtgggggtg atgctttctc 7450

agtaacttct ccatttgttt ctttagcagc taagtccctg tgctggactt 7500

ctgtggacta ctgtggctct ggggctgtgg ttgtgggtga acaacagcta 7550

gctaaaccag tgctgttgac atcattgaga tgtgacgcac aggaaggtgg 7600

gagcaagctt gcaaatcaga ttctgaaaca tatagcacag ctctcccacc 7650

tccaggtggt cctgagatct agggaggagc catagtgaga aactttaggt 7700

ttctaggaat tctcttaggg agaagctctc ttagggagag gcagaacctg 7750

gttctcagtt ggggctgatt caggtgggtt agatcaataa agcctcaggc 7800

cagtgtgcca ggctattccc aaggagtata ctttgaagtt actcccttta 7850

gaatgtcctc agtggagata aattctctct gaggagcagt tttgtctgcc 7900

ggggtcattt ggcacaaagc ctggagtgct agggcgaggt tgcactgagg 7950

gaaggggcag gattatgtca gcagtgtgac ggatacagtg tgaggtcagg 8000

ctccttcctg ccccaccacg ggggcctaga ggtcatgggg agggtccctg 8050

gcaggggatt caatcattgc ttggccccat gacagagtat attctaaaaa 8100

tgccttaagt ttttttcttt caaagtttct tcctgttttg cataatggcc 8150

ttttgccttt gacatcctga aaccgcagag ctgtcattgg tgttgcagga 8200

cactgccagc ttgaaaaaaa tcaacaacaa aaaaagaaac aggaaaggat 8250

gtggagttca gggtgcggcc tagggaagct ggtatttgcg ttatgggatt 8300

gtggggatgt ggtattaagg tgttgggtag cgcctgacat ttagaggagt 8350

actctgggca gagtccctgc ctgcccaaga ataggtagaa ttgagtcttc 8400

acaccaaagt caggagagac cccctccccc caggaagaga atgaacaggg 8450

actcatttcc tcattcagca aacttttatt ggtaactaca ctatatgaag 8500

tgtgagagat agacatgaac aagagaggcc cccactcttg ggcagtccct 8550

tagtagtagt agatagactc tggcaatatg gtgtggtcag agagaggaag 8600

cctgggtgct ttgagggtac tgaggaggtg cagggagcca aatgggtggt 8650

ctgggccagg gccagagtca gaatgaagga cctctcttcc agacgttgat 8700

tttagcatct ctgtctctca gtatgtttga acagtctccc ttattggaag 8750

ggcaggagtc tactgctaaa agtaacctgc gatttcctct acttgctgtc 8800

atgtggaaag aatactaaag ctgaaattcc aaaagttgca cacctttacc 8850

agcagggcag gagaggaaag gaaatggagg cagagtgagc tgaagatgat 8900

aaaagaaaga gaaggtggtg cagtttggac tgttatggac agaggaagtc 8950

tgagggtagc tggactgagg gatcaaaggg aggcagttga aagggaagag 9000

agctgcagag agggatttct tggtctgcag agggtaggag caagccttga 9050

aggctgctgg agtgaggatt ccgagccctg gtctttattc tttttctaat 9100

tcattacatc attttaggca agtcctaact cctttggtct ctgttgtctt 9150

tctgaaattt gagtgggctg ggcctgctgg tctttagcct ctgtctttct 9200

ctacctccta gattccagtt tggcgagtgg gggggaaaac ctggttgtat 9250

atgcaacgtg aaaggcctct ggaattcctt ttgaagctca ctacccatga 9300

ggcttctgct aaggatttca tcatgtctgt ctaagcagac ataaaaattt 9350

tagcaggtgg atgacccgta gaaatggcac aaggaatgtt tctttctgtc 9400

acactgtggt atttgattta agaaagttgt tatcctctct gtgcctcagt 9450

gttctcactt gtaaaatggc aataacagta tccacctcat agatgttatg 9500

aaatacaggt agtagccacg aaagggctta aaacagtgcc taacacagaa 9550

taagttgtga atatatgtta tttattattg gtagtataat gcttatttgt 9600

gaagattttg gcttttgctt tataggacct tttttttttt tagttgaaaa 9650

tacaatgtta ccatgttaaa tgttaaaaaa aattctactt accattgtaa 9700

cagaacatgc tcccacttct gtaacagagc ttgctattac ttttcaaatg 9750

catacatatt ccaatgcata tattccaatg cagttgtaga gtgaaactgt 9800

ttgcatgcag ccatttttat ccaacattat cttataaaat gttatgttgt 9850

ttatgattat cctaattatc ttttgttgct gtctagtatc cttatagata 9900

ttccattagc atacactatt ccaggtttca ctatcgtcga taatctagat 9950

atgaacattt ttgtagtgtg tagctctttg cttcagttga attactttcc 10000

tgggataaat tcctggggaa gaatttctag gccagaggat atggtcatct 10050

tgacaatact gattcacatt gctgcattgc tttccaagag gtttggaatc 10100

attcacaggt tctaaattgg aaaatcctgg cttttgaagt atgtggattc 10150

taagggcgat ttggatctag ctggagcctc acactgacac ttccagccag 10200

tgtgtgtgtg tgtgtgtgtg tgtgtgtgtg tgtgtgtagt tccctatgct 10250

ggacaccgtg tgtgtgtgtg tgtgtgtgtg tgtgtgtgtg tgtgtagttc 10300

cctatgctgg acaccatgtg gcctttctgg acattagggt tttcctgtga 10350

ttgcctcaga gcagttcctg ttgaattcac tctgtgtcca caaaaggagc 10400

cttactgtgg ctctttcaac acccacctac ctttgccaag ttggtttaca 10450

gaaagtaaga acattctttc cttcttcctt gatatgtggc gctaaaccta 10500

tagcatgggg caggctctgg ctttaaaaac ctgacttaaa aataatggtg 10550

ttgatcaaaa agtttgtgga tcagtttttg gaaacactgc atgtagccat 10600

ccatagaaac ttatattctg ttgggctagc ctgggcgcct gatcatttaa 10650

ctcatgtgga tgaacttcta tgtaatagcc ctggtgtatg ggatccagaa 10700

acagggccct aatgaagaaa ggcttttaaa ttatgttgga taaaaataag 10750

ttgttacaat agcccaaagt ctgcaaatat gaattgccag ttctgtcctt 10800

gtagtcatcc accatgtgcc tgcatctttt gtagactctt gtagattcag 10850

aagcccactg aattgcataa atgatggaat gattttagac ttagtgattt 10900

cagtgactaa aagtttacag atcctggccg ggcacagtgg ctcacacccg 10950

tattcccagc actttgggag gccgaggtgg gtggatcacc tgaggtcagg 11000

agtttgagac cagcctggcc aacatggtga aaccttgtct ctactaaaaa 11050

tacaaaaatt agccgggtgt ggtggcatgc acctgttgtc ccagctactt 11100

gggaggctga ggtgggagaa tggcttgaac ctgggaggcg gaggttgcag 11150

tgagcccaca tcaggccact gcactccagc ctgggtgaca gagtgagact 11200

ctgtctccac ctcccccgcc ccccgaaaaa aaaaaaagtt tacagatcca 11250

gcagatgggg catattcaat ttgtgacagc cactcccttc accttatagc 11300

tatgtcatat gtcttcttct cctttgactg cattctgcag cagtcagttg 11350

tgacttaata tggcactctg ggcccactga attaggtcag agctgctagt 11400

agtatattgt tcctagagac ctagggcaag attttcttac tacataaaat 11450

gagggagata atttcttacc tcaagatgtt ggtaagagga gtgaatgagg 11500

ttagttatat ggtaatatca gtactctgaa tgtcttttga tcaatgccta 11550

actcatcttc ttgggcacaa aaggcataca gtcagcaccc ttaggccaca 11600

tataaaattc ctccaaatgc aggttttcat ctgccttggg gcagagtcaa 11650

gagaaagaag aggaagaggc gtgaggctct gaccacaact tagggacaga 11700

atatagccca aagcgagtac cccaggccac aaggagaagg ccgctatctt 11750

gttgaatcca cagcactgga aacttggagt gtgtgttccc ctgtgtcagt 11800

tacactggaa ttttatggct gctcacattc ttcccttcag gtggacgttg 11850

ttcatcagta tcctgggcaa gaggccatca taaaccacag acagctgagt 11900

gattaggaag aggagctgaa gagggagcat tagatgtttg attgagtctt 11950

aggtgagaaa gtatatcatt aaaacaaaaa gatagatgta ggcgggctca 12000

gtcttgtgtg cctggtgtgt tggtagaaaa actaaagcac aagcctgtag 12050

ataacctgct ttattctacc tcggggctgg tgttggaatc caggatgcca 12100

gaccctaaag tccagctctc tttccaacct actgaataat ccgagagaaa 12150

tcatgttctc tctctgggcc tcagtttgcc catgtataaa atgagatgaa 12200

ggattggctg ggatgctctc cagagtctct tcctgcctgg agttctgacg 12250

tagccatgta ctcctgctca gcatcgctaa atggctttgt ggtaggacca 12300

ttgagtgctg cctccattag ggccagctat gtaatgctgg ggtggctgtc 12350

actgggccct aagagccagg attggtctta ctggagaaat ccacatccac 12400

ctaaacttaa gacccagggg tgtccaatct tttggcttcc ccaggccaca 12450

ctggaagaag aattgtcttg gaccgcatat aaaatacact aattatagcc 12500

gatgaggtta aaaaaaaaaa actcaatatt ttaagagagt tcatgaattt 12550

gtgttgagct gcattcaaag ccatcctggc cgcatgtggc ccatgggcca 12600

tcggttggac atgcttgctt tagacctccc agcaattcta gtctctaaac 12650

aggaaatcaa aagtcaagat gaatagataa gttggtcagt gtgaaaaagt 12700

aattggtggg agccactgta gatgcagggt tctaggctcc atcaacaacc 12750

acctacatca ctgaacgaaa gataatgctt gttcagcact tattacatgc 12800

caaccatggt aaaaatactt cagatgcatt gttttcatga actctcacag 12850

cagctctttt tcttgcctaa atgccccgtt agaacctcca gtacaatgtt 12900

aaatagatat gctaagagac aacatatgtg tcttgttagg gggaaaatat 12950

ccagtctttg actattaaga atggtgttag cagtgggttt ttcctaggtg 13000

ccctttatca ggttgaggaa gttcctttct attcctggtt tgttgagtat 13050

ttttatcatg aaaaggtgat gggttttgtc aaatgctttt ctgtgtctgt 13100

tgagatgatc atgttttttt gtcatttatt ctattgatat ggtatattat 13150

acattgattt ttcagatatt aatcttgcat acctgggata aatcccactt 13200

ggtcatggtg tataattctt tttatttgtt gctggattga gtttgctagt 13250

attttgttga tttgtattca taacagatag tggtctgtag tctttccctc 13300

cctccctccc tccctccctc cctcccttcc ttccttcctc tctctctctc 13350

tctctcccct cccctccctt cttttcccct cctctcccct ccccttccct 13400

ttcttctctt tcatagttgt ttaccactgt cagaaaaggt ctgttcgttt 13450

tctttcgtcg tgagatcttt gtttggtttt ggtatcaggg taatactgcc 13500

tcaaaaaatg agtagggaag tgttccttcc tcttctgtat tttgagagag 13550

tttgtggtcg gtttttatta attcttcttt aaatatctgg tagcgttcac 13600

cagtaaagcc atctgggcct gatgttttct ttgtggaaaa ctttttgatt 13650

cctaattcag tttctggtta taggtctatt cagaccttct attttttctt 13700

aagtcagttt tgatagtttg tgtcttccaa ggagtttgct tcatctaagt 13750

catctaattt gttggcatac atttcatagt gattccttat gatccttttt 13800

atttccgtta aagttggtgt agggatagtc cctctttcat tactgattat 13850

aataatttga attttctttt tttcttagtc ttgccaaaag cttgtcattt 13900

ttattgatct tttcagagga ccaactttga gttcattatt tgttctcttt 13950

gttcttattt ttctgcttca ttaacttctc taatctttat tctttcattc 14000

tgcttgcttt tggttaagtt tgctttttct ggtgtcttaa ggtagaaggt 14050

taggttactg atttgagatt taaagatcat gctctttaaa cgttttgata 14100

gatactgtca gtttgccctc tggctttttc tcattaacag tgtataggag 14150

tgcttattcc tcacactcat accagccctg ggtgttacta acctttatat 14200

atttgccagt atcatattca gacatagtat cttgttttaa tatgtttctc 14250

tgattactga tgaagttaag caaattttca cgtgtttatt ggccatctgt 14300

ctttcttttt tcatcctttc tttcaagatg ggagtctttg ccatgttgcc 14350

caggctggac tcgaactcct gggctcaaat gatcttcctg cctcagcctc 14400

ctgagtagct gggactatag gcgtgagcca ccatggctgg cttgcccatt 14450

tgtatttctt atgtgagtat tttttctttt tttttgaagt ggagtctcac 14500

tccatccccc agagtggagt gcagttgtcc gatcttggct cactgcaacc 14550

accgcctccc aggttcaagt gattctcaca ccttagcctc ccaagtatct 14600

gggactatag gtgtgtgcca ccacacctgg ctaatatttg tatttttagc 14650

agagatgggg tttcaccatg ttggccaggc tggtttcaaa ctggcctcaa 14700

gtgattcacc tgcctcggcc tcccaaagtg ctgggattac aggtgtgagc 14750

cactgtgccc agctgacttt ttttttcttt tttttaaccc tttttttttt 14800

ttaccctttt tttggcccat ttttttttac cctttttctt ttaacccatt 14850

tttctattag ttttaaaaat atgtttgcag gagcttttta tattgtggat 14900

ttttcttgtt tattacatat catttgtaaa tatggtctct ccatctgtca 14950

ctcttcttta tctctggttt ctttagctat gtagaagttg ttatgttatg 15000

ttatgttatg ttatgttatg ttatgttatg ttatgttatg ttatgttatt 15050

ttttggagag ggagtcttgc tctgtcgccc aggctggagt gcagtggtga 15100

aatctcggct cactgcaacc tctgcctcct gggttcaagc gattctcctg 15150

cctcagcttc ccgagaagct gtgattacag gcacccgcca ccacacccag 15200

ctaatttttg tgttttagta gagacggggt ttcactatgt aggtcaagct 15250

gatctcaaac tcctgatctc aaatgatcct cccaaagtgc tggggttaca 15300

ggcgtgagcc actgcactcg gccagaagtt ttgaattttt atgtgtttaa 15350

atctatgttt tcctttatga cttcaggttg ctttcatact taagcaggtc 15400

ttcaccatcc caaaatgata aaatttttct cctgagtttt cttctaagtt 15450

ggttctttag aagccaccaa cttggcttcg acagcaaaag atgaacagaa 15500

tttctgttca actctcatgc tgcaagaagc tttatgtaat actccaggga 15550

ccctttaagg tcccagagtt ttcctccaaa tctatcagtg attctagtgg 15600

ctaagagtag aaatgtgaaa atttagccat gtgtgctgat agagctgtag 15650

taatttgtaa gctctgaagt tctaaggagt caggggagaa gggaaagtaa 15700

catttattga acatctatta gctcaataag aacatgcgat aagtatgtat 15750

atgtattatt tcacttacat ctgaaaggaa ggcataatta tccccactcc 15800

ttagagaagg aaattggagc tggctacatt taaagtagtc ctgacaccag 15850

agagatattg ccaggagtac ttggctggct gagtgcccag atggcccata 15900

ggagtagtgg gccctccaca gtccaaggtc tggttctagg tggagagaga 15950

aggatgtgct cgtagtcagc accgcagctc cagaaaatct gctggggctc 16000

caaaactgat tagaggggca gctgactcag taataaaact cccaggagac 16050

ttacttacat actggaatgc aaagttgcag ctttactggg aagattagaa 16100

ctgttattga gtagcttaga aatctctggc tgaattcact gcaagggaag 16150

ccgcaggata agctaactgc tggtgagtca gcagtcagag cagggaagtg 16200

aatttaacat tagatgggtc agtctctcgt ggctgatgaa ttcatcccca 16250

caatactgta cacctgcctt agggaccttt gtctggacta ggggttgggg 16300

tccccctcct ttgtacagcc ctggaaggac acatccagct ccatccgcca 16350

tctctccctt acttatttcc ttccttcctt ccttctttcc atccagccat 16400

caagcttcct ttcatggcca ataatcatca ttggggtcta ctcatggact 16450

ctcttgcctc atgtatttgt tttattttgt cctcattccc acttctattt 16500

cccaggtata tcacaggcaa ctattctaac gtatttatag tttgtgtatc 16550

tgtttttgct cttgccaaaa tggaagccac tgctttatac atagatgtat 16600

tcttaacttt aaaaaaaatt tttttagatt aacctacaat aaaattggct 16650

ttttggcata tagtctataa attttaacac atacatattt ttgtgtatct 16700

accaccacaa tcaggataca gaacagttcc atcaccccaa aaaaatccct 16750

cttgtagtca cattctcctc ccacccttaa tcccaggcaa ccactgatct 16800

attcttcatt actattgttt tgtctttttg aggatgtcac ataaatggag 16850

tcacacagta tatatacatt tttttaaaca tatgtaaatg gcattttata 16900

gctcattttg attatatgtt tttcatccag ttctgttttt tttttttatt 16950

tttaaaaagt ttgacataac ttcagactta cagaaaagtt gttagactaa 17000

tacaaagaat tcctggatat cctttggagt ccctaaatgt taacatttta 17050

ctatatttac tttttccttc tctctctctc tctctctcgc tctgtgtgtg 17100

tgtgtgtgtg tgtgtgtgtg tgtgtatcta cctgtagata gatagatatt 17150

aatataattt tagatagatg tatctagatc tctctctctc atatatatgt 17200

gtgtgtgtat atatctatat ctatatctat atatatctcc ttttaccctt 17250

aaatattcag tgtatatttc ctaacaacaa ggtgatttaa aaatatatat 17300

ataaacatag tataattaac aatcaggaca tcaacattga aacatttctg 17350

ctatgtcatc tacaggcctt aggaagactt tgtcaggtgc cccaataata 17400

gccttgatgg tagaagaaaa ccatgtgttg tattcagttg tcatgtctct 17450

tagtgtcttg taatctgaaa taattcccaa gccctttgga tttcatgaca 17500

gtgacattgt tgaagagtac aggccagtta ttttgtagaa ggtctctcag 17550

tttaggtctg tctgatgttt cctcctgatc agattcaggt tattcacttt 17600

tgacaggaat accactgaaa tgatgctgag ttcttctcag tgtaacgaga 17650

tctagagaca cacactgtca gtttgttcct tattggcagt gtgaaccttg 17700

aggatttcat tgtagtggca tttggcatta ctccattata gttactattt 17750

taccatttta aattaaaact atctggccgg gcgtagtagc tcatgtctgt 17800

aatcccagca ctttaggagg ctgaggcggg caaattgctt gaggtcagaa 17850

gtttgaaacc atcctagcca acataacatg gtgaaacgcc atctctataa 17900

aaaatacaaa aaattagcct ggcgtggtgg cgcatttgta gttccagcta 17950

ctcaggaggc tgaggcacaa ggcttgcttg agcctgggag gcggaggttg 18000

cagtgagctg aaatcacgcc actgcactct agccagggtg acagagtgag 18050

actctgtctc aaaaaaaaaa agtaaataaa taaaaaaatt ttttaagtat 18100

cttatgggca tatacttgtc ctgttactcc tcaaactttc atccactttt 18150

ttttttttaa attttttttc ttacctttca tcgttttctt gatatccact 18200

gggttttagc atctacaaat gattcttgcc tgaatcagtt attatggtag 18250

ttgatggttt tctaattcca ttattccttc tatgtttgtt aattttggca 18300

ttcttctata aggaagagct tacccttttt ccctattaat taattcatat 18350

attaatgcag acctatgcat tcttacttca ttaaatcata atcctttact 18400

atcattatgt attctgatgt tcagactatc ccagatttag ccaataagat 18450

ccccttcagg ggaatggtct ttgggattcc tctttagagg ttcctggttc 18500

ctgttttctt ttgacatatc ctattactct ttgagcattt tttttttttt 18550

ttttactttt aggcacagca agaagttcca tggtcctctt gttctttccc 18600

caactcagcc ctagagtcag tcacttctcc aatgagctct agttcctttt 18650

agtagagaat cataattaga aaacaagaat cagtgccaag tgtgcacctt 18700

tgtttttaag gtccatccac gttgccgtgt atatgtccag catgttgatt 18750

ctaactgctg aataatacct catgattgtc atccatccca gtgtttcttt 18800

ttcccttctg taatgaggga ctcctggact gcctccagca ttaccttcac 18850

aaatattgct gtgaggaaaa tccttaaacg tttcctttat gggcaacgtg 18900

tgagcatgtt tatgttgatt caggggtgcc agacacagct ccagaatggc 18950

tgcctcagtt tacatttcca ccagcagagc atgacaggct ctgtgtctcc 19000

gtgaataatc agcattaacc agcttcctat tttttgccaa actaatagat 19050

gtgctaggat aactctttgt tttaacttgt ttttctctga ttaccaatga 19100

gctggagcat ttcttcatat gcctgatggt ctttgggatt cctcttaggt 19150

aaattgctta ttcattataa tcctttgcct gtttttcact ggagttctta 19200

tatttttctt gaagatatgc aggaattcct tatacatcct agatattaat 19250

cccttcctgg tctcagacat tgcagatatc ttctgaatct gttatttact 19300

tatttattta caattttttt tttaagagtt ggggttttgc tctgtcaccc 19350

agactggagt gcagtggtat gatcatgact cattgtggcc tcgcaatcct 19400

gggcttaagc gatcctccca cctcagcctc ctgagtagtt gggactacag 19450

gtatgcacca ccagacttgg ctaattttat tttatttttt agagatggaa 19500

gtcttaatat gttgctcagg ccaatcttga actcctggcc tcaagcaatc 19550

tttccacctc agcctcctgc atctattata tatatgttca ctttgctcat 19600

gctgtatttt gttgcaacat aaaactattt ttcccattgt tttgtgcagt 19650

ctctcaccag cactcttctt tttctgtaac tgtgttaatg ccctttgttc 19700

ttccatatgt taggtatgct ggtatagttg aactctgctg actctcctca 19750

gtaaacagtc tctttttatg acaccttatc ctctactgaa ttctctctat 19800

caagaatgac ttggccgggc atgggggctc atgcctgtaa tcccagcatt 19850

ctgggaggcc gaggtgggca gatcacccga ggtcagaagt tcaagaccag 19900

cccggccaac acggtgaaac cctgtctcta tgaaaataca aaaatcagct 19950

gggcgtggtg gcaggtgcct gtaatcccag ctacttggga ggctgaggcg 20000

ggagaatcac ttgaacctga gggggaggtt gcagtaagcc gggatggcac 20050

attgcactcc agactgggtg atggagaaac tccatctcag ggggaaaaaa 20100

aaaaaaaaaa aaagaatgac ttgtcttcct cttagagtgt gaggtctaca 20150

tacaaatatt attcttgtat tcagcaaatg tatgtcatag gcctagtgtg 20200

tgttaggaac tgtgctgtca ccaacaaagt ttagagaggt tataaaactt 20250

gactgtagct ttttagaggt ggaggagtga tttgaaacct aggctgtaat 20300

tccttcctcc tgtgattcct tcctactgtg ttgccttccc ttgaaaattg 20350

catttggggg ccaggtgtgg tggctctcgc ctgtaatccc agcactttgg 20400

gaggctgagg cgggtggatc acctgaggtc aggagttcaa gaccagcctg 20450

gccaacatgg cgaaaccccg tctttactaa aaatacaaaa attagctgga 20500

tgtggtgtgt ggtgacatgc acctatattc ccaggtactc agtaggctga 20550

ggcaagagaa tcacttgaac ccaggaggca gaggctgcag tgagctgaaa 20600

ttgcaccact gcactccagc ctgagtgaca gagtgagact ctgtctcaaa 20650

aaaaaaaaaa agaaaagaaa gaaaattgca tttagttcct gtagactgtg 20700

tgtcaaatgt ctaaatctct tctaacaaat ggcctaagga ggtgcaaagc 20750

gaagcatcct caccagcatc ctgacttggc agtgaggcat gggaccctgg 20800

agggagtagt ggtaagtgtg actctggaat tcttcctggg ctacttgtca 20850

gtgactggct ccagattgag aggagagccc agaggacaca ggtggctgcc 20900

ccagcctgga ggtgaaagtc ttaaaataaa atgccagatg cctagaccat 20950

tctaaacctt tctgagaagc tgaaatcatc ccttctggaa gcgctctagt 21000

tctaaaagga cagatataca gcaagatctt cctggggcta atatggagtt 21050

tataggcaag taggcctcag aacctttccc tggtagtgat atctgtgggc 21100

aggcacagtt tccacacttt ccagaaattc cagcggaagg agtgagaagg 21150

aggaatctgc ccttgagtga ggaccaaaga aagcagaaat tcctcttggg 21200

aatttttcct ccagagacca aacactactt gggagcttgt ttactgggct 21250

ttaaaagctt gtgaccccca gtcactcttt cttgacccca aggctttgca 21300

tttctgtggc ttccccactg gacagaagtg gaactgtcat gctgcctgtt 21350

ctggggtctc ccagaggttt ccccatgtcc tctccttgct tctactgccc 21400

cacagaattg gggatctgtg accacatatg gtatagaatt aatgcttgag 21450

aatggtttag ttcagtgatg tcaaataaga ttcactttta tgccacctcc 21500

atcagttgaa ggcccccctg gcccctaaat tggaaaagat tctgagacag 21550

aatccccgtg ggtacagcgc agggacagta aaggcacgtg tgctgtgatt 21600

tgctatccac tgtgtggatg catccaggaa tatcagaacc ctggaagatt 21650

atttaagggg aagttaggac agcttttttg ccaatccaag ggtgttcttg 21700

aggaagtctg tcttcctgta tggccttcag tttctttcct gtgtaaccat 21750

ggggccaaca cataattccc acagctctat tggcccttgt ctgccaggat 21800

tctctagggt ctgattcgag gtggatcctg gccctttgag gtggcagaat 21850

ctgatcatgg tgctgtttcc ttagatttag gccttgatac ccttggcgag 21900

agcatcctgg gctgagtgac cacctgaggt ttttctggtg attttgtgac 21950

ccatgtaaaa ctttgagctt tgggattatt ctctcaagga aatagtgaca 22000

tttggtgaag agcctgtttg gtgtggctat gtgaggctta gccaagaaaa 22050

tgcaccattt ttattaggag gttaggccat ccgttgccac aaagtgtcag 22100

atgctaggcc tagagcctgg agaaaactta ttttaaaatt gatggggtgc 22150

tggaggggtt ggggggtggt ggctgtagct catgaatcag gtgctaaacc 22200

tagaaacaaa aggcctcatg tggcagactg tttctgagca cagatgaatg 22250

gatgagcaac tggcgcaact ttgcccagtt ggtccagctt cccacttggc 22300

cacctaggct tgctgtgaag acctcgtctg gcagaaatga gagtgttttt 22350

gccccatctt gatcttaact gtaatttaag actaaaatct tagattctaa 22400

aacatcaaag gcaagatggc tcccagctct gtgagctcag cttctcacct 22450

cttagttgaa caagtgcagt gtgggtcaat acatgattgc tgctcttgct 22500

gccaggaact gtcccagcat agaaaggaat gggacacaat ccctgccgtc 22550

aagattctaa gggaggaagc aggcaggtcg actggtgcct catctctgca 22600

gggctccagc caaggtttgt gaaggatttt gcaggcatat ggagtgggga 22650

ctgattgatc ccgagagggg actggggaaa gctctgaaga ggggatgaca 22700

tttggtttga actccaaaaa atggttgctt tacctgtttc ctgaagtttt 22750

tgaggtggct tataagaaca tataccataa aaaggaccaa tataaattta 22800

aaatcagaaa aagagaaaat gggctgggca tggtggctca tgcctgtaat 22850

cccagcactt tgggaggcca aggtgggtgg atcgtgaggt caggagatcg 22900

agaccatcct gcctggccaa catggtgaaa ccccggctct actaaaaata 22950

caaaaaatta gctgggtgtg gtggcacatg cctgtagtcc cacctacttg 23000

ggaggctgag gcaggagaat cgcttgaaac ctgggaggcg gaggttgcag 23050

tgagctgaga tcgcaccact gcactccagc ctgggcgaca gagtgagact 23100

cctcctcaaa aataaataaa taaagagaaa atggaactta gaaaattaag 23150

aggaagagtg aaaaggtaga tatttagtca ggcacagtgg ctcatgcctg 23200

taatcccaac actttgggag gccaagacag gaaaatctct tgagaccagg 23250

agcttgagac ttgcctggca acatctcagg tgagacctta tctctacaaa 23300

aaatttaaaa attagctgag ctgtgtggct cgtgactgtg atcccagcta 23350

ctcaggaggc cgagaccaca gcccaggagg atcgcttggg cccagcagtt 23400

tgaggctgca gtgagctggc accactgcaa ttcagcctgg gctacagagc 23450

aagacccagt ttaaaaaaaa aaaaaaagat attcaaacca tgggtcccaa 23500

cgtagttatt atatttgacc atttgcaaaa gctgaaagca aaacatgtta 23550

cacattttca gagaggaaaa tacacagtag ttcctgagtg taagttgttt 23600

ttcttgacct cattcttaaa ttgcttcatg agggtgggag ggaagtggta 23650

gttaataagt gaacctgtaa accagcgttt ctcaaaatgt agtccaggga 23700

attgcatcaa aattgcagtt acctacagtg cttgttaaaa tgcagattcc 23750

tgggcccctg ccccaggctt atcaaatcaa tctggtgagt aggactcaag 23800

aacctgtaaa ttcacatact tctgcagatg attcttcttg cactgcacag 23850

catgaaagcc tctgcaatag acagaaagct accagcattg cgaaagcaac 23900

ttgagtgctt ggcctttgaa ggttgagtgg gactttaatg agggagagag 23950

taaggcatga gaaatggcag ttccactgag gtcagtcagt ggttcattgc 24000

tgacgaagtc acttttaagt catgttttag aagaactacc aagtgtggca 24050

ggtcaggcat gtggcaggac tgtttctgag cacagatgaa tggatgagca 24100

cctggcccca ctgtgcccag ttggtctagc ttcccacttg gccacctacg 24150

gtctgctgtg tggaccttgt ctggcagtct cctttaattt attttttatt 24200

atttttttct ttttgagatg gagtcttgct ttgttgccca ggctagagtg 24250

cagtggcatg atctcggctc actgcagcct ccacttccca ggttccagcg 24300

attctcctgc ctcagcctcc caggtagctg ggatcacagg caagtgccac 24350

cacgcccagc taatttttgt atttttaata gagacatggt tttaccatgt 24400

tggccaggct ggtctcgaac tcctgacctc aggtgatcca cccatctcag 24450

cctcccaaaa tgctggaatt acaggtgtga gccaccgcac ctggcctatt 24500

ttttttcagc aaattctttg tttttctctc tgttcccaaa tgcagggtac 24550

tgagaccaca gatgtattct gtttcctgtt gaaaaaatgt ttctcactta 24600

gctgggtgtg gtagcatgca ctgcagtccc acgggaggct gaggcgagag 24650

gattgcttga gcccaggagt tcgataatca tgccattgca ctctggtctg 24700

ggtaacagag cgagaaactg tctcttaaaa aaaagaaaaa gaaaaagagg 24750

tcctagggaa agaaacaaat agtggcttgg atggtgagtt ggtggaaaga 24800

acagtgggtg ttgggggtgt tgaacttgtg tttgtgtgtg gtgtacccaa 24850

gacatatcat gtcagcatta agaatagact attcctgttt tctggtcact 24900

gagttgtatg ttttgacatc cttattttgg aagatacttc cttactagga 24950

atgggatagg gagggggtca cctttcccat ctgtgggtca tattttaaaa 25000

tatttattgt tcaagtttaa agatataacc aaaggtataa agaaaaatac 25050

cacaaacatc tgatttaaga aacaaaccag ccgagcgcgg tggctcgtgc 25100

ctgtaatccc agcactgtgg gaggccgagg caggcagatc atgaggtcaa 25150

gagatcgaga ccatcctggc caacatggtg aaaccccgtc tctactgaaa 25200

atacaaaaat taactggtca tggtggtgtg tgcctgtagt cccagctact 25250

cgggaggctg tggcaggaga atcgcttgaa cccaggaggc ggaggttgta 25300

gtgagccaag attgtgccac tgcattctag cctggcgaca gagtgagact 25350

ccgtctcaaa aagaaaaaaa aaagaaagaa atcatttcct acaccttcga 25400

agccttcatg agttagattt tgaaacagtg caaaatgctt cacgtgagaa 25450

tcgagagtcc cttctggtgg ctctccatcc cctgctcttc tgtcaggttt 25500

tcttgtaggt ttatggaaac ctttgttact tgtgcaggtg gcagagaagc 25550

agagaggata gctgcgcgcc acccacacag ctaggattta ttggcgtact 25600

cccacgtgca tggcagccaa gtggacacaa ctctgtgatg aatcctccca 25650

agagaactga ggggccctga tggaggagct gcttctttgc aaagctttcc 25700

ttgactctct tcctgtcccc tagttgattc cccttctgtg ctagttttag 25750

cttattgttt gttacctgtc acacttagca gtactgttgg ctttgctggt 25800

ctccttgact actgggggta aagacctttt gttgttgttg ttgagacaga 25850

gtcttgctct gtcgcccagg ctggagtgca atggcgtgat ttcggctcac 25900

tgcaaccttc acctcccagg ttcaagagat tctcctgcct cagcctccta 25950

agtagctggg attacagcta caccacaccc ggttaatttt tgtattttta 26000

atagagatgg ggtttagtag agatggggtt tcaccatgtt ggccaggctg 26050

gtctcaagcc cctgacctca aggtgacctg cctgtctcag cctcccaaag 26100

tgctgggatt acagacatga gccaccatgc ccagcctcaa agacctcttc 26150

tttacttgct caccctgccg cccactcccc taccaacccc tgcatgccct 26200

ataccacctg gcacatgata catactaact gggtacatgt ttgaatatga 26250

atggatgtgg tgctgtgaat gcttagggga agtgggtgaa atgcttaaga 26300

accaaccttg agtggtctgg gaaggcttcc tgggagggtg gtgtttgagc 26350

taaggccagg cagctgttag atttgttaga ctgaagccct tgcagactta 26400

gagagcttgt gctcttccca gaatgacggg tgagccacgt acagtaaatg 26450

gtgcttctca tttctagccc aaggggcctc aaggggcacc gtgatttcac 26500

gagaatgctg caagcaaatc ttttctcaag ctggggaatt tggtggtaat 26550

gcctggctca gcttgcggtg cgcacctggc ctttggaaga ttggtacaga 26600

gagaagcggc ccatccacat gagcctgtgg aacagcactg gtgggggagc 26650

tgatttgtga agaggggctg tgcagtgtac tgtcaggtct gagacccagg 26700

aagaaattcc agtatcccag ctctcagaat cacagagttc taggcactgc 26750

ctagttccac gtgttcccaa atgtttcctg aatacttgga tttcctgtcc 26800

agagaatttt caaaacaaac ttagaggcct gacccatggc tgccaaggaa 26850

ggattttttt tttaaattaa attttaaaaa tcagtccagc atgaaaatct 26900

atgatgattt cataagagaa aggacatttt aatattcaaa gagtaagaag 26950

cacttaatct tggaagaaag ggcattccta tactttgatt acctttagtt 27000

taattaaaaa acacctacat ggtctttact tctgtgattt cattcctggg 27050

ctagtgaaac attgtcacaa taaagcatca ggccaacgct tctttcgacc 27100

cactggccaa tcagttgaca aacagtgact agatgtttca gcctattttg 27150

ctgaggctaa aggattgaac tagtgcttca gccagcatga aaaccagtca 27200

ggagtccgtg ctggtgttgg cttagattag cagggccttt gatggagggg 27250

catgtatgtg tttgggtttg ctgtgccagg caggggagca gtggaatttg 27300

tctgaattga gctcacacat tgaagttatt gagcgactta catgcaaggc 27350

catgacctgg actcccagcc gagaggccca cgtggcgggg cttgagctgg 27400

gggagccgag gacagcttac atctgctcat ctgcttacgt aaccctgcct 27450

cccagcttcc agagccaaga aaacacacaa gccagcccag cggggccgag 27500

agcctgtggt agcacacgcc atgcgccgca cagcaagggc gccttggctc 27550

ggcttgaggc ctgtcatgaa gccctcagcc ctctgcctcc tcccagagct 27600

tctccccacc accccaggca gtggctctga aacctggtcg caggtctgca 27650

tgattctgaa cagaggtagt cgttgccttc ctggagtctg agctctctgg 27700

agtttctcac tgggacagag ccaggtgtgt agcagagcat ggtccctgca 27750

gtatggcagg aggtgtgcag ggcattcagg aggcctcctg gctggcactc 27800

gacccaatta gtcattcaac gccaggtctg gggctgctgt ctgttgtctc 27850

aaaggtgtga gctgcaagat ccttagagtt gtggagaaaa aattgccaga 27900

ttggcaagaa gggcaggatt gggggtcaag gtgtctcagt gtgttggaag 27950

catgatgggg gttgtgcaag gggcacagcg agttcagaag ggagcaggag 28000

agtgagaaga ggctgttcag tgataaagct ctgcacagag ccattggagg 28050

agcaagctcc ttgaccatcc ttaaaccagg gtaattttca tttaggttct 28100

gccacacgct cagcagggaa ctcctggaag gcaggatttg tcttgtccat 28150

cctccctccc tacctcaacc cactcctcct tgggctggca cacagtaggt 28200

acccagaaag tatcaattga aacaaattga aagtggtctt gatacatatc 28250

acagggcaag tttgcagtta acagacattt cagagtaaag actctctggc 28300

ttggtgctcg atcggcttct gtgggttgtc agcatgctgt ggacagcccc 28350

ggcatgggag cgagtgggcg tgtgtgtgtg tgtatgtgag ggtgagagag 28400

cgttagtgtg tgtgttgggg ttggggagag aggaggggga atagaagatg 28450

gaccacccgg gtatcagctt ctgccctggg gagatggtgg tgtcagttgc 28500

tgagggaatc ctgagaagca ggtctggctg taggtggtga tggtggtggg 28550

gttgcatgag aatccatttg gggcaggttg aatttgaggt gcccatgaca 28600

tatggctagc catgttctgt tggctgtgag gtcaggagag agacatgaga 28650

tggaaacaga ggtttgggaa ctgtcatgtg cttaaaccaa agacctgggt 28700

atagggagag tgagaagaga agggggcaaa gatggacatc caagaaagaa 28750

gctgagaaag cctaggaatt tgaggtaaga ggagacgtag gtaaatgtga 28800

cgcttggtga tcaaggcttc tttccacctc tcctatgctg gacactcacg 28850

tctcctgtct gcttggaaat tcatgctgag ggcagggaag gtgggagcaa 28900

ggatttgtct aaagatcttg ctttggatcc ctgcactcct cctggtttac 28950

caagtgtcac tggacacgtc agggcgttct gagaccttag agagcatcca 29000

gtcctgtccc tgcagtttac aaatgaggaa accagtaccc tgagagtggc 29050

tgtactatcc actctcagga taccaaagat catctggaaa gtcactggtg 29100

gagctggacc ggggcccagg catctcttct cctgtccggg gctcttgact 29150

tcaggaccac ctttctgaaa cccatgatgg ggcaacacca ggacactttc 29200

cagcctgcag gtgtctgtcc cgcggaagcg agccaggcca catgtgaatt 29250

cctgttttct gggtgggttt cagaaggtac gagcaagtcg gcagggtgac 29300

agcccaggtg cttcttgggt tccccaaaac gcggttatgt ttagcagcat 29350

cctcagaacc aaaggtgggg tgggggctgc agatgttgtg ggggccctct 29400

gaagtgaaaa gagccctgtg acagatcttt tcttcatgtt tttcacaagt 29450

tcactgtgca gcagggcccc cccagtagcc tttgcccagg gttgggtgtt 29500

gggcagccca ggcctggctg accttgtggg gaagggtgtg aatggtggga 29550

atccccgagg gccctctttg cccgaaagcc ctaagccttg acatcagatg 29600

cccatcagat ggtccatcgg agccctacta cccagcttgc ccagtgagaa 29650

tcatctgggc tccttgttag gtagccattt aggtccttcc caaaatccac 29700

agactctcta agggaagggc ccgagatgct gtacttgtac taacttcctc 29750

aagcaattct tgtgataggt ttgggaaaaa cttgtccagg gtgaccactg 29800

actgagtcct ggtcttctct gaagagcaca gtgcctgctc actttagggc 29850

accctgggag gtgggagctg gctcagcagg cagtcttata agggactgag 29900

cttcaaggcc tctgtccctc caggagggag gtgcatgacc agagagggag 29950

gcctgaggat cttcttccct gccccagagg gtctgctgcc tgagctctgt 30000

gatagcgcag agagtaaaag gatcaagctt gattgaggcc tatctctcaa 30050

tgcgaaagtt tgctagttaa gaggagagtg ggaagggcat ttctggcaaa 30100

gagaaaagtg tggacaggca tggcttaagg gatggggagg gagacagaca 30150

gagctgaggg tgaagggcct tttgctcagc tgtgggcctt ggccttccct 30200

tgtgcaggga cacacagcct tagagccact ggaggtttta gtgggaaagt 30250

aatatggtcg gggctgtatc tcagaagaaa acaaactaat gggaacaggt 30300

cctgtgatgg tggacctggg tcagctacgg agggagggaa gatgtgagat 30350

gtgtactggg gaagggggtg gaagtggcag ctatctggtg agaggaagca 30400

ggcccacagc tttttttctc aagctgttga attcagaagg gcgagtgatt 30450

ccgggagtag ggggtgcttg gagagccacg cgttattgat aaacagggca 30500

ggctgaagcc tgctcactgg ccctgggcgg gttctcacca gcatgtttca 30550

ggttttgatc tgtgcttgtg gttggtgttc ctacctgttc tctaggttcc 30600

ttcctttgtt cttgtggctc atttgcttca caggtgaagc tggttacact 30650

agagtaacag ttcccaaagt gtgttccctg gaaaaatggt tctgtagcca 30700

aataagcttg ggaaatggtg ggttaaatat aacgaagggg gtttttcgac 30750

tgcacaactt ctcagagcct ttggtgtgtg tcgtgacttt gcagaagcag 30800

gatttaatac gcagcattcc cgttcttatt tgaccacgag acatgttttt 30850

ccattaagca tcttgctggg tctgatgttt tctggaaccc attttgaggc 30900

ggtctggtct gcagagagta tggggagcct gggttcaagc cttggctctt 30950

gactctcagc agagccttga ttccctgtgt tgcctggact gcaccacgtg 31000

taccacatac ccggtatgtg acgttttcct catccctctt cccacctgcc 31050

gttacctcac aatccacaat ctgcacctca tccatttttc ttctgaggca 31100

agcactctct tactaactta cttatctcat ctgcatccat gttcttctag 31150

gccagaaact tgggagtcat ccctccctct ttgttacttc ttcttcctct 31200

ttgttacttt atcccctctg ttactaaaca ttcttctgtg tttccagcta 31250

tttcttttat tttccctcgg tctcctttgg ggtttctttg cctccatctc 31300

tcccagacct tggttcacct tccatcgagt cccttcctgg gacatgggca 31350

ctcatgccac tcctgctacc ttccacttcg aagctaactc cctccacact 31400

gacgtcccca acatgcatgc atacacacac acacacacac acacacatac 31450

acacacacac acacacactt ccccagttag gctagaatca gagagatgat 31500

gtcagccatt tgtccaaggc cacgcagctg ggaggtcaca gagctaagtc 31550

tcaacctcag gggttttgag aaattgcctt ctcatccgtg atcactgatt 31600

tctacaacag cctgtcagga agtctgggta gaaattactt ccattttaca 31650

gtggagtcag agcggggagg gtcctgggca ggcgagtgct tcacagagtg 31700

accaaccatc taggtttgcc ccacactgaa gggggtttct ggggatggtt 31750

ggtcacccta atgctggatg tggtgcctga tgctgggcag gagggccctc 31800

tccgtggcca cgttgcctcc caggaggaga catttcctct gcagctgcag 31850

ctgcagcctg gccatctgat gcagcctgtg gagcggtggc gagtcctgtg 31900

gcctgctaac ttctccctcc ctccacctct ctagtgggcc ccatgctgat 31950

tgagtttaac atgcctgtgg acctggagct cgtggcaaag cagaacccaa 32000

atgtgaagat gggcggccgc tatgccccca gggactgcgt ctctcctcac 32050

aaggtggcca tcatcattcc attccgcaac cggcaggagc acctcaagta 32100

ctggctatat tatttgcacc cagtcctgca gcgccagcag ctggactatg 32150

gcatctatgt tatcaaccag gtgaggcctg ggaaggtgga atgagagagg 32200

gtgtgtgtgc atgcagatgt gtatcagatg tgtgtgtaat gagggcaggg 32250

gaaggggagt gatttcacag acacctggca cttacagcga ggaaccagcc 32300

ccccagccac caccagtgca gatgaggtaa acgccaaaca gtgtgcttgc 32350

ctattgctgt caactctata gccaagggaa atgctggagt gttttcgttg 32400

ttctgttttt gttttctgga agtagccttc cagcaagatt gggaaaaaag 32450

acaaccctaa ttattccaaa gtacacactg attattccct ggctttgtgt 32500

agctgtgtat tttcctttta aaaataaaac caccatttag atgtcagact 32550

tttaggtaac ttcaaagttt atccagtcag tcagagcgtg tctcctgggg 32600

cacctggaga cagtgccctt agttcaggtc acatgcctac atgccagccc 32650

ctggtgaaat atctggagaa gtctgattcg tgggccatct gagagttatg 32700

tggactgggc cgagtctgag aaaaagtttc tcactgctcg tctgatccat 32750

atgtgttggg ctttagccct gcttaggaaa gtaatgctaa ggataggtca 32800

actttcatca ccatggcatg gagaatcaga ttgatctaag aggcatcttt 32850

attgaaataa atttttcagt ttatttgagg agcattattt tcccaagagt 32900

ataactttga tatttcaaga ttacccctaa cacttaaatt catgttttta 32950

gactataacc tcctaggtgc aatgacacat ctaacttatc taagcaccca 33000

gtttcattga aattcatttg aagagtctga gtacgcccat ttctacaagg 33050

cccaatgtcc atttcatttc gagataaact ctgctttagg taggaggatt 33100

gttggcagtt tacggcttcc atcaaggtca aggaactctg tgcaccttcc 33150

ctatgacccc aggggaagca ctcgaggact gctgtggcat tgtgctgcat 33200

cacttgctgc agggagattc tgaagaagtg taaggtctca gtcctgccct 33250

gtcccgaagc ctccaaccca cttctggcaa gtgggacctt cccagggaac 33300

aatttgttaa cagacccaaa tatcctgtga ttggatggtg gctgccaaat 33350

gctttggaag ctcagaggaa ggagagagag caatggcttg gaagaaccag 33400

gatataaact aggttctaaa gtctgcaggg agatgggctt ctcagctggg 33450

gccagtgagc agggacctta aggcagaaag gagccttgca tgttcctgga 33500

aattgagatg cccactgggg taggaaagca ccagaagctc tgggaccagg 33550

tgtcagagtt aagcctgtga ggcaggagag agcagaacaa gccctgttac 33600

aaggaaactg aagcaggaga gcaggtggtg ggcaaacccc ttgaggctgt 33650

ttgaattctt cggccaagtg aggtacagac cagggcccta tgaacacctg 33700

caagcaagac agccacgcag ttgtgggtca ccttggaaga atattggaga 33750

atgcaagaga gaacaggtaa atgtcctgca aaatgcgggt cactttaacc 33800

caacacatat tcatttaaga aaagctctgt gattgagaaa catttgtctg 33850

atgccagtta gcacatacca atgacggcaa gattcaggag cctgttatta 33900

aagcagtggc agcgagcacc tggaagaggc ggccaccatc accaggagcc 33950

agcagggatg actaataagc cgtgccagct gcatctcgtt tctctcttga 34000

cagttgctat gccagtagat gagggatgta ctgtggatac aatgctgtca 34050

tatcttattc agcagggcat ctgatagcat cccacaaatc tgcctgagta 34100

gaagacagac agctgtggtc tgggtgccat ataggtaggt taaaatatat 34150

atttgggcct aggcgcagtg gctcatgcct gtaatcccag cactttggga 34200

ggccaaggca ggcggatcac ttgaagtcag gagttcaaga ccagcctggc 34250

caacatggcg aaaccccgtc tctactaaaa atacaaaaat tagctggaca 34300

tagtggtggg cggctgtaat cccagctact cgggaggctg aggcaggaga 34350

atctcttgaa cccaggaggc agaggttgca gtgagccgag atcatgccac 34400

tgcactccag cctgggcaac agagtgagac tctgtctcaa aaaaataaaa 34450

taaataaata aataaataaa atatatactt gggtaaagag gataaaagag 34500

ttagcgatga tgctgaattt ttgaactgag gtggctgttt tcaaggaaga 34550

ctggagggtg ggatgctacg tctagatatg ttgcagttta ggtgaatgtg 34600

agacttccct gttttgaagt caaatattgg accagtaaaa tctagccatc 34650

agcttaaatt cctatgatac aatttacata ctccccaggc tcaacacagt 34700

agatttctga atgtcctctg ccagctacat gctcctgccc acctcaatcc 34750

gagtagatgg aacaactaac caagccagct cagaccggtg gcacagctgt 34800

gctggctaac actgggcacc acctaagaga gtgcttctcc aaaagtgtgc 34850

ttccccaaat ggagcgaaat acgcttgagg aatgttgggt tgaaccatgt 34900

aaagcaggtc tcattcccgc agagcctttg gtaccccggt gtacactgta 34950

accccagaag tgtttcctga gcttgcctga cgagacaact tttccaagaa 35000

ccgtctcaag tgatgagtgt tttgtgagtc acactttggg gaaagcgggc 35050

ctaagttagc atctcctccc agctgcctcc ctgctttccc tggaacacta 35100

ggaactgccc gtcctccctc cctccctcct cttcccactt cacaacttag 35150

catcaggaat attttagttt tggtttttca aacatatata cctccttttt 35200

tcttatcttg tcaatatcat cttttttttt tctttgcttt tcctcatact 35250

tttttttctc ttcatccttt ccttctccaa gggttaactt tccaccttag 35300

gagaatcttt tctgcttttt ctcccacttc cccagctact ctcttatcat 35350

ctgctccaat ctcaccctaa ttgatcattt tgggaaaata tggtcagagt 35400

ccagataact aagttgagaa atgcttaaac tctgccatac ctttccagta 35450

aagaatatta cctaataaat aataaaatgg taatgggaaa cctgaaccct 35500

gaaaaaaaag aggtggaagg agaaacattt ggagcacatc ctgtctacaa 35550

attaggaact gcctgtgtta tctgttttat ggttatattc tagaagaaga 35600

aagggatttt gtagcacctg gttttgacct ttctgcactg tttgttgagc 35650

aaataaacct tatgggctgt tagccctctt tatagcctct cagcttatcc 35700

ctggcccaga caccctgctg tcattttgac ttttcattcc cacacacaca 35750

tacacatgca cacacatgta cacacacaca cataccattt aagattagac 35800

agaagtaatg ctcaaaatgg agtggcttct gagacattta gtccaagggt 35850

tcccaaacag gcttttcagt atcagatttc tttctgcccc attgaaatgc 35900

tacacaacct tccgcttaca gcaggtcaca agggtttcat tctacttgaa 35950

gtaggggcca tgtcccattt ccacttcctt ggcttcccat tcagtcactg 36000

ctaggatttg cctagacccc tgaggccaga caatgtagaa acttctgctc 36050

catgtcacag gtgaggaaac aggctcagag agggacaggc tccgaaagtc 36100

acatagacaa cagtagggct gcggctcaaa ccccagcgtc tgactccagg 36150

tttagtgcct tctcagggca tcagtgacac tcctcatggc cagggtgccc 36200

ccagtgttgc tcacagtctg gtatccaggg ctgagagtgt gctgtgtgct 36250

cagactgcct gggttcagtc ctggcactgc cactttacag tcagtgacct 36300

caggcaggtt acttaagctc tgcaggcctc agtttcctcc ttggtgggga 36350

gggttatgag gcatccttct catggtaaac cttcagtaaa taccagccgt 36400

tactaggagg gtccactcct gcctctccac tctccattca tcctgcctgt 36450

ttcctctgcc tgcttcctct gcctgcttct gtggtggtga attcttcatg 36500

gctcccaccg cctcctgctg cacccccact cagggcccgc atcaggaccc 36550

ttcctcctat tggtttgaac tccttggagt cagagggtaa tggatagtgg 36600

agtgagccag gtggcagaat ctcagaggcc atcccgggcc tataagcctc 36650

ttcaaaatag ggccacgtat caagctttac acacaggagt gaactttcac 36700

aagttgttat gactcatact ctgtctatag taagctgtta accactccca 36750

tttggcttat gcctctgtaa ttattgtact aacttatatc ttaaaataag 36800

gatattgaag gaatgagccg ggagaggctt tcctggttga gatatagaag 36850

aacaagagtt gctctttttc cttaaggtct ctcctcccac ccctgacctt 36900

agctcaccag catgggagaa tactatttga ctccttgtac tctgagacgt 36950

ggatttcaag atatagcatt ccaacttcaa cggcagcaag aaaagaagca 37000

acagaaggag aagacatcat agcaaacagg gatgcatgct gcatttccta 37050

atactcaaac ccggaaacga gacttcactc aaggtgaagg gagggcaggt 37100

caccacctgg tagcactagc cctaaattaa ggaatgcaga atgtttgtgg 37150

gattgcccat cataaaaatt acaaaatgag taaggaatgc aggcacagct 37200

ggccaggtgg gtttgtcaca accatggcag ccctttgccc cacagccagt 37250

acacagaact ggtctctcca attccgattg catatcttct ggcacctctg 37300

ttcctctccc tcagctgccc aggatttttc tggttctgac catgttactt 37350

cctcttttaa acctgttagc atttcacgac tgcctacagg caacggtcta 37400

aatggtcgga aggcccaagc ttagcatccg agaccctgac ctacctccag 37450

ccacttcctc ctcctctcca cttcactgga ctccccatct ccacccagac 37500

acctctgttc tcccctctgt gtgcctttgc ttatgctgtc ccctgtgttc 37550

ctagtgtgtc tctggctatc ttttaagctt ccctccccaa cctcattagt 37600

tctgtggagc ccctggaata gagctgactt ctccttccct gctgctccca 37650

ggctgctcag aactttctgg aaagggatga ttatctgagt tccagcctca 37700

ccccagcccc cggactctga gtccctcatg tctgcctccc ttctttctct 37750

ctgaccacac agctggtaca tagtcagtac agacgcagtc agtgagtgga 37800

gcacggggct tctctccagg attcctgccc ctttgtttat ccctagtctc 37850

aggactccct actcctggtc ttctgcctaa atctgtgcct cttggaagtg 37900

aagcctccgt tcccagtggg gccaggtcct gacccttggg aacttgcagg 37950

atccctccct tgggcctctc cccgaagctt ccagctcaat gctgaccaga 38000

gcacaggctg cctgtgacag tccttggggt gacctccctt atcaggaaaa 38050

atgcagaaaa cctattaata ccttagcctt gtgattgtta atggtcacaa 38100

aactccttta gggtcctttg gactcagcac ctttatggtc tcactttgaa 38150

ttttgaacct cccacctccc cccatccccc agagtaaggc aaatggtctt 38200

ctgattgttc ctgcagaggg aaggctccac aggtaagcac acgatggcca 38250

ggaagcagag ctggagcctg cctgaaaggc tgtggagaaa tggagggagg 38300

gctgccctga ggactctgtc tggctttgaa gttttctact gtttcctttt 38350

cttctgtgca ctgttttagg atgatggggt gatagttcca ggctggttga 38400

ggatggattt ggagacagtc ctttgtaccc tcagtgagca agagtatctg 38450

tcaccctacc tcagcagttg tctctgtcac tggtccaagc agctggttcc 38500

tacacaaggt caagatcaac tggggagaag cagactcctg ggtctatccc 38550

attagtgagg acagctgcct gggcttatgg cctcattggt ttggtttcta 38600

tcttgatcat ctctaccatc cccccatccc ggccttccat tttctacctc 38650

agctgtcagt gcacagattg atgtgtgtgg gaacggagct tgggaggagt 38700

ggggtagggc tggtcctgtc ctgtagcctc cccttccttc gggcacttgg 38750

accctttgga gcttgccggg gtggggaatg ggagtgggaa ggccagggag 38800

tgtctctgca ccatcactgt ttgagtgttg cccctttgct gtgtgcccca 38850

cctagtctat gtgtgtctct gttctctggg gactcaattt gctggtgaat 38900

tgcttccatg gacattgttc tgggaaatgc cattttttct gctcacccat 38950

gactctgtga caaggaatga cagcttatta ggaatttgtt tttgcattgg 39000

aacagtggtc atcagaatgg gccccttttc ccttgcagct ttgacatttg 39050

cctctctttt cctcacctct ctcccttgca tccacccttt tctctttttc 39100

ttcttttttg ttttccttct agcaggggcc ttttaccttt acttgttaat 39150

cctgtttgta gcaaagcaag tggaaggagg agttcctctc tgatctgctt 39200

cttattctcc acctaccttc tcttctgtac tttccgcctc ctagagagag 39250

agagagagag aggaatgccg acctaactac cgctgccact gctgctgcca 39300

ccaccgctgc caccaccacc ctggtaatgt tcacatgtcc tcaaatcaac 39350

ccagagccag ggccctgctg gtcaggggga ggctatgtaa ataatcccat 39400

gagtgtgcca tcctcaggcc ctggggtctc ctaggcaaga ccagggcctc 39450

tgtgggctct ctcggaaatg ctgaggttgc tggaagccag cccgtcatac 39500

agggtctgag agtttaactt cttttaaatt aaaccacagt tgagctcatg 39550

ctgtgtgtgt ataaactttt gtatcctgct ttttccttaa attctttatc 39600

atcagcatct tcccatgtta tttcatagtc ttcatcatca tcactttcca 39650

taccttcata gtagttgatc gtagaattcc atcataatta acttgtcttt 39700

tctctcttag aagtccctta ggtaatgtcc aattttccgt gagtgtaagt 39750

aataccataa tgaacatctt ggagtctgaa gtttattctg tgttggtttg 39800

ttccacattt aggatcattt tcccaggcta gattttcaga tgtgggatta 39850

tgggttcaga tatggtttac acatttttat agttcttaat acagatggcc 39900

aaattgcttt ctgaaagaga agcttttctt aagtattttt ctccaacttg 39950

tatcttaaac atcctgaaca tgcttagcac cactgtcttg atatatctgc 40000

ggaaagccac gtctccactt ttcagtgtgt cgggccctgg gagaggcagg 40050

catcctgcgc tggctccttg gagctgggtt taaaattgtc tcctctggct 40100

gggcgtggtg gctcacacct gtaatcccag tactttggga ggccgaggtg 40150

ggcggatcac taggtcagga gatcgagacc atcctggcta acatggtgaa 40200

accccgtctc tactaaaaat acaaaaaatt agccgggcgt ggtggcgggc 40250

acttgaaaag tcccagctac tcgggaggct gaggcaggag aatgatatga 40300

acccgggagg cggagcttgc agtgagccga gatcgcgcca ctgcactcca 40350

gcctgggcga cagagtgaga ctccatttta aaaaaacaaa caaacaaaac 40400

aaaaaaacaa acaaacaaaa actgtctctt ctgtgctcac ttcacccaga 40450

atccctgttg ggctcttcaa ggagctcagt tctctctgaa agcaacttta 40500

tagcctcagt ccagtctgtg ttcctgtgtg gcaggggtca agggtatgct 40550

cactcttgag agtggtgtct ttggttgacc aagaaccact cccatagcct 40600

ggtccctaac ccttgaaggc ccatctctct cactcactgg ggtgaagagt 40650

ttaaatctca gatccaagtt ttgttgagag ctctgagcta ccatattgct 40700

atggttaaca atagttaaca atgttaacaa tggttaacta tggttaacaa 40750

tagttaacaa tgtttaacaa ctagagccca gctgggtgtg gtggcatgtg 40800

ctaacagtcc cagcttctca agaggctgag gtgagaagat tgctggagtc 40850

caggagctca aggccagcct gggcaacatg gcgagaccct gtctcccctg 40900

caaaaaaaca acaacaacaa aagcaaaact agagcccaac tgctgtgaac 40950

tcatggctga gtagatatta ttagccctcc acaaactcag catttgtata 41000

atcccaggct gtttccagta attctctggg gatcatctcc cagcctgtcc 41050

actgttccag gatccacact taggcctata ggaatgcccc gtcagagctt 41100

ctgctgccgc tgatctgtta ctgtttcatg caacccactc ggcctagttc 41150

cttcctctta ctgtctcagt gggcacagaa aagcatacag agggtgtttc 41200

agcaaacatt gccactggct gcagacctgc ccccggatct gtcctgttga 41250

gagcttagtg ctgcgttctt gcatggtggg gaggggtgtg gctctgtgat 41300

gagccagggc atgtgtatag gagcaacagt gtctctctta tcacgtagaa 41350

gttctgactc attgcgagtc ttggctttgg gttaatggtt ccagccatgt 41400

tgctgctgtg tcttttggtg caggagaggc tgggcacagt tggtccctaa 41450

gccattatgg ataagggatg tgtctgctga tatacacaca tggacctgac 41500

atccagggaa ggcagggtga ttggacagaa cagttcttcc agaagctgtt 41550

ggaacttgga caagagtggc ccttggcttt ctgtagttgg tcatctgtcc 41600

cctgttgcaa tcaggggaag gccacacttg ccttccttaa ccacagttag 41650

gattttcttg gggattagac cagattctag cacctgtcct gaacctctcg 41700

ccccgcccct acaaaggctg cttgcaagtg tagtgcacat acacagggag 41750

caggtggggc atggaagtgg aagtggagcc cctgcctttg gcccttgggg 41800

gaggcactgt ctgcttaccc acggttgttg cctcatagga atcatacaac 41850

agcttcctaa ctggtctcct tgccttcagt tggattgggg cacaaatccc 41900

tccttgacat ataaaccatg gtttaaggct ccctgtggcc taaataaaga 41950

taaagcttaa gtatcttaac aagcacctaa cccttctccc cagcctcggt 42000

gatttggctc atcgctgcct tcatgtttca ttctggcttc actcattcgg 42050

aatttcttgt agttccttgg ctgttctctt ttccttaccg cctttacaaa 42100

tgctctcacc atgcatgctt ttctctgctc ctacagatgc cttctctccc 42150

agcaccgcct ccagagtcta tgtctggtcg attctgtctg ctgtctccag 42200

tccccatctt gtggcagtct ctgctcaatc atttggggat tttatatgtt 42250

ttctggcctt tcttttgggg gcctgtcttc tccttctaaa agcagccagt 42300

tgacctagaa ggaagggata actgtaactc ttgtctacca acataagatt 42350

aggcccaccc tttaaaagct gcgtctttga aagggacacc tgcacccagc 42400

atgctggctt ctcttcacca agcgtgactt cctacgcatt tcacaggcct 42450

ccagaggtcc ccctgactct cttctgctgt gagaaactct aatcatgtaa 42500

gccacaggct aattcccttg agccttaaat gtttttagta atttcccatt 42550

catcagagaa gcaggatttg ggaggaattt tgaagcaaac actacagaag 42600

gcagagtctc caggtaggat atctaagaga catttggaat ggtctgactg 42650

ttcaagatgg atgggaaagc ctcttcctgt aatgatagta gccaacattt 42700

gttgtcaggc agtggggccc catttttgag atggggtctc tgtcacccag 42750

gttggagtgc ggtggtgctg tcatggctca ctgcaacctc agcctccccg 42800

ggctgggtct tcttaattct gaaaaaccca gcttttaaag ggtggaccta 42850

atcttatgtt ggtagacaat gttgtctcat ttaatacaat gcacatgctc 42900

tccccataac acaaaagagg gaactgaggc ctggaggtgt gatgtacccc 42950

aagtcacata gctaataaat aaagaagcca gcattcctgg gattaaaaat 43000

gcatgtgtct gtcactgtgg tgtatttggt gcttgatcaa tgtttacttg 43050

agcaaatgga ggggcagagg taccgatgag tgtgctcagt gaggagggca 43100

ggagtgaagc tgggcgtctt cccgcctctt gtgagtggtg gggcttggtg 43150

agcttgccag ggcctgtctt tcttatcaaa gaaggtgtgt gccccagtgt 43200

tacagcattt cacccaaagc agcctagaaa atgcttgact tttctgtcat 43250

tccggggagg acactttcct cctccactgt tctgctggcc tggtgtaccc 43300

acggcccctg atagatgata gcacctgcta aagtgcacca tgcccttccg 43350

tctcactgca tcccacagat gaggccaggc tgggatgagg gagaaaggga 43400

gggatatata gttcaggtta ttttggaaaa ctgcctgacc aattttaagt 43450

ctgggccgga cactggggca tctcaccacg ttgaaagggc cgtggcaccc 43500

cgggcggtga aaggggctgg aaccaggtct gcttcttggg cttctcctcc 43550

agggtgccat tgctcatggg ccttggctgc agaggtgctc attcgtggtt 43600

ccaaaattcc aattcctggg agaggaaaaa tgcttagttc agtctcagtt 43650

aggcctctgc ttagatcaaa cagccaaggc cagtaggccc agtcctatgg 43700

tagagacatg gcctcaaaga gccctctgct gcagttgttg gggagtgtac 43750

caagagaagg gagcattgtc ctgggctggg cagccctggg ggtctagtgc 43800

atagatgtag aaaggctctg ttggtatacc tccctttgct tgttggaaag 43850

tgctcaacgg ggctgaattg tgtttgacag tgtaagtctg ggctggggtg 43900

agggttgtta caagattgtc aagatgatta aatgaaatgc catttgaaac 43950

acttatccat gccttgtgta tggtatcccc accagtgaat attcacagta 44000

tattataata attccaacaa cttcataatt ttcatatgca atttctaaac 44050

tttgaacttt tttttttttt tttttttttt tgagacagtg tctcgctctg 44100

ttgcccaggc tggagtgcag tggcgcaatc ttggctcact gcaacctcca 44150

cctcccggct tcaagtgatt ctcctgcctc agcctcctga gtagctagga 44200

atccaggcgc ccgccaccac acccagctaa tttttgtatt tttagtagag 44250

acgggctttc gccatgttgg ccaggctggt ctcaaactcc tgacctgagg 44300

tgatccaccg ccttggcctt ccaaagtgct aggattacat acgtgagcca 44350

ctgtgcccgg caattttttg tgtttttagt agagatgggg tttcaccatg 44400

ttggccaggc tggtctcgaa ctcctgacct caagtgatct gcccgcctca 44450

gcctccctaa tgctgggatt acaggtgtga gccaccacgc ccagcctaaa 44500

ctttgaattt ctttgaaccc atgacttaca cagaattagc tgaacgcaga 44550

attccaaatc aactcagcct gtgggacagc caaaaaacac agtgtgcctt 44600

tgggctcctt cactcaccac gcggggttag aaaactttgt cagaggcttt 44650

aaaaaaggag ctcttgtgtg taaaatgttt ccttgattct ctttctggtg 44700

cctctctttc tctaagtggt ttgcttcccc aagttcccca cctgagtctg 44750

ggtggctgtg gcacatctgt gcattctgta cgcacacagg cagccttttg 44800

gagtgccagt ttccaggtct tggttttatt tatttattta tttatttttt 44850

tgagatgggg gtctcactct gccgcccagg ctggagtgca gtggtgccgt 44900

catggctcac tgcaacctca acctccctgg gatcagttga gcctcctacc 44950

tcagcctcca gagtactagg gaccaccatg cctggcaaat ttttgtaatt 45000

ttttgtagag gcagagtctc accatgttgc tcaggctggt ctcgagctcc 45050

tagactcaag tgatctgccc accttggcct cccaagtgtt aggattacaa 45100

gtgtgagcca ccatgcccag cccaggtcat cttttgaggg catggagaga 45150

agactttgag catcccactt ttgagattgt gtaccagtcg caagccccta 45200

tgacacactt tttccccaaa gtagagggct ctgactatgt tgatcccaag 45250

agagatggga aagagcattg aatgaggatt ccaaagtatt gggccttagt 45300

tcgtttcctc atgttggtgt tgtgaagatt ctggttagga taacagcatg 45350

tgtgcaggag gctttgtgaa ctgctgagag tgaggcgtgg caatgtcagt 45400

gctaggtttg tccttactaa cctggggcca tgggaattga taagaccaga 45450

ttcccaactc taccccacaa tgtgatccct gtggtgaccc ctcacagggc 45500

tctttggtcg agcttcccag aagggatcac catctgccat tgtatgttga 45550

accccattca ttcattcatt cattcagcca accagcaact atttgttgag 45600

ctcttattgt gtgagaagca gtcttcaagg aactgggtga ataaaaaaaa 45650

caaaacatcc taaccttcat tgagcttaca ttcttactga aagaaaacaa 45700

ataaaacata catgtaatcc tagcactttg ggaggccaag gcaggcggat 45750

cacttgaggt caggaatttg aaaccagcct ggccaacgtg aaacccatct 45800

ctactgaaaa ttaaaaaaaa aaaaaaaaaa aagccgggca tggtggcaca 45850

tgcctgtaat cccagctact cgcgaggcta aggcaggaga atcgcttgaa 45900

tcctggaggc agaggttgca gtgagccaag atcataccat tatactccag 45950

cctcagtgat gaagcaagac tccatctcaa aaataaaaaa taaaaataaa 46000

aatatgcatt ccctttgcac cagcacactt ggtgcctggg gacctcgtgg 46050

ttggcaccct gaagcaggtg tccctcttct gtcttgcaca ccttgcttct 46100

gtcctggtgt gtatggcatg gccttctgcc ctccatggtg agcactgtga 46150

gggcagaggt tgagttgggt ttgctgtatt tctcaggtgc ctaggtttgt 46200

gcttgacagg tagatggaag gcacacaatg tggtcatcaa acctcagtca 46250

accatataag gaaggtagaa gtgaaaagtc ccataggtac ccaactaatg 46300

tcaccagttt cctggatacc tttcctggag tttatttata gtgtgtataa 46350

ataaatgatg tatgtgttta aatgcctttt tcacctttcc ttttagagct 46400

gcctcttttt aacagttcca ttccattgta tggatgtact atgatttatt 46450

gaaccagttc cctactgatt attctgtttt ttgcagtctt ttgttatgat 46500

gaacattcca cagtgacaat gttgttcata gtcattcaca cacatgcaag 46550

tccttctgca ggatatattt ctagagggga attgctgact cagaggtttt 46600

ggtactctgt gttgattgta gagtgacggc agaaaagtga ggcccaagag 46650

tttcctagtg accatgtgta gtggacaagt caccagtccc tgtgagtgtt 46700

tggcccaaag gctttaaggc atttgatatc actgtttttg tttctgcacc 46750

aggcgggaga cactatattc aatcgtgcta agctcctcaa tgttggcttt 46800

caagaagcct tgaaggacta tgactacacc tgctttgtgt ttagtgacgt 46850

ggacctcatt ccaatgaatg accataatgc gtacaggtgt ttttcacagc 46900

cacggcacat ttccgttgca atggataagt ttggattcag gtaagagata 46950

ctcagtcaga atctgtggta aacatgtctc tctcatgtgt tgactaggaa 47000

atgcagtcct ggcagctcaa gagtgcctct ttaagctctg gagcagaatg 47050

cctcctctga gaaatgggtg ctttgtatta gttgagatgg aaagaagaga 47100

ccagaaatgc ctgtagtctc tgcacatcca gacaaaaaca aattttcccc 47150

cctttttttt ttttgtttgt tttttgagac agggtctggc tctgtcaccc 47200

aggctggagt gcagtgccgt gatcttggct caccgcaacc tctgcctccc 47250

gggttcatgc catcctgtca cctcagcctc ctgagtagct gggactacaa 47300

acacttgcca ccatgcgcag ctaatttttg tatattttgt agagatgggg 47350

ttttgctgta ttgcccagtc tggtctcgaa ctcctgagct caagcaatcc 47400

atctgccttg gcctctcgaa gtgctggatt ataggcatgt ggcaccatgc 47450

ctggcctaag aacagttttt agcatttggg aggggctctc atctttaagc 47500

tccaaatgat actgtatttt cttgcttttt tctttctctt gccccacaag 47550

ttttggaaag taaattggaa tagttttccc ccactgaatt atttagcttg 47600

tatacctcag cagatgttcc ttggcctgtt ttgttttgtt tttgagacag 47650

ggtcttgctc tgtcacccag gctggagtgc agtgacacaa tcatggctca 47700

ctgcagcctt gactgcctgg gctcaatcca tcctgcagcc tcagcctcct 47750

gagtagttgg gactacaggc atgagccagc atgtccagct aattttttat 47800

ttttagtgga gatgaggtct ggctatgttg cccaagctgg gcttgaactc 47850

ttgggctcaa gtgatcctct cacctcagcc ttccaaagca ttgggattac 47900

aggtgtgaac cactgctccc gcccttggcc ctataagaag gaatgtgatt 47950

ctgttttcca gcagggcaca aacttctgct taaatacaaa gcccaaattt 48000

ttccaccaaa atgcccctag tgaagtggcc agcccagatg cccgactagc 48050

gtattatcca aagcatattg tcattggtgg aaaatggcct tatagtccat 48100

tgttttgtct taaaagtaaa tatataaata aacttgtata ttgtttccta 48150

attccgtgtt tatattaaca taaaagtgtt ttaaattacc tgtcagtggc 48200

caggtgcagt ggctcgtgcc tgtaatcgca gcactttggg aggccgaggc 48250

gggcagatca cctgaggtca ggagttcgag accagcctga ccagcatggt 48300

gaaaccctgt ctctactaaa aatacaaaaa ttagccaggt gtggtggcag 48350

gtgcctgtaa tcccagctac tcgggaagct gaggcaggag aattgcttga 48400

acccgggagg cagaggttgc agtgagttga gatcgcgcca ttgaacttca 48450

acttgggcaa cagagcaaga ctctgtctca gagaaagaaa aaaaaaaacc 48500

tatcagttga ataacaaaac cctttccttc cttgctttaa gtgaatctga 48550

agatccagga gctgtgctgc aggtaccctc tatgttgggt acccctggtt 48600

taggctgact agtacagtgt ggttggctca tgtagacagc agacccttta 48650

ttttagatac aacttttttt ctttttcttt tatttttttt gagacagagt 48700

cttgcttgtc acccagcctg gagtgcagtg gcgtgatcat ggctcactat 48750

agccttaaac tccctggctc aagtgatcct ctcacctcgg ctttcctagt 48800

agctgggacc acaggtgtgg gccagcaccc ctggctgatt taaaaaaaaa 48850

aaaatttttt tttttagaga tgtctcacta tgttacccag gctggtcttg 48900

aactcctggg ggctcaagca atcctcctgc tttgacctcc caaagtgctg 48950

ggatgacagg catgaactac tgcacctgct gagatgcaac agctttctgt 49000

cagactcatt ttattctcat catttcttcc tgtcctccct tgctgggagc 49050

atgagagctg tgatgggaat ataggaatgt atgaagtcct tctcccagat 49100

caaaaatcct aacttcttgt cttaaaggga ggaaaatttg aatgtaacct 49150

tacttttaga ctcttcagaa atccttctat acccttccgt ccccgctttc 49200

acccttcctc cctctccgtg tgtgtatctt cttctcttga aacacacagg 49250

tttataccct gacccctctt gattcatccc ttgaagcaca gtggtgaaca 49300

aggaaggggc ccgtgatgcc ctaattcttt gccacagcac catgtttgtt 49350

tcacaaggag cctggcaggt ttgggcttgg ggcagatagg ggagagaaag 49400

cagcagagac agcaaaacca aatcatgtca gcttggcatg tacttccctc 49450

tgaaatagct aagaatccat ttctgtaaaa gcactgatta tcagaaaacc 49500

ttattggcct ggccaccttt ggttcaaacc ctcacattaa taatgtggac 49550

agtagtatga ggtgtgccaa aggtggatga ctcagcacct aagtgatgac 49600

acctaattac gaataggttc attaaagcag accccctggg gacctttgct 49650

tgaggatcct tacagtcaga attcctgaat atatttgaaa ataataattg 49700

catctttatt ttcatatgtt ctgtatggtt tggctgactt ccccctcaaa 49750

gtctgagtta gagttttcct taatttatgt gatgggtttg gtctttttgg 49800

attccagaaa gagctgggtg tggtttggag ctgcactcag agtcacacaa 49850

aaccacagcc tttagagaac ccacaggaag gctttggggc acgtcctgat 49900

tcttgacatt tctcatcagt gctgactttg tatcccttag gagttcacaa 49950

ttcataacca ctgaaatatt aaaatacaaa aagttttgga aggatgagag 50000

cccagatgct ctactacttg aaaatatgtt aaaacataag ttcatcatta 50050

tacattttgc taaatcagga taaagtctga agtttcaaag aagttttatt 50100

ttagcaaatt ttcagaaaca ctgcctcaac tgttagggcc agtgttctag 50150

tcagtatgcc tttggaagca tgaaagctgg attggtcgat aggatgggtg 50200

tggaaggggg gctgtgactg ggtgggtaca gagaggctct gaaacaatct 50250

cagattccag gagttcctgg ataaggactt catgtgcggg aacagagcac 50300

aggagaagca gattcctgag ccactcagga agaactgggc ctaggcctgc 50350

tcttgtcact gactggcttt ctacataacc acagaaacag cactgtgttg 50400

tagaaagagg aagatcatac tttttgatat ctgtgtctaa tttaaggtca 50450

tctgagccct gatagaaaag caaaacagac aaaacccttg taactgctcc 50500

ctcccacccc acccaccatc aaaaaagctt tagagaggct ggacatggtg 50550

gctcttgcct gtgatcccag cactttggga ggctaaggtg ggtggatcac 50600

ctgaggtcag gagttcgaga ccagcctgac caatatggtg aaaccccatc 50650

tgtactaaaa atacaaaaat tagccaggtg tggtggcaca cgcctgtagt 50700

cccagctact tgggaggctg agacaggaga attacttgaa aacctgggag 50750

gcggaggttg cagtgagccg agatcacgcc attgtactcc agcctgggct 50800

acagagcgag actccttcaa aaaaaaaaaa aaaaaaagat ccggtttggt 50850

gtcttacaac tgtaatccca gcactttggg aggccgaggc cggtggatca 50900

cgaggttaag agatcaagac catcctgacc aacatggtga aaccctgtct 50950

ctactaaaaa ttagctgggc gtggtggcag gcgcctgtag tcccagctcc 51000

tcaggaggct gaggcagaag aatcgcttga acccgggagg cggaagttgc 51050

agtgagccta gatcgcgccc ctgcactcca gcctggcaac agagcaagac 51100

tacgtctcaa aaaaaaaata aataaaaact ctagagaagc aaaaagaata 51150

actttaaaag tgtttatgtt ctcagcaagc tttattttgg ggatgtcaga 51200

acttaactaa ccactgctcc ttctgtgtgt atgtttttcc tccagcctac 51250

cttatgttca gtattttgga ggtgtctctg ctctaagtaa acaacagttt 51300

ctaaccatca atggatttcc taataattat tggggctggg gaggagaaga 51350

tgatgacatt tttaacaggt aatggtcata acttagatat ctttctcctc 51400

tgtcaacctt cacttccagt tttttaacca atgcttggtt gttccccaag 51450

gactgaccct cagatgggat gcacccctag tcagcccaca ttcttaggtg 51500

tggcttccta caggtcctgc aggtgctaaa agggatctgt aggaaaatga 51550

gtttctgaga tttttgtatt ggcctggaaa aatgtcaaat gggaaccaag 51600

tgacggggca agtttacttt gacttgctgc atgccgtttt gtactcaagg 51650

agtaaaccaa tgtcctttgt aaaaatccct cctttcatta tggtcccctt 51700

tcactgtgaa acaagtttcc ttgagcagaa tcctaactgt cttcacagaa 51750

gctttgtgtt atatttttat tttggagtat tttcacatat acaaaagaga 51800

tactgtagta taataaacct ttgaggacct atccagcccc agcaaccatt 51850

atggcctggt cagttctgtc ccatccacat cctggggctc tttttaagct 51900

ggtaaatcat tatgatgtgg gttgtcattt acagtggtaa aaaacatcta 51950

tcagtagcat ttgaaagaac attctgctca gtcctctggc tgtagaggct 52000

tcaaccccac cagccaccga tgagcacctt ctccctccag gagccagtct 52050

gagctcatta ctgagtttaa tatcagaata caccctggtg cagcctttct 52100

aaattgcagt accagttaac agaaggtgtc tgtcagagca acacccaagt 52150

cattcaagtt accattgtgt gcaaacttaa cagagaccca cgtcttcaat 52200

ataagccttg aaggaaactc cagttttagt atgtagatgg ggtatcaagt 52250

gtgtgcacat tgaacatctg ctgcatacag agcactgtgc caggcaggcc 52300

caggacactg aaaacctgga catagggtcc agacagaagc aagcctgctt 52350

ccacagaggc actcctgggc agacactctg gactgatatg acagtgtgca 52400

gggccgacag gataccacag gtctgaatgg tcagaacagc tggggaggga 52450

gggagcatcc gcaggcatct agtcccatgc taacgcagtg gcactagaag 52500

gatgggtggt gtgtggagca actttcttga aagataaagg acctaacact 52550

ttctatgcac cacttactgt gtgccaggca aggccaggaa tgtttaagtg 52600

gtctgggatc agccagttct gcctcttaac taactttgct gtcctgctct 52650

ccaggctttc attttggtcc tcattccttt tccttggacc aacacagaat 52700

cctccaccct gttctggctg cctctagtct tgttctcagc cctccatttg 52750

tttttttctg ccttttccca catgttctga agccctccat tcgtatacta 52800

ctttccagag acttccccat ggctaaaagc attttggaaa tactgtatat 52850

taggcccctt tcagatactg gcaaccgttt gtgggatgct ctgagaaggc 52900

ctctgtgact tagcctggcc cttttcagcc catcacctgc cacgtcctac 52950

cccagaccct tgtcaccagt ccccaggagc ttacgttgct ccctgagggc 53000

actaggcttg ctctcacttc catgcctttg cctgtgccat cctggctgcc 53050

caaaatgcta tggcagatac ctgttcatcc tcaactgggc tctgcctagg 53100

cttgctccag cagaggttac aaactctatg cttcttcctc tgtgtctcca 53150

acctcatctt cctcttctca cctccatcct ggccctaaag gccctatgtt 53200

tgaagcattc acactgtata ttctgtgggg cacacggccc cagtgtctgg 53250

cacatggtag tcaacaccac aaaccgcaga accagttgta aaaggacatg 53300

gagtcggaat gtgagtttta accagggtca tgctgggctg ggttctggca 53350

tgatgctggg ttgtgggctg agtgagaaca gcaagggtga tggtggatgg 53400

agcaacagtc ttgcagccgg ggctctcagg ccaagtgtat ggcagctctg 53450

tgataatgac tttcccttta ctctttgcag attagttttt agaggcatgt 53500

ctatatctcg cccaaatgct gtggtcggga ggtgtcgcat gatccgccac 53550

tcaagagaca agaaaaatga acccagtcct cagaggtgca ttctttgttt 53600

attcatactc cttccccctt taggatgagg taggctgcag gtccgaggct 53650

ctgggcctag agggaaattg aggtggtcag gttacagtgg agagggagga 53700

ggaagtacgt gtgatgattt cttcttaaga tttttgtttt aagacaatct 53750

ccttgtgctc ttttccttgt aggtttgacc gaattgcaca cacaaaggag 53800

acaatgctct ctgatggttt gaactcactc acctaccagg tgctggatgt 53850

acagagatac ccattgtata cccaaatcac agtggacatc gggacaccga 53900

gctagcgttt tggtacacgg ataagagacc tgaaattagc cagggacctc 53950

tgctgtgtgt ctctgccaat ctgctgggct ggtccctctc atttttacca 54000

gtctgagtga caggtcccct tcgctcatca ttcagatggc tttccagatg 54050

accaggacga gtgggatatt ttgcccccaa cttggctcgg catgtgaatt 54100

cttagctctg caaggtgttt atgcctttgc gggtttcttg atgtgttcgc 54150

agtgtcaccc cagagtcaga actgtacaca tcccaaaatt tggtggccgt 54200

ggaacacatt cccggtgata gaattgctaa attgtcgtga aataggttag 54250

aatttttctt taaattatgg ttttcttatt cgtgaaaatt cggagagtgc 54300

tgctaaaatt ggattggtgt gatctttttg gtagttgtaa tttaacagaa 54350

aaacacaaaa tttcaaccat tcttaatgtt acgtcctccc cccaccccct 54400

tctttcagtg gtatgcaacc actgcaatca ctgtgcatat gtcttttctt 54450

agcaaaagga ttttaaaact tgagccctgg accttttgtc ctatgtgtgt 54500

ggattccagg gcaactctag catcagagca aaagccttgg gtttctcgca 54550

ttcagtggcc tatctccaga ttgtctgatt tctgaatgta aagttgttgt 54600

gttttttttt aaatagtagt ttgtagtatt ttaaagaaag aacagatcga 54650

gttctaatta tgatctagct tgattttgtg ttgatccaaa tttgcatagc 54700

tgtttaatgt taagtcatga caatttattt ttcttggcat gctatgtaaa 54750

cttgaatttc ctatgtattt ttattgtggt gttttaaata tggggagggg 54800

tattgagcat tttttaggga gaaaaataaa tatatgctgt agtggccaca 54850

aataggccta tgatttagct ggcaggccag gttttctcaa gagcaaaatc 54900

accctctggc cccttggcag gtaaggcctc ccggtcagca ttatcctgcc 54950

agacctcggg gaggatacct gggagacaga agcctctgca cctactgtgc 55000

agaactctcc acttccccaa ccctccccag gtgggcaggg cggagggagc 55050

ctcagcctcc ttagactgac ccctcaggcc cctaggctgg ggggttgtaa 55100

ataacagcag tcaggttgtt taccagccct ttgcacctcc ccaggcagag 55150

ggagcctctg ttctggtggg ggccacctcc ctcagaggct ctgctagcca 55200

cactccgtgg cccacccttt gttaccagtt cttcctcctt cctcttttcc 55250

cctgcctttc tcattccttc cttcgtctcc ctttttgttc ctttgcctct 55300

tgcctgtccc ctaaaacttg actgtggcac tcagggtcaa acagactatc 55350

cattccccag catgaatgtg ccttttaatt agtgatctag aaagaagttc 55400

agccgaaccc acaccccaac tccctcccaa gaacttcggt gcctaaagcc 55450

tcctgttcca cctcaggttt tcacaggtgc tcccacccca gttgaggctc 55500

ccacccacag ggctgtctgt cacaaaccca cctctgttgg gagctattga 55550

gccacctggg atgagatgac acaaggcact cctaccactg agcgcctttg 55600

ccaggtccag cctgggctca ggttccaaga ctcagctgcc taatcccagg 55650

gttgagcctt gtgctcgtgg cggaccccaa accactgccc tcctgggtac 55700

cagccctcag tgtggaggct gagctggtgc ctggccccag tcttatctgt 55750

gcctttactg ctttgcgcat ctcagatgct aacttggttc tttttccaga 55800

agcctttgta ttggttaaaa attattttcc attgcagaag cagctggact 55850

atgcaaaaag tatttctctg tcagttcccc actctatacc aaggatatta 55900

ttaaaactag aaatgactgc attgagaggg agttgtggga aataagaaga 55950

atgaaagcct ctctttctgt ccgcagatcc tgacttttcc aaagtgcctt 56000

aaaagaaatc agacaaatgc cctgagtggt aacttctgtg ttattttact 56050

cttaaaacca aactctacct tttcttgttg tttttttttt tttttttttt 56100

ttttttttgg ttaccttctc attcatgtca agtatgtggt tcattcttag 56150

aaccaaggga aatactgctc cccccatttg ctgacgtagt gctctcatgg 56200

gctcacctgg gcccaaggca cagccagggc acagttaggc ctggatgttt 56250

gcctggtccg tgagatgccg cgggtcctgt ttccttactg gggatttcag 56300

ggctgggggt tcagggagca tttccttttc ctgggagtta tgaccgcgaa 56350

gttgtcatgt gccgtgccct tttctgtttc tgtgtatcct attgctggtg 56400

actctgtgtg aactggcctt tgggaaagat cagagagggc agaggtggca 56450

caggacagta aaggagatgc tgtgctggcc ttcagcctgg acagggtctc 56500

tgctgactgc caggggcggg ggctctgcat agccaggatg acggctttca 56550

tgtcccagag acctgttgtg ctgtgtattt tgatttcctg tgtatgcaaa 56600

tgtgtgtatt taccattgtg tagggggctg tgtctgatct tggtgttcaa 56650

aacagaactg tatttttgcc tttaaaatta aataatataa cgtgaataaa 56700

tgaccctatc tttgtaac 56718

<210> 3

<211> 4214

<212> ДНК

<213> Homo sapien

<220>

<223> последовательность мРНК B4GALT1 дикого типа

<400> 3

gcgccucggg cggcuucucg ccgcucccag gucuggcugg cuggaggagu 50

cucagcucuc agccgcucgc ccgcccccgc uccgggcccu ccccuagucg 100

ccgcuguggg gcagcgccug gcgggcggcc cgcgggcggg ucgccucccc 150

uccuguagcc cacacccuuc uuaaagcggc ggcgggaaga ugaggcuucg 200

ggagccgcuc cugagcggca gcgccgcgau gccaggcgcg ucccuacagc 250

gggccugccg ccugcucgug gccgucugcg cucugcaccu uggcgucacc 300

cucguuuacu accuggcugg ccgcgaccug agccgccugc cccaacuggu 350

cggagucucc acaccgcugc agggcggcuc gaacagugcc gccgccaucg 400

ggcaguccuc cggggagcuc cggaccggag gggcccggcc gccgccuccu 450

cuaggcgccu ccucccagcc gcgcccgggu ggcgacucca gcccagucgu 500

ggauucuggc ccuggccccg cuagcaacuu gaccucgguc ccagugcccc 550

acaccaccgc acugucgcug cccgccugcc cugaggaguc cccgcugcuu 600

gugggcccca ugcugauuga guuuaacaug ccuguggacc uggagcucgu 650

ggcaaagcag aacccaaaug ugaagauggg cggccgcuau gcccccaggg 700

acugcgucuc uccucacaag guggccauca ucauuccauu ccgcaaccgg 750

caggagcacc ucaaguacug gcuauauuau uugcacccag uccugcagcg 800

ccagcagcug gacuauggca ucuauguuau caaccaggcg ggagacacua 850

uauucaaucg ugcuaagcuc cucaauguug gcuuucaaga agccuugaag 900

gacuaugacu acaccugcuu uguguuuagu gacguggacc ucauuccaau 950

gaaugaccau aaugcguaca gguguuuuuc acagccacgg cacauuuccg 1000

uugcaaugga uaaguuugga uucagccuac cuuauguuca guauuuugga 1050

ggugucucug cucuaaguaa acaacaguuu cuaaccauca auggauuucc 1100

uaauaauuau uggggcuggg gaggagaaga ugaugacauu uuuaacagau 1150

uaguuuuuag aggcaugucu auaucucgcc caaaugcugu ggucgggagg 1200

ugucgcauga uccgccacuc aagagacaag aaaaaugaac ccaauccuca 1250

gagguuugac cgaauugcac acacaaagga gacaaugcuc ucugaugguu 1300

ugaacucacu caccuaccag gugcuggaug uacagagaua cccauuguau 1350

acccaaauca caguggacau cgggacaccg agcuagcguu uugguacacg 1400

gauaagagac cugaaauuag ccagggaccu cugcugugug ucucugccaa 1450

ucugcugggc uggucccucu cauuuuuacc agucugagug acaggucccc 1500

uucgcucauc auucagaugg cuuuccagau gaccaggacg agugggauau 1550

uuugccccca acuuggcucg gcaugugaau ucuuagcucu gcaagguguu 1600

uaugccuuug cggguuucuu gauguguucg cagugucacc ccagagucag 1650

aacuguacac aucccaaaau uugguggccg uggaacacau ucccggugau 1700

agaauugcua aauugucgug aaauagguua gaauuuuucu uuaaauuaug 1750

guuuucuuau ucgugaaaau ucggagagug cugcuaaaau uggauuggug 1800

ugaucuuuuu gguaguugua auuuaacaga aaaacacaaa auuucaacca 1850

uucuuaaugu uacguccucc ccccaccccc uucuuucagu gguaugcaac 1900

cacugcaauc acugugcaua ugucuuuucu uagcaaaagg auuuuaaaac 1950

uugagcccug gaccuuuugu ccuaugugug uggauuccag ggcaacucua 2000

gcaucagagc aaaagccuug gguuucucgc auucaguggc cuaucuccag 2050

auugucugau uucugaaugu aaaguuguug uguuuuuuuu uaaauaguag 2100

uuuguaguau uuuaaagaaa gaacagaucg aguucuaauu augaucuagc 2150

uugauuuugu guugauccaa auuugcauag cuguuuaaug uuaagucaug 2200

acaauuuauu uuucuuggca ugcuauguaa acuugaauuu ccuauguauu 2250

uuuauugugg uguuuuaaau auggggaggg guauugagca uuuuuuaggg 2300

agaaaaauaa auauaugcug uaguggccac aaauaggccu augauuuagc 2350

uggcaggcca gguuuucuca agagcaaaau cacccucugg ccccuuggca 2400

gguaaggccu cccggucagc auuauccugc cagaccucgg ggaggauacc 2450

ugggagacag aagccucugc accuacugug cagaacucuc cacuucccca 2500

acccucccca ggugggcagg gcggagggag ccucagccuc cuuagacuga 2550

ccccucaggc cccuaggcug ggggguugua aauaacagca gucagguugu 2600

uuaccagccc uuugcaccuc cccaggcaga gggagccucu guucuggugg 2650

gggccaccuc ccucagaggc ucugcuagcc acacuccgug gcccacccuu 2700

uguuaccagu ucuuccuccu uccucuuuuc cccugccuuu cucauuccuu 2750

ccuucgucuc ccuuuuuguu ccuuugccuc uugccugucc ccuaaaacuu 2800

gacuguggca cucaggguca aacagacuau ccauucccca gcaugaaugu 2850

gccuuuuaau uagugaucua gaaagaaguu cagccgaacc cacaccccaa 2900

cucccuccca agaacuucgg ugccuaaagc cuccuguucc accucagguu 2950

uucacaggug cucccacccc aguugaggcu cccacccaca gggcugucug 3000

ucacaaaccc accucuguug ggagcuauug agccaccugg gaugagauga 3050

cacaaggcac uccuaccacu gagcgccuuu gccaggucca gccugggcuc 3100

agguuccaag acucagcugc cuaaucccag gguugagccu ugugcucgug 3150

gcggacccca aaccacugcc cuccugggua ccagcccuca guguggaggc 3200

ugagcuggug ccuggcccca gucuuaucug ugccuuuacu gcuuugcgca 3250

ucucagaugc uaacuugguu cuuuuuccag aagccuuugu auugguuaaa 3300

aauuauuuuc cauugcagaa gcagcuggac uaugcaaaaa guauuucucu 3350

gucaguuccc cacucuauac caaggauauu auuaaaacua gaaaugacug 3400

cauugagagg gaguuguggg aaauaagaag aaugaaagcc ucucuuucug 3450

uccgcagauc cugacuuuuc caaagugccu uaaaagaaau cagacaaaug 3500

cccugagugg uaacuucugu guuauuuuac ucuuaaaacc aaacucuacc 3550

uuuucuuguu guuuuuuuuu uuuuuuuuuu uuuuuuuuug guuaccuucu 3600

cauucauguc aaguaugugg uucauucuua gaaccaaggg aaauacugcu 3650

ccccccauuu gcugacguag ugcucucaug ggcucaccug ggcccaaggc 3700

acagccaggg cacaguuagg ccuggauguu ugccuggucc gugagaugcc 3750

gcggguccug uuuccuuacu ggggauuuca gggcuggggg uucagggagc 3800

auuuccuuuu ccugggaguu augaccgcga aguugucaug ugccgugccc 3850

uuuucuguuu cuguguaucc uauugcuggu gacucugugu gaacuggccu 3900

uugggaaaga ucagagaggg cagagguggc acaggacagu aaaggagaug 3950

cugugcuggc cuucagccug gacagggucu cugcugacug ccaggggcgg 4000

gggcucugca uagccaggau gacggcuuuc augucccaga gaccuguugu 4050

gcuguguauu uugauuuccu guguaugcaa auguguguau uuaccauugu 4100

guagggggcu gugucugauc uugguguuca aaacagaacu guauuuuugc 4150

cuuuaaaauu aaauaauaua acgugaauaa augacccuau cuuuguaaca 4200

aaaaaaaaaa aaaa 4214

<210> 4

<211> 4214

<212> ДНК

<213> Homo sapien

<220>

<223> последовательность мРНК варианта B4GALT1

<400> 4

gcgccucggg cggcuucucg ccgcucccag gucuggcugg cuggaggagu 50

cucagcucuc agccgcucgc ccgcccccgc uccgggcccu ccccuagucg 100

ccgcuguggg gcagcgccug gcgggcggcc cgcgggcggg ucgccucccc 150

uccuguagcc cacacccuuc uuaaagcggc ggcgggaaga ugaggcuucg 200

ggagccgcuc cugagcggca gcgccgcgau gccaggcgcg ucccuacagc 250

gggccugccg ccugcucgug gccgucugcg cucugcaccu uggcgucacc 300

cucguuuacu accuggcugg ccgcgaccug agccgccugc cccaacuggu 350

cggagucucc acaccgcugc agggcggcuc gaacagugcc gccgccaucg 400

ggcaguccuc cggggagcuc cggaccggag gggcccggcc gccgccuccu 450

cuaggcgccu ccucccagcc gcgcccgggu ggcgacucca gcccagucgu 500

ggauucuggc ccuggccccg cuagcaacuu gaccucgguc ccagugcccc 550

acaccaccgc acugucgcug cccgccugcc cugaggaguc cccgcugcuu 600

gugggcccca ugcugauuga guuuaacaug ccuguggacc uggagcucgu 650

ggcaaagcag aacccaaaug ugaagauggg cggccgcuau gcccccaggg 700

acugcgucuc uccucacaag guggccauca ucauuccauu ccgcaaccgg 750

caggagcacc ucaaguacug gcuauauuau uugcacccag uccugcagcg 800

ccagcagcug gacuauggca ucuauguuau caaccaggcg ggagacacua 850

uauucaaucg ugcuaagcuc cucaauguug gcuuucaaga agccuugaag 900

gacuaugacu acaccugcuu uguguuuagu gacguggacc ucauuccaau 950

gaaugaccau aaugcguaca gguguuuuuc acagccacgg cacauuuccg 1000

uugcaaugga uaaguuugga uucagccuac cuuauguuca guauuuugga 1050

ggugucucug cucuaaguaa acaacaguuu cuaaccauca auggauuucc 1100

uaauaauuau uggggcuggg gaggagaaga ugaugacauu uuuaacagau 1150

uaguuuuuag aggcaugucu auaucucgcc caaaugcugu ggucgggagg 1200

ugucgcauga uccgccacuc aagagacaag aaaaaugaac ccaguccuca 1250

gagguuugac cgaauugcac acacaaagga gacaaugcuc ucugaugguu 1300

ugaacucacu caccuaccag gugcuggaug uacagagaua cccauuguau 1350

acccaaauca caguggacau cgggacaccg agcuagcguu uugguacacg 1400

gauaagagac cugaaauuag ccagggaccu cugcugugug ucucugccaa 1450

ucugcugggc uggucccucu cauuuuuacc agucugagug acaggucccc 1500

uucgcucauc auucagaugg cuuuccagau gaccaggacg agugggauau 1550

uuugccccca acuuggcucg gcaugugaau ucuuagcucu gcaagguguu 1600

uaugccuuug cggguuucuu gauguguucg cagugucacc ccagagucag 1650

aacuguacac aucccaaaau uugguggccg uggaacacau ucccggugau 1700

agaauugcua aauugucgug aaauagguua gaauuuuucu uuaaauuaug 1750

guuuucuuau ucgugaaaau ucggagagug cugcuaaaau uggauuggug 1800

ugaucuuuuu gguaguugua auuuaacaga aaaacacaaa auuucaacca 1850

uucuuaaugu uacguccucc ccccaccccc uucuuucagu gguaugcaac 1900

cacugcaauc acugugcaua ugucuuuucu uagcaaaagg auuuuaaaac 1950

uugagcccug gaccuuuugu ccuaugugug uggauuccag ggcaacucua 2000

gcaucagagc aaaagccuug gguuucucgc auucaguggc cuaucuccag 2050

auugucugau uucugaaugu aaaguuguug uguuuuuuuu uaaauaguag 2100

uuuguaguau uuuaaagaaa gaacagaucg aguucuaauu augaucuagc 2150

uugauuuugu guugauccaa auuugcauag cuguuuaaug uuaagucaug 2200

acaauuuauu uuucuuggca ugcuauguaa acuugaauuu ccuauguauu 2250

uuuauugugg uguuuuaaau auggggaggg guauugagca uuuuuuaggg 2300

agaaaaauaa auauaugcug uaguggccac aaauaggccu augauuuagc 2350

uggcaggcca gguuuucuca agagcaaaau cacccucugg ccccuuggca 2400

gguaaggccu cccggucagc auuauccugc cagaccucgg ggaggauacc 2450

ugggagacag aagccucugc accuacugug cagaacucuc cacuucccca 2500

acccucccca ggugggcagg gcggagggag ccucagccuc cuuagacuga 2550

ccccucaggc cccuaggcug ggggguugua aauaacagca gucagguugu 2600

uuaccagccc uuugcaccuc cccaggcaga gggagccucu guucuggugg 2650

gggccaccuc ccucagaggc ucugcuagcc acacuccgug gcccacccuu 2700

uguuaccagu ucuuccuccu uccucuuuuc cccugccuuu cucauuccuu 2750

ccuucgucuc ccuuuuuguu ccuuugccuc uugccugucc ccuaaaacuu 2800

gacuguggca cucaggguca aacagacuau ccauucccca gcaugaaugu 2850

gccuuuuaau uagugaucua gaaagaaguu cagccgaacc cacaccccaa 2900

cucccuccca agaacuucgg ugccuaaagc cuccuguucc accucagguu 2950

uucacaggug cucccacccc aguugaggcu cccacccaca gggcugucug 3000

ucacaaaccc accucuguug ggagcuauug agccaccugg gaugagauga 3050

cacaaggcac uccuaccacu gagcgccuuu gccaggucca gccugggcuc 3100

agguuccaag acucagcugc cuaaucccag gguugagccu ugugcucgug 3150

gcggacccca aaccacugcc cuccugggua ccagcccuca guguggaggc 3200

ugagcuggug ccuggcccca gucuuaucug ugccuuuacu gcuuugcgca 3250

ucucagaugc uaacuugguu cuuuuuccag aagccuuugu auugguuaaa 3300

aauuauuuuc cauugcagaa gcagcuggac uaugcaaaaa guauuucucu 3350

gucaguuccc cacucuauac caaggauauu auuaaaacua gaaaugacug 3400

cauugagagg gaguuguggg aaauaagaag aaugaaagcc ucucuuucug 3450

uccgcagauc cugacuuuuc caaagugccu uaaaagaaau cagacaaaug 3500

cccugagugg uaacuucugu guuauuuuac ucuuaaaacc aaacucuacc 3550

uuuucuuguu guuuuuuuuu uuuuuuuuuu uuuuuuuuug guuaccuucu 3600

cauucauguc aaguaugugg uucauucuua gaaccaaggg aaauacugcu 3650

ccccccauuu gcugacguag ugcucucaug ggcucaccug ggcccaaggc 3700

acagccaggg cacaguuagg ccuggauguu ugccuggucc gugagaugcc 3750

gcggguccug uuuccuuacu ggggauuuca gggcuggggg uucagggagc 3800

auuuccuuuu ccugggaguu augaccgcga aguugucaug ugccgugccc 3850

uuuucuguuu cuguguaucc uauugcuggu gacucugugu gaacuggccu 3900

uugggaaaga ucagagaggg cagagguggc acaggacagu aaaggagaug 3950

cugugcuggc cuucagccug gacagggucu cugcugacug ccaggggcgg 4000

gggcucugca uagccaggau gacggcuuuc augucccaga gaccuguugu 4050

gcuguguauu uugauuuccu guguaugcaa auguguguau uuaccauugu 4100

guagggggcu gugucugauc uugguguuca aaacagaacu guauuuuugc 4150

cuuuaaaauu aaauaauaua acgugaauaa augacccuau cuuuguaaca 4200

aaaaaaaaaa aaaa 4214

<210> 5

<211> 1197

<212> ДНК

<213> Homo sapien

<220>

<223> последовательность кДНК B4GALT1 дикого типа

<400> 5

atgaggcttc gggagccgct cctgagcggc agcgccgcga tgccaggcgc 50

gtccctacag cgggcctgcc gcctgctcgt ggccgtctgc gctctgcacc 100

ttggcgtcac cctcgtttac tacctggctg gccgcgacct gagccgcctg 150

ccccaactgg tcggagtctc cacaccgctg cagggcggct cgaacagtgc 200

cgccgccatc gggcagtcct ccggggagct ccggaccgga ggggcccggc 250

cgccgcctcc tctaggcgcc tcctcccagc cgcgcccggg tggcgactcc 300

agcccagtcg tggattctgg ccctggcccc gctagcaact tgacctcggt 350

cccagtgccc cacaccaccg cactgtcgct gcccgcctgc cctgaggagt 400

ccccgctgct tgtgggcccc atgctgattg agtttaacat gcctgtggac 450

ctggagctcg tggcaaagca gaacccaaat gtgaagatgg gcggccgcta 500

tgcccccagg gactgcgtct ctcctcacaa ggtggccatc atcattccat 550

tccgcaaccg gcaggagcac ctcaagtact ggctatatta tttgcaccca 600

gtcctgcagc gccagcagct ggactatggc atctatgtta tcaaccaggc 650

gggagacact atattcaatc gtgctaagct cctcaatgtt ggctttcaag 700

aagccttgaa ggactatgac tacacctgct ttgtgtttag tgacgtggac 750

ctcattccaa tgaatgacca taatgcgtac aggtgttttt cacagccacg 800

gcacatttcc gttgcaatgg ataagtttgg attcagccta ccttatgttc 850

agtattttgg aggtgtctct gctctaagta aacaacagtt tctaaccatc 900

aatggatttc ctaataatta ttggggctgg ggaggagaag atgatgacat 950

ttttaacaga ttagttttta gaggcatgtc tatatctcgc ccaaatgctg 1000

tggtcgggag gtgtcgcatg atccgccact caagagacaa gaaaaatgaa 1050

cccaatcctc agaggtttga ccgaattgca cacacaaagg agacaatgct 1100

ctctgatggt ttgaactcac tcacctacca ggtgctggat gtacagagat 1150

acccattgta tacccaaatc acagtggaca tcgggacacc gagctag 1197

<210> 6

<211> 1197

<212> ДНК

<213> Homo sapien

<220>

<223> последовательность кДНК варианта B4GALT1

<400> 6

atgaggcttc gggagccgct cctgagcggc agcgccgcga tgccaggcgc 50

gtccctacag cgggcctgcc gcctgctcgt ggccgtctgc gctctgcacc 100

ttggcgtcac cctcgtttac tacctggctg gccgcgacct gagccgcctg 150

ccccaactgg tcggagtctc cacaccgctg cagggcggct cgaacagtgc 200

cgccgccatc gggcagtcct ccggggagct ccggaccgga ggggcccggc 250

cgccgcctcc tctaggcgcc tcctcccagc cgcgcccggg tggcgactcc 300

agcccagtcg tggattctgg ccctggcccc gctagcaact tgacctcggt 350

cccagtgccc cacaccaccg cactgtcgct gcccgcctgc cctgaggagt 400

ccccgctgct tgtgggcccc atgctgattg agtttaacat gcctgtggac 450

ctggagctcg tggcaaagca gaacccaaat gtgaagatgg gcggccgcta 500

tgcccccagg gactgcgtct ctcctcacaa ggtggccatc atcattccat 550

tccgcaaccg gcaggagcac ctcaagtact ggctatatta tttgcaccca 600

gtcctgcagc gccagcagct ggactatggc atctatgtta tcaaccaggc 650

gggagacact atattcaatc gtgctaagct cctcaatgtt ggctttcaag 700

aagccttgaa ggactatgac tacacctgct ttgtgtttag tgacgtggac 750

ctcattccaa tgaatgacca taatgcgtac aggtgttttt cacagccacg 800

gcacatttcc gttgcaatgg ataagtttgg attcagccta ccttatgttc 850

agtattttgg aggtgtctct gctctaagta aacaacagtt tctaaccatc 900

aatggatttc ctaataatta ttggggctgg ggaggagaag atgatgacat 950

ttttaacaga ttagttttta gaggcatgtc tatatctcgc ccaaatgctg 1000

tggtcgggag gtgtcgcatg atccgccact caagagacaa gaaaaatgaa 1050

cccagtcctc agaggtttga ccgaattgca cacacaaagg agacaatgct 1100

ctctgatggt ttgaactcac tcacctacca ggtgctggat gtacagagat 1150

acccattgta tacccaaatc acagtggaca tcgggacacc gagctag 1197

<210> 7

<211> 398

<212> БЕЛОК

<213> Homo sapien

<220>

<223> последовательность B4GALT1 дикого типа

<400> 7

Met Arg Leu Arg Glu Pro Leu Leu Ser Gly Ser Ala Ala Met Pro Gly

1 5 10 15

Ala Ser Leu Gln Arg Ala Cys Arg Leu Leu Val Ala Val Cys Ala Leu

20 25 30

His Leu Gly Val Thr Leu Val Tyr Tyr Leu Ala Gly Arg Asp Leu Ser

35 40 45

Arg Leu Pro Gln Leu Val Gly Val Ser Thr Pro Leu Gln Gly Gly Ser

50 55 60

Asn Ser Ala Ala Ala Ile Gly Gln Ser Ser Gly Glu Leu Arg Thr Gly

65 70 75 80

Gly Ala Arg Pro Pro Pro Pro Leu Gly Ala Ser Ser Gln Pro Arg Pro

85 90 95

Gly Gly Asp Ser Ser Pro Val Val Asp Ser Gly Pro Gly Pro Ala Ser

100 105 110

Asn Leu Thr Ser Val Pro Val Pro His Thr Thr Ala Leu Ser Leu Pro

115 120 125

Ala Cys Pro Glu Glu Ser Pro Leu Leu Val Gly Pro Met Leu Ile Glu

130 135 140

Phe Asn Met Pro Val Asp Leu Glu Leu Val Ala Lys Gln Asn Pro Asn

145 150 155 160

Val Lys Met Gly Gly Arg Tyr Ala Pro Arg Asp Cys Val Ser Pro His

165 170 175

Lys Val Ala Ile Ile Ile Pro Phe Arg Asn Arg Gln Glu His Leu Lys

180 185 190

Tyr Trp Leu Tyr Tyr Leu His Pro Val Leu Gln Arg Gln Gln Leu Asp

195 200 205

Tyr Gly Ile Tyr Val Ile Asn Gln Ala Gly Asp Thr Ile Phe Asn Arg

210 215 220

Ala Lys Leu Leu Asn Val Gly Phe Gln Glu Ala Leu Lys Asp Tyr Asp

225 230 235 240

Tyr Thr Cys Phe Val Phe Ser Asp Val Asp Leu Ile Pro Met Asn Asp

245 250 255

His Asn Ala Tyr Arg Cys Phe Ser Gln Pro Arg His Ile Ser Val Ala

260 265 270

Met Asp Lys Phe Gly Phe Ser Leu Pro Tyr Val Gln Tyr Phe Gly Gly

275 280 285

Val Ser Ala Leu Ser Lys Gln Gln Phe Leu Thr Ile Asn Gly Phe Pro

290 295 300

Asn Asn Tyr Trp Gly Trp Gly Gly Glu Asp Asp Asp Ile Phe Asn Arg

305 310 315 320

Leu Val Phe Arg Gly Met Ser Ile Ser Arg Pro Asn Ala Val Val Gly

325 330 335

Arg Cys Arg Met Ile Arg His Ser Arg Asp Lys Lys Asn Glu Pro Asn

340 345 350

Pro Gln Arg Phe Asp Arg Ile Ala His Thr Lys Glu Thr Met Leu Ser

355 360 365

Asp Gly Leu Asn Ser Leu Thr Tyr Gln Val Leu Asp Val Gln Arg Tyr

370 375 380

Pro Leu Tyr Thr Gln Ile Thr Val Asp Ile Gly Thr Pro Ser

385 390 395

<210> 8

<211> 398

<212> БЕЛОК

<213> Homo sapien

<220>

<223> последовательность варианта B4GALT1

<400> 8

Met Arg Leu Arg Glu Pro Leu Leu Ser Gly Ser Ala Ala Met Pro Gly

1 5 10 15

Ala Ser Leu Gln Arg Ala Cys Arg Leu Leu Val Ala Val Cys Ala Leu

20 25 30

His Leu Gly Val Thr Leu Val Tyr Tyr Leu Ala Gly Arg Asp Leu Ser

35 40 45

Arg Leu Pro Gln Leu Val Gly Val Ser Thr Pro Leu Gln Gly Gly Ser

50 55 60

Asn Ser Ala Ala Ala Ile Gly Gln Ser Ser Gly Glu Leu Arg Thr Gly

65 70 75 80

Gly Ala Arg Pro Pro Pro Pro Leu Gly Ala Ser Ser Gln Pro Arg Pro

85 90 95

Gly Gly Asp Ser Ser Pro Val Val Asp Ser Gly Pro Gly Pro Ala Ser

100 105 110

Asn Leu Thr Ser Val Pro Val Pro His Thr Thr Ala Leu Ser Leu Pro

115 120 125

Ala Cys Pro Glu Glu Ser Pro Leu Leu Val Gly Pro Met Leu Ile Glu

130 135 140

Phe Asn Met Pro Val Asp Leu Glu Leu Val Ala Lys Gln Asn Pro Asn

145 150 155 160

Val Lys Met Gly Gly Arg Tyr Ala Pro Arg Asp Cys Val Ser Pro His

165 170 175

Lys Val Ala Ile Ile Ile Pro Phe Arg Asn Arg Gln Glu His Leu Lys

180 185 190

Tyr Trp Leu Tyr Tyr Leu His Pro Val Leu Gln Arg Gln Gln Leu Asp

195 200 205

Tyr Gly Ile Tyr Val Ile Asn Gln Ala Gly Asp Thr Ile Phe Asn Arg

210 215 220

Ala Lys Leu Leu Asn Val Gly Phe Gln Glu Ala Leu Lys Asp Tyr Asp

225 230 235 240

Tyr Thr Cys Phe Val Phe Ser Asp Val Asp Leu Ile Pro Met Asn Asp

245 250 255

His Asn Ala Tyr Arg Cys Phe Ser Gln Pro Arg His Ile Ser Val Ala

260 265 270

Met Asp Lys Phe Gly Phe Ser Leu Pro Tyr Val Gln Tyr Phe Gly Gly

275 280 285

Val Ser Ala Leu Ser Lys Gln Gln Phe Leu Thr Ile Asn Gly Phe Pro

290 295 300

Asn Asn Tyr Trp Gly Trp Gly Gly Glu Asp Asp Asp Ile Phe Asn Arg

305 310 315 320

Leu Val Phe Arg Gly Met Ser Ile Ser Arg Pro Asn Ala Val Val Gly

325 330 335

Arg Cys Arg Met Ile Arg His Ser Arg Asp Lys Lys Asn Glu Pro Ser

340 345 350

Pro Gln Arg Phe Asp Arg Ile Ala His Thr Lys Glu Thr Met Leu Ser

355 360 365

Asp Gly Leu Asn Ser Leu Thr Tyr Gln Val Leu Asp Val Gln Arg Tyr

370 375 380

Pro Leu Tyr Thr Gln Ile Thr Val Asp Ile Gly Thr Pro Ser

385 390 395

<210> 9

<211> 20

<212> ДНК

<213> Искусственная Последовательность

<220>

<223> последовательности распознавания направляющей РНК

<400> 9

attagttttt agaggcatgt 20

<210> 10

<211> 20

<212> ДНК

<213> Искусственная Последовательность

<220>

<223> последовательности распознавания направляющей РНК

<400> 10

ggctctcagg ccaagtgtat 20

<210> 11

<211> 20

<212> ДНК

<213> Искусственная Последовательность

<220>

<223> последовательности распознавания направляющей РНК

<400> 11

tactccttcc ccctttagga 20

<210> 12

<211> 20

<212> ДНК

<213> Искусственная Последовательность

<220>

<223> последовательности распознавания направляющей РНК

<400> 12

gtccgaggct ctgggcctag 20

<210> 13

<211> 6

<212> ДНК

<213> Искусственная Последовательность

<220>

<223> PAM для Cas9 из S. aureus

<220>

<221> n представляет собой A, G, C, или T

<222> (1) .. (2)

<220>

<221> r представляет собой A или G

<222> (4) .. (5)

<400> 13

nngrrt 6

<210> 14

<211> 5

<212> ДНК

<213> Искусственная Последовательность

<220>

<223> PAM для Cas9 из S. aureus

<220>

<221> n представляет собой A, G, C, или T

<222> (1) .. (2)

<220>

<221> r представляет собой A или G

<222> (4) .. (5)

<400> 14

nngrr 5

<210> 15

<211> 23

<212> ДНК

<213> Искусственная Последовательность

<220>

<223> целевой мотив предшествующий NGG узнаваемый белком Cas9

<220>

<221> n представляет собой A, G, C, или T

<222> (2) .. (21)

<400> 15

gnnnnnnnnn nnnnnnnnnn ngg 23

<210> 16

<211> 23

<212> ДНК

<213> Искусственная Последовательность

<220>

<223> целевой мотив предшествующий NGG узнаваемый белком Cas9

<220>

<221> n представляет собой A, G, C, или T

<222> (1) .. (21)

<400> 16

nnnnnnnnnn nnnnnnnnnn ngg 23

<210> 17

<211> 25

<212> ДНК

<213> Искусственная Последовательность

<220>

<223> последовательность распознавания РНК

<220>

<221> n представляет собой A, G, C, или T

<222> (3) .. (23)

<400> 17

ggnnnnnnnn nnnnnnnnnn nnngg 25

<---

Похожие патенты RU2805557C2

название год авторы номер документа
ЛЕЧЕНИЕ ОФТАЛЬМОЛОГИЧЕСКИХ ПАТОЛОГИЧЕСКИХ СОСТОЯНИЙ ИНГИБИТОРАМИ АНГИОПОЭТИН-ПОДОБНОГО БЕЛКА 7 (ANGPTL7) 2020
  • Правеен, Кавита
  • Шурманн, Клаудиа
  • Гурски, Лорен
  • Достал, Таня Теслович
  • Абекасис, Гонсало
  • Барас, Арис
  • Коппола, Джованни
RU2812912C2
ВАРИАНТЫ БЕЛКА, РОДСТВЕННОГО РЕЦЕПТОРУ ИНТЕРЛЕЙКИНА-1 И СОДЕРЖАЩЕГО ОДИНОЧНЫЙ ДОМЕН ИММУНОГЛОБУЛИНА (SIGIRR), И ИХ ПРИМЕНЕНИЕ 2018
  • Гонзага-Хауреги, Клаудиа Г.
  • Хоровиц, Джули
RU2815068C2
ЛЕЧЕНИЕ РЕСПИРАТОРНЫХ НАРУШЕНИЙ С ПОМОЩЬЮ ИНГИБИТОРОВ АРАХИДОНАТ 15-ЛИПОКСИГЕНАЗЫ (ALOX15) 2019
  • Хоровиц, Джули
  • Барас, Арис
RU2799084C2
ТЕРАПЕВТИЧЕСКИЕ СОЕДИНЕНИЯ ДЛЯ ЛЕЧЕНИЯ БОЛЕЗНИ ХАНТИНГТОНА 2015
  • Дейвидсон Беверли Л.
  • Мас Монтейс Алехандро
RU2711147C2
НОВЫЕ МИНИМАЛЬНЫЕ UTR-ПОСЛЕДОВАТЕЛЬНОСТИ 2017
  • Планк Кристиан
  • Рудольф Карстен
  • Анеджа Маниш Кумар
  • Вайсс Людвиг
RU2759737C2
СПОСОБ ПОЛУЧЕНИЯ РЕКОМБИНАНТНОГО ПОЛИПЕПТИДА 2012
  • Табути Хисахиро
  • Сугияма Томоя
RU2628310C2
ИЗОЛИРОВАННАЯ НУКЛЕИНОВАЯ КИСЛОТА, КОДИРУЮЩАЯ ПОЛИПЕПТИД TAG 7, ИЗОЛИРОВАННЫЙ ПОЛИПЕПТИД TAG 7, СПОСОБ ИНГИБИРОВАНИЯ РАЗВИТИЯ ОПУХОЛЕЙ У МЛЕКОПИТАЮЩИХ (ВАРИАНТЫ) И СПОСОБ ЛЕЧЕНИЯ РАКА У ЖИВОТНОГО(ВАРИАНТЫ) 1998
  • Георгиев Георгий
  • Киселев Сергей
  • Прохорчук Егор
  • Остерманн Элинборг
RU2238976C2
КОМПОЗИЦИИ И СПОСОБЫ ТЕРАПИИ И ДИАГНОСТИКИ РАКА МОЛОЧНОЙ ЖЕЛЕЗЫ 2001
  • Дзианг Юкиу
  • Диллон Дэвин К.
  • Митчам Дженнифер Л.
  • Ксу Дзиангчун
  • Харлокер Сюзан Л.
  • Хэплер Уилльям Т.
RU2344831C2
СИНТЕТИЧЕСКИЕ 5 UTR (НЕТРАНСЛИРУЕМЫЕ ОБЛАСТИ), ЭКСПРЕССИОННЫЕ ВЕКТОРЫ И СПОСОБ ПОВЫШЕНИЯ ТРАНСГЕННОЙ ЭКСПРЕССИИ 2008
  • Рид Томас Д.
RU2524431C2
КОМПОЗИЦИИ И СПОСОБЫ ДЛЯ ЛЕЧЕНИЯ И ДИАГНОСТИКИ РАКА ЛЕГКИХ 2001
  • Рид Стивен Дж.
  • Лодес Майкл Дж.
  • Мохамат Роодох
  • Секрист Хитер
  • Бенсон Дэрин Р.
  • Индириас Кэрол Йозеф
  • Хендерсон Роберт А.
  • Флинг Стивен П.
  • Элгейт Пол А.
  • Эллиот Марк
  • Мэннион Джейн
  • Калос Майкл Д.
RU2311920C2

Иллюстрации к изобретению RU 2 805 557 C2

Реферат патента 2023 года ВАРИАНТЫ B4GALT1 И ИХ ПРИМЕНЕНИЕ

Изобретение относится к области биотехнологии, а именно к выделенному полипептиду варианта B4GALT1, содержащему серин, соответствующий положению 352, слитому белку, его содержащему, а также к выделенной молекуле нуклеиновой кислоты, его кодирующей. Также раскрыт способ модификации клетки, предусматривающий использование вышеуказанной молекулы нуклеиновой кислоты, а также способ обнаружения варианта молекулы нуклеиновой кислоты B4GALT1, кодирующей серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1. Изобретение эффективно для определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания у субъекта, а также для лечения субъекта, который не является носителем варианта B4GALT1 и имеет или подвержен развитию сердечно-сосудистого заболевания у субъекта. 19 н. и 17 з.п. ф-лы, 20 ил., 5 табл., 11 пр.

Формула изобретения RU 2 805 557 C2

1. Выделенная молекула нуклеиновой кислоты, кодирующая полипептид варианта бета-1,4-галактозилтрансферазы 1 (B4GALT1), содержащая последовательность нуклеиновой кислоты, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичную SEQ ID NO: 1, при условии, что указанная последовательность нуклеиновой кислоты содержит кодон, соответствующий положениям 53575-53577 SEQ ID NO: 1, который кодирует серин, или его комплемент.

2. Выделенная молекула нуклеиновой кислоты по п. 1, где указанная последовательность нуклеиновой кислоты содержит нуклеотиды, соответствующие положениям с 53575 по 53577 SEQ ID NO: 2.

3. Выделенная молекула нуклеиновой кислоты по п. 1 или 2, где указанная последовательность нуклеиновой кислоты по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или, по меньшей мере на около 99% идентична части SEQ ID NO:2, содержащей экзоны с 1 по 6 гена B4GALT1.

4. Выделенная молекула нуклеиновой кислоты по п. 1 или 2, где указанная последовательность нуклеиновой кислоты включает SEQ ID NO: 2.

5. Выделенная молекула нуклеиновой кислоты, кодирующая полипептид варианта B4GALT1, содержащая последовательность нуклеиновой кислоты, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или, по меньшей мере на около 99%, идентичную SEQ ID NO: 4, при условии, что указанная последовательность нуклеиновой кислоты содержит кодон, кодирующий серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1, или его комплемент.

6. Выделенная молекула нуклеиновой кислоты по п. 5, где указанная последовательность нуклеиновой кислоты по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или, по меньшей мере на около 99% идентична части SEQ ID NO: 4, содержащей экзоны с 1 по 6 гена B4GALT1.

7. Выделенная молекула нуклеиновой кислоты по п. 5 или 6, где указанная последовательность нуклеиновой кислоты содержит SEQ ID NO: 4.

8. Выделенная молекула нуклеиновой кислоты, кодирующая полипептид варианта B4GALT1, содержащая последовательность нуклеиновой кислоты, кодирующую полипептид, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичный SEQ ID NO: 8, при условии, что полипептид содержит серин в положении 352, или ее комплемент.

9. Выделенная молекула нуклеиновой кислоты по п. 8, где указанная последовательность нуклеиновой кислоты кодирует полипептидную последовательность SEQ ID NO: 8.

10. кДНК, кодирующая белок бета-1,4-галактозилтрансферазы 1 человека (B4GALT1), содержащий последовательность нуклеиновой кислоты, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичную SEQ ID NO: 6, при условии, что указанная последовательность нуклеиновой кислоты кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1, или ее комплемент.

11. кДНК по п. 10, где указанная последовательность нуклеиновой кислоты содержит SEQ ID NO: 6.

12. Выделенный полипептид варианта B4GALT1 для диагностики риска развития сердечно-сосудистых заболеваний у пациента, содержащий аминокислотную последовательность, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичную полипептиду варианта B4GALT1, содержащему SEQ ID NO: 8, при условии, что указанный полипептид содержит серин, соответствующий положению 352 SEQ ID NO: 8, где полипептид связан с пониженными уровнями холестерина липопротеинов низкой плотности (ЛПНП), общего холестерина или фибриногена и eGFR или повышенным уровнем аспартаттрансаминазы (AST).

13. Выделенный полипептид варианта B4GALT1 для определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания, содержащий аминокислотную последовательность, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичную полипептиду варианта B4GALT1, содержащему SEQ ID NO: 8, при условии, что указанный полипептид содержит серин, соответствующий положению 352 SEQ ID NO: 8, где полипептид связан с пониженными уровнями холестерина липопротеинов низкой плотности (ЛПНП), общего холестерина или фибриногена и eGFR или повышенным уровнем аспартаттрансаминазы (AST).

14. Полипептид по п. 12 или 13, где указанный вариантный полипептид B4GALT1 содержит SEQ ID NO: 8.

15. Выделенный слитый полипептид варианта B4GALT1 для диагностики риска развития сердечно-сосудистых заболеваний у пациента, содержащий аминокислотную последовательность, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичную полипептиду варианта B4GALT1, содержащему SEQ ID NO: 8, при условии, что указанный полипептид содержит серин, соответствующий положению 352 SEQ ID NO: 8, где полипептид варианта связан с гетерологичным полипептидом или содержит гетерологичную метку.

16. Выделенный слитый полипептид варианта B4GALT1 для определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания, содержащий аминокислотную последовательность, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичную полипептиду варианта B4GALT1, содержащему SEQ ID NO: 8, при условии, что указанный полипептид содержит серин, соответствующий положению 352 SEQ ID NO: 8, где полипептид варианта связан с гетерологичным полипептидом или содержит гетерологичную метку.

17. Полипептид по п. 15 или 16, где указанный гетерологичный полипептид содержит Fc-домен иммуноглобулина, пептидный тэг, флуоресцентный белок или домен трансдукции.

18. Способ обнаружения варианта молекулы нуклеиновой кислоты B4GALT1, кодирующей серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1, у субъекта-человека, включающий анализ образца, полученного от субъекта, для определения того, содержит ли молекула нуклеиновой кислоты в образце последовательность нуклеиновой кислоты, которая кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1.

19. Способ по п. 18, где указанный анализ включает:

секвенирование части молекулы нуклеиновой кислоты геномной последовательности B4GALT1 в образце, при этом секвенированная часть включает в себя положения, соответствующие положениям с 53575 по 53577 SEQ ID NO: 2;

секвенирование части молекулы нуклеиновой кислоты последовательности мРНК B4GALT1 в образце, при этом секвенированная часть включает положения, соответствующие положениям с 1243 по 1245 SEQ ID NO: 4; или же

секвенирование части молекулы нуклеиновой кислоты последовательности кДНК B4GALT1 в образце, при этом секвенированная часть включает положения, соответствующие положениям с 1054 по 1056 SEQ ID NO: 6.

20. Способ по п. 18, где указанный анализ включает:

а) приведение образца в контакт с праймером, гибридизующимся с: i) частью геномной последовательности B4GALT1, которая находится вблизи положения геномной последовательности B4GALT1, соответствующего положениям с 53575 по 53577 SEQ ID NO: 2; ii) частью последовательности мРНК B4GALT1, которая находится вблизи положения мРНК B4GALT1, соответствующего положениям с 1243 по 1245 SEQ ID NO: 4; или iii) частью последовательности кДНК B4GALT1, которая находится вблизи положения кДНК B4GALT1, соответствующего положениям 1054-1056 SEQ ID NO: 6;

b) удлинение праймера, по меньшей мере, далее: i) положения геномной последовательности B4GALT1, соответствующего положениям с 53575 по 53577; ii) положения мРНК B4GALT1, соответствующего положениям с 1243 по 1245; или iii) положения кДНК B4GALT1, соответствующего положениям с 1054 по 1056; а также

c) определение того, содержит ли продукт удлинения праймера нуклеотиды в положениях: i) соответствующих положениям с 53575 по 53577 геномной последовательности B4GALT1; ii) соответствующие положениям 1243-1245 мРНК B4GALT1; или iii) соответствующие положениям с 1054 по 1056 кДНК B4GALT1; которые кодируют серин в положении 352 SEQ ID NO: 8.

21. Способ по п. 18, где указанный анализ включает контакт образца с праймером или зондом, который специфически гибридизуется с геномной последовательностью, последовательностью мРНК или последовательностью кДНК варианта B4GALT1, а не с соответствующей последовательностью дикого типа B4GALT1 в строгих условиях гибридизации и определение того, произошла ли гибридизация.

22. Способ обнаружения присутствия Asn352Ser B4GALT1 у человека, включающий выполнение анализа образца, полученного от человека, для определения того, содержит ли белок B4GALT1 в образце остаток серина в положении 352.

23. Способ определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания у субъекта, где сердечно-сосудистое заболевание включает повышенный холестерин липопротеинов низкой плотности (ЛПНП), повышенный общий холестерин, повышенный фибриноген, повышенную расчетную скорость клубочковой фильтрации (eGFR) или пониженную аспартаттрансаминазу (AST), при этом указанный способ включает:

а) анализ образца, полученного от субъекта, для определения того, содержит ли молекула нуклеиновой кислоты в образце последовательность нуклеиновой кислоты, которая кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1; а также

b) классификация субъекта-человека, как подверженного пониженному риску развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты содержит последовательность нуклеиновой кислоты, которая кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1, или классификацию субъекта-человека, как подверженного повышенному риску развития сердечно-сосудистого заболевания, если молекула нуклеиновой кислоты не содержит последовательность нуклеиновой кислоты, которая кодирует серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1.

24. Способ по п. 23, где указанный анализ включает:

секвенирование части молекулы нуклеиновой кислоты геномной последовательности B4GALT1 в образце, при этом секвенированная часть включает в себя положения, соответствующие положениям с 53575 по 53577 SEQ ID NO: 2;

секвенирование части молекулы нуклеиновой кислоты последовательности мРНК B4GALT1 в образце, при этом секвенированная часть включает положения, соответствующие положениям с 1243 по 1245 SEQ ID NO: 4; или

секвенирование части молекулы нуклеиновой кислоты последовательности кДНК B4GALT1 в образце, при этом секвенированная часть включает положения, соответствующие положениям с 1054 по 1056 последовательности SEQ ID NO: 6.

25. Способ по п. 23, где указанный анализ включает:

а) приведение образца в контакт с праймером, гибридизующимся с: i) частью геномной последовательности B4GALT1, которая находится вблизи положения геномной последовательности B4GALT1, соответствующего положениям с 53575 по 53577 SEQ ID NO: 2; ii) частью последовательности мРНК B4GALT1, которая находится вблизи положения мРНК B4GALT1, соответствующего положениям с 1243 по 1245 SEQ ID NO: 4; или iii) частью последовательности кДНК B4GALT1, которая находится вблизи положения кДНК B4GALT1, соответствующего положениям 1054-1056 SEQ ID NO: 6;

b) удлинение праймера, по меньшей мере, далее: i) положения геномной последовательности B4GALT1, соответствующего положениям с 53575 по 53577; ii) положения мРНК B4GALT1, соответствующего положениям с 1243 по 1245; или iii) положения кДНК B4GALT1, соответствующего положениям с 1054 по 1056; а также

c) определение того, содержит ли продукт удлинения праймера нуклеотиды в положениях: i) соответствующих положениям с 53575 по 53577 геномной последовательности B4GALT1; ii) соответствующих положениям 1243-1245 мРНК B4GALT1; или iii) соответствующих положениям с 1054 по 1056 кДНК B4GALT1; которые кодируют серин в положении 352 SEQ ID NO: 8.

26. Способ по п. 23, где указанный анализ включает контакт образца с праймером или зондом, который специфически гибридизуется с геномной последовательностью, последовательностью мРНК или последовательностью кДНК варианта B4GALT1, а не с соответствующей последовательностью B4GALT1 дикого типа в строгих условиях гибридизации и определение того, произошла ли гибридизация.

27. Способ определения восприимчивости субъекта-человека к развитию сердечно-сосудистого заболевания у субъекта, где сердечно-сосудистое заболевание включает повышенный холестерин липопротеинов низкой плотности (ЛПНП), повышенный общий холестерин, повышенный фибриноген, повышенную расчетную скорость клубочковой фильтрации (eGFR) или пониженную аспартаттрансаминазу (AST), при этом указанный способ включает:

а) проведение анализа образца, полученного от субъекта-человека, для определения того, содержит ли белок B4GALT1 в образце остаток серина в положении 352; а также

b) классификация субъекта-человека как подверженного пониженному риску развития сердечно-сосудистого заболевания, если полипептид B4GALT1 содержит серин в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1, или классификацию субъекта-человека как подверженного повышенному риску развития сердечно-сосудистого заболевания, если полипептид B4GALT1 не содержит серина в положении, соответствующем положению 352 полноразмерного/зрелого полипептида B4GALT1.

28. Способ модификации клетки, включающий введение вектора экспрессии в клетку, при этом указанный вектор экспрессии содержит рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность, кодирующую серин, вставленный в положения, соответствующие положениям с 53575 по 53577 SEQ ID NO: 2.

29. Способ по п. 28, где указанный рекомбинантный ген B4GALT1 представляет собой миниген B4GALT1, в котором один или более несущественных сегментов гена были удалены по отношению к соответствующему гену B4GALT1 дикого типа.

30. Способ модификации клетки, включающий введение вектора экспрессии в клетку, при этом вектор экспрессии содержит молекулу нуклеиновой кислоты, кодирующую полипептид B4GALT1, который по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичен SEQ ID NO: 8 и содержит серин в положении 352, соответствующем SEQ ID NO: 8.

31. Способ модификации клетки, включающий введение полипептида B4GALT1 или его фрагмента в клетку, при этом полипептид B4GALT1 по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичен SEQ ID NO: 8 и содержит серин в положении 352, соответствующем SEQ ID NO: 8, где полипептид связан с пониженными уровнями холестерина липопротеинов низкой плотности (ЛПНП), общего холестерина или фибриногена и eGFR или повышенным уровнем аспартаттрансаминазы (AST).

32. Способ лечения субъекта, который не является носителем варианта B4GALT1 и имеет или подвержен риску развития сердечно-сосудистого заболевания у субъекта, где сердечно-сосудистое заболевание включает повышенный холестерин липопротеинов низкой плотности (ЛПНП), повышенный общий холестерин, повышенный фибриноген, повышенную расчетную скорость клубочковой фильтрации (eGFR) или пониженную аспартаттрансаминазу (AST), при этом указанный способ включает введение вектора экспрессии субъекту, при этом вектор экспрессии содержит рекомбинантный ген B4GALT1, содержащий нуклеотидную последовательность, кодирующую серин в положениях, соответствующих положениям с 53575 по 53577 SEQ ID NO: 2, при этом указанный вектор экспрессии экспрессирует рекомбинантный ген B4GALT1 в клетке субъекта.

33. Способ по п. 32, где указанный рекомбинантный ген B4GALT1 по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичен SEQ ID NO: 2.

34. Способ лечения субъекта, который не является носителем варианта B4GALT1 и имеет или подвержен развитию сердечно-сосудистого заболевания у субъекта, где сердечно-сосудистое заболевание включает повышенный холестерин липопротеинов низкой плотности (ЛПНП), повышенный общий холестерин, повышенный фибриноген, повышенную расчетную скорость клубочковой фильтрации (eGFR) или пониженную аспартаттрансаминазу (AST), при этом указанный способ включает введение вектора экспрессии указанному субъекту, при этом указанный вектор экспрессии содержит нуклеиновую кислоту, кодирующую полипептид B4GALT1, по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичную SEQ ID NO: 8, при этом указанный вектор экспрессии экспрессирует нуклеиновую кислоту, кодирующую полипептид B4GALT1 в клетке у субъекта.

35. Способ лечения субъекта, который не является носителем варианта B4GALT1 и имеет или подвержен риску развития сердечно-сосудистого заболевания у субъекта, где сердечно-сосудистое заболевание включает повышенный холестерин липопротеинов низкой плотности (ЛПНП), повышенный общий холестерин, повышенный фибриноген, повышенную расчетную скорость клубочковой фильтрации (eGFR) или пониженную аспартаттрансаминазу (AST), при этом указанный способ включает введение мРНК субъекту, при этом мРНК кодирует полипептид B4GALT1, который по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере, на около 99% идентичен SEQ ID NO:8, при этом указанная мРНК экспрессирует полипептид B4GALT1 в клетке субъекта.

36. Способ лечения субъекта, который не является носителем варианта B4GALT1 и имеет или подвержен развитию сердечно-сосудистого заболевания у субъекта, где сердечно-сосудистое заболевание включает повышенный холестерин липопротеинов низкой плотности (ЛПНП), повышенный общий холестерин, повышенный фибриноген, повышенную расчетную скорость клубочковой фильтрации (eGFR) или пониженную аспартаттрансаминазу (AST), при этом указанный способ включает введение белка Asn352Ser B4GALT1 или его фрагмента субъекту, при этом указанный полипептид B4GALT1 по меньшей мере на около 90%, по меньшей мере на около 95%, по меньшей мере на около 98% или по меньшей мере на около 99% идентичен SEQ ID NO: 8, при условии, что полипептид содержит серин, соответствующий позиции 352 SEQ ID NO: 8.

Документы, цитированные в отчете о поиске Патент 2023 года RU2805557C2

ROBERT E
HUMPHREYS et al., Isolation and immunologic characterization of a human
B-lymphocyte-specific, cell surface antigen, J Exp Med, 1976, 144(1), pp.98-112
Плунжерный насос 1924
  • Соловейчик Э.А.
SU1497A1
WO 2009025645 A1, 26.02.2009
СПОСОБ ЛЕЧЕНИЯ КОРОНАРНОЙ НЕДОСТАТОЧНОСТИ ПРИ МОДЕЛИРУЕМОЙ ИШЕМИИ МИОКАРДА 2010
  • Макеев Олег Германович
  • Коротков Артём Владимирович
  • Шуман Евгений Александрович
RU2444378C1

RU 2 805 557 C2

Авторы

Монтассер, Мэй

Ван Хаут, Кристофер

Шульдинер, Алан

Гатта, Джузи, Делла

Хили, Мэттью

Пурунен, Марья

Даты

2023-10-19Публикация

2018-06-04Подача