СПОСОБ И СИСТЕМА КОРРЕКЦИИ НЕЖЕЛАТЕЛЬНЫХ КОВАРИАЦИОННЫХ ЭФФЕКТОВ В МИКРОБИОМНЫХ ДАННЫХ Российский патент 2021 года по МПК G16B20/00 C12Q1/68 G06N3/02 

Описание патента на изобретение RU2742003C1

ОБЛАСТЬ ТЕХНИКИ

[0001] Настоящее техническое решение, в общем, относится к области микробиологии, а также к области вычислительной техники, а в частности к системам и способам коррекции нежелательных ковариационных эффектов данных о микробиоте с помощью методов глубокого обучения.

УРОВЕНЬ ТЕХНИКИ

[0002] В настоящее время при исследовании и сравнении микробиоты здоровых людей и пациентов с различными заболеваниями часты случаи, когда образцы от участников исследования были обработаны неоднородным способом - например, более чем в одной лаборатории, и/или с помощью различных наборов реагентов. Также возможна ситуация, когда одна часть образцов собрана у одной субпопуляции (например, жителей деревни), а другая - у другой (например, жителей мегаполисов), что оказывает не связанное с клиническим статусом существенное влияние на получаемую оценку состава микробиоты. Нередко образцы для исследования собираются в разных городах или даже странах. В подобных случаях влияние сигнала от таких факторов, как лаборатория или местность проживания, может превышать влияние исследуемого эффекта и мешать анализу данных. Влияние сигнала от подобных ковариативных параметров, которые накладываются на всю выборку с фиксированным значением данного параметра, называют в уровне техники батч-эффектом (англ. "batch effect").

[0003] Батч эффект, или нежелательный ковариационный эффект, представляет собой сигнал или изменение признака в исследуемых данных, который не связан с изучаемыми признаками и препятствует анализу данных. Примером батч эффекта могут быть различия между данными из разных выборок, например, результатами анализов, полученные из разных лабораторий. Каждая лаборатория может влиять на всю выборку данных, полученных из этой лаборатории. Из уровня техники известны некоторые способы и алгоритмы борьбы с батч эффектами, например, такие как ComBat, one-way ANOVA и др. В частности, one-way ANOVA линейно преобразует значения относительной представленности бактерий, полученные в результате анализа микробиомных данных, таким образом, чтобы по каждому таксону среднее в каждой из выборок было одинаково. Также существуют методы, основанные на анализе главных компонент, где алгоритм заключается в исключении компонент, которые коррелируют с признаком, на который осуществляется поправка. Однако известные методы не очень подходят для применения к данным о микробиоте, поскольку эти данные композиционные (сумма значений относительной представленности микробов в образце равна 100%), при этом эти данные довольно разрежены (много нулевых значений). Например, так как для многих бактериальных таксонов представленность может равняться нулю в значительной части образцов, то использование алгоритмов, основанных на вычитании средних значений по каждому таксону, неэффективно. Никакой из известных на данный момент методов коррекции не учитывает особенности данных о микробиоте. Также попытки практического применения любой из вышеперечисленных методик коррекции только ухудшают качество классификации.

СУЩНОСТЬ ТЕХНИЧЕСКОГО РЕШЕНИЯ

[0004] Технической проблемой или технической задачей, решаемой в данном техническом решении, является коррекция систематических ошибок, которые могут возникать при анализе и интерпретации данных о составе микробиоты в образцах, полученных из различных выборок, в результате воздействия смещающих факторов.

[0005] Техническим результатом, достигаемым при решении вышеуказанной проблемы, является повышение точности и качества коррекции систематических ошибок, возникающих при анализе и интерпретации данных о составе микробиоты.

[0006] Дополнительным техническим результатом является повышение чувствительности и специфичности статистического анализа при поиске взаимосвязей между представленностью бактерий и интересующими факторами.

[0007] Также при использовании данного технического решения улучшается качество классификации при построении классификаторов на основе данных о бактериальной представленности.

[0008] Указанный технический результат достигается благодаря осуществлению способа коррекции нежелательных ковариационных эффектов в микробиомных данных, который выполняется на по меньшей мере одном процессоре и в котором получают данные о составе микробиоты набора образцов биологического материала путем их секвенирования и значение по меньшей мере одного ковариативного параметра для каждого образца, причем данный ковариативный параметр не представляет интереса для исследования или интерпретации данных, однако влияет на значения или взаимосвязь других параметров микробиоты; на основании полученных данных о составе микробиоты определяют относительную представленность микроорганизмов и/или их генов в микробиоте из набора образцов биологического материала; обучают искусственную нейронную сеть - автоэнкодер, которая на вход получает относительную представленность микроорганизмов и/или их генов в микробиоте набора образцов биологического материала, причем добавляют в кодирующий слой автоэнкодера по меньшей мере один дополнительный нейрон, в который на этапе восстановления подается полученное значение ковариативного параметра для каждого образца; получают эталонное значение по меньшей мере одного ковариативного параметра; выполняют коррекцию относительной представленности микроорганизмов и/или их генов в микробиоте по меньшей мере одного образца биологического материала посредством подачи в кодирующий слой обученного на предыдущем шаге автоэнкодера полученное эталонное значение ковариативного параметра.

[0009] В некоторых вариантах реализации технического решения ковариативным параметром является пол и/или возраст, и/или страна проживания участников исследования, и/или регион секвенирования гена 16S рРНК или участка ITS, и/или особенности пробоподготовки, и/или особенности питания доноров образцов, и/или их образ жизни, и/или выбор лаборатории.

[0010] В некоторых вариантах реализации технического решения значения ковариативного параметра образца микробиоты задают в числовом виде и/или кластеризуют, и/или группируют, и/или разбивают на диапазоны.

[0011] В некоторых вариантах реализации технического решения нейроны входного и/или выходного слоя автоэнкодера соответствуют отдельному таксону, или гену, или группе генов микробного сообщества, а входными данными для входного слоя и выходными данными для выходного слоя являются относительная представленность соответствующего таксона, или гена, или группы генов в образце.

[0012] В некоторых вариантах реализации технического решения входной слой содержит дополнительный нейрон, в который подается значение ковариативного параметра или набор дополнительных нейронов, в которые подается бинарный вектор, соответствующий значению ковариативного параметра.

[0013] В некоторых вариантах реализации технического решения автоэнкодер является вариационным.

[0014] В некоторых вариантах реализации технического решения автоэнкодер состоит из энкодера и декодера, причем энкодер сжимает входной сигнал в слой меньшей размерности (кодирующий слой), а декодер восстанавливает сигнал из кодирующего слоя.

[0015] В некоторых вариантах реализации технического решения при обучении автоэнкодера функцией потерь является индекс различия Брэя-Кертиса или индекс Дженсона-Шеннона, или среднеквадратичная разность логарифмов, или модуль ошибки, или дивергенция Кульбака - Лейблера.

[0016] В некоторых вариантах реализации технического решения в процессе обучения выполняется обратное распространение ошибки к предыдущим слоям нейронной сети, при этом веса ребер и/или другие сетевые характеристики настраиваются таким образом, чтобы минимизировать функцию потерь.

[0017] В некоторых вариантах реализации технического решения относительная представленность микроорганизмов или их генов (групп генов) задана числовым значением от 0 до 1.

[0018] В некоторых вариантах реализации технического решения при обучении автоэнкодера в кодирующем слое нейроны задают элементы μi и σi, которые являются средними значениями и стандартными отклонениями признаков.

[0019] В некоторых вариантах реализации технического решения данные элементы формируют k-мерный случайный вектор, который является входной информацией для декодера, из которого предсказывается представленность микроорганизмов или их генов в микробиоте.

[0020] В некоторых вариантах реализации технического решения кодирующий слой содержит отдельный нейрон, в который передается числовое значение, соответствующее ковариативному параметру.

[0021] В некоторых вариантах реализации технического решения кодирующий слой содержит набор отдельных нейронов, которые задают бинарный вектор, соответствующий определенному значению ковариативного параметра.

[0022] В некоторых вариантах реализации технического решения относительная представленность микроорганизмов или их генов определяется количеством чтений, соответствующих представленности каждого микроорганизма в образце.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0023] Признаки и преимущества настоящего технического решения станут очевидными из приведенного ниже подробного описания и прилагаемых чертежей, на которых:

[0024] На Фиг. 1А показаны профили состава исследуемых образцов микробиоты в пространстве бактериальных таксонов, которые выделены по изучаемому параметру (в данном примере - клинический статус: болезнь Крона (Crohn's disease) и здоровые индивиды (Healthy controls)), представлена проекция на первые 2 главные компоненты.

[0025] На Фиг. 1В показаны исследуемые образцы в той же проекции, как на Фиг. 1А, но выделенные по параметру, который не представляет интереса и не должен коррелировать с диагнозом субъекта нежелательному фактору (в данном примере: лаборатория, где проводился анализ).

[0026] На Фиг. 2А показаны те же исследуемые образцы микробиоты в пространстве бактерий, как в Фиг. 1А, которые выделены по изучаемому параметру (в данном примере - клинический статус: болезнь Крона (Crohn's disease) и здоровые индивиды (Healthy controls)) после коррекции на батч эффект, вносимый ковариативным параметром (в данном примере - лабораторией, где проводился анализ), представлена проекция на первые 2 главные компоненты.

[0027] На Фиг. 2В показаны те же исследуемые образцы после коррекции, в той же проекции, как на Фиг. 2А, но выделенные по параметру, который не представляет интереса и на который производилась поправка (в данном примере: лаборатория, где проводился анализ).

[0028] На Фиг. 3А показан примерный вариант реализации искусственной нейронной сети автоэнкодер, применяемой в данном техническом решении.

[0029] На Фиг. 3В показан примерный вариант реализации искусственной нейронной сети автоэнкодер, применяемой в данном техническом решении.

[0030] На Фиг. 4 показан пример реализации системы коррекции нежелательных ковариационных эффектов в микробиомных данных.

[0031] На Фиг. 5 показан вариант реализации способа коррекции нежелательных ковариационных эффектов в микробиомных данных в виде блок-схемы.

ПОДРОБНОЕ ОПИСАНИЕ ТЕХНИЧЕСКОГО РЕШЕНИЯ

[0032] Ниже будут подробно рассмотрены термины и их определения, используемые в описании технического решения.

[0033] В данном изобретении под системой подразумевается компьютерная система, ЭВМ (электронно-вычислительная машина), ЧПУ (числовое программное управление), ПЛК (программируемый логический контроллер), компьютеризированные системы управления и любые другие устройства, способные выполнять заданную, четко определенную последовательность операций (действий, инструкций), централизованные и распределенные базы данных, смарт-контракты.

[0034] Под устройством обработки команд подразумевается электронный блок либо интегральная схема (микропроцессор), исполняющая машинные инструкции (программы), смарт-контракт, виртуальная машина Ethereum (EVM) или подобное. Устройство обработки команд считывает и выполняет машинные инструкции (программы) с одного или более устройства хранения данных. В роли устройства хранения данных могут выступать, но, не ограничиваясь, жесткие диски (HDD), флеш-память, ПЗУ (постоянное запоминающее устройство), твердотельные накопители (SSD), оптические приводы.

[0035] Программа - последовательность инструкций, предназначенных для исполнения устройством управления вычислительной машины или устройством обработки команд.

[0036] Микробиота - это совокупность всех микроорганизмов в некотором бактериальном сообществе.

[0037] Бактериальный (таксономический) состав образца микробиоты - перечень всех видов (родов, таксонов), обнаруженных в данном образце в процессе анализа.

[0038] Анализ бактериального состава образцов микробиоты может проводиться на разных таксономических уровнях (виды, рода, семейства и т.п.), поэтому в описании используется термин "таксон", который включает в себя любой из таких уровней.

[0039] Относительный состав образца микробиоты - относительное количественное соотношение таксонов в образце, или, другими словами, относительная представленность таксонов. Относительная представленность микроорганизмов или их генов в образце может быть выражена в процентах, долях, количествах чтений или других единицах. Например, относительная представленность может, задаваться числовым значением от 0 до 1 для каждого таксона в образце, так что суммарное значение по всем таксонам, представленным в одном образце, будет равняться 1, также может использоваться любая другая удобная шкала.

[0040] Таксономия - учение о принципах и практике классификации и систематизации сложноорганизованных иерархически соотносящихся сущностей.

[0041] Секвенирование ДНК - определение последовательности нуклеотидов в молекуле ДНК. Под этим может подразумеваться как амликонное секвенирование (прочтение последовательностей выделенных фрагментов ДНК, полученных в результате ПЦР-реакции - таких, как ген 16S рРНК или его фрагменты), так и полногеномное секвенирование (прочтение последовательностей всей ДНК, присутствующей в образце).

[0042] Чтения (иногда - риды, reads) - данные, представляющие собой нуклеотидные последовательности фрагментов ДНК, полученные с помощью ДНК-секвенатора.

[0043] Картирование чтений - биоинформатический метод анализа результатов секвенирования нового поколения, состоящий в определении позиций в референсной базе геномов или генов, откуда с наибольшей вероятностью могло быть получено каждое конкретное короткое чтение.

[0044] В результате секвенирования ДНК создается набор чтений. Длина чтения у современных секвенаторов составляет от нескольких сотен до нескольких тысяч нуклеотидов.

[0045] В некоторых вариантах реализации технического решения образцы микробиоты можно получить путем анализа образцов кала субъекта. В альтернативных вариантах реализации образцы микробиоты могут быть получены на основе анализа любого другого биологического материала субъекта, например биопсии, мазка, соскоба, и т.п. Изложенный способ применим к любым образцам микробиоты природного сообщества (образцам биологического материала) в том числе, полученным из почвы, морской воды, мазков с поверхностей растений или общественных мест, и т.п.

[0046] Биомаркер представляет собой биологический измеряемый фактор (например, относительная представленность бактериального вида или рода), который ассоциируется с наличием или отсутствием того или иного состояния у организма хозяина, например, определенного заболевания.

[0047] Параметром образца/образцов микробиоты в данном техническом решении считается любая характеристика, которая может быть известна для образца, кроме его состава. Например, диагноз субъекта, тип интервенции, возраст, пол, особенности питания, среда обитания и/или образ жизни субъекта, и т.д.

[0048] Если множество значений, которые может принимать параметр, очень многочисленное или значения параметра разрознены, то такие значения в некоторых вариантах реализации группируют, кластеризуют или разбивают на диапазоны. Например, параметр "особенности питания" можно задавать по конкретным продуктам или группам продуктов, группировать по типу диеты (вегетарианство, кето-диета, сыроедение, голодание и т.п.) или по соотношению компонентов энергетического состава суточного рациона.

[0049] Ковариативными параметрами считают те параметры образца/образцов микробиоты, которые не представляют интереса для конкретного исследования и/или интерпретации, однако влияют на значения или взаимосвязь изучаемых параметров.

[0050] Практически любой параметр образца микробиоты может быть изучаемым в одном случае и рассматриваться как ковариативный в другом, когда он не относится к исследуемому эффекту, но оказывает на него нежелательное влияние.

[0051] Например, параметр "регион проживания" в одном случае может быть изучаемым параметром, например, в исследовании распространенности биомаркеров определенного заболевания среди жителей разных стран или среди жителей города и деревни. В другом исследовании, которое изучает изменение микробиоты кишечника с возрастом, параметр "регион проживания" может расцениваться как ковариативный, так как различия в микробиоте для выборок из разных регионов могут вносить очень сильный вклад и препятствовать исследованию возрастного параметра.

[0052] Предлагаемый способ позволяет скорректировать влияние ковариативного параметра для различных выборок, или, другими словами, уменьшить ковариационный эффект, который показан в виде блок-схемы на Фиг. 5.

[0053] Шаг 510: получают данные о составе микробиоты набора образцов биологического материала путем их секвенирования и значение по меньшей мере одного ковариативного параметра для каждого образца, причем данный ковариативный параметр не представляет интереса для исследования или интерпретации данных, однако влияет на значения или взаимосвязь других параметров микробиоты.

[0054] Образцы биологического материала могут получать посредством использования набора для отбора проб, который может включать контейнер для образцов, имеющий компонент технологического реагента и сконфигурированный для приема образца из места сбора, которое может быть удаленным. Дополнительно или альтернативно набор для отбора проб может быть предоставлен непосредственно через устройство, установленное в помещении или на улице, которое предназначено для облегчения приема пробы от субъекта. В других вариантах осуществления набор для отбора проб может быть сдан в клинике или другом медицинском учреждении медицинскому лабораторному технику, а ранее доставлен пользователю, например, курьером. Однако предоставление набора (-ов) для отбора проб может дополнительно или альтернативно выполняться любым другим подходящим способом, например, в замороженном виде в стерильном контейнере.

[0055] Входные образцы биологического материала могут представлять из себя образцы кала, которые могут быть обработаны, например, в лаборатории, и из которых получают данные о составе микробиоты, например, кишечника путем секвенирования. Обработка включает в себя этапы очистки образца от дебриса путем центрифугирования, выделение тотальной ДНК, в том числе бактерий и архей. Альтернативно, из тотальной ДНК может быть проведена амплификация гена 16S рРНК или другого маркерного гена в зависимости от формата секвенирования.

[0056] Данные о составе микробиоты могут получать, например, в результате секвенирования последовательностей микробных генов 16S рРНК микробиоты образца. В некоторых вариантах осуществления получают файлы секвенирования в формате FASTQ или FASTA, полученные с секвенатора, по одному файлу на каждый образец. Предпочтительно может применяться ампликонное секвенирование, но также может применяться полногеномное секвенирование (англ. WGS, shotgun), не ограничиваясь.

[0057] В процессе секвенирования, заключительным этапом запуска секвенатора является нахождение нуклеотидов (англ. base calling) - преобразование промежуточных "сырых" (внутренних) сигналов прибора (изображений, спектров, карт интенсивности) во множество чтений (иногда в уровне техники используется термин "риды" - от англ. "reads"), сопровождаемых баллами качества (по одному баллу для каждой нуклеотидной позиции). Чтения представляют собой последовательности из четырех символов (А, С, G и Т), обозначающих нуклеотиды, а также служебного символа N или ".", или "?", обозначающего полную неопределенность относительно значения в данной позиции (секвенатор не может определить нуклеотид). С точки зрения биоинформатического анализа важнейшими являются следующие характеристики чтений: во-первых, какой длины получатся чтения, а во-вторых, какие в них могут быть ошибки и как часто. Приборный балл качества (англ. quality value) - величина, характеризующая вероятность отсутствия ошибки в данной позиции, вычисляемая секвенатором исходя из качества сигнала. В разных вариантах осуществления чтения и их баллы качества могут генерироваться в виде двух файлов для каждого образца (формат FASTA), либо могут быть объединены в единый файл (формат FASTQ). При этом с целью экономии дискового пространства хранилища данных текстовые представления чтений могут быть переведены в двоичный формат.

[0058] Для ускорения расчетов, файлы размером, например, более 500 МБ формата FASTQ прореживаются до, например, 89951 чтений (это количество чтений в среднем соответствует размеру файла в 500 МБ при длине чтений 250 нуклеотидов). Начиная с некоторого значения увеличение глубины секвенирования слабо влияет на получаемый видовой состав микробиоты.

[0059] В некоторых вариантах реализации осуществляет отсеивание чтений со средним баллом качества ниже заранее заданного порогового значения, например, 15. В других вариантах осуществления с концов чтений могут адаптивно удаляться позиции, имеющие низкий балл качества (например, последовательно удаляются все нуклеотиды с 5' к 3' концу до тех пор, пока не встретится позиция с баллом качества, превышающим фиксированный порог). Дополнительно отсеивают постороннюю генетическую информацию в чтениях, имеющих небиологическое происхождение, возникающую из-за прочтения артефактных последовательностей, возникающих в ходе неправильной химической модификации исходной ДНК.

[0060] При выполнении процесса контроля качества чтений могут использовать вычислительные методы (например, статистические методы, методы машинного обучения, методы искусственного интеллекта, методы биоинформатики и т.д.).

[0061] В некоторых вариантах осуществления при полногеномном (WGS) секвенировании состава микробиоты картируют метагеномные чтения на полученный ранее неизбыточный каталог, состоящий из соответствующего представительного набора геномов или генов микроорганизмов (в данном примере, микроорганизмов кишечника) - референс. В данный каталог могут входить генетическая информация бактерий, архей, а также эукариотических микроорганизмов, встречающихся в кишечнике пользователя. Данный каталог может быть сформирован на основании общедоступных крупных баз данных, а также автоматического анализа публикаций, имеющихся в уровне техники. В некоторых вариантах реализации расширяют набор референсных геномов, что позволяет регулярно добавлять новые опубликованные геномы. Результат картирования может быть сохранен в файле формата ВАМ. В некоторых вариантах осуществления для каждого генома определяют суммарную длину картировавшихся на него чтений (глубина покрытия) путем суммирования всех длин чтений (количество нуклеотидов в них), картировавшихся на геном, ширину покрытия, как суммарная длина покрытых нуклеотидных позиций в геноме.

[0062] Для изложения сути технического решения в качестве входных данных рассматриваются данные о таксономическом составе образцов микробиоты, полученные из разных лабораторий, т.е. в качестве ковариативного параметра выступает лаборатория. Однако данное техническое решение может успешно использоваться для коррекции батч эффекта на выборке других ковариативных параметров, таких как пол, возраст, страна проживания участников исследования, регион секвенирования 16S, особенности пробоподготовки, особенности питания и/или образа жизни участников исследования и т.п., не ограничиваясь.

[0063] Как видно из Фиг. 1А и Фиг. 1В, параметр, который не важен для исследования, вносит значительный вклад и искажает данные, что препятствует изучению интересующего эффекта. На Фиг. 1А и Фиг. 1В представлены образцы из двух лабораторий, что сделано исключительно для простоты восприятия изображения, при этом ковариативный параметр может принимать более двух различных значений. Предлагаемое техническое решение применимо к любой области значений ковариативного параметра.

[0064] Различные лаборатории могут использовать разные методы выделения ДНК, разные праймеры и буферные растворы. Это приводит к тому, что в процессе анализа таксономического состава образцов микробиоты отдельные таксоны могут выявляться лучше или хуже остальных. При этом, на все образцы, проанализированные в одной лаборатории, будет накладываться одинаковый ковариационный эффект, свойственный этой лаборатории. Например, использование определенных праймеров позволяет обнаруживать некоторые таксоны лучше других, поэтому более высокая представленность этих таксонов в образцах из лаборатории, использующей данные праймеры может быть объяснена именно ковариационным эффектом, свойственным этой лаборатории, а не свойствами микробиоты данных образцов. Также следует понимать, что анализ одного и того же образца, проведенный в разных лабораториях, может дать немного отличающиеся результаты. Это приводит к существенным проблемам при обработке полученных данных, когда, например, в ходе исследования данные участников собираются из разрозненных источников.

[0065] Шаг 520: на основании полученных данных о составе микробиоты определяют относительную представленность микроорганизмов и/или их генов в микробиоте из набора образцов биологического материала.

[0066] При анализе микробиоты с помощью 16S рРНК секвенирования после предварительной обработки осуществляют количественный и качественный таксономический анализ данных путем определения, к какой известной бактерии принадлежит каждое чтение 16S рРНК (или его фрагмента) и как можно охарактеризовать чтения от неизвестных бактерий. Поиск осуществляется с применением стратегии поиска на основании референса (англ. reference-based). Таксономическая классификация опирается на базовое понятие операционной таксономической единицы (ОТЕ, англ. operational taxonomic unit, OTU) - определение бактериального вида на основании одной лишь последовательности 16S рРНК. Набор чтений гена 16S рРНК (или его региона) сопоставляется с представительной базой последовательностей данного гена. Каждое чтение относится к той таксономической единице, с которой он обладает высокой степенью сходства. В случае нескольких совпадений возможно случайное назначение чтения одной из этих ОТЕ. В базе каждая запись является представительной последовательностью соответствующего ОТЕ, полученнного ранее в результате кластерного анализа. В то время как порог сходства можно варьировать, традиционно в метагеномных исследованиях используется значение 97% сходства как эвристическая оценка степени сходства 16S рРНК внутри одного бактериального вида. Однако данное значение не является абсолютным: с одной стороны, и в пределах одного бактериального вида могут встречаться бактерии с сильно различающимися последовательностями этого гена, с другой стороны, у двух разных видов могут быть идентичные последовательности (например, Escherichia и Shigella).

[0067] В данном техническом решении могут применяться в некоторых вариантах осуществления две другие основные стратегии идентификации ОТЕ, известные из уровня техники: поиск de novo и гибридный подход (сочетающий элементы поиска на основании шаблона и поиска de novo).

[0068] Накопленные последовательности по 16S рРНК секвенированию микробиоты сводятся в объединенные базы данных и филогенетически аннотируются. Среди наиболее используемых баз данных в уровне техники могут быть использованы Greengenes (база полных последовательностей гена 16S рРНК), SILVA (включает последовательности не только 16S, но и ITS, 18S, 23S/28S для эукариот), RDP (аннотация менее унифицирована, но объем выше, чем у Greengenes) и т.д.

[0069] В результате обработки набора метагеномов в формате 16S рРНК получается таблица относительной представленности бактерий в метагеноме, которая отражает количество чтений, отнесенных к каждой таксономической единице (ОТЕ) из базы данных для каждого образца биологического материала. Прореженная таблица относительной представленности может определяться по следующему принципу:

a. Если суммарное число чтений для образца по каждой таксономической единице меньше порогового значения (например, 5000), такой образец исключается из дальнейшего анализа как не подходящий по качеству и подлежащий повторному секвенированию.

b. Если суммарное число чтений для образца по каждой таксономической единице больше или равно пороговому значению (например, 5000), то число чтений для каждой таксономической единицы пропорционально нормируется таким образом, чтобы суммарное число чтений для образца стало равно пороговому значению (например, 5000).

[0070] Информация о прореженном или непрореженном количестве чтений, картировавшихся на каждый таксон, может также расцениваться как значения относительной представленности таксонов в образце и использоваться на следующем шаге в ненормированном виде.

[0071] В некоторых вариантах осуществления относительная представленность нормируется. Для этого для каждого образца суммируется количество его чтений, которые успешно откартировались на референсную базу. Нормированная представленность для каждого таксона рассчитывается как количество чтений, отнесенных к этому таксону для данного образца, деленное на общую сумму откартированных чтений для этого образца, в некоторых вариантах осуществления дополнительно помноженное на 100%. Из полученных значений нормированной представленности составляется нормированная таблица представленности, содержащая долю или процент чтений, отнесенных к каждому таксону из базы данных для каждого образца. Нормировка используется для корректного сравнения представленности одного и того же биомаркера или некоторой таксономической единицы между разными образцами микробиоты.

[0072] Из непрореженных таблиц относительной представленности по OTU блок таксономического анализа формирует прореженные таблицы представленности по другим таксономическим уровням (родам, семействам и т.п.). Для каждого таксономического уровня применяется следующий способ:

c. Количество чтений в образце для всех OTU, которые относятся к данному таксономическому уровню, суммируются;

d. Из полученных сумм составляется таблица представленности для данного таксономического уровня.

[0073] Далее осуществляется фильтрация малопредставленных таксонов - например, по следующему принципу: оставляются таксоны, представленность которых превышает 0,2% от общей микробной представленности не менее чем в 10% образцах.

[0074] Шаг 530: обучают искусственную нейронную сеть автоэнкодер, которая на вход получает относительную представленность микроорганизмов и/или их генов в микробиоте набора образцов биологического материала, причем добавляют в кодирующий слой автоэнкодера по меньшей мере один дополнительный нейрон, в который на этапе восстановления подается полученное значение ковариативного параметра для каждого образца.

[0075] В настоящем изобретении предлагается осуществлять коррекцию батч эффекта в данных о микробиоте с помощью алгоритмов глубокого обучения, а именно предлагается обучить искусственную нейронную сеть на основе условного автоэнкодера.

[0076] Автоэнкодер может быть реализован в виде искусственной нейронной сети (Фиг. 3А и 3В) прямого распространения или обратного распространения, которая далее упоминается как ИНС, которая на выходе восстанавливает сигнал наиболее близкий к входному, причем количество нейронов на входе и на выходе обычно совпадает. В конкретном варианте реализации на входе и на выходе может быть таксономический состав микробиоты или представленность всех генов/групп генов микробного сообщества. В этом случае каждый нейрон входного слоя будет соответствовать отдельному таксону, а входными данными для них будут относительная представленность соответствующего таксона в образце, аналогично нейроны выходного слоя будут соответствовать тем же таксонам, а выходными данными для них будут восстановленные данные относительной представленности таксонов.

[0077] В предпочтительных вариантах реализации технического решения (Фиг. 3А и 3В) на вход автоэнкодеру может подаваться вектор {b1,b2, … bn} 310, который соответствует отдельному образцу микробиоты, где bt - это относительная представленность i-гo таксона в образце, n - общее количество таксонов, доступных для анализа. Тогда на выходе будет аналогичный вектор, но с восстановленными значениями (370). Число нейронов во входном слое 320 и выходном слое 360 совпадает с размерностью вектора {b}. В альтернативном варианте реализации, показанном на Фиг. 3В, входной слой 320 может дополнительно содержать по меньшей мере один нейрон, который получает на вход значение l, соответствующее ковариативному параметру, в случае более одного дополнительного нейрона на вход подается вектор {l}, который отображает значение ковариативного параметра.

[0078] Ниже подробно показан пример входных данных на уровне рода бактерий:

[0079] На выходе данные принимают следующий вид:

[0080] Если на вход автоэнкодера подается относительная представленность групп генов микробного сообщества, то данные, например, могут выглядеть следующим образом:

[0081] Примеры групп генов - это метаболические модули по аннотации KEGG, можно использовать классификацию из других баз, например, MetaCyc и т.п.

[0082] Альтернативно в одном из вариантов осуществления, вместо относительной представленности микроорганизмов (таксонов) или их генов, на вход может подаваться представленность микроорганизмов, которая может быть представлена как количество чтений (иногда в уровне технике - ридов, reads) полученных при секвенировании, соответствующих каждому микроорганизму.

[0083] ИНС устроена таким образом, что между входом (320) и выходом (360) располагаются несколько слоев (340), один из которых достаточно узкий (330) (содержит намного меньше нейронов, чем входной и выходной слои). Например, входной и выходной слои могут содержать несколько сотен нейронов, а в кодирующем слое будет около 20 нейронов. Получается, что сеть автоэнкодера состоит из двух частей - энкодера и декодера. Энкодер сжимает входной сигнал 320 в слой меньшей размерности (кодирующий слой 330, в котором формируется вектор признаков или код для входного сигнала), а декодер восстанавливает сигнал из кодирующего слоя, получая предсказанные значения в выходном слое 360. Между входным и выходным слоями, как у энкодера так и декодера может находиться некоторое количество промежуточных слоев 340. Количество промежуточных слоев, тип связей, а также количество нейронов в каждом слое может быть подобрано для каждой задачи отдельно. В одном из вариантов реализации это могут быть полносвязные слои с функцией активации ReLU, а для обучения можно использовать алгоритм оптимизации RMSprop.

[0084] Нейронная сеть автоэнкодер обучается как одно целое. Поскольку кодирующий слой автоэнкодера ограничен в размерности по сравнению с входным слоем, то сеть учится обобщать входные данные и самостоятельно находить возможные корреляции. От слоя к слою данные сжимаются в новый набор признаков. Затем из кодирующего слоя декодер восстанавливает входной сигнал, причем из-за потерь при кодировании восстановление происходит с ошибками.

[0085] В процессе обучения обычно используется по меньшей мере одна функция потерь, которая не позволяет сети создавать выходные данные, значительно отличающиеся от входных. Значение функции потерь может вычисляться на основе наблюдаемых выходных данных нейронной сети, в сравнении с ожидаемыми выходными данными, которые известны на этапе обучения. В автоэнкодере ожидаемые выходные данные для последнего слоя будут совпадать с данными, которые подавались на входе, что избавляет от необходимости размечать выборки. В качестве функции потерь L может использоваться, например, индекс различия Брэя-Кертиса: где - значение в i-ом нейроне выходного слоя, а bi - входное значение соответствующего нейрона. Также можно использовать другие меры различия, которые широко применяются для микробиомных данных, например индекс Дженсона-Шеннона. В альтернативном варианте реализации для функции потерь можно использовать среднеквадратичную ошибку: Также подходит любая другая мера различия, применимая для двух векторов действительных чисел, например, среднеквадратичная разность логарифмов, модуль ошибки, дивергенция Кульбака - Лейблера и т.д., не ограничиваясь.

[0086] В процессе обучения выполняется обратное распространение ошибки к предыдущим слоям нейронной сети, при этом веса ребер и/или другие сетевые характеристики настраиваются таким образом, чтобы минимизировать функцию потерь. В качестве метода минимизации ошибки можно использовать, например, алгоритмы стохастического градиентного спуска, Adam, Adadelta, RMSProp и другие. Обучение можно продолжать до тех пор, пока значение функции (или величины ошибки) будет продолжать уменьшаться или пока оно не снизится до допустимого значения. Часто в какой-то момент обучения уменьшение замедляется и стабилизируется в окрестности некоторого значения.

[0087] Общий объем обучающей выборки может достигать десятка или нескольких десятков тысяч образцов, поэтому обучающую выборку можно разбить на подмножества и подавать автоэнкодеру частями.

[0088] Таким образом, минимизируются ошибки и потери в выходном слое на этапе восстановления. Автоэнкодер обучается выделять из входных данных наиболее важные признаки, отбрасывая несущественные, и обобщать данные, которые коррелируют между собой. Например, в конкретном варианте реализации может использоваться генеративная разновидность автоэнкодеров - вариационный автоэнкодер. Его особенность заключается в том, что входному сигналу соответствует не один вектор признаков в признаковом пространстве кодирующего слоя автоэнкодера, а 2 k-мерных вектора, а именно вектор средних значений μ и вектор стандартных отклонений σ. Затем вариационный автоэнкодер формирует k-мерный случайный вектор X (иными словами семплирует значения) так, что i-e элементы векторов μ и σ являются средним и стандартным отклонением i-го элемента вектора X.

[0089] В результате декодер для восстановления получает k-мерный случайный вектор X, что вносит вариативность в результат восстановления. Энкодер на этапе обучения минимизирует σ, вследствие чего декодер получает на вход данные с малой степенью неопределенности, и это не препятствует эффективному восстановлению данных. На выходе сеть автоэнкодера формирует восстановленные значения относительной представленности таксонов - вектор {b'}.

[0090] Если в кодирующий слой добавить по меньшей мере один дополнительный нейрон 350, в который для каждого образца на этапе восстановления будет подаваться значение (или вектор значений 355) ковариативного параметра, то это значение будет учитываться и влиять на весь процесс обучения. В одном из вариантов осуществления (Фиг. 3А) значение ковариативного параметра задается в числовом виде, удобном для проведения вычислительных операций. В случае варианта реализации, показанном на Фиг. 3В, значение ковариативного параметра может быть задано вектором {l}, тогда на этапе обучения в нейроны 350 в качестве вектора {l'} 355, подается данное значение вектора {l}, количество дополнительных нейронов (350) совпадает с размерностью вектора {l}.

[0091] Сеть автоэнкодера устроена таким образом, чтобы минимизируя потери информации на этапе восстановления, максимально эффективно кодировать входную информацию на ограниченном количестве нейронов кодирующего слоя. Так как значение ковариативного параметра уже отображается по меньшей мере в одном дополнительном нейроне 350, то ИНС в процессе обучения формирует свои признаки так, чтобы не учитывать влияние данного параметра в остальных нейронах кодирующего слоя 330. Таким образом, значения в нейронах кодирующего слоя за вычетом дополнительного нейрона или нейронов 350 будут очищены от батч эффекта. Добавление нейронов 350 делает сеть автоэнкодера условным автоэнокодером (англ. "Conditional Autoencoder").

[0092] В иллюстративном примере реализации для обучения автоэнкодеру будут предоставлены результаты анализов образцов микробиоты кишечника, полученные из разных лабораторий (например, это могут быть выборки, содержащие по 50-1000 образцов из каждой лаборатории, причем как правило их количество невелико). Лаборатория является ковариативным параметром, батч эффект, на который необходимо скорректировать. Желательно, чтобы на этапе обучения выборки были более или менее сбалансированы по остальным параметрам, таким как клинический статус (больной-здоровый), возраст, место проживания, или другой исследуемый признак.

[0093] На вход автоэнкодер получает относительную представленность бактериального сообщества в образце, например, это может быть перечень обнаруженных таксонов с относительной представленностью каждого таксона. Относительная представленность таксонов задана числовым значением от 0 до 1, так что суммарное значение по всем таксонам, представленным в одном образце, будет равняться 1. Обычно есть некоторый известный перечень таксонов (на данный момент их более 300), представленность которых может быть определена в образце в ходе анализа. Если какой-то из таксонов не был обнаружен в образце, то ему может быть выставлено значение 0.

[0094] Как упоминалось ранее, для обучения автоэнкодеру достаточно относительной представленности бактерий в образце и значений параметра, влияние которого необходимо скорректировать (в данном случае это лаборатория, откуда поступил данный образец). В некоторых вариантах реализации значение ковариативного параметра l или вектор {l} (315) может быть подан во входном слое вместе с представленностью бактерий, как показано на Фиг. 3В.

[0095] В одном из вариантов реализации (Фиг. 3А), каждой лаборатории можно задать числовое значение параметра, поскольку ИНС оперируют математическими функциями и использование категориальных значений недопустимо. Заданное значение ковариативного параметра передается в нейрон 350 (также может быть подано и во входном слое) и используется декодером совместно с данными кодирующего слоя 330. Значение ковариативного параметра может определяться порядковым номером, соответствующим той или иной лаборатории, в других вариантах реализации это могут быть числовые значения в диапазоне от 0 до 1, либо от -1 до 1, либо в любом другом интервале.

[0096] В одном из вариантов реализации, значения, присвоенные каждой лаборатории, могут быть выбраны в соответствии с распределением образцов из разных лабораторий в проекции главных компонент, что позволит сделать обучение ИНС более эффективным. Например, на Фиг. 1В видно, что кластеры, образованные лабораториями, коррелируют с первой компонентой, соответственно и значения для параметра, отвечающего за принадлежность к лаборатории, тоже целесообразно упорядочить аналогичным образом (т.е. чем больше среднее значение для кластера некоторой лаборатории по оси абсцисс, тем большее числовое значение параметра ей соответствует).

[0097] В другом варианте реализации, бинарный вектор значений {l1,l2, … lm} может использоваться для ковариативных параметров, которые принимают категориальные значения, где m - количество возможных значений для данного параметра, каждая координата lt вектора соответствует одному из значений, которые может принимать параметр, тогда lt будет равно 1, когда ковариативный параметр принимает значение, соответствующее i-й координате вектора, и будет равно 0 для остальных координат. В этом случае в кодирующий слой добавляется m нейронов (350), которые в качестве входной информации получают соответствующее значение lt. Например, если лаборатория, где проводился анализ образца, является ковариативным параметром, образцы анализировались в трех разных лабораториях, то для образцов из лаборатории №1 присваивается бинарный вектор значений {l}={1,0,0}, из лаборатории №2 - {l}={0,1,0} и из лаборатории №3 - {l}={0,0,1}.

[0098] В некоторых вариантах реализации автоэнкодер может быть вариационным. В ходе обучения вариационный автоэнкодер формирует набор внутренних признаков, которые представляют собой случайные величины с нормальным распределением. В кодирующем слое 330 вариационного автоэнкодера нейроны могут задавать элементы μi и σi, которые являются средними значениями и стандартными отклонениями этих признаков. Вместе эти элементы формируют k-мерный случайный вектор, который является входной информацией для декодера, из которого будет предсказана (семплирована) таксономическая представленность в образце.

[0099] В альтернативном варианте осуществления, если используется не вариационная модель автоэнкодера, в кодирующем слое 330 формируется один вектор признаков.

[0100] Ниже подробно показан пример значений в кодирующем слое, полученных энкодером для определенного образца (набора данных), для варианта реализации, когда кодирующей слой состоит из 20 нейронов, которые образуют 10 пар значений (μi, σi).

[0101] Значения нейронов, которые задают элементы μi:

1.7455477, -0.48893496, -2.2505996, 0.1578327, 0.25954556, 2.2932992, -2.1370687, -0.9162833, -1.4083229, 1.1926198.

[0102] Значения нейронов, которые задают элементы lg(σi):

-5.467429, -4.2091747, -4.9477985, -5.877535, -4.8918396, -5.684694, -5.0137062, -5.0707973, -5.6867264, -4.7101955.

[0103] На этапе обучения автоэнкодера с использованием обучающей выборки определяются веса ребер и (или) другие характеристики сети.

[0104] Затем, когда ИНС обучена, она может быть использована для коррекции батч эффекта различных выборок. В предпочтительном варианте осуществления технического решения образцы из всех выборок можно представить в стиле одной из них (например, самой многочисленной).

[0105] Шаг 540: получают эталонное значение по меньшей мере одного ковариативного параметра.

[0106] В конкретном примере, где ковариативным параметром является лаборатория, в качестве эталонного значения может быть принято значение ковариативного параметра, соответствующего одной из лабораторий, на которых был обучен автоэнкодер.

[0107] Шаг 550: выполняют коррекцию относительной представленности микроорганизмов и/или их генов в микробиоте по меньшей мере одного образца биологического материала посредством подачи в кодирующий слой обученного автоэнкодера полученное эталонное значение ковариативного параметра.

[0108] Для осуществления коррекции в нейрон или нейроны 350 вместо настоящего значения ковариативного параметра подается выбранное (эталонное) значение 355, одинаковое для всех выборок. Тогда данные из различных выборок будут восстановлены с одинаковым значением ковариативного параметра, т.е. все образцы будут иметь одинаковую поправку в данных, что не будет препятствовать их анализу по интересующим характеристикам.

[0109] Способ может применяться не только к коррекции нескольких выборок, но и к интерпретации результатов анализа для одного образца. Если автоэнкодер уже был обучен ранее для некоторого ковариативного параметра, то любой отдельный образец микробиоты можно представить с измененным (желаемым) значением этого параметра, чтобы использовать полученный результат для сравнения с другим образцом, или формирования рекомендаций.

[0110] Когда сеть автоэнкодера обучена, она может использоваться для осуществления коррекции ковариационного эффекта на выборках. В предпочтительном варианте осуществления изобретения для коррекции ковариационного эффекта предлагается осуществлять "перенос стиля", то есть данные из различных выборок можно представить в стиле какой-то одной лаборатории (например, привести все образцы к стилю той лаборатории, которая предоставила наибольшее количество образцов). Для этого в нейроне 350 кодирующего слоя выставляется единое для всех образцов значение, соответствующее той лаборатории, в стиле которой следует отобразить данные. Когда все образцы будут иметь одинаковую поправку в данных, можно будет применять любые известные методы для их анализа. Это может быть одно значение l', соответствующее выбранной лаборатории, в стиле которой будут представлены выборки, либо выбранный вектор {l'}.

[0111] Также изложенный способ можно применить не к нескольким выборкам, а к одному или более образцам, чтобы представить результаты анализа данного образца в стиле той или иной лаборатории.

[0112] Помимо поправки на эффект лаборатории можно осуществлять поправку данных на любой параметр, который может вносить ковариационный эффект. При этом способ может быть использован для параметров, которые принимают как числовые так и категориальные значения. Например, в качестве такого ковариативного параметра может выступать регион проживания субъекта (пользователя), пол, возраст, особенности питания и/или образа жизни субъекта, регион секвенирования 16S, особенности пробоподготовки, и т.д.

[0113] Таким образом, предложенное техническое решение позволяет избавиться от батч эффекта, представив все анализируемые образцы в одном стиле. Перенос стиля выполняется на этапе восстановления сигнала декодером путем замены реального значения ковариативного параметра образцов на выбранное значение, так чтобы все образцы были восстановлены с одинаковым значением ковариативного параметра.

[0114] В одном из вариантов реализации технического решения может проводиться предварительный этап обучения. На таком этапе один или несколько вариантов сетей автоэнкодера могут обучаться восстановлению микробиомных данных без подачи значений ковариативного параметра в кодирующем слое. Этот этап используется для определения наиболее важных признаков, их количества, архитектуры сети и/или других характеристик сети. Также на предварительном этапе обучения можно определить последовательность числовых значений, которые будут присваиваться соответствующим значениям ковариативного параметра (например, числовые значения параметра для каждой лаборатории). Далее автоэнкодер с подобранными характеристиками и подходящей архитектурой может быть обучен заново (с нуля) способом, изложенным ранее.

[0115] Описанный выше способ коррекции нежелательных ковариационных эффектов в микробиомных данных может выполняться на по меньшей мере одном процессоре или другом устройстве/средстве/компоненте обработки вычислительных данных. Приведенные шаги данного способа могут быть реализованы посредством программных инструкций (строк программного кода) или физических сигналов. На первом шаге получают данные о составе микробиоты набора образцов биологического материала путем их секвенирования и значение по меньшей мере одного ковариативного параметра для каждого образца, причем данный ковариативный параметр не представляет интереса для исследования или интерпретации данных, однако влияет на значения или взаимосвязь других параметров микробиоты. Указанные данные могут получать на одно устройство хранения данных или память из внешнего и/или локального устройства хранения данных, например, сервера. Далее на основании полученных данных о составе микробиоты определяют относительную представленность микроорганизмов, или их генов, или групп генов в микробиоте из набора образцов биологического материала в компоненте обработки данных. Затем обучают искусственную нейронную сеть автоэнкодер, которая на вход получает относительную представленность микроорганизмов или их генов в микробиоте набора образцов биологического материала, причем добавляют в кодирующий слой автоэнкодера по меньшей мере один дополнительный нейрон, в который на этапе восстановления подается полученное значение ковариативного параметра для каждого образца. Относительная представленность микроорганизмов может храниться в памяти технического решения и использоваться по мере надобности. Далее получают эталонное значение по меньшей мере одного ковариативного параметра, которое может храниться на локальном или удаленном (например, облачном) устройстве хранения данных/памяти. На последнем шаге данного компьютерно-реализованного способа выполняют коррекцию относительной представленности микроорганизмов или их генов в микробиоте по меньшей мере одного образца биологического материала посредством подачи в кодирующий слой обученного ранее автоэнкодера полученное эталонное значение ковариативного параметра.

[0116] Ссылаясь на Фиг. 4, данное техническое решение может быть реализовано в виде вычислительной системы 400 коррекции нежелательных ковариационных эффектов в микробиомных данных, которая содержит один или более из следующих компонентов:

- компонент 401 обработки, содержащий по меньшей мере один процессор 402,

- память 403,

- компонент 405 мультимедиа,

- компонент 406 аудио,

- интерфейс 407 ввода / вывода (I / О),

- сенсорный компонент 408,

- компонент 409 передачи данных.

[0117] Компонент 401 обработки в основном управляет всеми операциями системы 400, например, осуществляет обработку данных о микробиоте, а также управляет дисплеем, телефонным звонком, передачей данных, работой камеры и операцией записи мобильного устройства связи субъекта. Компонент 401 обработки может включать в себя один или более процессоров 402, реализующих инструкции для завершения всех или части шагов из указанных выше способов. Кроме того, компонент 401 обработки может включать в себя один или более модулей для удобного процесса взаимодействия между другими модулями 401 обработки и другими модулями. Например, компонент 401 обработки может включать в себя мультимедийный модуль для удобного облегченного взаимодействия между компонентом 405 мультимедиа и компонентом 401 обработки.

[0118] Память 403 выполнена с возможностью хранения различных типов данных для поддержки работы системы 400, например, базу данных с профилями субъектов. Примеры таких данных включают в себя инструкции из любого приложения или способа, контактные данные, данные адресной книги, сообщения, изображения, видео, и т.д., и все они работают на системе 400. Память 403 может быть реализована в виде любого типа энергозависимого запоминающего устройства, энергонезависимого запоминающего устройства или их комбинации, например, статического оперативного запоминающего устройства (СОЗУ), Электрически-Стираемого Программируемого постоянного запоминающего устройства (ЭСППЗУ), Стираемого Программируемого постоянного запоминающего устройства (СППЗУ), Программируемого постоянного запоминающего устройства (ППЗУ), постоянного запоминающего устройства (ПЗУ), магнитной памяти, флэш-памяти, магнитного диска или оптического диска и другого, не ограничиваясь.

[0119] Компонент 405 мультимедиа включает в себя экран, обеспечивающий выходной интерфейс между системой 400, которая может быть установлена на мобильном устройстве связи субъекта и субъектом. В некоторых вариантах реализации, экран может быть жидкокристаллическим дисплеем (ЖКД) или сенсорной панелью (СП). Если экран включает в себя сенсорную панель, экран может быть реализован в виде сенсорного экрана для приема входного сигнала от субъекта. Сенсорная панель включает один или более сенсорных датчиков в смысле жестов, прикосновения и скольжения по сенсорной панели. Сенсорный датчик может не только чувствовать границу прикосновения субъекта или жест перелистывания, но и определять длительность времени и давления, связанных с режимом работы на прикосновение и скольжение. В некоторых вариантах осуществления компонент 405 мультимедиа включает одну фронтальную камеру и/или одну заднюю камеру. Когда система 400 находится в режиме работы, например, режиме съемки или режиме видео, фронтальная камера и/или задняя камера могут получать данные мультимедиа извне. Каждая фронтальная камера и задняя камера может быть одной фиксированной оптической системой объектива или может иметь фокусное расстояние или оптический зум.

[0120] Компонент 406 аудио выполнен с возможностью выходного и/или входного аудио сигнала. Например, компонент 406 аудио включает один микрофон (MIC), который выполнен с возможностью получать внешний аудио сигнал, когда система 400 находится в режиме работы, например, режиме вызова, режима записи и режима распознавания речи. Полученный аудио сигнал может быть далее сохранен в памяти 403 или направлен по компоненту 409 передачи данных. В некоторых вариантах осуществления компонент 406 аудио также включает в себя один динамик, выполненный с возможностью вывода аудио сигнала.

[0121] Интерфейс 407 ввода / вывода (I / О) обеспечивает интерфейс между компонентом 401 обработки и любым периферийным интерфейсным модулем. Вышеуказанным периферийным интерфейсным модулем может быть клавиатура, руль, кнопка, и т.д. Эти кнопки могут включать, но не ограничиваясь, кнопку запуска, кнопку регулировки громкости, начальную кнопку и кнопку блокировки.

[0122] Сенсорный компонент 408 содержит один или более сенсоров и выполнен с возможностью обеспечения различных аспектов оценки состояния системы 400. Например, сенсорный компонент 408 может обнаружить состояния вкл/выкл системы 400, относительное расположение компонентов, например, дисплея и кнопочной панели, одного компонента системы 400, наличие или отсутствие контакта между субъектом и системой 400, а также ориентацию или ускорение/замедление и изменение температуры системы 400. Сенсорный компонент 408 содержит бесконтактный датчик, выполненный с возможностью обнаружения присутствия объекта, находящегося поблизости, когда нет физического контакта. Сенсорный компонент 408 содержит оптический датчик (например, КМОП или ПЗС-датчик изображения) выполненный с возможностью использования в визуализации приложения. В некоторых вариантах сенсорный компонент 408 содержит датчик ускорения, датчик гироскопа, магнитный датчик, датчик давления или датчик температуры.

[0123] Компонент 409 передачи данных выполнен с возможностью облегчения проводной или беспроводной связи между системой 400 и другими устройствами. Система 400 может получить доступ к беспроводной сети на основе стандарта связи, таких WiFi, 2G, 3G, 5G, или их комбинации. В одном примерном варианте компонент 409 передачи данных получает широковещательный сигнал или трансляцию, связанную с ними информацию из внешней широковещательной системы управления через широковещательный канал. В одном варианте осуществления компонент 409 передачи данных содержит модуль коммуникации ближнего поля (NFC), чтобы облегчить ближнюю связь. Например, модуль NFC может быть основан на технологии радиочастотной идентификации (RFID), технологии ассоциации передачи данных в инфракрасном диапазоне (IrDA), сверхширокополосных (UWB) технологии, Bluetooth (ВТ) технологии и других технологиях.

[0124] В примерном варианте осуществления система 400 может быть реализована посредством одной или более Специализированных Интегральных Схем (СИС), Цифрового Сигнального Процессора (ЦСП), Устройств Цифровой Обработки Сигнала (УЦОС), Программируемым Логическим Устройством (ПЛУ), логической микросхемой, программируемой в условиях эксплуатации (ППВМ), контроллера, микроконтроллера, микропроцессора или других электронных компонентов, и может быть сконфигурирован для реализации способа 500 коррекции нежелательных ковариационных эффектов в микробиомных данных.

[0125] В примерном варианте осуществления энергонезависимый машиночитаемый носитель содержит память 403, которая включает инструкции, где инструкции выполняются процессором 401 системы 400 для реализации описанных выше способов коррекции нежелательных ковариационных эффектов в микробиотных данных. Например, энергонезависимым машиночитаемым носителем может быть ПЗУ, оперативное запоминающее устройство (ОЗУ), компакт-диск, магнитная лента, дискеты, оптические устройства хранения данных и тому подобное.

[0126] Вычислительная система 400 может включать в себя интерфейс дисплея, который передает графику, текст и другие данные из коммуникационной инфраструктуры (или из буфера кадра, не показан) для отображения на компоненте 405 мультимедиа. Вычислительная система 400 дополнительно включает в себя устройства ввода или периферийные устройства. Периферийные устройства могут включать в себя одно или несколько устройств для взаимодействия с мобильным устройством связи субъекта, такие как клавиатура, микрофон, носимое устройство, камера, один или более звуковых динамиков и другие датчики. Периферийные устройства могут быть внешними или внутренними по отношению к мобильному устройству связи субъекта. Сенсорный экран может отображать, как правило, графику и текст, а также предоставляет пользовательский интерфейс (например, но не ограничиваясь ими, графический пользовательский интерфейс (GUI)), через который субъект может взаимодействовать с мобильным устройством связи субъекта, например, получать доступ и взаимодействовать с приложениями, запущенными на устройстве.

[0127] Элементы заявляемого технического решения находятся в функциональной взаимосвязи, а их совместное использование приводит к созданию нового и уникального технического решения. Таким образом, все блоки функционально связаны.

[0128] Все блоки, используемые в системе, могут быть реализованы с помощью электронных компонент, используемых для создания цифровых интегральных схем, что очевидно для специалиста в данном уровне техники. Не ограничиваюсь, могут использоваться микросхемы, логика работы которых определяется при изготовлении, или программируемые логические интегральные схемы (ПЛИС), логика работы которых задается посредством программирования. Для программирования используются программаторы и отладочные среды, позволяющие задать желаемую структуру цифрового устройства в виде принципиальной электрической схемы или программы на специальных языках описания аппаратуры: Verilog, VHDL, AHDL и др. Альтернативой ПЛИС могут быть программируемые логические контроллеры (ПЛК), базовые матричные кристаллы (БМК), требующие заводского производственного процесса для программирования; ASIC специализированные заказные большие интегральные схемы (БИС), которые при мелкосерийном и единичном производстве существенно дороже.

[0129] Обычно, сама микросхема ПЛИС состоит из следующих компонент:

- конфигурируемых логических блоков, реализующих требуемую логическую функцию;

- программируемых электронных связей между конфигурируемыми логическими блоками;

- программируемых блоков ввода/вывода, обеспечивающих связь внешнего вывода микросхемы с внутренней логикой.

[0130] Также блоки могут быть реализованы с помощью постоянных запоминающих устройств.

[0131] Таким образом, реализация всех используемых блоков достигается стандартными средствами, базирующимися на классических принципах реализации основ вычислительной техники.

[0132] Как будет понятно специалисту в данной области техники, аспекты настоящего технического решения могут быть выполнены в виде системы, способа или компьютерного программного продукта. Соответственно, различные аспекты настоящего технического решения могут быть реализованы исключительно как аппаратное обеспечение, как программное обеспечение (включая прикладное программное обеспечение и так далее) или как вариант осуществления, сочетающий в себе программные и аппаратные аспекты, которые в общем случае могут упоминаться как «модуль», «система» или «архитектура». Кроме того, аспекты настоящего технического решения могут принимать форму компьютерного программного продукта, реализованного на одном или нескольких машиночитаемых носителях, имеющих машиночитаемый программный код, который на них реализован.

[0133] Также может быть использована любая комбинация одного или нескольких машиночитаемых носителей. Машиночитаемый носитель хранилища может представлять собой, без ограничений, электронную, магнитную, оптическую, электромагнитную, инфракрасную или полупроводниковую систему, аппарат, устройство или любую подходящую их комбинацию. Конкретнее, примеры (неисчерпывающий список) машиночитаемого носителя хранилища включают в себя: электрическое соединение с помощью одного или нескольких проводов, портативную компьютерную дискету; жесткий диск, оперативную память (ОЗУ), постоянную память (ПЗУ), стираемую программируемую постоянную память (EPROM или Flash-память), оптоволоконное соединение, постоянную память на компакт-диске (CD-ROM), оптическое устройство хранения, магнитное устройство хранения или любую комбинацию вышеперечисленного. В контексте настоящего описания, машиночитаемый носитель хранилища может представлять собой любой гибкий носитель данных, который может содержать или хранить программу для использования самой системой, устройством, аппаратом или в соединении с ними.

[0134] Программный код, встроенный в машиночитаемый носитель, может быть передан с помощью любого носителя, включая, без ограничений, беспроводную, проводную, оптоволоконную, инфракрасную и любую другую подходящую сеть или комбинацию вышеперечисленного.

[0135] Компьютерный программный код для выполнения операций для шагов настоящего технического решения может быть написан на любом языке программирования или комбинаций языков программирования, включая объектно-ориентированный язык программирования, например Python, R, Java, Smalltalk, С++ и так далее, и обычные процедурные языки программирования, например язык программирования «С» или аналогичные языки программирования. Программный код может выполняться на компьютере субъекта полностью, частично, или же как отдельный пакет программного обеспечения, частично на компьютере субъекта и частично на удаленном компьютере, или же полностью на удаленном компьютере. В последнем случае, удаленный компьютер может быть соединен с компьютером пользователя через сеть любого типа, включая локальную сеть (LAN), глобальную сеть (WAN) или соединение с внешним компьютером (например, через Интернет с помощью Интернет-провайдеров).

[0136] Аспекты настоящего технического решения были описаны подробно со ссылкой на блок-схемы, принципиальные схемы и/или диаграммы способов, устройств (систем) и компьютерных программных продуктов в соответствии с вариантами осуществления настоящего технического решения. Следует иметь в виду, что каждый блок из блок-схемы и/или диаграмм, а также комбинации блоков из блок-схемы и/или диаграмм, могут быть реализованы компьютерными программными инструкциями. Эти компьютерные программные инструкции могут быть предоставлены процессору компьютера общего назначения, компьютера специального назначения или другому устройству обработки данных для создания процедуры, таким образом, чтобы инструкции, выполняемые процессором компьютера или другим программируемым устройством обработки данных, создавали средства для реализации функций/действий, указанных в блоке или блоках блок-схемы и/или диаграммы.

[0137] Эти компьютерные программные инструкции также могут храниться на машиночитаемом носителе, который может управлять компьютером, отличным от программируемого устройства обработки данных или отличным от устройств, которые функционируют конкретным образом, таким образом, что инструкции, хранящиеся на машиночитаемом носителе, создают устройство, включающее инструкции, которые осуществляют функции/действия, указанные в блоке блок-схемы и/или диаграммы.

Похожие патенты RU2742003C1

название год авторы номер документа
СПОСОБ И СИСТЕМА ГЕНЕРАЦИИ ИНДИВИДУАЛЬНЫХ РЕКОМЕНДАЦИЙ ПО ДИЕТЕ НА ОСНОВАНИИ АНАЛИЗА СОСТАВА МИКРОБИОТЫ 2019
  • Тяхт Александр Викторович
  • Попенко Анна Сергеевна
  • Алексеев Дмитрий Глебович
  • Клименко Наталья Сергеевна
  • Мусиенко Сергей Владимирович
RU2724498C1
СПОСОБ И СИСТЕМА ФОРМИРОВАНИЯ ИНДИВИДУАЛЬНОГО РАЦИОНА ПРОДУКТОВ ПИТАНИЯ ПОСЛЕ ПЕРЕСАДКИ МИКРОБИОТЫ 2018
  • Мусиенко Сергей Владимирович
  • Перфильев Андрей Валентинович
  • Алексеев Дмитрий Глебович
  • Тяхт Александр Викторович
  • Попенко Анна Сергеевна
RU2699283C1
СИСТЕМА И СПОСОБ ИНТЕРПРЕТАЦИИ ДАННЫХ И ПРЕДОСТАВЛЕНИЯ РЕКОМЕНДАЦИЙ ПОЛЬЗОВАТЕЛЮ НА ОСНОВЕ ЕГО ГЕНЕТИЧЕСКИХ ДАННЫХ И ДАННЫХ О СОСТАВЕ МИКРОБИОТЫ КИШЕЧНИКА 2017
  • Мусиенко Сергей Владимирович
  • Перфильев Андрей Валентинович
  • Осипенко Дмитрий Александрович
  • Никогосов Дмитрий Аркадьевич
  • Алексеев Дмитрий Глебович
  • Тяхт Александр Викторович
RU2699284C2
СПОСОБ И СИСТЕМА ОТСЛЕЖИВАНИЯ РАЦИОНА И ФОРМИРОВАНИЯ ЗАКЛЮЧЕНИЯ О КАЧЕСТВЕ ПИТАНИЯ И/ИЛИ ИНДИВИДУАЛЬНЫХ РЕКОМЕНДАЦИЙ ПО ПИТАНИЮ 2019
  • Никогосов Дмитрий
  • Попенко Анна Сергеевна
  • Кардакова Мария Юрьевна
  • Лошкарев Роберт Игоревич
  • Мусиенко Сергей Владимирович
  • Перфильев Андрей Валентинович
RU2721234C1
СПОСОБ ОЦЕНКИ РИСКА ЗАБОЛЕВАНИЯ У ПОЛЬЗОВАТЕЛЯ НА ОСНОВАНИИ ГЕНЕТИЧЕСКИХ ДАННЫХ И ДАННЫХ О СОСТАВЕ МИКРОБИОТЫ КИШЕЧНИКА 2018
  • Мусиенко Сергей Владимирович
  • Перфильев Андрей Валентинович
  • Осипенко Дмитрий Александрович
  • Никогосов Дмитрий Аркадьевич
  • Алексеев Дмитрий Глебович
  • Тяхт Александр Викторович
RU2699517C2
СИСТЕМА ДЕТЕКЦИИ НАИБОЛЕЕ ЗНАЧИМЫХ ПРОКАРИОТИЧЕСКИХ ПРЕДСТАВИТЕЛЕЙ МИКРОБИОТЫ КИШЕЧНИКА ЧЕЛОВЕКА НА ОСНОВЕ ПЦР ПАНЕЛИ 2017
  • Попенко Анна Сергеевна
  • Тяхт Александр Викторович
  • Алексеев Дмитрий Глебович
  • Клименко Наталья Сергеевна
  • Филипенко Максим Леонидович
  • Шадрина Александра Сергеевна
RU2680268C1
Способ определения ответа пациента с диагнозом меланома кожи на анти-PD1-терапию 2020
  • Федоров Дмитрий Евгеньевич
  • Ильина Елена Николаевна
  • Манолов Александр Иванович
  • Конанов Дмитрий Сергеевич
  • Павленко Александр Владимирович
  • Веселовский Владимир Александрович
  • Климина Ксения Михайловна
  • Соловьев Кирилл Владимирович
  • Альвовский Иван Константинович
  • Морозов Дмитрий Валентинович
RU2771080C2
СПОСОБ ОПРЕДЕЛЕНИЯ ПРОФИЛЯ ПРИТОКА В ГОРИЗОНТАЛЬНЫХ НЕФТЯНЫХ СКВАЖИНАХ ПРИ ПОМОЩИ МИКРОБИОМНОГО АНАЛИЗА 2020
  • Поздышев Арсений Станиславович
  • Гельфанд Михаил Сергеевич
  • Шелякин Павел Владимирович
RU2741886C1
Способ прогнозирования эффективности терапии язвенного колита 2024
  • Зубова Анна Дмитриевна
  • Тарасова Галина Николаевна
  • Яковлев Алексей Александрович
  • Волков Александр Сергеевич
RU2824983C1
СПОСОБ ПРОГНОЗИРОВАНИЯ ЧАСТОТЫ ОБОСТРЕНИЙ ПРИ ХРОНИЧЕСКОЙ ОБСТРУКТИВНОЙ БОЛЕЗНИ ЛЕГКИХ 2016
  • Огородова Людмила Михайловна
  • Салтыкова Ирина Владимировна
  • Сазонов Алексей Эдуардович
  • Дорофеева Юлия Борисовна
  • Тяхт Александр Викторович
  • Кириллова Наталья Александровна
  • Петров Вячеслав Алексеевич
  • Федосенко Сергей Вячеславович
RU2657788C1

Иллюстрации к изобретению RU 2 742 003 C1

Реферат патента 2021 года СПОСОБ И СИСТЕМА КОРРЕКЦИИ НЕЖЕЛАТЕЛЬНЫХ КОВАРИАЦИОННЫХ ЭФФЕКТОВ В МИКРОБИОМНЫХ ДАННЫХ

Настоящая группа изобретений относится к микробиологии. Предложен способ коррекции нежелательных ковариационных эффектов в микробиомных данных, в котором получают данные о составе микробиоты набора образцов биологического материала путем их секвенирования и значение по меньшей мере одного ковариативного параметра для каждого образца; определяют относительную представленность микроорганизмов и/или их генов; обучают искусственную нейронную сеть автоэнкодер, которая на вход получает относительную представленность микроорганизмов и/или их генов, причем добавляют в кодирующий слой автоэнкодера по меньшей мере один дополнительный нейрон, в который подается значение ковариативного параметра для каждого образца; выполняют коррекцию относительной представленности микроорганизмов и/или их генов в микробиоте посредством подачи в кодирующий слой обученного на предыдущем шаге автоэнкодера эталонное значение ковариативного параметра. Для осуществления указанного способа представлены также система и машиночитаемый носитель. Данная группа изобретений обеспечивает повышение точности и качества коррекции ошибок при анализе и интерпретации данных о составе микробиоты и соответственно более точное определение относительной представленности микроорганизмов в образцах. 3 н. и 14 з.п. ф-лы, 5 ил.

Формула изобретения RU 2 742 003 C1

1. Способ коррекции нежелательных ковариационных эффектов в микробиомных данных, выполняемый на по меньшей мере одном процессоре и включающий следующие шаги:

- получают данные о составе микробиоты набора образцов биологического материала путем их секвенирования и значение по меньшей мере одного ковариативного параметра для каждого образца, причем данный ковариативный параметр не представляет интереса для исследования или интерпретации данных, однако влияет на значения или взаимосвязь других параметров микробиоты;

- на основании полученных данных о составе микробиоты определяют относительную представленность микроорганизмов, или их генов, или групп генов в микробиоте из набора образцов биологического материала;

- обучают искусственную нейронную сеть автоэнкодер, которая на вход получает относительную представленность микроорганизмов или их генов в микробиоте набора образцов биологического материала, причем добавляют в кодирующий слой автоэнкодера по меньшей мере один дополнительный нейрон, в который на этапе восстановления подается полученное значение ковариативного параметра для каждого образца;

- получают эталонное значение по меньшей мере одного ковариативного параметра;

- выполняют коррекцию относительной представленности микроорганизмов или их генов в микробиоте по меньшей мере одного образца биологического материала посредством подачи в кодирующий слой обученного ранее автоэнкодера полученного эталонного значения ковариативного параметра.

2. Способ по п. 1, характеризующийся тем, что ковариативным параметром является пол, и/или возраст, и/или страна проживания участников исследования, и/или регион секвенирования гена 16S рРНК, и/или особенности пробоподготовки, и/или особенности питания, и/или образ жизни, и/или лаборатория.

3. Способ по п. 1, характеризующийся тем, что значения ковариативного параметра образца микробиоты задают в числовом виде, и/или кластеризуют, и/или группируют, и/или разбивают на диапазоны.

4. Способ по п. 1, характеризующийся тем, что нейроны входного и/или выходного слоя автоэнкодера соответствуют отдельному таксону или гену микробного сообщества, а входными данными для входного слоя и выходными данными для выходного слоя являются относительная представленность соответствующего таксона или гена в образце.

5. Способ по п. 1, характеризующийся тем, что входной слой содержит дополнительный нейрон, в который подается значение ковариативного параметра или набор дополнительных нейронов, в которые подается бинарный вектор, соответствующий значению ковариативного параметра.

6. Способ по п. 1, характеризующийся тем, что автоэнкодер является вариационным.

7. Способ по п. 1, характеризующийся тем, что автоэнкодер состоит из энкодера и декодера, причем энкодер сжимает входной сигнал в слой меньшей размерности (кодирующий слой), а декодер восстанавливает сигнал из кодирующего слоя.

8. Способ по п. 1, характеризующийся тем, что при обучении автоэнкодера функцией потерь является индекс сходства Брэя-Кертиса, или индекс Дженсона-Шеннона, или среднеквадратичная разность логарифмов, или модуль ошибки, или дивергенция Кульбака-Лейблера.

9. Способ по п. 1, характеризующийся тем, что в процессе обучения выполняется обратное распространение ошибки к предыдущим слоям нейронной сети, при этом веса ребер и/или другие сетевые характеристики настраиваются таким образом, чтобы минимизировать функцию потерь.

10. Способ по п. 1, характеризующийся тем, что относительная представленность микроорганизмов или их генов задана числовым значением от 0 до 1.

11. Способ по п. 1, характеризующийся тем, что при обучении автоэнкодера в кодирующем слое нейроны задают элементы μi и σi, которые являются средними значениями и стандартными отклонениями признаков.

12. Способ по п. 11, характеризующийся тем, что данные элементы формируют k-мерный случайный вектор, который является входной информацией для декодера, из которого предсказывается представленность микроорганизмов или их генов в микробиоте.

13. Способ по п. 1, характеризующийся тем, что кодирующий слой содержит отдельный нейрон, в который передается числовое значение, соответствующее ковариативному параметру.

14. Способ по п. 1, характеризующийся тем, что кодирующий слой содержит набор отдельных нейронов, которые задают бинарный вектор, соответствующий определенному значению ковариативного параметра.

15. Способ по п. 1, характеризующийся тем, что относительная представленность микроорганизмов или их генов определяется количеством чтений, соответствующих представленности каждого микроорганизма в образце.

16. Система коррекции нежелательных ковариационных эффектов в микробиомных данных, содержащая по меньшей мере один процессор и по меньшей мере одну память, соединенную с процессором, причем в указанной памяти записана программа для осуществления шагов способа по п. 1.

17. Машиночитаемый носитель информации, хранящий программу для автоматизации способа коррекции нежелательных ковариационных эффектов в микробиомных данных, при этом программа содержит:

а) инструкции для получения данных о составе микробиоты набора образцов биологического материала путем их секвенирования и значения по меньшей мере одного ковариативного параметра для каждого образца, причем данный ковариативный параметр не представляет интереса для исследования или интерпретации данных, однако влияет на значения или взаимосвязь других параметров микробиоты;

b) инструкции для определения относительной представленности микроорганизмов, или их генов, или групп генов в микробиоте из набора образцов биологического материала на основании полученных данных о составе микробиоты;

c) инструкции для обучения искусственной нейронной сети автоэнкодер, которая на вход получает относительную представленность микроорганизмов или их генов в микробиоте набора образцов биологического материала, причем добавляют в кодирующий слой автоэнкодера по меньшей мере один дополнительный нейрон, в который на этапе восстановления подается полученное значение ковариативного параметра для каждого образца;

d) инструкции для получения эталонного значения по меньшей мере одного ковариативного параметра;

e) инструкции для выполнения коррекции относительной представленности микроорганизмов или их генов в микробиоте по меньшей мере одного образца биологического материала посредством подачи в кодирующий слой обученного ранее автоэнкодера полученного эталонного значения ковариативного параметра.

Документы, цитированные в отчете о поиске Патент 2021 года RU2742003C1

Автомобиль-сани, движущиеся на полозьях посредством устанавливающихся по высоте колес с шинами 1924
  • Ф.А. Клейн
SU2017A1
NISSEN, JAKOB NYBO, et al
"Binning microbial genomes using deep learning." BioRxiv, 2018, doi:10.1101/490078
METWALLY, AHMED A., et al
"Utilizing longitudinal microbiome taxonomic profiles to predict food allergy via Long Short-Term Memory networks." PLoS computational biology, 2019 (February 4, 2019), 15(2):

RU 2 742 003 C1

Авторы

Клименко Наталья Сергеевна

Тяхт Александр Викторович

Ефимова Дарья Андреевна

Даты

2021-02-01Публикация

2019-10-18Подача