Изобретение относится к области медицины и вычислительной техники, в частности к способу разметки лиганд-белковых сайтов связывания на основе информации о трехмерной структуре белка с использованием машинного обучения.
Известен способ разметки лиганд-белковых сайтов связывания, заключающийся в том, что генерируют энергетическую решетку вокруг белка и оценивают вероятность нахождения заданных типов атомов (ароматический углерод, алифатический углерод, водород, азот, кислород и сера) на основе энергетических потенциалов. В каждой точке решетки выбирают тип атома с наивысшей аффинностью исходя из сравнения расчетных значений энергии (Rodney Harris et al. Automated prediction of ligand-binding sites in proteins. Wiley InterScience, 2007; 70: 1506-1517).
Недостатками способа являются относительно невысокая точность и малое разнообразие прогнозируемых классов.
Известен способ разметки лиганд-белковых сайтов связывания, заключающийся в том, что рассчитывают энергию взаимодействия между атомом заданного типа (углерод (C, гидрофобный), кислород (OA, акцептор водородной связи) и водород (HD, донор водородной связи)) и атомами белка. Далее проводят отбор точек, обладающих наибольшей аффинностью на основе расчетной энергии связывания, и объединяют три набора точек в единую карту, где для каждой позиции решетки выбирают тип атома с минимальным значением энергии связывания (Pradeep Anand Ravindranath et al. AutoSite: an automated approach for pseudo-ligands prediction - from ligand-binding sites identification to predicting key ligand atoms. Bioinformatics, 2016, 32, 20: 3142-3149).
Недостатками способа являются малое разнообразие прогнозируемых классов, а также использование дескрипторов, рассчитанных на основе силового поля.
Предлагаемое изобретение отличается от аналогов тем, что использует методы машинного обучения для разметки пространства, в частности графовые нейросети, обученные на кристаллографических данных, использует дескрипторы, основанные на химическом и геометрическом описании сайтов связывания, а не рассчитанных с помощью силового поля, а также предлагаемый способ включает более исчерпывающий набор классов.
Технической проблемой, на решение которой направлено изобретение, является создание способа разметки лиганд-белковых сайтов связывания на основе информации о трехмерной структуре белка с использованием машинного обучения.
Технический результат заключается в определении вероятности нахождения различных типов атомов потенциального лиганда в заданном аминокислотном окружении.
Заявленный результат достигается за счет осуществления способа разметки участков лиганд-белковых сайтов связывания на основе информации о трехмерной структуре белка с использованием методов машинного обучения, содержащего этапы, на которых:
- получают структурную информацию о трехмерной структуре белка, дескрипторах, основанных на химическом описании сайтов связывания;
- получают информацию об анализируемом пространстве в сайте связывания, дескрипторах, основанных на геометрическом описании сайтов связывания;
- объединяют информацию об анализируемом пространстве и трехмерной структуре белка в граф, вершинами которого являются атомы белка и анализируемые точки пространства, соединенные;
ребрами, на которых хранится информация о расстоянии между атомами белка и точками пространства;
- каждый граф анализируют с помощью графовых нейронных сетей для прогнозирования вероятности нахождения каждого из рассматриваемых типов атомов в анализируемых точках пространства в диапазоне от 0 до 1;
- к полученным с помощью графовых нейронных сетей оценкам применяют дополнительные коэффициенты с целью балансировки ответов разных моделей относительно друг друга и получения одного наиболее вероятного типа атома.
В частном варианте реализации предлагаемого способа к полученным с помощью графовых нейронных сетей оценкам могут быть применены степенные коэффициенты, сигмоидальная функция, либо оценки могут использоваться без применения коэффициентов в случае прогнозирования вероятности нахождения одного из рассматриваемых типов атомов в анализируемых точках пространства соответствующей нейросетевой моделью.
В частном варианте реализации предлагаемого способа, при сборе структурной информации белка не учитываются атомы водорода.
Сущность изобретения поясняется чертежами.
На фиг. 1 представлен пример осуществления способа.
На фиг. 2 представлено описание прогнозируемых методом типов атомов.
На фиг. 3 представлен пример общей схемы вычислительного устройства.
На фиг. 4 представлена матрица несоответствия прогнозов модели на независимой выборке. Каждая ячейка матрицы содержит в себе информацию о доле истинных значений типа атома по оси Y, спрогнозированных как тип атома по оси X.
На фиг. 5 представлена производительность метода на выборке Astex Diverse Set.
В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения. Однако квалифицированному в предметной области специалисту будет очевидно, каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять излишне понимание особенностей настоящего изобретения. Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.
Способ разметки лиганд-белковых сайтов связывания на основе структурной информации выполняется на вычислительном устройстве и представлен на фиг. 1.
На первом шаге получают структурную информацию о белке, в частности координаты атомов, их химические дескрипторы в виде тензора (101). В частном варианте реализации используются такие дескрипторы как химический элемент, наименование атома, название аминокислоты, тип аминокислоты (ионизированная, полярная, гидрофобная, ароматическая и т.д.), основная или боковая цепь, при сборе структурной информации белка не учитываются атомы водорода.
Также получают информацию об анализируемом пространстве в сайте связывания, в частности координаты в трехмерном пространстве в виде тензора (102). Пространство может быть одной абстрактной точкой, набором точек, либо атомами химического соединения (лиганда).
Информацию об анализируемом пространстве и белке объединяют в граф, вершинами которого являются атомы белка и анализируемые точки пространства, соединенные ребрами, на которых хранится информация о расстоянии между атомами белка и точками пространства. Каждая анализируемая точка пространства соединяется ребрами с вершинами, представляющими атомы белка, находящимся в пределах заданного радиуса (до 5 Å в данной реализации, однако данный порог использован в качестве примера и никоим образом не ограничивает область изобретения). Вершины, представляющие атомы белка, также соединены ребрами между собой в пределах заданного радиуса (до 5 Å в данной реализации, однако данный порог использован в качестве примера и никоим образом не ограничивает область изобретения). Граф является неориентированным. На ребрах графа хранится информация о расстоянии между соответствующими вершинами. На вершинах, соответствующих атомам белка, хранятся химические дескрипторы (103). В частной реализации используются такие дескрипторы как химический элемент, наименование атома, название аминокислоты, тип аминокислоты (ионизированная, полярная, гидрофобная, ароматическая и т.д.), основная или боковая цепь.
Каждый граф анализируют с помощью графовых нейронных сетей для прогнозирования вероятности нахождения каждого из рассматриваемых типов атомов в анализируемых точках пространства в диапазоне от 0 до 1. В частной реализации способа используется 13 типов атомов, описанных в таблице (фиг. 2).
В реализации способа использовалась графовая нейронная сеть, состоящая из следующих элементов:
один графовый нейронный слой с механизмом внимания для обработки информации на вершинах графа с размерностью выходных данных 300 и размерностью признаков на ребрах 1, создающий векторное представление для дальнейшей работы нейросети;
блок из слоя гауссового фильтра с размером ядра 50 и двух линейных слоев для обработки информации на ребрах графа с размерностью выходных данных 32 для генерации векторного представления признаков на ребрах графа;
блок из 8 графовых нейронных слоев с механизмом внимания с размерностью выходных данных 300 и размерностью признаков на ребрах 32, использующих созданные на предыдущих шагах векторные представления признаков на ребрах и вершинах;
графовый нейронный слой с механизмом внимания, объединяющий результат работы первого графового слоя и блока из 8 слоев, с размерностью выходных данных 300 и размерностью признаков на ребрах 32;
слой сжатия графовой информации по среднему значению;
блок из двух последовательных линейных слоев с размерностью выходных данных 300 у первого и 2 у второго, генерирующий финальный ответ нейросети по заданному графу.
К полученным числам применялась функция активации для получения оценки в диапазоне [0,1] для дальнейшей интерпретации. В нейросети между линейными и графовыми слоями, кроме первого графового слоя и последнего линейного блока, использовалась функция активации выпрямленного линейного блока с отрицательными значениями (LeakyReLU) (104). Указанная архитектура нейросети, включая ее элементы и функции активации, использована в качестве примера частной реализации метода и никоим образом не ограничивает область изобретения. Для реализации предлагаемого изобретения были обучены графовые нейронные сети.
Полученные с помощью графовых нейронных сетей оценки обрабатываются дополнительными коэффициентами с целью балансировки ответов разных моделей относительно друг друга и получения одного наиболее вероятного типа атома, при необходимости выбора одного типа из всех. Модели могут использоваться без балансировки, но прогноз будет менее точным. В частной реализации способа используются степенные коэффициенты или сигмоидальная функция (105). В случае, если необходим анализ только по конкретному типу, применение дополнительного коэффициента не требуется.
Полученная информация может использоваться, в частности, в целях определения аффинности лиганда к белку, генерации структур физиологически активных соединений под заданную белковую мишень, позиционирования малых молекул на поверхности белка, классификации лиганд-белковых сайтов связывания.
На фиг. 3 далее будет представлена общая схема вычислительного устройства (300), обеспечивающего обработку данных, необходимую для реализации заявленного решения. В общем случае устройство (300) содержит такие компоненты, как: один или более процессоров (301), по меньшей мере одну память (302), средство хранения данных (303), интерфейсы ввода/вывода (304), средство ввода/вывода (305), средства сетевого взаимодействия (306). Процессор (301) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (300) или функциональности одного или более его компонентов. Процессор (301) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (302). Память (302), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал. Средство хранения данных (303) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (303) позволяет выполнять долгосрочное хранение различного вида информации, например, вышеупомянутых файлов с наборами данных пользователей, базы данных, содержащих записи измеренных для каждого пользователя временных интервалов, идентификаторов пользователей и т.п. Интерфейсы (304) представляют собой стандартные средства для подключения и работы с серверной частью, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п. Выбор интерфейсов (304) зависит от конкретного исполнения устройства (300), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п. В качестве средств ввода/вывода данных (305) в любом воплощении системы, реализующей описываемый способ, должна использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB-портов. Помимо клавиатуры, в составе средств ввода/вывода данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п. Средства сетевого взаимодействия (306) выбираются из устройств, обеспечивающих сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств (305) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM. Компоненты устройства (300) сопряжены посредством общей шины передачи данных.
Нижеследующие примеры осуществления способа приведены в целях раскрытия характеристик настоящего изобретения и их не следует рассматривать как каким-либо образом ограничивающие объем изобретения.
Чтобы продемонстрировать применимость разработанного способа, авторы рассмотрели точность работы подхода на независимой выборке данных, а также сравнили точность метода с другими существующими методами.
Пример 1. Оценка точности метода на независимой выборке данных
Чтобы оценить обобщающую способность метода, авторы выполнили разметку выборки данных, которые не были представлены в обучающей выборке (разделение было проведено по уникальным идентификаторам лиганд-белковых комплексов). Выборка представляла собой набор из 815 лиганд-белковых комплексов, которые не входили в состав данных, на которых была обучена модель. В ее составе было следующее количество представителей типов атомов (наименования идут в соответствии с фиг. 2): 8566 атомов Car, 667 атомов O_a, 6092 атома Cs3, 1196 атомов Nac, 342 атома Nd+, 806 атомов Nd0, 1610 атомов Cs2, 1575 атомов .=O, 230 атомов Hal, 715 атомов O_d, 102 атома Csp, 147 атомов Sul, 153 атома SO2. Тест был проведен следующим образом: каждый атом каждой молекулы был оценен нейросетями, затем из каждой полученной оценки после применения степенного коэффициента была выбрана максимальная, а затем полученный тип был сравнен с истинным типом атома. Результаты представлены на фиг. 4 в виде матрицы несоответствий. Каждая ячейка матрицы содержит в себе информацию о доле истинных значений типа атома по оси Y, спрогнозированных как тип атома по оси X.
Пример 2. Сравнение вычислительной точности метода
Чтобы сравнить метод с другими подходами, авторы оценили его производительность на выборке данных из 85 лиганд-белковых комплексов Astex Diverse Set (Hartshorn M.J. et al. J Med Chem, 2007, 50, 726-741). Сравнение было проведено с результатами, полученным методами AutoSite (Pradeep Anand Ravindranath et al. Bioinformatics 2016, 32, 20: 3142-3149) и AutoLigand (Rodney Harris et al. Wiley InterScience 2007; 70: 1506-1517). Эксперимент был проведен следующим образом: пространство сайтов связывания было размечено решеткой с разрешением 2 Å с помощью метода SiteRadar (Sergei A. Evteev et al. J. Chem. Inf. Model. 2023, 63, 4, 1124-1132), затем была выполнена обработка каждой точки решетки с помощью метода в двух вариациях - с применением степенных коэффициентов и с применением сигмоидальной функции. Если метод разметил хотя бы одну точку решетки типом, совпадающим с типом атома лиганда из заданного комплекса в радиусе 2 Å, то данный атом считался спрогнозированным верно. Таким образом, была посчитана статистика по доле идентифицированных атомов лигандов из всех имеющихся атомов лигандов. Подходы AutoSite и AutoLigand использовали следующую типизацию атомов: HC - гидрофобный тип, HD - донор водорода и HA - акцептор водорода. Так как прогнозируемые методом типы атомов отличались, то в целях проведения сравнения они были классифицированы следующим образом: Nd+, Nd0, O_d, как HD; Cs3, Csp, Sul, Car как HC; .=O, Nac, O_a как HA. Типы Hal, SO2 и Cs2 не учитывались. Результаты приведены на Фиг. 5. Результаты сравнения показывают, что метод превосходит остальные по точности нахождения гидрофобных и акцепторных типов атомов, и сравним по точности нахождения доноров водорода при использовании степенных коэффициентов.
В настоящих материалах заявки было представлено предпочтительное раскрытие осуществления заявленного изобретения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ ИДЕНТИФИКАЦИИ УЧАСТКОВ СВЯЗЫВАНИЯ БЕЛКОВЫХ КОМПЛЕКСОВ | 2020 |
|
RU2743316C1 |
МЕТОД ПОИСКА ТЕРАПЕВТИЧЕСКИ ЗНАЧИМЫХ МОЛЕКУЛЯРНЫХ МИШЕНЕЙ ДЛЯ ЗАБОЛЕВАНИЙ ПУТЕМ ПРИМЕНЕНИЯ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ К КОМБИНИРОВАННЫМ ДАННЫМ, ВКЛЮЧАЮЩИМ ГРАФЫ СИГНАЛЬНЫХ ПУТЕЙ, ОМИКСНЫЕ И ТЕКСТОВЫЕ ТИПЫ ДАННЫХ | 2022 |
|
RU2798897C1 |
Способ и устройство распознавания типа радиолокационной станции по её излучению | 2023 |
|
RU2819570C1 |
Способ выявления вредоносных файлов с использованием графа связей | 2023 |
|
RU2823749C1 |
ОСНОВАННОЕ НА СТРУКТУРЕ ПРОГНОЗНОЕ МОДЕЛИРОВАНИЕ | 2014 |
|
RU2694321C2 |
СПОСОБ И СИСТЕМА АВТОМАТИЗИРОВАННОГО ПОСТРОЕНИЯ ВИРТУАЛЬНОЙ 3D-СЦЕНЫ НА ОСНОВАНИИ ДВУМЕРНЫХ СФЕРИЧЕСКИХ ФОТОПАНОРАМ | 2024 |
|
RU2826369C1 |
Программно-аппаратный комплекс, предназначенный для обработки аэрокосмических изображений местности с целью обнаружения, локализации и классификации до типа авиационной и сухопутной техники | 2021 |
|
RU2811357C2 |
Способ получения информации о форме и размерах трехмерного объекта по его двухмерному изображению | 2022 |
|
RU2816504C1 |
Способ генерации универсального входного сигнала для нейросетевых детекторов компьютерных вторжений в межмашинных сетях | 2018 |
|
RU2702274C1 |
СПОСОБ И СИСТЕМА ДЛЯ ДИСТАНЦИОННОГО ВЫБОРА ОДЕЖДЫ | 2020 |
|
RU2805003C2 |
Изобретение относится к способу разметки лиганд-белковых сайтов связывания на основе информации о трехмерной структуре белка. В способе для каждой точки пространства вблизи поверхности белка собирают информацию о белковом окружении в пределах заданного радиуса, формируют графовое представление белкового окружения с присвоением каждой точке графа характеристик соответствующего атома белка, а также присвоением расстояний в ребрам, соединяющим данные точки. Анализируют полученный граф набором моделей на основе графовой нейронной сети и получают оценки в форме действительных чисел от 0 до 1 для каждого типа атома в данной точке. Применяют степенные или сигмоидальные функции для балансировки полученных значений между собой и определяют наиболее вероятный тип атома по наивысшей оценке среди всех доступных типов. Технический результат заключается в определении вероятности нахождения различных типов атомов потенциального лиганда в заданном аминокислотном окружении. 2 з.п. ф-лы, 5 ил.
1. Способ разметки участков лиганд-белковых сайтов связывания на основе структурной информации с использованием методов машинного обучения, содержащий этапы, на которых:
- получают структурную информацию о трехмерной структуре белка, дескрипторах, основанных на химическом описании сайтов связывания;
- получают информацию об анализируемом пространстве в сайте связывания, дескрипторах, основанных на геометрическом описании сайтов связывания;
- объединяют информацию об анализируемом пространстве и трехмерной структуре белка в граф, вершинами которого являются атомы белка и анализируемые точки пространства, соединенные ребрами, на которых хранится информация о расстоянии между атомами белка и точками пространства;
- каждый граф анализируют с помощью графовых нейронных сетей для прогнозирования вероятности нахождения каждого из рассматриваемых типов атомов в анализируемых точках пространства в диапазоне от 0 до 1;
- к полученным с помощью графовых нейронных сетей оценкам применяют дополнительные коэффициенты с целью балансировки ответов разных моделей относительно друг друга и получения одного наиболее вероятного типа атома.
2. Способ по п. 1, отличающийся тем, что используют одну модель, которая прогнозирует вероятности нахождения рассматриваемых типов атомов.
3. Способ по п. 1, где структурная информация о белке представляет собой координаты атомов, информация об анализируемом пространстве в сайте связывания представляет собой координаты анализируемых точек в пространстве, а дескрипторы имеют вид тензора.
СПОСОБ ИДЕНТИФИКАЦИИ УЧАСТКОВ СВЯЗЫВАНИЯ БЕЛКОВЫХ КОМПЛЕКСОВ | 2020 |
|
RU2743316C1 |
Radoslav Krivák, David Hoksza, P2Rank: machine learning based tool for rapid and accurate prediction of ligand binding sites from protein structure, Journal of Cheminformatics, 2018, Article number: 39, найдено в интернете 12.12.2024 |
Авторы
Даты
2025-04-24—Публикация
2024-07-30—Подача