Способ статистической оценки многофакторного тренда условной вероятности наступления изучаемого неблагоприятного события в когортном исследовании Российский патент 2018 года по МПК G06F17/18 G06N3/08 

Описание патента на изобретение RU2654125C1

Изобретение относится к области статистического исследования больших массивов индивидуальных данных для административных, коммерческих, финансовых, управленческих, надзорных и прогностических целей.

Аналоги и прототип. Известны аналогичные способы анализа данных, результаты применения которых могут быть использованы для прогнозирования рисков наступления неблагоприятных событий. Особенно много способов известно в области медицинской статистики. Например, искусственная нейронная сеть (ИНС) применялась в патенте RU 2567038 [Нарезкин Д.В. и др.] и программном комплексе "КиберДоктор" [Таранов Ю.А., per. свидетельство №2015615066, РФ].

В отличие от предлагаемого изобретения указанные способы и средства осуществления прогнозирования используют технологию обучения ИНС с применением эвристических методов оценки его качества, в результате чего не производится вероятностной оценки статистической значимости полученных выводов. Прогнозируемые оценки риска при этом оказываются статистически смещенными на неконтролируемую величину, в результате чего в отдельных случаях прогноз наступления неблагоприятного события может быть ошибочным, что выражается в увеличении количества ложноположительных или ложноотрицательных заключений. Наиболее близким к предлагаемому способу по технической сущности и по достигаемому эффекту является способ применения слоистой ИНС Румельхарта с искусственными нейронами, имеющими логистическую (сигмоидную) функцию активации [Нарезкин Д.В. и др., патенте RU 2567038].

Однако такой патент защищает сеть с жестко заданной архитектурой межнейронных связей, фиксированных по силе, что не позволяет рекомендовать применение способа для выборки, сильно отличающейся от описанной в патенте. Например, способ прогнозирования течений послеоперационного периода после хирургического лечения рака прямой кишки не может быть перенесен для прогнозирования результата хирургического лечения рака легкого. Недостатком выбранного метода прогнозирования является также невозможность сравнения с конкурирующими гипотезами (прогнозами). Кроме того, не описан алгоритм настройки оптимальных параметров межнейронного взаимодействия, числовые величины которых защищены текстом патента, несмотря на то что выборка из 15 человек, по которой проведено обучение ИНС, никак не могла быть представительной.

Аналогичное назначение имеют также патенты RU 2456608 [Полоников А.В. и др.] и RU 2492804 [Акимова Е.В. и др.], посвященные оценке показателей риска возникновения гипертонической болезни и кардиоваскулярного риска смерти. Оба патента используют тот или иной способ регрессии выборочных персональных данных. Патент RU 2456608 опирается на способ логистической регрессии. Общим недостатком обоих способов является постулирование линейной зависимости показателя ожидаемого эффекта от совокупности факторов до начала проведения статистического исследования. Реальные данные, однако, почти никогда не следуют простым и недостаточно гибким моделям с низкой избыточностью. Это приводит к избыточному прогнозированию ложноотрицательных и ложноположительных случаев. В то же время в статистике хорошо известно, что увеличение избыточности модели вместо увеличения ее гибкости обычно приводит к снижению обобщающей способности, так как формальные модели связи показателей риска с факторами (например, линейная модель) часто игнорируют типовые априорные свойства вероятностных величин.

Эта проблема хорошо известна в отраслях статистики биологических и медицинских объектов. Отчасти ее пытаются разрешить в таких разделах, как "Статистика зависимых величин. Таблицы сопряженности" (УДК 519.235), "Оценка смертности. Коэффициенты смертности. Статистика смертности" (УДК 314.48), "Статистический анализ сложных сдвигов: Структурные изменения" (УДК 311.175). Наибольшие успехи биологической и медицинской статистики связаны с применением аппарата классических таблиц сопряженности, гибридных таблиц сопряженности с таблицами дожития (пуассоновская регрессия), логистической регрессии. Однако таблицы сопряженности трудно приспособить к многофакторным исследованиям риска; пуассоновская регрессия не может применяться к оценке риска наступления сравнительно частых событий (онкологическая заболеваемость, болезни системы кровообращения, профессиональные радиационные и химические риски); логистическая регрессия сталкивается с проблемой формулирования и селекции гипотез - регрессионных моделей.

Задача изобретения. Предложить гибкий способ оценки основных трендов вероятностных показателей исследования когортного риска по изучаемым факторам с учетом статистической значимости полученных выводов и возможности селекции конкурирующих гипотез (моделей регрессии) с учетом априорной информации.

Сущность предлагаемого способа. Вместо общепринятого обучения нейронной сети для повышения ее обобщающей способности в изобретении применяется метод максимального правдоподобия, свойственный способу и функционалу оценки логистической регрессии; кроме того, в отличие от логистической регрессии модель связи вероятностного показателя с факторами риска генерируется самой нейросетью в процессе ее оптимальной настройки и не постулируется аналитиком до начала исследования.

Техническая реализация предлагаемого изобретения. Для достижения задачи изобретения используются: 1) база данных с результатами индивидуальных наблюдений исходов в когорте в сопоставлении с индивидуальным рандомизированным списком факторов, предположительно влиявших на исходы; 2) компьютерная программа-имитатор прямого функционирования многослойной ИНС; 3) компьютерная программа оптимизации параметров межнейронных связей ИНС, в которой вместо традиционного функционала оценки, численно минимизирующего норму отклонения результатов функционирования сети от обучающего множества примеров, используется функционал биномиально-логистической регрессии, позволяющий произвести настройку по методу максимального правдоподобия (1).

где i - номер индивидуального наблюдения; Ii - индекс индивидуального исхода (1 - неблагоприятное событие наступило; 0 - неблагоприятное событие не наступило); Fi - вектор списка индивидуальных факторов; α(Fi, β) - прогнозируемый индивидуальный отклик ИНС на индивидуальную комбинацию факторов; β - совокупность всех настроечных коэффициентов связей нейронов. Неопределенность отдельных слагаемых функционала раскрывается по правилу 0⋅ln(0)=0. Один из примеров двухслойной искусственной нейронной сети показан на фиг. 1.

Функционал оценки, являясь статистической суммой по списку наблюдений, позволяет оценить статистический выигрыш от применения некоторой модели (статистической гипотезы H1) по сравнению с исходной моделью с нулевыми настройками (гипотеза Н0 об отсутствии влияния изучаемых факторов на наблюдаемый результат в когорте). Такие оценки позволяют произвести количественную селекцию моделей (конкурирующих гипотез) по известному тесту отношения правдоподобий [Wilks]. Аналогичные оценки позволяют также установить статистическую значимость учета влияния анализируемых факторов по величине статистики G2 [Wilks] и достигнутой вероятности ошибки.

Специфическими особенностями предлагаемого способа (кроме перечисленных выше отличительных особенностей) являются:

a) центрирование и нормирование индивидуальных наблюдений действующих факторов на входе искусственной нейронной сети так, чтобы сигналы, поступающие на вход, находились в диапазоне [-1; +1];

b) в силу специфических ограничений на величину условной вероятности 0≤Р≤1 и на величину отклика каждого нейрона допустимо центрирование работы всех нейронов сети с сигмоидной функцией активации за исключением нейрона на ее выходе. Результатом центрирования является среднее значение из диапазона возможных откликов нейрона при нулевых значениях коэффициентов связей на его входе. Нейрон на выходе не центрируется. Смещение его выходного сигнала подбирается таким образом, чтобы при нулевых настройках коэффициентов связей нейронов сети статистическая сумма (биномиальный функционал оценки) достигала значения, свойственного гипотезе Н0 об отсутствии влияния факторов;

c) включение в состав функционала оценки, используемого для настройки сети, дополнительного штрафного (стабилизирующего, регуляризирующего) слагаемого, препятствующего неограниченному росту настроечных параметров сети в процессе оптимизации. Ограничение роста коэффициентов связей способствует улучшению обобщающей способности ИНС и приводит к незначительным смещениям оценок риска, если ведущим слагаемым в функционале является статистическая сумма. Для регулирования силы штрафа можно трактовать штрафное слагаемое в качестве байесовской поправки, опирающейся на априорную информацию о характере трендов "факторы - риск";

d) для настройки сети не используется традиционный алгоритм обратного распространения ошибок, свойственный многослойным ИНС. Вместо этого применяются эффективные алгоритмы оптимального поиска экстремума в многомерном пространстве факторов. Например, может быть использовано сочетание метода стохастического поиска глобального экстремума с тонкой настройкой градиентным методом сопряженных направлений в малой окрестности экстремума.

Техническим результатом предлагаемого гибридного способа статистического исследования является рост достоверности многофакторной оценки трендов вероятностного показателя изучаемого риска в представительной выборке (когорте), выражающийся в уменьшении величины статистического смещения оценок, учете роли мешающих факторов, уменьшении количества ложноположительных и ложноотрицательных прогностических выводов по отношению к объему исследуемой когорты. В результате применения изобретения к исследованию представительной выборки появляется возможность говорить об измерении вероятностных показателей когортного риска.

Пример использования. Работоспособность изобретения иллюстрируется на примере опубликованного эпидемиологического оценивания вероятности смерти от рака кости среди работников специализированного предприятия, подвергавшихся профессиональному облучению от различных источников ионизирующей радиации [Koshurnikova N.A.]. Эта публикация характеризуется противоречием между предписанными объективными требованиями к радиационной защите [Публикация 103 МКРЗ; действующие НРБ-99/2009] и регистрацией авторами исследования отрицательных трендов онкологического риска по дозе внешнего облучения [Koshurnikova N.A.]. Противоречие может быть вызвано неадекватностью использованного способа оценки. Имеется ряд причин, смещающих оценку тренда: 1) нормативные документы предписывают оценку величины пожизненного риска; вместо этого и авторы, и большинство исследователей радиационно-онкологического риска [UNSCEAR] оценивают показатель интенсивности реализации риска; 2) существующие алгоритмы пуассоновской регрессии [Preston D., Epicure] не могут работать со списком индивидуальных наблюдений, нуждаясь в группировке данных, снижающей статистическую мощность исследования; 3) модели трендов риска по факторам постулируются исследователями до выполнения оценок, что приводит к неконтролируемым систематическим искажениям.

Предлагаемое изобретение позволяет устранить перечисленные недостатки, обеспечивая непосредственную оценку условного пожизненного риска, а также переход к биномиально-логистической регрессии, не требующей предварительного группирования данных. Использование искусственной нейронной сети в качестве генератора моделей позволяет отказаться от обычно предполагаемых линейных связей "доза-эффект", заведомо искажающих оценки в области больших доз (больших вероятностей).

В частности, на опубликованном материале [Koshurnikova N.A.] выполнена повторная оценка трендов. Общая численность выборки составила 3155 мужчин и 1019 женщин. Из них насчитывалось всего 17 случаев смерти от рака кости (остеосаркомы). Все лица в выборке умерли по тем или иным причинам в период до 2008 года с момента найма на предприятие после 1948 года. В число факторов влияния были включены возраст найма, возраст реализации эффекта, пол, поглощенная доза внешнего облучения (до 6,4 Гр) и поглощенная доза внутреннего облучения (до 107,4 Гр - на костную поверхность). Прогностическая величина - условный пожизненный риск - кумулятивная вероятность гибели от рака кости. Были установлены:

- статистически значимое отличие наблюдаемых трендов от нулевой гипотезы об их отсутствии (Р-value=0.021) даже для ИНС с простейшей архитектурой "5+2+1";

- тренды оказались восходящими и слабо-нелинейными как по дозе внешнего облучения, так и по дозе внутреннего облучения, что опровергает выводы аналога, но согласуется с широко распространенным мнением о вреде ионизирующего излучения;

- для женщин когортная радиочувствительность по раку кости оказалась выше, чем для мужчин, что согласуется с общебиологической закономерностью;

- центральная оценка коэффициента номинального риска была на уровне 1,0%⋅Гр-1, что сопоставимо с коэффициентами риска для жертв атомной бомбардировки Хиросимы и Нагасаки для изученного заболевания.

Литература

1. Нарезкин Д.В., Кузьменков А.Ю., Недзимовская Д.В. Способ прогнозирования течения раннего послеоперационного периода у больных с осложнениями рака прямой кишки и средство его осуществления. - Патент RU 2567038, дата регистрации 24.06.2014.

2. Таранов Ю.А. Программный комплекс «КиберДоктор» - Программа для диагностирования заболеваний щитовидной железы («CyberDoctor: Neuronet-thyroid»). - Per. свидетельство №2015615066 от 07.05.2015.

3. Полоников А.В., Солодилова М.А., Иванов В.П. и др. Способ прогнозирования риска возникновения гипертонической болезни у мужчин. - Патент RU 2456608, дата регистрации 15.03.2011.

4. Акимова Е.В., Пушкарев Г.С., Гакова Е.И. и др. Способ определения суммарного кардиоваскулярного риска смерти у мужчин. - Патент RU 2492804, дата регистрации 12.05.2012.

5. Wilks S.S. The Large-Sample Distribution of the Likelihood Ratio for Testing Composite Hypotheses. - The Annals of Mathematical Statistics, 1938, 9, pp. 60-62.

6. Koshurnikova, N.A. Bone Cancers in MAYAK Workers. / N.A. Koshurnikova, E.S. Gilbert, M. Sokolnikov [et al] // Radiation Research. - 2000. - 154. - P. 237-245.

7. Публикация 103 Международной Комиссии по радиационной защите (МКРЗ). Пер с англ. / Под общей ред. М.Ф. Киселева и Н.К. Шандалы. - М.: Изд. ООО ПКФ «Алана», 2009.

8. Нормы радиационной безопасности НРБ-99/2009. - Санитарные правила и нормативы СанПин 2.6.1.2523-09. - Утверждены постановлением главного государственного санитарного врача РФ от 7 июля 2009 г., №47.

9. Effects of Ionizing Radiation. UNSCEAR 2006 Report., Vol. 1A. - NY: United Nations Publication, 2008. - 383 p.

10. Preston D., Lubin J., Pierce D. Epicure User's Guide. Release 2. - Hirosoft I.C., 1998. - 344 p.

Похожие патенты RU2654125C1

название год авторы номер документа
Способ определения темпа прогрессирования хронической болезни почек у пациентов с сахарным диабетом 2 типа с применением диагностического индекса снижения скорости клубочковой фильтрации 2023
  • Первышин Николай Александрович
RU2810369C1
СПОСОБ ОЦЕНКИ ИНДИВИДУАЛЬНОГО РИСКА ИНФИЦИРОВАНИЯ ИНФЕКЦИЯМИ, ПЕРЕДАВАЕМЫМИ ПОЛОВЫМ ПУТЕМ 2003
  • Коновалов А.А.
  • Никулин Н.К.
RU2257151C2
СПОСОБ ПРОГНОЗИРОВАНИЯ РИСКА РАЗВИТИЯ ЖЕЛУДОЧКОВЫХ АРИТМИЙ ВЫСОКИХ ГРАДАЦИЙ У ПАЦИЕНТОВ, НАПРАВЛЕННЫХ НА КОРОНАРНУЮ АНГИОГРАФИЮ 2017
  • Кузнецов Вадим Анатольевич
  • Тодосийчук Виктор Викторович
  • Кутрунов Владимир Николаевич
  • Дьячков Сергей Михайлович
RU2677607C2
СПОСОБ ПРОГНОЗИРОВАНИЯ РИСКА РАЗВИТИЯ ПАРОКСИЗМОВ ЖЕЛУДОЧКОВОЙ ТАХИКАРДИИ У БОЛЬНЫХ В ПЕРВЫЕ СУТКИ ИНФАРКТА МИОКАРДА 2017
  • Лыкасова Елена Александровна
  • Тодосийчук Виктор Викторович
  • Кузнецов Вадим Анатольевич
  • Дьячков Сергей Михайлович
RU2650039C1
УСТРОЙСТВО ВЫЧИСЛЕНИЯ СТЕПЕНИ ДОВЕРИЯ К СРЕДСТВУ РАЗВЕДКИ 2023
  • Зайцев Николай Алексеевич
  • Фандеев Александр Григорьевич
  • Горшенин Игорь Александрович
  • Федоров Валерий Владимирович
  • Гладилин Петр Евгеньевич
RU2813682C1
Способ прогнозирования риска высокого темпа прогрессирования хронической болезни почек у пациентов с сахарным диабетом 2 типа с применением диагностического индекса снижения скорости клубочковой фильтрации 2022
  • Первышин Николай Александрович
RU2802123C1
КОМПЬЮТЕРИЗИРОВАННЫЙ СПОСОБ РАЗРАБОТКИ И УПРАВЛЕНИЯ МОДЕЛЯМИ СКОРИНГА 2018
  • Травкин Олег Игоревич
  • Берестнев Дмитрий Алексеевич
  • Юдочев Дмитрий Владимирович
  • Жуковская Екатерина Сергеевна
RU2680760C1
Способ прогнозирования течения острого периода геморрагического паренхиматозного инсульта супратенториальной локализации 2020
  • Зорин Роман Александрович
  • Жаднов Владимир Алексеевич
  • Курепина Инна Сергеевна
  • Лапкин Михаил Михайлович
  • Сорокин Олег Александрович
RU2738811C1
СИСТЕМА ДЛЯ ПОДДЕРЖКИ ПРИНЯТИЯ ВРАЧЕБНЫХ РЕШЕНИЙ 2020
  • Гусев Александр Владимирович
  • Новицкий Роман Эдвардович
RU2752792C1
СИСТЕМЫ И СПОСОБЫ ОЦЕНКИ ЖИЗНЕСПОСОБНОСТИ ЭМБРИОНОВ 2018
  • Тран, Данг-Динх-Анг
RU2800079C2

Иллюстрации к изобретению RU 2 654 125 C1

Реферат патента 2018 года Способ статистической оценки многофакторного тренда условной вероятности наступления изучаемого неблагоприятного события в когортном исследовании

Изобретение относится к области статистического исследования больших массивов индивидуальных данных для административных, коммерческих, финансовых, управленческих, надзорных и прогностических целей. Техническим результатом является реализация гибкого способа оценки основных трендов вероятностных показателей исследования когортного риска по изучаемым факторам с учетом статистической значимости полученных выводов и возможности селекции конкурирующих гипотез (моделей регрессии) с учетом априорной информации. Сущность способа заключается в применении метода максимального правдоподобия, свойственного способу и функционалу оценки логистической регрессии; кроме того, в отличие от логистической регрессии модель связи вероятностного показателя с факторами риска генерируется самой нейросетью в процессе ее оптимальной настройки и не постулируется аналитиком до начала исследования. 1 ил.

Формула изобретения RU 2 654 125 C1

Способ статистической оценки многофакторного тренда условной вероятности наступления изучаемого неблагоприятного события в когортном исследовании, включающий этапы анализа наблюдений представительной выборки с зарегистрированными индивидуальными исходами и списками количественных и качественных факторов:

(1) этап создания или выбора для статистической обработки базы данных, содержащей индивидуальную информацию о членах когорты с перечислением воздействующих факторов, уровней или иных количественных/качественных характеристик их воздействия, а также результаты индивидуальных исходов;

(2) этап выбора компьютерного имитатора многослойной искусственной нейронной сети;

(3) этап выбора функционала статистической оценки и компьютерной оптимизации качества аппроксимации наблюдений математической моделью искомого тренда;

(4) этап принятия решения о завершении оценки тренда данных вместе с оценкой качества его предсказания;

(5) этап оценки неопределенности результата с помощью статистических тестов,

отличающийся тем, что

- модель связи вероятностного показателя с факторами риска генерируется многослойной искусственной нейронной сетью в процессе ее оптимальной настройки и не постулируется аналитиком до начала исследования;

- для оценки качества работы нейронной сети используется функционал биномиально-логистической регрессии, позволяющий заменить обучение искусственной нейронной сети ее оптимизацией по методу максимального правдоподобия и выполнить апостериорное статистическое тестирование;

- в состав функционала оценки помимо статистической суммы вносится стабилизирующее (регуляризующее) слагаемое, улучшающее обобщающие свойства искусственной нейронной сети за счет ограничения тенденции к росту настроечных коэффициентов межнейронных связей, возникшей в силу избыточности сети;

- работа всех нейронов искусственной нейронной сети кроме последнего центрируется; в работу последнего нейрона вносится смещение, величина которого выбирается так, чтобы при нулевых настройках коэффициентов связей нейронов сети функционал ее оценки достигал значения, свойственного нулевой гипотезе об отсутствии влияния изучаемых факторов.

Документы, цитированные в отчете о поиске Патент 2018 года RU2654125C1

СПОСОБ ПРОГНОЗИРОВАНИЯ ТЕЧЕНИЯ РАННЕГО ПОСЛЕОПЕРАЦИОННОГО ПЕРИОДА У БОЛЬНЫХ С ОСЛОЖНЕНИЯМИ РАКА ПРЯМОЙ КИШКИ И СРЕДСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ 2014
  • Нарезкин Дмитрий Васильевич
  • Кузьменков Алексей Юрьевич
  • Недзимовская Дарья Валентиновна
RU2567038C1
RU 2015123307 A, 27.11.2015
US 2016034814 A1, 04.02.2016
US 2006293921 A1, 28.12.2006
US 6004267 A, 21.12.1999.

RU 2 654 125 C1

Авторы

Обеснюк Валерий Федорович

Даты

2018-05-16Публикация

2016-12-09Подача