Изобретение относится к области статистического исследования больших массивов индивидуальных данных для административных, коммерческих, финансовых, управленческих, надзорных и прогностических целей.
Аналоги и прототип. Известны аналогичные способы анализа данных, результаты применения которых могут быть использованы для прогнозирования рисков наступления неблагоприятных событий. Особенно много способов известно в области медицинской статистики. Например, искусственная нейронная сеть (ИНС) применялась в патенте RU 2567038 [Нарезкин Д.В. и др.] и программном комплексе "КиберДоктор" [Таранов Ю.А., per. свидетельство №2015615066, РФ].
В отличие от предлагаемого изобретения указанные способы и средства осуществления прогнозирования используют технологию обучения ИНС с применением эвристических методов оценки его качества, в результате чего не производится вероятностной оценки статистической значимости полученных выводов. Прогнозируемые оценки риска при этом оказываются статистически смещенными на неконтролируемую величину, в результате чего в отдельных случаях прогноз наступления неблагоприятного события может быть ошибочным, что выражается в увеличении количества ложноположительных или ложноотрицательных заключений. Наиболее близким к предлагаемому способу по технической сущности и по достигаемому эффекту является способ применения слоистой ИНС Румельхарта с искусственными нейронами, имеющими логистическую (сигмоидную) функцию активации [Нарезкин Д.В. и др., патенте RU 2567038].
Однако такой патент защищает сеть с жестко заданной архитектурой межнейронных связей, фиксированных по силе, что не позволяет рекомендовать применение способа для выборки, сильно отличающейся от описанной в патенте. Например, способ прогнозирования течений послеоперационного периода после хирургического лечения рака прямой кишки не может быть перенесен для прогнозирования результата хирургического лечения рака легкого. Недостатком выбранного метода прогнозирования является также невозможность сравнения с конкурирующими гипотезами (прогнозами). Кроме того, не описан алгоритм настройки оптимальных параметров межнейронного взаимодействия, числовые величины которых защищены текстом патента, несмотря на то что выборка из 15 человек, по которой проведено обучение ИНС, никак не могла быть представительной.
Аналогичное назначение имеют также патенты RU 2456608 [Полоников А.В. и др.] и RU 2492804 [Акимова Е.В. и др.], посвященные оценке показателей риска возникновения гипертонической болезни и кардиоваскулярного риска смерти. Оба патента используют тот или иной способ регрессии выборочных персональных данных. Патент RU 2456608 опирается на способ логистической регрессии. Общим недостатком обоих способов является постулирование линейной зависимости показателя ожидаемого эффекта от совокупности факторов до начала проведения статистического исследования. Реальные данные, однако, почти никогда не следуют простым и недостаточно гибким моделям с низкой избыточностью. Это приводит к избыточному прогнозированию ложноотрицательных и ложноположительных случаев. В то же время в статистике хорошо известно, что увеличение избыточности модели вместо увеличения ее гибкости обычно приводит к снижению обобщающей способности, так как формальные модели связи показателей риска с факторами (например, линейная модель) часто игнорируют типовые априорные свойства вероятностных величин.
Эта проблема хорошо известна в отраслях статистики биологических и медицинских объектов. Отчасти ее пытаются разрешить в таких разделах, как "Статистика зависимых величин. Таблицы сопряженности" (УДК 519.235), "Оценка смертности. Коэффициенты смертности. Статистика смертности" (УДК 314.48), "Статистический анализ сложных сдвигов: Структурные изменения" (УДК 311.175). Наибольшие успехи биологической и медицинской статистики связаны с применением аппарата классических таблиц сопряженности, гибридных таблиц сопряженности с таблицами дожития (пуассоновская регрессия), логистической регрессии. Однако таблицы сопряженности трудно приспособить к многофакторным исследованиям риска; пуассоновская регрессия не может применяться к оценке риска наступления сравнительно частых событий (онкологическая заболеваемость, болезни системы кровообращения, профессиональные радиационные и химические риски); логистическая регрессия сталкивается с проблемой формулирования и селекции гипотез - регрессионных моделей.
Задача изобретения. Предложить гибкий способ оценки основных трендов вероятностных показателей исследования когортного риска по изучаемым факторам с учетом статистической значимости полученных выводов и возможности селекции конкурирующих гипотез (моделей регрессии) с учетом априорной информации.
Сущность предлагаемого способа. Вместо общепринятого обучения нейронной сети для повышения ее обобщающей способности в изобретении применяется метод максимального правдоподобия, свойственный способу и функционалу оценки логистической регрессии; кроме того, в отличие от логистической регрессии модель связи вероятностного показателя с факторами риска генерируется самой нейросетью в процессе ее оптимальной настройки и не постулируется аналитиком до начала исследования.
Техническая реализация предлагаемого изобретения. Для достижения задачи изобретения используются: 1) база данных с результатами индивидуальных наблюдений исходов в когорте в сопоставлении с индивидуальным рандомизированным списком факторов, предположительно влиявших на исходы; 2) компьютерная программа-имитатор прямого функционирования многослойной ИНС; 3) компьютерная программа оптимизации параметров межнейронных связей ИНС, в которой вместо традиционного функционала оценки, численно минимизирующего норму отклонения результатов функционирования сети от обучающего множества примеров, используется функционал биномиально-логистической регрессии, позволяющий произвести настройку по методу максимального правдоподобия (1).
где i - номер индивидуального наблюдения; Ii - индекс индивидуального исхода (1 - неблагоприятное событие наступило; 0 - неблагоприятное событие не наступило); Fi - вектор списка индивидуальных факторов; α(Fi, β) - прогнозируемый индивидуальный отклик ИНС на индивидуальную комбинацию факторов; β - совокупность всех настроечных коэффициентов связей нейронов. Неопределенность отдельных слагаемых функционала раскрывается по правилу 0⋅ln(0)=0. Один из примеров двухслойной искусственной нейронной сети показан на фиг. 1.
Функционал оценки, являясь статистической суммой по списку наблюдений, позволяет оценить статистический выигрыш от применения некоторой модели (статистической гипотезы H1) по сравнению с исходной моделью с нулевыми настройками (гипотеза Н0 об отсутствии влияния изучаемых факторов на наблюдаемый результат в когорте). Такие оценки позволяют произвести количественную селекцию моделей (конкурирующих гипотез) по известному тесту отношения правдоподобий [Wilks]. Аналогичные оценки позволяют также установить статистическую значимость учета влияния анализируемых факторов по величине статистики G2 [Wilks] и достигнутой вероятности ошибки.
Специфическими особенностями предлагаемого способа (кроме перечисленных выше отличительных особенностей) являются:
a) центрирование и нормирование индивидуальных наблюдений действующих факторов на входе искусственной нейронной сети так, чтобы сигналы, поступающие на вход, находились в диапазоне [-1; +1];
b) в силу специфических ограничений на величину условной вероятности 0≤Р≤1 и на величину отклика каждого нейрона допустимо центрирование работы всех нейронов сети с сигмоидной функцией активации за исключением нейрона на ее выходе. Результатом центрирования является среднее значение из диапазона возможных откликов нейрона при нулевых значениях коэффициентов связей на его входе. Нейрон на выходе не центрируется. Смещение его выходного сигнала подбирается таким образом, чтобы при нулевых настройках коэффициентов связей нейронов сети статистическая сумма (биномиальный функционал оценки) достигала значения, свойственного гипотезе Н0 об отсутствии влияния факторов;
c) включение в состав функционала оценки, используемого для настройки сети, дополнительного штрафного (стабилизирующего, регуляризирующего) слагаемого, препятствующего неограниченному росту настроечных параметров сети в процессе оптимизации. Ограничение роста коэффициентов связей способствует улучшению обобщающей способности ИНС и приводит к незначительным смещениям оценок риска, если ведущим слагаемым в функционале является статистическая сумма. Для регулирования силы штрафа можно трактовать штрафное слагаемое в качестве байесовской поправки, опирающейся на априорную информацию о характере трендов "факторы - риск";
d) для настройки сети не используется традиционный алгоритм обратного распространения ошибок, свойственный многослойным ИНС. Вместо этого применяются эффективные алгоритмы оптимального поиска экстремума в многомерном пространстве факторов. Например, может быть использовано сочетание метода стохастического поиска глобального экстремума с тонкой настройкой градиентным методом сопряженных направлений в малой окрестности экстремума.
Техническим результатом предлагаемого гибридного способа статистического исследования является рост достоверности многофакторной оценки трендов вероятностного показателя изучаемого риска в представительной выборке (когорте), выражающийся в уменьшении величины статистического смещения оценок, учете роли мешающих факторов, уменьшении количества ложноположительных и ложноотрицательных прогностических выводов по отношению к объему исследуемой когорты. В результате применения изобретения к исследованию представительной выборки появляется возможность говорить об измерении вероятностных показателей когортного риска.
Пример использования. Работоспособность изобретения иллюстрируется на примере опубликованного эпидемиологического оценивания вероятности смерти от рака кости среди работников специализированного предприятия, подвергавшихся профессиональному облучению от различных источников ионизирующей радиации [Koshurnikova N.A.]. Эта публикация характеризуется противоречием между предписанными объективными требованиями к радиационной защите [Публикация 103 МКРЗ; действующие НРБ-99/2009] и регистрацией авторами исследования отрицательных трендов онкологического риска по дозе внешнего облучения [Koshurnikova N.A.]. Противоречие может быть вызвано неадекватностью использованного способа оценки. Имеется ряд причин, смещающих оценку тренда: 1) нормативные документы предписывают оценку величины пожизненного риска; вместо этого и авторы, и большинство исследователей радиационно-онкологического риска [UNSCEAR] оценивают показатель интенсивности реализации риска; 2) существующие алгоритмы пуассоновской регрессии [Preston D., Epicure] не могут работать со списком индивидуальных наблюдений, нуждаясь в группировке данных, снижающей статистическую мощность исследования; 3) модели трендов риска по факторам постулируются исследователями до выполнения оценок, что приводит к неконтролируемым систематическим искажениям.
Предлагаемое изобретение позволяет устранить перечисленные недостатки, обеспечивая непосредственную оценку условного пожизненного риска, а также переход к биномиально-логистической регрессии, не требующей предварительного группирования данных. Использование искусственной нейронной сети в качестве генератора моделей позволяет отказаться от обычно предполагаемых линейных связей "доза-эффект", заведомо искажающих оценки в области больших доз (больших вероятностей).
В частности, на опубликованном материале [Koshurnikova N.A.] выполнена повторная оценка трендов. Общая численность выборки составила 3155 мужчин и 1019 женщин. Из них насчитывалось всего 17 случаев смерти от рака кости (остеосаркомы). Все лица в выборке умерли по тем или иным причинам в период до 2008 года с момента найма на предприятие после 1948 года. В число факторов влияния были включены возраст найма, возраст реализации эффекта, пол, поглощенная доза внешнего облучения (до 6,4 Гр) и поглощенная доза внутреннего облучения (до 107,4 Гр - на костную поверхность). Прогностическая величина - условный пожизненный риск - кумулятивная вероятность гибели от рака кости. Были установлены:
- статистически значимое отличие наблюдаемых трендов от нулевой гипотезы об их отсутствии (Р-value=0.021) даже для ИНС с простейшей архитектурой "5+2+1";
- тренды оказались восходящими и слабо-нелинейными как по дозе внешнего облучения, так и по дозе внутреннего облучения, что опровергает выводы аналога, но согласуется с широко распространенным мнением о вреде ионизирующего излучения;
- для женщин когортная радиочувствительность по раку кости оказалась выше, чем для мужчин, что согласуется с общебиологической закономерностью;
- центральная оценка коэффициента номинального риска была на уровне 1,0%⋅Гр-1, что сопоставимо с коэффициентами риска для жертв атомной бомбардировки Хиросимы и Нагасаки для изученного заболевания.
Литература
1. Нарезкин Д.В., Кузьменков А.Ю., Недзимовская Д.В. Способ прогнозирования течения раннего послеоперационного периода у больных с осложнениями рака прямой кишки и средство его осуществления. - Патент RU 2567038, дата регистрации 24.06.2014.
2. Таранов Ю.А. Программный комплекс «КиберДоктор» - Программа для диагностирования заболеваний щитовидной железы («CyberDoctor: Neuronet-thyroid»). - Per. свидетельство №2015615066 от 07.05.2015.
3. Полоников А.В., Солодилова М.А., Иванов В.П. и др. Способ прогнозирования риска возникновения гипертонической болезни у мужчин. - Патент RU 2456608, дата регистрации 15.03.2011.
4. Акимова Е.В., Пушкарев Г.С., Гакова Е.И. и др. Способ определения суммарного кардиоваскулярного риска смерти у мужчин. - Патент RU 2492804, дата регистрации 12.05.2012.
5. Wilks S.S. The Large-Sample Distribution of the Likelihood Ratio for Testing Composite Hypotheses. - The Annals of Mathematical Statistics, 1938, 9, pp. 60-62.
6. Koshurnikova, N.A. Bone Cancers in MAYAK Workers. / N.A. Koshurnikova, E.S. Gilbert, M. Sokolnikov [et al] // Radiation Research. - 2000. - 154. - P. 237-245.
7. Публикация 103 Международной Комиссии по радиационной защите (МКРЗ). Пер с англ. / Под общей ред. М.Ф. Киселева и Н.К. Шандалы. - М.: Изд. ООО ПКФ «Алана», 2009.
8. Нормы радиационной безопасности НРБ-99/2009. - Санитарные правила и нормативы СанПин 2.6.1.2523-09. - Утверждены постановлением главного государственного санитарного врача РФ от 7 июля 2009 г., №47.
9. Effects of Ionizing Radiation. UNSCEAR 2006 Report., Vol. 1A. - NY: United Nations Publication, 2008. - 383 p.
10. Preston D., Lubin J., Pierce D. Epicure User's Guide. Release 2. - Hirosoft I.C., 1998. - 344 p.
Изобретение относится к области статистического исследования больших массивов индивидуальных данных для административных, коммерческих, финансовых, управленческих, надзорных и прогностических целей. Техническим результатом является реализация гибкого способа оценки основных трендов вероятностных показателей исследования когортного риска по изучаемым факторам с учетом статистической значимости полученных выводов и возможности селекции конкурирующих гипотез (моделей регрессии) с учетом априорной информации. Сущность способа заключается в применении метода максимального правдоподобия, свойственного способу и функционалу оценки логистической регрессии; кроме того, в отличие от логистической регрессии модель связи вероятностного показателя с факторами риска генерируется самой нейросетью в процессе ее оптимальной настройки и не постулируется аналитиком до начала исследования. 1 ил.
Способ статистической оценки многофакторного тренда условной вероятности наступления изучаемого неблагоприятного события в когортном исследовании, включающий этапы анализа наблюдений представительной выборки с зарегистрированными индивидуальными исходами и списками количественных и качественных факторов:
(1) этап создания или выбора для статистической обработки базы данных, содержащей индивидуальную информацию о членах когорты с перечислением воздействующих факторов, уровней или иных количественных/качественных характеристик их воздействия, а также результаты индивидуальных исходов;
(2) этап выбора компьютерного имитатора многослойной искусственной нейронной сети;
(3) этап выбора функционала статистической оценки и компьютерной оптимизации качества аппроксимации наблюдений математической моделью искомого тренда;
(4) этап принятия решения о завершении оценки тренда данных вместе с оценкой качества его предсказания;
(5) этап оценки неопределенности результата с помощью статистических тестов,
отличающийся тем, что
- модель связи вероятностного показателя с факторами риска генерируется многослойной искусственной нейронной сетью в процессе ее оптимальной настройки и не постулируется аналитиком до начала исследования;
- для оценки качества работы нейронной сети используется функционал биномиально-логистической регрессии, позволяющий заменить обучение искусственной нейронной сети ее оптимизацией по методу максимального правдоподобия и выполнить апостериорное статистическое тестирование;
- в состав функционала оценки помимо статистической суммы вносится стабилизирующее (регуляризующее) слагаемое, улучшающее обобщающие свойства искусственной нейронной сети за счет ограничения тенденции к росту настроечных коэффициентов межнейронных связей, возникшей в силу избыточности сети;
- работа всех нейронов искусственной нейронной сети кроме последнего центрируется; в работу последнего нейрона вносится смещение, величина которого выбирается так, чтобы при нулевых настройках коэффициентов связей нейронов сети функционал ее оценки достигал значения, свойственного нулевой гипотезе об отсутствии влияния изучаемых факторов.
СПОСОБ ПРОГНОЗИРОВАНИЯ ТЕЧЕНИЯ РАННЕГО ПОСЛЕОПЕРАЦИОННОГО ПЕРИОДА У БОЛЬНЫХ С ОСЛОЖНЕНИЯМИ РАКА ПРЯМОЙ КИШКИ И СРЕДСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ | 2014 |
|
RU2567038C1 |
RU 2015123307 A, 27.11.2015 | |||
US 2016034814 A1, 04.02.2016 | |||
US 2006293921 A1, 28.12.2006 | |||
US 6004267 A, 21.12.1999. |
Авторы
Даты
2018-05-16—Публикация
2016-12-09—Подача