Метод деревьев решений в задачах медицинской диагностики

Берестнева О.Г., Макарова Л.С.

Национальный исследовательский Томский политехнический университет, Россия

Метод деревьев решений в задачах медицинской диагностики

В настоящее время все более широкое распространение получают медицинские системы поддержки принятия решения. Обязательным элементом такого рода систем является база знаний. Для формирования баз знаний в медицинских экспертных системах наиболее часто используется математическое моделирование (в т.ч. получение диагностических моделей в виде решающих правил).

Для нахождения решающего правила посредством определенных математических инструментов, необходимо имеющиеся знания представить и структурировать согласно математическим терминам.

Имеется выборка X из n объектов (людей, с различными диагнозами бронхиальной астмой), характеризующихся m переменными (физиологические, социальные, психологические показатели)

X= ,

где i - номер объекта (пациента), j - номер переменной (признака).

Вектор Y={y1, ….yi…yk}, где yi – один из возможных диагнозов (например, различные формы бронхиальной астмы), k - количество диагностируемых классов (возможных диагнозов).

Таким образом, задача заключается в построении решающего правила для отнесения i - го объекта (i =1…n) (пациента) с определенным набором признаков j (j =1..m) к одному из имеющихся классов yi (i = 1..k) (диагнозов), т.е. решение задачи классификации.

В работе представлены результаты решения данной задачи с помощью метода деревьев решений на базе пакета See5. Для работы в системе See5 самыми необходимыми и существенными являются два файла – имен переменных и данных. В файле имен переменных с расширением *.names даются названия используемых признаков и классов.

Среди признаков различают две важные подгруппы:

- номинальные признаки, количественные признаки и метки;

- явно определенные признаки, значения которых берутся непосредственно из файла данных, и неявно определенные признаки, задаваемые формулами.

В системе See5 реализован адаптивный метод, основная идея которого состоит в том, что для формирования деревьев решений используются различные части исходной обучающей выборки. Вначале каждому объекту приписывается равная вероятность отбора в подвыборку, и по все исходной выборке строится первое дерево решений. На следующих этапах вероятность отбора каждого объекта изменяется: неправильно классифицируемые объекты получают приращение вероятности на заданную величину. Формируется следующая подвыборка с учетом новых вероятностей отбора, по которой строится другое дерево решений. Процедура продолжается до тех пор, пока не будет построено заданное исследователем количество деревьев. Результатом для леса решений является общая точность классификации.

Ниже представлен пример одного из построенных деревьев решений

See5 [Release 1.14] Tue Apr 24 09:31:16 2012

Options:

Generating rules

Class specified by attribute `diagnosis'

Read 83 cases (25 attributes) from BA.data

Read misclassification costs from BA.costs

Decision tree:

Rb <= 3.1: 4 (13/1)

Rb > 3.1:

:...Rb <= 3.8:

:...Sex = M: 2 (3)

: Sex = F:

: :...MVB <= 8.5: 2 (2)

: MVB > 8.5: 1 (2)

Rb > 3.8:

:...Rex <= 5.2: 3 (7)

Rex > 5.2:

:...Cstat > 0.198: 3 (6/1)

Cstat <= 0.198:

:...Wmvb10 > 1.44: 2 (2)

Wmvb10 <= 1.44:

:...Wmvb15 <= 0.62:

:...Age <= 36: 1 (2/1)

: Age > 36: 2 (5)

Wmvb15 > 0.62:

:...Age <= 37:

:...Wel > 0.436: 1 (2)

: Wel <= 0.436:

: :...Sex = M: 3 (3)

: Sex = F:

: :...PVS <= 56: 2 (5/1)

: PVS > 56: 1 (2/1)

Age > 37:

:...MVL > 64.1:

:...Wmvb10 <= 0.75: 1 (10)

: Wmvb10 > 0.75: 3 (3/1)

MVL <= 64.1:

:...Rex > 8.3: 1 (6/1)

Rex <= 8.3:

:...Rb > 5.11: 3 (6)

Rb <= 5.11:

:...VFE1 <= 57.5: 3 (2)

VFE1 > 57.5: 1 (2)

Evaluation on training data (83 cases):

Decision Tree

-----------------------

Size Errors Cost

19 7( 8.4%) 0.48

(a) (b) (c) (d) <-classified as

---- ---- ---- ----

22 2 (a): class 1

16 1 1 (b): class 2

2 1 26 (c): class 3

12 (d): class 4

Time: 0.1 secs

Рис. 1. Дерево решений, построенное по физиологическим показаниям больных БА

Каждое правило, выводимое системой, характеризуется величинами (n/m, lift x): n – количество объектов, соответствующих данному правилу; m – количество объектов, не принадлежащих данному диагностическому классу (ошибочное распознавание); lift x – уровень доверия к построенному правилу. Уровень доверия вычисляется следующим образом:

где A – точность правила, оцениваемая с помощью соотношения Лапласа:

f – относительная частота прогнозируемого данным правилом класса по всей обучающей выборке:

где – количество объектов, соответствующих прогнозируемому правилом классу, N – объем обучающей выборки.

В квадратных скобках указывается доверительная вероятность данного правила (характеристика точности правила). В случае, когда срабатывает несколько правил для одного объекта, выбирается правило с наибольшей доверительной вероятностью.

Для улучшения качества классификации, распознавания и прогнозирования, а также для получения устойчивых закономерностей исследуемого явления предусмотрено построение леса деревьев решений.

Полученные нами результаты, в частности, подтвердили знания экспертов о том, что среди разнородной популяции больных БА существует группа людей с высокой чувствительностью и реактивностью к воздействию психотравмирующих факторов.

Работа выполнена при финансовой поддержке РГНФ, проект 12-06-12057 «Создание системы алгоритмических и программных средств обработки, представления и анализа экспериментальных данных в социальных и медицинских исследованиях»

Литература:

1. Цой А. Н., Архипов В. В. Бронхиальная астма. Новые решения // Медицинское информационное агентство. – 2007.

2. Многофункциональная экспертная система в области медицинской инструментальной диагностики [Электронный ресурс] - URL: www.ctmed.ra/medicine/asmu/patophis/duplex.html

3. Кобринский Б.А. Системы искусственного интеллекта в медицине: Состояние, проблемы и перспективы // Новости искусственного интеллекта 1995. - № 2. – С.65-79.

4. Дюк В., Самойленко А. DataMining - СПб: Питер, 2001.-368с.