Современные информационные технологии/1. Компьютерная инженерия

К.т.н. Бутенков С.А., к.т.н. Кривша В.В.1, Хатунцев В.Н.2

1Технологический институт Южного федерального университета в г. Таганроге, Россия

2Таганрогский государственный педагогический университет, Россия

Методы информационной грануляции и вычислений фигурами для реализации Data Mining

 

В настоящее время термин Data Mining обозначает не столько конкретную методологию, сколько сам процесс поиска корреляций, тенденций, взаимосвязей и закономерностей посредством различных математических и статистических алгоритмов: кластеризации, создания выборок, регрессионного и корреляционного анализа. Цель этого поиска – представить данные в виде, четко отражающем исследуемый процесс, а также построить модель, при помощи которой можно прогнозировать события, характерные для исследуемого процесса [1]. В связи с указанным обстоятельством существует довольно большое количество математически разнородных методов исследования данных. По [1,2] среди них можно выделить: регрессионный, дисперсионный и корреляционный анализ; методы анализа в конкретной предметной области, базирующиеся на эмпирических моделях [3]; методы кластеризации [2], методы деревьев решений [4]; эволюционные методы и т.д. [4].

Таким образом, в силу значительной разнородности методов и средств решения задач Data Mining, необходим некоторый обобщающий подход, который позволил бы строить полный цикл решения задач Data Mining на единой математической основе. Таким подходом может служить информационная грануляция, введенная в работах L. Zadeh [8]. Она является основой для моделирования процессов в терминах нечетких множеств [5] и построения гибридных нейросетевых систем, решающих сложные задачи [6]. Наконец, имеются нейросетевые решения для задач информационной грануляции многомерных данных [9].

Информационной гранулой называется подмножество универсума , на котором определено отношение сходства, неразличимости и т.п. [8]. Множество гранул, которое содержит все объекты универсума, называется гранулированием универсума. Подмножество  называется составной (не элементарной) гранулой если оно представляет собой объединение атомарных гранул [7]. Важность понятия декартовой информационной гранулы происходит в большой степени от ее роли в процессе, называемом инкапсуляцией информации [8]. Гранулы на плоскости двумерных данных изображены на следующем рисунке.

Рис. 1. Гранула , ее проекции и инкапсулирующая гранула .

Для гранулы  обозначим проекции на  и  областей  и  соответственно как  и  (рис. 4). С точки зрения алгебраического подхода [10] , , , . С точки зрения ТИГ [8] декартова гранула  определяемая как , инкапсулирует исходную произвольную гранулу  в том смысле, что является точной верхней гранью декартовых гранул, которые содержат  (см. рис. 1). Таким образом, в данной работе  используется как верхняя аппроксимация для  [9]. С понятием инкапсулирующей гранулы тесно связано фундаментальное понятие аппроксимирующего графика отношения. Согласно [2], такой график на двумерном множестве данных задается в канонической форме как  = , , где операция ”+” означает дизъюнкцию в геометрическом смысле [8]. Отметим, что в настоящей работе речь идет о декартовых координатах, в отличие от осей лингвистических переменных [8], а алгебраическими моделями декартовых гранул являются грассманновы элементы [9]. Как результат применения ТИГ в задачах Data Mining, в дальнейшем мы будем рассматривать данные в канонической алгебраизированной форме, пример которой приведен на рис. 2.

a)                           b)

Рис. 2. Сырые данные на плоскости (a) и их каноническое (регулярное) представление (b) с помощью грассманновых элементов.

Для анализа данных также необходимы некоторые отношения между элементами. На плоскости чаще всего используются бинарные отношения положения типа  ( находится на расстоянии от ) и  ( находится в направлении  относительно), где  – ссылочный объект, а  – изучаемый объект. В наших работах [7,10] предложена общая система нечетких топологических отношений для операций над гранулами, которая реализует методологию вычислений фигурами на грассмановых элементах (по аналогии с вычислениями словами , введенными L. Zadeh на лингвистических переменных [8]). Следующий рисунок изображает примеры функций принадлежности таких отношений для случая единичных гранул.

           

a)                                            b)

Рис. 3 Наглядное изображение топологических отношений сходства (a) и взаимного положения (b) между единичными гранулами.

Переходя к методологии реализации введенных вычислений фигурами на грассмановых покрытиях исходных данных (в целях Data Mining), отметим особое место нейросетевых методов вычислений [5,6]. Они могут позволить получить модели объяснения выявленных закономерностей (модели стеклянного ящика [7]), что крайне важно для применения полученных результатов [3]. Общая парадигма решения задач ТИГ для многомерных данных, представленных в описанной выше канонической форме [10], изображена на следующем рисунке.

Рис. 4. Парадигма поэтапной обработки гранулированных многомерных данных с помощью гибридной (нейросетевой) структуры.

На основе структуры рис. 4 возможно построение высокоэффективных гибридных систем анализа многомерных данных. Для этой цели в наших работах предложен новый тип активационных функций для гранулирующего слоя гибридной сети, основанный на использовании R-функций [7] в виде:

,                                  (1)

где  – вектор весов, – значение координаты. Выходная функция сети  реализуется с помощью выходного слоя, описываемого соотношением:

.                  (2)

Структура сети с нейронами (1) соответствует предложенной в [7] типовой двухслойной структуре [6]. Для предложенной архитектуры сети разработан алгоритм обучения без учителя, основанный на использовании экстремальных свойств (1,2) по [9].

Следующие рисунки изображают последовательные этапы гранулирования и обработки предложенным методом «зашумленных» двумерных данных с выделением гранул, аппроксимирующих отдельные кластеры.

 

a)

b)

c)

Рис. 5. Исходные зашумленные данные (a), каноническое представление для них (b) и результат очистки и кластеризации, выполненных с помощью нечетких отношений (c) [10].

Рис. 5 показывает, что с помощью предложенного метода удается совместить операции гранулирования и кластеризации (рис. 5 (b), а также использовать эти результаты для уборки точек данных, не принадлежащих выявленным гранулам. Отметим, что результат рис. 5 (c) получен не путем кластеризации [2], а путем гранулирования с помощью предложенного метода.

Литература

1.     . Дюк В.А., Самойленко А.П. Data Mining: учебный курс. – СПб.: Питер, 2001.

2.     Айвазян С. А., Бухштабер В. М., Юнюков И. С., Мешалкин Л. Д. Прикладная статистика: Классификация и снижение размерности. – М.: Финансы и статистика, 1989.

3.     Knowledge Discovery Through Data Mining: What Is Knowledge Discovery? – Tandem Computers Inc., 1996.

4.     Кречетов Н.. Продукты для интеллектуального анализа данных. – Рынок программных средств, № 14–15, 1997, c. 32–39.

5.     Горбань А.Н., Дунин-Барковский В.Л., Кирдин А.Н. и др. Нейроинформатика. – Новосибирск: Наука. Сибирское предприятие РАН, 1998. – 296с.

6.     Ярушкина Н. Г. Основы теории нечетких и гибридных систем. - М: Финансы и статистика, 2004. - 320 с.

7.     Butenkov S., Krivsha V., Al Dhouyani S. Granular Computing in Computer Image Perception: basic issues and Glass Box models. // In Proc. IASTED Conf. “AIA 2006”, Innsbruk, Austria, February 16-18 2006, pp. 811-816.

8.     Zadeh L. A. Toward a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic // Fuzzy Sets and Systems, vol. 90, p. 111–127, 1997.

9.     Бутенков С.А. Компоненты гибридных нейросетевых интеллектуальных систем, использующие метод информационной грануляции // В сб. трудов XII Всероссийской конференции “Нейроинформатика–2010”, Москва, 25-29 января 2010, т. 2, с. 54–64.

10. Бутенков С.А. Алгебраические модели в задачах интеллектуального анализа многомерных данных // Сб. трудов международной конференции “Математическая теория систем 2009”, Москва, 26-30 января 2009, c. 93-101.**