1Технологический институт Южного федерального
университета в г. Таганроге, Россия
2Таганрогский государственный педагогический университет, Россия
В
настоящее время термин Data Mining
обозначает не столько конкретную методологию, сколько сам процесс поиска
корреляций, тенденций, взаимосвязей и закономерностей посредством различных
математических и статистических алгоритмов: кластеризации, создания выборок,
регрессионного и корреляционного анализа. Цель этого поиска – представить
данные в виде, четко отражающем исследуемый процесс, а также построить модель,
при помощи которой можно прогнозировать события, характерные для исследуемого
процесса [1]. В связи с указанным обстоятельством существует довольно большое
количество математически разнородных методов исследования данных. По [1,2] среди
них можно выделить: регрессионный, дисперсионный и корреляционный анализ; методы
анализа в конкретной предметной области, базирующиеся на эмпирических моделях
[3]; методы кластеризации [2], методы деревьев решений [4]; эволюционные методы
и т.д. [4].
Таким
образом, в силу значительной разнородности методов и средств решения задач Data
Mining, необходим
некоторый обобщающий подход, который позволил бы строить полный цикл решения
задач Data Mining
на единой математической основе. Таким подходом может служить информационная грануляция, введенная в
работах L. Zadeh
[8]. Она является основой для моделирования процессов в терминах нечетких
множеств [5] и построения гибридных нейросетевых систем, решающих сложные
задачи [6]. Наконец, имеются нейросетевые решения для задач информационной
грануляции многомерных данных [9].
Информационной гранулой называется подмножество универсума , на котором определено отношение сходства, неразличимости
и т.п. [8]. Множество гранул, которое содержит все объекты универсума,
называется гранулированием универсума.
Подмножество называется составной (не элементарной) гранулой если оно представляет собой
объединение атомарных гранул [7]. Важность понятия декартовой информационной гранулы происходит в большой степени от
ее роли в процессе, называемом инкапсуляцией
информации [8]. Гранулы на плоскости двумерных данных изображены на
следующем рисунке.
Рис. 1.
Гранула , ее проекции и инкапсулирующая гранула .
Для гранулы
обозначим проекции на
и областей и соответственно как и (рис. 4). С
точки зрения алгебраического подхода [10] , , , . С точки зрения ТИГ [8] декартова гранула определяемая как , инкапсулирует исходную произвольную гранулу в том смысле, что
является точной верхней гранью декартовых гранул, которые содержат (см. рис. 1).
Таким образом, в данной работе используется как
верхняя аппроксимация для [9]. С понятием
инкапсулирующей гранулы тесно связано фундаментальное понятие аппроксимирующего графика отношения.
Согласно [2], такой график на двумерном множестве данных задается в канонической форме как = , , где операция ”+” означает дизъюнкцию в геометрическом
смысле [8]. Отметим, что в настоящей работе речь идет о декартовых координатах,
в отличие от осей лингвистических переменных [8], а алгебраическими моделями
декартовых гранул являются грассманновы элементы [9]. Как результат применения
ТИГ в задачах Data Mining, в дальнейшем мы будем рассматривать данные в
канонической алгебраизированной форме, пример которой приведен на рис. 2.
a) b)
Рис. 2. Сырые данные на плоскости (a) и их каноническое (регулярное)
представление (b) с
помощью грассманновых элементов.
Для
анализа данных также необходимы некоторые отношения между элементами. На
плоскости чаще всего используются бинарные отношения положения типа ( находится на
расстоянии от ) и ( находится в направлении относительно), где – ссылочный объект, а
– изучаемый объект. В
наших работах [7,10] предложена общая система нечетких топологических отношений
для операций над гранулами, которая реализует методологию вычислений фигурами на грассмановых элементах (по аналогии с вычислениями словами , введенными
L. Zadeh на лингвистических переменных [8]). Следующий рисунок изображает
примеры функций принадлежности таких отношений для случая единичных гранул.
a) b)
Рис. 3
Наглядное изображение топологических отношений сходства (a) и взаимного положения
(b) между единичными гранулами.
Переходя к
методологии реализации введенных вычислений фигурами на грассмановых покрытиях
исходных данных (в целях Data Mining), отметим особое место нейросетевых методов
вычислений [5,6]. Они могут позволить получить модели объяснения выявленных закономерностей
(модели стеклянного ящика [7]), что
крайне важно для применения полученных результатов [3]. Общая парадигма решения
задач ТИГ для многомерных данных, представленных в описанной выше канонической
форме [10], изображена на следующем рисунке.
Рис. 4. Парадигма поэтапной обработки гранулированных многомерных данных с помощью гибридной (нейросетевой) структуры.
На основе
структуры рис. 4 возможно построение высокоэффективных гибридных систем
анализа многомерных данных. Для этой цели в наших работах предложен новый тип
активационных функций для гранулирующего слоя гибридной сети, основанный на использовании
R-функций [7] в виде:
, (1)
где – вектор весов, – значение координаты. Выходная функция сети реализуется с помощью
выходного слоя, описываемого соотношением:
. (2)
Структура
сети с нейронами (1) соответствует предложенной в [7] типовой двухслойной структуре
[6]. Для предложенной архитектуры сети разработан алгоритм обучения без
учителя, основанный на использовании экстремальных свойств (1,2) по [9].
Следующие
рисунки изображают последовательные этапы гранулирования и обработки
предложенным методом «зашумленных» двумерных данных с выделением гранул, аппроксимирующих
отдельные кластеры.
a)
b)
c)
Рис. 5.
Исходные зашумленные данные (a), каноническое представление для них (b) и результат очистки и кластеризации,
выполненных с помощью нечетких отношений (c) [10].
Рис. 5
показывает, что с помощью предложенного метода удается совместить операции
гранулирования и кластеризации (рис. 5 (b), а также использовать эти результаты для
уборки точек данных, не принадлежащих выявленным гранулам. Отметим, что
результат рис. 5 (c) получен не путем кластеризации [2], а путем
гранулирования с помощью предложенного метода.
Литература
1.
. Дюк В.А., Самойленко А.П. Data Mining: учебный курс. – СПб.: Питер,
2001.
2.
Айвазян
С. А., Бухштабер В. М., Юнюков И. С., Мешалкин Л. Д. Прикладная
статистика: Классификация и снижение размерности. – М.: Финансы и статистика,
1989.
3. Knowledge
Discovery Through Data Mining: What Is Knowledge Discovery? – Tandem Computers
Inc., 1996.
4.
Кречетов
Н.. Продукты для интеллектуального анализа данных. – Рынок программных средств,
№ 14–15, 1997, c. 32–39.
5.
Горбань А.Н., Дунин-Барковский В.Л., Кирдин А.Н. и
др. Нейроинформатика. – Новосибирск: Наука. Сибирское предприятие РАН,
1998. – 296с.
6.
Ярушкина
Н. Г. Основы теории нечетких и гибридных систем. - М: Финансы и статистика,
2004. - 320 с.
7. Butenkov
S., Krivsha V., Al Dhouyani S. Granular Computing in Computer Image
Perception: basic issues and Glass Box models. // In Proc. IASTED Conf. “AIA
2006”, Innsbruk, Austria, February 16-18 2006, pp. 811-816.
8. Zadeh L. A. Toward a
theory of fuzzy information granulation and its centrality in human reasoning
and fuzzy logic // Fuzzy Sets and Systems, vol. 90, p. 111–127, 1997.
9.
Бутенков С.А.
Компоненты гибридных нейросетевых интеллектуальных
систем, использующие метод информационной грануляции // В сб. трудов XII
Всероссийской конференции “Нейроинформатика–2010”, Москва, 25-29 января 2010,
т. 2, с. 54–64.
10. Бутенков С.А. Алгебраические
модели в задачах интеллектуального анализа многомерных данных // Сб. трудов
международной конференции “Математическая теория систем 2009”, Москва, 26-30
января 2009, c. 93-101.