Экономические
науки/8.Математические методы в экономике
Одияко Н.Н., Голодная Н.Ю.
Владивостокский
государственный университет экономики и сервиса, Россия
Моделирование
ситуаций итеративными методами
Кластерный анализ – это совокупность методов,
позволяющих классифицировать многомерные наблюдения, каждое из которых
описывается набором исходных переменных Целью кластерного анализа является образование групп схожих
между собой объектов, которые принято называть кластерами.
Методы кластерного
анализа позволяют решать следующие задачи:
-проведение классификации объектов с учетом признаков, отражающих
сущность, природу объектов,
-проверка
выдвигаемых предположений о наличии некоторой структуры в изучаемой
совокупности объектов,
-построение новых классификаций для слабоизученных явлений, когда
необходимо установить наличие связей внутри
совокупности и попытаться привнести в нее структуру.
Методы
кластерного анализа можно разделить на агломеративные (объединяющие) и дивизимные
(разделяющие).
В кластерном анализе
существуют также итеративные методы, в частности, метод k – средних и метод поиска сгущений. Их характерная
особенность в том, что кластеры формируются исходя из задаваемых условий
разбиения (параметров), которые в процессе работы алгоритма могут быть изменены
пользователем для достижения желаемого качества разбиения. Итеративные методы
относятся к быстродействующим, что позволяет использовать их для обработки
больших массивов исходной информации.
Сущность их заключается в том, что процесс
классификации начинается с задания некоторых начальных условий (количество
образуемых кластеров, порог завершения процесса классификации и т.д.).
Итеративные методы в большей степени, чем иерархические, требуют от
пользователя интуиции при выборе типа классификационных процедур и задания
начальных условий разбиения, так как большинство этих методов очень
чувствительны к изменению задаваемых параметров. Целесообразно сначала провести
классификацию по одному из иерархических методов или на основании экспертных
оценок, а затем уже подбирать начальное разбиение и статистический критерий для
работы итерационного алгоритма. Как и в иерархическом кластерном анализе, в
итерационных методах существует проблема определения числа кластеров. Не все итеративные методы требуют
первоначального числа кластеров. Но для окончательного решения вопроса о
структуре изучаемой совокупности можно испробовать несколько алгоритмов, меняя
либо число образуемых кластеров, либо установленный порог близости для объединения
объектов в кластеры. Тогда появляется возможность выбрать наилучшее разбиение
по задаваемому критерию качества.
Метод k-средних принадлежит к
группе итеративных методов эталонного типа. В отличие от иерархических процедур
метод k-средних не требует вычисления
и хранения матрицы расстояний или сходств между объектами. Алгоритм этого
метода предполагает использование только исходных значений переменных. Для
начала процедуры классификации должны быть заданы k случайно выбранных объектов, которые будут служить
эталонами, т.е. центрами кластеров. Возможны две модификации метода k-средних. Первая предполагает пересчет центра тяжести кластера
после каждого изменения его состава, а вторая – лишь после того, как будет
завершен просмотр всех данных. В обоих случаях итеративный алгоритм этого
метода минимизирует дисперсию внутри каждого кластера, хотя в явном виде такой
критерий оптимизации не используется.
Метод k-средних допускает в качестве исходного разбиения использовать
группировку, полученную одним из методов иерархического кластерного анализа.
Такой подход можно рекомендовать для сокращения времени обработки в том случае,
когда совокупность объектов достаточно велика и пользователь затрудняется
указать количество образуемых кластеров.
Вычислительные
процедуры большинства итеративных методов классификации сводятся к выполнению
следующих шагов:
-выбор числа
кластеров, на которые должна быть разбита совокупность, задание первоначального
разбиения объектов и определение центров тяжести кластеров;
-в
соответствии с выбранными мерами сходства определение нового состава каждого
кластера;
-после
полного просмотра всех объектов и распределения их по кластерам осуществляется
пересчет центров тяжести кластеров;
-последние
две процедуры повторяются до тех пор, пока следующая итерация не даст такой же
состав кластеров, что и предыдущая.
После
завершения процедур классификации необходимо оценить полученные результаты. Для
этой цели используется некоторая мера качества классификации, которую принято
называть функционалом или критерием качества. Наилучшим по
выбранному функционалу следует считать такое разбиение, при котором достигается
экстремальное значение целевой функции –
функционала качества.
После распределения объектов по k кластерам сравнивают первоначальный состав этих кластеров с
вновь полученным. Если обнаруживается несовпадение, тогда работа алгоритма
продолжается, повторяются две последние процедуры. Локальный экстремум
достигается в том случае, если совпадают результаты последующей и предыдущей
группировок. Следует заметить, что для другого начального разбиения оптимальное
значение функционала будет отличаться. На принципе минимизации внутриклассовой
дисперсии основаны алгоритмы метода k-средних и метода Уорда.
Судить о качестве разбиения позволяют и некоторые простейшие
приемы. Например, сравнение средних значений признаков в отдельных кластерах
(группах) со средними значениями в целом по всей совокупности объектов. Если
отличие групповых средних от общего среднего значения существенно, то это может
являться признаком хорошего разбиения. Оценка существенности различий может
быть выполнена с помощью t-критерия
Стьюдента.
Перечисленные выше способы оценки качества разбиения предполагают
чисто формальный подход и являются для исследователя только вспомогательными
средствами. Основная роль принадлежит содержательному анализу результатов
классификации. Выбор лучшего варианта разбиения облегчается в значительной мере
серьезной подготовительной работой, в частности, выбором признаков,
характеризующих классифицируемые объекты. В зависимости от количества
признаков, их взаимосвязи, выбранного масштаба измерения подбирается наиболее
подходящий алгоритм классификации, задаются начальные параметры разбиения. Все
это облегчает интерпретацию результатов разбиения и позволяет судить о его
качестве с точки зрения поставленной задачи.
Для устранения влияния масштаба
классификационных признаков на результаты кластерного анализа необходимо
предварительно данные нормировать (стандартизировать). Результатом проведения
кластерного анализа является получение групп сходных объектов. Различные методы
кластерного анализа позволяют получать кластеры, различающиеся по размеру и по
форме.
Литература:
1.Л. А.
Сошникова, В. Н. Тамашевич, Г. Уебе, М. Шефер «Многомерный статистический
анализ в экономике». Москва, 1999.
2.В. В.
Глинский, В. Г. Ионин «Статистический анализ». Москва, 1998.