Технические
науки/3. Отраслевое машиностроение
К.т.н.
Гольдштейн Ю.М.
Институт
технической механики НАН и НКА Украины, Украина
К вопросу использования кластерного анализа в
функциональном диагностировании сложных
технических систем
Системы функционального диагностирования применяют при
использовании объекта по назначению, когда необходимы проверка правильности
функционирования и поиск дефектов, нарушающих последнее. При этом на объект
поступают только предусмотренные его алгоритмом функционирования (рабочие)
воздействия.
Успешное решение диагностических задач в значительной
мере обусловлено удачным выбором информативных диагностических признаков и
алгоритмов распознавания.
Состояние объекта описывается множеством определяющих
его параметров. Распознавание состояния объекта представляет собой отнесение
объекта к одному из возможных классов (диагнозов).
Часто требуется провести выбор одного из двух
диагнозов: «исправное состояние» или «неисправное состояние». В большинстве
задач технической диагностики диагнозы (классы) устанавливаются заранее, и в
этих условиях задачу распознавания часто называют задачей классификации.
В задачах диагностики сложные технические системы описывается с помощью комплекса признаков, и могут
характеризоваться - мерным вектором или
точкой в - мерном
пространстве, причем координаты могут быть количественными, порядковыми или
качественными.
Как правило используются два основных подхода к задаче
распознавания: вероятностный и
детерминистский.
Вероятностный подход является более общим, но он
требуют значительно большего объёма исходной информации о диагностируемой
технической системе. Поэтому его практическое использование имеет существенные
ограничения для сложных и уникальных технических систем.
Для таких систем более применимы детерминистские
методы диагностики. При детерминистских методах распознавания удобно
формулировать задачу на геометрическом языке. Если объект характеризуется - мерным вектором, то любое состояние объекта представляет
собой точку в - мерном пространстве параметров (признаков). Предполагается,
что диагноз соответствует некоторой
области рассматриваемого пространства признаков. Требуется найти решающее
правило, в соответствии с которым вектор (диагностируемый
объект) будет отнесён к определённой области диагноза. Таким образом, задача
сводится к разделению пространства признаков на области диагнозов.
Области диагноза представляют собой
внутренне однородные и внешне изолированные группы (кластеры). Для их
определения во многих случаях целесообразно использовать методы кластерного
анализа.
Кластерный анализ дает возможность производить
разбиение объектов не по одному параметру, а по ряду признаков. Кроме того,
кластерный анализ в отличие от большинства математико-статистических методов не
накладывает никаких ограничений на вид рассматриваемых объектов и позволяет
исследовать множество исходных данных практически произвольной природы.
Решением задачи кластерного анализа являются
разбиения, удовлетворяющие критерию оптимальности. Этот критерий может представлять
собой некоторый функционал, выражающий уровни желательности различных разбиений
и группировок, который называют целевой функцией. В задачах функциональной
диагностики в качестве целевой функции удобно выбрать внутригрупповая сумма
квадратов отклонений:
,
где
- вектор показателей - го состояния технической системы, - средний вектор показателей. В качестве меры сходства между
состояниями технической системы принимается расстояние между ними (чем меньше
расстояние, тем состояния более схожи).
Следует отметить, что в результате применения
различных методов кластеризации и используемых расстояний могут быть получены
кластеры различной формы. Поэтому выбор метода кластеризации играет существенную роль.
В задачах функционального диагностирования сложных
технических систем обычно заранее известно количество классов (диагнозов), к
которым нужно отнести систему.
Для решения задач такого типа целесообразно
использовать метод - средних. Алгоритм случайным образом в пространстве
показателей назначает центры будущих кластеров. Затем вычисляет расстояние
между центрами кластеров и каждым объектом, и объект приписывается к тому
кластеру, к которому он ближе всего. Завершив приписывание, алгоритм вычисляет
средние значения для каждого кластера. Этих средних будет столько, сколько
используется переменных для проведения анализа, - штук. Набор средних представляет собой координаты нового
положения центра кластера. Алгоритм вновь вычисляет расстояние от каждого объекта
до центров кластеров и приписывает объекты к ближайшему кластеру. Вновь
вычисляются центры тяжести кластеров, и этот процесс повторяется до тех пор,
пока центры тяжести не перестанут «мигрировать» в пространстве показателей.
Использование некоторого априори известного разбиения
пространства показателей на кластеры диагнозов (обучающего множества) и
современных быстродействующих пакетов программ (например “Statisyica-7”) позволяют оценить качество разбиений на кластеры
при использовании различных методов кластеризации и расстояний и подобрать их
оптимальный вариант.