Современные информационные технологии/3. Программное обеспечение

Арустамов А.И., д.т.н. Васильев Е.П., Орешков В.И.

             ООО Аналитические технологии, г. Рязань, Россия

Рязанский государственный агротехнологический университет, Россия

ИНТЕЛЛЕКТУЛЬНЫЕ ПЛАТФОРМЫ - СОВРЕМЕННЫЙ ИНСТРУМЕНТ АНАЛИЗА ДАННЫХ В ЭКОНОМИКЕ И БИЗНЕСЕ

 

В конце 80-х годов XX века в бизнес-сообществе сформировалось понимание того, что данные, накапливаемые в информационных системах предприятий, не должны лежать «мертвым» грузом, а их необходимо использовать для получения «ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности» [1].

 В современных условиях, совершенствование процесса управления предприятием на основе инновационных информационных технологий (ИТ) является важнейшей составляющей в достижении конкурентных преимуществ. Особенно актуально это для отраслей, характеризующихся высокими затратами и рисками, таких, как сельское хозяйство, потребительское кредитование, страхование и др. Поэтому важнейшим направлением развития ИТ является разработка и совершенствование методов, программных и инструментальных средств поиска знаний в больших базах данных (БД). Основным применением обнаруженных знаний является совершенствование процессов управления экономическими и бизнес-процессами, поддержка принятия управленческих решений.

 

1. Основные направления развития технологий поиска знаний в БД

Можно выделить три основных направления развития технологий обработки данных в процессе поиска знаний и поддержки управленческих решений – прикладная статистика, экспертные системы и интеллектуальный анализ данных. Кратко рассмотрим преимущества и недостатки каждого направления с точки зрения их использования в экономике и бизнесе.

Прикладная статистика имеет хорошо разработанную теорию, ее методы являются математически корректными и обоснованными. В рамках направления доступно широкое разнообразие методов и алгоритмов анализа данных. На рынке представлено большое количество программных продуктов (статистические пакеты Statistica, SPSS, PASW, Minitab, STADIA, Statgraphics и т.д.). С другой стороны, статистические методы являются весьма сложными и требуют от пользователя математической подготовки, имеют относительно низкую интерпретируемость результатов, часто оперируют фиктивными величинами. Кроме этого, статистические пакеты в основном ориентированы на работу с относительно небольшими, локальными массивами данных.

Экспертные системы (интеллектуальные информационные системы) используют формализованные знания экспертов, помещенные в базу знаний, откуда они извлекаются с помощью средств логического вывода по запросу пользователя. Преимуществом таких систем является диалог на естественном языке, имитация рассуждений человека (эксперта), реализуемая с помощью интеллектуального интерфейса, что обеспечивает высокий уровень понимания, как поставленной задачи, так и результатов. К недостаткам можно отнести высокую трудоемкость разработки, узкоспециальную направленность, необходимость привлечения экспертов и инженеров по знаниям, слабые возможности по актуализации. Но главным является то, что пользователь фактически работает не с данными, а с мнением экспертов, принимавших участие в формировании базы знаний.

Интеллектуальный анализ данных (Data Mining - DM) это сравнительно новое направление, сформировавшееся на стыке теории БД, искусственного интеллекта, машинного обучения (МО) и прикладной статистики. Термин data mining дословно означает «раскопка данных», «разработка данных» и впервые был введен  В.Г. Пятецким-Шапиро [1]. В основе технологии DM лежит использование математических моделей, решающих основные задачи анализа данных – классификацию, численное предсказание, кластеризацию, ассоциацию, прогнозирование. Математический аппарат DM включает как статистические методы (регрессию, корреляционный анализ, метод главных компонент, байесовскую классификацию [2]), так и алгоритмы МО (нейронные сети, деревья решений, карты Кохонена, ассоциативные правила, последовательные шаблоны и др. [2]). Именно методы МО считаются «ядром» DM, поскольку позволяют в автоматическом режиме, с минимальным вмешательства пользователя, извлекать нетривиальные (которые нельзя определить визуально или рассчитать) зависимости в данных, что сводит работу аналитика к интерпретации результатов анализа и выработке рекомендаций по принятию управленческих решений.

Важнейшим преимуществом технологий DM является то, что аналитик (специалист, руководитель) работает непосредственно с данными, описывающими бизнес-процесс, сам ставит цели и задачи аналитической обработки, выбирает алгоритмы и методы анализа. Индукция знаний производится непосредственно в процессе интерпретации и осмысления исследователем результатов анализа.

Для комплексного решения аналитических задач DM в последнее десятилетие получил развитие специальный класс ПО - так называемые аналитические платформы (АП). Популярность данного направления оказалась настолько велика, что в разработке аналитического ПО «отметились» практически все крупнейшие игроки на рынке ИТ (Microsoft, IBM, Oracle, SAS Institute, Silicon Graphics, StatSoft) и множество менее известных (Angross Software, Neuro Solution) [3]. Значительное количество свободных продуктов разрабатывается и поддерживается крупными университетами (Weka, RapidMiner, Orange). Ведущими отечественными разработками являются PolyAnalyst (Megaputer) и Deductor (ООО Аналитические технологии, www.basegroup.ru).

 

2. Структура и принципы функционирования современных АП

 

Структура и принципы функционирование современных АП иллюстрируются на схеме, приведенной на рис. 1. Аналитик, в соответствии с поставленной задачей, разрабатывает сценарий аналитической обработки данных. При этом аналитик, это специалист, который может иметь весьма поверхностное представление о предметной области исследований, но хорошо разбирается в задачах управления данными, владеет приемами и методами их анализа. На основе разработанного сценария, производится извлечение нужных данных из различных источников, при необходимости выполняется их интегрирование и очистка, после чего данные загружаются в аналитическое приложение. В нем строятся интеллектуальные модели с применением методов статистики и машинного обучения, отражающие закономерности процессов, зависимости и связи между элементами данных. Результаты работы моделей визуализируются в виде таблиц, графиков, диаграмм, карт и т.д., формируются соответствующие отчеты.

 

Рис. 1. Схема аналитического процесса  в современном аналитическом приложении Data Mining

 

Аналитическое приложение является рабочим местом аналитика, где он настраивает и реализует все процедуры и алгоритмы обработки данных, визуализирует результаты, оценивает их корректность, достоверность и значимость. Однако конечным пользователем процесса анализа являются лица, принимающие решения (ЛПР). Они являются экспертами в своей предметной области и, как правило, не имеют достаточных знаний в области управления данными, математической статистики и машинного обучения. Задача ЛПР интерпретировать результаты анализа, сделать выводы и суждения относительно исследуемых бизнес-процессов, и на их основе принять обоснованное управленческое решение, которое будет способствовать повышению эффективности работы предприятия, поможет выйти из кризисной ситуации с минимальными потерями, более полно использовать открывающиеся возможности и т.д. Для этого в системах Data Mining предусмотрены средства тиражирования знаний, задача которых довести результаты анализа до конечного пользователя в наиболее удобной для восприятия и интерпретации форме.

Средства тиражирования знаний содержат репозиторий отчетов и сценариев, сформированных аналитиком и доступных пользователю в виде списков или меню. Пример реализации рабочего места пользователя в АП Deductor представлен на рис. 2. Пользователь выбирает нужный отчет или сценарий, а система автоматически выполняет его для нужного набора данных. Такой подход с одной стороны, позволяет сделать аналитика независимым от предметной области и процесса принятия решений, давая возможность сосредоточиться на процессе анализа данных. С другой, позволяет пользователям, абстрагироваться от процесса обработки и сосредоточиться на применении ее результатов в целях совершенствования и оптимизации бизнес-процессов. Как показывает практика, такое «разделение труда» обеспечивает наиболее высокую эффективность процедур поддержки и выработки управленческих решений.

 

Рис. 2. Пример реализации рабочего места пользователя в АП Deductor

Следует, тем не менее, отметить, что независимость аналитика и пользователя при работе с Data Mining-приложениями, достаточно условна. Разрабатывая сценарий аналитического проекта, аналитик должен иметь определенное представление о его целях и ожидаемых результатах, что предполагает наличие некоторых знаний о предметной области исследований. С другой стороны, пользователю также желательно иметь некоторое представление о методах, которыми были получены те или иные результаты, чтобы правильно их интерпретировать и применять в управленческой деятельности. Функциональность современных платформ бизнес-аналитики такова, а процессы манипулирования данными и их аналитической обработки настолько автоматизированы, что даже при решении достаточно сложных задач, пользователь может выступать в роли аналитика – разрабатывать сценарии, строить модели, оценивать достоверность и точность полученных результатов.

 

2. Аналитическая платформе Deductor – современный инструмент интеллектуального анализа данных

 

Современные АП показали высокую эффективность, что привело к бурному развитию рынка программных инструментов бизнес-аналитики. Такие системы интегрируют в себе четыре основных компонента:

- мощный модуль управления данными, который включает в себя развитые средства их консолидации (хранилище данных, подсистемы загрузки, выгрузки и интегрирования данных из различных источников) и предобработки (очистка, трансформация и обогащение), позволяющий работать с массивами очень большой размерности;

- аналитический модуль, совмещающий в себе средства классической прикладной статистки (регрессия, корреляционный и дисперсионный анализ, метод главных компонент и др.) а также средства эвристического поиска, позволяющие решать аналитические задачи даже в условиях плохой формализуемости исходной информации (нейронные сети, деревья решений, самоорганизующиеся карты признаков, ассоциативные правила, последовательные шаблоны, нечеткие системы и т.д.);

- модуль OLAP [1], позволяющий в режиме реального времени формировать сложные нерегламентированные отчеты на основе аналитических запросов к базам и хранилищам данных;

- модуль тиражирования знаний, содержащий средства визуализации результатов анализа.

Интегрирование всех этих возможностей на единой программной платформе дает мощный синергетический эффект, сокращая временные, финансовые и кадровые затраты на реализацию аналитических проектов, повышая достоверность и значимость полученных результатов.

Исследование современного рынка программных средств DM показало [3], что цена зарубежных АП весьма высока, что делает их недоступными широкому кругу предприятий малого и среднего бизнеса. Кроме этого, велики расходы на установку, развертывание и настройку данного класса продуктов. Поэтому большой интерес представляет отечественная разработка – аналитическая платформа Deductor рязанской компании «Аналитические технологии». Многофункциональность, широкий выбор аналитических методов и алгоритмов, средств визуализации и предобработки данных, делает этот продукт высоко конкурентным не только на отечественном, но и на международном рынке программных средств интеллектуального анализа данных (где он распространяется под торговой маркой Loginom).

Отличительными особенностями АП Deductor является существенно более низкая стоимость по сравнению с зарубежными продуктами аналогичного класса, удобный русскоязычный интерфейс, наличие библиотеки  сценариев аналитических решений, мощная система поддержки продукта и доступность дистанционного обучения (интернет-ресурс www.basegroup.ru). АП Deductor включена в учебную программу десятков высших учебных заведений России и стран СНГ: Российская экономическая академия имени Г.В. Плеханова, Государственный университет управления, Санкт-Петербургский государственный университет, Нижегородский государственный технический университет, Белорусский государственный университет информатики и радиоэлектроники и множество других. Опыт работы с платформой Deductor насчитывает десятки реализованных проектов в различных сферах экономики и бизнеса.

3. Заключение

Применение АП Deductor для повышения эффективности управления бизнесом - перспективное направление использования современных инновационных информационных технологий, поскольку позволяет оперативно и комплексно решать задачи извлечения знаний из данных, описывающих бизнес процессы как внутри предприятия, так и во внешнем окружении [4]. Интеллектуальная среда Deductor, формируемая с использованием самообучающихся моделей, позволяет решать сложные задачи анализа специалистам, непосредственно интегрированным в бизнес-процессы, что повышает оперативность и значимость полученных решений. Результаты внедрения многочисленных проектов реализованных на базе АП Deductor подтверждают ее высокую эффективность.

Литература

1. Advances in Knowledge Discovery and Data Mining. Edited by Usama M. Fayyad, Gregory Piatetsky-Shapiro. MIT Press, 1996.

2. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям (+CD). Изд. 2-е, пераработанное и дополненное. - СПб.: Питер, 2010.- 700 с.

3. Васильев Е.П., Орешков В.И. Современные аналитические платформы для задач АПК // Вестник Рязанского гос. агротехнологического университета имени П.А. Костычева. Рязань: РГАТУ.- 2011 .- Вып. 1.- С.68-75.

4. Орешков В.И. Интеллектуальный анализ данных как важнейший инструмент формирования интеллектуального капитала организаций.// Креативная экономика. – 2011. – №12. – С. 84-89.