Артюхин А.В.
г. Алматы НАО «Алматинский
университет энергетики и связи»
Анализ построение моделей динамики
информационных потоков с точки зрения содержательности информации.
Информационное пространство можно рассматривать
как множество связанных по смыслу элементов (документов), образующих в динамике
своей эволюции информационные потоки [1]. При этом многолетние наблюдения
свидетельствуют о том, что информационное пространство обладает устойчивыми
закономерностями, в частности, показано, что параметры частотного и рангового распределений
документов во многих информационных потоках остаются одинаковыми и определяются
параметрами, зависящими от содержания, тематики информации [2].
Для исследования современных информационных
потоков все чаще применяются новые подходы, потому что классические методы и
средства агрегации информационных массивов не всегда способны адекватно отражать
состояние динамической составляющей информационного пространства.
Для моделирования информационных потоков,
с одной стороны, вполне подходит классическая теория информации, которую можно
трактовать как математическую теорию связи, разработанную К. Шенноном [3] в
40-х годах ХХ столетия и существенно дополненную и расширенную в последующие
годы работами Н. Винера, В.А. Котельникова и А.Н. Колмогорова. В этих работах рассматривались
количественные оценки, относящиеся к передаваемой информации, было определено
«количество информации». Однако сегодня понятна ограниченность такого подхода,
невозможность разрешения реальных проблем, связанных с содержательной
составляющей информации. Значительный вклад в исследования в области теории
информации вносит нелинейная динамика, синергетика [4, 5]. Количество
документов в общем информационном потоке, состоящем из тематических потоков,
является величиной относительно стабильной. Изменяются во времени лишь объемы
потоков, соответствующих той или иной тематике, тому или иному информационному
сюжету. Другими словами, увеличение количества документов по одной теме
сопровождается уменьшением документов по другим темам, так что для каждого
промежутка времени T имеем [6]:
где ni(t) – количество документов в
единицу времени по теме i, а M – общее количество всех возможных тем. Таким
образом, для локальных временных промежутков можно наблюдать так называемый «тематический
баланс».
Основной интерес при этом представляет
изучение динамики отдельного тематического потока, который описывается
плотностью ni(t). При этом общие политематические потоки являются стационарными
по количеству документов, динамика же в основном определяется «конкурентной
борьбой» отдельных тематик.
Еще сложнее выглядит синхронное изменение
количества документов, относящихся к нескольким тематическим информационным потокам.
Их поведение четко напоминает процессы взаимодействия популяций в биоценозе.
Так, например, в ряде случаев увеличение числа документов по одной теме сопровождается
сокращением числа документов по другим темам. Общая динамика в этом случае
может описываться системой уравнений, каждое из которых относится к отдельному
монотематическому потоку.
Вместе с тем в практическом плане часто
оказывается полностью удовлетворительным упрощенное понимание информационного
потока как некоторой зависимой от времени величины n(t), которая описывается
уравнением:
В самом простом виде такие уравнения могут
иметь следующий вид:
где N – количество тематик; pi –
вероятность появления в единицу времени публикации по теме i, rij – коэффициент
взаимосвязи тематик i и j.
Классические модели информационных потоков,
линейные и экспоненциальные, малопригодны для изучения реальной динамики
сетевых информационных потоков в течение длительных интервалов времени.
Как обобщение экспоненциальной модели, предусматривающей
пропорциональность скорости роста функции n(t) в каждый момент времени ее
значению, можно рассматривать логистическую модель. Главная идея логистической
модели заключается в том, что для ограничения скорости роста на функцию n(t)
накладывается дополнительное условие, в соответствии с которым ее значение не
должно превышать некоторую величину. Для этого выберется множитель k(t) такого
вида:
где P – некоторое предельное значение, которое
функция n(t) не может превышать (rn0(t) ≤ P); r – коэффициент, описывающий негативные
для данной тенденции процессы; k – коэффициент пропорциональности. В результате
получаем логистическое уравнение:
Приведенное уравнение можно считать феноменологическим:
исследователям необязательно знать, как действуют конкретные механизмы, по мере
роста n(t) снижающие скорость ее изменения.
В случае информационных потоков, которые
ассоциируются с конкретными темами, необходимо описывать динамику каждого из
таких потоков отдельно, принимая во внимание то, что рост одного из них автоматически
приводит к уменьшению других и наоборот. Поэтому ограничение на количество документов
по всем тематикам распространяется и на совокупность всех монотематических
потоков. В случае изучения общего информационного потока наблюдается явление
«перетекания» документов из одних тематик, в другие, более актуальные.
Общая динамика должна описываться системой
уравнений, каждое из которых относится к отдельному монотематическому потоку.
Приведенную выше систему уравнений «конкурентной борьбы» в рамках обобщенной
логистической модели можно представить в таком виде:
где Di(t) – параметр актуальности темы.
Анализ взаимодействия тем является достаточно сложной задачей, так как на практике
тематические информационные потоки охватывают большое количество зависимостей,
уровень взаимозависимостей которых зачастую неизвестен. Если же говорить о
системе логистических уравнений, то в рамках данной модели доминируют две основные
темы взаимодействия – конкуренция и симбиоз. Конкуренции соответствуют положительные
значения коэффициентов rij, соответствующих i-й и j-й темам, т.е. взаимодействие
происходит таким образом, что увеличение количества документов по одной из тем
приводит к сокращению второго информационного потока. Симбиоз возникает при отрицательных
значениях коэффициентов rij, т. е. при условиях, когда тематические потоки не
только потребляют определенные ресурсы, но и «подпитывают» друг друга.
Структура приведенных выше уравнений
(лежащих в основе логистической модели) является достаточно общей и, например,
позволяет моделировать случайные отклонения. К недостаткам такого моделирования
можно отнести тот факт, что воспроизведение результатов (т.е. надежная верификация
результатов) в данном случае является очень проблематичным.
Вместе с тем развитие методов математического
моделирования, так называемого «мягкого моделирования» [5], в котором модели
строятся, опираясь не на строгие количественные законы, а на качественные закономерности,
позволили подойти к новой точке зрения в области исследования информационных
потоков, что позволяет корректно использовать методы нелинейной динамики, теорий
клеточных автоматов, перколяции, самоорганизованной критичности [7].
Литература
1. Додонов А. Г., Ландэ Д.В. Живучесть
информационных систем. – Киев: Наук. думка, 2011. – 256 с.
2. Иванов С.А. Стохастические фракталы в
Информатике //Научно-техническая информация. Сер. 2. – 2002. – № 8. – С. 7–18.
3. Шеннон К. Работы по теории информации и
кибернетике. – М.: Изд. иностр. лит., 1963. – 830 с.
4. Хакен Г. Информация и самоорганизация.
Макроскопический подход к сложным системам. 2-е изд., доп. – M.: Либроком
(Editorial URSS), 2005. – 248 с.
5. Арнольд В.И. Аналитика и
прогнозирование: математический аспект // Научно-техническая информация. – Сер.
1. – Вып. 3. – 2003. – С. 1–10.
6. Ландэ Д.В. Основы интеграции
информационных потоков. – Киев: Инжиниринг, 2006. – 240 с.
7. Ландэ Д.В., Снарский А.А., Безсуднов
И.В. Интернетика: Навигация в сложных сетях: модели и алгоритмы. –M.: Либроком (Editorial URSS), 2009. –
264 с.