Математика/3. Теория вероятностей и математическая
статистика
К.т.н. Фомина Е.Е.
Тверской государственный
технический университет
Методика восстановления пропусков в массивах
информации
С задачей обработки больших массивов данных
приходится иметь дело при проведении различного рода исследований. К ним можно
отнести исследования в области медицины, антропологии, социологии, статистики,
экономике и других областях.
Помимо обработки информации, расчета
дескриптивных статистик, получения зависимостей, закономерностей одной из
частных задач является задача восстановления пропусков в исходном массиве
данных, которые появляются из-за невозможности получения информации в полном
объеме по различным причинам.
Исключение некомплектных данных из общей
совокупности недопустимо, так как оно может привести к потере информации и
искажению выходных данных.
Исходная информация, которая обычно представлена
в виде таблицы, может содержать достаточно большое число признаков, на основе
которых осуществляется предсказание отсутствующих значений. Нет смысла
осуществлять предсказание на основе всей информации, имеющейся в базе данных.
Это может привести к значительным вычислительным затратам, особенно при
обработке больших массивов.
В связи с вышесказанным, необходим эффективный
алгоритм восстановления пропусков.
Предложенная методика предсказания заключается в
следующем.
Так как не все признаки таблицы связаны между
собой, то в качестве базы можно использовать только ту часть информации,
которая наиболее тесно связана со строкой и столбцом, в которых находится
пробел, т.е. построить «предсказывающую» подматрицу (рис. 1).
Рис. 1.
«Предсказывающая» подматрица
В качестве меры связанности между признаками, входящими
в «предсказывающую» подматрицу можно использовать статистику
Однако она неудобна при оценке связи признаков.
Так как её значения не нормированы и при
Для оценки меры связи рассчитывается коэффициент
сопряженности Чупрова
Если
После того, как сформирована «предсказывающая»
матрица производится расчет отсутствующего значения с использованием алгоритма
ZET.
При большом количестве пробелов удобно
организовывать процедуру расчета, производимую в несколько этапов. На первом
шаге рассчитываются те элементы, которые предсказаны с заданной степенью
точности, затем они подставляются в таблицу и уже на следующем шаге
производится расчет остальных элементов.
Предложенная процедура была использована для
расчета пропусков в базе данных кефалометрических признаков головы человека,
содержащей 53 поля и 2100 записей.
Построение «предсказывающей» подматрицы,
выступающей базой для дальнейшей работы алгоритма ZET позволило значительно
сократить временные затраты на прогнозирование и увеличить эффективность работы
алгоритма.
Литература:
1. Кобзарь А.И.
Прикладная математическая статистика. Для 9.
инженеров и научных
работников. – М.: ФИЗМАТЛИТ. 2006, – 816 с.
2. Круглов В.В., Абраменкова И.В. Методы восстановления пропусков в массивах данных // Программные продукты и системы.
2005, №2, с. 18-21.
3. Звягин В.Н., М.А.
Негашева. Взаимосвязь размеров и формы лица с соматотипом женщин. //
Судебно-медицинская экспертиза. 2006, №4, с. 23-27.
4. Звягин В.Н., М.А.
Негашева. Исследование критериев размерной типологии лица и телосложения юношей
// Судебно-медицинская экспертиза. 2007, № 6, с. 9-13.
5. «Идентификация
личности по биометрическим признакам головы неопознанного трупа». Свидетельство
о государственной регистрации программы для ЭВМ №2010614729 от 20 июля 2010 г.
6. «База данных
биометрических признаков головы человека». Свидетельство о государственной
регистрации базы данных №2011620066 от 19 января 2011 г.