Математика/3. Теория вероятностей и математическая статистика

К.т.н. Фомина Е.Е.

Тверской государственный технический университет

Методика восстановления пропусков в массивах информации

 

С задачей обработки больших массивов данных приходится иметь дело при проведении различного рода исследований. К ним можно отнести исследования в области медицины, антропологии, социологии, статистики, экономике и других областях.

Помимо обработки информации, расчета дескриптивных статистик, получения зависимостей, закономерностей одной из частных задач является задача восстановления пропусков в исходном массиве данных, которые появляются из-за невозможности получения информации в полном объеме по различным причинам.

Исключение некомплектных данных из общей совокупности недопустимо, так как оно может привести к потере информации и искажению выходных данных.

Исходная информация, которая обычно представлена в виде таблицы, может содержать достаточно большое число признаков, на основе которых осуществляется предсказание отсутствующих значений. Нет смысла осуществлять предсказание на основе всей информации, имеющейся в базе данных. Это может привести к значительным вычислительным затратам, особенно при обработке больших массивов.

В связи с вышесказанным, необходим эффективный алгоритм восстановления пропусков.

Предложенная методика предсказания заключается в следующем.

Так как не все признаки таблицы связаны между собой, то в качестве базы можно использовать только ту часть информации, которая наиболее тесно связана со строкой и столбцом, в которых находится пробел, т.е. построить «предсказывающую» подматрицу (рис. 1).

 

Рис. 1. «Предсказывающая» подматрица

 

В качестве меры связанности между признаками, входящими в «предсказывающую» подматрицу можно использовать статистику

.

Однако она неудобна при оценке связи признаков. Так как её значения не нормированы и при   .

Для оценки меры связи рассчитывается коэффициент сопряженности Чупрова , вычисляемый по формуле:

.

Если , где  – табличное значение Коэффициента Чупрова,  - доверительная вероятность, то связь признаков признается существенной.

После того, как сформирована «предсказывающая» матрица производится расчет отсутствующего значения с использованием алгоритма ZET.

При большом количестве пробелов удобно организовывать процедуру расчета, производимую в несколько этапов. На первом шаге рассчитываются те элементы, которые предсказаны с заданной степенью точности, затем они подставляются в таблицу и уже на следующем шаге производится расчет остальных элементов.

Предложенная процедура была использована для расчета пропусков в базе данных кефалометрических признаков головы человека, содержащей 53 поля и 2100 записей.

Построение «предсказывающей» подматрицы, выступающей базой для дальнейшей работы алгоритма ZET позволило значительно сократить временные затраты на прогнозирование и увеличить эффективность работы алгоритма.

 

Литература:

1. Кобзарь А.И. Прикладная математическая статистика. Для 9. 

инженеров и научных работников. – М.: ФИЗМАТЛИТ. 2006, – 816 с.

2. Круглов В.В., Абраменкова И.В. Методы восстановления пропусков в массивах данных // Программные продукты и системы. 2005, №2, с. 18-21.

3. Звягин В.Н., М.А. Негашева. Взаимосвязь размеров и формы лица с соматотипом женщин. // Судебно-медицинская экспертиза. 2006, №4, с. 23-27.

4. Звягин В.Н., М.А. Негашева. Исследование критериев размерной типологии лица и телосложения юношей // Судебно-медицинская экспертиза. 2007, № 6, с. 9-13.

5. «Идентификация личности по биометрическим признакам головы неопознанного трупа». Свидетельство о государственной регистрации программы для ЭВМ №2010614729 от 20 июля 2010 г.

6. «База данных биометрических признаков головы человека». Свидетельство о государственной регистрации базы данных №2011620066 от 19 января 2011 г.