Подготовка данных и проведение первичного статистического
анализа
Я.А.Куликова2,
В.А.Королев1, И.Ю.Козинец1
1.Крымский медицинский университет
им.С.И.Георгиевского
2.Никитский Ботанический Сад – Национальный
Научный центр
Статистическая обработка данных, полученных как
в эксперименте, так и путем повседневного медицинского учета, необходима для
проверки степени достоверности результатов, правильного их обобщения и
выявления закономерностей протекания медицинских процессов. Особенно важна роль
статистических методов в моделировании медицинских систем и процессов с
последующим использованием этих моделей для принятия верного решения в условиях
неопределенности [8].
Процедура корректного проведения статистической
обработки данных, а также
трактовки полученных результатов вызывает затруднения у большинства
исследователей медико-биологических специальностей.
Цель данной работы – разработать алгоритм представления данных для обработки результатов медико-биологических исследований.
Перед
проведением любого статистического теста необходима предварительная оценка
полученных результатов [1, 4, 6, 7]. Для этого
необходимо:
1. выделить
зависимые и независимые совокупности данных (выборки);
2. классифицировать
полученные данные по статистическим шкалам;
3. создать
электронную таблицу;
4. проверить
выборку на наличие выбросов;
5. определить
вид распределения переменных в группе;
6. принять
решение о возможности использования того или иного статистического теста.
1.
Разделение выборок
на зависимые и независимые.
Две выборки считаются
зависимыми друг от друга, если каждому значению одной выборки можно однозначно поставить в соответствие ровно
одно значение другой выборки. Аналогично определяется зависимость нескольких
выборок. Чаще всего зависимые выборки – это измерения одной и той же
группы больных в разные моменты времени (например, до и после воздействия
лечебного фактора). Таким образом, зависимые выборки всегда должны содержать одинаковое количество
наблюдений [1, 6]. В электронной таблице зависимые переменные располагаются в разных столбцах одной таблицы под разными названиями
(например, артериальное давление(АД) до
и АД после)(таблица1) [1, 3, 7].
Таблица 1. Формирование электронной таблицы для
зависимых выборок в программе Exel
Группа |
Адсист.
до |
Адсист.
после |
Основная |
138.00 |
142.00 |
|
124.00 |
116.00 |
Две выборки считаются независимыми в
том случае, если закономерное и однозначное соответствие между совокупностями
данных (выборками) невозможно. Чаще всего это бывает в случае сравнения
основной группы больных с контрольной. Переменные независимых выборок помещаются в разные строки электронной таблицы так, чтобы
содержащиеся в них данные одного
типа (например, АДдо воздействия в
основной и контрольной группах) находились
в одном столбце, а другого типа (например, АДпосле – в другом столбце).
Основная и контрольная группы различаются с помощью групповой переменной –
произвольно присвоенного значения (таб.2). В приведенном примере групповая
переменная (1 – для основной и 2 – для контрольной группы) делит выборку на
независимые группы [1, 3, 7].
Таблица 2. Формирование электронной таблицы для
независимых выборок в программе Exel
Группа |
Гр.переменная |
Адсист.
до |
Основная |
1.00 |
138.00 |
|
1.00 |
124.00 |
Контрольная |
2.00 |
132.00 |
|
2.00 |
128.00 |
2. Классификация данных по типам статистических шкал
Исследователь
может проводить статистическую обработку непосредственно полученных в ходе
эксперимента числовых данных. В этом случае совокупность данных называется
вариационным рядом и может быть обработана любыми статистическими методами. Для группировки (и
последующей сортировки) данных используются статистические шкалы.
Статистические шкалы
бывают [1]:
- номинальными – чаще всего применяется для кодирования нецифровых данных (например,
группы 1 - основная 2-контрольная; пол 1 – мужской 2-женский). В номинальной
шкале соответствие цифр данным произвольно, отдельным числам не соответствует
никакого эмпирического значения. Возможности статистической обработки очень ограничены,
расчет среднего значения смысла не имеет, возможно проведение частотного
анализа. Кодирование с применением
номинальной шкалы часто используются для обозначения групповой переменной (таб.2).
- порядковыми –
переменные, для которых используются численные значения, соответствующие
определенному порядку возрастания (убывания)
переменной (например, АДсист: 0–норма
(100-120 мм.рт.ст.), 1 – пограничное (120-140 мм.рт.ст.), 2 - повышенное (140-160 мм.рт.ст.), 3 – высокое
(160-180 мм.рт.ст.), 4- крайне высокое (выше 180 мм.рт.ст или возраст: 1 -
25-30 лет, 2 - 31-35 лет и т.д.). Для порядковых шкал, кроме частотного анализа
допустимо вычисление медианы, в отдельных случаях - и среднего значения. Для
сравнения выборок из порядковых переменых применимы непараметрические тесты
(Манна-Уитни – для зависимых и Вилконсона – независимых выборок) [9]. При необходимости вычисления корреляции с
другими порядковыми переменными можно использовать коэффициент ранговой
корреляции Спирмена.
- интервальными –
являются, по-существу, вариантом порядковой шкалы. Но, в отличие от предыдущей,
данные вариационного ряда разбиваются на наименьшие имеющие практическую
значимость в данном исследовании интервалы (пределы интервала определяются
исследователем эмпирически). Например, при изучении гипотензивного эффекта препарата
А исследователь считает, что изменение артериального давления в интервале 1-9
мм.рт.ст. являются не значимыми (входят в один интервал 131-140 мм.рт.ст.),
изменения 10 и выше мм.рт.ст. считаются значимыми и входят в разные интервалы
(131-140 мм.рт.ст., 141-150 мм.рт.ст.). Данные порядковой шкалы могут обрабатываться
любыми статистическими методами без ограничений. В случае, если интервальные переменные
отсчитываются от нулевой точки (например, возраст), шкала называется шкалой отношений.
На
практике различие между переменными, относящимися к интервальной шкале и шкале
отношений обычно несущественно.
3. Создание электронной таблицы
Для
статистической обработки данных, в первую очередь, необходимо создать
электронную таблицу (рабочий лист, разделенный на строки и столбцы) [3]. Отдельные строки таблицы
соответствуют отдельным наблюдениям и содержат данные одного пациента.
Отдельные столбцы соответствуют отдельным переменным (например АДсист., ЧСС).
Отдельные ячейки таблицы содержат значения переменных для каждого отдельного
наблюдения, в каждой ячейке хранится одно значение переменной.
Первичные
данные в электронную таблицу вводятся вручную. Все необходимые преобразования:
расчет коэффициентов (например, соотношение после/до*100), индексов, расчет
формул выполняются следующим образом: в командную строку программы Exel
вводится соответствующая формула, вычисляем результат для данных первой строки,
а затем при помощи мыши «протягиванием» ячейку с формулой за правый нижний угол
до конца ряда.
4. Проверка данных на наличие сомнительных вариант и
ошибок ввода
В результате любого измерения всегда
присуствует погрешность или ошибка (отклонение результата измерения от
истинного значения измеряемой величины) [5]. Поэтому следующей необходимой
операцией является проверка данных на наличие «выпадающих вариант» и грубых
ошибок ввода, которую удобнее проводить в программе Exel. Как известно, основными
мерами
разброса переменных служат стандартное отклонение (s) и стандартная ошибка (m). в
диапазоне утроенного стандартного отклонения (3s)
находится примерно 99 % значений совокупности данных, поэтому варианты,
выходящие за рамки интервала ±3s считаются
«выбросами» и, как правило, удаляются (или анализируются отдельно). При объеме выборки <30 вместо 3*s берется показатель из таблицы «Критические значения нормированного
отклонения при оценке сомнительных вариант с учетом объема выборки n и уровней
значимости a» [2].
Одновременно
при проверке на наличие выбросов в выборке проводится проверка первичных данных
на грубые ошибки ввода (по показателям Минимум-Максимум, Наибольший-Наименьший).
При
большом количестве наблюдений находить выпадающие варианты удобно с
использованием меню ДанныеÞСортировка.
После удаления выпадающих вариант и ошибок
ввода процедура расчета описательной статистики для столбца «исправленной»
переменной повторяется (иногда несколько раз) пока все данные в столбце не
окажутся в пределах допустимых значений (±3s) .
После
того, как удалены выпадающие варианты и исправлены погрешности ввода,
необходимо проверить распределение данных в выборке. От этого зависит выбор аналитических тестов для выявления имеющихся в совокупности данных закономерностей.
Так,
например, при сравнении двух выборок, не проверив тип распределения данных в
группе, исследователь использует t-тест Стьюдента.
Полученные данные будут истинно отражать различие между группами только в
случае «нормального» распределения данных в выборке. При другом типе
распределения полученные данные могут быть ложноположительными либо
ложноотрицательными.
Нормальное распределение.
При таком
распределении большая часть значений группируется около некоторого среднего, по обе стороны от
среднего частота наблюдений равномерно снижается (колокол Гаусса) [1, 6]
(рисунок).
Рис.
Колокол Гаусса
Выборки, строго
подчиняющиеся «нормальному» распределению, на практике встречаются далеко не
всегда, поэтому необходимо проверять тип распределения анализируемых данных
[6].
При
нормальном распределении данных в выборке можно использовать любые
аналитические тесты, в том числе t-тест Стьюдента. В случае, если распределение данных в группе отличается от
«нормального», t-тест Стьюдента не используется, расчет производится с применением
непараметрических тестов для проверки гипотезы о среднем (для 2х зависимых
групп – тест Вилкоксона, для двух независимых - Манна-Уитни) [1, 6, 9].
Для проверки правильности
распределения обычно рекомендуют использовать графическое
изображение разброса данных в форме гистограммы. На
практике – построение гистограммы для каждой переменной занимает большое количество
времени, а визуальное сравнение реальной гистограммы с кривой «нормального»
распределения часто оказывается недостаточным [1, 6, 9].
При большом количестве переменных значительно
удобней пользоваться входящими в пакет
«Описательная статистика» программы Exel показателями
Эксцесс и Асимметрия, сравнивая их с таблицами «Критические значения
коэффициента асимметрии» и «Критические значения коэффициента эксцесса».
Выборка считается параметрической в том случае, если величины показателей
эксцесса и асимметрии (со знаком + или –) не выходят за пределы критических значений [2]. В SPSS
эти показатели находятся в пакете AnalyzeÞ Descriptive StatisticsÞ Descriptives, в опциях (Options)
выставляются флажки в группе Distribution (Распределение) – эксцесс и ассиметрия (Kurtosis, Skewness).
Неудобство данного способа состоит в необходимости сравнения полученных данных
с табличными нормативами.
В программе SPSS, кроме того,
существует возможность проверки распределения
критерием Колмогорова-Смирнова. Для его применения в программе SPSS необходимо выбрать в меню Analyze (Анализ)Þ Nonparametric
Tests (Непараметрические тесты)Þ 1-Sample KS (К-С одной выборки). В диалоговом окно One Sample Kolmogorov-Smirnov Test (Тест
Колмогорова-Смирнова для
одной выборки) одна или
несколько переменных переносятся в поле тестируемых переменных (Test Variable List), в разделе Test Distibution выставляется флажок в
графе NormalÞ OK.
Таким
образом, оптимальным путем подготовки данных и корректного проведения
первичного статистического анализа мы считаем:
1. Введение первичных данных и расчет
интегральных показателей и коэффициентов по общепринятым формулам – программа
Exel;
2. Проверка данных на наличие ошибок ввода,
оценка и (при необходимости) удаление сомнительных вариант – программа Exel;
3. Проверка соответствия распределения в выборке
нормальному, принятие решения о применении параметрических (т. Стьюдента) либо
непараметрических (Вилконсона, Манна-Уитни, z-тест знаков) тестов
для проверки гипотезы о среднем – программы SPSS, Statistika6 и др.
Список
литературы
1.
Бююль А.,
Цефель П. SPSS: искусство обработки информации. Анализ статистических данных и
восстановление скрытых закономерностей: Пер. с нем./Ахим Бююль, Петер Цефель –
СПб.: ООО «ДиаСофтЮП», 2002.- 608 с.
2.
Лакин Г.Ф.
Биометрия: Учеб. Пособие для биол. Спец. Вузов – 4-е изд. – М.: Высш. шк.,
1990. – 352 с.
3.
Лапач С.Н.,
Чубенко А.В., Бабич П.Н. Статистические методы в медико-биологических
исследованиях с использованием Exel. – К.: МОРИОН, 2000. – 320 с.
4. Медик В.А., Токмачев М.С., Фишман Б.Б. Статистика в медицине и биологии: Руководство. В 2-хтомах/ Под ред. Ю.М. Комарова. – М.: Медицина, 2000. – 412 с.
5. Основы статистики и методы ведения внутрилабораторного контроля качества: Руководство для врача клинической лабораторной диагностики. Часть.1.-М.2002.-26с.
6. Пилипенко М.I. та iн. Лекцiï з математичноï статистики для лiкарiв/ М.I.Пилипенко, Е.Б.Радзiшевська, В.Г.Кничавко, Харк.держ.мед.ун-т;Iн-т мед. радiологiï iм. С.П.Григор′ева АМНУ. - Харкiв, 2001.-88с.
7. Сигел Э. Практическая бизнес-статистика.: Пер. с англ. – М.: Издательский дом «Вильямс», 2002. – 1056 с.
8. В.И.Юнкеров, Григорьев С.Г. Математико-статистическая обработка данных медицинских исследований.-СПб.: ВмедА, 2002.-266с.
9. Whitley Е., Jonathan B. Statistics review 6: Nonparametric methods//Crit Care.- 2002.-V.6.-N.6.-P.509-513