Амангельдина М.А.

Восточно-Казахстанский государственный технический университет, Казахстан

ОБЗОР СТАТИСТИЧЕСКИХ ПРОГРАММ

Продуктивность выполняемой работы тесно связана с используемыми инструментами. Так, по легенде, Архимед заявил, что сможет перевернуть Землю, если получит необходимую точку опоры и рычаг. Но необходимого инструментария у великого философа не оказалось, и наша планета до сих пор летит по своей орбите. Похожая ситуация складывается и в области статистического анализа результатов исследований. Проводить статобработку данных вполне возможно, имея только лишь карандаш и бумагу, но намного быстрее и эффективней делать это при помощи специальных инструментов, а именно статистического программного обеспечения. Строго говоря, программные пакеты, применяемые для статистического анализа, следует относить к математическим программам, поэтому в данной статье термины «математический» и «статистический» будут использоваться как синонимы. Как правило, первые шаги в статистике молодые ученые делают в табличных процессорах, причем подавляющее большинство использует MS Excel. Второй по популярности табличный процессор на сегодняшний день - Calc из офисного пакета OpenOffice.org. К сожалению, некоторые исследователи воспринимают эти программы как наиболее удобный и подходящий инструмент для анализа. Однако они заблуждаются. Использование подобного софта допустимо в тех случаях, если необходимо выполнить простейшие операции вроде сортировки данных, вычисления описательных статистик, построения некоторых видов графиков, а также просто для того, чтобы сохранить первичные данные своего эксперимента и вести лабораторный журнал. Другими словами, полноценная статобработка результатов исследования в Excel невозможна. Это офисное приложение, а не научное.Все научные математические приложения можно разделить на две большие группы: программы с графическим интерфейсом и без него. Не следует думать, что графический интерфейс каким-то образом характеризует качество программного продукта. Эти свойства никоим образом не зависят друг от друга. Тем не менее, подобное разделение имеет огромное практическое значение. Дело в том, что далеко не каждый может комфортно работать в командной строке. Сегодня многие пользователи компьютера не допускают и мысли об отказе от «кликодромов», на которых держится внушительная часть современной IT-индустрии. Однако математические вычисления все-таки удобней выполнять путем набора команд с клавиатуры, а не щелканьем по многочисленным кнопкам на экране. Поэтому в серьезных приложениях есть режим командной строки со встроенным языком программирования и графический интерфейс. Для начала познакомимся со средой статистических вычислений и языком программирования R. Его истоки лежат в языке программирования S, с которым у них очень много общего. Стандартная комплектация R не предполагает графического интерфейса, привычного для многих пользователей. В результате у ряда исследователей возникает ошибочное мнение, что данный инструмент позволяет выполнять только численные вычисления, но не имеет возможностей для построения графиков. Это не так. В системе R имеются широкие возможности для статистической обработки данных, в том числе и для работы с графикой, а оконный интерфейс можно установить как дополнительное приложение. Но следует иметь в виду, что графические пользовательские интерфейсы для R заметно уступают таковым в остальных статистических пакетах. Установить среду R можно на компьютере под управлением Windows, MacOS или Linux. При запуске системы R у неискушенного пользователя возникнет вопрос: «Куда мне вводить данные?». Из-за отсутствия встроенного табличного редактора анализируемая информация либо вводится непосредственно в командную строку в виде аргумента соответствующих функций, либо загружается из внешних файлов. Первый вариант удобен при работе с единичными значениями, а второй - в тех случаях, когда необходимо работать с таблицами. Сами таблицы можно создавать в любом табличном процессоре, а файлы сохранять в формате *.csv, который легко загружается в R. Загрузив информацию в переменные, можно начинать ее обрабатывать, используя огромное количество функций, реализованных в R. Но следует помнить, что все промежуточные данные при работе с этим языком, хранятся не во временных файлах, а непосредственно в оперативной памяти. Эту особенность необходимо иметь в виду при обработке очень больших объемов информации: R будет использовать значительную часть оперативной памяти компьютера. Синтаксис языка достаточно прост и легок в изучении. На сегодняшний день написано более сотни книг по самым разным направлениям использования среды статистических вычислений R, но все они на английском языке. К сожалению, русскоязычной информации еще очень мало и она представлена лишь в виде разрозненных статей по некоторым вопросам использования данного языка программирования. Именно недостаток информации сдерживает распространение высококачественного программного пакета в нашей стране (при том, что он является бесплатным). Надежность R объясняется его происхождением. Язык был создан, как свободная реализация очень мощного языка программирования S, история которого началась еще в 1976 году, когда появилась первая рабочая версия. На сегодняшний день язык S является основой приложения S-PLUS, разрабатываемого TIBCO Software Inc., и, в отличие для начала познакомимся со средой статистических вычислений и языком от R, представляет собой коммерческий продукт. S-PLUS имеет приятный графический интерфейс, ввод данных в котором может быть осуществлен путем загрузки из внешнего файла, базы данных или же копированием таблицы из текстового файла, либо табличного процессора. S-PLUS, так же как и R, может работать в разных операционных системах и использоваться для выполнения численных и графических методов анализа. Еще одно популярное статистическое приложение - это система SAS, которая зародилась в 60-х годах XX века в Университете Северной Каролины как приложение для анализа результатов сельскохозяйственных исследований. На сегодняшний день система продолжает развиваться в компании SAS Institute, которая выпустила уже девятую версию этой программы. Область применения SAS - самые разнообразные научные исследования, бизнес аналитика и т. д. Система состоит из модулей, каждый из которых выполняет определенный круг задач. Наиболее часто при статобработке используются модули BASE и STAT. В системе SAS реализован собственный язык программирования, который по своему синтаксису ближе к бэйсику и не похож на R или S. Система позволяет загружать данные из внешних файлов или же вводить их непосредственно в окно терминала. Работая с использованием SAS можно проводить статистическую обработку данных разного уровня сложности, в соответствии с поставленными задачами. Взаимодействие с программой возможно как в консольном режиме, так и через графический интерфейс, который представляет собой графическую оболочку для упрощенного ввода команд языка программирования SAS. К программам использующим преимущественно интерфейс командной строки относится также Stata, разрабатываемая американской корпорацией StataCorp. Приложение может работать на операционных системах семейства Windows, в MasOS и Linux. Ввод данных здесь возможен как путем загрузки из внешних файлов, так и с использованием встроенного табличного редактора, который довольно прост, но позволяет выполнять все необходимые манипуляции с таблицами. Принципы работы с приложением Stata не отличаются от таковых при использовании описанных выше программ. Те пользователи, которым терминальный режим покажется неудобным, могут использовать меню программы для автоматической генерации команд встроенного языка программирования.
Все описанные статистические пакеты могут применяться при любых видах статистического анализа. Так, функциональность языка R может быть изменена добавлением библиотек функций, ориентированных на строго определенный тип задач. Кроме того, каждый, кто имеет достаточно знаний и опыта работы с этим языком может создавать собственные функции и библиотеки, соответствующие специфике работы конкретного пользователя. Но помимо статистического софта «широкого профиля» существуют программы ориентированные на ученых, работающих в области биомедицинских исследований. Так, программа MedCalc, разрабатываемая с 1993 года бельгийской компанией MedCalc Software, позиционируется как полноценное статистическое приложение, созданное в соответствии с потребностями исследователей биомедицинского направления. Разработчики акцентируют внимание исследователей на удобстве использования MedCalc для анализа ROC-кривых. Программа удобна тем, что не предлагает избыточной функциональности, которая зачастую приводит в замешательство неподготовленного человека, начинающего работать с универсальными приложениями. В дополнение к этому, возможность работы только в графическом интерфейсе без использования командной строки делает программу менее гибкой, но зато более привлекательной для использования в данной области науки, поскольку специалисты с медицинским образованием очень редко могут похвастаться большим опытом работы с математическими программами. На сегодняшний день создана уже одиннадцатая версия программы. К сожалению, работать в MedCalc могут только пользователи Windows, но этот недостаток компенсируется относительно малыми системными требованиями и возможность запустить приложение как в Windows 2000, так и в Windows 7.