Моложенко Е.С., научный рук.: к.ф-м.н., профессор
Куликов В.П.
Северо-Казахстанский
Государственный Университет имени Манаша Козыбаева, г. Петропавловск, Республика Казахстан
Почему R не из нашего лексикона?
Увеличение объема потоков
информации, глобализация коммуникаций и быстрые перемены сформировали основные
черты современности - мобильность и динамичность. Можно с уверенностью сказать,
что из года в год объем хранимой и обрабатываемой
информации будет неуклонно расти. Все это приводит к необходимости создания все
более мощных и производительных средств анализа данных. Как
утверждает проректор высшей школы Annenberg School for Communication &
Journalism при Университете Южной Калифорнии Мартин Хилберт - «Мы живем в мире,
где состояние экономики, политические свободы и культурный рост все сильнее
зависят от наших технологических возможностей».
Статистическая обработка данных - один из важных этапов получения новых
знаний в науке и бизнесе. Статистическое программное обеспечение занимает в
этом процессе ключевую роль. На рынке подобных программных средств существует
определенная конкуренция. Больше всего известны и широко распространены такие универсальные
математические среды, как Matlab, Statistica и SPSS. Все они предоставляют широкие возможности для реализации
различных потребностей учебных заведений и крупных компаний в области анализа
данных и научно-исследовательской деятельности. Основным минусом данных
математических сред является их высокая стоимость. На
одном уровне с ними находится, пока еще редко используемая в Казахстане и
странах СНГ, среда статистических вычислений, а так же язык программирования
для статистической обработки данных и работы с графикой - система с коротким
названием R.
R применяется во всех областях знаний, где необходима работа с данными.
Это не только статистика в узком смысле слова, но и первичный анализ (графики,
таблицы сопряжённости), и продвинутое математическое моделирование. R без
особых проблем может использоваться и там, где сейчас принято использовать
коммерческие программы анализа уровня Matlab и Statistica. С другой
стороны вполне естественно, что основная вычислительная мощь R лучше всего
проявляется при статистическом анализе: от вычисления средних величин до
вейвлет-преобразований временных рядов.
География использования R очень разнообразна. Трудно найти американский
или западноевропейский университет, где бы ни работали с R. В учебных заведениях
R используется для обучения статистике, проведения первичного анализа данных,
подтверждения или опровержения научных гипотез и много другого. Его используют
ученые в самых разных областях науки. R используется для анализа данных, как в
научной среде, так и в бизнесе. Надежность этого инструмента подтверждает и то,
что специалисты Google,
Facebook, Boeing, Bank of America и других крупных компаний
успешно применяют его в своей работе. Среда R легко привлекает к себе новых
пользователей среди статистиков, инженеров,
ученых и крупных компаний тем, что R можно быстро освоить даже не имея навыков
программирования.
«Значение R трудно переоценить» - говорит Daryl Pregibon, исследователь, работающий в компании Google, который постоянно применяет R в своей работе, - «Он позволяет статистикам проводить очень сложные виды анализа без глубокого знания вычислительных систем». [1]
В 2010 году R вошёл в список победителей конкурса «InfoWorld Bossie Awards 2010: The best open source application development software» лучшего открытого программного обеспечения года.
Следует также отметить, что
производители коммерческих программных продуктов не обошли вниманием R. Так
StatSoft интегрировала свой продукт Statistica с R, не отстает и SPSS, их программа так
же поддерживает работу с R, интерфейс для взаимодействия с языком R предлагает
и SAS. Подобные примеры внедрения в разные программы свидетельствует о том, что
язык статистических вычислений R может по праву считаться универсальным
инструментом статистиков. [2]
Но если система R может удовлетворить потребности, возникающие в процессе обработки данных, то почему она малоизвестна в нашей стране, а среди тех, кто о ней слышал не каждый применяет ее на практике? Причины две: доступность нелицензионного проприетарного программного обеспечения и явный недостаток русскоязычной информации о среде R. Есть еще один довод против - это интерфейс, а точнее отсутствие привычного пользователям графического интерфейса. Есть сторонние разработки, но они не идут ни в какое сравнение с другими программами. Более того, стандартная комплектация R предполагает работу в командной строке. Хотя, поработав в таком режиме, становится понятно, что это оптимальный вариант для математической программы.
Можно сказать, что среда R - это один из мощных инструментов для статистического анализа. Гарантией его надежности является качественный состав основной группы разработчиков, а так же поддержка крупнейших компаний лидеров различных направлений бизнеса. Тот факт, что R распространяется бесплатно, позволяет применять его каждому: от сотрудника крупной компании, не жалеющей денег на исследования, до студента, изучающего статистику.
Литература:
2.
Robert A. Muenchen, R for SAS and SPSS Users (Statistics and
Computing) – Springer, 2008. – 753с.;