340 likes | 603 Views
Третья полевая школа по почвенной зоологии и экологии для молодых ученых «Почвенно-зоологические исследования: от планирования к публикации». Анализ экологических данных с использованием языка программирования R. Андрей Цыганов Пензенский государственный университет.
E N D
Третья полевая школа по почвенной зоологии и экологии для молодых ученых «Почвенно-зоологические исследования: от планирования к публикации» Анализ экологических данных с использованием языка программирования R Андрей Цыганов Пензенский государственный университет
ПО для анализа данных – неотъемлемая часть экологических исследований • Экологические данные • Многомерные (основные объекты экологии, т.е. сообщества, экосистемы, трудно охарактеризовать одним показателем) • Массивные (широкий пространственно-временной охват, автоматизированные методы сбора данных) • Сложные алгоритмы анализа (большой объем вычислений) • Нетривиальные способыграфического представления данных
Выбор ПО при планировании исследования Выбор ПО Как собирать данные? Как анализировать данные? Как представлять данные?
Прочие характеристики ПО • Гибкость, т.е. возможность настройки под ваши конкретные потребности • Возможности обновления ПО • Универсальность • Лицензионные условия • Совместимость ПО (в случае если планируется использование нескольких программ)
ПО для анализа данных • (см. Comparison of statistical software in Wikipedia) • Microsoft Excel (плохо приспособлен для работы с научными данными) • STATISTICA, SPSS, Origin, MatLab(лицензионное, отсутствуют специфические экологические анализы) • Primer, CANOCO(лицензионное, редкое обновление) • Past и др. (редкое обновление, узкая специализация)
Что такое R? – это комплексное программное обеспечение для обработки, анализа и графического представления данных Включает в себя: язык программирования программную среду
Почему R? Преимущества • Доступность • Распространяется бесплатно • Центральная система хранения и распространения www.cran.r-project.org
Почему R? Преимущества • Доступность • Универсальность • Стабильная база и множество дополнений (пакетов или библиотек) • “vegan” анализ структуры сообществ • “FD” функциональные признаки • “spdep” пространственное распределение • “map” работа с картами • и ~ 1500 вариантов
Почему R? Преимущества • Доступность • Универсальность • Актуальность • Новые методы анализа доступны практически сразу после их публикации
Почему R? Преимущества • Доступность • Универсальность • Актуальность • Графические возможности • Практически неограниченный набор вариантов графического представления данных
Почему R? Преимущества • Доступность • Универсальность • Актуальность • Графические возможности • Практически неограниченный набор вариантов графического представления данных • .ps, .pdf, .tif, .png, .jpeg и др.
Почему R? Преимущества • Доступность • Универсальность • Актуальность • Графические возможности • Гибкость • возможность написания собственных функций • только необходимая информация
Почему R? Преимущества • Доступность • Универсальность • Актуальность • Графические возможности • Гибкость • Воспроизводимость анализов
Почему R? «Недостатки» • Интерфейс командной строки (графический интерфейс R commander, RKWard, RExcelи до.) • Недостаточнолитературы на русском языке
Принципы R • Объекты • вектор (x1, x2, x3, ..xn), х = число или текст • матрица(многомерные, чаще двумерные векторы) x11, x12, x 1 3, .. x1 n x21, x22, x 23, ..x 2 n . . . . . xm1, xm2, xm3, .. xmn • фактор (категориальные данные) • список (несколько объектов разного типа) • таблица данных (список векторов и/или факторов) • и др. • Команды • Команда (аргумент1, аргумент2, …, аргументn)
Литература • На русском языке • Шипунов А.Б., Балдин Е.М., Волкова П.А. и др. Наглядная статистика. Используем R! Москва: ДМК пресс, 2012– 298 с. • Статистический анализ данных в системе R. Учебное пособие / А.Г. Буховец, П.В. Москалев, В.П. Богатова, Т.Я. Бирючинская; Под ред. проф. Буховца А.Г. –– Воронеж: ВГАУ, 2010. –– 124 с. • Геостатистическийанализ данных в экологии и природопользовании (с применением пакета R): Учебное пособие / А.А. Савельев, С.С. Мухарамова, А.Г. Пилюгин, Н.А. Чижикова. – Казань: Казанский университет, 2012. – 120 с. • На английском языке • Серия “Use R!” издательства Springer • Для начинающих • Dalgaard P. (2008) Introductory statistics with R. Second edition. Springer. 363 p. • Для экологов • Borcard D., Gillet F., Legendre P. (2012) Numerical Ecology with R. Springer. 319 p.
В качестве заключения • Выбор ПО важный этап в планировании и проведении исследований • При выборе ПО желательно руководствоваться не только потребностями самого исследования, но и обращать внимание на прочие характеристики ПО • Язык программирования R – оптимальный вариант • Интерфейс программной строки не так страшен