← |
Д.А. Шабанов, М.А.Кравченко. Статистический анализ данных в зоологии и экологии |
→ |
||
Тема 3. Визуализация данных (на примере результатов описания зеленых лягушек) |
||||
Биостатистика-02 |
Биостатистика-04 |
Тема 3. Визуализация данных (на примере результатов описания зеленых лягушек)
3.1. Гистограммы в Statictica: пример построения графиков
Начинать изучение разнообразия представленных в таблице данных проще, используя самые простой тип графиков: гистограммы. Они вызываются из меню Grafs (Графика), и находятся там как в самом верху выпадающего списка, так и вызываются из более «глубоких» меню.
Рис. 3.1.1. Вызвать режим построения гистограмм можно и напрямую из меню «Графика», и из подменю двухмерных графиков, предоставляющего более широкий выбор опций
Гистограммы показывают частоты объектов, относящихся к разным классам, в виде столбцов. Например, существенным признаком, по которому можно группировать описанных в файле лягушек, является их генотип. Построим распределение лягушек по генотипам.
Пройдя по пути Grafs / Histograms... (Графика / Гистограммы…) или, что то же самое, Grafs / 2D Grafs / Histograms..., мы попадаем в «быстрый» диалог построения гистограмм.
Щелкнув по кнопке Variables (Переменные), выберем там переменную Genotyp. В этой вкладке можно выбрать и несколько переменных (и, в простейшем случае, построить одновременно несколько графиков). Чтобы выбрать переменные, находящиеся не рядом друг с другом, следует во время выбора удерживать нажатой клавишу Ctrl. Флажок возле окошка Fit type: Normal (Тип подгонки: Нормальное) вызовет накладку на график кривой нормального распределения. В данном случае это совсем не нужно, так что этот флажок стоит снять. Также правильно снять флажок в окошке Auto, обеспечивающий автоматическое разбиение диапазона значений переменной Genotyp (хотя в данном случае это не повлияет на результат: все равно эта переменная принимает только значения 1, 2, 3, 4 и 5).
Рис. 3.1.3. Быстрый диалог построения гистограмм: необходимые коррективы внесены
Вкладка Advanced (Дополнительно) предоставляет более широкие возможности для управления свойствами гистограммы.
Рис. 3.1.4. Вкладка «Дополнительно» в диалоге построения гистограмм
Поменяем в ней режим отображения оси Y: укажем там опцию «% & N», чтобы видеть там распределение лягушек по генотипам не только по штукам, но и в процентах от общего количества. Нажав кнопку «ОК», получим результат.
Рис. 3.1.5. Распределение лягушек из файла Pelophylax_example.sta по генотипам
Второй важнейшей характеристикой исследуемого материала является пол. Можем ли мы построить соответствующий график только для самок? Для этого надо нажать кнопку Select Cases (Выбор наблюдений). На рис. 3.2.4 она видна в середине правого ряда кнопок.
Рис. 3.1.6. Диалог Select Cases (Выбор наблюдений)
Сразу после вызова этого окна подавляющая часть его выборов закрыта для редактирования; чтобы их включить, надо поставить галочку в окошке Enable Selection Condition (Задать условия выбора). Если при выполнении какого анализа пользователь не обратит внимание на то, что кнопка «Select Cases» утоплена, он не осознает, что он работает не со всей совокупностью своих данных, а лишь с некоторой их частью.
На следующем рисунке показано окно выбора метода статистической обработки данных в режиме Basic Statistic and Tables; можно предположить, что после построения графиков пользователь перешел к собственно статистической обработке. Если он не обратит внимания на то, что кнопка «Select Cases» нажата, может получиться так, что часть имеющихся в файле результатов окажется для него недоступной.
Рис. 3.1.7. Внимание! Кнопка «Select Cases» нажата! Если это условия выбора, которые остались невыключенными после предыдущих действий с программой Statistica, часть данных может оказаться недоступной для обработки!
Условия выбора наблюдения можно задать несколькими разными способами. Можно ввести условия включения наблюдений в анализ (те строки, в отношении которых это условие будет выполняться, будут анализироваться, а все прочие — нет). Можно, наоборот, ввести условия исключения наблюдений из анализа. Наконец, как включаемые, так и исключаемые наблюдения могут быть заданы простым перечислением. При формулировании условий можно использовать имена переменных, а можно — их порядковые номера, допустимо применение функций and и or (и, или), а также скобок. Например, условию «Basin=2 and v5=1 and (v7=3 or v7=4)» в файле Pelophylax_example.sta соответствует одна-единственная особь.
Итак, указав условие Sex=1, мы построим гистограмму только для самок. Кроме того, добавим галочку в окошке Breaks between columns (Интервал между столбцами) на вкладке Advanced (Дополнительно), чтобы широкие и низкие столбцы не сливались друг с другом.
Рис. 3.1.8. На этой гистограмме показаны только самки лягушек
Чтобы увидеть распределение самцов, можно построить еще одну гистограмму, но можно и объединить данные о самках и самцах на одном графике. Для этого необходимо использовать категоризованные гистограммы — Categorized Histograms из меню Categorized Grafs.
Рис. 3.1.9. Categorized Grafs (Категоризованные графики) являются отдельной группой в меню Grafs (Графика)
При выборе переменных в категоризованных гистограммах нужно выбрать не только переменную, разнообразие по которой будет показано столбцами, но и категоризующую переменную.
Рис. 3.1.10. Задавание параметров для категоризованных гистограмм. Обратите внимание на переключатель Layout: Separate или Overlaid (Размещение: Отдельно или Вместе)
При выборе размещения Overlaid (Вместе) отличия по категоризующей переменной показываются на категоризованных графиках оформлением соответствующих символов. Можно выбирать две переменные для категоризации, однако в большинстве случаев такие графики оказываются перегружены деталями и интерпретируются с трудом.