logo
матем статистика

Тема 3. Лекция

Прежде чем приступать к математической обработке результатов психологического исследования, экспериментальный материал необходимо соответствующим образом подготовить. При этом психологу следует соблюдать два непременных условия. Во-первых, данные должны быть представлены в наиболее компактной, удобной для обработки форме. Во-вторых, при упорядочении данных должен быть сохранен максимум содержащейся в них информации.

Подготовка данных к математической обработке включает в себя ряд последовательных этапов: протоколирование, табулирование данных, создание таблиц сгруппированных частот, построение диаграмм или полигона распределения частот и т. д. Рассмотрим все этапы более подробно.

Протоколирование данных

Если психолог имеет под рукой персональный компьютер, задача протоколирования значительно упрощается. Любой программист может составить соответствующую базу данных, и все необходимые сведения о каждом испытуемом можно заносить в компьютер. Несомненное удобство компьютерного варианта состоит в том, что в любой момент можно извлекать информацию об интересующем нас контингенте испытуемых – по полу, возрасту, социальной принадлежности и др. При отсутствии такой возможности на каждого испытуемого составляется отдельный протокол.

В протоколе необходимо отмечать фамилию и инициалы испытуемого, пол и возраст (за исключением случаев анонимного обследования, когда указываются только инициалы, пол и возраст). Несоблюдение этих требований делает невозможным дальнейший анализ результатов (в тех случаях, когда нас интересует связь исследуемой переменной с возрастом и полом испытуемых).

Весьма желательно указывать в протоколе дату исследования. Это особенно важно в тех случаях, когда исследование одной и той же выборки проводится повторно (период времени между повторными исследованиями, например, две недели или полгода) имеет большое значение, особенно когда речь идет о детях.

В некоторых случаях необходимо указывать время суток, когда проводилось исследование. Так, некоторые психологические и психофизиологические переменные (время сенсомоторной реакции, концентрация и переключаемость внимания, объем оперативной памяти и др.) в значительной мере зависят от уровня активности субъекта, степени его утомления, которые далеко не одинаковы в разное время суток.

При необходимости в протоколе следует отмечать условия опыта (проводилось ли исследование индивидуально или в группе, наличие внешних помех и т. д.). Все другие данные о каждом или отдельных испытуемых исследователь отмечает по своему усмотрению, т. е. фиксируется то, что психолог считает наиболее важным.

Составление сводных таблиц (табулирование данных)

Использование индивидуальных протоколов для математической обработки результатов не очень удобно. Для того, чтобы представить материал в более компактном виде, данные сводятся в итоговую таблицу следующего вида:

№№

п/п.

Фамилия, имя, отчество

Другие данные

(если необходимо)

Исследуемый

показатель

1

2

3

n

В ряде случаев перед составлением сводной таблицы проводится ранжирование данных. Оно, в частности, необходимо при определении квантилей (см. подраздел 3.3). Для этого данные выстраиваются в общий ряд по исследуемому признаку в порядке его возрастания (или убывания) следующим образом: х1 ≤ х2 ≤ х3 ≤ ... ≤ хn (или наоборот), где n – общее число значений признака (объем выборки). Знак «меньше или равно» предполагает, что у разных испытуемых могут встречаться одинаковые значения переменной.

Иногда даже итоговые таблицы могут оказаться довольно громоздкими и не вполне удобными для дальнейшей обработки. В этом случае материал можно сделать еще более компактным, составляя частотные таблицы (таблицы распределения частот исследуемого признака):

№№ пп.

1

2

3

4

...

n – 1

n

xi

fi

В первой строке дается номер значения переменной в ранжированном ряду, во второй – конкретное значение (величина признака) и в третьей – частота встречаемости признака (число одинаковых значений признака в выборке).

Для того чтобы полученные данные представить в еще более компактном виде, используются таблицы распределения сгруппированных частот. Для составления такой таблицы необходимо:

1) общий диапазон изменения признака разделить на ряд поддиапазонов (классов) при условии, что ширина всех классов должна быть одинакова;

2) определить границы классов и их число в общем диапазоне;

3) подсчитать частоты встречаемости признака в каждом классе.

Обычно для построения распределения сгруппированных частот используется 7 – 15 классов. Для наиболее точного разбиения диапазона на классы (если в дальнейшем предполагаются математические операции с этими классами) можно использовать формулу Стэрджесса: N = 1 + 3,322 lg n, где n – объем выборки (количество значений признака), а N – количество классов. Так, например, если n = 100, то N = 1 + 3,322 × 2 » 8.

Пример

На выборке испытуемых численностью 100 человек определялся коэффициент интеллекта (IQ). Минимальное значение IQ оказалось равным 72, а максимальное – 134. Для составления таблицы сгруппированных частот используем 8 классов (в соответствии с формулой Стэрджесса). Определяем общий диапазон изменения признака – он будет соответствовать разнице между минимальным и максимальным значениями: 134 – 72 = 62. Следовательно, в каждый класс должно попадать по 8 значений признака (при разбиении на классы можно слегка расширить диапазон с тем расчетом, чтобы в каждом классе оказалось одинаковое число значений и чтобы крайние значения не оказались за пределами диапазона). В соответствии с этим определяем границы классов и составляем таблицу сгруппированных частот:

Накопленные частоты, приведенные в 5-й строке, могут быть использованы в некоторых статистических расчетах (например, для вычисления критерия l по Колмогорову). Накопленные частоты вычисляются путем простого суммирования частот от 1-го до N-го класса: F1 = f1; F2 = f1 + f2; F3 = f1 + f2 + f3 и т. д.

Определение квантилей

Квантиль – точка на числовой оси (значение признака), делящая совокупность наблюдений в определенной пропорции. Определение квантилей достаточно часто используется в психодиагностических процедурах (при определении тестовых норм и т. д.). Для определения квантилей необходимо иметь ряд значений исследуемого признака, ранжированных в порядке возрастания величины.

Различают несколько разновидностей квантилей:

а) квартили (Q) делят совокупность наблюдений (ранжированный ряд) на 4 равные части: 1-й квартиль (Q1) делит ряд в соотношении 25:75%, 2-й (Q2) – в соотношении 50:50% и 3-й (Q3) – в соотношении 75:25%.

б) квинтили (K) делят выборку на 5 равных частей: K1 – в соотношении 20:80%, K2 – 40: 60%, K3 – 60:40%, K4 – 80:20%.

в) децили (D) делят ранжированный ряд на 10 равных частей: D1 = 10%, D2 = 20%, ... D9 = 90%.

г) наконец, процентили (Р) делят совокупность наблюдений на 100 частей (в процентном отношении).

Соотношения квантилей можно представить в виде следующей схемы:

Пример

На 20 испытуемых определялся уровень личностной тревожности (УЛТ) по тесту Спилбергера. При ранжировании значений признака получен следующий вариационный ряд (см. таблицу). Задача состоит в том, чтобы определить значения 1-го, 2-го и 3-го квартилей.

№№

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

УЛТ

31

32

32

34

36

36

36

37

39

41

42

42

43

44

45

45

45

46

47

48

Q1 = 36 Q2 = 41,5 Q3 = 45

Для определения значений квартилей разбиваем ранжированный ряд на 4 равные части (по 5 значений признака). 1-й квартиль располагается между 5-м и 6-м значениями ряда, оба из которых соответствуют 36. Следовательно, Q1 = 36. 2-й квартиль расположен между 10-м значением, равным 41, и 11-м, равным 42. Представляется разумным определить значение 2-го квартиля как среднее между двумя смежными значениями (Q2 = 41,5). Значение 3-го квартиля лежит между 15-м и 16-м значениями ряда (Q3 = 45).

Точно так же мы можем определить значения квинтилей (разбиение ранжированного ряда на 5 частей по 4 значения признака) или децилей (разбиение ряда на 10 равных частей по 2 значения переменной в каждой).

Графическое представление результатов

Графическое представление результатов психологического исследования имеет ряд несомненных преимуществ перед табличным (цифровым) материалом в тех случаях, когда речь идет о докладах, научных отчетах и сообщениях, диссертационных работах и т. д. Графическое представление наиболее наглядно, оно позволяет визуально представить полученные закономерности, связи и пр. В данном разделе мы коснемся лишь графического представления распределений исследуемого признака.

В основе графического представления лежат составленные заранее таблицы сгруппированных частот. Первый вид представления – построение столбчатых диаграмм (иначе, гистограмм) распределения признака (рис. 3.1, а). Гистограммы строятся в координатах f = j (xi), где по оси абсцисс откладываются значения признака (xi), а по оси ординат – частота встречаемости признака (f). Ширина каждого столбца гистограммы соответствует ширине класса, а высота столбца – частоте встречаемости признака в данном классе.

Вместо диаграмм можно использовать построение полигона распределения (рис. 3.1, б). В этом случае распределение отображается в виде точек, соединенных друг с другом прямыми линиями. Координаты каждой точки соответствуют среднему значению класса (по оси абсцисс) и частоте встречаемости признака в данном классе (по оси ординат).