logo
матем статистика

Тема 4. Лекция

Меры центральной тенденции

Центральная тенденция – то количественное (численное) значение признака, к которому тяготеет переменная величина. Поскольку понятие «тяготеет» несколько произвольно и с математической точки зрения не вполне корректно, имеет смысл рассмотреть различные меры центральной тенденции более подробно.

В психологических исследованиях в качестве мер центральной тенденции чаще всего используются мода, медиана и среднее арифметическое значение. Значительно реже используются такие меры как среднее геометрическое, среднее гармоническое, обратное среднее гармоническое значение и др.

Мода (Mo) – наиболее часто встречающееся значение признака. В предыдущем примере (ранжированный ряд уровня личностной тревожности) мы имеем две моды: Mo1 = 36 и Mo2 = 45 (эти значения переменной встречаются трижды, в то время как все остальные – по 1 или 2 раза). В зависимости от того, сколько значений признака удовлетворяют определению моды, различают мономодальные (имеющие одну моду), бимодальные (имеющие две моды) и полимодальные распределения (имеют более чем две моды), а также распределения, не имеющие моды (все значения признака встречаются примерно с одинаковой частотой). В бимодальном и полимодальном распределениях, в свою очередь, можно определить наибольшую и наименьшую моды.

В тех случаях, когда анализируются таблицы сгруппированных частот исследуемого признака, как правило, определяется модальный класс, т. е. тот класс распределения, в который попадает наибольшее количество частот (значений признака). Так, для иллюстрации зачерненный столбец на рис. 3.1, а соответствует модальному классу.

Мода не является достаточно строгой мерой центральной тенденции, поскольку она не учитывает характера распределения переменных, а значит может использоваться лишь в предварительных выводах и прогнозах. Кроме того, необходимо использовать моду только для больших объемов выборок, поскольку для малых она недостаточно информативна.

Медиана (Md) – значение, которое делит упорядоченное множество данных (ранжированный ряд) пополам так, что одна половина значений оказывается больше, а другая – меньше медианы. Медиана – среднее значение ранжированного ряда. Если число значений нечетное, то медиана соответствует среднему члену ряда, если четное, то медиана есть среднее между двумя центральными значениями (в предыдущем примере Md = 41,5).

Медиана соответствует 50-му процентилю, 5-му децилю или 2-му квартилю в группе данных, т. е. Md = P50 = D5 = Q2.

Мода и медиана не учитывают разброса данных, и переменные, лежащие в стороне от центра, не влияют на их величину.

Среднее арифметическое значение, или просто среднее (), равно сумме переменных, деленной на их число.

Для несгруппированных переменных среднее арифметическое вычисляется по формуле:

(4.1)

Для сгруппированных переменных можно воспользоваться другой формулой – среднее будет соответствовать сумме произведений средних значений каждого класса и частоты встречаемости значения признака в данном классе:

(4.2)

Среднее арифметическое может использоваться и для тех признаков, для которых не найден способ количественного измерения (шкала порядка). Для этого в качестве xi используются ранговые числа, а среднее принято называть непараметрическим средним.

Взвешенное среднее арифметическое используется в тех случаях, когда разные составляющие имеют разный «удельный вес» в формировании общей совокупности:

(4.3)

или: (4.4)

где n – объем выборки, N – число классов.

Пример

Средний балл аттестата учащихся выпускных классов одной из школ соответствует следующим значениям: 11-а – 4,2; 11-б – 4,0 и 11-в – 3,8. Численность этих классов составляет: 11-а – 25 человек, 11-б – 28 и 11-в – 32 человека. В данном случае средний балл аттестата по всем выпускным классам составит (4,2 × 25 + 4,0 × 28 + 3,8 × 32) : (25 + 28 + 32) = 3,98.

Среднее принято округлять с точностью до знака, следующего за последним знаком xi (увеличение точности на порядок).

Свойства среднего

1. Сумма всех отклонений от среднего значения равна нулю: (4.6)

Переход от ln xg к xg осуществляется с помощью операции антилогарифмирования:

Другими словами, предел разнообразия признака не вычисляется, а лишь констатируется. Так, в приведенном выше примере lim x1 = 85 116 и lim x2 = 60 135.

Размах вариаций (r) есть математическая разность между максимальной и минимальной величиной признака:

В нашем примере размах вариаций в первой группе (r1) составляет 116 – 85 = 31 и во второй (r2) – 135 – 60 = 75.

Размах от 10-го до 90-го процентиля (мера D) вычисляется следующим образом:

 

Другими словами, для вычисления меры D отсекается по 10% значений с левого и правого края распределения и определяется размах вариаций для оставшихся 80%. Эта мера более стабильна, чем включающий и исключающий размах, поскольку на него не влияют крайние (возможно, случайные) значения вариаций.

Междуквартильный размахеще более жесткая мера изменчивости, нежели мера D. Междуквартильный размах – это разность между 1-м и 3-м квартилями группы:

Другими словами, для определения междуквартильного размаха с краев распределения признака отсекается по 25% значений и определяются границы для оставшихся (наиболее типичных) 50%, которые в максимальной степени характеризуют центральную тенденцию.

Полумеждуквартильный размах (Q1/2) равен половине расстояния между 1-м и 3-м квартилями:

(5.5)

Суть этой статистической меры состоит в уравнивании между собой расстояний между 1-м и 2-м и между 2-м и 3-м квартилями, которые в случае несимметричных распределений могут отличаться друг от друга. В случае же симметричного распределения полумеждуквартильный размах включает в себя приблизительно 25% данных.

Среднее отклонение (MD) – параметрическая мера изменчивости, предложенная в свое время Г. Т. Фехнером. Среднее отклонение равно сумме отклонений от среднего значения (или, другими словами, сумме расстояний между xi и ), взятых по модулю:

(5.6)

Дисперсия (s2) представляет собой сумму квадратов отклонений от среднего (сумму квадратов расстояний между xi и ):

(5.7)

Деление суммы квадратов на число степеней свободы n – 1 позволяет сравнивать между собой совокупности, различные по объему. Считается, что дисперсия – более мощный статистический критерий, нежели среднее отклонение, так как больший вклад в дисперсию дают те значения признака, которые расположены дальше от среднего (вклад каждого значения в дисперсию возрастает пропорционально квадрату отклонения от среднего).

Формула 5.7 не очень удобна при расчете дисперсии вручную (на микрокалькуляторе). Поэтому для этих целей можно использовать другую (рабочую) формулу, которую можно получить путем соответствующих преобразований.

Преобразование формулы:

Но . Отсюда следует, что:

Так как , то:

(5.8)

Свойства дисперсии:

1.    Дисперсия не изменится, если к каждому значению xi прибавить константу c: xj = xi + c Þ sj2 = si2.

2.    Умножение на константу c каждого значения xi увеличивает дисперсию в c2 раз: xj = сxi Þ sj2 = с2 × si2.

Стандартное отклонение (sх) соответствует квадратному корню из дисперсии. Наряду с дисперсией является одной из наиболее часто используемых мер вариабельности признака.

(5.9)

 

Коэффициент вариации (V) есть отношение стандартного отклонения к среднему арифметическому значению, выраженное в процентах:

100%