Меры центральной тенденции


Меры центральной тенденции (measures of central tendency) — способы осмысления центральной или средней позиции множества наблюдений, оценок, группы чисел и т.д.

На практике существуют большое разнообразие мер центральной тенденции (например, взвешенное, винсоризованное, гармоническое, геометрическое средние, среднее Колмогорова и др), но чаще всего встречаются:

  • мода;
  • среднее арифметическое;
  • медиана.

Мода

Мода — типичность — максимальная частота — наиболее часто встречающееся значение в совокупности наблюдений. Применяется, например, для определения размера одежды, обуви, калибра патронов, пользующихся популярностью у покупателей, анализа технических экспериментов, а также определение часто встречающегося значения среди данных, имеющих не числовую природу происхождения (например, цвета: синий, красный, желтый, синий, зеленый…).

Мода и среднее арифметическое

Давайте найдем моду — максимально встречающееся значение в данной совокупности:

Совокупность значений

Рассчитаем значение моды в Excel

Формула расчета моды в Excel

У нас получилось 13. Т.е. максимально часто встречающееся значение в данной совокупности является значение 13.

Но если построить график, то получается такая картина

График количества значений

Видим, что на анализируемый показатель влияет 2 значения: это значения показателей 6, который встречается 16 раз и 13, встречающийся 17 раз. Например, такая ситуация может возникнуть при выборе кандидата в президенты: первая вершина — отданные голоса городского населения, вторая — сельского.  Такой эффект называется мультимодальностью и, как правило, указывает что набор данных не подчиняется нормальному распределению.

Среднее арифметическое

Среднее арифметическое — сумма всех чисел, деленное на их количество, зависимое от разброса наблюдений.

Фомула нахождения среднего арифметического

Например, среднее арифметическое чисел 3, 7, 11 будет:
(3+7+11) /3 = 7.

Недостатком данной меры является чувствительность к различным отклонениям и неоднородностям в выборке, другими словами, оно подвержено существенным искажениям со стороны «отщепенцев» (значений) резко отклоняющихся от центра распределения. Для распределений с большим коэффициентом асимметрии может не соответствовать понятию среднего.

Отщепенцы влияющее на среднее

В приведенном примере аномальные значения («отщепенцы») будут наращивать среднее значение: если считать среднее арифметическое число проблем с качеством на 1 принтер, то получим 9,1. Впечатляющая цифра! Медиана проблем равняется 1.

Чтобы уяснить эту концепцию представьте 3-х мужчин, сидящих за барной стойкой.

Пример искажения среднего
Пример искажения среднего

Предположим, что у каждого из мужчин годовой доход составляет 42 000 долларов. Но тут, с попугаем на плече, к ним подсаживается Роман Абрамович, с годовым доходом 955 000 000 долларов.

Если подсчитать средний доход 4-х сидящих мужчин за барной стойкой (т.е. с Романом Абрамовичем), то мы ошибочно будем полагать что он составляет 238 781 500 долларов. Что на самом деле не соответствует действительности.

Медиана

Медиана — середина — уровень показателя, который делит набор данных на 2 равные половины (50/50). Она не присваивает наблюдениям весовые коэффициенты исходя из того, на сколько они отдалены от средней точки, а лишь оценивает их в зависимости от расположения.

Развивая мысль можно также делить медиану на четверти — квартили:

  • 0,25 квантиль — первый (нижний) квартиль;
  • 0,5 квантиль — медиана — второй квартиль;
  • 0,75 квантиль — третий (верхний) квартиль.

Еще один вариант разделить на децили, каждый из которых включает в себя 10% наблюдений. Например, если ваш расход топлива бензинового двигателя автомобиля в верхнем дециле общего распределения расходов топлива всех бензиновых двигателей, то это означает, ваш двигатель сжигает топлива больше, чем 90% остальных двигателей.

Разбив распределение на сотые доли получим процентили — 1% распределения: первый процентиль представляет нижний 1% данного распределения, а 99-й — его верхний 1%.

Рассмотрим набор нормально распределенных случайных чисел.

Медиана в наборе нормально распределенных чисел

В данном примере видим идеальную ситуацию когда медиана, среднее арифметическое и мода совпадают. Но, если рассмотреть ассиметричное распределение,  которое может возникать при проведении технических замеров, например, скорости, может сложиться такая ситуация

Медиана и среднее арифметическое

Как видим из графика у нас присутствуют аномальные значения («отщепенцы»): 23, 28, 30, влияющие на среднее арифметическое, но никак не затрагивающие медиану.

Медиана — альтернатива среднему арифметическому, устойчивая к аномальным отклонениям («отщепенцам»).

Вывод

При выборе меры центральной тенденции нужно учитывать ее устойчивость к значениям, резко отклоняющихся от центра применяемых в каждом конкретном случае. Нужно определить какое влияние оказывают «отщепенцы»: искажают его или наоборот играют важную роль.

Окончательный выбор меры центральной тенденции всегда лежит за исследователем.

Комментарии:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *