DEYNEkINA hr&ba

Как выбросы влияют на расчет среднего значения
в выборке и как их убрать?

Выбросы – это очень большие или очень маленькие значения, влияющие на расчет среднего значения. Как понять, является ли значение выбросом?
Представьте, что вы взяли выборку из кандидатов с рынка и хотите определить, на какую зарплату ориентироваться при подборе.
Бюджет мы считаем по среднему арифметическому. То есть для данной выборки среднее составит 29 231 руб. Но кандидат 11 с зарплатными ожиданиями 55 000 рублей выделяется. Если его убрать, то среднее значение снизится до 27 083 руб.

Как находить и убирать такие выбросы в данных?
Выбросы – это очень большие или очень маленькие значения. Как определить, является ли значение выбросом и следует ли его удалять?

Для расчетов мы используем такое понятие, как квартиль. Любой набор данных можно разделить на 4 равных отрезка. Квартили – это значения, делящие упорядоченный ряд данных на 4 равные части.
Алгоритм расчета выбросов
1. Нам нужно определить первый (Q1) и третий (Q3) квартили. Для этого используем функцию Excel КВАРТИЛЬ.ВКЛ. Для расчета Q1 используем формулу КВАРТИЛЬ.ВКЛ (массив данных;1), для расчета Q3 – формулу КВАРТИЛЬ.ВКЛ (массив данных;3).
2. Рассчитаем расстояние между третьим и первым квартилем (межквартильный
размах МР). Считается как разность значений, получившихся при расчете Q3 и Q1.
3. Определяем внутреннюю нижнюю границу для выброса: Q1 – 1,5*МР
4. Определяем внутреннюю верхнюю границу для выброса: Q3+1,5*МР
Если у нас есть значения, выходящие за верхние и нижние границы, мы удаляем их из нашей выборки и считаем среднее значение без учета выбросов.

Если вы хотите со мной пройти путь познания статистики и применения ее в работе, приглашаю на онлайн-курс «HR-аналитика: начальный уровень».