Для формирования модели были использованы следующие алгоритмы: Ubuntu, Python, библиотеки SHAP – интерпретация моделей и выявление изменений в независимых переменных; XGBoost – дерево решений; Scikit-learn – построение регрессионных моделей. Результаты прогноза по каждому сотруднику выводятся на BI-платформе Qlik.
Теперь вынуждена немного погрузить вас в основы машинного обучения. Для формирования прогнозных моделей необходимо сформировать две выборки. Первая - учебная выборка, на которой алгоритм учится и рассчитывать необходимые коэффициенты для создания прогнозов. Вторая - тестовая выборка, на которой проверяются точность созданной модели.
При работе с предиктивными моделями есть риск "переобучить" модель на учебной выборке, то есть включить большое количество факторов и заставить модель подстроиться под текущие данные. Тем самым сделать точность очень высокой - более 70%. Но если проверить получившуюся модель на второй, тестовой выборке, точность прогнозирования модели может упасть.
Выныриваем и, надеюсь, вы еще с нами:)
В результате созданная модель формирует по каждому сотруднику ключевые факторы, влияющие на риск его увольнения. Факторы для всех сотрудников одинаковые, но их важность будет для каждого разная.
Может показаться, что применение прогнозных моделей текучести с точностью выше 70% исключает любые сомнения в их ошибках. Однако, напоминаю вам, что модель строится и измеряется на выборке и потом переносится на всех остальных сотрудников. После такого переноса точность может значительно снизиться.
Давайте разберем на примере, как может работать такая модель и к каким результатам привести.
Представим, что модель сообщает руководителю, что его подчиненный Иванов через 3 месяца уволится с точностью 84%. Сотрудник является ценным для компании. Руководитель видит факторы, которые больше всего влияют на вероятность его увольнения. Например, сотрудник стал меньше времени проводить в офисе. Кроме того, сотрудник давно не проходил никакого обучения из-за загруженности на рабочем месте. Эти два фактора, по мнению модели, повышают риск его увольнения.
Чтобы удержать сотрудника, руководитель решил обратить на него больше внимания, а также отправить на обучение.
Внимание руководителя может повысить лояльность сотрудника, что само по себе прекрасно. Но действительно ли был риск реального увольнения? Действительно ли руководитель смог удержать сотрудника и тем самым сэкономил компании денег на замене персонала?
При применении подобных моделей срабатывает "эффект наблюдателя" - куда направлено внимание, там показатели улучшаются. Как бы сложилась ситуация с сотрудниками с высоким риском увольнения, если бы на них руководители не обратили внимание, сказать невозможно. Оценить вклад прогнозной модели в удержание ценных сотрудников мог бы коэффициент нежелательной текучести, о котором мы поговорим в разделе, посвященном анализу результатов.