620 likes | 1.3k Views
ПОСТРОЕНИЕ СКОРИНГОВЫХ МОДЕЛЕЙ. ПРАКТИЧЕСКИЕ АСПЕКТЫ. Мария Чепурина, Коллекторское агентство "Пристав" Руслан Морозов, Банк "Петрокоммерц". ТЕОРИЯ. Руслан Морозов, Банк "Петрокоммерц". 1. Требования к модели. 11. Пересмотр. 2. Сбор данных. 10. Внедрение и Сопровождение.
E N D
ПОСТРОЕНИЕ СКОРИНГОВЫХ МОДЕЛЕЙ. ПРАКТИЧЕСКИЕ АСПЕКТЫ Мария Чепурина,Коллекторское агентство "Пристав" Руслан Морозов, Банк "Петрокоммерц"
ТЕОРИЯ Руслан Морозов, Банк "Петрокоммерц"
1. Требованияк модели 11. Пересмотр 2. Сбор данных 10. Внедрение и Сопровождение 3. Выбор методологии 9. Документация 4. Однофактор- ный анализ 8. Тестирование 5. Многофактор-ный анализ 7. Калибровка 6. Анализ отклоненных ЖИЗНЕННЫЙ ЦИКЛ МОДЕЛИ
ОСНОВНЫЕ ЭТАПЫТребования к модели • принятие решения о выдаче кредита • определение уровня принятия решения • расчет ожидаемых убытков • ценообразование • определение лимитов • прогнозирование • отчетность • мониторинг • индикаторы раннего предупреждения • расчет резервов • расчет капитала • и т.д.
ОСНОВНЫЕ ЭТАПЫСбор данных Исчерпывающий набор данных является важной предпосылкой для построения качественной модели. Следующие требования предъявляются к полноте выборке и её качеству: • Объем и историчность данных, период наблюдения • Источники данных • Репрезентативность выборки • Достаточное количество «плохих» • Качество данных (пропущенные и удаленные значения, верность и т.п.) • Определение Хороший / Плохой • Формирование выборки
ОСНОВНЫЕ ЭТАПЫХороший / Плохой Для построения скоринговой системы необходимо решить, что есть «плохой» клиент. В соответствие с Базель II дефолт должника считается произошедшим, когда имело место одно или оба из следующих событий: • Банк считает, что должник не в состоянии полностью погасить свои кредитные обязательства перед Банком без принятия Банком таких мер, как реализация обеспечения (если таковое имеется). • Должник более чем на 90 дней просрочил погашение любых существенных кредитных обязательств перед Банком.
ОСНОВНЫЕ ЭТАПЫФормирование выборки
ОСНОВНЫЕ ЭТАПЫВыбор методологии • Экспертные системы • Generic модели • Pooling модели • Регрессии • logit, probit, наименьших квадратов, нейросети и т.д. • Деревья решений • CHAID, CART • Линейное программирование • Модели ценообразования опционов • Модели приведенной стоимости • и т.д.
ОСНОВНЫЕ ЭТАПЫОднофакторный анализ Предварительный выбор переменных существенно уменьшает сложность последующего многомерного анализа. Этапы однофакторного анализа • Составление «длинного» списка переменных • Проверка гипотез: • предсказательная сила • соответствие ожидаемому поведению • Трансформация • нормализация • стандартизация • разбиение на групп • и т.п. • Проверка корреляций • Работа с пропущенными значениями Результатом анализа является список переменных.
ОСНОВНЫЕ ЭТАПЫМногофакторный анализ • Существуют различные методы построения «оптимальной» модели по набору заданных переменных. Наиболее распространенный метод – логистическая регрессия. • Преимущества регрессии: • Итоговый Score получается простым взвешиванием переменных. • Score лежит в диапазоне [0,1] и может быть проинтерпретирован как вероятность негативного события • Метод устойчив к небольшим изменениям выборки. • Нахождение оптимального решения сводится к максимизации функции правдоподобия
ОСНОВНЫЕ ЭТАПЫМногофакторный анализ В таблице ниже перечислены значения Джини, которые могут быть достигнуты на практике для различных типов моделей.
ОСНОВНЫЕ ЭТАПЫАнализ отклоненных клиентов Существует различные техники определения качества отклоненных клиентов: • Присвоить всем отклоненным клиентам статус – Плохой • Разбить на хороших и плохих в той же пропорции, что и по известной части • Экстраполяция • Пополнение • Метод соседей • Совместное распределение • Использование 3 групп (плохие, хорошие, отклоненные) • Анализ причин отклонения (негативная кредитная история -> отказ)
ОСНОВНЫЕ ЭТАПЫКалибровка Калибровка – назначение вероятности дефолта для заданного рейтинга модели. Качество калибровки зависит от того, в какой степени вероятности дефолта, предсказанные моделью, соответствуют фактически реализовавщимся дефолтам. Существует ряд методов, позволяющих оценить качество калибровки: • Показатель Бриера • Диаграмма надежности • Проверки значимости отклонений от частоты дефолтов • Проверочная калибровка с использование стандартного нормального распределения • Биномиальный Калибровочный тест • Процедура калибровочных испытаний на основе корреляций дефолтов.
ОСНОВНЫЕ ЭТАПЫПример калибровки Вводим новую переменную RDR =PD/(1–PD) • Вычисляем Average DR по модели на недофолтной выборке • Переводим полученный результат в RDRмодели • Вычисляем Average DR по портфелю и переводим в RDRпортфеля • Считаем RDRнекалиб для каждой группы • RDRкалиб находим как RDRнекалиб х (RDRпортфеля/ RDRмодели)
ОСНОВНЫЕ ЭТАПЫТестирование Целью тестирования является оценка качества модели при её использовании на данных не входящих выборку, которая была использована при построении модели. Можно выделить следующие основные тесты: • Эффективность (дифференцирующая способность) • Устойчивость (робастность) • Бэк-тестирование • Champion-Challenger стратегия • Основным показателем эффективности является коэффициент Джини. Чем больше выборка, тем более надежным будет данный критерий. • Для оценки надежности коэффициента Джини используют: • Бенчмаркинг • Аналитическую оценку уровня доверия • Эвристическую оценка уровня доверия путем повторных случайных выборок (Bootstrapping, Jackknifing, Метод скользящего среднего) • Выборка для валидации • In-time: выборка построена случайным выбором из общей выборки • Out-of-time: случайный выбор из другого временного периода.
ОСНОВНЫЕ ЭТАПЫДокументация В соответствие с Базель II: Все важнейшие элементы модели и процесса моделирования должны быть полностью и надлежащим образом задокументированы. Банки обязаны письменно документировать разработку внутренних моделей и оперативные подробности. Документация должна продемонстрировать соблюдение банком минимальных количественных и качественных стандартов, и должна также покрывать такие разделы, как применение модели для различных сегментов портфеля, процедура рейтингования, ответственность сторон, участвующих в моделировании, а также процессы утверждение и пересмотра модели.
ОСНОВНЫЕ ЭТАПЫВнедрение и Сопровождение Фактическая интеграция процедуры рейтингования в процесс управления кредитным риском в Банке и в системы отчетности, включают в себя: • Разработку банком внутренних процедур, которые включают в себя процесс рейтингования, и включение их в банковские документы • Использование рейтингов в процессе управления кредитным риском (принятие решений, ценообразование, полномочия, система лимитов, и т.д.) • Соответствие процедуры рейтингование с кредитной стратегией Банка • Ответственность за рейтинг не должна лежать на фронт-офисе (бизнес), исключение возможно лишь в рознчном бизнесе, но также не рекомендуется. • В случае если пользователь может отклоняться от рейтинговой процедуры, должна быть определена чёткая процедура как и когда, все отклонения должны быть задокументированы.
ОСНОВНЫЕ ЭТАПЫВалидация В соответствие с Базель II: • Банк должен регулярно оценивать (валидировать) работу модели, включая мониторинг ее результатов и стабильности, отслеживание взаимосвязей моделей и тестирование результатов моделирования относительно реальных данных. Основные принципы валидации • Банк ответственен за валидацию модели • Валидация должна оценивать предсказательную силу модели и использование результатов модели в кредитном процессе • Валидация – итеративный процесс • Не существует единого подхода к валидации • Валидация должна включать в себя как качественную, так и количественную валидацию • Валидация должна быть независимой от основного процесса моделирования
ПРАКТИКА Мария Чепурина,Коллекторское агентство "Пристав"
Розничное кредитование Эволюция моделей • Запуск проекта – разработать MAC, отражающие демографические и локальные особенности рынка. Установить среднерыночные лимиты и собирать данные. • Рост – разработка скоринговых карт для разных сегментов бизнеса и разных регионов. Лимиты на основании скоринга. • Развитие – агрессивная стратегия – снизить cut-offs, усиленный мониторинг по каналам продаж. Реагировать на увеличение риска изменением cut-offs, информировать каналы. • Развитие – Cross Sell – тестировать и внедрять критерии продаж, использовать эксперименты champion/challenger (установление лимита, увеличение лимита, прибыльность).
Розничное кредитование Данные • Вводить все поля анкеты • Хранить информацию по отказанным заявкам • Информация о канале продаж (внутренний, внешний, Cross-sell) • Возможность сигнала от кредитного специалиста (visual contact codes) • Контролировать потоки заявок и события на всех стадиях выдачи кредита (проверки по базам, верификация, СЭБ). • Быстро настраиваемые work flows в ИТ-системах. • Обеспечить удобные интерфейсы с автоматическим системами проверок на мошенничество
Розничное кредитование Мониторинг • Approval/Rejection rates по каналам продаж • Размер просрочки по продуктам • Отказы на верификации/проверкам на Fraud по каналам продаж • Средние скоринговые баллы по каналам продаж • Средние скоринговые баллы для всех заявок, одобренных/отклоненных заявок • Случаи override скоринга
Розничное кредитование Предотвращение мошенничества • Разработать простой и ясный набор правил для проверок на мошенничество. • Не опираться на данные, сообщенные самим аппликантом об уровне дохода, и на результаты звонков при верификации. Наилучший вариант – дополнительная проверка по базам ФНС, Пенсионного фонда. • Мониторинг FPD по каналам и точкам продаж (может быть связано с внутренним мошенничества) • Fraud скоринг • Включить меры по сокращению мошенничества в KPI департамента продаж.
Розничное кредитование Работа с просроченными долгами • В этой области присутствуют более четкие определения риска. • Collection scoring как комбинация locator score и performance score. • Учет затрат по сравнению с размером долга и прогнозируемым возвратом. • В растущем проекте – заблаговременное планирование capacity. • Использование сотрудников согласно их квалификации. • Мотивация, четкое разделение на стадии работы. Обратное движение только при крупных погашениях. • Продажа долгов, использование аутсорсинга.
Розничное кредитование Аналитика • Мониторинг состояния портфеля (уровень просрочки). • Application Scorecard Development (Originations). • Fraud Scorecard Development (Originations). • Behaviour Scorecard development (управление лимитами, перевыпуск карт, Collections). • Динамический расчет провизий (flow-rates). • Сегментация портфеля. • Оптимизация процессов (Collection, Verification). • Планирование Collection Capacity. • Fraud Intelligence – проверка эффективности экспертных правил. • Анализ результатов экспериментов. • Profitability score models. • И многое другое…
2004 – Разработка скоринга Необходимость в разработке собственной модели • Новое направление кредитования (CF), сокращенный ввод данных в POS • Зависимость от внешнего разработчика • Низкие показатели эффективности generic модели (СС + Overs) Первые действия • Критический анализ экспертами generic модели • На уровне банка принято решение о конфиденциальности, передаче Директору по управлению рисками единолично принимать решения по разработке и внедрению моделей Достаточность данных для разработки • К этому моменту было накоплено достаточное кол-во Bads (60+ dpd) – 500-1000.
Качество данных Примеры проблем • Недостаточно развернутые классификации в FE (подготовлены без учета мнения аналитиков) (Industry type, Position, Work type). • Частый выбор категории ‘OTHER’ при вводе данных. • Различные написания в полях текстового ввода. • Неполные классификации. • Необходимость учета существующих интерфейсов между системами (хорошие предикторы иногда невозможно передать без доработки интерфейсов). • Учет различных кодировок при разработке, тестировании и настройке. • Ошибки при повторном вводе.
Качество данных Примеры проблем Должность Возможно 9 вариантов выбора типа должности, но в точках продаж агенты просто выбирают “OTHER”.
Качество данных Примеры проблем Тип отрасли • 26 вариантов выборадля характеристики “Тип отрасли”. • Агенты не задумываются над классификацией, выбирают “OTHER”. • Огромное число вариантов написаний (ошибки, пр.) в поле прямого ввода для категории “OTHER” .
Разработка скорингаОбщие идеи • Поиск удачных предикторов – как охота, нет априорных правил. • Позвольте данным рассказать о себе. Учитесь у них. • На начальном этапе стоит отказаться от сложных теоретических методов. • Модель должна быть логичной относительно выбранного Good/Bad флага. Если направление связи трудно объяснить – лучше исключить эту переменную. • Изучайте всю возможную информацию (доп. ввод архива, классификация текстовых полей, не используемые в IT-системах поля). Возможно, вы найдете предиктор, для которого потребуется изменение текущих процессов. • Чрезвычайно важно тщательное тестирование (OOS, OOT, настройки систем). • Избегать использования переменных сегментации в скоринговых моделях (регионы, размер дохода, канал продаж, тип продукта.. ) • Force option – «психологические оси» - баланс предикторов
Разработка скоринга • Information asymmetry between the lender and the borrower • The borrower signals to the lender, the lender interprets the signal according to prior experience • Choices offered in a credit application are signaling devices • For example, providing phone number means: • borrower probably has a phone • borrower wants to give his phone number. • Both facts have to be given consideration
Разработка скорингаАвтоматизация • SAS Base (+ macro in Excel – HSBC) • SAS Base (+ in-house GUI tool - Lloyds TSB) • SPSS • STATISTICA • SIGMA – Experian’s in-house tool(200 models over a year in 2002) • SAS Enterprise Miner, SAS Credit Scoring • Scorto Scoring Solution • KSEMA
Разработка скорингаПроцесс … но они лучше выплачивают кредит женщин меньше… доля мужчин и женщин с разбивкой по возрасту доля плохих заемщиков среди мужчин и женщин
Разработка скорингаПроцесс Внешний разработчик Идеальный скоринг Reference line Скоринг УР • Карта недостаточно хорошо выделяет самых плохих заемщиков
Разработка скорингаПроцесс «Идеальное» распределение «плохих» Распределение «плохих» Распределение «хороших» «Идеальное» распределение «хороших»
Разработка скорингаПроцесс – отчет на ГКК Чистка данных Выставление Good/Bad флага Отправка данных стороннему разработчику Пересмотр правила определения «Good» Одномерный анализ данных Двумерный анализ данных Отбор переменных в анализе(определение «психологических осей») Многомерный анализ Тестирование новой карты наконтрольнойвыборке выполняется Анализ полученных результатов выполняется
Применение итоговой модели Варианты применения модели: • Установить модель от внешнего разработчика, набрать Out-Of-Time sample, сравнить performance у собственной модели и внешней, принять решение об использовании. • На условленный срок включить 100% open gates (для быстрого набора достаточного количества Bads - gaining experience at the price of loss rates). • Компромисс: 50% open gates (random via champion/challenger), 50% собственная модель. • Применение московской модели в избранных регионах (25% open gates, 75% scored). • Совместное применение нескольких моделей (CF+ FPD), комбинация правил для cut-off
Результаты работы модели • Результат работы картза 2 года - снижение резервов с экспертных 20-28% до 5-16%, в зависимости от продукта
2006 Модель пропуска первого платежа • 13% заемщиков относятся к категории Non-Starters. • Нет платежей в течение первых 3 месяцев – подозрение на мошенничество. • First Payment Default model • 40,900 заемщиков с историей 6-14 месяцев • 13 моделей • 20% of lowest FPD scores eliminate 50% of NS population • Combined cut-off will increase rejection by 5%, eliminate 30% of NS
2006 Разработка скоринга для регионов • Региональный проект начат с использованием open gates в регионах • После накопления 5-7K заявок проверить эффективность московской модели в регионах • Применение московской модели в 5 избранных регионах (25% open gates, 75% scored). • После накопления достаточной истории начата разработка региональной модели. • 262,700 заявок, 6-12 месяцев в работе • Требование – исключить переменную «тип дополнительного документа» (интерфейс не передает). • Проверить новые переменные, появившиеся в анкете и новом FE. • Первое применение Reject Inference. • Тестирование модели в разных регионах – регионы разделены на 3 группы по величинам GINI, выбор cut-off с учетом требуемого процента отказов.
Reject Inference • Не проводилось, когда в базе отказов присутствовало большое количество мошеннических заявок, которые невозможно было выделить автоматически. • Увеличивает время разработки модели на 1-2 недели. • В результате модель могут покинуть некоторые переменные, GINI изменяется.