Algorithms in Business

everywhere

Budowanie modeli scoringowych

Model scoringowy jest procesem, który przyznaje punkty poszczególnym cechom badanego zjawiska, a następnie na podstawie otrzymanych rezultatów konwertuje wynik na prawdopodobieństwo zaistnienia badanego zdarzenia. Zastosowanie do wspomagania decyzji modelu predykcyjnego w porównaniu do stosowania reguł zdroworozsądkowych lub zaproponowanych przez eksperta daje zysk rzędu 10-30% większy. Poniżej przedstawione są 2 etapy tworzenia modelu scoringowego: A) Przygotowanie danych, B) Budowa modelu.
modele scoringowe

Przygotowanie danych do modelowania

Prawidłowość przeprowadzenia tego etapu decyduje o sukcesie procesu budowania modelu scoringowego. W języku angielskim istnieje powiedzenie: „Garbage In, Garbage Out”, które oznacza, że wyniki przetwarzania błędnych danych będą błędne nawet, gdy procedura przetwarzania będzie poprawna.

Etap przygotowania danych dzielimy na:

  1. Zdefiniowanie przez ekspertów grupy zmiennych, jakie powinny wejść do modelu oraz ich priorytetów. Do modelu mogą wejść zarówno zmienne jakościowe jak i ilościowe.
  2. Zebranie danych z różnych systemów (łączenie, matchowanie, projektowanie zmiennych pochodnych).
  3. Ocena danych pod kątem:
    1. Wiarygodności statystycznej, tj. analizy:
      1. Wartości poziomu przeciętnego (średnia arytmetyczna, mediana, dominanta)
      2. Wartości skrajnych (minimum, maksimum, 1 i 99 ew. 5 i 95 percentyl)
      3. Skośności
      4. Koncentracji rozkładu (Kurtoza, współczynnik Giniego)
    2. Jakości i spójności danych.
    3. Kompletności, tj.
      1. Ocena częstotliwości występowania pewnych zjawisk w zbiorze obserwacji (współczynnik WoE)
      2. Ocena losowości występowania pewnych zjawisk w zbiorze obserwacji (testu Walda-Wolwowicza)
      3. Zbadanie korelacji występowania braków danych ze zmienną oznaczającą default
      4. Identyfikacji braku zmiennych dla obserwacji (imputacja danych)
    4. Istnienia obserwacji odstających (reguła trzech sigm, reguła 1 i 99 percentyla, graficzna metoda wyznaczania obserwacji odstających).
    5. Wyłączenia obserwacji z próby z przyczyn biznesowych.

 

Budowa modelu

Dobór cech do budowy modelu

W tym etapie budowania modelu za pomocą miar jakościowych cech i modelu przeprowadza się analizy mocy predykcyjnej modelu i stabilności w czasie. Budujemy model, który cechuje się:

  1. Dużą mocą predykcyjną (najwyższe wartości statystyk GINI, K-S, dywergencji)
  2. Najlepszą stabilnością zmiennych objaśniających w czasie (metodą bootstrapową – wykorzystanie wtórnego próbkowania z wykorzystaniem losowania z zwracaniem)
  3. Najszerszym zakresem score’u
  4. Najmniejszą różnicą w statystykach między próbą treningową i testową
  5. Monotonicznością wskaźnika bad rate względem score’u (najmniej zaburzeń)
  6. Niską zależnością między zmiennymi objaśniającymi (Wartość korelacji Pearsona dla zmiennych numerycznych)

Estymacja parametrów modelu

Po wyborze najlepszych zmiennych do prognozy, dokonujemy oszacowania parametrów modelu. Najczęściej wykorzystywane modele statystyczne to: regresja liniowa, regresja logistyczna, analiza dyskryminacyjna, modele przeżycia, drzewa decyzyjne, sieci neuronowe.
Poniżej przedstawiany budowanie modelu scoringowego w oparciu o regresję logistyczną:

  1. Wyznaczanie score’u.
    Zmienna score dana jest następującym wzorem:
    decision
  2. Prawdopodobieństwo zdarzenia 1.
    Zmienna p oznaczająca prawdopodobieństwo zajścia zdarzenia 1 obliczana jest następująco:
    P1
  3. Dobór punktów odcięcia (cut-off).
    1. Minimalizacja prawdopodobieństwa popełnienia błędu I-go rodzaju przy ustalonym poziomie II-go rodzaju
    2. Minimalizacja oczekiwanego kosztu błędnej decyzji
  4. Decyzja
    Zmienna decyzja wyznaczana jest następująco:
    decision
Powrót

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Możesz użyć następujących tagów oraz atrybutów HTML-a: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>