Dane to dopiero początek
Dobre wybranie i przygotowanie danych przed przystąpieniem do tworzenia modelu scoringowego jest podstawą sukcesu.
Tworzenie modeli i tablic scoringowych
PL | EN

Przygotowanie danych do modelowania

Prawidłowość przeprowadzenia tego etapu decyduje o sukcesie procesu budowania modelu scoringowego. W języku angielskim istnieje powiedzenie: „Garbage In, Garbage Out”, które oznacza, że wyniki przetwarzania błędnych danych będą błędne nawet, gdy procedura przetwarzania będzie poprawna. Etap przygotowania danych dzielimy na:

  • Zdefiniowanie przez ekspertów grupy zmiennych, jakie powinny wejść do modelu oraz ich priorytetów. Do modelu mogą wejść zarówno zmienne jakościowe jak i ilościowe
  • Zebranie danych z różnych systemów
  • Ocena danych pod kątem:
    • Wiarygodności statystycznej
    • Jakości i spójności danych
    • Kompletności
    • Istnienia obserwacji odstających
    • Wyłączenia obserwacji z próby z przyczyn biznesowych

Dobór cech do budowy modelu

W tym etapie budowania modelu za pomocą miar jakościowych cech i modelu przeprowadza się analizy mocy predykcyjnej modelu i stabilności w czasie. Budujemy model, który cechuje się:

  • Dużą mocą predykcyjną
  • Najlepszą stabilnością zmiennych objaśniających w czasie
  • Najszerszym zakresem score’u
  • Najmniejszą różnicą w statystykach między próbą treningową i testową
  • Monotonicznością wskaźnika bad rate względem score’u
  • Niską zależnością między zmiennymi objaśniającymi
  • Estymacja parametrów modelu

Po wyborze najlepszych zmiennych do prognozy, dokonujemy oszacowania parametrów modelu. Najczęściej wykorzystywane modele statystyczne to: regresja liniowa, regresja logistyczna, analiza dyskryminacyjna, modele przeżycia, drzewa decyzyjne.