Przygotowanie danych do modelowania
Prawidłowość przeprowadzenia tego etapu decyduje o sukcesie procesu budowania modelu scoringowego. W języku angielskim istnieje powiedzenie: „Garbage In, Garbage Out”, które oznacza, że wyniki przetwarzania błędnych danych będą błędne nawet, gdy procedura przetwarzania będzie poprawna. Etap przygotowania danych dzielimy na:
- Zdefiniowanie przez ekspertów grupy zmiennych, jakie powinny wejść do modelu oraz ich priorytetów. Do modelu mogą wejść zarówno zmienne jakościowe jak i ilościowe
- Zebranie danych z różnych systemów
- Ocena danych pod kątem:
- Wiarygodności statystycznej
- Jakości i spójności danych
- Kompletności
- Istnienia obserwacji odstających
- Wyłączenia obserwacji z próby z przyczyn biznesowych
Dobór cech do budowy modelu
W tym etapie budowania modelu za pomocą miar jakościowych cech i modelu przeprowadza się analizy mocy predykcyjnej modelu i stabilności w czasie. Budujemy model, który cechuje się:
- Dużą mocą predykcyjną
- Najlepszą stabilnością zmiennych objaśniających w czasie
- Najszerszym zakresem score’u
- Najmniejszą różnicą w statystykach między próbą treningową i testową
- Monotonicznością wskaźnika bad rate względem score’u
- Niską zależnością między zmiennymi objaśniającymi
- Estymacja parametrów modelu
Po wyborze najlepszych zmiennych do prognozy, dokonujemy oszacowania parametrów modelu. Najczęściej wykorzystywane modele statystyczne to: regresja liniowa, regresja logistyczna, analiza dyskryminacyjna, modele przeżycia, drzewa decyzyjne.