.

Primjer izgradnje scoring modela korištenjem logističke regresije

Pretpostavimo da smo definirali značenje biti dobar i biti loš klijent.
Imamo bazu podataka o klijentima sa sljedećim podacima:

  • Y: dobar ili loš (0-dobar, 1-loš)
  • X1: tekući račun (1-nema t.r.; 2-dobar t. r.; 3-loš t.r. ref. kategorija)
  • X3: mjeseci radnog staža
  • X4: mjesečna primanja
  • X5: plaćanje po prethodnim kreditima (0-dobar, 1-loš)
  • X6: namjera korištenja (0-privatno, 1-poslovno)
  • X7 i X8 binarne varijable bračnog statusa i spola

Izvadak iz baze, dva klijenta:

Broj klijenta Y X1 X3 X4 X5 X6 X7 X8
1 1 1 18 1043 0 1 0 0
23 0 3 32 2348 1 1 0 0

Podaci za izgradnju modela su izabrani slučajnim izborom iz dva odvojena skupa:

  • 300 loših klijenata
  • 700 dobrih klijenata

Ovdje se prati omjer dobrih i loših klijenata u cijeloj bazi što nije uvijek nužno. Treba ostaviti uzorak za testiranje modela.

Prvi korak je početni uvid u podatke, da se dobije osjećaj na kojoj varijabli se već u prvoj analizi može uočiti da razlikuje dobre i loše klijente. Primjeri empirijskih distribucija nekih varijabli posebno za dobre i loše klijente (relativne frekvencije u postocima):

X5: prethodni krediti Y = 1
dobar
Y = 0
loš
dobar 82.33 (247) 94.85 (664)
loš 17.66 (53) 5.15 (36)

Za varijable koje su numeričke, neprekidne (nisu kategorijalne) možemo napraviti testove o postojanju razlika npr. t-test; neparametarske testove.

Čak i ako početni testovi ne nađu neku razliku, u modelima u kojima su uključeni interakcijski članovi ovakve varijable mogu doći do izražaja.

Krajnji rezultat ovakvog postupka je izdvajanje varijabli koje bi mogle imati značajno mjesto u definiciji modela.

Valja pronaći funkciju koja povezuje X1, X2, X3, ... s Y

Ako želimo iskoristiti varijable X1, X2, ... u linearnom obliku, tj. kao:
a0+a1×X1+a2×X2+...+a8×X8

Ne možemo očekivati da ćemo uvrštavanjem vrijednosti za X1, X2, ... dobiti 0 ili 1, tj. moguće vrijednosti za Y

U modelima regresijskog tipa pokušavamo procijeniti vjerojatnost da klijent bude loš uz uvjet da ima dane vrijednosti X-ova:
P(Y=1|X)=?, X=[1,X1,X2,…,X8]

Uočimo da je P(Y=1|X) broj s vrijednostima iz intervala [0,1]
P(Y=1|X)=f(a0+a1×X1+a2×X2+...+a8×X8)

Da bismo osigurali traženi interval kao skup vrijednosti, funkcija f iz gornjeg izraza mora biti:

f: R#[0,1]

Logistička funkcija:
Logistička funkcija

Navedena funkcija predstavlja tzv. logističku funkciju veze. Koriste se i drugi oblici veze sličnog tipa.

U ovakvom modelu cilj nam je procijeniti parametre a0,a1,a2,...a8:

Var. 1 X1[1] X1[2] X3 X4 X6 X8
Koef. 0.026 0.617 -1.32 0.039 -0.988 -0.47 -0.533

Procjena parametara

U procesu izgradnje modela moramo zadovoljiti pretpostavke izabranog postupka modeliranja.

Selekcijskim postupcima i transformacijama varijabli nastojimo dobiti što bolje vrijednosti statistika koje mjere kako podaci odgovaraju modelu.

Metoda procjene parametara koja se standardno koristi je tzv. metoda maksimalne vjerodostojnosti.

Obzirom na metodu, pokušavamo postići što veću vrijednost funkcije vjerodostojnosti. Uspoređujemo koliko je naš model bolji od tzv. nul-modela. Testiramo koliko je model bolji dodavanjem neke varijable ili bez nje. Pravimo grafičke prikaze, ...

Kada postignemo najbolji model na uzorku za izgradnju modela, moramo ga testirati na testnom uzorku.

Ukoliko nismo zadovoljni postignutim modelom primjenjujemo drugu metodu procjene i pokušavamo dobiti bolji model (neka robusna varijanta ML procjene, Quasi-likelihood varijante, ...).


Nataša Šarlija, prof.dr.sc.