.

Što se podrazumijeva pod analizom karakteristika pri izgradnji scoring modela?

Svrha je analiziranja karakteristika odnosno varijabli o klijentima odnosno kreditima u identificiranju onih koje razdvajaju dobre od loših klijenata.

Tablica dolje pokazuje dobre i loše zajmotražitelje prema varijabli 'vizija - ima li zajmotražitelj viziju posla kojim se želi baviti'. Stopa loših predstavlja prediktivnu sposobnost svakog atributa odnosno vezu između vizije i rizika.

Niska stopa loših kod poduzetnika koji imaju viziju te visoka stopa loših kod poduzetnika koji nemaju viziju posla upućuje na zaključak da je jasna vizija posla prediktor uspješnog posla koji može omogućiti otplatu kredita bez kašnjenja odnosno nizak rizik i obrnuto.

Vizija Broj dobrih Broj loših % dobrih % loših Stopa loših
Nema viziju 2 12 1,5 17,91 85,71%
Ima viziju 23 5 17,30 7,46 17,86%
Uhodan posao 108 50 81,20 74,63 31,65%
Ukupno 133 67 100% 100% 50,38%

Tablica: Način analize karakteristika zajmotražitelja (vizija posla)

Pored toga, vrlo česta analiza koja se provodi je pravljenje i analiziranje 'weight of evidence' tablica. Svrha je analizirati svaku pojedinačnu varijablu u odnosu na stanje 'dobar/loš'.

Prave se tablice koje pokazuju dobre i loše klijente prema svakoj kategoriji varijable. 'Information odds' se računa kao omjer postotka dobrih i postotka loših.

'Woe' se računa kao ln (information odds). Iz njih se vidi kakav je odnos dobrih i loših odnosno koliko dobrih dolazi na jednog lošeg (information odds) za svaku kategoriju varijable.

Pored toga, računa se i 'information value' iz čega se vidi kolika je prediktivna sposobnost svake pojedine varijable. Na taj način se može odabrati koje varijable uključiti u scoring model.

Scoring varijable

Uobičajena procedura za analiziranje svih varijabli je takozvano 'pravljenja klasa' odnosno grupiranje u razrede. Naime, nezavisne varijable u scoring modelima se obično transformiraju kako bi bolje predstavljali vezu između nezavisnih varijabli i zavisne varijable, a koja je nelinearna.

Drugi način modeliranja nelinernih veza je kontinuirana transformacija. Postoje određene polemike o tome koja je najbolja metoda za izgradnju efikasne score kartice. Neki autori preferiraju pravljenje klasa dok drugi smatraju da je bolja transformacija kontinuiranih varijabli.

Experian je proveo istraživanje u cilju otkrivanja koja je metoda odnosno kombinacija metoda najbolja za određenu situaciju. Modeli koje je napravio Experian u svom istraživanju su testirani na bazi njihove sposobnosti da tretiraju nedostajuće podatke i stršeće vrijednosti (outliers), jednostavnosti upotrebe i moći predikcije što je mjereno Kolmogorov Smirnov testom i Gini koeficijentom.

U njihovoj je studiji razrađeno je 4 različita modela (Mays, Handbook of credit scoring, 2001):

01 Model s klasama
U ovakvom modelu sve nezavisne varijable su kategorijalne što znači da se i kontinuirane varijable transformiraju u kategorijalne. Pravljenje klasa od kontinuiranih varijabli sastoji se u identificiranju intervala u kojima nezavisna varijabla ima sličnu vezu sa zavisnom varijablom. Svaki od tih intervala se uzima kao posebna dihotomna varijabla. Iako je to vrlo fleksibilan način modeliranja nelinearnih veza, pogodan je u slučaju kada nema puno varijabli jer se razredi rade ručno. Takvi su modeli jednostavniji za interpretiranje od kontinuiranih modela.

02 Kontinuirani model
Kod ovog modela se testiraju različite transformacije nezavisne kontinuirane varijable. U praksi je testirano samo nekoliko funkcija. U Experianu su testirali slijedeće: binarna 1,0 (ln), te 1/3, ½, 1. i 2. potencija. Odabire se najbolja transformacija, a to je ona koja ima najveću korelaciju sa zavisnom varijablom. Nedostajući podaci kontinuirane varijable se tretiraju tako da se kreira indikator varijabla, a ostale vrijednosti za tu kontinuiranu varijablu se zamjene artimetičkom sredinom. One varijable koje su originalno kategorijalne kao takve se i uključuju u kontinuirani model.

03 Miješani model
Ti su modeli kombinacija kontinuiranih modela i modela s klasama. Kontinuiranom modelu se dodaju vrijednosti klasificirane varijable kada je to prikladno. Ako odabrana transformacija ne daje dobru linearnu vezu, tada se razmatra mogućnost pravljenja kategorijalne varijable.

04 'Spline' model
Mali postotak varijabli nije dobro pokriven niti sa jednom od spomenutih tehnika. Imaju takvu vezu sa zavisnom varijablom da njihova transformacija ne izražava linearnu vezu, pa se onda takve varijable transformiraju spline funkcijama (polynomial piecewise kontinuirana transformacija).

Ako se analizira svaka varijabla pojedinačno, 'spline' funkcije daju najbolje rezultate, naravno, u onim slučajevima u kojima se mogu primijeniti.

Gledajući cjelokupne rezultate, razlike između izvedbi modela mjerena Kolmogorov Smirnov pokazateljem i Ginijevim koeficijentom su vrlo male, u praktičnom smislu, gotovo zanemarive.

Najvažniji zaključak je da je lakše provesti kontinuirano modeliranje uz upotrebu transformacija nego formirati klase, a rezultati su barem toliko dobri kao i kod modela s klasama.

Korisnik treba odabrati model koji mu najbolje odgovara s obzirom na ostale kriterije kao što su implementacija, software, interpretaciju rezultata itd.


Nataša Šarlija, prof.dr.sc.