Šta je AUC-ROC kriva i kako se interpretira?
AUC-ROC Kriva: Kako da znaš da li tvoj AI model zaista razume svijet (ili samo nagađa)?
Zamislite ovo: imaš novi AI model. Svi ti govore kako je revolucionaran, kako mijenja paradigme… Ali, kad pogledaš rezultate, nekako ti se čini da nešto ‘škripi’. Da li model zaista zna o čemu priča, ili je samo pametno pogađanje? Kako da to izmjeriš?
Ako si nekad pokušao da razumiješ kako tvoj AI model procjenjuje, recimo, da li je mušterija iz Bijeljine spremna da kupi novi proizvod, ili da li je neka slika mačka ili pas, vjerovatno si se susreo sa pojmom kao što je ‘preciznost’ ili ‘tačnost’. Ali, često to nije dovoljno. Ponekad je važno ne samo koliko je model tačan, već i kako se ponaša u ‘sivoj zoni’ – koliko dobro razdvaja stvari kad nije 100% siguran.
Tajna fudbalskog selektora: Šta je ROC kriva?
Da bismo objasnili ROC krivu, zamislimo da si fudbalski selektor reprezentacije Bosne i Hercegovine. Pred tobom je stotine mladih talenata iz svih krajeva, od Tuzle do Trebinja. Tvoj zadatak je da prepoznaš one koji su stvarno dobri i da ih pozoveš u juniorski tim.
Ti postavljaš neki svoj interni kriterijum, ili ‘prag’. Recimo, odlučiš da su ‘dobri’ svi oni koji mogu da urade 50 trbušnjaka i da pretrče 100 metara za manje od 12 sekundi. Evo šta se dešava:
- Tačni Pozitivni (True Positives, TP): Oni koji zaista jesu dobri talenti, a ti si ih ispravno prepoznao. Super!
- Lažni Pozitivni (False Positives, FP): Oni koji zapravo nisu top talenat, ali su ispunili tvoje kriterijume i ti si ih pozvao u tim. E, to su ti igrači koje ćeš možda morati da otpustiš kasnije.
- Tačni Negativni (True Negatives, TN): Oni koji nisu dobri talenti, i ti ih nisi pozvao. Dobro si procijenio.
- Lažni Negativni (False Negatives, FN): E, ovo je bolno! To su oni super-talenti koje si propustio jer nisu ispunili tvoj prag, a bili su zapravo sjajni. Budući Džeko ili Pjanić, a ti ih nisi vidio!
ROC kriva ti pokazuje odnos između toga koliko si ‘dobrih’ igrača uspješno identifikovao (to je Stopa tačnih pozitivnih – True Positive Rate, TPR) i koliko si ‘loših’ igrača greškom prepoznao kao dobre (to je Stopa lažnih pozitivnih – False Positive Rate, FPR).
Ako si vrlo opušten sa pragom (pozivaš skoro svakoga ko zna da šutne loptu), imaćeš visok TPR (uhvatićeš sve talente), ali i visok FPR (pozvaćeš i mnogo onih koji to nisu). Ako si vrlo strog, propustićeš neke dobre (nizak TPR), ali ćeš imati malo grešaka (nizak FPR). ROC kriva je grafikon koji ti pokazuje SVE te kompromise, za svaki mogući prag koji postaviš.
AUC: Površina ispod krive koja otkriva sve
E, tu na scenu stupa AUC (Area Under the Curve). To je, jednostavno rečeno, površina ispod te ROC krive koju smo upravo opisali. Što je ta površina veća, to je tvoj model (ili tvoje ‘oko’ fudbalskog selektora) bolji u razdvajanju pravih talenata od prosječnih. Što je AUC veći, to tvoj model bolje ‘razumije’ razlike između grupa, bez obzira na to koji prag odlučiš da postaviš.
- AUC = 0.5: Ovo je kao da bacaš novčić. Model nagađa, jednako je dobar kao da ti je baba Ruža rekla da pogodiš ko će biti sljedeći Mesi. Ne valja.
- AUC između 0.7 i 0.8: Model je okej. Solidan selektor. Može da se radi sa njim, ali ima prostora za napredak.
- AUC između 0.8 i 0.9: Dobar! Model odlično razdvaja klase. Kao Venger u najboljim danima, prepoznaje talenat.
- AUC preko 0.9: Odličan! Tvoj model je skoro savršen u svom zadatku, pravi
