Kako riješiti problem neuravnoteženih podataka (Data Imbalance)?
Neuravnoteženi podaci: Zašto ti AI model ‘ne radi’ i kako to popraviti?
Znaš ono kad se namučiš, pripremiš podatke, treniraš AI model, a on… ništa? Ili, još gore, radi ‘kako-tako’, ali propušta baš ono što je najvažnije? Kao onaj majstor za klime iz Beograda koji sve super namjesti, ali zaboravi da spoji cijev za odvod kondenzata, pa ti voda kaplje po zidu. Frustrirajuće, zar ne?
Često, problem nije u tvom znanju ili u samom algoritmu. Krivac može biti nešto mnogo podmuklije: **neuravnoteženi podaci**, ili kako se stručno kaže, Data Imbalance. To je situacija kada jedna klasa podataka ima mnogo, mnogo više primjera nego druga. I vjeruj mi, ovo je jedna od najčešćih glavobolja u svijetu mašinskog učenja.
Zamislite da ocjenjujete golmana koji je na odmoru
Da ti objasnim kroz primjer: Zamisli da imaš golmana u fudbalu. Njegova ekipa je toliko dominantna da protivnička ekipa šutne na gol možda jednom u deset utakmica. Ovaj golman, logično, ima skoro 100% uspješnost u odbranama – jer skoro nikad nema priliku da pogriješi! Ako ga ocjenjuješ samo po procentu odbrana, mislio bi da je najbolji na svijetu. Ali, šta se desi kad mu dođe ta rijetka prilika? Možda propusti baš taj jedan šut.
Slično je i sa tvojim AI modelom. Ako ga učiš na podacima gdje je, recimo, 99% slučajeva da nema prevare u transakcijama, a samo 1% da prevara postoji (što je realan scenario u bankarstvu, recimo u kreditnoj kući u Banjaluci), tvoj model će naučiti samo da kaže:
