Pravilno splitovanje podataka za AI: Vodič za početnike
Mit o 80/20: Zašto je tvoj ‘savršeni’ split zapravo smeće
Prestanite slijepo pratiti pravilo 80/20. To je lijen marketing koji će vam uništiti model čim izađe iz vašeg ‘savršenog’ laboratorija na svjetlo dana. Vi mislite da ste uradili dobar posao, ali ste zapravo napravili digitalnu krntiju koja radi samo dok je u garaži. Ako želite da vaš AI preživi u 2026. godini, morate prestati tretirati podatke kao homogenu masu koju samo nasumično prepolovite sjekirom.
Istina je brutalna: nasumični split (random split) je najbrži put do halucinacija i lažnog osjećaja sigurnosti. Vidio sam previše projekata gdje su ‘eksperti’ mislili da imaju 99% preciznosti, a zapravo su samo naučili model da prepozna šum u kablovima, a ne stvarne obrasce. Vaš model nije pametan; on je samo dobar u varanju ako mu vi to dopustite. Ako ne razumijete fiziku iza distribucije, vaši rezultati su samo statistička fatamorgana.
Precizni alati: Train, Validation i Test setovi kao temelj radionice
U ovoj radionici ne koristimo tupe alate. Za svaki AI model trebaju vam tri jasne particije. Ne dvije. Tri. Train set je vaša sirova daska koju obrađujete. Validation set je vaš metar kojim provjeravate da li ste ravno odsjekli. Test set je finalni kupac koji će vam reći da li polica drži teret ili se raspada pod prvom knjigom.
Train set mora sadržavati srž problema, ali bez ‘prljavih’ curenja informacija. Validation set koristite za fine-tuning hiperparametara. Ali, pamtite ovo: onog trenutka kada promijenite parametar na osnovu Validation seta, taj set prestaje biti nevin. On postaje dio trening procesa. Zato vam treba Test set – onaj koji stoji zaključan u metalnom ormaru do samog kraja. Ako ga otvorite ranije, kontaminirali ste cijeli projekat. Bacite sve i krenite ispočetka. Ozbiljno. 
Mogu li koristiti samo Train i Test set?
Ne. Ako koristite samo Test set za evaluaciju dok još uvijek ‘čačkate’ po kodu, vi zapravo trenirate svoj model da se prilagodi tom testu. To se zove ‘overfitting na test set’ i to je amaterska greška koja košta hiljade eura u produkciji. U 2026. godini, bez jasnog Validation seta, niko vas neće shvatiti ozbiljno u AI industriji.
UPOZORENJE: DATA LEAKAGE (CURENJE PODATAKA)
Dodirivanje Test seta prije finalne evaluacije je kao da gledate odgovore na poleđini testa prije nego što počnete pisati. Multimetar će vam pokazati nulu, ali će vas struja spržiti čim pustite model u rad. 120v podataka može spržiti vašu reputaciju brže nego što mislite.
Stratifikacija: Kako da ti podaci ne budu nagnuti kao loše skovana polica
Kada razvalite bazu podataka, morate osigurati da svaki komad nosi isti procenat ključnih informacija. Ako pravite model koji prepoznaje bolesti, a u trening setu imate 90% zdravih ljudi, vaš model će jednostavno naučiti da svima kaže da su zdravi. To nije AI, to je lijenost. Stratifikacija je proces gdje osiguravate da omjer klasa ostane identičan u svakom splitu.
Ja sam potrošio 45 minuta stružući smeće iz jedne baze samo da bih shvatio da je originalni split bio pristrasan prema podacima prikupljenim subotom popodne. Podaci imaju memoriju, a ta memorija je često puna predrasuda. Koristite stratifikovane splitove iz scikit-learn biblioteke ili pišite svoje custom skripte ako radite sa vremenskim serijama. Ne dozvolite da vam model postane rasista ili seksista samo zato što ste bili previše lijeni da provjerite distribuciju u Validation setu.
Anatomija katastrofe: Kako overfitting pojede tvoj trud za doručak
Zamislite da ste napravili policu koja savršeno drži jedan specifičan čekić, ali se sruši čim na nju stavite šrafciger. To je overfitting. Vaš model je ‘zapamtio’ trening podatke umjesto da je naučio ‘zakone’ koji njima upravljaju. To se dešava kada vam je Training gubitak (loss) nizak, a Validation gubitak skače u nebesa kao cijena struje u januaru.
Rješenje? Regularizacija, ranije zaustavljanje (early stopping) i – najvažnije – više podataka. Ali ne bilo kakvih podataka. Trebaju vam ‘teški’ podaci, oni koji tjeraju model da se znoji. Ako vam model prebrzo nauči sve, nešto nije u redu. Vjerovatno imate curenje labela ili vam je problem previše jednostavan. Pravi rad zahtijeva otpor. Ako nema otpora, nema ni učenja. Don't buy the hype. Provjerite metrike tri puta.
Fizika kajanja: Zašto podaci ‘trunu’ u skladištu
Podaci se mijenjaju. Ono što je važilo 2024. godine, u 2026. je zastarjelo kao dial-up modem. Ako splitujete podatke bez obzira na vrijeme (Time-series split), pravite fundamentalnu grešku. Ne možete koristiti podatke iz decembra da predvidite šta se desilo u januaru. To je kršenje kauzalnosti. To je digitalno putovanje kroz vrijeme koje ne završava dobro.
Uvijek koristite ‘rolling window’ ili ‘expanding window’ split za vremenske serije. Zamislite to kao zidanje zida – donji red cigli mora biti čvrst prije nego što stavite gornji. Ako pokušate ugurati ciglu iz budućnosti u temelj, cijela struktura će se srušiti pod sopstvenom težinom. Moj komšija je pokušao predvidjeti cijene kriptovaluta koristeći nasumični split. Izgubio je 3000 KM jer je model ‘vidio’ budućnost tokom treninga. Nemojte biti taj lik.
Kako izbjeći degradaciju modela nakon splita?
Pratite drift podataka. Čim primijetite da se distribucija u produkciji razlikuje od one u vašem Test setu za više od 5%, vaš split je postao nebitan. Morate ponovo uzeti alat u ruke, prikupiti nove uzorke i uraditi cijeli proces ispočetka. AI nije ‘postavi i zaboravi’ sistem; to je mašina koju treba podmazivati svakih par hiljada kilometara.
Finalni pregled: Tvoja check-lista prije nego što pritisneš ‘Run’
Prije nego što pustite skriptu da radi cijelu noć, prođite kroz ovo. Da li si uklonio duplikate? Ako se isti podatak nađe i u Train i u Test setu, ti ne testiraš, ti prepisuješ. Da li si stratifikovao po ciljnoj varijabli? Da li si osigurao da nema curenja informacija (npr. ID brojevi pacijenata koji odaju kliniku)?
Ovaj posao je prljav. Boljeće vas glava od koda, a oči će vas peći od gledanja u CSV tabele. Ali to je cijena kvaliteta. Slather the logic on thick—don't be shy. Ako želite model koji zapravo radi, a ne samo da lijepo izgleda na prezentaciji, uradite split kako treba. Kao što stari majstori kažu: dvaput mjeri, jednom sijeci. U AI svijetu: deset puta provjeri split, jednom treniraj.

