Sredi podatke prije nego počneš treniranje AI modela [Savjet]

Prekini sa gomilanjem podataka: Brutalna istina o modernom AI otpadu

Prekini kupovati ‘big data’ bajke. To je marketinška laž koja će ti spržiti budžet i ostaviti te sa modelom koji je koristan koliko i drveni čekić na gradilištu. Ako misliš da ćeš samo ‘ugurati’ hiljade sirovih redova u neuronsku mrežu i dobiti genija, varaš se. Rezultat će biti skup, spor i potpuno pogrešan alat. Većina početnika pravi grešku jer juri kvantitet, dok iskusni majstori znaju da je priprema 80% posla. Ako ti je ulazni materijal truo, nikakav algoritam ga neće spasiti. Ti si taj koji mora uzeti dleto u ruke i sastrugati rđu sa svojih tabela prije nego što uopšte pomisliš na dugme ‘Train’.

Mljevenje podataka: Zašto tvoj CSV izgleda kao otpad na deponiji?

Prljavi podaci imaju specifičan miris – mirišu na izgubljeno vrijeme i preplaćene servere. Kada otvoriš taj CSV fajl, trebaš osjetiti otpor, skoro kao da stružeš staru boju sa hrastovine. Prvi korak nije analiza, nego čišćenje. Pronađi one prazne ćelije koje zjape kao rupe u krovu. Ako ih samo obrišeš, narušavaš strukturu. Ako ih pogrešno popuniš, unosiš laž u sistem. Sredi haos u Excelu prije nego što pređeš na ozbiljnije alate. Svaki ‘NULL’ koji ostaviš je potencijalni kvar u budućnosti. Ponekad je bolje imati 100 čistih redova nego milion redova gnoja koji će zbuniti tvoj model. Zapamti: smeće unutra, smeće vani. Nema prečica.

Radni sto sa laptopom i alatima za preciznu pripremu AI podataka

Normalizacija: Zašto ne smiješ miješati milimetre i kilometre

Zamisli da pokušavaš sklopiti policu koristeći mjere u inčima, centimetrima i koracima. To se dešava tvom modelu kada ne uradiš normalizaciju. Skaliranje je proces kojim sve podatke dovodiš u isti rang, obično između 0 i 1. Bez toga, jedna kolona sa velikim ciframa (npr. godišnji prihod) će potpuno ‘nadglasati’ kolonu sa malim ciframa (npr. broj djece), iako su oba podatka podjednako važna. Normalizacija za ML je tvoja libela. Bez nje, tvoj model će biti nagnut na jednu stranu. To nije samo matematička estetika; to je osiguranje da svaki neuron u mreži dobije fer priliku da uči. Koristi Min-Max scaler ili Z-score, ali nemoj to raditi napamet. Pogledaj distribuciju. Ako imaš ekstremne vrijednosti koje štrče, tvoj model će ih tretirati kao svetinju, a zapravo su to greške u kucanju.

WARNING: Nikada ne dijeli podatke na trening i test set nakon što si uradio normalizaciju na cijelom skupu. To se zove ‘data leakage’. Model će ‘vidjeti’ budućnost kroz statistiku test seta i dobićeš lažno visoku preciznost. U realnom radu, tvoj model će se srušiti jer u stvarnosti nema pristup tim informacijama. Testiraj multimetrom, ne nadom.

Anatomija jednog totalnog kvara: Šta se desi kad ostaviš outliere

Outlieri su kao čvorovi u lošem komadu drveta – ako pokušaš da prođeš kroz njih testerom, oštrica će puknuti. Jedna pogrešna nula u koloni cijena može pomjeriti prosjek toliko da tvoja logistička regresija postane potpuno beskorisna. Detekcija outlier-a nije samo brisanje ekstrema. Moraš razumjeti fiziku iza tog podatka. Da li je taj ‘skok’ stvaran ili je senzor zakazao? Ako je senzor, cupaj ga van. Ako je stvarna anomalija, možda je to najvažniji podatak koji imaš. Iskusni analitičari provedu sate gledajući scatter plot-ove dok im oči ne zasuze. Izbjegni nesvjesne greške tako što ćeš svaki ekstrem provjeriti tri puta. Mrzim raditi sa ljudima koji samo pokrenu skriptu i misle da su završili. To je amaterski pristup koji vodi do katastrofe u produkciji.

Da li moram brisati sve prazne redove?

Ne. Ponekad je činjenica da podatak nedostaje sama po sebi informacija. Ako klijent nije unio broj telefona, to može značiti da preferira e-mail komunikaciju. Umjesto brisanja, koristi ‘flag’ ili zamijeni sa medijanom, ali samo ako znaš šta radiš. Greške kod normalizacije često nastaju upravo ovdje, jer ljudi tretiraju ‘nulu’ i ‘null’ kao istu stvar. Nisu. Nula je vrijednost. Null je vakuum.

Koliko vremena trebam potrošiti na čišćenje?

Odgovor je: više nego što misliš. Ako si planirao vikend za treniranje modela, petak i subotu provedi u ‘rudniku’ podataka, a nedjelju ostavi za treniranje. Vještine koje se nauče za vikend često počinju upravo sa pravilnim rukovanjem podacima. Ne skači odmah na neuronske mreže ako ne znaš očistiti bazu.

Zašto tvoj AI laže? Fizika halucinacija

Kada čitaš o tome kako AI laže ili halucinira, to je rijetko greška u kodu, a skoro uvijek greška u podacima. Model pokušava naći šablon tamo gdje ga nema jer su podaci kontradiktorni. Ako mu daš 1000 primjera gdje je ‘A’ jednako ‘B’, a onda sakriješ 10 primjera gdje je ‘A’ zapravo ‘C’, model će se mučiti. To stvara pritisak na težine u mreži. Neuroni se ‘pregrijavaju’ metaforički rečeno, pokušavajući da zadovolje nemoguću logiku. Rezultat je model koji izmišlja stvari da bi popunio rupe u svom razumijevanju. Sredi to na izvoru. Dokumentuj svaki korak transformacije. Dokumentovanje modela nije gubljenje vremena; to je crtež instalacija prije nego što zatvoriš zid knaufom. Ako nešto pukne, moraš znati gdje je spoj.

Završni premaz: Testiranje integriteta

Prije nego što pustiš model u rad, moraš ga testirati kao što testiraš nosivost grede. Optereti ga. Ubaci mu namjerno loše podatke i vidi kako reaguje. Ako se sruši, dobro je – bar znaš gdje je granica. Ako mirno prihvati smeće i izbaci ‘rezultat’, u nevolji si. To znači da tvoj rad na čišćenju nije bio dovoljno dubok. Prati sistemske rizike i nikada ne vjeruj modelu koji ima 100% preciznost na trening setu. To nije genijalnost, to je overfitting. To je kao da si naučio napamet put do prodavnice, ali ne znaš preći ulicu ako se pojavi novi znak. Budi grub prema svom modelu. On je alat, a alati moraju trpiti pritisak. Ako si sretan sa onim što si napravio, provjeri još jednom. Negdje si nešto zaboravio. Sigurno.

Slični tekstovi

Osnove AI i Mašinskog Učenja
Popravi preciznost modela: Koristi L1 i L2 tehnike [Vodič]
ByMarko Ilić 8 Februara, 2026
Prestanite kupovati priče o ‘savršenim arhitekturama’ koje se prodaju na LinkedInu. To je marketinška laž koja će tvoj model pretvoriti u prenapuhanu hrpu smeća onog trenutka kada dotakne stvarne podatke. Ako tvoj model ima 99% preciznosti na treningu, a pada na ispitu čim ga pustiš u divljinu, tvoj problem nije nedostatak podataka, već tvoja nesposobnost…
Read More Popravi preciznost modela: Koristi L1 i L2 tehnike [Vodič]
Osnove AI i Mašinskog Učenja
Kako koristiti neuronsku mrežu da jednostavno objasnite veštačku inteligenciju
ByMarko Ilić 29 Decembra, 2025
Uvod i prvi utisci Razumevanje neuronskih mreža često predstavlja izazov za početnike u svetu veštačke inteligencije. Kao neko ko se bavi ovom temom dugi niz godina, mogu da kažem da je ključno razjasniti osnove i povezati ih sa svakodnevnim primerima. U ovom tekstu ću koristiti kriterijume kao što su jasnoća objašnjenja, praktične primene i tehnička…
Read More Kako koristiti neuronsku mrežu da jednostavno objasnite veštačku inteligenciju
Osnove AI i Mašinskog Učenja
Mašinsko učenje naspram dubokog učenja uz primer naručivanja pice
ByMarko Ilić 6 Januara, 2026
Sećam se, bila je to subota uveče. I onaj specifičan osećaj “šta večeras jedemo?” se uvukao u vazduh. Nakon nedelju dana disciplinovane ishrane i napornih treninga, u mojoj glavi je počela borba između želje za grešnim zadovoljstvom i cilja da skinem par kilograma. A onda mi je sinula ideja! Pa ja sam, zaboga, stručnjak za…
Read More Mašinsko učenje naspram dubokog učenja uz primer naručivanja pice
Osnove AI i Mašinskog Učenja
Precizno mašinsko učenje: Fix za data imbalance greške
ByMarko Ilić 21 Januara, 2026
Moja ispovijest: Kako me je 99% preciznosti zamalo koštalo posla Prvi put kada sam radio na modelu za detekciju bankarskih prevara, bio sam oduševljen. Moj model je pokazivao nevjerovatnih 99,8% preciznosti (accuracy). Mislio sam da sam genije. Međutim, kada smo model pustili u testno okruženje, propustio je svaku stvarnu prevaru. Zašto? Zato što je 99,8%…
Read More Precizno mašinsko učenje: Fix za data imbalance greške
Osnove AI i Mašinskog Učenja
Python ML Biblioteke: Neophodni Alati za Mašinsko Učenje u 2024.
ByMarko Ilić 14 Januara, 2026
Python ML Biblioteke: Neophodni Alati za Mašinsko Učenje u 2024. Ponovo? Znam, znam. Svaki put kad se pomene mašinsko učenje, čini se da se pojavi nova biblioteka, novi framework, nova filozofija. Nije ni čudo što mnogi, kad vide tu lavinu alata, jednostavno dignu ruke. Taj osjećaj, oštar, režeći, da ste opet na početku, da ne…
Read More Python ML Biblioteke: Neophodni Alati za Mašinsko Učenje u 2024.
Osnove AI i Mašinskog Učenja
Primjena logističke regresije: Kako je koristiti za analizu podataka u AI projektima.
ByMarko Ilić 10 Januara, 2026
Primjena logističke regresije: Kako je koristiti za analizu podataka u AI projektima. Zamislite ovo: sjedite, gledate u ekran, ispred vas hrpa sirovih podataka. Rok se približava, a vi trebate predvidjeti binarni ishod. Hoće li klijent kupiti? Hoće li kredit biti odobren? Hoće li se AI model ispravno ponašati ili će, poput nekih, razviti ono što…
Read More Primjena logističke regresije: Kako je koristiti za analizu podataka u AI projektima.

2 Comments

Potpuno se slažem s ovom pričom o čišćenju i pripremi podataka prije treniranja AI modela. Često sam sama prošla kroz frustraciju zbog ignorisanja ove ključne faze, a rezultati su uvijek bili lošiji nego što sam očekivala. Uvijek pokušavam da uključim detaljno proći kroz podatke, posebno one ‘NULL’ vrijednosti ili outliere, jer mislim da je to često ključ do boljeg modela. I šta je važno, to ne traje toliko dugo ako se napravi rutina, a uštediš mnogo vremena na debuggingu kasnije. Često se pitam, koja je najefikasnija metoda za brzo očistiti velike skupove podataka bez gubljenja previše informacija? Ima li neko iskustva s alatima ili skriptama koje su već dokazane u brzi rad? Mislim da bi većina početnika trebala da se fokusira na ovo kao na prvi korak, jer bez dobrih ulaznih podataka, sve ostalo pada u vodu.

Komentariši

Amra Husic kaže:
19 Februara, 2026 u 6:00 pm
Potpuno se slažem da se bez dobrih priprema podataka nema ni uspeha sa modelima. Često radim na raznim projektima i iskustvo mi je pokazalo da je baš taj faza čišćenja i normalizacije ključna za dobijanje pouzdanih rezultata. Međutim, izazov je često u izradi automatizovanih skripti koje će efikasno odraditi te procese bez gubljenja bitnih informacija. Ja sam uglavnom koristila Python s bibliotekama poput Pandas i NumPy, što je omogućavalo da se veliki skupovi podataka precizno i brzo sredjuju. Da li imate preporuke za još efikasne alate ili pristupe za rad sa ogromnim datasetovima? I koliko je važno, po vašem mišljenju, dokumentovati svaki deo procesa kako bi se izbjegle greške u složenijim projektima? Ova tema je definitivno pravi izazov, posebno za one koji tek ulaze u svet AI.
Komentariši