Napravi čist dataset za AI bez greške (Vodič za vikend)
Zašto tvoj dataset smrdi (i koliko te to košta)
Prosječna firma baci 30% budžeta na popravljanje loših AI odgovora jer su im podaci obični gnoj. Ti imaš vikend i par sati slobodnog vremena. To je dovoljno da napraviš dataset koji ne smrdi na halucinacije, pod uslovom da znaš kako se drži digitalna turpija. Ako misliš da je dovoljno ‘provući kroz ChatGPT’, odmah odustani. Kvalitetan dataset se pravi u rovovima, šmirglanjem red po red. 200 maraka lumbera je ništa, znanje kako da ih ne iskriviš je sve. Ovdje dobijaš to znanje besplatno, pod pretpostavkom da znaš upaliti terminal bez straha. Izgubljeni sati na lošim modelima su skuplji od bilo kog kursa. Isplati se odmah. 
Zašto Excel nije alat nego tempirana bomba za tvoje podatke
Prvi instinkt početnika je da otvori Excel. Velika greška. Excel voli da ‘pametuje'—pretvara tvoje serijske brojeve u datume i uništava UTF-8 kodiranje bez upozorenja. Kad tvoj AI model počne da izbacuje kuke i motike umjesto slova ‘š’ i ‘ć’, sjetićeš se ovog teksta. Koristi VS Code ili obični Notepad++. Treba ti sirov, čist tekst koji miriše na logiku, a ne na korporativne tabele. Osjetit ćeš pod prstima otpor neurednog CSV fajla. Gnjecav je, pun praznih polja i duplih zareza. To moraš isprati.
Da li stvarno moram čistiti svaki red?
Da. Odmah. Bez pitanja. Ako ostaviš smeće, model će naučiti smeće. To se zove ‘Garbage In, Garbage Out’. Prvo provjeri kodiranje fajla. Mora biti UTF-8. Ako vidiš čudne simbole, tvoj dataset je već truo iznutra.
Struganje sirovine: Kako iščupati tekst bez digitalne rđe
Kada sakupljaš podatke sa interneta (scraping), tvoj najveći neprijatelj je HTML smeće. Tagovi, skripte, i reklame su kao rđa na starom gvožđu. Ako ih ne očistiš, tvoj AI će misliti da je ‘Subscribe to our newsletter’ ključna informacija o nuklearnoj fizici.
UPOZORENJE: Ne pokreći skripte za scraping bez pauze od bar 2 sekunde između zahtjeva. Admini će ti blokirati IP adresu brže nego što stisneš Enter, a tvoj provajder će ti poslati čestitku.
Koristi Python biblioteke kao što su BeautifulSoup, ali ne vjeruj im slijepo. Ponekad moraš ručno, upotrebom Regex-a (regularnih izraza), iščupati višak. Regex boli. Oči će ti suziti od gledanja u simbole kao što su `[a-z0-9._%+-]`. Ali to je miris zanata. Kad jednom ‘pogodiš’ pravu formulu, smeće otpada kao suvo blato sa čizama. Koristi sed ili awk ako si na Linuxu. Brzo je. Moćno je.
Deduplikacija: Zašto je duplo gore nego ništa
Dupli podaci su kao čvor u drvetu—izgledaju čvrsto, ali će ti slomiti alat. Ako AI vidi istu rečenicu deset puta, on će postati opsjednut njom. To se zove overfitting. Dataset mora biti raznolik. Ja sam proveo 14 minuta pišući skriptu koja provjerava ‘Levensthein distance’ između rečenica. Ako su dvije rečenice 95% slične, jedna leti napolje. Nema milosti. Tvoj dataset mora biti mišićav, bez sala. Manje je više. Ako imaš 10.000 čistih redova, to je bolje od milion redova smeća. Vjeruj mi. Vidio sam modele kako pucaju zbog jedne duple baze.
The Anatomy of a Screw-Up: Kako sam uništio 48 sati rada
Desilo mi se. Bio sam lijen. Nisam provjerio konzistentnost labela. Jedan dan sam pisao ‘AI_Savjet’, drugi dan ‘ai-savjet’. Za mašinu, to su dvije potpuno različite planete. Šest mjeseci kasnije, model je počeo da halucinira jer nije mogao povezati te dvije kategorije. Rezultat? Potpuni kolaps logike. Drvo je puklo uzduž godova jer nisam koristio ‘countersink’ za svoje labele. Ako tvoje kategorije nisu identične do zadnjeg karaktera, tvoj dataset je neupotrebljiv. Sve što si radio ide u smeće. Popravka toga traje tri puta duže nego da si uradio kako treba iz prve. Ne budi kao ja. Budi precizan.
Zašto It Works: Fizika tokenizacije i UTF-8 magija
Vrijeme je za malo nauke. AI ne čita riječi, on čita tokene. To su brojevi koji predstavljaju dijelove teksta. Ako tvoj dataset ima ‘nevidljive’ karaktere (BOM markere ili čudne space-ove), tokenizator će poludjeti. PVA ljepilo prodire u vlakna drveta jer su pore otvorene. Čisti podaci prodiru u težinske faktore modela jer nema šuma. Ako imaš smeće, tokenizator troši memoriju na gluposti umjesto na značenje. To je čista fizika efikasnosti. Što je podatak čišći, to je ‘grip’ modela jači.
Koji alat je najbolji za početnika?
VS Code sa ‘Rainbow CSV’ ekstenzijom. Vidiš greške u boji. Odmah.
Završno poliranje: Testiranje dataset-a prije ‘pečenja’
Kad misliš da si gotov, nisi. Uzmi nasumičnih 50 redova. Pročitaj ih naglas. Ako zvuče glupo tebi, zvučaće glupo i modelu. AI je tvoje ogledalo. Ako mu daš iskrivljeno staklo, slika će biti nakaradna. Provjeri balans kategorija. Ako imaš 90% podataka o mačkama i 10% o psima, tvoj AI će za svaku životinju reći da mjauče. To se ne popravlja u kodu, to se popravlja u šumi podataka. Gurni podatke, zategni šarafe, i tek onda pusti trening. Trajaće. Boljeće. Ali rezultat će biti stabilan kao hrastov sto. Nemoj štedjeti na trudu u ovoj fazi. Kasnije je kasno. Sretno s turpijanjem.

Ovaj vodič za pravljenje kvalitetnog datasets-a je zaista vrijedan, posebno za one koji tek ulaze u svijet AI i žele izbjegavati skupe greške. Slažem se da je ručno čišćenje podataka često mukotrpno, ali je i najefikasnija metoda za postizanje tačnosti modela. Meni je posebno bio drag savjet za korištenje Notepad++ umjesto Excela, jer je ovo često zanemaren trik, a izuzetno je koristan. Kada sam ja radio na svom projektu, naišao sam na sličan problem sa dupliciranim podacima i bio sam iznenađen koliko jednostavna skripta za izdvajanje unakrsnih sličnosti može ubrzati proces. Koje dodatne alate preporučujete za automatizaciju ovih procesa u svakom koraku izrade data seta, da li imate neke preporuke?”