Napravi čist dataset za AI bez greške (Vodič za vikend)

Zašto tvoj dataset smrdi (i koliko te to košta)

Prosječna firma baci 30% budžeta na popravljanje loših AI odgovora jer su im podaci obični gnoj. Ti imaš vikend i par sati slobodnog vremena. To je dovoljno da napraviš dataset koji ne smrdi na halucinacije, pod uslovom da znaš kako se drži digitalna turpija. Ako misliš da je dovoljno ‘provući kroz ChatGPT’, odmah odustani. Kvalitetan dataset se pravi u rovovima, šmirglanjem red po red. 200 maraka lumbera je ništa, znanje kako da ih ne iskriviš je sve. Ovdje dobijaš to znanje besplatno, pod pretpostavkom da znaš upaliti terminal bez straha. Izgubljeni sati na lošim modelima su skuplji od bilo kog kursa. Isplati se odmah. Čišćenje AI dataseta na drvenom stolu sa alatima

Zašto Excel nije alat nego tempirana bomba za tvoje podatke

Prvi instinkt početnika je da otvori Excel. Velika greška. Excel voli da ‘pametuje'—pretvara tvoje serijske brojeve u datume i uništava UTF-8 kodiranje bez upozorenja. Kad tvoj AI model počne da izbacuje kuke i motike umjesto slova ‘š’ i ‘ć’, sjetićeš se ovog teksta. Koristi VS Code ili obični Notepad++. Treba ti sirov, čist tekst koji miriše na logiku, a ne na korporativne tabele. Osjetit ćeš pod prstima otpor neurednog CSV fajla. Gnjecav je, pun praznih polja i duplih zareza. To moraš isprati.

Da li stvarno moram čistiti svaki red?

Da. Odmah. Bez pitanja. Ako ostaviš smeće, model će naučiti smeće. To se zove ‘Garbage In, Garbage Out’. Prvo provjeri kodiranje fajla. Mora biti UTF-8. Ako vidiš čudne simbole, tvoj dataset je već truo iznutra.

Struganje sirovine: Kako iščupati tekst bez digitalne rđe

Kada sakupljaš podatke sa interneta (scraping), tvoj najveći neprijatelj je HTML smeće. Tagovi, skripte, i reklame su kao rđa na starom gvožđu. Ako ih ne očistiš, tvoj AI će misliti da je ‘Subscribe to our newsletter’ ključna informacija o nuklearnoj fizici.

UPOZORENJE: Ne pokreći skripte za scraping bez pauze od bar 2 sekunde između zahtjeva. Admini će ti blokirati IP adresu brže nego što stisneš Enter, a tvoj provajder će ti poslati čestitku.

Koristi Python biblioteke kao što su BeautifulSoup, ali ne vjeruj im slijepo. Ponekad moraš ručno, upotrebom Regex-a (regularnih izraza), iščupati višak. Regex boli. Oči će ti suziti od gledanja u simbole kao što su `[a-z0-9._%+-]`. Ali to je miris zanata. Kad jednom ‘pogodiš’ pravu formulu, smeće otpada kao suvo blato sa čizama. Koristi sed ili awk ako si na Linuxu. Brzo je. Moćno je.

Deduplikacija: Zašto je duplo gore nego ništa

Dupli podaci su kao čvor u drvetu—izgledaju čvrsto, ali će ti slomiti alat. Ako AI vidi istu rečenicu deset puta, on će postati opsjednut njom. To se zove overfitting. Dataset mora biti raznolik. Ja sam proveo 14 minuta pišući skriptu koja provjerava ‘Levensthein distance’ između rečenica. Ako su dvije rečenice 95% slične, jedna leti napolje. Nema milosti. Tvoj dataset mora biti mišićav, bez sala. Manje je više. Ako imaš 10.000 čistih redova, to je bolje od milion redova smeća. Vjeruj mi. Vidio sam modele kako pucaju zbog jedne duple baze.

The Anatomy of a Screw-Up: Kako sam uništio 48 sati rada

Desilo mi se. Bio sam lijen. Nisam provjerio konzistentnost labela. Jedan dan sam pisao ‘AI_Savjet’, drugi dan ‘ai-savjet’. Za mašinu, to su dvije potpuno različite planete. Šest mjeseci kasnije, model je počeo da halucinira jer nije mogao povezati te dvije kategorije. Rezultat? Potpuni kolaps logike. Drvo je puklo uzduž godova jer nisam koristio ‘countersink’ za svoje labele. Ako tvoje kategorije nisu identične do zadnjeg karaktera, tvoj dataset je neupotrebljiv. Sve što si radio ide u smeće. Popravka toga traje tri puta duže nego da si uradio kako treba iz prve. Ne budi kao ja. Budi precizan.

Zašto It Works: Fizika tokenizacije i UTF-8 magija

Vrijeme je za malo nauke. AI ne čita riječi, on čita tokene. To su brojevi koji predstavljaju dijelove teksta. Ako tvoj dataset ima ‘nevidljive’ karaktere (BOM markere ili čudne space-ove), tokenizator će poludjeti. PVA ljepilo prodire u vlakna drveta jer su pore otvorene. Čisti podaci prodiru u težinske faktore modela jer nema šuma. Ako imaš smeće, tokenizator troši memoriju na gluposti umjesto na značenje. To je čista fizika efikasnosti. Što je podatak čišći, to je ‘grip’ modela jači.

Koji alat je najbolji za početnika?

VS Code sa ‘Rainbow CSV’ ekstenzijom. Vidiš greške u boji. Odmah.

Završno poliranje: Testiranje dataset-a prije ‘pečenja’

Kad misliš da si gotov, nisi. Uzmi nasumičnih 50 redova. Pročitaj ih naglas. Ako zvuče glupo tebi, zvučaće glupo i modelu. AI je tvoje ogledalo. Ako mu daš iskrivljeno staklo, slika će biti nakaradna. Provjeri balans kategorija. Ako imaš 90% podataka o mačkama i 10% o psima, tvoj AI će za svaku životinju reći da mjauče. To se ne popravlja u kodu, to se popravlja u šumi podataka. Gurni podatke, zategni šarafe, i tek onda pusti trening. Trajaće. Boljeće. Ali rezultat će biti stabilan kao hrastov sto. Nemoj štedjeti na trudu u ovoj fazi. Kasnije je kasno. Sretno s turpijanjem.

Slični tekstovi

Osnove AI i Mašinskog Učenja
Razlika između AI mašinskog učenja i dubokog učenja: Ključne razlike za početnike
ByMarko Ilić 26 Decembra, 2025
Razlika između AI mašinskog učenja i dubokog učenja: Ključne razlike za početnike Zašto je ovo teško? Istina o razlici koja zbunjuje mnoge Da li ste se ikada zapitali šta je razlika između veštačke inteligencije, mašinskog učenja i dubokog učenja? Mnogi početnici se osećaju zbunjeno kada pokušavaju da razumeju ove pojmove, jer zvuče slično, ali imaju…
Read More Razlika između AI mašinskog učenja i dubokog učenja: Ključne razlike za početnike
Osnove AI i Mašinskog Učenja
Attention Mechanism u AI: Razumijevanje Konteksta za Bolje Modele.
ByMarko Ilić 14 Januara, 2026
Glavobolja Zaborava: Zašto Naši Modeli Nisu ‘Čuli’ Sve? Zamislite ovo: sjedite, gledate u monitor, a vaši AI modeli, bez obzira na trud, jednostavno propuštaju kontekst. Osjećaj je poznat, frustrirajući. U svijetu gdje veštačka inteligencija objašnjena na jednostavan način obećava čuda, ponekad se čini da radite sa nekim ko samo sluša prvu rečenicu, a ostatak ignoriše….
Read More Attention Mechanism u AI: Razumijevanje Konteksta za Bolje Modele.
Osnove AI i Mašinskog Učenja
Napravi STEM set kod kuće uz AI [Budžet do 20 KM]
ByMarko Ilić 10 Februara, 2026
Kompletni STEM setovi u prodavnicama koštaju preko 150 KM, dok njihova stvarna vrijednost u plastici i žicama rijetko prelazi desetinu te cijene. Vi plaćate brendiranu kutiju i loše napisan priručnik. Ako imate 20 KM, stari pametni telefon i popodne slobodnog vremena, možete napraviti AI-pokretanu stanicu za prepoznavanje objekata koja je pametnija od bilo čega što…
Read More Napravi STEM set kod kuće uz AI [Budžet do 20 KM]
Osnove AI i Mašinskog Učenja
Sve o RNN i LSTM mrežama i kako predvideti kretanje cena na berzi
ByMarko Ilić 7 Januara, 2026
Ah, dobrodošli u StatLand, mesto gde se brojevi igraju, algoritmi plešu, a veštačka inteligencija priča priče! Naš dragi prijatelj, StatSquatch, poznat po svom srcu većem od standardne devijacije i optimizmu koji prkosi svakom outliersu, nedavno je doživeo klasičnu priču o brzom bogaćenju… ili, u njegovom slučaju, brzom osiromašenju. StatSquatch je, naime, uložio svoju poslednju paru…
Read More Sve o RNN i LSTM mrežama i kako predvideti kretanje cena na berzi
Osnove AI i Mašinskog Učenja
Spoji mozak i računar: Šta interfejsi znače za nas u 2026?
ByMarko Ilić 20 Februara, 2026
Prestanite vjerovati u marketinške bajke da je povezivanje mozga sa računarom rezervisano samo za milijardere sa čipovima u lobanji. To je laž koju vam prodaju da bi opravdali visoke cijene dionica. Istina je mnogo prljavija i uzbudljivija: do 2026. godine, pravi proboj se dešava u garažama, gdje DIY entuzijasti koriste nosive senzore i Python skripte…
Read More Spoji mozak i računar: Šta interfejsi znače za nas u 2026?
Osnove AI i Mašinskog Učenja
Razumijevanje Beam Search algoritma u generisanju teksta na jednostavan način
ByMarko Ilić 23 Januara, 2026
Moja ispovijest: Kako sam proveo 12 sati debugirajući ‘beskonačnu petlju’ Kada sam prvi put pokušao napraviti jednostavnu skriptu za generisanje teksta koristeći GPT-2 modele, napravio sam klasičnu grešku početnika. Koristio sam takozvani Greedy Search. Moj bot je počeo rečenicu sasvim solidno, ali je završio u beskonačnom krugu ponavljanja: ‘Ja volim programirati jer volim programirati jer…
Read More Razumijevanje Beam Search algoritma u generisanju teksta na jednostavan način

One Comment

Ovaj vodič za pravljenje kvalitetnog datasets-a je zaista vrijedan, posebno za one koji tek ulaze u svijet AI i žele izbjegavati skupe greške. Slažem se da je ručno čišćenje podataka često mukotrpno, ali je i najefikasnija metoda za postizanje tačnosti modela. Meni je posebno bio drag savjet za korištenje Notepad++ umjesto Excela, jer je ovo često zanemaren trik, a izuzetno je koristan. Kada sam ja radio na svom projektu, naišao sam na sličan problem sa dupliciranim podacima i bio sam iznenađen koliko jednostavna skripta za izdvajanje unakrsnih sličnosti može ubrzati proces. Koje dodatne alate preporučujete za automatizaciju ovih procesa u svakom koraku izrade data seta, da li imate neke preporuke?”

Komentariši