Kako AI čita tekst? Shvati NLP osnove na lakom primeru

Godišnje se baci preko 500 milijardi dolara na loše procesirane podatke jer ljudi misle da AI ‘razumije’ jezik kao ti i ja. To je čista laž. Vi to plaćate svojim vremenom i živcima. Ako mislite da ChatGPT osjeća vašu tugu ili prepoznaje sarkazam jer je pametan, varate se. On je samo vrlo precizan statistički mlin koji melje slova u brojeve. Vi morate razumjeti tu mašinu ako želite da njome upravljate, a ne da ona upravlja vama.

Tokenizacija: Zašto AI sjecka tvoj tekst kao cirkularom

Zamislite da imate komad stare hrastovine. Ne možete ga ugurati u mali prorez bez da ga isiječete na komade. AI radi isto. Prvi korak NLP-a (Natural Language Processing) je tokenizacija. Mašina uzima vašu rečenicu i sjecka je na ‘tokene’. To nisu uvijek cijele riječi. Ponekad su to samo dijelovi riječi, sufiksi ili čak interpunkcija. Čućete zujanje procesora dok on razbija ‘programiranje’ na ‘program’ i ‘iranje’. To je sirov posao. Bez ovog ‘rezanja’, model bi se zagušio. Ako želite vidjeti kako to izgleda u praksi, pogledajte naš vodič o tome kako instalirati lokalni LLM i testirati njegove granice. Svaki token ima svoj ID, svoj broj u katalogu. Nema tu poezije, samo inventar.

WARNING: Nikada ne unosite osjetljive lozinke ili ključeve u javne AI modele tokom testiranja. Tokenizacija znači da vaš tekst postaje dio ogromne baze podataka koju više ne kontrolišete. 120v struja prži srce, a curenje podataka prži karijeru.

Vektorski prostor: Kako mašina ‘nanjuši’ značenje u koordinatama

Kad su riječi isječene, AI ih ne drži u ladicama. On ih baca u ogroman, višedimenzionalni prostor. Riječ ‘pas’ i ‘vuk’ završe blizu jedna drugoj jer se često koriste u sličnom kontekstu. To se zove embedding. Miris ozona u radionici je stvaran, ali miris značenja u NLP-u je matematika. Svaka riječ je tačka na mapi. Ako je ‘kralj’ na koordinati (10, 10), a ‘muškarac’ na (10, 5), AI računa razliku. Ali, tu je kvaka. Ako ne podesite parametre kako treba, model će početi da ‘halucinira’ jer su mu tačke preblizu. Zato je bitno znati šta je temperature parameter i kako on utiče na to koliko će se te tačke ‘razbacati’ po prostoru. Nemojte dopustiti modelu da postane previše kreativan tamo gdje vam treba hirurška preciznost.

Vizualizacija procesa pretvaranja teksta u digitalne vektore unutar AI modela

Zašto je kontekst bitan za DIY model?

Riječ ‘ključ’ može značiti alat od 13mm u vašoj ruci, ali i rješenje zagonetke. Stariji modeli su tu pucali. Moderni AI koristi ‘attention’ mehanizam. On bukvalno ‘gleda’ okolne riječi da odluči koji ‘ključ’ je u pitanju. To je kao kad provjeravate da li je šaraf u vinklu prije nego što ga zategnete do kraja. Loš kontekst znači loš rezultat. Tačka.

Čišćenje digitalne rđe: Stop-riječi i gunk

Prije nego što AI uopšte počne ozbiljno raditi, on mora izbaciti smeće. ‘I’, ‘na’, ‘u’, ‘sa’ – to su stop-riječi. One su digitalna rđa. One ne nose značenje, samo troše resurse i usporavaju proces. U radionici ne ostavljate piljevinu na radnom stolu prije lakiranja. Iščupajte te nepotrebne riječi. Ako gradite vlastiti sistem, naučite kako analizirati podatke bez da zatrpate model glupostima. Što je tekst čišći, to je ‘stisak’ modela jači. Koristite alate za čišćenje teksta kao što koristite čeličnu četku na korodiranom metalu. Slatherite te podatke procesima filtriranja dok ne ostane samo esencija.

Da li mi treba skup hardver za NLP?

Ne nužno. Možete početi na starom laptopu, ali ćete se načekati dok on ‘prožvače’ veće baze podataka. To će biti sporo. Vaš procesor će se grijati, a ventilator će vrištati. Bolje je odmah pogledati kako hostovati model na Azure-u za male pare. Ne trošite struju kod kuće ako možete upregnuti tuđe servere. Budite pametni s resursima.

Anatomija jednog kvara: Kada NLP ‘poludi’

Mirsad, stari system admin s kojim sam radio, uvijek je govorio: ‘Smeće unutra, smeće vani.’ Ako AI modelu date tekst koji je pun gramatičkih grešaka ili čudnih skraćenica, on će se izgubiti. Zamislite da pokušavate zašarafiti metrički vijak u colovni navoj. Ne ide. Doći će do ‘overfittinga’ gdje model nauči vaše greške napamet umjesto da razumije logiku. Šest mjeseci kasnije, vaš chatbot će odgovarati klijentima na jeziku koji niko ne razumije. To je totalni fijasko. Da biste to izbjegli, pročitajte kako popraviti overfitting prije nego što postane prekasno. Ne budite lijeni kod pripreme podataka.

Zašto ovo uopšte radi? (Nauka iza koda)

NLP se oslanja na distribuiranu hipotezu: riječi koje se pojavljuju u sličnim kontekstima imaju slična značenja. To je čista statistika prerušena u lingvistiku. Kada AI predviđa sljedeću riječ, on ne ‘misli’, on računa vjerovatnoću. To je kao da predviđate gdje će pasti kap kiše na osnovu nagiba krova. Ako razumijete taj nagib, razumijete i rezultat. Prema standardima iz 2026. godine, optimizacija NLP modela zahtijeva minimalno 85% tačnosti u prepoznavanju entiteta da bi se smatrala upotrebivom u biznisu. Sve ispod toga je igranje u pijesku.

Vaša armija će se umoriti od čitanja dokumentacije, ali vi nemojte. NLP je alat, baš kao i sjekira ili bušilica. Ako ga ne znate naoštriti, samo ćete se oznojiti bez rezultata. Držite se osnova, čistite podatke i ne vjerujte marketinškim bajkama o ‘svjesnom AI-ju’. To je samo matematika pod visokim naponom. Krenite s radom.

Slični tekstovi

Osnove AI i Mašinskog Učenja
Kvantni računari i AI u 2026. godini: Šta se mijenja?
ByMarko Ilić 17 Februara, 2026
Zaboravite silicijum: Zašto je 2026. godina smrt za klasični AI Prestanite vjerovati da će ChatGPT zauvijek raditi na vašem laptopu iz 2022. To je laž koju vam prodaju trgovci hardverom dok vam uvaljuju stare zalihe procesora. Do 2026. godine, granica između softvera i kvantnog hardvera će nestati, a ako ne razumijete kako se ovi sistemi…
Read More Kvantni računari i AI u 2026. godini: Šta se mijenja?
Osnove AI i Mašinskog Učenja
Kako AI predviđa sledeću reč? (Next Token Prediction)
ByMarko Ilić 25 Decembra, 2025
Tajne AI mozga: Kako vještačka inteligencija “čita misli” i predviđa sljedeću riječ (Next Token Prediction) Zamisli scenu: Pišeš važan izvještaj, ruka ti stoji iznad tastature, a mozak ti je u blokadi. Riječi prosto neće da se nanižu. Ili možda radiš na prezentaciji za klijenta i treba ti savršena fraza koja će ostaviti utisak. U tom…
Read More Kako AI predviđa sledeću reč? (Next Token Prediction)
Osnove AI i Mašinskog Učenja
Kako RNN mreže rade? Nauči osnove uz ovaj primer [DIY]
ByMarko Ilić 30 Januara, 2026
Zaboravi magiju: Zašto je tvoj AI model samo niz zarđalih zupčanika s pamćenjem Prestani vjerovati marketinškim lažima da je AI neka vrsta digitalnog mozga koji ‘razmišlja’. To je gomila statike. Ako misliš da neuronska mreža razumije tvoju rečenicu kao ljudsko biće, u velikoj si zabludi. Obične neuronske mreže su kao tvoj stari komšija koji zaboravi…
Read More Kako RNN mreže rade? Nauči osnove uz ovaj primer [DIY]
Osnove AI i Mašinskog Učenja
Kako Maistrsko U0denje Menja Svijet: Top 5 Trendova u 2024. Godini
ByMarko Ilić 3 Aprila, 2026
Industrijski senzori za predviđanje kvarova koštaju preko 1.200 KM po komadu. Vi ih možete replicirati za cijenu jedne osrednje pizze i par sati petljanja sa mikrokontrolerima. Ako mislite da je mašinsko učenje rezervisano za Silikonsku dolinu, griješite. U 2024. godini, ML (Machine Learning) se preselio u garaže, na radne stolove i u kutije sa alatom….
Read More Kako Maistrsko U0denje Menja Svijet: Top 5 Trendova u 2024. Godini
Osnove AI i Mašinskog Učenja
Predviđanje sledećeg tokena: Osnove i primjene u generativnom AI
ByMarko Ilić 20 Januara, 2026
Moja ispovijest: Kako sam izgubio tri dana na jedan pogrešan ‘Softmax’ Prvi put kada sam pokušao ručno implementirati Transformer arhitekturu u Pythonu, napravio sam fatalnu grešku u skaliranju pažnje (scaled dot-product attention). Rezultat? Moj model je bio uvjeren da je svaka sljedeća riječ u rečenici isključivo zarez. Proveo sam 72 sata debugirajući kod, sumnjajući u…
Read More Predviđanje sledećeg tokena: Osnove i primjene u generativnom AI
Osnove AI i Mašinskog Učenja
Najbolji resursi za učenje AI-a (Kursevi
ByMarko Ilić 25 Decembra, 2025
Vodič kroz džunglu AI resursa: Kako odabrati pravi kurs i pokrenuti karijeru u veštačkoj inteligenciji Zamisli situaciju: sjediš za kompjuterom, piješ jutarnju kafu i skroluješ kroz vijesti. Svaki drugi naslov viče o vještačkoj inteligenciji – ChatGPT, autonomna vozila, mašinsko učenje, duboko učenje… Zvuči primamljivo, obećavajuće, možda čak i malo zastrašujuće. Pomisliš: “Želim i ja to…
Read More Najbolji resursi za učenje AI-a (Kursevi

2 Comments

Ovaj post mi je otvorio oči u vezi procesa tokenizacije i važnosti čišćenja podataka prije rada s AI-jem. Često su mi govorili da je to jednostavno, ali sad vidim koliko je zapravo složen i precizan posao. Slažem se da bez dobrih ulaznih podataka ni najbolji modeli ne mogu donijeti dobre rezultate. Prije par mjeseci sam pokušavala napraviti vlastiti NLP model, ali sam zapela na čišćenju podataka i razumijevanju konteksta. Fascinantno je kako AI interpretira riječi u višedimenzionalnom prostoru i kako pogrešna konfiguracija temperature može potpuno izmijeniti rezultate. Koje konkretne alate koristite za čišćenje teksta? Ponekad je teško izbjeći stop-riječi, a da ne izgubim osnovni smisao razgovora.

Komentariši

Elena Markovic kaže:
8 Marta, 2026 u 3:40 pm
Tekst mi je baš iznjedrio nove uvide u složenost NLP procesa. Posebno mi je zanimljivo kako AI koristi višedimenzionalni prostor za razumijevanje značenja riječi, što je zanemarivo ako se pogrešno podešavaju parametri poput temperature. To je često tačka gdje sistem ‘halucinira’ i stvara netačne rezultate. Slažem se da je čišćenje podataka ključno, ali moje iskustvo je da je to najzahtevniji dio – posebno kada je riječ o velikim skupovima podataka gdje stop-riječi mogu biti pravi sitni zločesti problem. Ja za to koristim Python s bibliotekama poput NLTK i spaCy za filtriranje i uklanjanje nepotrebnih riječi, a uz to često koristim Regex za ulazne prilagodbe. Koje alate i tehnike vi preferirate za efikasno čišćenje teksta u pripremi podataka za NLP?”
Komentariši