Kako funkcioniše predviđanje tokena: Ključni koncept generativnog AI
Kada sam prvi put pokušao implementirati GPT-3 API u jedan jednostavan chatbot za klijenta, napravio sam klasičnu grešku početnika: pretpostavio sam da AI ‘razmišlja’ u rečenicama. Potrošio sam skoro 200 dolara na API troškove u jednom popodnevu jer nisam razumio kako sistem zapravo fragmentira tekst. Taj neuspjeh me natjerao da sjednem i naučim sve o tokenima. Ovaj vodič pišem kako bi vi izbjegli te skupe greške i razumjeli šta se zapravo dešava ‘ispod haube’ generativne vještačke inteligencije.
H2: Šta su zapravo tokeni? (The Stack)
Za razliku od ljudi, LLM (Large Language Models) modeli ne čitaju riječi. Oni čitaju tokene. Token može biti cijela riječ, dio riječi, ili čak samo jedan karakter. Da biste pratili ovaj tutorijal i razumjeli mehanizam, potrebno vam je samo osnovno razumijevanje kako se podaci procesiraju.Prerequisites: Nije vam potrebno predznanje iz programiranja, ali bi bilo korisno da imate pristup OpenAI Playground-u ili Anthropic konzoli kako biste vidjeli ove koncepte na djelu.
U svijetu generativnog AI, tokenizacija je proces pretvaranja sirovog teksta u numeričke nizove. Na primjer, riječ ‘programiranje’ AI može vidjeti kao jedan token, dok bi kompleksniju riječ ili neologizam mogao podijeliti na tri dijela. Ovo je ključno za naslovi za video klipove ai aplikacije, jer efikasno korištenje tokena direktno utiče na kvalitetu generisanog naslova.
H2: Mehanizam predviđanja: Kako AI bira sljedeću riječ?
Predviđanje sljedećeg tokena je srce generativne AI. Zamislite to kao super-napredni Autocorrect. Model ne zna ‘istinu’; on samo izračunava statističku vjerovatnoću koji token najvjerovatnije slijedi nakon prethodnog niza.
Layer 1: [Visual Cue] – Dashboard vjerovatnoće
Idite na Settings unutar vašeg AI interfejsa i potražite opciju Show Probabilities (dostupno u OpenAI Playgroundu). Kada ovo aktivirate, vidjet ćete da za svaku riječ koju AI generiše, postoji lista alternativa sa postocima. Na primjer, nakon riječi ‘Glavni grad BiH je…’, model će dati 99% vjerovatnoće tokenu ‘Sarajevo’.
Ovdje nastupa parametar Temperature. Ako je temperatura 0, model će uvijek birati najvjerovatniji token. Ako je 1, on će postati ‘kreativniji’ i birati manje vjerovatne opcije, što je korisno kada pravite naslovi za video klipove ai koji trebaju biti unikatni.
H2: Šta je reinforcement learning from human feedback RLHF?
Ovo je jedan od najvažnijih koncepata koji odvaja moderne modele poput GPT-4 od starijih verzija. Šta je reinforcement learning from human feedback RLHF? To je proces finog podešavanja modela kroz ljudsku interakciju. Budući da predviđanje tokena počiva na čistoj statistici, model može predvidjeti nešto što je gramatički ispravno, ali moralno upitno ili činjenično netačno.
U RLHF procesu, ljudi ocjenjuju različite odgovore modela. Ako model predvidi token koji vodi do boljeg odgovora, dobija ‘nagradu’. Ovaj proces ‘uči’ model da daje odgovore koji su korisniji, sigurniji i usklađeniji sa ljudskim vrijednostima. Bez RLHF-a, generativni AI bi bio samo generator nasumičnih, ali koherentnih rečenica.
H2: Praktična implementacija: Od Make.com do Canva Magic Studio
Razumijevanje tokena pomaže u optimizaciji workflowa. Uzmimo za primjer make.com uputstvo za početnike. Ako automatizujete slanje e-mailova putem AI-a na Make.com (bivši Integromat), svaki token vas košta. Ako pošaljete previše konteksta (history razgovora), brzo ćete potrošiti budžet.
[Visual Cue]: U Make.com modulu za OpenAI, potražite polje Max Tokens. Postavljanje ovog limita sprječava model da ‘odluta’ i generiše preduge odgovore koji nisu relevantni. Slično je i sa canva magic studio tutorijal opcijama; kada koristite Magic Write, on interno koristi tokenizaciju da bi proširio vaše ideje u kreativne vizuale ili tekstove.
Layer 2: [Code/Input] – Provjera broja tokena
import tiktoken
# Učitavanje enkodera za GPT-4
enc = tiktoken.get_encoding("cl100k_base")
tekst = "Razumijevanje RLHF-a je ključno."
tokeni = enc.encode(tekst)
print(f"Broj tokena: {len(tokeni)}")
# Output: Broj tokena će varirati zavisno o jezikuOvaj jednostavan Python kod vam omogućava da precizno izračunate troškove prije nego što pošaljete uputstvo API-ju. Ovo je esencijalno za održivo poslovanje u tech sektoru, jer optimizacija resursa smanjuje troškove servera i energiju potrebnu za procesiranje.
H2: Troubleshooting: Zašto AI ‘puca’ kod kompleksnih upita?
Ako primijetite da vaš model gubi nit usred razgovora (halucinira), problem je obično Context Window (Kontekstualni prozor). Svaki model ima limit koliko tokena može ‘vidjeti’ odjednom. Kada taj limit pređe (npr. 8k, 32k ili 128k tokena), on počinje zaboravljati početak razgovora.
Rješenje: Umjesto slanja cijelog PDF-a u svakom upitu, koristite tehnike poput RAG (Retrieval-Augmented Generation) gdje AI-u šaljete samo najrelevantnije dijelove teksta (chunks) koji su pretvoreni u tokene koji odgovaraju korisničkom upitu.
H2: Optimizacija i budućnost
Kako idemo ka naprednijim modelima, efikasnost predviđanja tokena postaje ključna za zelena tehnologija i ai inicijative. Manje tokena za isti rezultat znači manje procesorske moći i manji karbonski otisak. Također, razumijevanje ovih osnova je prvi korak u rješavanju kompleksnih pitanja kao što je bezbednost na internetu za decu, jer filteri za sadržaj rade upravo na bazi predviđanja i blokiranja neadekvatnih tokena.

![NLP za amatere: Nauči AI da čita tekst bez greške [DIY]](https://aiskola.org/wp-content/uploads/2026/02/NLP-za-amatere-Nauci-AI-da-cita-tekst-bez-greske-DIY.jpeg)

Ovaj vodič mi je baš otvorio oči u vezi sa načinom na koji AI ‘razmišlja’ putem tokena. Do sada sam mislila da je to nekako sličnije ljudskom razmišljanju, ali sada shvatam koliko je taj proces osjetljiv i koliko troškovi mogu brzo narasti ako se ne pazi. Posebno mi je zanimljivo to što svaki token može biti riječ, dio riječi ili čak karakter, što pokazuje koliko je taj sistem fleksibilan ali i kompleksan za optimizaciju. Kod većih projekata, ovo definitivno može biti problem, pa me zanima, da li imate savjete ili alate za automatsko provjeru broja tokena pre nego što pošaljem zahtjeve? Takođe, bilo bi super čuti vaše misljenje o tome na koje sve načine vi smanjujete troškove u praksi, a da pritom ne žrtvujete kvalitet odgovoraiš.
Kao neko ko je radi na sličnim projektima, mogu potvrditi koliko automatizacija provjere broja tokena može biti ključno za uštedu i efikasnost. Uzmimo, na primjer, korištenje Python biblioteke tiktoken, koja omogućava lako i precizno računanje tokena prije samog slanja zahtjeva. Što je još važnije, kod većih ili često korištenih sistema, postupci poput slojevitog keširanja rezultata ili dinamičkog postavljanja limita na maksimalan broj tokena mogu drastično smanjiti troškove. U praksi, kombinacija ovih metoda i pažljivog planiranja sadržaja osigurava da se troškovi drže pod kontrolom, a da pri tome ne narušavamo kvalitet odgovora. A kako vi najradije optimizujete resurse kad radite s velikim AI modelima?” ,