Bot laže? Ubaci RAG i daj mu svoje podatke u 3 koraka [2026]

Bot laže? Ubaci RAG i daj mu svoje podatke u 3 koraka [2026]

Zašto tvoj AI halucinira: Brutalna istina o ‘stohastičkim papagajima’

Vjeruješ botu na riječ? To ti je prva greška. Prestani tretirati ChatGPT ili lokalni LLM kao sveznajućeg boga; tretiraj ga kao pijanog pripravnika koji ima fotografsko pamćenje, ali nula grama tvojih specifičnih podataka. Ako ga pitaš o svom internom troškovniku iz 2025. godine, on će izmisliti cifre koje zvuče uvjerljivo. To se zove halucinacija. Ali nemoj bacati laptop kroz prozor. Rješenje nije u ‘boljem promptu’, nego u tome da mu začepiš usta tvojim podacima koristeći RAG (Retrieval-Augmented Generation). Ti mu daješ knjigu, on je prelistava i odgovara samo na osnovu onoga što piše. Prosto. Ali ako misliš da je dovoljno samo ‘uploadovati PDF’, spremi se za razočaranje. RAG je zanat, a ne magija. Ako ne podesiš top-k sampling kako treba, tvoj bot će i dalje pričati bajke, samo što će sad citirati pogrešne stranice tvojih dokumenata. Morate razumjeti attention mechanism da biste znali kako AI zapravo ‘gleda’ u tvoj fajl dok pokušava da ne slaže.

Alat koji ti treba: Vektorske baze umjesto običnog memorijskog smeća

Direktna instrukcija: Odaberi bazu podataka koja ne pohranjuje riječi, nego ‘matematičke otiske’ tvojih rečenica. Zaboravi na Excel. Za ozbiljan RAG ti treba vektorska baza poput Pinecone, ChromaDB ili lokalnog Qdranta. Zašto? Zato što bot ne pretražuje tvoje podatke po ključnim riječima kao glupi Windows Search iz 1998. On traži smisao. Ako napišeš ‘pas’, on mora znati da je to slično riječi ‘štene’. To se postiže embedding modelima. Osjetit ćeš onaj mentalni ‘klik’ kad shvatiš da su tvoji podaci sada samo oblak brojeva u višedimenzionalnom prostoru. Ako tvoj model ima loš decision boundary, on će brkati tvoje finansijske izvještaje sa receptima za pitu. To je trenutak kad RAG postaje frustrirajući. Osjetit ćeš miris hladne kafe dok u tri ujutro pokušavaš shvatiti zašto bot misli da je tvoj godišnji odmor zapravo stavka za amortizaciju. Digitalni čip i stari alat na radnom stolu kao simbol modernog DIY AI pristupa

Korak 1: Čišćenje ‘digitalnog gnoja’ i priprema dokumenata

Direktna instrukcija: Skalpelom izreži sve nepotrebno iz tvojih PDF-ova prije nego ih baciš pred AI. Ako ubaciš smeće, dobićeš smeće (GIGO – Garbage In, Garbage Out). Većina ljudi napravi ‘chunking’ (cjepkanje teksta) na pogrešan način. Uzmu tekst od 50 strana i isjeku ga svakih 500 riječi. Glupost. Tako ćeš prepoloviti ključnu rečenicu na pola i bot neće imati pojma o čemu se radi. Koristi ‘semantic chunking’. Svaki dio teksta mora biti logička cjelina. Ako koristiš Make.com za automatizaciju, pazi da ti parser ne uništi formatiranje tabela. Tabele su smrt za RAG. Ako ih ne pretvoriš u Markdown, bot će ih čitati kao niz nasumičnih brojeva. Slušaj, osjetit ćeš peckanje u očima dok čistiš te tabele, ali to je cijena autoriteta. Ne preskači ovo. Kratko i jasno: Čist tekst pobjeđuje fensi algoritam svaki put.

Korak 2: Hemija embeddinga – Pretvaranje teksta u brojeve

Direktna instrukcija: Koristi model koji razumije bosanski/srpski/hrvatski jezik, a ne samo engleski ‘default’. Embedding je proces gdje tvoj tekst ulazi u mlin i izlazi kao vektor od 1536 brojeva. To je hemija podataka. Ako koristiš preslab model (poput starih verzija ADE), tvoji podaci će biti ‘mutni’. Zamisli to kao pokušaj da prepoznaš lice kroz prljav prozor. Koristi OpenAI ‘text-embedding-3-small’ ili bolji, ili ako si paranoičan za privatnost, digni lokalni HuggingFace model.

WARNING: Nikada ne šalji osjetljive podatke poput lozinki ili JMBG-a na javne API-je bez maskiranja. 120v struje te može ubiti u radionici, ali curenje podataka u 2026. će ti ubiti firmu i novčanik brže nego što stigneš reći ‘ups’.

Pazi na dimenzionalnost. Veći broj nije uvijek bolji. Ponekad samo dodaješ buku tamo gdje ti treba tišina. Slather (namaži) te vektore u bazu i budi spreman za testiranje.

Korak 3: Povezivanje i testiranje – Nema više laži

Direktna instrukcija: Poveži tvoj LLM sa bazom preko ‘retrieval’ komponente i postavi stroga pravila (System Prompt). Moraš mu reći: ‘Odgovaraj SAMO koristeći priloženi kontekst. Ako ne znaš, reci da ne znaš.’ Bez toga, on će i dalje pokušavati da ‘pomogne’ tako što će izmisliti odgovor kad mu tvoji podaci nisu jasni. To je onaj trenutak kad se bot pravi pametan. Ali ti si gazda. Testiraj ga sa ‘adversarial’ pitanjima. Pitaj ga nešto što namjerno nije u podacima. Ako odgovori tačno, tvoj RAG je šupalj. Ako kaže ‘Ne nalazim te informacije u vašim dokumentima’, pobijedio si. Možeš koristiti 3 ključne metrike da vidiš koliko si zapravo precizan. Osjetit ćeš onaj pobjednički trnci u kičmi kad prvi put postaviš kompleksno pitanje o svom biznisu i dobiješ tačan, dokumentovan odgovor u sekundi. To je prava moć.

Anatomija promašaja: Zašto tvoj RAG i dalje ‘puca’

Opisaću ti katastrofu: Moj prijatelj je ubacio 5000 tehničkih uputstava u RAG bez čišćenja zaglavlja i fusnota. Rezultat? Bot je mislio da je svaka mašina napravljena od ‘Stranice 4’ i ‘Povjerljivo 2024’. Šest mjeseci kasnije, njegovi korisnici su dobijali uputstva koja su zvučala kao legalni dokumenti, a ne tehnička pomoć. To je bila totalna degradacija sistema. Ako ne očistiš ‘meta-podatke’, tvoj RAG će postati digitalna deponija. Wood glue (ljepilo za drvo) mora prodrijeti u vlakna da drži; tvoji podaci moraju prodrijeti u kontekstni prozor bez smetnji od strane smeća. Pucaće ti model ako je ‘chunk overlap’ premali. Izgubićeš kontekst između pasusa. Postavi preklapanje od bar 10-15%. To je kao preklop kod crijepa na krovu – ako nema preklopa, procuriće prva kiša pitanja.

Fiziologija koda: Zašto ovo radi (Deep Dive)

Evo zašto wood glue drži: PVA ljepilo ulazi u pore celuloze i stvara vezu jaču od samog drveta. RAG radi slično sa tvojom memorijom. On ne ‘uči’ tvoje podatke (to bi bio fine-tuning, što je preskupo i sporo). On ih samo ‘drži u ruci’ dok odgovara. To je ‘In-Context Learning’. Kada korisnik postavi pitanje, sistem ga pretvori u vektor, nađe najsličnije vektore u bazi (koji predstavljaju tvoje podatke) i sve to ‘ugura’ u usta LLM-u. Kao da imaš asistenta koji ti dodaje prave fascikle dok si na sastanku. Što je brža tvoja vektorska baza, to je manja latencija. Niko ne želi bota koji razmišlja 30 sekundi. To je kao tupa testera – samo troši snagu, a ne siječe ništa. Koristi asinkrone pozive da ubrzaš proces. Jam (uguraj) taj kod u produkciju tek kad si siguran u ‘Recall’ metriku.

Često postavljana pitanja (PAA)

Da li mi treba programer za RAG?

Ne nužno. Danas postoje ‘No-code’ alati, ali ako želiš da to stvarno radi bez greške, moraš znati osnove Python-a ili bar kako mapirati podatke. No-code je dobar za prototip, ali za produkciju ćeš morati zavrnuti rukave i pisati skripte.

Koliko košta održavanje RAG sistema?

Cijena zavisi od broja dokumenata i upita. Vektorske baze obično imaju besplatne nivoe do određene količine podataka. OpenAI API će te koštati po broju tokena. Očekuj par desetina eura mjesečno za osrednji interni sistem. As of 2026, cijene su pale, ali pazi na ‘vector storage’ troškove kod velikih provajdera. Nemoj da te ogule.

Fizika kajanja: Šta se desi kad zaboraviš na privatnost

Voda se širi za 9% kad se smrzne i to će ti razvaliti cijevi. Slično tome, tvoj RAG će ‘eksplodirati’ ako u njega ubaciš privatne podatke kupaca bez enkripcije. Ako neko ‘provali’ tvoj sistem (prompt injection), može natjerati bota da ispljune tvoje najtajnije ugovore. To nije šala. Koristi lokalne modele poput Llama 3 ili Mistral ako radiš sa ultra-osjetljivim podacima. Bolje je da tvoj bot bude malo ‘gluplji’ lokalno, nego da tvoja baza završi na Dark Webu. Scrape (ostruži) svaki trag ličnih podataka prije indeksiranja. Budi paranoičan. U radionici nosiš naočale da ne izgubiš oko; u AI-u koristiš ‘Data Masking’ da ne izgubiš firmu.

Slični tekstovi

Komentariši

Vaša email adresa neće biti objavljivana. Neophodna polja su označena sa *