Koristi RAG za svoje fajlove: AI koji ne laže [Vodič]

Prestani vjerovati marketinškim trikovima da je ChatGPT tvoj ‘lični asistent’ koji sve zna. Nije. On halucinira, izmišlja nepostojeće zakone i tvoje privatne PDF-ove šalje pravo na servere u Kaliforniji bez tvog dopuštenja. Ako želiš AI koji stvarno čita tvoje fajlove i ne laže o njima, treba ti RAG (Retrieval-Augmented Generation) sistem. Ovaj vodič ti pokazuje kako da ga sklopiš u svojoj radionici, na svom hardveru, bez plaćanja pretplate korporacijama. Možeš nastaviti kucati upite u prazno ili možeš izgraditi sopstvenu infrastrukturu istine. Izbor je tvoj.

Preuzmi kontrolu nad podacima: Zašto LLM-ovi haluciniraju

LLM (Large Language Model) je kao pijani filozof u kafani — zvuči nevjerovatno uvjerljivo, ali nema pristup tvojim fajlovima na stolu. On nagađa sljedeću riječ na osnovu vjerovatnoće. Kada ga pitaš o svom ugovoru iz 2023. godine, on ne ‘čita’ ugovor, već pogađa šta bi u takvom ugovoru moglo pisati. RAG to rješava tako što prvo ‘iskoči’ u tvoju bazu podataka, pronađe tačan pasus, i bukvalno ga gurne AI-u pod nos. Zvuk ventilatora na tvom GPU-u dok ovo radiš podsjetnik je da ti kontrolišeš proces. Ako osjetiš miris ozona i toplinu iz kućišta, to je znak da tvoja lokalna mašina zapravo radi posao, a ne neki udaljeni server. Fotografija lokalnog servera sa grafičkom karticom i alatima na radnom stolu

Zašto ti ne treba Cloud: Sigurnosni rizik koji ignorišeš

Svaki put kad učitaš dokument na javni AI servis, gubiš vlasništvo. To je činjenica. Za firmu ili ozbiljnog makera, to je neprihvatljivo. Lokalni RAG koristi modele kao što su Llama 3 ili Mistral koji žive na tvom hard disku. Nema interneta, nema curenja podataka, nema laži. As of 2026, lokalno pokretanje modela postalo je standard za svakoga ko cijeni privatnost iznad puke udobnosti.

Hardverska realnost: VRAM je tvoja jedina valuta

Ne pokušavaj pokrenuti ozbiljan RAG na starom laptopu sa integrisanom grafikom. To će boljeti. Treba ti VRAM (Video RAM). Ako imaš manje od 8GB VRAM-a, zaglavićeš u blatu spore generacije teksta. NVIDIA kartice su ovdje zakon zbog CUDA jezgri. Nemoj kupovati ‘gaming’ brendove samo zbog RGB svjetala; traži količinu memorije. 12GB je minimum za ugodan rad, 24GB je zona u kojoj stvari postaju ozbiljne.

WARNING: Nikada ne dodiruj kontakte na grafičkoj kartici dok si na tepihu. Statički elektricitet od samo nekoliko volti može spržiti tvoj GPU od 1000 eura brže nego što stigneš opsovati. Koristi antistatičku narukvicu ili se uzemlji dodirom na metalno kućište napajanja.

Protokol za pripremu fajlova: Smeće unutra, smeće vani

Ako su tvoji PDF-ovi skenirani kao slike bez OCR-a, tvoj RAG je slijep. Prvi korak je čišćenje. Koristi Python skripte da izvučeš čist tekst. Zaboravi na Word dokumente sa čudnim formatiranjem. Što je tekst ‘čistiji’, to će AI bolje razumjeti kontekst. Ljepljiv osjećaj pod prstima dok sređuješ stare arhive zamijeni digitalnim ‘čišćenjem’ baze. Ako je izvor podataka krš, odgovor će biti laž. Kratko i jasno.

Problem sa komadanjem (Chunking)

Ne možeš AI-u baciti cijelu knjigu odjednom. Moraš je isjeći na ‘komade’ (chunks). Ako su preveliki, AI se izgubi. Ako su premali, gubi se smisao rečenice. Idealna veličina je obično oko 500 do 1000 tokena sa preklapanjem od 10%. To preklapanje je ključno. Bez njega, informacije na ivicama komada nestaju u digitalnom ponoru.

Anatomija jednog kvara: Zašto moj RAG i dalje laže?

Evo kako sam ja slupao svoj prvi sistem. Mislio sam da je dovoljno samo indeksirati fajlove. Napravio sam bazu bez preklapanja pasusa. Šest mjeseci kasnije, sistem je počeo davati odgovore koji su bili 40% netačni jer je ključna informacija o cijenama bila prepolovljena između dva komada podataka. AI je vidio cifru, ali ne i valutu koja je ostala u prethodnom ‘chunku’. Rezultat? Katastrofalno loša procjena troškova. Nauči na mojoj grešci: koristi recursive character splitter. To nije opcija, to je obaveza. Sistem će pasti ako ovo preskočiš.

Lokalna vektorska baza: Gdje živi sjećanje

Tvoji fajlovi moraju biti pretvoreni u brojeve (vektore). Koristi ChromaDB ili FAISS. To su tvoji digitalni regali. Kada postaviš pitanje, sistem ne traži riječi, već matematičku blizinu pojmova. To je razlika između pretrage po ključnim riječima (koja je smeće) i semantičke pretrage (koja je budućnost). Slather the embeddings thick — nemoj štedjeti na kvalitetu embedding modela. Koristi HuggingFace modele koji su rangirani u vrhu MTEB liste. Štednja na embeddingu je kao štednja na temeljima kuće. Sve će se srušiti.

Zašto nikada ne smiješ koristiti defaultne postavke

Većina tutoriala kaže ‘samo instaliraj i pokreni’. To je laž. Defaultni parametri u LangChain-u su previše opšti. Moraš ručno podesiti ‘top_k’ parametar — to je broj dokumenata koje AI povlači prije nego odgovori. Postavi ga na 3 ili 5. Ako postaviš na 20, AI će dobiti previše buke i počeće da izmišlja ‘most’ između nepovezanih informacija. Manje je često više.

Zašto RAG ne smije imati pristup internetu

Pravi DIY entuzijasta gradi ‘air-gapped’ sistem ili bar onaj koji je blokiran firewallom. Ako tvoj RAG ide na internet da ‘dopuni’ znanje, opet si na početku. On će povući neku glupost sa Reddita i pomiješati je sa tvojim internim izvještajem. Drži ga u kavezu. Lokalni modeli su sada dovoljno pametni da razumiju tvoje podatke bez pomoći spoljnog svijeta. Yank the cable. Budi siguran.

Fizika žaljenja: Šta se desi kad zaboraviš metadata

Dodavanje metapodataka (ime fajla, datum, broj stranice) u vektorsku bazu je dosadno. Ali, ako to ne uradiš, tvoj AI će ti reći: ‘Ugovor kaže da je cijena 100 KM’, ali ti neće moći reći u KOJEM ugovoru je to pročitao. To stvara nepovjerenje. Bez citata, tvoj RAG je samo napredniji generator tračeva. Utrošio sam 12 sati ručno re-indeksirajući 5000 dokumenata jer sam prvi put preskočio metapodatke. Tvoje vrijeme vrijedi više. Uradi to odmah.

Code Check: Standardi za 2026. godinu

Napomena: Prema trenutnim DIY standardima za AI integraciju, svaki sistem koji obrađuje lične podatke građana BiH mora biti usklađen sa lokalnim varijantama GDPR-a. Ako gradiš ovo za firmu, lokalni RAG je jedini način da prođeš reviziju bez kazne koja bi ti mogla zatvoriti radnju. Javni API-jevi su legalno minsko polje. Tvoj lokalni server je tvoja tvrđava.

Zaključak: Majstorski rad zahtijeva održavanje

Izgradnja RAG sistema nije ‘postavi i zaboravi’ posao. To je kao održavanje starog dizel motora. Moraš čistiti bazu, ažurirati embedding modele i povremeno provjeravati da li su vektori i dalje ‘svježi’. Bit će ti dosadno dok skripta vrti indekse satima. Ruka će te boljeti od kucanja koda i ispravljanja grešaka u formatiranju. Ipak, onog trenutka kada pitaš svoj AI za specifičan podatak iz 2015. godine, a on ti izbaci tačan citat u sekundi — znaćeš da se trud isplatio. Prestani tražiti odgovore u oblaku. Tvoji podaci su na tvom disku. Počni graditi.

Slični tekstovi

Komentariši

Vaša email adresa neće biti objavljivana. Neophodna polja su označena sa *