Osnove AI i Mašinskog U0denja: Vodi0d Za Poetnike u 2024.
Vaša kompanija će u 2024. godini vjerovatno spaliti preko 5.000 KM na razne AI pretplate koje niko ne zna koristiti. To je porez na neznanje. Ako mislite da je vještačka inteligencija magična kutija koja rješava probleme dok vi pijete kafu, grdno se varate. Vi ste ili majstor koji kontroliše alat, ili ste samo materijal koji taj alat obrađuje. Ovaj vodič će vam uštedjeti mjesece lutanja i hiljade maraka bačenih na kurseve koji prodaju maglu. Fokusiramo se na to kako da rasklopite AI do šarafa i sastavite ga ponovo, tako da radi za vas, a ne protiv vas.
Podaci su vaš sirovi materijal: Kako ne kupiti ‘trulo drvo’
Direktan odgovor je prost: mašinsko učenje je proces u kojem algoritam uči obrasce iz podataka koje mu gurnete u grlo. Ako mu gurnete smeće, dobićete smeće. U radionici ne biste pravili sto od trule hrastovine, pa zašto onda očekujete da vaš model radi sa nefiltriranim podacima sa interneta? Podaci su sirova građa. Svaka tabela, svaki tekst i svaki log file moraju proći kroz proces struganja i čišćenja prije nego što uopšte dotaknu procesor. Nemojte preskakati čišćenje. Velika greška.
UPOZORENJE: Nikada, ali apsolutno nikada nemojte gurati povjerljive podatke o klijentima u javne modele poput besplatnog ChatGPT-a. To je kao da ostavite ključeve radionice u bravi sa natpisom ‘ulazi ko hoće’. Jednom procureni podaci su zauvijek izgubljeni, a kazne po GDPR-u mogu vas koštati biznisa.
Kada pričamo o prikupljanju podataka u 2024. godini, zaboravite na kupovinu gotovih setova. Budite ‘scrapper’. Koristite Python skripte da izvučete specifične podatke sa nišnih foruma ili sopstvenih logova. To je kao da skupljate staru građu sa tavana – prljavo je, zahtijeva napor, ali je kvalitet neuporediv sa onim što se masovno prodaje. Prljavi podaci će zagušiti vaš algoritam brže nego što piljevina zaguši usisivač.

Zašto je validacija podataka bitnija od samog modela?
Validacija nije opcija, ona je sigurnosna kočnica. Ako ne provjerite tipove podataka, vaš model će pokušati izračunati prosjek imena i prezimena. Glupost. Provedite 80% vremena na ‘pre-processing’. Ostalih 20% je samo pritiskanje dugmeta ‘run’.
Zašto vaš kućni PC vrišti: Anatomija GPU-a kao glavnog alata
Vaša grafička kartica nije tu samo da bi igrice izgledale lijepo; ona je motor koji pokreće tenzorne operacije. Zamislite CPU kao jednog vrhunskog majstora koji radi jednu po jednu stvar savršeno. GPU je, s druge strane, tri hiljade šegrta koji istovremeno rade jednostavne zadatke. Mašinsko učenje zahtijeva tu sirovu, paralelnu snagu. Ako nemate NVIDIA karticu sa CUDA jezgrima, praktično pokušavate sjeći trupac tupom kašikom. Ne bacajte pare na procesor ako vam je GPU slab. Fokusirajte se na VRAM. To je prostor u kojem vaš model ‘diše’ dok se trenira.
Nauka o materijalu: Zašto ‘Gradient Descent’ zapravo radi?
Zaustavite se na trenutak. Morate razumjeti hemiju iza ljepila. Gradient Descent nije ništa drugo nego matematičko šmirglanje. Zamislite da ste na vrhu brda u gustoj magli i želite doći do najniže tačke u dolini. Svaki korak koji napravite, opipavate nagib tla nogom. Idete tamo gdje je nagnuto prema dolje. U svijetu AI-a, to ‘brdo’ je vaša greška. Cilj algoritma je da šmirgla tu grešku dok ona ne postane ravna, minimalna. Svaka iteracija (epoch) je jedan prolaz šmirglom. Ako šmirglate previše grubo (veliki learning rate), preskočićete dolinu i otići na drugo brdo. Ako ste prespori, penzionisaćete se prije nego što model bude gotov.
Anatomija katastrofe: Kako uništiti model u tri koraka
Opisat ću vam scenario koji viđam stalno. Junior developer uzme ogroman model, gurne mu premalo podataka i pusti ga da se trenira satima. Rezultat? Overfitting. To izgleda ovako: vaš AI model nauči vaše podatke napamet, kao đak koji nauči odgovore ali ne razumije gradivo. Čim mu postavite novo pitanje, on ‘pukne’. Šest mjeseci kasnije, vaš klijent shvata da sistem daje potpuno lude rezultate jer se ‘zaključao’ u obrasce koji ne postoje u stvarnom svijetu. Izgubili ste obraz, vrijeme i novac. To je kao da napravite stolicu koja savršeno odgovara samo jednoj osobi na svijetu. Potpuno beskorisno.
Kako prepoznati halucinaciju prije nego postane skupa?
Halucinacije su rezultat ‘šupljina’ u znanju modela. On ne želi priznati da ne zna, pa izmišlja. Rješenje? Uvijek koristite ‘temperature’ parametar na niskim vrijednostima za ozbiljne zadatke. Držite ga na kratkom lancu.
Finansijski ubod: Cijena neznanja u 2024. godini
Moj komšija je prošle godine platio 2.000 KM za implementaciju chatbot-a koji je na kraju samo citirao Wikipediju. Mogao je to uraditi sam za vikend uz pomoć lokalnog LLM-a i jednog Raspberry Pi uređaja. Ne kupujte gotova rješenja dok ne shvatite osnove. Danas su alati dostupni svima, ali znanje kako ih ugraditi u postojeći sistem je ono što se plaća suvim zlatom. Ne kupujte novi GPU ako možete iznajmiti snagu u oblaku za par maraka po satu. Budite škrti sa resursima, budite velikodušni sa učenjem. Sretno u radionici koda. Nemojte se posjeći na loš prompt.
