Kako funkcioniše Word Embedding? (Riječi kao vektori)

Word Embedding: Kako AI ‘razumije’ šta misliš kad kažeš ‘raja’ ili ‘merak’?

Sjediš nekad pred ekranom, kucaš nešto u ChatGPT, a on ti odgovori kao da si ga pitao za recept za atomsku bombu, a ne za dobar burek. Misliš da te ne razumije, zar ne? I djelimično si u pravu. Pogotovo kad pokušaš da mu objasniš lokalni žargon, neku specifičnu situaciju ili samo dobru staru šalu. Zamisli sad da je to AI shvatio da kad ti kažeš ‘raja’, ne misliš na dvorac, već na ekipu s kojom piješ kafu. To je magija iza Word Embeddinga.

Prije nego što su se pojavili Word Embeddinzi, računari su riječi doživljavali kao puke, izolirane simbole. Svaka riječ je bila kao zaseban entitet u velikom rečniku, bez ikakve veze s drugim riječima. ‘Mačka’ je bila samo niz slova, baš kao i ‘pas’, i AI nije imao pojma da su te dvije riječi srodne, da su životinje, ili da se često spominju zajedno u istom kontekstu.

Riječi kao koordinate u nekom čudnom svemiru

E, pa, Word Embedding je tu da to promijeni. Zamisli da svaka riječ u našem jeziku nije samo riječ, već tačka u nekom neobičnom, višedimenzionalnom prostoru. Što su dvije riječi sličnije po značenju, što se češće pojavljuju u sličnim rečenicama ili kontekstima, to su te tačke bliže jedna drugoj u tom prostoru. To su ti naši ‘vektori’ – matematički način da se riječ predstavi kao skup brojeva, kao koordinate.

Razmisli o ovome: kad kažeš ‘kralj’ i ‘kraljica’, i ‘muškarac’ i ‘žena’, odmah vidiš neku vezu, zar ne? Word Embedding algoritmi, poput popularnog Word2Veca, to vide matematički. Ako od vektora za ‘kralj’ oduzmeš vektor za ‘muškarac’ i dodaš vektor za ‘žena’, dobićeš nešto vrlo blizu vektoru za ‘kraljica’! Isto tako, ‘Beograd’ je bliže ‘Srbiji’ nego ‘Parizu’, a ‘Zlatibor’ bliže ‘planina’ nego ‘more’.

Kako AI uči ovaj ‘jezik’?

AI to uči tako što ‘čita’ ogroman broj tekstova – knjige, članke, razgovore sa društvenih mreža. Kad AI vidi riječ ‘kafa’, primijetiće da se ona često pojavljuje pored riječi ‘popiti’, ‘jutarnja’, ‘druženje’, ‘Bosanska’ ili ‘turska’. S druge strane, riječ ‘sto’ će se češće pojavljivati uz ‘drveni’, ‘sjesti’, ‘ručati’. Kroz ponavljanje i analizu miliona takvih primjera, AI postepeno shvata odnose između riječi i pozicionira ih u tom svom ‘svemiru’.

Zahvaljujući Word Embeddingu, mašine više ne gledaju samo u pojedinačne riječi. One počinju da shvataju kontekst, nijanse i sličnosti. To je ono što im omogućava da prevode tekstove smislenije, da prepoznaju sentiment u rečenici (da li je nešto pozitivno ili negativno), pa čak i da generišu tekst koji zvuči prirodnije i ljudskije.

Gdje je tu ljudski faktor?

Ipak, nijedan AI algoritam neće osjetiti miris tek skuvane kafe na isti način kao ti, niti će razumjeti gorak ukus šale koju samo ti i tvoj komšija dijelite u potpunosti. Word Embeddinzi su fantastičan alat da mašine razumiju jezik, ali ne i iskustvo jezika. Mi smo ti koji AI-u dajemo ulazne podatke, mi definišemo kontekst i mi na kraju interpretiramo ono što AI izbaci. AI je postao odličan kopilot u razumijevanju riječi, ali mi smo i dalje piloti koji osjećaju i žive te riječi.

Sljedeći put kad ti AI konačno da smislen odgovor na neku tvoju specifičnu foru ili problem, sjeti se tih nevidljivih vektora i dimenzija koje rade iza scene. To je korak bliže ka tome da mašine zaista ‘razumiju’ naš složeni svijet i naš još složeniji jezik. Ako te zanima kako da ove alate koristiš da poboljšaš svoj posao ili da naučiš nešto novo, dođi da se družimo na Aiskola.org. Tamo imamo cijelu zajednicu ljudi koji uče i primjenjuju ove stvari svaki dan.

Slični tekstovi

Komentariši

Vaša email adresa neće biti objavljivana. Neophodna polja su označena sa *