Šta su TF-IDF i Bag-of-Words pristup u analizi teksta?
Šta su TF-IDF i Bag-of-Words: Dva načina kako AI ‘čita’ tvoj tekst?
Zamislite situaciju: imate hiljade dokumenata, prepiski, e-mailova. Tražite nešto specifično, nešto što vas zanima. Mi ljudi to radimo instinktivno – preletimo tekst, uočimo ključne reči, shvatimo kontekst. Ali, kako to radi mašina? Kako veštačka inteligencija, koja nema ni oči ni mozak kao mi, uspeva da ‘razume’ o čemu je tekst, da izdvoji bitno, pa čak i da predvidi da li je nešto spam ili nije?
Ako ste se ikada pitali kako to funkcioniše iza kulisa, onda ste na pravom mestu. Ne brinite, nećemo vas bombardovati matematičkim formulama. Zamislite me kao komšiju koji vam uz kafu objašnjava novu mašinu u selu. Danas pričamo o dva ‘trika’ koja AI koristi da bi uopšte počela da ‘čita’ i analizira tekst: Bag-of-Words i TF-IDF.
Bag-of-Words: ‘Vreća reči’ koja ignoriše redosled
Počnimo od nečeg jednostavnog. Zamislite da pravite sarme. Imate kupus, meso, pirinač, začine… Da li je bitno da li ćete prvo u šerpu staviti kupus pa onda meso, ili obrnuto? Za ukus sarme i konačni rezultat – ne toliko. Bitno je da su svi sastojci tu i u pravoj količini.
E, Bag-of-Words (Bukvalno: Vreća reči) radi slično. Kada AI dobije neki tekst, on ga razbije na pojedinačne reči i bukvalno ih stavi u jednu virtuelnu ‘vreću’. Redosled reči? Gramatika? Struktura rečenice? Ma, ko mari! AI gleda samo koje su reči prisutne i koliko puta se svaka reč pojavila u tom tekstu.
- Ako imate rečenicu:
