Ne gubi podatke: Kako uvesti AI data governance u tim

Ne gubi podatke: Kako uvesti AI data governance u tim

Kazna od 20 miliona eura ili 4% vašeg godišnjeg prometa. To nije teoretska prijetnja iz sci-fi filma; to je hladna, birokratska realnost koju donosi EU AI Act ako vaši podaci procure ili budu korišteni suprotno propisima. Ako mislite da je uvođenje vještačke inteligencije u tim samo instaliranje ChatGPT-a i ‘gas do daske’, spremite se na sudar sa zidom. Vaši podaci su gorivo, ali bez sistema za upravljanje (data governance), to gorivo će vam zapaliti radionicu umjesto da pokrene mašinu. Vi kontrolišete proces ili proces kontroliše vas. Izbora nema.

Izbjegnite kratki spoj: Inventura podataka prije nego što uključite osigurač

Prije nego što povučete ijedan kabal, morate znati šta struji kroz vaše servere. U radionici ne miješate benzin i vodu u istom kanisteru. Isto važi za podatke. Prvi korak je klasifikacija. Morate razdvojiti javne podatke od onih koji su strogo povjerljivi. Većina timova griješi jer misli da AI ‘vidi sve’ podjednako. Greška. Velika greška. Ako ubacite privatne ugovore klijenata u model koji nije izolovan, vi ste upravo objavili te ugovore na oglasnoj ploči. Pogledajte kazne za EU AI Act i vidjet ćete da inspektori ne praštaju neznanje. Svaki fajl mora imati oznaku vlasnika, nivo pristupa i rok trajanja. Podaci trunu. Ako ih čuvate predugo, postaju toksičan otpad koji samo čeka da ga hakeri iskoriste.

WARNING: Nikada ne unosite PII (Personally Identifiable Information) poput JMBG-a ili brojeva bankovnih računa u javne LLM modele. Čak i ako koristite ‘private’ mod, rizik od curenja kroz memoriju modela je stvaran. Koristite multimetar za privatnost – alat za anonimizaciju – prije nego što podaci napuste vašu lokalnu mrežu.

Šta je ‘Data Lineage’ i zašto vam čuva glavu?

Data lineage je trag mrvica hljeba u šumi vaših tabela. Morate znati tačno odakle je podatak došao, ko ga je izmijenio i gdje završava. Bez toga, vaš AI model je crna kutija koja donosi odluke na osnovu laži. Ako niste sigurni u izvor, ne koristite ga. To je kao da koristite zahrđale vijke za nosivu konstrukciju. Pući će. Iskusni majstori znaju da je priprema 90% posla. U AI svijetu, čišćenje teksta za AI je onaj dosadni dio struganja rđe koji niko ne voli, ali bez njega nema stabilnog sistema.

Technical data management and security blueprint on a craftsman's table

EU AI Act: Vaš novi građevinski kod za digitalnu gradnju

Kao što ne možete graditi sprat bez dozvole, ne možete ni uvoditi AI pipeline bez usklađenosti. EU AI Act dijeli sisteme prema riziku. Većina alata koje ćete koristiti spada u ‘nizak rizik’, ali čim se dotaknete regrutacije ili biometrije, ulazite u zonu ‘visokog rizika’. Tu pravila postaju stroga. Potrebna vam je tehnička dokumentacija koja izgleda kao nacrt nuklearne elektrane. Svaki algoritam mora biti provjerljiv. Ne smije biti pristrasnosti. Ako vaš bot počne odbijati kandidate na osnovu pola ili godina, vi ste odgovorni, a ne programer koji je napisao kod. Morate redovno raditi zaštitu podataka firme kroz stroge protokole. To nije opcija. To je obaveza. Zapamtite: inspekcija ne kuca, ona šalje nalog za blokadu računa.

Zašto je ‘Human-in-the-Loop’ jedini osigurač koji radi?

Vještačka inteligencija halucinira. To je činjenica, a ne bug. Ona će vas lagati u lice sa tolikim samopouzdanjem da ćete joj povjerovati. Zato vam treba čovjek u krugu. Neko ko će lupiti pečat na finalnu odluku. Bez nadzora, sistem će poludjeti. Pročitajte više o tome šta je human-in-the-loop i zašto je taj ‘biološki procesor’ (vaš mozak) i dalje najbitniji dio mašinerije. Mašina predlaže, čovjek presijeca. To je jedini način da ostanete legalni i moralni.

Zašto ovo radi (Nauka iza podataka): AI modeli rade na principu statističke vjerovatnoće, a ne logičkog razumijevanja. Kada ubacite loše podatke (garbage in), model ne samo da daje loš rezultat (garbage out), već taj otpad pojačava kroz proces težinskih faktora (weights). Data governance je proces filtriranja tih faktora kako bi se smanjila entropija unutar neuronske mreže. Bez čvrste strukture, model gubi generalizaciju i postaje beskoristan ‘overfit’ nered.

Anatomija propasti: Kako jedan loš CSV fajl ruši cijeli tim

Opisaću vam scenario koji viđam stalno. Tim odluči da automatizuje korisničku podršku. Uzmu istoriju razgovora iz zadnjih pet godina, ne očiste je od ličnih podataka, i ‘nahrane’ model. Šest mjeseci kasnije, bot počne da izbacuje lozinke starih korisnika novim klijentima. Katastrofa. Panika. Gašenje servera. Zašto tvoj bot griješi? Zato što si bio lijen da uradiš sanitaciju. Popravka ovakve greške košta deset puta više nego početno planiranje. Moraćete raditi forenziku svakog upita, obavještavati agenciju za zaštitu podataka i vjerovatno platiti odštete. To je kao da niste uzemljili instalaciju u kupatilu. Pitanje je vremena kada će nekoga stresiti struja. Slather governance on thick – ne štedite na sigurnosti.

Praktični koraci za uvođenje reda u haos

Prvo, imenujte ‘Čuvara podataka’. To nije IT podrška, to je osoba koja kaže ‘ne’ kada neko želi da skine bazu na svoj privatni laptop. Drugo, koristite verziranje podataka. Svaki set podataka mora imati verziju, baš kao i softver. Ako model počne da ‘ludi’, morate se moći vratiti na prethodnu, provjerenu verziju. Treće, obučite tim. Većina curenja podataka se dešava jer je neko kliknuo na ‘share’ bez razmišljanja. DIY duh ne znači da radite bez plana. Znači da sami pravite alat koji radi besprijekorno. Vaš AI governance je taj alat. Možda nije glamurozan kao novi GPU server, ali je onaj koji omogućava da sutra uopšte imate firmu. Iskopčajte se iz haosa. Povežite se na sistem. Radite to pametno ili nemojte raditi nikako.

Slični tekstovi

Komentariši

Vaša email adresa neće biti objavljivana. Neophodna polja su označena sa *