Predvidi cijene uz AI: Kako radi linearna regresija [Lako]

Najamnik u agenciji za analizu tržišta košta 200 KM po satu. Brojevi koje on gleda su isti oni koje tvoj kompjuter upravo sada može procesuirati dok piješ kafu. Ako znaš koliko košta kvadrat stana u centru, a koliko na periferiji, ti već radiš regresiju u glavi. Razlika je u tome što AI ne zaboravlja detalje i ne griješi u sabiranju kad mu se spava. Ovaj vodič će ti pokazati kako da zavrneš rukave i natjeraš mašinu da predvidi cijene umjesto tebe. Zaboravi na skupe pretplate; koristiš ono što već imaš na svom stolu.

Matematika bez diplome: Zašto je tvoj mozak već linearna regresija

Linearna regresija nije ništa drugo nego povlačenje najravnije moguće linije kroz oblak tačaka. Zamisli da na zidu imaš razbacane eksere koji predstavljaju cijene kuća i njihovu kvadraturu. Tvoj posao je da rastegneš kanap tako da bude što bliže svakom ekseru. Taj kanap je tvoj model. Kada god dodaš novu kvadraturu, kanap ti kaže kolika bi trebala biti cijena. Osjetit ćeš onaj poznati otpor pod prstima kad pokušavaš da zategneš liniju, a jedan podatak (ekser) bježi previše visoko. To zovemo ‘outlier’. Ako njega ne ignorišeš, cijeli tvoj model će biti ‘nagnut’ i lagat će te.

Ali, ne možeš samo odokativno bacati kanap. Moraš razumjeti kako mašina ‘vidi’ te brojeve. To nije magija; to je čista fizika podataka. Ako te zanima šira slika o tome kako mašine uopšte uče, baci pogled na osnove mašinskog učenja.

Digitalna alatnica: Šta ti treba u pojasu za alat

Ne treba ti superkompjuter. Treba ti laptop koji se ne gasi kad otvoriš tri taba u Chrome-u i malo strpljenja.

UPOZORENJE: Nikada ne pokreći Python skripte koje si nasumično kopirao sa sumnjivih foruma. 120 linija koda može izgledati nevino, ali ako sadrži komandu za brisanje sistemskih fajlova, tvoj hard disk će postati beskoristan komad metala brže nego što kažeš ‘AI’. Testiraj sve u izolovanom okruženju.

Da bi počeo, instaliraj Python. To je tvoj čekić. Zatim ti treba Pandas (za tabele) i Scikit-learn (za samu regresiju). To je tvoj libela i metar. Bez njih, tvoj model će visiti nakrivo. Ruke majstora na laptopu u radionici sa prikazom grafikona linearne regresije

Zašto tvoj Excel laže (i kako AI to popravlja)

Većina ljudi pokušava ovo raditi u Excelu. Excel je super za spiskove namirnica, ali kad mu daš 50 varijabli koje utiču na cijenu — od vlage u podrumu do blizine tramvajske stanice — on počinje da štuca. Linearna regresija u Pythonu ne gleda samo dvije kolone. Ona može procesuirati ‘multidimenzionalni’ prostor. To zvuči kao naučna fantastika, ali to je samo više kanapa koji se sjeku pod uglovima koje tvoje oko ne vidi, ali procesor osjeća kroz toplotu koju izbacuje kuler.

Prije nego što uopšte pustiš model u rad, moraš očistiti podatke. Ako unutra ubaciš smeće, dobićeš smeće. To je zlatno pravilo zanata. Pročitaj kako da središ podatke prije treninga jer je to 90% posla. Ostatak je samo pritiskanje dugmeta ‘Enter’.

Da li stvarno moram znati kodirati?

Da. Ali ne onoliko koliko misliš. Ako znaš promijeniti sijalicu ili pratiti uputstvo za sastavljanje ormara, možeš naučiti i ovo. Radi se o logici, a ne o kucanju čudnih simbola po cijeli dan.

Anatomija zezancije: Šta se desi kad naguraš loše podatke

Desilo mi se prošle godine. Pokušao sam predvidjeti cijenu polovnih automobila, ali sam zaboravio uključiti informaciju o tome da li je auto bio udaren. Model je bio ‘precizan’ na papiru, ali u stvarnosti je griješio za hiljade maraka. To je ‘overfitting’. Model je naučio napamet moje podatke, ali nije razumio tržište. To je kao da napraviš savršen ključ za jedna vrata, ali taj ključ ne paše ni na jedna druga u cijeloj zgradi.

Ako tvoj model predviđa da će kuća od 20 kvadrata koštati milion maraka, negdje si debelo zabrljao. Obično je to u fazi koda gdje si zaboravio skalirati brojeve. Mašina misli da je ‘1’ isto što i ‘1000’ ako joj ne kažeš drugačije. Gruba greška.

Zašto ovo radi: Nauka o materijalu (podacima)

Zašto to funkcioniše: Linearna regresija koristi metodu najmanjih kvadrata. Zamisli da mjeriš udaljenost od svake tačke do tvoje linije, kvadratiraš tu udaljenost (da se riješiš minusa) i onda pokušavaš da taj ukupni zbir svedeš na minimum. To je kao da zatežeš vijke na glavi motora — moraš to raditi ravnomjerno da ništa ne pukne. Kad je zbir najmanji, tvoja linija je najjača.

Podesi kvačilo svog modela: Hiperparametri

Tvoj model ima ‘kvačilo’ koje se zove Learning Rate. Ako ga postaviš prebrzo, model će preskakati rješenje kao loš vozač koji stalno trza. Ako ga postaviš presporo, trebat će ti vječnost da dobiješ rezultat. Ne budi lijen. Testiraj različite postavke. Čut ćeš kako ventilator na laptopu ubrzava kad mu zadaš težak zadatak. To je zvuk napretka.

Uvijek koristi alate za provjeru tačnosti. Bez toga, ti samo nagađaš, a nagađanje u DIY svijetu obično završava sa rupom u zidu tamo gdje joj nije mjesto.

Škart materijal: Gdje naći besplatne podatke

Nemoj kupovati skupe baze podataka. Budi snalažljiv. Postoje mjesta kao što je Kaggle ili vladini portali sa otvorenim podacima. To su digitalni ekvivalenti stovarišta starog gvožđa gdje možeš naći vrhunski materijal ako znaš gdje da gledaš. Samo ga dobro ‘operi’ od duplih unosa i netačnih nula prije nego što ga ubaciš u mašinu.

Zapamti, tvoj cilj nije savršenstvo. Tvoj cilj je model koji griješi manje nego tvoj komšija koji ‘zna’ cijene. To je pobjeda.

Šta ako AI potpuno promaši cifru?

To znači da tvoj ‘kanap’ nije dovoljno fleksibilan. Linearna regresija je kruta. Ponekad ti treba nešto jače, kao što je logistička regresija ili neuronska mreža. Ali nemoj trčati pred rudu. Prvo savladaj ovo. Ako ne znaš zakucati ekser, nemoj ni pokušavati raditi sa pneumatskom heftalicom. Ispeci zanat na linearnim modelima pa onda gradi dalje.

Slični tekstovi

Komentariši

Vaša email adresa neće biti objavljivana. Neophodna polja su označena sa *