Koji su preduvjeti za strojno učenje?



Ovaj blog o preduvjetima za strojno učenje pomoći će vam da razumijete osnovne pojmove koje morate znati prije nego što započnete s strojnim učenjem.

Strojno učenje nesumnjivo je najtraženija tehnologija tog doba! Ako ste početnik koji započinje sa strojnim učenjem, važno je da znate preduvjete za strojno učenje. Ovaj će vam blog pomoći da razumijete različite koncepte koje morate znati prije nego što započnete s strojnim učenjem.

Da biste stekli detaljno znanje o umjetnoj inteligenciji i strojnom učenju, možete se prijaviti uživo Edureka s podrškom 24/7 i doživotnim pristupom.





Evo popisa tema pokriven na ovom blogu:

povezani popis u c vodiču
  1. Preduvjeti za strojno učenje
  2. Razumijevanje strojnog učenja s primjerom upotrebe

Preduvjeti za strojno učenje

Za početakStrojno učenje morate biti upoznati sa sljedećim konceptima:



  1. Statistika
  2. Linearna algebra
  3. Račun
  4. Vjerojatnost
  5. Programski jezici

Statistika

Statistika sadrži alate koji se mogu koristiti za dobivanje određenog ishoda iz podataka. Postoji deskriptivna statistika koja se koristi za pretvaranje sirovih podataka u neke važne informacije. Također, inferencijalne statistike mogu se koristiti za dobivanje važnih informacija iz uzorka podataka umjesto korištenja kompletnog skupa podataka.

Da biste saznali više o Statistiku možete pregledati kroz sljedeće blogove:

Linearna algebra

Ponude linearne algebres vektorima, matricama i linearnim transformacijama. Vrlo je važan u strojnom učenju jer se može koristiti za transformiranje i izvođenje operacija na skupu podataka.



Račun

Račun je važno područje matematike i igra važnu ulogu u mnogim algoritmima strojnog učenja. Skup podataka koji ima više značajki jekoristi se za izgradnju modela strojnog učenja jer su značajke višestruko multivarijabilni račun igra važnu ulogu za izgradnju modela strojnog učenja. Integracije i diferencijacije su neophodni.

Vjerojatnost

Vjerojatnost pomaže predvidjeti vjerojatnost pojave, pomaže nam u zaključivanju da se situacija može ponoviti ili ne mora ponoviti. Za strojno učenje vjerojatnost je a temelj.

Mathematics

Da biste saznali više o vjerojatnosti, možete to proći Blog.

Programski jezik

Neophodno je znati programske jezike kao što su R i Python kako bi se implementirao cijeli proces strojnog učenja. Python i R nude ugrađene knjižnice koje olakšavaju implementaciju algoritama strojnog učenja.

Osim osnovnog znanja o programiranju, važno je i da znate kako izvući, obraditi i analizirati podatke. Ovo je jedna od najvažnijih vještina koja je potrebna za strojno učenje.

Da biste saznali više o programiranju jezika za strojno učenje, možete proći kroz sljedeće blogove:

  1. Najbolje Python knjižnice za znanost o podacima i strojno učenje

Slučaj upotrebe strojnog učenja

Strojno učenje podrazumijeva stvaranje algoritma koji može naučiti na temelju podataka kako bi mogao predvidjeti poput vrsta predmeta na slici ili mehanizma za preporuke, najbolju kombinaciju lijekova za liječenje određene bolesti ili filtriranje neželjene pošte.

Strojno učenje temelji se na matematičkim preduvjetima i ako znate zašto se matematika koristi u strojnom učenju, bit će zabavno. Morate znati matematiku iza funkcija koje ćete koristiti i koji je model prikladan za podatke i zašto.

php kako ispisati niz

Počnimo sa zanimljivim problemom predviđanja cijena kuća, koji sadrži skup podataka koji sadrži povijest različitih značajki i cijena, za sada ćemo razmotriti površinu stambenog prostora u kvadratnim metrima i cijene.

Sada imamo skup podataka koji sadrži dva stupca kao što je prikazano u nastavku:

Mora postojati određena korelacija između ove dvije varijable kako bismo saznali da ćemo trebati izgraditi model koji može predvidjeti cijenu kuća, kako to možemo učiniti?

Idemo grafički prikazati ove podatke i vidjeti kako to izgleda:

Ovdje je X-os cijena kvadrata stambenog prostora, a Y-os cijena kuće. Ako ucrtamo sve podatkovne točke, dobit ćemo dijagram raspršenja koji se može predstaviti linijom kao što je prikazano na gornjoj slici, a ako unesemo neke podatke, tada će predvidjeti neki ishod. U idealnom slučaju, moramo pronaći liniju koja će presijecati maksimalne točke podataka.

Ovdje pokušavamo stvoriti liniju koja se naziva:

Y = mX + c

Ova metoda predviđanja linearnog odnosa između ciljane (ovisne varijable) i prediktorske varijable (neovisne varijable) naziva se linearnom regresijom. Omogućuje nam proučavanje i sažimanje veze između dvije varijable.

  • X = Nezavisna varijabla
  • Y = Ovisna varijabla
  • c = presjek y
  • m = Nagib crte

Ako uzmemo u obzir jednadžbu, imamo vrijednosti za X koja je neovisna varijabla, pa sve što moramo učiniti je izračunati vrijednosti za m i c kako bismo predvidjeli vrijednost Y.

Pa kako pronaći ove varijable?

Da bismo pronašli ove varijable, možemo isprobati hrpu vrijednosti i pokušati pronaći liniju koja presijeca maksimalan broj točaka podataka. Ali, kako pronaći najbolju liniju?

Dakle, kako bismo pronašli najprikladniju liniju, možemo koristiti funkciju pogreške najmanje kvadrata koja će pronaći pogrešku između stvarne vrijednosti y i predviđene vrijednosti y`.

Funkcija pogrešaka najmanjih kvadrata može se predstaviti pomoću sljedeće jednadžbe:

Korištenjem ove funkcije možemo otkriti pogrešku za svaku predviđenu podatkovnu točku uspoređujući je sa stvarnom vrijednošću podatkovne točke. Zatim uzmete zbroj svih tih pogrešaka i izravnate ih kako biste otkrili odstupanje u predviđanju.

Ako trećem osi dodamo grafikon koji sadrži sve moguće vrijednosti pogrešaka i ucrtamo ga u trodimenzionalni prostor, izgledat će ovako:

Na gornjoj slici idealne vrijednosti bile bi u donjem crnom dijelu koji će predvidjeti cijene blizu stvarne točke podataka. Sljedeći je korak pronaći najbolje moguće vrijednosti za m i c. To se može postići uporabom tehnike optimizacije koja se naziva gradijentni spust.

Gradientni spust je iterativna metoda, gdje započinjemo s inicijalizacijom nekog skupa vrijednosti za naše varijable i polako ih poboljšavamo minimizirajući pogrešku između stvarne vrijednosti i predviđene vrijednosti.

Sada ako mislimo da praktično cijene stana zapravo ne ovise samo o cijeni po kvadratu, postoji mnogo čimbenika poput broja spavaćih soba, kupaonica itd. Ako uzmemo u obzir i te značajke, jednadžba će izgledati nekako kao ovo

idite na c ++

Y = b0 + b1x1 + b2x2 + & hellip .. + bnxn + c

Ovo je multilinearna regresija, ovo pripada linearnoj algebri, ovdje možemo koristiti matrice veličine mxn gdje su m obilježja i n točke podataka.

Razmotrimo još jednu situaciju u kojoj pomoću vjerojatnosti možemo pronaći stanje kuće kako bismo kuću klasificirali na temelju toga je li u dobrom ili lošem stanju. Da bismo to postigli, morat ćemo koristiti tehniku ​​koja se naziva Logistička regresija koja djeluje na vjerojatnost pojava predstavljenih sigmoidnom funkcijom.

U ovom smo članku pokrili preduvjete strojnog učenja i kako se primjenjuju u strojnom učenju. Dakle, u osnovi se sastoji od statistike, računa, linearne algebre i teorije vjerojatnosti. Račun ima tehnike korištene za optimizaciju, linearna algebra ima algoritme koji mogu raditi na ogromnim skupovima podataka, s vjerojatnošću možemo predvidjeti vjerojatnost pojava, a statistika nam pomaže da zaključimo korisne uvide iz uzorka skupova podataka.

Sad kad znate preduvjete za strojno učenje, siguran sam da želite znati više. Evo nekoliko blogova koji će vam pomoći da započnete s Data Scienceom:

Ako se želite upisati na cjeloviti tečaj o umjetnoj inteligenciji i strojnom učenju, Edureka ima posebno kuriranog koji će vas osposobiti za tehnike poput nadziranog učenja, nenadgledanog učenja i obrade prirodnog jezika. Uključuje obuku o najnovijim dostignućima i tehničkim pristupima u umjetnoj inteligenciji i strojnom učenju, poput dubokog učenja, grafičkih modela i učenja ojačanja.