AI sada može razumjeti vaše video zapise gledajući ih

Sadržaj:

AI sada može razumjeti vaše video zapise gledajući ih
AI sada može razumjeti vaše video zapise gledajući ih
Anonim

Key Takeaways

  • Istraživači kažu da mogu naučiti AI da označava video zapise gledanjem i slušanjem.
  • AI sistem uči da predstavlja podatke kako bi uhvatio koncepte koji se dijele između vizuelnih i audio podataka.
  • To je dio napora da se AI nauči da razumije koncepte koji ljudi nemaju problema s učenjem, ali ih je kompjuterima teško razumjeti.

Image
Image

Novi sistem umjetne inteligencije (AI) mogao bi gledati i slušati vaše videozapise i označavati stvari koje se dešavaju.

Istraživači MIT-a razvili su tehniku koja uči AI da bilježi radnje koje se dijele između video i audio zapisa. Na primjer, njihova metoda može razumjeti da je čin bebinog plača u videu povezan s izgovorenom riječi "plakanje" u zvučnom klipu. To je dio napora da se AI nauči kako razumjeti koncepte koje ljudi nemaju problema s učenjem, ali koje je kompjuterima teško razumjeti.

"Preovlađujuća paradigma učenja, učenje pod nadzorom, dobro funkcionira kada imate skupove podataka koji su dobro opisani i potpuni", rekao je stručnjak za umjetnu inteligenciju Phil Winder u intervjuu za Lifewire. "Nažalost, skupovi podataka rijetko su potpuni jer stvarni svijet ima lošu naviku predstavljanja novih situacija."

Pametniji AI

Kompjuteri imaju poteškoća da shvate svakodnevne scenarije jer im je potrebno da obrađuju podatke, a ne zvuk i slike kao ljudi. Kada mašina "vidi" fotografiju, ona mora kodirati tu fotografiju u podatke koje može koristiti za obavljanje zadatka kao što je klasifikacija slika. AI se može zaglaviti kada ulazi dolaze u više formata, poput video zapisa, audio snimaka i slika.

"Glavni izazov ovdje je, kako mašina može uskladiti te različite modalitete? Kao ljudima, ovo je lako za nas", rekao je Alexander Liu, istraživač MIT-a i prvi autor rada o ovoj temi. saopštenje za javnost. "Vidimo auto, a zatim čujemo zvuk automobila koji prolazi pored, i znamo da je to ista stvar. Ali za mašinsko učenje to nije tako jednostavno."

Liuov tim je razvio AI tehniku za koju kažu da uči da predstavlja podatke kako bi uhvatio koncepte koji se dijele između vizuelnih i audio podataka. Koristeći ovo znanje, njihov model mašinskog učenja može identificirati gdje se određena radnja odvija u videu i označiti je.

Novi model uzima sirove podatke, kao što su video zapisi i njihovi odgovarajući tekstualni natpisi, i kodira ih izdvajanjem karakteristika ili zapažanja o objektima i radnjama u videu. Zatim mapira te tačke podataka u mrežu, poznatu kao prostor za ugrađivanje. Model grupiše slične podatke zajedno kao pojedinačne tačke u mreži; svaka od ovih tačaka podataka, ili vektora, predstavljena je pojedinačnom riječju.

Na primjer, video snimak osobe koja žonglira može biti mapiran u vektor označen sa "žongliranje."

Istraživači su dizajnirali model tako da može koristiti samo 1000 riječi za označavanje vektora. Model može odlučiti koje akcije ili koncepte želi kodirati u jedan vektor, ali može koristiti samo 1000 vektora. Model bira riječi za koje misli da najbolje predstavljaju podatke.

"Ako postoji video o svinjama, model može dodijeliti riječ 'svinja' jednom od 1000 vektora. Zatim, ako model čuje da neko izgovara riječ 'svinja' u audio klipu, i dalje bi trebao koristiti isti vektor da to kodira, " objasnio je Liu.

Vaši video snimci, dekodirani

Bolji sistemi označavanja poput onog koji je razvio MIT mogli bi pomoći u smanjenju pristrasnosti u AI, rekao je Marian Beszedes, šef istraživanja i razvoja u biometrijskoj firmi Innovatrics, u intervjuu za Lifewire. Beszedes je sugerirao da industrija podataka može sagledati AI sisteme iz perspektive proizvodnog procesa.

"Sistemi prihvataju sirove podatke kao ulaz (sirovine), prethodno ih obrađuju, unose, donose odluke ili predviđanja i izlaznu analitiku (gotovi proizvodi)," rekao je Beszedes. "Ovaj tok procesa nazivamo "fabrika podataka", i kao i drugi proizvodni procesi, on bi trebao biti podvrgnut kontroli kvaliteta. Industrija podataka treba tretirati AI pristrasnost kao problem kvaliteta.

"Iz perspektive potrošača, pogrešno označeni podaci otežavaju, na primjer, online pretragu određenih slika/videozapisa," dodao je Beszedes. "Sa ispravno razvijenom umjetnom inteligencijom, označavanje možete izvršiti automatski, mnogo brže i neutralnije nego s ručnim označavanjem."

Image
Image

Ali MIT model još uvijek ima neka ograničenja. Kao prvo, njihovo istraživanje se fokusiralo na podatke iz dva izvora istovremeno, ali u stvarnom svijetu ljudi se susreću s mnogim vrstama informacija istovremeno, rekao je Liu

"I znamo da 1.000 riječi radi na ovoj vrsti skupa podataka, ali ne znamo da li se može generalizirati na problem iz stvarnog svijeta", dodao je Liu.

Istraživači sa MIT-a kažu da njihova nova tehnika nadmašuje mnoge slične modele. Ako se AI može obučiti da razumije videozapise, možda ćete na kraju moći preskočiti gledanje videozapisa sa odmora svog prijatelja i umjesto toga dobiti kompjuterski generisan izvještaj.

Preporučuje se: