Razgovori sa vašim računarom mogu postati realističniji

Sadržaj:

Razgovori sa vašim računarom mogu postati realističniji
Razgovori sa vašim računarom mogu postati realističniji
Anonim

Key Takeaways

  • Meta koristi AI za izradu programa koji mogu izraziti emocije u govoru.
  • Tim kompanije AI rekao je da je napravio napredak u modeliranju ekspresivnih vokalizacija, kao što su smeh, zijevanje, plač i "spontano čavrljanje" u realnom vremenu.
  • AI se također koristi za poboljšanje poboljšanja u prepoznavanju govora.
Image
Image

Možda ćete uskoro moći da imate prirodniji razgovor sa svojim računarom, zahvaljujući moći veštačke inteligencije (AI).

Meta je rekla da je napravila značajan napredak u svojim naporima da stvori realističnije govorne sisteme generisane veštačkom inteligencijom. Tim kompanije za umjetnu inteligenciju rekao je da je napravio napredak u sposobnosti modeliranja izražajnih vokalizacija, kao što su smeh, zijevanje i plač, pored "spontanog ćaskanja" u realnom vremenu.

"U svakom datom razgovoru, ljudi razmjenjuju prepune neverbalnih signala, kao što su intonacije, emocionalno izražavanje, pauze, akcenti, ritmovi - što je sve važno za ljudske interakcije", napisao je tim u nedavnom blog postu. "Ali današnji AI sistemi ne uspijevaju uhvatiti ove bogate, izražajne signale jer uče samo iz pisanog teksta, koji bilježi ono što govorimo, ali ne i kako to izgovaramo."

Smarter Speech

U blog postu, tim Meta AI je rekao da radi na prevazilaženju ograničenja tradicionalnih AI sistema koji ne mogu razumjeti neverbalne signale u govoru, kao što su intonacije, emocionalni izrazi, pauze, akcenti i ritmovi. Sistemi su zadržani jer mogu učiti samo iz pisanog teksta.

Ali Metin rad se razlikuje od prethodnih napora jer njeni AI modeli mogu koristiti modele obrade prirodnog jezika kako bi uhvatili punu prirodu govornog jezika. Meta istraživači kažu da novi modeli mogu omogućiti AI sistemima da prenesu osjećaje koje žele prenijeti – kao što su dosada ili ironija.

"U bliskoj budućnosti, fokusirat ćemo se na primjenu tehnika bez teksta za izgradnju korisnih nizvodnih aplikacija bez potrebe za tekstualnim oznakama koje zahtijevaju velike resurse ili automatskih sistema za prepoznavanje govora (ASR), kao što je odgovaranje na pitanja (npr. "Kako je vrijeme?"), napisao je tim u postu na blogu. "Vjerujemo da prozodija u govoru može pomoći boljem raščlanjivanju rečenice, što zauzvrat olakšava razumijevanje namjere i poboljšava performanse odgovaranja na pitanja."

Razumijevanje AI moći

Ne samo da kompjuteri postaju sve bolji u komunikaciji značenja, već se AI također koristi za poboljšanje prepoznavanja govora.

Kompjuterski naučnici rade na kompjuterskom prepoznavanju govora od najmanje 1952. godine, kada su tri istraživača Bell Labs-a kreirala sistem koji je mogao prepoznati pojedinačne numeričke cifre, rekao je glavni tehnološki direktor AI Dynamics-a, Ryan Monsurate, u e-poruci upućenoj Lifewire. Do 1990-ih, sistemi za prepoznavanje govora su bili komercijalno dostupni, ali su i dalje imali stopu greške koja je bila dovoljno visoka da obeshrabruje upotrebu izvan vrlo specifičnih domena aplikacija kao što je zdravstvo.

"Sada kada su modeli dubokog učenja omogućili modelima ansambla (poput onih iz Microsofta) da postignu nadljudske performanse u prepoznavanju govora, imamo tehnologiju koja omogućava verbalnu komunikaciju nezavisnu od govornika sa računarima u velikom obimu", rekao je Monsurate. "Sljedeća faza će uključivati smanjenje troškova tako da će svi koji koriste Siri ili Googleove AI asistente imati pristup ovom nivou prepoznavanja govora."

Image
Image

AI je koristan za prepoznavanje govora jer se vremenom može poboljšati učenjem, rekao je Ariel Utnik, glavni direktor prihoda i generalni direktor kompanije za AI govor Verbit.ai, u intervjuu za Lifewire. Na primjer, Verbit tvrdi da njegova interna AI tehnologija otkriva i filtrira pozadinsku buku i odjeke i transkribuje zvučnike bez obzira na naglasak kako bi generirao detaljne, profesionalne transkripte i titlove iz uživo i snimljenog videa i zvuka.

Ali Utnik je rekao da je većina trenutnih platformi za prepoznavanje govora samo 75-80% tačna.

"AI nikada neće u potpunosti zamijeniti ljude jer je lični pregled prepisivača, lektora i urednika neophodan kako bi se osigurao konačan transkript visokog kvaliteta i vrhunske preciznosti", dodao je on.

Bolje prepoznavanje glasa moglo bi se koristiti i za sprečavanje hakera, rekao je u e-poruci Sanjay Gupta, potpredsjednik globalnog direktora za razvoj proizvoda i korporativnog razvoja u kompaniji za prepoznavanje glasa Mitek Systems. Istraživanje pokazuje da će u roku od dvije godine, 20 posto svih uspješnih napada preuzimanja računa koristiti sintetičko povećanje glasa, dodao je.

"To znači kako tehnologija dubokih lažnih podataka postaje sofisticiranija, moramo istovremeno stvoriti naprednu sigurnost koja se može boriti protiv ovih taktika zajedno sa dubokim lažiranjem slika i videa", rekao je Gupta. "Borba protiv lažiranja glasa zahtijeva tehnologiju detekcije živosti, sposobnu da razlikuje glas uživo i snimljenu, sintetičku ili kompjuterski generiranu verziju glasa."

Ispravka 2022-05-04: Ispravljeno pravopis imena Ryan Monsurate u paragrafu 9.

Preporučuje se: