Uskoro možda nećete znati da razgovarate sa računarom

Sadržaj:

Uskoro možda nećete znati da razgovarate sa računarom
Uskoro možda nećete znati da razgovarate sa računarom
Anonim

Key Takeaways

  • Ubrzo se bliži dan kada nećete moći da razlikujete kompjuterski generisani govor od prave stvari.
  • Google je nedavno predstavio LaMDA, model koji bi mogao omogućiti prirodnije razgovore.
  • Proizvodnja govora nalik ljudskom također zahtijeva ogromne količine procesorske snage.
Image
Image

Trenutno je lako reći kada razgovarate sa računarom, ali to bi se uskoro moglo promijeniti zahvaljujući nedavnim napretcima u AI.

Google je nedavno predstavio LaMDA, eksperimentalni model za koji kompanija tvrdi da bi mogao povećati sposobnost svojih konverzacijskih AI pomoćnika i omogućiti prirodnije razgovore. LaMDA ima za cilj da na kraju normalno razgovara o gotovo svemu bez ikakve prethodne obuke.

To je jedan od sve većeg broja AI projekata koji bi vas mogli ostaviti da se zapitate razgovarate li s ljudskim bićem.

"Moja procjena je da će u narednih 12 mjeseci korisnici početi biti izloženi i navikavati se na ove nove, emotivnije glasove, " James Kaplan, izvršni direktor MeetKaija, konverzacijskog AI virtuelnog glasovnog asistenta i pretraživanja motor, rečeno je u intervjuu putem e-pošte.

"Kada se to dogodi, sintetizirani govor današnjice će zvučati korisnicima kao što nam danas zvuči govor iz ranih 2000-ih."

Glasovni asistenti sa karakterom

Googleova LaMDA je izgrađena na Transformeru, arhitekturi neuronske mreže koju je izumio Google Research. Za razliku od drugih jezičkih modela, Googleov LaMDA je obučen za pravi dijalog.

Dio izazova za stvaranje govora umjetne inteligencije prirodnog zvučanja je otvorena priroda razgovora, napisao je Eli Collins iz Googlea u objavi na blogu.

Image
Image

"Razgovor s prijateljem o TV emisiji mogao bi se razviti u raspravu o zemlji u kojoj je serija snimljena prije nego što se zaustavi debata o najboljoj regionalnoj kuhinji te zemlje", dodao je..

Stvari se brzo kreću uz govor robota. Eric Rosenblum, izvršni partner u Tsingyuan Ventures, koji ulaže u konverzacijsku umjetnu inteligenciju, rekao je da su neki od najosnovnijih problema u kompjuterskom govoru virtualno riješeni.

Na primjer, stopa tačnosti u razumijevanju govora je već izuzetno visoka u uslugama kao što su transkripcije koje je uradio softver Otter.ai ili medicinske bilješke koje je napravio DeepScribe.

"Sljedeća granica je, međutim, mnogo teža", dodao je.

"Zadržavanje razumijevanja konteksta, što je problem koji nadilazi procesiranje prirodnog jezika, i empatiju, kao što su kompjuteri u interakciji s ljudima, trebaju razumjeti frustraciju, ljutnju, nestrpljenje itd. Na oba ova pitanja se radi, ali oba su prilično daleko od zadovoljavajućeg."

Neuralne mreže su ključ

Da bi generirali glasove nalik na život, kompanije koriste tehnologiju kao što su duboke neuronske mreže, oblik mašinskog učenja koji klasifikuje podatke kroz slojeve, Matt Muldoon, sjevernoamerički predsjednik ReadSpeaker-a, kompanije koja razvija softver za tekst u govor, rekao je u intervjuu putem e-pošte.

"Ovi slojevi prečišćavaju signal, sortirajući ga u složenije klasifikacije", dodao je. "Rezultat je sintetički govor koji nevjerovatno zvuči kao ljudski."

Još jedna tehnologija u razvoju je Prosody Transfer, koja uključuje kombinovanje zvuka jednog glasa iz teksta u govor sa stilom govora drugog, rekao je Muldoon. Tu je i učenje transfera, što smanjuje količinu podataka o obuci potrebnih za proizvodnju novog neuralnog glasa teksta u govor.

Kaplan je rekao da proizvodnja govora nalik na ljude također zahtijeva ogromnu količinu procesorske snage. Kompanije razvijaju čipove za neuronske akceleratore, koji su prilagođeni moduli koji rade u sprezi sa redovnim procesorima.

"Sljedeća faza u ovome će biti stavljanje ovih čipova u manji hardver, kao što je trenutno već urađeno za kamere kada je potrebna AI za vid", dodao je. "Neće proći mnogo vremena prije nego što ova vrsta računarskih mogućnosti bude dostupna u samim slušalicama."

Jedan izazov za razvoj govora vođenog umjetnom inteligencijom je da svi pričaju drugačije, tako da nas kompjuteri teško razumiju.

"Razmislite o akcentima Gruzije protiv Bostona protiv Sjeverne Dakote i da li vam je engleski primarni jezik ili ne", rekla je Monica Dema, koja radi na analitici glasovnog pretraživanja u MDinc-u, u e-poruci. "Razmišljajući globalno, skupo je to učiniti za sve regije Njemačke, Kine i Indije, ali to ne znači da nije ili ne može biti urađeno."

Preporučuje se: