Key Takeaways
- Kompanije se utrkuju u pronalaženju načina da kompjuterski generirani govor zvuči realističnije.
- NVIDIA je nedavno predstavila alate koji mogu uhvatiti zvuk prirodnog govora omogućavajući vam da trenirate AI vlastitim glasom.
- Intonacija, emocija i muzikalnost su karakteristike koje kompjuterskim glasovima još uvek nedostaju, kaže jedan stručnjak.
Kompjuterski generisani govor uskoro bi mogao zvučati mnogo ljudskije.
Proizvođač računarskih delova NVIDIA je nedavno predstavio alate koji mogu da snime zvuk prirodnog govora omogućavajući vam da trenirate veštačku inteligenciju svojim glasom. Softver također može prenijeti riječi jednog govornika koristeći glas druge osobe. To je dio rastućeg napora da se kompjuterski govor učini realističnijim.
"Napredna glasovna AI tehnologija omogućava korisnicima da govore prirodno, kombinujući mnoga pitanja u jednu rečenicu i eliminišući potrebu za stalnim ponavljanjem detalja iz originalnog upita, " Michael Zagorsek, glavni operativni direktor kompanije za prepoznavanje govora SoundHound, rekao je za Lifewire u intervjuu putem e-pošte.
"Dodavanje više jezika, sada dostupno na većini platformi za glasovnu umjetnu inteligenciju, čini digitalne glasovne asistente dostupnim u više geografskih područja i za više populacija," dodao je.
Robospeech Rising
Amazonova Alexa i Apple-ova Siri zvuče mnogo bolje od kompjuterskog govora od prije deset godina, ali ih uskoro neće zamijeniti za autentične ljudske glasove.
Da bi umjetni govor zvučao prirodnije, NVIDIA-in istraživački tim za pretvaranje teksta u govor razvio je RAD-TTS model. Sistem omogućava pojedincima da svojim glasom podučavaju model pretvaranja teksta u govor (TTS), uključujući tempo, ton, ton i druge faktore.
Kompanija je koristila svoj novi model da izgradi govornu naraciju koja zvuči konverzacijsko za svoju video seriju I Am AI.
"Sa ovim sučeljem, naš video producent je mogao snimiti sebe kako čita video skriptu, a zatim koristiti AI model da konvertuje svoj govor u glas ženskog naratora. Koristeći ovu osnovnu naraciju, producent bi zatim mogao usmjeriti AI kao glasovni glumac prilagođava sintetizirani govor kako bi se naglasile određene riječi i modificira ritam naracije kako bi bolje izrazio ton videa, " napisala je NVIDIA na svojoj web stranici.
Teže nego što zvuči
Učiniti da kompjuterski generirani govor zvuči prirodnim je težak problem, kažu stručnjaci.
"Morate snimiti stotine sati nečijeg glasa da biste kreirali njegovu kompjutersku verziju", rekao je za Lifewire Nazim Ragimov, izvršni direktor softverske kompanije za tekstualni govor Kukarella. “I snimak mora biti kvalitetan, snimljen u profesionalnom studiju. Što se više sati kvalitetnog govora učita i obradi, to je bolji rezultat."
Pretvaranje teksta u govor se može koristiti u igrama, za pomoć pojedincima s vokalnim poteškoćama ili za pomoć korisnicima da prevode s jezika na vlastiti glas.
Intonacija, emocija i muzikalnost su karakteristike koje kompjuterskim glasovima još nedostaju, rekao je Ragimov.
Ako AI može dodati ove nedostajuće karike, kompjuterski generisani govor će se "ne razlikovati od glasova stvarnih glumaca", dodao je. "Rad je u toku. Drugi glasovi će se moći takmičiti s radijskim voditeljima. Uskoro ćete vidjeti glasove koji mogu pjevati i čitati audio knjige."
Tehnologija govora postaje sve popularnija u širokom spektru poslovanja.
"Auto industrija je nedavno usvojila glasovnu AI kao način za stvaranje sigurnijeg i povezanijeg iskustva vožnje, " rekao je Zagoršek.
"Od tada su glasovni asistenti postali sve prisutniji jer brendovi traže načine da poboljšaju korisničko iskustvo i zadovolje potražnju za lakšim, sigurnijim, praktičnijim, efikasnijim i higijenskim metodama interakcije sa njihovim proizvodima i uslugama."
Uobičajeno, glasovna AI pretvara upite u odgovore u procesu od dva koraka koji počinje prepisivanjem govora u tekst pomoću automatskog prepoznavanja govora (ASR), a zatim unosom tog teksta u model razumijevanja prirodnog jezika (NLU).
SoundHoundov pristup kombinuje ova dva koraka u jedan proces za praćenje govora u realnom vremenu. Kompanija tvrdi da ova tehnika omogućava glasovnim asistentima da razumiju značenje korisničkih upita, čak i prije nego što osoba završi s govorom.
Budući napredak u kompjuterskom govoru, uključujući dostupnost raznih opcija povezivanja od samo ugrađenih (nije potrebna veza s oblakom) do hibridnih (ugrađeni plus oblak) i samo u oblaku "daće više izbora kompanijama u različitim industrijama u smislu troškova, privatnosti i dostupnosti procesorske snage, " rekao je Zagoresk.
NVIDIA je rekla da njene vijesti AI modeli prevazilaze rad na glasovnom preslušavanju.
"Pretvaranje teksta u govor može se koristiti u igrama, za pomoć pojedincima s vokalnim poteškoćama ili za pomoć korisnicima da prevode s jezika na vlastiti glas", napisala je kompanija. "Može čak da rekreira nastupe legendarnih pjevača, ne samo da odgovara melodiji pjesme već i emotivnom izrazu iza vokala."