Jelenleg is zajlik a The Finals című FPS nyílt játéktesztje. A világon mindenki beugorhat a DICE veteránjai által épített darálóba, hogy kipróbálhasson egy újszerű kompetitív lövöldét, korszerű tálalással, modern játékelemekre építve. A trailerek nagyon jól néztek ki, és a közösség látszólag nagyon élvezi a béta adta élményt is. Az egyetlen szépséghibája az egésznek, hogy a kommentátor hangjáért bizony mesterséges intelligencia felel.
A The Finals körítése tévéműsorra emlékeztet. A játékosok a sztori szerint egy verseny részesei, akik egy virtuális térben lövik agyon egymást. A tálalás jellegéből adódik, hogy a kommentátorok lelkes kiáltásai fontos elemét képeznék az egész show élményének. Elsőre fel sem tűnik az embernek, hogy mesterséges intelligencia mondta fel a neki lediktált szövegeket, de a harmadik-negyedik meccsnél már egyértelművé válik a turpisság.
Az Embark nem is nagyon rejtegette a dolgot. A legutóbbi Meet the Makers podcastban lelkesen meséltek a technológia adta lehetőségekről.
"AI-t használtunk néhány kivétellel. Mindkét kommentátorunk hangjáért szövegfelolvasó mesterséges intelligencia felel. Az olyan elemeket, mint a játékoskarakterek zihálása futás, ugrálás és egyebek közben, mi vettük fel a stúdióban. Az AI még nem képes az ilyesmi megvalósítására."
A hanganyag összeállításáért felelős Carl Strandberg és Andreas Almström a következővel magyarázta a vitatott technológia használatát:
"Az okunk az volt, hogy a mesterséges intelligenciára épülő felolvasás iszonyatosan erős eszköz. Elégséges teljesítményt nyújt minőség szempontjából, és lehetővé teszi számunkra, hogy mindent frissen tarthassunk. Ha például egy játéktervezőnk előáll egy új játékmóddal, akkor ahhoz hónapok helyett órákon belül le tudjuk szállítani a szükséges kommentárt."
A szinkronszínészek nem örültek az indoklásnak. Gianni Matragrano (Evil West, Vertigo 2) elmondta, hogy folyton 1-2 nap alatt adnak le kész munkákat. Ha szükség van új szinkronanyagra, akkor azt már viszonylag olcsón és gyorsan meg lehet rendelni a színészektől.
"far enough in terms of quality"
— Gianni Matragrano (@GetGianni) October 28, 2023
"hours instead of months" - We are constantly banging out rush order sessions for like, within a day or two. You can literally get pro-grade VO for less than a grand total, bang out a couple recording sessions and bam you have all the audio you… pic.twitter.com/85JQmjHZtw
Matragrano kommentárjához aztán az ipar többi szereplője is csatlakozott.
Shipping content with AI VO is bad, flat out. Especially for a game that has so clearly polished every other aspect of its presentation to a gleaming finish, this sticks out like an infected thumb. https://t.co/2OW3yhxzZG
— Sam Winkler (@ThatSamWinkler) October 29, 2023
What really sticks with me is that they needed to bring in real actors to get the grunting, effort, and breathing sounds because the AI can't do it.
— Kit Harrison 🎙💪🏳️🌈 (@KitHarrisonVA) October 29, 2023
It can't replicate the noise that I make when I stand up from my chair, but it wants to take MY job?! Don't make me laugh. https://t.co/UjCOkXtGlG
Why the fuck do AI voice people act like hiring voice actors is some kind of arcane ritual. "We could have that in hours instead of months." Bro just send us an email and we will work with you. I've knocked out entire games worth of audio in a two hour session. It aint deep https://t.co/we2jkOYYjI
— Zane Schacht - Voice SKELETON!!!! 💀 (@VoicesByZane) October 28, 2023
Semmi spam, csak napi 2-3 értesítés Viberen, hogy képben maradj a játék- és filmvilág, a geek kultúra legérdekesebb híreivel.
A reakciókra idővel aztán az Embark Studios képviselői is reagáltak egy nyilatkozatban.
"Kontextustól függően felvett hanganyagot és AI által generált TTS audiót használunk a játékainkban. Időnként olyan felvételekre van szükségünk, ahol a színeszek együtt dolgoznak és a csoport kémiája formálja az eredményt, amit persze egy mesterséges intelligencia nem tud emulálni. Amikor viszont kifejezetten játékbeli kontextustól függő hanganyagra van szükségünk, akkor az AI lehetővé teszi nekünk, hogy jobban az élmény köré építsük a kommentárt. Ez kifejezetten igaz, ha az implementáció sebessége indokolja a TTS használatát."
"Ezekben az esetekben AI-t használunk a The Finalsben, de az AI hanganyaga is valódi szinkront vesz alapjául. A nyílt bétában ezeket az alapokat profi színészek előadásai és Embark alkalmazottak munkái adják. A célunk az Embarknál nem az, hogy színészek nélkül dolgozhassunk, ellenkezőleg, a TTS lehetővé teszi, hogy új módokon dolgozhassunk együtt."
Függetlenül attól, hogy melyik fél álláspontján vagyunk ebben a vitában, az tény, hogy a gyakorta lélektelen a kommentár a The Finals meccsei alatt. Időnként nagyon kihallatszik, hogy beleélés nélkül olvasta fel az AI a színfalak mögött, ez pedig egyre nyilvánvalóbbá válik majd a játékosok számára ahogy potenciálisan több száz órát ölnek bele, az egyébként nagyon szórakoztató FPS-be.