“Con la “machine translation” una frase originale viene tradotta automaticamente e istantaneamente in 100 lingue. Noi invece andiamo nella direzione del “machine dubbing” in cui una sola “source” di voce espressiva si può riprodurre in modo massivo, simultaneo e con la stessa espressività in tutte le altre lingue”.
L’industria dell’entertainment ha sempre usufruito del doppiaggio come moltiplicatore di engagement e di opportunità di business. I contenuti doppiabili, tuttavia, rispetto anche a solo dieci anni fa, sono e stanno aumentando esponenzialmente, grazie all’esplosione del gaming e delle piattaforme in streaming come Netflix, e non è umanamente possibile gestire questa enorme quantità di contenuti declinandoli simultaneamente in tante lingue diverse.
Un limite intrinseco, logistico e, appunto, umano, nel quale, anche in questo caso, l’A.I. “generativa” può giocare un ruolo rivoluzionario grazie a Voiseed, la new entry nel portfolio LIFTT che si posiziona come game changer in un settore, il doppiaggio, che a livello mondiale, da solo, vale 10 miliardi di dollari ed è caratterizzato da lunghi tempi di lavorazione, alti costi di produzione e grande complessità di management. Il tutto grazie a una tecnologia proprietaria in grado di riprodurre emozioni e imitare l’intonazione e la prosodia del parlato umano, con qualsiasi voce e in più lingue.
Conosciamo più da vicino questa realtà dando la parola ai tre co-founder di Voiseed: il CEO Andrea Ballista, il CTO Lorenzo Tarantino e il COO Luca Dell’Orto.
Com’è nata l’idea di Voiseed?
“Potrei dire – risponde Andrea Ballista – dall’unione delle nostre diverse competenze. Il nostro è infatti un team “complementare”, con origini ed esperienze diverse, ma con molti punti di contatto tra loro e che si è concentrato su questa iniziativa in modo simultaneo. Di fatto, Voiseed nasce nel gennaio 2020, quando abbiamo iniziato a formalizzare la nostra avventura formando una società.”
Da quali intuizioni siete partiti?
“Non so se definirla un’intuizione – prosegue Ballista – o piuttosto il naturale approdo dei nostri percorsi formativi e professionali. Io, ad esempio, sono un “informatico musicale”, che ha studiato “computer music” negli anni ’80, e sono sempre stato affascinato dall’interazione tra la tecnologia e la musica, la voce e il canto. Sono stato consulente per Philips Interactive e ho successivamente fondato una società, Binari Sonori, che si occupava di audio per multimedia, un’idea innovativa a quei tempi perché all’epoca non esisteva l’audio digitale, da ciò deriva il gioco di parole che evoca il sistema binario, tipico del digitale. La società è cresciuta nel tempo, impiegando oltre 60 persone e aprendo sedi a Los Angeles e a Tokyo: a quel punto è stata venduta a Keywords Studios plc, una società quotata alla Borsa di Londra AIM, attualmente leader nel mercato del “Game as a Service”, un gruppo che è molto cresciuto in questi anni e per cui attualmente lavorano 12 mila persone. Qui, ho ricoperto il ruolo di audio director per circa 4 anni, seguendo l’attività globale dell’audio per tutto il gruppo, dall’Asia, all’America, all’Europa. In totale, ho quindi consolidato un’esperienza quasi trentennale in questo campo. Ho constatato come il settore lavorasse molto con gli attori, ma come, al contempo, stessero arrivando sul mercato tecnologie decisamente innovative che potevano aprire orizzonti inediti in questo campo. Ho deciso di approfondire queste tecnologie e sono quindi entrato in contatto con Luca e Lorenzo. Da qui è nato il progetto di costituire una società che si occupasse di tecnologia applicata a voci espressive multilingua. Ci siamo incontrati nel 2019 e nel 2020 abbiamo deciso di cominciare mettendo a fattor comune i nostri background”.
“Le mie competenze – interviene Luca Dell’Orto – sono soprattutto in ambito imprenditoriale. Nelle mie ultime due attività mi sono occupato di energie rinnovabili con Renergy, developer di impianti eolici, e di Information Technology con Planet, uno dei primi Internet Service Provider di Milano. Negli ultimi anni mi ero appassionato di machine learning e di sintesi vocale, e mi è venuto quindi naturale contattare Andrea vista la sua profonda esperienza nell’entertainment e nell’audio. In poco tempo abbiamo iniziato a pensare a una soluzione specifica per il settore dell’entertainment e in particolare per il mondo dei videogiochi. Da qui è nata Voiseed.”
“Il mio background – commenta Lorenzo Tarantino – è quello di ingegnere informatico. Ho studiato al Politecnico di Milano e proseguito gli studi ottenendo un master in Computer Science a Losanna, con una tesi su Speech Emotion Recognition ed Emotional Speech Synthesis, argomenti molto inerenti a quelli trattati da Voiseed. All’inizio del mio percorso ho fondato un’altra start-up che si occupava di intelligenza artificiale a 360° che mi ha permesso di entrare in contatto con Andrea.”
Che cos’è Voiseed? Qual è il suo valore aggiunto sul mercato?
“Il problema – precisa Tarantino – da cui parte Voiseed è che, ad oggi, nel mondo fin troppi contenuti non sono riportati nella lingua locale o, meglio: ci sono tantissimi contenuti prodotti in inglese in particolar modo e in tante altre lingue, ma che non sempre vengono poi tradotti nelle lingue minori e a volte nemmeno nelle lingue maggiori. Partendo da un esempio, nel mondo dei videogiochi, un gioco particolarmente importante può venir doppiato in 5, 6 lingue, anche 8 al massimo; in tutte le restanti invece ci si limita a sottotitolarlo. Questo, chiaramente, ha un impatto sull’esperienza di gioco, ma lo stesso vale anche per i film o per i documentari. Il motivo è semplice: il publisher rinuncia al doppiaggio perché implica un processo estremamente “time-consuming” e costoso. Per questa ragione si alloca quindi un budget per eseguire il doppiaggio solamente nelle lingue principali: e se il gioco ha meno rilevanza è minore anche il budget a disposizione e la stessa logica vale per l’intero settore del media entertainment. Si possono avere così prodotti disponibili in 8 lingue, altri in 4, altri solo esclusivamente sottotitolati. Ed è qui che entra in gioco Voiseed, che ha la specifica mission di colmare questo gap, fino dal pay off “Voicing the Unvoiced”, a sottolineare la nostra volontà di “dare voce” a tutto quel contenuto che oggi non ce l’ha, o non ce l’ha in tutte le lingue.”
E in che modo ci riesce?
“Abbiamo creato un servizio che è una sorta di “studio virtuale” che, partendo dall’audio prodotto nella lingua originale e dalle traduzioni nelle lingue target, è in grado di doppiare come un “virtual voice actor” nelle lingue richieste. Questo avviene grazie ai nostri modelli che, come un doppiatore professionista, ascoltano l’audio source e poi leggono il testo target con le stesse caratteristiche dell’audio di partenza. La nostra tecnologia A.I. è in grado di capire l’emozione e la prosodia dell’audio source e di applicarla alla lingua target. Il nostro modello “legge” lo stato d’animo e le emozioni della versione originale: se un personaggio pronuncia una frase con rabbia oppure è molto felice nell’audio source, quanto ascoltato nell’input verrà poi applicato nella lingua target, per esempio dall’inglese all’italiano. Uno step ulteriore è stato anche quello di risolvere il grande problema del casting. Parte del budget di una produzione è infatti legato al casting di tutti i doppiatori nelle varie lingue: ad esempio, se avessimo un gioco in “US English” con 50 attori, un numero neanche così alto considerata la media di queste produzioni, e dovessimo doppiarlo in 10 lingue diverse, significherebbe gestire 10 studi in giro per il mondo, con 10 voice director, 10 audio engineer, ma soprattutto con 500 attori diversi. Il problema della localizzazione, o riproduzione delle diverse lingue, cresce quindi con il numero delle lingue che si vogliono doppiare. Con la nostra soluzione, invece, riusciamo a creare dei “sound alike”: generiamo delle voci sintetiche completamente artificiali, che rispettano le caratteristiche della voce in input, ad esempio quella di un uomo con una voce bassa e profonda, e la stessa voce viene utilizzata in tutte le diverse lingue. Quindi, partendo da un attore la cui voce si utilizza come source, si è in grado di riprodurre una voce simile e uniforme in tutte le 10 lingue locali. Quindi una voce per 10“.
La domanda nasce spontanea, e in tema di A.I. è sempre la stessa: siamo di fronte all’ennesimo dilemma della tecnologia che sopprime il lavoro umano?
“Assolutamente no. – spiega Ballista – Negli ultimi 10 anni, il numero di contenuti prodotti è aumentato esponenzialmente e con esso l’impossibilità di diffonderli a livello globale mentre i doppiatori che prestano la loro voce per localizzare quei contenuti non sono aumentati con la stessa progressione: esiste, infatti, un problema di “talent shortage” per il quale, anche avendo budget a disposizione per gestire l’audio espressivo, non è possibile farlo per mancanza di personale, e ci sono Paesi che non hanno un pool di attori tale da riuscire a gestire una grande attività di doppiaggio. I contenuti prodotti vengono diffusi attraverso internet, attraverso i mobile phone, attraverso i social, attraverso tutti i sistemi di engagement attualmente disponibili e la voce chiaramente è uno dei fattori di “engagement” principali. Noi ci rivolgiamo a coloro che vogliono diffondere le proprie opere in tutto il mondo ma non hanno gli strumenti per farlo.”
“Ad oggi – aggiunge – nella maggior parte dei casi, non ci sono le risorse e i tempi disponibili e si procede con i sottotitoli che minano l’espressività dell’opera e la comprensibilità per una parte di audience più globale: in determinate lingue, definite “minori”, il doppiaggio non è proprio previsto. Ma anche nella lingua italiana esistono casi in cui non abbiamo né capacità né tempi per gestire il doppiaggio: la velocità è infatti una discriminante essenziale. Ci sono prodotti che è matematicamente impossibile doppiare nel giro di un giorno in 50 lingue. In casi analoghi, le macchine hanno già iniziato a gestire ciò che viene definito “machine translation”, dove una frase originale viene tradotta automaticamente e istantaneamente in 100 lingue. Noi invece stiamo andando nella direzione del “machine dubbing” in cui, data una source di voce espressiva, la si può riprodurre in modo massivo, velocissimo, simultaneo e con la stessa espressività in tutte le altre lingue. Doppiare un così elevato numero di contenuti come quelli disponibili attualmente sul mercato dell’entertainment non è umanamente possibile. La nostra tecnologia non vuole assolutamente sottrarre lavoro ai nostri bravissimi attori e doppiatori, ma risolvere il problema di un’industria che non riesce a soddisfare le esigenze di mercato attuali. Il tutto aumentando l’inclusione di lingue e culture che ora avranno accesso a un prodotto analogo a quello fino ad ora presente solo in alcuni Paesi, per la gran parte del mondo occidentale”.
“Il proliferare di piattaforme – conferma Dell’Orto – e la moltiplicazione dei contenuti ostacola la fruizione di materiale doppiato anche in Paesi come l’Italia, la Francia e la Spagna, dove l’ascolto in lingua locale è molto apprezzato. Infatti solo il 35% dei contenuti sulle piattaforme multimedia e in streaming viene al momento doppiato: il potenziale di mercato è quindi enorme. E non è un problema che riguarda solo i Paesi che non rientrano nell’anglosfera (dove peraltro vive la stragrande maggioranza della popolazione mondiale): vi sono ormai molti contenuti prodotti in Paesi diversi dagli Stati Uniti: Netflix dispone di produzioni francesi, spagnole, italiane, coreane… e quindi il doppiaggio è necessario anche verso inglese. E come diceva Andrea, gli attori in certe lingue sono pochi e non sono in grado di coprire questa richiesta, per non parlare dei problemi legati ai tempi e a costi.”
“Chiaramente avere sistemi che permettano di passare da una lingua a una moltitudine di lingue è il nostro obiettivo, considerato che al momento non c’è ancora un’infrastruttura che lo consenta, c’è bisogno di una nuova tecnologia”.
Quali sono i mercati a cui vi rivolgete?
“In generale – risponde Ballista – ci rivolgiamo a tutti quei settori che sono in linea con la nostra vision: riuscire a dare voce alle emozioni che non trovano voce. La industry di partenza a cui ci rivolgiamo è quella dei videogame, uno dei vertical principali. L’altra è quella che viene definita “media & entertainment”, come ad esempio i TV show. Poi, sempre rimanendo nell’ambito delle voci espressive, c’è anche tutto il mondo dell’advertisement e della comunicazione, dalla corporate communication ai social media, in cui la voce rappresenta un elemento fondamentale nell’engagement dell’audience a livello globale. Anche il mondo del costumer care rappresenta un interessante target verticale cui offrire audio espressivi: tutti conosciamo l’IVR, con le voci sintetizzate che cercano di rispondere alle nostre richieste di supporto, spesso con il solo risultato di esasperarci ulteriormente proprio perché la percezione di non parlare con un essere umano è tangibile. Solitamente a queste funzioni le aziende non allocano nemmeno un budget interessante, ma l’esperienza sarebbe del tutto diversa se a rispondere fosse una voce espressiva, multilingua, attraverso un sistema innovativo. In sintesi, il nostro target è rappresentato dal settore del game, dal media & entertainment, dall’advertising e dall’ambito afferente alla corporate communication che va dal marketing all’experience sul prodotto, dove deve essere presente una componente di emozionalità ed espressività.”
Avete una “banca dati” vocale di riferimento? La vostra intelligenza artificiale dove reperisce i dati necessari?
“Sin dal primo giorno – spiega Tarantino – eravamo consapevoli che i dati sarebbero stati un punto fondamentale per il nostro sviluppo tecnologico. Chiaramente dati vocali espressivi, multilingua, prodotti da tanti speaker costano, e di fatto abbiamo lo stesso problema che hanno i nostri potenziali clienti. Questi dati non esistono nella forma corretta a livello di dati pubblici, ma non ce ne sono tantissimi neanche a livello di dati privati acquistabili. Perciò ci siamo resi conto molto presto che saremmo stati noi a dover collezionare questi dati. Quindi, unendo le nostre competenze, grazie anche all’esperienza di Andrea, che ha gestito registrazioni in tutto il mondo per gran parte della sua esperienza lavorativa, abbiamo messo insieme un processo di data collection espressiva, multilingua e “multi-voice”. Tuttavia, come dicevo, andare a collezionare dati espressivi di alta qualità in tutto il mondo ha un costo non irrilevante. Ma è un investimento fondamentale e necessario, ragion per cui abbiamo richiesto e ottenuto un finanziamento europeo nel 2021 dallo European Innovation Council (EIC), che ci ha supportato con un grant a cui è poi seguito l’investimento di inizio anno effettuato congiuntamente da LIFTT e da EIC. È cominciato così lo sviluppo della nostra “data collection”, che stiamo strutturando internamente partendo da dati proprietari per far funzionare al meglio i nostri modelli di sintesi vocale”.
“Abbiamo studiato – interviene Ballista – in modo approfondito non soltanto le emozioni in sè, ma anche come queste vengano prodotte dall’apparato fonatorio, identificando quelli che sono gli atteggiamenti e le posture vocali più diffuse. Poi, abbiamo cominciato a produrre una “voice collection” dedicata, che parte da 5 lingue per poi aumentare a 8, 12, 16, per arrivare fino a 32. Questa collection estremamente specifica ed espressiva dà la possibilità di aggiungere qualcosa in più che rappresenta il nostro valore aggiunto.”
“Come sappiamo – aggiunge Tarantino – l’intelligenza artificiale apprende da quello che vede o, in questo caso, sente. Dobbiamo, quindi raccogliere dati che permettano alla nostra A.I. di disporre di un set di espressioni sufficiente a riprodurre l’espressività umana.”
“Ci stiamo confrontando – conclude il CEO – con uno scenario tecnologico in costante evoluzione. Man mano che si va avanti, si presentano nuove opzioni e si continua a imparare. Già 3 anni fa noi parlavamo di AI Generativa, ma i media e la pubblica opinione solo da poco hanno rilevato le potenzialità offerte da ChatGPT o da altri produttori di testi e immagini. Il mercato, in quel momento, era definito in altro modo e non riceveva tutte le attenzioni attuali. Le cose sono cambiate: ci troviamo in un momento unico e siamo, quindi, sempre più convinti della bontà del progetto e della necessità di precedere a passo spedito.”
Quali sono i prossimi step dopo questo investimento? Su cosa vi concentrerete?
“Innanzitutto – spiega Ballista – abbiamo già brevettato la nostra tecnologia, che si basa sull’intelligenza artificiale generativa, su algoritmi proprietari e su una data collection unica. Siamo in fase di miglioramento della piattaforma: andremo ad aumentare i dati a disposizione, che non solo devono essere di alta qualità, ma anche coerenti e organizzati con attenzione per ottimizzare gli algoritmi. Dopo la release della versione 1.0 di Revoiceit, ci stiamo concentrando sul potenziamento delle attività di business development sull’ampliamento della piattaforma, che in questo momento lavora con dei dati audio di lunghezza breve tipici dei videogame. Uno step successivo sarà aggiungere la componente video e la possibilità di generare audio emozionali partendo da testi tradotti in modo generativo.”
“Il tema della data collection – precisa Tarantino – rappresenta una priorità e continueremo a portarlo avanti nei prossimi mesi. Lo sforzo successivo sarà in ambito commerciale e di marketing volto all’ampliamento dei mercati target.”
“Abbiamo fatto uscire la versione beta in 5 lingue a fine ottobre dell’anno scorso, finalizzata al dubbing di videogame. Contiamo di arrivare a 16 entro la fine dell’anno, come prevedeva il progetto finanziato dal Grant europeo, e a 32 lingue entro la fine del 2024. Siamo già in una fase avanzata del training e la velocità di integrazione di altre lingue è decisamente aumentata: siamo una start-up che ha una tecnologia potenzialmente disruptive, ma vogliamo al contempo essere rispettosi dell’environment professionale già esistente pur continuando ad esplorare tutte le aree non ancora coperte. La nostra ambizione non è quella di imporre le nostre soluzioni ma piuttosto di essere percepiti come una opzione inevitabile per raggiungere un pubblico più vasto con le tempistiche richieste dall’epoca contemporanea. Ci troviamo in quella linea d’ombra in cui il “si è sempre fatto così” comincia a non essere più un dogma, e noi vogliamo aiutare il mercato ad attraversare questo limite abitudinario: le voci espressive vengono registrate da 100 anni nello stesso modo, ma adesso, invece, si può fare anche in un altro modo, rispettando l’esistente ma, dall’altra parte, producendo qualcosa di sicuramente innovativo.”
“Il nostro target – spiega il CTO – non è quel 35% dei contenuti di Netflix che è già doppiato, ma è quel 65% che non è stato doppiato. Se oggi, molti doppiatori americani, italiani, finlandesi riescono a fare “x” ma la richiesta è “10x”, noi puntiamo su quel 9x rimanente.”
“Aggiungo – conclude Ballista – uno spunto di riflessione sulle potenzialità di Voiseed. Questa tecnologia può offrire a una platea di centinaia di milioni di persone un sensibile miglioramento della qualità della vita. Mi riferisco, per esempio, ai non vedenti, che necessitano di audio-description ed è importante permettere anche a loro di accedere a più contenuti possibili. In più, è fondamentale utilizzare le lingue locali perché non vengano dimenticate: perché una nazione che ha una popolazione di 5 milioni di persone non può godere dei contenuti nella propria lingua? Questo aspetto è rilevante: noi parliamo tutti i giorni, comunichiamo parlando, e in un mondo che pone grande attenzione al rispetto dei diritti civili, delle diversità e dell’inclusione credo che sia fondamentale non dimenticare anche il settore dell’entertainment.”