RAPPORT - Real-time adaptive speech prosthesis for conversational interaction

Éva Székely and Joakim Gustafson


Joe alt.1

Joe alt.2

Joe alt.3

I need technology that captures how I truly speak in a conversation.
Voice recordings should be made as simple as possible.
If I may say so myself, I am a nuanced and humorous person, and I want my synthetic voice to reflect this.
I would like to be able to use my eyes to construct voice messages that sound exactly as I want them to.
At the same time, I need a quick method to switch between speaking styles when I am in the middle of a conversation.
It is important for me to be involved in the design decisions that affect my communication options.

Generated with the Llasa TTS finetuned on the KTH AptSpeech corpus used to train our pun-delivering TTS


David alt.1

David alt.2

David alt.3

Jag behöver teknologi som föngar hur jag verkligen pratar i en konversation.
Röstinspelningar bör göras sö enkla som möjligt.
Om jag får säga det själv är jag en nyanserad och humoristisk person och jag vill att min syntetiska röst ska avspegla detta.
Jag skulle vilja kunna använda mina ögon, för att kunna konstruera röstmeddelanden, som låter exakt som jag vill ha dem.
Samtidigt behöver jag en snabb metod för att växla mellan talstilar, när jag är mitt i en konversation.
Det är viktigt för mig att få vara delaktig i design besluten, som påverkar min kommunikationsmöjlighter.

Generated with the KTH spontaneous speech synthesis (CONNECTED) ).