August - den talande datorn

August är ett forskningsprojekt på Centrum för Talteknologi (CTT) på KTH. Som en del av KTHs program under Kulturhuvudstadsåret 98 står Augustsystemet uppställt i Stockholms Akademiska Forum i Kulturhuset. August är en animerad agent som talar med besökarna och svarar på frågor då han kan. Till en början förstår han inte så mycket, men tanken är att han ska lära sig av sina tidigare samtal. I systemet ingår även en virtuell rundvandring på CTT och Institutionen för tal, musik och hörsel, där forskarna berättar om sin forskning och visar demonstrationer. För att August ska kunna tala med sina besökare och förstå vad de säger behövs en mängd moduler.

Detektionsmodulen används för att August ska veta när en besökare vill tala med honom. Den är kopplad till en videokamera som skickar signaler till August när någon kommer, och meddelar vart han ska rikta blicken.

Talförståelsemodulen är den mest komplicerade i systemet. Den spelar in det besökaren säger, analyserar det, och genererar så en lista med möjliga yttranden. Dessa yttranden skapas utifrån ett lexikon med de ord som har lagts in i systemet. Det finns en modul som poängsätter hur bra taligenkänningssystemet lyckades matcha det inkommande talet mot orden i de genererade meningarna. Den används för att upptäcka om någon sade ord som inte fanns i lexikon. Lexikon är en av de delar som kommer att byggas upp utgående från vad besökarna verkligen säger till August. Listan med möjliga meningar analyseras av analysmodulen, där meningens syntax kontrolleras och där dess betydelse tas fram.

Agentmodulen tar dels hand om det animerade ansiktet och dess styrning, dels genererar den syntetiskt tal från en skriven text. Ansiktet fungerar ungefär som en sprattelgubbe med virtuella trådar som styr ansiktsrörelserna. I talsyntessystemet måste man först bestämma vilka talljud som ska produceras och sedan måste man generera dessa.

Talgenereringsmodulen bestämmer vad August ska säga. Den består av ett antal moduler. Babbelmodulen skickar meningar till August så länge besökaren inte säger något tolkningsbart. Dessa yttranden kommer från olika kategorier, som visas i figuren nedan. Meningen med dessa yttranden är dels att August ska kunna berätta om sig själv, dels att få besökaren att förstå vad man kan tala om i systemet. (Talljudsgenereringen i August sker med Mbrolasyntes, Lukas, som bygger på en taldatabas inspelad vid Lunds Universitet)

Allt som besökarna säger till August sparas för att systemet ska kunna lära sig vad folk säger till en datoranimerad talande agent. I vissa fall kommer även videofilm av talaren att sparas och analyseras. Detta behövs dels för att göra det möjligt att studera hur folk interagerar med ett artificiellt ansikte, dels för att kunna förbättra Augusts ansiktsgester.