Start ReadSpeaker XT

Contact
Seminar at Speech, Music and Hearing:

Docentlecture seminar:

Inkrementell processning i samtalande system - en förutsättning för en mer människolik interaktion

Gabriel Skantze

Abstract

Möjligheten att kommunicera med datorer eller robotar genom att tala med dem har inte bara varit en vision inom science fiction, utan också ett forskningsmål inom områden som talteknologi, datorlingvistik och artificiell intelligens. Det är långt ifrån självklart att de sätt vi idag vanligtvis interagerar med maskiner – med hjälp av t.ex. fjärrkontroller, tangentbord och skärmar – skulle vara de mest bekväma eller effektiva, särskilt då vi i en framtid kommer att behöva kommunicera allt mer med robotar. Att samtala är något som de flesta av oss gör till synes utan någon som helst ansträngning, samtidigt som vi kan uttrycka komplexa samband med bara några få ord. Den forskning som har pågått med att bygga datormodeller av talad kommunikation sedan 1950-talet har dock avslöjat hur avancerade mekanismerna bakom det mänskliga samtalet egentligen är och hur lite vi faktiskt vet om dem.

Trots detta kan vi idag, tack vare tvärvetenskaplig forskning på området, bygga datorsystem som kan föra enklare samtal, om än givet väl avgränsade förutsättningar, som t.ex. biljettbokning över telefon. Det finns dock många begränsningar med dagens system, som gör att de ännu inte påminner särskilt mycket om en mänsklig samtalspartner. En sådan begränsning är att dagens system väntar på att användaren först ska ”prata färdigt” innan de börjar bearbeta vad som sagts. Då datorn inte kontinuerligt tolkar vad användaren säger är det t.ex. mycket svårt att avgöra när det är lämpligt att ta ordet. Detta kan resultera i att datorn avbryter användaren på olämpliga ställen eller att det uppstår onaturligt långa tystnader innan datorn svarar, och att den därför upplevs som långsam och trög. Det är uppenbart att människor istället tolkar vad som sägs ord för ord - så kallad inkrementell processning - och därigenom kan avgöra när det är lämpligt att ta ordet. När människor inväntar sin tur i ett samtal tar de inte heller bara på sig rollen som passiva lyssnare, de deltar aktivt genom att säga saker som ”okej”, ”mhm” och ”jaha”, eller genom ansiktsuttryck. Sådan återkoppling gör det möjligt för den som talar att förstå hur det denne säger uppfattas.

I den här föreläsningen kommer jag att presentera den forskning som vi bedriver på Institutionen för Tal Musik och Hörsel på KTH för att ta fram datorer och robotar som kan föra ett mer människolikt samtal med användaren. Jag kommer att exemplifiera med system som kan ge återkoppling medan användare talar och som kan börja tala innan de \"tänkt färdigt\", samt studier vi gjort på hur användare upplever att interagera med sådana system. Jag kommer också att ta upp vår aktuella och framtida forskning inom människa-robotinteraktion, där användaren kan tala med systemet ansikte mot ansikte.

15:15 - 17:00
Friday September 30, 2011

The seminar is held in Fantum.

| Show complete seminar listPublished by: TMH, Speech, Music and Hearing
Webmaster, webmaster@speech.kth.se

Last updated: Wednesday, 23-Jun-2010 09:22:46 MEST