Contact
English version

VATS

Vad gör tal till samtal?

Syftet med projektet ”Vad gör tal till samtal?” är att ge nya kunskaper om det som är specifikt för tal i samtal genom att undersöka en av de företeelser som faktiskt gör tal till samtal – regleringen av ordet. Vi vill bland annat ta reda på hur man gör för att hitta lämpliga tillfällen att ta ordet i ett samtal, eller för den delen för att behålla det. Vi vet att den typen av funktioner kan utföras med olika medel, men eftersom vi också vet att prosodin, eller talets rytm och melodi, har stor betydelse här ska vi begränsa oss till prosodiskt beteende i samtal inom projektet. Forskningen ska utföras genom undersökningar av prosodiskt beteende i samband med regleringen av interaktionen i naturliga samtal. Vi ska ta reda på var man ska leta efter interaktionskontrollssignaler; vilka prosodiska egenskaper som förekommer i samband med regleringen av interaktionen; och dessutom testa om det prosodiska beteendet har de effekter som vi tror att det har när det används i samtal. Till skillnad från tidigare forskning som framför allt undersökt tal i situationer utan samspel mellan talare och lyssnare – man har undersökt enstaka ord, isolerade yttranden, uppläst text, monologer, datorriktat tal, och så vidare – kommer vi här studera naturliga samtal. Vi menar att projektet kan ge väsentliga bidrag till kunskapen om vad som gör tal till samtal och om den typ av tal som måste anses vara den primära formen av tal; och dessutom till ett område som är eftersatt inom forskningen.

Samtal öga mot öga måste anses vara den primära formen av tal. Det är i samtalssituationen som både talet och språket uppstått; det är där man lär sig tala; och samtalet är det naturliga sättet för oss att kommunicera på. Det finns också starka skäl att anta att tal i samtal är speciellt på flera sätt, bland annat genom att samtalet utgör ett aktivt samspel mellan talare och lyssnare och innehåller en reglering av detta samspel som saknas i andra former av tal. Detta till trots menar vi att kunskaperna om samtal är eftersatta inom fonetisk och talteknologisk forskning. Mycket av den forskning som bedrivits på talat språk har fokuserat på andra talsituationer än samtalet, som till exempel på uppläst tal och på monologer. Vi menar att det behövs betydligt mer forskning som inriktar sig på samtalet för att vi ska förstå hur talad kommunikation fungerar – mer forskning som undersöker naturliga samtal och som fäster vikt vid de egenskaper hos talad kommunikation som är utmärkande för samtal. Projektet Vad gör tal till samtal? har som mål att förbättra situationen genom att undersöka och beskriva några av de företeelser som faktiskt gör tal till samtal – det kontinuerliga samarbetet kring turtagning och ömsesidig förståelse. Projektet har som utgångspunkt att samtal är ett samarbete mellan samtalsparterna och att både talare och lyssnare aktivt och kontinuerligt bidrar till samtalet. I projektet vill vi bland annat ta reda på och modellera hur lyssnaren hittar lämpliga tillfällen att ta ordet, och hur talaren gör för att behålla ordet eller för att lämna över det. Detta ska vi undersöka i naturliga samtal. Vi vet att samtalsparterna kan uppnå dessa mål med olika medel – till exempel med ord, blickar och gester. Vi också vet att prosodin, eller talets rytm och melodi, har stor betydelse i det här sammanhanget och det är i första hand den typen av företeelser och människors reaktioner på sådant beteende som ska utforskas i projektet. Projektets forskningsresultat är i första hand avsedda att bringa ljus över hur det går till när människor kommunicerar med tal. Vi gör detta genom att bit för bit bygga en modell av sådan kommunikation. Utöver den rena grundforskningsnyttan kan en sådan modell även användas till mer praktiska tillämpningar, som till att förbättra verktyg för kommunikation mellan människor eller till att bygga talande gränssnitt till datorer som bättre överensstämmer med människans förväntningar på hur talad kommunikation fungerar än de talande datorer som finns idag. Forskningsgruppen bakom projektet har stor erfarenhet av att kommunicera forskningsresultat på många nivåer, och vi avser att fortsätta med resultaten av Vad gör tal till samtal? Utöver publikationer i vetenskapliga tidskrifter och på konferenser, vilket är den naturliga kommunikationsplatsen för grundforsknings¬resultat, så har vi tidigare med framgång samarbetat både med industrin och med publika institutioner. Detta kan till exempel ske genom att vi får data från industrin och att vi delar resultaten med industrin. Vi har tidigare också framgångsrikt gjort datainsamlingar i publika miljöer, till exempel på Kulturhuset och på Tekniska museet. Den typen av datainsamlingar har en dubbel effekt: vi får god tillgång på användare och försökspersoner av olika slag, och samtidigt ges allmänheten möjlighet att se vad vi gör. Forskningen i det föreslagna projektet – och särskilt delarna där vi testar människors reaktioner på olika samtalsbeteenden – lämpar sig bra för den här typen av publika situationer, och vi kommer att aktivt arbeta för att göra vår forskning tillgänglig i publika rum.

Grupp: Speech Communication and Technology

Personal:
Mattias Heldner (Projektledare)
Jens Edlund

Finansiering: VR (2006-2172)

Period: 2007-01-01 - 2009-12-31

Hemsida: http://www.speech.kth.se/vats

KTH förskning databas: http://researchprojects.kth.se/index.php/kb_1/io_10048/io.html

Nyckelord: Conversation, Dialogue, Turn-taking, Feedback, Interaction control, Prosody,

Relaterade publikationer:

2010

Heldner, M., & Edlund, J. (2010). Pauses, gaps and overlaps in conversations. Journal of Phonetics, 38, 555-568. [abstract] [pdf]

Laskowski, K., & Edlund, J. (2010). A Snack implementation and Tcl/Tk interface to the fundamental frequency variation spectrum algorithm. In Calzolari, N., Choukri, K., Maegaard, B., Mariani, J., Odjik, J., Piperidis, S., Rosner, M., & Tapias, D. (Eds.), Proc. of the Seventh conference on International Language Resources and Evaluation (LREC'10) (pp. 3742 - 3749). Valetta, Malta. [abstract] [pdf]

2009

Beskow, J., Carlson, R., Edlund, J., Granström, B., Heldner, M., Hjalmarsson, A., & Skantze, G. (2009). Multimodal Interaction Control. In Waibel, A., & Stiefelhagen, R. (Eds.), Computers in the Human Interaction Loop (pp. 143-158). Berlin/Heidelberg: Springer. [pdf]

Edlund, J., & Beskow, J. (2009). MushyPeek - a framework for online investigation of audiovisual dialogue phenomena. Language and Speech, 52(2-3), 351-367. [abstract]

Edlund, J., Heldner, M., & Hirschberg, J. (2009). Pause and gap length in face-to-face interaction. In Proc. of Interspeech 2009. Brighton, UK. [abstract] [pdf]

Edlund, J., Heldner, M., & Pelcé, A. (2009). Prosodic features of very short utterances in dialogue. In Vainio, M., Aulanko, R., & Aaltonen, O. (Eds.), Nordic Prosody - Proceedings of the Xth Conference (pp. 57 - 68). Frankfurt am Main: Peter Lang. [pdf]

Heldner, M., Edlund, J., Laskowski, K., & Pelcé, A. (2009). Prosodic features in the vicinity of pauses, gaps and overlaps. In Vainio, M., Aulanko, R., & Aaltonen, O. (Eds.), Nordic Prosody - Proceedings of the Xth Conference (pp. 95 - 106). Frankfurt am Main: Peter Lang. [abstract] [pdf]

Hincks, R., & Edlund, J. (2009). Using speech technology to promote increased pitch variation in oral presentations. In Proc. of SLaTE Workshop on Speech and Language Technology in Education. Wroxall, UK. [abstract] [pdf]

Hincks, R., & Edlund, J. (2009). Promoting increased pitch variation in oral presentations with transient visual feedback. Language Learning & Technology, 13(3), 32-50. [abstract] [pdf]

Laskowski, K., Heldner, M., & Edlund, J. (2009). A general-purpose 32 ms prosodic vector for Hidden Markov Modeling. In Proc. of Interspeech 2009. Brighton, UK. [abstract] [pdf]

Laskowski, K., Heldner, M., & Edlund, J. (2009). Exploring the prosody of floor mechanisms in English using the fundamental frequency variation spectrum. In Proceedings of the 2009 European Signal Processing Conference (EUSIPCO-2009). Glasgow, Scotland. [abstract] [pdf]

2008

Edlund, J., Gustafson, J., Heldner, M., & Hjalmarsson, A. (2008). Towards human-like spoken dialogue systems. Speech Communication, 50(8-9), 630-645. [abstract] [pdf]

Gustafson, J., & Edlund, J. (2008). expros: a toolkit for exploratory experimentation with prosody in customized diphone voices. In Proceedings of Perception and Interactive Technologies for Speech-Based Systems (PIT 2008) (pp. 293-296). Berlin/Heidelberg: Springer. [abstract] [pdf]

Gustafson, J., & Edlund, J. (2008). EXPROS: Tools for exploratory experimentation with prosody. In Proceedings of FONETIK 2008 (pp. 17-20). Gothenburg, Sweden. [abstract] [pdf]

Gustafson, J., Heldner, M., & Edlund, J. (2008). Potential benefits of human-like dialogue behaviour in the call routing domain. In Proceedings of Perception and Interactive Technologies for Speech-Based Systems (PIT 2008) (pp. 240-251). Berlin/Heidelberg: Springer. [abstract] [pdf]

Hjalmarsson, A., & Edlund, J. (2008). Human-likeness in utterance generation: effects of variability. In Perception in Multimodal Dialogue Systems - Proceedings of the 4th IEEE Tutorial and Research Workshop on Perception and Interactive Technologies for Speech-Based Systems, PIT 2008, Kloster Irsee, Germany, June 16-18, 2008. (pp. 252-255). Berlin/Heidelberg: Springer. [abstract] [pdf]

Laskowski, K., Edlund, J., & Heldner, M. (2008). An instantaneous vector representation of delta pitch for speaker-change prediction in conversational dialogue systems. In Proceedings ICASSP 2008 (pp. 5041-5044). Las Vegas, Nevada, US. [abstract] [pdf]

Laskowski, K., Edlund, J., & Heldner, M. (2008). Learning prosodic sequences using the fundamental frequency variation spectrum. In Proceedings of the Speech Prosody 2008 Conference (pp. 151-154). Campinas, Brazil: Editora RG/CNPq. [abstract] [pdf]

Laskowski, K., Heldner, M., & Edlund, J. (2008). The fundamental frequency variation spectrum. In Proceedings of FONETIK 2008 (pp. 29-32). Gothenburg, Sweden: Department of Linguistics, University of Gothenburg. [abstract] [pdf]

Laskowski, K., Wölfel, M., Heldner, M., & Edlund, J. (2008). Computing the fundamental frequency variation spectrum in conversational spoken dialogue systems. In Proceedings of Acoustics'08 (pp. 3305-3310). Paris, France. [abstract] [pdf]

2007

Edlund, J., & Beskow, J. (2007). Pushy versus meek – using avatars to influence turn-taking behaviour. In Proceedings of Interspeech 2007. Antwerp, Belgium. [abstract] [pdf]

Edlund, J., Beskow, J., & Heldner, M. (2007). MushyPeek – an experiment framework for controlled investigation of human-human interaction control behaviour. Proceedings of Fonetik, TMH-QPSR, 50(1), 61-64. [abstract] [pdf]

Edlund, J., & Heldner, M. (2007). Underpinning /nailon/ - automatic estimation of pitch range and speaker relative pitch. In Müller, C. (Ed.), Speaker Classification II, Selected Projects (pp. 229-242). Springer. [abstract] [pdf]

Heldner, M., & Edlund, J. (2007). What turns speech into conversation? A project description. Proceedings of Fonetik, TMH-QPSR, 50(1), 45-48. [abstract] [pdf]Published by: TMH, Speech, Music and Hearing
Webmaster, webmaster@speech.kth.se

Last updated: 2012-11-09