Start ReadSpeaker XT

Contact
Seminar at Speech, Music and Hearing:

X-job seminar:

Experiment med adaption och talrörslängdsnormalisering vid automatisk igenkänning av barntal

Sara Öhgren

Opponent: Åsa Wallers

Abstract

System för automatisk taligenkänning är normalt tränade enbart på vuxental och har därför betydligt sämre igenkänningsresultat för barntal. Det har flera orsaker. Grundton och formantfrekvenser ligger högre för barn än för vuxna på grund av mindre fysiska proportioner. Barn pratar också mer spontant och de har kanske inte lärt sig rätt uttal än. Att träna systemet på barntal är ofta inte ett alternativ på grund av att tillräckligt stora barntalinspelningar saknas. Istället används olika metoder som kompenserar för vissa olikheter mellan vuxen- och barntal. För att kompensera för barnens kortare talrör, dvs från struphuvudet upp till läpparna, kan man använda en metod som kallas talrörslängdsnormalisering (VTLN). Grundidén är att trycka ihop eller dra ut frekvensaxeln på barntal med en anpassad skalfaktor så att energikoncentrationerna flyttas till ungefär samma positioner som hos de tränade vuxenmodellerna. En annan metod är att adaptera taligenkännarens akustiska referensmodeller till barntal. Adaptionsmetoden som använts i detta examensarbete heter Maximum Likelihood Linear Regression (MLLR). Uppgiften var att kombinera dessa två metoder och se om igenkänningsresultatet kunde förbättras ytterligare jämfört med var och en för sig. Detta antagande kunde verifieras inom ett intervall kring de skalfaktorer som tidigare visat sig lämpliga för barntal generellt. Dessutom undersöktes om igenkänningsresultaten vid VTLN kunde förbättras om man estimerade skalfaktorn för frekvensaxeln för barntalet endast utifrån taldelen av yttrandet och inte utifrån hela yttrandet. Också nu blev det en förbättring, igenkänningsresultaten ökade med ca 4-6 procentenheter.

15:00 - 17:00
Friday November 18, 2005

The seminar is held in Fantum.

| Show complete seminar listPublished by: TMH, Speech, Music and Hearing
Webmaster, webmaster@speech.kth.se

Last updated: Wednesday, 23-Jun-2010 09:22:46 MEST