Exjobbsenkät.
Studierektor Anders Friberg, tel 790 7576
Förslag på examensarbeten vid TMH
Vi har börjat lista exempel på lämpliga aktuella examensarbeten vid TMH i nationella exjobbspoolen www.xjobb.nu.
Du hittar dem genom att söka på följande nyckelord för respektive område:
Talteknologi: speech@kth
Musikkommunikation: music@kth
Sound and Music Computing: smc@kth
Alla inom TMHs områden: tmh@kth.
Vi är också mycket öppna för förslag, och du är varmt välkommen att tillsammans med oss diskutera fram något inom vårt område som du skulle vilja jobba med. Listan är alltså långt ifrån fullständig. Ett antal exjobbsförslag finns listade nedan; kontakta respektive person för mer information.
Talteknologi
Sound and Music Computing
Talteknologi
Vill du se en lista på publikationer inom talteknologi, titta här.
Riktat tal
Människor använder ljud för att lokalisera var de befinner sig och hur långt ifrån personen som ljudkällan är. Mänsklig ljudlokalisering antas bestå av olika psykoakustiska mekanismer, som används olika beroende på akustiska, psykologiska och fysiologiska faktorer. Mycket är känt om hur människan uppfattar olika speciella ljud, som kan vara väldefinierade akustiskt, till exempel sinustoner eller vitt brus. Mindre känt är hur vi uppfattar naturliga ljud som talljud, dvs. ljud som härrör från en talare, och hur detta påverkas av olika rumsliga förhållanden, t.ex. om det är bullrigt, om källan rör sig, eller om flera talare finns inblandade.
Dessa frågor har blivit viktiga i och med ny teknik, t.ex. media, datortillämpningar, robotik och handikapptillämpningar. Avdelningen för Tal, Musik och Hörsel på KTH, i samarbete med Blekinge Tekniska högskola vill nu starta upp aktiviteter i detta område. Det finns möjligheter att utföra olika slags examensarbeten med olika slags inriktningar inkluderande perceptionsstudier, teknikinriktade, simuleringar eller fonetiska.
Till projektet söks en eller flera examensarbetare eller studenter som vill skriva en Mastersuppsats. Ämnen för arbetet kan utgöras av olika ämnen, beroende på personens intressen och bakgrund. Exjobbet/n kan i viss utsträckning anpassas efter exjobbarens intressen och önskemål. Eventuellt kan studenter med olika slags bakgrund göra ett gemensamt arbete.
För närmare information kontakta:
Kontakt: Joakim Gustafson jocke@speech.kth.se, tel: 08-790 8965
eller
eller Bo Schenkman bosch@kth.se, tel: 08-790 7894 / 0455-38 56 47
Ekolokalisering hos synskadade personer
De viktigaste svårigheterna som blinda personer har pga. sin synskada är hur de ska orientera och röra sig mellan olika platser samt hur de ska tillgodogöra sig tryckt text. Detta projekt rör frågor som påverkar deras rörlighet. Blinda människor, särskilt de som är helt i avsaknad av syn, måste till stor del förlita sig på den information som de får från andra sinnen, som hörsel, känsel och lukt, för att erhålla kunskap om omgivningen. Vi undersöker hur synskadade människor kan upptäcka hinder och föremål med hjälp av ekon som reflekterats, s.k. ekolokalisering, analogt till hur fladdermöss och delfiner gör. Projektet anknyter till perceptionspsykologi, akustik och signalbehandling. En viktig del i projektet är att kunna förklara mänsklig ekolokaliserig genom att relatera fysikalisk analys till analys av perceptuella data. Problemområdet rymmer flera olika frågeställningar och möjliga metodiker, beroende på intresse och bakgrund hos examensarbetaren.
Mer utförlig information.
Kontakt: Bo Schenkman bosch@kth.se, tel: 08-790 7894
Inkrementell generering i dialogsystem
Dialogsystemet DEAL är ett dialogspel för konversationsträning för studenter som vill lära sig att tala svenska. I ett sådant system är det viktigt att systemet beter sig på ett människolikt sätt och förmedlar känslan av som människor gör snarare än att interagera med ett maskingränssnitt. Det föreslagna examensarbetet fokuserar på hur människor uttrycker sig i dialog. Vanligtvis planerar vi vad vi ska säga när vi redan börjat tala. När vi inleder ett nytt yttrande har vi en idé om vad vi ska saga men inte exakt hur vi ska formulera oss. Detta resulterar i tvekningar, repetitioner och omstarter (kallas ofta för disfluenser). Ibland t.o.m. ändrar vi oss och måste korrigera något vi just sagt. De finns flera olika metoder att generera yttranden i dialogsystem, t.ex. förinspelade promptar, mallar eller mer komplex regelbaserad generering, men oavsett vilken metod som används så genererar system ofta yttrandena i ett färdigplanerat stycke. Detta kan leda till långa processningstider som gör användarna förvirrade eftersom det är svårt att veta att systemet verkligen har registrerat vad de sa.
Vi vill bygga en genereringsmodul i DEAL som genererar yttranden stegvis (inkrementellt) på ett sätt som överensstämmer bättre med hur vi människor pratar. Ett sådant system kommer förhoppningsvis att uppfattas som mer människolikt och ge omedelbar återkoppling vilket förhoppningsvis kommer att leda till mer friktionsfri övergång mellan talare. Människor inleder ofta yttranden med så kallade /discourse markers/ eller /cue words/. Diskursmarkörer är ord såsom “och”, “men”, “alltså”, “ok”, “bra”, “därför”. Dessa ord förmedlar information om hur det nya yttrandet relaterar till tidigare diskurs. För att veta hur vi ska generera yttranden i DEAL så behöver vi mer kunskap om hur människor gör. Examensarbetet handlar därför om att definiera ett uppmärkningsschema för sådana fenomen och att transkribera och analysera dialogerna. En viktig aspekt när man studerar diskursmarkörer och disfluenser är hur dessa realiseras akustiskt. Examensarbetet kan därför även inkludera akustisk analys av dessa fenomen. Beroende på intresse kan arbetet även inkludera att maskininlära beslut för i vilken kontext olika diskursmarkörer ska genereras.
Kontakt: Anna Hjalmarsson
Talperceptionsutvärdering: kan man läsa tungrörelser?
Det är välkänt att taluppfattbarheten ökar då lyssnaren ser talarens ansikte, särskilt om lyssnaren har svårt att höra för att samtalet sker i en bullrig miljö eller p.g.a. en hörselnedsättning.
Hundratusentals hörselskadade använder sig av läppavläsning i sin dagliga kommunikation och projektet Synface på TMH har visat att också ett datoranimerat ansikte kan vara ett värdefullt stöd för dem.
Ansiktet kompletterar talsignalen genom att munrörelserna gör det möjligt att skilja mellan vissa talljud, men för andra ljud är det mycket svårt att få ut någon information genom läppavläsning, eftersom artikulationen är dold inuti munnen.
Vissa grupper av hörselskadade använder sig därför av "cued speech", där munrörelserna kombineras med handtecken som hjälper till att identifiera ljud som inte går att enbart läppavläsa.
"Cued speech" är dock en ny abstrakt symboluppsättning som måste läras in och det kan vara en fördel att istället koppla avläsestödet till hur ljuden faktiskt produceras.
Som ett alternativ till "cued speech" har vi därför utvecklat ett gränssnitt som visar upp inte bara ett syntetiskt ansikte, utan även en representation där tungans rörelser syns.
Perceptionsstudier visar att vissa lyssnare kan vara hjälpta av att se tungrörelserna för att tolka svåruppfattade yttranden.
Det föreslagna examensarbetet ska fokusera på att vidareutveckla testuppsättningen och att göra mer omfattande perceptionsexperiment och en utförligare statistisk analys av under vilka förutsättningar som ett animerat ansikte med synliggjorda tungrörelser kan stödja talförståelsen.
Kontakt: Olov Engwall, engwall@kth.se, tel. 08-790 7565
Motivationshöjande feedback i datorstödd inlärning: vad gör datorspel så roliga och beroendeframkallande?
Datorspel kan engagera spelare intensivt i timmar, veckor, månader... Samtidigt upplevs datorprogram för att exempelvis lära sig språk och uttal ofta som tråkiga och enformiga, eftersom de innebär tragglande av glosor och uttalsträning. På insitutionen arbetar vi med att på olika sätt göra datorbaserad språkundervisning både effektivare och roligare. Att träningen är rolig är centralt, eftersom den tid som eleven ägnar åt träningen är en mycket viktig faktor för att förbättra sig.
Därför försöker vi utveckla språkträningsprogram som är så engagerande att eleverna gärna arbetar med dem, inte enbart som ett tvång för att lära sig, utan även för att underhållas.
Hittills har vi koncentrerat oss på att göra träningen mer stimulerande genom att införa interaktiva virtuella lärare, Artur och Ville och genom att skapa ett talbaserat datorspel, där eleven ska försöka lösa en uppgift.
Det vore spännande att undersöka vad det är som gör datorspel så engagerande och vilka återkopplingssignaler från spelet som gör att spelaren tycker spelet är roligt och vill fortsätta, för att kunna införa denna typ av motivationshöjande element i vår datorbaserade språkinlärning.
Examensarbetet eller -arbetena består av två delar: för det första att genom litteratur- och användarstudier utreda vilka typer av motivationshöjare i datorspel som skulle vara användbara i datorstödd språkinlärning och för det andra att implementera och utvärdera dessa i något av våra språkinlärningsprogram i svenska för utländska studenter.
Beroende på studentens bakgrundskunskaper och intresse kan de två uppgifterna utgöra ett examensarbete, eller två separata.
Förkunskaper för den första uppgiften: utvärderingsmetoder inom människa-datorinteraktion, datorspelsdesign.
Förkunskaper för den andra uppgiften: programmeringskunskaper antingen i C, C++ eller scriptspråk (typ Tcl/Tk, Perl)
Tack vare ett forskningsanslag från Magn. Bergvalls stiftelse kan ett mindre stipendie utbetalas för ett i tid väl genomfört examensarbete.
Kontakt: Olov Engwall, engwall@kth.se, tel. 08-790 7565
Utveckling av språkinlärningsverktyg
På institutionen utvecklas Ville, en virtuell språklärare med speciellt fokus på uttal och dialog. Han ska kunna användas som hjälpmedel vid inlärning av olika främmande språk. Som bekant kan man uttala ord fel på många olika sätt, och vi arbetar med att utveckla metoder för att kunna ge korrekt återkoppling på vilken typ av fel som gjorts. I denna process behövs det en del moduler som ska kunna detektera specifika fel.
Exjobbet går ut på att implementera metoder för att detektera olika typer av feluttal. Sådana moduler kan integreras med Ville och testas på en databas av bruten svenska och eventuellt på invandrarstudenter.
Förkunskaper: programmeringskunskaper antingen i C, C++ eller scriptspråk (typ Tcl/Tk, Perl)
Kontakt: Björn Granström, bjorn@speech.kth.se, tel. 08-790 7847
Experiment med HMM-baserad talsyntes (två separata arbeten)
Den vanligaste formen av talsyntes bygger på sammansättning av förinspelade enheter, så kallad konkateneringssyntes. Denna metod ger ofta hög ljudkvalitet men är relativt inflexibel beträffande variation av tempo, talstil, röstkvalitet etc. Ett alternativ som ger bättre flexibilitet är HMM-baserad talsyntes. HMMer (eller dolda markovmodeller), som är populära inom taligenkäningsområdet, kan beskriva talsignalen genom att dela upp språkljuden i ett antal diskreta tillstånd, och modellera de akustiska parametrarna för varje tillstånd med hjälp av sannolikhetsfördelningar. För HMM-syntes tränar man fram sina röster ifrån en taldatabas, på samma sätt som inom igenkänning. Tekniken är attraktiv av flera anledningar: den ger mycket resurs-och utrymmessnål syntes, rösterna går att modifiera på flera sätt t.ex. via interpolation eller adaption, samt att den är helt datadriven, dvs ingen manuell kunskap behöver tillföras för att bygga en röst inklusive prosodi.
Ett befintligt system för HMM-syntes på svenska finns på institutionen, och detta kommer att tjäna som experimentplatform för vidare arbeten.
Exjobb 1 - adaption: Arbetet går ut på att göra experiment med talaradaption och talstilsadaption, dvs. att med ett relativt litet träningsmaterial från en ny talare, kanske bara en enskaka mening, förändra (adaptera) en befintlig röst att låta som den nya talaren. Man uttnytjar då teknik från taligenkänningsområdet. Samma teknik skulle även gå att utnyttja för att modellera olika talstilar från samma talare, t.ex. olika emotioner eller attityder. Experimenten utvärderas med lyssningstest. Önskvärda förkunskaper: DT2112 talteknologi eller motsvarande
Exjobb 2 - experiment med röstmodell: En svag länk i det befintliga systemet är rösgenereringsmodellen. Den är för närvarande baserad på en vokoder och en enkel pulskälla. Det finns anledning att tro att en betydligt bättre signalkvalitet skulle kunna uppnås med mer sofistikerade röstmodeller, t.ex. hämtade från talkodningsområdet. Arbetet går ut på att implementera och träna systemet med en bättre röstmodell och utvärdera resultatet perceptuellt. Önskvärda förkunskaper: DT2112 talteknologi, 2E1400 talsignalbehandling eller motsvarande
Nyckelord: Text-till-talsyntes, HMM, adaption, röstkälla
Kontakt: Jonas Beskow, beskow@speech.kth.se, tel 790 8965
Verktyg för framtagning av MPEG-4-baserade talande huvuden
Det system för animering av talande huvuden som utvecklas och används vid institutionen är baserat på MPEG-4-standarden för ansiktsanimering. Denna standard beskriver med hjälp av ett antal parametrar (FAPs - facial animation parameters) rörelserna i ett ansikte. En av ideerna med standarden är att tillåta animering av olika geometrier/modeller utifrån dessa parametrar, som är definierade så att de ska ge samma visuella resultat när de tillämpas på olika modeller. För att en ansiktsmodell ska kunna animeras med institutionens MPEG-4-motor krävs att alla FAPs definieras för modellen, vilket innebär information om hur varje punkt ska påverkas av varje FAP. Denna information kan beräknas med algoritmer, men viss information måste ges manuellt, t.ex. måste ett antal definitionspunkter i ansiktet (FDPs - facial definition points) identifieras.
Det föreslagna examensarbetet går ut på att skapa verktyg för att underlätta arbetet med att ta fram nya ansiktsmodeller kompatibla med institutionens motor för MPEG-4-animering. Grundfunktionen är att man ska kunna importera en statisk ansiktsmodell och grafiskt interaktivt identifiera de nödvändiga punkterna, och sedan automatiskt bygga den animerbara modellen. Vidare utvecklingsmöjligheter är att stödja skapandet av personliga ansiktsmodeller, där både textur och form hämtas från en riktig person, t.ex. utifrån två vinkelrätt tagna bilder.Någon form av utvärdering kommer även att ingå.
Miljön baseras troligtvis kring det öppen-källkodsbaserade 3D-modelleringsprogrammet Blender (http://www.blender3d.com/), i form av en insticksmodul (Blender stödjer insticksmoduler i Python).
Nyckelord: Ansitksanimering, MPEG-4, Blender, Python
Kontakt: Jonas Beskow, beskow@speech.kth.se, tel 790 8965
Utveckling av datadriven formantsyntes
Det vanligaste sättet att göra syntetiskt tal i kommersiella system är att på olika sofistikerade sätt kombinera delar av mänskligt tal till nya yttranden. Detta ställer stora krav på hur delarna kombineras och man är även beroende av hur den underliggande databasen är inläst. Den klassiska metoden att göra syntes är att beskriva hur talet skapas med hjälp av en modell. Detta kräver stor kunskap om talprocessen och man uppnår därför för närvarande inte samma kvalitet som den första metoden men man har en stor flexibilitet att påverka syntesens egenskaper som till exempel talarkarraktäristik och expressivitet. I en följd av examensarbeten har vi med framgång försökt skapa en ny typ av syntes baserad på en kombination av de båda metoderna (Öhlin, 2004; Vinet, 2004; Sigvardson, 2002; Sjölander, 2002 http://www.speech.kth.se/ctt/publications/). Det föreslagna examensarbetet har som målsättning att driva arbetet vidare. Framför allt behövs utvidgning av antalet ljudenheter, analys av dessa och sökmetoder för att välja rätt enhet beroende på omgivning och vanlighet.
Kontakt: Rolf Carlson rolf@speech.kth.se
Taligenkänning med kombinerad normalisering av talrörslängd och röstkällspektrum
Normalisering för varierande talrörslängd (VTLN, Vocal Tract Length Normalisation), har undersökts i ett tidigare examensarbete som en metod att höja igenkänningsprestanda för barntal. Metoden går i korthet ut på att sträcka/krympa frekvensaxeln med den faktor som ger bäst överensstämmelse med tränade vuxenmodeller. I det här arbetet vill vi undersöka möjligheten att kombinera VTLN med normalisering av röstkällspektrum (VSSN, Voice Source Spectrum Normalisation). På samma sätt som vid VTLN söker VSSN bästa match ur ett urval möjliga röstkällspektra, kanske parameterbaserat. Om dessa normaliseringar är inbördes ortogonala bör man enkelt kunna utföra en kombinerad sökning i de två dimensionerna. En skillnad jämfört med standard VTLN är att det troligen är lämpligt att utföra skalningen på de tränade modellerna snarare än på talsignalen eftersom VSSN endast bör utföras på tonande fonem.
I arbetet ingår att implementera röstkällskalning och tvådimensionell sökning samt utvärdering. Existerande perl-script för träning och igenkänning modifieras för ändamålet. Skalningen programmeras lämpligen i C, C++ eller Java.
Kontakt: Mats Blomberg matsb@speech.kth.se Tel 08-790 7564
Algoritmer för automatisk talarverifiering
Exjobbet går ut på att implementera och jämföra några ALGORITMER för en eller ett par delar av ett befintligt automatiskt talarverifieringssystem.
Olika delar som kan behandlas är t.ex.:
- signalbehandling/parameterisering
- statistiska modeller, t.ex. "Hidden Markov Models", artificiella neuronnät eller durationsmodeller
- modeller för "anti-tesen" i talarverifiering ("fel" person)
- beslutstagning/hypotesprövning
Kontakt: Mats Blomberg, mats@speech.kth.se, tel. 08-790 7564
Sound and Music Computing
Nya förslag kommer inom kort presenteras här