NTNU Forskningsstrategisk prosjekt:


Talebaserte grensesnitt og resonnerende systemer


Prosjektet Talebaserte grensesnitt og resonnerende systemer har som målsetting å utvikle et resonnerende system for automatisk ruteopplysning der tale er grensesnittet ("kontaktflaten") til brukerne. Prosjektet har en tidsramme på 3 år (1996-1999).

De innovative sidene av prosjektet ligger i at taleteknologisk og lingvistisk kompetanse kobles sammen med kompetanse om kunstig intelligens. Ved UNIT finnes idag pilotsystemer for resonnering, talegjenkjenning, talesyntese og automatisk setningsanalyse, men de er ikke knyttet sammen. Ved prosjektslutt skal det eksistere en demo-versjon som prosjektet og deltakermiljøenes kompetanse kan evalueres mot.

Partnere

  • Institutt for datateknikk og telematikk (1.aman. Tore Amble)
  • Institutt for informatikk (prof. Agnar Aamodt)
  • Institutt for teleteknikk (1.aman. Magne Hallstein Johnsen, 1.aman. Torbjørn Svendsen)
  • Lingvistisk institutt (prof. Lars Hellan, prof. Torbjørn Nordgård, prof. Wim van Dommelen, 1.aman. Arne Kjell Foldvik)
  • Prosjektbeskrivelse

    Internasjonalt forventes en eksplosiv økning i behovet for informasjonshenting over telenettet. De aller fleste systemer for slik informasjonsbehandling må i praksis være dialog-baserte. I tillegg må brukergrensesnittet være talebasert (dvs. at det benyttes telefon) dersom systemene skal være generelt tilgjengelige. Den teknologiske utviklingen er nå kommet se langt at dialogsystemer basert på tale er realiserbare. Både innen EU og i USA og Japan blir det nå utviklet pilotanvendelser.

    I et talebasert dialogsystem blir tale vha. automatisk talegjenkjenning omdannet til et (eller flere) forslag til ord-sekvenser, altså en tale til tekst konvertering. En pefølgende syntaktisk og semantisk analyse produserer en semantisk struktur for ordsekvenser som er velformede setninger. Syntaksanalysen sørger for at ugrammatiske ordsekvenser filtreres ut. Deretter vil et resonnerende system tolke den semantiske strukturen og hente relevant informasjon fra en database. Denne informasjonen har en semantisk form som det er mulig å generere en (eller flere) setninger fra. Setningen returneres til bruker som tale vha. talesyntese eller såkalt 'tale-skjøting'. Svaret kan være den informasjonen brukeren søker eller en forespørsel fra systemet om tilleggsinformasjon. Systemet kan bare fungere godt dersom brukerne mener det er enkelt å bruke og ikke minst at de får fornuftige svar. Begge disse forholdene er avhengig av at dialogene er funksjonelle og informative. Dette betyr at dialoganalyse er en meget sentral del i utviklingen av et talebasert dialogsystem.

    Prosjektet Talebaserte grensesnitt og resonnerende systemer er et forsøk på å realisere en norsk pilotanvendelse innen dette feltet. Prosjektet skal munne ut i et implementert automatisk, talebasert informasjonssystem for offentlige transportmidler (buss, trikk, tog). Det er etablert kontakt med Trondheim Trafikkselskap, Trondheim Sentralstasjon og Oslo og Akershus Trafikkservice. Alle har uttrykt stor interesse for prosjektet. Ukentlig får Trondheim Trafikkselskap ca. 300 telefonhenvendelser om ruter, Trondheim Sentralstasjon ca. 500 ruteoppringninger og Oslo og Akershus Trafikkservice hele 25.900 oppringninger om ruter og rutetider. Prosjektets anvendelsespotensiale er derfor reelt. Prosjektets verdi er imidlertid ikke utelukkende begrenset til systemer for ruteopplysning. Det blir lagt vekt på generiske løsninger, noe som gjør det mulig å tilpasse systemet til andre domener, men det bør anføres at slik transformasjon vil være arbeidskrevende.

    Deltakerermiljøene har kompetanse innen ulike felter av tale- og språk-teknologi:

  • automatisk talegjenkjenning og taleproduksjon (Institutt for teleteknikk)
  • fonetisk, syntaktisk og semantisk analyse av naturlig språk (Lingvistisk institutt)
  • resonnerende systemer (Institutt for datateknikk og telematikk og Institutt for informatikk)
  • Dialogkorpus og dialoganalyse

    Som nevnt ovenfor er dialoganalysen meget viktig for prosjektet. Trondheim Trafikkselskap har ingen motforestillinger mot at det blir gjort opptak av oppringninger om ruter og rutetider. Et utvalg av disse opptakene (altså dialogene) blir transkribert til skriftlig tekst. Deretter blir dialogene studert med henblikk på grammatisk analyse, og det utarbeides en grammatikk som kan brukes til automatisk syntaktisk og semantisk analyse av dialogene. Den samme grammatikken skal også brukes til produksjon av setninger basert på resonneringsmodulens utdata. Senere i prosjektet skal det bygges opp et "design-korpus" som blir benyttet til å trene opp talegjenkjenneren og til å teste systemets egenskaper.

    Dialogkorpuset vil ha stor verdi utover dette prosjektet, spesielt fordi det vil være en viktig del av det samlede transkriberte norske talekorpus. Slikt korpusmateriale er helt sentralt i alle forsøk på å trene opp generelle talegjenkjenningssystemer. Dessverre er mengden av transkriberte korpus for norsk beskjeden. Videre er slike korpus viktige for å avgjøre hvilke analyse- og genereringsalgoritmer som er adekvate i dialogsystemer. Dersom man på empirisk grunnlag kan vise at man greier seg med enklere algoritmer enn det som kreves for analyse av alle typer tekster, kan man konstruere effektive systemer uten kompleksitetsteoretiske fallgruver.

    Resonneringsmodul

    Siden applikasjonen styres av brukeren vha. naturlig språk må den inneholde en komponent som kan resonnere over semantiske strukturer (det vil i praksis si predikatlogiske formler), og den åe være istand til å gi akseptable svar på brukerens spørsmål. Det er derfor fornuftig å inkorporere et kunnskapsbasert system implementert i et symbolbehandlings-språk som PROLOG eller LISP.

    Resonneringsmodulen bester av følgende hovedkomponenter:

  • En database som inneholder alle relevante faktaopplysninger (rutetabell, betalingsordninger, midlertidige endringer, etc.).
  • En modell av problemdomenet (kundeønsker, rådgiving), og en kobling mellom denne modellen og databasens begreper.
  • En problemløsnings- og læringsmodul som trekker slutninger over modellen og databasen, og som kan ta vare på aktuelle problemsituasjoner og således lære av erfaring.
  • En kompilator som oversetter semantiske strukturer til kall til databasen eller problemløsningsmodulen.
  • En kompilator som omformer resonneringsresultatet til en semantisk form som kan brukes til å generere setninger.
  • En dialogmodul som styrer dialogen med brukeren.
  • Sentralt i systemet er et semantisk nett som er integrert med grammatikkens leksikon ("ordliste"). Her er betydningen til substantiver, verb, preposisjoner og adjektiver gitt en presis mening og referanse innenfor applikasjonens begrepsverden.

    I en realistisk dialogsituasjon skal applikasjonen hjelpe brukeren til å løse et problem, ikke bare svare på konkrete spørsmel. Brukeren vil da eksplisitt eller implisitt uttrykke hvilket mål han ønsker oppnedd, og resonneringsmodulen vil lage en plan for at brukeren kan oppnå målet. Dialogen må lages som et samarbeidende system, der systemet svarer på det som det finner at brukeren egentlig trenger av informasjon, og ikke bare på hva det direkte blir spurt om.

    Resonneringsmodulen vil ha to aspekter:

  • En deduserende analytisk side som er knyttet til selve problemløsningen og koblingen til språkanalyse/generering.
  • En adaptiv side som er styrt mot de spørsmel som faktisk stilles av brukeren, relatert til de svar som systemet faktisk gir. Dette aspektet er knyttet til oppdatering og forbedring av kunnskapsbasen over tid.
  • Grammatikkmodul

    I grammatikkmodulen finnes syntaksregler med semantiske oversettelser, et leksikon (en "ordliste") som beskriver ordene som brukes i dialogene samt en parser og en generator som bruker reglene og leksikonet til å analysere og produsere setninger. Grammatikkmodulen fungerer tilfredsstillende bare dersom den er istand til å analysere eller generere alle setningene i dialogkorpuset. Grammatikken er ikke forventet å skulle kunne analysere alle velformede setninger i norsk, men kun et fragment av norsk, dvs. setningene i dialogkorpuset.

    Leksikonet er spesielt viktig i grammatikkmodulen. Der blir både konseptuell (semantisk), lydlig og grammatisk informasjon samlet for ordene som påtreffes i korpuset. Leksikonet vil være basert på et teoretisk begrunnet allmen-format, bl.a. brukt i NorKompLeks, et prosjekt for konstruksjon av leksikon for norsk under oppbygning ved Lingvistisk institutt.

    Talemodul

    Oppgaven til talegjenkjenningskomponenten er å oversette vanlig menneskelig tale til tekstlig form. Ideelt skal en slik komponent kunne forste sammenhengende setninger fra talere med ulik dialektbakgrunn. Det er viktig at gjenkjennerens ytelse ikke påvirkes av forskjellige former av støy. Talegjenkjenneren i den planlagte demonstratoren vil bli trent opp til å gjenkjenne ordene som forekommer i dialogene.

    Sluttproduktet fra komponenten som genererer svar er setninger som foreligger i ortografisk form. Talesyntesekomponenten har som oppgave å omsette slike setninger til forsteelig og behagelig tale. I dag brukes to metoder ved talesyntese. Den ene typen setter sammen brokker av naturlig menneskelig tale. Den andre metoden er regelbasert syntese, som betyr at en datamaskin produserer kunstlig tale ved hjelp av synteseregler. Den siste metoden er å foretrekke fordi man da har et system som kan generere tale fra vilkårlig tekst.

    I tillegg til det opprinnelige korpuset blir det laget et nytt dialogkorpus som brukes til å trene demonstratoren. Det nye korpuset blir bygget opp med et sekalt "Wizard of Oz"-eksperiment der man simulerer menneske-maskin kommunikasjon på følgende måte: Et individ stiller spørsmel ved å snakke inn i en mikrofon og får svar i form av syntetisk tale. Den som stiller spørsmel vet ikke at komponentene talegjenkjenning, resonnering og setningsgenerering er eller kan være utført av et menneske som simulerer dialogsystemet som fungerer feilfritt. De naturligspreklige ytringene fra mennesket som søker informasjon blir lagret og kan brukes senere til å modifisere de andre systemkomponentene (grammatikk- og resonneringsmodulene).

    For nærmere opplysninger, kontakt prosjektleder Magne Hallstein Johnsen


    agnar@ifi.ntnu.no
    Last modified: Fri Aug 23 16:36:21 MET DST 1996