1 / 47

Aspecten van automatisch vertalen. Resultaten - problemen

Aspecten van automatisch vertalen. Resultaten - problemen. Steven Krauwer Utrechts instituut voor Linguïstiek UiL OTS. Overzicht. De vertaalcomputer Geschiedenis Problemen met oplossingen Vertaalstrategieën Problemen zonder oplossingen Waar staan we, en hoe nu verder?.

Download Presentation

Aspecten van automatisch vertalen. Resultaten - problemen

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Aspecten vanautomatisch vertalen. Resultaten - problemen Steven Krauwer Utrechts instituut voor Linguïstiek UiL OTS

  2. Overzicht • De vertaalcomputer • Geschiedenis • Problemen met oplossingen • Vertaalstrategieën • Problemen zonder oplossingen • Waar staan we, en hoe nu verder? Automatisch Vertalen

  3. De vertaalcomputer • Wat we er mee bedoelen • Waarom we het eigenlijk doen Automatisch Vertalen

  4. Wat we er mee bedoelen • Vertaling door de computer van geschreven tekst (aangeboden via toetsenbord, diskette, netwerk), dus geen gesproken tekst • Vertaling van zakelijke of technische teksten en boodschappen, dus geen gedichten of romans Automatisch Vertalen

  5. Waarom we het eigenlijk doen • Economisch: drukken van de vertaalkosten • Praktisch: verhogen van de snelheid • Volume: er is meer werk dan vertalers aankunnen • Ideologisch: opheffen van taalbarrières • Nieuwsgierigheid: hoe doe je het? Automatisch Vertalen

  6. Geschiedenis • 3 Periodes: • 1946-1966: Koude oorlog • 1978-1992: Internationalisatie • 1998-????: Internet Automatisch Vertalen

  7. Periode 1946-1966 • Probleem: • Amerikanen wilden weten wat de Russen deden • Technologie: • computers (net uitgevonden) • cryptografie • signaalverwerking • Geld: • Pentagon (koude oorlog) Automatisch Vertalen

  8. Periode 1946-1966 • Resultaat: teleurstellend, culminerend in het "ALPAC Rapport”, waarin geconcludeerd werd dat het op dat moment geen zin had verder te investeren in onderzoek en ontwikkeling op het gebied van automatisch vertalen Automatisch Vertalen

  9. Periode 1978-1992 • Probleem: • internationalisering (handel, EG) • stijgende loonkosten • gebrek aan vertalers • Technologie: • snellere, grotere, goedkopere computers • betere programmeertalen • betere taalkunde • Geld: • internationale organisaties (EG) • multinationals Automatisch Vertalen

  10. Periode 1978-1992 • Ook in Nederland 3 grote projecten met overheidssteun: • Rosetta (Philips) • DLT (BSO) • EUROTRA (EC) • Resultaat: • qua output alweer teleurstellend • enorme educatieve impact Automatisch Vertalen

  11. Periode 3: 1998-???? • Probleem: • globalisering van handel en industrie • internet • multilingual information society • Technologie: • krachtige PCs • hybride aanpakken • internet • deeltaken, specialisatie • Geld: • EU, VN, internet- en telecombedrijven Automatisch Vertalen

  12. Problemen met oplossingen • Wat helemaal niet moeilijk is • Wat wel moeilijk is, maar oplosbaar • De taalkunde als redder • Tussenstand Automatisch Vertalen

  13. Wat helemaal niet moeilijk is • Vreemde lettertekens • Schrijven van rechts naar links, of van boven naar beneden • Woorden met veel ingewikkelde verbuigingen of vervoegingen • Uitzonderingen • Grote woordenboeken met veel moeilijke woorden en vaktermen Automatisch Vertalen

  14. Wat wel moeilijk is • Bepalen welke zin we eigenlijk aan het vertalen zijn • Bepalen hoe de onderdelen van een zin met elkaar samenhangen • Bepalen wat de juiste vertaling is Automatisch Vertalen

  15. Vertalen met een woordenboek • “Ik was de was weer aan het wassen” • ik (2): "ik", "het ik" • was (zn) (5):“wasproces”, “bijenwas”, "boenwas", "stijging", "wasgoed” was (ww) (7):"zijn”, "kleren schoonmaken”, "de afwas doen”, "erts wassen”, "dieren wassen”, "kaarten schudden”, "groeien" • de (2): "de fiets”, "een gulden de meter” • was (12): zie boven Automatisch Vertalen

  16. Vertalen met een woordenboek (vervolg) • weer (werkwoord) (1):"afweren”weer (zelfst. naamwoord) (4): "hamel”, "weersgesteldheid”, "afweer”, "keerdam”weer (bijwoord) (1): “wederom” • aan:meer dan 10 vertalingen • het: (3): "het huis”, "hij/zij/het”, "appels voor een gulden het stuk" • wassen (12):zie vorige plaatje Automatisch Vertalen

  17. Vertalen met een woordenboek (vervolg) • Resultaat: • “Ik was de was weer aan het wassen” • 2x12x2x12x6x10x3x12=1 244 160 mogelijkheden • Conclusie: • explosie aan keuzemogelijkheden • we weten nog steeds niet welke zin we moeten vertalen Automatisch Vertalen

  18. De taalkunde als redder • Niet alle woordopeenvolgingen zijn mogelijk: • ik (pers. vnwd) 2  1 • was (werkwoord) 12  7 • de (lidwoord) 2  1 • was (zelfst. nwd) 12  5 • weer (bijwoord) 6  1 • aan (voorzetsel) 10  5 • het (lidwoord) 3  1 • wassen (werkwoord) 12  6 • Nu nog maar 1050 mogelijkheden ... Automatisch Vertalen

  19. Nog wat taalkunde • ... en met nog wat grammatica nog maar 25: • ik was kan hier alleen van zijn komen (niet van schoonmaken of groeien) • de was kan nog steeds 5 betekenissen hebben • aan kan alleen van aan het --- zijn komen • het wassen kan nog op 5 soorten van wassen slaan (maar niet op groeien, omdat daar geen lijdend voorwerp bij kan) Automatisch Vertalen

  20. Nog wat taalkunde er bij • We kunnen in het woordenboek nog wat extra informatie toevoegen, zoals: • bij zn: mens, dier, instrument, vloeibaar, delfstof, voertuig, abstract, telbaar, ... • bij ww: onderwerp moet mens zijn, lijdend voorwerp vloeibaar, er moet een tijdsbepaling bij, een plaatsbepaling, ... • bij voorzetsels: met een zn dat een tijd aanduidt is het een tijdsbepaling, met plaats een plaatsbepaling, ... • Eigenlijk: verkapte betekenisinformatie Automatisch Vertalen

  21. Ter illustratie • Jan kocht bloemen voor • ... Marie • ... half zeven • ... zijn laatste geld • ... moederdag • ... de ingang van het CS • wat voor hier betekent is vast nog wel op te lossen door extra woordenboekinformatie Automatisch Vertalen

  22. Het resultaat • Met de extra informatie kunnen we dan de laatste problemen uit de weg ruimen: • was hoort niet tot de categorie serviesgoed, dier, erts of kaartspel • bijenwas behoort niet tot de categorie zaken die je kunt wassen • dus we houden nog maar een mogelijkheid over Automatisch Vertalen

  23. Voorlopige conclusie • met een woordenboek alleen is het niet mogelijk uit te maken welke zin je feitelijk moet vertalen (te veel mogelijkheden) • de grammatica (woordsoorten en zinsdelen) beperkt het aantal problemen • en wat betekenisinformatie er bij geeft het laatste zetje Automatisch Vertalen

  24. Tussenstand • We hebben nu een (impressionistisch) beeld geschetst van een proces • dat ons in staat stelt vast te stellen wat eigenlijk de zin is die we zouden willen vertalen • dat berust op objectief beschrijfbare kennis (woordenboeken, grammaticaregels) • dat een noodzakelijke eerste stap is op weg naar het vertalen • dat redelijk goed te automatiseren is Automatisch Vertalen

  25. Basisingrediënten van een vertaalsysteem • grammaticale regels die zinnen in de brontaal analyseren (analyseregels) • regels die vertalen (vertaalregels) • regels die zinnen in de doeltaal produceren (syntheseregels) • woordenboeken (brontaal, doeltaal, tweetalig) • computerprogramma’s die deze kennis toepassen Automatisch Vertalen

  26. Drie strategieën (1) • Directe systemen: • analyse-, vertaal- en syntheseregels zitten in elkaar verweven in een regelcomponent, en er zijn geen aanwijsbare tussenstadia • nadeel: erg ingewikkeld, en als je een vertaalsysteem maakt vanuit een taal naar meer talen doe je steeds hetzelfde, maar net even anders Automatisch Vertalen

  27. Drie strategieën (2) • Transfer systemen: • analyseer (in termen van een syntactische of semantische abstracte representatie) • vertaal de representatie van de brontaal in een doeltaalrepresentatie • synthetiseer uit de doeltaalrepresentatie de juiste zinnen • Voordeel: je doet analyse en synthese meer een keer per taal, maar je hebt wel veel vertaalcomponenten Automatisch Vertalen

  28. Drie strategieën (3) • Tussentaalsystemen: • analyse, resulterend in een taalonafhankelijke betekenisrepresentatie • synthetiseer vanuit deze representatie de doeltaaltekst • Voordeel: precies 1 analyse- en 1 synthesecomponent per taal • Nadeel: niemand weet hoe een goede tussentaal er uit zou moeten zien Automatisch Vertalen

  29. De magische driehoek Taalonafhankelijke tussentaalrepresentatie = Taalafhankelijke representaties Syntheseregels Analyseregels Transferregels Directe regels Brontaaltekst Doeltaaltekst Automatisch Vertalen

  30. Kosten en gebruik van de drie typen • Directe systemen (bij 12 talen 12x11 complexe componenten) • Transfersystemen (12+12+12x11 componenten) • Tussentaalsystemen (12+12 componenten) • Vroeger meest directe systemen, nu meest transfer Automatisch Vertalen

  31. Problemen zonder oplossingen • Ambiguïteit • De mismatch tussen de talen • Het compromis van het vertalen • Robuustheid Automatisch Vertalen

  32. Ambiguïteit • Woordambiguïteit • Aanhechtingsambiguïteit • Relatieambiguïteit • Verwijzingsambiguïteit Automatisch Vertalen

  33. Woordambiguïteit • Woorden van dezelfde categorie met verschillende betekenis: • was: bijenwas of vuil goed • bank: zitbank of geldbank • paard: rij- gym- of schaakpaard • Remedie (niet volledig betrouwbaar): • inperking van het domein (“schaken”) • statistische benaderingen Automatisch Vertalen

  34. Aanhechtingsambiguïteit • Welke zinsdelen horen bij elkaar: • Ik keek naar de hond met de verrekijker • De toespraak van de minister van gisterenDe toespraak van de minister van verkeer • Remedie (niet erg betrouwbaar): • extra informatie in het woordenboek • vaste strategieën (bv altijd aan laatste) • statistische benaderingen Automatisch Vertalen

  35. Relatieambiguïteit • Welke relatie onderhouden zinsdelen met elkaar: • Jan kocht bloemen voor Marie • Samengestelde woorden:tarwemeel, vismeel, aardappelmeel, pannenkoekenmeel, kindermeel, ... • Remedie (matig resultaat): • meer informatie in woordenboek • statistische benaderingen Automatisch Vertalen

  36. Verwijzingsambiguïteiten • Waar verwijst (bv) een persoonlijk voornaamwoord naar: • "De politieagenten vuurden op de demonstrerende verpleegsters omdat ze revolutie wilden" • "De politieagenten vuurden op de demonstrerende verpleegsters omdat ze revolutie vreesden" Automatisch Vertalen

  37. Verwijzingsambiguïteiten • Of: • (1) De soldaten schoten op de vrouwen. • (2) Ze vielen dood neer. • (2’) Ze ontlaadden hun geweren. • Remedie: • binnen de taalkunde: geen • alleen kennis van de wereld helpt Automatisch Vertalen

  38. Kennis van de wereld • Probleem: • hoe verzamel je die kennis • hoe leg je die vast • hoe consulteer je die • Voor de menselijke vertaler nauwelijks een probleem: • hij beschikt over veel van die kennis • hij weet waar en hoe te zoeken Automatisch Vertalen

  39. De mismatch tussen de talen • Talen zeggen niet alles op dezelfde manier: • schimmel / grey horse • runway / landingsbaan, startbaan • ik zwem graag / I like to swim • er werd gedanst / on dansait • Remedie: • deels via woordenboek en vertaalregels, maar grote interactie met regelsysteem Automatisch Vertalen

  40. Het compromis van het vertalen • De taal verandert, maar wat moet er behouden blijven? • betekenis? boodschap? (on)waarheid? stijl? effect? vaagheid? compactheid? humor? lengte? fouten? discriminatie? • Remedie (vrijwel onbruikbaar): • de vertalershandboeken staan er vol mee • maar helaas niet op een manier die zich laat formaliseren in een regelsysteem Automatisch Vertalen

  41. Robuustheid • Het vermogen van een systeem om adequaat te reageren op onverwachte input: • onbekende woorden • onbekende grammaticaregels • incorrecte input • Remedies (afhankelijk van situatie): • fouten vooraf uitfilteren • interactie met gebruiker • statistisch verantwoord gokken Automatisch Vertalen

  42. Waar staan we nu • Huidige vertaalsystemen zijn meestal gebaseerd op woordenboeken, grammaticale kennis, en statistische gegevens om problemen op te lossen • De kwaliteit is over het algemeen uiterst matig (minder dan VWO) • De grootste doorbraak tot nu toe is het toevoegen van statistische methoden voor het maken van keuzes geweest Automatisch Vertalen

  43. Waar staan we nu • Voor state-of-the-art vertaalkwaliteit zie de vertaalfaciliteit van bv de zoekmachine AltaVista: http://www.altavista.com • Voor meer voorbeelden zie http://www-sk.let.uu.nl/ond/mt99 • Kwaliteit goed genoeg om een idee te krijgen waar het over gaat, maar niet voor zakenbrieven of handleidingen Automatisch Vertalen

  44. Waar moeten we naar toe? • Is automatisch vertalen mogelijk? • Improductieve vraag • Wat willen we eigenlijk? • Simulatie van de menselijke vertaler? Nee! • Taalbarrières doorbreken? Ja! • Dan is een betere vraag: • Hoe ver kunnen we daarmee komen? • ‘Succes’ krijgt daarmee andere definitie! • Niet aantal vertaalfouten tellen maar succes van de communicatie meten Automatisch Vertalen

  45. Strategieën voor de toekomst • Betere integratie van bestaande benaderingen (taalkundig, statistisch, kunstmatige intelligentie) • Samenwerking tussen verschillende modaliteiten (taal, spraak en beeld) • Verdeel en heers: gespecialiseerde typen systemen voor specifieke toepassingen en gebruikersgroepen Automatisch Vertalen

  46. Voorbeelden van ‘verdeel en heers’ • De vertaler wil geen vertaalsysteem, maar een vertaalgeheugen en een goed terminologiesysteem • de elektronische toerist wil weten waar een website over gaat • de hotelhouder wil het dagelijkse weerbericht in 6 talen op het prikbord hangen Automatisch Vertalen

  47. Slotopmerkingen • Automatisch vertalen is moeilijk, en heeft nog een lange weg te gaan • Een aantal fundamentele problemen is nog niet opgelost • De huidige kennis en technologie maken het echter wel mogelijk veel locale taalbarrières te overbruggen • De notie ‘succes’ dient niet uitsluitend gemeten te worden in vertaalfouten Automatisch Vertalen

More Related