Wikisage, de vrije encyclopedie van de tweede generatie, is digitaal erfgoed

Wikisage is op 1 na de grootste internet-encyclopedie in het Nederlands. Iedereen kan de hier verzamelde kennis gratis gebruiken, zonder storende advertenties. De Koninklijke Bibliotheek van Nederland heeft Wikisage in 2018 aangemerkt als digitaal erfgoed.

  • Wilt u meehelpen om Wikisage te laten groeien? Maak dan een account aan. U bent van harte welkom. Zie: Portaal:Gebruikers.
  • Bent u blij met Wikisage, of wilt u juist meer? Dan stellen we een bescheiden donatie om de kosten te bestrijden zeer op prijs. Zie: Portaal:Donaties.
rel=nofollow

Begrip van natuurlijke taal

Uit Wikisage
Naar navigatie springen Naar zoeken springen

Natural language understanding is een onderdeel van natural language processing, het verwerken van natuurlijke taal, in de kunstmatige intelligentie. Het heeft als doel teksten machinaal te begrijpen.

Het proces van ontrafelen en verwerken van input is ingewikkelder dan het omgekeerde proces waarbij een tekst gegenereerd moet worden (natural language generation). Het is moeilijker omdat er ongekende en onverwachte eigenschappen in de invoer aanwezig kunnen zijn en omdat het nodig is om hieruit de juiste syntactische en semantische schema’s af te leiden. Wanneer men daarentegen een tekst opstelt in een bepaalde taal, zijn de syntactische en semantische schema’s vooraf vastgelegd.

Natural language understanding verkrijgt hoge commerciële belangstelling omdat het gebruikt kan worden bij het verzamelen van nieuws, het categoriseren van teksten, stemactivatie, archiveren en data-analyse op grote schaal.

Scope en context

De overkoepelende term „natural language understanding” kan toegepast worden bij een diverse verzameling aan computer toepassingen. Natural language understanding programma’s kunnen gaan van kleine computertoepassingen die relatief eenvoudige taken uitvoeren zoals korte opdrachten die een robot aansturen tot vrij complexe toepassingen die een volledige krant proberen te begrijpen of de betekenis achter gedichten proberen te ontcijferen. Vele hedendaagse toepassingen bevinden zich tussen deze beide extremen, bv. de tekstclassificatie voor de automatische analyse van e-mail en het doorsturen naar een geschikte afdeling binnen een bedrijf vereist geen al te diepgaand begrip van de inhoud, maar is veel complexer dan het managen van eenvoudige gegevensaanvragen (queries) op databanktabellen met vastgelegde schemata.

Door de jaren heen werden er verschillende pogingen gedaan om natuurlijke taal die aan computers gerepresenteerd werd te verwerken met verschillende graden van complexiteit. Sommige systemen resulteerden niet in diep begrip van de input maar bevorderden de algemene bruikbaarheid van het systeem. Bijvoorbeeld, Wayne Ratliff ontwikkelde het originele Vulcan-programma met een Engelse syntax voor het imiteren van de Engelssprekende computer in Star Trek. Later werd op basis van de eenvoudige syntax van het Vulcan dBase-systeem de database-industrie voor PC’s opgestart. Systemen met eenvoudig te gebruiken Engelse syntax onderscheiden zich echter van systemen die een rijk lexicon en een interne semantische representatie (vaak eerste orde-logica) gebruiken.

De breedte en de diepte van „begrip” die men binnen een systeem wenst te implementeren, bepalen de complexiteit van het systeem en het soort toepassingen waarvoor men het kan gebruiken. De „breedte” van een systeem wordt gemeten met de grootte van de woordenschat en de grammatica. De „diepte” van het systeem wordt anderzijds bepaald door de graad waarmee het systeem een tekst kan begrijpen zoals mensen dit kunnen. Een smal en ondiep systeem representeert m.a.w. een eenvoudige systeem dat een beperkt aantal toepassingen heeft. Een smal en diep systeem probeert te werken volgens het model van de menselijke begripsmechanismen en de mogelijkheden ervan te verkennen, maar heeft nog steeds een beperkte toepassing. Systemen die proberen om inhoud van documenten zoals nieuwsberichten te begrijpen en te beoordelen indien die relevant zijn voor een gebruiker, waarbij meer dan alleen kernwoorden worden vergeleken, vereisen al een significante complexiteit maar zijn nog steeds vrij ondiep. Systemen die zeer breed en diep zijn gaan voorbij de huidige stand van de wetenschap.

Componenten en architectuur

Onafhankelijk van de aanpak die men gebruikt, kan men de vaak voorkomende componenten binnen natural language understanding systemen identificeren. Het systeem heeft een lexicon nodig in een bepaalde taal, een omvormer (parser) en grammaticaregels om de zinnen om te vormen in een interne representatie. De constructie van een rijk lexicon met een gepaste ontologie vereist hoge inspanningen. Het Wordnet-lexicon bijvoorbeeld kostte meerdere persoon-jaren.

Het systeem heeft ook een semantische theorie nodig om het begrip te begeleiden. De interpretatiecapaciteiten van een taalbegrijpend systeem zijn afhankelijk van de semantische theorie die het gebruikt. Concurrerende semantische theorieën voor taal hebben specifieke afwegingen in hun bruikbaarheid als basis voor gecomputeriseerde semantische interpretatie. Semantische theorieën gaan van naïeve semantiek of stochastische semantische analyse tot het gebruik van pragmatiek voor het afleiden van betekenis uit de context.

Geavanceerde toepassingen van natural language understanding proberen om logische gevolgtrekking te gebruiken binnen hun raamwerk. Dit wordt in het algemeen verwezenlijkt door het mappen van afgeleide betekenis in een verzameling van bewerkingen in predicatenlogica, waarna men logische deductie gebruikt om conclusies te trekken. Systemen die gebaseerd zijn op functionele talen zoals Lisp moeten dus een subsysteem importeren voor het representeren van logische beweringen, terwijl logica georiënteerde systemen zoals systemen geschreven in Prolog over het algemeen steunen op een uitbreiding van het ingebouwde logische representatie raamwerk.

Het beheren van context in natural language understanding kan een bijzondere uitdaging vormen. Een grote variëteit aan voorbeelden en tegenvoorbeelden hebben geresulteerd in verschillende aanpakken om de context formeel te modelleren, elk met zijn specifieke sterkten en zwakten.

Bronnen, noten en/of referenties

Bronnen, noten en/of referenties

Q1078276 op Wikidata  Intertaalkoppelingen via Wikidata (via reasonator)

rel=nofollow
rel=nofollow
rel=nofollow