“IJ, IJ, IJ, wat zijn we Blij.”
Wanneer ik een mail met deze titel rondstuur bij Human Inference, dan weten mijn collega's hoe laat het is: "Bebseler is jarig, en hij trakteert weer op paaseieren." Vandaag is de aanleiding van andere aard. Een klant van ons zit bij een nieuwbouwproject met onze Identify software met eierconversieprobleem: Bij het matchen van IJbert versus Ybert moet er voldoende gescoord worden, en eveneens wanneer er uitsluitend op voorletters wordt geëvalueerd.
Een door de klant gemaakte routine moet het alvast gemakkelijker maken: We plukken de eerste letter van de naam, en de Y transformeren we naar een I. In beide gevallen hebben we dan de letter I, en dat scoort 100%. Voorletters zijn geen initialen, maar waar dit uitsluitend wordt ingezet voor het matchen, en niet voor het opmaken van de naam zie ik tot zover geen probleem.
Het idee om een soortgelijke transformatie ook bij de oorspronkelijke voornamen toe te passen moet ik tegenhouden. Het lijkt zo simpel, maar daar krijgen we toch te maken met de kern van onze Identify software: Kennis en interpretatie. De kennis bevat een rijke verzameling van namen met bijbehorende indicaties, en de interpretatiemodule maakt daar gebruik van, en kent betekenissen toe op grond van die kennis en de positie binnen de complete tenaamstelling.
Allereerst moet ik constateren dat de naam Ybert niet in deze spelling voor komt, en dat de enige juiste spelling IJbert is. De bedachte transformatie van Ybert naar Ibert is al helemaal onwenselijk, want Ibert bestaat niet als voornaam. Wel als achternaam. Zodoende zou "Ibert Jansen" worden geïnterpreteerd als twee achternamen, en daarom als "waarschijnlijk vrouwelijk" worden aangemerkt. Dat terwijl IJbert eenduidig een mannelijke voornaam is. IJbert kennen we wel; Ybert kennen we niet; daarentegen kennen we wel de vrouwelijke naam Yberta, maar IJberta bestaat dan weer niet. Kunt u het nog volgen? Het komt nogal precies, en stomweg letters in persoonsnamen aanpassen is onwenselijk omdat dat een sterke invloed heeft op het verdere verloop in interpretatie en matching.
De IJ is altijd al een vreemde eend in de bijt geweest. Van oorsprong was het ooit de dubbele i, zoals andere klinkers in het Nederlands ook dubbel voorkomen. De i werd destijds nog zonder punt erop geschreven, en omdat de dubbele i nogal eens met de u werd verward kreeg de tweede i een krul aan de onderkant. De lange ij werd in 1804 officieel geïntroduceerd. Op mijn oude typmachine kwam de letter IJ nog na de J, K, L. Op digitale toetsenborden kwam een semicolon op die plek, en moes de ij weer worden geconstrueerd uit de i en de j. Op het leesplankje vonden we nog de letter IJ, maar in het alfabet kennen we slechts de Y. De IJ en de Y; ze zijn niet hetzelfde, maar worden nogal eens voor elkaar aangezien. Dat spreekt voor een hoge score bij het vergelijk van woorden waar deze letters in voorkomen.
Gelukkig hoeft onze klant zich tegenwoordig niet meer zo druk te maken over die IJ/Y vergelijking. De evaluatiemethode op woordbeeld is intussen zodanig aangepast dat er een hogere score volgt dan voorheen. Zo hebben we wel vaker aanpassingen moeten doen voor deze vreemde eend. Onze kapitalisatiemodule weet al lang dat bij de kapitalisatie van "IJbert" de eerste twee letters met een hoofdletter moeten. Een eenvoudige google search op de naam IJbert laat onmiddelijk zien dat lang niet alle softwaremodules hier rekening mee houden.
Ook bij de indexering op de fonologische code van de naam om te matchen kandidaten te selecteren zijn hier eerder al verbeteringen doorgevoerd. IJsbert, Isbert, Ysbert en Eisbert leveren op het meest gekozen nauwkeurigheidsniveau in alle gevallen de fonologische representatie “espet” op. De schrijfwijzen worden zo correct samen voorgeselecteerd, en inmiddels scoren ze ook voldoende. Nee, geen 100%, want wat stomweg niet hetzelfde is hoort geen 100 te scoren, maar vooruit, intussen wel een verhoogde score om ze toch bij elkaar te vinden.
Het is nog lang geen Pasen. Sinterklaas is nog maar net het land uit. In de uitverkoop kocht ik een goedkope Chocoladesinterklaas. Ik haal het zilverfolie er af, en er blijkt een paashaas in te zitten, keurig met de oren op de plek van de mijter.
Een perfecte match; IJ, IJ, IJ, wat zijn we blij.
Slechte datakwaliteit kost organisaties honderdduizenden euro’s per jaar: onbetrouwbare data leiden tot foute beslissingen en inefficiënte processen.
Gelukkig is er onze datakwaliteitschecklist, waarmee je in 5 minuten beoordeelt of jouw data voldoen aan de 6 datakwaliteitsdimensies. Laat je gegevens achter en download direct het document.
Worstel je met het beheren van de enorme hoeveelheid gegevens die jouw organisatie verzamelt? Met de alsmaar strenger wordende regelgeving is het goed beheren van je data belangrijker dan ooit. Gelukkig is er een softwareoplossing die hierbij ondersteunt: Master Data Management (MDM).
Neem contact met ons op voor een kort kennismakingsgesprek over hoe MDM jouw organisatie helpt om succesvol te zijn. Zonder verdere verplichtingen, maar met waardevol advies.
Een effectief compliance-proces is essentieel voor het beschermen van je organisatie tegen risico’s. Onze experts staan klaar om je te helpen met advies en de juiste tools voor een toekomstbestendig compliance beleid, zoals CDD.
Laat je gegevens achter en neem contact met ons op voor een kort kennismakingsgesprek. Zonder verdere verplichtingen, maar met waardevol advies.