Menu Search

Implementatie van AI om WorldCat-deduplicatie verder op te schalen en te versnellen

De Metadata Quality-teams van OCLC implementeren diverse maatregelen, zowel handmatig als geautomatiseerd, om de kwaliteit en bruikbaarheid van WorldCat-gegevens te verbeteren. Dankzij deze uitgebreide en voortdurende inspanningen kunnen we garanderen dat de WorldCat-gegevens voldoen aan de behoeften van onze leden en ons wereldwijde netwerk van duizenden bibliotheken met een breed scala aan diensten. Naarmate de technologieën en hulpmiddelen die ons in staat stellen dit belangrijke werk te doen zich verder ontwikkelen, onderzoeken we voortdurend nieuwe methoden voor het verrijken, repareren en dedupliceren van WorldCat-records. Deze gegevens zijn essentieel voor de wereldwijde ontdekking en uitwisseling van bibliotheekbronnen.

Bij OCLC zijn we ervan overtuigd dat kunstmatige intelligentie (AI) optimaal functioneert als deze wordt aangestuurd door menselijke expertise. Onze reis met AI is een partnerschap, waarbij de inzichten en waarden van bibliotheekprofessionals sturing geven aan de manier waarop AI gemeenschappen dient. Een belangrijk onderdeel van veel AI-systemen is 'machine learning'. Hierbij worden algoritmen getraind op data zodat ze voorspellingen kunnen doen of beslissingen kunnen nemen zonder hiervoor expliciet geprogrammeerd te worden.

In augustus 2023 hebben we ons eerste machine learning-model geïmplementeerd voor het detecteren van dubbele bibliografische records, als onderdeel van onze voortdurende inspanningen om de aanwezigheid hiervan binnen WorldCat te beperken en te verminderen. In de aanloop hiernaartoe hebben we de catalogiseringsgemeenschap uitgenodigd om deel te nemen aan oefeningen met betrekking tot het labelen van gegevens. Hieruit ontvingen we feedback van ruim 300 gebruikers over circa 34.000 duplicaten. Daarmee konden we valideren in hoeverre ons model dubbele records in WorldCat begrijpt. Dit initiatief leidde tot de verwijdering van ongeveer 5,4 miljoen duplicaten uit WorldCat voor gedrukt boekmateriaal in het Engels en andere talen zoals Frans, Duits, Italiaans en Spaans.

We hebben ons AI-model nu verbeterd en uitgebreid om alle formaten, talen en scripts in WorldCat te dedupliceren. Met behulp van de gelabelde gegevens die we middels de bijdrage van de gemeenschap hebben verzameld, hebben we het AI-algoritme voor machine learning aangepast en geoptimaliseerd, uitgebreide interne tests uitgevoerd en WorldCat Member Merge-bibliotheken ingeschakeld om de prestaties van het algoritme extern te verifiëren. 

Op 11 februari 2025 voeren we een testsessie uit met 500.000 recordparen. We richten ons hierbij uitsluitend op gedrukte Engelstalige boeken in WorldCat en voegen 500.000 dubbele records samen. Gedrukte Engelstalige boeken vormen de grootste categorie duplicaten binnen WorldCat en zijn het formaat dat tot nu toe het meest grondig is getest en verbeterd als onderdeel van onze machine learning deduplicatie-activiteiten. Na deze eerste sessie zullen we de tijd nemen om de resultaten te evalueren voordat we verdere deduplicatierondes van WorldCat uitvoeren om de resterende duplicaatparen voor gedrukte Engelstalige boeken aan te pakken. Zodra deze categorie materialen is voltooid, worden er deduplicatiesessies uitgevoerd voor alle materialen die geen boek of Engelstalig materiaal zijn. Wij zullen jullie op de hoogte houden zodra we meer sessies starten.  

Wij adviseren bibliotheken die geen gebruikmaken van WorldShare Management Services om WorldCat-updates in WorldShare Collection Manager in te schakelen om er zeker van te zijn dat ze de bijgewerkte OCN ontvangen voor samengevoegde records. Als je vermoedt dat er sprake is van een onjuiste samenvoeging, kun je dit melden via bibchange@oclc.org. Medewerkers van WorldCat Metadata Quality kunnen de geschiedenis van samengevoegde records bekijken en deze indien nodig herstellen.

Het opschonen van dubbele records is een van de meest effectieve manieren om de kwaliteit van WorldCat te verbeteren. De omvang van WorldCat brengt uitdagingen met zich mee, met gegevens uit verschillende bronnen, catalogiseringspraktijken en talen. Door de handmatige werkzaamheden van metadataprofessionals te intensiveren met behulp van de nieuwste AI-technologie is het aantal duplicaten aanzienlijk verminderd. Deze aanpak onderstreept onze toewijding aan kwaliteit, zodat AI bibliotheken kan helpen om gebruikers een nauwkeurige en gestroomlijnde ervaring te bieden.

Hartelijk dank aan de leden van onze gemeenschap die tot nu toe aan deze inspanning hebben bijgedragen. Dankzij jullie medewerking kunnen we het beroep en de missie van bibliotheken wereldwijd verder ontwikkelen door de automatische oplossing van dubbele records in WorldCat te verbeteren en op te schalen. Dit bespaart talloze uren tijd en verbetert de ervaring voor de hele bibliotheekgemeenschap.