Implementierung von KI zur weiteren Skalierung und Beschleunigung der WorldCat-Deduplizierung
Die OCLC-Teams für Metadatenqualität implementieren eine Reihe von Maßnahmen – sowohl manuell als auch automatisiert –, um die Qualität und Nützlichkeit der WorldCat-Daten zu verbessern. Diese umfassenden und fortlaufenden Bemühungen stellen sicher, dass die WorldCat-Daten die Anforderungen unserer Mitglieder und unseres globalen Netzwerks aus Tausenden von Bibliotheken mit einem breiten Spektrum an Diensten unterstützen. Während sich die Technologien und Werkzeuge, die uns diese wichtige Arbeit ermöglichen, weiterentwickeln, erforschen wir ständig neue Methoden zur Anreicherung, Reparatur und Deduplizierung von WorldCat-Datensätzen – Daten, die die globale Entdeckung und gemeinsame Nutzung von Bibliotheksressourcen ermöglichen.
Wir bei OCLC sind davon überzeugt, dass künstliche Intelligenz (KI) dann die beste Leistung erbringt, wenn sie durch menschliches Fachwissen gesteuert wird. Unsere Reise mit KI ist eine Partnerschaft, bei der die Erkenntnisse und Werte von Bibliotheksfachleuten die Art und Weise prägen, wie KI der Gesellschaft nutzt. Eine Kernkomponente vieler KI-Systeme ist das maschinelle Lernen. Dabei werden Algorithmen anhand von Daten trainiert, um sie in die Lage zu versetzen, ohne explizite Programmierung Vorhersagen oder Entscheidungen zu treffen.
Im August 2023 haben wir im Rahmen unserer laufenden Bemühungen, das Auftreten doppelter bibliografischer Datensätze in WorldCat einzudämmen und zu reduzieren, unser erstes maschinelles Lernmodell zur Erkennung doppelter bibliografischer Datensätze implementiert. Im Vorfeld hatten wir die Katalogisierungs-Community eingeladen, an Übungen zur Datenbeschriftung teilzunehmen. Dabei erhielten wir von über 300 Benutzern Feedback zu etwa 34.000 Duplikaten, um das Verständnis unseres Modells für doppelte Datensätze in WorldCat zu validieren. Diese Initiative führte zur Entfernung von ca. 5,4 Millionen Duplikaten gedruckter Buchmaterialien in Englisch und anderen Sprachen wie Französisch, Deutsch, Italienisch und Spanisch aus WorldCat.
Wir haben jetzt unser KI-Modell verbessert und erweitert, um alle Formate, Sprachen und Skripte in WorldCat zu deduplizieren. Unter Nutzung der durch die Community-Beteiligung gesammelten gekennzeichneten Daten haben wir den KI-Algorithmus für maschinelles Lernen angepasst und optimiert, umfangreiche interne Tests durchgeführt und WorldCat Member Merge-Bibliotheken hinzugezogen, um eine externe Überprüfung der Leistung des Algorithmus bereitzustellen.
Am 11. Februar 2025 werden wir einen Testlauf mit 500.000 Datensatzpaaren durchführen, wobei wir uns ausschließlich auf gedruckte englischsprachige Bücher in WorldCat konzentrieren und 500.000 doppelte Datensätze zusammenführen werden. Gedruckte englischsprachige Bücher stellen die größte Kategorie an Duplikaten in WorldCat dar und sind das Format, das im Rahmen unserer Aktivitäten zur Deduplizierung mit maschinellem Lernen bislang am gründlichsten getestet und verbessert wurde. Nach diesem ersten Durchlauf machen wir eine Pause, um die Ergebnisse auszuwerten, bevor wir weitere Deduplizierungsdurchläufe in WorldCat durchführen, um die verbleibenden Duplikatspaare für gedruckte englischsprachige Bücher zu bereinigen. Sobald diese Materialkategorie abgeschlossen ist, werden Deduplizierungsdurchläufe für alle Materialien durchgeführt, die keine Bücher oder die nicht auf Englisch sind. Wir werden Updates bereitstellen, sobald wir weitere Durchläufe einleiten.
Wir empfehlen Bibliotheken, die WorldShare Management Services nicht verwenden,WorldCat-Updates im WorldShare Collection Manager zu aktivieren, um sicherzustellen, dass sie die aktualisierte OCN für zusammengeführte Datensätze erhalten. Wenn Sie eine fehlerhafte Zusammenführung vermuten, melden Sie sie an bibchange@oclc.org. Das Qualitätspersonal von WorldCat Metadata kann den Verlauf zusammengeführter Datensätze einsehen und diese bei Bedarf wiederherstellen.
Das Bereinigen doppelter Datensätze ist eine der wirkungsvollsten Möglichkeiten, die Qualität von WorldCat zu verbessern. Der Umfang von WorldCat stellt aufgrund der Daten aus unterschiedlichen Quellen, Katalogisierungsverfahren und Sprachen eine Herausforderung dar. Durch die Verstärkung der manuellen Bemühungen von Metadatenexperten mithilfe der neuesten KI-Technologie konnte die Anzahl der Duplikate deutlich reduziert werden. Dieser Ansatz unterstreicht unser Engagement für Qualität, sodass KI den Bibliotheken dabei helfen kann, ihren Benutzern präzise und optimierte Erfahrungen zu bieten.
Vielen Dank an die Mitglieder unserer Community, die sich bisher an diesem Projekt beteiligthaben. Ihre Zusammenarbeit trägt dazu bei, den Beruf und die Mission von Bibliotheken weltweit voranzubringen, indem sie uns hilft, die automatische Auflösung doppelter Datensätze in WorldCat zu verfeinern und zu skalieren, was unzählige Stunden an Zeit spart und die Erfahrung für die gesamte Bibliotheks-Community verbessert.