Menu Search

实施 AI 以进一步扩大规模并加速 WorldCat 重复数据删除

OCLC 元数据质量团队实施各种措施(手动和自动)来提高 WorldCat 数据的质量和实用性。这些广泛而持续的举措确保 WorldCat 数据能够满足我们的会员以及全球数千个图书馆网络提供的广泛服务的需求。随着使我们能够完成这项重要工作的技术和工具不断发展,我们在不断探索丰富、修复和删除重复数据的 WorldCat 记录,这些数据推动着全球图书馆资源发现和共享。

在 OCLC,我们相信人工智能 (AI) 在人类专业知识的指导下才能发挥最佳作用。我们与 AI 的合作之旅是一种合作伙伴关系 — 图书馆专业人员的见解和价值观塑造了 AI 服务社区的方式。许多 AI 系统的核心组成部分是机器学习,其中涉及对数据进行算法训练,使其能够在没有明确编程的情况下做出预测或决策。

2023 年 8 月,我们实施了第一个机器学习模型,用于检测重复的书目记录,这是我们持续努力缓解和减少 WorldCat 中重复书目记录的其中一项举措。在此之前,我们邀请了编目社区参与数据标记工作,从中收到了来自 300 多名用户对大约 34000 份重复数据的反馈,以帮助验证我们的模型对 WorldCat 中重复记录的理解。此项举措的结果是 WorldCat 中删除了约 540 万份重复的英语和法语、德语、意大利语和西班牙语印刷版书籍资料。

现在,我们已经增强并扩展了我们的 AI 模型,以删除 WorldCat 中所有格式、语言和脚本的重复数据。利用从社区参与收集的标记数据,我们得以调整和优化 AI 机器学习算法,完成了广泛的内部测试,并利用 WorldCat Member Merge 图书馆对算法的性能进行外部验证。

2025 年 2 月 11 日,我们将对 500000 条记录对进行测试运行,仅针对 WorldCat 中的印刷英文书籍,并合并 500000 条重复记录。印刷版英文书籍是 WorldCat 中重复内容最多的类别,也是迄今为止在我们的机器学习重复数据删除活动中经过最严格测试和改进的格式。此次初次运行后,我们将暂停并评估结果,然后对 WorldCat 进行更多重复数据删除,以解决英文印刷版书籍中剩余的重复对问题。一旦完成此类材料的删除,我们将对所有非书籍和非英文材料进行重复数据删除。我们开始更多运行后,将提供更新信息。

我们建议未使用 WorldShare 管理服务的图书馆在 WorldShare 馆藏管理器中启用 WorldCat 更新,以确保他们收到已合并所藏记录的更新 OCN。如果您怀疑合并不正确,请报告给 bibchange@oclc.org。WorldCat 元数据质量工作人员可以查看合并记录的历史记录,并在需要时进行恢复。

清理重复记录是提高 WorldCat 质量最有效的方法之一。WorldCat 的规模带来了挑战,因为它包含来自不同来源、编目实践和语言的数据。利用最新的 AI 技术增强元数据专业人员的人工操作,在减少重复数量方面取得了显著的成功。这种方法加强了我们对质量的承诺,让 AI 可以帮助图书馆为用户提供准确、简化的体验。

感谢迄今为止参与此项工作的社区成员 — 你们的合作有助于我们完善和扩展 WorldCat 中重复记录的自动解析功能,从而推动全球图书馆的专业发展和使命,节省了大量时间并改善了整个图书馆社区的体验。