Menu Search

La implementación de la IA amplía y acelera aún más la eliminación de duplicados de WorldCat

Los equipos de calidad de metadatos de OCLC implementan una variedad de medidas, tanto manuales como automatizadas, para mejorar la calidad y la utilidad de los datos de WorldCat. Estos amplios y continuos esfuerzos garantizan que los datos de WorldCat cubran las necesidades de nuestros miembros y de nuestra red mundial de miles de bibliotecas con una amplia gama de servicios. A medida que evolucionan las tecnologías y las herramientas que nos permiten realizar este importante trabajo, exploramos continuamente nuevos métodos para enriquecer, reparar y eliminar duplicaciones en los registros de WorldCat: datos que impulsan la identificación y el intercambio global de recursos bibliotecarios.

En OCLC, creemos que la Inteligencia Artificial (IA) funciona mejor cuando está guiada por la experiencia humana. Nuestro trabajo con la IA se basa en la colaboración, en la que las ideas y los valores de los bibliotecarios determinan la forma en que esta tecnología sirve a las comunidades. Un componente básico de muchos sistemas de IA es el aprendizaje automático, que implica entrenar algoritmos a partir de datos para que puedan hacer predicciones o tomar decisiones sin necesidad de realizar una programación explícita.

En agosto de 2023, implementamos nuestro primer modelo de aprendizaje automático para detectar registros bibliográficos duplicados como parte de nuestros esfuerzos continuos por mitigar y reducir su presencia en WorldCat. Para ello, invitamos a la comunidad de catalogación a participar en ejercicios de etiquetado de datos, a partir de los cuales recibimos comentarios de más de 300 usuarios sobre aproximadamente 34 000 duplicados para ayudar a validar la comprensión de nuestro modelo de registros duplicados en WorldCat. Esta iniciativa ha permitido eliminar de WorldCat aproximadamente 5,4 millones de duplicados de libros impresos en inglés y otros idiomas, como francés, alemán, italiano y español.

Hemos mejorado y ampliado nuestro modelo de IA para eliminar duplicados de todos los formatos, idiomas y guiones de WorldCat. Gracias a la recopilación de datos etiquetados procedentes de la participación de la comunidad, hemos ajustado y optimizado el algoritmo de aprendizaje automático de IA, completado extensas pruebas internas y solicitado a las bibliotecas miembro fusionadas de WorldCat que proporcionen una verificación externa del rendimiento del algoritmo. 

El 11 de febrero de 2025, realizaremos una prueba con 500 000 conjuntos de registros, centrándonos únicamente en los libros impresos en inglés de WorldCat y fusionando 500 000 registros duplicados. Los libros impresos en inglés representan la principal categoría de duplicados en WorldCat y, hasta la fecha, es el formato que se ha probado y mejorado con mayor rigurosidad en nuestras actividades de eliminación de duplicados mediante aprendizaje automático. Después de esta ejecución inicial, haremos una pausa para evaluar los resultados antes de completar más procesos de eliminación de duplicados de WorldCat, a fin de abordar los conjuntos duplicados restantes de libros impresos en inglés. Una vez completada esta categoría de materiales, se ejecutarán procesos de eliminación de duplicados para todos los materiales distintos a libros o que no estén en inglés. Proporcionaremos información actualizada a medida que iniciemos nuevas ejecuciones.  

Recomendamos que las bibliotecas que no utilicen los Servicios de Administración WorldShare habiliten las actualizaciones de WorldCat en el Administrador de colecciones de WorldShare para asegurarse de que reciban el OCN actualizado de los registros existentes que se fusionaron. Si sospecha que la fusión es incorrecta, notifíquelo enviando un correo electrónico a bibchange@oclc.org. El personal de calidad de metadatos de WorldCat puede visualizar el historial de los registros fusionados y recuperarlos, si es necesario.

La depuración de registros duplicados es una de las formas más eficaces para mejorar la calidad de WorldCat. La ampliación de WorldCat presenta desafíos derivados de la existencia de datos procedentes de diversas fuentes, prácticas de catalogación e idiomas. Amplificar los esfuerzos manuales de los profesionales en metadatos con la última tecnología de IA ha permitido reducir considerablemente el número de duplicados. Este enfoque refuerza nuestro compromiso con la calidad, ya que la IA puede ayudar a las bibliotecas a ofrecer experiencias precisas y ágiles a los usuarios.

Agradecemos a los miembros de nuestra comunidad que han participado hasta el momento en este esfuerzo: su colaboración ayuda a promover la profesión y la misión de los bibliotecarios de todo el mundo al ayudarnos a perfeccionar y ampliar la resolución automatizada de registros duplicados en WorldCat, lo que permite ahorrar incontables horas de tiempo y mejorar la experiencia de toda la comunidad bibliotecaria.