Ir arriba

Atrás

Investigan en la UMU cómo manejar la “epidemia de palabras” cuando todas las noticias hablan del coronavirus

El reciente estudio de profesores de la Facultad de Comunicación y Documentación de la Universidad de Murcia (UMU), publicado en la revista El profesional de la información, propone un método para la construcción semiautomática de un vocabulario estructurado sobre la pandemia Covid-19, aplicable para la organización de información de actualidad en los medios de comunicación. Este explota las dinámicas de creación colaborativa de contenidos y datos en Wikidata y Wikipedia, usándolas como fuentes de información terminológica para captar en tiempo real el discurso sobre la realidad social.

Palabras COVID

La investigación analiza qué sucede cuando todas las noticias hablan del coronavirus y, por tanto, los términos más comunes dejan de ser de utilidad para buscar información. La metodología de construcción sobre la marcha un vocabulario controlado sobre un tema especializado y emergente, es de aplicación a los sucesivos eventos de alto impacto en las noticias de actualidad, y cuyas dinámicas terminológicas son un campo de estudio de indudable interés en el marco de la “economía de la atención”: revueltas sociales, catástrofes naturales, accidentes, atentados, etc.

El método se aplica a la construcción de un vocabulario sobre la pandemia de Covid-19, con un enfoque “low-cost” en recursos y complejidades de computación, lo que permite su uso por cualquier organización implicada en la difusión y organización de información de interés social.

Para ello se explora el uso de una fuente abierta que refleja una “inteligencia colectiva”, a través del contenido elaborado por muchos editores diversos sobre artículos de Wikipedia, combinándolo con los datos estructurados sobre cada elemento, que también son editados colaborativamente en Wikidata. El conjunto Wikipedia-Wikidata es una fuente terminológica libre conectada casi en directo con la realidad social, y que tiene una altísima presencia en investigaciones y aplicaciones de un espectro muy abierto de disciplinas científicas.

Mediante un proceso de definición de reglas de expansión de relaciones de Wikidata y enlaces en Wikipedia, se ha diseñado un algoritmo en el que se parte de un conjunto muy reducido de ítems iniciales como semilla, y en sucesivas iteraciones y revisión de resultados se recopilan las declaraciones relevantes a la temática del vocabulario”, explica Juan Antonio Pastor, director del Departamento de Información y Documentación de la UMU.

 

Vocabularios en ebullición

El algoritmo se ha implementado en una aplicación cuyo código y resultados de recopilación del vocabulario sobre la pandemia de Covid-19 se ha publicado en un repositorio abierto. Esto permite utilizar el algoritmo tanto para verificar los resultados usando las mismas u otras reglas de expansión como para su aplicación a la recopilación de vocabularios de otras temáticas. En los resultados también se analizan los elementos recopilados en cada iteración, la propuesta de validación mediante los enlaces entrantes y salientes de los artículos, dejando como futuros trabajos la aplicación del modelo normalizado de representación de vocabularios y esquemas de conceptos en la web (SKOS) para la representación interoperable y multilingüe de los vocabularios obtenidos mediante este método.

 

Las prácticas y modelos de la indización aplicada en contextos muy dinámicos en la producción de contenidos diversos, como es caso de los medios de comunicación, están sometidas en la actualidad a importantes transformaciones. “El modelo planteado en este trabajo ofrece una vía complementaria de explorar la ampliación y enriquecimiento de la terminología usada para organizar los contenidos digitales, y para la actualización continua de los vocabularios controlados construidos para su etiquetado tanto para la gestión del archivo interno como para la publicación web”, añade Tomás Saorín, profesor de la Facultad de Información y Documentación de la UMU.

 

Contenidos inteligentes

En el caso de la publicación web, cada vez es más crítico cómo entienden los buscadores y agentes inteligentes el contenido. Por ello, el marcado semántico con conceptos y términos relevantes colabora en la mejora del posicionamiento y experiencia de descubrimiento de contenidos.

El mapa o red de conceptos derivado a partir del trabajo colaborativo de los editores de Wikipedia y Wikidata, e implementado de forma accesible abre un abanico de posibilidades para un campo de especialización demandado en muchos contextos de la economía digital, el “taxonomy manager” responsable del control de vocabularios para la organización de contenidos. No obstante, el enfoque propuesto no es el de la indización automatizada del propio contenido, sino el del enriquecimiento de los instrumentos para la organización del conocimiento: glosarios, redes de conceptos relacionados, clasificaciones temáticas, ontologías. La investigadora María José Baños, nos recuerda el principio de que “la efectividad de un sistema de acceso a la información es una función directa de la inteligencia puesta en organizarlo”, y capturar a tiempo un vocabulario especializado, dinámico y voluble, mejora la capacidad de ofrecer “contenidos inteligentes”.

Más información

Los investigadores participantes son Tomás Saorín (UMU), Juan Antonio Pastor Sánchez (UMU) y María José Baños Moreno (UMU).

Artículo completo disponible en:  https://doi.org/10.3145/epi.2020.sep.09


 

Logotipo Unidad Cultura Científica

UNIDAD DE CULTURA CIENTÍFICA UNIVERSIDAD DE MURCIA
Campus de Espinardo
Ed. Servicios Integrados de la Universidad de Murcia (ESIUM)
Facultad de Medicina 3ª planta
30100 - Murcia
Teléfono +34 868 88 8027 / 8636
Mail: ucc@um.es