DISEÑO LÓGICO-CONCEPTUAL DE TESAUROS.

Texto completo de la comunicación del mismo título presentada a las IV Jornadas Catalanas, 22-23 de enero de 1992.

Autores: Martínez Méndez, Francisco Javier; Martínez Méndez, Laura; Rodríguez Muñoz, J.Vicente.

Resumen:

Los Modelos de Datos, grupo de herramientas conceptuales, utilizadas para representar a nivel abstracto un sistema de información reflejando en él tanto a las entidades del mismo como a las relaciones que se establecen entre ellas, resultan una interesante aportación dentro del campo del diseño lógico-conceptual de un lenguaje documental de estructura combinatoria o Tesauro. Elegimos el Modelo Relacional como el más apropiado para el diseño de un Tesauro, e introducimos el concepto de Base de Datos Deductiva. Este tipo de Base de Datos es aquella de la que se puede derivar nueva información partiendo de la que está almacenada explícitamente. Por medio de la aplicación de una serie de reglas de inferencia, presentamos la posibilidad de extraer información diferente de la que se representa en forma de relaciones entre tuplas o entidades, además introducimos el conjunto de restricciones semánticas que un Tesauro debe de cumplir y modificamos el concepto estático propio del diseño relacional a un concepto de diseño dinámico orientado a las posibles actualizaciones del Tesauro verificando su integridad en todo instante.

Palabras clave:

Tesauro, Bases de Datos Deductivas, Inferencia lógica, Modelo Entidad-Relación, Modelo Relacional, Entidad, Relación.
 
 

1. Introducción 2. El Modelo E-R. 3. El Modelo Relacional
4. Bases de datos deductivas.  5. El Modelo de Datos E-R Microtes.   6. Diseño relacional de Microtes..
7. Aplicación de reglas de inferencia sobre el Modelo Relacional Microtes 8. Conclusiones. 9. Referencias bibliográficas.
 

1. Introducción.

En anteriores trabajos, hemos aportado la idea de la introducción de un Modelo de Datos, el Modelo Entidad Relación en particular, como marco de referencia para la implementación de un Lenguaje Documental de Estructura Combinatoria, concretamente nos referimos a un Tesauro. El concepto de Modelo de Datos se refiere al grupo de herramientas conceptuales utilizadas para la descripción de la realidad de un sistema de información. Este grupo se compone de los datos, sus relaciones, su semántica y sus relaciones; instrumentos que utilizamos para el diseño de una Base de Datos a nivel lógico, dentro de la Arquitectura de Tres Niveles aceptada por la Norma ANSI/SPARC.

Uno de los Modelos de Datos de mayor aceptación y posteriores desarrollos es el Modelo Entidad Relación, introducido por Chen a mediados de los años 70. Este modelo se basa en dos elementos fundamentales:
 
 a) Las Entidades o conjunto de objetos individuales que se distinguen unos de otros por medio de sus atributos y ..

 b) Las Relaciones o asociaciones que se establecen entre las entidades.

Podemos destacar que existe una cierta similitud estructural entre un Tesauro y un Modelo E-R. En un Tesauro, los términos descriptores son distinguibles y además, se establecen entre ellos una serie de relaciones de naturaleza semántica. Por ello, el Modelo de Datos E-R parece muy adecuado para el diseño de un Tesauro, debido a la gran facilidad que nos aporta para la representación de los conjuntos de entidades que participan en un Tesauro y de las distintas relaciones propias de sus términos.

A la hora de la implementación y puesta al marcha de nuestro sistema, tomando como base el Modelo E-R anterior, utilizamos como herramienta el Modelo Relacional. La nueva vista de la realidad que proporciona este modelo, es el marco apropiado para la aplicación de una serie de reglas de inferencia lógica sobre los datos contenidos en el mismo. Así, generamos una Base de Datos Deductiva, que ofrece información adicional a la ya ofrecida explícitamente

2. El Modelo Entidad Relación. (Modelo E-R)

Tal como se ha destacado anteriormente, los dos elementos fundamentales de este Modelo de Datos, se encuentran inmersos en su propio nombre: la Entidad o Conjunto de Entidades y la Relación o Conjunto de Relaciones.

Una entidad se distingue de otra por medio de sus atributos, o características de la misma. Por propia definición, no pueden existir dos entidades iguales. El contenido o valor de los atributos se encuentra limitado por un determinado Rango.

Una entidad se puede agrupar con otras del mismo tipo (es decir, que posean los mismos atributos, pero, evidentemente, con contenido diferente). Es decir, una entidad Persona, puede pertenecer al conjunto de entidades Ciudadanos. Una entidad puede pertenecer a varios conjuntos de entidades, o sea, la misma entidad Persona puede pertenecer al conjunto de entidades Clientes de una determinada empresa.

Al conjunto de atributos que sirve para identificar una entidad de otra, se le conoce como Superclave, y a la superclave mínima (es decir, al mínimo conjunto de atributos válido para efectuar la distinción entre dos entidades), se le denomina Clave Primaria. La Clave Primaria de una entidad, es también la clave primaria del conjunto de entidades del mismo tipo.

Cuando una entidad precise por razones de existencia, de la existencia previa de otra entidad de distinto tipo (es el típico caso de un apunte en una cuenta corriente: no puede existir el apunte si no existe la cuenta), podemos decir que la primera entidad es una entidad dependiente por existencia de la segunda. En este caso, la entidad dependiente se considera que es de naturaleza débil, frente a la otra que se considera de naturaleza fuerte.

Una entidad débil, carece de clave primaria, por lo que para distinguirla de otra se hace necesario recurrir a la entidad fuerte de la cual depende.

Un Modelo de Datos E-R puede trasladarse a un Modelo de Datos Relacional, donde la visión del sistema de información se realiza por medio de tablas (Relaciones). Para ello, se siguen una serie de reglas apropiadas al caso, que explicaremos en el apartado 7.

3. Modelo Relacional.

La visión relacional de un determinado sistema de información se corresponde al almacenamiento en forma de tablas (o relaciones), de las distintas tuplas (filas de la relación), que se corresponden a las entidades del modelo E-R. En cada columna de la tabla se depositan los valores de los distintos atributos de las tuplas.

El Modelo Relacional, es con mucho, el más en auge en la actualidad. El aumento considerable de los sistemas gestores de bases de datos relacionales hoy en día, no hace más que afirmar su gran valía como modelo de datos.

Las tuplas se distinguen unas de otras por medio de su Clave Primaria, de igual definición que en el Modelo de Datos E-R. Toda tupla tiene clave primaria, por lo tanto, toda tupla es distinguible. Si en una relación aparece un atributo que es clave primaria en otra relación, se le denomina Clave Ajena.

Es muy importante en este modelo todo lo referente a la integridad y consistencia del mismo. Por ello, se han introducido como norma general dos reglas de integridades o propiedades de tipo semántico que la base de datos debe cumplir:
 
1. Integridad de Entidad: ningún valor de una clave primaria puede ser nulo.

2. Integridad de Referencia: todo valor de una clave ajena debe ser distinto de nulo y además pertenecer al conjunto de valores de la relación donde dicha clave sea primaria.

Estas dos reglas de integridad se ven complementadas por una serie de restricciones de integridad, que en cada modelo persiguen el objetivo de salvaguardar la consistencia y verificabilidad de los datos. Por ejemplo, no podremos hacerle una nota de préstamo de un libro a un estudiante, si éste no aparece en el listado de los alumnos del centro.

4. Bases de Datos Deductivas.

Una base de datos deductiva es una base de datos en la que podemos derivar información a partir de la que se encuentra almacenada explícitamente. Como elementos constitutivos de una Base de Datos Deductiva nos encontramos con los Hechos, Reglas de Inferencia y las Restricciones de Integridad.

Los hechos representan la información que se almacena explícitamente; en el diseño e implementación de las reglas de inferencia se toma como base la lógica de primer orden y las restricciones de integridad son de la misma tipología que en el modelo anterior.

La actuación de un conjunto de rutinas lógicas sobre los hechos llega a producir como resultado  una información inferida que en un principio no aparece de forma explícita. Es ésta una característica muy a tener en cuenta, ya que así podemos deducir una serie de relaciones existentes entre los términos descriptores que almacenamos en un tesauro soportado por una base de datos relacional pero que no aparecen reflejadas en una primera instancia. Sirva como ejemplo el caso de la siguiente relación, en la que se recogen los datos relativos al parentesco PADRE-HIJO. Hay que destacar que en la misma, no aparece información relativa a la ascendencia en un grado superior (como puede ser el caso del abuelo). A esta relación la denominaremos PADRE.
 

PADRE
HIJO
Antonio
Juan
J.María
Dolores
Juan 
Pedro
Pedro 
Jesús
 

Sobre los datos recogidos en la relación anterior, podemos definir las siguientes reglas deductivas:

 i)Ascendiente(x,y) <-- Padre(x,y)
 ii)Ascendiente(x,y) <-- Padre(x,z) ^ Ascendiente(z,y)
 
Y por medio de las mismas, queda definida la figura del Ascendiente, de la siguiente manera:
i) todo padre es Ascendiente
ii) una persona X es un Ascendiente de una persona Y si existe un Z tal que X sea padre de Z y Z sea a su vez un  Ascendiente de Y.
 
Aplicando las reglas de inferencia lógica i) y ii), obtendremos otra serie de hechos más amplia, que recogemos en la siguiente relación que vamos a denominar ASCENDIENTE.
 
ASCENDIENTE
DESCENDIENTE
Antonio
Juan
J.María
Dolores
Juan 
Pedro
Pedro 
Jesús
Antonio
Pedro
Antonio
Jesús
Juan 
Jesús
 
 

5. El Modelo de Datos E-R Microtes.

A continuación presentamos nuestro Modelo de Datos Microtes, diseñado y adaptado a un Tesauro. Un Modelo de Datos, tal como se ha dicho anteriormente representa una realidad, en este caso el sistema de información es un Tesauro, cuya estructura la detallamos de manera concisa a continuación:

Podemos tomar como definición de Tesauro, la proporcionada por Bosko y Bernier: "un Tesauro es una LISTA organizada de términos de un vocabulario especializado elaborada para facilitar la selección de sinónimos y de palabras que sean afines de otra manera".

Aitchison y Gilchrist consideran a los términos de la lista como Términos Indizantes, tomando como base de definición de los mismos la proporcionada por la Norma ISO-2788: "un término indizante (index term), es la representación de un concepto". Puede consistir de más de una palabra, y entonces, se conoce como término compuesto. En un lenguaje controlado un Término Indizante puede ser bien un Término Preferente o bien, un Término No Preferente.

Un Término Preferente es aquél que es utilizado consistentemente en la indexación para representar un concepto dado. Es conocido también como "Descriptor" o "palabra clave" (keyword).

Un término no preferente es el Sinónimo o Cuasi-sinónimo de un término preferente. No es utilizado en la indexación, pero provee de una entrada alternativa desde la que el usuario puede acceder directamente por medio de la instrucción USE al término preferente apropiado. Este tipo de término es también conocido como no descriptor.
 
Para la clarificación de los Términos Descriptores se hace necesaria, a veces, la utilización de las Notas Explicativas. Por ejemplo:

 Bibliografías nacionales SN  Bibliografías de las obras producidas en un país en cualquier lengua que sea y/o en la lengua propia del país.

De esta breve descripción de los elementos constituyentes de un Tesauro, destacamos a continuación tres conjuntos de entidades:  a) Términos Descriptores.
 b) Términos No Descriptores.
 c) Notas Explicativas.
Los conjuntos de entidades a) y b) representan a todos los términos Indizantes, que juntos conforman un subconjunto estructurado del lenguaje natural. El conjunto de las Notas Explicativas es de naturaleza débil, pues una Nota depende por existencia del un Término descriptor.

Entre los Términos Descriptores y los No Descriptores se establecen relaciones de equivalencia, que denotaremos con el símbolo USE. Esta relación admite el re-envío o relación en sentido inverso (también conocido normalmente como relación UF). En el Modelo E-R podemos especificar los re-envíos utilizando el concepto de rol (papel que desempeñan las entidades en una relación, según el sentido de la misma). USE asocia un Término Descriptor con uno de sus términos equivalentes.

 Entre el conjunto de Términos descriptores y el de las Notas Explicativas se establece la relación SN, que asocia a un Término descriptor una Nota Explicativa. Los atributos correspondientes a estos conjuntos de entidades:  a) Descriptores: Signatura, Término.
 b) No Descriptores: Definición (el término en sí)
 c) Notas Explicativas: Explicación (la nota explicativa)
Sobre el conjunto de Términos descriptores se establecen una serie de relaciones de naturaleza jerárquica y asociativa. Las mismas se representan en el modelo E-R con la única particularidad de que coinciden los conjuntos de entidades asociados; ya que los términos descriptores pertenecen a un mismo conjunto. Pasemos a continuación a detallar las relaciones que encontramos sobre este conjunto. NT: o relación jerárquica término amplio. El primero de los términos se considera de un significado más específico y superior que el segundo. Ejemplo: Derecho NT Derecho Civil.

BT: es la relación inversa de la anterior. En este caso, el primero de los términos tiene un significado más amplio que el segundo de los términos. Ejemplo: Bioquímica BT Química.

RT: es la relación asociativa o de afinidad. Son todas las relaciones que no pueden definirse por equivalencia o por jerarquía. Ejemplo: Enseñanza RT Educación.

De esta manera, queda definido nuestro Modelo Microtes. A continuación, pasamos a identificar las claves primarias de los conjuntos de entidades y de las relaciones. que participan en el Modelo de Datos Microtes.

    Entidades:  Descriptores (Signatura, Término)                CP: {Signatura}
 No Descriptores (Definición)                        CP: {Definición}
 Notas Explicativas (Explicación)                    CP: {Signatura, Explicación}
    Relaciones.
 
USE   CP: {Signatura, Definición}
SN  CP: {Signatura, Explicación}
NT  CP: {Signatura TE, Signatura TA}
BT   CP: {Signatura TA, Signatura TE}
RT  CP: {Signatura, Signatura Tafin}
            donde TE: término específico; TA: término amplio; Tafin: término afín

6. Diseño relacional de Microtes.

Aplicando una serie de normas de frecuente utilización en el entorno relacional de datos, podemos diseñar un Modelo Relacional a partir de un Modelo E-R. Según estas reglas, los conjuntos de entidades se representarán en forma de tablas. Las entidades ocuparán las filas (tuplas), de las tablas y éstas tendrán tantas columnas como atributos tenga la entidad. En el caso de una entidad de naturaleza débil, se incluyen las columnas necesarias para representar los atributos de la clave primaria de la entidad fuerte.

Las relaciones también se representan en forma de tablas. En este caso, las columnas se corresponderán con los atributos de las claves primarias de los conjuntos asociados por medio de la relación.

Del modelo de datos anterior, obtenemos el siguiente sistema relacional:

 
TABLA DESCRIPTORES
 
SIGNATURA
TÉRMINO
F04/49
BIOLOGÍA
G09.10
BIOLOGÍA AGRÍCOLA
F12
BIOLOGÍA CELULAR
D96
BIOLOGÍA MARINA
G64.80.10
RADIOISÓTOPO
 
TABLA NO DESCRIPTORES
 
DEFINICIÓN
BIOLOGÍA AMBIENTAL
BIOLOGÍA ANIMAL
BIOLOGÍA AGUA DULCE
BIOLOGÍA VEGETAL
 
TABLA NOTAS EXPLICATIVAS
 
SIGNATURA
EXPLICACIÓN
Z18.30
Estudio y ... 
Z34.30.30
Biblioteca
 
TABLA USE
 
SIGNATURA
DEFINICIÓN
F12
CITOLOGÍA ... 
F12
CITOQUÍMICA
G64.80.10
RADIOELEMENTOS
 

A continuación se representará la tabla correspondiente a la relación NT, cuya estructura, aunque, evidentemente, no su contenido; coincide con las tablas de las relaciones BT y RT.

TABLA NT
 
SIGNATURA TA
SIGNATURA TB
F04/49
G09.10. 
F04/49
F05.10
C30/69
F25
F04/49
F25
F52
F52.25
F04/49
F12
 
 

7. Aplicación de reglas de inferencia sobre el Modelo Relacional Microtes.
 
Ha llegado el momento de plantearnos diversos objetivos para definir las Reglas Deductivas que bien pueden estar orientadas a complementar la información explícita en el M.R o bien, pueden utilizarse para asegurar el mantenimiento de la integridad del sistema de información. A continuación vamos a plantear dos ejemplos de cada uno de estos tipos de aplicación sobre Microtes:

i) En algunos tesauros se utiliza la relación Top Term (generalmente representada por TT); un término X es Top Term de otro término Y si existe un determinado término Z tal que X NT Z y Z NT Y. Podemos definirla de la siguiente manera:

TT(x,y) <-- NT(x,z) ^ NT (z,y)

De igual forma que en el ejemplo anterior de los ascendientes y descendientes, podemos generar una serie de  reglas con el objetivo de deducir todo el conjunto de relaciones NT que no aparezcan explícitamente en la tabla NT.

 NT(x,y) <-- NT(x,y)
 NT(x,y) <-- NT(x,z) ^ NT(z,y)

También podemos considerar el caso de la relación asociativa o de afinidad RT, de manera que si un término X cumple la relación RT con otro término Y, cualquier término Z que también cumpla dicha relación con Y también la debe cumplir con Z. En caso de que no se haya considerado algún caso particular de esta relación, aplicando las siguientes reglas deductivas podemos completar la información del sistema.

RT(x,z) <-- RT(x,y) ^ RT(y,z)
T(y,z) <-- RT(x,z) ^ RT(x,y)

 De la aplicación de los dos primeros conjuntos de reglas de inferencia lógica, obtenemos como resultado las siguientes tablas:

 TABLA TOP TERM (TT)
 
SIGNATURA TT
SIGNATURA TB
C30/69
G09.30
C30/69
C28.35
C30/69
F25
C30/69
F52.25
Z
Z.08
Z
Z.08.10
Z
Z.08.20
 
TABLA NARROWER TERM (NT)
 
SIGNATURA TA
SIGNATURA Tn
Z
Z.08
Z.08
Z.08.10
Z.08
Z08.30
Z
Z08.10
C30/69
C50/53
C50/53
C42/46
C30/69
C42/46
 

 ii) Otra posibilidad de diseño que nos proporcionan las bases de datos deductivas es la de definir restricciones. Aquí podemos orientarlas hacia la preservación del mantenimiento de la integridad del sistema. Por ejemplo, una restricción a considerar es aquella que hace referencia a que si un término X es NT de un término Y, no pueda darse de alta en el sistema una tupla del tipo Y NT X o Y NT X. Esta restricción la podemos representar del siguiente modo: 

para todo { NT(x,y) --> no NT(y,x) ^ no NT(y,x) }

8. Conclusiones.

De los ejemplos anteriores deducimos que una vez se haya unificado el soporte relacional de un tesauro, de acuerdo a las necesidades de cada compilador de los mismos, podemos centrar nuestros trabajos en el desarrollo de reglas de inferencia adicionales y suplementarias a las indicadas anteriormente con el objetivo de implementar una base de conocimiento.

9. Bibliografía.

AITCHISON, J; GILCHRIST, A.Thesaurus Construction. A practical manual. Londres, Aslib, 1987.
AMAT NOGUERA, N. Documentación Científica y Nuevas Tecnologías de la Información. Madrid, Pirámide, 1988.
BORKO, H; BERNIER, C. Indexing Concepts and Methods.
Nueva York: Academic Press, 1978.
CHEN, P.P.S. "The Entity-Relationship Model-Towards a Unified View of Data". Nueva York. ACM. Trans. on Database Systems 1. Vol 1. No 1. Marzo 1976. pp 9-36.
DATE C.J.Introducción a los sistemas de bases de datos.México, Adison Wesley Iberoamericana, 1986.
MINKER, J. Foundations of Deductive Databases and Logic Programming. Los Altos, California. Morgan Kaufmann Publishers, Inc.
RODRIGUEZ MUÑOZ, J.V.; MARTINEZ MENDEZ F.J.; DIAZ ORTUÑO, P.M. "Los Modelos de Datos como alternativa en la construcción de Tesauros".En: Actas de las III Jornadas Nacionales de Documentación Automatizada (DOCUMAT-90), Mallorca, 1990.
VAN SLYPE, G. Les langages d'indexation : conception, construction et utilisation dans les systemes documentaires. París, Les Editions d'Organisation, 1987.

Volver a inicio del documento