Autores: Martínez Méndez, Francisco Javier; Martínez Méndez, Laura; Rodríguez Muñoz, J.Vicente.
Resumen:
Los Modelos de Datos, grupo de herramientas conceptuales, utilizadas para representar a nivel abstracto un sistema de información reflejando en él tanto a las entidades del mismo como a las relaciones que se establecen entre ellas, resultan una interesante aportación dentro del campo del diseño lógico-conceptual de un lenguaje documental de estructura combinatoria o Tesauro. Elegimos el Modelo Relacional como el más apropiado para el diseño de un Tesauro, e introducimos el concepto de Base de Datos Deductiva. Este tipo de Base de Datos es aquella de la que se puede derivar nueva información partiendo de la que está almacenada explícitamente. Por medio de la aplicación de una serie de reglas de inferencia, presentamos la posibilidad de extraer información diferente de la que se representa en forma de relaciones entre tuplas o entidades, además introducimos el conjunto de restricciones semánticas que un Tesauro debe de cumplir y modificamos el concepto estático propio del diseño relacional a un concepto de diseño dinámico orientado a las posibles actualizaciones del Tesauro verificando su integridad en todo instante.
Palabras clave:
Tesauro, Bases de Datos Deductivas, Inferencia lógica, Modelo
Entidad-Relación, Modelo Relacional, Entidad, Relación.
En anteriores trabajos, hemos aportado la idea de la introducción de un Modelo de Datos, el Modelo Entidad Relación en particular, como marco de referencia para la implementación de un Lenguaje Documental de Estructura Combinatoria, concretamente nos referimos a un Tesauro. El concepto de Modelo de Datos se refiere al grupo de herramientas conceptuales utilizadas para la descripción de la realidad de un sistema de información. Este grupo se compone de los datos, sus relaciones, su semántica y sus relaciones; instrumentos que utilizamos para el diseño de una Base de Datos a nivel lógico, dentro de la Arquitectura de Tres Niveles aceptada por la Norma ANSI/SPARC.
Uno de los Modelos de Datos de mayor aceptación y posteriores
desarrollos es el Modelo Entidad Relación, introducido por Chen
a mediados de los años 70. Este modelo se basa en dos elementos
fundamentales:
A la hora de la implementación y puesta al marcha de nuestro
sistema, tomando como base el Modelo E-R anterior, utilizamos como herramienta
el Modelo Relacional. La nueva vista de la realidad que proporciona este
modelo, es el marco apropiado para la aplicación de una serie de
reglas de inferencia lógica sobre los datos contenidos en el mismo.
Así, generamos una Base de Datos Deductiva, que ofrece información
adicional a la ya ofrecida explícitamente
.
![]()
2. El Modelo Entidad Relación. (Modelo E-R)
Tal como se ha destacado anteriormente, los dos elementos fundamentales de este Modelo de Datos, se encuentran inmersos en su propio nombre: la Entidad o Conjunto de Entidades y la Relación o Conjunto de Relaciones.
Una entidad se distingue de otra por medio de sus atributos, o características de la misma. Por propia definición, no pueden existir dos entidades iguales. El contenido o valor de los atributos se encuentra limitado por un determinado Rango.
Una entidad se puede agrupar con otras del mismo tipo (es decir, que posean los mismos atributos, pero, evidentemente, con contenido diferente). Es decir, una entidad Persona, puede pertenecer al conjunto de entidades Ciudadanos. Una entidad puede pertenecer a varios conjuntos de entidades, o sea, la misma entidad Persona puede pertenecer al conjunto de entidades Clientes de una determinada empresa.
Al conjunto de atributos que sirve para identificar una entidad de otra, se le conoce como Superclave, y a la superclave mínima (es decir, al mínimo conjunto de atributos válido para efectuar la distinción entre dos entidades), se le denomina Clave Primaria. La Clave Primaria de una entidad, es también la clave primaria del conjunto de entidades del mismo tipo.
Cuando una entidad precise por razones de existencia, de la existencia previa de otra entidad de distinto tipo (es el típico caso de un apunte en una cuenta corriente: no puede existir el apunte si no existe la cuenta), podemos decir que la primera entidad es una entidad dependiente por existencia de la segunda. En este caso, la entidad dependiente se considera que es de naturaleza débil, frente a la otra que se considera de naturaleza fuerte.
Una entidad débil, carece de clave primaria, por lo que para distinguirla de otra se hace necesario recurrir a la entidad fuerte de la cual depende.
Un Modelo de Datos E-R puede trasladarse a un Modelo de Datos Relacional, donde la visión del sistema de información se realiza por medio de tablas (Relaciones). Para ello, se siguen una serie de reglas apropiadas al caso, que explicaremos en el apartado 7.
![]()
La visión relacional de un determinado sistema de información se corresponde al almacenamiento en forma de tablas (o relaciones), de las distintas tuplas (filas de la relación), que se corresponden a las entidades del modelo E-R. En cada columna de la tabla se depositan los valores de los distintos atributos de las tuplas.
El Modelo Relacional, es con mucho, el más en auge en la actualidad. El aumento considerable de los sistemas gestores de bases de datos relacionales hoy en día, no hace más que afirmar su gran valía como modelo de datos.
Las tuplas se distinguen unas de otras por medio de su Clave Primaria, de igual definición que en el Modelo de Datos E-R. Toda tupla tiene clave primaria, por lo tanto, toda tupla es distinguible. Si en una relación aparece un atributo que es clave primaria en otra relación, se le denomina Clave Ajena.
Es muy importante en este modelo todo lo referente a la integridad y
consistencia del mismo. Por ello, se han introducido como norma general
dos reglas de integridades o propiedades de tipo semántico que la
base de datos debe cumplir:
![]()
Una base de datos deductiva es una base de datos en la que podemos derivar información a partir de la que se encuentra almacenada explícitamente. Como elementos constitutivos de una Base de Datos Deductiva nos encontramos con los Hechos, Reglas de Inferencia y las Restricciones de Integridad.
Los hechos representan la información que se almacena explícitamente; en el diseño e implementación de las reglas de inferencia se toma como base la lógica de primer orden y las restricciones de integridad son de la misma tipología que en el modelo anterior.
La actuación de un conjunto de rutinas lógicas sobre los
hechos llega a producir como resultado una información inferida
que en un principio no aparece de forma explícita. Es ésta
una característica muy a tener en cuenta, ya que así podemos
deducir una serie de relaciones existentes entre los términos descriptores
que almacenamos en un tesauro soportado por una base de datos relacional
pero que no aparecen reflejadas en una primera instancia. Sirva como ejemplo
el caso de la siguiente relación, en la que se recogen los datos
relativos al parentesco PADRE-HIJO. Hay que destacar que en la misma, no
aparece información relativa a la ascendencia en un grado superior
(como puede ser el caso del abuelo). A esta relación la denominaremos
PADRE.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Sobre los datos recogidos en la relación anterior, podemos definir las siguientes reglas deductivas:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
![]()
5. El Modelo de Datos E-R Microtes.
A continuación presentamos nuestro Modelo de Datos Microtes, diseñado y adaptado a un Tesauro. Un Modelo de Datos, tal como se ha dicho anteriormente representa una realidad, en este caso el sistema de información es un Tesauro, cuya estructura la detallamos de manera concisa a continuación:
Podemos tomar como definición de Tesauro, la proporcionada por Bosko y Bernier: "un Tesauro es una LISTA organizada de términos de un vocabulario especializado elaborada para facilitar la selección de sinónimos y de palabras que sean afines de otra manera".
Aitchison y Gilchrist consideran a los términos de la lista como Términos Indizantes, tomando como base de definición de los mismos la proporcionada por la Norma ISO-2788: "un término indizante (index term), es la representación de un concepto". Puede consistir de más de una palabra, y entonces, se conoce como término compuesto. En un lenguaje controlado un Término Indizante puede ser bien un Término Preferente o bien, un Término No Preferente.
Un Término Preferente es aquél que es utilizado consistentemente en la indexación para representar un concepto dado. Es conocido también como "Descriptor" o "palabra clave" (keyword).
Un término no preferente es el Sinónimo o Cuasi-sinónimo
de un término preferente. No es utilizado en la indexación,
pero provee de una entrada alternativa desde la que el usuario puede acceder
directamente por medio de la instrucción USE al término preferente
apropiado. Este tipo de término es también conocido como
no descriptor.
Para la clarificación de los Términos Descriptores se
hace necesaria, a veces, la utilización de las Notas Explicativas.
Por ejemplo:
Bibliografías nacionales SN Bibliografías de las obras producidas en un país en cualquier lengua que sea y/o en la lengua propia del país.
De esta breve descripción de los elementos constituyentes de un Tesauro, destacamos a continuación tres conjuntos de entidades:
Entre los Términos Descriptores y los No Descriptores se establecen relaciones de equivalencia, que denotaremos con el símbolo USE. Esta relación admite el re-envío o relación en sentido inverso (también conocido normalmente como relación UF). En el Modelo E-R podemos especificar los re-envíos utilizando el concepto de rol (papel que desempeñan las entidades en una relación, según el sentido de la misma). USE asocia un Término Descriptor con uno de sus términos equivalentes.
Entre el conjunto de Términos descriptores y el de las Notas Explicativas se establece la relación SN, que asocia a un Término descriptor una Nota Explicativa. Los atributos correspondientes a estos conjuntos de entidades:
Entidades:
![]()
6. Diseño relacional de Microtes.
Aplicando una serie de normas de frecuente utilización en el entorno relacional de datos, podemos diseñar un Modelo Relacional a partir de un Modelo E-R. Según estas reglas, los conjuntos de entidades se representarán en forma de tablas. Las entidades ocuparán las filas (tuplas), de las tablas y éstas tendrán tantas columnas como atributos tenga la entidad. En el caso de una entidad de naturaleza débil, se incluyen las columnas necesarias para representar los atributos de la clave primaria de la entidad fuerte.
Las relaciones también se representan en forma de tablas. En este caso, las columnas se corresponderán con los atributos de las claves primarias de los conjuntos asociados por medio de la relación.
Del modelo de datos anterior, obtenemos el siguiente sistema relacional:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
A continuación se representará la tabla correspondiente a la relación NT, cuya estructura, aunque, evidentemente, no su contenido; coincide con las tablas de las relaciones BT y RT.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
![]()
7. Aplicación de reglas de inferencia
sobre el Modelo Relacional Microtes.
Ha llegado el momento de plantearnos diversos objetivos para definir
las Reglas Deductivas que bien pueden estar orientadas a complementar la
información explícita en el M.R o bien, pueden utilizarse
para asegurar el mantenimiento de la integridad del sistema de información.
A continuación vamos a plantear dos ejemplos de cada uno de estos
tipos de aplicación sobre Microtes:
i) En algunos tesauros se utiliza la relación Top Term (generalmente representada por TT); un término X es Top Term de otro término Y si existe un determinado término Z tal que X NT Z y Z NT Y. Podemos definirla de la siguiente manera:
De igual forma que en el ejemplo anterior de los ascendientes y descendientes, podemos generar una serie de reglas con el objetivo de deducir todo el conjunto de relaciones NT que no aparezcan explícitamente en la tabla NT.
También podemos considerar el caso de la relación asociativa o de afinidad RT, de manera que si un término X cumple la relación RT con otro término Y, cualquier término Z que también cumpla dicha relación con Y también la debe cumplir con Z. En caso de que no se haya considerado algún caso particular de esta relación, aplicando las siguientes reglas deductivas podemos completar la información del sistema.
De la aplicación de los dos primeros conjuntos de reglas de inferencia lógica, obtenemos como resultado las siguientes tablas:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ii) Otra posibilidad de diseño que nos proporcionan las
bases de datos deductivas es la de definir restricciones. Aquí podemos
orientarlas hacia la preservación del mantenimiento de la integridad
del sistema. Por ejemplo, una restricción a considerar es aquella
que hace referencia a que si un término X es NT de un término
Y, no pueda darse de alta en el sistema una tupla del tipo Y NT X o Y NT
X. Esta restricción la podemos representar del siguiente modo:
![]()
De los ejemplos anteriores deducimos que una vez se haya unificado el soporte relacional de un tesauro, de acuerdo a las necesidades de cada compilador de los mismos, podemos centrar nuestros trabajos en el desarrollo de reglas de inferencia adicionales y suplementarias a las indicadas anteriormente con el objetivo de implementar una base de conocimiento.
![]()
AITCHISON, J; GILCHRIST, A.Thesaurus Construction. A practical manual.
Londres, Aslib, 1987.
AMAT NOGUERA, N. Documentación Científica y Nuevas
Tecnologías de la Información. Madrid, Pirámide,
1988.
BORKO, H; BERNIER, C. Indexing Concepts and Methods.
Nueva York: Academic Press, 1978.
CHEN, P.P.S. "The Entity-Relationship Model-Towards a Unified View
of Data". Nueva York. ACM. Trans. on Database Systems 1. Vol 1.
No 1. Marzo 1976. pp 9-36.
DATE C.J.Introducción a los sistemas de bases de datos.México,
Adison Wesley Iberoamericana, 1986.
MINKER, J. Foundations of Deductive Databases and Logic Programming.
Los Altos, California. Morgan Kaufmann Publishers, Inc.
RODRIGUEZ MUÑOZ, J.V.; MARTINEZ MENDEZ F.J.; DIAZ ORTUÑO,
P.M. "Los Modelos de Datos como alternativa en la construcción de
Tesauros".En: Actas de las III Jornadas Nacionales de Documentación
Automatizada (DOCUMAT-90), Mallorca, 1990.
VAN SLYPE, G. Les langages d'indexation : conception, construction
et utilisation dans les systemes documentaires. París, Les Editions
d'Organisation, 1987.