AnicomputerGlosario de Recuperación de Información Web

Adriana Colino Tomé
adrico@mail.com


A B C D E F G H I K L M N O P Q R S T U V W X Y



Documentos del proyecto de investigaciónAcceso a datos proyecto de investigación (I) colección con metadatosDocumentos del proyecto de investigación

Acceso a datos proyecto investigación (II) sin metadatos

Acceso Físico a la información: es el que concierne a cómo la información  demandada es recuperada y representada de forma física al usuario. Tiene que ver con la manera que un sistema de recuperación de información encuentra dicha información, o indica ciertas directrices al usuario sobre cómo localizarla, una vez que le proporciona su dirección. Ver también Acceso lógico a la información

Acceso Lógico a la información: está relacionado con la localización de la información deseada, con la relevancia del objeto localizado con una determinada petición de información. Ver también Acceso Físico a la información

Agrupamiento de documentos: véase Clustering

Álgebra de Boole: Boole definió un álgebra aplicable a los razonamientos sobre proposiciones lógicas: una proposición puede ser cierta o falsa y esto se anota con un 0 o con un 1. Shannon aplicó este álgebra al análisis de circuitos de conmutación en 1938. La corriente pasa o no pasa y esto se anota con un 0 o con un 1.Una variable lógica o booleana es una variable binaria que toma los valores que anotamos convencionalmente con los símbolos 0 y 1. Una función lógica o booleana es una función de n variables lógicas que toman valores del conjunto {0, 1}. Ver también Modelo Booleano.

Alineado de los documentos: Ordenación del conjunto de documentos constituyente de la respuesta en función de la relevancia de estos documentos con el tema de búsqueda, a partir de un algoritmo de alineamiento. El alineado constituye uno de los procesos más críticos a la hora de evaluar la efectividad de un motor de búsqueda, ya que se trata del orden en el que el motor presenta los resultados a sus usuarios, quienes esperan encontrar los documentos más relevantes a sus necesidades situados entre los primeros. En función del buen funcionamiento de su algoritmo de alineamiento el motor será mejor o pero valorado por los usuarios del mismo. Ver también PangRank, WebQuery, HITS, Linkage, Similitud

Arquitectura Cliente-Servidor: Véase Modelo Cliente-Servidor

Browser: Aplicación para visualizar todo tipo de información y navegar por el espacio Internet. En su forma más básica son aplicaciones hipertexto que facilitan la navegación por los servidores de información Internet; cuentan con funcionalidades plenamente multimedia y permiten indistintamente la navegación por servidores WWW, FTP, Gopher, el acceso a grupos de noticias, la gestión del correo electrónico, etc. Los más extendidos actualmente son Microsoft Internet Explorer y Netscape Navigator.

Búsquedas basadas en el contexto: usan los operadores de proximidad, es decir, localizan documentos donde los términos integrantes de la ecuación de búsqueda se encuentras situados en la misma frase o en el mismo campo. El caso más cercano de proximidad es la adyacencia.

Búsqueda por correspondencia de Patrones: Algunos sistemas pueden devolver los documentos por correspondencia con un patrón de caracteres introducido en la ecuación. Es el caso de los que permiten el uso de operadores de truncamiento.

Búsqueda por término simple: tiene como objeto devolver una colección de documentos donde al menos se pueda encontrar una ocurrencia de ese término, pudiéndose frecuentemente restringir esa búsqueda a un campo determinado (búsqueda por referencia cualificada).

Búsqueda por términos múltiples: Permite diversas combinaciones basadas en el Álgebra de Boole.

Cliente: Un sistema o proceso que solicita a otro sistema o proceso que le preste un servicio. Una estación de trabajo que solicita el contenido de un fichero a un servidor de ficheros es un cliente de este servidor. Ver también Modelo Cliente-Servidor.

Clustering: Agrupamiento de documentos que satisfacen una serie de propiedades comunes. El objetivo es reunir documentos relacionados entre ellos. Clustering puede ser usado para ampliar la consulta con nuevos términos índices relacionados. (BAE, 1999). En el Modelo del espacio vectorial se puede llevar a cabo la recuperación mediante la comparación del vector de la consulta con los centroides del cluster. Ver también Términos Ponderados, Similitud

Cobertura: (1) Proporción de las referencias que potencialmente pueden recuperarse.

(2) Proporción de los documentos relevantes conocidos que el usuario ha recuperado. Un valor alto de cobertura indica que el sistema ha localizado la mayoría de los documentos relevantes que el usuario esperaba encontrar

Conferencias TREC: son el foro científico más prestigioso en el campo de la recuperación de la información. Se desarrollan desde 1991. Reúnen a creadores de sistemas de diferentes sistemas y comparan los resultados en diferentes pruebas, previamente estandarizadas y acordadas.

Consulta: La expresión de la necesidad de información del usuario en un lenguaje proporcionado por el sistema de recuperación de información. Es la mayor interacción entre usuario y motor de búsqueda. Los tipos de lenguajes más comunes permiten la especificación de las palabras clave y el uso de conectores booleanos.

Contenido de la base de datos: Tipo de documentos de la base de datos, temática de los documentos...

Cookie: pequeño fichero que un sitio web envía al disco duro de la persona que lo visita, y que informa sobre lo que el usuario ha hecho en él. Aparecieron por primera vez en el navegador Netscape.

Crawler: robot que recopila páginas web para el índice de los motores de búsqueda.

Datos: Se refiere a la unidad mínima en que puede ser dividida la información. Documento, testimonio, fundamento. Información dispuesta de manera adecuada para su tratamiento por un ordenador (RAE, )Ver también Recuperación de datos, Información

Dead link: véase Enlace inactivo

Descriptor: término retenido con objeto de llevar a cabo la indización de documentos. Pueden representar conceptos o combinaciones de conceptos y entidades individuales. Ver también Tesauro

Directorio: son listados de recursos organizados en categorías temáticas. Las categorías temáticas se organizan jerárquicamente en un árbol de materias que permite su consulta descendiendo desde los temas más generales a los más específicos. Las categorías presentan un listado de enlaces a las páginas referenciadas en el buscador. Cada enlace incluye una breve descripción sobre su contenido. Los recursos de Internet que contiene el directorio son seleccionados y clasificados por humanos. Ver también Yahoo, Motor de Búsqueda

Diversidad: Medida basada en la Teoría de Información de Shanon que indica si una página o sede web es visible en muchos lugares.

DLO: (Document Like Object), Documento digital entendido como objeto.

Dublin Core Metadata Initiative: o simplemente Dublin Core es una iniciativa internacional dirigida a definir un conjunto básico de elementos para la recuperación de información en Internet. También es el conjunto propiamente de los quince elementos de datos que pueden usarse para describir los objetos de información de Internet, con el objetivo último de la recuperación web. Ver también Metadatos.

Ecuación de búsqueda: Expresión formal, en términos de un lenguaje de recuperación de información, de una necesidad de información determinada. Ver también Consulta

Efectividad de la recuperación: medida sobre la precisión y la plenitud con las que los usuarios alcanzan los objetivos especificados. Se encuentra normalmente basada en la relevancia de los documentos recuperados, empleándose para representarla de forma general, la precisión, la exhaustividad y la tasa de fallo. A esta idea se asocian también la facilidad de aprendizaje (en la medida en que este sea lo más amplio y profundo posible), la tasa de errores del sistema y la facilidad del sistema para ser recordado (que no se olviden las funcionalidades ni sus procedimientos).  

Eficacia en la Ejecución: es la medida del tiempo que toma un SRI para realizar una operación. Este parámetro ha sido siempre la preocupación principal en un SRI, especialmente desde que muchos de ellos son interactivos, y un largo tiempo de recuperación interfiere con la utilidad del sistema, llegando a alejar a los usuarios del mismo.

Eficiencia: medida de los recursos empleados en relación con la precisión y plenitud con que los usuarios alcanzan los objetivos especificados. A esta idea se asocia la facilidad de aprendizaje (en tanto que supone un coste en tiempo; igualmente, si se requiere un acceso continuo a los mecanismos de ayuda del sistema), la tasa de errores del sistema y la facilidad del sistema para ser recordado (una asimilación inapropiada puede traducirse en errores de usuario).

Eficiencia de Almacenamiento: La eficiencia del almacenamiento es medida por el espacio que se precisa para almacenar los datos. Una medida común de medir esta eficiencia, es la ratio del tamaño del fichero índice unido al tamaño de los archivos de documentos, sobre el tamaño de los archivos de documentos, esta ratio es conocida como exceso de espacio. Los valores de esta ratio comprendidos entre 1,5 y 3 son típicos de los SRI basados en los ficheros inversos.

Enlace inactivo: enlace que conduce a una web o sitio que ha modificado su URL o ya no existe.

Emparejamiento: Cuando una página indexada contiene el mismo texto que los términos de una búsqueda, se “empareja” con los términos de búsqueda. Algunos motores sólo permiten el emparejamiento exacto, otros pueden emparejar por el principio de la palabra y otros extienden los términos de búsqueda con el uso de emparejamiento por lógica difusa. Cuando una página se adecua a los requerimientos de una consulta, se empareja con ella. Por lo tanto  una página podría ser emparejada con uno o más términos de búsqueda, pero todavía el emparejamiento de la consulta no es completo. Ver también Similitud,

Esfuerzo de exhaustividad: la ratio entre el número de documentos relevantes que el usuario espera encontrar y el número de documentos examinados en un intento de encontrar esos documentos relevantes.

Exhaustividad: Ratio del número de documentos relevantes recuperados dividido entre el total de documentos relevantes. Cuando el número pertinentes de la colección es desconocido se obtiene su aproximación.

Exhaustividad Relativa: La ratio de los documentos relevantes recuperados examinados por el usuario entre el número de documentos que el usuario está dispuesto a examinar.

Expected search lenght: ver Longitud esperada de búsqueda

Factor de Impacto: diferencia entre el número de enlaces recibidos, o bien efectuando el cociente entre enlaces particulares y los enlaces recibidos. (DEL, 1998)

Fichero Inverso: Es un tipo de fichero indexado. Por cada palabra o término que aparece en la colección, un fichero inverso lista cada documento donde aparece. La estructura de acceso a un fichero inverso es normalmente una palabra clave, id-documento, id-campo. Un palabra clave es un término índice que describe el documento, el id-documento es un identificador único para cada documento y un id-campo es un nombre único que identifica desde qué campo vienen la palabra clave. Algunos sistemas también incluyen información sobre la localización de párrafos y frases donde aparece el término.

Frecuencia de Actualización: La actualización de la base de datos de un motor de búsqueda está basada principalmente en la frecuencia con que sus spiders circulan por la red y actualizan sus copias de páginas web, o descubren otras nuevas.

Freshness: ver Frecuencia de Actualización

Función de similitud: el modelo del vector calcula una medida de similitud definiendo documentos y preguntas como vectores. El método más común de determinar la proximidad de dos vectores es usar el valor del ángulo entre ellos, la función del coseno, que normaliza el resultado con el producto escalar entre vectores, considerando la longitud del documento. Otras funciones son el coeficiente de Dice o el de Jaccard. Ver también, Similitud, Clustering, Alineado de documentos

Generalidad: Medida del grado de documentos relevantes contenidos en una colección. Una colección con un alto grado de generalidad es una colección donde los documentos relevantes son mayoría frente a los que no lo son.

Google: Google es un motor de búsqueda a gran escala. Su principal objetivo es proveer de información de alta calidad a pesar del rápido crecimiento de la World Wide Web, para ello incorpora una serie de técnicas para mejorar la calidad de la búsqueda, incluyendo el PageRank y la proximidad de la información. Google es una completa arquitectura para capturar páginas web, indexarlas e interpretar las consultas. El análisis de la estructura de enlaces vía PageRank, permite a Google evaluar la calidad de las páginas web y proporcionar mayor relevancia a sus respuestas. Ver también Yahoo.

Gatherer: subsistema dentro del sistema de indización y recuperación distribuida Harvest, que automatiza el proceso de extracción de información dentro de los ficheros de un mismo servidor, creando un fichero de términos de indización para cada uno,  de tal manera que no son las copias de los documentos las que circulan por la red sino tal fichero, o lo que es mejor, se exporta únicamente la información sobre aquellas páginas que se han modificado desde la última vez que se accedió a ellas. Ver también Harvest, Gathering.

Gathering: proceso de recuperación u obtención, usado para aludir al resultado de la búsqueda, en el sentido de indizar (harvest) y recuperar (gather). Ver también Harvest

Granularidad: Parámetro que distingue la exactitud con la que el índice identifica la localización de una palabra clave. Se distinguen tres niveles: Granularidad consistente, capaz de identifica un conjunto de documentos a partir de una palabra clave; Granularidad media: capaz de identificar un documento específico a partir de una palabra clave; Granularidad fina: capaz de identificar la localización de una fresa o de una palabra en un documento a partir de una palabra clave. El uso de índices con granularidad más consistente implica menor tamaño de índice y menos punteros, lo que favorece una simplificación de la estructura de los datos.

GUI: (Graphical User Interface), ver Interfaz de Usuario

Gusano: véase Worms

Harvest: Software de indización, surgido a finales de 1993. Es un paquete integrado de herramientas gratuitas para recoger, extraer, organizar, buscar, y duplicar información relevante en Internet. La arquitectura de recolección de Harvest consta de varios puntos de recolección y de índices en cascada. Uno de sus componentes, denominado gatherer, se encarga de crear un fichero de términos de indización para cada servidor web. Ver también Harvest Control Lists(MEN, 2002)

Harvest Control Lists: una página índice formada por una lista de enlaces a las páginas clave que tiene embebidos todos los metadatos, de tal forma que se simplifica la gestión e indización de un sitio web. Es recomendable que estos índices estén escritos en xml. Con la utilización de estas HCL, los propietarios de las páginas web pueden promocionar informaciones básicas tales como las páginas de búsqueda y las páginas que aglutinan recursos en forma de directorios. Ver también Harvest. (MEN, 2002)

Harvesting: forma genérica para referirse a la indización de información basada en partes concretas de un documento marcado, normalmente los metadatos. Ver también Harvest

Hipertexto: es un sistema de presentación no secuencial de la información. El hipertexto consiste en piezas de texto o de otro tipo de presentación de la información ligadas de manera no-secuencial. Si el foco de tal sistema descansa en tipos de información no textual, se utiliza el término Hipermedia... Los objetos entre los que es posible establecer relaciones como origen o destino de ligaduras se denominan nodos, y el sistema global formará una red de nodos interconectados. Las ligaduras pueden ser de distintos tipos y/o tener asociados atributos, que también pueden ser bidireccionales. El usuario accede a la información contenida en los nodos, navegando por las diferentes ligaduras que se establezcan. Dicha navegación tendría que estar asistida por una panorámica estructural de la red (y de la ruta seguida por el usuario en su navegación)". Un nodo es un segmento de información, el cual entra en relación con otro u otros nodos. Cada nodo pertenece únicamente a un documento, que puede estar formado por uno o por varios nodos. El enlace es el vínculo que se establece entre distintos segmentos de información, es decir, entre los distintos nodos y un botón es el icono o representación gráfica de un objeto y de su relación. Ver también World Wide Web

HITS: alinea las páginas Web en dos tipos distintos, que guardan una relación de mutua dependencia: autoridades (páginas muy referenciadas desde otras) y hubs (o conectores, páginas desde las cuales se hace referencia a otras consideradas por el autor de calidad en relación con el tema). Autoridades y Conectores son conceptos que se retroalimentan: mejores autoridades son inducidas por enlaces desde buenos conectores y buenos conectores vienen de enlaces desde buenas autoridades. Ver también Alineado de los documentos.

Hormigas: véase WebAnts

Host: Ordenador que, mediante la utilización de los protocolos TCP/IP, permite a los usuarios comunicarse con otros sistemas anfitriones de una red. Los usuarios se comunican utilizando programas de aplicación, tales como el correo electrónico, Telnet, WWW y FTP. Ver también Servidor, Cliente

HTML: (HyperText Markup Language- Lenguaje de Marcado de Hipertexto) Lenguaje en el que se escriben las páginas web a las que se accede a través de navegadores WWW. Cuando apuntas en tu navegador a una URL, éste interpreta los comandos html incrustados y los utiliza para darle formato al texto de la página y a los elementos gráficos. Admite componentes hipertextuales y multimedia. Es una aplicación de la ISO Standard 8879:1986. Ver también SGML

HTTP: (HyperText Transfer Protocol- Protocolo de trasferencia de Hipertexto). El más importante protocolo de comunicación entre servidores y navegadores web.

Índice: ver Directorio

Información: Acción y efecto de informar. Comunicación o adquisición de conocimientos que permiten ampliar o precisar los que se poseen sobre una materia determinada. (RAE, )Ver también Recuperación de Información, Datos

Interfaz de Usuario:  Componente de una aplicación informática que el usuario visualiza y a través de la cual opera con ella. Está formada por ventanas, botones, menús e iconos, entre otros elementos. Conlleva dos perspectivas: la interface que el sistema dispone para que el usuario exprese sus necesidades de información, la interface de consulta; y la interface de respuesta que dispone el sistema para mostrar al usuario el resultado de su operación de búsqueda.

Internet: Red de telecomunicaciones nacida en 1969 en los EE.UU a la cual están conectadas centenares de millones de personas, organismos y empresas en todo el mundo, mayoritariamente en los países más desarrollados, y cuyo rápido desarrollo está teniendo importantes efectos sociales, económicos y culturales, convirtiéndose de esta manera en uno de los medios más influyentes de la llamada Sociedad de la Información y en la Autopista de la Información por excelencia. Internet es un gran conjunto de redes de ordenadores interconectadas (la mayor red mundial)no se ajusta a ningún tipo de ordenador, tipo de red, tecnología de conexión y medios físicos empleados. Internet no tiene una autoridad central, es descentralizada. Cada red mantiene su independencia y se une cooperativamente al resto respetando una serie de normas de interconexión. La familia de protocolos TCP/IP es la encargada de aglutinar esta diversidad de redes. Ver también World Wide Web

Knowbots: robots programados para localizar referencias hipertexto dirigidas hacia un documento, servidor, etc., en particular. Permiten evaluar el impacto de las distintas aportaciones que engrosan las distintas áreas de conocimiento presentes en la Red. (DEL, 1998)

KWIC: (KeyWords In Context), se trata de una técnica que muestra las ocurrencias de los términos de la consulta en el contexto de los documentos recuperados (BAE, 1999). Consiste en reunir cada palabra significativa del título o el texto en una lista alfabética, de forma que, a su vez, estén recogidas todas las palabras significativas del mismo. La palabra elegida aparece siempre en el mismo lugar, en el centro. Ver también KWOC

KWOC: (KeyWords out of Context). Se basan en el mismo principio, pero con la diferencia de que no presentan la palabra significativa en el texto mismo, sino sobresaliendo fuera del título: el término que realiza la función de descriptor se sitúa encabezando el título completo. Ver también KWIC

Knowbots: Robots programados para localizar referencias de hipertexto dirigidas hacia un documento, servidor, etc. Trabajan como agentes clientes, que una vez instalados en  el ordenador del usuario, realizan búsquedas automáticas con una autoridad delegada de sus usuarios, a cuyos resultados se añaden otras prestaciones como la organización, la posibilidad de acceso off-line, etc. Este tipo de robots permiten evaluar el impacto de las distintas aportaciones que engrosan las distintas áreas de conocimiento presentes en la red. A este tipo de agentes de búsqueda pertenecen aplicaciones como Copernic <http:www.copernic.com> o Hurricane Web <http://www.gatecomm.com/> que además son metabuscadores.

Linkage: número de enlaces que apuntan a un sitio web. La mayoría de los motores de búsqueda contabilizan el linkage en sus algoritmos. Ver también Alineado de los documentos.

Lista de Ocurrencias: Estructura de datos que asigna a cada palabra del texto la lista de sus posiciones en el texto (BAE, 1999). Ver también Fichero Inverso

Lista de Palabras vacías: Listas de palabras consideradas valores no indizables, usadas para eliminar potenciales términos de búsqueda. Nos referimos a palabras que por su alta frecuencia de aparición o por no poseer contenido semántico, carecen de valor de discriminación. Cada término potencial de indización es comprobado por la lista de palabras vacías y eliminado si se encuentra en ella. Ver también Términos índice o palabras clave

Longitud esperada de búsqueda: promedio de documentos no relevantes que pueden ser examinados por el usuario, antes de acceder al número deseado de documentos. Esta medida no proporciona un valor simple, más concretamente  proporciona una serie de valores que muestran qué puede esperar el usuario bajo requerimientos de exhaustividad.

Matching: ver Emparejamiento

Medida de Voiskunskii: Medida de valor simple ratio cuya formulación analítica se corresponde con la raíz cuadrada del producto de los valores Exhaustividad-Precisión de una determinada operación de búsqueda. Ver también Exhaustividad, Precisión

Medidas Promedio de la efectividad E-P: propuesta por Salton. Promedios de la efectividad en pares de valores de exhaustividad y precisión. Esta nueva formulación permite representar una curva E-P con valores diferentes de exhaustividad para cada valor de la precisión, siendo una función continua, no ya discreta. Ver también Exhaustividad, Precisión,

Medidas de Valor Simple: Salton las llama así ya que no se representa el resultado de una evaluación en función de una par de valores sino de un único valor, que puede ser objeto de clasificación.

MEDLARS: Sistema de la Biblioteca Nacional de Medicina evaluado en 1966 y 1967 por Lancaster. Tenía el objeto de observar la efectividad de la recuperación de información de esa base de datos y averiguar la forma de mejorarla.

Metabuscadores: Sistemas desarrollados para mitigar el problema de tener que acceder a varios motores de búsqueda con el fin de recuperar información más completa sobre un tema, siendo estos sistemas los que se encargan de efectuarlos por el usuario. Un metabuscador colecciona las respuestas recibidas y las unifica. La principal ventaja es su capacidad de combinar resultados de diferentes fuentes mostrándoselas al usuario de forma simultánea. Ver también Motor de Búsqueda

Metadatos: Atributos de los datos o de un documento, normalmente descritos como autor o contenido, a menudo divididos en categorías o facetas, generalmente mantenidos en un catálogo y grabados a veces, de acuerdo a esquemas como Dublín Core o MARC (BAE, 1999). La ventaja de los metadatos es que pueden codificarse en el ítem mismo, en vez de existir como entidad separada. Normalmente se definen en un estándar denominado schema, que determina cómo deben usarse. Ver también Metaetiqueta. (MEN, 2002)

Metaetiqueta: Son unidades de información que residen dentro de la cabecera de un documento y que describen algo sobre ese documento. Todos los metadatos de una página html son metaetiquetas, pero no todas las metaetiquetas son metadatos. Desde el punto de vista formal, una metaetiqueta es el elemento de marcado (HTML, XML) que se utiliza para señalar e identificar los metadatos relativos a un DLO, mientras que metadatos pueden ser también clasificaciones temática u ontológicas desde el punto de vista del contenido de un documento. (MEN, 2002)

Metatag: véase metaetiqueta

Modelo Booleano: es un modelo de recuperación simple, basado en la teoría de conjuntos y el álgebra booleana. Dada su inherente simplicidad y su pulcro formalismo ha recibido gran atención y  adoptado por muchos de los primeros sistemas bibliográficos comerciales. Su estrategia de recuperación está basada en un criterio de decisión binario (pertinente o no pertinente) sin ninguna noción de escala de medida, sin noción de un emparejamiento parcial en las condiciones de la pregunta. Para el modelo booleano, las variables de peso de los términos índice son todas binarias. A pesar de estos inconvenientes, el modelo booleano es todavía el modelo dominante en los sistemas comerciales de bases de datos de documentos y proporciona un buen punto de partida. Ver también Álgebra de Boole.

Modelo cliente-servidor: Modelo de comunicación entre ordenadores conectados a una red en el cual hay uno, llamado cliente, que satisface las peticiones realizadas por otro llamado servidor.

Modelo de Cooper: Se trata de medir el “ahorro de esfuerzo” por parte del usuario a la hora de discernir cuáles de los documentos recuperados son relevantes. Esta medida, en general, sólo se aplicaría a los sistemas que mostraran la salida de los documentos ordenados según un determinado criterio de alineamiento.

Modelo de Sistemas de Recuperación de Información: Un modelo de SRI es el marco donde a partir de las vistas lógicas o representaciones de los documentos de la colección y de las consultas del usuario, han de quedar definidas la estrategia para evaluar la relevancia de un documento respecto a una consulta, los métodos para establecer la importancia (orden) de los documentos de salida y los mecanismos que permiten una realimentación por parte del usuario para mejorar la consulta. Ver también Alineado de los documentos, Acceso Lógico a la Información,

Modelo de Robertson: aproximación logística de los valores de exhaustividad y precisión. Este procedimiento resulta inusual ya que al calcular una estimación de ambas probabilidades para una pregunta simple, toma en consideración tanto la cantidad de datos empleados para alcanzar esas estimaciones como los promedios de las estimaciones de todas las demás preguntas. Se obtiene un valor, llamado “delta” que puede considerarse como candidato para ser una medida simple de la efectividad de un SRI.

Modelo de Swets: Define la terna de medidas E-P-F (Exhaustividad, Precisión y Tasa de Fallo) en términos probabilísticos, basándose en una teoría estadística suficientemente reconocida y aceptada. Así, la exhaustividad será una estimación de la probabilidad condicionada de que un documento recuperado sea relevante; la precisión será la estimación de la probabilidad condicionada de que un documentos relevante sea recuperado y la tasa de fallo será una estimación de la probabilidad condicionada de que un documentos recuperado no sea relevante

Modelo del Espacio Vectorial: Propone un marco en el que es posible el emparejamiento parcial, asignando pesos no binarios a los términos índice de las preguntas y de los documentos. Estos pesos de los términos se usan para computar el grado de similitud entre cada documento guardado en el sistema y la pregunta del usuario. Ordenando los documentos recuperados en orden decreciente a este grado de similitud, el modelo del vector toma en consideración documentos que sólo se emparejan parcialmente con la pregunta, así el conjunto de la respuesta con los documentos alineados es mucho más preciso (en el sentido que empareja mejor la necesidad de información del usuario) que el conjunto recuperado por el modelo booleano. Los rendimientos de alineación del conjunto de la respuesta son difíciles de mejorar. Ver también Modelo de Sistemas de Recuperación de Información, Similitud

Modelo Probabilístico: El modelo Probabilístico calcula el coeficiente de similitud entre una pregunta y un documento como la probabilidad que el documento sea pertinente a la pregunta. Esto reduce el problema de la pertinencia para el alineamiento como una aplicación de la teoría de la probabilidad. Ver también Modelo de Sistemas de Recuperación de Información

Modelo Simple del peso del término: Se basa en asignar probabilidades a los componentes de una pregunta y usar entonces cada uno de éstos como evidencia en el cálculo de la probabilidad final de que un documento sea pertinente a la pregunta. Se asignan pesos a los términos de las preguntas que corresponden a la probabilidad de un término en particular, en un emparejamiento con una pregunta dada, para poder recuperar documentos pertinentes. Se combinan los pesos para cada término en la pregunta para obtener una medida final de pertinencia. Ver también Términos ponderados

Modelos lógicos: basados en la lógica formal. La recuperación de información se entiende como un proceso inferencial a través del cual se puede estimar la probabilidad de que una necesidad de información de un usuario, expresada como una o más consultas, sea satisfecha ofreciendo un documento como “prueba”.Ver también Modelo de Sistemas de Recuperación de Información

Motor de Búsqueda: los Motores de Búsqueda son sistemas que, de forma automática, indexan una porción de los documentos residentes en la globalidad de la web y permiten localizar información a través de la formulación de una pregunta. Los motores de búsqueda manejan también grandes bases de datos de referencias a páginas web que han sido creadas a través de un proceso automático, sin intervención humana y generalmente, de mayor tamaño. Los motores de búsqueda recopilan la información gracias a uno o varios agentes de búsqueda (robots, spiders o crawlers) que recorren la web, a partir de una relación de direcciones de partida, recopilando nuevas páginas para el motor y generando una serie de etiquetas que permiten su indexación en la base de datos. Un motor de búsqueda no cuenta con subcategorías como los directorios, sino con avanzados algoritmos de búsqueda que analizan las páginas que tienen en su memoria y con ello proporcionan el resultado más adecuado a una búsqueda. Ver también Google, Directorio

Navegador: véase Browser

NIST: Siglas del United States National Institute of Standards and Technology.

Novedad: Proporción de los documentos recuperados relevantes que eran previamente desconocidos para el usuario. Un alto valor de novedad indica que el sistema ha mostrado al usuario una importante cantidad de documentos que antes desconocía.

Overlapping: véase Solapamiento.

PageRank: Algoritmo de Alineamiento utilizado por Google, que asume que el número de enlaces que una página proporciona tiene que ver con la calidad de la mismo. Este cálculo puede realizarse por medio de un algoritmo iterativo y corresponde al vector propio de una matriz normalizada de enlaces en la web. PageRank está concebido como un modelo del comportamiento del usuario: si se asume que hay un “navegante aleatorio”que pasa de una página a otra sin presionar nunca el botón de retroceder, la probabilidad de que este navegante visitar una página determinada es precisamente su PageRank. Es decir, se trata de un modelo basado en los enlaces de las páginas y que pretende representar la forma de trabajar de los usuarios. Ver también Alineado de los documentos, Google.

Pertinencia: se refiere al punto de vista del usuario final que realiza una operación de recuperación de información, asociada a la relación de utilidad existente entre un documento recuperado y una necesidad de información concreta e individual. Un documento pertinente es aquel que añade nueva información a la previa del usuario y que le resulta útil.

Ponderación de Términos: véase Términos ponderados

Precisión: Porcentaje de documentos recuperados que resultan relevantes con el tema de la pregunta. Su cálculo es muy simple: documentos relevantes recuperados divididos entre el total de documentos recuperados.

Precisión Media: se refiere a un promedio de precisión con varios valores de exhaustividad, para cualquier nivel de exhaustividad deseado es posible calcular la precisión. Y esto se representa por una curva de precisión/exhaustividad.

Presentación: Forma en que los resultados de una búsqueda son presentados al usuario.

Proyectos Cranfield: Evaluaciones de la efectividad de SRI que se desarrollaron en el Instituto Cranfield de Tecnología. Estableció los factores que más afectan al funcionamiento de los SRI y refrendó la primera metodología de estos sistemas, destacando la introducción de las medidas de exhaustividad y precisión.

Query: ver Consulta

Ranking: ver Alineado de los documentos

Ratio de Deslizamiento: Se basa en la comparación de dos listas ordenadas de documentos recuperados. Una lista es la salida de nuestro sistema actual, y la otra representa  un sistema ideal donde los documentos recuperados se muestran en orden descendente. La ratio se establece como el resultado de dividir la suma de los pesos de los documentos recuperados por nuestro sistema entre la suma de los pesos  de los documentos que hubiera devuelto el sistema ideal. Este modelo sustituye la asignación binaria de relevancia de un documento (relevante o no relevante) por la asignación de un peso.

RDF: (Resource Description Framework) es una de las tecnologías claves en el proyecto de la Semantic Web Activity. RDF es la propuesta del W3C para definir metadatos en el Web y la base para el procesamiento de metadatos: proporciona interoperabilidad semántica entre aplicaciones que intercambian información entendible por máquina. RDF es simplemente un modelo de datos que permite crear metadatos legibles y entendibles por máquina. La interoperabilidad semántica de sistemas de metadatos implica significados compartidos y gramáticas compartidas. Como con el lenguaje natural, traducir un sistema de los metadatos particular en los términos y gramática de otro requiere interpretación y puede involucrar pérdida o distorsión de significado. El reconocimiento y la aceptación de este límite inherente a la interoperabilidad es una marca constante en la filosofía del Web Semántico. (DIA, 2003)

Recuperación de Datos: se orienta a la recuperación de todos los objetos que satisfacen las condiciones claramente definidas. Trata con datos que tienen una estructura bien definida y sin ambigüedad semántica y preguntas altamente formalizadas. Proporciona una solución al usuario de un sistema de bases de datos pero no resuelve el problema de recuperar información sobre un tema. Ver también Recuperación de Información, Dato

Recuperación de Información: parte de la ciencia de la computación que estudia la recuperación de información (no de datos) de una colección de documentos. La recuperación de documentos tiene como objetivo satisfacer la necesidad de información de un usuario, normalmente expresada en lenguaje natural. (BAE, ) La recuperación de información tiene que ver con la representación, almacenamiento, organización y acceso a los ítem de información. (SAL, 1983 ). Ver también Recuperación de Datos, Información

Referencia Única: es el hecho de que documento aparezca únicamente recogido por un motor de búsqueda. Ésto puede deberse a que el procedimiento de búsqueda del motor es más exhaustivo o a que el usuario sólo haya dado de alta la página en un motor de búsqueda o a una mera casualidad, lo que parece indicar que este factor no confiere ningún tipo de valor añadido claro al motor de búsqueda.

Relevancia: medida abstracta que cuantifica cómo un documento recuperado satisface una determinada consulta. Idílicamente un sistema debería recuperar todos los documentos relevantes, pero desafortunadamente esta es una medida subjetiva y difícil de cuantificar. Un documento puede considerarse relevante si el contenido del mismo posee alguna significación o importancia con motivo de la pregunta realizada por el usuario, es decir con su necesidad de información. La relevancia queda asociada con el concepto de la relación existente entre los contenidos de un documento con una temática determinada.

Robot: Es un programa que rastrea la estructura hipertextual de la web, recogiendo información sobre las páginas web que encuentra. Esta información se indiza y se introduce en una base de datos que será explotada posteriormente utilizando un motor de búsqueda (DEL, 1998). Por regla general, se parte de una lista inicial de direcciones de sitios web, que son visitados por el robot, y a partir de ahí cada robot rastrea a su manera la web, de ahí que la información almacenada en cada base de datos de cada motor sea diferente. El robot no se mueve por la red, ni se ejecuta sobre las máquinas remotas que visita, ya que realmente el robot funciona sobre el sistema local del motor de búsqueda y envía una serie de peticiones a los servidores web remotos (donde se alojan las páginas a analizar) El índice también se gestiona localmente. Ver también Crawler, Spider, Wanderers, WebAnts

Satisfacción: Para Borko, es la suma de los valores de precisión y de exhaustividad obtenidos en una operación de recuperación de información.

Scheme/Schema: Scheme es desde el punto de vista estrictamente técnico, un atributo propio de la etiqueta <Meta> de HTML que sirve para definir el esquema que se debe utilizar para interpretar el valor de una propiedad. El concepto hace alusión a un fichero de tesauro controlado, una lista de valores posibles que puede tener una metaetiqueta en concreto. Así un schema está formado por los elementos y reglas que constituye un modelo de metadatos, y un scheme es el conjunto más amplio de valores que pueden tener esos elementos.  De forma más general, Schemas son modelos destinados a la representación y descripción de documentos electrónicos. Ver también Metadatos. (MEN, 2002)

Selección: Medida de las llamadas basadas en el proceso, mide cuántos documentos hay en la base de datos, el grado de solapamiento con otras relacionadas, qué se espera de la base de datos antes de las búsquedas

Servidor: Sistema que proporciona recursos (por ejemplo, servidores de ficheros, servidores de nombres). En Internet este término se utiliza muy a menudo para designar a aquellos sistemas que proporcionan información a los usuarios de la Red. Se trata de una computadora muy potente, capaz de realizar un papel protagonista dentro de Internet. Puede ser de muchos tipos: de noticias, Web, de acceso telefónico, a redes, según la función que desempeñe. Los servidores web, por ejemplo, son los que guardan los archivos que, luego, otros usuarios de la Red podrán visualizar en su computadora. Ver también Cliente

Similitud: Medida de cómo dos documentos se parecen, o de cómo se parecen un documento y una consulta. En el modelo de espacio vectorial es usada para interpretar  cómo de cercanas son las respectivas representaciones vectoriales. Hay dos cuestiones básicas a la hora de establecer agrupamientos, necesitamos determinar qué rasgos describen mejor a los objetos en un conjunto dado (similitud intraagrupamiento), y qué rasgos diferencian ese conjunto con el resto de documentos de la colección (disimilitud del interagrupamiento).  Ver también Función de Similitud, Clustering, Alineado de los documentos

Sistema de Recuperación de Información: Salton entiende que cualquier sistema de recuperación de información puede ser descrito como un conjunto de ítem de información, un conjunto de peticiones y algún mecanismo que determine qué item satisface las necesidades de información expresadas por el usuario en la petición. El usuario de un sistema de recuperación de información se preocupa más de recuperar información sobre un asunto que por recuperar datos que satisfagan una pregunta dada. Los sistemas de recuperación de información deben de algún modo “interpretar” los contenidos de los ítems de información (documentos) en una colección y alinearlos según un determinado grado de relevancia en referencia a la pregunta del usuario. Esta “interpretación” de los contenidos de un documento involucra la extracción tanto sintética como semántica del texto del documento, usando esta información para emparejarla con la necesidad de información de los usuarios.

SGML: Standard markup metalanguage. Estándar internacional para la definición de métodos de representación de texto en forma electrónica no ligados a ningún sistema ni a ningún dispositivo. Es un lenguaje más extenso que HTML. HTML es una aplicación de SGML. Se basa en un marcado genérico del documento para identificar sus partes lógicas de manera jeráquica. Permite que se definan lenguajes de marca de forma independiente, facilitando el intercambio de recursos ampliamente estructurados. SGML no es un lenguaje de marcas en sí mismo sino un estándar para la descripción de lenguajes de marcado (Metalenguaje). Ver también XML

SMART: Sistema de Recuperación de Información diseñado en 1964 por Salton, fue concebido como una herramienta de la evaluación de la efectividad de muchos tipos de análisis y procedimientos de búsqueda. Para ello se establecieron 4 grupos de evaluación. Incorpora tres procedimientos diferentes de análisis del lenguaje: Palabra, lema y tesauro. Ver también Modelo del Espacio Vectorial

Solapamiento: Coincidencia  de documentos recogidos por los distintos motores. Un alto grado de solapamiento entre motores implica que un amplio conjunto de fuentes de información forman parte de los índices de los motores de búsqueda.

Spider: robot que navega por la red de una página a otra recogiendo información de los sitios que visita, esta información es almacenada en la base de datos del motor de búsqueda

Spamming: consiste básicamente en repetir, dentro de una misma etiqueta, una palabra clave, de tal forma que el registro del documento en cuestión suba el inicio de una lista de resultados de un buscador. Esta práctica se ha convertido en habitual debido a que muchos de los, motores de búsqueda realizan un cálculo de relevancia, y por ende, ordenan los resultados, según el número de veces que una palabra se utiliza en una página, dándole mayor importancia cuando se repite en determinadas partes del documento, por ejemplo en la cabecera o donde se colocan los metadatos. Ver también Alineado de los documentos, Metaetiqueta, Metadatos

STAIRS: Proyecto de Sistema de Recuperación de Información desarrollado en la década de los ochenta por Blair y Maron, en el que se evaluó la recuperación de información de este sistema. El número de documentos útiles no recuperados se estimó a través de la aplicación de una serie de técnicas estadísticas Este estudio pone de manifiesto la dificultad de estimar fiablemente la exhaustividad.

Stemming: Técnica para reducir la forma del término mediante el aislamiento de la base de la palabra, reduciéndose así el número de entradas en el índice y permitiendo la comparación de similitud de términos en la búsqueda.

Stopwords: ver Lista de Palabras vacías

Tasa de Fallo: refleja el porcentaje de documentos recuperados no relevantes sobre el total de no relevantes de la base de datos.

Términos Índices o palabras clave: término preseleccionado que puede ser utilizado para referenciar el contenido de un documento. Normalmente los términos índices son nombres o grupos de nombres. En la Web, sin embargo, algunos motores de búsqueda utilizan todas las palabras del documento como términos índice. (BAE, 1999) En general, los términos índice son principalmente sustantivos. Los términos índice tienen una relevancia variable cuando describen los contenidos del documento. Este efecto es aprehendido  a través de la asignación de pesos numéricos a cada término índice de un documento. Ver también Tesauro

Términos ponderados: los términos de indización o de las preguntas son normalmente asignados a valores numéricos basados en la distribución estadística de los términos, o sea, la frecuencia con que los términos aparecen en los documentos, colecciones de documentos, o subconjuntos de colecciones de documentos, para que éstos sean considerados relevantes en una pregunta. La información sobre la distribución de frecuencias de los términos permite asignar una probabilidad de relevancia a cada documento en un conjunto recuperado, permitiendo que los documentos  recuperados puedan ser alineados en orden de esa probable relevancia. Además permite agrupar documentos similares en un espacio documental. Ver también Alineado de los documentos, Clustering

Tesauro: un tesauro es una lista estructurada de conceptos, destinados a representar de manera unívoca el contenido de los documentos y de las consultas dentro de un sistema documental determinado, y a ayudar al usuario en la indización y en la correcta recuperación de la información consultada. (VAN, 1991). Ver también Términos Índice

TREC: véase Conferencias TREC

URL: Dirección electrónica de un recurso web que especifica el protocolo de transmisión y la dirección del recurso para poder acceder a el desde cualquier ordenador conectado a Internet. Ver también World Wide Web

Usabilidad: Valor de las referencias en términos de fiabilidad, comprensión, actualización, etc.

Vagabundos: véase Wanderers

Visibilidad: número de enlaces recibidos, o cociente entre los enlaces recibidos y el número de páginas de la sede. (DEL, 1998)

W3C: (World Wide Web Consortion) Fundado en octubre de 1994, liderado por Tim Berners-Lee, W3C plantea la necesidad de crear una "capa semántica" basada en sistemas de metadatos "entendibles" por las máquinas y que sirva para describir el Web. Presenta el web semántico como una extensión del Web actual en la cual se da un significado bien definido a la información, permitiendo un mejor trabajo en colaboración, tanto a computadoras como a personas.

WAIS: serie de protocolos diseñados para publicar información  y permitir la interrogación a bases de datos en Internet.

Wanderers: Robots encargados de realizar estadísticas como el crecimiento de la Red, número de servidores conectados...

WebAnts: Conjunto de robots físicamente alejados que cooperan para la consecución de distintos objetivos, como por ejemplo, llevar a cabo una indexación distribuida.(DEL, 1998)

WebQuery: Tipología de alineamiento otorgado a las páginas que forman la respuesta a una consulta basándose en cómo de conectadas están entre ellas. Adicionalmente, extiende el conjunto de páginas de la respuesta a otra serie de páginas altamente  conectadas al grupo original de respuestas. Ver también Alineado de los documentos.

World Wide Web: Sistema de información distribuido, basado en hipertexto, creado a principios de los años 90 por Tim Berners-Lee, investigador en el CERN, Suiza. La información puede estar en cualquier formato (texto, gráfico, audio, imagen fija o en movimiento) y es fácilmente accesible a los usuarios mediante los programas navegadores. Es preciso destacar el hecho de que tanto Berners-Lee como el CERN renunciaron a la explotación comercial de este extraordinario invento. Ver también Internet

Worms: Programa informático que se autoduplica y autopropaga. Encargados de la duplicación de directorios ftp, para incrementar su utilidad a un número mayor de usuarios.

XML: (eXtensible Markup Language- Lenguaje Extensible de Marcado) Lenguaje desarrollado por el W3C para permitir la descripción de información contenida en el WWW a través de estándares y formatos comunes, de manera que tanto los usuarios de Internet como programas específicos (agentes) puedan buscar, comparar y compartir información en la red. El formato de XML es muy parecido al del HTML aunque no es una extensión ni un componente de éste, posee mayor modularidad y flexibilidad. XML no es un lenguaje sino un metalenguaje, esto es,  que sirve para crear lenguajes. Se desarrolló este sistema para la promoción del uso del lenguaje SGML en Internet, convirtiéndose en un estándar de intercambio de documentos web, que mejora la recuperación ya que facilita el marcado según el contenido semántico de la información

X.500: El directorio X.500 es una base de datos distribuida que permite la consulta de datos sobre objetos del mundo real. A través de X.500 se puede buscar información sobre personas, departamentos y organizaciones de todo el mundo. Puede proporcionar direcciones de mensajería electrónica, direcciones postales, teléfonos y números de Fax.

Yahoo: el primero y más reconocido directorio de navegación y búsqueda de Internet. Señala los sitios que tratan temas de interés a los usuarios. Actúa como un buscador robotizado utilizando la base de datos del buscador Google.
 


Referencias consultadas.

(BAE, 1999) Baeza-Yates, R. and Ribeiro-Neto, B. Modern information retrieval. New York : ACM Press ; Harlow [etc.] : Addison-Wesley, 1999 XX, 513 p. ISBN 0-201-39829-X

(BLA, 1990) Blair, D.C. Language and representation in information retrieval. Amsterdam [etc.]: Elsevier Science Publishers, 1990.

(DEL, 1998) Delgado Domínguez, A. Mecanismos de recuperación de Información en la WWW [En línea). Mallorca, Universitat Illes Balears, 1998. <http://dmi.uib.es/people/adelaida/tice/modul6/memfin.pdf> [Consulta: 18 de marzo de 2003]

(DIA, 2003) Díaz Ortuño, Pedro Manuel. Problemática y Tendencias en la Arquitectura de Metadatos Web. Anales de Documentación, nº 6, 2003. <http://www.um.es/fccd/anales/ad06/ad0603.pdf>

Martínez Méndez, F.J. “Aproximación general a la evaluación de la recuperación de información por medio de los motores de búsqueda en Internet”. Scire, vol 6, nº 1, 2001. También accesible [En línea] <http://www.um.es/gtiweb/fjmm/ibersid2000.PDF> Murcia: Universidad, 2001. [Consulta: 6 de mayo de 2003]

(MAR, 2002) Martínez Méndez, F.J."Propuesta y Desarrollo de un modelo para la evaluación de la recuperación de información en Internet". Alicante Biblioteca Miguel de Cervantes, 2003.

Martínez Méndez, F. J. & Rodríguez Muñoz, J.V. (2003) "Síntesis y crítica de las evaluaciones de la efectividad de los motores de búsqueda en la web." Information Research, 8(2), paper no. 148 [En línea] <http://InformationR.net/ir/8-2/paper148.html>

(MEN, 2002) Méndez Rodríguez, Eva. "Metadatos y Recuperación de Información: estándares, problemas y aplicabilidad en bibliotecas digitales". Gijón : Trea, 2002.

(RAE, ) Real Academia Española, "Diccionario de la Lengua Española", Vigésima Primera Edición

(RIJ, 1999) Rijsbergen, C.J. Information Retrieval. [En línea]. Glasgow, University, 1999. <http://www.dcs.gla.ac.uk/~iain/keith/> [Consulta: 2 de abril de 2003]

(SAL, 1983) Salton , G. and Mc Gill, M.J. Introduction to Modern Information Retrieval. New York: Mc Graw-Hill Computer Series, 1983.

(VAN, 1991) Van Slype, Georges. Lenguajes de indización: concepción, estructuración y utilización en los sistemas documentales. Madrid; Salamanca: Fundación Germán Sánchez Ruipérez; Madrid: Pirámide, 1991


Sitios web visitados

http://www.searchenginedictionary.com/

http://www.sims.berkeley.edu/%7Ehearst/irbook/glossary.html

http://www.ati.es/novatica/glosario/glosario_internet.html

 

Inicio del documento