Informática Aplicada a las Ciencias Sociales
Grado en Ciencia Política y Gestión Pública. Universidad de Murcia
um.es/docencia/barzana > IACCSS > Bases-de-datos

Bases de datos

Introducción

¿Qué son datos?, puede parecer una cuestión simple, sin embargo en función de la interpretación, la definición puede ser cualquier cosa, desde "algo grabado" a "todo lo que existe". Como dato se puede entender cualquier experiencia que se vive, como la información obtenida de un máquina que registra capturas de sensores, fotografías, o un evento astronómico grabado por un investigador. En resumen, todo son datos. Sin embargo, el reto siempre ha sido el registro y la preservación de los datos, y la tecnología disponible en cada momento ha limitado la capacidad de capturar y conservar los datos.

Las posibilidades de almacenamiento de la memoria del cerebro humano se supone que es aproximadamente de 2.5 petabytes (símbolo es PB, equivale a 1015 bytes). Por ejemplo, si el cerebro funcionara como un grabador de vídeo, serviría para almacenar tres millones de horas de programas de televisión. Habría que dejar el televisor en funcionamiento durante más de 300 años para agotar todo ese espacio de almacenamiento. La tecnología actual disponible para el almacenamiento de datos falla en comparación, con el cerebro humano.

Desde épocas inmemoriales, nuestros antepasados almacenaban los datos en algún tipo de soporte (piedra, madera, papel, etc.) a fin de que persistieran. Sin embargo los datos han de ser interpretados para que se conviertan en información útil, proceso que implica la agrupación y clasificación.

Actualmente, las empresas están registrando más y más información, y los datos están creciendo, precisando cada vez más espacio de almacenamiento, siendo más difícil su gestión. Las razones para el registro de tales cantidades ingentes de información son diversas, a veces la causa es la adhesión a normas de obligado cumplimiento, otras es la necesidad de preservar las transacciones, y en muchos casos es simplemente parte de una estrategia de copias de seguridad.

Sin embargo, guardar los datos supone tiempo y dinero, incluso si es solo para la posteridad. Ahí radica el mayor desafío: ¿Cómo pueden las empresas y organismos guardar inmensas cantidades de datos? La tecnología ha aportado soluciones para mitigar estas preocupaciones de almacenamiento, también han llegado con una manera de obtener valor de lo que muchos ven como una carga, se trata de Big Data y minería de datos (data mining).

Los conceptos detrás de la analítica de Big Data no son novedosos. Las empresas han estado utilizando herramientas de inteligencia de negocios décadas, y los científicos han estado investigando conjuntos de datos para descubrir los secretos del universo desde hace mucho tiempo. Sin embargo, la escala de esta recopilación está cambiando, y cuanto más datos estén disponibles, más información útil se podrá extrapolar a partir de ellos. El reto es encontrar el valor de los datos y explorar las fuentes de datos de maneras más interesante y aplicable para el desarrollo de la inteligencia, que pueda impulsar decisiones, encontrar relaciones, resolver problemas, y en consecuencia aumentar los beneficios, la productividad y la calidad de vida. La clave está en pensar en grande, y eso implica análisis de Big Data. En el blog XATAKA analizan programas que facilitan la visualización de resultados generados por sistemas de Big Data, algunos de ellos gratuitos.

Las bases de datos son el método habitual para el almacenamiento estructurado de datos. Desde las grandes aplicaciones multiusuario, hasta los teléfonos móviles y las agendas electrónicas utilizan tecnología de bases de datos para asegurar la integridad de los datos y facilitar la labor tanto de usuarios como de los programadores que las desarrollan.

Desde la realización del primer modelo de datos, pasando por la administración del sistema gestor, hasta llegar al desarrollo de la aplicación, los conceptos y la tecnología asociados son muchos y muy heterogéneos. Por lo tanto es imprescindible conocer los aspectos clave de cada uno de estos temas para tener éxito en cualquier proyecto que implique trabajar con bases de datos.

En la década de 1940 los sistemas de archivos generados a través de los primeros lenguajes de programación como Cobol y Fortran, permitieron almacenar los datos mediante archivos sin formato alguno (texto plano, como por ejemplo cuando se almacena un documento en el editor de textos sin ningún formato) con las únicas funciones de lectura y escritura.

Bases de datos, tablasPosteriormente surgió el conocido como sistema de ficheros, consistía en un conjunto de programas para prestar servicio a los usuarios. Cada programa define y maneja sus propios datos. Los sistemas de ficheros surgieron al tratar de informatizar el manejo de los archivadores manuales con objeto de proporcionar un acceso más eficiente a los datos. En lugar de establecer un sistema centralizado en donde almacenar todos los datos de la organización o empresa, se escogió un modelo descentralizado en el que cada división almacena y gestiona sus datos.

Los sistemas de ficheros presentan inconvenientes tales como:
  • Separación y aislamiento de los datos. Cuando los datos se separan en distintos ficheros, es más complicado acceder a ellos, ya que el programador debe sincronizar el procesamiento de los ficheros implicados para asegurar que se obtienen los datos correctos.
  • Duplicación de datos. La redundancia de datos en los sistemas de ficheros hace que se desperdicie espacio de almacenamiento y lo que es más importante, puede llevar a que se pierda la consistencia de los datos. Se produce inconsistencia cuando copias de los mismos datos no coinciden.
  • Dependencia de datos. Ya que la estructura física de los datos (la definición de los ficheros y de los registros) se encuentra codificada en los programas de aplicación, cualquier cambio en dicha estructura es difícil de realizar. El programador debe identificar todos los programas afectados por este cambio, modificarlos y volverlos a probar, lo que cuesta mucho tiempo y está sujeto a que se produzcan errores. A este problema se le denomina también falta de independencia de datos lógica-física.
  • Formatos de ficheros no compatibles. Como la estructura de los ficheros se define en los programas de aplicación, es completamente dependiente del lenguaje de programación. La incompatibilidad entre ficheros generados por distintos lenguajes hace que los ficheros sean difíciles de procesar de modo conjunto.
  • Consultas fijas y proliferación de programas de aplicación. Desde la consideración de los usuarios finales, los sistemas de ficheros supusieron un gran avance comparados con los sistemas manuales. Como consecuencia, creció la necesidad de realizar distintos tipos de consultas de datos, sin embargo, los sistemas de ficheros son muy dependientes del programador de aplicaciones, cualquier consulta o informe debe ser programado por él. En algunas organizaciones se conformaron con fijar el tipo de consultas e informes, siendo imposible realizar otro tipo que no se hubieran tenido en cuenta a la hora de escribir los programas de aplicación.

Estos inconvenientes se pueden atribuir a dos factores:
  • La definición de los datos se encuentra codificada en los programas de aplicación, en lugar de estar almacenada aparte y de forma independiente.
  • No hay control sobre el acceso y la manipulación de los datos más allá de lo impuesto por los programas de aplicación.

Definición y características de un Sistema Gestor de Bases de Datos

El objetivo principal de cualquier base de datos es el almacenamiento de símbolos, números y letras carentes de un significado en sí, que mediante un tratamiento adecuado se convierten en información útil. Un ejemplo podría ser el siguiente dato: 20171224, con el tratamiento correcto podría convertirse en la siguiente información: "Fecha de caducidad: 24 de diciembre del año 2017".

Con el tiempo, las necesidades de almacenamiento de datos van creciendo y con ellas las necesidades de transformar los mismos datos en información muy diversa. Esta información es utilizada como herramientas de trabajo y soporte para la toma de decisiones por un gran colectivo de profesionales que consideran dicha información como base de su actividad. Por este motivo el trabajo del diseñador de bases de datos es cada vez más delicado, un error en el diseño o en la interpretación de datos puede dar lugar a información incorrecta y conducir al usuario a la toma de decisiones equivocadas. Se hace necesario la creación de un sistema que ayude al diseñador a crear estructuras correctas y fiables, minimizando los tiempos de diseño y explotando todos los datos, así nació la metodología de diseño de bases de datos.

Se puede definir una base de datos, como un fichero en el cual se almacena información de cualquier tipo. En dicho fichero la información se guarda en campos o delimitadores, por ejemplo, es posible almacenar el nombre y apellidos de las personas de modo separado, de ésta forma se pueden obtener del fichero todos los nombres o todos los apellidos, tanto de forma separada como conjunta. Normalmente el número de campos que se tienen en una base varía según las necesidades en cuanto a gestión de datos, de forma que después se pueda explotar la información de forma ordenada y separada, aunque el resto de la información sigue almacenada y guardada en la base de datos.

Una base de datos, no es solo un fichero con datos, sino que en dicho archivo se encuentra la estructura de los datos, así que para saber qué longitud tiene cada campo, hay que conocer como se llama el campo y qué longitud máxima en caracteres puede contener, así como el tipo de datos en dicho campo, porque puede tener desde letras a números o incluso otros datos más complejos, dependiendo de la estructura y del sistema gestor.

En realidad aparte de los datos que son almacenados en el archivo, también otra serie de datos, en los que se informa del tipo de campo y la longitud de cada campo, es lo que se llama gestor de datos, que permite saber que cada registro (un registro es una suma de campos, por ejemplo a Marisol Collazos, Marisol lo guardamos en el campo Nombre y Collazos en el campo Apellidos, cada registro es cada persona que almacenamos en la base, osea una persona es un registro y cada registro está constituido por los campos Nombre y Apellido.

Un Sistema Gestor de Bases de Datos (SGBD) es una serie de recursos para manejar grandes volúmenes de información, sin embargo no todos los sistemas que manejan información son bases de datos. Para trabajar de un modo más efectivo, en 1964, se diseñaron los primeros Gestores de Base de Datos (SGDB o DBMS), por medio de los que se pretendía dar un cambio total a los sistemas de archivos. Con los DBMS surgió el concepto de administración de datos, por medio de actividades integradas que permiten verlos físicamente en un almacenamiento único pero lógicamente se manipulan a través de esquemas compuestos por estructuras donde se establecen vínculos de integridad, métodos de acceso y organización física sobre los datos, permitiendo así obtener valores agregados de utilización tales como: manejo de usuarios, seguridad, atomicidad e independencia física y lógica de los datos, entre otros.

Estos sistemas tienen su origen en el proyecto estadounidense Apolo
    El Programa Apolo comenzó en julio de 1960 cuando la NASA lo anunció, continuación de las misiones Mercury, que tendría como objetivo el sobrevuelo tripulado de la Luna para localizar una zona apropiada con vistas a un eventual alunizaje de astronautas; se cumpliría así el viejo sueño del viaje a la Luna por parte del ser humano.Los planes iniciales se vieron modificados el 25 de mayo de 1961 con el anuncio del presidente John F. Kennedy de enviar y depositar un hombre en la Luna, y traerlo de vuelta a salvo antes de que finalizara la década. La meta se alcanzó cuando el 20 de julio de 1969 Neil Armstrong y Edwin Buzz Aldrin a bordo de la Apolo 11 alunizaron en el Mar de la Tranquilidad. Este hito histórico se retransmitió a todo el planeta desde las instalaciones del Observatorio Parkes (Australia).
     de mandar al hombre a la luna, gran cantidad de información que requería el proyecto. La primera empresa encargada del proyecto, NAA (North American Aviation), desarrolló un programa denominado GUAM (General Update Access Method) que estaba basado en el concepto de que varias piezas pequeñas se unen para formar una pieza más grande, y así sucesivamente hasta que el producto final se ensambla.

El primer sistema gestor de bases de datos comercial, IDS (Integrated Data Store) de General Electric y Bull, se diseñó bajo el concepto de modelo de datos en red (Bachgman, 1965). Posteriormente se desarrolló el IMS (Information Management System) de IBM, sobre el concepto del modelo de datos jerárquico. A estos sistemas se accedía normalmente mediante lenguajes de programación como COBOL usando interfaces de bajo nivel, lo cual implicaba que las tareas de creación de aplicaciones y mantenimiento de los datos fueran controlables, aunque bastante complejas.

Durante los años ochenta aparecieron y se difundieron rápidamente los ordenadores personales. También surgió software para estos equipos monousuario (por ejemplo, dBase y sus derivados, Access), con los cuales es fácil crear y utilizar conjuntos de datos, y que se denominan personal data bases. El hecho de denominar SGBD a estos primeros sistemas para PC es un poco forzado, ya que no aceptaban estructuras complejas ni interrelaciones, ni podían ser utilizados en una red que sirviese simultáneamente a muchos usuarios de diferentes tipos. Algunos se convirtieron en auténticos SGBD. Actualmente los SGBD relacionales están en plena transformación para adaptarse a tres tecnologías de éxito reciente, fuertemente relacionadas: multimedia, orientación a objetos (OO) e internet y la web.

Sin embargo, algunas aplicaciones, no tienen suficiente con la incorporación de tipos específicos para multimedia. Necesitan tipos complejos que el desarrollador pueda definir a medida de la aplicación, en definitiva, se precisan tipos abstractos de datos (TAD). Los SGBD recientes ya incorporan esta posibilidad, y abren un amplio mercado de TAD predefinidos o librerías de clases. Esto conduce a la orientación a objetos, cuyo éxito al final de los ochenta, en el desarrollo de software básico, en las aplicaciones de ingeniería industrial y en la construcción de interfaces gráficas con los usuarios, ha hecho que durante la década de los noventa se extendiese a casi todos los ámbitos de la informática.

La amplia difusión de la web ha dado lugar a que los SGBD incorporen recursos para ser servidores de páginas web, como por ejemplo la inclusión de bases de datos SQL en páginas web en lenguaje HTML y PHP, SQL incorporado en Java, etc. Durante estos últimos años se ha empezado a extender un tipo de aplicación de las BD denominado Data Warehouse, o almacén de datos, que también produce algunos cambios en los SGBD relacionales del mercado.

Un sistema de bases de datos debe responder a las siguientes características:
  • Abstracción de la información. Ahorran a los usuarios detalles acerca del almacenamiento de los datos. Da lo mismo si una base de datos ocupa uno o cientos de archivos, este hecho se hace transparente al usuario. Así, se definen varios niveles de abstracción.
  • Independencia de los datos. Es decir, que los datos nunca dependen del programa y por tanto cualquier aplicación pueda hacer uso.
  • Reducción de la redundancia. Redundancia es la existencia de duplicación, al reducir ésta al máximo se logra un mejor aprovechamiento del espacio y además se evitan inconsistencias entre los datos. Las inconsistencias aparecen cuando nos encontramos con datos contradictorios.
  • Seguridad. Un SGBD debe permitir que tengamos un control sobre la seguridad de los datos, frente a usuarios malintencionados que intenten leer información no permitida, frente a ataques que deseen manipular o destruir la información, o simplemente ante las torpezas de algún usuario.
  • Integridad. Adoptar las medidas necesarias para garantizar la validez de los datos. Se trata de proteger los datos ante fallos de hardware, datos introducidos por usuarios descuidados, o cualquier otra circunstancia capaz de corromper la información almacenada. Los SGBD proveen mecanismos para garantizar la recuperación de la base de datos hasta un estado consistente conocido en forma automática.
  • Respaldo. Los SGBD deben proporcionar una forma eficiente de realizar copias de seguridad de la información almacenada, y de restaurar los datos que se hayan podido perder.
  • Control de la concurrencia. En la mayoría de entornos (excepto el personal), lo más habitual es que sean muchas los usuarios que acceden a una base de datos, ya sea para recuperar información o para almacenarla. Y es frecuente que dichos accesos se realicen de forma simultánea. Un SGBD debe controlar este acceso concurrente a la información, que podría derivar en inconsistencias.
  • Manejo de transacciones. Una transacción es un programa que se ejecuta como una sola operación. Esto quiere decir que el estado luego de una ejecución en la que se produce un fallo es el mismo que se obtendría si el programa no se hubiera ejecutado. Los SGBD proveen mecanismos para programar las modificaciones de los datos de una forma mucho más simple que si no se dispusiera de ellos.
  • Tiempo de respuesta. Lógicamente, es deseable minimizar el tiempo que el SGBD tarda en proporcionar la información solicitada y en almacenar los cambios efectuados.

Modelo relacional

El modelo relacional es el más utilizado para modelar problemas reales y administrar datos dinámicamente. Fue propuesto en 1970 por Edgar Frank Codd, de IBM
International Business Machines es una empresa multinacional estadounidense de tecnología y consultoría con sede en Armonk, Nueva York. Fabrica y comercializa hardware y software para ordenadores, y ofrece servicios de infraestructura, alojamiento de internet, y consultoría en una amplia gama de áreas relacionadas con la informática, desde computadoras centrales hasta nanotecnología.
Fue fundada en 1911 como Computing Tabulating Recording Corporation, el resultado de la fusión de cuatro empresas: Tabulating Machine Company, International Time Recording Company, Computing Scale Corporation, y Bundy Manufacturing Company. CTR adoptó el nombre International Business Machines en 1924, utilizando un nombre previamente designado a un filial de CTR en Canadá, y posteriormente en América del Sur.   
     en San José (California), no tardó en consolidarse como un nuevo paradigma en los modelos de base de datos. Se basa en el uso de "relaciones". Estas relaciones podrían considerarse en forma lógica como conjuntos de datos llamados "tuplas". Pese a que ésta es la teoría de las bases de datos relacionales creadas por Edgar Frank Codd, la mayoría de las veces se conceptualiza de una manera más fácil. Esto es pensando en cada relación como si fuese una tabla que está compuesta por registros (las filas de una tabla), que representarían las tuplas, y campos (las columnas de una tabla).

En este modelo, el lugar y la forma en que se almacenen los datos no tienen relevancia (a diferencia de otros modelos como el jerárquico y el de red). Esto tiene la considerable ventaja de que es más fácil de entender y de utilizar para un usuario esporádico de la base de datos. La información puede ser recuperada o almacenada mediante "consultas" que ofrecen una amplia flexibilidad y poder para administrar la información.

El lenguaje más habitual para construir las consultas a bases de datos relacionales es SQL, Structured Query Language o "Lenguaje Estructurado de Consultas", un estándar implementado por los principales motores o sistemas de gestión de bases de datos relacionales. La versión libre es muy utilizada, se denomina mySql, aunque la tendencia es usar una nueva llamada MariaDB
    Es un sistema de gestión de bases de datos derivado de MySQL con licencia GPL. Desarrollado por Michael Widenius (fundador de MySQL) y la comunidad de desarrolladores de software libre. Introduce dos motores de almacenamiento nuevos. Tiene una alta compatibilidad con MySQL ya que posee las mismas órdenes, interfaces, APIs y bibliotecas, siendo su objetivo poder cambiar un servidor por otro directamente. Este SGBD surge a raíz de la compra de Sun Microsystems -compañía que había comprado previamente MySQL AB - por parte de Oracle. MariaDB es un fork directo de MySQL que asegura que permanecerá una versión de este producto con licencia GPL. Widenius decidió crear esta variante porque estaba convencido de que el único interés de Oracle en MySQL era reducir la competencia que MySQL daba al mayor vendedor de bases de datos relacionales del mundo que es Oracle
     .

Estos últimos años se está extendiendo el modelo de BD relacional con objetos. Se trata de ampliar el modelo relacional, añadiéndole la posibilidad de que los tipos de datos sean tipos abstractos de datos, TAD. Esto acerca los sistemas relacionales al paradigma de la OO. Los primeros SGBD relacionales que dieron esta posibilidad fueron Oracle (versión 8), Informix (versión 9) e IBM/DB2/UDB (versión 5).

Modelos de bases de datos. Esquema de bases de datos, relacional, jerárquica y red

Estructura de las Bases de Datos Relacionales

Es la estructura más utilizada. Los datos están organizados en tablas:
  • Cada fila es un registro o entidad.
  • Cada columna es un campo de ese registro.
Esta estructura es similar al concepto matemático de relación, por ello ha tenido tanto auge, ya que todas las teorías y reglas matemáticas sobre relaciones son aplicables, lo que hace que sea fácil de formalizar. A la tabla se le llama relación, y a cada fila tupla; a cada columna de una tupla se le llama atributo, es en esto en lo que se diferencia del modelo matemático.

Es habitual considerar los siguientes convencionalismos:
  • Los nombres de relaciones siempre en minúsculas.
  • Cada tupla se representa por una variable de tupla.
  • Cada atributo se representa por su nombre.
  • Cardinalidad = Nº de tuplas de una relación.
  • Grado = Nº de atributos de la relación.
  • Cada atributo puede tomar valores dentro de su dominio de atributo (conjunto de valores posibles).
  • Esquema = Definición global y general de una relación.
  • El esquema de una relación se representa en letras mayúsculas: r(R) donde r sería el nombre de la relación y R el nombre del esquema.
  • Formato de un esquema: Nom_esquema = (lista de atributos con sus dominios).
  • Ejemplo:
      Alumnos = (dni: dom_dni; nombre: dom_nombre; edad: dom_edad).

      La primera letra de Alumnos es mayúscula (es un esquema).

      Instancia de una relación = Información que contiene una relación en un momento determinado.

Relaciones en bases de datos. Esquema base de datos relacional

Soportes de la información

Son los dispositivos que almacenan los datos, hay dos tipos:
  • Soportes de acceso directo a los datos (Ej.: discos). Son los más empleados.
  • Soportes de acceso secuencial (Ej.: cintas magnéticas). Se suelen usar en copias de seguridad.
Características de soportes magnéticos. Para el caso de las cintas y discos magnéticos se indican las características mínimas a conocer:

Características de las cintas
  • Densidad de grabación = número de bytes (octetos) por pulgada (una pulgada son 2.54 cm), en abreviatura bpi, que es una unidad no legal en la mayoría de los países, donde es obligatorio el uso del Sistema Internacional de Unidades
        El Sistema Internacional de Unidades (del francés Le Système International d'Unités), abreviado SI, es el sistema de unidades que se usa en casi todos los países. Es el heredero del antiguo Sistema Métrico Decimal y por ello también se conoce como «sistema métrico», especialmente por las personas de más edad y en las pocas naciones donde aún no se ha implantado para uso cotidiano.
    Se instauró en 1960, en la XI Conferencia General de Pesas y Medidas, durante la cual inicialmente se reconocieron seis unidades físicas básicas. En 1971 se añadió la séptima unidad básica: el mol.
    Una de las características trascendentales, que constituye la gran ventaja del Sistema Internacional, es que sus unidades se basan en fenómenos físicos fundamentales. Excepción única es la unidad de la magnitud masa, el kilogramo, definida como «la masa del prototipo internacional del kilogramo», un cilindro de platino e iridio almacenado en una caja fuerte de la Oficina Internacional de Pesas y Medidas.
         . Normalmente la cinta contiene varias pistas, de forma que una densidad de 800 bpi, representa tener grabados 800 caracteres por pulgada, o lo que es lo mismo 315 caracteres por centímetro.

  • Capacidad bruta = número de bytes que puede almacenar. Se calcula multiplicando la densidad de grabación (bpi) por su longitud, que suele venir dada en pies (1 pie = 12 pulgadas). Por ejemplo una cinta con una densidad de grabación de 800 bpi y una longitud de 3200 pies podrá almacenar: capacidad = 3200 * 12 * 800 = 30720000 bytes.

  • Velocidad de transferencia = número de bytes que se pasan a la CPU por segundo. Normalmente en la información de las cintas viene la velocidad de lectura/escritura en pulgadas por segundo (ips), por lo que es necesario calcular la velocidad de transferencia. Por ejemplo en una cinta con una velocidad de 75 ips con una densidad de grabación de 800 bpi, tendríamos: Velocidad de transferencia = 75 ips x 800 bpi = 60000 bps = 60 Kb/s

Características de los discos
  • Capacidad = número de bytes que puede almacenar. Viene dada en Gigabyte o Terabyte.
  • Velocidad de transferencia. Es lo mismo que para la cinta cuando la lectura se hace de forma secuencial. Viene expresada en Kb/s.
  • Tiempo medio de acceso, es el tiempo medio que se tarda en acceder a un registro. Se expresa en milisegundos. Ejemplo: 38.4 ms.
Normalmente la información que va a ser manejada con frecuencia se almacenará en discos, mientras que las cintas se suelen reservar casi exclusivamente para las copias de seguridad.

Discos magnéticos, características

Un cilindro lógico está formado por todas las pistas que tengan el mismo número en todos los discos del disco duro, como se puede ver en la imagen. Tiene importancia cuando hablamos de la velocidad en la transferencia, la información que se quiere leer simultáneamente se almacena en el mismo cilindro lógico para evitar tener que desplazar a menudo el brazo de las cabezas lectoras.

Evolución sistemas almacenamiento

Minería de datos (data mining)

La minería de datos (DM por sus siglas en inglés data mining, es la etapa de análisis de Knowledge Discovery in Databases o KDD) es el proceso de extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos, es un campo de las ciencias de la computación. Las herramientas de data mining pueden predecir futuras tendencias y comportamientos, permitiendo por ejemplo la toma de decisiones en los negocios o en la política.

El término es una palabra de moda, y es frecuentemente mal utilizado para referirse a cualquier forma de datos a gran escala o procesamiento de la información (recolección, extracción, almacenamiento, análisis y estadísticas), pero también se ha generalizado a cualquier tipo de sistema de apoyo informático decisión, incluyendo la inteligencia artificial, aprendizaje automático y la inteligencia empresarial.

La principal diferencia entre la minería de datos y las estadísticas tradicionales es que la primera consiste en trabajar con los datos de observación, mientras que la segunda comprende datos experimentales controlados. El data mining utiliza el análisis matemático para deducir los patrones y tendencias que existen en los datos. Normalmente, estos patrones no se pueden detectar mediante la exploración tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiado datos. Un ejemplo de aplicación de la minería de datos sería clasificar a los estudiantes de una universidad de acuerdo a su rendimiento académico, para posteriormente encontrar patrones ocultos y reglas que los caractericen; basados en las relaciones que se establecen entre el centro de procedencia de los estudiantes, nivel de escolaridad de los padres y región de origen con sus resultados académicos en el primer curso. Estos resultados pueden mejorar el proceso de formación y elevar la calidad de la enseñanza. Otra de las aplicaciones prácticas más habituales es analizar el comportamiento de compra en las grandes superficies para colocar ciertos productos en la misma zona, provocando un crecimiento de las ventas por impulso y asociación.

Un proceso típico de minería de datos consta de los siguientes pasos generales:
  • Selección del conjunto de datos, tanto en lo que se refiere a las variables objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables independientes (las que sirven para hacer el cálculo o proceso), como posiblemente al muestreo de los registros disponibles.
  • Análisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos (valores nulos).
  • Transformación del conjunto de datos de entrada, se realizará de diversas formas en función del análisis previo, con el objetivo de prepararlo para aplicar la técnica de minería de datos que mejor se adapte a los datos y al problema, a este paso también se le conoce como preprocesamiento de los datos.
  • Seleccionar y aplicar la técnica de minería de datos, se construye el modelo predictivo, de clasificación o segmentación.
  • Extracción de conocimiento, mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos.
  • Interpretación y evaluación de datos, una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe modificarse alguno de los pasos previos para generar nuevos modelos.
Si el modelo final no superara esta evaluación el proceso se podría repetir desde el principio o, si el experto lo considera oportuno, a partir de cualquiera de los pasos anteriores. Esta retroalimentación se podrá repetir cuantas veces se considere necesario hasta obtener un modelo válido.

En Slideshare se puede acceder a un curso sobre "Minería de datos", en http://es.slideshare.net/bemaguali/mineria-de-datos-1867890



En la web de Universidad de Toronto (Canadá) se puede encontrar este práctico Mapa de Introducción al data mining, en el se muestran organizadas las diferentes fases habituales de un proceso de minería de datos, y las técnicas o algoritmos que se pueden utilizar en cada fase. Cada fase, agrupación o algoritmo está representado en un botón en el que pulsando se accede a una página de detalle del mismo.

Data mining, procesos Data mining, procesos

Está muy difunfido un ejemplo, que no hay indicios de que sea cierto, Wal-Mart (cadena de distribución más importante en el ámbito mundial) y según otras fuenes Osco, realizó un análisis a partir de la información contenida en sus bases de datos, obteniendo relaciones en los hábitos de compras de sus clientes. En principio los resultados no eran sorprendentes, como por ejemplo relaciones de compra entre cepillos de dientes y pasta dental, o entre whisky y refrescos de cola; hasta que surgió un detalle que sorpendía. Se encontró una correlación estadísticamente significativa entre la compra de cerveza y pañales, se descubrió que los consumidores eran en su mayoría hombres de entre 25 y 35 años, y que solían realizar la compra los viernes.

Según la falsa leyenda, los resultados ayudaron a identificar y describir el fenómeno de la siguiente forma: "por ser los pañales voluminosos, las madres encargaban la compra a los padres y estos realizaban la compra a última hora. De paso compraban la cerveza para el fin de semana". Wal-Mart decidió, entonces, colocar la cerveza frente a los pañales. Los resultados fueron espectaculares. No solo las ventas aumentaron en un 15%, tanto en cerveza como en pañales, sino que además se observó los comportamientos de compra más frecuentes de los padres que compraban pañales: ellos también recordaban la falta de cerveza en casa.

Este ejemplo es falso, se trata de una recolección de datos inconexos que comienza con el descubrimiento de una supuesta correlación entre consumo de pañales y cerveza no adscrita a sexo ni a día de la semana alguno, que continúa con unos cambios en la distribución de los productos en venta que las grandes superficies nunca realizaron, y que prosigue con los supuestos buenos resultados que las grandes superficies presuntamente obtuvieron. En realidad, nada. Simplemente, una correlación inofensiva no sustentada que podría servir para ilustrar la diferencia entre la búsqueda orientada de hipótesis y la mera exploración de los datos, y que los vendedores de software suelen usar con profusión para convencer a los clientes.


Programas gratis de código abierto de minería de datos


Orange es una base de datos de minería y suite de software que cuenta con un, fácil, potente, rápido y versátil sistema de programación visual frontal-end para el análisis exploratorio de datos y su visualización. Permite enlaces de módulos en lenguaje Python y bibliotecas de secuencias de comandos. Contiene un juego completo de componentes para preprocesamiento de datos, filtrado, modelado, evaluación del modelo, y técnicas de exploración. Está escrito en C ++ y Python, y su interfaz gráfica de usuario se basa en el marco de Qt multiplataforma.

RapidMiner, antes llamado YALE (Yet Another Learning Enviroment), es un entorno para aprendizaje automático y minería de datos de los experimentos, que se utiliza para la investigación, y en el mundo real para procesar datos de tareas de minería. Permite experimentos que se componen de un gran número de operadores arbitrariamente encajables, que se detallan en los archivos XML y se hacen con la interfaz gráfica de usuario de RapidMiner, que ofrece más de 500 operadores de máquina principal para todos los procedimientos de aprendizaje, y también se combina el aprendizaje de los regímenes y los evaluadores de atributos de Weka. Está disponible como una herramienta independiente para el análisis de datos y como un motor de datos, minería de datos que se pueden integrar en sus propios productos.

Escrito en Java, Weka (Waikato Enviroment for Knowledge Analysis) es una conocida suite de software para el aprendizaje y la máquina que soporta varias tareas de minería de datos típicos, especialmente los datos del proceso previo, el agrupamiento, clasificación, regresión, visualización y selección de características. Sus técnicas se basan en la hipótesis de que los datos están disponibles en un único archivo plano o una relación, donde se etiqueta cada punto de datos por un número fijo de atributos. WEKA proporciona acceso a bases de datos SQL utilizando Java Database Connectivity y puede procesar el resultado devuelto por una consulta de base de datos. Su interfaz de usuario principal es el Explorer, pero la misma funcionalidad que se puede acceder desde la línea de comandos o a través de la interfaz basada en componentes de flujo de conocimientos.

Diseñado para científicos, ingenieros y estudiantes, jHepWork es un programa libre y de código abierto de análisis de estructura de datos que se creó como un intento de hacer un análisis de entorno de datos usando paquetes de código abierto, con una interfaz de usuario comprensible y para crear una herramienta competitiva para programas comerciales. Esto se hace especialmente para las parcelas científicas interactivas en 2D y 3D y contiene numérica bibliotecas científicas implementado en Java para funciones matemáticas, números al azar, y otros algoritmos de minería de datos. jHepWork se basa en un lenguaje de programación de alto nivel Jython, pero la codificación Java también se puede utilizar para llamar a bibliotecas jHepWork numérica y gráfica.

KNIME (Konstanz Information Miner) es de uso fácil y comprensible, y de fuente abierta de integración de datos, procesamiento, análisis, y plataforma de exploración. Ofrece a los usuarios la capacidad de crear de forma visual flujos de datos o tuberías, ejecutar selectivamente algunos o todos los pasos de análisis, y estudiar los resultados, modelos y vistas interactivas. KNIME está escrito en Java y está basado en Eclipse y hace uso de su método de extensión para apoyar plugins proporcionando así una funcionalidad adicional. A través de plugins, los usuarios pueden añadir módulos de texto, imagen, y el procesamiento de series de tiempo y la integración de varios otros proyectos de código abierto, tales como el lenguaje de programación de R, WEKA, el Kit de desarrollo de Química, y LIBSVM.

Fuente: TechSource | Fraterneo

Correlación y causalidad


Todo lo que sucede es causa de lo que antes pasó. Este principio de la Física (en virtud del cual el efecto no puede preceder a la causa), es tan cierto que, hasta en los códigos legales se recogen: En el art. 901 del Código Civil, aparece: “Un efecto es adecuado a su causa cuando acostumbra a suceder según el curso natural y ordinario de las cosas” . Como es natural, se refiere al efecto de las condiciones iniciales que marcarán las finales. Dada la abundancia de información que existe en los medios de comunicación sobre investigaciones de todo tipo, es dificultoso lograr diferenciar (discriminar) la simple correlación de datos, y la relación de causalidad entre ellos. En demasiadas ocasiones se informa sobre supuestas “pruebas científicas” y que tal causa provoca determinado efecto, cuando en la realidad se podría tratar exclusivamente de simple coincidencia en el comportamiento de los datos.

Seguidamente se muestran las correlaciones (no causaciones) entre el número de lanzamientos espaciales no comerciales frente a doctorados en sociología en EE.UU. y consumo de pollo per-cápita frente importaciones de petróleo en EE.UU.

Correlación lanzamientos espaciales no comerciales frente a doctorados en sociología
Correlación consumo de pollo frente importaciones de petróleo

Más “Correlaciones Espúreas” para divertirse, en: Spurious-correlations

En el siguiente vídeo, el profesor de la universidad de Granada Arturo Quirantes, trata sobre el Mundial 2014 (fútbol) y la causalidad.



El estudio de la correlación entre dos variables es uno de los temas que se trata en estadística. En resumen, la cuestión sería algo como lo siguiente:

    - A partir de ciertos datos obtenidos de cada una de esas variables uno estima si hay alguna relación entre ellas. La que se estudia con mayor frecuencia es la llamada regresión lineal (mediante la que se busca si hay relación lineal hay entre las variables), pero hay muchos más tipos posibles: cuadrática, exponencial, logarítmica…
    - Con esos datos se calcula una función (que, por ejemplo, en regresión lineal es una recta) que nos determina exactamente qué relación hay entre esas variables.
    - Se estudia la correlación real entre ellas (es decir, cómo de fuerte es la relación que se había estimado a partir de los datos iniciales) mediante un coeficiente de correlación.

Este coeficiente suele tomar valores entre -1 y 1, y se interpreta de la siguiente forma:
Cuanto más cerca de 1 esté, mayor correlación positiva (es decir, que cuando aumenta una también lo hace la otra) hay entre las variables.

Cuanto más cerca de -1 esté, mayor correlación negativa (es decir, que cuando aumenta una disminuye la otra) hay entre las variables.

Cuanto más cerca de 0 esté, menor correlación hay entre las variables.

Big data

Big data no es más que un derivado de todos los conceptos anteriores, uniendo tres conceptos básicos:
  • Volumen de datos: de un tamaño más que considerable.
  • Complejidad de los datos: en cuanto a su dificultad de tratamiento, lo que denomina "datos desestructurados" (imágenes, vídeo, texto, ...).
  • Velocidad de análisis, explotación y decisión: siendo el objetivo máximo el "tiempo real", minimizando el tiempo entre la entrada de información en el proceso y las decisiones.
La diferencia fundamental con la minería de datos es la velocidad de resolución, todavía está hoy en desarrollo, dado que en la actualidad la mayor parte de la información está desestructurada, y se prevé que será fundamental en los próximos cinco años, cuando su desarrollo esté más maduro y existan operadores especializados.

Big Data, bizcocho

Algunas aplicaciones de big data
  • Para seguridad en internet: por ejemplo en algunos servicios de gestión de correo en línea, tales como Gmail o Outlook (anteriormente Hotmail), cuando se tiene constancia de que se ha realizado una conexión desde un lugar no habitual, como por ejemplo si nos encontramos de vacaciones en un sitio alejado, se genera un aviso mediante el cual nos piden la confirmación de que hemos sido nosotros los que hemos conectado desde dicho lugar, para cerciorarse de la autenticidad de las credenciales del usuario.
  • Otro caso de seguridad en internet: la utilización de métodos heurísticos bayesianos para la clasificación de correo electrónico como spam.
  • En seguridad económica, cuando las entidades financieras realizan defensa contra el fraude online, en este caso el análisis de datos es fundamental para conocer comportamientos anormales en las operaciones realizadas por un cliente. Por ejemplo, si se detecta una operación anormal en la cuenta de un usuario, como que la misma implique una cantidad anormalmente alta en una compra, una transferencia no periódica con parámetros, o una compra realizada desde un lugar o comercio no habitual, se procede al aviso al usuario para comprobar la autenticidad de la misma.
  • Otro ejemplo de la utilización de la minería de datos, en seguridad es en las Smart Cities o ciudades inteligentes, por ejemplo en el caso de las compañías eléctricas, para prevenir caídas de servicio se trata de compensar las cargas de demanda de energía, desplegando una mayor oferta por el proveedor en aquellos lugares, servicios o compañías que lo demanden. Para ello es necesaria la instalación de determinados medidores que den información a las compañías y, con el tratamiento de esos datos, poder realizar los procesos de añadir mayor capacidad en determinados momentos. Además se pueden utilizar algoritmos de medición de cargas de demanda para descubrir posibles consumos fraudulentos en determinadas actividades.
  • La inversión en análisis de información se encuentra entre las prioridades de las empresas que han identificado que, mediante el estudio de los datos existentes en las organizaciones, aumenta el rendimiento empresarial. Una prueba de ello es que la inversión en big data sigue aumentando. Compañías de sectores como media y comunicación, banca y servicios, según datos de la consultora Gartner, encabezan las inversiones. Por su parte, la disciplina de Business Intelligence también tiene previsto un crecimiento del 7% de facturación en el uso de soluciones de inteligencia de negocio de código abierto, según Gartner. Además se afirma que las plataformas de análisis open source ya han alcanzado un nivel de madurez acorde al mercado.
Amazon, un ejemplo de uso de big data

Amazon ha aprovechado muy bien su big data para crear una representación muy precisa de los productos que un cliente suele comprar. Amazon logra mediante el almacenamiento de búsquedas y compras de cada cliente y casi cualquier otro elemento de información disponible, mediante la aplicación de algoritmos a esa información, comparar la información de un cliente con toda la información de los otros clientes. Amazon ha aprendido el truco clave de extraer valor de una gran cantidad de datos y ha aplicado el rendimiento y la profundidad a una enorme cantidad de datos para determinar lo que es importante y lo que es ajeno. La compañía captura exhaustivamente los datos que cualquier cliente o potencial cliente ha dejado, para construir elementos de recomendación y marketing innovador.

Los resultados son reales y medibles, y ofrecen ventajas prácticas para los clientes. Tomemos, por ejemplo, que un cliente compra una chaqueta en una región cubierta de nieve. ¿Por qué no sugerir la compra de guantes a juego, o botas, así como una pala de nieve, un disolvente del hielo, y cadenas para neumáticos? Para un vendedor en una tienda, las recomendaciones pueden venir de forma natural; para Amazon, la analítica de Big Data es capaz de interpretar las tendencias y llevar a la comprensión del proceso de compra con solo mirar lo que los clientes están comprando, quienes están comprando, y lo que han comprado en el pasado. Esos datos, junto con otros datos públicos como censo, meteorológicos, e incluso datos de las redes sociales, dan lugar a una capacidad única que brinda servicio al cliente y también a Amazon.

Lo mismo puede decirse de la red social Facebook, donde entran en juego grandes datos para características críticas tales como sugerencias de amigos, anuncios orientados, y otras recomendaciones centradas en los miembros. Facebook es capaz de acumular la información mediante el uso de análisis de reconocimiento de patrones, datos de mash-ups (aplicación que usa y combina contenido de más de una fuente, para crear un nuevo servicio simple), y varias otras fuentes de datos, como las preferencias de un usuario, la historia, y la actividad actual. Esos datos son extraídos, junto con los datos de todos los demás usuarios, para crear recomendaciones enfocadas, que suelen ser bastante exactas para la mayoría de los usuarios.

Se puede acceder al sistema de Big Data de IBM, denominado IBM Watson Analytics, donde se ofrecen distintas posibilidades, incluyendo la opción de uso gratuito. En el canal de Youtube Tuatara Tech se encuentra un tutorial del manejo de la versión de prueba del servicio de IBM.

¿Cuál es el futuro de la tecnología y el diseño impulsado por los datos masivos? En la siguiente charla científica (con subtítulos en español), TED, Kenneth Cukier observa lo que esto supone para el aprendizaje automático, y, por lo tanto, para el conocimiento humano.



Enlaces recomendados:

- Big Data, o la estadística que no se olvida de los individuos
- Google estornuda y el big data pilla la gripe


NSA

PRISM, XKeyscore, y una gran cantidad de información clasificada que es gestionada por el programa de vigilancia de la Agencia de Seguridad Nacional salió a la luz cuando Edward Snowden comenzó sus fuga en mayo de 2013. ¿Cuántos datos hay? ¿Cómo la gestiona el gobierno? ¿Qué están aprendiendo acerca de ti? Seguidamente se muestra una guía de la minería de datos efectuada por la NSA.

La mayoría de las personas se introdujeron en el arcano mundo de la minería de datos cuando el contratista, de la Agencia Nacional de Seguridad (de EE.UU.), Edward Snowden presuntamente filtró documentos secretos que detallan cómo el gobierno de EE.UU. utiliza la técnica para rastrear a terroristas. El fallo de seguridad reveló que el gobierno reúne miles de millones de piezas de datos de las llamadas de teléfonos, correos electrónicos, fotos y vídeos de Google, Facebook, Microsoft y otros gigantes de las comunicaciones, a continuación, rastrea a través de la información para obtener pistas sobre amenazas a la seguridad nacional. La revelación causó un escándalo mundial sobre la inviolabilidad de la vida privada, la necesidad de seguridad y los peligros del secreto gubernamental. La gente con razón se han preocupado porque el gobierno obtiene los datos, de todos nosotros, pero no se ha prestado la misma atención sobre lo que en realidad se hace con ellos.

    El panorama de la información

    ¿Qué cantidad de datos producimos? Un estudio realizado por IBM estima que la humanidad crea 2.5 trillones de bytes de datos cada día, (si estos bytes de datos fueran centavos situados de forma plana, darían la vuelta a la tierra cinco veces.) Este total incluye la información almacenada -fotos, vídeos, mensajes de medios sociales, archivos de procesamiento de texto, registros de las llamadas telefónicas, registros financieros, y los resultados de los experimentos- y datos que normalmente existen un momento, como el contenido de llamadas telefónicas y chats de Skype, por ejemplo.

    Información de Interés. El concepto detrás de la operación de extracción de datos de la NSA es que esta información digital puede ser analizada para establecer conexiones entre las personas, y estos vínculos pueden generar oportunidades de investigación. Sin embargo, con el fin de examinar los datos, tienen que ser recogidos de todos. Como dice el dicho de minería de datos: para buscar una aguja en un pajar, primero tienes que construir un pajar.

    Los datos deben ser etiquetados antes de que sean almacenados. La minería de datos se basa en etiquetas de metadatos que permiten a los algoritmos identificar las conexiones. Los metadatos son datos sobre los datos -por ejemplo, los nombres y tamaños de los archivos de su ordenador. En el mundo digital, la etiqueta colocada en los datos se llama etiqueta. Los datos de marcado es un primer paso necesario para la minería de datos, ya que permite a los analistas (o el software que utilizan) clasificar y organizar la información para que pueda ser registrada y procesada. El etiquetado también permite a los analistas analizar la información sin examinar su contenido. Se trata de una cuestión jurídica importante en la minería de datos de NSA porque las comunicaciones de ciudadanos estadounidenses y residentes permanentes legales en EE.UU. no pueden examinarse sin una orden judicial. Los metadatos en una etiqueta no tiene esa protección, así que los analistas los pueden utilizar para detectar comportamientos sospechosos sin temor a infringir la ley.

    Búsqueda de patrones en el ruido. La firma de análisis de datos IDC estima que sólo el tres por ciento de la información en el universo digital está marcado cuando se crea, por lo que la NSA tiene un programa de software sofisticado que pone miles de millones de marcadores de metadatos a la información que recoge. Estas etiquetas son la columna vertebral de cualquier sistema que gestiona los vínculos entre los diferentes tipos de datos, tales como video, documentos y registros telefónicos. Por ejemplo, la minería de datos podría llamar la atención de un sospechoso en una lista de vigilancia que descargue propaganda terrorista, visitas a sitios web para fabricar bombas, y además compra una olla a presión. (Este patrón coincide con el comportamiento de los hermanos Tsarnaev, acusados ​​de colocar bombas en el maratón de Boston). Esta táctica supone que los terroristas tienen perfiles de datos muy definidos, algo que dudan muchos expertos en seguridad.

    Software libre y secreto. La NSA ha sido un gran promotor de software que puede manejar grandes bases de datos. Uno de estos programas se llama Accumulo, y si bien no hay evidencia directa de que se está utilizando en el esfuerzo para controlar las comunicaciones mundiales, fue diseñado precisamente para marcado de miles de millones de piezas de datos dispares, no organizados. Es una herramienta personalizada de la agencia secreta, que se basa en la programación de Google, en realidad es de código abierto. Una compañía llamada Sqrrl la comercializa y espera que las industrias de la salud y las finanzas la van a usar para gestionar sus propios conjuntos de datos.

    Los Mineros: ¿Quién lo hace? La NSA, y el gobierno federal, está autorizado para espiar las comunicaciones extranjeras. La agencia además tiene una gran cantidad de datos, trillones de piezas de comunicación generadas por gente de todo el mundo. La NSA no persigue a los delincuentes, terroristas y espías que identifica, sino que tamiza la información en nombre de otros actores gubernamentales como el Pentágono, la CIA y el FBI. Estos son los pasos básicos: Para empezar, uno de los 11 jueces del Tribunal Secret Foreign Intelligence Surveillance (FISA) admite una solicitud de una agencia gubernamental para autorizar un registro de los datos recogidos por la NSA. Una vez autorizados, la mayoría de las aplicaciones de las solicitudes primero van a la Unidad de Vigilancia de Comunicaciones Electrónicas del FBI (ECSU), de acuerdo con diapositivas tomadas por Snowden. Agentes del FBI revisan la solicitud para asegurarse de que el objetivo no son ciudadanos estadounidenses. ECSU pasa las peticiones correspondientes a la Unidad de Tecnología del FBI, que intercepta los datos que obtiene de la información de los servidores de la compañía de internet y luego la pasa a la NSA para examinar los programas de minería de datos. (Muchas empresas de comunicación han negado que abran sus servidores a la NSA, los funcionarios federales dicen que cooperan, No está claro que es lo correcto.). La NSA luego pasa la información pertinente a la agencia gubernamental que la solicitó.

    Qué es la NSA hasta el momento

    Minería Phone-Metadata. La controversia comenzó cuando Snowden reveló que el gobierno de EE.UU. estaba recogiendo metadatos de los registros telefónicos de los clientes de Verizon, incluyendo a millones de estadounidenses. A petición del FBI, el juez Roger Vinson de la Corte FISA, emitió una resolución que obliga a la empresa a entregar sus registros telefónicos. No se recogió el contenido de la resolución, pero los funcionarios de seguridad nacional lo llaman "un sistema de alerta temprana" para la detección de complots terroristas.

    Se hace público PRISM. Snowden expuso otro esfuerzo de vigilancia de la NSA, llamado US-984XN. Cada plataforma de recogida o fuente de información en bruto se le da un nombre, llamado Signals Intelligence Activity Designator (SIGAD) y un nombre en clave. SIGAD US-984XN es más conocido por su nombre en clave: PRISM. PRISM consiste en la colección de fotos digitales, datos almacenados, transferencias de archivos, correos electrónicos, chats, videos y conferencias de vídeo de nueve empresas de internet. Funcionarios estadounidenses dicen que esta táctica ayudó a atrapar a Khalid Ouazzani, un ciudadano nacionalizado en EE.UU. que el FBI alegó que conspiraba para volar la Bolsa de Valores de Nueva York. Ouazzani estaba en contacto con un extremista conocido en Yemen, que atrajo a la atención de la NSA. Identificó a Ouazzani como posible cómplice y le dio la información al FBI, que "subió a la vigilancia electrónica e identificó sus coconspiradores", según el testimonio ante el Congreso por el subdirector del FBI Sean Joyce. (Los detalles de cómo la agencia identificó a los otros no han sido revelados.) La trama NYSE se apagó mucho antes que el FBI interviniera, pero Ouazzani y otros dos se declararon culpables de lavado de dinero para apoyar a al-Qaeda. Nunca fueron acusados ​​de nada relacionado con el complot de las bombas.

    ¿Cómo se crean los datos de minería? Las diapositivas reveladas por Snowden indican que la NSA también opera las herramientas de vigilancia en tiempo real. Analistas de la NSA pueden recibir "notificaciones en tiempo real de un evento de correo electrónico como un inicio de sesión o envío mensajes" y "notificaciones en tiempo real de una sesión de chat", dicen las diapositivas. Eso es uso muy sencillo, pero si la información en tiempo real puede detener los ataques sin precedentes está sujeto a debate. Alerta sobre el titular de una tarjeta de crédito de compras incompletos en tiempo real, es fácil, sin embargo la construcción de un modelo fiable de un ataque inminente en tiempo real es infinitamente más difícil.

    ¿Qué es XKeyscore? Snowden lanzó una presentación secreta de 32 páginas, que describe el software que puede buscar cientos de bases de datos de clientes potenciales. Snowden afirma que este programa permite a los analistas de bajo nivel acceder a las comunicaciones sin supervisión, eludiendo los controles de la corte FISA. La NSA y la Casa Blanca niegan vehementemente, y los documentos no indican ningún mal uso. Las diapositivas describen una poderosa herramienta que los analistas de la NSA pueden utilizar para encontrar enlaces ocultos en el interior de la información. "Mi objetivo es de habla alemana, pero se encuentra en Pakistán, ¿cómo puedo encontrarlo?", indica una diapositiva. Otra pregunta: "Mi objetivo utiliza Google Maps para ubicaciones de destinatarios, ¿puedo utilizar esta información para determinar su dirección de correo electrónico?" Este programa permite a los analistas realizar una consulta para buscar 700 servidores en todo el mundo a la vez, combinando diferentes fuentes para encontrar las respuestas a estas preguntas.

    ¿Hasta dónde puedo llegar con los datos?

    Falsos positivos. Los perros detectores de bombas a veces indican explosivos que no están ahí. Este tipo de error se conoce como un falso positivo. En la minería de datos, el equivalente es un programa informático para husmear un conjunto de datos y llegar a la conclusión equivocada. Esto, cuando se tiene un conjunto masivo de datos puede ser una desventaja. Cuando un programa examina trillones de conexiones entre los objetivos potenciales, incluso una muy pequeña tasa de falsos positivos es igual a decenas de miles de clientes potenciales sin salida, que los agentes deben perseguir, por no hablar de las incursiones que no sean necesarios en la vida de personas inocentes.

    Análisis para ver el futuro. ¿Alguna vez te preguntaste sobre el origen de recomendaciones de Netflix en el buzón de correo electrónico o listas de lectura sugeridas en Amazon? Los intereses previos dirigidos por un algoritmo para ofrecer productos. Las grandes empresas creen más en este tipo de márquetin que ha previsto aumentar las ventas y reducir los costos. Por ejemplo, Walmart compró una startup de análisis predictivo llamada Inkiru. La compañía elabora software que analiza datos para ayudar a los minoristas a crear campañas de márquetin para los compradores, cuando son más propensos a adquirir ciertos productos.

    ¿Reconocimiento de Patrones o Profecía? En 2011, investigadores británicos crearon un juego de simulación, y el 60 por ciento de los jugadores "terroristas" fueron detectados por un programa llamado DScent, en base a sus "compras" y "visitas" en el sitio de destino. La capacidad de un equipo para ajustar automáticamente grabaciones de seguridad de la cámara con los registros de compras puede parecer un sueño a los agentes del orden que tratan de salvar vidas, pero es el tipo de seguimiento ubicuo que alarma a los defensores de las libertades civiles. Aunque ni la NSA ni ninguna otra agencia ha sido acusadas de abusar de los datos que recoge, el miedo de la opinión pública sobre su colección permanece. La pregunta es, ¿cuánto confiar en las personas que se sientan en los teclados para utilizar esta información de manera responsable? Su respuesta determina en gran medida cómo se siente acerca de la minería de datos de la NSA.


Protección de datos

Aunque las bases de datos pueden contener muchos tipos de datos, algunos de ellos se encuentran protegidos por las leyes. En España, los datos personales se encuentran protegidos por la Ley Orgánica de Protección de Datos de Carácter Personal (LOPD). Existe un organismo, Agencia de Protección de Datos, donde tanto organismos públicos como empresas han de registrar sus bases de datos y los particulares pueden acceder para saber las bases de datos existentes. Hay un reglamento que desarrolla la ley orgánica 15/1999, que derogó el reglamento de medidas de seguridad 994/1999. Entre otras cosas regula los ficheros en papel. El siete de diciembre de 2018 entró en vigor una nueva ley (BOE seis de diciembre), de acuerdo con las directivas de la Unión Europea. A nivel autonómico también pueden existir agencias, como sucede en Cataluña.

Los ciudadanos disfrutan de una serie de derechos, con los que las empresas y organismos han de ser muy celosos:
  • Nadie puede ser obligado a declarar sus datos referidos a ideología, afiliación política o sindical, religión o creencias, origen étnico, salud o vida sexual, salvo que el propio afectado lo consienta expresamente.
  • Existe la obligación de advertir a la persona a la que se solicite cualquier tipo de datos de que tiene derecho a no prestar su consentimiento para la cesión de esos datos.
  • El consentimiento para la cesión de esos datos, aunque se realice por escrito puede ser revocado en cualquier momento.
  • Los ciudadanos tienen el derecho de consultar en el Registro General de Protección de Datos toda la información que sobre uno mismo existe y quien la tiene.
  • Si una persona es incluida en un fichero de morosos se le comunicará en un plazo máximo de 30 días. Esta información sólo se podrá guardar y ceder durante seis años.
El Comité de Ministros del Consejo de Europa, recomendó a los gobiernos de sus estados miembros, respecto a la creación de bases de datos, tanto en el sector público, como en el privado, tener en cuenta determinados aspectos, tendentes a tomar precauciones contra todo abuso o mal empleo de la información, que pueden ser resumidos de la siguiente forma:
  • La información debe ser exacta, mantenida al día, apropiada para el fin para el que fue almacenada y obtenida por medios legales.
  • Todo ciudadano tiene derecho a conocer la información almacenada sobre sí mismo.
  • Las personas que deban operar sobre las bases de datos tienen que estar bajo normas severas de conducta para el mantenimiento del secreto y para poder prevenir el mal uso de los datos.
  • La seguridad debe ser extremada al máximo para impedir el acceso a las bases de datos a personas no autorizadas o para evitar el desvío de la información, mal intencionadamente o no, hacia sitios no previstos.
  • Si la información va a ser utilizada con fines estadísticos se revelará de tal forma que sea totalmente imposible relacionarla con ninguna persona en particular.
Aunque legalmente hay mucha protección, la realidad es que las bases de datos plantean una amenaza a la privacidad por diversas razones:

  • Las redes hacen posible que la información personal se transmita prácticamente de forma instantánea a cualquier lugar del mundo. internet es un lugar donde se puede recopilar información sin ningún control.
  • Programas que nos permiten tener todas las contraseñas de manera unificada, como por ejemplo Microsoft Pasport y su tecnología .NET, consistente en almacenar en los servidores de Microsoft nuestra información, lo cual más que comodidad puede ser un peligro, con la poca seguridad que muestra para todo dicha empresa.
  • Monitorización de los entornos de trabajo, que hacen posible a los directivos de empresas que conozcan los hábitos de trabajo de los empleados, incluso saber que hace cada uno en su puesto de trabajo informático.
  • Cámaras de vigilancia, muy utilizadas por motivos de seguridad y para controlar el tráfico. Las imágenes no se pueden grabar de forma permanente. Además se ha de advertir mediante rótulos visibles de la existencia de las cámaras y forma de contactar con el responsable de ellas.
  • Satélites de vigilancia. Ofrecen información muy detalladas sobre sitios e incluso personas, dada la gran resolución alcanzada. En el futuro aumentará el control mediante los drones.
  • Control mediante teléfonos móviles celulares. Conociendo la situación de las antenas, se puede saber desde donde se efectúa una llamada con un teléfono móvil, sin necesidad de GPS (sistema de posicionamiento global). Es de utilidad para verificar llamadas a servicios de emergencia como el 112. Hay servicios que permiten tener de forma permanente ubicada a una persona, bien sea mediante la conexión Wifi o con un teléfono móvil celular.


La nueva ley de Protección de Datos regula los derechos digitales de los españoles, entre los se encuentran el testamento digital, el derecho al olvido, la rectificación en internet o la protección de los menores en las redes. Concretamente, contempla la protección de datos personales en el sector de la investigación científica y los ensayos médicos, se pone un límite de 50 euros de deuda antes de que una persona pueda ser incluida en una lista de morosos, se garantiza el derecho de desconexión laboral y se prohíbe a las empresas grabar a sus empleados en el comedor o zonas de ocio.

Un aspecto muy controvertido de la nueva ley, es que permite a los partidos políticos recabar datos personales de opiniones políticas para sus actividades electorales. El nuevo artículo ’58 bis’ establece que “la recopilación de datos personales relativos a las opiniones políticas de las personas que lleven a cabo los partidos políticos en el marco de sus actividades electorales se encontrará amparada en el interés público únicamente cuando se ofrezcan garantías adecuadas”.

Nuevo "Reglamento General de Protección de Datos" (RGPD)

El Parlamento Europeo y el Consejo aprobaron el Reglamento General de Protección de Datos,con la intención de unificar los regímenes de todos los Estados Miembros sobre la materia, entró en vigor el día 25 de mayo de 2016, si bien su cumplimiento es obligatorio desde el 25 de mayo de 2018 (junto con la nueva LOPD).

Estas son las principales novedades que establece la nueva norma en relación con el régimen de la Ley orgánica 15/1999, de Protección de Datos de Carácter Personal.

Nuevos principios

PRINCIPIO DE RESPONSABILIDAD. Habrá que implementar mecanismos que permitan acreditar que se han adoptando todas las medidas necesarias para tratar los datos personales como exige la norma. Es una responsabilidad proactiva. Las organizaciones deben ser capaces de demostrar que cumplen dichas exigencias, lo cual obligará a desarrollas políticas, procedimientos, controles, etc.

PRINCIPIOS DE PROTECCIÓN DE DATOS POR DEFECTO Y DESDE EL DISEÑO. Se deberán adoptar medidas que garanticen el cumplimiento de la norma desde el mismo momento en que se diseñe una empresa, producto, servicio o actividad que implique tratamiento de dato, como regla y desde el origen.

PRINCIPIO DE TRANSPARENCIA. Los avisos legales y políticas de privacidad deberán ser más simples e inteligibles, facilitando su comprensión, además de más completos. Incluso se prevé que, con el fin de informar sobre el tratamiento de los datos, puedan utilizarse iconos normalizados.

Nuevos derechos para los ciudadanos

TRANSPARENCIA e INFORMACIÓN. Las organizaciones, al tratar datos personales, deben proporcionar mayor información y de un modo más inteligible, completo y sencillo, lo que favorecerá la toma de decisiones por el ciudadano. Se tiene una especial consideración con los menores de edad en este punto.

CONSENTIMIENTO. El consentimiento para poder tratar datos de carácter personal ha de ser inequívoco, libre y revocable y deberá darse mediante un acto afirmativo claro. No se admite consentimiento tácito.

DERECHO AL OLVIDO. Se podrá revocar el consentimiento prestado para el tratamiento de datos personales en cualquier momento, pudiendo exigir la supresión y eliminación de los datos en redes sociales o buscadores de internet.

DERECHO A LA LIMITACIÓN DEL TRATAMIENTO. Permite al ciudadano solicitar el bloqueo temporal del tratamiento de sus datos cuando existan controversias sobre su licitud.

PORTABILIDAD DE LOS DATOS. Se permitirá al ciudadano solicitar la transferencia de los datos personales de un proveedor de servicios en Internet a otro.

DENUNCIAS. Se podrán presentar denuncias a través de asociaciones de usuarios.

INDEMNIZACIONES. Se reconoce la posibilidad de exigir indemnización de daños y perjuicios derivados del tratamiento ilícito de los datos personales.

El responsable del fichero podrá establecer un CANON a la contestación de los ejercicios del derecho de acceso, teniendo en cuentas los costes administrativos que ello le suponga.

Nuevas obligaciones para empresas, administraciones y otras entidades

En ocasiones, será obligatorio designar un Delegado de Protección de Datos (DPO), interno o externo, que asista a las organizaciones en el proceso de cumplimiento normativo. No obstante, la complejidad de la nueva norma hará muy recomendable esta figura en la inmensa mayoría de organizaciones.

En ciertos casos, se deberán realizar EVALUACIONES DE IMPACTO SOBRE LA PRIVACIDAD, que determinen los riesgos específicos que supone tratar ciertos datos de carácter personal y prevean medidas para mitigar o eliminar dichos riesgos.

Las empresas multinacionales tendrán como interlocutora a una sola autoridad de control nacional: la del establecimiento principal de la entidad. Es lo que se conoce como VENTANILLA ÚNICA.

Las BRECHAS DE SEGURIDAD deberán ser comunicadas a las autoridades de control y, en casos graves, a los afectados, tan pronto sean conocidas, estableciéndose el plazo máximo de 72 horas.

DATOS SENSIBLES: Se amplían los datos especialmente protegidos, incluyendo ahora los datos genéticos y biométricos. Se incluyen también en esta categoría las infracciones y condenas penales, aunque no las administrativas.

La SELECCIÓN de un encargado del tratamiento se endurece, puesto que habrá que elegir uno que aporte suficientes garantías de cumplimiento normativo.

GARANTÍAS ADICIONALES PARA LAS TRANSFERENCIAS INTERNACIONALES DE DATOS: Establecimiento de garantías más estrictas y mecanismos de seguimiento en relación con las transferencias internacionales de datos fuera de la Unión Europea.

SELLOS Y CERTIFICACIONES: Se prevé que se creen sellos y certificaciones de cumplimiento que permiten acreditar la Accountability por parte de las organizaciones.

DESAPARECE LA OBLIGACIÓN DE INSCRIBIR LOS FICHEROS, que se sustituye por un control interno y, en algunos casos, un inventario de las operaciones de tratamiento de datos que se realicen, que se intuye de un contenido similar al que actualmente tiene el formulario NOTA.

SANCIONES: Las cuantías de las sanciones por incumplimiento de la norma crecen, pudiendo llegar a los 20 millones de euros o el 4% de la facturación global anual (no se excluye de las multas a las Administraciones Públicas, aunque los Estados Miembros pueden acordarlo así).

Ejemplos de infracción de la Ley de Protección de Datos

Estos ejemplos están en la página "Protección de datos personales", del abogado Samuel Parra

Groupon sancionada por no informar que almacenaba los datos de las tarjetas de crédito de sus clientes

La Agencia Española de Protección de Datos ha sancionado al popular portal de ofertas con una multa de 20000 euros por almacenar el código CVV y demás datos de las tarjetas de crédito de sus clientes sin que informara de este extremo. De hecho, según ha reflejado la Agencia, Groupon informaba de lo contrario, que […]

Sancionan a un particular por no retirar cámaras de videovigilancia ficticias

La Agencia Española de Protección de Datos ha sancionado con 1500 euros a un vecino de Madrid por no retirar unas carcasas de plástico que simulaban ser cámaras de videovigilancia instaladas en la fachada de su vivienda y que enfocaban a parte de la vía pública. La Agencia de Protección de Datos viene insistiendo en […]

100000 euros de multa por enviar una carta de publicidad sin consentimiento del destinatario

Una empresa ha sido sancionada por enviar una única carta de publicidad al domicilio de la denunciante sin contar con su consentimiento. En concreto, la Agencia Española de Protección de Datos constata que la empresa que envió la carta trató los datos relativos a nombre, apellidos y dirección sin el consentimiento de su titular para […]

Multa de 200000 euros al Club Zed por su campaña de Rico al Instante

Todos los que participamos en la denuncia multitudinaria contra el Club Zed por su campaña de mensajes SMS masivos para promocionar el programa de Antena 3 “Rico al Instante” estamos de enhorabuena. La Agencia Española de Protección de Datos nos ha dado la razón y ha sancionado al Club Zed con una multa de 200000 […]

Página de inicio