Tema 10 Introducción a las  técnicas de clasificación. Generación de clases


La elaboración de una clasificación del área de estudio en una serie de clases relativas a litología, tipos de vegetación, usos del suelo, etc., es uno de los objetivos fundamentales en teledetección.

La clasificación en teledetección es un caso particular del problema general de clasificar N individuos en un conjunto de K clases en función de una serie de variables (X1, X2,...,Xn). Para resolver este problema se necesita una medida de la semejanza o diferencia entre los diferentes individuos y entre los individuos y las clases. Dos individuos muy parecidos pertenecerán con toda seguridad a la misma clase, mientras que dos individuos distintos pertenecerán a diferentes clases. La medida más utilizada es la distancia euclidiana:
 
 

 
\begin{displaymath}d_{i,j}=\sqrt{\sum_{v=1}^n{(X_{vi}-X_{vj})^2}}\end{displaymath} (20)
aunque pueden utilizarse otro tipo de distancias. Para estimar los valores de X1, X2,...,Xn para las diferentes clases se utiliza la media aritmética de los valores de los pixels incluidos en la clase.

Puesto que en la práctica no podemos saber con certeza a que clase corresponde cada uno de los pixels, el problema de la clasificación se convierte en un problema de probabilidad de pertenencia a cada una de las clases de un conjunto, por tanto se suelen usar métodos estadísticos.

La clasificación conlleva dos pasos fundamentales:


Suponiendo que los datos han pasado ya todo tipo de correcciones de tipo geométrico o atmosférico, existen dos métodos complementarios para afrontar el problema de la generación de clases, estos son válidos tanto en imágenes de satélite como en cualquier otro campo.

En realidad suelen utilizarse ambos procedimientos ya que son complementarios. La clasificación supervisada utiliza nuestro conocimiento del terreno pero si este conocimiento no es perfecto pueden escaparse cosas que una clasificación no supervisada detectaría.

Generalmente el proceso de clasificación conlleva las siguientes etapas:

Clasificación no supervisada


Se utilizan algorítmos de clasificación automática multivariante como el clustering. Este consta de N pasos siendo N el número total de individuos a clasificar.

Figura 1: Dendrograma obtenido a partir de los pixels de las áreas de entrenamiento
\includegraphics[width=0.75\textwidth]{fig6.ps}

 

En cada paso se identifican los dos individuos más próximos, se hace una clase con ellos y se sustituyen por el centroide de la clase resultante. De este modo cada paso analiza un individuo menos que el anterior ya que los individuos van siendo sustituidos por clases. El proceso se detiene cuando se ha alcanzado un número de clases igual al número de clases que habia sido establecido a priori.

El resultado final de un proceso de clustering suele ser un dendrograma (figura 1) en el que puede verse como los diversos individuos se aglutinan en clases, primero los que estan a un menor distancia (los mas parecidos), y como posteriormente las clases se unen entre si. A partir de un dendrograma podemos elegir el número de clases que queremos mantener en función de diferentes criterios.

El dendrograma de la figura 1 se ha construido con los valores que aparecen en la figura 2. Pueden verse claramente los 3 grupos que se han identificado en aquella figura.

Cuando se utiliza en teledetección se clasifican todos los pixels, por tanto la salida no puede ser un dendrograma por razones prácticas. La salida es un mapa en el que los pixels aparecen adjudicados a las diferentes clases. Por tanto debemos elegir a priori el número de clases que queremos, este número debe ser elevado ya que siempre podremos a posteriori unir aquellas clases que no tenga sentido mantener separadas.

Un análisis de cluster tampoco nos da las signaturas espectrales de las clases que se han creado, para ello deben utilizarse otras herramientas de SIG. Si se obtienen las medias de las distintas clases para las distintas bandas espectrales, podran introducirse en un programa de estadística para reconstruir el dendrogama y poder unificar clases.
 

Clasificación no supervisada con GRASS


El módulo de GRASS que permite realizar un algorítmo de clustering es i.cluster. Como parámetros, hay que intrroducir los nombres del grupo y subgrupo de imágenes, el fichero donde se van a guardar las signaturas espectrales para que otros programas los puedan leer posteriormente (sigfile) y el número de clases que queremos discriminar (classes). Tambien es posible generar un fichero de texto con un informe sobre los resultados del proceso de clasificación (reportfile).

Ejemplo:

i.cluster group=imagen subgroup=imagenclas sigfile=signaturasnosup classes=20 reportfile=informe

Una vez que se ha ejecutado este comando podemos ver sus resultados editando el fichero que contiene el informe:

emacs informe

Clasificación supervisada

La clasificación supervisada se basa en la disponibilidad de areas de entrenamiento. Estas deben ser areas lo más homogeneas posibles y en las que sepamos lo que había el día que se tomó la imagen. Por ello esta opración se realiza el mismo día en el que el satélite toma la imagen y luego se compra esta. Otra posibilidad es utilizar fotografía aerea o información de otro tipo.

Para entender mejor los conceptos básicos de la clasificación y los diferentes métodos, vamos a suponer que disponemos sólo de dos bandas de landsat (TM3 y TM4) para realizar la clasificación. Esto permite la representación gráfica de los diferentes procedimientos, con lo que la distancia euclidiana pasa a ser simplemente la distancia sobre el plano, figura 2. Los pixels representados con tres colores diferentes corresponden a tres clases diferentes obtenidas a partir de las areas de entrenamiento. La respuesta espectral de una clase será la respuesta espectral media de sus pixels.
 


\includegraphics[width=0.75\textwidth]{fig1.ps}

                                                                      Figura 2: Distribución de los pixels de las diferentes áreas de entrenamiento.

Sin embargo, puesto que hemos creado las signaturas espectrales con varios pixels de una misma clase, lo que obtenemos no es una signatura en la que a cada banda se asigna un valor de reflectividad, sino una distribución de reflectividades para cada banda con una serie de estadísticos, los más relevantes para el análisis posterior son:

Clasificación supervisada con GRASS


Evidentemente el primer paso sería la búsqueda de areas de entrenamiento. Disponemos de un mapa en el que aparecen algunas areas de entrenamiento ya seleccionadas. El fichero se llama training y lo podemos ver y consultar con:

d.rast training
d.what.rast

El módulo de GRASS que nos va a permitir hace clasificación supervisada es i.gensig. Requiere los mismos parámetros que i.cluster salvo el número de clases, que ahora se sustituye por el mapa que contiene las areas de entrenamiento (trainingmap).  No se generan informes.

i.gensig trainingmap=training group=imagen subgroup=imagenclas signaturefile=signaturasup