ITERATIVE MULTIPLE COMPONENT ANALYSIS WITH AN ENTROPY-BASED DISSIMILARITY MEASURE

Vincent Vigneron

Resumen


ABSTRACT

In this paper we study the notion of entropy for a set of attributes of a table and propose a novel method to measure the dissimilarity of categorical data. Experiments show that our estimation method improves the accuracy if the popular unsupervised Self Organized Map (SOM), in comparison to Euclidean or Mahalanobis distance. The distance comparison is applied for clustering of multidimensional contingency tables. Two factors make our distance function attractive: first, the general framework which can be extended to other class of problems; second, we may normalize this measure in order to obtain a coefficient similar for instance to the Pearson’s coefficient of contingency. .

Key words. Categorical data, Self Organized Map, clustering

RESUMEN

En este trabajo estudiamos la noción de entropía para un conjunto de atributos de una tabla y proponemos un novedoso método para medir la disimilitud de datos categóricos. Experimentos muestran que nuestro método de estimación mejora la acuracidad si el popular Self Organized Map (SOM) no supervisado, en comparación al las distancias Euclidiana o de Mahalanobis. La comparación de las distancias es aplicado para el clustering de tablas multidimensionales de contingencia. Dos factores hacen de nuestra función de distancia atractiva: primero, el marco de trabajo general el que puede ser extendido a otras clases de problemas; segundo, puede normalizar esta medida para obtener un coeficiente similar por ejemplo para el coeficiente de Pearson de contingencia


Texto completo:

PDF

Enlaces refback

  • No hay ningún enlace refback.