Análisis de Cluster o de conglomerados

Análisis de Cluster o de conglomerados

El Análisis Cluster, también llamado segmentación de datos, tiene una variedad de objetivos que se relacionan con la agrupación o segmentación de una colección de objetos (es decir, observaciones, individuos, casos o filas de datos) en subconjuntos o clústeres. Estos clusters están agrupados de tal forma que las observaciones incluidas en cada clúster están más relacionadas entre sí que los objetos asignados a diferentes clusters. El objetivo más importante del Análisis Clusten es la noción del grado de similitud (o desemejanza) entre los objetos individuales que se agrupan.

 

Aplicaciones del análisis

  • En estadísticas, conjunto de herramientas y algoritmos que se utiliza para clasificar diferentes objetos en grupos de tal forma que la similitud entre dos objetos es máxima si pertenecen al mismo grupo y de lo contrario es mínima.
  • En biología, el análisis de conglomerados es una herramienta esencial para la taxonomía (la clasificación de organismos vivos y extintos).
  • En medicina clínica, se puede utilizar para identificar pacientes que tienen enfermedades con una causa común, pacientes que deben recibir el mismo tratamiento o pacientes que deben tener el mismo nivel de respuesta al tratamiento.
  • En la epidemiología, el análisis de conglomerados tiene muchos usos, como encontrar conglomerados significativos de regiones, comunidades o vecindarios con perfiles epidemiológicos similares cuando se involucran muchas variables y no existen agrupaciones naturales.

En general, cuando se necesita clasificar grandes cantidades de información en un pequeño número de categorías significativas, el análisis de conglomerados puede ser útil.

 

Los investigadores a menudo se enfrentan a la tarea de clasificar los datos observados en estructuras significativas. El análisis de conglomerados es una técnica exploratoria inductiva en el sentido de que descubre estructuras sin explicar las razones de su existencia. Es una técnica que genera hipótesis, en lugar de una prueba de hipótesis. A diferencia del análisis discriminante, donde los objetos se asignan a grupos preexistentes sobre la base de reglas estadísticas de asignación, el análisis de clúster genera los grupos o descubre una estructura oculta de grupos dentro de los datos.

Aplicaciones del análisis

Clasificación De Métodos

En un primer enfoque amplio, las técnicas de análisis Clusten pueden clasificarse como jerárquicas, si la agrupación resultante tiene un número creciente de clases anidadas que se asemejan a una clasificación filogenética, o no jerárquica, si los resultados se expresan como una partición única de todo el conjunto de objetos.

 

Los algoritmos jerárquicos pueden ser divisivos aglomerante. Un método divisivo comienza con todos los casos en un grupo. Ese grupo se divide gradualmente en grupos cada vez más pequeños. Las técnicas aglomerativas generalmente comienzan con clústeres de un solo miembro que se fusionan sucesivamente hasta que se forma un gran grupo. En el paso inicial, los dos objetos con la distancia más baja (o la similitud más alta) se combinan en un clúster. En el siguiente paso, se identifica y estudia el objeto con la distancia más baja a cualquiera de los dos primeros. Si está más cerca de un cuarto objeto que de cualquiera de los dos primeros, los objetos tercero y cuarto se convierten en el segundo grupo de dos casos; de lo contrario, el tercer objeto se incluye en el primer clúster. El proceso se repite, agregando casos a clústeres existentes, creando nuevos clústeres o combinando aquellos que han surgido hasta que cada objeto ha sido examinado y asignado a un clúster o se encuentra como un clúster separado por sí mismo. En cada paso del proceso, se forma una partición diferente que está anidada en la partición generada en el siguiente paso. Por lo general, el investigador elige la partición que resulta ser más significativa para una aplicación en particular.

 

La distancia y la similitud Cluster

La distancia y la similitud ClusterLa distancia y la similitud son conceptos clave en el contexto del análisis de Clusten. La mayoría de los algoritmos, particularmente aquellos que producen particiones jerárquicas, comienzan con una matriz de distancia o similitud. Las entradas de celda de esta matriz son distancias o similitudes entre pares de objetos. Hay muchos tipos de distancias, de las cuales la más común es la distancia euclidiana. La distancia euclidiana entre dos objetos cualquiera es la raíz cuadrada de la suma de los cuadrados de las diferencias entre todas las coordenadas de los vectores que definen cada objeto. Se puede usar para variables medidas en una escala de intervalo. Cuando se usan dos o más variables para calcular la distancia, la variable con mayor magnitud dominará. Para evitar eso, es una práctica común primero estandarizar todas las variables.

 

La elección de un tipo de distancia es crucial para todos los algoritmos de agrupamiento jerárquico y depende de la naturaleza de las variables y la forma esperada de los clusters. Por ejemplo, la distancia euclidiana tiende a producir agrupaciones esféricas. Otras distancias comúnmente utilizadas incluyen la distancia de Manhattan, la distancia de Chebyshev, la distancia de potencia y el porcentaje de desacuerdo.

 

  • La distancia de Manhattan se define como la distancia promedio entre las variables. En la mayoría de los casos, produce resultados similares a la simple distancia euclidiana. Sin embargo, el efecto de grandes diferencias únicas (valores atípicos) se atenúa (ya que no están al cuadrado).

 

  • La distancia de Chebyshev puede ser apropiada cuando los objetos que difieren en una sola variable deben considerarse diferentes. La distancia de potencia se utiliza cuando es importante aumentar o disminuir el peso progresivo asignado a las variables en las que los objetos respectivos son muy diferentes.

 

  • La distancia de potencia está controlada por dos definidos por el usuario parámetros, r y p. El parámetro p controla el peso progresivo que se coloca sobre las diferencias en las variables individuales, mientras que el parámetro r controla el peso progresivo que se coloca en las diferencias más grandes entre los objetos. Si r y p son iguales a 2, entonces esa distancia es igual a la distancia euclidiana.
  • El porcentaje de desacuerdo se puede usar cuando los datos consisten en variables categóricas.

 

Reglas De VinculaciónReglas De Vinculación

Cuando los clusters se componen de un solo objeto, la distancia entre ellos se puede calcular con cualquiera de las distancias mencionadas anteriormente. Sin embargo, cuando los clusters están formados por dos o más objetos, se deben definir reglas para calcular esas distancias.

 

La distancia entre dos clústeres se puede definir como la distancia entre los dos objetos más cercanos en los dos grupos. Conocida como la regla del vecino más cercano, este enfoque encadena objetos y tiende a formar grupos en forma de cadena.

 

Otras reglas de vinculación populares son el promedio del grupo de pares y el centroide del grupo de pares. La primera de esas reglas se define como la distancia promedio entre todos los pares de objetos en los dos grupos diferentes. Ese método tiende a formar grupos naturales distintos de objetos. El centroide del grupo de pares es la distancia entre los centroides o centros de gravedad de los conglomerados.

 

La técnica de agrupación no jerárquica más frecuentemente utilizada es el algoritmo k- medio, que está inspirado en los principios del análisis de la varianza. De hecho, puede considerarse como un análisis de varianza en reversa. Si el número de clusters se fija como k, el algoritmo comenzará con k clusters aleatorios y luego moverá objetos entre ellos con el objetivo de minimizar la variabilidad dentro de los clusters y maximizar la variabilidad entre clusters.

 

Análisis de Cluster o de conglomerados
Vota este artículo

¡Comparte ahora en redes sociales!
Publicado por el .

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *