Análisis de Componentes Principales

Análisis de Componentes PrincipalesEl Análisis de Componentes Principales o ACP es un método estadístico detallado que emplea una transformación ortogonal para convertirla o transformarla a un conjunto de observaciones de variables probablemente correlacionadas en un conjunto de valores de variables linealmente no correlacionadas comúnmente llamadas componentes principales o modos principales de variación.

 

El Análisis de Componentes Principales es utilizado por casi todas las disciplinas científicas y es probablemente la técnica estadística multivariada más popular. ACP se aplica a una tabla de datos que representa las observaciones observadas por varias variables dependientes que, en general, están interrelacionadas. El objetivo es extraer la información relevante de la tabla de datos y expresar esta información como un conjunto de nuevas variables ortogonales. ACP también representa el patrón de similitud en las observaciones y las variables, mostrándolas como puntos en los mapas.

 

El número de componentes principales es menor o igual que el número de variables originales o el número de observaciones. Esta transformación se define de tal manera que el primer componente principal tiene la mayor varianza posible (es decir, representa la mayor variabilidad posible en los datos), y cada componente sucesivo a su vez tiene la mayor varianza posible bajo la restricción que es ortogonal a los componentes anteriores. Los vectores resultantes forman un conjunto ortogonal no correlacionado.

 

En pocas palabras, podemos decir que la ACP es el análisis multivariante basado en vectores propios más simple, y a menudo se utiliza como un método para revelar la estructura interna de los datos de una manera que mejor explica su varianza. Los siguientes son algunos de los objetivos de la técnica de ACP:

 

  • Reducción de dimensionalidad.
  • Determinación de combinaciones lineales de variables.
  • Selección de características o características: la elección de las variables más útiles.
  • Visualización de datos multidimensionales.
  • Identificación de las variables subyacentes.
  • Identificación de grupos de objetos o valores atípicos.

 

Etapas de un análisis de componente principal

Etapas Análisis de Componentes Principales

  • Análisis de la matriz de correlaciones

Un análisis de componentes principales adquiere valor si existen grandes correlaciones entre las variables, ya que esto muestra de que existe información repetida y, por lo que, pocos factores explicarán gran parte de la variabilidad total.

 

  • Selección de factores

La selección de los factores se efectúa de tal forma que el primero acumule la mayor proporción posible de la variabilidad original; el segundo factor debe acumular la máxima variabilidad posible no acumulada por el primero, y así continuamente. Del total de factores se preferirán aquéllos que acumulen el porcentaje de variabilidad que se suponga suficiente. A éstos se les llamará componentes principales.

 

  • Análisis de matriz factorial

Seleccionados los componentes principales, se muestran en forma de matriz. Cada uno de los elementos de ésta constituye los coeficientes factoriales de las variables (las correlaciones entre las variables y los componentes principales). La matriz poseerá tantas columnas como componentes principales y tantas filas como variables.

 

  • Interpretación de los factores

Para que un factor sea cómodamente interpretable debe poseer las siguientes particulares, que son algo difíciles de conseguir:

  1. Los coeficientes factoriales tienen que ser próximos a 1.
  2. Una variable debe poseer coeficientes elevados sólo con un factor.
  3. No deben hallarse factores con coeficientes similares.

 

  • Calculo de las puntuaciones factoriales

Las puntuaciones que poseen los componentes principales para cada uno de los casos, que nos permitirán su representación gráfica.

Se calculan por medio de la expresión:

Xij = ai1 . Z1j +…+ a1k . Zkj = ∑ ais . Zsk

Las a son los coeficientes y las Z son los valores estandarizados que poseen las variables en cada uno de los sujetos de la muestra.

 

Análisis de componente principal computarizado

Análisis de Componentes Principales computarizado

A continuación se muestran las características principales del análisis de componente principal por medio de programas computarizados.

  1. El objetivo del Análisis de componente principal computarizado es resumir las correlaciones entre un conjunto de variables observadas con un conjunto más pequeño de lineal combinaciones.

Entonces, el primer paso que el software hace es crear una matriz de correlación o covarianza de esas variables y basar todo lo demás en él. Algunos programas de software le permiten usar una matriz de correlación o covarianza como un conjunto de datos de entrada.

Esto es muy útil si no tiene los datos originales o si le faltan datos. En el caso de datos faltantes, puede usar las estimaciones EM imparciales de la matriz de correlación como entrada.

 

  1. Debido a que el software trata de capturar la varianza total en el conjunto de variables, El software requiere que las variables de entrada tengan escalas de medición similares.

Si las variables observadas son todas un conjunto de elementos no hay problema. Todos se miden en la misma escala y las varianzas serán relativamente similares.

 

  1. El valor propio de cada componente representa la cantidad de varianza que explica. El análisis de componentes principales, por definición, crea la misma cantidad de componentes que variables originales. Pero por lo general, solo unos pocos capturan suficiente variación para ser útiles.

 

Cuando se dice que se tiene una solución de dos componentes, en realidad se está diciendo que los primeros dos componentes capturan suficiente varianza en el conjunto completo de variables para ser útiles. Estos componentes están ordenados en términos de la cantidad de varianza que cada uno explica.

 

El primero explica la mayor varianza, el segundo explica el siguiente. La varianza que cada uno explica se mide por su valor propio, que se escala en términos de «número de variables que valen la varianza».

 

Cómo funciona el análisis de componente principal computarizado

El Análisis de Componentes Principales se hace mediante un algoritmo que reduce la dimensionalidad (número de características) dentro de un conjunto de datos sin perder la mayor cantidad de información posible. Reduce la dimensionalidad al encontrar un nuevo conjunto de características llamadas componentes, que son compuestos de las características originales, pero que no están correlacionadas entre sí. El primer componente representa la mayor variabilidad posible en los datos, el segundo componente, la segunda mayor variabilidad, y así sucesivamente.

Análisis de Componentes Principales Computarizado

Es un algoritmo de reducción de dimensionalidad no supervisado. Las etiquetas que pueden estar asociadas con los objetos en el conjunto de datos de capacitación no se utilizan.

 

Dada la entrada de una matriz con filas de cada dimensión, los datos se dividen en minilotes de filas y se distribuyen entre los nodos de capacitación. Luego se  calcula un resumen de sus datos. Los resúmenes se unifican en una única solución al final del cálculo.

 

Modos:

El algoritmo de ACP utiliza cualquiera de los dos modos para calcular estos resúmenes, según la situación:

  • regular: para conjuntos de datos con datos dispersos y un número moderado de observaciones y características.

 

  • Aleatorizado: para conjuntos de datos con un gran número de observaciones y características. Este modo usa un algoritmo de aproximación.

 

Como último paso del algoritmo, realiza la descomposición del valor singular en la solución unificada, a partir de la cual se derivan los componentes principales.

Análisis de Componentes Principales
Vota este artículo

¡Comparte ahora en redes sociales!
Publicado por el .

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *