“Una técnica estadística llamada vecina estocástica T-Distribuida en Tenga cada punto de datos en un mapa de dos o tridimensionales para visualizar datos de alta dimensión. Esta operación se realiza de manera similar mediante métodos de análisis de componentes principales (PCA), que también se utilizan para proyectar dimensiones más bajas de alta dimensión. Este artículo discutirá T-SNE, cómo difiere de PCA y cómo funciona en Sklearn."
¿Qué es la reducción de la dimensionalidad??
La reducción de dimensionalidad codifica datos multidimensionales (n-dimensiones) con abundantes características en 2 o 3 dimensiones. Muchas características de entidad que deben clasificarse se utilizan en problemas de clasificación de aprendizaje automático. El entrenamiento de visualización de datos sería más complejo, y los requisitos de almacenamiento aumentarían a medida que se utilizaran más características. Estas características están frecuentemente conectadas. Como resultado, el número de características se puede reducir. El número de características se puede bajar si resulta que las tres características usadas están conectadas. Si solo se necesita una característica, los datos repartidos por el espacio 3D se pueden proyectar en una línea para producir datos 1D o en un plano 2D si se necesitan dos características.
Que es t-sne?
Los datos de alta dimensión se proyectan en dimensiones más bajas utilizando el enfoque de aprendizaje automático no supervisado conocido como vecino estocástico de T-Distribuido (T-SNE), creado en 2008 por Laurens van der Maaten y Geoffery Hinton. Se emplea principalmente para la exploración de datos y la visualización de datos de alta dimensión. T-SNE lo ayuda a comprender la organización de los datos en un espacio de alta dimensión.
¿Cómo funciona T-sne??
La distribución de probabilidad de los vecinos que rodean cada punto se modela utilizando el algoritmo T-SNE. El grupo de puntos que están más cerca de cada punto en este contexto se conoce como vecinos. El modelo para esto en el espacio original de alta dimensión es una distribución gaussiana.
Se utiliza una distribución en T para simular esto en el espacio de salida bidimensional. El objetivo de esta técnica es encontrar un mapeo en el espacio 2-D que minimice las disparidades entre los puntos generales de estas dos distribuciones. El factor principal que influye en el ajuste se conoce como confusión. El número de vecinos más cercanos considerados al igualar las distribuciones originales y ajustadas para cada punto es generalmente equivalente a la complejidad.
¿En qué se diferencia PCA de T-sne?
PCA | t-sne |
Es una técnica lineal para la reducción de la dimensión. | Es una técnica no lineal para la reducción de la dimensión. |
Hace un esfuerzo para mantener la estructura general de los datos. | Hace un esfuerzo para mantener la estructura local de los datos |
No hay hiperparámetros involucrados | Esto implica hiperparámetros como la perplejidad, la tasa de aprendizaje y el número de pasos. |
No maneja bien los valores atípicos | Puede manejar valores atípicos. |
Implementación de T-SNE en Sklearn
# Importar bibliotecas
importar numpy como np
de Sklearn.Manifold importación tsne
# Crear el conjunto de datos
X = NP.Array ([[0, 0, 0, 1], [0, 1, 1, 1], [1, 0, 1, 0], [1, 1, 1, 0]])
# proyectar los datos a dimensiones más bajas
X_projected = tsne (n_components = 2, aprendizaje_rate = 'auto', init = 'aleatorio', perplejidad = 3).Fit_transform (x)
imprimir ("La nueva forma de los datos es", x_projected.forma)
Producción
La nueva forma de los datos es (4, 2)
Conclusión
Aprendimos sobre el algoritmo T-SNE, que se utiliza para convertir los datos de alta dimensión en más bajo y, en última instancia, visualizarlos fácilmente. También vimos por qué necesitamos algoritmos de reducción de dimensionalidad y cómo T-SNE es diferente de sus algoritmos alternativos: PCA. También implementamos T-SNE en Sklearn utilizando el módulo "colector" y los datos 4 dimensionales proyectados en 2 dimensiones.