¿Qué es la serie de tiempo?

¿Qué es la serie de tiempo?

El análisis de la serie temporal es una técnica prominente de análisis de datos exploratorios de aprendizaje automático que nos permite ver cómo cambian los puntos de datos con el tiempo. Varios estados de problemas basados ​​en series temporales, como pronóstico de ventas de boletos, análisis de precios de acciones, etc. La serie de tiempo podría exhibir una variedad de tendencias que son difíciles de analizar simplemente mirando la trama. Como resultado, agrupar las tendencias de la serie temporal es una buena idea. Veremos qué es una serie de tiempo, qué es la agrupación y cómo agrupar datos de series de tiempo.

¿Qué es la serie de tiempo??

Una serie de tiempo es una colección de punteros de datos agrupados en orden del tiempo. Los puntos de datos representan una actividad que ocurre durante un período de tiempo. Un ejemplo común es el número total de acciones negociadas en un intervalo de tiempo determinado, junto con otros parámetros, como los precios de las acciones y su información comercial respectiva en cada segundo. A diferencia de una variable de tiempo continuo, estos puntos de datos de la serie de tiempo tienen valores discretos en varios momentos en el tiempo. Como resultado, las variables de datos discretas se utilizan con frecuencia. Los datos para una serie de tiempo se pueden recopilar durante cualquier tiempo, desde unos minutos hasta varios años. El tiempo sobre el cual se recopilan los datos no tiene límite inferior o superior. Hay varios problemas de predicción basados ​​en series temporales en el aprendizaje automático y el aprendizaje profundo, como predecir el precio de las acciones de una empresa, el reconocimiento de la actividad humana, la predicción de la cantidad de boletos de avión, etc. Esto ahorra mucho dinero y ayuda a las empresas a tomar decisiones cuidadosas antes de invertir en algo. El gráfico de ejemplo se da a continuación muestra la variación de las observaciones con el tiempo.

Que es la agrupación?

La agrupación es un tipo de técnica de aprendizaje de aprendizaje automático. Las conclusiones se adquieren de conjuntos de datos que no tienen variables de salida etiquetadas en el método de aprendizaje no supervisado. Es un tipo de análisis de datos exploratorios que nos permite ver conjuntos de datos multivariados.

La agrupación es el enfoque de aprendizaje automático o matemático en el que los puntos de datos se agrupan en un número especificado de grupos con características similares entre los puntos de datos dentro de cada clúster. Los grupos están formados por puntos de datos agrupados para que el espacio entre ellos se mantenga al mínimo. La forma en que se producen los grupos se determina por el tipo de algoritmo que elegimos. Debido a que no hay criterio para una buena agrupación, las conclusiones extraídas de los conjuntos de datos también dependen de qué y cómo el usuario está desarrollando el algoritmo de agrupación. La agrupación se puede utilizar para abordar problemas como la segmentación del cliente, los sistemas de recomendación, la detección de anomalías, etc. El enfoque de agrupación de K-means, en el que no tenemos etiquetas y debemos colocar cada punto de datos en su propio clúster, puede ser reconocible para usted. Un enfoque de agrupación destacado es K-means. La siguiente figura muestra cómo agrupamos diferentes puntos de datos con las mismas características en el mismo clúster.

¿Qué es la clúster de la serie temporal??

La técnica de agrupación de la serie temporal es un enfoque de procesamiento de datos no supervisado para clasificar los puntos de datos en función de su similitud. El objetivo es maximizar la similitud de datos entre los clústeres al tiempo que lo minimiza. Una técnica básica en la ciencia de datos para la identificación de anomalías y el descubrimiento de patrones es la agrupación de series de tiempo, que se utiliza como subrutina para otros algoritmos más complicados. Esta técnica es particularmente útil al analizar las tendencias en conjuntos de datos muy grandes de series de tiempo. No podemos diferenciar las tendencias simplemente mirando la trama de la serie temporal. Aquí es donde puedes agrupar las tendencias. Las diferentes tendencias se agruparán en diferentes grupos.

Kernel K significa

La técnica del núcleo se refiere a la transformación de datos en otra dimensión con un borde de separación distinto entre grupos de datos no lineal separables. La técnica de kernel k-means utiliza el mismo truco que K-means, excepto que el método del núcleo se usa para calcular la distancia en lugar de la distancia euclidiana. Cuando se aplica al algoritmo, el enfoque del núcleo puede encontrar estructuras no lineales y es más adecuado para conjuntos de datos del mundo real.

K Medios para la agrupación de series de tiempo

El método más frecuente de la agrupación de series de tiempo es la media K. El enfoque común es aplanar los datos de la serie temporal en una matriz 2-D, con cada columna para cada índice de tiempo, y luego usar algoritmos de agrupación estándar como K-means para agrupar los datos. Sin embargo, las mediciones de distancia de los algoritmos de agrupación típicos, como la distancia euclidiana, son frecuentemente inapropiadas para series de tiempo. Una forma preferible es usar una métrica para comparar las tendencias de la serie temporal en lugar de la medida de distancia predeterminada. Una de las técnicas más populares utilizadas para esto es la deformación de tiempo dinámico.

Deformación de tiempo dinámico

A pesar de que una señal está cambiada por el tiempo del otro, la deformación de tiempo dinámico permite que un sistema compare dos señales y busque similitudes. Su capacidad para verificar los artefactos del habla conocidos, independientemente del tempo del hablante, también lo hace útil para los problemas de reconocimiento de voz. Por ejemplo, si hay dos matrices: [1, 2, 3] y [4, 5, 6], calcular la distancia entre ellas es fácil, ya que simplemente puede hacer una resta en el elemento y agregar todas las diferencias. Sin embargo, no será fácil una vez que el tamaño de las matrices sea diferente. Podemos considerar estas matrices como la secuencia de señales. El componente "dinámico" sugiere que la secuencia de señal se puede mover de un lado a otro para buscar una coincidencia sin acelerar o ralentizar toda la secuencia. Si la deformación del tiempo se estira o se reduce una banda de goma, DTW se extiende o se reduce esa banda de goma para que se ajuste a los contornos de una superficie. A continuación se muestra la representación visual de DTW.

Pasos para la deformación de tiempo dinámico

  1. Hacer un número igual de puntos en cada una de las dos series.
  2. Usando la fórmula de distancia euclidiana, calcule la distancia entre el primer punto en la primera serie y cada punto de la segunda serie. Guardar la distancia mínima calculada.
  3. Moverse al segundo punto y repetir 2. Vaya paso a paso junto con los puntos y repita dos hasta que se completen todos los puntos.
  4. Tome la segunda serie como punto de referencia y repita 2 y 3.
  5. Agregue todas las distancias mínimas almacenadas para una verdadera estimación de similitud entre las dos series.

Implementación de DTW en Python

de fastdtw import fastdtw
De Scipy.espacial.Importación de distancia Euclidiana
Sig1 = NP.Array ([1, 2, 3, 4])
Sig2 = NP.Array ([1, 2, 2, 4, 4, 5])
Distancia, ruta = FastDTW (Sig1, Sig2, Dist = Euclidean)
Imprimir (distancia)
Imprimir (ruta)

Casos de uso de clúster de series de tiempo

  1. Utilizado en la detección de anomalías para rastrear tendencias poco comunes en serie.
  2. Utilizado en el reconocimiento de voz.
  3. Utilizado en la detección de valores atípicos.
  4. Utilizado en aplicaciones biológicas, incluido el reconocimiento de ADN.

Conclusión

Este artículo revisó la definición de series de tiempo, agrupación y combinación de las tendencias de la serie temporal de dos a clúster. Pasamos por un método popular para esto llamado Dynamic Time Warring (DTW) y los procesos e implementación involucrados en el uso de TI.