options
search icon
email icon
ES
rrss gif icons
twitter icon
linkedin icon youtube icon
shape

Anomaly detection in Multivariate Time Series

Josu Ircio Fernández


31/03/2023

  • DIRECTORES: Aizea Lojo y Jose A. Lozano
  • UNIVERSIDAD: UPV/EHU

RESUMEN

La cuarta revolución industrial ha traído consigo avances en la monitorización de lossistemas industriales. El desarrollo de nuevos tipos de sensores y el menor coste de los mismos, permiten a día de hoy obtener información sobre el rendimiento de las máquinas de manera más eficaz. De ahí que tareas como el mantenimiento predictivo se hayan convertido en indispensables para la competitividad de las compañías. El mantenimiento predictivo consiste en analizar el funcionamiento de las máquinas a través de los datos reportados por los sensores para intentar detectar anomalías que puedan indicar una posible avería inminente. Anticiparse a estas averías permite reducir los costes de mantenimiento asociados, disminuye el tiempo necesario para reparar o reacondicionar los equipos que funcionan mal y mitiga el riesgo de accidentes relacionados con el funcionamiento incorrecto de las máquinas. 

Una anomalía en el funcionamiento de una máquina es una desviación no permitida del sistema respecto a las condiciones aceptables, habituales o estándar. En la mayoría de los casos, una anomalía no solo viene dada por un valor anormal, sino también por el momento en que se produce y por la discordancia con los valores previos o sucesivos. Por ello, para explotar la información que reportan estos sensores a lo largo del tiempo en busca de anomalías, es común la utilización de la teoría de series temporales.

Una serie temporal es un conjunto de valores de medición ordenados en el tiempo. Por lo general, los datos que están más cercanos en el tiempo estarán relacionados y dependerán unos de otros. Estas propiedades hacen que las series temporales sean diferentes de los datos típicos en los que no se considera el tiempo. Además, la naturaleza de las series temporales también incluye ciertas características adicionales que dificultan su análisis como el gran volumen de datos, la alta dimensionalidad y, en ocasiones, la actualización continua. 

Cabe resaltar que, en escenarios reales, es común que el sistema observado sea complejo y requiera monitorizar más de una variable temporal al mismo tiempo produciendo lo que se denominan series temporales multivariantes. Las series temporales multivariantes son un conjunto de series univariantes que proporcionan información sobre un sistema complejo. Tener que considerar todas las series temporales a la vez es la principal diferencia que hace que el problema multivariante sea más complicado que el caso univariante.

La importancia de las series temporales radica en que, hoy en día, pueden extraerse de cualquier componente que contenga sensores y cuyo funcionamiento sea monitorizado a lo largo del tiempo. Debido a esto, en los últimos años, se ha popularizado el uso de técnicas para conseguir extraer el valor y la información útil que poseen estos datos temporales. En particular, se han llevado a cabo multitud de investigaciones y desarrollos en el ámbito de la minería de datos para extender y adaptar los algoritmos existentes a las series temporales y sus características. Dentro de las actividades más comunes se encuentran las siguientes: predicción de series temporales, clustering, clasificación, descubrimiento de patrones temporales, descubrimiento de reglas de asociación, segmentación de series temporales y detección de anomalías .

La investigación presentada en esta memoria se centra en la detección de anomalías en series temporales multivariantes. A pesar de ser un problema general con diversas aplicaciones, en este caso, nos centraremos en la detección de fallos en el funcionamiento de componentes de sistemas industriales. Teniendo en cuenta que en estos escenarios industriales es habitual disponer de un conjunto de series temporales de ejemplo donde se identifican series temporales de funcionamiento correcto y de funcionamiento anómalo, la manera de plantear el problema de detección de anomalías en series temporales multivariantes será enfocándolo como un problema de clasificación supervisada. Así pues, el objetivo será aprender un clasificador que sea capaz de distinguir las series temporales de funcionamiento correcto de las de funcionamiento anormal o inesperado.


Aparte de la dificultad inherente al problema de clasificación de series temporales multivariantes, la detección de anomalías en sistemas industriales conlleva los siguientes retos adicionales a tener en cuenta:

 

  • Escenario streaming. En la mayoría de escenarios reales donde se analizan series temporales se requiere un procesamiento casi inmediato del flujo de información que va llegando. Una vez examinada y de acuerdo a las conclusiones obtenidas, es necesario reaccionar de una manera determinada lo antes posible por ejemplo, lanzando una alerta de mal funcionamiento. Por consiguiente, tanto la metodología de aprendizaje como los modelos entrenados deberán adaptarse a este escenario.
  •  Alta dimensionalidad. En sistemas industriales complejos es habitual disponer de gran cantidad de sensores. Por una parte, esta alta dimensionalidad requerirá unos recursos computacionales y un tiempo de procesamiento alto que contrasta con los requisitos de un escenario streaming. Por otra parte, la alta dimensionalidad también puede incrementar la dificultad del análisis e incluso hacer que los resultados de la clasificación puedan ser menos precisos. Muchas series temporales pueden ser redundantes en presencia de otras o no proporcionar información relevante para realizar la tarea objetivo. Así pues, poder seleccionar solo las series temporales relevantes para la clasificación puede ser decisivo y mejorar los resultados finales [14]. Es por todo ello que se requiere un estudio de los métodos existentes de selección de variables para la clasificación, en concreto, en el ámbito de las series temporales.
  • Desbalanceo. Normalmente, el problema de detección de anomalías abordado desde un enfoque supervisado va ligado al problema del desbalanceo de clases, ya que las anomalías suelen ser poco comunes. Es por ello que, la mayoría de las series temporales disponibles serán de funcionamiento normal, frente a un pequeño porcentaje de ellas en las que el funcionamiento es anómalo. Estos escenarios desbalanceados suponen un problema para los clasificadores tradicionales que asumen una distribución balanceada en las clases. En consecuencia, son sensibles a generar predicciones sesgadas a favor de la clase mayoritaria, lo que implica que la clase minoritaria presenta baja precisión en la clasificación. Por lo tanto, otro aspecto clave en la investigación será trabajar en clasificadores de series temporales multidimensionales que sean capaces de hacer frente al desbalanceo de las clases.
  • Degradación. En escenarios reales donde se quiere predecir un error mediante la monitorización continua y la detección de anomalías hay que tener en cuenta que, previo a una avería, el sistema sufre cierta degradación. Es decir, el sistema en un momento dado ve alterado su funcionamiento normal que poco a poco va agravándose hasta producirse la avería. En la mayoría de los casos, se dispone de información sobre el momento en el que el sistema colapsa y deja de funcionar. Sin embargo, no se tiene identificado cuándo la máquina empezó a funcionar de manera irregular. Poder desarrollar metodologías de aprendizaje que sirvan para identificar esos momentos es clave para poder anticipar los fallos.
close overlay