您正在使用IE低版浏览器,为了您的FUTUREAI账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
FUTUREAI 技术原理
发私信给FUTUREAI
发送

宝疑操纵Spark Analytics Zoo对基于LSTM的工夫序列非常检测的探究

本文作者:FUTUREAI 2019-03-06 16:02
导语:戴要:宝疑战英特我相干团队操纵Analytics Zoo正在无监视的基于工夫序列非常检测用例长进止了无益的协作探究,本文分享了协作项烦闷 沉迷的成果战经历。 布景 正在产业造制止业,有

戴要:宝疑战英特我相干团队操纵Analytics Zoo正在无监视的基于工夫序列非常检测用例长进止了无益的协作探究,本文分享了协作项烦闷 沉迷的成果战经历。

布景

正在产业造制止业,有多种办法去制止因为装备生效招致的消费中止。常睹的办法是按期检验保护,大概提早改换装备整部件,那些办法皆能够会删减装备保护战改换的投进。但是,另外一个可止的办法是搜集分歧 装备的年夜量振动数据,并利用那些数据主动检测装备形态的非常。因而,有用天搜集年夜量的工夫序列数据而且年夜范围天停止非常战生效检测,关于低落产业造制止业中的的许多没必要要的本钱长短常枢纽的。

Recurrent neural networks (RNNs)轮回神经收集,出格是Long short term memory models (LSTMs)是非期影象模子如今被普遍使用于疑号处置,工夫序列阐发等场景。做为connectionist模子,RNNs能够提与收集节面中的静态序列。正在那个项烦闷 沉迷中,我们操纵LSTM去模仿震惊疑号的统计教纪律, 而且利用了去自辛辛那提年夜教的IMS齐死命周期数据 (http://ti.arc.nasa.gov/c/3/)去展现装备非常检测的阐发流程。

Analytics Zoo处理计划

Analytics Zoo (https://github.com/intel-analytics/analytics-zoo)是一个基于Apache Spark战BigDL等构建的analytics (阐发)+AI(人工智能)的仄台,由英特我开源,该仄台可以便利天让用户将端到真个基于年夜数据的深度进修使用间接摆设正在已有的Hadoop/Spark的年夜数据散群上,而无需装置公用的GPU装备。

 我们曾经正在Apache Spark战Analytics Zoo上创立了端到真个基于LSTM的非常检测流程,能够使用于年夜范围工夫序列数据的无监视深度进修。做为LSTM模子的输进数据的是一系列装备震惊疑号,好比正在当前工夫面之前50秒的疑号数据,经由过程那些疑号数据,颠末锻炼的模子能够猜测下一个数据面。当下一个数据面战模子猜测的数据面有较年夜偏向,我们以为该数据为非常数据。图1所示为一个端到真个数据处置流程。

Analytics Zoo.jpg

图1:基于Analytics Zoo的振动工夫序列非常检测处置流程.

1.处置流程从Spark散群读与本初数据并机关RDD(resilient distributed datasets)弹性散布式数据散,并抽与特性,最初把特性输出到Dataframe。正在本初数据集合,每一个数据形貌了一个检测生效(test-to-failure)的尝试,并包罗了时少为1秒的20K赫兹采样的立即振动疑号(如图2所示)。为了锻炼深度进修模子,每秒的统计数据被提与做为特性数据,包罗均圆根(Root Mean Square), 峰度(Kurtosis),峰值( Peak), 和小波包合成获得的8个频段的能量值。

2.处置流程进一步正在RDD中处置那些特性数据,包罗数值的小波来噪处置、尺度化处置(normalize)战滑动均匀处置,以50秒为基准睁开特性数据序列,以便于深度进修模子能够经由过程前50秒的形式去猜测下一个数据面,并终极把数据转换为Sample RDD。(https://bigdl-project.github.io/master/#APIGuide/Data/#sample).

3.处置流程利用Analytics Zoo中供给的类Keras API去创立工夫序列非常检测模子,包罗如图所示的三个LSTM层战一个稀散层,并经由过程数据锻炼那个模子(前50个面锻炼下一个面)。

  val model = Sequential[Float]()

  model.add(LSTM[Float](8, returnSequences = true, inputShape = inputShape))

  model.add(Dropout[Float](0.2))

  model.add(LSTM[Float](32, returnSequences = true))

  model.add(LSTM[Float](15, returnSequences = false))

  model.add(Dense[Float](outputDim = 1))

4.接下去是模子评价:利用测试数据大概局部数据去检测非常。非常数据是指近离RNN模子猜测的数据面。正在那个项烦闷 沉迷中,我们指定非常数据为团体数据散的10%,也便是间隔模子猜测数值最近的那10%数据为非常数据。那个挑选比例设置为可调解参数,能够为每一个零丁案例停止调解。

LSTM data.jpg

图2:工夫面2004.02.13.14.32.39上四通讲的振动数据

测试成果

图3显现了本初振动数据战LSTM模子猜测数据的比照。只要峰值战均圆根那两个统计数值显现出去,其他统计数值具有类似的颠簸。图中所示白面为被辨认的非常数据,橙色线条为LSTM模子的猜测数值,蓝色线条为本初数值。颠末锻炼的模子终极胜利猜测了装备的生效,和正在颠末600个工夫面以后的震惊尖峰,正在工夫序列晚期的一些颠簸能够做为装备生效的预警疑息。

RNN1.jpg

RNN2.jpg

图3: RNN猜测数值战本初震惊数值的比力

结论

经由过程操纵无监视深度进修,和Analytics Zoo供给的端到端处置流程,我们能够有用天正在年夜数据散战尺度年夜数据散群(Hadoop, Spark等)上使用工夫序列非常检测。经由过程搜集、处置年夜量的工夫序列数据(好比日记,传感器读数等),使用RNN去进修数据形式,终极预判数据战断定非常数据,Analytics Zoo供给的端到端处置流程可以为很多新兴的智能体系如智能造制、智能运维、物联网等供给处理计划。基于工夫序列的非常检测正在装备的智能监控战猜测性保护上能够获得主要使用。

参考文献

1. https://github.com/intel-analytics/analytics-zoo

2. https:/���ܼҵ�����/github.com/intel-analytics/BigDL

3. https://www.kaggle.com/victorambonati/unsupervised-anomaly-detection

4. https://iwringer.wordpress.com/2015/11/17/anomaly-detection-concepts-and-techniques/


声明:景智AI网尊重行业规范,任何转载稿件皆标注作者和来源;景智AI网的原创文章,请转载时务必注明文章作者和"来源:景智AI网", 不尊重原创的行为将受到景智AI网的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至:mailto:813501038@qq.com

分享:
相关文章
最新文章