导读
反常检测的一些入门问题。
问问题是学习的最好办法之一。但有时你不知道从哪里开端,或许该问什么 —— 尤其是在你还比较了解的反常检测之类的话题上。在这种情况下,最好倾听他人的问题,让他们的思路来辅导你的学习。以下是咱们在“[Ask Me Anything: Anomaly Detection](https://www.tibco.com/events/ask-me- anything-webinar-anomaly-detecing-machine -learning)”网络研讨会上收到的一些问题,能够协助你入门。
离群点和反常值的差异是什么?
离群值是远离散布的方位或许平均值的观测值。可是,它们并不一定代表反常行为或由不同进程产生的行为。另一方面,反常是由不同的进程生成的数据形式。
反常检测在药品中有什么运用吗?
反常检测在药物生命科学范畴有许多运用。包含在制药出产中运用核算进程操控(SPC)或质量操控(QC)和多元进程操控(MSPC)图表进行进程监控和质量操控。及时发现反常是防止反常事情产生,恪守安全规范的要害。发现货台买卖中的反常情况,能够用来冲击医药零售数据中的处方乱用。实时检测多参数临床试验数据中的反常,有助于确保临床试验的成功。
GANs也用于反常检测吗?假如是的话,能否供给一个职业用例
生成对立网络(GANs)是一种新的无监督学习办法,在辨认反常方面十分有用。因为GANs是规划成迭代的,而且对立性练习的意图是运用重构样原本优化削减残差丢掉,因而它们在半结构化和非结构化数据中作业得很好。它们在医学图画剖析(协助放射学家发现难以辨认的肿瘤)、面部辨认、文本图画转化等方面十分有用。
数据相关性会影响反常检测吗?咱们能够用什么办法,怎样削减这些影响?是否最好在开端反常检测之前铲除和删去相关数据?
正如在网络研讨会上说到的,咱们不以为相关性会影响反常检测,但咱们有许多可用的技能来协助确认怎么处理相关变量。一个主张是运用主成分剖析(PCA)这样的技能来削减维数。
主张运用什么样的算法适合于检测与辨认网络活动或数据中的不寻常活动有关的反常?
正如在网络研讨会上说到的,有许多办法和算法能够很好地用于反常检测的各种运用和用例。其中有递归神经网络(RNN)、生成对立网络(GAN)、阻隔森林、深度自编码器等。假如你对网络/图剖析特别感兴趣,用来辨认网络图反常的两种首要办法是直接街坊离群点检测算法(DNODA)和社区街坊算法(CNA)。
在我现在的作业中,“新颖性”是咱们尽力去发现的首要东西。质量操控图关于已知的形式很有用,可是主动辨认新形式比较困难。我希望能得到一些在这方面有所协助的东西的主意。
关于单变量质量操控图,西方的电气规矩能够用于检测少量常见的形式。经典的多元办法,如偏最小二乘(PLS),会捕获到触及不止一个变量的形式,但不能被单变量办法检测。主动编码器是最全面的东西,将包括最广泛的不同形式。它能够捕获多变量、循环、非线性和交互的形式。你运用一组正常数据练习autoencoder,在练习会集没有呈现的新数据中呈现的任何形式都将被符号。
经过做PCA来削减维度会影响数据会集的反常吗?它会导致反常现象的消失吗?假如是这样,怎么防备呢?
做PCA将会在原始数据会集捕获一些百分比的方差。因而,咱们运用PCA进行反常检测的办法是核算原始点到低维空间中表明的点的“间隔”。间隔越大(即在将观测成果映射到低维空间时“丢掉”的越多),咱们就越以为它是一种反常。
英文原文:https://www.tibco.com/blog/2020/01/27/7-questions-on-how-to-use-machine-learning-for-anomaly-detection/