热门搜索 :
考研考公
您的当前位置:首页正文

基于距离的不确定离群点检测

来源:东饰资讯网
计算机研究与发展 ISSN 1000—12391CN 11-1777门rP Journal of Computer Research and Development 47(3):474-484,2010 基于距离的不确定离群点检测 于 浩 王 斌 肖 目4 杨晓春 (东北大学信息科学与工程学院沈阳 110004) (中国人民大学数据工程与知识工程教育部重点实验室 北京 100872) (yangxc@mail.neu.edu.cn) Distance-Based Outlier Detection on Uncertain Data Yu Hao ,Wang Bin ,Xiao Gang ,and Yang Xiaochun , (College of Information Science and Engineering,Northeastern University,Shenyang 1 10004) (Key Laboratory of Data Engineering and Knowledge Engineering for the Ministry of Education,Renmin University of China,Beijing 100872) Abstract Outlier detection is one of the valuable techniques in many applications,such as network intrusion detection,event detection in wireless sensor network(WSN),and so on.This technique has been well studied on deterministic databases.However,it is a new task on emerging uncertain database.Using the new uncertain data model,many real applications,such as wireless sensor network,data integration,and data mining,can be better described.The feasibility of such applications can be further enhanced.In this paper,a new definition of outlier on uncertain data is defined.Based on it,some efficient filtering approaches for outlier detection are proposed,including a basic filtering approach,called b—RFA,and an improved filtering approach,called o—RFA.Moreover, a probability approach,called DPA,is proposed to efficiently detect outtier on uncertain database. The approach b—RFA utilizes the property of non—outlier to reduce the times of detection.Moreover, o—RFA improves b—RFA by mining and using the data distribution.Furthermore,DPA finds the recursion rule in probability computation and greatly improves the efficiency of single data detection. Finally,the experimental results show that the proposed approaches can efficiently prune the candidates and reduce the corresponding searching space, and improve the performance of query processing on uncertain data. Key words uncertain data;outlier detection;pruning method;efficiency;uncertain data model 摘要在诸如网络入侵、无线传感器网络异常事件等检测应用中,离群点检测是一项具有很高应用价 值的技术.这项技术在确定性数据中已经得到了深入的研究,但在新兴的不确定数据领域却是一项新的 研究课题.在无线传感器网络、数据集成和数据挖掘等技术中使用不确定数据模型更能真实反映现实世 界,进一步提高这些技术的实际可行性.针对不确定数据,提出新的离群点定义.提出基于距离的不确定 数据离群点检测的高效过滤方法,包括基础过滤方法b—RFA和改进方法。一RFA,最后提出高效概率计 算方法DPA.b—RFA方法利用非离群点的过滤性质,减少检测次数.o—RFA方法通过挖掘数据分布信 息对b—RFA方法作出改进,进一步提高过滤效率.DPA方法找到概率求解中的递推规律,极大提高了 单点检测效率.实验结果显示:提出的方法可以有效地减少候选集,降低搜索空间,改善在不确定数据上 的查询性能. 收稿日期:2009—06—26;修回日期:2009 09 30 基金项目:国家自然科学基金项目(60828004,60973020);教育部新世纪优秀人才支持计划基金项目(NCET-06—0290);中国人民大学数据工 程与知识工程教育部重点实验室开放课题(2008002) 于浩等:基于距离的不确定离群点检测 475 关键词 不确定数据;离群点检测;过滤方法;高效;不确定数据模型 中图法分类号TP391 离群点检测用于寻找数据集中的噪声数据,是 出了对象t 邻居区域内所有对象组成的可能世界 数据挖掘领域的一项重要技术.基于距离的离群点 实例,若对t 作距离参数 一20、邻居对象数量阈值 检测被广泛应用于网络入侵检测、银行信贷等领 k一2的离群点检测,那么在前5个实例中t 的邻居 域[1 ].现有的基于距离的离群点检测技术目前主要 应用在传统数据库中,其数据的存在性和可信性确 凿无疑.但在很多现实的应用领域中,数据的收集和 处理受到多种因素的影响,数据的不确定性逐渐受 到了人们的关注,比如在传感器网络中,数据准确性 和可信性会受到感知器件精度、感知结点能量和网 络传输质量等因素的制约;在数据集成领域,由于数 据源的不一致性和模式映射的复杂多样,集成后的 数据不可避免地会引入不确定性.由于数据项引入 了概率值(或称可信度),应用于传统数据的技术无 法直接应用于不确定数据. 表1为一个典型的不确定数据表,该表可视为 在某种应用中获得的原始数据经过某种处理得到的 抽象表,这里不考虑其数据来源,只用来说明概率维 度对离群点检测的影响.Tuple—ID表示不确定元 组的唯一标识;Value一1和Value一2分别表示元组 值维度上的2个属性,与确定性数据一样,不确定数 据在值维度上是可以存在多属性的,这里为了方便 说明只用2个属性;Conf表示该元组的可信度. Table 1 Uncertain Data 表1不确定数据 ValueI Value2 ‘‘・ Conf 0.6 0.4 0.8 O.6 在确定性数据中判断一个对象是否为基于距离 的离群点,需要根据用户给出的距离参数找出该对 象邻居(包含自身)数量是否满足数量阈值.暂时不 考虑表1的概率维度,该表为一个确定性数据表,若 用户给出距离参数为 一20,数量阈值为志一4,则检 测对象t 就不是离群点;若忌一5,则t。就是离群点. 在不确定数据中评价一个对象是否为离群点的 最基本方法就是利用可能世界模型(possible world),将对象的邻居展开成为多个可能世界实例, 然后利用确定性数据的处理方法逐个处理.表2列 对象数量小于是,在后11个实例中不小于忌.由此可 见,仅仅依靠距离参数和数量阈值无法判断检测是 否为离群点,必须衡量被检测对象是离群点和不是 离群点的可能性,因此对应上述2类实例的概率成 为判断不确定数据离群点的重要指标. Table 2 Possible World and Probability for the Neighbors of tl 表2 t。的邻居组成的可能世界及概率 Possible World Possible World Probability P 。b bility Instances Instances ∞o一 0.0192 W8一{t2,ts}0.0512 ∞1一{t1)0.0288 W9一(t2,t4)0.0192 w2一{t2}0.0128 ∞10一(t3,t4)0.1152 t蜥一{t3}0.0768 ”ll一{t】,t2,t3)0.0768 4一{t4)0.0288 W12一{t1,t2,t4}0.0288 W5一{ 1,t2}0.0192 W13:{tl,t3,t4)0.1728 6一{tl,t3}0.1152 Wl4一{tz,t3,t4}0.0768 7一{t1,t4)0.0432 "U)15一{tl,t2。t3,t4)0.1152 设元组相互独立,例如叫。出现的概率p(w。)=== (1—0.6)×(1—0.4)×(1~.0.8)×(1—0.6)一 0.0192,同理,p(w13)一0.1728.由t1邻居对象组成 的可能世界实例及其概率如表2所示,所有实例的 概率和为1.由此可得t 是离群点的概率为前5个 实例的概率和0.1664,不是离群点的概率为后11 个实例的概率和0.8336.若t 不是离群点的概率满 足用户要求,则t 不是离群点.因此用户在提交不 确定数据离群点查询时,除了需要给出距离参数和 数量阈值之外还需给出概率阈值. 由于检测对象的数量巨大以及可能世界实例空 间的规模随指数级增长,上述这种原始方法并不可 行.面临的问题主要是如何利用不确定数据的特殊 性找到过滤方法,减少检测次数;概率求解中如何避 免实例空间的膨胀. 1 相关工作 确定性数据上的离群点检测技术主要分为基于 476 计算机研究与发展2010,47(3) 统计、密度、深度、距离和偏差5类¨3 ],其中基于统 计、密度和距离的方法应用最广.基于统计的检测技 术_4 是最早应用于离群点检测的,它通过对小概率 事件的判定来检测数据样本中的异常;基于密度的 言,则需要考查所有可能世界实例来判断数据对象 的 范围内的邻居数据是否有足够的数据对象. 定义2.(up,ud, )一离群点.不确定数据库 Du一{t1,t2,…,t },其中每个元组t 一<r,Conf>.为 I一 .1 检测技术[5 将记录值间的距离和给定范围内的记录 方便表达,令k—l(1一up)X  IDu I I.设 (£) 数作为2个参数,根据记录的密度判定是否为离群 点;基于距离的检测技术 通过检测数据记录在 多维空间的一定范围内是否有足够的其他数据记录 来判断该记录是否为离群点.出于算法复杂度和实 际可行性等原因,基于深度和偏差的技术较前面3 种技术相对较少使用. 不确定数据已经成为一个新兴的研究领 域口 “],Probabilistic Skyline查询_1。_用以查找不确 定数据上的支配对象集;Top一是查询根据对数据的 关注角度不同,分为U—Topk查询口 、U—kRanks查 询[1 ]和PT一是查询_1。 等.Aggarwal等人在文献 [14]中提出了不确定数据基于密度的离群点检测技 术,其中数据记录都是按照某概率密度函数(PDF) 分布在一个不确定区域(uncertain region)中,在这 个区域上的PDF积分为1.Kriegel等人提出一种基 于密度的聚簇算法口 ,采用与文献[14]相同的不确 定数据模型.本文针对带有离散概率值的基于距离 的不确定数据离群点检测技术进行深入研究.在本 文讨论的不确定数据模型中,每个对象都附加了一 个离散的概率值而非PDF. 2检测模型 不确定离群点的邻居对象定义有其特殊性,由 于检测点在某些实例中不出现,因此检测点在每个 实例中的邻居对象是以检测点所在位置为中心的一 定半径范围内的对象. 定义1.ud范围内的邻居数据.不确定数据库 Du一{t1,t2,…,t ),每个元组t 一<r,Conf>,r表示 数据记录,Conf表示r的可信度.设W是一个可能 世界实例,并且对V ,EW,t,.r出现在以t .r为中心 ud为半径的范围内.令W中所有的元组t,组成集 合T(t ,叫),即丁(£ ,叫)一{t,l V E W,dist(t .r,t,. r)≤ud}. 所有满足上述条件的W组成W(t ),由此得到t 的ud范围内的邻居数据,R(t )一 U T(t , ). ”∈W( i) 在确定性数据中,如果一个数据对象的ud范围 内的邻居数据没有足够多的数据对象,那么这个数据 对象就是一个基于距离的离群点.就不确定数据而 满足 (f) W( ),对V叫 E (£),有l T(t,Wi)I≥ k.如果W ( )当中的所有可能世界实例的概率之和 不大于 ,则t是一个(up,ud, )一离群点. 如果对应于tE D 的R(£)包含的元组数量少 于是,则W (£)一 ,t就一定是一个(up,ud,it)一离 群点.根据定义2将W E W ( )的概率记作PT(£, W ),一个(up,ud,it)一离群点查询Q(Du,up,ud, ) 如式(1)所示: Q(Du,up,ud, )一 {t l∑PT(t,W )≤it,t E Du). (1) ∈Wk(f) 为简单起见,本文简称(up,ud, )一离群点为离 群点. 3基于过滤的离群点检测技术 判断D 中元组t是否为离群点,需要计算 R(£)中至少发生k个元组的概率.如果对ID 1个元 组逐一检测,效率低下,因此本文提出了用于离群点 检测的过滤方法. 3.1过滤原理 在检测D 中某个元组t时,对其R( )内的元 组按与t的距离升序排序,然后求解R( )中至少发 生k个元组的概率.如图1所示,当遍历到元组 R( )[ ]时,T一{R( )[O],…,R(£)I-j])中至少发生 k个元组的概率大于 ,那么对V ∈Du,如果T R(t ),那么R(t )中至少发生走个元组的概率就一 定大于 ,即f 不是离群点(如图1中的t 和tz). Fig.1 Example of pruning. 图1过滤举例 定理1.设元组集合丁一{t。,t。,…,t ), ≥矗, 元组集T中至少发生k个元组的事件记为[T,忌], 于浩等:基于距离的不确定离群点检测 符号・表示积事件.若该事件发生的概率P([T, 忌])> ,那么对于YT T,都有P(IT ,点])> . 证明.对T 作划分,T 一T U(T 一T),事件 [T ,忌] [T,忌]・[T 一T,o],则: P(IT ,志])≥P([T,忌]・[T 一T,O]). 由于元组间相互独立,可得: P([T,忌]・[T 一T,o])一 P([T,忌])×P([T 一T,O]). 由于[T 一T,0]是必然事件,P([T 一丁,o])一 1,于是可得P(E ,忌])≥P([T,忌]).若尸([丁,正])> ,可得P([丁 , ])≥尸(IT, ])> . 证毕. 由定理1可见,当发生上述情形时,不仅t本身 不是离群点,而且还可以过滤一部分其他元组.本文 对R( )中的记录按照与t的距离升序排序,由近及 远依次遍历.如图2所示,若遍历记录R(£)[ ]后, 集合丁一{R( )[0],…,R(f)[ ])中至少发生志个元 组的概率大于 ,则可以得到以t为圆心、 (t)一 dist(t,t )为半径的圆形区域 (£),其包含的记录 记为R ( ). Fig.2 Principle of pruning. 图2过滤原理 定理2.所有以ud为半径,且包含 ( )的圆 0 (0)的圆心组成的轨迹是与 ( )同心的,半径为 r (£)一ud— ( )的圆面. 证明.设 (£)的圆心为(X ,Y ),0 (0)的圆 心为0(1z,.y). (£)在@ (o)内部,则0(z, )到 (£)的最大距离应该不大于“ . 设点o(Jc, )与点 ( ,Y )确定的直线与 ( ) 分别交于点A(XA,Ya)和点B(X ,Y ),由相关几 何原理可知:点o(x, )到圆 (t)的最大距离为 — max(OA,OB),该距离应满足: d一 ̄/(z—X ) +( —Y ) + ( )≤ud. 经整理可得: (z—X )。+( —Y ) ≤(ud— (£)) , o(oc, )的轨迹是以t(X,y)为圆心、半径为ud~ 477 ( )的圆面. 证毕. 因此,对V ∈@ ( )都有R (£) R(f ),可得t 一定不是离群点,本文称@ (£)为t确定的过滤区 域.利用0 (t)的过滤性,可减少需要检测的元组 数量. 3.2基于Grid的空间划分 为了提高寻找R(t)的效率,本文引用了文献 [1]中基于Grid的空间划分,为简单起见,这里讨论 元组在2维空间下Grid的性质.2维Grid也可以扩 展到 维空间,具体方法参考文献[1]. 给定一个不确定数据库D ,先将其数据标准 化,再根据值维度信息将其映射到对应的单元格 (cel1)中.每个单元格对角线长度为ud/Z的正方形, 单元格按其所在行列位置标记为G ,存放映射到 该单元格内的元组ID.以G 为中心向周围扩展m 层所得单元格的集合标记为Gm .如图3所示,节点 t所在的阴影区域为G 即G , 本身,全部阴影区 域是G 图3中所有单元格组成G 基于Grid的 划分有如下性质:对V ∈G ,R(t)∈G .,且G ∈ R(£),则在寻找R(£)时,只需对所有t ∈G  .—G ., 进行遍历,而不需要遍历整个D . 7 / 一——~ \ / \。 ∈ \ / /、 Fig.3 Grid—based space partition. 图3基于Grid的空间划分 3.3 基于过滤的离群点检测基本算法b—RFA 基于上述过滤原理,在检测元组t时,若在其 R(£)中找不到元组R(£)[力,使得T一{R(£)[o3,…, R( )[ ])中至少发生是个元组的概率大于 ,那么t 就是离群点;否则,就可以找到以 为圆心、ud-dist ( ,R( )[ ])为半径的过滤区域0 (£),所有位于@ ( )中的元组不必检测.本文首先设计了基于过滤的 基本算法basic—RFA(b—RFA).该算法的基本描述 如下:对待检测的不确定数据库D 中的每个元组 设置标记;设置指针i指向当前检测元组. 1)初始化阶段:初始化D 中所有元组标记为 unpruned;指针i指向Du首元组. 2)检测阶段:依据参数ud,找到t 的R(t ), 478 对R(t )中的元组按与t 的距离升序排序,若找到 元组R( )[力,使得R( )Eo-I,…,R(£)EJ3中至少发 生k个元组的概率大于 ,t 就不是离群点,找到 @p(£ ),对@ (£ )中所有元组的标记设为pruned;否 则t 就是离群点,设t 的标记为outlier.寻找下一 个标记为unpruned的元组继续按上述方法检测,直 到所有元组的标记都不为unpruned. b—RFA算法的执行过程简单,寻找过滤区域的 过程受到元组的位置分布和元组概率的影响. 3.4基于过滤的离群点检测改进算法o-RFA 若Du中产生多个过滤区域@p(£ ),…@ (f ), 且它们不完全重合,则可以进一步减少检测点数量. 多个过滤区域的最理想分布是 达到最小,同时多 个过滤区域覆盖的总面积最大.可以对D 的每个 元组逐一检测,计算相应的过滤区域,综合考虑各个 过滤区域的组合情形,最后得到一个最优解.但是, 逐点检测后D 的检测结果已经得出,寻求最优过 滤区域覆盖已毫无意义.因此,只能寻求一个尽可能 优化的方法寻找过滤区域.要得到一个好的过滤区 域分布,就要使单个过滤区域有尽可能大的面积,同 时使多个过滤区域的重叠面积尽可能小. 由定理2可知,影响单个过滤区域面积的因素 为表达式 — (£)的值, 为常量,因此n(f)值 越大过滤区域越小,反之过滤区域越大越受元组的 位置分布和概率的影响.以参数为D ,up,ud, ,且 厂 ] k—I(1一up)×l D l 1—3的查询为例加以说明.  1l 1)元组具有同概率分布,不同位置分布时对过 滤区域面积的影响. 如图4(a)所示,在元组t 的检测过程中,假设 在其R(t。)内距离t 最近的5个元组t。,t ,…,t Fig.4 Effect on filtering regions when tuples have the same probability but different position distribution.(a) Longer distance between tuples and(b)Shorter distance between tuples. 图4具有相同概率值不同位置分布的元组对过滤区域 的影响.(a)元组间距离较远;(b)元组间距离较近 计算机研究与发展2010,47(3) 中至少发生3个的概率刚好大于 ,确定过滤区域 @p( 1),其半径为rp(£1)一ud—ra(t );如图4(b)所 示,若保持各元组的概率值不变,而各元组向t 有 不同程度的靠近,可确定新的过滤区域@:(t。),其 半径为r:(£ )一“ —r:(f1).由于 (£ )≥r ( 1),因 此可得r ( )≤r:(t ).在元组概率相同的情况下, 元组分布越密单个过滤区域的面积越大. 2)元组具有相同位置分布,不同概率分布时对 过滤区域面积的影响. 继续使用上述查询条件,并设 一0.3.R( )包 含表3中的5个元组,其中各个元组的概率如表3 所示.如图5(a)所示,在对t 的检测中,当1"A—dist (£ ,t )时, (£ )至少发生3个元组的概率为0.386, 大于 ,可得到过滤区域@ (t ),其半径r (t )一 ud—r】(t】). Table 3 Original Probability of Tuples 表3修改前的元组概率 Tuple Probability (b) Fig.5 Effect on filtering regions when tuples have different probabilities but the same position distribution. (a)Larger probabilities of tuples and(b)Smaller probabilities of tuples. 图5具有不同概率分值相同位置分布的元组对过滤区 域的影响.(a)元组概率值较大;(b)元组概率值较小 保持各个元组的位置分布不变,修改个别元组 的概率,如表4所示.再次计算得,在dist(t ,t )范 围内,至少发生3个元组的概率为0.24,小于 .因 此必须扩展求解范围,如图5(b)所示,在dist(t , t )范围内,至少发生3个元组的概率为0.351,大于 .这时可得到@ ( ),其半径r (t )==:ud—r:(£ ). 由于 (£ )<r:(£ ),所以新的过滤区域要小.在元组 位置不变时元组概率越高,单个过滤区域面积越大. 于浩等:基于距离的不确定离群点检测 Table 4 Modified Probability of Tuples 表4修改后的元组概率 o.5 O.4 o.4 o.5 o.3 由以上讨论可知,如果以Grid中每个单元格提 供的元组密度和概率分布信息为依据,优先处理包 含较多元组且其中元组的概率较大的单元格,则将 有利于提高离群点检测的效率.然而,如果过滤区域 之间的重叠较大,总体的检测效率仍将不高.因此, 为了获得良好的效率,一方面既需要提高单个过滤 区域的面积,另一方面还需要尽可能地减少过滤区 域之间的重叠. 算法1.o—RFA算法描述. 输入:不确定数据库D ; 参数ud,up, ; 输出:(ud,up, )一离群点. ①将D 加载到集合T中,将T中的每个元组 标记为unpruned,并将其映射到格G中; 厂 -1 ②k一}(1~up)x J Du J)f;结果集R一 ; I f ③初始化一个空的队列Q; ④for G中的每个单元G do ⑤ if G 中没有元组then ⑥ 将G 标记为empty; ⑦ else将G 标记为raw; end if end for ⑧while存在被标记为raw的单元d0 ⑨ 从G中获得下一个单元G ; ⑩push(Q,G ,); ⑩ while Q.empty!一True do ⑥ G 一top(Q);pop(Q); ⑩ for G 中的每个元组t,do ⑩ 计算t,的邻居R(£,); ⑩ 根据R(t,)中每个点到t,的距离为这 些点排序; ⑩ rp(tj)一 —DPA(R(£,),k, ); ⑥ if r ( )>ud then ⑩ 将t,存入离群点集合R; 479 ⑩ else ⑩ 将 ( )内的元组标记为pruned; ⑨ 将R (£ )内的单元标记为done; ③ 将t,和R (£,)插入队列Q; end if end for ⑧ 将单元G,,标记为done; ⑨ while top(Q)被标记为done do ⑤pop(Q); end while end while end while ④return R. 假设在某一某元组附近的元组位置排列和概率 分布变化不大,则其附近元组的过滤区域的大小都 很接近,这样有利于提高过滤效率. 基于以上讨论,本文提出了启发式的order— RFA算法(o—RFA),从2方面提高离群点检测的效 率.在提高单个过滤区域面积方面,为综合考虑元组 位置分布和概率分布这2个因素,o—RFA采取了一 种折中的方法:以所含元组概率之和作为单元格的 优先级,优先处理元组概率之和大的单元格(通过优 先队列实现).在减小过滤区域重叠方面,在处理某 个单元格中的元组时,o—RFA根据其过滤区域的半 径,找到如图5所示的6个距离它√3 r口(£)的虚拟点 (该点所在位置不一定有元组)所在的单元格,并将 这些单元格(如果位于分布区域内,非空且未处理) 插入优先对列中,作为此后选择下一个要处理的单 元格时的候选.当单元格内的元组都处理完毕后,o— RFA则从优先队列中选取优先级最大的单元格进 行处理. o—RFA以所有单元格中所含元组概率之和最 大的单元格为起点,通过优先队列控制算法的路线, 依次处理队列中的单元格.当队列为空、但尚有非空 单元格未被处理时,则从剩余的单元格中选择概率 之和最大的单元格作为新的起点,继续处理余下的 单元格,直到所有的非空单元格都被处理完毕. 4高效概率计算方法DPA 第3节提出的2种过滤算法都涉及对单个元组 t的检测,其核心环节即求解t的邻居元组集R(f) 中至少发生 个元组的概率,这是一个组合事件的概 率求解,基本方法是找到符合要求的所有事件组合, 480 然后计算概率.该方法的事件复杂度为0(2 “ I),在 I R(£)1较大时是不可忍受的.本文找到了该组合事件 的等价事件及求解其概率的高效方法,即高效概率计 算方法DPA,具有线形的时问复杂度O(k lR(£)J). 本节首先介绍等价事件的构造,然后说明其概率的 求解方法. 令R一{t。,t。,…,t ),R中元组可不排序,但保 持元组之间的先后顺序不变;对Vtj∈R,其左集合 Sj f 一{tl,…,t卜】),右集合S”igh ={t,+l,…,t }. 表5为问题表述用到的符号、表达式及其含义.可 见对元组t的检测即求解事件ER(t),k]的概率 P([R(£),忌]). Table 5 Symbols and Notations 表5符号与描述 [R,愚] At least tuples appearing in R (R・矗> Only tuples appearing in R ● Event product ∑ Event summation 当k>IR( )I时,显然[R,忌]为不可能事件, P(ER(£),忌])一0,t为离群点. 当忌≤IR( )l时,至少存在一个可能世界实例 W,且l W I≥忌.构造如下事件:将t 作为枢轴元组, SH出发生且仅发生k一1个元组,t 自身一定发生, Sn础 可随意发生.这样就表示了一个在t,发生的条 件下R( )中至少发生k个元组的事件: <Sj-le“,k一1>・t ・Esj gh ,O](CE( J)), 称该事件为构造事件CE(t,),通过对构造事件的研 究,得到如下性质: ‘ 性质1.[R(£),是]与构造事件的和事件是等价 的,即 lR(f)l [ ),k-1一∑<s eft,是一1>・tj・Es Igh ,0]. J:1 证明.设任意事件c∈[R( ),愚],C中发生的元 组数量为z,可以找到tj∈R(£),使: c一<S,’leff'k一1>・t,・< ̄j-,igh ,l一是>. 由于<s九。gh ,z一是>∈[s 。 h ,O],因此可得: c∈∑<=1 s川eft,k一1>・t ・Es州gh ,0], lR(f)I  ̄lJER(t),志] ∑<SJ fl, 一1>・tj・[s hl,0]. 对事件集合C一<5J h,是一1>・tj・Es 。 hI,0], 如果.f< ,c为空集;若 ≥ ,C就表示了一个在t 计算机研究与发展2010,47(3) 发生条件下事件集合[R(£),是]的子事件集合,那么 C [R(£),忌],因此可以得到: lR(}) ∑<J=1 s川eft,k一1>・t ・Es Igh ,0] ER(t), 综上可得: R(f)l ( ),最]一∑<s川eft,k一1> .[snIgh ,0]. J=1 证毕. 从等价事件集合<sJ_1efi’k一1>・tj・[Sn hr,0] 的构造方式上还可以看出,无论遍历元组的顺序如 何,最后的复和事件都将是ER(£),愚].通过进一步 考查可以得出:当 <志时,<SH出,k一1>是不可能发 生的.因此可得: ・ lR(f)j ER(t),志] ∑<s ,k一1>・£ .[s 蛳,o]. J= 性质2.各构造事件<S川 fl,愚一1>・t ・FSj.righ 0]之间的关系是互斥关系,其中J≥是,即对于 -≠ Jz,CE(t )与CE(t ,)是互斥的,其中 ≥志且 z≥ k. 证明.设] > ≥惫,使得CE(ti.)与CE(t ) 同时发生.由于R(£)中所有元组保持顺序不变,则 有(S left U ti1) S l f【’由于<Si1 fI,k一1>与ti1要 同时发生,这将导致S 有至少愚个元组发生,这 与<S 。 k一1>的定义是矛盾的,CE(t )与CE (£ )同时发生不成立,因此两者是互斥的. 证毕. 基于性质1,2,得到求解[尺(£),矗]概率的公式: fR(f)l P(ER(t),志])一∑P(<Sj-left)志一1>・ J一1 t ・[S/ ,0]). 由于各个元组问相互独立,可得: P(CE(t,))一P(<S ff’k一1>)× P(cJ)x P([Sj-righf’0]), [s 。 ,0]是必然事件,P([Sj righ ,o])一1,因此可得 P(CE(t ))一P(<S I f ,k一1>)×P(tj), P(<s¨ ,足>)存在如下递推性质: fP(<S(,_1)_l ,k一1>)尸( )+ l 一 一 _{l 1, ( S eft一 一OA k ;)  10,(I s l<矗) 由此可得当愚≤lR( )I时P(ER(t),忌])的求解公式: P(ER(t),忌])一∑P(<s川 ,k一1>)×P(t ). (2) 于 浩等:基于距离的不确定离群点检测 481 若l R(£)l<k该算法返回一1,否则,顺序处理 R(£)中的元组t,,每计算出一个P(CE(t,))值就累 加到SumProb中,若SumProb> ,算法终止,返回 t与t,间的距离;否则,按上述方式继续处理.若访 5.1离群点参数影响 本节中所使用的二维实验数据集分布如图6所 示,不确定数据点个数为100000.定义中3个参数 的选择决定了离群点定义的严格程度(即离群点的 问R( )中所有元组后SumProb仍小于 ,返回一1. 个数),从而影响了各算法的运行时间. 这一算法称为DPA(dynamic programming approach). 计算P([R(£),k3)的复杂度为O(kn),较排列组合方法 近于0(2 )的复杂度要好很多,其中lR(£)1一 . 需要说明的是,本文中DPA方法作为过滤算 法的辅助算法使用.实际上DPA是针对单个元组 进行检测的方法,依次对D 中每个元组t找到R ( )后使用DPA是可以完成对整个数据库的检测 的,本文称这种方法为BA(basic approach),实验中 将此方法同过滤算法做比较,这里不加赘述. o 200 400 600 800 1000 5 实验分析 Fig.6 Data distribution. 啪 咖 伽 瑚 图6数据集分布 由于尚无针对基于距离的不确定离群点检测的 图7(a)反映了参数up(0.9990~0.9999)对算 研究,无法同已有方法进行对比,只能在本文提出的 法运行时间的影响.随着up的增大k值增大,离群 不同方法间进行比较.本文实验计划从(up,ud, )一 点数量大幅减少(从22399减少到1995),因而所有 离群点参数影响、可扩展性2个方面进行.实验中使 算法的运行时问都大幅度减少.由于未采用过滤技 用的二维数据集总体上服从一定分布函数,数据使 术,BA的运行时间远多于另外2种算法.除此之 用Matlab生成,它们分布在长1000、宽1000的固 外,对于b—RFA与。一RFA而言,up的增大还将导 定矩形区域中,根据不同的实验需求采用不同分布; 致非离群点的过滤圆半径增大,从而提高过滤性能, 各数据点的可信度值(取值范围为O~1.0)总体上服 进一步减少算法的运行时间.如图7(b)所示,b— 从均匀分布.全部实验采用C++语言编写,所测得 RFA和。一RFA的被过滤数据点数量随着up的增 的算法运行时间为10次重复测试所得结果的平均 大而大幅度增加.此外,由于采用了启发式的策略, 值,参数up,ud, 的默认值分别为0.9996,20,0.7. o~RFA的效率略高于b—RFA. ud=20, =0.7,outlier:22399 ̄1995 ud=20,五:0.7,outlier:22399 ̄1995 k k (a) (b) Fig.7 Test when varying up.(a)Running time and(b)Number of pruned tuples 图7参数“p的测试.(a)运行时间;(b)被过滤的数据量 图8(a)反映了BA,b—RFA和。一RFA的运行时 下,得益于有效的过滤技术,b-RFA与。一RFA的运 间随着参数ud增大(10~30)的变化情况.ud增大 行时间则小得多.并且,当 增大时,非离群点的 时数据点的邻居大量增加,导致花费在离群点上的 过滤圆半径也随之增大,因而过滤性能得以提高(如 计算量增大.由于没有采用过滤技术,BA的总体运 图8(b)所示,被过滤的数据点大量增加),花费在非 行时间快速增加,并且远大于其他2种算法.相比之 离群点上的计算量大幅减小,从而导致算法的总体 曲pJ0 482 计算机研究与发展2010,47(3) 运行时间反而逐渐降低.此外,o—RFA由于采用了 使用,b—RFA与0一RFA的运行时间远小于BA的运 启发式的元组处理次序,因而具有略高于b—RFA的 行时间.此外, 变大时非outlier的过滤圆半径随 效率. ∞\警 1_ u1uun 之减小,因而过滤性能下降(如图9(b)所示,被过滤 ∞\∞g a—i 图9(a)反映了参数 (O.1tO.9)对算法运行时 的数据点逐渐减少),导致了b—RFA和O—RFA运行 间的影响.当 增大时离群点逐渐增加,所有算法的 时间的增加.同样,o—RFA的效率略高于b-RFA的 运行时间都呈现逐渐增大的趋势.由于过滤技术的 效率. 0.9996, =0.7,outlier:34864~3613 PU=O.9996. =0.7.outlier:34864-3613 ud 叽pj0。 pa写 × 0_【 ∞pJ00 H(b)  星 × 0_【 Fig.8 Test when varying ud.(a)Running time and(b)Number of pruned tuples 图8参数 的测试.(a)运行时间;(b)被过滤的数据量 ud=20,up=0.9996,outlier:7808~10031 Fig.9 Test when varying A.(a)Running time and(b)Number of pruned tuples 图9参数 的测试.(a)运行时间;(b)被过滤的数据量 5.2可扩展性 二维的均匀分布(如图8所示)与二维正态分布(如 良好的可扩展性是指当改变数据规模或数据分 图9所示),不确定数据点个数的变化范围分别为 布时算法仍然可以保持优良的性能.本节分别使用 60000 150000与60000 120000,对本文3种检测 ud=20,pu=O.9996, =0.7,outlier:1669~3215 (a) (b) Fig.10 Test for uniform distribution when varying number of tuples.(a)Running time and (b)Number of pruned tuples. 图l0均匀分布下变化元组数的测试.(a)运;r时间;(b)被过滤的数据量 于浩等:基于距离的不确定离群点检测 483 算法进行可扩展性测试. 外,如图10(b)和图11(b)所示,随着数据量增大,b— 图10(a)和图11(a)分别展现了在均匀分布与 RFA和。一RFA中被过滤数据点的数量也迅速增 .正态分布的数据集上3种算法的运行时间随着数据 ∞\ugIl II—uun 大,从而导致它们的运行时间增长得比BA慢很多, 点数量增加的变化情况.当数据点增多时3种算法 因而具有更好的可扩展性.此外,从图1O和图1l还 的运行时间都逐渐增加.然而,由于过滤技术的使 可以看出,在均匀分布和正态分布的情况下,o—RFA 用,b—RFA和。一RFA的运行时间较BA小得多.此 都具有比b—RFA更好的效率. ud=20, =0.9996, ud=20,up=0.9996, =0.7.outlier:5332~10454 =0.7.outlier:5332~10454 12O 8O 40 O 60 70 8O 9O 100 110 120 10—0xNumber ofRecord 10一。×Number ofRecord ∞pJ00 q箬已 × 0_【 (a) (b) Fig.1 1 Test for normal distribution when varying number of tuples.(a)Running time;and (b)Number of pruned tuples. 图11 正态分布下变化元组数的测试.(a)运行时间;(b)被过滤的数据量 [4] Barnett V,Lewis T.Outliers in Statistical Data[M].New 6结论及未来工作 York:John Wiley and Sons,1994 E5]Breuning M M,Kriegel H P,Ng R T,et a1.LOF: Identifying density—based local outliers[c]//Proc of ACM 不确定数据的离群点检测是一个新兴的研究领 SIGM0D 2000.New York:ACM,2000:93-104 域,其价值将在广泛的应用领域中得到重视.本文针 [6]Tukey J W.Exploratory Data Analysis[M].Reading,MA: 对不缺定性数据的离群点检测提出了新的定义,并 Addison—Wesley and Sons,1994 提出高效的过滤方法b—RFA与。一RFA及概率计算 [7]Arning A,Agrawal R,Raghavan P.A linear method for deviation detection in large databases[c]I/Proc of KDD. 方法DPA.并通过实验证明检测方法具有高效性和 New York:ACM,1996:164—169 良好的可扩展性. [8] Sarawagi S,Agrawal R,Megiddo N.Discovery—driven 未来工作包括支持更复杂的不确定数据模型, exploration of OLAP data cubes[c]//Proc of EDBT. Berlin:Springer,1998:168—182 如具有互斥关系的不确定数据的检测、基于密度和 [9]Jagadish H V,Koudas N,Muthukrishnan S.Mining 统计的不确定数据离群点检测等. deviants in a time series databases[c]//Proc of VLDB.San Francisco:Morgan Kanfmann,1999:102—113 参 考 文 献 [10]Pei J,Jiang B,Lin x M,et a1.Probabilistic skylines on uncertain data[C]/[Proc of VLDB.New York:ACM, 2007:15-26 [1] Knorr E M,Ng R T.Algorithms for mining distance based [11]Kriegel H,Pfeifle M.Density based clustering of uncertain outliers in large datasets[c]//Proc of VLDB.San Francisco: data[c]//Proc of KDD.Chicago,USA:AMC,2005:672— Morgan Kaufmann,1998:392—403 677 E2] Knorr E M,Ng R T.Finding intensional knowledge of [12]Soliman M A,Ilyas I F,Chang K C.Top—k query processing distance based outliers[c]HProc of VI DB.San Francisco: in uncertain databases[c]/[Proc of ICDE.Atlanta,USA: Morgan Kaufmann,1999:211 222 SIAM,2007:345-360 [3] Ni Weiwei,Chen Geng,I u Jieping,et a1.Local entropy based weighted subspace outlier mining algorithms[J]. [13]Ming H,Jian P,Zhang W J,et a1.Ranking queries on Journal of Computer Research Development,2008,45(7): uncertain data:A probabilistic threshold approach[C]//Proc 1189—1194(in Chinese) of ACM SIGMOD 2008.Chicago,USA:AMC,2008:673— (倪巍伟,陈耿,陆介平,等.基于局部信息熵的加权子空间 689 离群点检测算法[J].计算机研究与发展,2008,45(7): [14]Aggarwal C C,Yu P S.Outlier detection with uncertain data 1189-1194) [c]//Proc of SDM.Atlanta,USA:SIAM,2008:483—493 484 计算机研究与发展2010,47(3) Northeastern University.His current research interests include uncertain data and outlier detection in the wireless sensor network. senior member of China Computer Federation. 杨晓春,1973年生,教授,博士生导师,中国计算机学会高级 会员,主要研究方向为数据库理论与技术、数据质量分析. 王斌,1984年生,硕士研究生,主要研究方向为不确定数 据管理和无线传感器网络中的异常检测. Research Background Outlier detection is one of the valuable techniques in many applications,such as network intrusion detection,event detection in wireless sensor network(WSN),and SO on.This technique has been well studied on deterministic databases. However,it is a new task on emerging uncertain database.Using the new uncertain data model,many real applications,such as wireless sensor network,data integration,and data mining,can be better described.The feasibility of such applications can be further enhanced.In this paper,a new definition of outlier on uncertain data is defined.Based on it,some efficient filtering approaches for outlier detection are proposed,including 3 basic filtering approach,called b—RFA,and an improved filtering approach,called O-RFA.Moreover,a probability approach,called DPA,is proposed tO efficiently detect outlier on uncertain database.The approach b-RFA utilizes the property of non—outlier to reduce the times of detection.Moreover,O-RFA improves 一 一_ ‰一一.l~曼 ~一~一一~~一一 埘一 ~  嘶~一. ~一~一~一 ~~一一~ b RFA by mining and using the data distribution.Furthermore,DPA finds the recursion rule in probability computation and greatly improves the efficiency of single data detection.Our work is supported by the National Natural Science Foundation of China(Nos.60828004,60973020),the Program for New Century Excellent Talents in University(No.NCET 06—0290),and the Key Laboratory of Data Engineering and Knowledge Engineering for the Ministry of Education,Renmin University of China (NO.2008002). 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top