定义
边界点是拓扑空间的基本概念之一,边界概念是康托尔(Cantor,G.(F.P.))在研究欧几里得空间的子集情形时首先引入的。边界点及边界的定义如下:
举例
拓展
边界点处理在数据挖掘技术中有重要意义,它们代表了一类归属并不明确的个体,如果单纯地依靠某种方法把其归类到一个特定的簇中,其效果往往适得其反。边界点不同于孤立点和噪声点。孤立点是一类在统计上处于少数地位的对象,噪声点是一类对统计产生干扰或者偏离一定分布的对象,它们通常位于数据空间的低密区域中,而边界点则不同,它们是数据空间中处于高密区域边沿的一类数据对象,它们的一侧是高密区域,一侧是相对的低密区域。
聚类技术的研究是近几年研究的一个热点,已经提出的许多聚类算法,但是,对聚类边界模式的探讨还不多。聚类的边界点是指位于高密聚类边沿的一类数据对象,它代表了游离在两个或多个类别之间的一类个体对象,其归属并不明确,它们常常具有两个或两个以上的聚类特征。边界点研究有着重要的应用价值。
Chen Xia等提出了聚类边界点检测算法BORDER,其边界点的定义如下:
定义 边界点(Boundary point):一个边界点p是指满足下列两个条件的数据对象:
(1)它位于一个高密的区域IR;
(2)p的附近存在一个区域IR’,Density(IR) >> Density(IR’),或者Density(IR) << Density(IR’)。
聚类的边界代表了一种潜在的模式,对数据挖掘的着重要的意义。但是目前涉及的边界的算法并不多,对其的研究远远不够。
在DBSCAN算法中,提到边界点:一个非核心点对象,如果其落在某核心点的Eps-邻域内,则称之为边界点。一个边界点可能同时落入一个或多个核心点的Eps-邻域。
上一篇形式