1 南通市房产交易中心,江苏 南通 226001
1 2南通市房产管理测绘队,江苏 南通 226001
摘要:近年来,随着不动产统一登记制度的落地实施和计算机等新技术的不断进步,不动产测绘行业迎来了新的发展机遇,不动产测绘业务量迅速增长,利用表格台账或孤立的信息系统等来管理不动产测绘业务,已对行业管理,部门决策等形成了制约,造成服务效率低下,决策难以满足管理需要等不利影响。改变这种信息孤立分散的状况已成为行业亟需解决的课题。本文利用基于密度的快速聚类算法,构建了不动产测绘综合管理与决策系统,解决了信息分散和决策效率低下的问题。
关键词:房产信息化;数据挖掘;FDBSCAN;综合决策
1 不动产测绘业务简介
以作者所在单位不动产测绘业务为例,其主要流程有1)受理:收取必要材料,接受委托方的委托;2)合同签订:资料齐全后与委托单位签订不动产测绘合同;3)实地勘察:对测绘现场查勘确保满足测绘进场要求;4)任务评审与下达:符合进场条件后,通过台账和纸质材料管理留痕进行任务下达;5)竣工测绘:制定作业计划书和技术设计书等并组织现场测绘;6)内业测算:完成测绘后,进行内业绘图、分摊计算等;7)组内自查和复核:依据任务安排表,完成房屋面积计算成果的组内自查和复核,并用《房屋面积测算质检记录》表格记录问题和修改过程;8)质量检验:质检人员对成果进行质检,并填写《房屋面积测绘质检一览表》和《面积测量质量等级评定表》,不合格产品则填写《不合格评审处置表》;9)成果制作与验收:质检合格后制作不动产测绘报告,交委托方进行验收或代为验收10)收费与报告提供:按合同收取费用并出具《房屋面积预测/实测技术报告》;11)资料归档:根据ISO质量管理体系要求,将生产过程中的各类资料进行归档。
2 不动产测绘综合管理与决策系统设计
在上述的不动产测绘业务生产过程中,形成了测绘任务管理、测绘合同管理、发文记录管理、收费台账管理、测绘成果交付及费用台账六大环节的记录和信息,每个环节涉及的数据都可以通过关键字进行相互关联,利用数据库、Java等技术,本文构建了不动产测绘任务管理与综合决策系统。系统架构如下图。
图1 系统功能模块结构图
其中,数据报表统计子系统模块功能是:1、完成测绘单位记录报表的统计,根据表格之间的关联,调用现有的数据信息;2、根据需要自定义报表字段;3、报表导出打印自动化;4、进行数据的增加、删除、查询、统计等;用户身份认证与单点登陆子系统模块完成用户身份认证,判断用户是否合法;项目进展状态查询模块是完成对各个项目的进展状态的查询与了解;信息录入与更新模块用于新项目的建立和数据录入,实现系统报表记录自动追加,数据库实时更新;缴费记录跟踪模块用于追踪项目的缴费情况。管理人员依靠本系统可以实现不动产测绘业务的全流程管理,对项目进展进行综合评价,为决策提供数据支持。
3 基于密度的快速聚类算法的数据挖掘
数据挖掘是面向实际应用,为综合决策提供服务的综合型的新兴技术,其主要步骤包括确定分析目标、获取分析参数、数据提取、数据整合、数据选择与变化、构建模型与假设、数据挖掘算法、测试结果验证、解释与使用。图2为多数据挖掘技术通用模型。
图2 多数据挖掘技术通用模型
数据挖掘算法主要是综合分析最佳计算方法,实现对目标数据的分析与计算。基于密度的聚类算法(DBSCAN)将簇定义为密度间相连点的最大集合,能够把具有足够高密度的区域划分为簇,并在具有噪声的空间数据库中查询并找到无论任何形状的聚类。其实现的主要思路是:对每一个类中的每一个对象,对其给定半径邻域中包含的对象不能少于某个特定的最小数量。其采用的常用变量定义如下:
(1)Ε邻域:当给定对象半径为Ε内的区域时,称为该对象的Ε邻域;
(2)核心对象:如果给定对象Ε领域内的样本点的个数不小于MinPts,则称该对象为核心对象;
(3)直接密度可达:对样本集合D来说,如果p是核心对象,样本点q在p的Ε领域中,那么对象q从对象p称为直接密度可达。
(4)密度可达的特点:对于样本集合D,给定一连串样本点p1,p2直到pn,当p=p1,q=pn,如果对象pi从pi-1直接密度可达,则q从p密度可达。
(5)密度相连:样本集合D存在一点O,如果对象O到p都是密度可达,那么p和q密度相联。
在此基础上,本文提出了改进的基于密度的快速聚类算法(FDBSCAN)。基本思想方法是:首先选择一个距离核心对象最远的对象,称之为第1个代表对象;随后则选择出距离全部被选出的代表对象最远的,作为第二个对象,以此类推,选择下一个代表对象,直至选完所需的全部代表对象为止。实现的伪代码如下:
REPEAT
任取测绘数据中一个未处理过的对象
IF抽取的对象是核心对象
寻找它的Eps邻域
IF此邻域中已有对象被归为某个簇m
该核心对象及其邻域中的所有对象都归为簇m
ELSE
创建新的簇n
ELSE
IF被抽取对象邻域中存在核心对象
被抽取边界对象归为该核心对象所属簇或创建新簇ELSE
被抽取边界对象为噪声数据
UNTIL直至所有对象均被考查过
为了测试基于密度的快速聚类算法的效率,与基于空间索引kd-tree或R*-tree的聚类算法和基于密度的聚类算法进行对比分析,测试结果如下。
表1 不同算法效率分析结果
样本数量 | DBSCAN | K-means | FDBSCAN | (N*log4N)*d |
5000 | 4.28870 | 2.223833 | 0.199831 | 0.199831 |
10000 | 12.5470 | 6.695678 | 0.756783 | 0.574335 |
15000 | 26.9789 | 12.99880 | 1.423457 | 0.875467 |
20000 | 57.7880 | 27.00302 | 2.149802 | 1.223785 |
25000 | 87.1579 | 35.89052 | 2.668793 | 1.531962 |
30000 | 131.8889 | 54.19904 | 3.784523 | 1.995946 |
35000 | 170.5263 | 72.97865 | 4.268943 | 2.234980 |
39000 | 218.6640 | 91.80290 | 5.399953 | 2.623135 |
备注:O(nlogn)为平均执行时间复杂度,反映区域查询查询时间(n是数据库中数据对象数目)
结果证明该算法能够快速提升聚类速度,有效压缩区了区域查询的次数,从而减少了聚类时间及I/O开销,相比其他算法优势比较明显。
4 结语
基于密度的快速聚类算法在不动产测绘任务管理与综合决策系统取得了成功,提高了系统对业务关联数据的查询与挖掘,为有关部门决策分析提供了可靠的数据支撑。下一步,将进一步研究采用人工智能等新兴技术,不断拓展不动产测绘任务管理与综合决策系统的功能和应用方向,为提高不动产测绘行业服务效率和管理水平,构建和谐社会提供助力。
参考文献:
[1]李刚.房产测绘信息管理系统的架构与实现[J].北京测绘,2011,02:64-66.
[2]王海军,石伟伟.房产测绘与信息系统一体化集成技术研究[J].地理信息世界,2007,03:82-87.
[3]李谋.基于房产测量实践的房产测绘管理发展分析研究[J].科技资讯,2010(4)162-162.