简介:传统基于在线学习的网络浏览行为数据分析平台,缺乏大数据分析能力,无法挖掘和管理用户网络浏览行为,分析效率较低,具有一定的局限性。构建基于分布式集群的网络浏览行为大数据分析平台,平台总体结构由视图层、控制层、服务层、数据持久化层和数据层构成,使用分布式存储系统HDFS与分布式计算系统Spark组成的分布式集群存储和管理网络浏览行为产生的数据,通过数据上传流程将海量网络浏览数据源存储到分布式存储系统HDFS中,在Spark分布集群内运算数据挖掘任务,利用决策树ID3算法准确挖掘网络浏览行为。实验结果说明,所设计平台各项功能符合预期结果,平台进行数据源管理、用户行为分析的整体响应时间比基于在线学习的网络浏览行为数据分析平台低508.25ms、836.5ms,说明所设计平台具有较高的网络浏览行为大数据分析效率。