简介:用户访问数据中往往存在大量无用或与当前信息挖掘无关的数据,我们通过数据清洗从挖掘对象中去除不相关的数据,并实现了用户识别、会话识别、格式化等步骤,对WEB信息进行预处理,为进一步的操作提供了较好的数据格式,提高了挖掘效率。同时,因特网上的信息往往具有非结构化或半结构化特性,难以得到传统数据挖掘技术的支持,我们通过事务识别技术解决了这一问题,将访问序列组织成逻辑单元以表示事务或用户会话,将所有事务组成一个事务数据库,识别出事务后就可以利用对传统数据挖掘的方法对WEB数据进行挖掘:事务识别技术有多种实现形式,不同形式有不同的应用场合,本文根据特定挖掘任务,实现了以时间维来分割事务的算法,并给出了一些实验数据。
简介:摘要21世纪之后,迅猛发展高新科技,不断强化经济全球化趋势,极大的提升了我国国民经济水平,也促进各个行业快速进步。充分满足人们的物质生活之后,人们对精神及视觉上的享受更为追求,此种状况下,数据信息所具备的作用越来越清晰的显现出来。数据信息海量产生背景下,很大程度的便利了人们的生产及生活,但与此同时,由于其中包含众多无价值信息,一定的给人们造成困扰,对此,为更加便利人们使用,提出了数据挖掘的概念,并研发出相应的挖掘技术。进入到大数据时代后,数据挖掘技术占据越来越重要的地位,必须要在明确现有技术类型的基础上,进一步的优化与创新,研究出与时俱进的新的数据挖掘技术。