简介:微博平台有用户群大、公众参与性强、实时性等优点,同时微博平台信息又具有信息真伪难辨、地址信息模糊等缺点.本文以芦山地震为例,针对微博内容如何提取和地址如何定位两方面进行了分析研究,对于如何在网络微博平台中及时的提取地震宏观异常信息,提出了聚焦爬虫技术,并对微博地址进行了分类,同时将正向最大匹配和特征词地址分词的中文地址匹配模型应用于地址信息的提取和地址匹配中;最后将不同的地址类别定位为不同的行政级别,使微博平台和微博信息得到了充分的利用.通过研究认识到微博信息在反应震前异常的发生趋势方面有一定的参考价值(动物异常和气象异常所占比例较大),是不能被忽略的:地址方面可以看出异常随着时间的逼近有向震中聚集的趋势,有一定的参考价值.