简介:摘要:随着信息化的发展,各行业需要处理的数据呈爆炸式增长。Hadoop分布式存储框架对较大文件提供了可靠高效的存储服务,但在处理海量小文件时效率显著降低。因此,本文提出了基于Hadoop的小文件存储优化的研究,通过Apriori算法挖掘出各小文件之间的关联性,将具有关联性的小文件进行合并装箱降低NameNode内存开销来提高文件的存储效率。实验结果表明,该方法提高了Hadoop文件系统存储小文件的存储效率。
简介:摘要:随着线上阅读新闻方式的兴起,传统的新闻推荐算法存在着特征稀疏、缺少多样性等问题。为解决以上问题,本文提出一种基于Hadoop的融合兴趣模型推荐算法。首先,考虑特征稀疏问题,将特征词扩展得到兴趣扩展模型,其次,考虑新闻热度和阅读时长对相似度的影响,提出了改进的相似度计算方法,得到用户潜在兴趣扩展模型,最后,将两个模型进行混合得到融合兴趣模型,进行新闻推荐。实验结果表明,在hadoop中运行改进后的算法,推荐效果有所提升。
基于Hadoop的小文件存储的研究
基于Hadoop的新闻推荐算法研究