学科分类
/ 1
2 个结果
  • 简介:摘要:随着信息化发展,各行业需要处理数据呈爆炸式增长。Hadoop分布式存储框架对较大文件提供了可靠高效存储服务,但在处理海量小文件时效率显著降低。因此,本文提出了基于Hadoop小文件存储优化研究,通过Apriori算法挖掘出各小文件之间关联性,将具有关联性小文件进行合并装箱降低NameNode内存开销来提高文件存储效率。实验结果表明,该方法提高了Hadoop文件系统存储小文件存储效率。

  • 标签: 小文件 Hadoop Apriori算法
  • 简介:摘要:随着线上阅读新闻方式兴起,传统新闻推荐算法存在着特征稀疏、缺少多样性等问题。为解决以上问题,本文提出一种基于Hadoop融合兴趣模型推荐算法。首先,考虑特征稀疏问题,将特征词扩展得到兴趣扩展模型,其次,考虑新闻热度和阅读时长对相似度影响,提出了改进相似度计算方法,得到用户潜在兴趣扩展模型,最后,将两个模型进行混合得到融合兴趣模型,进行新闻推荐。实验结果表明,在hadoop中运行改进后算法,推荐效果有所提升。

  • 标签: 新闻推荐 Hadoop 基于内容的推荐