学科分类
/ 25
500 个结果
  • 简介:摘 要 本文构造一种集成贝叶斯分类器用于舆情文本,目的是对数据量大、突发性强的舆情信息进行自动分类分析,对训练样本做样本分词和去停用词处理后,将训练样本集分为N个样本子集,对每个子集训练贝叶斯分类器,并集成各个基分类器,对舆情文本进行分类,能够取得较高的分类准确率。

  • 标签: 舆情分析 集成分类器 文本分词
  • 简介:摘要:文本是在给定的分类体系下,根据文本的特征将已有文本配到一个或多个特定类别的过程。本文首先对文本的定义、关键技术和实现方法做了论述,然后从资源组织与检索、情感倾向分析、作文跑题检测三个方面对文本技术在教育中的应用进行探讨。

  • 标签:
  • 简介:为了对大规模军事知识资源分类管理,提出了一种基于知识地图的文本(KMTC)方法。将知识地图划分成层次社区结构,构建了知识地图的社区结构树,社区结构树的节点具有主题聚集属性,可作为文本按主题分类的依据;基于知识单元进行文本特征向量提取,并引入复杂网络的度中心度概念,计算文本对应的特征向量值。与传统文本方法相比,将收集整理的军事领域文本作为训练文本集合进行试验验证,提高了文本准确性。

  • 标签: 文本分类 知识地图 社区结构 特征提取
  • 简介:

  • 标签:
  • 简介:摘要:线性回归(LR)、多层感知器(MLP)等经典机器学习分类算法在短文本任务上得到了广泛应用。不同算法在不同样本上表现一般不同,单一算法难以在所有样本上都具有优异表现。因此,本文提出了一种基于多模型融合的文本方法,并分别验证了不同融合策略对分类效果的影响。实验结果表明,多模型融合相比于单一模型具有更优越的分类准确性。

  • 标签: 文本分类 机器学习 模型融合
  • 简介:摘要贝叶斯分类便是统计分类学习中的一种,而朴素贝叶斯分类是贝叶斯分类学习中的一种。朴素贝叶斯分类的应用有很多,其在文本来方面有这重要的地位。本文着重分析的应用便是朴素贝叶斯分类在垃圾邮件方面的步骤过程。在垃圾邮件分类的实例中,先对待分类邮件内容进行拆解,拆成一个一个词,再设定两个类,分别为正常邮件和垃圾邮件,通过贝叶斯公式得出每一个词即每个属性在两个类条件下的概率,由于属性的独立性,求出待分类邮件在两个类条件下概率,比较概率的大小即可确定该邮件的类别。

  • 标签: 贝叶斯分类器 Python 垃圾邮件分类
  • 简介:摘要:随着信息技术的飞速发展,以文本形式出现的信息已经越来越多,网络上电子文本的信息量呈现爆炸趋势。数据信息的飞速增长严重影响了人们充分并且快速有效地利用这些信息资源,毕竟人们已经不能仅仅依靠人工劳力迅速有效地提炼出所需的关键信息。基于机器学习的文本算法应用的重要性在于实现对大规模文本数据的自动化处理等方面的提升。

  • 标签: 机器学习 文本分类 应用
  • 简介:总结国内外专利文本情况,简要叙述基于机器学习的专利文本的-般框架,介绍专利文本文本预处理、特征提取、文本表示、分类器构建及效果评价等过程.将应用于专利文本的机器学习算法分为单-分类算法和组合分类算法着重探讨单-分类算法主要有NB算法、ANN算法、Rocchio算法、KNN算法、SVM算法等;组合分类算法主要有两种组合算法,如NB-KNN算法、Rocchio-KNN算法、KNN-SVM算法、SVM-其它算法,还有多种组合算法.指出各种机器学习算法应用在专利文本上的优势与不足,从专利文本预处理、特征提取、专利文本表示、分类器的构建、新方法的探索等五个方面对专利文本自动分类技术进行展望.

  • 标签: 专利文本 自动分类 机器学习 朴素贝叶斯 支持向量机
  • 简介:

  • 标签:
  • 简介:摘 要 本文提出一种改善特征选择的集成贝叶斯分类器,分类过程中先对文本样本进行分词和去停用词处理,然后通过特征选择实现降维,拆分训练样本,集成每个子集上得到的贝叶斯分类器进行分类,目的是对数据量大、突发性强的网络文本进行快速分类分析,并取得较高的分类准确率。

  • 标签: 文本分类 集成分类器 特征选择
  • 简介:文本是实现网络资源快速分类的一项关键技术。通过对文本、网络教学资源、基础教学网络环境进行分析,针对网络教学资源的特点,提出了一个Rocchio算法的网页自动分类模型,并在基础教学网络环境下进行了仿真实验。实验结果表明,该模型能获得较好的分类效果,适合于基础教学资源的分类

  • 标签: 文本分类 网络教学资源 Rocchio算法
  • 简介:为了解决传统分类方法计算复杂度高及可扩展性差的问题,提出了互依赖和等效半径的概念,并将两者相结合,提出新的分类算法——基于互依赖和等效半径、易更新的分类算法IER.IER算法根据互依赖作为特征选择的量度,通过较长特征值的选择降低维度,通过重心和等效半径来建立分类模型.算法分析显示IER计算复杂度较低,扩展性能较好,适用于大规模场合.将IER算法应用于中文文本,并与kNN算法和类中心向量法进行比较,结果表明,在提高分类精度的同时,IER还可以大幅度提高分类速度,有利于对大规模信息样本进行实时在线的自动分类.

  • 标签: 分类 等效半径 向量空间 互依赖 IER
  • 简介:摘要:随着我国经济的发展以及社会的进步,我国的科技也逐步发展起来,科技水平越来越高。而目前我国几乎每个人都由一部手机或电脑,人们通过这些工具上网,在网络上了解一些信息,网络的出现在给人们带来方面的同时,也对人们的生产生活产生了一些不利的影响。但网络上的内容良莠不齐,一些不良的内容会不利于网络空间以及社会的发展,因此需要有关部门对其进行监测并对数据进行采集和分析,从而使网络环境清洁化。

  • 标签: 网络舆情监测 数据采集 文本分类
  • 简介:摘要:本文利用基于朴素贝叶斯算法进行了文本研究,选择词频-逆文档频率方法生成特征向量表示文本特征,选择国际通用数据集,基于朴素贝叶斯分类算法进行了实验,并与SVM的分类效果进行了对比分析。结果显示,该算法分类效果及效率较好。

  • 标签: 朴素贝叶斯算法 文本分类 TF-IDF
  • 简介:分类问题的覆盏算法为处理海量数据提供了一个十分有效的方法,已被广泛应用于文本问题中。主要通过覆盖算法、核覆盖算法和基于概率的覆盖算法等三种不同方法进行训练和学习,并根据给出的实验结果进行比较研究。实验结果表明了经优化后的概率模型在文本中提高了识别率和精确度。

  • 标签: 文本分类 训练 覆盖算法 概率模型