对文本的自动分类进行了研究,介绍文本分类的基本过程和文本特征选取的方法,重点介绍了一种常用的基于内容的分类算法——K-最邻近算法.利用K-最邻近算法(KNN)并结合改进的词特征权值计算方法和文本相似度的计算方法完成了文本的自动分类.通过KNN方法分类之后的结果的查准率、查全率得以明显提高.
苏州市职业大学学报
2010年2期