简介:目的本研究探索中文消费者健康词表的构建方法;研究利用Word2vec构建消费者体检健康词表的可行性和合理性。方法抓取天涯医院的信息作为语料,使用结巴分词进行中文分词处理,使用Word2vec构造词向量模型,从而形成消费者体检词表。最后,使用预测准确率、准确率、召回率评价指标对词向量的模型效果进行评估。结果消费者体检健康词表包含了74个种子词、137个消费者用词。候选词的准确率为94.71%,召回率为51.27%,F1值为0.33,74个种子词形成的候选词中前3个词为同义词的预测准确率为60.81%。结论本研究验证了Word2vec在识别消费者用词方面的强大能力,利用Word2vec技术可以用来开发中文消费者健康词表。我们发现,Word2vec自动生成的候选消费者词列表质量不足以生成消费者健康词表,但是能作为人工审核构建的重要参考,为开发完整的中文CHV奠定了坚实的基础。