简介:<正>曾经自信对语言能操纵自如的人们,在现代语言学的反思浪潮中,似乎已有点把持不住了:在被语言划定了的世界中,我们如何言说才不只是重复?利奇早就指出过“语言中的反创造性趋向:‘行话化’”,“这类行话可能会使我们对那种人为的简单化和类别化习以为常”,“行话取代了独立的思考。”由此引出了“到底是我们在说语言还是语言在说我们”的争议,一些不想被语言所言说的人举起了“挣脱语法的桎梏”的大旗,有人甚至扬言要“扭断文法的脖子”,似乎非如此不足以解几千年被奴役之愤恨。此举到底能否成功呢?我们不妨从理论和事实上来讨论。先考察命题:挣脱语法的桎梏。其中包含了“语法=桎梏”的子命题,语法到底是桎梏,还是言语交流的坚实底座,只待我们仔细分析就能明白这个预设本身是个假命题。
简介:汉语分词是中文信息处理的一项基础性工作。为避免人工阅读或机器处理时的分词歧义和未登录词难以识别的问题,有专家建议写作时在汉语词之间添加空格。文章从语言学本体研究、语言使用以及语言工程等不同角度对传统观念下的汉语分词存在的困难进行探讨,指出汉语分词在词的定义、群众语感以及分词规范、词表确定及工程应用等方面都存在不确定及不一致等因素。近年汉语自动分词处理不纠缠于词的确切定义,以字组词,针对标注语料和网络上带有丰富结构信息的海量文本,利用机器学习方法对汉语“切分单位”的标注取得了较好的进展。针对基础性的汉语分词规范,从语言规划的政策性、科学性及引导性角度提出建议,最后指出结合语言学指导和数据驱动的机器学习策略,可望为实现汉语自动分词的准确性和适应性提升服务。