对当前的XML索引需要改进的地方进行分析,给出了一个较通用的索引机制。首先提出一种XML文档编码规则,在此基础上设计支持路径查询和信息检索的索引结构,并给出了对文档重复元素和文本节点索引词汇进行归并处理的索引算法。索引算法只需对文档遍历一次,所得到的索引文件占用空间也比GUID和倒排文档少,并且利用这些索引文件能实现任意粒度、任意形式的内容、结构和属性查询。
教育技术导刊
2008年3期