模糊集理论在图书情报学中的应用

(整期优先)网络出版时间:2019-01-25
/ 2
 丁天喜,男,1958年生,宁波大学图书馆副研究馆员。宁波大学图书馆 浙江 315211
【内容提要】本文介绍了模糊集理论的产生及发展概况,阐述了模糊集理论在图书情报学中,尤其是在情报检索领域的应用。
【摘 要 题】理论探索
【关 键 词】模糊集理论/图书情报学/情报检索
【 正 文】
    1 模糊集理论的产生及发展概况
  集合是现代数学最重要的基本概念,集合论是现代数学的基础。模糊数学理论是近三十年来发展起来的一门新的数学理论,亦是一项新的数学工具,是继经典数学、统计数学之后的又一新发展。为其做出奠基性贡献的是美国控制论专家L.A.Zadeh,他于1965年在Information and Control杂志上发表著名论文Fuzzy Sets,提出模糊集概念,奠定了模糊性理论的基础。
  普通的集合只能描述精确的概念,是一种“非此即彼”的现象。一个元素对于集合来说,要么属于这个集合,要么不属于这个集合,不会再出现第三种可能性。如“男人”、“红色的皮球”、“黑色的汽车”等集合,每个集合都有其确定的概念,其外延是确定的,这个相应集合的元素也十分清楚。相反,如果一个概念的外延边界是不清楚的,那么这个概念的外延便是个模糊集合,构成这个集合的元素也不清楚了。如“老年人”这个概念就有点模糊,如何准确地确定这个概念的外延就成为问题,58岁的人算不算老人,61岁的某人看起来只有40多岁,属不属于老人这个集合,这都不是很好确定的。类似的概念还有高个子、很大、聪明、很小等,而运用模糊集合就可以描述相应的的模糊概念。它可以描述一种“亦此亦彼”的现象。
  由于模糊性理论在处理复杂系统特别是有人干预的系统方面的简捷与有力,某种程度上弥补了经典数学与统计数学的不足,迅速受到广泛重视,30多年来,这个领域从理论到应用、从软技术到硬技术都取得丰硕成果。到20世纪90年代,已形成模糊拓朴学、模糊分析学、模糊逻辑学、模糊控制、模糊模式识别等理论。在应用方面,以模糊控制为代表的模糊工程技术获得突破性进展,应用研究从工业控制领域进入诸如家电等生活消费品领域,一系列采用模糊控制技术的家用电器如模糊洗衣机、模糊空调等也纷纷问世。由模糊逻辑与人工神经网络相结合而产生的模糊神经网络控制首先在美国得到实现,福特公司在发动机废气排放、软悬挂控制系统、动力系统控制、虚拟传感器等都使用了这一新技术。近年来模糊集理论在图书情报学领域的应用也越来越多。
    2 模糊集理论在图书情报学中的应用
  在社会发展的历史进程中,数学理论在社会各个领域获得广泛应用,极大地推动了社会的进步,各种数学理论的应用范围也远远地超出了那些理论创立者的想象空间,模糊集理论也是如此。1993年扎德在回顾模糊集理论的发展历史时说:当年提出模糊集理论时,原来以为首先将在包括人文科学在内的软科学研究中发挥作用,后来也估计到可能在一些工业领域得到应用,但是万万没有想到竟在家电行业获得如此广泛的成果。
    2.1 模糊集理论在图书馆学中的应用
  我们以图书馆的期刊装订为例。每个图书馆都需要装订期刊,以便保存资料供读者查阅,但并不是所订购的每本期刊都需要装订。在作出选择之前,必须要有统一的标准来评判所有的期刊,才能作出哪些期刊需要装订,哪些期刊则不需要装订的决定。这些标准包括期刊的丢失率和期刊使用率等,而这些评判的结果都不可能用数字准确清晰地表达出来,但是却可以运用模糊集理论进行准确地描述和模拟。我们不妨设计这样一种方法来进行。
  由图书馆组织一个小型的专家委员会,再分成多个由两名专家组成的专家小组,对某种期刊是否装订将从以下三个方面来评判:a.由情报科学协会出版的引文文献中得到的期刊引文数;b.该期刊的丢失率;c.该期刊的流通率。
  专家委员会的每位成员都必须给每一个变量定出隶属函数。虽然这些变量都能用客观的方法来测评,但关系到期刊最终是否装订的有关测评结果的解释却是主观性的。当专家们确定隶属函数后,每种期刊都将按这三个标准来评判,具体操作就变得相当简单了。最后,每个专家都必须事先做出决定,三个标准里每个标准的相对重要性。在数据采集前,图书馆委员会还须确定每位专家的相对权威性。这样就可以制定出最需要装订的期刊序列。而在这一系列的过程中,许多概念的运用都来自于模糊集理论。
    2.2 模糊集理论在情报检索中的应用
  至今为止,模糊集理论在图书情报学中的应用主要在情报检索领域。在这个领域里最早尝试模糊集理论的是Tahani和Radecki,最早提出这个论点的是Bookstein,而为模糊集理论在情报检索中的应用提供理论背景的是Radecki。从传统方法来看,在情报检索领域里使用的数学工具主要是布尔代数,几乎每一个研究书目数据库的人都习惯于使用布尔算子来控制复杂的研究。而且,布尔代数也是建立在集合论的理论基础上:每个索引词都会产生一个检索文献的集合,它可以用布尔算子(AND、OR、NOT)连接起来。一个情报检索系统可以被看作是由一个文献集合和一个索引词集合组成,每一个索引词都对应一个文献集合,它是整个文献集合的一个子集,这个子集由索引词和相关文献组成。

  在较早的文献记载里,“相关性”在本质上是一个模糊的概念,并不是一个真正的二分法概念,它已经被用模糊集理论建立的模型所代替。模糊情报检索系统的工作原理如下:当系统增加文献时,系统就会产生这些文献的相关索引词,每个索引词都会标出权重,来表示该索引词与文献的相关度,标引者会指出该索引词仅适用于该文献,而无须做出彻底的是或不是的决定。模糊情报检索系统的检索更多的是建立于模糊集代数学基础上,而不是普通的集合代数。AND、OR和NOT这些布尔算子仍然使用,但这些算子已建立在模糊并、模糊交、模糊非的概念基础上,而不是完全的等价关系。模糊情报检索也是对传统的布尔检索机制的改进,有很多在布尔检索里使用的理论基础和机制仍然有效。与布尔检索相比,模糊情报检索有许多优势:如在索引词的设置方面比较灵活、输出也能根据相关度来排序等,但模糊情报检索也存在着一些缺点:如编制索引的成本持续上涨、许多在布尔检索中出现的问题在模糊情报检索中同样存在等。另外,由于传统的布尔检索系统在很多领域中做了大量的工作,致使模糊情报检索在商业系统中还没有太多的应用。但是模糊情报检索在很多与情报检索相关的领域中还是有较多应用:
  (1)专家系统与人工智能。Gaines和Shaw介绍了专家系统的历史发展,并且把模糊集理论的概念引入这个领域。Graham还描述了模糊逻辑在商业专家系统中的应用。模糊集理论还在人工智能领域有广泛的使用,Nauck和Kruse运用医学数据库创立了模糊分类规则。
  (2)关系型数据库的模糊查询。Motro阐述了一个基于模糊集理论的一个数据库系统,它提供了一个允许模糊查询的用户界面。
  (3)模糊聚类分析。情报检索里的模糊集算法的运用同样是一个引人注目的领域,Miyamoto在多次应用的基础上较好地解释了该方法,模糊聚类分析适用于普通聚类分析应用的任何情形。
  (4)模糊主题检索。模糊聚类分析引起了特别的关注,这些类别能组成一个类似词表的结构。为了应付情报检索的日益增多查询需求,在模糊主题方面还要加强研究。
  以上所论述的是一个数学理论——模糊集理论,它能模拟有某种程度的模糊和不确定性的各种情形。模糊集理论在图书情报学中的应用研究还需要我们图书情报学研究人员的不懈努力,才能更好地运用模糊集理论来解决图书情报学研究中出现的各种问题。
  收稿日期:2002-11-19
【参考文献】
  [1] 刘应明,任平.模糊性——精确性的另一半.北京:清华大学出版社,2000
  [2] Gaines,Shaw.From fuzzy logic to expert systems.Information Sciences,60(1-2):137-143
  [3] Graham.Fuzzy logic in commercial expert systems-results and prospects.Fuzzy Sets and Systems,40(3):451-471
  [4] Miyamoto.Fuzzy sets in information retrieval and cluster analysis.Dordrecht:Kluwer Academic Publishers
  [5] Tahani.A fuzzy model of document retrieval systems.Information Processing and Management,12(3):177-187