荷兰Keukenhof花园所见(冯志伟摄,2011年)
新编《同义词词林》语义代码设计的四个原则
冯志伟
1982年7月《同义词词林》出版时,著名语言学家郭绍虞先生为《同义词词林》作序,他从修辞和文法的角度,论述了学习词汇的重要性。他引用《文心雕龙》中的“句之清英,字不妄也”来说明,“古人学文在于记住字和词的用法,这才是一个真正的难关”,他明确指出,“学中文的可以不必从文法入手,但是不能不从这些繁多的词汇入手”;他又指出,像《同义词词林》“这一类词书,看似不讲文法和修辞,但把汉语文法修辞两种学科,都包赅在内,经过这具体训练,比学习语法修辞要好得多,因为就实用的意义讲,确实比空谈语法修辞之类的学者要实际”。我完全同意郭绍虞先生的这种看法。《同义词词林》是一个词汇的宝库,当我们写作时感到词穷而难以表达意思的时候,查一查《同义词词林》,我们就会豁然开朗,从中挑选到恰如其分的词语来表达我们的思想,《同义词词林》帮助我们排难解惑,常常使我们体会到“山穷水尽疑无路,柳暗花明又一村”的快乐。《同义词词林》出版25年以来,对于中文写作和外文翻译是非常有帮助的,它成为了我们写作和翻译的好助手。
近年来,语言信息处理需要进行语义的形式分析,急需一套能够反映汉语单词语义特征的代码化的语义系统,而《同义词词林》中的每一个单词都有表示语义的代码,正好是一个代码化的语义系统,因此,语言信息处理学界的专家们把《同义词词林》当做一个宝贵的语言资源,并且把它改造成为计算机可读的电子文本,有力地推动了我国语言信息处理的研究。
然而,《同义词词林》在语言信息处理中的这种作用是郭绍虞先生在他的序中没有提到的,也是《同义词词林》的梅家驹等4位编者在编写时没有料到的;《同义词词林》的初衷是为了写作和翻译而编写的,编者并没有考虑到语言信息处理的特殊要求。因此,在语言信息处理中,《同义词词林》的语义代码往往会出现左支右拙、穷于应付的局面。
在这种情况下,我们深切地感到,需要从语言信息处理的需要出发,同时又要考虑到写作和翻译的需要,在《同义词词林》的基础上,重新编写一本同义词词林。鲁东大学多年来一直进行汉语语料库的研究,他们在词语的语义分类方面做了很多有价值的工作,成绩显著,因此,上海辞书出版社委托他们编写了这部《新编同义词词林》。
我参考《同义词词林》的语义代码,为《新编同义词词林》设计了一个新的代码系统,这套代码也就是上次的博文所介绍的ONTOL-MT2。
我在设计这个新的代码系统时提出了如下4个原则:
第一,普遍性原则:对于任何两个意义相同的单词,不管这两个单词属于什么语言,它们在新的代码系统中的概念只有一个。
远在1949年,美国洛克菲勒基金会的副总裁韦弗(W.Weaver)在讨论机器翻译的时候就提出,当机器把语言A翻译为语言B的时候,可以从语言A出发,通过一种中间语言(Interlingua),然后再转换为语言B,这种中间语言是全人类共同的。我们的代码系统中的概念结点也应当是全人类共同的,它们应当适用于不同的语言,应当具有普遍性。
在普遍性原则的前提下,在编写不同语言的代码体系时,又应当考虑不同语言的特殊性,不过,特殊性是服从于普遍性的。新的代码系统表示的是语义,具有中间语言的性质,我们要首先考虑普遍性,其次才考虑特殊性。
目前这个代码系统只在《新编同义词词林》的编写工作使用,只局限于汉语,但是,我们在设计代码体系时,是充分地考虑到它的普遍性的,它应当是多种语言共同的、通用的。
第二,完备性原则:新的代码系统中的概念代码应当具有完备性,它们应当尽量能够覆盖人类在自然语言中表达的所有通用的基本概念。
第三,明晰性原则:新的代码系统中的概念代码之间应当是泾渭分明的,它们应当具有明晰的界限,尽量避免交叉或重叠。在使用代码来标注词典的时候,应当尽量把不同的概念明晰地区分开来。
第四,多角度原则:事物从不同的角度观察,可以具有不同的特性,因此,同一个单词也可能具有不同的代码标记,这正说明了事物本身的多义性,应该是正常的。在新的代码系统中,同一个单词可以具有不同的属性,因而可以从不同的角度标注以不同的代码。