“…Multidimensional Scaling(MDS)技术对此矩阵进行降维操作,然后使用欧式距离计算向量端点之间的距离,最后 根据语义距离进行词汇的聚类.Burgess 和 Lund 使用 Usenet newsgroup postings 词汇集进行实验发现,HAL 对于 词汇类型和词性的辨别能力均非常准确.Lin 和 Pantel [54] 使用 Clustering by Committee(CBC)方法来发现聚 另外,Pedersen 与 Bruce [55,56] 、Purandare 与 Pedersen [57] 也运用聚类算法实现了词义消岐,这里不再作介绍. Dagan [5] 在 1991 年指出,两种语言包含的信息比一种语言多,他在 1994 年 [58] 又探讨了使用第 2 种语言来帮 助词义消歧的方法.Resnik 和 Yarowsky [59] 在一篇会议论文中正式推介基于双语语料的 WSD 方法.最近几年,公 开发表的有关双语词义消歧的学术论文无论在数量上还是在质量上都有了较大的进步,例如,Escudero 等 人 [60] 、Ide 等人 [61] 、Cong Li 等人 [62] 为双语语料在 WSD 研究上的应用起到了积极的推动作用.Ng 等人 [63] 把语 言数据协会(linguistic data consortium,简称 LDC)提供的汉英双语语料应用到了词义消歧上,用 Naïve Bayes 模 型构造词义分类器,测试了 SENSEVAL-2 中的 29 个名词,将平行语料的实验结果 P 与人工标注语料的结果 M 进行对比,P 基本超过或接近 M,说明平行语料在机器学习模型的训练上是比较有希望的.1999 年,Diab [64] 介绍了 无指导的词义消歧系统 SALAAM.该系统自动生成 token-level 的对齐,能够同时自动生成英、德、法和西班牙 语言的词义标注语料,因此为解决词义消歧的数据获取问题提供了多语言的解决框架;2003 年,Diab [65] 对 SALAAM 作了进一步的改进,认为改进后的 SALAAM 作为一个无指导的系统,在 SENSEVAL-2 英语全文词义 消歧任务上的表现是当前最出色的;2004 年,Diab [66] 将该方法用于增强阿拉伯语词义消歧系统,这是在多语种 扩展上的一个应用范例;同年,Diab [67] 使用 SALAAM 自动生成了规模较大的标注语料,然后用该训练语料来增 强有指导的 WSD 系统.Bhattacharya 等人 [68] 充分利用了大型知识库 WordNet 的语义和概念体系来确定两个概 率模型(分别是语义模型和概念模型)的结构,模型建立后,用通行的 EM 算法训练概率参数,实验结果表明, Bhattacharya 等人建立的语义模型在词义消歧上比 Diab 实现的 SALAAM 系统表现得更好,而概念模型又比语 义模型要强很多.在国内,李涓子和黄昌宁 [23] 提出的基于转换的汉语词义消歧的无指导方法也具有一定的代 表性.…”