您所在的位置是: 政务信息 > 档案科技 > 部分优秀档案科技成果介绍
满-汉文计算机辅助翻译系统
满-汉文计算机辅助翻译系统
作者: 来源: 2011年12月27日

    辽宁省档案馆存有大量满文档案,如何抢救这种语言已近死亡了的档案资料,是极其紧迫而又艰巨的任务。由于精通满文的人员逐年减少,人工翻译已不可能满足各方面对满文档案资料的需求。因此,辽宁省档案馆、东北大学计算机语言工程研究室、广西师范大学出版社联合,共同完成了满-汉文计算机辅助翻译系统的研究工作。2000年10月通过技术鉴定,2001年度获国家档案局优秀科技成果一等奖。

    机器翻译是集语言、数学、心理学和计算机等多种科学的一门综合性科学,“满-汉文计算机辅助翻译系统”在吸收了当前世界机器翻译领域的先进技术的基础上,通过懂满文的档案人员与高水平的计算机软件人员的合作。使该系统具有如下特点:

    1、本系统强调机器翻译过程中将源语和目标语分别处理,采用一种中间结构作为源语和目标语的中间接口的先进技术,使满文的对译方便快捷。

    2、本系统通过探索满文语言深层次的特点,首创了信息完备的满文电子词典。

    3、本系统创造出独特的满文字模及其编码方法,使满文的机器输入出成为可能。

    4、本系统利用完备的数学理论研究自然的机器翻译过程和结构,创造了满文翻译句法结构的形式化方法,如规则描述语言等。

    5、建立大规模带标短语结构树库,采用简单句法翻译和概率计算结合进行机器自动翻译的面向数据的处理方法,使满文翻译策略更为合理。

    6、本系统具有自学习、自己记忆的智能化功能,从而能使其随着应用时间的增长,翻译性能水平不断提高的特点。

    该项目的主要研究内容是:

    1、建造满汉文机器词典。本词典具有数量大,总计达27375条,信息量大,每一词条包括满文词写法、转写码、词条信息、词法属性、句法属性、语义分类、语义特征、语义约束、对译语、义项、注释等十三大类,在这十三大类下又分别设有不同数量的小类。最后形成的词典达45M。

    2、满文字模的建造及其编码方法的研究。设计出154个满文字模,制定出满文字模的搭配规则,解决了满文的拼接和从上到下,从左到右的显示与打印的问题。

    3、机器翻译系统的设计。本系统利用完备的数学理论研究自然语言的机器翻译过程和结构,创造了满文翻译句法结构的形式化方法,如规则描述语言等,使满文翻译语法处理科学实用。建立大规模带标短语结构树库,采用简单句法翻译和概率计算结合进行机器自动翻译的面向数据的处理方法,使满汉文翻译策略更为合理。

    4、满语语言学的研究。本课题研究中的一个关键问题是对满语语言学的深入研究,这不仅是满文专家的事,也是计算机软件专家们的事。满汉全文翻译必须在一定的语法规则上实现,因此我们对满文语法规则进行了重新编制,将传统的语法规则重新组合分类,将其转化成一条条“准计算机语言”,提供给程序设计人员。

    5、总体方案的设计。总体方案的设计是满汉文翻译系统研究的最重要的一步。主要内容包括:先进、合理、科学的词典设计方案;满文字模方案及其输入输出方案;以及分词翻译策略等,建立了词典管理系统、规则管理系统、语料标注系统、满文编辑器和满-汉文计算机辅助翻译系统。

责任编辑: