联合国平行语料库
前言
联合国平行语料库(1.0版)由已进入公有领域的联合国正式记录和其他会议文件组成。这些文件多数都有联合国六种语文的文本。本语料库当前版本包含1990至2014年编写并经人工翻译的文字内容,包括以语句为单位对齐的文本。
创立语料库既是表明联合国对多种语文并用的承诺,也是因为统计机器翻译在大会和会议管理部(大会部)各笔译处和联合国统计机器翻译系统Tapta4UN中的作用越来越大。
语料库旨在提供多语种的语言资源,帮助在机器翻译等各种自然语言处理方面开展研究和取得进展。为了方便使用,本语料库还提供现成的特定语种双语文本和六语种平行语料子库。
用户在使用联合国语料库时,须表明联合国是信息来源方。在引用联合国平行语料库时,请注明如下出处:Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016), The United Nations Parallel Corpus, Language Resources and Evaluation (LREC’16), Portorož, Slovenia, May 2016 (Ziemski, M., Junczys-Dowmunt, M., and Pouliquen, B., (2016),联合国平行语料库,语言资源和评测(LREC’16),2016年5月,斯洛文尼亚波尔托罗日)。
详细情况请洽询:unovgtextsupport@un.org。
下载
语料库统计数据
双语种对齐文件统计数据:
阿文 | 英文 | 西文 | 法文 | 俄文 | 中文 | |
---|---|---|---|---|---|---|
阿文 | – | 111,241 18,539,207 |
113,065 18,578,118 |
112,605 18,281,635 |
111,896 18,863,363 |
91,345 15,595,948 |
英文 | 456,552,223 512,087,009 |
– | 123,844 21,911,121 |
149,741 25,805,088 |
133,089 23,239,280 |
91,028 15,886,041 |
西文 | 459,383,823 593,671,507 |
590,672,799 678,778,068 |
– | 125,098 21,915,504 |
115,921 19,993,922 |
91,704 15,428,381 |
法文 | 452,833,187 597,651,233 |
668,518,779 782,912,487 |
674,477,239 688,418,806 |
– | 133,510 22,381,416 |
91,613 15,206,689 |
俄文 | 462,021,954 491,166,055 |
601,002,317 569,888,234 |
623,230,646 513,100,827 |
691,062,370 557,143,420 |
– | 92,337 16,038,721 |
中文 | 387,968,412 387,931,939 |
425,562,909 381,371,583 |
493,338,256 382,052,741 |
498,007,502 377,884,885 |
417,366,738 392,372,764 |
– |
表格对角线右上方的单元格中是各语种对的文件数和行数。对角线左下方的单元格中是各语种对的词例数:上边的数字对应所在列标头中的语种;下边的数字对应所在行标头中的语种。由Moses切词器处理后进行词例计数。中文文本在用默认设置的Moses切词器处理前,先用“结巴”切词处理。
文件总数 | 对齐的文件对数目 |
---|---|
799,276 | 1,727,539 |
文件数 | 行数 | 英文词例数 |
---|---|---|
86,307 | 11,365,709 | 334,953,817 |
免责规定和使用条款
下列免责规定是联合国平行语料库(1.0版本)的组成部分,在使用语料库时须遵守这些规定(无其他限制):
- 我们不为联合国平行语料库提供任何明确或暗中的保证。具体而言,联合国对联合国语料库中的信息是否准确或完整不作任何保证或陈述。
- 对据说因使用联合国语料库而造成或遭受的损失、责任、伤害或损害,联合国概不负责。用户自行承担使用联合国语料库的风险。用户明确承认并同意联合国不对任何用户的行为负责。如果用户不满意联合国语料库提供的资料,唯一仅有的补救办法是停止使用联合国语料库。
- 用户在使用联合国语料库时,须承认联合国是信息来源方。引用时请使用本出版物。
- 本规定的任何内容不构成、也不得视为明确或暗中限制或放弃联合国具体保留的特权和豁免。
文件存储方式和格式
所有文件按语种、出版年份和出版文号分门别类,存放在文件夹中。相对应的文件保存在结构平行的文件夹中,每份文件的任何一种联合国正式语文的译文(如果有)可通过该语种子文件夹的相同文件路径找到。
文件采用JRC-Acquis平行语料库的TEI兼容格式。文件保留原始的段落结构,并自动添加切句标签。对于有多语种文本的文件,各语种对都有相应的关联文档,最多有15个语种对。
除了每个文件有一个关联文档的配给方式,还为每个语种对提供了所有文件的纯文本双语文件,这样更容易用于统计机器翻译训练流水线。
测试包和开发包
取用了2015年印发的文件中的数据,为所有语种对制作了正式的开发包和测试包。从这些文件中随机选出100份文件,开发包和测试包各用50个。与全语种对齐语料子库的情况相同,开发包和测试包的每个语句都有联合国所有语种的文本,可对所有语种的互译进行评测。
文件元数据
每份XML文件格式的文件都内置下列元数据信息: