资源描述
平行语料库制作流程平行语料库制作流程 说明:在邹颂兵先生、孟令子博士的基础上,由李涛、李晓倩讨论完成,期间胡慧婷也参与讨论,给予了很好说明:在邹颂兵先生、孟令子博士的基础上,由李涛、李晓倩讨论完成,期间胡慧婷也参与讨论,给予了很好的建议。这个流程对于有些老师和同学,实在没有必要这么繁琐,有些步骤可以利用一些软件一次性解决,推荐两的建议。这个流程对于有些老师和同学,实在没有必要这么繁琐,有些步骤可以利用一些软件一次性解决,推荐两款软件试用,文本整理器;款软件试用,文本整理器;PowerGREP。之所以如此繁琐,是想让大家更加详细的了解整个建库流程以及为什么这。之所以如此繁琐,是想让大家更加详细的了解整个建库流程以及为什么这么做。当然在建库过程中还会遇到更多的问题,大家可以尝试自己去解决。么做。当然在建库过程中还会遇到更多的问题,大家可以尝试自己去解决。)1 语料采集语料采集(目的不同,方法各异)(目的不同,方法各异)2 去噪去噪(Emeditor)(1)消除回车和空行:ns*空 (n 表示新行;s 表示空格,*表示 0 个或多个;之所以加上s*是为了避免回车键前面有空格。)(2)去空格 英文 s+替换为空格空格(s 表示空格,表示空格,+表示表示 1 个或更多个或更多。该表达式意思表明如果原来有。该表达式意思表明如果原来有 1 个空格,个空格,就替换为就替换为 1 个空格,如果多于个空格,如果多于 1 个空格,仍然替换为个空格,仍然替换为 1 个空格。之所以如此,是因为英文单词之间是有个空格。之所以如此,是因为英文单词之间是有 1 个空格存个空格存在的。在的。)中文 s*替换为空空(s 表示空格,表示空格,*表示表示 0 个或更多个或更多。该表达式意思表明如果原来有。该表达式意思表明如果原来有 0 个空格,就替换为个空格,就替换为0 个空格,如果多于个空格,如果多于 1 个空格,仍然替换为个空格,仍然替换为 0 个空格。之所以如此,是因为汉字之间是有个空格。之所以如此,是因为汉字之间是有 0 个空格存在的。个空格存在的。)3 分词分词 英文 Claws 中文 ICTCLAS (可以选择 二级标准,北大标准)中文分词校对 常见:人名标注为/nr,(如小说首席里,人名飘雪被标注为“飘/v 雪/n”;可以统一替换为“飘雪/nr”);地名/ns;4 标点符号处理标点符号处理 英语标点符号全部替换成单个标点。英语标点符号全部替换成单个标点。(因为(因为 Claws 标注后的英文标点及其标注显示为标注后的英文标点及其标注显示为“标点标点_标点标点”;以问号;以问号?为例,即为例,即“?_?”;更改后,变为;更改后,变为“?”即可。即可。特别注意省略号,特别注意省略号,因为因为 Claws 标注后的省略号及其标注显示为标注后的省略号及其标注显示为“._._._.”其中第一个“._.”和后面两个“._._.”之间换行了,这样在添加标志是会造成默认三个英语句号标识。两种解决方案:1.替换句号之前查找“._.n._._.”(选择正则表达式一栏),替换成“-”(什么符号都可以,自己知道意思即可,但整个语料库建设里一般会涉及多人,所以大家要统一);2.如果先替换句号,就直接查找“.n.”(选择正则表达式一栏),替换成“-”。建议所有查找和替换操作都从文本中复制以免格式不匹配。中文标点符号全部转成中文标点符号全部转成英文状态下的半角格式英文状态下的半角格式并去除其词性标注并去除其词性标注/w。(ICTCLAS 标注后的中文标点及其标注显示为“标点/w”;以问号?为例,即;以问号?为例,即“?/w”;更改后,变为;更改后,变为“?”即可。特别提醒:一些中文特有的标点符号如即可。特别提醒:一些中文特有的标点符号如“”“”;“破折号破折号”;“、”“”等,我们认为可以分别替换成等,我们认为可以分别替换成“-”(三个)(三个);“-”(两个)(两个);“/”;“”)问题:(可以专门查找省略号,然后自己判定是否是句子结束标志;也可以忽略,在对齐校对的时候做。问题:(可以专门查找省略号,然后自己判定是否是句子结束标志;也可以忽略,在对齐校对的时候做。)“我我我我我怎么了?我怎么了?”这个时候这个时候并不是一句话的结束。并不是一句话的结束。“啊啊”这个时候这个时候是一句话的结束。是一句话的结束。4.添加对齐标志 (中英文一致)考虑到有时在对话中句号、问号和叹号加上了引号,即.”、?”、!”,也代表一句话的结束,因此我们建议分三步添加对齐标志:(1)用特定符号,如 11111111,替换带引号的句号、问号、叹号,目的在于避免对其标志出现在引号之内。(2)句号、问号和叹号之后添加对齐标志。(3)在 11111111 之后添加对齐标志。(1)处理加引号的句号、问号和叹号(使用正则表达式).替换为 11111111?替换为 22222222 !替换为 33333333(2)处理所有文本中句号、问号和叹号(使用正则表达式)查找.替换为.n 查找?替换为?n 查找!替换为!n (3)再处理(1)遗留的问题 查找 11111111 替换为.n 查找 22222222 替换为?n 查找 33333333 替换为!n开头和结尾处标注手动添加开头和结尾处标注手动添加5 平行平行(详细做法请参照详细做法请参照 ParaConc 使用说明使用说明)1)添加语料)添加语料2)Align Format 要选 Start/Stop tags3)查看语料对齐4)选中两个文本后,选中 alignment
展开阅读全文