计算机辅助翻译关键技术Review.doc

资源描述

计算机辅助翻译技术概论押题： 1、隐马尔科夫模型 2、机器翻译办法 3、文本电子化OCR 4、双语对齐解决 5、汉语切分办法和核心问题 5-20考试——计算机辅助翻译技术考试题型：填空、判断、问答7-8个考查内容：基本概念梳理，理解分析能力，考题思路，课件！ 1、概论 1.1概况为什么要研究翻译技术？ Ø 何谓翻译技术(translation technology)？可以用来进行语言翻译或辅助进行语言翻译信息技术。 Ø 解决或缓和语言障碍(language barrier)问题，提高翻译从业人员生产率。 Ø 翻译技术研究始于机器翻译关于机器翻译 Ø 机器翻译(Machine Translation)定义：运用计算机及其软件把一种语言(自动)翻译成为此外一种语言技术。 Ø 机器翻译研究目的是研制具备翻译能力计算机软件系统。 Ø 机器翻译研究始于20世纪40年代末期。 Ø 机器翻译结论很困难。翻译技术分流 Ø 机器翻译(MT)：机器翻译主体是机器。当前比较困难。（目的是寻找彻底解决方案） Ø 计算机辅助翻译(CAT)：计算机辅助翻译主体是人。相对比较容易，但却很实用。 Ø 计算机辅助翻译立足为翻译人员提供(软件)工具。协助翻译人员提高效率（生产率）。名词辨析 CAT - Computer-aided Translation MAT - Machine-aided(-assisted) Translation MAHT - Machine-assisted Human Translation HAMT - Human-assisted Machine Translation MT - Machine Translation FAHQMT - Fully Automatic High Quality MT 关于翻译技术理解 Ø 狭义理解，翻译技术指计算机辅助翻译技术和机器翻译技术。 Ø 广义理解，翻译技术指是对翻译人员工作有益任何信息技术。 n 文字解决工具(MS Word) (不可或缺) n 国际互联网及其应用(WWW、Email...) n 各种电子资源(百科全书光盘...) Ø 本课程定位：n 重要是狭义翻译技术。n 配合翻译技术某些通用技术(数据获取技术、文本解决技术) 关于本地化何谓本地化(localization)？ The term “localization” refers to the process of customizing or adapting a product for a target language and culture. 全球化没有带来其她语言消灭，带来了本地化。本地化特点：量大、时间急迫、技术(应用)性强 simship An abbreviation of “simultaneous shipment”，which refers to the practice of releasing multiple language versions of a product at the same time (or at least as close to the same time as is possible). 翻译技术概观翻译技术体现为一组翻译工具，是若干软件工具集合。翻译工具可以涵盖翻译不同阶段、面向不同需要。 n 资料收集\n 原文理解\n 术语解决 1.2工具语言材料电子化工具 Ø Data-capture tools Ø 使用翻译技术前提：待翻译文本需要是电子化，是计算机可以解决。翻译过程中所需要各种资源需要是电子化。 Ø 何为机器可读(Machine readable)?文字变成编码形式 Ø 常用电子化手段：手工键盘输入(keyboarding)、Scanning + Optical Character Recognition、Voice Recognition Ø 文献格式转换工具 Ø 编码转换工具 Ø 多语种解决能力语料库分析工具 Ø Corpus：a large collection of electronic texts that have been gathered according to specific criteria. Ø Type of corpus： n monolingual corpus：orpus which consists of texts in one language. n parallel corpus：corpus containing source texts aligned with their translations. 语料电子化工具、语料解决工具 Ø Corpus-analysis tools Software that allow users to access and display the information contained within a corpus in a variety of useful ways. Most corpus-analysis tools typically contain a number of useful features that allow users to generate and manipulate word frequency lists，concordances，and collocations.（频率表、核心词、搭配） Ø Frequency list Ø Concordance (bilingual or monolingual) Ø Collocation Ø Corpus-analysis tools Ø allow users to have access to frequency data and to Ø see terms in a variety of contexts simultaneously – Ø features that dictionaries can not easily provide. Ø Keyword in context (KWIC)：a method of displaying Ø concordance lines in which all occurrences of the Ø search word are centered on the screen surrounded Ø by the immediate context Ø 直观结识语料解决工具汉语切词(segmentation) 词性标注(POS tagging) 屈折语形态还原(lemmatization) 句法分析(parsing) 双语对齐 (alignment) …… 既是语料解决工具普通也是机器翻译或机器辅助翻译系统构成某些术语管理工具翻译中术语一致性问题：term bank，term base Terminology-management System (TMS)：A software application that allows users to create，store，and retrieve term records. Active terminology recognition Terminology pre-translation Term extraction (identification) Monolingual or Bilingual Quality of term extraction 翻译记忆工具 Translation Memory：a type of linguistic database that is used to store and retrieve source texts and their translations. Translation reuse Pre-translation Matches：Exact match n Fuzzy matchn No match TM tools and localization TM Creation TM tool是CAT核心工具机器翻译用作辅助翻译工具 Pre-editing + Machine Translation Machine Translation + Post-editing 其她方略 n Sublanguage n controlled language 集成翻译工具 Ø Translator's workbench (workstation)：an integrated system for the use of professional translators，which combines multilingual word-processing，terminology management，translation memory，and automatic translation. Ø Workflow management 1.3 翻译技术与计算语言学 Ø 计算语言学是通过建立形式化计算模型来分析、理解和解决自然语言学科。是一门文理交叉学科。（源于翻译技术需求） Ø 翻译技术建立在计算语言学基本之上，翻译技术突破有待于计算语言学发展。 Ø 自然语言 n 2、P2-翻译技术数学基本 2.1概率记录基本概念 2.1.1随机事件随机事件：在一定条件下,也许发生也也许不发生事件称为随机事件，简称事件。普通用大写拉丁字母A,B,C,…表达事件。随机事件两个特殊状况必然事件：每次实验都必然发生事件(W )。不也许事件：每次实验都一定不发生事件(F)。 2.1.2频率和概率频率：如果在相似条件下进行了n次重复实验，事件A浮现了v次，那么事件A在n次实验中浮现频率为是 v/n。当n无限增大时，频率呈现稳定性。这一记录规律性表白事件发生也许性大小是事件自身所固有、不以人们主观意志而变化一种客观属性。概率：概率:事件A发生也许性大小称为事件概率，记作P(A)。当实验次数n足够大，可以用事件频率近似地表达该事件概率，即概率基本性质条件概率条件概率在事件B发生条件下，事件A发生概率称为事件A在事件B已发生条件下条件概率，记作P(A|B)。当P(B)>0时，规定：当P(B)=0时，规定P(A|B)=0。乘法公式 2.1.3独立性和贝叶斯公式若事件A和B，满足条件P(AB)=P(A)P(B)则称事件A和B互相独立。贝叶斯公式:依照乘法公式，可以得到下面重要公式 2.1.4随机变量随机变量：每次实验成果可以用一种实值变量X取值来表达，这个变量称为随机变量。它是随机现象数量化。离散型随机变量如果随机变量X只能取有限个(或可列个 )数值x1，x2，…，xn，…，就称X为离散型随机变量。在语言记录解决中，普通仅用到离散型随机变量。 2.1.5概率质量函数(pmf) 设X是一种离散型随机变量，它所有也许取值为x1，x2，…，xn，…, P{X =xk}=pk (k = 1，2，…，n，…)，则可以用下面表格来表达X记录规律：其中，1≥pk≥0且Σpk=1 ，称表格所示函数为离散型随机变量分布质量函数，记作p(x)。 2.1.6 随机变量数字特性——盼望方差原则差数学盼望：随机变量X数学盼望E(X)是该变量取值概率加权平均。数学盼望简称盼望，描述了随机变量平均值。若X为离散型随机变量，则： E(X) = X1*p(X1） + X2*p(X2） + …… + Xn*p(Xn) 随机变量(X –E(X))2数学盼望称为随机变量X 方差，记作D(X)或Var(X)。方差描述了随机变量取值距离其平均值(即盼望值)分散限度。即原则差随机变量X原则差定义为随机变量X方差算术平方根，记作s (X ) 。即: 2.1.7总体、样本总体研究对象所有也许观测成果称为总体。样本从总体中抽取一某些样品，称为总体一种样本。数理记录办法是通过研究样本来理解和判断总体记录特性科学办法。 2.2信息论基本概念 2.2.1最优编码变长编码：给小概率信息赋以较长编码，而给大概率消息赋以较短编码。随机变量 X 服从概率分布 P，如果消息 x 分布密度为 p(x)，则给其分派一种长度为个二进制位编码。消息编码长度大，可理解为消息所含信息量大。消息编码长度小，则消息所含信息量小。平均信息量即为发送一种消息平均编码长度。信息论中用熵描述随机变量平均信息量。 2.2.2熵(entropy) 熵描述了随机变量不拟定性。 2.2.3 互信息(mutual information) 2.2.4噪音信道模型在运用噪声信道解决语言问题时，人们并不关怀编码问题，而更多关怀是，在有噪声存在状况下，如何解码将输出还原为信道输入。 2.3记录语言模型简介语言建模(Language Modeling) 对于一种服从某个未知概率分布P语言L，依照给定语言样本预计P过程被称作语言建模。 3、P3-语言材料电子化工具-文本电子化：手段编码及格式 3.1 关于文本电子化 Ø 定义：文本电子化就是指将文本转换为机器可读形式进行存储。 Ø 使用翻译技术前提： A 待译文本需要是电子化。 B、翻译过程中使用语言资源需要电子化：语料库：翻译记忆库(TM)：术语资源、词典资源 Ø 文本机器可读形式：计算机及其软件可以读写以及解决。如文字编辑。对于文本而言，字符以恰当编码形式存储。如：ASCII码、GB2312码、UNICODE码等。非机器可读形式文本：手写文稿、打印文稿n 传真文稿n 文稿数字照片 3.2 关于文字编码和编码转换 Ø 文字在计算机中是以编码形式表达 Ø 编码原则化：英文字符编码原则 ASCII码西文字符编码原则 ISO8859 中文编码原则 GB18030、BIG-5 统一码 UNICODE Ø 文字输入和输出文字编码解决过程：n 输入码》à机内码》à字形码除输入和输出外，计算机内任何文字解决都是以机内码形式进行，如编辑、记录 Ø 关于编码转换从机器可读到软件可读编码与软件对编码支持软件也许不支持所有编码，若软件不支持某文本采用编码，会浮现解决错误或得不到预期解决成果。不兼容编码之间可以转换： GB <--> BIG-5n GB <--> UNICODE 3.3 文本电子化手段 Keyboarding Scanning+optical CharacterRecognition Voice Recognition Ø 扫描(scanning) n 将硬拷贝文稿经扫描仪扫描转换为图像格式存储，如：*.bmp、*.jpg、*.tif等。图像存储格式特点：点阵存储w 基本单位是像素(pixel) Ø 光学字符辨认(OCR)：将印刷体或手写体图像中文字辨认出来，转换为规定编码格式存储，如：ASCII、 GB2312、UNICODE等 Ø OCR基本过程 n 图像解决：缩放、旋转、去除污痕，目的是提高辨认率 n 版面划分：区别文字、表格板块以及非文字板块，鉴别辨认顺序，便于按序分别解决 n 文字辨认：依照特定模型及文字辨认特性，逐行逐字进行辨认 n 文字编辑：对辨认成果进行编辑，纠正错误 3.4 关于文献格式和格式转换 Ø 常用文献格式有： n 纯文本文献(txt文献) n Web页面文献(html文献) n Word文档(doc文献) n Portable Document Format (PDF文档) n Rich Text Format (RTF文献) n ... 纯文本文献中只能有文字信息，不能有格式信息、图表信息辅助翻译软件未必支持所有文献格式。许多语料解决工具仅仅支持纯文本文献。要注意文档格式转换经常会损失信息。例如图表、格式信息会丢失或不能较好保持。 4、语料解决工具工作原理 P4-当代汉语词语切分技术 Ø 什么是汉语自动切分？通过计算机把构成汉语文本字串自动转换为词串过程被称为自动切分segmentation）。英语中切分问题英语中不是完全没有切分问题，不能仅仅凭借空格和标点符号解决切分问题。英语中切分普通被叫做Tokenization。同汉语相比，英语切分问题较为容易。 Ø 为什么要进行汉语切分研究应用规定：语音合成和信息检索 Ø 汉语自动切分办法基于词表办法最大匹配法(MM)（特点：长词优先，算法非常简朴） 1. 正向最大匹配法(MM)：从左向右匹配词典 2. 逆向最大匹配法(RMM)：从右向左匹配词典全切分+途径选取序列标注办法：把切分问题看作给句子中每个字加标记过程。四个标记： (1) B 词首 (2) M 词中 (3) E 词尾 (4)单独成词 S 例如：提/B 高/E 人/B 民/E /S 生/B 活/E 水/B 平/E Ø 自动切分评价精确率（P）＝切提成果中对的分词数/切提成果中所有分词数*100% 召回率（R）＝切提成果中对的分词数/原则答案中所有分词数*100% F-评价(F-measure 综合精确率和召回率评价指标)F-指标＝2PR/(P+R) Ø 汉语切分核心问题 s 切分歧义（消解） n 一种字串有不止一种切提成果交集型歧义：从小学组合型歧义：中将混合型歧义：人才干歧义分类真歧义：歧义字段在不同语境中的确有各种切分形式。伪歧义：歧义字段单独拿出来看有歧义，但在真实语境中仅有一种切分形式可接受。歧义发现歧义消解前提是发现歧义。切分算法应当有能力检测到输入文本中何时浮现了歧义切分现象。 1双向最大匹配(MM+RMM)：同步采用MM法和RMM法。如果MM法和RMM法给出同样成果，则以为没有歧义，若不同，则以为发生了歧义。双向最大匹配法不能发现所有歧义，存在盲点最大匹配法不能发现组合型歧义（长词优先）在一定条件下（链长为偶数），双向最大匹配法也不能发现交集型歧义 2MM+逆向最小匹配法 3全切分算法歧义消解基于记录歧义消解：在词图上寻找记录意义上最佳途径 s 未登录词辨认 n 专有名词新词未登录词辨认困难 n 未登录词没有明确边界 n 许多未登录词构成单元自身都可以独立成词普通，每一类未登录词都要构造专门辨认算法：在序列标注法中，未登录词无需单独解决。辨认根据 –内部构成规律（用字规律） –外部环境（上下文） P5-词类自动标注什么是词？是由语素构成、可以独立运用最小语言单位。 Ø 隐马尔可夫模型(HMM)简介简介：Hidden Markov Model，HMM)是对马尔科夫模型一种扩充。隐马尔科夫模型基本理论成形于上世纪60年代末期和70年代初期。(L.E.Baum) 70年代，CMUJ.K.Baker以及IBM F.Jelinek 等把隐马尔科夫模型用于语音辨认研究。隐马尔科夫模型在语言信息解决领域中有着广泛应用。例如隐马尔科夫模型在词类自动标注中应用。马尔科夫：一阶马尔科夫模型可以描述为一种二元组( S，A ) ，S是状态集合，而A是所有状态转移概率构成一种n行n列矩阵，其中每一种元素aij表达从状态i转移到状态j概率。在马尔科夫模型中，给定了观测序列，同步也就拟定了状态转换序列。隐马尔科夫:如果给定一种观测序列(不同颜色小球序列)，不能直接拟定状态转换序列(坛子序列)，由于状态转移过程被隐藏起来了。因此此类随机过程被称为隐马尔科夫过程。隐马尔可夫过程是一种双重随机过程，其中一重随机过程不能直接观测到-通过状态转移概率表达。另一重随机过程输出可以观测到观测符号，这由输出概率来定义。隐马尔科夫模型三个问题：给定HMM l = ( A，B，p ) 给定观测序列 O = ( o1 o2 o3 … oT ) 如何有效地计算出观测序列概率，即P(O|l )? (估算问题) 给定HMM l = ( A，B，p ) 给定观测序列O = ( o1 o2 o3 … oT ) 如何寻找一种状态转换序列 q = (q1 q2 q3 … qT )，使得该状态转换序列最有也许产生上述观测序列？ (解码问题) 在模型参数未知或不精确状况下，如何依照观测序列 O = ( o1 o2 o3 … oT )求得模型参数或调节模型参数 (学习问题或训练问题) 估算观测序列概率对隐马尔可夫模型而言，状态转换序列是隐藏，一种观测序列也许由任何一种状态转换序列产生。因而要计算一种观测序列概率值，就必要考虑所有也许状态转换序列。求解最佳状态转换序列隐马尔可夫模型第二个问题是计算出一种能最佳解释观测序列状态转换序列。理论上，可以通过枚举所有状态转换序列，并对每一种状态转换序列q计算P(O，q |l)，能使P(O，q |l)取最大值状态转换序列q*就是能最佳解释观测序列状态转换序列，参数学习隐马尔科夫模型前两个问题均假设模型参数已知，第三个问题是模型参数未知，求最佳模型问题，是三个问题中最为困难问题。在模型(l)未知状况下，如果给定观测序列同步，也给定了状态转换序列，此时可以通过有指引学习办法学习模型参数。例如给定下面训练数据，可以通过最大似然预计法预计模型参数。 Ø 词类标注语言学基本 1词分类根据形态原则 Words that function similarly with respect to the affixes they take (their morphological properties) are grouped into classes. 分布原则 Words that function similarly with respect to what can occur nearby (their “syntactic distributional properties”) are grouped into classes. 意义原则(×) While word classes do have tendencies toward semantic coherence (nouns do in fact often describe “people，places or things”，and adjectives often describe properties)，this is not necessarily the case，and in general we don’t use the semantic coherence as a definition criterion for part-of-speech. 2英语中词分类封闭词类和开放词类功能词类和内容词类 3汉语中词分类重要根据：词分布特性或者说语法功能（重要指词在句法构造里所能占据语法位置。）实词和虚词：从功能上看，实词可以充当主语、谓语和宾语。虚词则不可以。从意义上看，实词有实在乎义，表达事物、动作、行为、变化、性质、状态、处所、时间等。虚词基本只起语法作用，自身多无实在乎义。从数量上看，实词多为开放类，虚词多为封闭类。体词和谓词：实词可提成体词和谓词。体词可以做主语和宾语。谓词重要做谓语。 4兼类问题如果同一种词具备不同词类语法功能，则以为这个词兼属不同词类，简称兼类。 5英语词类标记集 Brown corpus tagset Penn treebank tagset UCREL’s C5 tagset 6汉语词类标记集北京大学《人民日报》语料库词类标记集国家语委语用所词类标记集 Ø 词类标注基本办法 1词类自动标注鉴定自然语言句子中每个词词类并给每个词赋以词类标记。对于兼类词，词类标注程序应依照上下文拟定兼类词在句子中最适当词类标记。(难点所在) 词类自动标注是深层语言分析基本。词类标注程序鉴定根据：要标注词不同词类分布，上下文中其他词词类信息 2基本办法（基于规则、基于记录、记录规则相结合） n 基于规则词类标注初期均为基于规则办法基于规则词类标注程序工作过程 1. 查词典，给句中各词标记所有也许词类标记。 2. 应用规则，逐渐删除错误标记，最后只留下对的标记。基于隐马尔科夫模型词类标注基于转换词类标注特点(兼具规则和记录两个方面特性) n 应用规则进行标注，规则称为转换。规则不是人工总结，而是应用机器学习办法学习得到。使用机器学办法普通称作基于转换学习(Transformation-Based Learning or TBL)。什么是一种转换(transformation)？ n 激发环境(triggering environment)：描述了应用该转换需要满足条件 n 重写规则(rewriting rule)：描述了应用规则所要进行动作转换规则可以视为一种纠错规则 w 在转换规则使用前，待标注句子已经进行过初步标注，转换规则负责改正其中错误标注激发环境：当前词前面一种词词类是副形词(ad) 重写规则：把当前词词类从名词(n)改作动词(v) 未登录词视作兼类词，也许是任何一种词类，均匀分布 n 依照浮现一次词(hapax legomenon)规律解决 w 更也许是名词不大也许是限定词等 w 将浮现一次词分布平均作为未登录词分布 n 对于英文等语言可以运用形态特性(词缀)、拼写特性鉴定(首字母大小写) P6-屈折语形态分析 Ø 什么是形态学(Morphology)? 形态学研究屈折语中词构成规则词普通由语素(morpheme)构成。语素是语言中最小意义单位(minimal meaning bearing unit)。总来说，语素可以提成两大类 1词根(root)：提供词重要意义 n 2词缀(affix)：提供词各种附加意义(修改词根义或变化词语法功能) 1) 前缀(prefix)：出当前词根前面 2) 后缀(suffix)：出当前词根背面 Ø 语素如何构成词? 1. 派生(derivation):词根+词缀形成词普通与原词根不属一类，词义普通与原词根有联系(有时难以预料)，词根与词缀派生成果也称作词干(stem)。 n computerize+ation (verbànoun) 2. 屈折变化(inflection):词干+词缀形成词普通与原词干同属一类，惯用来使词具备数、时态等功能n cat+s walk+ed walk+ing Ø 英语中屈折变化不规则变化词数量有限，但多是惯用词大某些词变化属规则变化 Ø 英语中派生词英语中派生现象较为复杂，仅看几种例子 n 动词、形容词名词化(nominalization): w computerize (V) à computerization w n 从名词、动词派生出形容词 ww clue (N) à clueless 派生规则规律性不如屈折变化规则、不能随意派生 Ø 什么是形态分析? 形态分析研究如何运用计算机把屈折语中词分解成语素. 为什么要进行形态分析? 应用规定：信息检索、TM中应用、深层英语分析基本 Ø 形态分析技术基本 n 有限状态自动机 n 有限状态转换机形式语言有限状态自动机和语言构建形态分析器所需要资源 1. 词典(lexicon)：词干(词根)和词缀；词干(词根)和词缀基本信息 2. 形态知识(morphotactics)：语素间顺序关系哪一类语素可以和哪一类语素组合 (例如：名词背面可以加一种复数语素) 3. 正字规则(orthographic rule or spelling rule)：两个语素组合时应进行如何变化 (如:把y改写为i加es) P8-平行文本自动对齐 Ø 什么是平行文本(parallel text)？双语语料库是涉及两种语言语料库，由双语平行文本构成。多语平行文本由各种单语文本构成，这些文本之间具备翻译关系。双语平行文本由两个单语文本构成，这两个单语文本互为译文。多语平行语料库又称作翻译语料库(translation corpora)。多语平行语料库包括原文及其译文，是机器(辅助)翻译等多语信息解决重要资源。 Ø 双语对齐解决(Bilingual Alignment) 所谓双语对齐解决就是在不同语言文本不同语言单位之间建立相应关系，也就是拟定源语言文本中哪个(些)语言单位和目的语言文本中哪个(些)语言单位互为翻译关系。所谓自动双语对齐解决指是通过一定算法，由计算机在双语文本间建立对齐关系。对齐可以在各种语言单位间进行，例如：文本级、段落级、句子级、短语级、词汇级句子级对齐是最基本对齐(段落对齐可视为一种特殊句子对齐)。核心问题： n 机器不能在理解基本上进行对齐、n并非严格一一相应、译文也许涉及语序调节、也许浮现省略不译现象、反之译文中也也许增长原文中没有内容 n 从句子层级看，语序不会激烈调节 n 大某些状况是一一相应 Ø 句子对齐办法句子对齐基本办法 n 基于长度对齐办法 w 基于单词对齐办法两种办法对齐精确率都较高，对普通文本，都在90%以上。基于长度对齐办法效率优于基于单词对齐办法。基于单词对齐办法：运用单词相应关系，来决定句子对齐关系。基于长度对齐办法根据：互为翻译两个句子在长度上高度有关。基于长度对齐办法只运用了文本中句子长度信息待对齐两个文本但是是两个数字(长度)序列长度对齐基本原理：基于长度对齐基本过程可以概括为 (1) 枚举文本间所有也许对齐 (2) 评价每种对齐模式合理性 (3) 选取最佳对齐词汇信息引入可运用词汇相应信息改进基于长度对齐效果锚点：双语文本中有明显相应关系词汇（数字、日期、人名、地名） 5、翻译技术及其原理语料分析（词频、搭配和检索） P7-术语管理和提取（搭配和术语自动提取）什么是搭配？定义： A COLLOCATION is an expression consisting of two or more words that correspond to some conventional way of saying things. Within the area of corpus linguistics，COLLOCATION is defined as a pair of words (the 'node' and the 'collocate') which co-occur more often than would be expected by chance. 搭配构成普通原则广义搭配：语法上合法词语序列狭义搭配：固定搭配和半固定搭配什么是术语？ terminology is the specialized vocabulary of a field. These terms have specific definitions within the field，which is not necessarily the same as their meaning in common use. 惯用搭配提取办法记录办法与规则办法惯用记录办法 n 基于频率办法(frequency-based approach) 通过记录两个词(bigram)共现频率办法来发现并提取搭配。普通最高频词语组合是虚词组合。可通过词类组合模式进行过滤，剔除高频虚词组合。词语及其搭配词未必比邻浮现，前述频率法不能直接应用，此时可以通过定义搭配窗口办法进行解决，记录词语和窗口范畴内其她所有词共现频率。大小为[-5,+5]搭配窗口 n 基于方差办法(variance-based approach) n 若w1和w2浮现位置相对固定，则两者有也许构成一种搭配。计算w1和w2两个词在语料库中位置偏移均值 m。计算位置偏移方差 s2 均值和方差刻画了两个词之间距离分布状况。如果两个词距离方差较小，则有也许两者构成一种搭配。较小方差意味着两个词之间距离相对固定。假设检查法(hypothesis testing) 采用假设检查办法 n 一方面假设w1w2是在语料库中是机会共现(co-occur by chance)，该假设普通称为原假设(null hypothesis)。基于原假设，运用样本数据进行检查，若不能推翻原假设，则w1w2不构成搭配，若推翻原假设，则w1w2构成搭配，即以为备择假设成立。若w1w2为机会共现，则w1、w2互相独立，即p(w1w2) = p(w1) p(w2) t-检查法（基本原则是假定样本数据来自均值为 m分布，然后通过对比样本均值和预期均值m之间差别，判断样本与否来自于所假设分布，从而推断出原假设与否成立。 t-检查和其她检查惯用来给搭配排序，即t-值越大，w1w2越也许是一种搭配。） x2检查法（重要思想是对比预期频率以及观测频率，若两者差别较大，则回绝原假设。）互信息法 (mutual information) 一种事件中所蕴含关于此外一种事件信息量两个事件之间关联度 w 若两个事件独立，则有I(x,y)=0 w 若两个事件高度依赖，一种浮现必然意味着此外一种事件浮现。互信息对于两个事件与否独立可以给出较好鉴别。互信息值接近0两个事件互相独立. 但对于两个事件互相依赖，仅依托互信息值有缺陷。 n 互信息值与事件频率关于 n 低频率事件有也许获得较高互信息值，因而对于稀疏数据，互信息成果未必可靠领域性解决停用词(stop list) 领域无关词汇在任何领域都以相似规律浮现翻译记忆技术 P9-机器翻译原理和办法 Ø 什么是机器翻译及其研究目的研制出能把一种自然语言（源语言）文本翻译为此外一种自然语言（目的语言）文本计算机软件系统。全自动高质量机器翻译系统(FAHQMT)仍将是人类一种遥远梦。 Ø 机器翻译基本办法 n 1基于规则机器翻译办法(老式机器翻译办法) w 直接翻译法（逐词进行翻译，无需对源语言文本进行分析，对翻译过程结识过于简化） w 中间语言法一种中间表达，普通是一种句法-语义表达，中间语言独立于任何详细自然语言。源文本通过深层分析得到源语言中间语言表达。再由该中间表达生成目的语文本。翻译过程为两个阶段。中间语言法在理论上非常经济，可有效减少翻译模块数量。可把n(n-1)个直接翻译模块减少为2n个翻译模块。（当前没有特别成功基于中间语言机器翻译系统。） w 转换法分析源语言文本，得到其源语言内部表达 n 将源语言内部表达转换成目的语内部表达 n 依照目的语内部表达生成目的语文本 n 翻译过程提成三个阶段（商业上最为成功办法，当

展开阅读全文