1、美国当代英语语料库(COCA)使用说明第1页http:/corpus.byu.edu/coca第2页一、COCA语料库介绍 COCA介绍COCA:美国当代英语语料库(Corpus of Contemporary American English)是由美国杨伯翰大学(Brigham Young University)Mark Davies 教授开发美国最新当代英语语料库,是当今世界上最大英语平衡语料库。第3页COCA语料库介绍 COCA美国当代英语语料库涵盖美国这一时期口语(spoken)、小说(fiction)、流行杂志(pop magzine)、报纸(newspaper)和学术期刊(acad
2、emic)五大类型语料库,而且在这五个类型方面基本呈均匀平衡分布。网址:http:/corpus.byu.edu/cocaCOCA介绍第4页选择学习COCA原因1.COCA无偿且在线方便。2.规模大(4.5亿,1990-)、速度快(普通几秒)、词性标注易于了解。3.时效性强每年最少更新两次,而且每年新增万词汇。第5页COCA界面介绍主要包含三大功效区:显示及查询条件界定区,包含:显示方式区,字串查询区,语料库分类区,查询结果排列方式区。查询结果数据显示区 例句显示区第6页 COCA界面介绍第7页 COCA界面介绍显示方式区:1.LIST列表显示2.CHART图表显示,能够显示在各语料库类型中使
3、用频率和各时间段内使用情况。3.KWICKey word in context,上下文关键词显示4.COMPARE单词比较显示,比较两个不一样词或短语搭配情况。第8页 COCA界面介绍第9页 COCA界面介绍字串查询区:、WORDS:输入字符串。、COLLOCATES:上下文限定。、POS LIST:词性列表第10页 COCA界面介绍第11页COCA界面介绍语料库分类区(五大类型语料库共包含42个子语料库)。功效:此区能够对查询字符串限定语料类型(Genre)和时段(Year),而且能够明确到查询某一个子语料库,时段也能够查询任何一年某个字词使用情况。第12页COCA界面介绍语料库分类区(五大
4、类型语料库共包含42个子语料库)。第13页COCA界面介绍语料库分类区(五大类型语料库共包含42个子语料库)。第14页二、COCA主要搜索功效2.1 搜索搜索words、phrases、lemmas(单(单词全部形式)、词全部形式)、wildcards(通配符)和其(通配符)和其它愈加复杂字词。它愈加复杂字词。例1.输入单词“mysterious”(图2.1.1-1):得到相关结果(图2.1.1-2):在各子库中频率,每百万词使用频率。若对图2中对应条块进行点击,那么就能够看到KWIC,如图2.1.1-3(以点Fiction条块为例):第15页图2.1.1-1第16页图2.1.1-2使用CHA
5、RT显示第17页图2.1.1-3 例句显示区例句显示区使用是KWIC显示第18页KWIC显示方式第19页蓝色名词紫色动词绿色形容词棕色副词灰色代词黄色介词KWIC显示方式第20页COCA主要搜索功效例2.输入词组输入词组“white+名词名词”(图2.1.2-1),得到结果都是white后面跟名词短语(图2.1.2-2),检索表示式为:white n*。图2.1.2-1第21页图2.1.2-2 White+名词短语规则:输入名词话用正表示式规则:输入名词话用正表示式:nn*;动词;动词:v*;形容词形容词:j*;副词副词:r*;代词代词:p*;连词连词:c*第22页POS LIST 词性列表第
6、23页p noun.ALL=名词p noun.SG=单数名词p noun.PL=复数名词p noun.CMN=普通名词p noun.+PROP=专有名词p noun.-PROP=非专有名词POS LIST 第24页POS LIST p verb base=动词原形p verb.INF=动词不定式p verb MODAL=情态动词p verb 3SG=动词第三人称单数p verb ED=过去式p verb EN=过去分词p verb ING=现在分词p verb.LEX=lexical verb实意动词p verb.BE=系动词p verb.DO=dop verb.HAVE=have第25页p
7、pron.INDF 不定代词p pron.PERS 人称代词p pron.WH 疑问代词p pron.REFL 反身代词p adj.CMP 形容词比较级 (comparative)p adj.SPRL 形容词最高级 (superlative)p adv.particle 副词小品词p adv.WH 疑问副词POS LIST第26页p det.GEN 类指限定词p det.POS 物主限定词p num.CARD 基数词p num.ORD 序数词p conj.CRD 并列连词p conj.SUB 隶属连词p Interj.叹词p PUNC 标点POS LIST第27页词性列表使用1)查询多义词特定
8、词性2)某个词前或者后面特定词性若干搭配词,如confidence前形容词3)词性附码放置位置WORDS或 COLLOCATES处第28页例3.输输入入通通配配符符(wildcards),如分别输入un*ly和r?n*,结果如图。COCA主要功效(一)?代替一个字母*代替任意数量字母第29页EXAMPLE 3第30页EXAMPLE 3第31页例4.输输入入lemmaslemmas(即一个单词单单复复数数、时时态态等全部形式),若要得到sing这个单词全部形式,能够以下列图所表示。COCA主要搜索功效第32页规则:若要得到某个单词全部单复数和时态形式,那么就要在输入时,在这个单词外加 。EXAM
9、PLE 4第33页形容词early原形,比较级和最高级三种形式一次性检索出来检索EXAMPLE 4第34页例5.输输入入某某种种词词性性且且部部分分带带有有一一些些字字母母命命令令,如要得到以un-开头、-ed结尾全部形容词全部形式(见图2.1.5-1)和得到动词+任何词+ground全部词组(见图2.1.5-2):规则:若要得到某种词性且词中带有部分带有一些字母形式时,如要得到以un-开头、-ed结尾全部形容词全部形式,那么输入:un*ed.j*;若要得到动词+任何词+ground全部词组,那么输入:v*ground即可。前者用来研究词汇,后者用来查询特定词性搭配。COCA主要功效(一)第3
10、5页图2.1.5-1 第36页图2.1.5-2 动词+任何词+ground全部词组第37页2.2 搜索搭配词和出现频率搜索搭配词和出现频率如“thick后跟名词”(图2.2-1)COCA主要搜索功效(二)第38页图2.2-1 规则规则:在collocates里输入n*后选择4,表示在thick4后面(4跨距范围内)出现任何名词第39页如:跟在“smile前面形容词”(图2.2-2)规则:在words里输入:smile.n*,表示作为名词smile;在collocates里输入:aj*表示其前后出现形容词语境。COCA主要功效(二)第40页Confidence前使用形容词 图2.2-3第41页2
11、.3 搜索在子语料库内搜索在子语料库内(或之间或之间)出现频率出现频率(或或比较比较)(不一样语域中使用方法不一样语域中使用方法)如在Fiction和Newspaper子语料库中passionate后面能够跟任何名词词及频率,分别如两图(2.3-1和2.3-2)。COCA主要功效(三)第42页图2.3-1 图2.3-2 第43页不过也能够之间对二者子语料库中它们出现频率对比,操作:分别选择section 1&2,以下列图(图2.3-3):COCA主要功效(三)第44页2.4 进行语义倾向比较进行语义倾向比较2.4.1 比较近义词如:近义形容词hot和warm后面所跟名词区分(如图2.4.1):
12、COCA主要功效(四)第45页图2.4.1 规则:在words方格里分别输入hot和warm,再在collocates方框里输入nn*,表示后面所跟任何名词。当然也能够比较在某个子语料库中出现频率比较。第46页第47页第48页2.4.2 比较反义词如:woman和man前面所跟形容词区分(如图2.4.2)图2.4.2 规则:在words方格里分别输入woman和man,再在collocates方框里输入j*,选在左3,表示前面3个跨距内全部形容词。当然也能够比较在某个子语料库中出现频率比较。第49页2.4.3 搜索近义词搜索近义词如:搜索beautiful全部近义词(如图2.4.3-1)规则:
13、在words方格里输入=beautiful,表示和beautiful语义相近全部形容词。第50页再如:搜索动词clean全部近义词,以下列图:图2.4.3-2 第51页QuestionApplication和increase能否作主谓搭配?第52页查询结果第53页筛选出筛选出“应用应用”和和“增加增加”作主谓搭配例句作主谓搭配例句The annual application of fertilizers has increased by 5.48%on average since 1980,and that of pesticideIn ten Member States,average ap
14、plication of nitrogen increased almost 400%between 1950 and 1981.Finally,studies have shown that application of biosolids increases the water holding capacity as well as reduces the potential of the.第54页结论Application能够和 increase作主谓搭配,但多用于学术期刊中,口语中出现极少。第55页THANK YOU!THANK YOU!THANK YOU!THANK YOU!第56页