收藏 分销(赏)

CQP语法赋能语言研究及语言学习.pdf

上传人:自信****多点 文档编号:4071893 上传时间:2024-07-29 格式:PDF 页数:17 大小:2.82MB
下载 相关 举报
CQP语法赋能语言研究及语言学习.pdf_第1页
第1页 / 共17页
CQP语法赋能语言研究及语言学习.pdf_第2页
第2页 / 共17页
CQP语法赋能语言研究及语言学习.pdf_第3页
第3页 / 共17页
亲,该文档总共17页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、98语料库语言学 2023年 第10卷 第1期CQP语法赋能语言研究及语言学习湖南工商大学吴良平提要:CQP语法(CQP syntax)是第四代语料库检索平台CQPweb所使用的高级检索语法,支持正则表达式和布尔运算,可满足多种复杂查询需求。CQPweb为全球数十所大学和科研院所采用,CQP语法为其精华所在。本文对CQP语法检索模型和相关概念分解简化,并从词汇、短语和语法等语言学诸层面展示CQP语法丰富检索功能,以推动CQPweb在教学科研中的进一步深入应用。关键词:CQPweb、CQP语法、语料库检索、数据驱动学习1引言得益于功能强大、承载语料丰富和免费开源,第四代语料库检索平台CQPweb

2、(Hardie 2012)近年来在语言研究和教学应用中使用日益广泛。当前,世界各地CQPweb平台已有数十个,新的采用机构包括伯明翰大学、赫尔辛基大学、悉尼大学等。各平台语料资源丰富且大多向公众开放,既有BNC等传统大型平衡语料库,也有各教学科研单位的自建语料库,被广泛应用于数字人文(Fischer et al.2020)、批评话语分析(Baker et al.2019)、社会语言学(Sadowsky 2022;Mller et al.2021)等研究领域。相关教学应用则集中在数据驱动学习(杨素香 2015;刘萍等 2016;刘萍、吴良平 2016;罗琴琴、石敏 2020)和教材开发(Curr

3、y et al.2022)。CQPweb检索功能强大,但潜力没有充分释放。CQPweb包含简单查询模式和复杂检索模式,前者支持通配符进行简单查询,后者使用CQP 语法,支持利用正则表达式和布尔运算进行高级查询,是CQPweb检索功能核心与精华所在(许家金、吴良平 2014)。囿于CQP语法概念模型相对复杂、相关文献不足,且CQPweb必须基于Linux操作系统进行安装这些难题,CQP语法的使用并不广泛,当前基于CQPweb的研究与应用仍多停留在大家较为熟悉和容易掌握的基于通配符的简单查询。然而,随着计算机虚拟化技术发展,CQPweb安装技术门槛已大幅降低(葛晓帅、张现荣 2021),普通用户稍

4、加学习或培训后即可在Windows平台安装好一个加载自己语料库的全新系统,用时可能不需要1小时,今后CQPweb无疑将为更多机构和个人所采用。随着CQPweb用户增长,功能更为全面、强大的CQP语法将在更大范围内得以使用。SJ00088718语料库语言学2023第19辑正文.indd 988/18/23 5:20 PM99吴良平为便于研究人员、教师和学生使用CQPweb更好地开展研究和教学应用,本文对CQP语法检索模型和相关概念分解简化,对检索过程中的难点予以剖析,并从词汇、短语和语法等语言学诸层面展示CQP语法的丰富检索功能,弥补相关使用资料短缺的不足,以推动CQPweb这一语料库分析利器在

5、教学科研中的进一步深入应用。2 CQP语法与CQPweb在CQPweb词表生成(Frequency lists)、索引分析(Query/Concordance)、词语搭配计算(Collocations)、主题词分析(Keywords)等几大功能中,CQP语法在索引分析中居中心地位。这是由于CQPweb在处理索引分析的简单查询模式(Simple Query)时,自动将检索表达式转换为复杂检索模式所支持的CQP语法后再对语料库进行检索(Hardie 2012:394)。与此同时,CQP语法对基于索引分析结果的词语搭配分析也有着重要影响。CQP语法历史悠久,历久弥新,但使用资料尤其是中文资料依然相对

6、匮乏。CQP语法原为德国斯图加特大学Christ为“语料库工作台”(Corpus Workbench,简称CWB)定制的语料库检索语法(Christ 1994),CQP即为Corpus Query Processor的缩写,意指“语料库查询处理器”。这一语法支持正则表达式和布尔运算,专为语料库检索开发,为众多语料库工具所采用。Hoffmann et al.(2008)撰写了基于BNCweb的语料库语言学实践教程一书,其中第12章专门论述CQP语法,这可能是现有正式出版物中可查询到的最全面的CQP语法使用指南。CQPweb所使用的CQP语法基于开源后的语料库工作台,因此也可参考语料库工作台及其后

7、续版本的一些使用手册(Evert&The OCWB Development Team 2022)。出于检索平台安全需要,CQPweb的CQP语法仅支持语料库工作台的查询语法,舍弃了所有命令动词,如set、show、dump、sort、define等(许家金、吴良平 2014:15),因此使用上不能全盘照搬已有文献。综上所述,CQP语法使用文献相对匮乏,或源于专著难于获取,或源于手册内容冲突,或源于检索模型本身就比较复杂,致使部分教研实践中遇到了一些难题(刘萍等 2016;罗琴琴、石敏 2020)。本文尝试对CQP语法检索模型和相关概念分解简化,以进一步降低其学习和应用难度。CQPweb默认检索

8、模式为简单查询,复杂检索模式下的CQP语法须通过手工选取CQP syntax(见图1)开启。简单查询检索表达式与CQP语法之间的转换可先点击检索界面的Query history(见图1),然后点击后续页面中的Show in CQP syntax和Show as Simple Query切换观察,熟悉简单查询的用户可以充分利用这一便利了解两者之间异同与转换规律。和简单查询相比,CQP语法灵活全面,可SJ00088718语料库语言学2023第19辑正文.indd 998/18/23 5:20 PM100CQP语法赋能语言研究及语言学习以完成更多检索任务,本文仅讨论CQP语法。本文与CQPweb相关

9、图片均截取自BFSU CQPweb(http:/114.251.154.212/cqp/,用户名test,密码test)(许家金、吴良平 2014)。图1 CQP语法检索界面3 CQP语法检索模型与相关概念理解和使用CQP语法通常有两种路径:一种是根据大量样例学习,自下而上逐步归纳提炼,熟能生巧;另一种从检索语法所依赖的数据模型出发,从思想和概念上明晰语法各组成成分及相互关系,自上而下掌握其核心要领,然后逐一掌握具体检索细节。本文认为这两种方式各有利弊,综合起来可能效果最佳。本节对CQP语法检索模型和相关概念分解简化,第4节举例说明词汇、短语和语法等语言学诸层面的检索。阅读过程中如有疑义,可以

10、在两部分之间来回跳读,以获取最佳阅读效果。和AntConc、WordSmith Tools等众所熟知的语料库检索软件不同,CQP语法检索文件为竖排格式,有自己独有的一些概念需要提前了解,其数据模型见图2,与检索语法之间关系如下:(1)和两行一般不参与检索;(2)和相关文献中称之为结构属性(s-attribute),可参与检索,但一般不单独使用;(3)剩余部分称之为位置属性(p-attribute),每列占据一个位置,其中第一列为词形属性,默认名称为word,第二列为词性属性,实际操作中通常命名为pos。位置属性是CQP语法检索主体。我们接下来从单词检索和多词检索两个相辅相成SJ00088718

11、语料库语言学2023第19辑正文.indd 1008/18/23 5:20 PM101吴良平的方面讨论可能的最佳检索策略。图2 CQP语法检索文件数据模型图3.1 单词检索使用CQP语法对单个单词的位置属性进行检索时,一次可以只检索一个属性,如单独检索其词形属性或词性属性,如word=cat或pos!=AT,这些表达式均可产生输出结果,其中!=表示不等于。针对单个单词的单一属性的检索,我们可用表1中的“属性-值”配对表来说明表达式各构成成分。表1 CQP语法最简表达式属性运算符值word=catword=matword=satpos=VVDpos!=AT从表1可看出,属性是固定的,但值可以变化

12、。如果要对值进行模糊匹配,就需要引入正则表达式,如word=.at可以一次性检索到cat、mat和sat,其中.号表示任意单个字符。正则表达式是CQP语法功能强大的第一个原因。然而,上面仅展示了如何检索单个单词的单一属性,如词形或词性,要同时检索单个单词的多个属性,则需要引入CQP语法功能强大的第二个原因,即布尔运算。以word=.at&pos=VVD为例,检索结果里就只剩sat,而没有了cat和mat,布尔算符&(“和”)起到了预期的过滤效果。CQP语法的三个布尔运算符为SJ00088718语料库语言学2023第19辑正文.indd 1018/18/23 5:20 PM102CQP语法赋能语

13、言研究及语言学习“和”(&),“或”(|),“否”(!),其功能在4.1节将进一步详细阐述。3.2 多词检索了解了单个单词的检索,多词检索可迎刃而解:多词检索表达式就是单个单词检索表达式的横向相加。如果将单个单词表示为一个盒子,那么多词检索就是多个盒子的横向并置,其中每个盒子内部支持正则表达式和布尔运算,如图3 所示。图3 CQP语法多词检索示意图4 检索实例依据上述CQP语法检索模型,我们可以对不同语言学层面现象进行灵活检索。我们从单词检索(4.1节)、多词检索(4.2节)、语法检索(4.3节)、特殊检索形式(4.4节)以及常见检索问题(4.5节)五个方面加以讨论。由于单个单词的检索是其他语

14、言层面现象检索的基石,4.1节单词检索内容比较丰富,将分别展示单个单词按词形检索、按词性检索、按其他标注属性检索、单词单一属性的模糊检索以及单词多个属性的同时联合检索的具体实例,从实践层面深化对CQP语法检索模型的认识。4.1 单词检索(1)单词按词形检索CQP语法在CQPweb界面只有一个检索入口,默认是大小写敏感的,这与简单检索不同,后者在检索界面提供了区分大小写(case-sensitive)和不区分大小写(ignore-case)两个不同检索入口。CQP语法中单词词形检索表达式为word=待检索词,如word=China。因为词形属性(即word属性)为单词默认属性,所以word=Ch

15、ina也可简写为China,图4是在布朗语料库中的检索结果。需要说明的是,显性地标记单词各属性有利于人工阅读复杂检索表达式或进行除错,因此下文按词形检索时,如不涉及排版美观需要均采用完整表达式而非其简SJ00088718语料库语言学2023第19辑正文.indd 1028/18/23 5:20 PM103吴良平写形式。图4 CQP语法表达式word=China检索结果单词检索时如忽略大小写,需要在检索表达式中明确添加“%c”标记,将其置于双引号和右括号之间,如word=China%c,其中%表示否定,c表示case(大小写),新表达式检索结果如图5所示。不难看出,结果中既有表示瓷器的小写字母开

16、头的china,又有表示国家名称的大写字母开头的China。图5 CQP语法表达式word=China%c检索结果(2)单词按词性检索如果语料库标注有词性,CQP语法也可针对单词的词性进行检索。例如,表达式pos=JJ可检索布朗语料库中的形容词原级,如图6所示。图6 CQP语法表达式pos=JJ检索结果单词按词性检索的难点在于需要输入准确的词性赋码,JJ仅可检索出形容词原级,如需检索形容词比较级和最高级,表达式须分别修改为pos=JJR和pos=JJT。那么,为什么要如此修改呢?了解一个语料库的词性赋码集通常有两个途径:(1)根据语料库在线文档进行查找;(2)根据语料库自身进行查找。SJ000

17、88718语料库语言学2023第19辑正文.indd 1038/18/23 5:20 PM104CQP语法赋能语言研究及语言学习BFSU CQPweb中的布朗语料库在线文档齐备,显示其词性标注程序是CLAWS,标注集为CLAWS7,形容词原级、比较级、最高级通过点击界面CLAWS7后显示分别为JJ、JJR和JJT,这就是上面不同形容词检索表达式的书写依据。图7 在CQPweb在线查找语料库词性标注集实践应用中,如果一个语料库在线文档给出的标注集不是那么明朗,也可根据语料库自身信息进行查找,这里以北外多语种布朗新闻语料库进行说明。如图8所示,北外多语种布朗新闻语料库涵盖的语言非常广泛,包括加泰罗

18、尼亚语(caBrown)、丹麦语(daBrown)、德语(deBrown)、芬兰语(fiBrown)等多国语言,我们选取多数人都不熟悉的芬兰语布朗新闻语料库举例说明。图8 BFSUCQPweb上的北外多语种布朗新闻语料库BFSU CQPweb界面显示芬兰语布朗新闻语料库(fiBrown Press)有词性赋码(tagged)。一种快速了解其标注集的方法为利用CQPweb的词表生成(Frequency lists)功能,该功能除了能生成词表外,还可生成词性赋码表,操作步骤和结果分别如图9和图10所示。SJ00088718语料库语言学2023第19辑正文.indd 1048/18/23 5:20

19、PM105吴良平图9 利用CQPweb词表生成功能查询词性赋码表图10 芬兰语布朗新闻语料库词性赋码表词性赋码表生成后,可以点击各赋码标签进入语料库查找相应索引行,这样可以通过归纳法了解各标签含义。与此同时,也可以根据在线文档顺藤摸瓜,了解更多赋码细节。以图10中数量排第二位的N_Nom_Sg为例,从命名规则来看极有可能表示单数(Sg=Singular)名词(N=Noun/Nominal),这一点可以根据索引行实例初步证实。针对中间意义不那么透明的标签Nom,在线文档显示标注工具为TreeTagger,进一步查找TreeTagger官网和芬兰语相关的标注集后可知其代表Nominative,为芬

20、兰语名词的15个格之一,至此该标签整体意义基本探明。如果需要按照词性赋码检索自己不熟悉的语料库,可参考上面芬兰语布朗新闻语料库的检索信息查询方案。(3)单词按其他标注属性检索如果一个语料库标注有除词性外的其他属性,如原形词(lemma),同样可参照词性赋码的检索方案进行查询。以BFSU CQPweb上加载的AmE Brown Family SJ00088718语料库语言学2023第19辑正文.indd 1058/18/23 5:20 PM106CQP语法赋能语言研究及语言学习Corpora为例,该语料库标注了每个单词的原形词属性,属性名称为lemma,表达式lemma=have%c可 检 索

21、出had、have、has、d、ve、having、s(Hes got a lot of friends)、haves(haves and have-nots)等多种have的变体形式。(4)单词单一属性的模糊检索按词形或词性检索单词时,有时并不能精确地描述检索对象。以形态学的能产性研究为例,如要调查non-、un-和in-三个否定前缀的能产性差异,如果采用语料库研究方法,任何研究者也无法穷尽性地枚举这些前缀开头的所有单词,这时就需要用到正则表达式的模糊匹配功能。表2为CQP语法中比较常用的正则表达式,为说明方便,pos的取值范围限定于CLAWS7词性标注集。表2 CQP语法正则表达式检索简表

22、符号符号意义示例示例说明.任意单个字符pos=VBD.匹配VBDR、VBDZ,即were和was?、*、+、n、m,n重复个数,分别表示0或1,0或更多,1或更多,n个、m到n个word=colou?rpos=V.+word=.*o2.*匹配color或colour匹配所有动词匹配good,indoor,tools()群组符号word=(ma)1.*匹配mama,mamas等,其中1表示回指引用第一个群组。|选择符号word=a|an匹配a或an字符集word=uin.*|non.*word=abc.*匹配non-、un-和in-开头的所有单词匹配非a,b,c开头的所有单词(5)单词多个属性同

23、时联合检索理论上CQP语法可以对单词的词形、词性、原形词等多个属性同时检索,虽然实践中仅需联合检索词形和词性,这主要依靠布尔运算/集合运算来实现,参见表3。其中交集运算符为“和(&)”,并集运算符为“或(|)”,补集运算符为“否(!)”,差集运算符为单个运算符的组合。SJ00088718语料库语言学2023第19辑正文.indd 1068/18/23 5:20 PM107吴良平表3 CQP语法布尔运算简表运算类型图示示例示例说明交集word=test&pos=N.*检索语料库中词形为test且词性为名词的所有单词并集word=test|word=testing检索语料库中词形为test或词形为

24、testing的所有单词补集word!=test检索语料库中词形不是test所有单词差集word=test&pos!=N.*检索语料库中词形为test且词性不是名词的所有单词4.2 多词检索CQP语法支持多词序列或短语的检索,可处理连续型短语、非连续型短语以及非连续且位置变异型短语,非常方便。下面试各举例说明。(1)连续型短语连续型短语即计算语言学中的n元组(n-gram),语料库语言学也称之为词簇(lexical bundle)(Biber et al.2004),CQP语法通过检索连续任意词的占位符来实现,换句话说,即检索连续多个中间不带空格的成对中括号。例如,要检索三元组或三词词簇,检索

25、表达式可写为 ,要检索四元组或四词词簇,检索表达式相应写为 。这一检索方式显然比使用常规正则表达式更为简洁高效。(2)非连续型短语典型的非连续型短语包括跨词序列(skipgram)和搭配框架(collocational framework)(Renouf&Sinclair 1991)。计算语言学家使用跨词序列来描述非连续单词之间的共现(Wilks 2005),这与语料库语言学的搭配框架非常类似。Renouf&Sinclair(1991)根据伯明翰语料库对典型的搭配框架“a+?+of”“an+?+of”“be+?+to”“too+?+to”“for+?+of”和“many+?+of”进行了详细描

26、写并据此对既有语言理论提出了挑战。要检索搭配框架,以a+?+of为例,CQP语法检索表达式可写为SJ00088718语料库语言学2023第19辑正文.indd 1078/18/23 5:20 PM108CQP语法赋能语言研究及语言学习word=a%c word=.*word=of,或简写为a%c word=.*“of”,其在布朗语料库中的检索结果如图11所示。图11 CQP语法检索搭配框架a+?+of结果(3)非连续、且位置变异型短语框合结构(concgram)为典型非连续、且位置变异型短语,这类短语由两词或多词构成的所有组合组成,具有构成成分(AB,ACB)和位置(AB,BA)的双重变异特征

27、(Cheng et al.2006)。Cheng et al.(2006)发现,由call/what构成的双词型框合结构在香港口语英语语料库(HKCSE)中仅构成成分变异,两词间变异成分只有1-3个插入词,绝大多数出现在非疑问句,主要起重新表述言说内容或基于已说内容引入新话语的功能。使用CQP语法在布朗语料库这一书面英语语料库中检索这一框合结构,表达式可写为(what*call)|(what*call)within s,其中竖线“|”表示或者,*表示任意个单词,within s表示将检索范围限定在句子以内,不跨句检索,括号()起分组作用,检索结果如图12所示。图12 CQP语法检索call/w

28、hat双词框合结构结果从图12可以看出,书面英语中,call/what构成的框合结构的词序、功能及功能分布与英语口语基本一致,但插入词变异性更大。考虑到除第7例和第13例外,插入词数量在1-5词之间,因此上面检索表达式也可改写为(what1,5 SJ00088718语料库语言学2023第19辑正文.indd 1088/18/23 5:20 PM109吴良平call)|(what1,5call)within s,其中1,5表示插入词数量限定在15个,新表达式检索结果如图13所示。这表明,CQP语法中正则表达式的数量限制符也可作用于单词整体,而不仅局限于刻画单词内部字母的数量特征,这一点对灵活控制

29、变长型短语的检索非常有利。图13 CQP语法检索call/what双词框合结构新结果4.3 语法检索依语料库语言学理论观点,词汇和语法是一个连续体,不能截然分开。抛开理论上的分歧不谈,当前CQP语法也支持传统语法概念的检索,方法是通过检索词性赋码序列部分模拟对语法范畴的检索,虽然在书写表达式时可能需要发挥敏锐的观察力并反复试错。以英语宾语从句检索为例,如果语料库词性标注采用了CLAWS,检索表达式可写为*pos=VV.*word=that&pos=CST*,其中和分别为句首和句尾标记,*表示任意个单词,pos=VV.*表示所有实义动词,不包含情态动词、be动词、do动词、have动词,word

30、=that&pos=CST表示词形为that的连词。上述检索表达式也可写为pos=VV.*word=that:pos!=NN1|J.*:,其中:pos!=NN1|J.*:表示that后不允许出现单数名词或形容词,以避免I like that kid或I like that lovely kid这样的句子被误检,同时:的特殊标记表示其内部所有成分仅作检索时的限制条件,不作为返回结果。英语宾语从句第二种检索表达式的返回结果如图14所示。SJ00088718语料库语言学2023第19辑正文.indd 1098/18/23 5:20 PM110CQP语法赋能语言研究及语言学习图14 CQP语法检索英语

31、宾语从句结果需要注意的是,无论是检索表达式一还是检索表达二,显然都没有考虑英语宾语从句标记词that省略的情况,所以实际应用中还可将CQP语法检索结果和Tregex(Levy&Andrew 2006)等专门的语法检索工具的检索结果进行比对,以进一步优化检索表达式。考虑到学术英语中宾语从句标记词that通常为显性,如果仅研究学术英语或为相关课堂教学活动提供报道动词的使用样例,那么上述两种检索表达式均有积极参考意义。4.4 特殊检索形式CQP语法的特殊检索形式主要有以下几种:(1)零宽度条件判断符;(2)语言成分边界标记;(3)回指功能标签;(4)自定义宏。零宽度条件判断符的形式为:,其所包含的内

32、容对检索加以条件限制,但限制部分不在检索结果索引行节点词位置显示,可以起到保持包含条件的检索与常规检索输出结果形式一致的作用。检索样例可参见前述对英语宾语从句的第二种检索方法。语言成分边界标记的一般形式为within x,其中x可为句边界标记s(s为CLAWS软件标注的句边界标记)或其他任意语言成分边界标记,如话轮标记u,这些标记的具体名称在准备和安装语料库时指定,其主要功能是避免跨句或跨话轮等跨越语言成分边界的检索。检索样例可参见4.2节对框合结构的检索。自定义宏可简化检索表达式的书写,实现自定义语义、语法或其他CQP语法支持的各类检索。例如,先通过CQPweb界面的User setting

33、s-Create a new CQP macro定义宏名emotion和宏体word=happy|angry|sad|excited|anxious,然后回到CQP语法检索界面输入/emotion,即可一次性检索所有自定义情感形容词。类似地,也可以定义宏名conj和宏体pos=CC|CCB|CS|CSA|CSN|CST|CSW,然后回到CQP语法检索界面直接输入/conj,即可一次性检索CLAWS标注过的语料中的所有连词。本文所有检索表达式如果日常使用中需要反复使用,均可自定义为单独的宏以实现快速访问。需要特别提醒的是,如果宏的书写格式不正确或包含SJ00088718语料库语言学2023第19

34、辑正文.indd 1108/18/23 5:20 PM111吴良平特殊字符,有可能会导致检索系统崩溃,这时删除宏重建即可解决问题。CQP语法中的标签具有回指功能,例如表达式“a”a:“is”“a”word=a.word可以检索“a X is a X”这样的同义反复结构(tautology),如But a penalty is a penalty,whether it is minute 94 or minute one。图15为使用该表达式检索The Independent Corpus的部分结果,这类结构在新闻语篇中似乎比较多见。图15 CQP语法检索同义反复结果4.5 常见检索错误在CQP

35、web系统中使用CQP语法进行检索时,应避免以下几类常见错误:(1)忘记返回CQP语法检索模式;(2)该用半角英文标点符号时用了全角中文标点符号;(3)括号或引号没有成对使用;(4)单词内部使用逻辑符号“|”的时候多个单词或词性赋码误放在多对双引号内。CQPweb系统中,使用CQP语法完成一次查询开始新查询时,CQPweb会自动返回Simple Query模式,这时须手动切换到CQP syntax模式,否则CQP语法指令无法执行。CQP语法中,所有标点符号,包括双引号、小括号、中括号、大括号,必须全部为英文半角,不能为中文全角。CQP语法中的所有双引号、小括号、中括号、大括号必须成对使用,如果

36、检索出现错误,要根据错误提示确认是否存在单边引号或括号的情形。最后,单词内部使用逻辑符号“|”的时候多个单词或词性赋码必须放在一对双引号内,例如word=a|an 是错误的,正确形式应为word=a|an,同理,pos=DD|DD1是错误的,正确形式应为pos=DD|DD1。对于第2、3、4类错误,如果感觉容易出错,可以利用CQPweb界面的检索历史(Query history)复用正确的检索表达式,或自建一个包含常用检索表达式的纯文本文件方便复制粘贴以减少出错几率。SJ00088718语料库语言学2023第19辑正文.indd 1118/18/23 5:20 PM112CQP语法赋能语言研究

37、及语言学习5 结语CQPweb支持世界上绝大多数语言的检索,支持高达20亿词规模的单个语料库,随着CQPweb安装难度的大幅降低,CQP语法也终将从小众走向大众。本文对CQP语法检索模型和相关概念进行了分解简化,指出了一些常见的错误陷阱,并从词汇、短语和语法等语言学诸层面展示了CQP语法的丰富检索功能,是对CQP语法现有使用文献的有力补充。当前国内已有高校根据CQP语法的一般指导原则针对自身需求和自建语料库特色创制了校本特色的检索手册辅助教研(刘萍 2019),相信未来会有更多简明易懂的类似使用文档问世。CQP语法检索模型和理念已融入国际标准ISO 24623-1中所描述的Corpus Que

38、ry Lingua Franca(ISO 2018),同时随着底层新语言模型Ziggurat的提出和发展(Evert&Hardie 2015),未来CQP语法将能检索更大规模语料和实现对包括依存语法在内的更多语言层面的检索,在教学和科研领域的应用前景广阔。由于Sketch Engine和R包RcppCWB使用了和本文CQP语法相似的语料库检索语法,本文对相关使用者亦有一定参考价值。参考文献BAKER P,BROOKES G,EVANS C.The language of patient feedback:a corpus linguistic study of online health co

39、mmunication M.London:Routledge,2019.BIBER D,CONRAD S,CORTES V.If you look at.:lexical bundles in university teaching and textbooks J.Applied Linguistics,2004,25(3):371-405.BIBER D,JOHANSSON S,LEECH G,et al.Longman grammar of spoken and written English M.New York:Pearson,2000.CHENG W,GREAVES C,WARREN

40、 M.From n-gram to skipgram to concgram J.International Journal of Corpus Linguistics,2006,11(4):411-433.CHRIST O.A modular and flexible architecture for an integrated corpus query system C.Proceedings of COMPLEX94:3rd conference on computational lexicography and text research.Budapest:COMPLEX,1994:2

41、3-32.CURRY N,LOVE R,GOODMAN O.Adverbs on the move:investigating publisher application of corpus research on recent language change to ELT coursebook development J.Corpora,2022,17(1):1-38.EVERT S,HARDIE A.Ziggurat:a new data model and indexing format for large annotated text corpora C/Proceedings of

42、the 3rd workshop on challenges in the management of large corpora(CMLC-3).Mannheim:Institut fr Deutsche Sprache,2015:21-27.EVERT S,THE OCWB DEVELOPMENT TEAM.CQP query language manual R/SJ00088718语料库语言学2023第19辑正文.indd 1128/18/23 5:20 PM113吴良平OL.(2022-07-01)2023-08-01.https:/cwb.sourceforge.io/files/C

43、QP_Manual.pdf.FISCHER S,KNAPPEN J,MENZEL K,et al.The Royal Society corpus 6.0 providing 300+years of scientific writing for humanistic study C/Proceedings of the 12th conference on language resources and evaluation(LREC 2020).Marseille:European Language Resources Association,2020:794802.HARDIE A.CQP

44、web-combining power,flexibility and usability in a corpus analysis tool J.International Journal of Corpus Linguistics,2012,17(3):380-409.HOFFMANN S,EVERT S,SMITH N,et al.Corpus linguistics with BNCweba practical guide M.New York:Peter Lang,2008.ISO.ISO 24623-1:2018:Language resource managementcorpus

45、 query lingua franca R/OL.(2018-04-01)2023-08-01.https:/www.iso.org/standard/37337.html.LEVY R,ANDREW G.Tregex and Tsurgeon:tools for querying and manipulating tree data structures C/Proceedings of the 2006 conference on language resources and evaluation(LREC 2006),Genoa:European Language Resources

46、Association,2006:2231-2234.MLLER M,BARTSCH S,ZINN J.Communicating the unknown:an interdisciplinary annotation study of uncertainty in the coronavirus pandemic J.International Journal of Corpus Linguistics,2021,26(4):498-531.RENOUF A,SINCLAIR J.Collocational frameworks in English C/AIJMER K,ALTENBERG

47、 B.English corpus linguistics:studies in honour of Jan Svartvik.London:Longman,1991:128-143.SADOWSKY S.The sociolinguistic speech corpus of Chilean Spanish(COSCACH):a socially stratified text,audio and video corpus with multiple speech styles J.International Journal of Corpus Linguistics,2022,27(1):

48、93-125.WILKS Y.2005.REVEAL:The notion of anomalous texts in a very large corpus C./Tuscan Word Centre international workshop:dial a corpus.Certosa di Pontignano:Tuscany,2005.葛晓帅,张现荣.借助Docker容器技术实现CQPweb系统的Windows部署J.语料库语言学,2021(2):148-157.刘萍,吴良平,刘丽亚.CQPweb在ESP写作教学中的应用研究J.外语界,2016(5):11-19.刘萍,吴良平.网络语

49、料库分析系统CQPweb的建设及应用以HZAU CQPweb为例J.中国大学教学,2016(5):70-75.刘萍.HZAU CQPweb 使用手册 R/OL.(2019-12-25)2023-08-01.http:/ 1138/18/23 5:20 PM114CQP语法赋能语言研究及语言学习州大学学报(高教研究版),2020(6):111-118.许家金,吴良平.基于网络的第四代语料库分析工具CQPweb及应用实例J.外语电化教学,2014(5):10-15.杨素香.CQPweb在线语料库检索平台及其在外语教学中的应用J.中小学外语教学(中学篇),2015(7):1-8.通信地址:410205 湖南省长沙市 湖南工商大学外国语学院SJ00088718语料库语言学2023第19辑正文.indd 1148/18/23 5:20 PM

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服