1、第3 8卷 第2期2 0 2 4年2月中文信息学报J OUR NA LO FCH I N E S EI N F O RMAT I ONP R O C E S S I NGV o l.3 8,N o.2F e b.,2 0 2 4文章编号:1 0 0 3-0 0 7 7(2 0 2 4)0 2-0 0 3 6-1 0双重否定结构自动识别研究王 昱1,袁毓林2,3(1.香港理工大学 中文及双语系,香港9 9 9 0 7 7;2.澳门大学 人文学院 中国语言文学系,澳门5 1 9 0 0 0;3.北京大学 中文系/中国语言学研究中心,北京1 0 0 8 7 1)摘 要:双重否定结构是一种“通过两次否
2、定表示肯定意义”的特殊结构,直接影响自然语言处理中的语义判断与情感分类。该文以“P=P”为标准,对现代汉语中所有的“否定词+否定词”结构进行了遍历研究,将双重否定结构按照格式分为了3大类,2 5小类,常用双重否定结构或构式1 3 2个。结合动词的叙实性、否定焦点、语义否定与语用否定等理论,该文归纳了双重否定结构的三大成立条件,并据此设计实现了基于规则的双重否定结构自动识别程序。程序实验的精确率为9 8.8 0%,召回率为9 8.9 0%,F1值为9 8.8 5%。同时,程序还从9 62 8 1句语料中获得了86 4 0句精确率约为9 9.2 0%的含有双重否定结构的句子,为基于统计的深度学习模
3、型提供了语料支持。关键词:双重否定;自动识别程序;语义分析中图分类号:T P 3 9 1 文献标识码:AT h eR e s e a r c ho nA u t o m a t i cR e c o g n i t i o no f t h eD o u b l eN e g a t i o nS t r u c t u r eWAN GY u1,YUANY u l i n2,3(1.D e p a r t m e n to fC h i n e s ea n dB i l i n g u a lS t u d i e s,T h eH o n gK o n gP o l y t e c h
4、n i cU n i v e r s i t y,H o n g k o n g9 9 9 0 7 7,C h i n a;2.D e p a r t m e n to fC h i n e s eL a n g u a g ea n dL i t e r a t u r e,F a c u l t yo fA r t sa n dH u m a n i t i e s,U n i v e r s i t yo fM a c a u,M a c a u5 1 9 0 0 0,C h i n a;3.D e p a r t m e n to fC h i n e s eL a n g u a g
5、 ea n dL i t e r a t u r e/C e n t e r f o rC h i n e s eL i n g u i s t i c s,P e k i n gU n i v e r s i t y,B e i j i n g1 0 0 8 7 1,C h i n a)A b s t r a c t:T h ed o u b l en e g a t i o ns t r u c t u r ei sas p e c i a ls t r u c t u r eo f“e x p r e s s i n gp o s i t i v em e a n i n gt h r
6、o u g ht w on e g a-t i o n s”,i nw h i c ht h e t w on e g a t i o n sh a v ea n i m p o r t a n t i m p a c t o n t h e s e m a n t i ca n a l y s i s a n de m o t i o n a l c l a s s i f i c a t i o n i nn a t u r a l l a n g u a g ep r o c e s s i n g.T a k i n g“P=P”a s t h ep r o t o t y p e,t
7、 h i sp a p e re x a m i n e s t h e“n e g a t i o nw o r d+n e g a t i o nw o r d”s t r u c t u r e s i nm o d e r nC h i n e s e,a n dd i v i d e st h e mi n t o3c a t e g o r i e s,2 5s u b-c a t e g o r i e sa n d1 3 2c o n-s t r u c t i o n s i nt o t a l.T h e n t h i sp a p e rp r o p o s e s
8、 t h r e e c o n d i t i o n s f o r t h e e s t a b l i s h m e n t o f t h ed o u b l en e g a t i o ns t r u c t u r e,a n dar u l e-b a s e dm e t h o dt oi d e n t i f yt h ed o u b l en e g a t i o n.T h ea c c u r a c yr a t eo fr e c o g n i t i o no ft h ed o u b l en e g a t i o ns t r u c
9、 t u r e i s9 8.8 0%,t h er e c a l l r a t e i s9 8.9 0%,a n dt h eF1v a l u ei s9 8.9 5%.T h ep r o p o s e dm e t h o dc o u l di d e n t i f y86 4 0s e n t e n c e sw i t h9 9.2 0%t r u ed o u b l en e g a t i o ns t r u c t u r e f r o m9 62 8 1s e n t e n c e s.K e y w o r d s:d o u b l en e g
10、 a t i o n;a u t o m a t i cr e c o g n i t i o np r o g r a m;s e m a n t i ca n a l y s i s收稿日期:2 0 2 3-0 2-1 4 定稿日期:2 0 2 3-0 7-0 1基金项目:国家科技创新2 0 3 0“新一代人工智能”重大项目(2 0 2 0 AAA 0 1 0 6 7 0 1);国家社会科学基金(1 8 Z D A 2 9 5)0 引言在否定用法中,有一种特殊的用法 双重否定。丁声树先生在 现代汉语语法讲话 中将其概括为:“一句话先后用两个否定词,如 不能不去 没有人不去 非去不可 之类,
11、都是双重否定的句法。双重否定意思上是肯定的,不过跟单纯肯定不全一样。”例如,“我不得不喜欢他”指“我得喜欢他”,“我不一定不同意这个观点”指“我可能同意这个观点”1。虽然句子使用2期王昱等:双重否定结构自动识别研究的是否定形式,但其表达的却是肯定语义,且句子的语气还与单纯肯定有一定的区别(如“不得不喜欢”的语气比“喜欢”强,而“不一定不同意”的语气比“同意”弱,等等)。可见,双重否定结构的存在会对句子的语义真值与语气强度产生重要影响。对于自然语言处理来说,双重否定是处理语料时必须考虑的内容。例如,图1展示了C h a t G P T对双重否定的判断情况。图中,C h a t G P T无法正确
12、判断“不+V 1+不”结构,误将“我不知道他不来”理解为了“我知道他来了”;将“我不认为他不来”误解为了“我认为他不会来”。由此可见,目前自然语言处理应用尚无法有效识别双重否定结构,且双重否定结构的存在会对程序的语义识别与情感分析产生重要影响。综上所述,无论是从汉语本体研究的理论意义考虑,还是从自然语言处理的实用价值出发,我们都有必要对双重否定结构进行更全面、更深入的研究与探索。图1 双重否定结构处理情况示例图0.1 文献综述目前国内关于双重否定结构的理论研究主要集中在双重否定结构的定义、范围、格式和语义等领域。关于双重否定结构的定义与范围,学界存在不少争论,学者们争议较多的问题有:含有否定词
13、的反诘句是否为双重否定,紧缩复句是否为双重否定,双重否定是否包含复句,等等。关于双重否定结构的格式,已有研究都是从分类与举例的角度进行讨论,尚未有研究从形式的角度对双重否定格式进行具体、详细的遍历分析。目前对双重否定格式概括最为全面的是芜崧2,他将双重否定划分的八大类型,2 5个格式。然而,仍有许多常在自然语料中出现的双重否定结构未被芜崧收入其中,如“不可能不”“不应该不”“不是不”,等等。关于双重否定结构的语义,叶文曦3、方绪军4、何爱晶5等引入了L a d u s a w6的形式语义学、H o r n7的元语否定等理论,对一些典型的结构进行了分析,得出了具有解释力的成果。然而,由于双重否定
14、的范围、格式还未确定,目前学者只集中分析了几个典型的结构,覆盖面十分有限,缺乏系统性的梳理与总结。目前关于双重否定结构的应用研究主要集中在情感分析领域,具体根据研究方法可以分为以下两种。(1)通过搜集典型的双重否定结构(图2),构建双重否定词 典,以服务 相关的情感分 析,如王勇等8,吴杰胜、陆奎9,等等。这种方法的准确率很高,但是覆盖面不足。图2 王勇等8双重否定词典(2)在否定词的基础上,通过统计修饰每一个情绪词的否定词个数来判断双重否定,并以系数的形式将双重否定的语气功能加入到情感分析的结果当中,如封洋1 0,等等。这种方法涵盖范围广,但是错误率很高,因为任何含有两次否定的结构都会被判断
15、为表示肯定的双重否定结构。0.2 本文选题及目标综上所述,目前学界对汉语双重否定结构的研究成果颇丰,但仍然存在一些不足之处。例如,双重否定结构的格式与范围尚不完整;双重否定语料资源匮乏;系统化、全面化的双重否定结构自动识别尚未实现,等等。鉴于此,本研究将“双重否定结构”作为研究对象,试图通过遍历分析与语料考察相结合的方法,对双重否定结构进行以下探索:(1)梳理双重否定结构格式,使其能够全面覆盖C C L语料库;(2)总结双重否定结构成立条件,并据此提出相应的计算机识别策略;(3)建立高F1值的双重否定结构自动识别程序;(4)进一步验证语言学知识在双重否定结构自动识别过程中的贡献,通过程序测试上
16、述成立条件在双重否定结构识别过程中的作用;(5)搜集双重否定语料资源,为基于统计的双重否定识别深度学习模型提供支持。73中 文 信 息 学 报2 0 2 4年1 双重否定结构的定义标准与考察范围鉴于语义真值识别和情感极值判断是计算机对否定结构进行语义识别时所面临的主要问题,本文借鉴形式语义学,为双重否定拟定了一个工作定义:只要两次否定与肯定在语义真值上相同,即“P=P”,便属于双重否定。目前我们的考察范围为所有“否定词(+)+否定词”中双重否定表肯定的结构。暂不考虑下列情况:(1)否定词为隐性否定词(即本身语义内含有否定意思的动词,如“讨厌”“拒绝”等);(2)否定类型为语用否定的结构(如“我
17、不是不喜欢你,而是恨你”中的“不是不喜欢”);(3)“反问句+否定词”结 构(如“难道 不”等,具体参见刘彬、袁毓林1 1)。我们结合吕叔湘1 2、王力1 3、朱德熙1 4等前贤研究,梳理出了十三个否定词,前十个为否定副词,后三个为否定动词,具体如下:“非、不、别、甭、未、莫、勿、没、没有、休”“无、没、没有”结合语料,我们对“否定词+否定词”组合中符合要求的双重否定结构的格式进行了遍历梳理,整理出了2 5种“否定词+否定词”可表肯定的结构,具体如表1所示。下面,我们将对上述2 5种“否定词+否定词”格式展开具体分析,梳理每一种格式中双重否定结构的成立条件,并设计与之相应的计算机识别策略,在此
18、基础上总结所有现代汉语中常用的双重否定结构。表1 双重否定结构格式调查情况表不没没有无非莫别不不不不没不没有不无没没不没不没没没没有没有没有不没有不没有没没有没有无无不无不非非不非不非没非没非没有非没有非无非莫莫莫不别别不别没2 双重否定结构的成立条件与识别策略通过初步考察,发现,双重否定结构“不V 1不V 2”的成立条件最为复杂,需要同时满足以下三个条件:(1)“不V 1”与“不V 2”构成述宾关系;(2)“V 1”动词有限制(为非叙实动词);(3)“不V 1”的否定焦点在“不V 2”上。除了“不是不”需要区别语义否定与语用否定外,其他双重否定结构的成立条件都可被囊括在上述三个条件中,只是部
19、分细节存在差异。因此,我们 先 对“不V 1 不V 2”与“不 是 不”的成立条件与识别策略进行详细分析,再在此基础上,对其他双重否定结构进行讨论。2.1“不V 1不V 2”双重否定结构的成立条件与识别策略2.1.1 第一个条件:“不V 1”与“不V 2”构成述宾关系 “不V 1”与“不V 2”的结构类型有并列、主谓、紧缩、述宾等。在各类结构类型中,只有述宾结构的“不+V 1+()+不+V 2”存在表示双重否定的可能。具体讨论如下:并列结构的“不V 1不V 2”,指“不哭不闹”、“不高不低”这一类表达。袁毓林1 5指出,并列结构“通常不能通过直接在这种谓词性并列结构的前面加上 不、没有 等否定
20、词来构成否定式,而是要在这83其中,三角形表示该组合不出现/极少出现于实际语料中。2期王昱等:双重否定结构自动识别研究种并列结构的各个直接成分之前分别加上 不、没有 等否定词。”因此,并列结构的“不V 1不V 2”只是其肯定式“V 1 V 2”的单重否定,不属于双重否定结构。如“不哭不闹”不等于“哭闹”。主谓结构的“不V 1不V 2”语料数量很少,指“不隐藏不代表泄露”“不买票不是我的决定”这一类表达。在该类结构中,“不V 1”只是一个命题陈述,是交流中的旧信息。“不V 1”的“不”与“不V 2”的“不”并没有语义上的关联,不构成“双重”否定的结构。如“不隐藏不代表泄露”不等于“隐藏代表泄露”
21、,“不买票不是我的决定”不等于“买票是我的决定”。紧缩结构的“不V 1不V 2”指“不给钱不办事”“不买票就不让进”这一类表达。紧缩结构虽然在语义上有条件性,但在句法上仍是并列关系,前后不构成从属结构。关于紧缩条件类的结构是否为双重否定未有定论。本文主要从形式语义学的角度对其进行讨论。以“不给钱不办事”为例。“给钱办事”语义为“如果给钱,那么办事”。P命题可以分解为q 1“给钱”,q 2“办事”,逻辑式为蕴含式q 1q 2,它的等值式为q 2 q 1。而“不给钱不办事”语义为“如果不给钱,那么不办事”,逻辑式应为蕴含式 q 1q 2。从下列真值表(表2)可以看出,q 1q 2与q 1 q 2的
22、语义真值不一致,不符合“P=P”的标准。因此从形式语义学来看,紧缩语义结构不是双重否定结构。表2 紧缩结构语义真值表q 1 q 2q 1q 2 q 1q 2q 2q 1 q 1q 2TTFFTTTTFFTFFTFTTFTTFFFTTTTT 最后述宾结构的“不V 1不V 2”指“不觉得不好”“不认为你不来”等V 1为述语,“不V 2”为宾语的结构。“不V 1”与“不V 2”构成从属结构,存在“否定+否定=肯定”的可能。例如,“不认为他明天不会来”可以理解为“认为他明天会来”,“不觉得这件事不妥”可以理解为“觉得这件事妥”,等等。由此,我们可以得出“不V 1不V 2”构成双重否定结构的第一个条件为
23、:“不V 1”与“不V 2”构成述宾关系。2.1.2 第二个条件:V 1为非叙实动词述宾结构的“不V 1不V 2”中只有一部分成员,其“不V 1”对“不V 2”有管辖作用,属于双重否定结构,其他成员仍只表示单纯的否定。试看下例:1 a.我不知道他不来。1 b.*我知道他来。2 a.我不幻想他不来。2 b.*我幻想他来。3 a.我不认为他不来。3 b.我认为他来。通过例句可以发现,当V 1为“认为”时“不V 1不V 2”可以理解为“V 1V 2”,而当V 1为“知道”“幻想”时却不能。同样是动词,“知道”“幻想”“认为”对“不V 2”的影响却存在着差别。经过研究,我们发现,“不V 1”对“不V
24、P”是否有管辖作用与V 1的语义有关,具体来说与V 1的叙实性有关。李新良1 6将叙实性定义为“叙实性是动词的一种语义功能,即动词预设其宾语小句真值的能力。具体来说,肯定式和否定式都预设其宾语小句为真的动词是叙实动词肯定式和否定式都不预设其宾语小句为真,也不预设其宾语小句为假的动词是非叙实动词肯定式和否定式都预设其宾语小句为假的动词是反叙实动词”。对于叙实动词和反叙实动词来说,由于其预设固定,无论主句有无否定,宾语小句的真值都不变,因此主句无法影响宾语小句的真值,不构成“P=P”。而对于非叙实动词(如:认为)来说,由于非叙实动词对宾语小句并没有预设,在述宾结构中,主句中的V 1可以对宾语的真值
25、造成影响,存在“P=P”的可能。因此,我们可以得出“不V 1不V 2”构成双重否定结构的第二个条件为:V 1为非叙实动词。2.1.3 第三个条件:“不V 1”的否定焦点包含“V 2”除上述两个条件外,结构中否定焦点的情况也会对“不V 1不V 2”是否为双重否定造成影响。试看下例:4 a.我不认为他不来。4 b.我认为他来。5 a.我不认为他故意不来。5 b.*我认为他故意来。6 a.我不相信他不喜欢我。6 b.我相信他喜欢我。7 a.我不相信他不喜欢我到了看见我就恶心的地步。93中 文 信 息 学 报2 0 2 4年7 b.*我相信他喜欢我到了看见我就恶心的地步。在例句中,4 a、6 a可以转
26、换为4 b、6 b,而5 a、7 a却不能转换为5 b、7 b。这主要与否定的焦点有关。袁毓林1 7指出“有的成分表达的是句子的预设意义,属于旧信息,事实上它们的意义在否定的情况下仍然得以保持;有的成分表达的是句子的焦点意义,属于新信息,它们是真正被否定的。”当“不V 1”的否定焦点未落在“不V 2”上时,“不V 1”对“V 2”不造成否定,不能构成“P”结构,因此无法满足“P=P”的条件,不属于双重否定。如“我不认为他故意不来”中的“不V 1”否定的是“故意”而不是“不来”,其中“不来”是预设成分,属于旧信息。无论是“认为他故意不来”还是“不认为他故意不来”,语义都是“他不来”。“V 1认为
27、”的否定无法影响到“不来”的真值,无法构成“否定+否定”的语义结构。因此,我们可以得出“不V 1不V 2”构成双重否定结构的第三个条件为:“不V 1”的否定焦点落在“不V 2”上。2.2“不是不V 2”双重否定结构的成立条件与识别策略 如本节开头所述,“不是不V 2”若要表示双重否定,除需满足上述“不V 1不V 2”的成立条件外,还需保证“不是”为描述性真值否定(d e s c r i p t i v et r u t h-f u n c t i o n a l n e g a t i o n,又称语义否定),而不是元语否定(n o n-t r u t h-f u n c t i o n a
28、ln e g a t i o n,又称语用否定)。“所谓元语否定,就是用元语言对对象语言所描述的非真值语义的否定,是一种非真值意义否定;与之相对应的是真值否定,否定的是句子的真值条件(t r u t hc o n d i t i o n)”5“元语/语用”否定常常是引述性否定,是对之前对话中已出现的内容的否定。例句如下:8 a.“可现在杀他不容易啊。”有人说。不是不容易,是根本不可能。8 b.*“可现在杀他不容易啊。”有人说。是容易,是根本不可能。例句中否定形式的8 a“不是不容易,是根本不可能”不能理解为相应的肯定形式8 b“是容易,是根本不可能”。这是因为例8中的“不是”是语用否定,并不对
29、语义真值产生影响,不构成“否定+否定”的语义结构,无法通过两次否定表示肯定。因此,为了识别“不是不V 2”中的双重否定结构,首先需要区分“不是”是语义否定还是语用否定。为此,本文对大量语料进行了考察后发现,“不是”的否定情况具体有以下三种:(1)当“不是”的上文中没有出现“不是”否定的观点时,“不是”只能是语义否定,而不能是语用否定。例如:9 a.甲:你明天来不来参加生日聚会?9 b.乙:不 是 我 不 乐 意,而 是 我 这 边 实 在 没时间。语义否定 我是乐意,(但)是我这边实在没时间。语用否定“不乐意”这个表述不恰当,是我这边实在没时间。(2)当“不是”的上文中出现了“不是”否定的观点
30、,且“不是”所在句的后文与被否定观点的真值一致,则“不是”只能是语用否定,而不能是语义否定。例如:1 0 a.甲:你不乐意明天来参加生日聚会?1 0 b.乙:我不是不乐意,而是超级反感。语义否定 我是乐意,是超级反感。语用否定“不乐意”这个表述不恰当,(应该)是超级反感。(3)当“不是”的上文中出现了“不是”否定的观点,且“不是”所在句的后文与被否定观点的真值不一致,则“不是”既可看作语义否定,又可看作语用否定。对于这种情况,从计算机处理的角度出发,我们可以统一将其处理为“不是”表示语义否定。1 1 a.甲:你不乐意明天来参加生日聚会?1 1 b.乙:不是我不 乐意,而是我 这边实在没时间。语
31、义否定 我是乐意,(但)是我这边实在没时间。语用否定“不乐意”这个表述不对,(应该)是我这边实在没时间。综上所述,只有第二种情况“不是”才会是语用否定。而其余情况,皆可被计算机视为语义否定。根据上述条件,我们可以通过计算情感真值的方法来判断“不是”的否定类别。在文本里,大多数表示语用否定的“不是”都只出现在“不+是+不+x,(而)是+y”的结构中。因此,我们可以拟定识别策略如下:提取“不+是+不+x”中的“x”,并匹配“y”与“不+x”的情感真值。若“不+是+不+x,(而)是+y”中“y”的情感真值与“不+x”不一致,则句中的“不是不”属于双重否定结构;若一致,则不属于双重042期王昱等:双重
32、否定结构自动识别研究否定结构。2.3 双重否定结构的成立条件以上即为“不V 1 不V 2”与“不是 不V 2”双重否定成立条件的基本情况。本文所有双重否定结构的成立条件皆在上述成立条件的基础上进行调整。我们按照“组合类”“构式类”“黏合类”三个大类类别,对第2节中所提出的2 5小类双重否定结构的成立条件进行了详细梳理,在此过程中,本文还结合成立条件,从2 5小类中梳理出了双重否定常用结构或构式1 3 2个。与芜崧2的结果相比,我们的分类更系统,类型更丰富,覆盖更全面,所涉及的常用双重否定结构格式约为芜崧的5倍。具体结果如图3所示。图3 双重否定结构格式与成立条件示例图14组合类:否定词与否定词
33、之间不相连,扩充了其他成分;构式类:特定的否定词与否定词之间组成构式,结构复杂,形式固定;黏合类:否定词与否定词之间没有其他成分,二者紧连。中 文 信 息 学 报2 0 2 4年图3(续)2.4 双重否定结构的识别策略针对上述成立条件,我们设计了相应的计算机识别策略,具体如表3所示。表3 双重否定结构识别策略表序号成立条件识别策略1否定词1所在结构与否定词2所在结构构成述宾关系依 存 句 法 分 析,检 测 句 法结构2否定词1所在结构对动词有限制根据情 况 建立 词表(如,助动词词表)+字符串匹配3否定词1的否定焦点在 否 定 词2所 在 结构上依存句法分析,检测句法结构+字符串匹配,排除否
34、定焦点在“否定 词2结 构”修饰语上的情况续表序号成立条件识别策略4“不是”为语义否定构建情感词典,计算情感真值+字符串匹配3 双重否定自动识别程序的建立为了使计算机能够识别助动词、非叙实动词、情感真值,本文对助动词、非叙实动词与情感词进行了梳理,在常用的基础词表中补充了助动词词表、非叙实动词词表与情感词表。具体如下:常用助动词词表(2 3个):能、能够、可能、会、可以、应该、应、应当、一定、要、得、愿意、愿、肯、可、想、要、敢、该、当、准、许、容242期王昱等:双重否定结构自动识别研究常用非叙实动词词表(1 1个):认为、说、感到、觉得、允许、同意、相信、愿意、希望、考虑、打算(袁毓林1 7
35、、李新良1 6)情感词方面,我们结合知网H o wN e t情感词典、台湾大学NTU S D简体中文情感词典与清华大学李军中文褒贬义词典,设计了情感词表,共收纳正面词语1 03 2 3个,负面词语94 1 1个。根据上述识别策略,我们设计编写了双重否定结构自动识别程序。通过该程序,对含有两个否定词的语料文件进行自动识别实验,输出其中存在的双重否定句以及相应的双重否定结构,程序输出结果示例如图4所示。图4 程序输出结果示例图4 双重否定自动识别实验我们从C C L语料库中,按照各类结构的情况,进行了同等分布提取(即根据各结构在C C L语料库中的语料数量比例进行提取),收集了1 0 00 0 0
36、条初始语料。通过程序,对上述语料进行筛选,排除了所有未被分句、长度超过1 5 0字的句子,最终获得测试语料9 62 8 1句。4.1 初始实验我们使用双重否定结构自动识别程序对9 62 8 1句语料进行识别,获得了86 4 0句计算机判断含有双重否定结构的句子。由于人力有限,我们无法对86 4 0个句子全部进行人工校验。因此,为计算精确率,我们从上述句子中随机抽取了10 0 0句进行检测。经校验,10 0 0个句子中判断正确的句子为9 9 2句,精确率约为9 9.2 0%;在C C L“否定词+否定词”语料中,双重否定句的比例约为8.9 0%。为进一步验证,我们从9 62 8 1句语料中随机抽
37、取了10 0 0句语料进行检测。通过人工校验,上述10 0 0句测试语料中存在9 2句含有双重否定结构的句子。我们将上述10 0 0句测试语料输入双重否定自动识别程序,程序从中识别出了9 0句含有双重否定结构的句子。根据计算,初始实验中程序的召回率约为9 7.8 3%。C C L“否定词+否定词”语料中双重否定句的比例在9%左右。4.2 正式实验初始实验表明,上述9 62 8 1句语料中双重否定结构与非双重否定结构的比例差距很大(约为99 1),因此为了更好地计算程序的精确率与召回率,我们人工构建了20 0 0句语料,其中10 0 0句为含有双重否定结构的正例,10 0 0句为不含双重否定结构
38、的负例。4.2.1 实验结果我们将语料输入双重否定结构程序,具体结果如表4所示。程序识别的精确率约为9 8.8 0%,召回率约为9 8.9 0%,F1值约为9 8.8 5%,实验结果较王勇等8、封洋1 0的结果有较明显提升。需要说明的是,本实验为封闭测试,数据方式为抽样,且文章对于双重否定结构的判断均来自于作者本人,因此结果可能存在一定的偏差。后续我们将投入更多的时间与人力,来获取更为准确的数据。4.2.2 实验结果分析通过分析,可以发现程序识别与召回出错的主要原因与句子的分词与句法分析错误有关。由于分34在程序中,我们还做了双重否定结构的语气识别,由于篇幅原因,本文暂不对其进行讨论。中 文
39、信 息 学 报2 0 2 4年表4 实验结果数据表10 0 0正例10 0 0负例识别出的双重否定句数总精确率P/%总召回率R/%F1值/%本文程序9 8 91 29 8.8 09 8.9 09 8.8 5王勇等(2 0 1 4)7 7 71 09 8.7 27 7.7 08 6.9 6封洋(2 0 1 6)10 0 010 0 05 0.0 01 0 06 6.6 7词与句法分析等基础处理工具的原因,程序对一些句子的句法判断失误,使得一些本应被判为并列关系、因果关系的成分,被误判为述宾关系,从而导致整个结构的判断错误。示例如下:3 4 7 4 3:不大紧;有的急于求成把将来要办的事情,拿到今
40、天来办,由于条件不允许迟迟开展不了。(程序识别结果:双重否定结构为“不+非叙实动词+不”)(实际情况:“条件不允许”与“迟迟开展不来”是因果并列关系)6 8 9 3:要的网络公司均未能达到阿尔诺的预期。为此,去年6月底,阿尔诺不得不刹车。他说,他要考虑“战略调整”。(程序分词:阿尔诺不得不/刹车)(实际分词:阿尔诺/不得不/刹车)当我们输入人工修改后的分词与句法分析结果后,程序的错误得到纠正,精确率与召回率皆可达到1 0 0%。5 双重否定自动识别程序的建立为测试上述三个条件在双重否定结构识别过程中的作用,进一步验证语言学知识在双重否定结构自动识别过程中的贡献,我们将人工构建的20 0 0句语
41、料作为输入,测试在取消某一条件后,双重否定结构识别程序的识别情况与召回情况。具体结果如表5所示。表5 双重否定结构成立条件测试结果10 0 0正例10 0 0负例识别出的双重否定句数原始数据9 8 91 2取消“述宾结构”条件限制10 7 84 6 0取消“非叙实动词”条件限制10 3 12 9取消“否定角度”条件限制9 8 91 3 可以看到,“构成述宾结构”与“动词为非叙实动词”对整个双重否定结构的识别造成较大影响。尤其在召回率方面,相较于我们提供的标准正确数据,没有“构成述宾结构”条件约束的程序将额外召回约3 7倍的错误结构(4 6 01 2),而没有“动词为非叙实动词”条件约束的程序也
42、将额外召回1.4倍的错误结构(2 91 2)。“否定焦点”条件对双重否定结构识别的影响最为轻微。我们认为,这可能是因为人们在实际语言交流中很少会使用非常复杂的句子,例如:“我不相信他不喜欢我到了看见我就恶心的地步”。当我们扩大检测数据,对9 62 8 1句原始语料进行程序测试时,缺少否定焦点约束的程序将会比标准程序额外召回1 4 0句双重否定结构,进一步说明否定焦点会对双重否定结构识别程序造成影响,只是由于语料中复杂的句子很少,导致影响较轻微。这种情况也符合我们日常表达的经济性原则。6 结语本文以“P=P”为标准,借助计算机程序与C C L语料库,对现代汉语中所有的“否定词+否定 词”结 构
43、进 行 了 遍 历 研 究,实 现 了 以 下目标:(1)将双重否定结构按照格式分为了3大类,2 5小类,常用双重否定结构或构式1 3 2个,进一步地揭示出了双重否定结构的全貌;(2)总结得出了双重否定结构成立的三大条件;并对其进行了实验测试分析,进一步验证了语言学知识在双重否定结构中的作用;(3)补充了助动词表、非叙实动词表、情感词表等基础词表,编写实现了双重否定结构自动识别程序。识 别 的 精 确 率 约 为9 8.8 0%,召 回 率 约 为9 8.9 0%,F1值约为9 8.8 5%;(4)获得了86 4 0句精确率约为9 9.2 0%的标明双重否定结构的句子,为后续建立双重否定语料库
44、442期王昱等:双重否定结构自动识别研究提供了支持。具体文件烦请参见脚注链接。本文还有许多不足未尽之处。例如,本文的识别程序是在规则的基础上建立的,而人为编写的规则未免有不尽之处;本文对双重否定结构的判断皆基于作者个人的语感,未免有疏漏之处;对于一些已经固化的双重否定结构,如“非不”“无非”“莫非”等,本文的处理还较为粗糙,有待进一步分析与探索,等等。未来我们拟在本文的基础上,继续展开与深入,具体计划有:(1)建立双重否定语料库,在程序的辅助下构建数万句级的双重否定语料库;(2)探究双重否定结构自动识别的深度学习模型;(3)对双重否定结构的语用方面进行进一步研究与探索;(4)对双重否定结构中的
45、构式,如“非不可”“非莫属”等等,进行进一步的研究与探索。参考文献1 丁声树,等.现代汉语语法讲话M.北京:商务印书馆,2 0 0 4:2 0 0-2 0 2.2 芜崧.双重否定句的种类与功能J.荆州师专学报(哲社版),1 9 8 7,(3):5 2-5 7.3 叶文曦.否定和双重否定的多维度研究J.语言学研究,2 0 1 3(2):2 0-3 1.4 方绪军.“不是不X”、“不是没(有)X”和“没(有)不X”J.语言科学,2 0 1 7,1 6(0 5):5 1 1-5 2 1.5 何爱晶.反叙的非真值义否定和真值义肯定J.外语研究,2 0 1 9,3 6(0 4):2 8-3 5.6 L
46、A D U S AW W A.N e g a t i o na n dp o l a r i t yi t e m sM.T h e H a n d b o o k o f C o n t e m p o r a r y S e m a n t i c T h e o r y.O x f o r d:B l a c k w e l lP u b l i s h i n gL t d,1 9 9 7:3 2 1-3 4 1.7 HO R NL.An a t u r eh i s t o r yo fn e g a t i o nM.C h i c a g o:U n i v e r s i t
47、y o fC h i c a g oP r e s s,1 9 8 9:3 1 1-3 1 2.8 王勇,吕学强,姬连春,等.基于极性词典的中文微博客情感分类J.计算机应用与软件,2 0 1 4,3 1(0 1):3 4-3 7.9 吴杰胜,陆奎.基于多部情感词典和规则集的中文微博情感分析研究J.计算机应用与软件,2 0 1 9,3 6(0 9):9 3-9 9.1 0 封洋.中文微博情绪分析D.上海:上海交通大学硕士学位论文,2 0 1 6.1 1 刘彬,袁毓林.反问句否定意义的形成与识解机制J.语文研究,2 0 1 7(0 4):1 2-1 9.1 2 吕叔湘.中国文法要略M.北京:商务印
48、书馆,1 9 5 6.1 3 王力.中国现代语法M.北京:商务印书馆,1 9 8 5.1 4 朱德熙.语法讲义M.北京:商务印书馆,1 9 8 2.1 5 袁毓林.并列结构的否定表达J.语言文字应用,1 9 9 9(0 3):4 2-4 6.1 6 李新良.立足于汉语事实的动词叙实性研究J.世界汉语教学,2 0 1 5,2 9(3):3 5 0-3 6 1.1 7 袁毓林.论否定句的焦点、预设和辖域歧义J.中国语文,2 0 0 0(0 2):9 9-1 0 8.王昱(1 9 9 7),博士研究生,主要研究领域为汉语语言学与计算语言学。E-m a i l:w a n g y u s t u p k u.e d u.c n袁毓林(1 9 6 2),通信作者,教授、博士生导师,主要研究领域为理论语言学和汉语语言学,特别是句法学、语义学、语用学、计算语言学和中文信息处理等。E-m a i l:y u a n y l p k u.e d u.c n54h t t p s:/g i t h u b.c o m/L AN GVA G E-UN D E R S T AN D I N G/C h i n e s e_D o u b l e_N e g a t i o n