收藏 分销(赏)

基于依存关系图的汉语话语标记可解释性识别研究.pdf

上传人:自信****多点 文档编号:583358 上传时间:2024-01-02 格式:PDF 页数:11 大小:2.99MB
下载 相关 举报
基于依存关系图的汉语话语标记可解释性识别研究.pdf_第1页
第1页 / 共11页
基于依存关系图的汉语话语标记可解释性识别研究.pdf_第2页
第2页 / 共11页
基于依存关系图的汉语话语标记可解释性识别研究.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、自然口语中话语标记的研究对言谈互动、话语理解、情感分析、人机对话和口语机器翻译具有重大意义为实现话语标记的自动识别,该文基于依存语法理论,分析判定话语标记的句法依存关系、语义依存关系、话轮位置以及共现成分的语义与功能信息针对人工智能深度学习方法缺乏原理和语义上的解释性问题,运用朴素贝叶斯、决策树、大规模线性支持向量机以及贝叶斯网络四种解释性强的机器学习方法,对话语标记进行识别对比实验研究结果表明,贝叶斯网络识别准确率可达 ,验证了该研究结论的可行性和有效性关键词:依存关系图;话语标记;可解释性;语义依存;识别实验中图分类号:G 文献标志码:A开放科学(资源服务)标志码(O S I D):话语标

2、记(d i s c o u r s em a r k e r s)是一种用来标示话语连贯,传递话语互动信息和人际功能信息的语言范畴 它们在言谈互动、话语理解和口语机器翻译中有重要意义,可用于帮助听话人预测即将出现的话语在会话中所发挥的关键作用 F i s c h e r等研究表明,此类语言成分在会话中的使用频率相当高如,在非正式的德语人对人交际中,其使用频率高达 ,在人机交互中其重要性略有 减 弱,但 在 前 个 高 频 词 中 也 达 到了 话语标记成员数量多,类型复杂,因此,其自动识别是自然语言处理中的一个难题从话语标记的来源来看,涉及连词、副词、叹词、形容词、动词性短语等多种层级的语法成

3、分,绝大多数的词(或短语)在演变出话语标记用法之后,一般还会保留原来的用法,因此,话语标记自动识别的关键问题是分解歧义国 内 外 不 少 学 者 就 此 做 过 一 些 研 究,如H i r s c h b e r g等利 用 话 语 标 记 的 拼 写 环 境 对“n o w”和“w e l l”进行歧义消解,F i s c h e r等依据话语标记小品词的句法位置和之前的对话行为这两类信息描述探讨歧义消解问题,在包含 个德语语篇的测试集中取得 的准确率 L i t m a n采用C G R E N D E L规则库和决策树c 两个机器学习的方法来改善对话语标记的识别,提取韵律特征、文本特征

4、、词性特征和词法特征,比手工方法更具有可扩展性和灵活性 P o p e s c u B e l i s等利用词汇、韵律/位置与社会语言学特征人工标注话语标记w e l l和w i t h,使用决策树模型检验各个特征的显著性,表明左侧窗口对识别贡献度最大目前,国内学者主要聚焦关系词基于规则的自动识别、微博热点主题挖掘、话语标记语体分析和实体关系抽取,如胡金柱等 考察了基于规则的汉语复句关系词自动识别,提出了 点约束条件;李源等 利用依存句法分析汉语结构模型,得到语义和结构融合的依存关系,提高了依存关系界定的性能;杨进才等 运用依存语法分析汉语复句中关系词搭配,总结字面特征和语法特征规则用于自动识

5、别复句关系词;李艳翠等 采用清华汉语树库用于复句关系词的识别分类,提取 种字面特征的模型获得较高的复句关系词识别率复句关系词与话语标记词不同,两者有交集,弱化的关系词具有话语标记的属性特征,这些方法为话语标记的自动识别提供了思路祁瑞华等 探讨依存关系在中文微博作者性别中的应用,采用支持向量机、朴素贝叶斯、最近邻和决策树等分类算法对作者性别进行识别区分,总体上依存关系特征集在中文微博数据集实验中的准确率、召回率和F值最高孟晓亮等 提出话语标记的语体度概念,认为话语标记第期肖明等:基于依存关系图的汉语话语标记可解释性识别研究 的语体特征对文本分类具有一定参考价值陆亮等 探讨了融入对话交互信息的实体

6、关系抽取方法,在D i a l o g R E数据集上得到F值为 综上所述,以上文献有的基于规则方法对关系词进行自动识别,有的利用句法依存关系进行微博热点挖掘、用户观点抽取和作者性别识别,都未对话语标记基于机器学习方法的自动识别进行相关研究为了验证本文所提方法的可行性和有效性,本文提出对话语标记句法依存关系、语义依存关系、语法位置、语义功能等特征的挖掘,探究判定话语标记的语言知识和语法规律由于是首次分析话语标记的自动识别实验,语料库规模较小,而基于深度学习人工智能的不可解释性存在两个方面,一是原理上的不可解释性,因为深度神经网络模型和算法通常十分复杂,加上“黑盒”学习训练的性质,A I通常无法

7、对预测的结果给出自我解释,模型十分不透明;二是语义上的不可解释性,深度学习用于挖掘数据中变量之间的关联性,而数据关联性产生于因果、混淆和样本选择偏差种类型,混淆和样本选择偏差带来的虚假关联而做出的“解释”,不是因果关系,一定是不稳定和缺乏鲁棒性的,降低受众对模型的信任程度而采用朴素贝叶斯、贝叶斯网络等结构化贝叶斯模型,既可以用来描述不确定性,又可用直观、清晰的图形描述变量之间的直接作用关系,刻画变量之间的条件独立性,从而学到可解释的、用户友好的特征 研究话语标记融合依存语法特征的贝叶斯自动识别方法,以期为自然口语的自动理解和分析提供可解释性理解知识话语标记的基本类型及其功能话语标记是“语言成分

8、、副语言成分或非言语成分通过它们的句法属性、语义属性以及在始发或终结位置切分话语单位的序列关系来标记话语单位关系的”,这是S c h i f f r i n 从功能的角度划分出来的语用类别从语法性质来看,汉语的话语标记来源于叹词、形容词、连词、副词以及一些短语例如:例句():女C:对 他们说最好的就是国产的这个宫灯跟大宝 其余的呢?女B:别的都不太好女C:品牌啊女B:添加剂你知道女C:嗯例句()为自然对话,“对”与“你知道”分别是由形容词与主谓结构演变而来的话语标记如例句()所示,话语标记来源于不同性质的语法成分,因此,不少词同时保留了非话语标记与话语标记两种用法我们这里以常见的不同词长话语标

9、记为例,用具体数据描述它们的实际使用情况,统计样本为 万字的自然会话语料和 万的中国传媒大学有声媒体语料(“乡约”“鲁豫有约”“锵锵三人行”栏目)相关数据如表表部分话语标记两种用法的用例数和占比T a b N u m b e ra n dp r o p o r t i o no fu s ec a s e so f t w ou s a g e so f s o m ed i s c o u r s em a r k e r s为话语标记的数量(比例)不为话语标记的数量(比例)嗯 ()()回头()()完了 ()()你知道 ()()我告诉你()()不是我说你()()说句不好听的话()()表说明,

10、汉语中确实存在全职的话语标记(如“嗯”),但是这类话语标记极少绝大多数是兼职的,它们除了有话语标记用法之外,还有大量的非话语标记用法(如“回头”“完了”“你知道”“我告诉你”等)话语标记用法主要表达程序性意义,而非话语标记用法主要表达概念意义,两种用法的显著差异从侧面说明了话语标记的识别对会话含义理解的重要性话语标记的特征依存关系作为自然口语话语标记文体特征具有三个优势:依存关系三元组结构简单,可计算性好,对主谓易位、叠连、重复的自然口语环境具有良好的适应性;依存句法分析强调句子成分间的支配与从属的依存关系,不限于句子成分顺序的特性有利于分析句式灵活多变的口语文本,而且,依存关系提取深层句法结

11、构信息,具有内容无关性利用哈尔滨工业大学的L T P平台对口语语料库中的对话进行依存句法分析,构建依存树库,提取依存树中话语标记的句法依存关系和语义依存关系L T P平台采用 词性标注,共 种句法依存关系和 种语义依存关系 支配词词性根据依存语法的五条公理,依存句法树中仅有一个中心词,称为根节点,句中所有词语仅有一个 华中师范大学学报(自然科学版)第 卷支配它的词,中心词除外,所以在依存树中,词之间只存在支配被支配、从属被从属的关系在依存语法中,句子的支配词词性大多为动词,因为动词的支配能力比其他词都强 ,如例句()和()中分别列举了含有“回头”的例句,其依存句法分析和词性标注的结果如图和图所

12、示例句():就在我背后,但是我还不能回头看例句()中“回头”不是话语标记时,其词性标注为v动词,是支配词例句():可以加一下扣扣,回头聊一下哈图例句的依存句法分析F i g D e p e n d e n c ys y n t a xa n a l y s i so f e x a m p l e图例句的依存句法分析F i g D e p e n d e n c ys y n t a xa n a l y s i so f e x a m p l e例句()中“回头”充当话语标记时,词性标注为d副词,支配词分别是“加”和“聊”,词性标注都是v动词 话语标记与支配词之间的句法依存关系根据依存树库

13、中词与词之间的 种句法依存关系,准话语标记与支配词之间的关系一般根据准话语标记在句中是否充当话语标记而有所变化,因此可以把两者之间的依存关系作为判断准话语标记是否为话语标记的条件例如图、图是“回头”在句中与其支配词的依存关系例句():你回头留我们这儿吧,别回去了例句():完了之后他就直接回头一直看着我图例句中的依存句法分析F i g D e p e n d e n c ys y n t a xa n a l y s i so f e x a m p l e图例句中的依存句法分析F i g D e p e n d e n c ys y n t a xa n a l y s i so f e x

14、a m p l e如图所示,例句()中“回头”充当话语标记,与其支配词“留”之间的关系是A D V(状中结构)第期肖明等:基于依存关系图的汉语话语标记可解释性识别研究 图例句()中的“回头”依存于其前的“他”,构成S B V主谓关系,“回头”作为“他”的谓语,因此不作为话语标记 话语标记与支配词之间的语义依存关系根据依存树库中词与词之间的 种语义依存关系,一个词可以支配不同的词,形成不同的语义依存关系,在依存树中除去叶子节点的其他节点都至少有一个从属词,根据依存语法分析,口语句中的话语标记在依存树中属于叶子节点,是不支配其他词的,以“完了”为例,对例句()进行语义依存关系分析例句():完了,这

15、下没情调了,曲子也就吹完了为了区分例句()中出现的两个“完了”,分别标注为“完了”和“完了”,由于句子较长,分析的语义依存树节点太多,此处只分析与“完了”直接相关的依存节点图是依存树的语义依存关系图及简图图左分支是“完了”的语义依存关系,第一个“完了”是话语标记,在依存树中为叶子节点,是支配词“没”的依附标记;右分支是第二个“完了”的语义依存关系,与支配词“吹”是后继关系例句():这下没情调了,曲子也就吹完了(自建)图例句两个“完了”的语义依存分析及简图F i g E x a m p l es e m a n t i cd e p e n d e n c ya n a l y s i sa n

16、 dd i a g r a mo f t w o“w a n l e”w o r d s图例句中“完了”的语义依存分析F i g S e m a n t i cd e p e n d e n c ya n a l y s i so f“w a n l e”i ne x a m p l e 位置分布自然口语中,话语标记在话轮中有经常出现的位置,位置是判定话语标记的重要参数之一话语标记在口语中可能出现的位置有五:话轮首、话轮中、话轮尾、其他标记后(组合性话语标记出现的位置)、独立话轮据此,笔者详细统计了个常用话语标记在口语对话语料库中的位置分布(详见表),发现它们各自有不同的位置分布格局,且存在明

17、显的位置分布偏向表数据显示,“嗯”更常分布在独立话轮和话轮尾;“回头”“完了”“我告诉你”“说句不好听的”主要分布在话轮中;“你知道”更常分布在话轮首和话轮尾;“不是我说你”的分布位置相对均衡有些话语标记不会出现在话轮尾、其他话语标记之后或独立话轮中话语标记有各自的位置分布偏向,所以位置分布可作为识别话语标记的重要特征参数结合话语标记词表和位置分布来识别话语标记,可以减少误判表话语标记的位置分布及比例T a b L o c a t i o nd i s t r i b u t i o na n dp r o p o r t i o no fd i s c o u r s em a r k e

18、r s话轮首 话轮尾 话轮中其他话语标记之后独立话轮嗯 回头完了 你知道 我告诉你 不是我说你说句不好听的 华中师范大学学报(自然科学版)第 卷 共现成分的主语/话题特征话语标记共现成分的语义与功能特征主要包括是否有停顿性话语信息或连续性话语信息,前后话语是否有主语/主题、前后主语/主题的关系、前后话语内容的关系等个方面这些语义与功能特征对话语标记的判定具有重要的意义比如,“完了”为话语标记时,前面通常有停顿性话语信息(如例句()、()、()、()、(),而它不为话语标记时,前面通常没有停顿性话语信息(如例句()、()、()、()、()这种现象说明了共现成分能够作为话语标记的判断依据例句():

19、我没寻思整这一套,一串儿啊,整个玩意还绕老半天完了举出一个这个,完了因为我推她一下子,完了,人家啊,我给你学一个,我说你别老逗你爸例句():我补补补补补,然后就补完了例句():它在 年房价最高的时候,你知道吗?它大概就是这么大,平方厘米,就是一平方英尺,要卖到 美元例句():你知道味道是怎么出来的吗,你说有微波炉烤箱的味道,烧焦那种味道是吧?例句():我告诉你,别以为你有文化就可以欺负人啊,真没见过你这号的!例句():小雨,我,我告诉你一个秘密例句():不是我说你,别一天到晚只知道赚钱赚钱,赚那么多钱干嘛例句():问题不是我说你正义,是法律上例句():说句不好听的话,还不是你教出来的吗?例句(

20、):你不通过民政局,我跟你说句不好听的话,我真的没法跟你说,知道吗?特征的析取与算法综合以上的分析,话语标记的句法依存关系、语义依存关系、位置分布、共现成分的语义与功能特征等都是作为识别话语标记的重要参数以下为本文提取这些特征的方法 依存关系的提取本文基于话语标记的依存关系特征研究,依据 种句法依存关系和 种语义依存关系,具体的依存关系类型描述如表所示 句法位置的提取会话中,不同话语标记出现的位置是不一样的,而这些位置信息可以作为分析话语标记的一个重要参数比如,话语标记“回头”基本上不出现在独立的话轮位置,在调查的语料库中,该位置上出现的概率为这样的位置特征对于判定“回头”是不是话语标记非常有

21、价值有些词在某些位置上倾向于用作话语标记,这样的统计数据对话语标记的自动识别同样非常重要关于语法位置的提取,本文的做法是利用训练语料查询话语标记的位置(记为“P o s”),计算公式如下:P o s话语标记在话轮中的编号频次话轮的总数()表依存关系类型T a b D e p e n d e n c yt y p e s序号类型说明描述支配词词性话语标记A的支配词词性话语标记与支配词之间的依存关系话语标记A的支配它的词两者之间的依存关系是否支配其他词话语标记是否支配其他词,支配其他词为,否则为 主语/话题特征的提取会话中,说话人通常围绕共同关心的人物或事件展开,所涉主语/话题多具有同一性或相关性

22、,这些信息对话语标记的判定具有参考价值本文的具体做法是将认为的该特征分成类,并在训练集中进行标注,具体如表所示 针对主语/话题的标记逻辑,将话语中的所有名词或代词性成分作为主语/主题候选词,然后利用候选词分析前言后语所用主语/话题的关系具体说来,在语料样本中以潜在的话语标记为切割点,分为两个片段,以此为基础比较前后两个话语片段中主语/话题的同一性,通常使用的方法包括匹配法与删除法如前片段中主语/话题为“我”,后片段话语中主语/话题词也为“我”,则二者匹配成功,表明主语/话题的同一性或利用删除法进行比较,如前片段中主语/话题词为“公司的张经理”,后片段话语中主语/话题词也为“张经理”,二者也是相

23、同的有些主语虽然字面上不同,但是在语义上具有回指等语法关系,二者是相同的,比如“市场经济”与“它”在前后句中做主语/话题时,大多数是同指关系计算表层形式不同的主语/话题之间的语义关系需经过两个步骤,一是借助扩展的 同义词林 分析二者的语义关系,二是通过语法上的共现计算二者的相关性公式如下:A s s o c i a t i o n l o gf r e q(主语/话题,主语/话题)f r e q(主语/话题)(主语/话题)()第期肖明等:基于依存关系图的汉语话语标记可解释性识别研究 表话语标记共现成分的语义与功能特征T a b S e m a n t i ca n df u n c t i o

24、 n a l c h a r a c t e r i s t i c so fd i s c o u r s em a r k e r s特征具体情形与形式描述停顿性话语信息I)前接停顿性话语(F P);I I)后接停顿性话语(B P);I I I)前面无停顿性话语(F P);I V)后面无停顿性话语(B P)连续性话语信息I)前接连续性话语(F C);I I)后接连续性话语(B C);I I I)前面无连续性话语(F C);I V)后面无连续性话语(B C)前接话语的主语话题I)前接话语有主语/话题(F S/F T);I I)前接话语无主语/话题(F S/F T)后接话语的主语/话题I)后接

25、话语有主语/话题(B S/B T);I I)后接话语无主语/话题(B S/B T)前后主语/话题的关系I)等同或基本等同(S);I I)完全不同(D);I I I)蕴含(C);I V)指代(R)前后话语内容的关系I)两个不同的小句(S);I I)一个完整的小句(S)词性特征的提取基于窗口的概念对词性特征进行提取,即只统计词距离小于等于窗口大小的临近词语的分布情况之所以引入窗口概念,主要有两个原因,首先是降低系统开销,设词性分类一共有n种,窗口大小为w,那么词性排列一共将出现nw如果不对w加以限制,最终对排列结果的统计将占用很大的系统开销,同时这样的开销也不能换来准确率的提升,因为词距离越远,词

26、与词的关联性将越小第二个原因数据稀疏问题,由于目前我们的数据集规模在千句和万句之间,当存在较多词性排列时,由于数据集的规模不足,词性排列将存在数据稀疏问题,从而使得统计得出的概率存在一定的偶然性,影响识别准确率计算公式如下:P(特定词性排列|话语标记)N(话语标记下的词性排列)/N(特定词性排列)()实验及数据分析在基于依存关系图的话语标记可解释性方面,算法和模型等可解释性方法的采用是必需的人工智能的可解释性方法根据模型解释的算法复杂度分成两类,一类是事前解释(a n t e h o c),另一类是事后解释(p o s t h o c)事前解释适用于复杂度较低的模型,多采用传统机器学习中的自解

27、释模型例如,线性模型、K近邻算法、决策树、朴素贝叶斯模型、贝叶斯网络等;事后解释适用于复杂度较高的模型,多运用知识蒸馏、激活最大化方法、概念激活矢量测试、反向传播、沙普利解释模型等 尽管当前人工智能的可解释性方法种类较多,但每种方法都不够完善,或多或少的存在一些缺点例如:自解释模型准确性偏低,受到多种因素的限制,预测性能与可解释性之间的矛盾较大;激活最大化方法仅适用视频等连续型数据,无法应用于离散型数据,且容易受到噪音的影响因此,在不同场景下,应当根据各类方法充分利用其优势,避免其不足,选取合适的模型和算法来实现系统的可解释性综上所述,为了验证本文提出的多视角话语标记特征模型的科学合理性,采用

28、事前解释方法的自解释模型,以位置特征作为基准特征集,依次增加词性特征、话题特征和依存关系特征,依次递增的对照识别实验特征集如表所示实验采用张华平研发的N L P I R P a r s e r 进行中文语料分词和词性标注,分类算法实验环境为s c i k i t l e a r n 在对照实验中运行十折交叉验证,以话语标记识别的准确率(p r e c i s i o n)、召 回 率(r e c a l l)和 调 和 均 值(F m e a s u r e)作为模型识别结果的评价标准正确率PNc o r r e c t/Np r o g r e s s i v e ,召回率RNc o r r

29、 e c t/Na l l ,调和平均数FPR/(PR)Nc o r r e c t表示识别正确的话语标记个数,Np r o g r e s s i v e表示识别为话语标记的样本个数,Nr e c g表示识别正确的话语标记和非话语标记个数,Na l l表示原样本准话语标记个数对“回头”“完了”“你知 道”“我告诉 你”“不是我说你”“说句不好听的(话)”个话语标记进行标注表对照识别实验特征集T a b F e a t u r es e to f c o n t r a s t r e c o g n i t i o ne x p e r i m e n t特征集位置特征 词性特征 话题特征依

30、存关系特征FFFFFFFFFF在各组对照实验中分别应用种分类算法:朴素贝叶斯(N B C)、决策树(C )、大规模线性分类 华中师范大学学报(自然科学版)第 卷支持 向 量 机(L I B L I N E A R)以 及 贝 叶 斯 网 络(B N)贝叶斯网络是贝叶斯机器学习方法的一种,又 称 信 念 网 络它 是 基 于 有 向 无 环 图(d i r e c t e da c y c l i cg r a p h,D AG)来刻画特征之间依存关系的一种网络结构,可以由变量节点和所有连接这些 节点的有向 边组成节点 代表随机 变量(词),节点间的连接边代表节点(词语)之间的依存关系,并可用条

31、件概率来表达这些关系的强弱可用下式表示P(x,x,xn)nkP(xk|p a(xk),()其中,p a(xk)表示节点xk的父节点依据公式分析例句的贝叶斯网络模型可表示为:P(加)P(可以|加)P(一 下|加)P(扣扣|加)P(聊|加)P(回头|聊)P(一下|聊)P(哈|聊)表反映了模型针对不同话语标记词的种模型的分类准确率、召回率和调和均值,各个特征集上的最高数值用加粗字体显示从模型分类效果的角度看:种分类模型中,大规模线性分类支持向量机和贝叶斯网络的话语标记识别性能最好,尤其是,在种特征组合对照实验数据上准确率、召回率和调和均值都是最高值;朴素贝叶斯分类性能最低,具体原因是朴素贝叶斯分类要

32、求特征属性之间相互独立,而种特征集合中词与词之间存在依存关系,不能满足独立性假设,故而效果最差;决策树的性能居中表种模型在不同话语标记词的识别实验结果T a b E x p e r i m e n t a l r e s u l t so f r e c o g n i t i o no f f o u rm o d e l s i nd i f f e r e n td i s c o u r s em a r k e r s特征集话语标记朴素贝叶斯N B C决策树C L I B L I N E A R贝叶斯网络B N准确率 召回率调和均值准确率 召回率调和均值准确率 召回率调和均值准确率

33、召回率调和均值回头 完了 F你知道 我告诉你 不是我说你 说句不好听的 回头 完了 FF你知道 我告诉你 不是我说你 说句不好听的 回头 完了 FFF你知道 我告诉你 不是我说你 说句不好听的 回头 完了 FFFF你知道 我告诉你 不是我说你 说句不好听的 第期肖明等:基于依存关系图的汉语话语标记可解释性识别研究 从特征组合对话语标记识别的效果来观察:)随着特征依次的增加,种分类模型实验中话语标记的准确率、召回率和调和均值均有改善,在所有特征都输入模型后,准确率、召回率和调和均值到达最优值,还说明每种特征集或多或少起到区分识别话语标记的作用;)从依存关系特征的作用效果来观察,表中所示的是缺失依

34、存关系特征后的准确率变化情况,种模型的识别实验数据中,缺失依存关系特征后准确率存在显著降低以贝叶斯网络模型为例,在缺失依存关系特征后“回头完了你知道我告诉你附带说几句还是那句老话”识 别 准 确 率 分 别 下 降 、和 ,进一步验证了依存关系特征在话语标记识别中的显著作用;)从特征组合对准确率的改善程度来观察,特征组合逐步增加是贝叶斯网络模型准确率的变化状态,如图所示,在依次加入词性特征、话题特征和依存关系特征的过程中,对照观察,依存关系特征相对于其他特征能够有效提升模型准确率,反映出依存关系特征更有利于提取自然口语文本中蕴涵关联信息表缺失依存关系特征的四种模型在不同话语标记词的识别实验结果

35、T a b E x p e r i m e n t a l r e s u l t so f f o u rm o d e l s l a c k i n gd e p e n d e n c yc h a r a c t e r i s t i c s i nr e c o g n i t i o no fd i f f e r e n td i s c o u r s em a r k e r s 朴素贝叶斯N B C决策树C L I B L I N E A R贝叶斯网络B N全部特征缺失F全部特征缺失F全部特征缺失F全部特征缺失F回头 完了 你知道 我告诉你 不是我说你 说句不好听的 从

36、话语标记词语长度对自动识别的影响来分析:)从表中的“回头”和“我告诉你”全特征组合实验数据可观察出,贝叶斯网络话语标记识别平均准确率为 ,平均召回率为 ,平均调和均值为 ,验证本研究采用的特征组合模型较好适应话语标记识别,鲁棒性较优;)总体上观察,发现话语标记依次从字词到字词时,话语标记识别的准确率逐步提升,特征组合模型对于词的长度增加识别力逐步提升;)从话语标记识别率最高的贝叶斯网络模型来分析,表所示为话语标记字数增加贝叶斯网络准确率的变化情况,表明当字数逐步增加时,贝叶斯网络模型准确率与话语标记字词长度是正相关的;)从特征组合对话语标记字数的敏感度来观察,图说明了依次增加特征集合时,从字词

37、话语标记到字词话语标记上贝叶斯网络模型准确率的识别趋势,可观察到字词越少,则导入依存关系特征后准确率改善越明显,分析原因是位置特征和词性特征在字词等兼类词上特征相对稀疏,使得依存关系特征对少字符的话语标记识别的作用更加显著另外,当不同候选词统计概率相当时,准确率也出现了一定的波动例如“回头”包含两种用法,即动词用法和话语标记用法然而在部分情况下,两种用法在上下文环境的区分非常不明显,如“回头一看”和“回头一想”,显然前者是动词用法,后者是话语标记用法这种需要引入语义信息,甚至是固定搭配才能识别的情况一定程度上影响了最终的分类准确率表话语标记字数增加贝叶斯网络准确率的变化T a b C h a

38、n g e s i na c c u r a c yr a t eo fB a y e s i a nn e t w o r kw i t ht h e i n c r e a s eo fw o r d so fd i s c o u r s em a r k e r s特征集组合回头(字词)完了(字词)你知道(字词)我告诉你(字词)不是我说你(字词)说句不好听的(字词)F FF FFF FFFF 华中师范大学学报(自然科学版)第 卷图话语标记识别增加特征组合对贝叶斯网络模型准确率的贡献F i g C o n t r i b u t i o no f f e a t u r e c o m

39、b i n a t i o n t o t h e a c c u r a c yo fB a y e s i a nn e t w o r km o d e l b yd i s c o u r s em a r k e r r e c o g n i t i o n结语目前针对中文话语标记识别的研究相对较少,且中文话语标记识别也存在着语料不足,话语标记识别复杂度高的问题本文将句法依存关系和语义依存关系表示自然口语的模型特征,与自然口语的话轮位置特征、词性特征和主语话题特征相比,它可以有效地刻画口语流水句易位、叠连、重复的特点本文提出句法依存关系和语义依存关系,均能显著提升种模型对话语标记的

40、识别准确率,对照观察,依存关系特征相对于其他特征能够有效提升模型准确率,反映出依存关系特征更有利于提取自然口语文本中蕴涵关联信息进一步验证了依存关系特征在话语标记识别中具有较强的可行性和鲁棒性本文通过自建的汉语自然口语语料库,针对当前深度学习人工智能方法存在的原理上不可解释性和语义上不可解释性两个方面难题,综合分析后采用事前解释类型的自解释模型方法,具体为朴素贝叶斯、决策树、大规模线性分类支持向量机以及贝叶斯网络种解释性强的机器学习方法,完成自然口语话语标记的识别对比实验,得出最优识别准确率为 实验结果还表明句法依存关系和语义依存关系对话语标记识别贡献更大,远距离和跨句的语义依存关系是识别的难

41、点本研究的识别对比实验例证了本方法的可行性和有效性,为今后研究提供基础的准确率指标参照下一步将在语义依存关系表示基础上,引入更多语义信息,同时在扩充汉语自然口语标注语料库规模的基础上,探索基于新一代无监督预训练模型以及融合更多可解释性潜在特征信息的知识,提高话语标记识别准确率语言智能是人工智能的重要组成部分,是让计算机拥有人类的语言智能 话语标记与人工智能的“交叉融合”,对言谈互动、话语理解、情感分析、人机问答和口语机器翻译都具有重要意义参考文献:希夫林话语标记M北京:世界图书出版公司,S C H I F F L I N D i s c o u r s em a r k e r sM B e

42、i j i n g:W o r l dB o o kP u b l i s h i n gC o m p a n y,(C h)戴维克里斯特尔现代语言学词典M沈家煊,译北京:商务印书馆,D AV I DC D i c t i o n a r yo fm o d e r n l i n g u i s t i c sM S HE NJX,t r a n s B e i j i n g:C o mm e r c i a lP r e s s,(C h)董秀芳词汇化与话语标记的形成J世界汉语教学,():;D ON G X FL e x i c a l i z a t i o n a n d t h

43、e o r i g i n o f d i s c o u r s em a r k e r sJ W o r l dC h i n e s eT e a c h i n g,():;(C h)F I S C HE R K,M I C HA E L AJ E i nl i n g u i s t i s c h e sM e r k m a l sm o d e l l f r d i e L e x i k a l i s i e r u n g v o n d i s k u r s s t e u e r n d e nP a r t i k e l n S F B “S i t u i

44、 e r t ek n s t l i c h eK o mm u n i k a t o r e n”,R e p o r t R B i e l e f e l d:U n i v e r s i t yo fB i e l e f e l d,H I R S C H B E R GJ,L I TMAN DE m p i r i c a ls t u d i e so nt h ed i s a m b i g u a t i o n o f c u e p h r a s e sJ C o m p u t a t i o n a lL i n g u i s t i c s,():F I

45、 S C HE RK,B R AN D T P O O KHA u t o m a t i cd i s a m b i g u a t i o no fd i s c o u r s ep a r t i c l e sC/P r o c e e d i n g so fC o l i n A C L W o r k s h o p o n D i s c o u r s e R e l a t i o n s a n dD i s c o u r s eM a r k e r s M o n t r e a l,C a n a d a,:L I TMAN D J C u e p h r a

46、 s e c l a s s i f i c a t i o n u s i n g m a c h i n el e a r n i n gJ J o u r n a l o fA r t i f i c i a l I n t e l l i g e n c eR e s e a r c h,():第期肖明等:基于依存关系图的汉语话语标记可解释性识别研究 P O P E S C U B E L I SA,Z U F F E R E YS A u t o m a t i ci d e n t i f i c a t i o no fd i s c o u r s em a r k e r s

47、i n m u l t i p a r t yd i a l o g u e s:a n i n d e p t hs t u d yo f l i k ea n dw e l lJ C o m p u t e rS p e e c ha n dL a n g u a g e,():胡金柱,舒江波,胡泉,等汉语复句关系词自动识别中规则的约束条件研究J语言文字应用,():HUJZ,S HUJB,HUQ,e t a l O nt h e r e s t r i c t i o no f r u l e si n a u t o i d e n t i f y i n g r e l a t i o

48、 n a l w o r d si n C h i n e s e c o m p l e xs e n t e n c e sJ L a n g u a g ea n d C h a r a c t e r A p p l i c a t i o n,():(C h)胡金柱,胡泉,舒江波复句关系词自动识别中规则解析的包含匹配算法研究J华中师范大学学报(自然科学版),():(C h)HU J Z,HU Q,S HU J BR e s e a r c h o n c o n t a i n i n gm a t c h i n g a l g o r i t h m o fr u l e i n t e r p r e t e ri n t h e a u t o m a t i cr e c o g n i t i o nf o r r e l a t i o nw o r do fC h i n e s e c o m p o u n d s e n t e n c e sJ J o u r n a lo fC e n t r a lC h i n aN o r m a lU n i v e r s i t y(N a t u r a lS c i e n c eE d i t i o n),():(C h)李源,黄文灿,胡金柱一种结构和

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服