资源描述
哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心领域自适应的中文实体关系抽取研究导师:秦兵教授学生:王莉峰哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心大纲n绪论n关系类型发现n关系种子集抽取n关系描述模式挖掘n结论2哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心问题的提出n现有的关系抽取方法存在一些问题l人工参与较多n预先定义关系类型体系n构建标注语料库n构造关系种子集l可移植性差n集中在特定领域的关系抽取n不适用于海量、多样化的Web信息抽取需求n领域自适应的研究相对滞后l2007年Banko提出了OpenIE的概念l领域自适应的中文关系抽取研究较少3哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心解决思路n领域自适应的中文实体关系抽取研究框架l只需一定规模的未标注语料库作为输入l最大程度避免人工参与l提高关系抽取自动化程度l增强可移植性,扩大应用范围n关键技术l关系类型自动发现l关系种子集自动构建l关系描述模式挖掘l关系元组抽取l数据存储及可视化4哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心关系类型体系实体关系核心网词法句法分析命名实体识别特征词抽取特征词聚类基于特征词聚类的关系类型发现关系实例抽取上下文模式生成模式泛化与过滤基于Bootstrapping的关系描述模式挖掘模式匹配关系实例评价新关系实例抽取查询构造查询扩展基于WebMining的关系种子集抽取答案抽取领域自适应的中文实体关系抽取存储与可视化大规模网页库实体关系知识库Web检索和问答系统5元组抽取与评价哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心大纲n绪论n关系类型发现n关系种子集抽取n关系描述模式挖掘n结论6哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心关系类型发现(1)n语言现象l绝大多数产生关系的实体对均可以由其上下文中的一般动词和一般名词触发描述l统称为特征词(FeatureWord,FW)n主要思想l以实体对类型为单位进行处理领域n如“人名人名”、“人名机构名”l基于大规模语料库统计,抽取与特定实体对类型相关度较大的特征词集l利用语义词典计算特征词之间的相似度l特征词聚类,聚类结果即为关系类型7Arg1Arg2Relation王树国哈尔滨工业大学校长王树国法国荣誉勋章荣获Arg1Arg2Relation刘德华巩俐携手刘德华我知女人心打造巩俐我知女人心打造我知女人心博纳悠唐国际影城首映PERLOCORGMISCFW哈尔滨工业大学校长王树国荣获法国荣誉勋章。巨星刘德华携手巩俐等人气明星打造的都市爱情大片我知女人心在博纳悠唐国际影城正式首映。哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心关系类型发现(2)n基于特征词聚类的关系类型发现8网页库正文抽取文本处理种子实体抽取特征词抽取特征词聚类关系类型体系特征词集语义词典哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心关系类型发现(3)n特征词抽取l抽取由种子实体形成的高频实体对及其句子集l统计与高频实体对共现的动、名词l使用启发式通用规则过滤,得到候选特征词n必须出现在实体对之间n动词细分类,仅保留一般动词n名词细分类,仅保留一般名词n动词必须满足与实体对中的任一实体存在主谓关系SBV或动宾关系VOBl计算候选特征词与实体对类型相关度,取Top-K9FreqT(wk)和FreqA(wk)分别表示wk在特定实体对类型上下文中和整个语料库中的出现频率哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心关系类型发现(4)n特征词聚类l相似度计算n基于HowNetl相同义原个数n基于同义词词林(扩展版)l树距离l语义代码是否相同(如level=3、4)l聚类算法n层次聚类HAC(singlelink、completelink、averagelink)nAffinityPropagation(AP),Science2007提出n语义代码直接聚类(只针对语义代码相似度)Ni和Nj分别为wi和wj义原个数,NCij为相同义原个数10哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心关系类型发现(5)n语料库获取lRE100W:9个门户网站的100W娱乐资讯网页n实验实体对类型l人名人名,即人物社会关系抽取n测试数据l多人协作构建标准聚类结果l共1,225个特征词,256类n评价标准lF值l纯度Purity11哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心关系类型发现(6)12哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心13哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心大纲n绪论n关系类型发现n关系种子集抽取n关系描述模式挖掘n结论14哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心关系种子集抽取(1)n人工构建关系种子集存在的问题l关系类型繁多,完全依靠人工选择困难l难以保证种子覆盖面l投入成本较大,可移植性差n主要思想l关系表示成三元组:ne1为种子实体,e2未知nR为关系类型,对应一个特征词集合l将e2槽填充问题看作事实型答案抽取问题l利用搜索引擎收集和处理海量数据的能力和优势l基于WebMining方法抽取答案e215哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心关系种子集抽取(2)n基于WebMining的关系种子集抽取16查询构造查询扩展网页检索答案抽取问答系统检索系统页面摘要哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心关系种子集抽取(3)n查询构造l根据e2类型,定义启发式规则,构造基本查询n查询扩展l借助问答系统百度知道扩展查询n相关性排序问句列表n针对单个问句的相似问题推荐17名词性特征词的查询构造规则e1+“”+fw,例如:周杰伦父亲,周杰伦老爸fw+“”+e1,例如:父亲周杰伦,老爸周杰伦e1+fw+是谁?,例如:周杰伦的父亲是谁?,周杰伦的老爸是谁?谁是+e1+的+fw?,例如:谁是周杰伦的父亲?,谁是周杰伦的老爸?动词性特征词的查询构造规则e1+“”+fw,例如:赵薇饰演,赵薇出演fw+“”+e1,例如:饰演赵薇,出演赵薇哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心关系种子集抽取(4)n网页检索l百度网页:snippetl百度新闻:snippetl百度知道:snippet,最佳答案n答案抽取l基于频率统计的方法(baseline)l基于上下文模式的方法l基于频率统计与上下文模式相结合的方法18哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心关系种子集抽取(5)n基于上下文模式的方法19权威媒体TVBS娱乐记者正式对外公布了周杰伦的父亲周耀中的一篇关于杰伦身世之迷的博客文章。对外/v公布/v了/u周杰伦/Nh的/u父亲/n周耀中/Nh的/u一篇/Nm关于/p对外/v公布/v了/uSLOT1/Nh的/u父亲/n SLOT2/Nh的/u/Nm关于/p关系实例候选上下文模式上下文模式cP为上下文模式Freq(cP)为上下文模式出现频率哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心关系种子集抽取(6)n基于频率统计与上下文模式相结合的方法20哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心关系种子集抽取(7)n实验数据l种子实体e1:Top-500l关系类型R:9种n评价标准l每类随机选取100个进行人工评价l准确率、平均准确率l不直接评价召回率,通过关系种子总数间接反映21夫妻关系、经纪人关系、合作关系情侣关系、父母-子女、好友关系角色扮演、兄弟姐妹、伯乐关系哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心22哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心大纲n绪论n关系类型发现n关系种子集抽取n关系描述模式挖掘n结论23哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心关系描述模式挖掘(1)n基于Bootstrapping的关系描述模式挖掘24关系元组模式泛化关系实例抽取上下文模式生成模式过滤关系描述模式大规模语料库特征词集关系元组集候选元组抽取元组过滤哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心关系描述模式挖掘(2)n上下文模式生成25梁朝伟和刘嘉玲自本月21日于不丹正式结婚后,24日早上首次公开露面。梁朝伟和刘嘉玲7月21日将于不丹完婚。梁朝伟/Nh和/c刘嘉玲/Nh自/p本月21日/Nr于/p不丹/Ns正式/a结婚/v梁朝伟/Nh和/c刘嘉玲/Nh7月21日/Nr将/d于/p不丹/Ns完婚/v。/wp结婚,完婚SLOT1/Nh和/cSLOT2/Nh自/p/Nr于/p/Ns正式/a/Ed53A结婚/v/Hj51CSLOT1/Nh和/cSLOT2/Nh/Nr将/d于/p/Ns完婚/v/Hj51C。/wp关系实例候选上下文模式上下文模式哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心关系描述模式挖掘(3)n软模式生成l对任意两个上下文模式计算最佳匹配长度(带权重的最长公共子序列)l匹配度J定义为:l仅当匹配度大于阈值minJaccard时,用于生成软模式,即构造最长公共子序列26cPicPj代价SLOT1/NhSLOT1/Nh0和/c和/c0SLOT2/NhSLOT2/Nh0自/p10/Nr/Nr0将/d10于/p于/p0/Ns/Ns0正式/a/Ed53A10结婚/v/Hj51C完婚/v/Hj51C5。/wp10上下文模式最佳匹配过程J=7/(9+9-7)=0.636哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心关系描述模式挖掘(4)n软模式生成及元组抽取27*SLOT1/Nh和/cSLOT2/Nh*/Nr*于/p/Ns*结婚/v/Hj51C*SLOT1/Nh和/cSLOT2/Nh自/p/Nr于/p/Ns正式/a/Ed53A结婚/v/Hj51CSLOT1/Nh和/cSLOT2/Nh/Nr将/d于/p/Ns完婚/v/Hj51C。/wp软模式关系元组上下文模式李亚鹏和王菲昨日于乌鲁木齐正式登记结婚,两人爱情终于修得正果!”关系实例李亚鹏/Nh和/c王菲/Nh昨日/Nt于/p乌鲁木齐/Ns正式/a/Ed53A登记/v/Hc15A结婚/v/Hj51C,/wp上下文模式哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心关系描述模式挖掘(5)n关系元组评价l新抽取元组将作为下一轮迭代的种子l过滤噪声元组,避免错误蔓延现象l根据关系元组与特征词fw共现情况,定义元组T可信度计算公式:l仅保留可信度大于阈值minTupleConf的元组28哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心关系描述模式挖掘(6)n实验数据lRE100W:100W娱乐资讯网页l关系类型:9种l关系种子:基于WebMining方法自动获取n评价标准l每类随机选取100个进行人工评价l准确率、平均准确率l不直接评价召回率,通过关系元组总数间接反映29夫妻关系、经纪人关系、合作关系情侣关系、父母-子女、好友关系角色扮演、兄弟姐妹、伯乐关系哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心关系描述模式挖掘(7)n四组对比实验(根据关系元组过滤时机)lB:在迭代过程中不采取任何过滤措施lB+F1:每一轮获取的元组全部进入下一轮迭代,最后对获取的所有元组进行过滤lB+F2:每一轮都对获取的元组进行过滤,可信度超过某一阈值的元组进入下一轮迭代,而低于可信度阈值的元组直接作为最终结果lB+F1+F2:每一轮都对获取的元组进行过滤,可信度超过某一阈值的元组进入下一轮迭代,舍弃低于可信度阈值的元组30哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心31哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心32哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心大纲n绪论n关系类型发现n关系种子集抽取n关系描述模式挖掘n结论33哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心结论n提出了全新的领域自适应的关系抽取研究框架n提出了基于特征词聚类的关系类型发现n提出了基于WebMining的关系种子集抽取n采用了基于Bootstrapping的关系描述模式挖掘l提出了裁剪的上下文模式表示方法l提出了基于最佳匹配的软模式生成策略n搭建了人物社会关系抽取演示系统l人脉搜索34哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心哈工大社会计算与信息检索研究中心请各位老师批评指正谢谢!
展开阅读全文