文本特征提取技术.pptx_咨信网zixin.com.cn

资源描述

文本特征提取2024/3/24 周日五校联合大数据分析硕士培养非结构化数据分析主要内容2024/3/24 周日非结构化数据分析文本表示特征提取特征权重文本表示文本表示第一讲：文本挖掘简介2024/3/24 周日非结构化数据分析文本表示及文本预处理2024/3/24 周日非结构化数据分析去掉html一些tag标记停用词(stopwords)去除、词根还原(stemming)(中文)分词、词性标注、短语识别、词频统计(TFIDF)数据清洗：去掉噪声文档或文档内垃圾数据向量空间模型G.Salton,19712024/3/24 周日非结构化数据分析向量空间模型(VectorSpaceModel)自然语言处理常用模型基本概念文档（Document）：句子、段落、整篇文章特征项（Term/Feature）：词根/词/短语/其他项的权重（Weight）：每个特征项在文档中的重要程度。VSM示意图数据结构化一般思路2024/3/24 周日非结构化数据分析特征特征词1特征特征词2特征特征词3特征特征词n文档文档1权重11权重12权重13权重1n文档文档2权重21权重22权重23权重2n文档文档3权重31权重32权重33权重3n文档文档4权重41权重42权重43权重4n文档文档m权重m1权重m2权重m3权重mnVSM示意图相似度比较内积计算Cosine计算2024/3/24 周日非结构化数据分析文本表示注解2024/3/24 周日非结构化数据分析文本表示注解2024/3/24 周日非结构化数据分析用单个汉字（对应英语语系中的字符串）做特征，不考虑词语的含义。直接利用汉字在文本中出现的统计特性对文本进行划分；直观明了，且操作简单，尤其对于英文文本或其他西语文本的划分非常容易，计算机可以直接利用空格进行分隔。但是基于单个汉字表示方法往往无法很好的代表语义信息。比较之下，使用词做特征成为一种更好的选择。词是中文语义的最小信息单位，词可以更好的反映句子中的信息，但是分析难度也提升了。以中文文本为例，词与词之间没有明确的分隔标记，计算机无法自动识别词语的边界，因此正确分词是这种表示方法的关键。该方法比较常用。文本表示注解2024/3/24 周日非结构化数据分析词性（PartOfSpeech，POS）作为特征可以更好的识别词语之间的关系。让计算机来自动地给文本中的词标注词性，然后利用词性进行词义分析。如：什么样的名词经常和什么样的动词同时出现，这对于词语之间关系的研究开拓了新的思路。词性标注技术的成熟为词组组块（PhraseChunking）的界定与实体及关系（EntitiesandRelationship）的识别打下了良好的基础，有利于我们更深入的探索文本语义的信息。且词组的形式提高了特征向量的语义含量，使得向量更稀疏。近年来，词性标注（POS-tagging）、词组组块（PhraseChunking）、实体及关系(EntitiesandRelationship)相关的研究也开展了很多，取得了很多可喜的成果，有兴趣的读者可以参考后面所附的文献进行深入学习。特征权重2024/3/24 周日非结构化数据分析特征权重2024/3/24 周日非结构化数据分析衡量某个特征项在文档表示中的重要程度或者区分能力的强弱更好的对文本进行表示一般利用文本的统计信息：词频常用的权重计算方法2024/3/24 周日非结构化数据分析TF-IDF例子（Saltonetal.,1983）2024/3/24 周日非结构化数据分析假设抓取了来自门户网站“经济”“娱乐”“科技”三个版块各300篇文章，其中有一篇文章，共有100个词，其中“粒子”“和”“应用”三个词分别出现了 5次、35次和15次，我们想将该文档进行归类，看它属于“经济”“娱乐”“科技”文档中的哪一类。初步分析认为，“粒子”、“应用”两个词应该对文章分类的作用较大，而“和”对于文章的分析意义不大。更进一步的，如果目标是进行文档的归类，有理由认为“粒子”一词对于该文章的归属的贡献要高于“应用”。“应用”一词的专业性不及“粒子”。TF-IDF应用举例2024/3/24 周日非结构化数据分析词语词语词频（词频（TF）文档频率文档频率(DF)文档逆频率文档逆频率(IDF)权重（权重（TF*IDF）粒子粒子0.05509000.063和和0.359009000应用应用0.154509000.045但是如果只关注词频，“应用”一词的权重更高。这时候，可以利用IDF的计算公式进行权重的处理，计算三个词的文档频率和文档逆频率，假设50篇文章中出现了“粒子”一词，450篇文章中出现了“应用”一词，900篇文章中均出现了“和”这个词语。那么采用TF*IDF方法计算得到的权重如下：特征权重注解2024/3/24 周日非结构化数据分析特征加权方法最初用于信息检索，特征加权主要有三个层次，局部加权、全局加权和标准化(Chisholmetal.,1999)。一般化的特征加权表示式如下：是词语w在文档d中的局部权重。是词语w在文档集合中的全局权重，是文档d的标准化因子。局部加权仅使用词语在文档中出现的统计量，而全局加权则使用整个数据集中的统计量进行计算。特征提取特征提取2024/3/24 周日非结构化数据分析特征提取的意义2024/3/24 周日非结构化数据分析文本集合包含的特征太多10,000 1,000,000 unique words and more特征减少后，某些算法才能使用有些分类方法无法处理1,000,000以上的特征减少训练时间有些分类方法的训练时间与特征个数的平方成正比，或更糟使预测模型更快、更小能提升总体性能Eliminates noise featuresAvoids overfitting特征提取思路2024/3/24 周日非结构化数据分析特征选择(FeatureSelection)文档频率信息增益卡方统计量互信息特征重构(Re-parameterisation)潜在语义分析文档频率（DocumentFrequency,DF）2024/3/24 周日非结构化数据分析文档频率（DF）指文本数据中包含某个词条的文档的个数。通过文档频率进行特征选择就是按照文档频率的大小对词条进行排序，将文档频率小于某一阈值的词删除，从而降低特征空间的维数。文档频率2024/3/24 周日非结构化数据分析基于DF的启发式要点太频繁的词项没有区分度,DF大于某个阈值去掉太稀有的词项独立表达的类别信息不强稀有词项的全局影响力不大在训练集中，某些文档如果有某个稀有词项，它们通常也会有一些常见词项（对那一类）和通常信息获取观念有些抵触：稀有的更有代表性（这是一种adhoc方法，不依据什么理论）最容易实现，可扩展性好文档频率2024/3/24 周日非结构化数据分析Baeza-Yates and Ribeiro-Neto（1990）研究表明，若一个特征在语料集80%的文档中都出现了，它对于分类来说是无意义的。这样的词语主要是指停用词等，通过对这部分词语的压缩，可以使特征向量空间压缩到原始的40%或者更多。对于出现频率过低的词语，考虑到增加一个变量对于现实带来的成本，一般不利用这样的词语，而是尽可能少的选取其他词条。Yang and Pedersen（1997）试验表明：在分类效果没有变差的前提下将特征空间的维数约减为原来的1/10是可能的，约减为1/100所带来的损失很小。熵2024/3/24 周日非结构化数据分析对分类系统来说，文档类别C的可能取值是每一个类别出现的概率是为类别的总数，熵定义为：熵/平均熵2024/3/24 周日非结构化数据分析在观察到特征项以后，文档落入某个文档类的概率就应该是条件概率此时系统的熵为：该特征项的熵：该值越大，说明分布越均匀，越有可能出现在较多的类别中；该值越小，说明分布越倾斜，特征项可能出现在较少的类别中信息增益(InformationGain,IG)2024/3/24 周日非结构化数据分析该term为整个分类所能提供的信息量特征项出现与否导致的熵的变化考虑和不考虑特征的熵的差值信息增益2024/3/24 周日非结构化数据分析信息增益2024/3/24 周日非结构化数据分析信息量与变量可能的变化有关，跟变量具体的取值没有任何关系，只和变量所取的种类多少以及发生概率有关），种类和发生概率决定了信息量的大小。Quinlan提到了这一点，信息增益的方法总是倾向于选择有多种属性的特征。只能考察特征对整个系统的贡献，而不能具体到某个类别上，这就使得它只适合用来做所谓“全局”的特征选择（指所有的类都使用相同的特征集合），而无法做“局部”的特征选择（每个类别有自己的特征集合，因为有的词，对这个类别很有区分度，对另一个类别则无足轻重）。2 统计量2024/3/24 周日非结构化数据分析基本思想通过观察实际值与理论值的偏差来确定理论的正确与否。假设两个变量确实是独立的，然后观察实际值与理论值的偏差程度。如果偏差足够小，认为误差是很自然的样本误差，两者确实独立；如果偏差大到一定程度，使得这样的误差不太可能是偶然产生或者测量不精确所致，认为两者相关。2024/3/24 周日非结构化数据分析那么偏差为：2 统计量2024/3/24 周日非结构化数据分析2 统计量2024/3/24 周日非结构化数据分析卡方度量两者(term和类别)独立性的缺乏程度2 越大，独立性越小，相关性越大若ADBC,则类和词独立,N=A+B+C+D低频词缺陷2024/3/24 周日非结构化数据分析只统计文档中是否出现词条T，却忽略了词条T在文档中出现频率的信息，使得卡方检验对低频词有所偏袒，这就夸大了低频词的作用。如果某一特征只在一类文档中频繁出现，通过卡方法计算出来的卡方统计量很低，在特征选择时这种特征词就会被排除掉，但是这种在少量文档中频繁出现的特征词很有可能对分类的贡献很大，比如专指概念。互信息法(MutualInformation,MI)2024/3/24 周日非结构化数据分析MI越大,特征项t和c共现程度越大(N=A+B+C+D)互信息特点2024/3/24 周日非结构化数据分析MI(t,C)的值越大，t对于C的区分能力越强对同一个类，不同的词项，在同样P(t|C)情况下，相对稀有的t 会得到较大的值，即MI受到词条边际概率的影响，从下面的公式中可得：潜在语义分析潜在语义分析(LatentSemanticAnalysis，LSA)2024/3/24 周日非结构化数据分析特征重构方法SVD分解是LSA的数学基础特征值与特征向量实对称矩阵的正交化SVD矩阵分解低阶近似特征值/特征向量设A是n阶方阵，如果数和n维非零列向量，使：成立，则称数为方阵A的一个特征值，非零列向量称为A的对应于特征值的特征向量（或称为A的属于特征值的特征向量）。具体步骤为具体步骤为将特征向量正交化;3.再将特征向量单位化.4.利用正交矩阵将实对称矩阵对角化这样共可得到m个两两正交的单位特征向量有5.以为列向量构成正交矩阵实对称矩阵正交化由可得其中Q的列为矩阵A的单位正交特征向量,仍表示对角矩阵,其中对角线上的值为A的特征值，按从大到小排列。最后，QT=Q-1，因为正交矩阵的逆等于其转置。实对称矩阵对角化已知矩阵A，寻找行空间的一组标准正交基记为V，通过A作用到行空间的这组标准正交基上AV，得到列空间的一组基向量，记为B，把B标准化后得U，这里就可以得到用分量的形式表示：奇异值分解SVD 对于，方程两边同乘，可以得到 ,由于V是标准正交基构成的矩阵，有，因此可得：U，V求解？由，可以得到：而为对称非负定矩阵，为对角矩阵，可以得到为的特征向量构成的矩阵。低阶近似和F-范数2024/3/24 周日非结构化数据分析令表示一个阶的原始数据矩阵,矩阵的秩为为了不失一般性，我们假定的均值为0，SVD奇异值分解可以表示成下面的过程：根据著名EckartandYoung(1936)年的结果,对于任意的有：在Frobenius范数下，SVD的前r个元素给出了矩阵的秩为r的一个最优估计。，潜在语义分析(LatentSemanticAnalysis,LSA，1990，Deerwesteret.al）2024/3/24 周日非结构化数据分析LSA是文本分析中一种常用的降维技术。该方法以文档词频矩阵为基础进行分析，得到了向量空间模型中文档的高维表示，并通过投影形成文档在潜在语义空间中的低维表示。理论依据是我们认为有一种潜在的语义结构隐含在文档中词语的上下文使用模式中，而文档词频共现矩阵在一定程度上可以反映出词和不同主题之间的关系。潜在语义分析方法很好的解决了同义词和一词多义等现象给文本分析造成的困难。LSA被提出后，被广泛用于文本检索和聚、分类技术中。LSA理解2024/3/24 周日非结构化数据分析X表示一个文档和词语的共现频率矩阵,X的每一行均代表一个文档向量，每一列代表词语向量。LSA将每个文本视为以词语（特征）为维度的空间中的一个点，认为一个包含语义的文本出现在这种空间中，它的分布不是随机的，而是应该服从某种语义结构。同样地，也将每个词语视为以文档为维度的空间中的一个点。文档是由词语组成的，而词语又要放到文本中去理解，体现了一种“词语-文档”之间的双重概率关系。LSA示意图2024/3/24 周日非结构化数据分析2024/3/24 周日非结构化数据分析性质2024/3/24 周日非结构化数据分析从数据压缩的角度看，“近似矩阵”是秩为K的前提下矩阵X的最小二乘意义下的最佳近似。LSA不同于向量空间模型中文本和词语的高维表示，它将文本和词语的高维表示投影在低维的潜在语义空间中，缩小了问题的规模，得到词语和文本的相对不那么稀疏的低维表示，同时这种低维表示揭示出了“文档-语义-词语”之间的联系。K值的选择2024/3/24 周日非结构化数据分析k值过大则会使运算量增大，一般选特征值个数时，对于，可令满足贡献率不等式：（可取40%，50%）潜语义分析缺点2024/3/24 周日非结构化数据分析但是可以注意到，分解的两个向量元素，可以为正值，也可以为负值，这些性质导致和总是很难解释。潜在语义分析过程中奇异值分解的物理意义不够明确，较难控制词义聚类的效果；此外该算法涉及高维且复杂的矩阵运算，这使得其在计算机上的实现也存在一定的困难。LSI应用例子2024/3/24 周日非结构化数据分析编号号文本文本Doc1 我我们学学习了探索性数据分析了探索性数据分析课程。程。Doc2 数据分析数据分析是指用适当的是指用适当的统计分析方法分析方法对收集来的大量数据收集来的大量数据进行分析。行分析。Doc3 数据分析数据分析:一般要分析的目一般要分析的目标比比较明确，分析条件也比明确，分析条件也比较清楚。清楚。Doc4 数据分析可帮助人数据分析可帮助人们作出判断，以便采取适当行作出判断，以便采取适当行动。Doc5 数据数据挖掘一般指从大量的数据中通挖掘一般指从大量的数据中通过算法搜索算法搜索隐藏于其中的信息的藏于其中的信息的过程。程。Doc6 数数据据挖挖掘掘：目目标不不是是很很清清晰晰，要要依依靠靠挖挖掘掘算算法法来来找找出出隐藏藏在在大大量量数数据据中中的的规则、模式、模式、规律等。律等。处理稀疏词汇后文本矩阵2024/3/24 周日非结构化数据分析词汇Doc1Doc2Doc3Doc4Doc5Doc6方方法法010000分分析析132100目目标000001判判断断000100数数据据021112算算法法000011挖挖掘掘000012隐藏藏000010利用VSM得到相似度2024/3/24 周日非结构化数据分析上述实例文本字数较少，我们采用余弦公式计算相似度。在VSM中是把每一行作为对应词汇的词汇向量的，则通过计算“数据”和“分析”的相似度为0.700，“数据”和“挖掘”的相似度为0.674，“分析”和“挖掘”的相似度为0，可见在VSM中，“分析”和“挖掘”没有任何关系的，但是，事实究竟是怎样的呢？。我们都知道，“分析”和“挖掘”都是对数据进行的处理，而且如今大数据技术的兴起，更是拉近了两者间的关系。我们当然希望在检索“分析”时，那些关于“挖掘”的文本也都出现在检索结果中。大家知道，LSI可以比较有效的解决同义词和多义词的问题，因为LSI是把词汇和文本通过数学方法投影到相同的潜在语义空间中，在此空间中，可以实现语义近的词汇或文本距离更相近，反之亦然。比如：同义词虽然“形态”不同，但是在此空间距离会很近。特征值向量2024/3/24 周日非结构化数据分析近似矩阵2024/3/24 周日非结构化数据分析近似矩阵2024/3/24 周日非结构化数据分析词汇Doc1Doc2Doc3Doc4Doc5Doc6方方法法0.0120.8400.0400.344-0.093 0.074分分析析0.0030.1970.0090.081-0.021 0.019目目标0.0010.0740.0110.0340.4830.602判判断断0.0050.3440.0160.141-0.035 0.034数数据据0.0030.1930.0110.0800.1060.171算算法法0.000-0.009 0.006-0.001 0.4490.542挖挖掘掘0.0000.0110.0050.0060.2760.337隐藏藏-0.001-0.093 0.002-0.035 0.4150.483利用LSI得到相似度2024/3/24 周日非结构化数据分析在k=2时，通过计算“数据”和“分析”的相似度为0.731，“数据”和“挖掘”的相似度为0.708，“分析”和“挖掘”的相似度为0.035，可见经过LSI降秩后，含义相近的词汇的相似度得到了很大的加强。这样，在加入LSI的系统中，我们就可以实现输入“分析”时，包含“挖掘”的文本也同样检索出来。R实现2024/3/24 周日非结构化数据分析特征提取操作

展开阅读全文