基于BERT和LDA模型的酒店评论文本挖掘.pdf

资源描述

1、第卷第期计算机应用与软件年月基于和模型的酒店评论文本挖掘綦方中田宇阳（浙江工业大学管理学院浙江杭州）收稿日期：。国家社科基金项目（）。綦方中，副教授，主研领域：商务智能与分析。田宇阳，硕士生。摘要通过主题模型对酒店评论文本进行文本挖掘，有利于引导酒店管理者和客户对评论信息做出合适的鉴别和判断。提出一种基于预训练的语言模型与主题聚类相结合的方法；利用中文维基百科语料库训练模型并从中获取文本向量，基于深度学习算法对评论文本进行情感分类；通过模型对分类后的文本进行主题聚类，分别获取不同情感极性文本的特征主题词，进而挖掘出酒店客户最为关注的问题，并对酒店管理者提出具有参考价值

2、的建议。实验结果表明，通过模型获取的文本向量在情感分类任务中表现较好，且文本挖掘方法能使酒店评论文本的主题更具表达性。关键词主题模型情感分类文本挖掘酒店评论中图分类号文献标志码：（，），引言近年来，随着我国经济的飞速发展，人们外出旅游、出差等活动的需求大大提高，这也给时下酒店行业的崛起创造了良好的条件。旅客可线上预订住宿和餐饮等服务，在订单完成后根据自身体验进行在线点评，而在线评论文本包含了用户对酒店位置、硬件设施、房间质量、服务态度等多个维度的信息，能够反映顾客对入住体验的直观感受。酒店管理者需要将在线评论文本转化为核心洞察力，从中全面探知用户的关注和偏好，发现隐藏在其中的问题并解

3、决，以保持强大的市场竞争力。因此，对酒店评论文本进行情感分类和主题挖掘是十分重要的。情感分类的目的是通过分析某条评论文本的具体内容，将其划分为正向情感类或负向情感类。常见的情感分类方法有两种，一种是基于情感词典的方法，如何构建高质量的情感词典是此方法的关键，例如，赵妍妍等使用文本统计算法构建了一个词汇量达到十万的情感词典。周剑峰等根据匹配模型在语料中获取情感词，结合统计方法和算法构建了微博情感词典。等将现有情感词典中的词语作为种子计算机应用与软件年词，用算法计算出每个词语的情感极性从而判断出文本的情感倾向。另一种情感分类方法则是有监督的机器学习方法，该方法通常是将带有情感极性标注

4、的文本作为训练集并基于机器学习算法来构造分类器模型，例如，等最早将机器学习算法应用于情感分类中，分别使用朴素贝叶斯、最大熵模型和支持向量机来构建分类器。李杰等则将深度学习方法应用到了情感分类任务中，该方法借助卷积神经网络强大的特征学习能力成功克服了特征抽取中的困难。文本主题挖掘通常要用到主题概率模型，目前常见的主题概率模型有（）和，且模型实质上就是在的基础上加入了先验分布，张敏以某电商平台上的购买用户评论数据为基础，构建了主题模型，实现了对文本主题的提取和隐藏信息的挖掘。王少鹏等将算法与模型相结合来计算文本的相似度，进而将高校论坛数据进行了文本聚类。在酒店评论领域，基

5、于中文语料的相关研究尚处于起步阶段，研究方法种类众多且主要以定量研究为主，陈柯宇等利用工具扩充公共情感词典从而得到了酒店领域的情感词典。李胜宇等结合酒店评论的句式特征和语法特点，解决了此前情感词匹配出现错误的问题。熊伟等利用文本挖掘技术的批量处理功能结合时间序列分析法预测了某商务酒店未来的发展趋势。吴维芳等从评论文本的角度建立了消费者满意度与酒店特征之间的关系，发现了用户满意度的影响因素。高保俊等引入订满率取代评论数量，研究了酒店的用户推荐比率和位置评分等因素对酒店订满率的影响。朱晓晴等分析了酒店在线评论与酒店服务质量之间的关系并总结了影响服务质量的因素。整体而言，基于中文语料的

6、酒店评论文本的研究成果正在逐年上升，但适用性较高的模型还未形成。已有研究主要是考虑如何构建酒店评论领域的情感词典或是通过传统的词向量模型来生成词向量并输入到机器学习模型中进行训练，但构建情感词典的成本较高，传统的词向量模型又不能很好地捕捉文本的双语义特征且其计算效率低下。另外，酒店评论文本的数量庞大，存在总结词和评价词众多、转折词和关键词出现频率高、句式口语化严重、网络流行词和特殊符号泛滥等特点，仅仅通过情感分析的结果显然无法彻底地挖掘出蕴含在文本内部的深层语义信息。针对以上问题，本文提出一种适用于酒店评论的文本挖掘方法。研究思路如下：利用中文维基百科语料库训练模型来获取文本特征向量，将事

7、先经过情感极性标注的酒店评论文本划分为训练集和测试集结合深度学习算法训练情感极性分类器，通过网络爬虫获取“携程旅行”平台上的评论语料，经预处理后传入情感极性分类器得到评论语料的情感二分类结果，依据分类结果分别对正向评论和负向评论进行主题模型的构建以获取特征主题词及对应的概率分布，最后系统化地梳理和概括主题聚类的结果，对酒店管理者提出可供参考的建议。相关理论分析是谷歌于年提出的模型中衍生出来的预训练语言模型，目前模型在自然语言处理领域已经拥有了广泛的应用。作为一种模型，由编码器（）和解码器（）两大部分组成，模型便是的编码器部分。在此前的研究中，解决序列问题的方法通常是基于循环神经网

8、络（）实现的，但反复循环迭代的训练方式使得其计算速度较慢，却能通过并行训练的方式大幅度提升计算的效率。的结构如图所示。模型的每个基本层包含两个子层，其中，一个是采用多头注意力机制（）的自注意力（）层；另一个则是全连接的前馈神经网络层（），每个子层的输出都会经过一个层。此外，模型还引入一个位置编码（）的概念来解决传入到自注意力层中的特征缺乏位置信息的问题。图模型结构第期綦方中，等：基于和模型的酒店评论文本挖掘模型没有类似于的循环迭代操作，因此需通过位置编码来给模型提供每个字的位置信息，从而模型才拥有了识别语言序列中顺序关系的能力。位置编码使用了不同频率的正弦函数和余弦函数来替代

9、每一处位置信息，文献给出了计算公式。（，）（）（，）（）（）式中：指句子中字的位置，是字向量的维度，是嵌入的维度，公式所得到的位置编码的维度和相同，故二者可以相加。分别用正弦和余弦函数做处理可以产生不同的周期性变化，模型由此可以获取位置之间的关系和语言的时序特性。自注意力机制（）是的核心部分，为了清晰地解释其原理，这里引入相关公式加以描述。是由若干句子组成的集合，它的维度为，其中指句子的数量，指句子长度，在字向量表中获取相应的嵌入（）再加上位置编码特征得到最终的嵌入特征，它的维度为，其中表示字向量的维度即每个字的特征表达，具体公式表达为：（）（）接下来对每一个特征输入做线性

10、映射，分配三个权重矩阵、和，它们的维度都是，线性映射以后，便可得到每个输入的向量（）、向量（）和向量（），并且三个向量的维度与线性映射前的维度一致。线性映射的计算方法为：（）多头注意力机制便是将、和在这个维度平均分割成份，是人为设定的一个超参数即为头（）的数量。对于每个注意力头，计算公式为：（，）槡()（）式中：首先求出注意力矩阵，所得结果再除以槡可转化为标准正态分布，其中是向量的维度，这样做的目的是使归一化指数函数的结果更加稳定，以便接下来在梯度反向传播过程中模型能够更加容易地获取平衡的梯度。层（残差连接和层归一化）的存在是为了解决深度学习中的退化问题。在得到（、）之后

11、，接下来每经过一个模块的运算，都要将运算前后的结果相加，这便是（残差连接）的操作，这可使得在训练过程中后层的梯度跨层反传到初始层从而防止梯度消失现象的发生。（层归一化）可以将神经网络中的隐藏层归一化为标准正态分布，以起到加快训练速度的作用。此外，模型主要以（）和（）两种方式来进行训练。其中是随机遮盖或替换一句话中的某些字或词，然后让模型去预测和还原被遮盖或被替换的部分。则是随机地给定两句话，模型通过训练来判断这两句话是否有上下文关系。在实际训练中，通常会将和相结合，以这种方式训练出的模型能够更加全面地刻画出语言序列中的语义信息。经由输出的文本嵌入特征能够适用于各种实际的任务，相较

12、于传统的词嵌入技术（如或），充分考虑了句子中每一个字对上下文中其他字的影响以及在不同语境下同一种表达的不同含义。自模型公布以来，就以其卓越的表现深受开发者们的喜爱，作为自然语言处理领域近几年来研究成果的集大成者，也为词嵌入表示的研究提供了很好的思路。模型模型是等于年提出的一种主题模型。作为一种无监督的机器学习方法，将给定的文档集传入到模型中，便可得到文档集中每一篇文档主题的概率分布，以该主题的概率分布为依据可以进行文本分类和主题聚类等任务。自提出以来，已经有了诸多的算法改进及变形算法，并且在文本挖掘、信息检索和情感分析等领域得到了广泛应用。是一种描述了文档、主题和词汇之间关系的

13、层贝叶斯模型，模型结构如图所示。图模型结构图中，每个符号的含义见表，变量间的箭头表示条件依赖性（），方框表示重复抽样，方框右下角的字母指代重复抽样的次数。计算机应用与软件年表符号含义对照表符号含义狄利克雷分布，的超参数狄利克雷分布，的超参数“文档主题”的多项式分布“主题词汇”的多项式分布词的主题分配词主题数目文档数目一篇文档的词数在模型中，一篇文档的生成步骤如下：以先验概率（）选定一篇文档；取样生成文档的主题分布，其中服从超参数为狄利克雷分布，即（）；从主题分布中取样生成文档的第个词的主题，其中，服从的多项式分布，即，（）；取样生成主题，的词语分布

14、，其中，（）；从词语分布，中生成词语，且，（，）；重复共次，最终生成一篇总词数为的文档。实验及其结果分析模型的预训练为了验证方法的有效性，本文进行了大量实验加以验证，本文详细地阐述了实验的步骤和模型相关参数的设置，整个实验过程如图所示。图方法流程预训练模型所用的训练数据是中文维基百科语料。在语料的预处理阶段，利用中文维基百科语料制作了一个字典用来初始化模型的字向量矩阵，除了语料中的中文字以外，字典中还新定义了一些特殊字符以适应模型的训练模式，最终制作出来的字典共计包含了个字。谷歌官方给出的基准模型总参数量达到了亿个，考虑到训练这个参数规模的模型需要十分充裕的计

15、算资源并且在实际运用中这个参数的性能存在过剩的情况，最终本文预训练的模型参数设置见表。表模型参数参数参数值情感分类在完成模型的训练后，在的输出端添加了全连接网络并使用函数激活。所使用的训练语料是已经过人工标记处理的酒店评论文本，其中正面评论和负面评论各条，分别标记为代表情感极性为正和代表情感极性为负，其中条评论作为训练集，剩余条作为测试集。考虑到在实际生活中，正面评论的数量往往要远高于负面评论的数量，对于这类分布不均衡的样本，使用准确率（）作为分类器性能的衡量指标并不合理，故在训练过程中将（）作为分类器性能的衡量标准。设置初始学习率为，在每个训练结束后记下当前的

16、，再与上一个的进行比较，如果未获得提升，则降低当前学习率的，若连续个的都没有提升，则提前终止训练。在相同的酒店评论数据集上将模型和其他两种混合模型的性能优劣做了比较，即分别用不同分类器对测试集进行了情感分类实验，实验结果见表。对比表中和其他两种常用模型，可以看出在各项模型性能衡量指标中皆有明显优势，这说明模型在该酒店评论数据集上的情感分类效果较好。表实验对比结果模型准确率精确率召回率书书书第期綦方中，等：基于和模型的酒店评论文本挖掘主题建模接下来通过网络爬虫技术在“携程旅行”平台上获取了家酒店从年月至年月期间产生的共计万余条评论文本信息。酒店

17、评论文本存在语言多样化、规范性较差和无意义评论数量较多等缺点，所以对获取到的评论文本进行数据清洗操作就显得尤为重要。首先去掉数据集中所有非评论文本的部分，仅保留评论文本并删除重复评论和少于个汉字的评论，随后利用分词工具和哈工大停用词表对文本进行分词处理并去除停用词及特殊符号。得到处理完毕的规范评论文本后，将其传入到情感分类模型中，便得到所有文本情感极性的分类结果。整个特征提取与情感分类过程如图所示。图特征提取和情感分类接下来分别对情感分类结果为正和负的评论文本进行文本聚类。文献中对于模型的参数和的常用设置为，其中是文本的主题数量，其取值是根据困惑度指标评定法来获得，困惑度计

18、算公式为：（）（）（）（）（）式中：为文本总数，为第条文本的词数，（）表示词语在主题下的概率，（）表示文本在主题下的概率。随着的增大，模型的困惑度会逐渐降低。但过大会导致不同主题间的内容模糊化，因此在实际应用中，一般将困惑度下降速度趋于“平缓点”处的主题数作为参数的取值。经过多次实验，最终本文的模型中，参数，迭代次数。实验结果分析依据模型得到的（）分别对正面评论文本和负面评论文本进行聚类，对每个主题提取出概率最高的个关键词列出其（）的概率分布结果见表和表。表模型下正面评论的（）主题主题主题酒店酒店房间方便性价比早餐近高大火车站好

19、不错不错不错舒服好早餐干净地铁站前台外卖地铁价格周边交通小小市中心行李免费主题主题好酒店酒店房间前台停车场房间小吃热情游泳池办理设施不错不错服务态度外滩环境宠物行李人表模型下负面评论的（）主题主题主题酒店早餐房间房间房间前台空调酒店携程坏差预订晚上有待发票旧马桶损失厕所脏态度一般卫生差设施隔音窗户隔音小服务态度计算机应用与软件年续表主题主题房间酒店一般房间淋浴专业坏工作人员漏水态度不好费用洗手间一般设施差

20、大矿泉水前台免费从表可以看出，用户对一家酒店持肯定态度的原因可以概括为五个方面：（）地理位置：主题中的高频词有“火车站”“地铁”和“市中心”等词汇。说明用户较为关注酒店周边的交通枢纽、商圈等，好的地理位置能给用户带来优质的入住体验。（）性价比：主题高频词有“性价比”，这说明酒店的定价与服务水平相匹配是提高顾客满意度的关键所在。（）餐饮：“早餐”“外卖”等词汇在该主题中频频出现，酒店免费提供早餐和送外卖上门服务可以给舟车劳顿、行程忙碌的用户提供极大的方便。（）服务态度：主题高频词有“前台”“热情”“服务态度”和“行李”等词汇。在用户办理入住、退房等手续时，酒店工作人员的服务态度能给用户

21、留下最为直观的印象并直接影响着用户对酒店的评价。（）硬件设施：主题高频词有“停车场”“游泳池”和“宠物”等。对于一家定位高端，追求高品质服务的酒店，游泳池、健身房和停车场等硬件设施会极大地提升酒店的整体水平，而有这方面需求的用户也必然会选择配备有这些硬件设施的酒店。反观表，可将用户对酒店持负面评价的原因归纳为客房质量较差和对酒店工作人员的服务态度不满两个方面，例如空调故障、房间隔音效果差、卫生条件简陋、酒店工作人员的服务水平不够专业、服务态度不够友好等。对于酒店行业而言，只有不断完善管理制度，提升服务水平，才能发挥自身优势，提升市场竞争力。结合以上主题，本文给出的建议是：绝大多数客户最为关注

22、酒店的地理位置、性价比、餐饮、服务态度和硬件设施这五个方面，在保证一定成本的情况下，要全面提升工作人员的服务水平和服务态度，努力提高房间内部的舒适度，尽可能完善硬件设施并依据房型精确定价，加大卫生保洁工作力度，避免出现客户有需求却得不到回复的情况。高标准做到以上几点就能有效提高用户的满意度进而吸引更多用户前来入住。结语本文提出了一种适用于酒店评论的文本挖掘方法，借助捕捉文本双语义特征的能力，有效地提高了情感分类的准确率，结合主题建模完成了对海量用户评论的主题聚类和文本挖掘工作，为今后的酒店评论文本研究提供了一种新的分析思路。在训练模型时，所使用的训练语料是当前内容覆盖最为全面的中文维基

23、百科语料库，因此本文提出的方法同样适用于其他领域的短文本分类和聚类。但是本研究仍存在不足，如训练情感极性分类器时作为训练集的评论语料还相对较少，评论文本的情感极性还可进一步划分等。在收集数据过程中还发现旅行类型为商务出差的样本数量要远远高于其他旅行类型的样本，但商务出差用户给出的平均评分却是最低的。针对此问题，我们将对商务出差用户的评论文本做更进一步的研究。参考文献赵妍妍，秦兵，秋慧，等大规模情感词典的构建及其在情感分类中的应用中文信息学报，（）：周剑峰，爱民，咏梅基于中文微博的情感词典构建及分类方法计算机与数字工程，（）：，：，：，？，：李杰，李欢基于深度学习的短文本评论产品特征提

24、取及情感分类研究情报理论与实践，（）：，：（下转第页）计算机应用与软件年进行调度前，提前感知到机器的资源负载变化情况，从而能够更加灵活地配置资源，提高资源的利用率。本文在现有的云资源负载预测算法的基础上，提出了基于的组合预测模型，并通过实验确定了最优的模型参数。实验结果表明，相较于和，本模型用于云资源负载预测的精度有了明显提升。参考文献，（）：，：，：，（）：，：，：，（）：张荣，李伟平，莫同深度学习研究综述信息与控制，（）：，：，徐达宇，丁帅改进优化的云计算资源负载短期预测研究计算机工程与应用，（）：谢晓兰，张征征，王建伟，等基于三次指数平滑法和时间卷积网络的云资

25、源预测模型通信学报，（）：，：，（）：，：，：，：，：，（）：，：，：（上接第页）张敏基于文本挖掘的电商评论情感分析产业与科技论坛，（）：王少鹏，彭岩，王洁基于的文本聚类在网络舆情分析中的应用研究山东大学学报（理学版），（）：陈柯宇，何中市基于情感词典的酒店评论情感分类研究现代计算机（专业版），（）：李胜宇，高俊波，许莉莉面向酒店评论的情感分析模型计算机系统应用，（）：熊伟，郭扬杰酒店顾客在线评论的文本挖掘北京第二外国语学院学报，（）：吴维芳，高宝俊，杨海霞，等评论文本对酒店满意度的影响：基于情感分析的方法数据分析与知识发现，（）：高宝俊，孙含琳，王寒凝在线评论对酒店订满率的影响研究旅游学刊，（）：朱晓晴，胡玉龙，李荣飞，等基于舆情分析的西安市五星级酒店服务质量评价研究西安文理学院学报（社会科学版），（）：，刘胜杰，许亮基于词嵌入技术的文本表示研究现状综述现代计算机，（）：

展开阅读全文