收藏 分销(赏)

基于深度学习的电商商品购买意图识别模型.pdf

上传人:自信****多点 文档编号:3340816 上传时间:2024-07-02 格式:PDF 页数:6 大小:1,018.29KB
下载 相关 举报
基于深度学习的电商商品购买意图识别模型.pdf_第1页
第1页 / 共6页
基于深度学习的电商商品购买意图识别模型.pdf_第2页
第2页 / 共6页
基于深度学习的电商商品购买意图识别模型.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 卷第 期运 筹 与 管 理 ,年 月 收稿日期:基金项目:国家自然科学基金资助项目();中央高校基本科研业务费专项资金项目()作者简介:郭小宇(),女,陕西渭南人,博士研究生,研究方向:文本表示,多模态舆情表示;马静(),通讯作者,女,重庆人,博士,教授,研究方向:文本表示,多模态舆情表示,复杂网络。基于深度学习的电商商品购买意图识别模型郭小宇,马 静(南京航空航天大学 经济与管理学院,江苏 南京 )摘要:识别用户的购买意图是提升电子商务购买率()的重要方法之一。针对用户购买意图不明确的现象,提出一种新模型。该模型将训练后的 ()词向量馈入卷积神经网络(),通过深层语义模型()进一步提取文

2、本特征。在 框架下结合美国建材电商网站家得宝的真实搜索数据进行实证分析。结果表明,在五分类问题中,新模型在测试数据集上的 达 。新模型使用了 与 提取文本特征,并应用 模型进一步提取了用户检索与商品描述文档在高维空间中的特征表示,最大化利用了用户检索与正确商品描述之间的语义相似度,同时避免了特征提取时主观因素的干扰,提高了商品购买意图的识别效果。关键词:购买意图识别;卷积神经网络;深层语义模型;深度学习中图分类号:文章标识码:文章编号:():,(,):,(),()(),(),(),:(),(),(),(),:;();();引言随着人工智能的快速发展,电子商务平台所提供的服务越来越智能化。等 和

3、 等 将机器学习算法应用到跨境电商商品报关流程中,提升了通关效率。崔春生等 将可拓学中基元的表示方法应用到电子商务智能推荐系统领域;张文等 通过聚类矩阵近似的协同过滤算法来提升推荐系统的准确性。随着电商平台的快速普及与智能化发展,电商平台对用户购买意图的准确识别也成为驱使用户从意向到购买的重要影响因素 。由于电商规模的扩大,用户寻找所需商品比以前更困难。为了智能化地解读用户需求,等 提出了一种基于 的双向长短期记忆神经网络(,)模型,旨在从多意图的用户检索中探索真正的购买意图;等 提出了一种语义识别系统,用于挖掘用户的购买意图,提升用户服务体验。当前电商领域解决用户购买意图不明确问题的主要步骤

4、如下:()记录用户的检索日志与点击日志;()查看用户在检索后购买商品记录;()在用户检索与所购买的商品之间建立映射关系。当有不明确购买意图的检索文字出现时,电商平台则会根据已建立好的映射关系推算用户的购买意图,罗列出与该意图对应的搜索结果。然而,由于用户检索语句表述多样化及口语化,根据已有映射规则发现用户购买意图越发困难。在垂直电商领域,用户甚至无从得知自己所需商品的名称,因而用户购买意图不明确的现象在此领域尤为突出。为了从用户检索中识别出购买意图,对检索语句进行语义抽取十分必要。目前,深度学习已在股票预测 、图片特征提取 、舆情分析 等多个领域取得良好成绩,在语义抽取方面尤为突出 。等 提出

5、一种基于深度学习的语义相似度计算模型,将 应用于问答系统。等 提出一种基于 的语言模型,用以预测两个句子之间的语义相似度。等 与 等 所提出的模型仅适应于短文本情景下,而真实的电商购买场景中长、短文本皆有。有关语义相似度计算的研究中,等 使用孪生网络计算语义相似度,将其用于相似语句的检索。然而,孪生网络是由两个相同的网络组合起来,彼此之间共享参数。在本文的研究范畴内,计算语义相似度的两个对象是用户检索(信息量小)和商品描述(信息量大),如果使用孪生网络处理,将会由于两者信息量的差异而导致结果不理想。电商商品购买意图识别是一种特殊的信息检索任务,因此主流的信息检索模型有较大的借鉴意义。等 提出了

6、一种深度网络语义模型(,),使用余弦相似度作为约束条件,将用户检索词与被检索文档映射到共同的语义空间中。在此基础上,等 和 等 分别将 与 引入到 中,优化了检索效果。不论是 ,还是 、,均使用 的方式进行单词向量化,这种方式容易产生冲突,且无法映射出单词的语义信息。运 筹 与 管 理 年第 卷针对 上 述 现 象,本 文 将 信 息 检 索 领 域 模 型 应用到电商商品购买意图识别中,并基于 模型在语义计算方面的良好表现 ,使用 词向量并结合 ,将其作为购买意图识别 模 型(,)。模型首先使用自然语言处理方法对数据 进 行 预 处 理;然 后,根 据 已 有 语 料 训 练 词向量,得到各

7、个单词的语义表示;最后,通过 进一步提取文本语义特征并完成评估。本研究使用公开数据集训练并检验 模 型 的 有 效 性,并 将 模型与基线模型对比。模型构建过程 模型可分为文本预处理、文本词向量化、高层特征提取 个阶段。本节先引入参数定义和背景知识,然后依次构建出 个阶段。参数定义及背景知识()参数定义。识别用户购买意图的本质即找到与用户检索语义相似度最接近的商品,于是,问题转化为求解用户检索与商品描述文档之间的语义相似度,如公式()所示。(,),()其中,和 是 模型的输入,为用户检索,是商品描述文档,是介于 到 之间的实数,是模型的输出,表示 和 之间的语义相似度值,表示非常不准确,表示非

8、常准确。除此之外,用 表示词典。和 分别表示用户检索与商品描述文档的向量表示,表示与 相匹配的检索结果,表示与 不匹配的检索结果。相应地,和 分别表示与 相匹配和不相匹配的商品描述文档的向量表示。词向量维度数用 表示,表示第 个单词,表示第 个单词 的向量表示。表示用户检索的最大词数,表示商品描述文档的最大词数。()余弦相似度约束下的文本特征表示。维词向量空间中囊括了词典 内任意词 的词向量表示,将 与 按词语切分,即可在 维词向量空间中找到每一个词语的词向量表示 ,将 组合便得到了 ,维度分 别 是 ,。在余弦相似度的约束下,得到了高层特征空间中的向量表示 ,。在高层特征向量空间中,与 之间

9、的距离小于 与 之间的距离,即余弦相似度约束条件拉近了用户检索与正确检索结果,推远了用户检索与错误检索结果。文本预处理本文的预处理包括数据清洗和标准化两个阶段,具体步骤如下:()数据清洗。共有分词、创建词典 、剔除非文本数据、拼写检查与纠正、统一大小写、词干提取、词形还原 个步骤。若数据集为中文,在清洗过程中加入中文分词、去除停用词两个步骤即可。()标准化。将文本划分为训练集与验证集,同时确定对应的标签。基于 的词向量化 中的 方法可以有效降低数据维度,但是其生成的词向量易产生冲突且无法映射出语义信息。考虑到 在解决数据维数灾难和词义鸿沟方面的良好表现 ,本文采用 的 ()算法训练词向量,替代

10、 。梯度变化极小时停止迭代,即得到了所有单词的词向量表示。将 ,分词后转为词向量,存于词向量矩阵,中。基于 的高层特征提取作为信 息 检 索 领 域 的 一 种 经 典 模 型,能够有效获取用户检索和被检索文档中的语义信息 。本文将 应用于电商商品购买意图识别,结合语义特征提取方法,在 模型内构建一维 ,将词向量化后的 和作为该网络的输入进行训练。首先,将第 个单词的词向量表示 馈入到卷积层中,应用公式()()提取出上下文特征。公式()中的 是特征变换矩阵,是偏置矩阵。(),()()()将所有单词的词向量输入公式()和()得到输出,然后将 输入到最大池化层,应用公式()求出每一列的最大值。()

11、,(),()将上一层的结果输入到全连接层,应用公式()计算得到文本的语义表示 ,其中 是语义投影矩阵,是语义偏置矩阵。()()以上步骤可以得到 与 的语义表示 与,接着应用公式()计算两者的语义相似度。(,)(,)()参考 等的研究 ,本文将 和 之第 期郭小宇,等:基于深度学习的电商商品购买意图识别模型间的语义相似度按照公式()转为后验概率形式。公式()中,表示 函数中的平滑因子。训练的目标即最大化所有的 和 之间的语义相似度,即求公式()的最小值。()(,)(,)()()(,)()()基于 的深度学习模型图 展示了 模型的总体结构图。由 图 知,模 型 首 先 训 练 词向量,得到词向量模

12、型。其次,获取用户检索与商品描述文档的词向量,随后构建卷积层与池化层,此处使用一维向量作为卷积层与池化层的过滤器。再者,将池化层的结果送入到全连接层,输出用户检索与商品描述文档的语义表示,使用余弦相似度计算出二者的语义相似度。同时,为了防止过拟合,在卷积层和全连接层添加 正则化。最后,通过 函数输出语义相似度最大的分类结果。图 模型总体结构图 模型实验验证 数据描述及分析本文以美国家得宝()建材电商网站的真实搜索数据进行实验。表 展示了该数据集包含的字段及对应解释,其中 是 的实数,非常准确是 分,分则表示非常不准确。对于每一条 ,它由三个人分别对 和 进行人工核验、手动打分、取平均值得到。表

13、 家得宝数据集字段及对应解释字段名称解释类别取值 长度范围 一对(,)的编码整数 产品的唯一编码整数 产品名称文本 产品描述文档文本 用户检索语句文本 用户检索与产品的相关度实数 数据预处理本文首先按照 所述流程进行文本常规预处理,随后针对家得宝数据集的特点进行预处理,步骤如下:()文本常规预处理。进行词干提取和分词,合并所有的文本数据,作为 模型的输入,用以训练词向量。除此之外,为了简化 模型的输入,将 与 合并作为最终的商品描述文档。()语义相似度转换。本文的研究目的是购买意图识别,因此需要将 字段转为是否识别成功的标签。参考 等 的转换,本文首先对语义相似度值四舍五入,将其转换为离散型标

14、签,之后标签大于 的标记为 ,即识别成功;反之识别失败。()转 换 为 能 够 处 理 的 数 据 类 型。模型的输入分为两部分,一部分是 ,另一部分是正确匹配的检索文档。检索语句与检索文档一一对应。关于负样本,模型从除去当前检索语句的检索结果中随机抽取 个文档作为负样本。为了保证一一对应关系,首先选出()步骤之后标记为 的记录,去除重复数据。最后为每一条 随机挑选 个负样本。()统一文本长度。从表 可知,和 的文本长度跨度较大,因此需要设置一个合理的阈值,对于不足阈值长度的文本,添加 补足;超过阈值长度的文本,舍弃超过部分。模型评价指标当负样本数量 取 时,本研究为一个二分类问题;当 取大于

15、 时,本研究是一个多分类问题。因此,本文使用分类问题中常用的精确度(),召回率(),作为购买意图识别效果的评价标准。,的计算方法如公式()公式()所示,其中 ,分别代表真阳性、假阳性、假阴性、真阴性。运 筹 与 管 理 年第 卷 ()()()模型训练 模型基于 算法将预处理后的文本向量化。通过 包调用 的 模型并通过多次实验验证,最终确定词向量维度为 、词向量上下文最大距离为 。在模型训练过程中,随着训练周期的增加,模型的 ,总体呈现上升趋势;而损失值的变化趋势则相反。当模型达到 次的训练周期时,本实验的训练精确度最终稳定在 附 近,召 回 率 稳 定 在 附 近,稳定在 附近,损失函数维持在

16、 附近。测试数据集精确度 为 ,召回率 为 ,为 。模型测试及对比本研究使用自然语言处理中常用的 、两种深度学习算法进行对比实验。此处使用的 与 均为二分类模型,为了严谨地完成对比实验,此处将 的负样本数量 置为 ,即将 设置为二分类任务。根据表 可知,的训练评估值与测试评估值均比 、高。从 平 均 每 个 的 训 练 时 间 来 看,最短,次之,最长;但从模型收敛时间来看,收敛得最快,次之,收敛得最慢。表 多模型对比结果()算法训练评估结果()测试评估结果()平均训练时间 收敛所需时间 实际的购买意图则更加细致且种类繁多。本文所设计的模型可以通过设置不同的 值,来模拟类别更多的情形。此处测试

17、和探讨更符合现实的子类多分类问题,将 的负样本数量 的取值集合置为 ,相应的类别数为 ,即分别对应六、七、八分类任务。根据表 可知,随着类别数量的增加,各评价指标的数值都在减小,但三种分类任务的 均在 以上,这一结果在多分类任务中仍有较大竞争力。表 在多分类情形下的结果对比分类任务训练评估结果()测试评估结果()六分类 七分类 八分类 结论本文将信息检索领域的基础模型 应用于电商商品购买意图识别,使用 算法进行词向量化,结合 构建出 模型,通过 深度学习框架实现该模型,并以真实电商搜索场景的数据进行验证。得出:()特征处理。模型无需人工构建特征,仅需使用自然语言处理技术预处理数据,有效减少了人

18、为因素对商品搜索结果的干扰。另外,还 进 行 了 高 维 特 征 提 取。算法初步提取了词语的特征之后经过 与 提取高维特征,最大化利用了检索语句与正确检索结果之间的语义相似度。()模型收敛时间。深度学习已经在自然语言处理领域取得了极大成功,但深度学习模型过大,在实际场景中难以应用。本文通过与深度学习中常见的自然语言处理模型对比,发现本文提出的 模型的平均每个 的训练时间少于 ,收敛时间少于 、。可见,模型有效提高了模型的训练效率。()评估值。相比于常用模型在测试数据集第 期郭小宇,等:基于深度学习的电商商品购买意图识别模型上的 ,如 为 ,为 ,为 ()。此外,随着类别数量的增加,模型的评估

19、值仍然维持在较高水平。可见,模型提高了商品购买意图的识别效果。()类别不平衡问题的处理。现实数据往往存在类别不平衡问题,这种问题易导致深度学习模型难以关注代表性不足类的样本。而本文的模型基于正例数据构造负例,以平衡各个类别的数据量,使得模型在训练过程中能够兼顾各个类别。参考文献:,():,:,:崔春生,王梦冉,王国成 一种基于可拓学的电子商务内容推荐算法研究 运筹与管理,():张文,崔杨波,李健,等 基于聚类矩阵近似的协同过滤推荐研究 运筹与管理,():,:,():乔若羽 基于神经网络的股票预测模型 运筹与管理,():罗浩,姜伟,范星,等 基于深度学习的行人重识别研究进展 自动化学报,():吴鹏,刘恒旺,沈思 基于深度学习和 情感规则的网络舆情情感识别研究 情报学报,():,:():,:,:,:,:,:,:,:,:,:,:,:,():赵雪峰,吴伟伟,时辉凝 基于自然语言处理与深度学习的信用贷款评估模型 系统管理学报,():,():,():运 筹 与 管 理 年第 卷

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服