收藏 分销(赏)

基于知识引导的自适应序列强化学习模型_李迎港.pdf

上传人:自信****多点 文档编号:367977 上传时间:2023-09-06 格式:PDF 页数:12 大小:1.35MB
下载 相关 举报
基于知识引导的自适应序列强化学习模型_李迎港.pdf_第1页
第1页 / 共12页
基于知识引导的自适应序列强化学习模型_李迎港.pdf_第2页
第2页 / 共12页
基于知识引导的自适应序列强化学习模型_李迎港.pdf_第3页
第3页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 基于知识引导的自适应序列强化学习模型李迎港 童向荣摘 要 序列推荐可形式化为马尔科夫决策过程,进而转化为深度强化学习问题,其关键是从用户序列中挖掘关键信息,如偏好漂移、序列之间的依赖关系等,但当前大多数基于深度强化学习的推荐系统都是以固定序列长度作为模型输入受知识图谱的启发,文中设计基于知识引导的自适应序列强化学习模型首先,利用知识图谱的实体关系,从完整的用户反馈序列中截取部分序列作为漂移序列,其中漂移序列中的项目集合表示用户的当前偏好,序列长度表示用户的偏好变化速度然后,通过门控循环单元提取漂移序列中用户的偏好变化和项目之间的依赖关系,同时利用自注意力机制对关键的项目信息进行选择性关注最后

2、,设计复合奖励函数,包括折扣序列奖励和知识图谱奖励,用于缓解奖励稀疏的问题在 个真实世界数据集上的实验表明,文中模型的推荐准确率较优关键词 自适应序列,深度强化学习,知识图谱,自注意力机制,循环神经网络引用格式 李迎港,童向荣基于知识引导的自适应序列强化学习模型模式识别与人工智能,():中图法分类号 ,():收稿日期:;录用日期:,;,本文责任编委 吴 飞 国家自然科学基金项目(,)、山东省重大科技创新工程项目()资助 (,),()烟台大学 计算机与控制工程学院 烟台 ,第 卷 第 期模式识别与人工智能 年 月 随着互联网的高速发展,以及抖音、新浪微博等多元化互联网产品的兴起,互联网信息更新的

3、速度越来越快,用户可选择的信息也越来越丰富,用户的偏好也可能在短时间内急剧变化这就给推荐系统带来新的挑战:序列推荐系统必须及时捕获用户的当前偏好和序列模式如果仅利用协同过滤和矩阵分解等传统方法为用户推荐项目,那么将无法应对用户项反馈数据的自适应性问题以及长期推荐性能问题近来,深度强化学习(,)的兴起为顺序推荐系统带来新的解决方案:构建一个与用户交互的智能体,挖掘潜在有趣的项目基于 的推荐系统通过最大化累计奖励值优化长期性能,受到研究者的广泛关注,但目前仍存在一些问题亟待解决)基于 的顺序推荐系统大多采用固定的序列长度作为状态表示当用户偏好发生急剧变化时,无法对过往偏好的交互数据进行有效分割此外

4、,用户需要购买某个产品,可能仅仅由序列中个别关键的交互数据决定,但是当前的推荐系统无法识别这些关键的交互信息)奖励值的稀疏性在用户项反馈数据出现数据稀疏和冷启动问题时,一般采用随机策略探索用户的动态偏好,使推荐系统得到用户的正反馈较少传统方法仅使用正反馈作为奖励值,由于推荐智能体无法获得足够且有效的奖励值,不仅导致模型的训练时间增加,甚至可能导致推荐智能体无法收敛到一个合适的策略近年来,知识图谱(,)已在许多领域中表现出强大的适用性和可行性,也已广泛应用到序列推荐任务中 中两个不相关的商品在特征表示上存在本质的不同,通过商品的特征表示就能找到商品之间的关联性,从而向用户推荐关联性强的商品基于

5、的推荐系统可以分为两类:)基于 生成实体和商品特征,进而提高推荐系统的准确性;)基于显式路径推理的可解释推荐系统,利用 结构化信息生成推荐路径 等将 中实体和关系的结构化信息通过 得到实体的特征向量,扩充项目的结构化信息,与协同过滤结合,解决推荐结果多样性问题 等采用 生成 的实体和关系特征,设计内嵌键值对的循环神经网络模型,捕捉用户的序列偏好和用户属性偏好此外,一些研究人员将用户项二部图和 结合,生成协同知识图谱用于推荐系统 等定义用户物品知识图的概念,并采用 生成图中关系和节点的特征,提高推 荐 性 能 等提 出 (),采用图卷积和注意力机制的形式挖掘用户和项目之间的高阶连通性宁泽飞等借助

6、两种知识图谱强化用户的标签信息和项目的语义信息,同时利用图卷积神经网络捕捉知识图谱中的低、高阶连通性李想等利用知识图谱中实体之间的关系学习用户和项目的向量表示,缓解数据稀疏和冷启动的问题,提高推荐准确率上述基于 的推荐系统仅将推荐系统作为一个静态模型,不考虑项目带来的长短期收益序列推荐系统与用户交互得到的交互轨迹本身就是序列,因此序列推荐系统的问题可以由马尔科夫决策过程(,)描述,并利用深度强化学习优化解决基于 的推荐系统主要改进用户状态表示、设计奖励函数及添加额外的神经网络辅助深度强化学习网络训练 等设计图卷积神经网络的变体,由结构化的特征表示()中用户状态和动作,加强不同用户之间的潜在联系

7、 等在基于深度确定性策略梯度的推荐系统基础上,设计四种状态表示方法,提高推荐系统对商品序列的感知能力 等结合自监督学习和强化学习,提高监督端和强化学习端在缺乏负奖励环境下的推荐性能等采用多智能体强化学习方法,在不同推荐模块协助下训练全局最优的推荐模型 等借助 中的结构化信息,设计路径搜索的状态表示和奖励函数,使推荐系统具有显式的可解释性 等利用社交网络强调用户之间的信任关系,构建具有社交网络的用户状态表示,解决数据稀疏和冷启动问题王潇等从实时、静态、动态三方面建模深度强化学习状态表示模型,并用于排序直播推荐亓法欣等采用强化学习的方法提高用户对推荐系统的信任,设计关于信任的奖励函数,提高推荐系统

8、的推荐准确度上述工作虽然利用 信息和强化学习优化推荐效果,但是通过固定的用户反馈序列长度作为模型输入,因此限制推荐的准确率本文提出基于知识引导的自适应序列强化学习模型(,),将序列推荐任务转化,通过 信息引导状态表示和设置奖励函数当引导状态表示都使用 的特征信息时,容易产生对 信息过度依赖当 信息出现偏差第 期 李迎港等:基于知识引导的自适应序列强化学习模型时,推荐智能体不仅误判用户的偏好漂移而且生成错误的状态表示,扰乱推荐智能体的决策 因此 将引导和表示分离,仅在引导阶段利用 信息,再使用传统特征向量进行状态表示,避免 信息偏差对状态表示的影响另外,在奖励函数的设置上,传统方法通常以单步推荐

9、为指标,而单步推荐的奖励值无法提供后续推荐的反馈信息 因此 以多步推荐和 信息为指标,设置折扣参数,权衡当前推荐序列的奖励值,以此使推荐智能体快速得到用户的正反馈具体过程如下首先,利用 将完整用户项交互序列转化为自适应的漂移序列,再通过门控循环单元(,)从漂移序列中提取漂移状态,用于探索用户的偏好漂移同时,利用自注意力机制()为完整用户项交互序列中的项目调整相应权重,输出注意力状态,辅助模型区分数据中有益于推荐的信息漂移状态和注意力状态的结合能增强状态表示最后,借助 特征信息设计复合奖励函数该奖励函数分为折扣序列奖励和 奖励折扣序列奖励在当前推荐商品的基础上分析后续推荐效果,并将后续推荐效果作

10、为奖励值 奖励将推荐项目与目标项目的相似度作为奖励值二者分别通过深度和广度的探索方式为推荐智能体提供有效奖励,增加奖励的密度,加快训练收敛的速度基础知识定义 用户集和项目集 为用户集,任意用户;为项目集,用户在第 步选中的项目定义 用户交互序列 ,定义为用户项交互序列 ,定义为 的子序列,定义 特征向量 将用户集和项目集映射到低维的向量空间,表示项目 的特征向量,()表示序列 的特征向量矩阵此外,利用 将项目集和用户集映射到低维的知识向量空间,生成的结构化信息,表示项目 的 特征向量,()表示序列 的 特征向量矩阵在序列推荐任务中,对于每个用户,考虑用户项交互序列 和 信息,在项目集 中找出

11、最喜欢的项目,借此提高用户对于推荐系统的满意值序列推荐任务可转化为,并采用 解决 可以由(,)五元组表述,其中:定义为状态集合,用于描述用户和项目历史交互信息和 信息;表示智能体(推荐系统)动作集合,包含离散候选项目,表示智能体能够向用户推荐的项目;定义为奖励函数,(,)表示智能体在状态 时,执行动作 获得的立即奖励;表示状态转移概率函数,其中下一个时间步状态(,)表示智能体在状态 时,执行动作 到达下个时间步状态的概率;,表示折扣因子,权衡当前和未来奖励的重要程度基于知识引导的自适应序列强化学习模型模型概述 按照 构建任务模型在每一幕中,推荐智能体将在离散时间步长 ,中与目标用户顺序交互在每

12、个时间步 下,智能体会观测到一个状态 不仅包含用户项反馈序列信息,还添加 信息作为辅助信息用户根据相应策略()向目标用户执行一个动作,表示推荐智能体从项目集中选取一个项目推荐给用户;策略()表示为一个函数,即()()(),()其中,表示推荐项目 的特征向量,表示双线性乘积的可训练参数将推荐项目推荐给目标用户项目后,推荐智能体会接收用户是否点击或购买的反馈,间接转化为即时奖励,并观测下一个状态 通过历史反馈数据以及 信息,推荐智能体的目标是学习一个最优策略()该策略能获得最大的折扣累计奖励:()(,)()采用,在构建基于强化学习的模型时,关键的两点是设计状态表示和奖励函数状态表示用于建模目标用户

13、的所有历史交互特征,但是现有方法大多都关注如何从历史交互特征中构建综合偏好表示,而不是利用外部信息探索用户是否发生偏好漂移此外,奖励函数的本质是向推荐智能体传模式识别与人工智能()第 卷递训练目标,奖励函数设计的好坏直接影响到算法能否收敛,甚至会影响算法性能因此 通过 信息建模用户偏好漂移表示,并基于 信息设计复合奖励函数,减少历史交互数据中的噪声,进而提高推荐的准确率 基本框架如图 所示图 的基本框架 状态表示模块在真实序列推荐任务中,往往具有如下特点:)每个用户偏好漂移速度是不相同的,因此选定固定序列长度学习用户偏好表示是不实际的)用户购买某个商品,并不完全依赖整个序列,而是归因于序列中某

14、个或几个商品 和用户项交互序列如图所示()表示某用户观看电影的序列,随着时间的推移,该用户的偏好由 导演的喜剧片(第一阶段)转变为 主演的科幻片(第二阶段)在本例中,如果状态表示时采取的固定序列长度大于,基于 的推荐系统将无法脱离第一阶段,只能在第一阶段上继续探索()表示某用户购买商品的序列,该用户在购买电子产品期间也购买书籍和衣物等商品,基于 的推荐系统可能会受到这些信息的误导,导致推荐效果不佳状态表示时采用交互序列越大,状态中的噪音就会越多,导致推荐智能体无法关注有益于决策的关键项目()某用户观看电影序列()()某用户购买商品序列()图 知识图谱和用户项交互序列 因此,聚合漂移状态表示和注

15、意力状态表示,具体流程如图 所示首先利用 信息针对完整的用户项交互序列截取部分序列作为漂移序列,再将漂移序列和完整的用户项交互序列分别通过 和自注意力网络生成漂移状态和注意力状态表示,最后聚合两者,生成最终状态表示漂移序列能自适应调整序列的长度,解决用户之间偏好漂移速度不同的问题自注意力网络能捕捉序列中关键的项目信息,赋予关键的项目信息更高的权重图 中完整的状态表示模块 漂移状态表示对于漂移状态表示,首先借助 信息从完整的历史交互序列 中截取部分序列 作为自适应漂移序列采取标准的余弦相似度方法,设计两种截取方式确定 的位置第一种截取方式单独选取最近固定长度的序列项目,无法发现完整的用户偏好漂移

16、,因此借助 信息中的项目特征向量作为相似度度量,选取 中的不同子序列的项目特征向量均值 与最近交互序列 的项目特征向量均值 ,对比两者差异,选取值相似度最大的子序列作为漂移序列,具体公式如下:第 期 李迎港等:基于知识引导的自适应序列强化学习模型 ,),其中,、采用平均池化的方式,表示选取 中最后 个历史项目作为漂移序列的相似度度量第二种截取方式与第一种方式唯一不同之处在于 中的不同子序列选取第一个历史项目 与 进行对比,这样能够避免子序列中部分过时数据影响漂移的选择,减少序列之间的相关性,具体公式如下:,)基于上述原因,为了权衡两种方式在模型中的优劣之处,采用加权的方式,利用 ,控制两者的权

17、衡,即 ,()为了提取漂移序列中的序列性偏好,如图 所示,采用循环神经网络中的 进行编码:(,;),()其中,表示项目的内嵌向量,表示的可训练参数这里没有使用 信息中的内嵌向量,为了减少对 信息的过度依赖,从而构建用户的序列偏好注意力状态表示注意力机制已成功应用在计算机视觉、自然语言处理等多个领域在推荐任务中,注意力机制能有效地对历史反馈序列中重要的项目赋予更大的权重,使不同用户历史反馈序列中的相同项目拥有不同的权重注意力机制中存在一种特殊方法 自注意力机制自注意力机制对不同项目选择性关注的同时,能适用长序列捕捉历史反馈序列之间的依赖关系因此,如图所示,将自注意力机制应用到完整的历史反馈序列,

18、结合 信息,捕捉有益于个性化推荐的项目信息具体地,计算自注意力机制对不同项目信息的选择性关注:(),(),其中,分别表示和中可训练参数,()表示激活函数通过 和 非线性转换得到的 和 作为输入,输出注意力矩阵:,其中 表示特征向量的维度注意力矩阵 和 序列特征向量矩阵 相乘得到注意力加权矩阵:最后,采用均值的方式聚合 ,得到最终的注意力状态表示:()最终状态表示由 信息截取得到漂移序列,经过 生成漂移状态表示,同时利用完整的历史反馈序列通过自注意力机制生成注意力状态表示最终状态表示由漂移状态表示和注意力状态表示拼接而成:,其中,表示拼接算子,中以自适应子序列的方式个性化地为每位用户寻找各自的偏

19、好漂移程度,并通过 捕捉序列之间的相关性,中加入自注意力机制,克服循环神经网络中单向相关性,并赋予不同历史项目信息不同权重和 都结合 信息以构建状态表示,侧重于利用 信息探索偏好变化,而 利用 信息开发寻找历史反馈中重要的项目信息复合奖励函数奖励(,)用于估计智能体的推荐质量,如果仅仅以是否命中目标项目作为奖励,可能在数据稀疏和冷启动时会受到奖励稀疏的影响为了缓解此问题,将 信息作为评价推荐性能的指标具体来说,将奖励定义为(,)(,),()其中,表示用户真实交互的子序列,表示推荐智能体推荐的子序列,表示 的 序列特征向量矩阵,表示 的 序列特征向量矩阵类似多步时序差分算法,将 步推荐作为该状态

20、下的总体性能折扣序列奖励在序列推荐任务中,奖励函数不仅仅以单步推荐为指标,还需要多步序列的匹配程度作为衡量指标在这里借用 评价指标,能够准确评估预测序列的准确率但是在机器翻译中,序列中模式识别与人工智能()第 卷的信息都是等价的,并未考虑强化学习中折扣因 子 对 于 现 在 和 未 来 的 权 衡 基 于 此 改 进,即(,)(),其中,(,),(,),(,)表示 的子序列;(,)表示 在 中出现的次数;,表示以真实交互序列 为根据,为先后次序分配权重,在 中越靠前,分配的权重越大;表示子序列 的长度上限该方法不仅能增加奖励的密度,而且添加参数,考虑到推荐项目的重要程度和先后次序 奖励在 奖励

21、中,借助 信息关注推荐智能体推荐的项目与真实推荐项目的相似度当推荐的项目并不匹配真实推荐项目时,也能采用此方式估计推荐的质量具体定义如下给定 和 这 个 序列特征向量矩阵,通过平均加和的方式聚为综合特征 和 ,为了度量两者的相似度,依旧采用余弦相似度的方法,则(,)(,)作为 奖励,能够缓解奖励稀疏的问题训练方法和算法步骤为了充分训练,在相同状态下多次进行 步采样,采用蒙特卡洛强化学习算法建模 推荐智能体的目标是训练一个最优策略,采用截断策略梯度方法训练模型参数,在每个时间步 下多次采样 步子序列,使推荐智能体得到充分训练,即()()(),()其中表示第 次采样推荐的项目 步骤如下所示算法 初

22、始化 中参数,超参数,利用 获得 信息 ,根据式()生成漂移状态表示,根据式()生成注意力状态表示 生成当前状态表示 ,根据式()采样一条 步子序列 通过式()生成奖励 通过式()更新 中的网络参数,在算法中,每一幕的时间步下会生成当前的状态表示,推荐智能体通过逐步交互生成段序列,根据每个序列 生成当前序列的奖励,同时更新 中的网络参数实验及结果分析实验数据集及评估指标为了验证 的推荐性能、状态表示和复合奖励函数的有效性,采用 个亚马逊电子商务数据集(、数据集)和一个音乐数据集 作为验证对象数据集具体的统计信息如表 所示表 实验数据集的统计信息 名称用户项目用户反馈关系实体为了保证训练的可行性

23、,删除历史反馈序列小于 的用户和出现次数少于 的项目此外 需要通过 信息引导,因此在、数据集上通过 将项目和用户与实体连接,生成 特征在、数据集上按照 中第 期 李迎港等:基于知识引导的自适应序列强化学习模型 信息生成 特征在序列推荐任务中,需要根据时间戳对用户的历史记录进行排序,生成历史反馈序列,将历史反馈序列最后一项作为测试项目,其余数据和 信息作为输入信息从项目集上随机抽取 个目标用户未购买或未点击的负反馈项目,这些负反馈项目和测试项目组成候选项目集,推荐智能体需要对候选项目集中的项目进行排序本文采用命中率(,)和归一化折损累计增益(,)作为评价指标,对比序列推荐性能 表示测试项目是否在

24、推荐智能体推荐的前 个项目之中 着重考虑测试项目在前 个项目的具体位置,测试项目越靠前,值越大,推荐准确率越高对比模型和参数设置为了评价 的推荐性能,分别采用如下 种模型进行对比实验)基于 的模型,)序 列 推 荐 模 型(),()混合模型()借助 信息挖掘项目和用户的高阶连通信息,以端到端的方式实现关系建模同时采用基于路径推理和特征学习的方式建模 推荐模型 建模用户的自适应表示和购物篮中项目之间的顺序特征 基于循环神经网络,利用历史反馈序列构建用户的序列偏好为用户构建马尔科夫转移矩阵,结合个性化和序列信息 基于 和 信息建模用户序列偏好和用户属性偏好在每个数据集上,将训练集、验证集、测试集的

25、比例设为 ,采用个随机种子进行分割,并将测试平均值作为实验结果所有模型计算梯度的批数量设置为 ,统一采用()优化器进行优化对比模型采用验证集进行参数优化中神经网络节点数设置为,用户和项目的特征向量设置为,设置为,设置为,和 中 设置为 性能对比本节将 与基线模型进行对比,在 个数据集上的对比结果如图 所示()()()()图 各模型在 个数据集上的性能对比 由图 可观察到,无论在哪个数据集上,一直保持着最优的性能 和 都是基于序模式识别与人工智能()第 卷列和信息的混合模型,但是没有利用信息探索考虑用户偏好漂移,也没有利用自注意力机制着重开发有助于决策的重要信息总体来说,相比,在 数 据 集 上

26、,的 和 分别提高 和;在 数据集上,和 分别提高 和;在 数据集上,和 分别提高 和;在 数 据 集 上,和 分别提高 和 除了在 数据集上性能低于,基于的模型和 都优于序列推荐模型,这也间接验证引入 中实体之间的关系能够提高推荐的准确率在基于序列推荐模型中,性能均优于其它模型,由于借助 单元捕捉到用户反馈序列中序列之间的依赖关系和综合偏好,从而得到更优的推荐性能消融实验在中借助信息将状态表示分为两部分,包括用于探索的漂移状态和基于开发的注意力状态此外为了缓解奖励稀疏,设计复合函数,增加与用户交互过程中的奖励密度 在状态表示和奖励函数的设计中进行扩展为了验证扩展的有效性,本文开展多个消融实验

27、,设计如下多个 的变体 仅移除漂移序列,将完整用户反馈序列输入 单元内 仅移除自注意力机制,将 信息通过平均求和的方式获得状态信息 把推荐序列 命中真实序列 的个数作为奖励函数每个变体的组成部分如表 所示表 变体的结构信息 模型漂移状态 注意力状态 奖励函数 及三个变体在四个数据集上的 和 值如表 所示由表可看出,在 个数据集上取得最优表现移除漂移状态的 和移除注意力状态的取得较差结果在状态表示中没有变动的 和 均取得不错结果,表明合理利用 信息构建状态表示能够提高推荐性能 中移除自注意力机制,在各数据集上都表现最差,其主要原因是注意力单元的缺失降低序列信息中关键信息的选择性关注,也缺乏对长期

28、序列项目之间的依赖性表达,自注意机制能够更好地捕获反馈序列中重要的项目信息,从而得到更好的推荐性能 取消复合奖励函数的设计,性能却仅低于,虽然复合奖励函数并没有使模型推荐效果得到巨大提升,但是在收敛速度上快于 总之,中基于 信息的扩展均有利于提高推荐性能,由此验证模型中注意力机制和漂移序列的构建均发挥重要作用表 及其变体在 个数据集上的性能差异 模型 在奖励函数中设计复合奖励函数,包含折扣序列奖励和奖励两部分下面验证折扣序列奖励和 奖励能否加快的收敛速度及能否提高模型的推荐性能为此,设计两个额外的变体:,仅在奖励函数中移除折扣序列奖励;,仅在奖励函数中移除奖励、和在数据集上不同训练批次下的性能

29、对比如图 所示由图可见,以 为评价指标,的收敛速度和性能低于 和,这是因为 奖励为 和 提供更多的奖励密度,使推荐智能体不会盲目地随机探索,从而加快收敛速度和推荐效果以 为评价指标,前期 推荐效果优于,但在训练后期,已经不再依靠盲目探索,并且带有折扣的序列奖励会着重关注推荐的排名序列,使 的 值超过移除第 期 李迎港等:基于知识引导的自适应序列强化学习模型()()图 及其变体在 数据集上的性能对比 折扣序列奖励的 超参数分析漂移序列度量长度超参数 表示选取历史反馈序列最近交互的 个项目作为漂移序列的相似度度量,本节对比 ,以及移除漂移序列 对 性能的影响,实验结果如表 所示在表中,时移除漂移序

30、列,不以任何项目序列作为相似度指标,可看出相比 ,当 ,时,性能都具有较大提升,并且 时表现最优,仅在数据集上低于 时这是因为太小的 值可能使漂移序列中噪声的影响变大,然而 值越大会使噪声的影响越小,偏好漂移的特征也会变得平缓表 对 性能的影响 漂移序列的权衡参数节中采用加权的方式权衡两种子序列选取的策略,为了确定 的选取对于推荐效果的影响,选取 ,在数据集上进行实验,结果如图 所示()()图 对 性能的影响 由图 可观察到,当 时,的 和 值均最优,这是因为 节模式识别与人工智能()第 卷中第一种截取方式虽然能够扩大长度,但是过于大的长度使得漂移序列并不能准确表示用户的偏好变化,反而从完整的

31、用户项反馈序列中带来更多的噪声,影响智能体推荐的效果将移除漂移序列的 与 在 个数据集上进行实验,对比漂移序列和完整序列与下一个推荐成功项目的相似度,结果如图 所示图 漂移序列和完整序列与下一个推荐成功的项目相似度对比 由图 可知,在 数据集上,相比 中完整序列,漂移序列的相似度提高,在 数据集上,漂移序列的相似度提高,在数据集上,漂移序列的相似度提高,在 数据集上,漂移序列的相似度提高 实验结果表明漂移序列能够提高序列与下一个推荐成功项目的相似度,进一步验证相比完整序列,漂移序列能更好地捕捉用户的当前偏好,提高推荐的准确率结 束 语本文提出基于知识引导的自适应序列强化学习模型()借助 信息,

32、从完整的用户 项反馈序列中截取自适应的序列长度作为漂移序列,该序列反映用户的偏好变化及变化速度基于此,对推荐智能体做出如下扩展:首先利用 捕获漂移序列中当前偏好及项目之间的依赖关系,同时利用自注意力机制为完整用户项反馈序列中的关键项目分配更高的权重此外,为了加快模型的收敛速度,增加训练时奖励的覆盖范围,设计复合奖励函数,缓解奖励值稀疏的问题最后在 个数据集上进行实验评估,结果表明 性能较优,推荐准确率相对稳定今后可关注如何利用神经网络学习不同用户的偏好变化趋势,并将漂移序列应用到其它推荐领域,使漂移序列拥有更强的适用性参考文献 韩 爽,王 衡基于时间访问轨迹的文件的智能推荐软件学报,():(,

33、():)刘旭东,陈德人,王惠敏一种改进的协同过滤推荐算法武汉理工大学学报(信息与管理工程版),():(,(),():)邓爱林,朱扬勇,施伯乐基于项目评分预测的协同过滤推荐算法软件学报,():(,():),(),():童向荣,姜先旭,王莹洁,等信任网络形成及其在智能推荐中的应用研究进展小型微型计算机系统,():(,():)刘 全,翟建伟,章宗长,等深度强化学习综述计算机学报,():(,():),:,:,:,():,:,:,第 期 李迎港等:基于知识引导的自适应序列强化学习模型 ,:,:,:,:,:,:,:,:,:,:,:秦 川,祝恒书,庄福振,等基于知识图谱的推荐系统研究综述中国科学(信息科学)

34、,():(,(),():),:,:,:,:,:,:,:,:,:,:,:,:宁泽飞,孙静宇,王欣娟基于知识图谱和标签感知的推荐算法计算机科学,():(,():)李 想,杨兴耀,于 炯,等基于知识图谱卷积网络的双端推荐算法计算机科学与探索,():(,():),:,:,:,:,:,:,:,():王 潇,刘红岩,车尚锟一种基于深度强化学习的直播推荐方法信息系统学报,():(,():)亓法欣,童向荣,于 雷基于强化学习 的智能体信任增强计算机研究与发展,():(,():),:,:,:,:,:,:,():,:模式识别与人工智能()第 卷 ,:,:,:,:,:,:,:,:作者简介李迎港,硕士研究生,主要研究

35、方向为深度强化学习、推荐系统:(,)童向荣(通信作者),博士,教授,主要研究方向为计算机科学、智能信息处理、社交网络:(),)“视频行为检测与识别”专题征文通知视频行为检测与识别是视频理解领域近年来的研究热点,该技术对视频图像中多种复杂环境下的人体行为进行智能分析,是新数字经济时代的重要支撑技术之一,具有重大的科研、社会以及经济价值,具备广泛的应用场景。与图像检测与识别技术已经相当成熟不同,视频行为检测与识别技术正处于发展阶段,还面临着诸多挑战,在跨模态、跨视角、复杂行为情况下的行为精细理解还有较大的研究空间。为了促进我国视频行为检测与识别技术研究的深入开展,及时反映我国学者在相关领域的最新研究进展,模式识别与人工智能拟集中出版视频行为检测与识别技术领域具有创新性、突破性的文章,诚挚欢迎学术界广大科研人员踊跃投稿。一、专题投稿范围(包括但不限于)多模态视频行为识别方法 视频时空行为检测方法小样本条件下的视频行为识别方法 视频行为检测与识别模型的可解释性半监督 全监督的视频行为识别方法 视频行为检测与识别中的对抗攻击与防御视频时序行为检测方法(下转 页)第 期 李迎港等:基于知识引导的自适应序列强化学习模型

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 医学/化学论文

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服