收藏 分销(赏)

机器学习在搜索排序中的应用.pptx

上传人:xrp****65 文档编号:13157388 上传时间:2026-01-27 格式:PPTX 页数:32 大小:3.18MB 下载积分:10 金币
下载 相关 举报
机器学习在搜索排序中的应用.pptx_第1页
第1页 / 共32页
机器学习在搜索排序中的应用.pptx_第2页
第2页 / 共32页


点击查看更多>>
资源描述
机器学习,在搜索排序中的应用,一淘及搜索事业部,-,搜索技术 仁,重,agenda,背景,LTR,方法,评估,并行化与多目标,LTR,在淘宝搜索应用的背景,第一部分,背景,背景,用户输入,Query,引擎召回商品,商品计算,feature,Rank,项目背景,-,特征,相关性,购买转化率(,GDBT,),点击,转化率(,LR,),二跳率(,LR,),反作弊,商业业务逻辑,预估模型,规则,个性化(,LR,、,GDBT,),图片质量(,SVM,),f(X)=w,1,*x,1,+w,2,*x,2,+,w,3,*x,3,+,w,4,*x,4,+,w,5,*x,5,+,w,6,*x,6,+,=,通过线性模型来组合非线性的特征,计算效率高,可,解释性好,背景问题,如何确定,各个特征的权重,W,能否不同的类目给出不同的权重,W,如何为新加入的特征设置权重,W,如何在不同的系统中快速的迁移特征,之前,用,ABTest,,现在使用,LTR,Learning,To Rank,,使用机器学习的方法来进行排序优化。,LTR,应用的方法,第三部分,方法,转化为,pairwise,问题,把整体的排序问题转换为商品对好坏问题,两,个商品哪个更好,Ctr,Cvr,价格,VS,优化目标与样本,样本选择,人工标注,(,工作量巨大,),商品,Ctr,商品转化率,详情页浏览时间,论文中使用的样本选择,样本选择,单,次,pv,点击位置,Click,Skip,Above,Last Click Skip,Above,Click Earlier,Click,Last Click Skip,Previous,Click No-Click,Next,f,A,f,B,f,C,f,D,f,E,f,A,=w*x,A,f,B,=w*x,B,f,C,=w*x,C,f,D,=w*x,D,f,E,=w*x,E,整体统计,ctr,样本选择,A Ctr,:,1,C Ctr,:,0.1,B Ctr,:,0.5,D Ctr,:,0.1,E Ctr,:,0.6,A E B C=D,A E,A B,A C,A D,E,B,E,C,E,D,B C,B D,相同,Query,统计商品,ctr,来生成,pair,c,tr,差值需要有一定置信度,没有位置信息,相同,query,ctr,单次,PV,样本选择,B,整体,Ctr:0.5,A,整体,Ctr:1,C,整体,Ctr:0.1,D,整体,Ctr:0.1,E,整体,Ctr:0.6,A E,A B,A C,A D,E,B,E,C,E,D,B C,B D,计算特征值需要还原到单,次,PV,下具体的用户以及当前环境,通过规则过滤掉其中的噪音,购买,点击,无行为,B,产生了购买行为,,D,产生了点击行为,优化目标与样本,避免样本选取的偏差,Pvlog,特征分布,(,人气,卖家,文本,)100,亿数据,训练样本分布,(,人气,卖家,文本,),千万训练样本,样本特征分析,特征分布不好的特征进行改进,对分布不合理的特征样本进行按比例抽样,样本特征分析,特征与目标值的关系,相关性差,相关性好,无点击样本选择,保持权重的一定程度稳定性,无点击数据,在现有排序下,对,Topquery,没有点击的数据,前,3,0,与后,3,0,形成,pair,,随机抽取,按不同比例混合无点击与,Ctr,样本,约,50%,的无点击样本,无点击样本训练后的权重,反映线上使用权重,w,模型优化,调整无点击与有点击比例,调整,抽样,策略,对特征值进行改进,分类目的模型,Query,类目预测结果的行业区分训练数据,手机类目的价格权重高于其他类目,RankSVM,模型(一),RankSVM,训练数据,RankSVM,模型,(二),A:1 qid:x f,A1,f,A2,f,A3,f,A4,B:0 qid:x f,B1,f,B2,f,B3,f,B4,f(x,),=,w,1,*(f,A1,-,f,B1,)+w,2,*(f,A2,-f,B2,)+w,3,*(f,A3,-f,B3,)+,x,1,=,f,A1,-f,B1,x,2,=,(产生,loss,),RankSVM,模型,Loss,:,(无约束),Loss,:,St:,对于一个,query,只有,1,个,pair,的情况:,RankSVM,模型,given w,0,f,or k=0,1,If,stop.,Set up I,Solve,0,obtain,Let,Find,RankSVM,模型,对于一个,query,有多个,pair,的情况,:,A:1 qid:x f,A1,f,A2,f,A3,f,A4,B:0 qid:x f,B1,f,B2,f,B3,f,B4,C:1,qid:x,f,C,1,f,C2,f,C3,f,C4,Loss,:,A=00 1,00-,1 00,labels,不可导,使用,TRON,方法求解,模型评估与效果评估,第三部分,【,评估,】,模型评估,baseline,按线上参数计算,pair,准确率,按模型参数计算,pair,准确率,Abtest,验证,收益,评估,模拟,rank,逻辑对,Pvlog,进行重排,Rank,对每个商品进行打分,重排,计算,CNDCG,收益,全局计算目标收益,交易的商品相关性为,2,(价格),点击的商品相关性为,1,DCGi=DCGi-1+,Gi/,CNDCG,收益与线上收益的比例通过,abtest,获得,找出,CNDCG,差异的,case,模型迭代,Pv log,按线上参数排序,按训练好的模型进行排序,CNDCG,CNDCG,NDCG,收益,样本混合比例调整,模型训练,样本选择策略调整,NDCG,差异,query,分析,抽样,策略调整,并行化与多目标,第四部分 模型优化,并行化(一),需要解决的问题,内存问题,训练时间过长,两种基于,MPI,的,方法,行列分割的并行,SVM,行分割的并行,Coordinate,A,scent,算法,,用于求解,NDCG,为目标值的样本,并行化(二),行列分割的并行的,SVM,算法,行分割,+,列分割:目标函数值求解、梯度函数求解,,搜索,最优解,Set up I,Solve,0,obtain,Let,Find,优点:,行分割:对样本进行了拆分缩小了单个节点的计算规模,列分割:每个节点只保存部分全局向量(长度与特征数量相同),减少内存开销;内积操作被拆分,提高计算速度,多目标(二),需要解决的问题,现实应用中,需要同时解两个目标问题,例如:,CTR,、,客单价,方法,Multi-loss Pair-wise Learning,再,ctr,样本的基础上,再加上价格的,label,基于目标函数中,,loss,函数进行改造,使其兼容多种目标。,多目标(二),A:1,0,qid:x,f,A1,f,A2,f,A3,f,A4,B:0,1,qid:x,f,B1,f,B2,f,B3,f,B4,y=1,y=-1,Loss,:,St:,Q&A,Never try,,,never know,曾翔,-,仁重,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服