动态定价在线上销售模式中的研究.pdf

资源描述

1、收稿日期：作者简介：吴锦超（），男，上海人，上海交通大学安泰经济与管理学院研究生在读，主要研究方向：技术创新；顾孟迪（）（通信作者），男，江苏常州人，教授，博士，研究方向：决策理论与方法。文章编号：（）动态定价在线上销售模式中的研究吴锦超顾孟迪（上海交通大学安泰经济与管理学院，上海）摘要：随着传统电商行业与电商衍生行业（例如直播带货、跨境电商等）的不断发展，企业对线上销售的收入管理问题也更为重视。通过数值仿真的方式，从动态定价的角度对收入管理问题进行研究，探索如何制定定价策略使得零售商在一定的销售周期内获得尽可能高的累计收入。将强化学习中的汤普森采样算法进行迁移与应用，并将仿真结果与两种常

2、见的启发式算法进行对比。在原基础上进行预先的用户聚类，验证了所提方案对于累计收入的提升，并进行了方案的可行性分析。关键词：收入管理；线上销售；动态定价；汤普森采样；聚类分析中图分类号：文献标志码：犠犝犑犻狀犮犺犪狅犌犝犕犲狀犵犱犻（，）：（，），：；引言由于受年席卷全球的疫情影响，人们更接受以线上的行为方式代替线下，例如在线办公、在线教育、在线会议等，这对于发展成熟的线上销售模式也是一种较大的利好。以此为契机，线上销售模式下的问题再次成为研究的热点。从实践意义的角度，全新的线上销售的衍生模式处于不断探索与发展中，例如利用视频直播导流与粉丝经济的直播带货模式，以及对于海

3、购服务不断探索的跨境电商模式。在线上销售模式的发展与演变过程中，如何切实地提升厂商所获得的收益尤为值得关注。本文基于线上销售的场景，解决的是在给定的销售周期内厂商应该如何规划定价方案来获得预期较高的累计收入的问题。在定价方案的制定上主要利用了动态定价的手段充分地挖掘用户的消费者剩余，而在方案的实现上则是利用了机器学习的方式，将在多臂赌博机问题中得到广泛应用的汤普森采样上海管理科学第卷第期年月算法迁移到了动态定价问题上。在该基础上对用户群体进行了分群研究，期望针对不同消费能力的用户制定出不同的价格以最大化消费者剩余。在制定了定价方案后，又对于方案整体的落地可行性进行了进一步研究与分析。

4、文献综述收入管理问题收入管理问题最早起源于航空业，其主要解决的是：针对具有易逝品性质的飞机票，如何在不确定的需求下实现收益最大化的问题。从更宽泛的角度，收入管理问题解决的是：如何在适当的时刻，将适当的产品以适当的价格卖给适当的用户。传统的收入管理问题主要是根据历史数据推断出需求函数的分布，再在该需求函数的基础上进行最优化问题的求解。但其主要存在的问题是：需求函数反映的是历史的需求，而收入管理问题面向的是未来的可能需求，因而在时间拓展性上可能存在估计误差。而解决该问题所提出的方法为需求学习，即假设需求函数的形式可以从历史数据中推断出来，但包含未知参数，并利用销售的新数据不断对参数与函数的分布进

5、行更新。对于越来越成熟的线上零售行业，随着数据实时获取能力的提升，需求学习方法对于需求函数的估计问题可以实现更高频的迭代。动态定价在收入管理领域的应用作为收入管理的重要实现方式，动态定价也被广泛采用。动态定价最初来源于经济学中的价格歧视原理，即同一件产品针对不同消费者制定不同的价格，通过挖掘消费者剩余以增加收入。随着经济社会的发展，动态定价的内容也在不断地拓展，包括相同产品在不同的市场需求下的定价不同，相同产品在不同库存水平下的定价不同等。和认为动态定价得到广泛应用的原因有：）线上行为产生更多的用户行为数据，可以更好地辅助决策；）价格调整的菜单成本在不断降低；）更多的算法与模型得到应用，从而

6、更高效地实现策略。动态定价在零售业中的应用已经有部分文献针对动态定价在零售业中的应用进行研究。和验证了针对随机需求的最优化定价问题可以通过方程求解，但在实际应用时的效果有限。与对考虑库存的零售问题的动态定价进行研究，并按照三个维度划分问题：）是否可以补货（）；）需求是否随时间变化（）；）用户是否短视（）。和针对动态定价在电子商务中的应用优势进行研究。和则是引入汤普森采样算法分析了带库存约束的收益管理问题并进行后悔值上界的求解。本文所使用的研究方法参考了针对电子商务领域的研究与和提出的将汤普森采样算法迁移至动态定价领域的思想，并在原先研究的基础上，对用户群体预先进行

7、分群，从而对不同消费能力的用户制定不同的价格以最大化收益。在制定了定价方案后，又对方案的落地能力与可行性进行了分析。理论分析汤普森采样算法在针对多摇臂赌博机问题的研究中，汤普森于年提出了一种基于贝叶斯理论的算法，被称为汤普森采样算法（）。尽管比较早期就已经提出，但是由于其缺乏后悔值上界的理论证明，与后验分布的反复更新对于计算能力的高要求，而一直未被广泛采用。直到若干篇文献提出，对于多摇臂赌博机问题可以采用汤普森抽样算法进行决策，并与其他的、算法等相比，汤普森抽样算法在模拟实验中有着更低的后悔值，之后才被较为广泛地接受与使用。汤普森采样的原理是基于贝塔分布，贝塔分布包含两个参数，一般写作犡

8、犅犲狋犪（，）。贝塔分布可以理解为事件的概率分布，当事先不了解随机事件的概率分布时，通过确定合适的参数，该分布可以给出所有事件出现的概率。汤普森采样算法在经典问题中的应用汤普森采样算法针对多摇臂赌博机问题具有较为成熟的理论研究。多摇臂赌博机问题的描述：赌博机有犓个摇臂，在用户选择某个摇臂后，赌博机有一定概率吐出一枚硬币，该概率的数值未知，并且不同摇臂之间的概率值不相等。该优化问题是使得用户摇动犖次摇臂之后，得到的累计硬币数量尽可能多。参数假设：决策阶段狀，犖；摇臂犽，犓；摇臂犽在决策阶段狀的累计执行成功次数为犽（狀）；摇臂犽在决策阶段狀的累计执行失败次数为犽（狀）；摇臂犽在决策阶段狀的采

9、样值为犽（狀）。步骤）：对每个摇臂犽，令犽（），犽（）。步骤）：在每个决策阶段狀下，根据分布犅犲狋犪上海管理科学第卷第期年月（犽（狀），犽（狀）进行犓次采样犽（狀）。步骤）：在每个决策阶段狀下，所选择的摇臂犪（狀）（犽（狀），并记录回报值狉狀。步骤）：若狉狀，则犪（狀）（狀）犪（狀）（狀）；若狉狀，则犪（狀）（狀）犪（狀）（狀）。步骤）：循环步骤）至步骤），直至达到最大决策阶段犖。与已经证明，通过汤普森采样算法解决多摇臂赌博机问题时后悔值的上界满足公式犈犚（犖）（）犓犽犖犇（犽）犽犗（犓），并给出了该问题的上界为犈犚（犖）犗（犓犖槡犖）。问题描述与建模问

10、题描述本文所分析的是线上零售的业务场景：在一个给定的销售季度内，零售商通过调整产品的定价与分析用户画像来最大化该销售季度的总收入。在建模过程中，将一个销售季度拆分成犜个阶段，并假设在每个阶段零售商销售犖件产品。在产品价格上，假设存在犓个定价分别为狆，狆，狆犽，其中狆犽是一个长度为犖的向量，用来表示所有产品的某种定价策略。具体而言，对于产品犻，有狆犽（狆犽，狆犽，狆犖犽），其中狆犻犽是该策略下对产品犻的定价。根据动态定价的文献，还引入了价格上限狆，表示在该价格下用户完全没有购买产品的需求。记犘（狋）（犘（狋），犘（狋），犘犖（狋）表示零售商在某一个阶段采取的价格，并且满足犘（狋）狆，狆，狆犽

11、，狆。用户则是在每个阶段根据零售商的产品价格做出相应的购买决策，记犇（狋）（犇（狋），犇（狋），犇犖（狋）表示用户在某一个阶段的产品需求量。假定对于给定的犘（狋）狆犽，需求犇（狋）是根据累积分布函数犉（狓，狓，狓狀；狆犽，）形成的概率分布的采样值，其中为未知参数，体现需求分布的类型已知但参数未知。根据用户画像，可以通过该季度前的用户消费数据，将用户聚类成犕个大类。对于不同类型的用户群体，假定其需求函数的分布相同但是未知参数不同，记（，犕），并且利用价格歧视对每个类型的用户分别进行定价，从而最大化该季度下每个产品在每个用户群体中的总收入。问题类比可以将该场景下的零售商的动态定价问题与传统的多摇臂

12、赌博机问题进行类比，其中零售商对于每类客户的每个产品的价格簇对应于摇臂，相应的收入则对应于摇动摇臂后的奖励。在该场景下，零售商可以先根据用户的历史数据对用户进行聚类并勾勒出不同的用户画像。根据用户画像，可以参考用户对于产品的不同偏好，并采取不同的策略对产品进行定价，总收入则是不同类型用户群体的收入之和，记犚犕犿犚犕犿，并且不同群体的用户对应于不同的未知参数（，犕）。对于每一个群体的收入最大化问题，可以采用汤普森采样在多摇臂赌博机问题中的应用来进行建模。问题建模先根据用户在目标季度前的行为数据对用户群体进行聚类分析，再对每一类用户采用如下的最优化模型进行求解。对目标季度内的每一个阶段进行如下步

13、骤（狋，犜）：步骤）：根据历史数据确定未知参数（狋）的分布情况（狋）。步骤）：在每个决策阶段狋下，根据相应分布对未知参数（狋）进行采样。步骤）：对每种定价狆犽，根据其历史数据确定产品需求与定价间关系的函数分布类型犉（狓，狓，狓狀；狆犽，），代入（狋）的采样值后，计算产品的平均需求犱犽。步骤）：在每个决策阶段狋，求解如下的最优化问题，其中狓犽表示最终价格是给定犓个价格的线性组合的形式：犔犘（犱（狋）：犓犽（犖犻狆犻犽犱犻犽（狋）狓犽犓犽狓犽狓犽，犽犓步骤）：增加当前阶段需求的实际值，并更新参数（狋）的分布情况（狋）。步骤）：循环步骤）至步骤），直至达到最大决策阶段犜

14、。记狓（狋）（狓（狋），狓（狋），狓犓（狋）表示该优化问题不同阶段的一系列最优解，而每阶段的产品价格犘（狋）狆犽狓犽（狋），并以概率狓（狋）犓犽狓犽（狋）选择犘（狋）狆。为了解释在动态定价场景下探索与利用困境，可以考虑以下简化场景：对某一类型的用户，在某个上海管理科学第卷第期年月阶段，假定采取狆的定价策略在需求函数的先验分布下可以获得最高的预期收益，那采取贪婪策略的零售商会以概率为采取狆的定价策略。但是该做法是在预测的前提下可以获得最高的收益，但是无法保证在真实的情况下同样能够获得最高的收益，从而引出了探索利用困境的问题，即零售商应该通过何种定价策略，在充分利用当前最优价格的情形下（

15、对应于利用阶段），对于非当前最优的价格进行探索实践（对应于探索阶段），从而在平衡利用与探索的过程中进行更优的定价决策。数值仿真数值案例下面将围绕一个零售商销售商品的定价策略的具体数值案例，分析汤普森采样算法在动态定价中的应用效果。为了简单起见，考虑零售商在一个销售周期内只能销售一种产品，零售商定价方案的集合是已经预先决策的，并且不考虑定价方案间的线性组合。为了对汤普森采样的结果进行进一步分析，还引入了两种常见的贪婪算法进行对比。在数值案例中，假定零售商在一整个销售周期内只销售一种产品，并根据产品在市场上的历史表现与目标客户的群体画像，预先制定了定价方案。零售商对于产品在不同价格下的需求函数的

16、类型是已知的，其场景对应的是零售商针对一款具体的产品对用户进行定价并投放。因为用户的选择可以简化为购买或不购买，所以对于需求函数采用的是二项分布，而二项分布参数的含义则是用户采取购买行为的概率，也可以理解为用户期望需求的大小。其流程是针对同类型的用户，按照先后顺序分别对不同的用户制定不同的价格，以实现获得的期望总收入最高。其中，价格的集合为￥，￥，￥，￥，理论平均需求为犱（￥），犱（￥），犱（￥），犱（￥）。该需求的参数对应的是理论值，在不断变化定价并观察用户反馈的过程中，一步步地对理论值的大小进行预测，从而使预测值更为接近理论值。仿真涉及的相关算法在数值检验中采用的三种算法如下：

17、朴素贪婪算法：属于该问题下的贪婪算法中的一种，在此次数值模拟中该算法也作为所有算法的基准。该算法将销售周期切分成两个部分，在第一个周期内全部进行探索，在第二个周期内直接根据之前累计收益最高的定价方案进行应用。这就是被称为朴素的原因，也使该算法在现实场景下经常被使用。贪婪算法：基于朴素贪婪算法进行调整，希望对于探索与利用阶段的划分进行平衡。其先在（，）之间选择一个较小的数值作为，每个决策阶段是：以的概率进行探索，即在所有价格方案中随机挑选出一个价格；以（）的概率进行利用，即选择截至当前平均收益最大的价格方案。该算法在基准贪婪算法的基础上，进行了探索与利用阶段的划分。汤普森采样算法：按照中的建模

18、过程，在每一位新增用户进行购买选择之后，会对所有定价下的期望需求值进行预测，并且挑选出价格与期望需求乘积最大的定价方案，并对下一位用户采用该定价方案。仿真结果的分析数值仿真的结果见图，其中第一根线代表的是汤普森采样算法，第二根线代表的是贪婪算法，第三根线代表的是朴素贪婪算法。在参数制定方面，对贪婪算法将的数值定为，对朴素贪婪算法将前的周期数用于探索阶段并且在各个价格方案间平分总次数，将后的周期数用于利用阶段。图三种算法的不同定价策略的数值仿真结果其中，图的横轴代表不同的周期数，并在作图阶段进行了对数处理。图的纵轴代表了不同方案的收益占理论最大收益的百分比，在该问题的数据下，单个用户在不同价

19、格下的理论收益等于价格与对应期望收益的乘积，具体的数值为集合￥，￥，￥，￥，取最大值￥，其代表理论情况下的最佳方案是对所有用户都采用￥的定价，而其所对应的理论最大收益则是其与周期总数的乘积，为犜。而纵轴的数值则代表了每个方案的收益占理论最大收益犜的百分比。为了降低数值计算过程中的随机性，在具体方案收益的计算中选取的是相应条件下次取值的平均值。分析图可以得到以下结论：）在最终的累计上海管理科学第卷第期年月收益上，汤普森采样算法优于贪婪算法、朴素贪婪算法，并且汤普森采样算法在各个周期数下都具有明显的优势。）不同算法的累计收益均是随着周期数的增加而递增的，但是其边际增长不断降低。）对

20、汤普森采样算法的表现进行具体的分析，当周期数为时，其预期收益占理论最大收益的百分比已经达到；当周期数为时，其占比达到了；当周期数为时，其占比已经高达，已经非常接近于理论最大收益，可以作为理论最大收益的一种有效的近似计算方式。预先对用户群体进行划分根据仿真的结果可知，汤普森算法相较于其他贪婪算法在最终的效果上有显著的优势。在采用汤普森算法之前，同样可以根据用户在目标季度前的行为数据对用户群体进行聚类分析，再对每一类用户进行单独求解，并对于每一类型的用户制定不同的定价策略，从而利用价格歧视的方式为零售商获得更高的总收入。考虑为购买力更强的用户制定出更高的定价策略方案。假定可以通过用户的历史行

21、为数据将用户分成低端用户、中端用户、高端用户三类，并且类型占比分别为、。简单起见，不再新增其他的价格方案，仍旧沿用原先的定价策略集合￥，￥，￥，￥，但是对在每个价格下的理论平均需求的大小进行调整，具体数值见表。表不同类型用户在不同定价下的理论平均需求的数值用户定价（￥）低端用户（占比为）中端用户（占比为）高端用户（占比为）按占比加权后的全部用户数值的设定需要满足按照不同类型用户的权重加权后的用户总体需求与原先的设定保持一致，即对于用户总体的理论平均需求的大小满足犱（￥），犱（￥），犱（￥），犱（￥）。而在算法的选择上，直接采取效果较优的汤普森采

22、样算法对于不同用户类型各自按照上节中的数值仿真方式预测其收益，具体的数值仿真结果见图与图。图与图中横坐标均是周期数的对数值，不同的是各自的纵坐标。图的纵坐标是不同类型用户的预期收益占其各自理论最大收益的百分比，因而均小于；图的纵坐标则为了之后的累加操作而进行了基数的调整，其代表的是不同类型用户的预期收益占原先用户总体理论最大收益的百分比，考虑到中端与高端用户的消费能力更强，其相应的理论最大收益均高于原先用户总体的理论最大收益，因而其纵坐标取值会大于。图用户分群后的预期收益情况图用户分群后的预期收益情况（调整基数后）根据图中调整基数后的低端用户、中端用户与高端用户的预期收益占比，按照其相应的

23、权重，进行加权累加后，作为聚类方式下用户总体的预期总收益，并将其与原先的用户总体的预期总收益进行对比，结果见图。从图中可以发现聚类后用户总体的预期总收益均高于聚类前的结果，增加幅度达到了以上，因而可以部分验证厂商根据历史行为数据对用户进行分类后的预期收益会显著更高。图聚类前后用户总体的预期总收益对比落地性分析在方案的落地性分析中聚焦于两点：）如何让用户在价格歧视下，降低对于价格的感知能力；）如何在现实应用中实现多次定价。针对问题一，目前行业内的做法主要是在产品上海管理科学第卷第期年月的统一原始价格上进行价格的再次包装，从而降低用户对于产品价格的感知能力。包装价格的手段有随机抽取优惠

24、券、完成任务获得额外补贴等形式。具体分析数值案例中产品的阶梯定价有￥，￥，￥，￥，而可以采用的手段则是将产品的原始价格定为￥，再分别设立折、折、折、折的优惠券供用户随机抽取，从而实现阶梯定价的目的。在该场景下，这样就可以更好地让用户接受同一产品不同定价的设定。针对问题二，因为模型的效果显然是随着调价次数的增加而更优的，但是考虑到在一个销售周期内不能让用户经历多次的价格变化，例如数值案例中上千次的定价调整，解决的方法则是针对用户群体采取分批逐次定价：假设用户总数为犕，定价调整总次数为犆，用户可接受的价格调整次数为狇。在该情形下可以将用户群体拆分成若干组，总组数为犆狇，每组的用户人数为犕狇犆。逐

25、次的策略则体现在，对每组用户依次进行定价，并根据之前组中用户的决策再进行需求函数的更新，从而实现了较多定价变化次数下方案的可落地性。结论与展望本文具体分析了在有限的销售周期内基于动态定价的收入管理问题，其解决的问题场景是：使得零售商在该销售周期内获得尽可能高的累计收入。为了更贴近现实场景，假定了零售商在销售周期开始之前并不知晓各个价格下的用户平均需求，但可以通过用户群体的历史购买行为得到包含未知参数的需求函数的分布。本文的主要贡献在于迁移应用了汤普森采样算法，通过动态定价的方式设计了一套定价策略以帮助零售商实现更高的累计收入，在该基础上采取了预先的用户聚类，并提出了方案的落地方式。在数值仿真的

26、过程中，采用汤普森采样算法的预期总收入好于传统的启发式算法，展现了以汤普森采样为代表的机器学习算法在收入管理领域中的应用价值，并且采取预先用户聚类的方案也显著好于原方案。根据本文的算法所提出的定价策略是：在每一个单位定价周期内，通过算法选择出随机数的最大值所对应的候选项作为该阶段的定价，并更新该候选项的贝塔分布。循环给定次数之后，完成该优化问题的完整定价策略。而在策略的可落地性上，可以采用包装后的价格歧视方案来降低用户的价格感知能力，并且对于用户群体采取分批逐次定价的方式更好地实现了价格的多次调整。对未来的工作还存在一些可以继续深入研究的方向：其一是进一步针对用户群体划分的准确度与最终预期总收入之间的定量关系；其二是进一步考虑情境关系下的汤普森采样算法（）在收入管理问题上的应用，并与传统的汤普森采样算法进行对比分析；其三是与零售商合作进行实证研究，进一步探索该策略在实际场景下的有效性。参考文献：，：，（）：，：，（）：，?，：，（）：，：，：，（）：，（）：?：，（）：，：，（）何斯迈，金羽佳，王华，等在线学习方法综述：汤普森抽样和其他方法运筹学学报，（）：上海管理科学第卷第期年月

展开阅读全文