资源描述
数据分析:结构比率归因、量化异常分
析
我们来看下面一个场景,表一是2020和2021年不同用户群体的用户数,以及 对应群体的付费率。
表二是2020年和2021年总体的付费率下降了 2.8%0想问一下,我们通过表
一如何分析原因?
付费率=付费人数/总人数
表一:
召回用户
4
6
召回用户付
20%
17%
新注册用户数 活跃用户数
2020年 4 92
2021 年 6 188
新注册付费率 活跃用户付费率
2020年 14% 21%
2021 年 16% 18%
表二:
用户数
安卓
1600
付费用户 120
数
付费率
7.5%
IOS
3500
100
2.9%
汇总
5100
220
安卓
8000
500
6.3%
IOS
2000
40
2.0%
从表十一我们很快得到表十二的数据。
表十二:
安卓
2020 1600
2021 8000
比率 安卓付费率
2020 7.5%
2021 6.3%
差异 -1.2%
结构 安卓占比
2020 31.4%
2021 80.0%
差异 48.6%
安卓
比率变动 -0.7%
结构变动 3.4%
总变动 1.1%
结论:从表十二,我们可以看出主要是由于安卓的占比上升导致整个付费率的上 升。
写在最后:感谢怡然同学的合作和支持。
整体付费率 差异
2020年 20.7%
2021 年 17.9% -2.8%
一.付费率下降原因定位
1 .结构占比变化
由上表一我们可以算出来各个用户群体,在2020年和2021年结构的占比,以
及占比的变化:
表三:
2 .比率——付费率变化
由上表一我们又可以算出来各个用户群体在2020年和2021年付费率的变化:
新注册付费率 活跃用户付费率 召回用户付
2020年 14% 21% 20%
2021 年 16% 18% 17%
差异 2% -3% -3%
3 .整体付费率变化的贡献值
通过表三和表四,我们可以得到各个群体比率变动和结构变动对于整体付费率变 化的影响大小,见表五:
表五:
召回月
-0.11
-0.19
新注用户 活跃用户
比率变动影响 0.07% -2.79%
结构变动影响 -0.15% 039%
总的付费率变动
=0.07%+(-2.79%) + (-0.11%)+(-0.15%)+0.39%+(-0.19%) = -2.8%o
与上面表二的结果是一样的。
4 .结果解读
通过表五得出来的结果,我们可以看到总体付费率的变化是由于活跃用户付费率 的下降,导致了整体付费率的下降。
那么,我们是如何得到表五的数据呢?
二、分析——结构比率问题
接下来是一段长文推导,如有不适,忍着看完,进行思考。
假设各群体的占比和付费率如下:
表六:
活跃.
召回+
新注+
2020。
用户数占比,
吟
2021.
用户数占比,
1¥;.
明.
差值。
W;--.
W
2020 q
付费率。
AB^。
AB2。
2021.
付费率.
AB;,
限Q
•' A S ; /
差值.
AB[ - AB1.
48) — "
AB
每一局部(群体)变动的计算:
比率(付费率)变动影响:公式lo
W[ + %
2%舄亘
结构占比变动的影响:公式2。
(町一名)
AB[ + ABr
1.如何理解
我们是希望把总的比率(付费率)变动分解为不同维度(用户群体)比率变动和结 构占比变动,这样我们就能够方便的看出:
1 .到底是这个群体比率上升下降的原因,还是说这个群体的占比上升下降导致整个比 率的上升下降;
2 .看整个比率变动的主要原因和次要原因,对其进行量化。
说完目标,接下来看看具体公式的理解。
2 .比率变动的影响
主要是量化活跃用户比率(付费率)的变化对于整体比率(付费率)变化的影响, 我们使用ABl'-ABl ,这是活跃用户比率变化的绝对量。
但是我们考虑的是对总体比率变化的影响,所以需要乘以活跃用户占比,但是活 跃用户占比是在变化的,这里我们就直接乘以(wr-wi) /2,使用均值来稳定 占比的变化。
这样我们就计算出来了活跃用户比率变化对于整体比率变化的影响了。
3 .结构占比变动的影响
公式1仅计算出了活跃用户比率变化对于整体比率变化的影响我们还需要考虑 活跃用户结构的变化对于整体比率变化的影响,所以就有了公式20
公式2的理解跟公式1 一样,考虑活跃用户结构变化的绝对量,然后乘以稳定
的比率。
单个群体(活跃用户)变动计算:公式3。
这样我们就能得到单个群体变动对于总体变动量:
, + , AB[ + ABr
缶因 _ AB J 2 - + (阳-名)-.
1 1
=- (AB;% + AB[W1 - AB^ - + AB[W[ - AB^Wr
2 Z
即,, X
AB[W; - AB、
同理所有的变动就是各个群体变动相加:公式4。
AB'yW[ - 48]W1 + AB2W2 _ AB2W2 + 4BW - AB3W3 ,
=4用明 + ZB)明 + A例他-(XFiVVi + AB2W2 + AB3W^^
总体变动:
假设总体用户为a,那么总体付费比率AB可表示为:公式5。
发生 AB 的用户数 Wra - AB± + lV2a - AB2 + W3a ' AB3^ AB =
总用户数 Q
即:公式6O
AB = W1AB1 + W2AB2 + W3AB3.
乂
因此:公式70
AB[W; + + /尻回 一(ABMi + AB2W2 + AB3W3^ = ABr - AB.
所以,总的比率(付费率)理论上就是等于各个群体的比率变动影响和结构变动
影响相加。
接下来就是一个分渠道购买率定位问题的案例,以及对于辛普森简单理解。
三.案例1—分渠道购买率-定位三板斧
表七:
安卓 IOS 小程序
2020年 250 200 550
2021 年 900 700 400
安卓付费率 ios付费率 小程序付苫
2020年 60% 60% 30%
2021 年 58% 70% 40%
1.算出每个群体比率和结构差值
表八:
2020年
安卓付费率
60%
2021 年
58%
差异
-2%
安卓占比
2020年
25%
2021 年
45%
差异
20%
ios付费率
60%
70%
10%
I0S占比
20%
35%
15%
2.计算每一个渠道的贡献
表九:
比率变动影响
结构变动影响
总变动
安卓
-0.7%
11.8%
15.1%
I0S
2.8%
9.8%
3.单独计算总付费率
表十:
2020年付费率
43.5%
总结:
2021年付费率
总变动
58.6%
15.1%
我们从表九可以看到:主要是由于安卓端占比的上升,以及IOS占比上升导致
总体的付率从43.5%上升到58.6%
四,案例2——辛普森悖论的理解
什么是辛普森悖论:
当人们尝试探究两种变量(比方新生录取率与性别)是否具有相关性的时候,会 分别对之进行分组研究。然而,在分组比拟中都占优势的一方,在总评中有时反 而是失势的一方。
例如表十一,总体的付费率是在上升,但是安卓和ios的付费率都是在下降。
表十一:
展开阅读全文