从统计学看呼叫中心质量管理.doc

资源描述

从统计学看呼叫中心质量管理作者：许乃威 | 来源：客户世界 | 2007-12-16 16:29:22 质检一直是我认为最没用，却是最重要的一个管理手段。我几次上公开课都会问：“请问在座的有没有做质检的？”每次都有不少学员举手。我会说：“你们的岗位，是最没用的，完全没有数学根据，不如不要做算了。然后这些举手的学员就会很生气，问我说：“都交了这么多学费来，老师在胡说八道什么啊？” 我当然是在讲反话，但以一个学习统计学多年的老家伙来说，现行质检作业的方式，真的跟数学没有关系。我常常开玩笑说（虽然有时是讲的很认真严肃的），质检就是找一群人，躲在一个屋子里，偷偷摸摸听别人讲电话，然后光明正大的说：你这里讲错了，那里讲不好了。这种方式，在管理学上称为恐吓法，也就是让座席代表知道，你尽量接电话，接越多越好，但只要你服务不到位，得罪了我们客户，我们有人偷听你电话的，随时准备扣你工资！恐吓法是一种心理学的管理方式，在数学上是不成立的。大家有注意到我讲的这句话吗？质检打分数来评断座席代表好坏的这种方式，在数学上，是不成立的！大家以为自己质检作业，是符合科学的，是公平的，但利用统计学很轻易的可以证明，很多公司的质检作业，基本上跟掷骰子是没有两样的。讲到这里，我应该是引起众怒了。这么多人花了这么多力气和心血，我尽然说这跟掷骰子没有两样，浪费了大家的心血不说，更严重的问题是，质检分数高度跟工资挂勾，如果这些质检分数是不科学的，那岂不是说决定座席代表工资的方法，也是用骰子掷的？我曾经在前几期文章讲过一个例子，一个呼叫中心在全国各地有2千多个座席代表，深圳区一个很认真的小姑娘被客户一直辱骂，最后她以为客户挂线，电话也不再录音了，就讲了句“变态”。一天3百通电话，一个月6、7千通电话，总部质检就只抽4通，偏偏就抽到这一通，当月分数是全国2千多个座席代表的倒数前十名，把深圳区分数整个拖垮，对自己期许过高的她还搞地寻死觅活的。同样的戏剧情节在同一个月，发生在同一个呼叫中心，也就在深圳区的另外一个座席代表，有严重的服务态度问题，会收客户线（就是要客户挂机），深圳主管都警告这座席代表，说要炒掉她了，结果同月份总部质检，也是抽4通，这座席代表知道总部质检的漏洞，总部没有抽到她任何一通要客户挂机的电话，结果被评为深圳区第三名。这姑娘跟主管说：“现在不是要炒掉我的问题，而是要加多少工资的问题，因为我是深圳之光！” 每个月有几千通的电话，只抽几通电话，可以看到事情的真相吗？从统计学的角度来看，质检作业有6大问题完全不符合统计学的要求，这些问题的任何一点都足以让质检分数完全不具有数学意义，只是对座席代表进行恐吓法管理而已。 1 抽样数不足这是笔者说的质检作业的第一个大问题。当抽样数不足，也就是样本不够，却要说这个座席代表“属于这种特质”时，这只比掷骰子的情况稍微好一点而已。到底要多少样本数才对事情的真相有足够的信心呢？如果是以平均值的样本数计算，所需最少样本数＝概率度² x 标准差² / 极限误差² 大家看到这公式肯定是昏倒的，换成一个容易懂的方式说。假设一个座席代表过去曾经被抽检过10通电话，分数分别是100、95、94、90、85、80、80、75、75、70，这10通电话的平均值是84.4分，标准差是10分（如果不懂标准差的定义，请参考笔者上一期的文章）。如果我们问，在95％的信心水平下，这座席代表质检分数的平均值大约会落在那个范围？这是一个很重要的问题，因为你给这座席代表打出了84.4的平均分，但这分数却是一个抽样的结果，只要是抽样，一定有误差，你必须要估计误差。在古代，如果你是大宋提刑官，打算要杀人，你必须估计你杀错人的机会有多大，而这公式如下：平均误差＝标准差 / √抽样数极限误差＝概率度 x平均误差大家如果没有看明白这公式，完全没有关系，只要知道结论就好，也就是利用上面这两个公式，平均误差是 10 /√10 ，也就是3.16。 95％的信心水平，概率度是1.96，极限误差也就是6.2。我们得到了一个重要结论：换句话说，如果你说，你有95％的信心判断这座席代表的分数，那这分数应该是落在78到90之间（84.4 ± 6.2，取整）。大家看到这分数范围有多宽了吗？一个座席代表被打分数的标准差在10分左右，是很常见的，只要最高分跟最低分的差距高于20分，就有可能标准差会大于10分，如果你的质检员打分的录音抽样数只有10通，她打出了84分，那这座席代表真正的分数，很有可能在78到90分之间！换句话说，你说这座席代表的84分，高于另外一个座席代表的80分，你要奖励这座席代表，在统计上来说，这很可能是抽样误差造成的，根本不是事实！上面这两个公式转换一下，就会得到最少样本数的公式，我们可以计算一下，如果这个座席代表的分数标准差还是10分，如果想要在95％的信心水平下，有把握的讲出上下分数波动不多于3分的话（也就是81分和87分之间，也就是84.4 ±3），那应该要抽多少录音档呢？所需最少样本数＝概率度² x 标准差² / 极限误差²，把数据带入这个公式，所需最少样本数＝1.96²x 10² / 3²，也就是43个。大家说这么少啊，一个座席代表一个月只要抽43通，等于一个礼拜抽10通，这应该不是太难的事情。但大家要注意的是，最少样本数是跟标准差的平方成正比的，我们刚刚只是用10分来算而已，但再好的座席代表都很难达到标准差为10分，为何？因为这里讲的标准差是指这个座席代表的标准差，而不是这个月抽听录音档评分出来的标准差，只是因为我们不知道这座席代表真正的标准差，只好权宜行事，用这次抽样录音分数的标准差来计算。真正的做法，应该把你以前曾经替这座席代表打过的分数，所有给这座席代表打分的历史都拿出来，计算所有打分纪录的标准差，也就是不能只看这个月的。用这算法，一个座席代表的标准差就很容易扩大了。如果扩大到了15分，带入公式，所需样本数就变成了96通，也就是一礼拜要抽24通。万一这座席代表的标准差是20分，就需要抽取 171通，一礼拜要抽42通，这基本上是不可能的！大家应该很难做到高样本数的要求，因为要做到高样本数，成本是受不了的，那应该怎么办呢？大家刚刚应该注意到了，其实统计学要求高样本数，是对于座席代表标准差大的，也就是座席代表质检分数忽高忽低的，如果标准差小，只需要少数的抽样就能看到事情的真相。这个统计学上的特性，让我们对于质检作业有了一个新的做法，就是：不同标准差的座席代表应该要有不同的抽检率。呼叫中心把座席代表按照质检分数的标准差来分类，甚至更简单，按照座席代表质检分数的好坏来分类（通常分数高，标准差也小），不同分类的抽检率不同，这样可以让质检员的力气，花在真正需要花的地方，也就是分数高的，不需要抽听太多电话，分数低的，需要花更多力气来确认到底这座席代表表现的是好还是坏，这种分类抽检的方式，是完全符合统计学的。很多国外的专家最近一直大力呼吁，与其测量平均分数，还不如测量座席代表的一次解决率和致命错误率，因为这两个指针需要的样本数比较少，这两个指标才具有数学上的意义。具有数学上的意义，这是很重要的，有数学上的意义，作为主管的你，骂起人来才会比较大声，不是吗？不然你看到一个座席代表的质检分是79分，你拿来跟另外一位的83分比，你想起来某人讲过的，这两个分数在数学上的意义，可能跟拿骰子随便乱掷结果差不多，你恐怕就骂不下去了。困惑是阻止有效管理的重大障碍，一个在数学上不成立的绩效测量，是造成困惑最直接的原因。打分数主要分成两种方式，一种是平均数打分，也就是有一个范围要你打分，例如从0到100分（正向），或是从0扣分扣到40分（负向）。另外一种打分数是叫做合格率打分，也就是你只判断座席代表这通电话的服务是否合格，而合格与否只有两种可能，过关或不过关。是否统计学就像是这些国外专家讲的，少量的抽样就足以判断座席代表的合格率（例如100通电话其中有多少通合格）？笔者也一度也以为是，很不幸的，结果发现完全不是。合格率的最少样本数＝【全部录音档数量×概率度²×合格率×（1-合格率）】/ 【全部录音档数量×极限误差²+概率度² ×合格率×（1-合格率）】套用这个公式，假设全部录音档数量是2千通，如果合格率是95％，你希望95％的信心水平下，合格率出现在92％到98％的范围（上下3％），你至少要抽取184通电话的样本才能确认！如果合格率降到90％，你就需要322通电话才能确认。座席代表的合格率很容易低于90％，如果你有测量致命错误率或一次解决率，你就会发觉这数据太容易低过90％，一旦低过90％，你不禁就要问自己：我有足够的样本数来支持我的结论吗？我们从上面可以看到，如果你测量的是平均值，也就是你测量0到100分这种分数的，最少样本数是跟座席代表的标准差有很大关联，座席代表标准差越高你就需要越多的样本数，如果你是测量合格率的话，最少样本数是跟合格率高度相关的，也就是合格率越低，你需要越多的样本数。其实这跟直觉是符合的，一个标准差越大的座席代表，通常合格率就越低。谈到平均数和合格率的公式，大家应该还有注意到一个重点：就是极限误差的选择影响很大，如果你可以接受上下5分（平均分数）或上下5％（合格率）的误差，那需要的最小样本数就少很多了，拿上面的例子来说，这个座席代表的分数标准差是15分，平均分数是85分，在95％的信心水平下，分数介于上下3分（82分和88分之间），需要抽96通录音文件，但如果容许分数介于上下5分（80分和90分之间），那就只要抽35通就可以确认了，这是一个巨大的差别。对合格率来说，全部录音档数量是2千通，如果合格率是90％，95％的信心水平下，合格率出现在87％到93％的范围（上下3％），至少要抽取322通电话，但如果放宽到85％到95％的范围（上下5％），这时就只要129通电话就能确认。换句话说，到底要抽取多少通录音档才在数学上有意义，还是要看你希望要多精确，也就是你的绩效考评系统要求有多么的精确。如果一个座席代表的分数是85分，另外一位是82分，两人的工资因此就会有差距，那你就必须要采用3分以上的误差来估算才行，如果你采用的是5分以上的估算，那这两位座席代表的差距是3分，完全在这5分的误差范围之内，他们的差距，太有可能是抽样导致的误差，而不是他们两位真实的情况了。笔者对不同的标准差，不同的合格率，还有不同的极限误差，做了两张表，可以让读者直接查表，不必套用上面这么复杂的公式，可以直接找出自己到底需要多少样本数，有兴趣的读者欢迎写邮件来索取。如果你的样本数无论如何没有办法这么多，那是不是说质检分数的测量就没有意义了？这倒也不是。在统计学上有另外一个现象对我们有帮助，就是如果这个月一个座席代表分数是79，另外一位是83，你千万不要马上下结论说，这个79分的座席代表比较差，因为很可能是抽样误差导致的。但如果，大家听到“如果”这两个字了，这个座席代表连续三个月都比另外一个座席代表的分数低4分以上，这在统计学上就有了相当的信心说，79那个座席代表的质检分数是低于83的。所以有不少的呼叫中心对于这种0到100分的质检分数（负向打分也是一样），不是每个月都马上进行考核罚钱的，而是每一季，也就是会看三个月的变化情况。请注意，笔者讲的是“变化情况”，不是平均值。如果你把座席代表三个月的质检分数拿来做平均，然后用这个平均值进行比较，仍旧在数学上是不成立的！ 2 抽样偏见我前面谈到的第一个问题是抽样数不足，造成质检分数在数学上是不成立的，第二个问题是统计上常说的“抽样偏见”。前面我讲到，那个有2千多个座席代表的呼叫中心，有一个小姑娘抓到质检的漏洞，让她收客户线的电话，一通都没有被抓到，她利用的方法就是抽样偏见。质检人员一般进行录音档抽样时，不会抽一分钟以下的电话，因为一分钟以下的电话，通常都是一般咨询电话，没有什么内容可以评分。这个小姑娘就是抓住这个特性，只要她打算要收客户线，她就会在一接到电话就做，例如她会跟客户说，对不起，现在系统当机，无法服务，或是说，你的声音太小，请你挂机重打。这通电话的通话时长肯定低于一分钟，自然没有质检人员会抓到她。质检人员利用抽样的偏见，也能做很多文章，我在公开课上，很喜欢跟学员讨论这个话题。质检员要怎样利用抽样偏见来整她不喜欢的座席代表？也就是说，只要抽录音档的时候做点手脚，分数还没有打，这个座席代表的分数很自然就会比较低。大家都知道答案吗？这是质检员都知道的手法，就是抽比较长的电话，或是抽忙时或忙日的电话，或是抽抱怨的电话。这种电话在统计上，分数都倾向比较低。要克服这问题，就必须要求质检员抽样时，要“均衡”。怎么测量“均衡”？利用录音抽样均衡度测量表，也称为MITLA检查法，进行均衡性的检查，确保抽样的均衡性。 MITLA这五个英文字母分别代表： Measurements ：哪些项目需要考虑均衡度 Index ：均衡度测量表尺设计 Time balance ：录音时间抽样均衡（忙时、闲时、忙日、闲日） Length balance ：录音档长度抽样均衡（长的录音、短的录音） Application-Type balance ：业务内容抽样均衡（咨询、投诉等不同业务）简单讲，质检员应该要把自己对某个座席代表评分的录音档，按照上面的T、L、A，就是长度、录音时间点、业务内容，画个频次表（笔者在上一期内容有介绍频次表的画法），跟其它座席代表进行比较，看有没有重大差异，如果有，对这座席代表的抽样，就是“不均衡”。每个座席代表所有被抽检录音档的MITLA检查表，更是质检主管应该要亲自检查的。毕竟抽样上只要有偏见，不管是质检员有意，或是系统抽出来就自然出现了偏见，都会对座席代表不利，造成严重的偏差。 3 质检员打分标准不一我常常会讲这个故事，笔者念大学的时候，跑去修一门课，叫做“婴儿与母亲”。当时笔者只有19岁，一个小男生，跑去学怎么给宝宝洗澡，不是我在当时特别喜欢宝宝，而是那门课的老师，是一个慈祥的妈妈，我一堂课都没去上，还是拿到80分，因为她给的最低分就是80分。我当时念物理系，我们必须要到数学系去修微积分，数学系里面都是被我们称为“大刀”的老师。我们就碰上了杨大刀，第一天上课，他就说：“同学们，我知道大家都会很认真，但30％的同学还是会被我当掉。” 我那门课就刚好拿了60分。你会宁愿遇到慈祥的妈妈，还是杨大刀？如果质检员的评分标准不一样，一个松，一个紧，两个质检员的分数是没有办法比较的。从统计学的角度，如何检查两个质检员的评分行为是否一致？利用笔者之前讲过的频次表，就可以很轻易的画出质检员的落点分布图，比较两个质检员的落点分布图，就很容易看出来两个人的行为差异。上图是两个质检员在今年9月份打的质检分数，每个质检员分别对80人打了分数，然后把这些分数做成频次表（如果不知道怎么做频次表，可以看笔者上一期的文章有详细介绍）。底下是这两位质检员打的分数统计：把这两列人数放在一起画图，就看到上面的频次表。可以看到第一个质检员（蓝色）整条线比较平滑，分数越高打的人越多，而第二个质检员（红色）显然行为跟第一位质检员很不一致。第二位在95分评出的人比90分评出的人少了不少，80分评出的人比75分评出的人又少了不少，也就是第二位质检员跟第一位相比，跑出来了两个低谷。如果你把不同质检员的落点分布图画出来，发现类似上面这张频次表出现了不一致的行为，只有两种解释：一是这两组被测量的座席代表的确有本质上很大的差异（一般可能性较低）；二是质检员测量用的尺歪了。不管是哪一种可能，对管理者都是很有价值的管理线索。不仅要比较质检员和质检员之间的落点分布图，借此来看出质检员打分的公平与否，同时也要看同一个质检员每个月不同的落点分布图，借此来检查质检员评分行为是否随着时间而改变了。 4 质检员打分出现不作为的情况什么叫做不作为？这在问卷统计上，称为“不回答率”，也就是你发出了问卷，结果客户有的问题回答，有的问题却没有回答。如果客户整个问卷都不回答，事情还好办些，最多就是不计算这个问卷，当它不存在。但有的问题回答了，有的不回答，这对统计结果会造成很严重的偏差。质检员也会出现这种“不回答率”，而且很频繁。也就是说，质检员对于某些录音档会“有听没有到”，听到了，打分了，但都是打满分，或是一分都没有扣。质检员为了避免引起座席代表反弹，很容易会产生这种“不作为”的行为，因为只要她扣了座席代表的分数，这通录音文件很可能就需要经过复核，座席代表会抗议，这通录音文件的分数变成了显著的目标。要避免这通录音文件变成显着的目标，最简单的方法就是，让它满分过关，这样大家都开心。但学过问卷调查的人都知道，这种“不回答率”有时比抽样误差造成结果的偏差，可能还要严重。我们要怎么用统计学的办法侦测出质检员是不是真的在做她的工作，每通录音都有真的在打分呢？（待续）本文刊载于《客户世界》2007年10月刊；作者为宏盛高新科技有限公司执行董事。

展开阅读全文