玩转会员数据分析系列将从结合实际工作的案例来介绍在日常工作中的哪些数据分析方法、概念应该在什么时候使用,通过直白的语言来带领大家走入数据分析领域。
玩转会员数据分析系列文章主要针对数据分析给大家普及一些基础知识以及在工作中经常会用到的数据分析方法和概念,帮助大家一起成长。
因为我们知道,在整个产品经理的职业生涯中,如果你不想永远是一个只画画原型,写写文档的职场菜鸟,就一定需要掌握数据分析的概念和方法,你需要知道在管理产品的不同阶段需要使用哪些数据分析的方法来论证你的判断是否正确?用户是否能够接受?能够为企业带来哪些收益?
玩转会员数据分析系列将从结合实际工作的案例来介绍在日常工作中的哪些数据分析方法、概念应该在什么时候使用,通过直白的语言来带领大家走入数据分析领域。
统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域。
作为大数据时代炙手可热的学问,统计学可以解决很多实际问题。只有了解了统计学你才能知道在大数据意义下的游戏。一般意义上的统计学包括了:概率学、数理统计学两个部分,它们都是以概率论为基础。
通过分析数据推断事物的本质,预测它未来的发展,分析数据的第一步就是找出那些看似偶然的发生的事件,背后隐藏着哪些必然性的统计规律。
比如说,我们在学生时代经常会有一些单元测验的考试,对你来说每次考试的分数肯定是会上下浮动的,可能有几次的分数比较高,有几次的分数比较低,但经过了很多次测验以后这些分数应该能够反映你的真实能力了,这就是大数定律定律的主要内涵。
用数学术语来表达就是:当实验次数足够多的时候,实验结果的平均值会无限接近一个数值,这个数值一般叫做“期望值”。它的意义在于我们可以通过研究概率来看清风险,做出决定,尤其是在理财和投资的时候体现的特别明显。
比如常常有人幻想一夜暴富,最有可能的方法就是买彩票或则进赌场。博彩行业就是依靠概率理论来发财的,让大家觉得自己会是那个幸运儿。如果按照每期金的数额除以彩票的发行量,每张彩票的实际价值都不到1分钱。
但是,人们都热衷于用2元钱来交换1分钱。就算是某期彩票爆出的大掏空了池,那从长远来看的话,发行彩票业是稳赚不赔的。
因为什么呢?根据大数定律,对于长期发行销量稳定的彩票,金总额的期望值是恒定的,发行机构只要发行彩票的销售额大于彩金期望值,就肯定能够赚钱。
赌场也是一样的,只要能够吸引到足够数量的赌客,不管幸运儿赢走多少钱,赌场永远是最后的赢家。所以,一夜暴富的事情发生在我们身上的概率微乎其微,沉溺其中的结果就是让赌场老板和彩票发行机构大赚了一笔。
在我们生活中也有很多相似的案例,例如积分抽,我们每天都使用饿了么来订外卖,每笔订单完成评价后都会励一定的积分,这些积分可以在饿了么商城兑换商品和抽。
但是我们发现积分可直接兑换的商品价值都是很低的,要么就是需要加钱购买的,总体来看性价比不高。而参与抽的商品可能都是价值较高的数码产品,我们当然愿意使用积分去抽取这些价值较高的品,虽然我们也知道中的几率很低。当然积分抽的最终目的在于快速的消耗用户账户中沉淀的积分而不是赚钱。
对于一些期望值比较高的投资,我们也要用到大数定律。比如一个投资门槛是100万的项目,成功率只有30%,但是预期回报达到了500%,这么诱人该不该投呢?这个时候如果你把注意力都放在了高回报率上就比较。我们要注意大数定律成立的前提在于实验次数足够多。投资100万可不是买2元钱的彩票。
如果你是个工薪阶层,你用来投资的100万是你的全部家当,那你显然没有多次投资的资本。这个时候如果你孤注一掷,那么你会有70%概率会血本无归。
反过来,如果你是投资机构或则富二代,那这样的项目肯定是来的越多越好。因为你投资的几百个项目里面,肯定有一些能够成功。平均来看的话一定能够像开赌场一样赚到大钱,所以面对理财投资中的高期望,我们首先应该考虑的因素就是:风险倾向。根据大数定律你的风险承受能力越强,就意味着允许实验的次数越多,也就越有可能赚到期望的投资回报。这样大家就很容易理解两个基本概念
生活中最常见的,依靠大数定律来赚钱的其实是保险行业。比如你在网上购买某个电子产品的时候,网站经常会向我们推销延长保修的服务。比如一台2000元的洗衣机,多花100块钱可以延保一年,如果你掌握了大数定律就很容易想到。厂家对这台洗衣机维修服务的预期成本肯定少于100元,否则厂家就要赔钱了。但是有些时候,这种钱还必须得花。大家都知道,保险公司利润很高,假设一种人身意外险的赔偿额度是100万,发生意外的概率是百万分之一,那么预期损失就是1元钱。如果你花10元钱来买,保险公司就能赚到10倍的利润,基本和开赌场没什么区别。但是你要知道,买这类保险的意义并不是为了省钱,而是当你遭受一些难以承受的巨大损失时,帮你渡过。因为人身意外的损失是不能和2000元的洗衣机来比较的。这个时候保险更多的是一种规避风险的工具。
中心极限(central limit theorem)是概率论中讨论随机变量序列部分和分布渐近于正态分布的一类。这组是数理统计学和误差分析的理论基础,指出了大量随机变量累积分布函数逐点到正态分布的积累分布函数的条件。
光从百科的字面上我们可能很难理解这个到底是个什么东东?其实,只要我们把它成生活中的常常发生的事情就非常好理解了。比如我们去农场的一棵树上摘苹果,想知道这棵树上的苹果甜不甜?没必要把整棵树上所有的苹果都尝一遍,在一棵树上任意一个苹果的甜度绝不会相差太大,只要从中选取几个品尝就能够知道这批水果到底甜不甜。
那中心极限的含义就是:任意一个群体样本的平均值都会围绕在这个群体的整体平均值周围,我们对一个基数庞大的群体做统计调查的时候,只要对其中的一部分样本进行研究,得出的结论就能够反映出整个群体的特点。而且抽样的数量越大准确率越高。因为这个的存在我们开展调查统计就变得简单方便了。
例如,某个城市正在同时举行铁人三项比赛和相扑比赛,比赛前有一辆载满外国铁人三项运动员的大巴车了,结果找到了一辆满是外国大胖子的大巴车。由于语言不通,只能根据经验来判断。即使铁人三项选手里面可能也有几个体重较大的,但是满车都是大胖子这是不太可能的,所以呢利用中心极限不难推断出来,很可能找错了车子。当然,这也属于比较极端的情况。
如果换个场景条件,找到的两辆车中乘客有胖有瘦,我们该怎么判断呢?这个时候我们对乘客的体重进行测量,计算体重分布的标准差,利用中心极限我们仍然能够判断出哪辆车是我们要找的。这是因为铁人三项运动员群体的体重标准差是明显小于普通群体的。他们的体重分布更集中,这也是中心极限的另一种应用。那就是本节的第2个重点:
小结:关于中心极限,大家就可以这样理解了。虽然它的数学计算很复杂,但理解起来并不是那么难。我们理解了大数定律和中心极限就掌握了统计学的概率论基础。那接下来就可以了解一下,一些开展调查统计的基本方法,比如如何采集数据?
通过前两节的内容我们对大数定律和中心极限已经有了一定了解,本节主要讲讲开展调查统计的基本方法也就是本章的第三个重点“随机抽样”。
按照随机的原则,即总体中每一个对象都有已知的、非零的概率被选入作为研究的对象,样本的代表性。 随机抽样法就是调查对象总体中每个部分都有同等被抽中的可能,是一种完全依照机会均等的原则进行的抽样调查,被称为是一种“等概率”。随机抽样有四种基本形式,即简单随机抽样、等距抽样、类型抽样和整群抽样。它的最大优点是在根据样本资料推论总体时,可用概率的方式客观地测量推论值的可靠程度,从而使这种推论建立在科学的基础上。正因为此,随机抽样在社会调查和社会研究中应用较广泛。常用的随机抽样方法主要有纯随机抽样、分层抽样、系统抽样、整群抽样、多阶段抽样等。
随机抽样是我们在工作中收集数据的主要方法,比如开展问卷调查的时候,如果客户数量庞大,根据中心极限只要在客户中抽取部分有代表性的样本来填写问卷,就能够达到目的。这个选取有代表性样本的过程,我们称之为“随机抽样”。
所以呢,随机取样只是看似简单,它的关键点在于“随机”这两个字。要做到随机,必须每个对象被抽到的概率完全相等。这样抽样的样本才代表了整个对象群体。比如说我们想知道100个弹珠中有多少绿色弹珠多少弹珠,只要把它们放进一个盒子里然后随机取出30个就能得到基本准确的颜色比例。
那么问题来了?我们开展调查时的对象大多是我们的用户,我们所关心的人口组成,远远要比一盒子弹珠要复杂。如果不能相关人口中的每个人被选为样本的概率都相同,这样的抽样结果就存在,这样有的样本往往会得出的结论。
具体的我们可以把分成几类,最常见的叫做“选择性”。1936年美国总统前,文学文摘曾经向1000万名订阅它的美国发放问卷,开展候选人调查。这份1000万人的样本已经非常大了,因为当时的美国的总人口只有不到1亿3千万。调查结果预测党人兰登将以显著的优势当选,然而当结果揭晓后党人罗斯福却以压倒性的优势当选了美国总统。
文学文摘的这次调查可以说相当失败,问题就处在编辑们没有意识到,订阅这本的人平均来说要比普通美国更富有,他们更倾向于投票给富人利益的党。这样带有选择性的样本即使容量再大也不能反映出全体美国人的。
举一个最常见的案例:很多基金公司经常利用这种来数据吸引投资,基金公司会拿基金业绩和股票市场的基准来做比较。比如美国的标准“普尔指数”(类似于我国的上证指数),如果某一年基金的涨幅高于标准普尔指数或者是跌幅低于普尔指数,基金公司就会我们的基金跑赢了普尔指数。但是要想实实在在的跑赢普尔指数不是一件容易的事,我们从概率学的角度假设,某支基金有1/2的概率能够跑赢标准普尔指数,那么连续2年跑赢的基金就只剩下1/4,连续3年跑赢的概率就只有1/8了。
猜猜看,公司会怎么宣传自己的基金业绩呢?他们通常的做法就是同时20支新基金,经过3年的经营总会有2-3支基金连续3年跑赢标准普尔指数,那公司只要把十几支失败的基金悄悄关闭,大肆宣传这2-3支幸存者就可以把投资者的钱骗进来了。而实际上这些所谓幸存基金的产生就像连续抛3次硬币正面都朝上一样,接下来的表现会逐渐回归平均水平,真正能长期跑赢普尔指数的优秀基金其实是凤毛麟角。
此外“健康用户”也指的我们,假设卫生部门发布了一个理论,给孩子穿上紫色睡衣会有助于孩子大脑的发育。那么20年后我们通过抽样调查来验证这个理论,结果显示在哈弗大学的学生中有98%的人在少年时期是穿着紫色睡衣入睡的,而里的只有3%的人在少年时穿过紫色睡衣,所以我们得出结论:穿紫色睡衣的孩子确实更有可能取得成功。
其实我们用来对比的两组人并不是通过随机抽样得到的,哈弗大学的学生和里的根本就是两类人,真正对孩子大脑发育有作用的是给孩子穿上紫色睡衣的家长相比于其他家庭显然更注重对孩子的家庭教育。’
有些养生栏目页经常用类似的调查数据来证明多吃蔬菜水果的人更加长寿等等,他们忽略了习惯吃蔬菜水果的人群往往有健康的生活习惯,而那些喜欢高热量食物的人群很可能收入偏低,在生活的其它方面也没有健康的习惯,所以,这样错误的抽样得出的结论是经不起严格考证的。
小结:随机抽样是我们开展调查统计的第一步,我们要通过正确抽样来第一手的数据是可靠的、没有的,在这个基础上我们才能够应用这些数据对复杂的问题展开研究。在下一节我们将介绍一种强大的统计学方法“回归分析”,这是一种非常强大的统计学方法,专门用来分析那些影响因素很多的复杂问题。
在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的关系。例如,司机的鲁莽驾驶与道交通事故数量之间的关系,最好的研究方法就是回归。(来自百度百科)
为通俗易懂的文字,你可以这样理解:回归分析就是通过一个已知的现象来找到未知的原因,它可以通过严格的数学分析复原出每种原因对结果的贡献比例。
伦敦大学公共卫生学院曾经组织过一项著名的“白厅研究”,医学家们发现英国里低级别的公务员患上心脏病的概率比他们的更高。白厅研究就是要找出这背后的真实原因,这个研究显然不能用随机抽样的方法来实现,因为我们不可能把各个志愿者分配到各个工作岗位工作几年,然后再看哪些人因公殉职了。研究人员只能在很长一段时间里对数千名公务员进行详细的数据采集,来对比各类导致心脏病的可能因素。
比如说,低阶公务员的学历普遍偏低,会不会是影响因素呢?烟民比例多呢?还是不能享受到高水平的医疗服务呢?或则是加班多锻炼时间少?这些都是导致心脏病高发的变量,那么到底哪一个才是具有决定性的影响呢?如此庞杂的数据里有太多错综复杂的因素,显然会干扰研究人员的判断。这时候我们就要用到回归分析这个工具,它的作用就好比一个可以调节孔径的筛子,能在综合考虑其它变量效果不变的情况下,把其中一个变量的效果分离出来。
回归分析的数学过程比较复杂,幸好我们现在有了成熟的多元线性回归方程模型可以套用,我们要做的就是将多个变量的取样结果带入回归方程式,计算结果就会显示出我们关注的变量和心脏病发病率的线性关系(回归分析软件:SAS、SPSS、BMDP等)。
通过统计推断我们就能够知道,这个变量到底在多大程度上影响了发病率。实验结果表明,造成心脏病高发的真正原因是对工作缺乏控制力和话语权,而这类存在感较低的岗位在低级别职位中更常见。现在“低控制率”已经成为一个专有名词了,专指那些负担重,决策水平低的工作。
事实上当前科学界绝大多数的研究结论都是以回归分析作为基础的。尤其是回归分析软件的普及,让建立模型和解析方程变得很简单,但同时也要注意电脑永远不能代替人的工作,如果我们在进行回归分析时遗漏的变量或者忽视因素,回归分析就回得出的结论。
比如上世纪90年代,哈弗大学对12万名女性开展了纵向调查,经过严格的回归分析,定期摄入雌激素的女性突发心脏病的概率只有其他女性的1/3。医学机构支持了这个观点,医院开始定期为中老年妇女进行雌激素的补充治疗。然而后来的临床试验发现,补充雌激素的副作用会导致乳腺癌和血栓病高发,这是科学家没有考虑到的重大疏漏。最终因为接受雌激素治疗而死亡的女性患者达到上万人,所以一旦出现数据遗漏,错误的数据结果甚至会造身。
下面我们使用IBM公司开发的“统计产品与服务解决方案”软件SPSS(Statistical Product and Service Solutions)做一个简单的实例,给大家介绍如何使用SPSS做回归分析的方法。回归分析的方法包括:线性回归、逻辑回归、多项式回归、逐步回归等很多种,本次我们就拿就常用的线性回归结合案例来给大家:年龄和血压的关系。
线性回归包含:一元线性回归和多元线性回归。一元线性回归又叫做简单线性回归,主要用于判断是否能通过回归模型找到一个“线性组合”,从而证明一组变量(因变量和自变量)的关系。如果能的话,这种关系的强度有多大,也就是利用自变量的线性组合来预测因变量的能力有多强?整体解释能力是否具有统计上的显著性意义?在整体解释能力显著的情况下,哪些自变量有显著的意义?
对一元线性回归有所了解以后,我们就拿就用它结合一个简单的案例:年龄和血压的关系,创建一个具体的实例。
通过散点图观察变量间的趋势。如果有多个变量则做出散点图矩阵、重叠散点图和三维散点图。如果我们觉得数据的分布存在明显的问题,这时候需要对数据进行预处理,防止后面得到的结果和实际结果相差过大。
我们可以这样理解:因变量是结果,自变量是原因。在这个实例中我们可以理解为年龄影响血压。当然这里要加个疑问,因为我们是分析嘛,在得到最终的结果之前这只是一个假设。
这两项配置完成后点击主界面的【确定】按钮就可以得到输出结果,我们只截取部分比较重要的图标来做。
调整R方就是反映这个模型的拟合度的,简单说就是我们拟合的两个变量之间的线性方程与两个变量真实之间关系的一个拟合度。拟合度通常是在0-1之间的数字。
显著性也叫Sig,显著性的结果是0.002也就是0.2%,说明年龄完全不能影响血压这个假设发生的概率是0.2%,因此我们可以得出结论有99.8%的概率年龄可以显著影响血压的。
以上图标说明年龄对血压的影响是正向的(0.881),也就是说年龄越大血压越高。年龄每增加1分,血压总分就会增加0.881分,这就是自变量和因变量之间的一个定量的影响关系。
当然判断的依据和数据维度以及最后结果的几个关键值都有密切关系,加入分析的自变量是否正确、数量多少等因素对结果也会产生影响。网上有很多专门介绍线性回归的资料教程,在这里不再详细描述,大家多看多动手多思考,统计学虽然入门比较简单,但是要真正应用到实际工作中还是需要一定的实际分析经验的。
小结:统计学原因虽然看似简单,但却不是人人都可以做数据分析师,因为它既能给我们的观点找到严谨的数据支持,但有时也会给一个错误的结论披上合理的外衣。这就是本章下一节要讲的最后一部分:常犯的概率学错误。
17世纪之前的欧洲人认为天鹅都是白色的,甚至经常用“世界上没有黑色的天鹅”这句谚语去那些的人。但随着第一只黑天鹅在被发现,这句谚语就变成了笑谈,现在“黑天鹅”一般用来指那些影响很大但难以预测的小概率事件。通过这个例子我们可以了解,忽略那些小概率事件,会造成多么严重的后果。
2008年美国次贷危机爆发之前,整个金融行业都在使用同一个风险价值模型来预测投资风险。这个模型的强大之处在于它非常精确,它能把华尔街每家公司的资产都进行严格的概率学分析,给出预期收益和损失值。并且还能给这些海量的市场信息整合成一个简洁的风险指标提供给美联储和财政部参考,比如分析了以往市场变动数据后,金融家会根据这个模型给出某项投资在特定周期内可能让公司的损失,而这种预测可以覆盖高达99%的市场风险。
然而这个模型有一个被忽略的致命问题,它的概率学模型参照的是过去20年的市场行为,不能对未知的以外情况作出预测,所以它预测不了黑天鹅的出现。
这只黑天鹅就是2007年美国商业银行放贷业务的崩溃,虽然它发生的概率只有不到1%,但悲剧确实发生了。直接导致了一次全球大范围的金融危机,失业率达到了10%,很多国家和都陷入了债务危机,这就是小概率重大事件的力。
难道这是概率学本身出问题了吗?显然不是,模型已经告诉了我们有1%的风险无法预测,客人们仍然选择了。所以,最大的风险永远都不是那些我们能看得见算得出的,而是那些看上去似乎概率很小,我们认为一辈子都不可能发生的风险,但它的确发生了,而且比我们想象的要频繁的多。
除了黑天鹅还有一个我们容易忽视的问题:统计误差,统计学虽然有这严谨的数学计算,但它并不是完美无缺的。我们通过分析数据推断出的结论永远不会是100%正确的,只要数据分析建立在抽样调查之上,样本的统计结果和正式情况之间就会存在误差。虽然随着样本数量的增大,实验次数的增多,这样的误差会接近于零,但即使误差再小,也不能忽视它的存在。
比如第2节介绍的中心极限,通过计算车内乘客的体重分布,有99%的把握估计那些体重较大的乘客不是铁人三项选手,但这个推理还有1%的概率是错的,原因就在于铁人三项运动员体重样本的平均值虽然会接近整体的平均值,但并不能说二者完全相等。就好像从一棵树上摘的苹果,如果进行精确的化学分析他们的成分和甜度总会有细微的不同。这就是统计误差的含义,我们不可能通过数据得出完全确凿的,只能通过合理控制误差来无限接近。
另外举一个有趣的例子:检方。假设你是一名,听到公诉人陈述这样的事实“犯罪现场遗留的DNA样本和被告的DNA相吻合,除了被告以外这个样本和其他人吻合的概率只有百万分之一,在这个的基础上你能为被告人吗?”这时候如果你忽略百万分之一的误差就可能会让的人锒铛,这是因为误差看似很小,但警方的DNA样本库数量非常庞大,通过样本比对找到两个DNA特征相似的人并不是不可能的,所以给犯罪时,不能死守着概率这种破案工具而忽略了性别、年龄、社会关系等其它线索。
在现实中其实也是一样的,对那些意义重大的可研结论,人们往往对概率计算有精确的要求,比如物理学家在探测引力波是否真实存在的时候,总计花费了数十亿美元用20多年时间来建造探测器,目的就是必须要把实验误差控制在一个极其微小的数量级。事实上这个探测器能探测到小数点后21位,10的负21次幂这个尺度上的引力波变化,爱因斯坦一个多世纪前的预言才最终得到了有力的证明。
案例小结:通过统计数据推断出的结论,必定存在误差,不会100%正确。即使误差再小,也不能忽视它的存在。
黑天鹅事件和检方充分说明人们对小概率事件和微小误差的错误认识,会让看似精确的概率计算误入。精确有时候并不意味着准确,客观事实和我们对概率的直观感受往往是有差异的。概率学本身不会犯错,错误的是使用它的人。
其实在近代历史中还存在很多与黑天鹅事件类似的事情,比如:9.11事件,泰坦尼克号、日本地震、中国雪灾、光大乌龙等,这些事件的发生大多都是因为忽略小概率事件而引起的,有兴趣的朋友可以去详细了解。好了,本章内容到这里就全部讲完了,感谢大家阅读。