网站首页 > 趋势分析> 文章内容

数据分析师必备的统计学知识都在这里了

※发布时间:2018-5-15 19:00:41   ※发布作者:habao   ※出自何处: 

  小结: 现在大家接触最多的概念应该是 平均数,但有时候,平均数会因为某些极值(Outlier)的出现收到很大影响;

  举个小例子,你们班有20人,大家收入差不多,19人都是5000左右,但是有1个同学创业成功了,年入1个亿,这时候统计你们班同学收入的“平均数”就是500万了,这也很好的解释了,每年各地的平均收入数据出炉,小伙伴们直呼给祖国拖后腿了,那是因为大家收入被平均了,此时,“中位数”更能合理的反映真实的情况;

  1.四分位数 说到了“中位数”,把样本分成了2部分,再找个这2部分各自的“中位数”,也就把样本分为了4个部分,其中1/4处的值记为Q1,2/4处的值记为Q2,3/4处的值记为Q3

  设从均值为,方差为的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为/n的正态分布

  设总体共有N个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有Nn种抽法,即可以组成Nn不同的样本,在不重复抽样时,共有Nn个可能的样本。每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来,因此,样本均值的概率分布实际上是一种理论分布。数理统计学的相关已经证明:在重置抽样时,样本均值的方差为总体方差的1/n

  48盆MM豆,计算出每盆有几个蓝色的MM豆,48个数据构成了总体样本。然后随机选择五盆,计算五盆中含有蓝色MM豆的平均数,然后反复进行了50次。这就是n为5的样本均值抽样。

   显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,也就是Type I Error

  分析人的早晨和晚上的身高是否不同,于是找来一拨人测他们早上和晚上的身高,这里每个人就有两个值,这里出现了配对

  效应量(effect size):提示组间真正的差异占统计学差异的比例,值越大,组间差异越可靠。

  

相关阅读
  • 没有资料