在纯数据中发现结论的方法

2022/1/10 23:08:18

本文主要是介绍在纯数据中发现结论的方法,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

如果排除对业务的认知(可能根本没有过),忘记所谓的心智模型,单纯从数据中总结结论,该怎么做?

数据分析过程中有些不变的方法,可以让任何人显得像个分析师。

图片

一、从度量入手

度量,有人叫指标,KPI,连续型变量等等,这不重要。只需要知道它是我们要统计的即可。

只有一个变量时或一个变量一个变量观察时

  1. 不废话,先排序

  2. 看看有没有极大值,极小值

  3. 绝对值看着乱,用相对值。例如,局部占整体比例(去掉小数点,数据干净立整)

  4. 感觉分布不均时,计算平均数、中位数、众数、标准差(有点卷)

  5. 也可以利用直方图,把度量按某组距分组。度量转成维度,再用此维度统计本度量

    得到,数据思维课中提到把数据分为4种(向上兼容,信息递减)
        类别数据 - 性别
        次序数据 - 排名
        间隔数据 - 古代时辰
        比例数据 - 销量

    套用此分法,度量转维度就是将比例数据转化为间隔数据

    两个变量一起观察时

  1. 不废话,先对其中一个变量进行排序

  2. 看看另一个变量是否一同增长或下降(寻找相关性),这里可以借助散点图

  3. 没有相关性?转换为间隔数据看看,这就是象限法

两个以上变量一起观察时

    除非你是水哥,常人就不要多个变量一起观察了。借助机器学习算法寻找潜在模型也可以,但不在这次讨论范围内。

二、从维度入手

维度,如果你用过SQL,那么Group By(团购)后边的字段就是维度;没用过也没关系,除了度量就是维度了。

时间维度

  1. 不废话,计算相对值,同环比

    同环比就是找一个历史锚点对比当下时刻数据。历史锚点选择昨天,就是昨日环比;历史锚点选择去年今天,就是年同比。
    按照这个逻辑,锚点也可以选择有意义的历史时刻。例如,疫情爆发前,或历史某重要节日(历史峰值)等
  2. 利用折线看趋势,计算回归线。异常波动数据清晰可见

非时间维度,只有一个维度时或一个维度一个维度观察时

  1. 如果知道事情发展的顺序,可以将维度中的信息排序,这就是漏斗模型

  2. 利用基础认知对维度中的信息归类。例如产品维度中有桌子、椅子、铅笔、橡皮。按照材质归类为木质的、非木质的(背后可能是原材料供给的考量);或大件、小件(背后可能是运输成本的考量)等

  3. 结合度量对维度中信息分组。例如销量Top3为畅销品,其余为非畅销品;销量Top20%为头部产品,这就是二八定律注意,这里的分组规则是根据度量选择的(动态),不同于2中从维度属性归类(静态)。

非时间维度,当有多个维度时

  1. 维度之间有关系(地理,组织架构等),可以建立层级。同级别间比较,相对值可以用占比。

  2. 维度间没关系,用笛卡尔积,将多种信息叠加起来,放大某组合的信号强度。例如运输方式(海运、空运),货物体积(大、小),组合后统计得出小件空运和大件海运ROI(时间成本+金钱成本)最高。(常识而已,这里只是举个栗子)

数据分析就是从数据中总结结论 这个结论在业务专家眼中甚至在常人眼中或许是朴素的,反常识的,或是惊艳的。在没有业务思路时,从纯纯的方法论出发,总比停滞不前要好,甚至好得多。



这篇关于在纯数据中发现结论的方法的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程