python数据分析与挖掘实战---航空公司客户价值分析
2021/7/7 17:09:29
本文主要是介绍python数据分析与挖掘实战---航空公司客户价值分析,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
航空公司客户价值分析
一、 背景与挖掘目标
客户关系管理是企业的核心问题,关键在于客户的分类:区别无价值客户,高价值客户,针对不同客户群体有的放矢投放具体服务方案,实现企业利润最大化的目标。
各大航空公司采取优惠措施喜迎更多客户,国内航司面对客户流失和资源未完全利用等危机,因此建立一个客户价值评估模型来实现对客户的分类。
二、 分析方法与过程
本次的分析目的在于客户价值识别,客户价值识别最常用的模型是 RFM模型:R(最近消费时间间隔)F(消费频率)M(消费金额)。
飞机票价取决于飞行距离和仓位等级,消费同等金额票价的旅客对航司的价值不一定相同:购买短程头等舱的旅客和购买长途经济舱的旅客,明显前者对航司的贡献更大。所以对 M(消费金额)建模时要进行修改:用里程数平均值M和仓位折扣系数平均值C来代替消费的金额。
同时,考虑旅客中,加入会员的时间越长,客户的潜在价值一般越高,所以定义一个客户关系长度 L,作为区分客户的另一指标。
接下来针对 LRFMC模型,对客户进行区分。
LRFMC模型:
( 1)客户关系长度L:航空公司会员时间的长短。
( 2)是消费时间间隔R。
( 3)消费频率F。
( 4) 飞行里程M。
( 5) 折扣系数的平均值C。
LRFMC模型指标含义:
( 1) L:会员入会时间距观测窗口结束的月数。
( 2) R:客户最近一次乘坐公司飞机距离观测窗口结束的月数。
( 3) F:客户在观测窗口内乘坐公司飞机的次数。
( 4) M:客户在观测窗口内累计的飞行里程碑。
( 5) C:客户在观测窗口内乘坐仓位所对应的折扣系数的平均值。
方法:本案例采用聚类的方法,通过对航空公司客户价值的 LRFMC模型的五个指标进行K-Means聚类,识别客户价值。
三、 数据描述
给出所有属性的基本信息,共 25个属性,均无大量缺失现象或缺失现象很少。
四、 建模
1、 数据探索分析
对数据进行缺失值分析与异常值分析,分析出数据的规律以及异常值
查找每列属性观测值个数,最大值,最小值。完整代码如下:
效果如下:
2、 数据预处理
(1)数据清洗
通过数据探索分析,发现数据中存在缺失值,由于原始数据量大,这类数据量少,对其进行丢弃处理。具体处理方法如下:
( 1)丢弃票价为空的记录。
( 2)丢弃票价为0、平均折扣率不为0、总飞行公里数等于0的记录。
使用 Pandas对满足清洗条件的数据进行丢弃。处理方法:满足清洗条件的一行数据全部丢弃,代码如下:
(2) 属性规约
根据我们建立的 LRFMC模型,提取这五个特征,删除与其不相关的属性。
(3) 数据变换
将数据变换成 ‘适当的’格式。通过数据变换来构造这个五个特征。
计算方式如下:
(1) L=LOAD_TIME-FFP_DATE
会员入会时间距观测窗口结束的月数 =观测窗口的结束时间-入会时间[单位:月]
(2) R=LAST_TO_END
客户最近一次乘坐公司飞机距观测窗口结束的月数 =最后一次乘机时间至观测窗口末端时长[单位:月]
( 3)F=FLIGHT_COUNT
客户在观测窗口内乘坐公司飞机的次数 =观测窗口飞行次数[单位:次]
( 4)M=SEG_KM_SUM
客户在观测时间内在公司累计的飞行里程 =观测窗口的总飞行里数[单位:公里]
( 5)C=AVG_DISCOUNT
客户在观测时间内乘坐舱位所对应的折扣系数的平均值 =平均折扣率[单位:无]
提取 5个特征后生成文件:zscoredata.xls
(4) 标准化处理
5个指标的数据提取后,对每个指标数据分布情况进行分析发现,5个指标的取值范围数据差异较大,为了消除数量级数据带来的影响,需要对数据进行标准化处理。
标准差标准化处理后,形成 ZL、ZR、ZF、ZM、ZC5个属性的数据,如图所示:
3、模型构建
客户价值分析模型包括两个:
( 1)根据5个特征对客户进行聚类分群。
( 2)对每个客户群进行特征分析,分析客户价值,并对每个客户进行排名。
完整代码如下:
对数据进行聚类分群的结果:
注:由于 K-Means聚类是随机选择类标号,因此重复此实验得到的结果中的类标号可能与此不同;另外,由于算法的精度问题,重复实验得到的聚类中心也可能略有不同
五、 建模分析与结果
客户价值分析:
根据特征值大小总结出每个群体优势特征和弱势特征,将客户群分为四类:
a重要保持客户:平均折扣率高,乘坐次数或里程高,最近坐过本公司航班。
b潜在发展客户:平均折扣率较高,乘坐次数和里程较低。
c重要挽留客户:平均折扣率,乘坐次数或者里程较高,较长时间没坐本公司航班。
d一般与低价值客户:折扣率低,较长时间未做本公司航班,乘坐次数或里程较低,入会时长短
分析:
** 该实例 聚类结果: **
根据聚类结果构造客户群特征分析图。
代码如下:
效果如图:
重要保持客户:对于像 “客户5(黄色): 在R最近乘坐时间最小,在F乘坐频率和M里程数上最大” 的旅客属于航空公司的高价值客户,这类人对航空公司贡献巨大,而且这部分人相对人数较少。航空公司应该将优质资源先向他们投放,尽力保持住这类客户,通过专门的营销策略和更优质的服务来提升这一类客户的忠诚度。
潜在发展客户:对于 “客户4(黑色): 在C折扣数上最大 ,而RFMx相对较少的客户” 。虽然这类客户当前价值不是很高,但是作为具有经济实力购买非竞技舱的客户,可以作为潜在的重要客户,重点培养。航司可以采取一些措施提高他们变为竞争对手客户的成本,努力的加强他们的满意度。
低价值客户: 对于像 “客户3(蓝色): 在R最近乘坐时间上最大,在F乘坐频率上最小,在里程数M上最小”这一类客户 以及 像 “客户1(红色): 在L入会时间上最小,在C折扣数上最小”这样的客户,很久没有坐飞机,乘坐频率和里程数也很低,相对来说对航空公司价值较低。
重要挽留客户: 对于像 “客户2(绿色):在L入会时间上最长”,这类客户已经很久没有乘坐航班,但是他们的CFM还可以,这类客户不确定性价高,应该对这类客户采取一定手段对其主动联系,并且投放营销措施来延长其生命周期。
这篇关于python数据分析与挖掘实战---航空公司客户价值分析的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-21Python编程基础教程
- 2024-11-20Python编程基础与实践
- 2024-11-20Python编程基础与高级应用
- 2024-11-19Python 基础编程教程
- 2024-11-19Python基础入门教程
- 2024-11-17在FastAPI项目中添加一个生产级别的数据库——本地环境搭建指南
- 2024-11-16`PyMuPDF4LLM`:提取PDF数据的神器
- 2024-11-16四种数据科学Web界面框架快速对比:Rio、Reflex、Streamlit和Plotly Dash
- 2024-11-14获取参数学习:Python编程入门教程
- 2024-11-14Python编程基础入门