预备数据
1、导入python数据剖析模块三剑客:pandasmatplotlibnumpy2、用read_excel()办法导入数据源.输出成果截图如下(部分):
能够正常的看到有这些数据:订单日期、商场类别、区域、产品类别、产品名称、估量出售本钱、估量毛利、估量赢利、估量出售额、出售本钱、存货、毛利、赢利额、出售额等等。
数据清洗
1、缺失值的处理
能够正常的看到,这份数据很洁净,没有空值。缺失值查询也能够用info()办法。
假如数据中有缺失值,咱们我们能够用dropna()办法来进行删去,或许用fillna()进行填充。
2、重复值处理
许多数据都是有重复值的,这个在数据剖析前有必要删去掉,否则影响成果的精确度,清洗办法为drop_duplicates()。
成果显现,无重复。完了,我找的这个数据或许是他人现已清洗过的了,或许不需求我清洗了,打扰了。
数据剖析
1、数据全体状况掌握,用shape办法检查维度。
成果显现,这个数据有4248行,14列。
2、用describe()办法来进行描述性剖析
从这个过程,想必你现已看出Python的强壮之处了,一个小办法,瞬间能够检查各列数据的计数、平均数、极值、方差、4分位数等等。当然,假如你这样写:describe(include='all'),数据会愈加具体。
3、排序剖析
比方我想看每个产品赢利额从高到低的剖析。
sort_values(by='赢利额')表明按赢利额排序,ascending=False表明降序排序,head()数据太大了,所以我用这个函数默许取前5个数据。
4、数据分组(跟SQL中的分组相同)
比方,我想看不同产品类别的赢利额巨细。我用groupby()检查了赢利额和出售额,依据肉眼,你一下估量看不出赢利额哪个大对不对?那能够精确的经过上面我介绍的排序常识来排序。
超快吧,要比excel便利对不对。
5、依据条件查询数据
比方,我要看看哪些产品有负赢利。发现普洱茶的部分产品许多是赔本的。或许你想,假如我只想查询清凉茶的负赢利产品呢?也能够的,在条件查询中多加个条件就好了。如图:
看到这儿,你应该能够精确的经过自己的剖析需求运用条件格局畅所欲为了吧。是不是比excel嵌套会好用一点呢,要害excel假如碰到大数据嵌套会,人会很溃散。比方我有次看到搭档为了匹配数据一跑数据便是一两个小时。这在Python里是分分钟的事。
6、条件杂乱一点剖析(透视表)
比方,我要看看不同区域清凉茶的赢利额和出售额的求和、平均值、极值呢?
这就需求用到上图展现中的pivot_table(),这便是透视表功用。这个功用能够让你完成各种杂乱剖析。但需求娴熟。
7、添加一列,算赢利率
比方我要算赢利率,那么我就得用赢利额除以出售额,再换成百分比对不对?如图:
数据可视化
1、各产品品种赢利额的图2、检查各种产品的赢利额散布在哪些区间
这是一个简略箱式图能看出极值、特别值、4分位值,中位数等等。
3、雷达图
假如我们娴熟了,就能够在这个基础上玩出各种把戏了。我将在接下来的时间里,持续做一些剖析事例,希望能共享一些十分简单上手,又能契合数据剖析职业实际工作的东西出来。