您当前的位置:现代生活网资讯正文

使用Python对咖啡馆经营做一个简略的数据剖析

2019-11-07 23:18:43  阅读:3241 作者:责任编辑NO。蔡彩根0465

预备数据

1、导入python数据剖析模块三剑客:pandasmatplotlibnumpy2、用read_excel()办法导入数据源.输出成果截图如下(部分):

能够正常的看到有这些数据:订单日期、商场类别、区域、产品类别、产品名称、估量出售本钱、估量毛利、估量赢利、估量出售额、出售本钱、存货、毛利、赢利额、出售额等等。

数据清洗

1、缺失值的处理

能够正常的看到,这份数据很洁净,没有空值。缺失值查询也能够用info()办法。

假如数据中有缺失值,咱们我们能够用dropna()办法来进行删去,或许用fillna()进行填充。

2、重复值处理

许多数据都是有重复值的,这个在数据剖析前有必要删去掉,否则影响成果的精确度,清洗办法为drop_duplicates()。

成果显现,无重复。完了,我找的这个数据或许是他人现已清洗过的了,或许不需求我清洗了,打扰了。

数据剖析

1、数据全体状况掌握,用shape办法检查维度。

成果显现,这个数据有4248行,14列。

2、用describe()办法来进行描述性剖析

从这个过程,想必你现已看出Python的强壮之处了,一个小办法,瞬间能够检查各列数据的计数、平均数、极值、方差、4分位数等等。当然,假如你这样写:describe(include='all'),数据会愈加具体。

3、排序剖析

比方我想看每个产品赢利额从高到低的剖析。

sort_values(by='赢利额')表明按赢利额排序,ascending=False表明降序排序,head()数据太大了,所以我用这个函数默许取前5个数据。

4、数据分组(跟SQL中的分组相同)

比方,我想看不同产品类别的赢利额巨细。我用groupby()检查了赢利额和出售额,依据肉眼,你一下估量看不出赢利额哪个大对不对?那能够精确的经过上面我介绍的排序常识来排序。

超快吧,要比excel便利对不对。

5、依据条件查询数据

比方,我要看看哪些产品有负赢利。发现普洱茶的部分产品许多是赔本的。或许你想,假如我只想查询清凉茶的负赢利产品呢?也能够的,在条件查询中多加个条件就好了。如图:

看到这儿,你应该能够精确的经过自己的剖析需求运用条件格局畅所欲为了吧。是不是比excel嵌套会好用一点呢,要害excel假如碰到大数据嵌套会,人会很溃散。比方我有次看到搭档为了匹配数据一跑数据便是一两个小时。这在Python里是分分钟的事。

6、条件杂乱一点剖析(透视表)

比方,我要看看不同区域清凉茶的赢利额和出售额的求和、平均值、极值呢?

这就需求用到上图展现中的pivot_table(),这便是透视表功用。这个功用能够让你完成各种杂乱剖析。但需求娴熟。

7、添加一列,算赢利率

比方我要算赢利率,那么我就得用赢利额除以出售额,再换成百分比对不对?如图:

数据可视化

1、各产品品种赢利额的图2、检查各种产品的赢利额散布在哪些区间

这是一个简略箱式图能看出极值、特别值、4分位值,中位数等等。

3、雷达图

假如我们娴熟了,就能够在这个基础上玩出各种把戏了。我将在接下来的时间里,持续做一些剖析事例,希望能共享一些十分简单上手,又能契合数据剖析职业实际工作的东西出来。

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!