您当前的位置：现代生活网资讯正文

使用Python对咖啡馆经营做一个简略的数据剖析

2019-11-07 23:18:43 阅读：3241 作者：责任编辑NO。蔡彩根0465

预备数据

1、导入python数据剖析模块三剑客：pandasmatplotlibnumpy2、用read_excel()办法导入数据源.输出成果截图如下（部分）：

能够正常的看到有这些数据：订单日期、商场类别、区域、产品类别、产品名称、估量出售本钱、估量毛利、估量赢利、估量出售额、出售本钱、存货、毛利、赢利额、出售额等等。

数据清洗

1、缺失值的处理

能够正常的看到，这份数据很洁净，没有空值。缺失值查询也能够用info()办法。

假如数据中有缺失值，咱们我们能够用dropna()办法来进行删去，或许用fillna()进行填充。

2、重复值处理

许多数据都是有重复值的，这个在数据剖析前有必要删去掉，否则影响成果的精确度,清洗办法为drop_duplicates()。

成果显现，无重复。完了，我找的这个数据或许是他人现已清洗过的了，或许不需求我清洗了，打扰了。

数据剖析

1、数据全体状况掌握，用shape办法检查维度。

成果显现，这个数据有4248行，14列。

2、用describe()办法来进行描述性剖析

从这个过程，想必你现已看出Python的强壮之处了，一个小办法，瞬间能够检查各列数据的计数、平均数、极值、方差、4分位数等等。当然，假如你这样写：describe(include='all')，数据会愈加具体。

3、排序剖析

比方我想看每个产品赢利额从高到低的剖析。

sort_values(by='赢利额')表明按赢利额排序，ascending=False表明降序排序，head()数据太大了，所以我用这个函数默许取前5个数据。

4、数据分组（跟SQL中的分组相同）

比方，我想看不同产品类别的赢利额巨细。我用groupby()检查了赢利额和出售额，依据肉眼，你一下估量看不出赢利额哪个大对不对？那能够精确的经过上面我介绍的排序常识来排序。

超快吧，要比excel便利对不对。

5、依据条件查询数据

比方，我要看看哪些产品有负赢利。发现普洱茶的部分产品许多是赔本的。或许你想，假如我只想查询清凉茶的负赢利产品呢？也能够的，在条件查询中多加个条件就好了。如图：

看到这儿，你应该能够精确的经过自己的剖析需求运用条件格局畅所欲为了吧。是不是比excel嵌套会好用一点呢，要害excel假如碰到大数据嵌套会，人会很溃散。比方我有次看到搭档为了匹配数据一跑数据便是一两个小时。这在Python里是分分钟的事。

6、条件杂乱一点剖析(透视表)

比方，我要看看不同区域清凉茶的赢利额和出售额的求和、平均值、极值呢？

这就需求用到上图展现中的pivot_table()，这便是透视表功用。这个功用能够让你完成各种杂乱剖析。但需求娴熟。

7、添加一列，算赢利率

比方我要算赢利率，那么我就得用赢利额除以出售额，再换成百分比对不对？如图：

数据可视化

1、各产品品种赢利额的图2、检查各种产品的赢利额散布在哪些区间

这是一个简略箱式图能看出极值、特别值、4分位值，中位数等等。

3、雷达图

假如我们娴熟了，就能够在这个基础上玩出各种把戏了。我将在接下来的时间里，持续做一些剖析事例，希望能共享一些十分简单上手，又能契合数据剖析职业实际工作的东西出来。

“如果发现本网站发布的资讯影响到您的版权，可以联系本站！同时欢迎来本站投稿！

热门排行