python如何提高办公效率
如何有效整理办公桌,提高工作效率 #生活技巧# #组织技巧# #工作区域优化#
温馨提示:手机横屏阅读本文,体验更好
今天讲一下:
数据分析中缺失值的几个处理方法
先回顾一下:
上几篇主要介绍了一下时间数据处理的基本方法,在日常工作中,其实,时间数据(或称时间序列)的处理还有很多的知识及应用,可以说关于时间序列的理解和处理,是量化分析及处理的一块基石,但这里,我们暂且把它先放一放,饭要一口口地吃,后续在具体的案例分析中,再继续讲。
今天接着看一下缺失值处理的其他一些方法:
1、需要用到模块
pandas
先引入这个武器:
import pandas as pd
2、准备工作:
我们继续把那个费用和部门数据表拿来用一下。
3、先导入费用表和部门信息表
bf = pd.read_excel("d:\\data\\test008.xlsx",sheet_name="费和")
bm = pd.read_excel("d:\\data\\test008.xlsx",sheet_name="部门")
4、使用merge 方法把这两个信息表合并一下,制造一些缺失值出来:
df = pd.merge(bf,bm,how="right",left_on="工号",right_on="employee ID")
上面这句话的意思是把bf 和 bm两个格子间的数据, 以bf中的工号为联结键,以bm表中的“employee ID” 为联结键进行组合,组合方式how = "right"是 以右表(即部门bm表)中的联结键来进行组合。
看一下组合后的结果:
红框内的行中,有几列数据是Nan或NaT(时间列),这些缺失值的产生是由于bm表中有些员工是没有报销记录的,因此在左表的费用表中匹配不上。
当然这个例子非常简单,数据样本又少,我们一眼就能发现问题之所在,但在复杂的实际业务中,或是数据样本量极大时,肉眼是很较难发现这种问题的。
在pandas中,提供了一些方法,可以让我们比较方便地识别出缺失值、过滤掉缺失值,还可以按一定的规则填充缺失值(在统计学中有用,本篇先不讲)
我们先看一下如何识别的方法,在pandas中有如下4个,isna, isnull,notna和notnull, 其中前两个功能等同,后两个也是, 前两个用于判断值是否缺失,如果是缺失的,则返回“真”, 后两个则正好相反。
比如我们要把组合后的df结果中所有"工号"列缺失的行找出来,可以这样写:
df[df["工号"].isna()]
结果如下:
如果我们想要统计费用报销数据(比如计数),这些行的存在有可能会给我们的工作造成干扰,我们需要先把它们清理掉,pandas中提供的方法是dropna()
针对以上例子,我们可以写成:
df.dropna(inplace = True)
上面语句中inplace = True的意思是直接对df表中的数据进行操作,不再另外产生一个新的视图了,所以运行完后,df表中将会少掉6条数据,让我们看一下结果:
那些工号、姓名等列数据缺失的行数据已经不存在了。
今天就先总结到这儿,不知大家看了我今天的学习笔记,有没有一点点收获呢?
如果有什么问题,可在公众号后台给我留言,在我能力圈内的,尽快给大家回复。
下篇预告:
介绍一下python中重复数据的处理方法
网址:python如何提高办公效率 https://www.yuejiaxmz.com/news/view/368832
相关内容
python提高办公效率在家办公如何提高效率
6个 Python 办公黑科技,工作效率提升100倍!(附代码)
Python自动化办公学习路线:提升工作效率,释放副业可能,让生活更美好!
如何优化办公环境,提高员工的工作效率
推荐高效办公软件,提高办公效率
Python办公自动化:解锁高效工作流程,掌握文档处理的艺术
python常用工具,提高工作效率全靠它!
Python实现简便算法提升拼音输入法准确率与效率
居家如何高效办公 5个技巧提高高效居家办公