python数据分析数据的去重,缺失值的处理

发布时间:2024-12-12 07:36

数据分析:Python的Pandas库数据处理 #生活知识# #编程教程#

最新推荐文章于 2024-09-18 11:52:30 发布

满天星☞ 于 2020-05-12 23:30:43 发布

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

1.1重复值的查看,带参数可以传入列,也可以不带:
    df.duplicated(subset=" ")

1.2重复值的处理(删除)

    删除整体数据的重复值,每个字段都一样的行

    带参数inplace=True改变原始数据,不带参数默认不改变
    df.drop_duplicates(inplace=True)
    按照某几列去重,是个列表的形式传入不同的列名:
    df.drop_duplicates(subset = [ " " , " " ])
    删除后的保留行keep参数:
        keep参数默认留重复的第一行,也可以保留最后一行
        传入参数keep = "last"
        传入keep = "False"时候把重复值全部删除,不做保留

2.1缺失值的查看:

    有没有缺失值
    df.isnull()
    不缺失数据
    ~df.isnull()
    查看哪列有缺失值
    df.isnull().any(axis=0)
    查看缺失值的个数
    df.isnull().sum(axis=0)
    查看缺失值的比例
    df.isnull().sum(axis=0)/df.shape[0]
2.2缺失值的处理(填充)

    df1.fillna(0)
    fillna(0)填充所有空白为0
    按列名填充相应的值,盲目添加
    df.fillna({"性别":"男","年龄":"10"})    
    按照不同方式填充缺失值----性别众数填充,年龄平均值填充,收入中位数填充
    df.fillna(value={"sex":df["sex"].mode()[0],"age":df["age"].mean(),"income":df["income"].median()})

2.3缺失值的处理(删除):

    df.dropna()
    dropna删除有缺失的行
    df.dropna(how = 'all')
    how = 'all'删除全部为空的行

网址:python数据分析数据的去重,缺失值的处理 https://www.yuejiaxmz.com/news/view/450584

相关内容

Python数据分析:对饮食与健康数据的分析与可视化
python数据分析
Python中的生活数据分析与个人健康监测.pptx
Pandas 数据处理(一)缺失值处理
Python数据分析实战
《python数据分析与挖掘》
现实生活中的数据分析是什么
Python财务数据分析与金融风险评估
数据清洗实战:工业生产数据的深入探讨
python excel数据分析师职业技能

随便看看