学习笔记(三)数据预处理之数据清理

发布时间:2025-04-10 23:39

学习如何进行数据清洗和预处理 #生活技巧# #工作学习技巧# #数字技能学习#

学习笔记(三)数据预处理之数据清理

最新推荐文章于 2025-02-12 13:15:43 发布

WandaWang0822 于 2018-08-09 15:53:33 发布

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

数据预处理

1概述。为了提高数据的质量,数据质量涉及准确性、完整性、一致性、时效性、可信性(反应多少数据是用户信赖的)和可解释性(反映数据是否容易理解)。数据预处理的主要步骤:数据清理、数据集成、数据归约和数据变换。

数据清理:例程通过填写缺失的值,光滑噪声数据、识别或删除离群点,并解决不一致性来“清理”数据。数据集成:集成多个数据库、数据立方体或文件。数据归约:得到数据的简化表示,它小但能够产生同样的分析结果。(包括维归约和数值归约)。规范化、数据离散化和概念分层产生都是某种形式的数据变换。

2数据清理。

数据清理:试图填充缺失值、光滑噪声并且识别离群点、纠正数据中的不一致。

缺失值的处理方法:

忽略元祖:当缺少类标号时常这样 人工填写缺失值:费时,数据量超大时不靠谱 使用一个全局常量填充缺失值:例如NA,+替换,但是如果全用NA可能会形成一个有趣的概念,他们拥有相同的值。 使用属性的中心度量(均值、中位数)填充缺失值:对于对称数据使用均值,而倾斜数据的分布应该使用中位数填充。 使用与给定元祖组同属一类的所有样本的属性均值或中位数

网址:学习笔记(三)数据预处理之数据清理 https://www.yuejiaxmz.com/news/view/858732

相关内容

机器学习之数据预处理(Python 实现)
数据挖掘:数据清洗——数据噪声处理
从0到1数据分析实战学习笔记(二)数据清洗
Python数据分析——Pandas数据预处理
数据预处理(一)
Excel数据清洗的三大秘籍,高效处理数据的艺术,excel数据清洗的步骤
如何理解数据管理、数据治理、数据运营?
【Matlab学习手记】BP神经网络数据预测
数据化管理及数据化管理手段.pptx
电商大数据——数据化管理与运营之道(第2版)【全本

随便看看