数据预处理(一)

发布时间:2024-11-23 19:16

数据清洗和预处理技巧:提高数据分析质量 #生活技巧# #学习技巧# #学术研究方法#

数据预处理(一)

最新推荐文章于 2023-12-25 09:27:54 发布

凯撒袁六兽 于 2021-07-27 20:48:46 发布

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

数据处理

数据处理维度

消费时间消费周期近6个月消费次数近6个月消费金额最小消费金额累计消费金额最大消费金额累计消费次数

数据处理步骤

导入数据

table=pd.read_excel(r"C:\Users\Kaiser\Desktop\DataDocument\storedata.xls") 1

数据的导入需要保证路径里的文件名全部为英文

将某一字符型的列按分类换成数字

data["消费类型"]=data["类型"]=="餐费支出" 1 删除类型与支付方式的列

data.drop(columns=["类型","支付方式"],inplace=True) 1 将所有数据按照时间排序

将时间转化为时间类型然后再进行sort排序即可

data["时间"]=pd.to_datetime(data["时间"]) data.sort_values('时间',inplace=True) 12 将时间转换为字符串并分为日期和时刻

时间这一列的字符串以空格为分隔分开

data["时间"]=data["时间"].astype('string') data["学号"]=data["学号"].astype('string') print(data.dtypes) data["消费日期"]=data["时间"].str.split(' ',expand=True)[0] data["消费时间"]=data["时间"].str.split(' ',expand=True)[1] 12345 删去时间这一列

data.drop(columns=["时间"],inplace=True) 1 导出Excel

在导出的时候要安装xlwt库并且要注意\转义的问题,最终的文件要以xls结尾

data.to_excel(r"C:\Users\Kaiser\Desktop\DataDocument\changedata1.xls") 1

所有代码

import numpy as np import pandas as pd table=pd.read_excel(r"C:\Users\Kaiser\Desktop\DataDocument\storedata.xls") data=table data["消费类型"]=data["类型"]=="餐费支出" data.drop(columns=["类型","支付方式"],inplace=True) data.sort_values('学号',inplace=True) data["时间"]=pd.to_datetime(data["时间"]) data.sort_values('时间',inplace=True) #print(data) data["时间"]=data["时间"].astype('string') data["学号"]=data["学号"].astype('string') print(data.dtypes) data["消费日期"]=data["时间"].str.split(' ',expand=True)[0] data["消费时间"]=data["时间"].str.split(' ',expand=True)[1] data.drop(columns=["时间"],inplace=True) data.to_excel(r"C:\Users\Kaiser\Desktop\DataDocument\changedata1.xls") print(data)

123456789101112131415161718

处理前:

在这里插入图片描述

处理后:

在这里插入图片描述

网址:数据预处理(一) https://www.yuejiaxmz.com/news/view/217591

相关内容

机器学习之数据预处理(Python 实现)
数据挖掘:数据清洗——数据噪声处理
Pandas 数据处理(一)缺失值处理
高校数据安全怎么做?安全可视化全面预防数据泄露
万兴数据管家—微信数据管理
数据化人生(一)——使用Mysql管理自己的生活数据
【Matlab学习手记】BP神经网络数据预测
数据安全管理制度
全球人类足迹数据(WSF)数据
基于大数据的智慧交通拥堵预测与大屏可视化

随便看看