机器学习（一）——特征工程

发布时间：2024-11-18 20:19

深度学习自编码器：用于特征提取和降维 #生活技巧# #学习技巧# #深度学习技巧#

1.文字数字化

from sklearn.feature_extraction.text import CountVectorizer

vector = CountVectorizer()

res = vector.fit_transform(['life is short,i love python','life is too long,i hate python'])

print(res.toarray())

2.特征选择——过滤式方法

from sklearn.feature_selection import VarianceThreshold

#threshold方差的值，删除所有方差低于x的值，默认值为0表示保留所有方差为非0的特征值

v = VarianceThreshold(threshold=1)

array = v.fit_transform([[0,2,4,3],[0,3,7,3],[0,9,6,3]])#：x为特征

print(array)

3.获取数据集--方式1：获取小规模的数据集datasets.load_*()

import sklearn.datasets as datasets

iris = datasets.load_iris()

print(iris)

feature = iris['data']

target = iris['target']

print(feature.shape)

print(target.shape)

4.获取数据集方式2--获取较大规模的数据集datasets.fetch_*(data_home=None,subset) data_home表示数据集下载目录，None为默认值表示在家目录下/scikit_learn_data(自动创建该文件夹)下。 subset为需要从网络下载的数据集，可以为train,test,all

import sklearn.datasets as datasets

data = datasets.fetch_20newsgroups(data_home=None,subset='all')

print(data)

将数据集进行拆分

from sklearn.model_selection import train_test_split

# 拆分样本数据集，其中训练集占0.8，测试集占0.2,按照2020的方式对原数据集进行打乱再拆分 #x_train和y_train分别是训练集中的特征数据和目标数据 #x_test和y_test分别是测试及中的特征数据和目标数据

x_train,x_test,y_train,y_test=train_test_split(feature,target,test_size=0.2,random_state=2020)

网址：机器学习（一）——特征工程 https://www.yuejiaxmz.com/news/view/124662

上一篇：TensorFlow 平滑ten

下一篇：VEVOR 超声波清洗机：深度清