机器学习(一)——特征工程

发布时间:2024-11-18 20:19

深度学习自编码器:用于特征提取和降维 #生活技巧# #学习技巧# #深度学习技巧#

1.文字数字化

from sklearn.feature_extraction.text import CountVectorizer

vector = CountVectorizer()

res = vector.fit_transform(['life is short,i love python','life is too long,i hate python'])

print(res.toarray())

2.特征选择——过滤式方法

from sklearn.feature_selection import VarianceThreshold

#threshold方差的值,删除所有方差低于x的值,默认值为0表示保留所有方差为非0的特征值

v = VarianceThreshold(threshold=1)

array = v.fit_transform([[0,2,4,3],[0,3,7,3],[0,9,6,3]])#:x为特征

print(array)

3.获取数据集--方式1:获取小规模的数据集datasets.load_*()

import sklearn.datasets as datasets

iris = datasets.load_iris()

print(iris)

feature = iris['data']

target = iris['target']

print(feature.shape)

print(target.shape)

4.获取数据集方式2--获取较大规模的数据集datasets.fetch_*(data_home=None,subset) data_home表示数据集下载目录,None为默认值表示在家目录下/scikit_learn_data(自动创建该文件夹)下。 subset为需要从网络下载的数据集,可以为train,test,all

import sklearn.datasets as datasets

data = datasets.fetch_20newsgroups(data_home=None,subset='all')

print(data)

将数据集进行拆分 

from sklearn.model_selection import train_test_split

# 拆分样本数据集,其中训练集占0.8,测试集占0.2,按照2020的方式对原数据集进行打乱再拆分 #x_train和y_train分别是训练集中的特征数据和目标数据 #x_test和y_test分别是测试及中的特征数据和目标数据

x_train,x_test,y_train,y_test=train_test_split(feature,target,test_size=0.2,random_state=2020)

网址:机器学习(一)——特征工程 https://www.yuejiaxmz.com/news/view/124662

相关内容

机器学习降维:删除低方差特征与相关系数
博弈论+机器学习=?
一文看懂机器学习「3 种学习方法 + 7 个实操步骤 + 15 种常见算法」
基于机器学习的服装搭配问题分析
机器学习: LightGBM模型(优化版)——高效且强大的树形模型
【ML】现实生活中的十大机器学习示例(让世界变得更美好)
机器学习算法应用场景实例六十则
北师大举办学习宣传贯彻党的二十大精神“启航新征程”主题宣讲
手机中病毒都有这些特征,你可以用手机自查一下有没有中招
扫地机器人出海:征服懒人第一步,从地板开始

随便看看