机器学习(一)——特征工程
深度学习自编码器:用于特征提取和降维 #生活技巧# #学习技巧# #深度学习技巧#
1.文字数字化
from sklearn.feature_extraction.text import CountVectorizer
vector = CountVectorizer()
res = vector.fit_transform(['life is short,i love python','life is too long,i hate python'])
print(res.toarray())
2.特征选择——过滤式方法
from sklearn.feature_selection import VarianceThreshold
#threshold方差的值,删除所有方差低于x的值,默认值为0表示保留所有方差为非0的特征值
v = VarianceThreshold(threshold=1)
array = v.fit_transform([[0,2,4,3],[0,3,7,3],[0,9,6,3]])#:x为特征
print(array)
3.获取数据集--方式1:获取小规模的数据集datasets.load_*()
import sklearn.datasets as datasets
iris = datasets.load_iris()
print(iris)
feature = iris['data']
target = iris['target']
print(feature.shape)
print(target.shape)
4.获取数据集方式2--获取较大规模的数据集datasets.fetch_*(data_home=None,subset) data_home表示数据集下载目录,None为默认值表示在家目录下/scikit_learn_data(自动创建该文件夹)下。 subset为需要从网络下载的数据集,可以为train,test,all
import sklearn.datasets as datasets
data = datasets.fetch_20newsgroups(data_home=None,subset='all')
print(data)
将数据集进行拆分
from sklearn.model_selection import train_test_split
# 拆分样本数据集,其中训练集占0.8,测试集占0.2,按照2020的方式对原数据集进行打乱再拆分 #x_train和y_train分别是训练集中的特征数据和目标数据 #x_test和y_test分别是测试及中的特征数据和目标数据
x_train,x_test,y_train,y_test=train_test_split(feature,target,test_size=0.2,random_state=2020)
网址:机器学习(一)——特征工程 https://www.yuejiaxmz.com/news/view/124662
相关内容
机器学习降维:删除低方差特征与相关系数博弈论+机器学习=?
一文看懂机器学习「3 种学习方法 + 7 个实操步骤 + 15 种常见算法」
基于机器学习的服装搭配问题分析
机器学习: LightGBM模型(优化版)——高效且强大的树形模型
【ML】现实生活中的十大机器学习示例(让世界变得更美好)
机器学习算法应用场景实例六十则
北师大举办学习宣传贯彻党的二十大精神“启航新征程”主题宣讲
手机中病毒都有这些特征,你可以用手机自查一下有没有中招
扫地机器人出海:征服懒人第一步,从地板开始