本文所述内容,参考了机器学习实战:基于Scikit-Learn和TensorFlow一书。
修正了书籍中的代码错误,文章中代码从上到下,组成一个完整的可运行的项目。
数据流水线:一个序列数据处理组件称为一个数据流水线,组件通常是异步运行,组件和组件之间的连接只有数据仓库。
选择性能指标
在回归问题中,经常使用均方根误差(RMSE)来衡量,它是预测错误的标准差,公式如下:
R M S E ( X , h ) = 1 m ∑ i = 1 m ( h ( x ( i ) − y ( i ) ) 2 {\rm{RMSE}}(X,h) = \sqrt { {1 \over m}\sum\limits_{i = 1}^m {(h({x^{(i)}}} - {y^{(i)}}{)^2}} RMSE(X,h)=m1i=1∑m(h(x(i)−y(i))2
当有很多离群区域时,可以使用平均绝对误差。公式如下:
M A E ( X , h ) = 1 m ∑ i = 1 m ∣ ( h ( x ( i ) − y ( i ) ) ∣ {\rm{MAE}}(X,h) = {1 \over m}\sum\limits_{i = 1}^m {|(h({x^{(i)}}} - {y^{(i)}})| MAE(X,h)=m1i=1∑m∣(h(x(i)−y(i))∣
方根误差和平均误差都是测量两个向量的距离:预测向量和目标值向量。距离或者范数的测度:
包含n个元素Vk的范数可以定义为:
∣ ∣ V k ∣ ∣ = ( ∣ v 0 ∣ k + ∣ v 1 ∣ k + . . . + ∣ v n ∣ k ) 1 k . l 0 ||{V_k}|| = {(|{v_0}{|^k} + |{v_1}{|^k} + ... + |{v_n}{|^k})^{ {1 \over k}}}.{l_0} ∣∣Vk∣∣=(∣v0∣k+∣v1∣k+...+∣vn</