一文看懂機器學習「3種學習方法+7個實操步驟+15種常見算法」
機器學習、人工智能、深度學習是什麼關係?
1956 年提出 AI 概念,短短3年後(1959) Arthur Samuel 就提出了機器學習的概念:
Field of study that gives computers the ability to learn without being explicitly programmed.
機器學習研究和構建的是一種特殊算法(而非某一個特定的算法),能夠讓計算機自己在數據中學習從而進行預測。
所以,機器學習不是某種具體的算法,而是很多算法的統稱。
機器學習包含了很多種不同的算法,深度學習就是其中之一,其他方法包括決策樹,聚類,貝葉斯等。
深度學習的靈感來自大腦的結構和功能,即許多神經元的互連。人工神經網絡(ANN)是模擬大腦生物結構的算法。
不管是機器學習還是深度學習,都屬於人工智能(AI)的範疇。所以人工智能、機器學習、深度學習可以用下面的圖來表示:
人工智能、機器學習、深度學習的關係
詳細了解人工智能:《「2019更新」什麼是人工智能?(AI的本質+發展史+局限性)》
詳細了解深度學習:《一文看懂深度學習(白話解釋+8個優缺點+4個典型算法)》
什麼是機器學習?
在解釋機器學習的原理之前,先把最精髓的基本思路介紹給大家,理解了機器學習最本質的東西,就能更好的利用機器學習,同時這個解決問題的思維還可以用到工作和生活中。
機器學習的基本思路
把現實生活中的問題抽象成數學模型,並且很清楚模型中不同參數的作用 利用數學方法對這個數學模型進行求解,從而解決現實生活中的問題 評估這個數學模型,是否真正的解決了現實生活中的問題,解決的如何?無論使用什麼算法,使用什麼樣的數據,最根本的思路都逃不出上面的3步!
機器學習的基本思路
當我們理解了這個基本思路,我們就能發現:
不是所有問題都可以轉換成數學問題的。那些沒有辦法轉換的現實問題 AI 就沒有辦法解決。同時最難的部分也就是把現實問題轉換為數學問題這一步。
機器學習的原理
下面以監督學習為例,給大家講解一下機器學習的實現原理。
假如我們正在教小朋友識字(一、二、三)。我們首先會拿出3張卡片,然後便讓小朋友看卡片,一邊說「一條橫線的是一、兩條橫線的是二、三條橫線的是三」。
不斷重複上面的過程,小朋友的大腦就在不停的學習。
當重複的次數足夠多時,小朋友就學會了一個新技能——認識漢字:一、二、三。
我們用上面人類的學習過程來類比機器學習。機器學習跟上面提到的人類學習過程很相似。
上面提到的認字的卡片在機器學習中叫——訓練集 上面提到的「一條橫線,兩條橫線」這種區分不同漢字的屬性叫——特徵 小朋友不斷學習的過程叫——建模 學會了識字後總結出來的規律叫——模型通過訓練集,不斷識別特徵,不斷建模,最後形成有效的模型,這個過程就叫「機器學習」!
監督學習、非監督學習、強化學習
機器學習根據訓練方法大致可以分為3大類:
監督學習 非監督學習 強化學習除此之外,大家可能還聽過「半監督學習」之類的說法,但是那些都是基於上面3類的變種,本質沒有改變。
監督學習
監督學習是指我們給算法一個數據集,並且給定正確答案。機器通過數據來學習正確答案的計算方法。
舉個栗子:
我們準備了一大堆貓和狗的照片,我們想讓機器學會如何識別貓和狗。當我們使用監督學習的時候,我們需要給這些照片打上標籤。
將打好標籤的照片用來訓練
我們給照片打的標籤就是「正確答案」,機器通過大量學習,就可以學會在新照片中認出貓和狗。
當機器遇到新的小狗照片時就能認出他
這種通過大量人工打標籤來幫助機器學習的方式就是監督學習。這種學習方式效果非常好,但是成本也非常高。
了解更多關於 監督學習
非監督學習
非監督學習中,給定的數據集沒有「正確答案」,所有的數據都是一樣的。無監督學習的任務是從給定的數據集中,挖掘出潛在的結構。
舉個栗子:
我們把一堆貓和狗的照片給機器,不給這些照片打任何標籤,但是我們希望機器能夠將這些照片分分類。
將不打標籤的照片給機器
通過學習,機器會把這些照片分為2類,一類都是貓的照片,一類都是狗的照片。雖然跟上面的監督學習看上去結果差不多,但是有着本質的差別:
非監督學習中,雖然照片分為了貓和狗,但是機器並不知道哪個是貓,哪個是狗。對於機器來說,相當於分成了 A、B 兩類。
機器可以將貓和狗分開,但是並不知道哪個是貓,哪個是狗
了解更多關於 非監督學習
強化學習
強化學習更接近生物學習的本質,因此有望獲得更高的智能。它關注的是智能體如何在環境中採取一系列行為,從而獲得最大的累積回報。通過強化學習,一個智能體應該知道在什麼狀態下應該採取什麼行為。
最典型的場景就是打遊戲。
2019年1月25日,AlphaStar(Google 研發的人工智能程序,採用了強化學習的訓練方式) 完虐星際爭霸的職業選手職業選手「TLO」和「MANA」。新聞鏈接
了解更多關於 強化學習
通過上面的內容,我們對機器學習已經有一些模糊的概念了,這個時候肯定會特別好奇:到底怎麼使用機器學習?
機器學習在實際操作層面一共分為7步:
收集數據 數據準備 選擇一個模型 訓練 評估 參數調整 預測(開始使用) 機器學習的7個步驟
假設我們的任務是通過酒精度和顏色來區分紅酒和啤酒,下面詳細介紹一下機器學習中每一個步驟是如何工作的。
案例目標:區分紅酒和啤酒
步驟1:收集數據
我們在超市買來一堆不同種類的啤酒和紅酒,然後再買來測量顏色的光譜儀和用於測量酒精度的設備。
這個時候,我們把買來的所有酒都標記出他的顏色和酒精度,會形成下面這張表格。
顏色 酒精度 種類 610 5 啤酒 599 13 紅酒 693 14 紅酒 … … …這一步非常重要,因為數據的數量和質量直接決定了預測模型的好壞。
步驟2:數據準備
在這個例子中,我們的數據是很工整的,但是在實際情況中,我們收集到的數據會有很多問題,所以會涉及到數據清洗等工作。
當數據本身沒有什麼問題後,我們將數據分成3個部分:訓練集(60%)、驗證集(20%)、測試集(20%),用於後面的驗證和評估工作。
數據要分為3個部分:訓練集、驗證集、測試集
關於數據準備部分,還有非常多的技巧,感興趣的可以看看《AI 數據集最常見的6大問題(附解決方案)》
步驟3:選擇一個模型
研究人員和數據科學家多年來創造了許多模型。有些非常適合圖像數據,有些非常適合於序列(如文本或音樂),有些用於數字數據,有些用於基於文本的數據。
在我們的例子中,由於我們只有2個特徵,顏色和酒精度,我們可以使用一個小的線性模型,這是一個相當簡單的模型。
步驟4:訓練
大部分人都認為這個是最重要的部分,其實並非如此~ 數據數量和質量、還有模型的選擇比訓練本身重要更多(訓練知識台上的3分鐘,更重要的是台下的10年功)。
這個過程就不需要人來參與的,機器獨立就可以完成,整個過程就好像是在做算術題。因為機器學習的本質就是將問題轉化為數學問題,然後解答數學題的過程。
步驟5:評估
一旦訓練完成,就可以評估模型是否有用。這是我們之前預留的驗證集和測試集發揮作用的地方。評估的指標主要有 準確率、召回率、F值。
這個過程可以讓我們看到模型如何對尚未看到的數是如何做預測的。這意味着代表模型在現實世界中的表現。
步驟6:參數調整
完成評估後,您可能希望了解是否可以以任何方式進一步改進訓練。我們可以通過調整參數來做到這一點。當我們進行訓練時,我們隱含地假設了一些參數,我們可以通過認為的調整這些參數讓模型表現的更出色。
步驟7:預測
我們上面的6個步驟都是為了這一步來服務的。這也是機器學習的價值。這個時候,當我們買來一瓶新的酒,只要告訴機器他的顏色和酒精度,他就會告訴你,這時啤酒還是紅酒了。
YouTube 上有一個視頻介紹了這7個步驟 The 7 Steps of Machine Learning(需要科學上網)
15種經典機器學習算法
ner“>
算法 訓練方式 線性回歸 監督學習 邏輯回歸 監督學習 線性判別分析 監督學習 決策樹 監督學習 樸素貝葉斯 監督學習 K鄰近 監督學習 學習向量量化 監督學習 支持向量機 監督學習 隨機森林 監督學習 AdaBoost 監督學習 高斯混合模型 非監督學習 限制波爾茲曼機 非監督學習 K-means 聚類 非監督學習 最大期望算法 非監督學習
百度百科+維基百科
百度百科版本
機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。
專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。 它是人工智能的核心,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領域,它主要使用歸納、綜合而不是演繹。
查看詳情
維基百科版本
機器學習是利用計算機算法和統計模型是計算機系統使用,逐步提高完成特定任務的能力。
機器學習建立樣本數據的數學模型,稱為「 訓練數據 」,以便在不明確編程以執行任務的情況下進行預測或決策。機器學習算法用於電子郵件過濾,網絡入侵者檢測和計算機視覺的應用,開發用於執行任務的特定指令的算法是不可行的。機器學習與計算統計密切相關,計算統計側重於使用計算機進行預測。數學優化的研究為機器學習領域提供了方法,理論和應用領域。數據挖掘是機器學習中的一個研究領域,側重於通過無監督學習進行探索性數據分析。在跨業務問題的應用中,機器學習也被稱為預測分析。
查看詳情
補充資料2:優質擴展閱讀
网址:一文看懂機器學習「3種學習方法+7個實操步驟+15種常見算法」 https://www.yuejiaxmz.com/news/view/67202
相关内容
著力做好線上教學輔導工作 山東開通免費心理咨詢電話(六)環保與生活.doc
生活常識教育學校不該越俎代庖
人民日報有的放矢:良好衛生習慣和生活方式貴在堅持
~健康生活之飲食習慣~.ppt
生活哲學
中青報:勞動教育是最好的生活教育
生活美学与艺术经验
成功妻子的生活哲學
不應忽視黨員干部生活教育