StatQuest圖解機器學習
作者: (美)喬許‧史塔默
譯者: 錢辰江
出版社:電子工業出版社
出版日期:2025/03/01
頁 數:296
ISBN:9787121497643
編輯推薦
適讀人群 :零基礎學習統計學和機器學習的讀者
他幫助世界各行各業的人贏得資料科學競賽、通過考試、順利畢業、成功求職或實現晉升,因此被大家譽為「矽谷守護神」。
他獨特的圖文表達形式和幽默的語言風格深受觀眾喜愛。這本《StatQuest圖解機器學習》結合了他創新的視覺呈現方式,深入淺出地闡釋了機器學習的基礎知識和高階知識,是一本輕鬆理解機器學習的「漫畫書」。是我們都愛的StatQuest統計學和機器學習書。
內容簡介
Josh Starmer博士在YouTube帳號「StatQuest」的影片總觀看量突破7500萬次(截至2025年2月統計的數據),他幫助世界各行各業的人贏得數據科學競賽、通過考試、順利畢業、成功求職或實現晉升,因此被大家譽為「矽谷守護神」。他獨特的圖文表達形式和幽默的語言風格深受觀眾喜愛。這本《StatQuest圖解機器學習》結合了他創新的視覺呈現方式,深入淺出地闡釋了機器學習的基礎知識和高階知識,是一本輕鬆理解機器學習的「漫畫書」。
本書前3章著重介紹了機器學習的整體框架和主要思想,從第4章起,介紹了各種機器學習演算法:從基礎的線性回歸(第4章)和邏輯回歸(第6章)到樸素貝葉斯(第7章)和決策樹(第10章),最後介紹了支持向量機(第11章)和神經網路(第12章)。在介紹機器學習演算法的同時,本書也穿插介紹了機器學習的進階知識和實用技巧,如梯度下降法(第5章)、模型效能度量(第8章)和防止過度擬合的正規化方法(第9章)。
作者簡介
Josh Starmer,YouTube熱門頻道「StatQuest with Josh Starmer」的幕後創作者。他以創新的視覺呈現方式和獨特的教學風格,向全世界好奇的人們解釋了統計學、資料科學和機器學習的概念和演算法。 StatQuest幫助全世界各行各業的人贏得數據科學競賽、通過考試、順利畢業、成功求職或實現晉升,因此,Josh被大家譽為“矽谷的守護神”;他也被譽為“統計學的比爾·奈”,因為他以趣味橫生的方式使機器學習這一話題變得引人入勝;還有人讚譽他為“數據的鮑勃·羅斯”,因為他拒絕通過幽默歌曲的炒作。
譯者簡介
錢辰江
美國芝加哥大學統計學碩士,加州大學洛杉磯分校數學經濟學士。目前任職於美國矽谷某網路創業公司,主要從事數據科學相關工作。曾任職於電商互聯網公司Wish和美國銀行,具有紮實的統計理論基礎和豐富的實戰經驗。
潘文皓
美國喬治亞大學統計學博士,研究方向為象徵性資料的聚類分析演算法。目前任職於美國蘋果總部,主要從事數據科學相關的模型開發與研究工作。曾任美國富國銀行量化分析師,負責反詐欺模型的開發、檢測與應用。
目錄
第1章 機器學習的基本概念 001
機器學習:主要思想 002
機器學習分類問題:主要思想 003
機器學習迴歸問題:主要思想 004
機器學習方法的比較:主要思想 005
機器學習的主要想法:總結 010
第2章 交叉驗證法 014
交叉驗證法:主要思想 015
第3章 統計學的基本概念 023
統計學:主要思想 024
直方圖:主要思想 025
機率分佈:主要思想 029
離散機率分佈:主要思想 030
離散機率分佈:總結 040
連續性機率分佈:主要思想 041
常態(高斯)分佈:主要思想1 042
常態(高斯)分佈:主要思想2 043
其他連續性機率分佈:主要想法 047
連續性機率分佈:總結 048
模型:主要思想1 049
模型:主要思想2 050
殘差平方和:主要思想1 051
殘差平方和:主要思想2 052
均方誤差(MSE):主要思想 054
R2:主要思想 056
p值:主要思想1 061
p值:主要思想2 062
p值:主要思想3 063
p值:主要思想4 064
p值:主要思想5 065
統計學的基本概念:總結 066
第4章 線性迴歸 068
線性迴歸:主要思想 069
擬合線:主要思想 070
線性迴歸的p值與R2:主要思想 072
多元線性迴歸:主要思想 073
第5章 梯度下降法 076
梯度下降法:主要思想 077
隨機梯度下降法:主要思想 097
第6章 邏輯迴歸 101
邏輯迴歸:主要思想1 102
邏輯迴歸:主要思想2 103
邏輯迴歸:主要思想3 104
擬合數據:主要思想1 108
擬合資料:主要思想2 109
擬合數據:主要思想3 110
第7章 樸素貝葉斯 113
樸素貝葉斯:主要思想 114
多項樸素貝葉斯:處理缺失資料 120
多項樸素貝葉斯 vs. 高斯樸素貝葉斯 121
樸素貝葉斯:常見問題1 126
樸素貝葉斯:常見問題2 127
樸素貝葉斯:常見問題3 128
第8章 模型表現量測 129
模型效能衡量:主要思想 130
混淆矩陣:主要思想 131
靈敏度和特異度:主要思想 136
準確率和召回率:主要思想 137
真陽性率和假陽性率:主要想法 139
ROC:主要思想1 140
ROC:主要思想2 141
ROC:主要思想3 142
ROC:主要思想4 143
ROC:主要思想5 144
ROC:主要思想6 145
AUC:主要思想 151
PR曲線:主要思想1 154
PR曲線:主要思想2 155
第9章 防止過擬合的正規化方法 157
正則化:主要思想 158
嶺迴歸/L2正規化:提問與回答 165
第10章 決策樹 176
分類樹與迴歸樹:主要思想 177
分類樹:主要思想 180
建構分類樹:總結 193
回歸樹:主要思想1 195
回歸樹:主要思想2 196
第11章 支援向量機 211
支援向量機:主要思想 212
第12章 神經網路 227
神經網路:主要思想 229
激活函數:主要思想 233
逆傳播:主要思想 246
神經網路:提問與回答 262
附錄 在課堂裡學過但需要溫習的知識 264
附錄A 關於派的機率 265
附錄B 平均值、變異數以及標準差 268
附錄C 計算連續機率分佈機率的計算機命令 273
附錄D 導數的主要思想 277
附錄E 多項式求導公式 280
附錄F 鍊式法則 282
致謝 288
索引 290
機器學習圖解
ISBN13:9787302634645
出版社:清華大學出版社(大陸)
作者:(加)路易斯G.塞拉諾
出版日:2023/07/01
裝訂/頁數:平裝/416頁
規格:24cm*17cm (高/寬)
版次:一版
內容介紹
目前,該領域中將理論與實踐結合、通俗易懂的著作較少。機器學習是人工智慧的一部分,許多初學者往往把機器學習和深度學習作為人工智慧入門的突破口,非科班出身的人士更是如此。目前,國內縱向複合型人才與橫向複合型人才奇缺;具有電腦背景的人才主要還是以傳統人工智慧研究為主,跨學科人才較少。非科班人員在將機器學習應用於自己的研究時,往往對理論理解不透徹,且程式設計能力不足。針對此現象,譯者長期與出版社合作,翻譯了一些經典實用、符合實際需求的著作,藉此幫助人工智慧、機器學習等相關領域的人士(包括非專業人士)使用機器學習解決自己所在領域的問題。
《機器學習圖解》就是這樣的著作!本書作者擁有密西根大學數學博士學位,曾擔任Google和Apple工程師,是機器學習佈道者。本書是他這些年的成果結晶。本書將理論與實務結合,以圖的形式講解機器學習經典演算法。全書共13章。第1章、第2章、第4章主要介紹機器學習基本概念、機器學習類型、最佳化訓練過程。
這對初學者形成機器學習思考習慣非常有益。第3章和第5~12章對9類經典的機器學習演算法進行了系統介紹,包含問題提出、原理解釋、程式碼實作等面向。第13章列舉了真實範例。本書提供了豐富的程式碼和影片資源。建議讀者一邊閱讀本書,一邊動手實踐,調試源碼,並根據自己的實際需要研究問題,閱讀文獻並改進源碼,解決自己的問題。本書可作為本科高年級和研究生教材,面向對編碼有興趣但不擅長數學的讀者(非專業人士)。同時可作為電腦科學學者、企業工程師的參考書。
目錄
第1 章 什麼是機器學習?這是一種常識,特別之處在於由計算機完成 1
1.1 我是否需要掌握大量的數學和程式設計背景知識才能理解機器學習 2
1.2 機器學習究竟是什麼 3
1.3 如何讓機器根據數據做出決策?記憶-制定-預測架構 6
1.4 本章小結 12
第2 章 機器學習類型 15
2.1 標籤資料和無標籤資料的差異 17
2.2 監督式學習:處理標籤資料的機器學習分支 18
2.3 無監督學習:處理無標籤資料的機器學習分支 21
2.4 什麼是強化學習 28
2.5 本章小結 30
2.6 練習 31
第3 章 在點附近畫一條線:線性迴歸 33
3.1 問題:預測房屋的價格 35
3.2 解:建立房價迴歸模型 35
3.3 如何讓計算機繪製出這條線:線性迴歸演算法 41
3.4 如何衡量結果?誤差函數 54
3.5 實際應用:使用Turi Create預測房價 61
3.6 如果資料不在一行怎麼辦?多項式迴歸 63
3.7 參數和超參數 64
3.8 回歸應用 6
3.9 本章小結 66
3.10 練習 66
第4 章 最佳化訓練流程:欠擬合、過擬合、測試和正規化 69
4.1 使用多項式迴歸的欠擬合和過擬合範例 71
4.2 如何讓電腦選擇正確的模型?測試 73
4.3 我們在哪裡打破了黃金法則,如何解決?驗證集 75
4.4 決定模型複雜度的數值方法:模型複雜度圖 76
4.5 避免過擬合的另一種選擇:正規化 77
4.6 使用Turi Create 進行多項式迴歸、檢定和正規化 85
4.7 本章小結 89
4.8 練習 90
第5 章 使用線來分割點: 感知器演算法 93
5.1 問題:我們在一個外星球上,聽不懂外星人的語言 95
5.2 如何確定分類器的好壞?誤差函數 108
5.3 如何找到一個好的分類器?感知器演算法 115
5.4 感知器演算法編程實現 123
5.5 感知器演算法的應用 128
5.6 本章小結 129
5.7 練習 130
第6 章 劃分點的連續方法:邏輯分類器 133
6.1 邏輯分類器:連續版感知器分類器 134
6.2 如何找到一個好的邏輯分類器?邏輯迴歸演算法 144
6.3 對邏輯迴歸演算法進行程式設計 150
6.4 實際應用:使用Turi Create對IMDB 評論進行分類 154
6.5 多分類:softmax 函數 156
6.6 本章小結 157
6.7 練習 158
第7 章 如何衡量分類模型?準確率和其他相關概念 159
7.1 準確率:模型的正確頻率是多少 160
7.2 如何解決準確率問題?定義不同類型的誤差以及如何進行衡量 161
7.3 一個有用的模型評估工具ROC 曲線 170
7.4 本章小結 179
7.5 練習 181
第8 章 使用機率化:樸素貝葉斯模型 183
8.1 生病還是健康?以貝葉斯定理為主角的故事 184
8.2 用例:垃圾郵件偵測模型 188
8.3 使用真實資料建立垃圾郵件偵測模型 201
8.4 本章小結 204
8.5 練習 205
第9 章 透過提問劃分資料:決策樹 207
9.1 問題:需根據使用者可能下載的內容向使用者推薦應用程式 213
9.2 解決方案:建置應用推薦系統 214
9.3 超出「是」或「否」之類的問題 228
9.4 決策樹的圖形邊界 231
9.5 實際應用:使用Scikit-Learn 建立招生模型 234
9.6 用於迴歸的決策樹 238
9.7 應用 241
9.8 本章小結 242
9.9 練習 242
第10 章 組合積木以獲得更多力量:神經網路 245
10.1 以更複雜的外星球為例,開啟神經網路學習 247
10.2 訓練神經網路 258
10.3 Keras 中的神經網路程式設計 264
10.4 用於回歸的神經網路 272
10.5 用於更複雜資料集的其他架構 273
10.6 本章小結 275
10.7 練習 276
第11 章 用風格尋找界限:支援向量機和核心方法 279
11.1 使用新的誤差函數建立更好的分類器 281
11.2 Scikit-Learn 中的SVM程式設計 287
11.3 訓練非線性邊界的SVM:內核方法 289
11.4 本章小結 308
11.5 練習 309
第12 章 組合模型以化結果:整合學習 311
12.1 獲取朋友的協助 312
12.2 bagging:隨機組合弱學習器以建構強學習器 314
12.3 AdaBoost:以智慧方式組合弱學習器以建構強學習器 319
12.4 梯度提升:使用決策樹建構強學習器 327
12.5 XGBoost:一種梯度提升的方法 332
12.6 整合方法的應用 340
12.7 本章小結 341
12.8 練習 341
第13 章 理論付諸實踐:資料工程與機器學習真實範例 343
13.1 泰坦尼克號資料集 344
13.2 清洗資料集:缺失值及其處理方法 348
13.3 特徵工程:在訓練模型之前轉換資料集中的特徵 350
13.4 訓練模型 355
13.5 調整超參數以找到模型:網格搜尋 359
13.6 使用k 折交叉驗證來重複訓練和驗證資料 362
13.7 本章小結 363
13.8 練習 364
以下內容可掃封底二維碼下載
附錄A 習題解答 365
附錄B 梯度下降背後的數學原理:
使用導數和斜率下山 398
附錄C 參考資料 416
.....
閱讀本書,即使讀者只掌握高中數學知識,也能理解並應用強大的機器學習技術!簡單來講,機器學習是一套以演算法為基礎的資料分析技術,當你提供更多數據時,演算法可回饋更好的結果。 ML支援許多尖端技術,如推薦系統、臉部辨識軟體、智慧揚聲器,甚至包括自動駕駛汽車。本書不落窠臼,範例豐富,精選的練習十分有趣,插圖清晰,講解機器學習的核心概念。 《機器學習圖解》以簡潔易懂的方式介紹機器學習的演算法與技術。本書不談深奧的術語,只透過基本代數知識提供清楚的解釋。你將使用Python建立有趣的項目,包括垃圾郵件偵測和影像辨識模型;也將學習一些實用技能,以清理和準備資料。 ? 分類和劃分資料的監督演算法 ? 清理和簡化資料的方法 ? 機器學習套件和工具 ? 複雜資料集的神經網路和整合方法 讀者閱讀本書前,**了解Python基礎知識,不必了解機器學習知識。