淺談Lasso, Elastic net, Ridge方法

線性回歸介紹

先來介紹何謂線性回歸?

線性回歸是一種最簡單建立數學模型的方法,它的作法是以線性方式擬合一群資料點,進而得到線性回歸模型參數,像是a與b,當在y=ax+b的數學模型得到a與b的參數之後,就可利用此模型進行預測。預測方式就是給定輸入特徵x,就可得到預測輸出y。而線性指的是預測輸出y與輸入特徵x為線性關係。

線性回歸指得是以線性方式擬合一群資料點,進而建立數學模型,而線性指的是預測輸出y與輸入特徵x為線性的關係。

更具體而言,線性擬合的方式,是找出一條線使得這條線上與資料點的距離或誤差是最小,代表這條線與資料點最為靠近。

一般以線性擬合方式的作法,是找出一條線使得誤差最小與資料點最靠近。

過擬合問題

基於誤差最小或距離最近的擬合方式可能會產生一些問題,像是在某些情況下,模型會有硬記答案的情形,偏離最貼近真實解答的紅色線。

而基於誤差最小取得的黑色線,某些情況下,會有硬記答案的情形。而實際最貼近真實情況的線是落在紅色線上。

舉例來說,像是藍色的資料點是在模型訓練過程中,給予模型看過的,模型是基於藍色資料點進行擬合。可是當輸入是未看過新資料(紫色點)的時候,預測效果就會不好。

從圖形可發現基於誤差最小的預測(黑色線),雖然可以在藍色資料點的預測效果是最好的,但是這時候有可能是模型硬記答案,並沒有融會貫通的情形,而導致在紫色資料點預測時,效果會非常不好,偏離最貼近真實解答的紅色線。

最貼近真實解答的紅色線指的是當輸入未看過的新資料的時候,仍然有最佳的預測結果。

懲罰項(penalty)

為了避免讓模型硬記答案,改善的方式就是加入懲罰項,懲罰項指的是在擬合目標上,不但要讓模型與資料點的誤差最小,而且要限制參數a,b落在一定範圍之內,因此,模型就可不那麼貼近藍色資料點,避免硬記答案的情形產生,使得模型有融會貫通的效果,最終可靠近真實解答的紅色線。

避免讓模型硬記答案,改善方式為加入懲罰項,使參數a, b存在一些限制,以讓回歸模型擬合資料點同時,也可最貼近真實解答。

方法比較

將上述線性回歸方法,以不同不同正則化方式,加入懲罰項,就會有三種方法,即為Lasso, Elastic net, Ridge,這三種方法名子很特殊,但其實這三種方法都是線性回歸的方法,差別只是在於有不同正則化的方式。

透過懲罰項的加入,可避免讓線性回歸模型有過擬合現象,進而在預測上發揮更好效果。

Lasso, Elastic net, Ridge這三種方法都是線性回歸的方法,差別在於有不同的懲罰項(正則化方式)。
這些方法的目的在於避免過擬合(硬記答案)現象,讓預測上有更好效果(融會貫通)。

[類神經網路基礎系列專文]:

1.類神經網路(Deep neural network, DNN)介紹

2.類神經網路—揭開網路架構調整秘辛

3.類神經網路—啟動函數介紹(一): 深入解析Relu與Sigmoid函數:如何影響類神經網路的學習效果?

4.類神經網路—啟動函數介紹(二): 回歸 vs. 分類: 線性函數與Tanh函數之原理探索

5.類神經網路—啟動函數介紹(三): 掌握多元分類的核心技術:不可不知的softmax函數原理

6.類神經網路—啟動函數介紹(四): 如何選擇最適當的啟動函數?用一統整表格讓您輕鬆掌握

7.類神經網路—前向傳播法

8.類神經網路—反向傳播法(一): 白話文帶您了解反向傳播法

9.類神經網路—反向傳播法(二): 淺談梯度

10.類神經網路—反向傳播法(三): 五步驟帶您了解梯度下降法

11.類神經網路—反向傳播法(四): 揭開反向傳播法神秘面紗

12.機器學習訓練原理大揭秘:六步驟帶您快速了解監督式學習的訓練方法

13.類神經網路—反向傳播法(五): 用等高線圖讓您對學習率更有感

[機器學習基礎系列專文]:

1.機器學習訓練原理大揭秘:六步驟帶您快速了解監督式學習的訓練方法

2.機器學習面臨的問題種類介紹:回歸與分類

[類神經網路延伸介紹]:

1.卷積類神經網路(Convolution neural network,CNN)介紹

2.遞迴類神經網路(Recurrent neural network,RNN)介紹

[ChatGPT系列專文]:

1.淺談最近非常火紅的ChatGPT背後可能原理機制為何?

2.從ChatGPT探索GPT的原理概念:少量數據的解方—遷移學習技巧