揭密大型語言模型(large language model, LLM) 變成專家的關鍵技術: 微調技巧(fine-tuning)

內容目錄

為什麼要介紹大型語言模型(large language model, LLM)以及微調的技巧(fine-tuning)?

近來最有感的AI應用就是OpenAI開發的ChatGPT，這是因為只需要利用自然語言的溝通就可讓ChatGPT產生滿足大家的需求，所以讓大家在使用上覺得受到幫助，甚至覺得某些工作會被AI取代的危機感。而ChatGPT就是基於大型語言模型(large language model, LLM)技術所開發出來的產品，因此，大型語言模型的技術在未來被視為關鍵性的技術，可以為人類生活帶來革命性的影響。

在大型語言模型開發當中，存在不同的種類，大家所熟知的ChatGPT主要是通才模型，主打什麼都會，但是如果要進一步變成專家，其實還是需要有專才的模型，在未來相信如何讓AI模型變成萬事通而且成為每個領域的專家一定是大家在開發上所努力的方向，本篇文章先帶您了解專才模型的開發過程，以了解最新的自然語言模型的發展。

大型語言模型介紹(large language model, LLM)

以前在訓練類神經網路的時候，我們都可以了解到如果類神經網路參數數量太多，反而會有過擬合的現象，也就是模型會死記標準解答而沒有融會貫通，進而造成發揮的效果不如預期。而在自然語言的領域中，卻發現當模型的參數量增加到非常龐大的數量，發揮的效果會更好，因此，在往後的自然語言模型開發上，就會採用大量數據與參數量去建立模型，而這樣建立出來的模型我們就稱為是大型語言模型。舉個例子，像是OpenAI開發GPT3的技術，就擁有1750億的參數量，因此，也需要有非常龐大的文本數據才能訓練完成。由於大型語言模型已經看過非常多的文本數據所學習而成，基本上它可以處理許多通用的自然語言任務。

通用的自然語言任務有許多種，舉例來說，大型語言模型可以處理文本生成的任務，也就是可以產生文章。

雖然可以產生文章，但是文章並沒有達到作家等級的水準。這是因為大型語言模型本來就是大量廣泛學習，學的是一個解決通用自然語言任務的需求。

如果要讓大型語言模型變得更專業，就需要有微調的技巧(fine-tuning)，讓模型根據特定的任務需求進行學習，才能讓模型產生的文章可以媲美職業等級的作家。

微調(fine-tuning)的原理是什麼?

先前有提到，大型語言模型就是基於非常多數據和參數量所訓練完成的模型，這時候訓練完成的模型就會有相對應的權重，在微調過程中，一開始就是會基於這個預先訓練模型(pretrained model)的權重為基準再去做調整。此時，須給定特定任務的數據，像是如果要讓模型演化成是小說家，就需要準備小說的文本讓模型學習，這時候模型就會根據特定任務提供的數據，在損失函數的空間以梯度下降(gradient descent)之方法，找到最佳的權重，這就是微調的過程。因此，模型的權重就會從預先訓練模型的權重最終移到微調後的權重。

微調的方式為何?怎麼微調?以及微調的範圍為何?

以下我們就把微調的方法整理出來，大致上可分成兩類一個是全微調，另一個是高效參數微調，在高效參數微調裡，又有部分微調，與採用適應器的方式。

全微調(full fine-tuning)指的是整個大型語言模型的權重都會進行微調，當然在大型語言模型參數量這麼龐大的情況，如果要採用這種方法所耗費的運算資源會太龐大，一般開發者會比較難以進行。因此，就有研究提出高效參數的微調方式(parameter efficient fine tuning, PEFT)。