用類比法帶您快速了解Attention機制的關鍵概念—Query, Key, Value

Table of Contents

介紹

先前文章有提到Transformer模型裡面有三個Multi-Head Attention的機制,在Attention機制計算過程中,有採用到Query, Key, Value的概念,這三個定義是Attention機制的重要概念,為了要讓大家快速直觀了解這三個概念,本篇文章將採用類比法的方式來做說明。

範例說明

我們以國語字典的範例為例,假設我們今天在看書的時候,有遇到一個字詞不懂,就會去字典裡面翻閱有沒有相似或一樣的字詞,然後再去研讀字詞後面的釋義,才能更清楚了解字詞的涵義。

假設我們今天想查找的字詞是飛機,而這個待查詢的字詞就是定義為是Query。

Query, Key ,Value是Attention機制的重要概念,我們舉以下例子讓大家了解,假設我們想從一本國語字典查找字詞的涵義,例如這個字詞為飛機,此待查詢的字詞就是Query。

字典裡面會有許多字詞,在字詞後面有釋義用來解釋這個字詞所代表的意思,像是字詞為汽車,它的釋義為四輪移動之車輛。在字典裡面,字詞就是Key,後面的釋義就是Value。

在一本國語字典裡面有許多的字詞,在字詞後面會有釋義,在這本
字典當中,各個字詞就是Key,釋義就是Value。

當我們想查找飛機的字詞,我們會在字典裡面找尋有沒有相似或一樣的字詞,因此,在查找的過程中,我們其實是採用Query與Key互相比較的方式,比較兩者的相似度,最好是一模一樣,如果找不到,也盡量可以找相似的字詞。

當我們在想要查找飛機的字詞,就會去字典裡面查找相對應的字詞,
因此,我們是採用Query與Key互相比較的方式,來進行查找。
當Query與Key互相符合的時候,即代表我們在字典找到待查詢的字詞。

當今天有找到相似或一模一樣的字詞後,這時候即代表Query與Key是互相符合的,才會進一步去查看,這個字詞背後的釋義是什麼,也就是會查找Key後面的Value。

像是我們找到飛機這個字詞後,就會進一步了解它的釋義,就是可在空中飛行,且利用機翼提供升力,供人駕駛操作。

透過找到釋義,也就是Value後,我們就可以了解飛機這個字詞所代表的意思。Value也可以看成是我們想要得到的結果,因為我們一開始就是不懂字詞的意思,才要在字典裡面了解這個字詞所代表的涵義。

當我們在字典當中有找到符合的字詞時,才會進一步去查看這個字詞的釋義,也就是會查找Key後面的Value。

結論

1.Query是待查詢的字詞,Key是字典裡面包含的字詞,Key的角色是用來的是與Query互相比較以及連結後面Value的釋義。

2.Query與Key是用來比較待查詢的字詞與字典裡面的字詞有沒有互相符合,Query與Key相似度越高,則越互相符合,就像鑰駛要對到正確的鑰駛孔,門才會解鎖。Query與Key相似度越高,我們才會越關注在Key後面的Value,因為這才代表此時的Value是我們要查找的字詞的意思。

3.Value是字詞後面的釋義,也就是跟在key後面的訊息,也是我們最終想得到的結果。

結論
1.Query是待查詢的字詞,Key是字典裡面包含的字詞,Value是針對字典字詞的釋義

2.Query與Key是用來比較待查詢的字詞與字典裡面的字詞有沒有互相符合,就像鑰駛要對到正確的鑰駛孔,門才會解鎖。

3.Value是字詞後面的釋義,也就是跟在Key後面的訊息,也是我們最終想得到的結果。

[參考資料]:

1.Attention Is All You Need

[相似文章]:

1.白話文範例帶您了解Transformer核心原理: 從三個Multi-Head Attention角度出發

[類神經網路基礎系列專文]:

1.類神經網路(Deep neural network, DNN)介紹

2.類神經網路—揭開網路架構調整秘辛

3.類神經網路—啟動函數介紹(一): 深入解析Relu與Sigmoid函數:如何影響類神經網路的學習效果?

4.類神經網路—啟動函數介紹(二): 回歸 vs. 分類: 線性函數與Tanh函數之原理探索

5.類神經網路—啟動函數介紹(三): 掌握多元分類的核心技術:不可不知的softmax函數原理

6.類神經網路—啟動函數介紹(四): 如何選擇最適當的啟動函數?用一統整表格讓您輕鬆掌握

7.類神經網路—前向傳播法

8.類神經網路—反向傳播法(一): 白話文帶您了解反向傳播法

9.類神經網路—反向傳播法(二): 淺談梯度

10.類神經網路—反向傳播法(三): 五步驟帶您了解梯度下降法

11.類神經網路—反向傳播法(四): 揭開反向傳播法神秘面紗

12.機器學習訓練原理大揭秘:六步驟帶您快速了解監督式學習的訓練方法

13.類神經網路—反向傳播法(五): 用等高線圖讓您對學習率更有感

[機器學習基礎系列專文]:

1.機器學習訓練原理大揭秘:六步驟帶您快速了解監督式學習的訓練方法

2.機器學習面臨的問題種類介紹:回歸與分類

[類神經網路延伸介紹]:

1.卷積類神經網路(Convolution neural network,CNN)介紹

2.遞迴類神經網路(Recurrent neural network,RNN)介紹

[ChatGPT系列專文]:

1.淺談最近非常火紅的ChatGPT背後可能原理機制為何?

2.從ChatGPT探索GPT的原理概念:少量數據的解方—遷移學習技巧