介紹
先前文章有提到Transformer模型裡面有三個Multi-Head Attention的機制,在Attention機制計算過程中,有採用到Query, Key, Value的概念,這三個定義是Attention機制的重要概念,為了要讓大家快速直觀了解這三個概念,本篇文章將採用類比法的方式來做說明。
範例說明
我們以國語字典的範例為例,假設我們今天在看書的時候,有遇到一個字詞不懂,就會去字典裡面翻閱有沒有相似或一樣的字詞,然後再去研讀字詞後面的釋義,才能更清楚了解字詞的涵義。
假設我們今天想查找的字詞是飛機,而這個待查詢的字詞就是定義為是Query。
字典裡面會有許多字詞,在字詞後面有釋義用來解釋這個字詞所代表的意思,像是字詞為汽車,它的釋義為四輪移動之車輛。在字典裡面,字詞就是Key,後面的釋義就是Value。
當我們想查找飛機的字詞,我們會在字典裡面找尋有沒有相似或一樣的字詞,因此,在查找的過程中,我們其實是採用Query與Key互相比較的方式,比較兩者的相似度,最好是一模一樣,如果找不到,也盡量可以找相似的字詞。
當今天有找到相似或一模一樣的字詞後,這時候即代表Query與Key是互相符合的,才會進一步去查看,這個字詞背後的釋義是什麼,也就是會查找Key後面的Value。
像是我們找到飛機這個字詞後,就會進一步了解它的釋義,就是可在空中飛行,且利用機翼提供升力,供人駕駛操作。
透過找到釋義,也就是Value後,我們就可以了解飛機這個字詞所代表的意思。Value也可以看成是我們想要得到的結果,因為我們一開始就是不懂字詞的意思,才要在字典裡面了解這個字詞所代表的涵義。
結論
1.Query是待查詢的字詞,Key是字典裡面包含的字詞,Key的角色是用來的是與Query互相比較以及連結後面Value的釋義。
2.Query與Key是用來比較待查詢的字詞與字典裡面的字詞有沒有互相符合,Query與Key相似度越高,則越互相符合,就像鑰駛要對到正確的鑰駛孔,門才會解鎖。Query與Key相似度越高,我們才會越關注在Key後面的Value,因為這才代表此時的Value是我們要查找的字詞的意思。
3.Value是字詞後面的釋義,也就是跟在key後面的訊息,也是我們最終想得到的結果。
[參考資料]:
[相似文章]:
1.白話文範例帶您了解Transformer核心原理: 從三個Multi-Head Attention角度出發
[類神經網路基礎系列專文]:
1.類神經網路(Deep neural network, DNN)介紹
3.類神經網路—啟動函數介紹(一): 深入解析Relu與Sigmoid函數:如何影響類神經網路的學習效果?
4.類神經網路—啟動函數介紹(二): 回歸 vs. 分類: 線性函數與Tanh函數之原理探索
5.類神經網路—啟動函數介紹(三): 掌握多元分類的核心技術:不可不知的softmax函數原理
6.類神經網路—啟動函數介紹(四): 如何選擇最適當的啟動函數?用一統整表格讓您輕鬆掌握
8.類神經網路—反向傳播法(一): 白話文帶您了解反向傳播法
10.類神經網路—反向傳播法(三): 五步驟帶您了解梯度下降法
11.類神經網路—反向傳播法(四): 揭開反向傳播法神秘面紗
12.機器學習訓練原理大揭秘:六步驟帶您快速了解監督式學習的訓練方法
13.類神經網路—反向傳播法(五): 用等高線圖讓您對學習率更有感
[機器學習基礎系列專文]:
1.機器學習訓練原理大揭秘:六步驟帶您快速了解監督式學習的訓練方法
[類神經網路延伸介紹]:
1.卷積類神經網路(Convolution neural network,CNN)介紹
2.遞迴類神經網路(Recurrent neural network,RNN)介紹
[ChatGPT系列專文]: