為什麼「注意力」是 AI 的最強超能力?

傳統的 RNN 在分析句子時,會從頭到尾逐字閱讀。這樣的設計有一個根本的問題:句子越長,越早出現的資訊就越容易被遺忘,模型到了句尾,往往已經難以回憶起開頭的內容。

Attention(注意力機制)的核心概念,正是為了解決這個限制而生。它讓模型在理解某個字詞時,能夠同時參考句子中所有其他字詞,並判斷彼此之間的關聯程度,進而更全面地掌握語句的含義。


一個直觀的例子

「貓追老鼠,因為牠很餓。」

當模型讀到「牠」時,需要判斷「牠」究竟指的是誰。Attention 機制會計算「牠」與句中每個字的關聯強度:

  • 「牠」與「貓」→ 關聯高
  • 「牠」與「老鼠」→ 關聯低

因此,模型能夠推斷「牠」指的是貓,而不是老鼠。


RNN vs. Attention:直觀比較

RNNAttention
閱讀方式逐字依序讀取同時看見整句
遠距資訊容易遺忘可直接參考
字詞關係隱含在隱藏狀態中明確計算關聯強度

更多關聯的例子

字詞最關注的對象
蘋果
台北台灣

透過這種方式,模型不再受限於「讀到哪、記到哪」的線性限制,而是能夠在整個句子的範圍內,自由地建立字詞之間的關聯。這讓 AI 對語句的理解更加深入,也是 Transformer 架構能夠大幅超越傳統 RNN 的關鍵原因之一。

Similar Posts

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *