為什麼「注意力」是 AI 的最強超能力？

傳統的 RNN 在分析句子時，會從頭到尾逐字閱讀。這樣的設計有一個根本的問題：句子越長，越早出現的資訊就越容易被遺忘，模型到了句尾，往往已經難以回憶起開頭的內容。

Attention（注意力機制）的核心概念，正是為了解決這個限制而生。它讓模型在理解某個字詞時，能夠同時參考句子中所有其他字詞，並判斷彼此之間的關聯程度，進而更全面地掌握語句的含義。

一個直觀的例子

「貓追老鼠，因為牠很餓。」

當模型讀到「牠」時，需要判斷「牠」究竟指的是誰。Attention 機制會計算「牠」與句中每個字的關聯強度：

因此，模型能夠推斷「牠」指的是貓，而不是老鼠。

RNN vs. Attention：直觀比較

更多關聯的例子

透過這種方式，模型不再受限於「讀到哪、記到哪」的線性限制，而是能夠在整個句子的範圍內，自由地建立字詞之間的關聯。這讓 AI 對語句的理解更加深入，也是 Transformer 架構能夠大幅超越傳統 RNN 的關鍵原因之一。

瀏覽人次 107

Similar Posts