|

多模態AI (Multimodal)

什麼是多模態AI呢?

多模態AI指的是AI模型可以接收不同類型的輸入,像是圖片、文字、影音等等到AI模型中,而此模型經過推論後也可以產生圖片,文字,影音等等的訊息。

多模態AI模型可接收不同類型數據,像是文字圖像語音等等的數據,然後最終可以產生也是多種類型的數據,文字圖像語音等等

為什麼我們需要多模態AI呢?

這是因為日常生活的任務當中,往往都是存在多模態,也就是我們很常會同時接收處理不同類型的數據。

舉例來說

上課的時候,我們要看老師寫黑板的內容,同步看老師的表情、手勢以及老師說話的內容, 這對於AI模型來說就是多模態。一方面要進行視覺辨識,看黑板內容以及老師的動作,另一方面也要進行語音的處理 包含語音辨識、整體語意的理解。

而且對於人類大腦也是同步在處理這些資訊,而不會像現在一般的單一模型,一次處理一種類型的數據,造成後續整合上的困難。

老師教學示意圖

而針對這類型的應用,如果只有單一模態的AI,就比較難以處理。

什麼是單一模態的AI?

單一模態的模型指的是

1.影像辨識模型: 只有單獨處理圖像的資料,進行分類。

2.語意理解模型: 只有處理文字資料進行理解。

3.回歸預測模型: 只有輸入數值的資料,然後輸出也是數值的資料。

單一模態AI,例如圖像模型,就只會輸入圖像單一類別的數據,去進行影像辨識,輸出分類結果

單一模態AI遇到的問題

舉例來說,如果要判斷一個圖片訊息,像是一張海報,單一模態的AI模型,可能要先用文字辨識的模型,把這些文字辨識出來之後,再丟到語言模型當中去理解。

一張海報
如果單一模態AI是處理文字的模型,他的做法就是先將海報上文字辨識,再輸入到語意理解模型中進行理解

但是這樣會有問題:

文字辨識是強迫文字變成一維排列,本身在海報上文字編排的順序跟結構,就看不到了。由於只用文字模型,海報上面的圖片也難以一併考量。因此,就有可能會造成AI模型理解的不準確。

多模態AI

就是要解決單一模態AI產生的問題,它的作法是直接輸入海報圖片到模型中,在模型裡,可以綜合處理不同模態的數據,進行圖像處理與文本理解,最終綜合文字與圖像特徵跨模態進行理解,進而提升理解能力。這樣的好處是可以保留原始圖片的特徵,避免原始訊息失真,以及統合不同類型的數據進行統整理解。

多模態AI則是直接輸入海報圖片,進行圖像辨識,文字提取,綜合所有訊息進行理解

舉例來說,像是LayoutLM模型,在處理海報過程中,他會將海報的各項訊息提取出來,然後輸入到模型中進行理解。

1.Visual embedding (視覺圖像訊息): 提取海報上面圖像的訊息。

2.Text embedding (文字訊息): 提取海報上文字訊息。

3.Layout embedding (空間佈局訊息): 顯示文字落在海報上的位置,

綜合這三者訊息,AI模型對海報就有更好的理解效果。

舉例來說,LayoutLM模型,他就會考量海報上不同訊息,像是visual embedding視覺圖像訊息,text embedding文字訊息,Layout embeeding空間佈局訊息,然後輸入到transformer模型中

結論

本篇文章介紹了多模態AI,目前各大AI公司也有多模態AI平台可以使用,多模態也是未來AI之趨勢,預期在未來AI的技術會更為強大,能夠處理更複雜類型的任務,行為會來越接近人類的處理方式。

多模態AI示意圖

最近AI原理文章:

半監督式學習Semi-Supervised Learning

Stable Diffusion原理: 文字生成圖片簡易說明

[類神經網路基礎系列專文]:

1.類神經網路(Deep neural network, DNN)介紹

2.類神經網路—揭開網路架構調整秘辛

3.類神經網路—啟動函數介紹(一): 深入解析Relu與Sigmoid函數:如何影響類神經網路的學習效果?

4.類神經網路—啟動函數介紹(二): 回歸 vs. 分類: 線性函數與Tanh函數之原理探索

5.類神經網路—啟動函數介紹(三): 掌握多元分類的核心技術:不可不知的softmax函數原理

6.類神經網路—啟動函數介紹(四): 如何選擇最適當的啟動函數?用一統整表格讓您輕鬆掌握

7.類神經網路—前向傳播法

8.類神經網路—反向傳播法(一): 白話文帶您了解反向傳播法

9.類神經網路—反向傳播法(二): 淺談梯度

10.類神經網路—反向傳播法(三): 五步驟帶您了解梯度下降法

11.類神經網路—反向傳播法(四): 揭開反向傳播法神秘面紗

12.機器學習訓練原理大揭秘:六步驟帶您快速了解監督式學習的訓練方法

13.類神經網路—反向傳播法(五): 用等高線圖讓您對學習率更有感

[機器學習基礎系列專文]:

1.機器學習訓練原理大揭秘:六步驟帶您快速了解監督式學習的訓練方法

2.機器學習面臨的問題種類介紹:回歸與分類

[類神經網路延伸介紹]:

1.卷積類神經網路(Convolution neural network,CNN)介紹

2.遞迴類神經網路(Recurrent neural network,RNN)介紹

[ChatGPT系列專文]:

1.淺談最近非常火紅的ChatGPT背後可能原理機制為何?

2.從ChatGPT探索GPT的原理概念:少量數據的解方—遷移學習技巧

Similar Posts

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *