多模態AI (Multimodal)
什麼是多模態AI呢?
多模態AI指的是AI模型可以接收不同類型的輸入,像是圖片、文字、影音等等到AI模型中,而此模型經過推論後也可以產生圖片,文字,影音等等的訊息。
為什麼我們需要多模態AI呢?
這是因為日常生活的任務當中,往往都是存在多模態,也就是我們很常會同時接收處理不同類型的數據。
舉例來說
上課的時候,我們要看老師寫黑板的內容,同步看老師的表情、手勢以及老師說話的內容, 這對於AI模型來說就是多模態。一方面要進行視覺辨識,看黑板內容以及老師的動作,另一方面也要進行語音的處理 包含語音辨識、整體語意的理解。
而且對於人類大腦也是同步在處理這些資訊,而不會像現在一般的單一模型,一次處理一種類型的數據,造成後續整合上的困難。
而針對這類型的應用,如果只有單一模態的AI,就比較難以處理。
什麼是單一模態的AI?
單一模態的模型指的是
1.影像辨識模型: 只有單獨處理圖像的資料,進行分類。
2.語意理解模型: 只有處理文字資料進行理解。
3.回歸預測模型: 只有輸入數值的資料,然後輸出也是數值的資料。
單一模態AI遇到的問題
舉例來說,如果要判斷一個圖片訊息,像是一張海報,單一模態的AI模型,可能要先用文字辨識的模型,把這些文字辨識出來之後,再丟到語言模型當中去理解。
但是這樣會有問題:
文字辨識是強迫文字變成一維排列,本身在海報上文字編排的順序跟結構,就看不到了。由於只用文字模型,海報上面的圖片也難以一併考量。因此,就有可能會造成AI模型理解的不準確。
多模態AI
就是要解決單一模態AI產生的問題,它的作法是直接輸入海報圖片到模型中,在模型裡,可以綜合處理不同模態的數據,進行圖像處理與文本理解,最終綜合文字與圖像特徵跨模態進行理解,進而提升理解能力。這樣的好處是可以保留原始圖片的特徵,避免原始訊息失真,以及統合不同類型的數據進行統整理解。
舉例來說,像是LayoutLM模型,在處理海報過程中,他會將海報的各項訊息提取出來,然後輸入到模型中進行理解。
1.Visual embedding (視覺圖像訊息): 提取海報上面圖像的訊息。
2.Text embedding (文字訊息): 提取海報上文字訊息。
3.Layout embedding (空間佈局訊息): 顯示文字落在海報上的位置,
綜合這三者訊息,AI模型對海報就有更好的理解效果。
結論
本篇文章介紹了多模態AI,目前各大AI公司也有多模態AI平台可以使用,多模態也是未來AI之趨勢,預期在未來AI的技術會更為強大,能夠處理更複雜類型的任務,行為會來越接近人類的處理方式。
最近AI原理文章:
半監督式學習Semi-Supervised Learning
Stable Diffusion原理: 文字生成圖片簡易說明
[類神經網路基礎系列專文]:
1.類神經網路(Deep neural network, DNN)介紹
3.類神經網路—啟動函數介紹(一): 深入解析Relu與Sigmoid函數:如何影響類神經網路的學習效果?
4.類神經網路—啟動函數介紹(二): 回歸 vs. 分類: 線性函數與Tanh函數之原理探索
5.類神經網路—啟動函數介紹(三): 掌握多元分類的核心技術:不可不知的softmax函數原理
6.類神經網路—啟動函數介紹(四): 如何選擇最適當的啟動函數?用一統整表格讓您輕鬆掌握
8.類神經網路—反向傳播法(一): 白話文帶您了解反向傳播法
10.類神經網路—反向傳播法(三): 五步驟帶您了解梯度下降法
11.類神經網路—反向傳播法(四): 揭開反向傳播法神秘面紗
12.機器學習訓練原理大揭秘:六步驟帶您快速了解監督式學習的訓練方法
13.類神經網路—反向傳播法(五): 用等高線圖讓您對學習率更有感
[機器學習基礎系列專文]:
1.機器學習訓練原理大揭秘:六步驟帶您快速了解監督式學習的訓練方法
[類神經網路延伸介紹]:
1.卷積類神經網路(Convolution neural network,CNN)介紹
2.遞迴類神經網路(Recurrent neural network,RNN)介紹
[ChatGPT系列專文]: