AICoE專案

  • 跨模態資料學習於圖像語意理解、描述、生成與操控

計畫名稱

跨模態資料學習於圖像語意理解、描述、生成與操控

計畫目標

透過跨模態(文字 vs. 影像)而非單一型態資料的學習,發展能理解圖像語意內容資訊之可解釋性AI模型,分年解決下列應用:新穎物件影像描述、文字對影像生成與操控、語意場景圖擴充、語意引導之影像補全。


計畫概述

1.第一年:新穎物件影像描述

*挑戰性:現有captioning模型需大量標註訓練資料;就算上述資料完備,仍未具備新穎物件(如新物種、新產品)影像有合理描述之能力。

2. 第二年:文字對影像生成與操控

*挑戰性:現有影像生成方法多需修改前後的影像進行訓練(監督式學習不易進行);少數非監督式方法雖被提出,僅能修改影像特定特徵,無法修改構圖或增減物件。

3. 第三年:語意場景圖擴充

*挑戰性:現有物件偵測技術相當成熟,但影像物, 件標籤未能反應影像語意資訊(如物件之間空間、 動作,或主受詞關係),且現有技術大多未能推論 未知但符合場景語意之物件。

4. 第四年:語意引導之影像補全

*挑戰性:影像修補技術多專注於圖像缺失、雜訊或不相干背景之修復或移除,現有影像補全(image outpainting or completion)技術亦多以複製重複性背景(天空、山、海等),未能依影像語意進行補全。