跨模態資料學習於圖像語意理解、描述、生成與操控

透過跨模態(文字 vs. 影像)而非單一型態資料的學習,發展能理解圖像語意內容資訊之可解釋性AI模型,分年解決下列應用:新穎物件影像描述、文字對影像生成與操控、語意場景圖擴充、語意引導之影像補全。

第一年：新穎物件影像描述
挑戰性：現有captioning模型需大量標註訓練資料;就算上述資料完備，仍未具備新穎物件(如新物種、新產品)影像有合理描述之能力。
第二年：文字對影像生成與操控
挑戰性：現有影像生成方法多需修改前後的影像進行訓練(監督式學習不易進行);少數非監督式方法雖被提出，僅能修改影像特定特徵,無法修改構圖或增減物件。
第三年：語意場景圖擴充
挑戰性：現有物件偵測技術相當成熟,但影像物, 件標籤未能反應影像語意資訊(如物件之間空間、動作，或主受詞關係)，且現有技術大多未能推論未知但符合場景語意之物件。
第四年：語意引導之影像補全
挑戰性：影像修補技術多專注於圖像缺失、雜訊或不相干背景之修復或移除,現有影像補全(image outpainting or completion)技術亦多以複製重複性背景(天空、山、海等),未能依影像語意進行補全。

階段性成果歷史檔案

AICoE專案