跨模態資料學習於圖像語意理解、描述、生成與操控