近日,第32屆ACM國際多媒體會議在澳大利亞墨爾本落下帷幕。該會議由美國計算機學會(Association for Computing Machinery,簡稱ACM)主辦,同時其主辦的視覺空間描述重大挑戰(Grand Challenge: Visual Spatial Description,簡稱VSD2024)公布競賽結果并頒發獲獎證書。我院廣西電力裝備智能控制與運維重點實驗室高放教授帶領的GXU-LIPE團隊榮獲挑戰賽第四名,同時受邀撰寫論文并進行口頭報告。 所獲獎狀 ACM Multimedia是由美國計算機學會主辦的計算機視覺和多媒體處理領域的頂級國際會議,也是中國計算機學會推薦的該領域A類國際學術會議。每年大會特設主題挑戰競賽(Grand Challenges),遴選自全球相關領域的前沿主題。 VSD2024屬于視覺空間語義理解的研究領域。在該挑戰賽中,模型需要生成一個準确的文本描述句子,來描述輸入圖像中兩個給定目标對象之間的空間關系。主辦方提供了一個大規模的視覺空間描述數據集,包含29,272個高質量手動标注的圖像—文本對。 GXU-LIPE團隊由高放教授和課題組研究生王家寶、唐鏡峰組成。團隊受邀撰寫了論文《A Method for Visual Spatial Description Based on Large Language Model Fine-tuning》發表在第32屆ACM國際多媒體會議,并前往墨爾本進行口頭報告。 科研團隊在做報告 GXU-LIPE團隊設計了一種創新的基于大模型的方法,通過微調大語言模型FLANXXL提升了視覺空間關系描述的效果。首先通過預訓練模型提取圖像特征和文本特征,然後采用Q-former進行特征融合,最終通過大語言模型輸出文本描述。為解決LLM特征捕獲困難的問題,将原始特征與融合後的特征一并輸入FLANXXL,并采用數據增強、先驗知識和多種訓練策略等進行微調,具體包括提升文本多樣性、引入對象重疊先驗、基于動量蒸餾篩選難負樣本及生成軟标簽,基于權重平衡長尾數據等。通過多模态特征融合和微調,模型在挑戰賽測試集上表現優異,生成了準确且更真實的對象空間關系描述文本。 概念圖 本次參加ACM MM會議由太阳成集团“2024年研究生素質能力提升項目”資助,為LIPE重點實驗室提供了寶貴的國際交流機會,提升在視覺語言處理、多模态融合、人工智能等領域的科研能力。王家寶同學表示,在多媒體處理和計算機視覺應用的快速發展背景下,此次參會有助于深入了解國際領先的研究動向、結識領域專家,并為後續課題研究提供創新靈感和新的合作機會。