本發明提供一種基于模態對齊的動作提示的視覺語言導航系統及方法,系統包括動作提示集產生模塊,輸入指令到動作提示集產生模塊,智能體在導航開始前從動作提示庫中檢索與指令相關的動作提示集;模態對齊動作提示的視覺語言導航模塊,動作提示集通過提示編碼模塊,輸出提示特征與文本編碼模塊的輸出指令特征連接在一起;基于提示的指令特征和視覺編碼模塊的輸出視覺特征被提供給多層transformer用來做動作決策。優化學習模塊,即模態對齊損失模塊和連續一致性損失模塊,實現有效的動作提示學習;本發明重點提出了顯式的模態對齊的動作提示,以提高智能體導航的準確性和不同環境中的泛化能力。
聲明:
“基于模態對齊的動作提示的視覺語言導航系統及方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)