人工通用智慧(AGI)通常被描述為一個能在多個領域像人類一樣執行任務的系統。本週發布的 MATHVISTA 基準測試結果顯示,當前模型仍未達到這一目標。 微軟研究院、Sahara AI 和 Emory 大學的研究人員測試了與通用智慧核心相關的能力,包括基於視覺資訊的數學推理,涵蓋圖表、圖形和圖解。 在測試的 12 個基礎模型中,包括 ChatGPT、Gemini 和 Claude,GPT-4 Vision 以 49.9% 的得分最高。人類參與者平均得分為 60.3%,凸顯了當前 AI 系統與通常與 AGI 相關的更廣泛推理能力之間的差距。
“我們希望機器能做普通、一般人日常任務能完成的事情,” 微軟研究院的首席研究員 Hao Cheng 在 Decrypt 中表示。“這基本上就是大家追求 AGI 的方向。” 通過將問題轉化為圖像、圖解和圖表,該項目測試模型是否能準確解讀視覺資訊並解決多步數學和邏輯問題——這些技能超越了僅在文本上進行模式匹配的範疇。 模型在這些任務上仍然遇到困難,衡量這些限制也相當困難。
當 Cheng 團隊審查現有的評估數據集時,發現許多問題並不需要視覺推理。模型經常僅依靠文本就能得出正確答案。 “這並不理想,” Cheng 說。 MathVista 在 GitHub 和 Hugging Face 上於 2023 年 10 月推出。根據微軟研究院的資料,自那時以來,已被下載超過 275,000 次,其中過去一個月內就有超過 13,000 次下載。 然而,建立這個數據集不僅僅是標準的數據標註。微軟研究院需要能處理算術、代數、幾何和統計問題的註解員,同時能區分更深層次的數學推理,例如解讀圖表或解方程式,與較簡單的任務如數數或讀取數字。 經過一個試點階段,微軟選擇 Sahara AI 支援這一工作。該公司提供訓練有素的註解員、定制工作流程和多階段質量檢查,以產出超過 6,000 個多模態範例,用於基準測試。 沒有可靠的基準,衡量向更廣泛的機器智慧邁進的進展就變得困難,Sahara AI 的 CEO 兼 USC 計算機科學副教授 Sean Ren 表示。 “這裡有一個數據污染的微妙問題,一旦我們開始用這個數據集進行測試,這些結果就會被吸收到下一個版本中,” Ren 在 Decrypt 中說。“所以你不太清楚它們是否只是解決了一個數據集,還是具備真正的能力。” 如果基準答案出現在模型的訓練數據中,高分可能只是記憶而非推理,這使得判斷 AI 系統是否真的在進步變得更困難。
研究人員還指出訓練數據的限制。大量公開的網路內容已經被納入模型的數據集中。 “你絕對需要某種方式將新知識注入這個過程,” Cheng 說。“我認為這類事情必須來自高品質的數據,這樣我們才能真正突破知識的界限。” 一條可行的路徑是建立模擬環境,讓模型可以互動、從經驗中學習,並通過反饋來改進。 “你可以在某個沙箱中創建一個雙生世界或鏡像,讓模型可以像人類一樣玩耍並完成許多事情,從而打破網路的界限,” Cheng 說。 Ren 表示,人類在改進 AI 系統方面仍可能扮演重要角色。雖然模型能快速生成內容,但人類在評估內容方面仍然更具優勢。 “人類與 AI 之間的這種差距——他們擅長的、他們不擅長的——可以用來真正提升未來的 AI,” 他說。