Tether 擴展 Open AI 訓練數據,發布 QVAC Genesis II 數據集


探索頂尖金融科技新聞與活動!

訂閱 FinTech Weekly 的電子報

由 JP Morgan、Coinbase、Blackrock、Klarna 等高層閱讀


Open AI 訓練資料的重大擴展

Tether Data 發布了其人工智慧合成教育資料集的新版本,顯著增加了全球研究人員可用的開放訓練資料的數量與範圍。該公司 AI 研究部門 QVAC 宣布,名為 QVAC Genesis II 的新版本在原有資料集的基礎上新增了 1070 億個標記,總容量達到 1480 億個標記。

擴展後的資料集現已成為公開可用的最大專為 AI 預訓練設計的合成教育資源。它涵蓋 19 個學術領域,旨在改善模型的推理、解釋與決策能力,而非僅僅表面模式識別。

此公告將此次發布定位為推動更透明、更易取得的 AI 發展的一步,當前許多先進的訓練資料仍被鎖在專有系統內。

建立於首次 Genesis 發布之上

QVAC Genesis II 建立在最早的 Genesis I 基礎上,該版本專注於創建一個經過驗證、以教育為中心的合成資料集,涵蓋核心科學、技術、工程與數學科目。早期版本建立了生成結構化訓練題目的框架,旨在提升推理準確性。

新版本擴展了涵蓋範圍,加入化學、計算機科學、統計學、機器學習、天文學、地理學、計量經濟學與電機工程等十個領域。同時,還重新生成了大學物理內容,採用更新的方法以提高清晰度。

這兩個版本合併,形成了 QVAC 所稱的迄今為止最全面的合成教育資料集。該資料集用於預訓練大型語言模型及其他需要結構化學術資料的 AI 系統。

訓練資料生成方式的轉變

Genesis II 的核心是一種稱為「選項層級推理」的新資料生成方法。此方法不同於許多現有的合成資料技術,不僅關注錯誤答案,也重視正確答案。

它不將正確答案視為終點,而是分析多選題中的每個選項。正確選項被拆解,強化其正確原因;錯誤選項則用來糾正常見誤解。這種結構使模型能學習因果推理與決策邏輯,而非僅僅將問題與結果聯繫起來。

此方法與 Genesis I 中引入的「失誤分析」方法相輔相成,後者專注於從模型錯誤中提取價值。兩者共同形成一個流程,每個生成的問題都旨在提供教學價值。

QVAC 引用的獨立評估顯示,基於 Genesis II 資料訓練的模型在推理準確性方面表現更佳,並能產生更清晰的答案。

重點在理解而非流暢

當前許多 AI 訓練系統依賴大量文本資料(常來自公開來源)來提升語言流暢度。QVAC 的目標則不同,資料集設計旨在教導模型如何推理問題、清楚解釋結論。

公司高層表示,目標是超越僅預測文本序列的訓練系統,轉而打造能理解底層概念的模型。資料集的設計重點在於清晰、因果與邏輯,旨在降低模型輸出中的歧義。

此策略符合 AI 研究中關於可靠性與可解釋性的更廣泛討論,尤其在 AI 被用於教育、科學與決策支援等領域時。

研究人員與開發者的開放存取

與原始 Genesis 資料集類似,QVAC Genesis II 亦將公開釋出。資料集採用 Creative Commons Attribution–NonCommercial 4.0 授權,允許研究人員、學術機構與獨立開發者在非商業用途下使用與研究。

資料集與相關模型托管於 Hugging Face,並附有詳細技術論文,說明生成方法與評估結果。此開放式發佈旨在降低缺乏大型專有資料集的研究者的門檻。

透過維持非商業授權,QVAC 希望支持學術與社群研究,同時限制直接商業化。

支持去中心化的 AI 發展

此次發布也符合 Tether Data 推動去中心化 AI 發展的整體策略。公司表示,高品質的訓練資料不應只由擁有集中式雲端基礎設施的組織掌握。

透過公開大型結構化資料集,QVAC 旨在促進本地訓練、實驗與部署 AI 模型。此策略支持計算資源有限但智力貢獻仍具價值的研究環境。

去中心化的重點反映出對減少對少數主導 AI 平台依賴、促進更分散研究生態系的日益關注。

Tether 在 AI 研究中的角色

QVAC 作為 Tether Data 的 AI 研究部門運作。雖然 Tether 以數字資產與穩定幣聞名,但近年來也擴展至資料與 AI 研究。

透過 QVAC,Tether Data 致力於建立支持開放研究的基礎設施與資源。Genesis 資料集是該努力的代表性成果之一,將公司定位於開放 AI 發展與教育導向訓練資料的討論中。

此工作也反映金融科技公司與先進 AI 研究日益融合的趨勢,金融科技企業越來越投資於資料科學與機器學習能力。

領導層對此次發布的看法

公司高層將 Genesis II 的發布描述為遠離僅重視數量的訓練方法。Tether 高層表示,重點在於教導 AI 如何推理與解釋,而非僅產生流暢的回應。

Tether 執行長 Paolo Ardoino 強調,可靠的 AI 應建立在理解答案正確原因的基礎上。他認為,公開資料集反映了相信更強大、更具解釋性的 AI 對社會有益的信念。

這些觀點呼應研究人員對於主要以非結構化文本訓練模型的限制的擔憂。

教育範圍與領域涵蓋

Genesis I 與 II 兩個資料集合計涵蓋 19 個領域,內容設計符合中學與大學教育水準。科目範圍從基礎數學與物理到應用領域如計量經濟學與機器學習。

每個領域都包含結構化問題、解釋與推理路徑,模擬正式教育中的教學與評估方式。此設計旨在支持需要邏輯一致性與概念深度的預訓練任務。

透過改進方法重新生成並擴展內容,QVAC 希望優化教育資料在合成資料中的呈現方式。

評估與模型表現

根據 QVAC 引用的內部與獨立評估,基於 Genesis II 資料訓練的模型在推理密集型任務中表現更佳,包括回答結構化問題、解釋結論與避免模糊或矛盾的回答。

評估結果顯示,失誤分析與選項層級推理的結合能產生更一致的輸出。雖然公司未將此資料集定位為獨立解決方案,但將其視為進一步訓練與微調的堅實基礎。

預計研究人員將進行更多評估,以促使資料集在社群中得到更廣泛應用。

對開放式 AI 研究的影響

如此大規模的開放資料集發布,可能影響學術與獨立研究者的模型訓練方式。傳統上,結構化教育資料的存取多限於資金雄厚的組織。

透過提供替代方案,QVAC Genesis II 有助於小型模型、在地化訓練與可解釋 AI 方法的實驗。

此資料集也可能成為未來重視推理品質而非純粹規模的合成資料專案的基準。

在更廣泛 AI 生態系中的定位

QVAC Genesis II 進入一個快速發展、資源日益集中化的 AI 生態系。許多最先進的模型訓練資料是專有的,難以審查或複製。

像 Genesis II 這樣的開放資料集提供透明度與共享進步的可能性,也引發關於開放資源如何與商業 AI 發展共存的討論。

一家根植於金融科技與數字資產的公司參與其中,彰顯 AI 研究正吸引來自傳統科技公司之外的多元產業興趣。

可用性與未來展望

完整的技術文件《QVAC Genesis II:擴展最大且最高品質的多領域教育合成資料集,用於預訓練》已在 QVAC 研究部落格發布。資料集與相關模型可透過 Hugging Face 獲取。

QVAC 表示將持續優化方法並擴展教育內容,未來版本將納入社群反饋,進一步改進。

持續推動開放基礎

透過 Genesis II,QVAC 強調開放、結構化訓練資料對建立可靠 AI 系統的重要性。此發布反映一種信念:智慧應建立在推理與解釋之上,而非僅僅是統計聯結。

隨著 AI 系統越來越多融入教育、科學與金融服務(包括金融科技應用),其訓練資料的品質將持續是核心議題。

目前,擴展的 Genesis 資料集作為開放 AI 研究的重要貢獻,提供規模、結構與可及性,展現出在非專有環境中罕見的水準。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言