Anthropic 4 月 29 日於官方研究公告發表 BioMysteryBench—一套針對 AI 生物資訊分析能力的新評測基準,由真實研究情境中的開放式問題組成。最值得關注的數據是:在人類專家小組嘗試後仍無法解出的題目中,Anthropic 旗艦模型 Mythos 解出 29.6%、Opus 4.7 解出 27.0%。
評測設計:可解題與專家無解題雙軌
BioMysteryBench 由兩種題型組成。第一類是「可解題」—由生物資訊研究人員設計、有標準答案可對照的分析任務;第二類是「專家無解題」—由人類專家小組嘗試後仍無法找出可信解答的題目,用來測試模型是否能跨越目前領域知識的邊界。
在可解題部分,Anthropic 各代次模型呈現明確的能力梯度:Claude Haiku 4.5 解出 36.8%、Claude Sonnet 4.6 達 71.8%、最新旗艦 Claude Mythos 達 82.6%。這個梯度大體符合 Anthropic 對外宣稱的模型能力差異—Haiku 為輕量型、Sonnet 為主力型、Mythos 為頂級研究型。
真正具話題性的是專家無解題部分。這類題目是經過生物資訊領域專家小組評估後標記為「無解或無共識」的問題;Mythos 解出其中 29.6%、Opus 4.7 解出 27.0%。這個結果不是「模型比人類強」的單一證明—更精確的說法是:在專家因路徑、時間或資源限制而無法處理的問題上,AI 能提出可被驗證的解法路徑,未必是最終答案,但具備「未被人類嘗試過的角度」這個屬性。
與 Claude for Life Sciences 並行推進
BioMysteryBench 與 Anthropic 自 2025 年下半年起推動的「Claude for Life Sciences」計畫同向。後者瞄準藥物研發、基因組學、臨床試驗設計等具體應用場景;前者則是用評測手法量化 AI 在生命科學領域的「研究級能力」進展。兩者組合的訊號是:Anthropic 把生物醫學定位為 Claude 的長期應用主戰場之一,與 DeepMind AlphaFold 路線形成不同入口的競爭。
Mythos 解出近 30% 專家無解題的數字若能在獨立第三方驗證中重現,將成為 AI 模型在科研場景具體價值的早期實證。後續觀察點包括:BioMysteryBench 是否會被其他研究機構採用為標準評測、解出題目的人類專家驗證程序、以及 Mythos 在實際研究計畫中是否能複製測試結果。
這篇文章 BioMysteryBench:Mythos 解專家無解題 29.6% 最早出現於 鏈新聞 ABMedia。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
OpenAI 推 GPT-5.5-Cyber:對戰 Anthropic Mythos
OpenAI 公告推出 GPT-5.5-Cyber,專為網安設計,將在「未來幾天內」以政府協作的可信存取機制部署給關鍵防禦單位,非開放銷售。與 Anthropic Mythos 的開放路徑形成對照,白宮反對擴至70家。Preparedness Framework 評為 High(未到 critical),同時加強資安防護。後續觀察部署名單、CISA 可能入列與雙方資安標準分野。
鏈新聞abmedia5分鐘前
施耐德電氣 2025 年 Q1 營收達到 98 億歐元,受 AI 資料中心需求推動成長 11.2%
根據路透社,施耐德電氣(Schneider Electric)在 4 月 30 日公布第一季營收為 98 億歐元(114 億美元),隨著 AI 資料中心需求推升,旗下有機成長提升至 11.2%。這家法國電力與散熱設備供應商表示,該結果略高於市場一致預期,並且
GateNews12分鐘前
Protum 為 AI 治理平台籌集 200 萬美元種子輪融資,目標於 2026 年 6 月完成交易
根據 TechCrunch Startup Spotlight,AI 治理新創 Protum 正在進行 200 萬美元的種子輪募資,目標在 2026 年 6 月前完成。由 Sandeep J. 創立,他具備 25 年的企業轉型經驗;Protum 提供一個平台,旨在讓企業能夠持續
GateNews42分鐘前
企業裁員潮恐致勞資雙輸局面,研究建議:應開徵 AI 自動化稅
研究指出AI裁員的需求外部性:裁員成本由企業獨享,但消費力道的損失卻由整體市場承擔,裁越多、需求越萎縮,雙方皆輸。提出徵收AI自動化稅,將外部成本內部化,並以稅收資助再培訓,以恢復需求並穩定經濟。
鏈新聞abmedia46分鐘前
Claude 會收語言稅?研究曝翻譯中日韓內容消耗最多近三倍 Token
研究者 Komatsuzaki 在 X 指出主流 LLM 的 tokenizer 存在非英語語言稅。以《The Bitter Lesson》翻譯測試,Claude 在印地語、阿拉伯語、俄語、中文的 token 增幅分別約 3.24×、2.86×、2.04×、1.71×,明顯高於 OpenAI。中國本土模型對中文更友善,顯示訓練資料偏英語造成成本不平等,成為普及障礙。
鏈新聞abmedia49分鐘前
Microsoft 的 AI 事業規模翻倍至 $370B ARR;計劃在 2026 年投入 $190B Capex
在 4 月 29 日,Microsoft 報告了截至 3 月 31 日止期間的 2026 財年第三季業績,表現優於市場預期。Q3 營收達到 828.86 億美元,較去年同期成長 18%,且高於預期的 814 億美元;GAAP 淨利成長 23% 至 317.78 億美元;非 GAAP 稀釋每股盈餘 per diluted earnings per
GateNews1小時前