Anthropic 4 月 29 日於官方研究公告發表 BioMysteryBench—一套針對 AI 生物資訊分析能力的新評測基準，由真實研究情境中的開放式問題組成。最值得關注的數據是：在人類專家小組嘗試後仍無法解出的題目中，Anthropic 旗艦模型 Mythos 解出 29.6%、Opus 4.7 解出 27.0%。

評測設計：可解題與專家無解題雙軌

BioMysteryBench 由兩種題型組成。第一類是「可解題」—由生物資訊研究人員設計、有標準答案可對照的分析任務；第二類是「專家無解題」—由人類專家小組嘗試後仍無法找出可信解答的題目，用來測試模型是否能跨越目前領域知識的邊界。

在可解題部分，Anthropic 各代次模型呈現明確的能力梯度：Claude Haiku 4.5 解出 36.8%、Claude Sonnet 4.6 達 71.8%、最新旗艦 Claude Mythos 達 82.6%。這個梯度大體符合 Anthropic 對外宣稱的模型能力差異—Haiku 為輕量型、Sonnet 為主力型、Mythos 為頂級研究型。

真正具話題性的是專家無解題部分。這類題目是經過生物資訊領域專家小組評估後標記為「無解或無共識」的問題；Mythos 解出其中 29.6%、Opus 4.7 解出 27.0%。這個結果不是「模型比人類強」的單一證明—更精確的說法是：在專家因路徑、時間或資源限制而無法處理的問題上，AI 能提出可被驗證的解法路徑，未必是最終答案，但具備「未被人類嘗試過的角度」這個屬性。

與 Claude for Life Sciences 並行推進

BioMysteryBench 與 Anthropic 自 2025 年下半年起推動的「Claude for Life Sciences」計畫同向。後者瞄準藥物研發、基因組學、臨床試驗設計等具體應用場景；前者則是用評測手法量化 AI 在生命科學領域的「研究級能力」進展。兩者組合的訊號是：Anthropic 把生物醫學定位為 Claude 的長期應用主戰場之一，與 DeepMind AlphaFold 路線形成不同入口的競爭。

Mythos 解出近 30% 專家無解題的數字若能在獨立第三方驗證中重現，將成為 AI 模型在科研場景具體價值的早期實證。後續觀察點包括：BioMysteryBench 是否會被其他研究機構採用為標準評測、解出題目的人類專家驗證程序、以及 Mythos 在實際研究計畫中是否能複製測試結果。

這篇文章 BioMysteryBench：Mythos 解專家無解題 29.6% 最早出現於鏈新聞 ABMedia。

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

OpenAI 推 GPT-5.5-Cyber：對戰 Anthropic Mythos

AI 行業動態

OpenAI 公告推出 GPT-5.5-Cyber，專為網安設計，將在「未來幾天內」以政府協作的可信存取機制部署給關鍵防禦單位，非開放銷售。與 Anthropic Mythos 的開放路徑形成對照，白宮反對擴至70家。Preparedness Framework 評為 High（未到 critical），同時加強資安防護。後續觀察部署名單、CISA 可能入列與雙方資安標準分野。

鏈新聞abmedia5分鐘前

施耐德電氣 2025 年 Q1 營收達到 98 億歐元，受 AI 資料中心需求推動成長 11.2%

股票 AI 行業動態

根據路透社，施耐德電氣（Schneider Electric）在 4 月 30 日公布第一季營收為 98 億歐元（114 億美元），隨著 AI 資料中心需求推升，旗下有機成長提升至 11.2%。這家法國電力與散熱設備供應商表示，該結果略高於市場一致預期，並且

GateNews12分鐘前

Protum 為 AI 治理平台籌集 200 萬美元種子輪融資，目標於 2026 年 6 月完成交易

AI 行業動態

根據 TechCrunch Startup Spotlight，AI 治理新創 Protum 正在進行 200 萬美元的種子輪募資，目標在 2026 年 6 月前完成。由 Sandeep J. 創立，他具備 25 年的企業轉型經驗；Protum 提供一個平台，旨在讓企業能夠持續

GateNews42分鐘前

企業裁員潮恐致勞資雙輸局面，研究建議：應開徵 AI 自動化稅

AI 行業動態

研究指出AI裁員的需求外部性：裁員成本由企業獨享，但消費力道的損失卻由整體市場承擔，裁越多、需求越萎縮，雙方皆輸。提出徵收AI自動化稅，將外部成本內部化，並以稅收資助再培訓，以恢復需求並穩定經濟。

鏈新聞abmedia46分鐘前

Claude 會收語言稅？研究曝翻譯中日韓內容消耗最多近三倍 Token

AI 行業動態

研究者 Komatsuzaki 在 X 指出主流 LLM 的 tokenizer 存在非英語語言稅。以《The Bitter Lesson》翻譯測試，Claude 在印地語、阿拉伯語、俄語、中文的 token 增幅分別約 3.24×、2.86×、2.04×、1.71×，明顯高於 OpenAI。中國本土模型對中文更友善，顯示訓練資料偏英語造成成本不平等，成為普及障礙。

鏈新聞abmedia49分鐘前

Microsoft 的 AI 事業規模翻倍至 $370B ARR；計劃在 2026 年投入 $190B Capex

股票 AI 行業動態

在 4 月 29 日，Microsoft 報告了截至 3 月 31 日止期間的 2026 財年第三季業績，表現優於市場預期。Q3 營收達到 828.86 億美元，較去年同期成長 18%，且高於預期的 814 億美元；GAAP 淨利成長 23% 至 317.78 億美元；非 GAAP 稀釋每股盈餘 per diluted earnings per

GateNews1小時前

留言

0/400

暫無留言