AIMPACT 消息,5 月 3 日(UTC+8),MIT研究人员揭示大型语言模型性能随规模可靠扩展的机制,首次为"叠加"现象提供实验验证。研究发现LLM通过在同一维度存储多个概念来绕过维度限制,这种"强叠加"使模型能同时表示所有概念,错误来源于重叠产生的噪声。团队使用Anthropic简化模型及OPT、GPT-2、Qwen2.5、Pythia等开源模型验证:模型宽度翻倍,错误约减半,缩放指数达0.91,接近理论值1。研究回答两个关键问题:缩放将止于模型宽度匹配词汇表大小;对自然语言任务,词频分布平坦限制加速空间,但鼓励叠加的架构设计可在相同规模下实现更优性能。
MIT研究人员揭示LLM强叠加机制:宽度翻倍错误约减半
AIMPACT 消息,5 月 3 日(UTC+8),MIT研究人员揭示大型语言模型性能随规模可靠扩展的机制,首次为"叠加"现象提供实验验证。研究发现LLM通过在同一维度存储多个概念来绕过维度限制,这种"强叠加"使模型能同时表示所有概念,错误来源于重叠产生的噪声。团队使用Anthropic简化模型及OPT、GPT-2、Qwen2.5、Pythia等开源模型验证:模型宽度翻倍,错误约减半,缩放指数达0.91,接近理论值1。研究回答两个关键问题:缩放将止于模型宽度匹配词汇表大小;对自然语言任务,词频分布平坦限制加速空间,但鼓励叠加的架构设计可在相同规模下实现更优性能。