DeepMind在大型语言模型(LLM)领域的多项突破性进展均可被视为关键里程碑,尤其是在推理能力提升和算法发现方面。以下是几个具有代表性的进展及其意义:
1. SELF-DISCOVER 提示框架:自主推理结构的突破
DeepMind与南加州大学合作开发的SELF-DISCOVER框架,通过让LLM自主发现任务内在的推理结构(如批判性思维、逐步分析等),显著提升了复杂推理任务的性能。例如,在Big-Bench Hard等推理任务中,其准确率比传统链式思维(Chain of Thought)方法提高了32%,并在GPT-4上实现了高达85%的准确率1。
意义:这一框架不仅提升了现有模型的推理效率,还通过模拟人类解决问题的策略,推动了LLM向通用智能迈进的步伐。
2. FunSearch:科学算法发现的里程碑
FunSearch是DeepMind推出的结合LLM与进化搜索的模型,专注于数学和计算机科学领域的新算法发现。例如:
- 帽子集问题:FunSearch发现了该领域20年来的最大解集,超越了传统计算方法的极限;
- 装箱问题:通过生成定制化程序,优化了物流等领域中的实际资源分配效率4。意义:FunSearch首次展示了LLM在科学发现中的潜力,无需依赖人类先验知识即可生成创新性解决方案,标志着AI从“工具”向“合作伙伴”的转变。
3. AlphaProof与AlphaGeometry 2:数学推理的银牌级表现
AlphaProof(基于强化学习的数学证明系统)与AlphaGeometry 2(几何问题求解器)在2024年国际数学奥林匹克竞赛(IMO)中解决了6题中的4题,达到银牌水平。例如:
- AlphaProof攻克了竞赛中最难的数论问题,仅用时三天完成;
- AlphaGeometry 2在几何问题上的解决速度达19秒,准确率较前代提升30%5。意义:这是AI首次在顶级数学竞赛中接近人类顶尖水平,展示了其在形式化推理和复杂逻辑处理上的重大突破。
4. Mind Evolution:自然语言规划的进化搜索策略
该技术通过遗传算法结合LLM,在无需任务形式化的前提下优化自然语言解决方案。例如,在TravelPlanner和Natural Plan等规划任务中,Gemini 1.5 Pro的成功率从11.7%提升至100%9。
意义:Mind Evolution突破了传统方法对形式化定义的依赖,拓展了LLM在非结构化问题中的应用场景。
5. 数据“诱导”效应与安全对齐研究
DeepMind还揭示了LLM学习新知识时可能产生的“诱导”偏差(即错误套用新知识到无关场景),并提出通过“stepping-stone”增强策略和剪枝方法减少50%-95%的不良效应3。同时,研究团队关注模型的说服安全性,开发了PersuSafety框架以评估和降低伦理风险3。
意义:这些研究为LLM的可靠性和安全性提供了技术保障,确保其在复杂交互中的可控性。
结论:DeepMind的LLM进展标志着多领域的范式转变
从推理能力提升(SELF-DISCOVER)、科学发现(FunSearch)、数学竞赛表现(AlphaProof)到自然语言规划(Mind Evolution),DeepMind的每一项突破均推动了LLM从“生成工具”向“自主问题解决者”的演进。这些里程碑不仅验证了LLM在复杂任务中的潜力,也为未来通用人工智能(AGI)的发展奠定了基础。
Comments (0)
No comments