全部标签

Claude3.7Thinking

苹果研究揭示AI“假性思考”真相:推理模型在复杂任务下反而崩溃

一项由苹果研究人员主导的新研究，对当前被寄予厚望的大型推理模型（LRM）泼了一盆冷水。研究发现，在解决复杂任务时，像 Claude3.7Thinking 和 Deepseek-R1等专为“模拟思维过程”设计的推理模型，不仅未能展现出优势，反而出现“思考不足”、性能崩溃等严重问题。这项研究测试了四种经典逻辑谜题:汉诺塔、跳棋、渡河与积木世界。这些谜题允许精确控制任务复杂度，是衡量语言模型推理能力…
AI资讯
- 0
- 0
AI逻界6月25日