朱啸虎为什么又相信AI了？

type

status

date

长文本有那么好吗？

如果你对AI领域持续保持主动关注，不等着媒体给你喂饭，那就应该知道AI业内对AI六小龙的真实态度：

例如，对于月之暗面打出的“长文本”口号，AI业内早就有共识。长期关注AI领域的技术圈资深大咖、中文AI信息流的顶端宝玉老师就委婉地谈过长文本概念：

腾讯科技也撰文指出“Kimi概念”并没有宣传的那么重要。

类似的观点业内还有很多，可以总结为：“长文本”不划算，护城河不深，也不实用。 AI业内不仅是这么想的，也是这么做的。 GPT4、Claude 3等顶尖大模型的长文本之战“高开低走”，大家都不在“长文本”方向上继续努力，大家可以想想是什么原因。反倒是DeepSeek，AI业内无论国内国外都给出了切实的高评价，也都竞相模仿。

OpenAI也抄DeepSeek

宝玉老师对DeepSeek的评价非常中肯，实事求是。对于低训练成本这点，他说：

有些宣传说 DeepSeek 的训练成本是 550 万美元, 是 Meta 的 1/10, OpenAI 的 1/20, 好像一下子比别人厉害了 10 倍 20 倍, 这有点夸张。

因为现在在美国预训练几千亿参数的一个模型其实也到不到 2000 万美元的成本, DeepSeek 把成本差不多压缩到三分之一。

Meta 和 OpenAl 花的钱多是因为前沿探路, 探路就意味着会有浪费, 而后发追赶是站在别人的肩膀上, 是可以避开很多浪费的。另外算力成本在过去几年是指数型下降的, 不能这么机械的比较。打个不恰当的比方, 创新药的研发需要十年几十亿美元, 而仿制药的研发一定会更快更省。另外成本的统计口径也没有统一的标准, 可以有很大的差别。

换言之，有些媒体宣传DeepSeek超低成本的优势，但这个优势其实没那么大，也不是最重要最出彩的。

宝玉老师提到的一个DeepSeek普通用户能感知到优点——CoT: Chain of thought (思维链)，是顶尖大模型反过来抄的。思维链是一种训练和推理方法, 将复杂的问题拆分成小步的中间逻辑, 细分逻辑链条。在训练阶段, Deepseek 用标注的 Long CoT 数据微调模型, 让模型生成更清晰的推理步骤, 在强化学习中用 CoT 设计奖励优化, 增强长链推理能力, 并且在此过程中观察到了模型的反思 (回溯推理路径)、多路径推理 (能给出多个解)、aha 时刻 (通过策略突破瓶颈) 等自发行为。就是下图这个展示AI如何推理思考的部分：

用非常容易理解的话说就是：我们中国团队做出来的产品，世界顶尖团队也在抄，那么这个产品好还是不好呢？

AI六小龙 VS DeepSeek

我们对比AI六小龙和 DeepSeek就能发现他们的不同。 AI六小龙基本上只在简体中文舆论圈受到追捧，其中最受瞩目的月之暗面主打的“长文本”概念，业内并不重视，应者寥寥。 DeepSeek则是引发全世界关注，顶尖大模型团队争相模仿。高下立判。笔者一直是AI的深度使用者，月之暗面等国产AI大模型体验后就继续用回ChatGPT，但是自从用过DeepSeek后，我每次使用AI都会看看DeepSeek给出的结果。表面上看，这些大模型都差不多，但用起来就知道：DeepSeek是有真东西的。

结语

去年，有位在AI六小龙身上押重注的大咖离职，坊间传闻是高层对其投资决定不满。我们理工科的人脑子死板，不会因为你是投资界大咖，就认为你投的东西就一定是好东西，只会觉得“啊？不会吧？这么贵啊？” 如今看来，的确是买贵了。

长文本有那么好吗？

OpenAI也抄DeepSeek

AI六小龙 VS DeepSeek

结语

何北航

交流频道

加入我们的社群讨论分享