我们问了问“通宵答疑”的杨植麟:460万美金和Kimi的纯文本路线

王者之魏 新闻资讯 2

作者|周一笑编辑|王兆洋来源|硅星人

图片|豆包AI生成、硅星人资料图

最近的AI圈,如果说有什么事能让东西方开发者社区同时“上头”,那可能就是月之暗面和它的KimiK2Thinking模型了。K2Thinking在推理和编码能力上超越了不少前沿模型,被许多开发者誉为新SOTA,发布后迅速在海内外技术社区引发热议。

就在这波热度席卷全球之时,Kimi团队也趁热打铁,在Reddit举办了一场AMA(AskMeAnything问我任何事)。

据了解,这次直接通宵答疑的正是月之暗面的三位联合创始人杨植麟、周昕宇和吴育昕。这也算是三位联创难得的对外“集体亮相”。

从回答阵容来看,杨植麟用了一个叫“ComfortableAsk4494”的账号来直接在线答疑。

而我们也问了两个外界很关注的问题,得到了回答。

我们问了问“通宵答疑”的杨植麟:460万美金和Kimi的纯文本路线-第1张图片-

460万真的吗?

为何一直在做纯文本

我们关注的两个问题分别是此次K2Thinking传出的极低的成本,以及Kimi至今依然在走的纯文本和Agent路线的原因。以下是他的回答。

我们问了问“通宵答疑”的杨植麟:460万美金和Kimi的纯文本路线-第2张图片-

Q:K2思维模型460万美元的训练成本是真的吗?

A:这不是官方数据。由于训练成本中很大一部分是研究和实验,所以很难量化具体数字。

我们问了问“通宵答疑”的杨植麟:460万美金和Kimi的纯文本路线-第3张图片-

Q:纯文本Agent专注策略是为了短期达到SOTA而做出的,还是你们长期看好的方向?

A:训练视觉语言模型需要时间获取数据和调整训练,所以我们决定先发布一个文本模型。

AMA是Reddit由来已久的传统,从奥巴马到基努·里维斯再到OpenAI团队和SamAltman,政商科技与娱乐圈的许多知名人物都曾通过这种形式与社区进行交流。Kimi这次选择的是r/LocalLLaMA这个分区,这是一个关于开源模型、模型本地化部署分区,聚集了许多硬核的开发者。这可能也是第一次中国AI公司选择这种形式在海外技术社区开诚布公。以下是更多AMA内容:

我们问了问“通宵答疑”的杨植麟:460万美金和Kimi的纯文本路线-第4张图片-

AMA实录

在我们提的这些问题之外,Kimi核心团队也回答了全球开发者的更多问题,从Kimi本身的模型到整个行业的一些看法。

以下是这次AMA的省流版和实录:

训练成本:460万美元训练成本不是一个官方数字。

用什么训练的:配备InfiniBand的H800GPU。

K3新架构:将采用混合架构。

K2为何采用INT4:为了更好地兼容非Blackwell架构的GPU。

多模态:“我们正在做。”

Muon优化器:可良好扩展至1万亿参数

K3什么时候来:“Sam的万亿级数据中心建成之前”。

我们问了问“通宵答疑”的杨植麟:460万美金和Kimi的纯文本路线-第5张图片-

Q:你们的训练硬件配置是怎样的?很好奇你们的架构与美国那些巨头使用的系统相比如何?

A:我们使用的是配备Infiniband的H800GPU;虽然比不上美国的高端GPU,数量上也处于劣势,但我们把每张显卡的性能都榨取得淋漓尽致

我们问了问“通宵答疑”的杨植麟:460万美金和Kimi的纯文本路线-第6张图片-

Q:非常感谢你们为开源社区带来了最先进的模型!我的问题是:Kimi的下一代旗舰模型会采用KDA技术吗?它有什么优势?

A:在我们对预训练和强化学习的公平比较中,采用NoPEMLA的KDA混合模型表现优于全量RoPEMLA模型。它们不仅获得了更高的基准分数,而且速度更快、更经济高效,使我们能够加速预训练、在强化学习阶段更快部署,并服务更多用户。我们还有更多改进正在研发中,将在准备就绪时分享。

A:KDA是我们最新的实验性架构。

相关理念很可能会应用于K3架构中。

我们问了问“通宵答疑”的杨植麟:460万美金和Kimi的纯文本路线-第7张图片-

Q:K3什么时候出?

A:在Sam的万亿级数据中心建成之前

我们问了问“通宵答疑”的杨植麟:460万美金和Kimi的纯文本路线-第8张图片-

Q:是什么让你们这群狠人(亲切地说)决定用一个相对未经充分测试的优化器来训练如此庞大的模型?

A:Muon是一种未经他人测试的优化器,但我们已经通过所有扩展阶梯验证了它的有效性。

我们对自身的研究体系充满信心。或许你会觉得Muon只是运气好,但事实上已有数十种优化器和架构在严苛考验中被淘汰。

我们问了问“通宵答疑”的杨植麟:460万美金和Kimi的纯文本路线-第9张图片-

Q:请问您认为fp4与int4相比是否确实有显著提升?还是说int4已经足够好地完成编码任务?

A:我们选择int4是为了更好地兼容非Blackwell架构的GPU,同时利用现有的int4推理Marlin内核(https://github.com/IST-DASLab/marlin)。

我们的工程师对此话题有详细中文解读:https://www.zhihu.com/question/1969558404759544488/answer/1970539327902679960

除了分享技术亮点,Kimi团队回应了一些对模型槽点的质疑,并给出了对未来规划和行业发的看法。

我们问了问“通宵答疑”的杨植麟:460万美金和Kimi的纯文本路线-第10张图片-

Q:关于token效率问题,kimik2thinking似乎使用了过多token。你们计划在下一个版本中修复这个问题吗?

A:说得好。在当前版本中,我们更看重绝对性能而非token效率。后续会尝试将效率纳入奖励机制,让模型学会压缩思考过程。

我们问了问“通宵答疑”的杨植麟:460万美金和Kimi的纯文本路线-第11张图片-

Q:你好Moonshot团队!感谢你们为闭源模型提供了真正的竞争?在开发k2思维模型的过程中,你们遇到的最大挑战是什么?谢谢!

A:一个挑战是支持"思考-工具-思考-工具"的交替模式。这是LLMs中相对较新的行为,需要大量工作才能正确实现。

我们问了问“通宵答疑”的杨植麟:460万美金和Kimi的纯文本路线-第12张图片-

Q:你认为LLM架构的下一个重大突破会是什么?

A:我们测试了KimiLinear模型,效果看起来很有潜力。它还可以与稀疏性技术结合使用。

我们问了问“通宵答疑”的杨植麟:460万美金和Kimi的纯文本路线-第13张图片-

Q:为什么OpenAI在烧这么多钱?是当前商业规则(税收、生活成本等)导致的,还是你认为有其他原因?

A:不知道。只有Sam清楚。我们有自己的一套方法和节奏

我们问了问“通宵答疑”的杨植麟:460万美金和Kimi的纯文本路线-第14张图片-

Q:你们有计划发布更重量级的闭源模型吗?

A:ifitgetstoodangerous:)

在这些对与Kimi有关的话题之外,Kimi的联创团队也难得回答了许多带有一点“隔空对话”火药味的问题。

当被问道是否需要像OpenAI那样也搞一个Chromium的套壳浏览器时,Kimi的回答是:No。

另一个非常有趣的回答则来自周昕宇。一个用户问到了此前被广为夸赞的DeepSeek的OCR模型,当时这款模型被认为是一个非常棒的创新,试图用视觉的方式来解决原本依赖文字token的存储和记忆的问题。

他回答到:

我个人的想法是,这个太刻意了。我宁愿留在特征空间,并找到更通用和模式无关的方法来让模型更有效率。

我们问了问“通宵答疑”的杨植麟:460万美金和Kimi的纯文本路线-第15张图片-

这种和开发者当面聊的亲历感,或许正是AMA这种形式的最大特点。而由联合创始人级别的核心技术成员亲自下场,在海外技术社区与开发者交流技术细节,足见Kimi团队的重视。而且这种交流过程里,也能让这些对架构创新等的不同看法,从水底露出来一下,让外界更加了解这样一个技术团队的思考方式。

这可能是更多AI研究团队可以考虑的方式,这样的交流至少更加有人味儿。-End-

更多文章吴彦祖的商业眼光藏不住了,除卖课外,他的创业项目你可能还不知道

留澳博士创立的AI企业成新晋独角兽;滴滴自动驾驶车预计年底上市,公司新融资20亿元!

新能源赛道Q3融资最高的TOP3创业公司,竟然在内蒙古、四川!

一个螺丝钉不合格导致火箭发射失败,这家企业今年再融24亿元重新出发!

中东土豪预定600台!中国低空经济融资同样起飞——单季度破百亿了

机器人公司融资疯了:各地国资大手笔打钱;有一家刚融资就停摆了?

微信又双叒调整推送规则啦~如果没给我们标星,新鲜内容很容易被信息流“埋”掉!赶紧点击右上角「⭐」标星,每篇推文都会优先出现在你的列表,新内容一更新就能第一时间找到,咱们再也不缺席~

原标题:《我们问了问“通宵答疑”的杨植麟:460万美金和Kimi的纯文本路线》

阅读原文

发布评论 0条评论)

  • Refresh code

还木有评论哦,快来抢沙发吧~