




P.S. 原创的第一版 · 交换一个友链接,以后讨论未来。哈哈。Zeitgeist
]]>因此,我们实现了一个 CKG 方案,解析了文件结构之后,分析出依赖、调用关系之后生成代码摘要,然后向量存储,最后提供 MCP 给 Agent 做大仓代码检索。
但理想是好的,现实使用时遇到了问题:
关于这个大家有什么好的想法?
]]>文中的核心卖点是:30B 参数规模的模型跑出了 1T 参数的性能。里面提到了一些刷榜数据:
HLE-Text: 39.2%
BrowseComp: 69.8%
GAIA-Val-165: 80.8%
说实话,看文章描述感觉挺玄学的,又是“交互内化进推理”,又是“用确定性对抗不确定性”。
作为一个普通开发者,我想请教下站里的大佬:
1.现在 30B 真的能通过架构优化或者推理侧的改进,跨两个量级去打 1T 的模型吗?
2.文中提到的这些测试集(比如那个 HLE 人类终极测试)含金量如何?
3.这种“做题家模式 vs 科学家模式”的提法,在实际落地场景中意义大吗?
想听听大家的真实看法。我试了他们的官网产品 dr.miromind.ai ,除了速度比较慢,好像质量还挺高。
]]>