
1 wsseo 43 分钟前 领先 50% |
2 jamos 16 分钟前 在哪试用 |
3 usn PRO 数值怪,智商比 chatgpt 高,但情商还不够,不会有追问 |
4 street000 13 分钟前 via Android 感觉大模型 benchmark 参考价值很低了,多少分全靠 ai 公司自觉,grok 和 claude 就是两个对立的例子。目前用下来问了一些非技术性的问题,感觉就是常规升级,问题还不少。知识库太旧不说,幻觉问题感觉比 2.5 pro 严重,问个 2.5 pro 都在那信誓旦旦说没有这个模型,最新的 gemini 是 1.5 pro ,问 2.5 pro 至少它会还会先联网查。长上下文性能有人说也有问题,退化速度很快,超过 100k 几乎没法用了。 |