Gemini 3 Pro 这么牛吗

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

Google Play

Google Fi

Google Developers Channel

Google 全球透明度报告

9to5Google

这是一个创建于 56 天前的主题，其中的信息可能已经有所发展或是发生改变。

看起来各项数据都遥遥领先啊

Gemini 3 Pro

数据领先

价格便宜

42 条回复 2025-11-21 01:18:04 +08:00

wsseo

2025 年 11 月 19 日

领先 50%

jamos

2025 年 11 月 19 日

在哪试用

Q980q48Jgj6pRXoO

PRO

2025 年 11 月 19 日 via iPhone

数值怪，智商比 chatgpt 高，但情商还不够，不会有追问

street000

2025 年 11 月 19 日 via Android

感觉大模型 benchmark 参考价值很低了，多少分全靠 ai 公司自觉，grok 和 claude 就是两个对立的例子。目前用下来问了一些非技术性的问题，感觉就是常规升级，问题还不少。知识库太旧不说，幻觉问题感觉比 2.5 pro 严重，问个 2.5 pro 都在那信誓旦旦说没有这个模型，最新的 gemini 是 1.5 pro ，问 2.5 pro 至少它会还会先联网查。长上下文性能有人说也有问题，退化速度很快，超过 100k 几乎没法用了。

charmToby

2025 年 11 月 19 日

@jamos https://aistudio.google.com/prompts/new_chat?model=gemini-3-pro-preview
我在这里测试的，感觉很强，生成的代码一次成功

Nanosk

2025 年 11 月 19 日

@street000 确实问他 coding 最强的模型给我蹦出来 gpt4o 和 sonnet3.5 ，让他联网查第一回查出来个 o1 ，第二回才正确

jhdxr

2025 年 11 月 19 日

强是强，2.5 刚发布的时候也很强，openai 自己对 GPT5 发布时的测评也很强。但这和你能用到的不是一个版本。算力不够就降智这手段各家都玩了多久了。。。

YanSeven

2025 年 11 月 19 日

子弹飞一会儿，大伙儿测测就知道了。LLM 有一个好处，就是它在部分领域真的算是落地了，可以直接体验测评，不是光看报告了。

stimw

2025 年 11 月 19 日

不要看 benchmark ，有参考性，但不高。

nakun233

2025 年 11 月 19 日

@usn 我试着问一下情商超高，还自认 EVA 老粉

Seck

2025 年 11 月 19 日

看到这个数据，说实话，我有点怀疑他作假，所有数据，只有一项是输的

我知道不能单纯参考榜单，但是所有分数.....，人都麻了

话说：V 站是不是该开个 AI 节点？

Moishine

2025 年 11 月 19 日

cursor 里面已经有了啊

wniming

2025 年 11 月 19 日

Gemini 3 Pro 吊打 gpt5 ，刚刚我问了这俩同一个问题，关于 tmux 的：

set -g status-keys vi

and

set -g status-keys emacs

What's the difference?

结果 gpt5 废话连篇，我追问好几次都没给我解释明白，浪费我十几分钟时间，然后又问了一下 Gemini 3 Pro ，结果一下就给我讲明白了，Gemini 3 Pro 给出了最关键的信息：

How it works: You start in Insert Mode (typing normally). To navigate or edit what you typed, you must hit ESC to enter Command Mode.

gpt5 根本就不知道要按 esc 键才能使用 vim 的移动光标的快捷键。

因为 chatgpt 吐词速度比较快，刚问问题就立即开始输出结果，而 gemini 要等到有结果了才一次性输出，所以我一般习惯先问 chatgpt ，但是我觉得以后较为复杂问题还是不要问 chatgpt 了，比 gemini 差太多了。

moefishtang

2025 年 11 月 19 日 via Android

@Seck 倒是有 OpenAI 节点，感觉不太够用了

pipi32167

2025 年 11 月 19 日

Benchmark dataset is all you need!

iden

2025 年 11 月 19 日

闭源模型（实际上是 api ）的 benchmark 分数基本全看厂商自觉，参考性远没有开源模型强。

开源模型可以监督是否在测试集上做了训练。

ao99

2025 年 11 月 19 日

SWE benchmark 只追平 sonnet 4.5 ，对 vibe coding 帮助不大啊，可能设计样式上有些帮助

songco

2025 年 11 月 19 日 via Android

@Seck MathArena Apex 这么高

厉害了

kursk

2025 年 11 月 19 日

我感觉非常强，我问了一个有关电机学的问题

我在学习《电机学》中变压器章节，对文中这段文字有疑问：

"漏磁通在一次侧绕组中感应电势，加到由互磁通产生的感应电势上"

漏磁通名称中之所以有“漏”字，就是因为它没有经过绕组，何谈在“一次侧绕组中感应电势”?

Gemini 3.0 回答非常准备，尤其是下面这段文字

漏磁通 (Leakage Flux, $\Phi_l$)：它是由该绕组自身的电流产生的。它的“漏”是指：它只穿过产生它的那个绕组（比如 $\Phi_{l1}$ 只穿过一次侧绕组 $W_1$），但没有穿过另一个绕组（二次侧绕组 $W_2$）。

完全针对我提出的问题，而且我问题还提交了图片，这种图文结合提问方式经常遇到，Gemini 3.0 完全理解了图片和文字，我感觉它完全铺平了学习中的困惑

另外，我本人是搞 IT 的，学习电力知识也是为了工作，里面有大量的公式，原来觉得很难，但是在 AI 的帮助下很多学习困难都可以高效解决

iflint

2025 年 11 月 19 日

@kursk 确实是最好的老师当年上大学要是有这么个好东西就好了

locoz

2025 年 11 月 19 日

其他方面没测试暂时不清楚，但是视频理解能力是确实遥遥领先，gemini 2.5 pro 无法精确理解并输出的细节画面的时间点，gemini 3 pro 完全没问题，同一批视频输出的结果准确度高了很多。

OumaeKumiko

2025 年 11 月 19 日

试了一下日常聊天，它竟然跟 gpt 一样在对话结尾要猜测我接下来要干什么，然后“我是否能为你做 XXXX”了……很不喜欢这点，因为这个猜测往往都是错的

hez2010

2025 年 11 月 19 日

今天试了试 Gemini 3.0 Pro 诊断我手上的 UDP 网络通信库为什么会在流量大的时候接收端突然收到本不应该收到的 FIN 信号终止连接，结果它分析了半天又是内存安全问题又是数据结构对齐问题又是大小端问题，还反反复复对着同一个地方复读老半天，等了好几分钟最后改了一大堆代码，结果啥用都没有。
然后换了 GPT-5.1-Codex ，同样是分析了好几分钟，也尝试了各种方向，但是很快就得到结论不是代码实现的 bug ，开始朝着数据完整性的方向思考，最后给我加入了 checksum 拦截掉经过网络传输后变得不正确的数据，问题解决。
问题确实不出在终端软件而是在链路上。这么看还得是 GPT-5.1-Codex 更胜一筹。
不过想发挥 GPT-5.1 的全部实力，你得要能触发 high thinking 才行，于是得在 prompt 上下下功夫让模型的 router 认为你这个问题需要大量思考。

jqtmviyu

2025 年 11 月 19 日

光看跑分没啥用. 能改陈年屎山代码才是真牛.

wniming

2025 年 11 月 19 日

@wniming #13

补充一下，感觉 chatgpt 经常胡说八道，就我问的这个问题本来不复杂，是因为我把 status-keys 设置成 vi 后又被 tmux-sensible 的设置给覆盖了，我当时不知道 tmux-sensible 会覆盖这个，才问了 chatgpt：

"Why does it feel the same as Emacs?"

结果 chatgpt 给我说：

翻译成中文就是:
---------------------------------------------------
为什么设计成这样？

tmux 命令提示符并非完整的交互式编辑器。
它不支持像 Vim 那样的普通/插入模式。

因此，即使在 vi 模式下，tmux 也保留了 Emacs 风格的行编辑键，因为它们是标准的 POSIX Readline 键。

换句话说：

status-keys vi= Emacs 快捷键 + hjkl 方向键
status-keys emacs= Emacs 键 + hjkl 没有任何特殊作用

这就是为什么它们感觉几乎一模一样的原因。
---------------------------------------------------

我觉得 chatgpt 在遇到它不明白的问题的时候就跟川宝一样，满嘴谎话，虽然 gemini 也会误导我，但没有 chatgpt 这么离谱，chatgpt 这种满嘴跑火车的情况已经遇到好几次了。

idblife

2025 年 11 月 19 日

没觉得多牛，你们问问他“绿化带战神是什么梗”

AX5N

2025 年 11 月 19 日

@idblife gemini 的知识基本都是 2024 年的，你问新的知识他肯定不知道

newtype0092

2025 年 11 月 19 日

之前 2.5 ，拿沼王的电车海报图片问是什么宝可梦，咬死了说是呆呆兽，我纠正也不听。现在 3 能正常识别了，还能识别出电车的场景，给我搜索相关联动的建议，不是倒是数据更新还是真变聪明了。

Aaron325

2025 年 11 月 19 日

google 毕竟数据多，就看愿意喂多少料。之前对 gemini 感觉就是对搜索信息的整理还是过于保守了

nuII

2025 年 11 月 19 日

正好最近遇到了 Windows 上笔记本内屏 HDR 默认开启，达芬奇里编辑 log 视频转换为 hdr 效果时开启 hdr 画面预览的问题。比起 macos 上非常丝滑统一的操作系统级 hdr 管理，windows 11 虽然改进了不少但还是一团糟，第三方软件里调用起来也问题不少，网上又搜不到太多的有用信息，就问了 Grok （免费版，自动模式），昨天 Gemini 3 出了就把同样的问题丢进去看了下效果，从结果来说还是 Gemini 3 会强一点。

问题挖掘：
> Gemini 首轮判断了几个可能的原因，其中包括最重要的 Windows 对 HDR PQ 的支持和 HLG 的支持不完整。Grok 首轮没包括最关键的原因。但是有个小问题，我说了我用的版本是 20 ，Gemini 3 上来就说没有这个版本，看来是没联网搜索？

- Gemini 3
- Grok

生成速度：
> Gemini 3 生成问题基本都用了 40+秒，而 Grok 都是 5 秒内就能生成。

- Gemini 3
- Grok

maolon

2025 年 11 月 19 日

@wniming #25
gemini 3 pro 对标的是 gpt 5 thinking/high 模式，你直接用免费版的 gpt5 那肯定是满嘴跑火车了，我试了下，另外搜索我觉得还是 gpt 靠谱一些，gemini 才是一不留神满嘴跑火车的那个，下面是我把你问题贴给 5 thinking 里节选 vi 部分的回答：

set -g status-keys vi
Uses vi-style editing in those prompts, with insert/command modes:
In insert mode you type normally
Esc → go to command/normal mode
In command mode:
h / l left/right
0 / ^ beginning of line
$ end of line
w / b next/previous word
x delete char under cursor
dw / dd delete word / delete line, etc.

silypie

2025 年 11 月 19 日 via Android

@iden 开源模型怎么监督呀，一般不是直接开源训练好的权重吗

wniming

2025 年 11 月 19 日

@maolon #31

我用#25 楼的提示词问的时候还在 gpt-5.1 的免费额度内，刚才我又用#13 楼的提示词问了一次，回答和你贴的差不多，这个问题让我感觉 gemini 更强是因为 gemini 的提示直接帮助我搞明白了这个问题，明确的指出了"您首先进入插入模式（正常输入）。要浏览或编辑已输入的内容，您必须按 ESC 键进入命令模式"，chatgpt 没有提示到我默认是插入模式还是命令模式。

idblife

2025 年 11 月 19 日

@AX5N #27
同样的问题你去问问 gpt5.1

tool2dx

2025 年 11 月 19 日 via Android

跑分倒是很好看，就是测试下来修改 bug ，没 2.5 pro 强。可能是个别情况，前端倒是挺炫酷的。

goata

2025 年 11 月 20 日

都说很牛，让子弹飞一会

coolmenu

2025 年 11 月 20 日

Tried Gemini 3 for coding and I think it just gaslit my entire repo
Did a “quick assessment” of Gemini 3 for coding and I’m convinced this thing is either a genius or legally insane.

I asked it to refactor one file. It refactored my entire project. Then told me “btw your architecture was concerning” like a disappointed parent.

It writes code like it’s getting graded by God. It leaves comments like “fixed this, you’re welcome.” It reorganized my utils folder without asking bold move honestly.

Performance verdict: Code: 10/10 Mental stability: 2/10 Vibes: immaculate

Would I use it again? Absolutely. Do I understand anything it produced? Not even slightly.：reddit 上的帖子，多名用户反馈同一现象：
Gemini 3 在编码任务上非常强，但会过度自信、越权大改、强行 refactor 、删除“它认为没用的代码”，哪怕明确告诉它“不要动其他文件”。