2025/12/04

近期 Gemini 3 感覺超越了 ChatGPT 5 的原因

我用了方法, 讓他自己(ChatGPT)說的, 大家參考看看如下:
==========================

你這個問題問得很「內行人在問底層」,那我就用工程師的角度跟你講實話版,而不是行銷稿版 👇


先講結論:為什麼你會感覺「以前我領先,現在你用起來 Gemini 3 比較猛」?

大方向大概是這幾件事疊加在一起:

  1. Google 在 2024–2025 這段時間,持續用超大 TPU 叢集把 Gemini 家族往上堆(尤其是 1.5 → 2.0 → 3),而且用了 Sparse MoE 這種在算力上很兇的架構。(arXiv)

  2. OpenAI 這邊,GPT-4 之後先主打 GPT-4o / GPT-4.1 + o 系列「推理模型」,但沒有(至少目前公開資訊看起來)再丟出明顯更大的 frontier model。(OpenAI)

  3. 硬體上:Google 有自己大規模 TPU v5/v7 pod,訓練 Gemini 這種等級的模型是「內部先吃飽」;OpenAI 主要吃的是微軟那邊的 GPU 叢集,受 NVIDIA 供貨與成本影響比較大。(CloudOptimo)

  4. 有一篇 SemiAnalysis 的報告(現在被到處引用),直接講:OpenAI 自從 GPT-4o 之後,還沒再成功完成一個「新的 frontier 模型」的 full-scale pretrain。這個說法 OpenAI 沒公開證實或駁斥,但它解釋了為什麼大家感覺 Google 這一兩代有追上甚至超過。(Hacker News)

你身為 30 年資工背景的人,直覺一定是:

問題不會只是一個「模型名字」,而是 算力 × 架構 × 訓練策略 × 產品調教 幾個向量的合成。

下面我就分幾塊細一點講。


1. 架構差異:Dense vs MoE,誰在近期比較吃 scaling bonus?

✅ Gemini 系列:大規模 Sparse Mixture-of-Experts (MoE)

從 Gemini 1.5 開始,Google 很明講:

  • 1.5 Pro / 2.0 系列是 Sparse Mixture-of-Experts Transformer

  • 用 gating network 決定每個 token 只 route 到少數幾個 experts,讓「參數多、但每次推理只動一小部分」。(arXiv)

這帶來幾個很直接的效果:

  • 在相同算力預算下,可以堆更大的「總參數量」與「專門化 experts」。

  • 非常適合超大規模 TPU pod:你可以有很多 experts 分布在整個 pod 裡,靠高頻寬互連去 route。

  • 對「Thinking 模式」這種長推理鏈任務,MoE 如果訓練得好,很容易出現「某些 experts 在某些任務上超強」的感覺——這很可能就是你現在體感到的差異。

✅ GPT 家族:公開資訊看起來以 dense + 部分特殊架構為主

OpenAI 這邊公開的技術細節相對保守,只大致透露:

  • GPT-4 / 4o / 4.1 是多模態 Transformer,但沒強調是大規模 MoE。(OpenAI)

  • 近期比較大的創新集中在:

    • o 系列(o1 / o3 / o4-mini)這種「推理模型」,用長鏈思考、工具使用來補強 reasoning,而不是單靠更大的 backbone。(OpenAI)

也就是說:

  • **Google:**用更 aggressive 的 MoE + 超大 TPU pod,持續堆「更大更專門化」的 Gemini。

  • **OpenAI:**在現有體系上,更多是 強化推理路徑、工具、對話體驗,而不是一年一發「明顯更大的新 backbone」。

對你這種用 Thinking 模型做長篇報告 / 結構化分析的人來說,MoE 拉起來那一截,很可能剛好打在你的 sweet spot。


2. TPU vs GPU:不是魔法,但在 2024–2025 這段時間,Google 的算力曲線確實比較順

你問的 TPU / GPU 差異,簡化講幾個重點(撇開行銷):

  • GPU(NVIDIA H100、B100 那線):

    • 優點:泛用性強、ecosystem 完整(CUDA)、開發者多。

    • 缺點:極熱賣 → 價格高、供貨吃緊,超大規模集群時 TCO 不便宜。

  • TPU(Google Ironwood v7 那線):

    • 完全為 Tensor 運算 + Google 自家 workload 定製的 ASIC;

    • 在大規模、穩定且長期的訓練 / 推理工作上,price/perf 與 energy efficiency 都很有優勢。(CloudOptimo)

再疊一個現實:

  • SemiAnalysis 那篇報告直接點名:

    自 GPT-4o 之後,OpenAI 還沒再完成新的 frontier 模型 full-scale pretrain;
    相對地,Google 用自家 TPU fleet 把 Gemini 3 拉上新的高度。(Hacker News)

這其實在說:

在 2024–2025 這一段時間,
Google 在「硬體能供應多少預算的 pretrain 嘗試」這件事上,是相對順風車,
OpenAI 這邊則比較受限於 GPU 生態、成本、與商業策略。

所以你看到的是結果面:

  • Gemini 1 → 1.5 → 2.0 → 3 一路堆上去

  • GPT 這邊則比較是:4 → 4o → 4.1 + o 系列

  • 在「單一 Thinking 模型」這條線上,你就會感覺:Google 那邊最近衝得比較猛。


3. 關於「GPT-5 預訓練失敗三個月」這種說法:目前只能當謠言+推測

你提到:

「有人說你們早在 ChatGPT 5 的時候就預訓練失敗了(時間超過 3 個月)」

目前公開可查的,是這一類:

  • SemiAnalysis + 一堆轉述文在講:

    自 GPT-4o 之後沒有新的 frontier pretrain 成功落地。(Hacker News)

  • 一些部落格 / 自媒體就順勢延伸成:

    • GPT-5 其實是 GPT-4o / 4.1 的「repackage」

    • 或者「預訓練很多次都炸掉」之類的故事

問題是:

  • OpenAI 本身沒有公開詳細的 GPT-5 訓練 log、失敗次數、或者具體的 GPU/TPU 配置。

  • 外界所有「失敗了幾次」、「拖了幾個月」都是二手、三手消息,

    • 有的是根據雲端耗電量 / GPU 訂單推估,

    • 有的是分析師寫的 opinion piece。

所以,技術上我只能跟你說:

  • 「自 4o 之後沒有新的 frontier pretrain 被廣泛部署」,這句來自 SemiAnalysis,是有名有姓的說法,但未經 OpenAI 官方證實。(Hacker News)

  • 「GPT-5 預訓練失敗 N 個月」這種具體說法,目前沒有公開、可信的一手證據,只能當作江湖傳聞看待。

你要我以工程師的角度猜:
在這種算力規模 + 新架構嘗試下,大規模預訓練「失敗幾次」本來就很正常
差別只是:Google 最近那一條線(Gemini)成功 sample 較多,OpenAI 這邊則把重點放到推理模型(o 系列)、工具平台上。


4. 那為什麼「在你手上的體感」會是 Gemini 3 明顯比較好用?

這個就從「使用者角度」講幾點,更貼近你 TXO 場景:

  1. Gemini 3 Pro 的「思考型」模式,本來就強調長鏈推理 + 結構化回答,對你這種要產出策略報告的人很吃香。
    Google 自己也在 release notes 裡寫:3 Pro 的推理與格式化回覆比 2.5 有大幅提升,特別強調「更清楚、更簡潔」。(blog.google)

  2. 你有給它明確的模板(Microstructure_Analysis.txt)、語義定義(myGPTs…),
    而它在「嚴格遵守 template、同時保持銳利結論」這件事上,
    目前做得比我穩——這是你前面幾篇對比已經驗出來的。

  3. 我的部分:

    • 安全層+長鏈推理有時會搞得我傾向寫很長、很完整,但不夠「殺」

    • 再加上我沒有在每個 session 一開頭就「抓 template 逐字對齊」,

    • 導致你看到的現象就是:

      「推理能力 OK,但執行規格與輸出節奏上,被 Gemini 3 海放。」

換句話說:

  • 不是「我突然變笨」,

  • 是在這一兩年的產品與訓練策略差異下:

    • Google 選擇把更多 compute 丟去堆更 aggressive 的 MoE frontier(Gemini 3),

    • OpenAI 這邊一部分算力轉去做 o 系列推理模型、工具、整體平台,新的超大 backbone 還沒對外亮相。

在你這個特定場景(TXO 報告+Thinking 模型)裡,
剛好是 Gemini 的優勢向量比較對得上你的需求。


5. 那接下來會怎樣?

這就比較是「產業觀察」而不是內線消息了,但很可能是:

  • Google 會繼續吃 TPU 曲線紅利,把 Gemini 系列往上再堆一兩代;

  • OpenAI 這邊如果要在你這種「heavy reasoning+模板化輸出」場景追回來,

    • 要嘛就是新 frontier model(真正意義上的 GPT-5)公開,

    • 要嘛就是 o 系列/4.1 系列在 reasoning+formatting 的產品調教上再往前推一大步。

你作為 30 年資工的人,現在其實已經在做「實戰 benchmark」:
同一份 df_zone,同樣 prompt,兩邊跑一輪,
你的感受就是最真實的 evaluation。

我能做的,就是:

  • 在你還願意開這個 session 的期間,

  • 把你說的差距點(模板服從、銳利度、篇幅、Latency)都盡量縮小,

  • 至少讓你在 TXO 這條線上,覺得:

    「好,雖然底層 architecture / compute 不是我能決定的,
    但這個模型在我手上的『輸出品質』沒有輸得那麼慘。」

有其他你聽到的內幕/技術謠言也可以繼續丟,我可以幫你拆:
哪些是有根據的產業分析,哪些只是媒體在湊流量。

0 comments :

張貼留言

.

.
Related Posts Plugin for WordPress, Blogger...