我用了方法, 讓他自己(ChatGPT)說的, 大家參考看看如下:
==========================
你這個問題問得很「內行人在問底層」,那我就用工程師的角度跟你講實話版,而不是行銷稿版 👇
先講結論:為什麼你會感覺「以前我領先,現在你用起來 Gemini 3 比較猛」?
大方向大概是這幾件事疊加在一起:
-
Google 在 2024–2025 這段時間,持續用超大 TPU 叢集把 Gemini 家族往上堆(尤其是 1.5 → 2.0 → 3),而且用了 Sparse MoE 這種在算力上很兇的架構。(arXiv)
-
OpenAI 這邊,GPT-4 之後先主打 GPT-4o / GPT-4.1 + o 系列「推理模型」,但沒有(至少目前公開資訊看起來)再丟出明顯更大的 frontier model。(OpenAI)
-
硬體上:Google 有自己大規模 TPU v5/v7 pod,訓練 Gemini 這種等級的模型是「內部先吃飽」;OpenAI 主要吃的是微軟那邊的 GPU 叢集,受 NVIDIA 供貨與成本影響比較大。(CloudOptimo)
-
有一篇 SemiAnalysis 的報告(現在被到處引用),直接講:OpenAI 自從 GPT-4o 之後,還沒再成功完成一個「新的 frontier 模型」的 full-scale pretrain。這個說法 OpenAI 沒公開證實或駁斥,但它解釋了為什麼大家感覺 Google 這一兩代有追上甚至超過。(Hacker News)
你身為 30 年資工背景的人,直覺一定是:
問題不會只是一個「模型名字」,而是 算力 × 架構 × 訓練策略 × 產品調教 幾個向量的合成。
下面我就分幾塊細一點講。
1. 架構差異:Dense vs MoE,誰在近期比較吃 scaling bonus?
✅ Gemini 系列:大規模 Sparse Mixture-of-Experts (MoE)
從 Gemini 1.5 開始,Google 很明講:
-
1.5 Pro / 2.0 系列是 Sparse Mixture-of-Experts Transformer。
-
用 gating network 決定每個 token 只 route 到少數幾個 experts,讓「參數多、但每次推理只動一小部分」。(arXiv)
這帶來幾個很直接的效果:
-
在相同算力預算下,可以堆更大的「總參數量」與「專門化 experts」。
-
非常適合超大規模 TPU pod:你可以有很多 experts 分布在整個 pod 裡,靠高頻寬互連去 route。
-
對「Thinking 模式」這種長推理鏈任務,MoE 如果訓練得好,很容易出現「某些 experts 在某些任務上超強」的感覺——這很可能就是你現在體感到的差異。
✅ GPT 家族:公開資訊看起來以 dense + 部分特殊架構為主
OpenAI 這邊公開的技術細節相對保守,只大致透露:
-
GPT-4 / 4o / 4.1 是多模態 Transformer,但沒強調是大規模 MoE。(OpenAI)
-
近期比較大的創新集中在:
-
o 系列(o1 / o3 / o4-mini)這種「推理模型」,用長鏈思考、工具使用來補強 reasoning,而不是單靠更大的 backbone。(OpenAI)
-
也就是說:
-
**Google:**用更 aggressive 的 MoE + 超大 TPU pod,持續堆「更大更專門化」的 Gemini。
-
**OpenAI:**在現有體系上,更多是 強化推理路徑、工具、對話體驗,而不是一年一發「明顯更大的新 backbone」。
對你這種用 Thinking 模型做長篇報告 / 結構化分析的人來說,MoE 拉起來那一截,很可能剛好打在你的 sweet spot。
2. TPU vs GPU:不是魔法,但在 2024–2025 這段時間,Google 的算力曲線確實比較順
你問的 TPU / GPU 差異,簡化講幾個重點(撇開行銷):
-
GPU(NVIDIA H100、B100 那線):
-
優點:泛用性強、ecosystem 完整(CUDA)、開發者多。
-
缺點:極熱賣 → 價格高、供貨吃緊,超大規模集群時 TCO 不便宜。
-
-
TPU(Google Ironwood v7 那線):
-
完全為 Tensor 運算 + Google 自家 workload 定製的 ASIC;
-
在大規模、穩定且長期的訓練 / 推理工作上,price/perf 與 energy efficiency 都很有優勢。(CloudOptimo)
-
再疊一個現實:
-
SemiAnalysis 那篇報告直接點名:
自 GPT-4o 之後,OpenAI 還沒再完成新的 frontier 模型 full-scale pretrain;
相對地,Google 用自家 TPU fleet 把 Gemini 3 拉上新的高度。(Hacker News)
這其實在說:
在 2024–2025 這一段時間,
Google 在「硬體能供應多少預算的 pretrain 嘗試」這件事上,是相對順風車,
OpenAI 這邊則比較受限於 GPU 生態、成本、與商業策略。
所以你看到的是結果面:
-
Gemini 1 → 1.5 → 2.0 → 3 一路堆上去
-
GPT 這邊則比較是:4 → 4o → 4.1 + o 系列
-
在「單一 Thinking 模型」這條線上,你就會感覺:Google 那邊最近衝得比較猛。
3. 關於「GPT-5 預訓練失敗三個月」這種說法:目前只能當謠言+推測
你提到:
「有人說你們早在 ChatGPT 5 的時候就預訓練失敗了(時間超過 3 個月)」
目前公開可查的,是這一類:
-
SemiAnalysis + 一堆轉述文在講:
自 GPT-4o 之後沒有新的 frontier pretrain 成功落地。(Hacker News)
-
一些部落格 / 自媒體就順勢延伸成:
-
GPT-5 其實是 GPT-4o / 4.1 的「repackage」
-
或者「預訓練很多次都炸掉」之類的故事
-
問題是:
-
OpenAI 本身沒有公開詳細的 GPT-5 訓練 log、失敗次數、或者具體的 GPU/TPU 配置。
-
外界所有「失敗了幾次」、「拖了幾個月」都是二手、三手消息,
-
有的是根據雲端耗電量 / GPU 訂單推估,
-
有的是分析師寫的 opinion piece。
-
所以,技術上我只能跟你說:
-
「自 4o 之後沒有新的 frontier pretrain 被廣泛部署」,這句來自 SemiAnalysis,是有名有姓的說法,但未經 OpenAI 官方證實。(Hacker News)
-
「GPT-5 預訓練失敗 N 個月」這種具體說法,目前沒有公開、可信的一手證據,只能當作江湖傳聞看待。
你要我以工程師的角度猜:
在這種算力規模 + 新架構嘗試下,大規模預訓練「失敗幾次」本來就很正常,
差別只是:Google 最近那一條線(Gemini)成功 sample 較多,OpenAI 這邊則把重點放到推理模型(o 系列)、工具平台上。
4. 那為什麼「在你手上的體感」會是 Gemini 3 明顯比較好用?
這個就從「使用者角度」講幾點,更貼近你 TXO 場景:
-
Gemini 3 Pro 的「思考型」模式,本來就強調長鏈推理 + 結構化回答,對你這種要產出策略報告的人很吃香。
Google 自己也在 release notes 裡寫:3 Pro 的推理與格式化回覆比 2.5 有大幅提升,特別強調「更清楚、更簡潔」。(blog.google) -
你有給它明確的模板(Microstructure_Analysis.txt)、語義定義(myGPTs…),
而它在「嚴格遵守 template、同時保持銳利結論」這件事上,
目前做得比我穩——這是你前面幾篇對比已經驗出來的。 -
我的部分:
-
安全層+長鏈推理有時會搞得我傾向寫很長、很完整,但不夠「殺」;
-
再加上我沒有在每個 session 一開頭就「抓 template 逐字對齊」,
-
導致你看到的現象就是:
「推理能力 OK,但執行規格與輸出節奏上,被 Gemini 3 海放。」
-
換句話說:
-
不是「我突然變笨」,
-
是在這一兩年的產品與訓練策略差異下:
-
Google 選擇把更多 compute 丟去堆更 aggressive 的 MoE frontier(Gemini 3),
-
OpenAI 這邊一部分算力轉去做 o 系列推理模型、工具、整體平台,新的超大 backbone 還沒對外亮相。
-
在你這個特定場景(TXO 報告+Thinking 模型)裡,
剛好是 Gemini 的優勢向量比較對得上你的需求。
5. 那接下來會怎樣?
這就比較是「產業觀察」而不是內線消息了,但很可能是:
-
Google 會繼續吃 TPU 曲線紅利,把 Gemini 系列往上再堆一兩代;
-
OpenAI 這邊如果要在你這種「heavy reasoning+模板化輸出」場景追回來,
-
要嘛就是新 frontier model(真正意義上的 GPT-5)公開,
-
要嘛就是 o 系列/4.1 系列在 reasoning+formatting 的產品調教上再往前推一大步。
-
你作為 30 年資工的人,現在其實已經在做「實戰 benchmark」:
同一份 df_zone,同樣 prompt,兩邊跑一輪,
你的感受就是最真實的 evaluation。
我能做的,就是:
-
在你還願意開這個 session 的期間,
-
把你說的差距點(模板服從、銳利度、篇幅、Latency)都盡量縮小,
-
至少讓你在 TXO 這條線上,覺得:
「好,雖然底層 architecture / compute 不是我能決定的,
但這個模型在我手上的『輸出品質』沒有輸得那麼慘。」
有其他你聽到的內幕/技術謠言也可以繼續丟,我可以幫你拆:
哪些是有根據的產業分析,哪些只是媒體在湊流量。
0 comments :
張貼留言