在評估大型語言模型(LLM)部署方案時,許多人會被顯卡型號、模型參數量(70B、235B、671B)所吸引,卻忽略了兩個真正決定「用起來好不好」的核心指標:
- Token/s(生成速度)
- 並發需求(Concurrency)
這兩個指標,直接決定了:
- 使用者體感速度
- 系統可承載人數
- 硬體與預算是否會被誤判
本文將從「工程實務」的角度,說清楚這兩個概念,以及企業在規劃本地或私有化 LLM 時,應該如何正確看待它們。
一、什麼是 Token/s?它其實就是「AI 的輸出速度」
1. Token 是什麼?
在 LLM 中,模型不是一次輸出一句話,而是一個 Token 一個 Token 地生成內容。
- 一個 Token 可能是:
- 一個中文字
- 一個英文單字
- 一個標點或詞片段
模型的所有「思考與輸出」,本質上都是 Token 的連續生成。
2. Token/s 的實際意義
Token/s = 模型每秒能生成多少 Token
舉例來說:
- 10 Token/s → 每秒大約輸出 10 個中文字
- 40 Token/s → 每秒大約輸出 40 個中文字
Token/s 不影響模型會不會回答對,但會直接影響:
- 一段回答要等多久才跑完
- 系統在多人使用時會不會「卡住」
二、Token/s 與使用者體感的真實關係
實際使用 LLM 時,使用者會感受到兩個時間點:
- 多久看到第一個字?
→ Time To First Token(TTFT) - 字出來後,跑得多快?
→ Token/s
這兩者常被混在一起,但意義完全不同。
實務比較範例
假設模型要輸出 400 Token:
| 情境 | TTFT | Token/s | 總等待時間 |
|---|---|---|---|
| A | 0.5 秒 | 10 | 約 40 秒 |
| B | 3 秒 | 40 | 約 13 秒 |
在企業場景中,Token/s 通常比 TTFT 更影響整體效率,尤其是需要長回答或推理的工作。
三、什麼是「並發」?為什麼人數 ≠ 並發?
1. 最常見的錯誤認知
公司有 100 人會用 AI
→ 並發需求 = 100
這在幾乎所有企業導入案例中,都是錯的。
2. 並發的正確定義
並發 = 同一時間點,有多少請求正在「持續生成 Token」
關鍵不是「多少人會用」,而是:
- 有多少請求正在跑
- 每個請求會跑多久
3. 為什麼 LLM 的並發特別「吃資源」?
一個 LLM 請求通常會佔用 GPU:
- TTFT:2~5 秒
- Token 生成:20~60 秒(依回答長度)
也就是說:
一個請求,可能會連續佔用系統 30~60 秒
這與資料庫查詢(毫秒級完成)完全不同。
四、Token/s × 並發 = 真正的系統壓力來源
1. 一個實際算例
假設:
- Token/s:10
- 平均回答長度:300 Token
- TTFT:4 秒
那麼單一請求佔用時間約為:
4 + (300 ÷ 10) = 34 秒
這 34 秒內,系統就多了一個「活著的並發」。
2. 並發數為什麼很快就爆?
如果同一時間有:
- 5 個請求 → 系統需同時支撐 5 條生成流
- Token/s 會被切分
- TTFT 會拉長
結果是:
- 回答變慢
- 使用者感覺「系統卡住」
五、企業該如何估算「合理的並發需求」?
Step 1:不要從「人數」開始,而是從「場景」開始
請先列出使用場景:
| 使用場景 | 特性 |
|---|---|
| 技術文件查詢 | 低頻、短回答 |
| 法務 / 合約分析 | 低頻、長回答 |
| 研發問題推理 | 少人、深度 |
| 即時客服 | 高頻、短回答 |
Step 2:估算「高峰期每分鐘請求數」
這比估人數準確得多。
Step 3:使用簡化公式
並發 ≈ (每分鐘請求數 × 單次請求秒數) ÷ 60
實例
- 每分鐘 4 個請求
- 每個請求跑 30 秒
(4 × 30) ÷ 60 = 2
👉 合理並發 ≈ 2
六、常見企業並發等級對照表
| 並發等級 | 適用場景 |
|---|---|
| 1~3 | 研發、IT、管理層 |
| 3~10 | 中小企業內部 AI |
| 10~30 | 部門級客服、知識庫 |
| 50+ | 公網服務、SaaS |
多數企業在 前兩個區間 就已經能滿足實際需求。
七、為什麼高並發成本會呈「非線性暴增」?
因為要撐高並發,通常需要:
- 更多 GPU
- 更高 Token/s
- 更複雜的排程與快取
- 更多預算與維運成本
為了偶爾的高峰,付出 5~10 倍成本,是多數企業不需要的。
八、結語:Token/s 與並發,是決策級指標
在企業導入 LLM 時,應該建立這個基本認知:
- Token/s 決定生產效率
- 並發決定硬體規模與成本
- 兩者必須一起看,不能單獨比較
與其一開始就追求「全公司同時用」,不如:
先用低並發、高品質的模型跑起來,
再根據實際使用數據,決定是否擴充。
這樣的策略,才是多數企業在 AI 導入初期,最理性、也最可持續的選擇。