Token/s 與並發：企業導入大型語言模型時，最容易被誤解的兩個指標

在評估大型語言模型（LLM）部署方案時，許多人會被顯卡型號、模型參數量（70B、235B、671B）所吸引，卻忽略了兩個真正決定「用起來好不好」的核心指標：

Token/s（生成速度）
並發需求（Concurrency）

這兩個指標，直接決定了：

使用者體感速度
系統可承載人數
硬體與預算是否會被誤判

本文將從「工程實務」的角度，說清楚這兩個概念，以及企業在規劃本地或私有化 LLM 時，應該如何正確看待它們。

一、什麼是 Token/s？它其實就是「AI 的輸出速度」

1. Token 是什麼？

在 LLM 中，模型不是一次輸出一句話，而是一個 Token 一個 Token 地生成內容。

一個 Token 可能是：
- 一個中文字
- 一個英文單字
- 一個標點或詞片段

模型的所有「思考與輸出」，本質上都是 Token 的連續生成。

2. Token/s 的實際意義

Token/s = 模型每秒能生成多少 Token

舉例來說：

10 Token/s → 每秒大約輸出 10 個中文字
40 Token/s → 每秒大約輸出 40 個中文字

Token/s 不影響模型會不會回答對，但會直接影響：

一段回答要等多久才跑完
系統在多人使用時會不會「卡住」

二、Token/s 與使用者體感的真實關係

實際使用 LLM 時，使用者會感受到兩個時間點：

多久看到第一個字？
→ Time To First Token（TTFT）
字出來後，跑得多快？
→ Token/s

這兩者常被混在一起，但意義完全不同。

實務比較範例

假設模型要輸出 400 Token：

情境	TTFT	Token/s	總等待時間
A	0.5 秒	10	約 40 秒
B	3 秒	40	約 13 秒

在企業場景中，Token/s 通常比 TTFT 更影響整體效率，尤其是需要長回答或推理的工作。

三、什麼是「並發」？為什麼人數 ≠ 並發？

1. 最常見的錯誤認知

公司有 100 人會用 AI
→ 並發需求 = 100

這在幾乎所有企業導入案例中，都是錯的。

2. 並發的正確定義

並發 = 同一時間點，有多少請求正在「持續生成 Token」

關鍵不是「多少人會用」，而是：

有多少請求正在跑
每個請求會跑多久

3. 為什麼 LLM 的並發特別「吃資源」？

一個 LLM 請求通常會佔用 GPU：

TTFT：2～5 秒
Token 生成：20～60 秒（依回答長度）

也就是說：

一個請求，可能會連續佔用系統 30～60 秒

這與資料庫查詢（毫秒級完成）完全不同。

四、Token/s × 並發 = 真正的系統壓力來源

1. 一個實際算例

假設：

Token/s：10
平均回答長度：300 Token
TTFT：4 秒

那麼單一請求佔用時間約為：

4 + (300 ÷ 10) = 34 秒

這 34 秒內，系統就多了一個「活著的並發」。

2. 並發數為什麼很快就爆？

如果同一時間有：

5 個請求 → 系統需同時支撐 5 條生成流
Token/s 會被切分
TTFT 會拉長

結果是：

回答變慢
使用者感覺「系統卡住」

五、企業該如何估算「合理的並發需求」？

Step 1：不要從「人數」開始，而是從「場景」開始

請先列出使用場景：

使用場景	特性
技術文件查詢	低頻、短回答
法務 / 合約分析	低頻、長回答
研發問題推理	少人、深度
即時客服	高頻、短回答

Step 2：估算「高峰期每分鐘請求數」

這比估人數準確得多。

Step 3：使用簡化公式

並發 ≈ (每分鐘請求數 × 單次請求秒數) ÷ 60

實例

每分鐘 4 個請求
每個請求跑 30 秒

(4 × 30) ÷ 60 = 2

👉 合理並發 ≈ 2

六、常見企業並發等級對照表

並發等級	適用場景
1～3	研發、IT、管理層
3～10	中小企業內部 AI
10～30	部門級客服、知識庫
50+	公網服務、SaaS

多數企業在 前兩個區間 就已經能滿足實際需求。

七、為什麼高並發成本會呈「非線性暴增」？

因為要撐高並發，通常需要：

更多 GPU
更高 Token/s
更複雜的排程與快取
更多預算與維運成本

為了偶爾的高峰，付出 5～10 倍成本，是多數企業不需要的。

八、結語：Token/s 與並發，是決策級指標

在企業導入 LLM 時，應該建立這個基本認知：

Token/s 決定生產效率
並發決定硬體規模與成本
兩者必須一起看，不能單獨比較

與其一開始就追求「全公司同時用」，不如：

先用低並發、高品質的模型跑起來，
再根據實際使用數據，決定是否擴充。

這樣的策略，才是多數企業在 AI 導入初期，最理性、也最可持續的選擇。