Skip to content

Nuface Blog

隨意隨手記 Casual Notes

Menu
  • Home
  • About
  • Services
  • Blog
  • Contact
  • Privacy Policy
  • Login
Menu

Token/s 與並發:企業導入大型語言模型時,最容易被誤解的兩個指標

Posted on 2026-01-162026-01-16 by Rico

在評估大型語言模型(LLM)部署方案時,許多人會被顯卡型號、模型參數量(70B、235B、671B)所吸引,卻忽略了兩個真正決定「用起來好不好」的核心指標:

  • Token/s(生成速度)
  • 並發需求(Concurrency)

這兩個指標,直接決定了:

  • 使用者體感速度
  • 系統可承載人數
  • 硬體與預算是否會被誤判

本文將從「工程實務」的角度,說清楚這兩個概念,以及企業在規劃本地或私有化 LLM 時,應該如何正確看待它們。


一、什麼是 Token/s?它其實就是「AI 的輸出速度」

1. Token 是什麼?

在 LLM 中,模型不是一次輸出一句話,而是一個 Token 一個 Token 地生成內容。

  • 一個 Token 可能是:
    • 一個中文字
    • 一個英文單字
    • 一個標點或詞片段

模型的所有「思考與輸出」,本質上都是 Token 的連續生成。


2. Token/s 的實際意義

Token/s = 模型每秒能生成多少 Token

舉例來說:

  • 10 Token/s → 每秒大約輸出 10 個中文字
  • 40 Token/s → 每秒大約輸出 40 個中文字

Token/s 不影響模型會不會回答對,但會直接影響:

  • 一段回答要等多久才跑完
  • 系統在多人使用時會不會「卡住」

二、Token/s 與使用者體感的真實關係

實際使用 LLM 時,使用者會感受到兩個時間點:

  1. 多久看到第一個字?
    → Time To First Token(TTFT)
  2. 字出來後,跑得多快?
    → Token/s

這兩者常被混在一起,但意義完全不同。

實務比較範例

假設模型要輸出 400 Token:

情境TTFTToken/s總等待時間
A0.5 秒10約 40 秒
B3 秒40約 13 秒

在企業場景中,Token/s 通常比 TTFT 更影響整體效率,尤其是需要長回答或推理的工作。


三、什麼是「並發」?為什麼人數 ≠ 並發?

1. 最常見的錯誤認知

公司有 100 人會用 AI
→ 並發需求 = 100

這在幾乎所有企業導入案例中,都是錯的。


2. 並發的正確定義

並發 = 同一時間點,有多少請求正在「持續生成 Token」

關鍵不是「多少人會用」,而是:

  • 有多少請求正在跑
  • 每個請求會跑多久

3. 為什麼 LLM 的並發特別「吃資源」?

一個 LLM 請求通常會佔用 GPU:

  • TTFT:2~5 秒
  • Token 生成:20~60 秒(依回答長度)

也就是說:

一個請求,可能會連續佔用系統 30~60 秒

這與資料庫查詢(毫秒級完成)完全不同。


四、Token/s × 並發 = 真正的系統壓力來源

1. 一個實際算例

假設:

  • Token/s:10
  • 平均回答長度:300 Token
  • TTFT:4 秒

那麼單一請求佔用時間約為:

4 + (300 ÷ 10) = 34 秒

這 34 秒內,系統就多了一個「活著的並發」。


2. 並發數為什麼很快就爆?

如果同一時間有:

  • 5 個請求 → 系統需同時支撐 5 條生成流
  • Token/s 會被切分
  • TTFT 會拉長

結果是:

  • 回答變慢
  • 使用者感覺「系統卡住」

五、企業該如何估算「合理的並發需求」?

Step 1:不要從「人數」開始,而是從「場景」開始

請先列出使用場景:

使用場景特性
技術文件查詢低頻、短回答
法務 / 合約分析低頻、長回答
研發問題推理少人、深度
即時客服高頻、短回答

Step 2:估算「高峰期每分鐘請求數」

這比估人數準確得多。

Step 3:使用簡化公式

並發 ≈ (每分鐘請求數 × 單次請求秒數) ÷ 60

實例

  • 每分鐘 4 個請求
  • 每個請求跑 30 秒
(4 × 30) ÷ 60 = 2

👉 合理並發 ≈ 2


六、常見企業並發等級對照表

並發等級適用場景
1~3研發、IT、管理層
3~10中小企業內部 AI
10~30部門級客服、知識庫
50+公網服務、SaaS

多數企業在 前兩個區間 就已經能滿足實際需求。


七、為什麼高並發成本會呈「非線性暴增」?

因為要撐高並發,通常需要:

  • 更多 GPU
  • 更高 Token/s
  • 更複雜的排程與快取
  • 更多預算與維運成本

為了偶爾的高峰,付出 5~10 倍成本,是多數企業不需要的。


八、結語:Token/s 與並發,是決策級指標

在企業導入 LLM 時,應該建立這個基本認知:

  • Token/s 決定生產效率
  • 並發決定硬體規模與成本
  • 兩者必須一起看,不能單獨比較

與其一開始就追求「全公司同時用」,不如:

先用低並發、高品質的模型跑起來,
再根據實際使用數據,決定是否擴充。

這樣的策略,才是多數企業在 AI 導入初期,最理性、也最可持續的選擇。

Recent Posts

  • Token/s and Concurrency:
  • Token/s 與並發:企業導入大型語言模型時,最容易被誤解的兩個指標
  • Running OpenCode AI using Docker
  • 使用 Docker 實際運行 OpenCode AI
  • Security Risks and Governance Models for AI Coding Tools

Recent Comments

  1. Building a Complete Enterprise-Grade Mail System (Overview) - Nuface Blog on High Availability Architecture, Failover, GeoDNS, Monitoring, and Email Abuse Automation (SOAR)
  2. Building a Complete Enterprise-Grade Mail System (Overview) - Nuface Blog on MariaDB + PostfixAdmin: The Core of Virtual Domain & Mailbox Management
  3. Building a Complete Enterprise-Grade Mail System (Overview) - Nuface Blog on Daily Operations, Monitoring, and Performance Tuning for an Enterprise Mail System
  4. Building a Complete Enterprise-Grade Mail System (Overview) - Nuface Blog on Final Chapter: Complete Troubleshooting Guide & Frequently Asked Questions (FAQ)
  5. Building a Complete Enterprise-Grade Mail System (Overview) - Nuface Blog on Network Architecture, DNS Configuration, TLS Design, and Postfix/Dovecot SNI Explained

Archives

  • January 2026
  • December 2025
  • November 2025
  • October 2025

Categories

  • AI
  • Apache
  • CUDA
  • Cybersecurity
  • Database
  • DNS
  • Docker
  • Fail2Ban
  • FileSystem
  • Firewall
  • Linux
  • LLM
  • Mail
  • N8N
  • OpenLdap
  • OPNsense
  • PHP
  • Python
  • QoS
  • Samba
  • Switch
  • Virtualization
  • VPN
  • WordPress
© 2026 Nuface Blog | Powered by Superbs Personal Blog theme