LLM - Nuface Blog

Token/s and Concurrency:

Posted on 2026-01-162026-01-16 by Rico

The Two Most Misunderstood Metrics in Enterprise LLM Deployment When evaluating Large Language Model (LLM) deployment options, many teams focus on GPU models and parameter counts—70B, 235B, 671B—while overlooking two metrics that actually determine whether a system is usable in real life: These two metrics directly affect: This article explains what Token/s and concurrency really…

Token/s 與並發：企業導入大型語言模型時，最容易被誤解的兩個指標

Posted on 2026-01-162026-01-16 by Rico

在評估大型語言模型（LLM）部署方案時，許多人會被顯卡型號、模型參數量（70B、235B、671B）所吸引，卻忽略了兩個真正決定「用起來好不好」的核心指標：這兩個指標，直接決定了：本文將從「工程實務」的角度，說清楚這兩個概念，以及企業在規劃本地或私有化 LLM 時，應該如何正確看待它們。一、什麼是 Token/s？它其實就是「AI 的輸出速度」 1. Token 是什麼？在 LLM 中，模型不是一次輸出一句話，而是一個 Token 一個 Token 地生成內容。模型的所有「思考與輸出」，本質上都是 Token 的連續生成。 2. Token/s 的實際意義 Token/s = 模型每秒能生成多少 Token 舉例來說： Token/s 不影響模型會不會回答對，但會直接影響：二、Token/s 與使用者體感的真實關係實際使用 LLM 時，使用者會感受到兩個時間點：這兩者常被混在一起，但意義完全不同。實務比較範例假設模型要輸出 400 Token：情境 TTFT Token/s 總等待時間 A 0.5 秒 10 約 40 秒 B 3 秒…

Why Do LLMs Consume So Much GPU Memory?

Posted on 2026-01-082026-01-08 by Rico

If you’ve ever run a local LLM, you’ve probably experienced this: “The model hasn’t even started responding, and my GPU VRAM is already almost full.” Or: This is not a misconfiguration.👉 LLMs are inherently memory-hungry by design. This article explains where GPU memory actually goes and why it’s so hard to reduce. If you’ve ever…

為什麼 LLM 會吃掉那麼多顯示卡記憶體？

Posted on 2026-01-082026-01-08 by Rico

只要你跑過本地 LLM，一定遇過這個情況：「模型還沒開始聊天，VRAM 就快爆了。」甚至：這不是你用錯，而是 LLM 的設計本質，就非常吃記憶體。這篇文章會帶你搞懂：👉 LLM 的 VRAM 到底被誰吃掉？為什麼省不下來？先給結論（一句話版） LLM 吃顯示卡記憶體，不是因為「算得快」，而是因為「要同時記住太多東西」。一個關鍵觀念：LLM ≠ 傳統程式傳統程式： LLM 完全不是這樣。 👉 LLM 在推論時，必須「一路記住過去的內容」，才能接著講下去。 LLM 在 VRAM 裡到底放了什麼？ LLM 的 VRAM 消耗，至少來自四大類。 ① 模型權重（Weights）—— 最大宗這是什麼？為什麼這麼大？假設：那光是權重就要： 📌 權重是「固定成本」，一載入就要全付。 ② KV Cache —— 吃記憶體的隱形殺手 KV Cache 是什麼？ 👉 每產生一個 token，就要存一次。為什麼…

Is Apple M-Series Suitable for Running Local LLMs?

Posted on 2026-01-082026-01-08 by Rico

As local Large Language Models (LLMs) become more popular, many people ask: “Is my Apple M-series Mac actually suitable for running local LLMs?” The answer is not simply yes or no.It depends on what you want to do, how large the model is, and how you plan to use it. This article evaluates Apple M-series…

Apple M 系列適不適合本地 LLM？

Posted on 2026-01-082026-01-08 by Rico

隨著本地 LLM（Large Language Model）越來越熱門，很多人開始問：「我手上的 Mac（Apple M 系列），到底適不適合跑本地 LLM？」答案不是簡單的「可以」或「不可以」，而是要看你想怎麼用、跑多大、要多快。這篇文章會從硬體架構、記憶體、實際使用情境三個角度，幫你做出清楚判斷。先給結論（重點版） Apple M 系列「適合」本地 LLM 推論與輕量應用，但「不適合」大型模型訓練與高並發部署。如果你把 Apple M 系列當成： 👉 那它其實很好用。什麼是「本地 LLM」？先對齊定義所謂本地 LLM，通常指： 📌 重點不是「最大能跑多大」，而是「能不能順、穩、長時間跑」。 Apple M 系列的三個關鍵優勢 ① Unified Memory（統一記憶體）＝本地 LLM 大加分 Apple M 系列採用 Unified Memory Architecture： 👉 對本地 LLM 來說，「記憶體能不能一次放下模型」比 GPU 核心數更重要。…

AI Copilot and Enterprise Workflow Automation: EIP + N8N + LLM Integration

Posted on 2025-11-032025-11-03 by Rico

🔰 Introduction The final stage of digital transformation isn’t about teaching people to use systems better —it’s about making systems understand people. In the past, employees had to log into the EIP, fill forms, and wait for approvals.Today, an AI Copilot can do that on your behalf with a simple command: “Create a travel request…

AI Copilot 與企業流程自動化 (EIP + N8N + LLM Integration)

Posted on 2025-11-032025-11-03 by Rico

🔰 引言企業數位化的最終階段，不是「讓人更會用系統」，而是「讓系統能理解人」。過去，員工需要登入 EIP、填寫表單、等待簽核；而今天，AI Copilot 可以用自然語言直接幫你完成這些動作：「幫我建立一份六月出差申請，目的地上海，三天。」 Copilot 即可自動建立申請單、觸發 N8N 流程，完成送審。這就是 AI + EIP + N8N + LLM 整合的力量：讓 AI 成為真正的「企業工作助理」。 🧩 一、企業流程自動化的核心挑戰問題傳統方式 AI Copilot 解法流程分散各系統獨立 (EIP、ERP、Mail) LLM 理解語意並集中操作操作繁瑣表單多、簽核鏈冗長 Copilot 自動填寫、提交資訊不即時使用者需手動查詢狀態 AI 主動推播流程結果知識碎片化 SOP / 文件難以即時參照 RAG 架構即時檢索決策依據 ✅ 核心目標：讓 AI 成為流程入口，而非僅是資訊查詢工具。 ⚙️ 二、AI…

Enterprise LLM Training and Private Deployment

Posted on 2025-11-032025-11-03 by Rico

🔰 Introduction Generative AI has become a driving force behind digital transformation — powering decision-making, customer engagement, and knowledge automation across industries.However, most commercial AI models (e.g., GPT, Claude, Gemini) rely on public cloud APIs, introducing challenges such as data privacy risks, unpredictable costs, and compliance limitations. As a result, enterprises are increasingly exploring private…

企業內部 LLM 訓練與私有化部署

Posted on 2025-11-032025-11-03 by Rico

🔰 引言生成式 AI 已成為企業營運決策、客服自動化、知識檢索與內控管理的重要引擎。然而，多數商用模型（如 GPT、Claude、Gemini）都受限於雲端授權、資料外流風險與合規問題。因此，越來越多企業開始考慮在內部自建 LLM (Large Language Model)，透過私有部署、企業資料微調 (Fine-tune) 與 RAG（檢索增強生成）架構，打造出真正屬於企業內部的「智慧大腦」。 🧩 一、為什麼企業需要內部 LLM 問題外部模型內部私有模型資料隱私無法控制資料流向資料全程在企業內部客製化能力無法理解企業專有流程可訓練成企業專屬知識模型成本可控性授權依 Token/用量計費自建後成本隨硬體投入而固定法規遵循 GDPR / 個資風險內部環境符合資安與稽核要求效能延遲需雲端 API 回應本地 GPU 即時推理 ✅ 私有化 LLM 是企業邁向「AI 治理自主權」的重要一步。 ⚙️ 二、企業內部 LLM 建構流程概覽…