AI知識｜看懂 Token 經濟學：為什麼 AI 成本不只看模型價格，而要看工作如何被拆成 Token

Business Review

email聯絡

Business Review

email聯絡

AI知識｜看懂 Token 經濟學：為什麼 AI 成本不只看模型價格，而要看工作如何被拆成 Token

Token 不是單純的技術細節，而是 AI 時代衡量成本、脈絡、推理、快取、工具使用與工作流程效率的基本單位；理解 Token 經濟學，才能判斷企業導入 AI 時真正花錢的是哪一段工作。

· AI知識,AI 模型,AI 轉型

InfoAI 編輯部

關鍵知識點：

Token 是 AI 系統計算、收費與管理脈絡的基本單位。
Token 可以短到單一字元，也可以長到一整個字。空格、標點與部分單字，都會影響 Token 數量。
AI 成本不能只看模型單價，而要拆成輸入、輸出、快取、推理、工具與工作流程。
OpenAI 官方 API 定價已把模型價格拆成輸入、快取輸入與輸出等項目；Google Gemini 定價也把輸入、輸出、context caching 與 thinking tokens 納入計價說明。
Token 經濟學真正改變的是企業設計 AI 工作的方式。
當長文件、RAG、AI agent、多模態輸入、工具呼叫與推理模型都會帶來不同成本時，企業不能只問「哪個模型最強」，還要問：哪些脈絡值得放進去？哪些任務值得讓模型思考？哪些重複內容應該快取？哪些步驟可以交給小模型或批次處理？

多數人第一次聽到「Token 經濟學」，容易想到兩件事。

第一，是把它和區塊鏈的 tokenomics 混在一起，以為這是在談加密貨幣的代幣設計。

第二，是把它當成 AI 開發者才需要懂的技術細節，以為只要知道「Token 大概是一小段文字」就夠了。

生成式 AI 進入企業工作流程後，Token 已經不只是技術名詞。它正在變成 AI 成本、效能、脈絡管理與工作設計的共同語言。

你丟進去的文件、背景資料、系統提示、對話歷史、工具描述、檢索結果、模型思考過程與最後輸出，都可能影響成本、延遲、品質與治理。企業每一次使用 AI，其實都在把工作 Token 化。

多數人誤解的不是 Token，而是沒有看見工作正在被 Token 化

如果只把 Token 理解成「AI 把文字切成小塊」，只說對了一半。

根據 OpenAI 的說明，Token 是模型處理文字的基本單位。英文中常見的粗略換算是 1 Token 約等於 4 個字元，100 Token 約等於 75 個英文單字；但這只是估算，不同語言、標點、空格與文字型態，都會影響實際 Token 數。

在企業使用 AI 的情境裡，Token 不只代表文字如何被模型讀取，也代表工作如何被計量。

一封 email 是 Token。
一份合約是 Token。
一段客服對話是 Token。
一份內部 SOP 是 Token。
一個系統提示也是 Token。
AI agent 能使用哪些工具，工具說明本身也會佔 Token。
推理模型在回覆前進行內部思考，也可能產生 reasoning tokens。

OpenAI 的 reasoning models 文件指出，推理模型除了輸入與輸出 Token 外，還會引入 reasoning tokens，用來讓模型「思考」、拆解問題並考慮多種生成回應的方式；文件也指出 GPT-5.5 與 GPT-5.4 支援 interleaved thinking，也就是模型能在可見輸出與工具呼叫之間進行思考。

所以，Token 經濟學真正要看的問題是：

企業把多少工作脈絡交給 AI？
AI 為了完成任務，需要讀多少、想多少、產生多少、查多少、呼叫多少工具？

這才是 Token 經濟學的起點。

Token 不是一種成本，而是一組成本結構

很多企業評估 AI 成本時，會先問：「這個模型每百萬 Token 多少錢？」

這個問題要問，但不能只問這個。

API 定價會隨模型版本、服務層級、地區與官方政策調整。以下價格根據 2026 年 5 月 15 日查詢各家官方頁面所得資訊；企業實際採購與導入前，仍應回到官方定價頁確認。

以 OpenAI 官方 API Pricing 頁為例，GPT-5.5 在標準處理中區分 short context 與 long context。short context 的輸入、快取輸入與輸出價格分別為每百萬 Token 2.50、0.25、15.00 美元；long context 則為 5.00、0.50、22.50 美元。該頁也列出 GPT-5.4、GPT-5.4 mini、GPT-5.4 nano 等模型的輸入、快取輸入與輸出價格，並說明資料所在地區處理端點會加收 10%。

Google Gemini API 定價頁則多次列出 input price、output price including thinking tokens、context caching price 與儲存價格，並依模型與輸入型態區分 text / image / video 與 audio 等不同價格。

這些定價方式背後，透露的是一張 Token 成本表。

這張表的重點不在於省錢技巧，而在於工作流程設計。

核心概念一：輸入 Token 是「脈絡成本」

企業常常以為，給 AI 越多資料，回答就越好。

這個想法只對了一半。

更多脈絡確實可能讓 AI 回答得更貼近任務。但在真實企業場景裡，資料越多，也代表輸入 Token 越多、成本越高、延遲可能增加，模型也更容易被不相關資訊干擾。

你可以把輸入 Token 想成會議前交給顧問看的資料包。

如果你只給顧問一頁背景，他可能不了解全局；但如果你丟給他三百頁資料，而且沒有標記重點，他不一定判斷得更好，反而可能把注意力放錯地方。

這個比喻提醒我們：脈絡本身有成本。但它不是要企業少給資料，而是要給對資料。

對企業來說，輸入 Token 管理的核心問題包括：

哪些資料是任務必要脈絡？
哪些資料只是使用者習慣性丟進去？
哪些內容應該先整理成摘要、索引或知識結構？
哪些重複背景應該快取，而不是每次重新送進模型？
哪些內部文件不應該直接丟給模型，而應該透過權限控管與檢索機制取得？

這也是 RAG、企業知識庫、文件摘要與 prompt caching 變得重要的原因。它們不只是提升回答品質，也是在幫企業管理脈絡成本。

Anthropic 的 Claude 文件說明，prompt caching 可以重用先前處理過的 prompt 片段，減少每次重新處理大型系統提示、文件或對話歷史的成本與延遲；文件也指出，cache hit 的成本是標準輸入價格的 10%，5 分鐘 cache write 是基礎輸入價格的 1.25 倍，1 小時 cache write 是 2 倍。

Token 經濟學的優先管理原則是：不要把所有資料都丟給 AI，而要設計 AI 每次任務真正需要的脈絡。

核心概念二：輸出 Token 是「生成成本」，也是品質控制問題

很多人會注意輸入 Token，卻忽略輸出 Token 往往更需要管理。

從 OpenAI 官方定價頁可以看到，GPT-5.5 在標準處理中，無論 short context 或 long context，輸出 Token 的價格都高於輸入 Token；GPT-5.4 與 GPT-5.4 mini 也呈現類似結構。

這背後有一個明確的管理訊號：

AI 說得越多，不一定越有價值，但一定是會增加成本。

對內容工作者來說，這句話尤其重要。

如果每次請 AI 寫文章、整理報告、產生提案，都讓它先輸出很長的版本，再由人刪改，表面上像是節省時間，實際上可能把成本轉移到兩個地方：

第一，模型輸出的 Token 成本增加。
第二，人類編輯、判斷、重寫與校對的時間增加。

所以輸出 Token 不是單純的「字數成本」，也是品質控制問題。

成熟的 AI 工作流程，應該先定義輸出格式，而不是讓模型自由發揮。例如：

先輸出 5 點摘要，不要直接寫 3000 字文章。
先列出大綱與判斷依據，再決定是否展開。
先做錯誤檢查，不要直接產生完整報告。
先用表格比較，再請人挑選需要展開的部分。
對重複任務設定固定輸出長度與欄位。

這不是限制 AI，而是讓輸出 Token 變成可管理的工作成果。

核心概念三：推理 Token 是「思考成本」，不是所有任務都值得深度推理

推理模型讓 AI 能處理更複雜、多步驟的問題。

它也帶來新的 Token 經濟問題：模型在產生最終答案前，可能會使用額外的內部思考步驟。OpenAI 的 reasoning models 文件明確說明，reasoning models 會引入 reasoning tokens，並用它們來「思考」、拆解提示詞與考慮多種產生回應的方法。

這代表企業不能把所有任務都交給最強推理模型。

可以把推理 Token 想成請一位高階顧問開會思考。

如果你要他判斷併購策略、法規風險、企業轉型路線，花時間思考是合理的；但如果你只是要他把一段文字改成三個小標，請他深度推理就是浪費。

這個比喻的重點在於：「思考」也有成本。但這不代表推理模型不值得用，真正的關鍵在任務分層。

企業可以把 AI 任務分成三層：

簡單任務，用低成本模型或規則處理。中度任務，用一般模型完成摘要、分類、格式整理與初步分析。高風險或高價值任務，才使用高階推理模型，並搭配人類覆核。

這樣做不是永遠選最便宜模型，而是讓高成本 Token 出現在真正需要高價值判斷的地方。

核心概念四：快取 Token 是「重複脈絡的折扣」

Token 經濟學裡，最容易被忽略的一項，是快取。

企業內部有大量重複脈絡，例如：

公司背景
品牌語氣
產品規格
法務條款
客服政策
會員制度
內部 SOP
固定報告格式
AI agent 的工具說明

如果每次呼叫模型都重新送入這些內容，就像每次開會都把公司簡介從頭講一次。

快取的價值，是把重複脈絡變成可重複使用的基礎設施。

Anthropic 的 prompt caching 文件進一步說明，多數 request blocks 都可以被快取，包括 tools、system messages、messages 中的文字、圖片、文件、tool use 與 tool results；但 thinking blocks 不能直接用 cache_control 快取，而且不同模型與平台有最低 Token 門檻，低於門檻的內容不會被快取。

這對企業的啟發很直接：

如果某段脈絡會被大量重複使用，就不要把它當成每次請求的一次性成本，而要把它設計成可快取的工作底座。

快取 Token 的思維，會改變企業設計 AI 應用的方式。企業不再是每一次都重新寫提示詞，而是把穩定內容抽出來，變成系統層、知識層與工作流程層的一部分。

核心概念五：批次處理是「不急任務」的成本策略，但不是萬能解法

如果任務不需要即時回覆，批次處理會成為 Token 經濟學裡的重要成本策略。

例如：

大量文件分類
內容資料前處理
批次摘要
測試集評估
內部知識庫整理
大量商品描述清洗

Google Gemini Batch API 官方文件說明，Batch API 目的是非同步處理大量請求，成本是標準互動 API 的 50%，目標週轉時間為 24 小時，適合資料前處理或評估這類不需要即時回應的大量任務。

但這裡也要補上限制。Google 官方文件目前同時顯示，Batch API 正在發生 ongoing incident，可能導致 batch jobs 隨機失敗，團隊正在調查。

所以，批次處理不能理解成「所有任務都丟去便宜通道」。

比較穩健的判斷是：

不急、可重跑、可驗證的大量任務，才適合批次處理；需要即時回覆、高穩定性或前線服務承諾的任務，不應只因成本較低就改成批次處理。

便宜不等於適合，折扣也不代表風險消失。

核心概念六：工具與 Agent 會讓 Token 成本從「對話」變成「流程」

當企業開始使用 AI agent，Token 經濟學會變得更複雜。

因為成本不再只來自「使用者問一句、模型答一句」，而是來自整段流程：

使用者提出目標。
Agent 讀取系統提示與任務規則。
Agent 判斷要不要呼叫工具。
工具名稱、描述與 schema 佔用 Token。
工具回傳結果佔用 Token。
Agent 再根據結果推理與生成下一步。
多輪之後產出最終結果。

Anthropic 的 tool use 文件說明，工具使用請求的價格取決於送到模型的總輸入 Token、模型產生的輸出 Token，以及伺服器端工具可能產生的額外用量；額外 Token 來源包括 tools 參數中的工具名稱、描述與 schema、API request / response 裡的 tool_use blocks，以及 tool_result blocks。

這代表 AI agent 的成本，不只是模型單價，還有流程設計品質。

如果 agent 每次都呼叫太多工具、把太多工具結果全部塞回模型、沒有中途摘要、沒有任務終止條件，就會讓 Token 成本快速膨脹。

企業設計 agent 時，應該問：

這個 agent 是否真的需要自主拆解任務？
每一步工具呼叫是否必要？工具回傳結果是否可以先壓縮？
是否需要每輪都保留完整歷史？
哪些步驟可以用小模型處理？
哪些步驟需要人類確認後才繼續？

AI agent 不是把 AI 變成免費員工，而是把工作流程變成可計量、可優化、可監控的 Token 流。

Token 越多，不等於 AI 越聰明

Token 經濟學最常見的誤解，是把「更多 Token」等同於「更好結果」。

長上下文很有用，但不代表把所有資料塞進去就是最佳做法。

推理 Token 很重要，但不代表每個任務都需要深度思考。

輸出越長可能看起來越完整，但不代表判斷越好。

工具呼叫越多可能看起來越自動化，但不代表流程越有效率。

快取越多可以降低重複成本，但不代表快取內容永遠正確或適用。

比較成熟的理解是：Token 是 AI 能力的燃料，但燃料用得多，不代表車開得對。

企業真正需要管理的，不只是 Token 數量，而是 Token 是否出現在對的地方。

該放脈絡時，不要省。
該限制輸出時，不要放任。
該深度推理時，不要用便宜模型硬撐。
該批次處理時，不要每次即時呼叫。
該快取的穩定內容，不要每次重送。
該由人判斷的責任，不要交給 Token 消耗量來掩蓋。

這才是 Token 經濟學最重要的去神話化。

企業如何建立 Token 經濟學框架？

如果企業要真正管理 AI 成本，不能只看每個模型的定價表。

更實用的方式，是建立一張「Token 成本表」。

每個 AI 工作流程都要問五個問題：

第一，這個任務需要多少脈絡？
第二，這些脈絡是否都必要？
第三，輸出需要多完整，還是只需要可判斷的中間結果？
第四，這個任務是否真的需要高階推理？
第五，有哪些重複內容可以快取、批次處理或交給小模型？

這套框架可以轉成企業內部的 AI 使用規則。

例如
客服部門可以規定：一般查詢先走知識庫檢索與小模型摘要，只有複雜客訴才升級到高階模型。
法務部門可以規定：合約全文不一定每次完整送入模型，而是先抽取關鍵條款、風險段落與待審問題，再交給模型輔助分析。
內容團隊可以規定：AI 先產生大綱與段落判斷，不直接生成完整長文；主線確認後，再展開成正式稿。
資訊部門可以規定：在供應商與模型支援的範圍內，所有 AI 應用都要記錄平均輸入 Token、平均輸出 Token、快取命中率、工具呼叫次數、單次任務成本與人工覆核率。

這些設計，比單純要求員工「節省 Token」更有用。

Token 經濟學也是透明度與治理問題

Token 不只是成本問題，也會牽涉透明度。

《Is Your LLM Overcharging You? Tokenization, Transparency, and Incentives》這篇在 2025 年 5 月提交、2026 年 1 月修訂的 arXiv 論文中指出，在按 Token 計價的雲端模型服務裡，使用者為模型輸出付費的價格取決於模型生成輸出時使用的 Token 數；研究作者也主張，這種定價機制可能讓供應商產生策略性誤報 Token 數的財務誘因，而使用者不一定能證明或知道自己是否被多收費。

這不代表所有供應商都有這樣的行為，也不代表企業應該因此拒用 AI API。這篇論文更適合被理解為一個學術研究與風險提醒，而不是對主流供應商的事實指控。

比較合適的解讀是：當 AI 成本越來越依賴 Token 計量，企業就需要更重視使用紀錄、計費透明度與內部監控。

企業在採購或自建 AI 應用時，至少應該要求：

在供應商與模型支援的範圍內，每次請求的輸入、輸出、快取與推理 Token 用量
不同功能、部門、工作流程的 Token 消耗統計
高成本請求的異常告警
工具呼叫與額外費用的紀錄
模型版本與定價變更紀錄
人工覆核與錯誤回報機制

這些不是財務部門才需要看的資料，而是企業 AI 治理的一部分。

當 AI 從聊天工具變成流程系統，Token 用量就不只是技術指標，而是成本、品質、風險與責任的共同指標。

結語：真正的 Token 經濟學，是重新設計 AI 工作，而不是只計算 AI 價格

Token 經濟學最容易被低估的地方，是它看起來太像技術細節。

但 Token 正在把 AI 工作變成可計量的結構。

過去企業管理軟體成本，常看帳號數、授權費與月費。現在企業管理 AI 成本，還要看每一次任務讀進去多少、產生多少、思考多少、快取多少、呼叫多少工具、留下多少可追溯紀錄。

這代表企業 AI 導入的核心問題，不只是「要買哪個模型」，而是：

我們的工作流程是否知道什麼該交給 AI？
我們是否知道哪些脈絡值得帶入？
我們是否知道哪些輸出值得生成？
我們是否知道哪些判斷值得花高階模型成本？
我們是否知道哪一段流程仍然必須由人負責？

理解 Token 經濟學，不是為了讓每個人都變成 API 成本會計，而是讓企業看懂 AI 成本背後的工作邏輯。

AI 知識的價值，也正在這裡浮現。

企業不該只追逐哪個模型每百萬 Token 更便宜，而要看懂：當工作被 Token 化之後，企業該如何重新設計脈絡、流程、權限、品質與責任。

點此訂閱電子報

加點此加入 Line 群自動收新聞

FAQ：

Q1｜Token 經濟學是什麼？和區塊鏈 tokenomics 一樣嗎？

這篇文章所說的 Token 經濟學，不是區塊鏈領域的 tokenomics，而是生成式 AI 使用中的 Token 成本、脈絡與流程管理。

在 AI 裡，Token 是模型處理內容的基本單位。OpenAI Help Center 說明，Token 可以短到單一字元，也可以長到一整個字，空格、標點與部分單字都會影響 Token 數量。當 AI API 以輸入、輸出、快取與推理等 Token 類型計費時，企業就需要理解每一段工作如何消耗 Token。

所以 AI 的 Token 經濟學，真正關心的是：如何用合理的 Token 成本，完成高價值的工作。

Q2｜為什麼輸出 Token 通常比輸入 Token 更值得管理？

因為許多模型的輸出 Token 單價高於輸入 Token。以 OpenAI 官方定價頁於本文核實時所列資訊為例，GPT-5.5 標準處理的 short context 輸入價格為每百萬 Token 2.50 美元，輸出價格為每百萬 Token 15.00 美元；long context 則為輸入 5.00 美元、輸出 22.50 美元。

這代表 AI 輸出越長，不一定越有價值，卻可能增加成本。對企業來說，比較好的做法不是禁止長輸出，而是先定義輸出目的與格式。需要摘要時就輸出摘要，需要決策比較時就輸出表格，需要完整報告時才展開成長文。

Q3｜長上下文模型是否代表企業不用做 RAG 或知識庫？

不代表。

長上下文模型讓 AI 可以一次讀更多資料，但這不等於企業就應該把所有文件都塞進模型。更多輸入 Token 會帶來成本、延遲與脈絡雜訊。

真正重要的是：哪些資料和當前任務有關，哪些資料需要檢索，哪些資料應該先摘要，哪些資料需要權限控管。

因此，長上下文模型和 RAG 並不是互相取代，而是各自處理不同問題。長上下文處理的是一次能帶入多少脈絡，RAG 與知識庫處理的是如何找到、篩選與管理正確脈絡。

Q4｜企業如何降低 Token 成本？

企業不應只用「叫員工少打一點」來降低 Token 成本。比較有效的做法是重做流程。

第一，固定任務使用固定輸出格式，避免模型自由生成長篇內容。

第二，重複脈絡使用快取或知識庫。Anthropic 說明 prompt caching 可以重用先前處理過的 prompt 片段，cache hit 成本是標準輸入價格的 10%。

第三，把任務分層，小模型處理簡單分類、摘要與格式轉換，高階模型處理複雜判斷。

第四，追蹤每個功能的平均輸入、輸出、工具呼叫與快取命中率。

降低 Token 成本的重點不是少用 AI，而是讓每一段 Token 消耗都對應到真正有價值的工作。

Q5｜推理 Token 是什麼？企業需要在意嗎？

需要，尤其當企業使用推理模型處理策略、風險、法務、財務或多步驟規劃時。

OpenAI 的 reasoning models 文件說明，推理模型會引入 reasoning tokens，用來讓模型進行思考、拆解提示詞並考慮多種回應方式。

這不代表企業不該用推理模型，而是要把它用在真正需要深度思考的任務上。簡單摘要、分類、格式轉換不一定需要高階推理；高風險決策、複雜規劃與多步驟分析，才值得使用更高思考成本的模型。

Q6｜批次處理是否適合所有 AI 任務？

不適合。

Google Gemini Batch API 官方文件說明，Batch API 適合大量、非緊急任務，成本為標準互動 API 的 50%，目標週轉時間為 24 小時；但該文件目前也顯示 Batch API 有 ongoing incident，可能導致 batch jobs 隨機失敗。

所以，批次處理適合資料前處理、批次摘要、模型評估、知識庫整理等可等待、可重跑的工作；不適合客服即時回應、交易流程、前線營運系統或任何需要穩定 SLA 的任務。

Q7｜Token 經濟學對企業最大的啟發是什麼？

最大的啟發是：AI 成本不是資訊部門最後才看的帳單，而是企業設計工作流程時就要處理的問題。

如果企業不知道哪些資料應該進模型、哪些任務應該用高階模型、哪些內容可以快取、哪些輸出需要限制、哪些流程需要人類覆核，AI 成本就會隨著使用量快速膨脹。

反過來說，真正懂 Token 經濟學的企業，不一定是用最便宜的模型，而是能把不同模型、不同 Token 類型與不同工作流程搭配起來，讓 AI 成本對應到真正有價值的工作。

閱讀更多的「全球 AI 新聞摘要解讀」

版權聲明與授權須知

本內容由 InfoAI 擁有著作權。如有引用、轉載或任何商業用途的需求，請來信聯絡： contentpower688@gmail.com

如果你覺得這篇解讀對你有幫助，歡迎訂閱 InfoAI 電子報，我們將持續為你精選 全球 AI 新聞與趨勢洞察，幫助你看懂新聞背後的真正意義。也別忘了加入透過［按鈕］加入 Line 社群 ，隨時掌握值得關注的 AI 發展與專業觀點。

點此訂閱電子報

加點此加入 Line 群自動收新聞

AI 協作聲明：

本篇文章由 InfoAI 團隊策劃，並透過人工智慧工具協助資料整理與內容撰寫，最終內容由編輯進行人工審閱與優化。

JUDGEMENT

We help you make better judgement about AI.

不是更快知道 AI 新聞，而是更早做出你能承擔後果的判斷。

InfoAI 存在的目的是把 AI 的變化，轉換成可被理解、可被評估、可被行動的判斷框架。

Content Power 重構並流動知識

重新提煉知識轉化價值

Business Review

Business Review

AI知識｜看懂 Token 經濟學：為什麼 AI 成本不只看模型價格，而要看工作如何被拆成 Token

InfoAI 編輯部

關鍵知識點：

Token 是 AI 系統計算、收費與管理脈絡的基本單位。Token 可以短到單一字元，也可以長到一整個字。空格、標點與部分單字，都會影響 Token 數量。

AI 成本不能只看模型單價，而要拆成輸入、輸出、快取、推理、工具與工作流程。OpenAI 官方 API 定價已把模型價格拆成輸入、快取輸入與輸出等項目；Google Gemini 定價也把輸入、輸出、context caching 與 thinking tokens 納入計價說明。

多數人第一次聽到「Token 經濟學」，容易想到兩件事。

第一，是把它和區塊鏈的 tokenomics 混在一起，以為這是在談加密貨幣的代幣設計。

第二，是把它當成 AI 開發者才需要懂的技術細節，以為只要知道「Token 大概是一小段文字」就夠了。

生成式 AI 進入企業工作流程後，Token 已經不只是技術名詞。它正在變成 AI 成本、效能、脈絡管理與工作設計的共同語言。

你丟進去的文件、背景資料、系統提示、對話歷史、工具描述、檢索結果、模型思考過程與最後輸出，都可能影響成本、延遲、品質與治理。企業每一次使用 AI，其實都在把工作 Token 化。

多數人誤解的不是 Token，而是沒有看見工作正在被 Token 化

如果只把 Token 理解成「AI 把文字切成小塊」，只說對了一半。

根據 OpenAI 的說明，Token 是模型處理文字的基本單位。英文中常見的粗略換算是 1 Token 約等於 4 個字元，100 Token 約等於 75 個英文單字；但這只是估算，不同語言、標點、空格與文字型態，都會影響實際 Token 數。

在企業使用 AI 的情境裡，Token 不只代表文字如何被模型讀取，也代表工作如何被計量。

一封 email 是 Token。一份合約是 Token。一段客服對話是 Token。一份內部 SOP 是 Token。一個系統提示也是 Token。AI agent 能使用哪些工具，工具說明本身也會佔 Token。推理模型在回覆前進行內部思考，也可能產生 reasoning tokens。

所以，Token 經濟學真正要看的問題是：

企業把多少工作脈絡交給 AI？AI 為了完成任務，需要讀多少、想多少、產生多少、查多少、呼叫多少工具？

這才是 Token 經濟學的起點。

Token 不是一種成本，而是一組成本結構

很多企業評估 AI 成本時，會先問：「這個模型每百萬 Token 多少錢？」

這個問題要問，但不能只問這個。

API 定價會隨模型版本、服務層級、地區與官方政策調整。以下價格根據 2026 年 5 月 15 日查詢各家官方頁面所得資訊；企業實際採購與導入前，仍應回到官方定價頁確認。

Google Gemini API 定價頁則多次列出 input price、output price including thinking tokens、context caching price 與儲存價格，並依模型與輸入型態區分 text / image / video 與 audio 等不同價格。

這些定價方式背後，透露的是一張 Token 成本表。

這張表的重點不在於省錢技巧，而在於工作流程設計。

核心概念一：輸入 Token 是「脈絡成本」

企業常常以為，給 AI 越多資料，回答就越好。

這個想法只對了一半。

更多脈絡確實可能讓 AI 回答得更貼近任務。但在真實企業場景裡，資料越多，也代表輸入 Token 越多、成本越高、延遲可能增加，模型也更容易被不相關資訊干擾。

你可以把輸入 Token 想成會議前交給顧問看的資料包。

如果你只給顧問一頁背景，他可能不了解全局；但如果你丟給他三百頁資料，而且沒有標記重點，他不一定判斷得更好，反而可能把注意力放錯地方。

這個比喻提醒我們：脈絡本身有成本。但它不是要企業少給資料，而是要給對資料。

對企業來說，輸入 Token 管理的核心問題包括：

這也是 RAG、企業知識庫、文件摘要與 prompt caching 變得重要的原因。它們不只是提升回答品質，也是在幫企業管理脈絡成本。

Token 經濟學的優先管理原則是：不要把所有資料都丟給 AI，而要設計 AI 每次任務真正需要的脈絡。

核心概念二：輸出 Token 是「生成成本」，也是品質控制問題

很多人會注意輸入 Token，卻忽略輸出 Token 往往更需要管理。

從 OpenAI 官方定價頁可以看到，GPT-5.5 在標準處理中，無論 short context 或 long context，輸出 Token 的價格都高於輸入 Token；GPT-5.4 與 GPT-5.4 mini 也呈現類似結構。

這背後有一個明確的管理訊號：

AI 說得越多，不一定越有價值，但一定是會增加成本。

對內容工作者來說，這句話尤其重要。

如果每次請 AI 寫文章、整理報告、產生提案，都讓它先輸出很長的版本，再由人刪改，表面上像是節省時間，實際上可能把成本轉移到兩個地方：

第一，模型輸出的 Token 成本增加。第二，人類編輯、判斷、重寫與校對的時間增加。

所以輸出 Token 不是單純的「字數成本」，也是品質控制問題。

成熟的 AI 工作流程，應該先定義輸出格式，而不是讓模型自由發揮。例如：

先輸出 5 點摘要，不要直接寫 3000 字文章。先列出大綱與判斷依據，再決定是否展開。先做錯誤檢查，不要直接產生完整報告。先用表格比較，再請人挑選需要展開的部分。對重複任務設定固定輸出長度與欄位。

這不是限制 AI，而是讓輸出 Token 變成可管理的工作成果。

核心概念三：推理 Token 是「思考成本」，不是所有任務都值得深度推理

推理模型讓 AI 能處理更複雜、多步驟的問題。

它也帶來新的 Token 經濟問題：模型在產生最終答案前，可能會使用額外的內部思考步驟。OpenAI 的 reasoning models 文件明確說明，reasoning models 會引入 reasoning tokens，並用它們來「思考」、拆解提示詞與考慮多種產生回應的方法。

這代表企業不能把所有任務都交給最強推理模型。

可以把推理 Token 想成請一位高階顧問開會思考。

如果你要他判斷併購策略、法規風險、企業轉型路線，花時間思考是合理的；但如果你只是要他把一段文字改成三個小標，請他深度推理就是浪費。

這個比喻的重點在於：「思考」也有成本。但這不代表推理模型不值得用，真正的關鍵在任務分層。

企業可以把 AI 任務分成三層：

簡單任務，用低成本模型或規則處理。中度任務，用一般模型完成摘要、分類、格式整理與初步分析。高風險或高價值任務，才使用高階推理模型，並搭配人類覆核。

這樣做不是永遠選最便宜模型，而是讓高成本 Token 出現在真正需要高價值判斷的地方。

核心概念四：快取 Token 是「重複脈絡的折扣」

Token 經濟學裡，最容易被忽略的一項，是快取。

企業內部有大量重複脈絡，例如：

公司背景品牌語氣產品規格法務條款客服政策會員制度內部 SOP固定報告格式AI agent 的工具說明

如果每次呼叫模型都重新送入這些內容，就像每次開會都把公司簡介從頭講一次。

快取的價值，是把重複脈絡變成可重複使用的基礎設施。

這對企業的啟發很直接：

如果某段脈絡會被大量重複使用，就不要把它當成每次請求的一次性成本，而要把它設計成可快取的工作底座。

快取 Token 的思維，會改變企業設計 AI 應用的方式。企業不再是每一次都重新寫提示詞，而是把穩定內容抽出來，變成系統層、知識層與工作流程層的一部分。

核心概念五：批次處理是「不急任務」的成本策略，但不是萬能解法

如果任務不需要即時回覆，批次處理會成為 Token 經濟學裡的重要成本策略。

例如：

大量文件分類內容資料前處理批次摘要測試集評估內部知識庫整理大量商品描述清洗

Google Gemini Batch API 官方文件說明，Batch API 目的是非同步處理大量請求，成本是標準互動 API 的 50%，目標週轉時間為 24 小時，適合資料前處理或評估這類不需要即時回應的大量任務。

但這裡也要補上限制。Google 官方文件目前同時顯示，Batch API 正在發生 ongoing incident，可能導致 batch jobs 隨機失敗，團隊正在調查。

所以，批次處理不能理解成「所有任務都丟去便宜通道」。

比較穩健的判斷是：

不急、可重跑、可驗證的大量任務，才適合批次處理；需要即時回覆、高穩定性或前線服務承諾的任務，不應只因成本較低就改成批次處理。

便宜不等於適合，折扣也不代表風險消失。

核心概念六：工具與 Agent 會讓 Token 成本從「對話」變成「流程」

當企業開始使用 AI agent，Token 經濟學會變得更複雜。

Token 是 AI 系統計算、收費與管理脈絡的基本單位。
Token 可以短到單一字元，也可以長到一整個字。空格、標點與部分單字，都會影響 Token 數量。

一封 email 是 Token。
一份合約是 Token。
一段客服對話是 Token。
一份內部 SOP 是 Token。
一個系統提示也是 Token。
AI agent 能使用哪些工具，工具說明本身也會佔 Token。
推理模型在回覆前進行內部思考，也可能產生 reasoning tokens。

企業把多少工作脈絡交給 AI？
AI 為了完成任務，需要讀多少、想多少、產生多少、查多少、呼叫多少工具？

第一，模型輸出的 Token 成本增加。
第二，人類編輯、判斷、重寫與校對的時間增加。

先輸出 5 點摘要，不要直接寫 3000 字文章。
先列出大綱與判斷依據，再決定是否展開。
先做錯誤檢查，不要直接產生完整報告。
先用表格比較，再請人挑選需要展開的部分。
對重複任務設定固定輸出長度與欄位。

公司背景
品牌語氣
產品規格
法務條款
客服政策
會員制度
內部 SOP
固定報告格式
AI agent 的工具說明

大量文件分類
內容資料前處理
批次摘要
測試集評估
內部知識庫整理
大量商品描述清洗

使用者提出目標。
Agent 讀取系統提示與任務規則。
Agent 判斷要不要呼叫工具。
工具名稱、描述與 schema 佔用 Token。
工具回傳結果佔用 Token。
Agent 再根據結果推理與生成下一步。
多輪之後產出最終結果。

這個 agent 是否真的需要自主拆解任務？
每一步工具呼叫是否必要？工具回傳結果是否可以先壓縮？
是否需要每輪都保留完整歷史？
哪些步驟可以用小模型處理？
哪些步驟需要人類確認後才繼續？

該放脈絡時，不要省。
該限制輸出時，不要放任。
該深度推理時，不要用便宜模型硬撐。
該批次處理時，不要每次即時呼叫。
該快取的穩定內容，不要每次重送。
該由人判斷的責任，不要交給 Token 消耗量來掩蓋。

第一，這個任務需要多少脈絡？
第二，這些脈絡是否都必要？
第三，輸出需要多完整，還是只需要可判斷的中間結果？
第四，這個任務是否真的需要高階推理？
第五，有哪些重複內容可以快取、批次處理或交給小模型？

在供應商與模型支援的範圍內，每次請求的輸入、輸出、快取與推理 Token 用量
不同功能、部門、工作流程的 Token 消耗統計
高成本請求的異常告警
工具呼叫與額外費用的紀錄
模型版本與定價變更紀錄
人工覆核與錯誤回報機制

我們的工作流程是否知道什麼該交給 AI？
我們是否知道哪些脈絡值得帶入？
我們是否知道哪些輸出值得生成？
我們是否知道哪些判斷值得花高階模型成本？
我們是否知道哪一段流程仍然必須由人負責？