Important
個人立場聲明: 本專案僅為個人技術研究分享,所有內容與參數調校均基於公開開源數據(Open Source Data)。專案內容不代表任何機關立場,亦不涉及任何公務機敏資料與軟體。
這是一個旨在協助開發者在本地環境快速部署高效能大語言模型(LLM)的實戰指南。我們專注於如何透過 Llama.cpp 與精準的參數調校,在有限的硬體資源下,榨出最大的 Context 空間與推理速度。
本專案的核心目標在於解決雲端 API 的隱私疑慮、頻繁的審查限制以及長文本處理成本,為後續銜接自動化 Agent 工具打造最堅實的底層引擎。
Note
為什麼要這樣建本地 AI?背後有一套完整的哲學框架。 本專案的設計理念源自 C.A.S.E. 框架(Constitutional Agent State Engine)——一套將 AI 協作對應到「憲法→法律→執行細則」三層分工的多智能體標準作業架構。 雲端大模型擔任「指揮所」規劃任務,本地模型擔任「基層執行」處理機密資料,所有進度以實體卷宗(資料夾+文字檔)追蹤,肉眼可見、中斷可接,並透過雙軌核實機制有效降低 AI 幻覺的影響。
Tip
測試硬體參考: NVIDIA RTX A4500 (20GB VRAM) / 64GB RAM。 硬體適應性: 只要具備 NVIDIA GPU 且 VRAM 充足(建議 12GB 以上,20GB 為完美甜蜜點),皆可參考本指南進行部署與參數調整。
寫 Code 用 AI 輔助,常常遇到 API Quota 枯竭、或是全案掃描時 Token 費用太傷本的問題嗎?💸
本專案無意取代強大的雲端大模型,而是致力於探索一套 「Hybrid AI (雲端 + 本地混合)」 的高 CP 值開發流。
我們提倡將極需高智力、龐大 Context 與關聯研究能力的「高階規劃任務」交由雲端前沿模型(如 Claude、Gemini、GPT 等各大廠旗艦模型)擔任架構師;接著,將極度消耗 Token 的「依序執行、TDD 測試、全案掃描」等苦力活,無縫轉交給這套本地生態系擔任執行者與稽核員:
- 🧠 Tier 1: 核心大腦 (Local-Agent-Workspace): 建立極致優化的 Llama.cpp 本地伺服器。作為承接雲端架構師規劃後,能無情消耗 Token 進行打底運算的強大本地算力引擎。(📍 您目前在這裡)
- 🤖 Tier 2: 代理工程師 (CK's Pi Code Agent Harness): 混合開發的指揮樞紐。負責接收雲端模型開出的「任務菜譜與 SOP」,在本地端化身為懂工程紀律的虛擬同事,按部就班地切換目標檔案、撰寫程式碼並嚴格執行 TDD 測試。
- 👁️ Tier 3: 全域修復雷達 (OmniHeal): 零安裝的全局專案健檢工具。全案掃描是最耗 Token 的環節,直接交由本工具在本地一鍵免費深潛,自動抓出技術債並開立精準的修復處方箋,讓雲端模型或代理工程師能針對性地進行修復。
核心哲學: 您過去的每一次會議、閱讀、工作經歷,都是尚未開採的「知識金礦」——問題只在於有沒有工具幫您煉出黃金。
📝 InfoGold - 經歷提煉與知識資產增值:扮演「煉金助理」的角色,將會議逐字稿、工作手稿、閱讀筆記等原始文字資產,透過四部曲系統化增值:洗礦(忠實固化原始知識)→ 精煉金磚(結構加值)→ 圓桌思辨(MECE 跨域專家辯證,發掘隱藏洞察)→ 鑄造策略貨幣(30-60-90 天可行動落地路徑)
不只是整理,更是讓「曾經發生過的事」持續產生複利——將每一份經歷轉化為可行動、可呈報、可傳承的黃金知識資產。
- 🔒 物理性資料隔離: 在正確的部署設定下,程式碼與專案架構留在本地端,不經過外部伺服器。特別適合處理具備高度機敏性、數位鑑識或 OSINT 封閉分析等高度重視資料邊界的專案。
- 🧠 高上下文容量: 透過優化的 KV 快取壓縮技術,在 20GB VRAM 下依然可支援至 128K+ Context。
- 🔓 任務連續性: 選擇特徵消融(Abliterated)模型,可避免 Agent 在執行特定分析腳本時因安全機制而強行中斷。
- 💰 成本效益: 適合頻繁開發與自動化迭代,無懼雲端 API 昂貴的 Token 費用。
我們強烈推薦使用官方版的 Llama.cpp 作為伺服器引擎,更新最快、功能最完整。
Important
Llama.cpp 官方版安裝必看:雙檔案合併解壓縮 請至 Llama.cpp Releases 下載。必須同時下載兩個檔案:
- 主程式:
llama-b...-bin-win-cuda-cu12.4-x64.zip(尋找標註 win-cuda-cu12.4 的版本) - CUDA 依賴包:
cudart-llama-bin-win-cu12.4-x64.zip
💡 強烈建議選擇 cu12.4 版本以確保最高穩定性。建立專屬資料夾(例如:C:\llama.cpp),將這兩個壓縮檔解壓縮到同一個資料夾內,確保 llama-server.exe 旁邊有 .dll 依賴檔。
在 20GB VRAM (如 RTX A4500) 或 32GB 記憶體 (如 Claw 8) 的環境下,以下是我實測後強烈推薦的模型:
🔥 GRM-2.6-Opus.i1-IQ4_XS (約 15.2 GB)
融合頂尖的 GRM 邏輯與 Claude Opus 的推理風格。輸出極度穩定的結構化思維,大幅降低 Agent 解析指令的錯誤率。IQ4_XS 量化完美適配 20GB VRAM,留下充足餘裕給長文本運算。
🔥 Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-MTP-GGUF (Mini 版約 13.7 GB / Balanced 版約 18.5 GB)
黑科技推薦: 該版本將 Model 的 MTP (Multi-Token Prediction) 頭與 Trunk 主體打包在同一個 GGUF 檔中。搭配近期版本的 llama.cpp,只需在啟動參數加入
--draft-mtp,即可在不掛載額外 draft 模型的情況下啟動「自我推測解碼(Self-Speculative Decoding)」,推理速度大幅飆升,極度適合 RTX A4500 等 20GB VRAM GPU 壓榨效能!
🔥 Qwen3.6-27B-NEO-CODE-2T-OT-IQ4_XS (約 15.4 GB)
專為高難度程式碼任務與 JSON 格式輸出優化。若工作流偏好原生 Qwen 思維模式來進行專案重構,這是一台非常優秀的純代碼生產機器。
(新手科普:IQ 系列量化搭配 i1 矩陣技術,能在相同檔案大小下比傳統 Q 系列保留更多模型智商。檔案大小與 VRAM 之間務必保留 4~5GB 以上作為 Context 運算空間。)
Warning
💡 為什麼舊版的啟動腳本會出錯? 隨著 Llama.cpp 的快速迭代,許多舊參數已被廢棄或整合。若您遇到啟動閃退或錯誤,通常是因為:
- 已移除的參數:
--cache-reuse、--cache-prompt、--context-shift在新版中已被廢棄(快取管理已自動化)。 - 更名的參數:
--parallel 1已更名為-np 1或--slots 1(代表並行 Slot 數量)。 - 記憶體映射:
--no-mmap會大幅拖慢模型載入速度,新版建議改用預設的--mmap。 - Batch 大小:
-b 4096與-ub 1024在長 Context 時可能導致 OOM,已調整為穩健的512與128。
本專案已將優化後的啟動腳本直接存於專案根目錄,您可以直接複製或修改使用:
適合 RTX A4500 (20GB VRAM) 或其他 NVIDIA 顯示卡,使用穩健的 Llama.cpp CUDA 引擎:
@echo off
chcp 65001 > nul
setlocal
title GRM-2.6-Opus IQ4_XS 128K - RTX A4500
:: ====================================================================
:: ⚠️ 請修改以下兩個路徑為您電腦中的實際位置
:: ====================================================================
set LLAMA_EXE=D:\MyProject\llama\llama-server.exe
set MODEL=D:\MyProject\llama\GRM-2.6-Opus.i1-IQ4_XS.gguf
set CTX_SIZE=131072
set PORT=8080
echo Starting Local LLM Server (NVIDIA CUDA)...
echo ========================================================
echo Model : %MODEL%
echo Server : http://127.0.0.1:%PORT%
echo GPU : RTX A4500 20GB (Or other NVIDIA GPUs)
echo Context: %CTX_SIZE% (128K)
echo KV : q4_0 / q4_0 (KV Cache quantized to save VRAM)
echo Batch : 512 / 128 (Logical / Physical Batch)
echo ========================================================
"%LLAMA_EXE%" ^
-m "%MODEL%" ^
-ngl 999 ^
-c %CTX_SIZE% ^
--host 127.0.0.1 ^
--port %PORT% ^
-np 1 ^
-b 512 ^
-ub 128 ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--flash-attn on ^
--mmap ^
--no-warmup ^
--jinja ^
--threads 8 ^
--prio 2 ^
--timeout 1200
pause適合搭配 APEX-MTP 權重檔案,一鍵解鎖高達 2 倍的推理生成速度:
@echo off
chcp 65001 > nul
setlocal
title Qwen3.6 APEX-MTP - RTX A4500
:: ====================================================================
:: ⚠️ 請修改以下兩個路徑為您電腦中的實際位置
:: ====================================================================
set LLAMA_EXE=D:\MyProject\llama\llama-server.exe
set MODEL=D:\MyProject\llama\Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-MTP-I-Balanced.gguf
set CTX_SIZE=98304
set PORT=8080
echo Starting Local LLM Server with Self-Speculative MTP Decoding...
echo ========================================================
echo Model : %MODEL%
echo Server : http://127.0.0.1:%PORT%
echo GPU : RTX A4500 20GB (Or other NVIDIA GPUs)
echo Context: %CTX_SIZE% (96K)
echo KV : q4_0 / q4_0 (KV Cache quantized to save VRAM)
echo MTP : Enabled (--draft-mtp)
echo ========================================================
"%LLAMA_EXE%" ^
-m "%MODEL%" ^
-ngl 999 ^
-c %CTX_SIZE% ^
--host 127.0.0.1 ^
--port %PORT% ^
-np 1 ^
-b 512 ^
-ub 128 ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--flash-attn on ^
--draft-mtp ^
--mmap ^
--no-warmup ^
--jinja ^
--threads 8 ^
--prio 2 ^
--timeout 1200
pause適合 MSI Claw 8 AI+、Intel 內顯、Arc 獨立顯卡或 Intel CPU,透過 level_zero 驅動加速:
@echo off
chcp 65001 >nul
title Llama Server (Intel SYCL - Claw 8 AI+)
:: 載入 Intel oneAPI 環境變數
call "C:\Program Files (x86)\Intel\oneAPI\setvars.bat"
:: SYCL 執行優化環境變數
set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1
set SYCL_CACHE_PERSISTENT=1
set SYCL_DEVICE_FILTER=level_zero:gpu:0
set ZES_ENABLE_SYSMAN=1
:: ====================================================================
:: ⚠️ 請修改以下變數以配合您的實際檔案與路徑
:: ====================================================================
set LLAMA_DIR=D:\Myproject\llama-win-sycl-x64
set MODEL=C:\models\GRM-2.6-Opus.i1-IQ3_M.gguf
set CTX_SIZE=98304
set PORT=8080
cd /d "%LLAMA_DIR%"
echo Starting Local LLM Server (Intel SYCL)...
echo ========================================================
echo Model : %MODEL%
echo Server : http://127.0.0.1:%PORT%
echo GPU : Intel Arc Graphics (Level Zero GPU 0)
echo Context: %CTX_SIZE% (96K)
echo KV : q4_0 / q4_0
echo Batch : 512 / 128
echo ========================================================
llama-server.exe ^
-m "%MODEL%" ^
--host 127.0.0.1 ^
--port %PORT% ^
-ngl 99 ^
-c %CTX_SIZE% ^
-np 1 ^
-b 512 ^
-ub 128 ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--flash-attn on ^
--mmap ^
--no-warmup ^
--jinja ^
--cache-ram 0 ^
--threads 12 ^
--prio 2 ^
--timeout 1200
pause本地伺服器啟動完成後(預設運行於 http://127.0.0.1:8080),您就可以將其接入各類 Coding Agent 或自動化工具。
雖然本指南過去以 Claude Code 為主,但在本地實戰中,我們強烈建議改用更輕量、更具擴充性的 Pi Coding Agent,並搭配我們的專屬套件: 👉 前往 CK's Pi Code Agent Harness
為什麼推薦這個組合?
- 解決 Context 溢位: 雲端 CLI 工具(如 Claude Code)無法精準控制本地端 auto-compact 觸發時機,容易造成本地 LLM 的 Context 溢出。Pi Agent 可以完美依照本地模型的限制設定。
- 極致輕量: 本地 GGUF 模型對於冗餘 Token 極度敏感。Harness 精選了核心 plugins 與 skills,能以最精簡的 prompt 格式發揮本地模型的最大智商。
- 無縫整合健康診斷: 與 OmniHeal 工具完美串接,一鍵檢查專案技術債,再交由本地算力精準修復。
(若您仍需使用 Claude Code,只需在專案目錄下設定環境變數 set ANTHROPIC_BASE_URL=http://127.0.0.1:8080,請參考根目錄的 start_local_claude.bat 啟動。)
如果您在部署過程中有任何技術問題或參數優化的建議,歡迎透過以下管道聯繫:
May the Local AI be with you.