Skip to content

Chiakai-Chang/Local-Agent-Workspace

Repository files navigation

🚀 Local-Agent-Workspace

Important

個人立場聲明: 本專案僅為個人技術研究分享,所有內容與參數調校均基於公開開源數據(Open Source Data)。專案內容不代表任何機關立場,亦不涉及任何公務機敏資料與軟體。

開發者本地 AI 部署指南:Llama.cpp 極致壓榨與模型推薦

這是一個旨在協助開發者在本地環境快速部署高效能大語言模型(LLM)的實戰指南。我們專注於如何透過 Llama.cpp 與精準的參數調校,在有限的硬體資源下,榨出最大的 Context 空間與推理速度。

本專案的核心目標在於解決雲端 API 的隱私疑慮、頻繁的審查限制以及長文本處理成本,為後續銜接自動化 Agent 工具打造最堅實的底層引擎。

Note

為什麼要這樣建本地 AI?背後有一套完整的哲學框架。 本專案的設計理念源自 C.A.S.E. 框架(Constitutional Agent State Engine)——一套將 AI 協作對應到「憲法→法律→執行細則」三層分工的多智能體標準作業架構。 雲端大模型擔任「指揮所」規劃任務,本地模型擔任「基層執行」處理機密資料,所有進度以實體卷宗(資料夾+文字檔)追蹤,肉眼可見、中斷可接,並透過雙軌核實機制有效降低 AI 幻覺的影響。

👉 進入 C.A.S.E. 框架說明

Tip

測試硬體參考: NVIDIA RTX A4500 (20GB VRAM) / 64GB RAM。 硬體適應性: 只要具備 NVIDIA GPU 且 VRAM 充足(建議 12GB 以上,20GB 為完美甜蜜點),皆可參考本指南進行部署與參數調整。


🧩 CK 的 AI 開發生態系 (The Ecosystem)

寫 Code 用 AI 輔助,常常遇到 API Quota 枯竭、或是全案掃描時 Token 費用太傷本的問題嗎?💸

本專案無意取代強大的雲端大模型,而是致力於探索一套 「Hybrid AI (雲端 + 本地混合)」 的高 CP 值開發流。

我們提倡將極需高智力、龐大 Context 與關聯研究能力的「高階規劃任務」交由雲端前沿模型(如 Claude、Gemini、GPT 等各大廠旗艦模型)擔任架構師;接著,將極度消耗 Token 的「依序執行、TDD 測試、全案掃描」等苦力活,無縫轉交給這套本地生態系擔任執行者與稽核員

CK's AI Development Ecosystem

  • 🧠 Tier 1: 核心大腦 (Local-Agent-Workspace) 建立極致優化的 Llama.cpp 本地伺服器。作為承接雲端架構師規劃後,能無情消耗 Token 進行打底運算的強大本地算力引擎。(📍 您目前在這裡
  • 🤖 Tier 2: 代理工程師 (CK's Pi Code Agent Harness) 混合開發的指揮樞紐。負責接收雲端模型開出的「任務菜譜與 SOP」,在本地端化身為懂工程紀律的虛擬同事,按部就班地切換目標檔案、撰寫程式碼並嚴格執行 TDD 測試。
  • 👁️ Tier 3: 全域修復雷達 (OmniHeal) 零安裝的全局專案健檢工具。全案掃描是最耗 Token 的環節,直接交由本工具在本地一鍵免費深潛,自動抓出技術債並開立精準的修復處方箋,讓雲端模型或代理工程師能針對性地進行修復。

🏅 延伸工具:知識資產提煉

核心哲學: 您過去的每一次會議、閱讀、工作經歷,都是尚未開採的「知識金礦」——問題只在於有沒有工具幫您煉出黃金。

📝 InfoGold - 經歷提煉與知識資產增值:扮演「煉金助理」的角色,將會議逐字稿、工作手稿、閱讀筆記等原始文字資產,透過四部曲系統化增值:洗礦(忠實固化原始知識)→ 精煉金磚(結構加值)→ 圓桌思辨(MECE 跨域專家辯證,發掘隱藏洞察)→ 鑄造策略貨幣(30-60-90 天可行動落地路徑)

不只是整理,更是讓「曾經發生過的事」持續產生複利——將每一份經歷轉化為可行動、可呈報、可傳承的黃金知識資產。


💎 部署本地環境的優勢

  • 🔒 物理性資料隔離: 在正確的部署設定下,程式碼與專案架構留在本地端,不經過外部伺服器。特別適合處理具備高度機敏性、數位鑑識或 OSINT 封閉分析等高度重視資料邊界的專案。
  • 🧠 高上下文容量: 透過優化的 KV 快取壓縮技術,在 20GB VRAM 下依然可支援至 128K+ Context
  • 🔓 任務連續性: 選擇特徵消融(Abliterated)模型,可避免 Agent 在執行特定分析腳本時因安全機制而強行中斷。
  • 💰 成本效益: 適合頻繁開發與自動化迭代,無懼雲端 API 昂貴的 Token 費用。

🛠️ 1. 運算引擎準備:Llama.cpp

我們強烈推薦使用官方版的 Llama.cpp 作為伺服器引擎,更新最快、功能最完整。

Important

Llama.cpp 官方版安裝必看:雙檔案合併解壓縮 請至 Llama.cpp Releases 下載。必須同時下載兩個檔案:

  1. 主程式: llama-b...-bin-win-cuda-cu12.4-x64.zip (尋找標註 win-cuda-cu12.4 的版本)
  2. CUDA 依賴包: cudart-llama-bin-win-cu12.4-x64.zip

💡 強烈建議選擇 cu12.4 版本以確保最高穩定性。建立專屬資料夾(例如:C:\llama.cpp),將這兩個壓縮檔解壓縮到同一個資料夾內,確保 llama-server.exe 旁邊有 .dll 依賴檔。


📦 2. 模型權重推薦 (GGUF & MTP 自我推測)

在 20GB VRAM (如 RTX A4500) 或 32GB 記憶體 (如 Claw 8) 的環境下,以下是我實測後強烈推薦的模型:

🌟 A. 穩定首選 (代理橋接與複雜自動化)

🔥 GRM-2.6-Opus.i1-IQ4_XS (約 15.2 GB)

融合頂尖的 GRM 邏輯與 Claude Opus 的推理風格。輸出極度穩定的結構化思維,大幅降低 Agent 解析指令的錯誤率。IQ4_XS 量化完美適配 20GB VRAM,留下充足餘裕給長文本運算。

⚡ B. 速度與效能黑科技 (MTP 自我推測解碼)

🔥 Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-MTP-GGUF (Mini 版約 13.7 GB / Balanced 版約 18.5 GB)

黑科技推薦: 該版本將 Model 的 MTP (Multi-Token Prediction) 頭與 Trunk 主體打包在同一個 GGUF 檔中。搭配近期版本的 llama.cpp,只需在啟動參數加入 --draft-mtp,即可在不掛載額外 draft 模型的情況下啟動「自我推測解碼(Self-Speculative Decoding)」,推理速度大幅飆升,極度適合 RTX A4500 等 20GB VRAM GPU 壓榨效能!

💻 C. 程式開發特化 (純代碼生成與 JSON 結構化)

🔥 Qwen3.6-27B-NEO-CODE-2T-OT-IQ4_XS (約 15.4 GB)

專為高難度程式碼任務與 JSON 格式輸出優化。若工作流偏好原生 Qwen 思維模式來進行專案重構,這是一台非常優秀的純代碼生產機器。

(新手科普:IQ 系列量化搭配 i1 矩陣技術,能在相同檔案大小下比傳統 Q 系列保留更多模型智商。檔案大小與 VRAM 之間務必保留 4~5GB 以上作為 Context 運算空間。)


🚀 3. 一鍵啟動伺服器 (多硬體極致優化版)

Warning

💡 為什麼舊版的啟動腳本會出錯? 隨著 Llama.cpp 的快速迭代,許多舊參數已被廢棄或整合。若您遇到啟動閃退或錯誤,通常是因為:

  1. 已移除的參數: --cache-reuse--cache-prompt--context-shift 在新版中已被廢棄(快取管理已自動化)。
  2. 更名的參數: --parallel 1 已更名為 -np 1--slots 1(代表並行 Slot 數量)。
  3. 記憶體映射: --no-mmap 會大幅拖慢模型載入速度,新版建議改用預設的 --mmap
  4. Batch 大小: -b 4096-ub 1024 在長 Context 時可能導致 OOM,已調整為穩健的 512128

本專案已將優化後的啟動腳本直接存於專案根目錄,您可以直接複製或修改使用:

🟢 A. NVIDIA GPU 專用啟動檔 (start_server_nvidia.bat)

適合 RTX A4500 (20GB VRAM) 或其他 NVIDIA 顯示卡,使用穩健的 Llama.cpp CUDA 引擎:

@echo off
chcp 65001 > nul
setlocal
title GRM-2.6-Opus IQ4_XS 128K - RTX A4500

:: ====================================================================
:: ⚠️ 請修改以下兩個路徑為您電腦中的實際位置
:: ====================================================================
set LLAMA_EXE=D:\MyProject\llama\llama-server.exe
set MODEL=D:\MyProject\llama\GRM-2.6-Opus.i1-IQ4_XS.gguf
set CTX_SIZE=131072
set PORT=8080

echo Starting Local LLM Server (NVIDIA CUDA)...
echo ========================================================
echo Model  : %MODEL%
echo Server : http://127.0.0.1:%PORT%
echo GPU    : RTX A4500 20GB (Or other NVIDIA GPUs)
echo Context: %CTX_SIZE% (128K)
echo KV     : q4_0 / q4_0 (KV Cache quantized to save VRAM)
echo Batch  : 512 / 128 (Logical / Physical Batch)
echo ========================================================

"%LLAMA_EXE%" ^
  -m "%MODEL%" ^
  -ngl 999 ^
  -c %CTX_SIZE% ^
  --host 127.0.0.1 ^
  --port %PORT% ^
  -np 1 ^
  -b 512 ^
  -ub 128 ^
  --cache-type-k q4_0 ^
  --cache-type-v q4_0 ^
  --flash-attn on ^
  --mmap ^
  --no-warmup ^
  --jinja ^
  --threads 8 ^
  --prio 2 ^
  --timeout 1200

pause

⚡ B. NVIDIA GPU + MTP 自我推測解碼 (start_server_nvidia_mtp.bat)

適合搭配 APEX-MTP 權重檔案,一鍵解鎖高達 2 倍的推理生成速度:

@echo off
chcp 65001 > nul
setlocal
title Qwen3.6 APEX-MTP - RTX A4500

:: ====================================================================
:: ⚠️ 請修改以下兩個路徑為您電腦中的實際位置
:: ====================================================================
set LLAMA_EXE=D:\MyProject\llama\llama-server.exe
set MODEL=D:\MyProject\llama\Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled-APEX-MTP-I-Balanced.gguf
set CTX_SIZE=98304
set PORT=8080

echo Starting Local LLM Server with Self-Speculative MTP Decoding...
echo ========================================================
echo Model  : %MODEL%
echo Server : http://127.0.0.1:%PORT%
echo GPU    : RTX A4500 20GB (Or other NVIDIA GPUs)
echo Context: %CTX_SIZE% (96K)
echo KV     : q4_0 / q4_0 (KV Cache quantized to save VRAM)
echo MTP    : Enabled (--draft-mtp)
echo ========================================================

"%LLAMA_EXE%" ^
  -m "%MODEL%" ^
  -ngl 999 ^
  -c %CTX_SIZE% ^
  --host 127.0.0.1 ^
  --port %PORT% ^
  -np 1 ^
  -b 512 ^
  -ub 128 ^
  --cache-type-k q4_0 ^
  --cache-type-v q4_0 ^
  --flash-attn on ^
  --draft-mtp ^
  --mmap ^
  --no-warmup ^
  --jinja ^
  --threads 8 ^
  --prio 2 ^
  --timeout 1200

pause

🔵 C. Intel Arc / SYCL 平台專用啟動檔 (start_server_sycl.bat)

適合 MSI Claw 8 AI+、Intel 內顯、Arc 獨立顯卡或 Intel CPU,透過 level_zero 驅動加速:

@echo off
chcp 65001 >nul
title Llama Server (Intel SYCL - Claw 8 AI+)

:: 載入 Intel oneAPI 環境變數
call "C:\Program Files (x86)\Intel\oneAPI\setvars.bat"

:: SYCL 執行優化環境變數
set SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1
set SYCL_CACHE_PERSISTENT=1
set SYCL_DEVICE_FILTER=level_zero:gpu:0
set ZES_ENABLE_SYSMAN=1

:: ====================================================================
:: ⚠️ 請修改以下變數以配合您的實際檔案與路徑
:: ====================================================================
set LLAMA_DIR=D:\Myproject\llama-win-sycl-x64
set MODEL=C:\models\GRM-2.6-Opus.i1-IQ3_M.gguf
set CTX_SIZE=98304
set PORT=8080

cd /d "%LLAMA_DIR%"

echo Starting Local LLM Server (Intel SYCL)...
echo ========================================================
echo Model  : %MODEL%
echo Server : http://127.0.0.1:%PORT%
echo GPU    : Intel Arc Graphics (Level Zero GPU 0)
echo Context: %CTX_SIZE% (96K)
echo KV     : q4_0 / q4_0
echo Batch  : 512 / 128
echo ========================================================

llama-server.exe ^
  -m "%MODEL%" ^
  --host 127.0.0.1 ^
  --port %PORT% ^
  -ngl 99 ^
  -c %CTX_SIZE% ^
  -np 1 ^
  -b 512 ^
  -ub 128 ^
  --cache-type-k q4_0 ^
  --cache-type-v q4_0 ^
  --flash-attn on ^
  --mmap ^
  --no-warmup ^
  --jinja ^
  --cache-ram 0 ^
  --threads 12 ^
  --prio 2 ^
  --timeout 1200

pause

🤖 4. 銜接自動化 Agent

本地伺服器啟動完成後(預設運行於 http://127.0.0.1:8080),您就可以將其接入各類 Coding Agent 或自動化工具。

🌟 生態系核心推薦:Pi Coding Agent + Harness 套件

雖然本指南過去以 Claude Code 為主,但在本地實戰中,我們強烈建議改用更輕量、更具擴充性的 Pi Coding Agent,並搭配我們的專屬套件: 👉 前往 CK's Pi Code Agent Harness

為什麼推薦這個組合?

  1. 解決 Context 溢位: 雲端 CLI 工具(如 Claude Code)無法精準控制本地端 auto-compact 觸發時機,容易造成本地 LLM 的 Context 溢出。Pi Agent 可以完美依照本地模型的限制設定。
  2. 極致輕量: 本地 GGUF 模型對於冗餘 Token 極度敏感。Harness 精選了核心 plugins 與 skills,能以最精簡的 prompt 格式發揮本地模型的最大智商。
  3. 無縫整合健康診斷:OmniHeal 工具完美串接,一鍵檢查專案技術債,再交由本地算力精準修復。

(若您仍需使用 Claude Code,只需在專案目錄下設定環境變數 set ANTHROPIC_BASE_URL=http://127.0.0.1:8080,請參考根目錄的 start_local_claude.bat 啟動。)


📮 聯繫與交流

如果您在部署過程中有任何技術問題或參數優化的建議,歡迎透過以下管道聯繫:

May the Local AI be with you.

About

🧠 C.A.S.E. Hybrid Cloud+Local AI Framework ── 雲端 AI 出計畫,本地 AI 執行苦勞。Llama.cpp 部署實戰指南,資料物理隔離,讓 Token 花在刀口上、不受 Quota 所困。

Topics

Resources

Stars

Watchers

Forks

Contributors