Please enable JavaScript.
Coggle requires JavaScript to display documents.
Local LLM - Coggle Diagram
Local LLM
Vibe Coding
-
-
-
最好在 Virtual Studio 處理完 sln,、專案檔、參考、Form UI 連動的處理
硬體選擇
DGX
DGX Spark,它有 CUDA,但與顯示卡相比速度不太快,但吸引人的是它直接可用於 GPU 部分的記憶體量。問題是,它的記憶體相當慢。大約 250 gb/s,它比大多數桌上型電腦(50-150 gb/s)快,但仍然遠不及顯示卡,顯示卡的速度可以達到它的幾倍。相比之下,5090 的速度為 1,792 GB/s
-
-
-
速度
現在關於速度,有兩個部分,提示處理 (PP) 和令牌生成 (TG)。首先是它讀取東西的速度,例如對於摘要或程式碼補全,快速讀取很重要,但對於其他事情(回答簡單的問題)來說,這就沒那麼重要了。令牌生成是它寫答案的速度。同樣,這很大程度上取決於你想用它做什麼。例如,寫摘要不如寫一份完整的商業計劃重要。
-
更複雜的是,你還有兩種模型架構,Dense 和 MoE,其中 Dense 對每個令牌使用所有模型數據,而 MoE 對每個令牌使用部分數據(因此每個生成的令牌需要從記憶體中讀取的數據較少,但總體上需要更多的記憶體)
MoE 模型有一個技巧,可以使它們更容易運行,其中只有「核心」數據被載入到 gpu / 快速記憶體中,其餘的載入到普通的慢速系統記憶體中。由於它每個令牌只使用部分數據,因此慢速記憶體的懲罰被大大減輕了。
LLM 服務提供
Ollama
-
-
-
固定用 INT4 量化;推理的準確性會比 FP4, NVFP4 差
-
-
-
SGLang
-
極致的推理速度: 透過 RadixAttention 技術,它能自動緩存已生成的 Prompt 前綴(Prefix Cache),對於重複使用系統提示詞(System Prompt)或長上下文的場景,速度提升非常明顯。
-
-
-
-
-