Please enable JavaScript.
Coggle requires JavaScript to display documents.
LLM - Coggle Diagram
LLM
推理
精度
FP16
BF16
W8A8
W4A16
在线
TTFT
Time To First Token
TPOT
Time Per Output Token
Latency
量化方式
awq
gptq
性能
框架
PPL
VLLM
LLMDeploy
离线
Throughput
KV-Cache
KV 缓存的总大小(以字节为单位)= (batch_size)
(sequence_length)
2
(num_layers)
(hidden_size) * sizeof(FP16)
精度
推理过程
训练
性能
精度