Please enable JavaScript.

Coggle requires JavaScript to display documents.

QServe Impl, sequence.py, model_executor, core/block_manager.py,…

- - - - class AWQLinearMethod(LinearMethodBase)
        
        member create_weights()
        
        input_size_per_parition: int
        
        output_partition_sizes: List[int]
        
        params_dtype: torch.dtype
        
        weight_loader
        
        // set qweight[indim, outdim//factor]
        // set qzeros[[indim/groupsize, outdim//factor]
        // set scales[indim/groupsize, outdim]
        
        member apply()
        
        layer: nn.Module
        
        x: Tensor
        
        bias: Tensor
        
        // if FP16_MATMUL_HEURISTIC_CONDITION: ops.awq_dequantize, then torch.matmul
        // else ops.awq_gemm(reshaped_x, qweight, scales, qzeros, pack_factor)
- - - - member load_model()