FastDeploy

mirror of https://github.com/PaddlePaddle/FastDeploy.git synced 2026-04-23 00:17:25 +08:00

Files

T

lizexu123 6619298b50 【Optim】Optimize grid dimensions using max_tokens_per_expert for MoE models (#6007 )

* update w4afp8

* build.sh ok

* support cuda_graph

* fix

* add test

* fix max_tokens_per_expert

* >=70

* fix

* compute_max_tokens_from_prefix_sum in w4afp8

* compute_max_tokens use cub

2026-01-15 19:18:42 +08:00

auto_gen_fp8_fp8_block_gemm_fused_kernels_sm90.py

…

auto_gen_fp8_fp8_dual_gemm_fused_kernels_sm90.py

…

auto_gen_fp8_fp8_dual_gemm_fused_kernels.py

…

auto_gen_fp8_fp8_gemm_fused_kernels_sm90.py

…

auto_gen_fp8_fp8_gemm_fused_kernels.py

…

auto_gen_template_instantiation.py

…

auto_gen_visitor_fp8_gemm_fused_kernels.py

…

auto_gen_w4afp8_gemm_kernel.py

【Optim】Optimize grid dimensions using max_tokens_per_expert for MoE models (#6007 )

2026-01-15 19:18:42 +08:00

auto_gen_wfp8afp8_sparse_gemm_kernel.py

…