FastDeploy/fastdeploy/model_executor/layers/moe at 5416da8c6e6645031ffb6a34fe86ba1bff19eb9d - FastDeploy - 子说镜像小站

apps/FastDeploy

mirror of https://github.com/PaddlePaddle/FastDeploy.git synced 2026-04-23 00:17:25 +08:00

Files

T

History

sunxin d77edf8fc9 opt wfp8afp8 triton moe (#6938 )

2026-03-20 11:07:25 +08:00

..

__init__.py

support w4afp8 EP inference (#3044 )

2025-08-25 11:27:45 +08:00

ep.py

[BugFix] Fix ep compatibility issues & Optimize permute operator (#6821 )

2026-03-17 10:32:11 +08:00

fused_moe_backend_base.py

[Feature] support compute shared experts before combine for better overlap (#6697 )

2026-03-17 15:18:51 +08:00

fused_moe_cutlass_backend.py

[Iluvatar] refactor attn and moe code (#6887 )

2026-03-18 10:31:00 +08:00

fused_moe_deepgemm_backend.py

[Feature] support compute shared experts before combine for better overlap (#6697 )

2026-03-17 15:18:51 +08:00

fused_moe_marlin_backend.py

[Feature] support compute shared experts before combine for better overlap (#6697 )

2026-03-17 15:18:51 +08:00

fused_moe_triton_backend.py

opt wfp8afp8 triton moe (#6938 )

2026-03-20 11:07:25 +08:00

fused_moe_wint2_backend.py

[Feature] support compute shared experts before combine for better overlap (#6697 )

2026-03-17 15:18:51 +08:00

moe.py

remove load_up_proj_weight_first (#6932 )

2026-03-19 17:21:34 +08:00

routing_indices_cache.py

[RL] add stream guard (#6814 )

2026-03-13 11:22:26 +08:00

triton_moe_kernels.py

[OPs] MoE support wfp8afp8(channelwise) and improve per_token_quant_fp8 (#4238 )

2025-09-24 16:39:51 +08:00