FastDeploy

mirror of https://github.com/PaddlePaddle/FastDeploy.git synced 2026-04-23 08:21:53 +08:00

Files

T

fxyfxy777 f3413c4caa [BugFix] fix fused_mask_swiglu_fp8_quant bug (#6316 )

* optimize mask_quant op speed up 1.5

* fix calculate sequence

* add fused

* rm log

* push kernel code

* add ut

* accuracy ok

* add ue8m0

* add ut

* add merge develop

* rm ut of mask_per_token_quant

* Revert "[Optimize] optimize mask_quant & swiglu (#6222)"

This reverts commit 2ada119a38.

* add block_size

* pre-commit

2026-02-03 13:54:12 +08:00

__init__.py

support w4afp8 EP inference (#3044 )

2025-08-25 11:27:45 +08:00

ep.py

Revert "[Feature] Support Ernie FP8 on sm100 (#5593 )" (#6275 )

2026-01-30 11:22:01 +08:00

fused_moe_backend_base.py

[Feature] Support redundant expert for eplb (#5918 )

2026-01-09 17:13:24 +08:00

fused_moe_cutlass_backend.py

[Iluvartar][CI] Fix the error max_tokens_per_expert referenced before assignment (#6083 )