FastDeploy/fastdeploy/model_executor/layers/quantization at b87384aa70cdbb1dbc20580d2f4a92714bb18ab1 - FastDeploy - 子说镜像小站

apps/FastDeploy

mirror of https://github.com/PaddlePaddle/FastDeploy.git synced 2026-05-10 09:31:48 +08:00

Files

T

History

Sunny-bot1 4ffe41a747 WINT4/WINT8 dense gemm default use Machete (#4451 )

2025-10-23 17:57:59 +08:00

..

WINT4/WINT8 dense gemm default use Machete (#4451 )

2025-10-23 17:57:59 +08:00

__init__.py

[BugFix]fix v1 loader moe bf16, and supoort dynamic_load_weight create quant param (#4229 )

2025-09-24 14:12:05 +08:00

block_wise_fp8.py

[v1 loader]qwen Offline fp8 (#4036 )

2025-09-15 13:44:11 +08:00

kv_cache.py

[XPU] Support W4A8C8-TP4-300B Model (#4068 )

2025-10-10 15:41:32 +08:00

mix_quant.py

[v1 loader]qwen Offline fp8 (#4036 )

2025-09-15 13:44:11 +08:00

quant_base.py

…

tensor_wise_fp8.py

…

w4a8.py

[XPU] Support W4A8C8-TP4-300B Model (#4068 )

2025-10-10 15:41:32 +08:00

w4afp8.py

load hadamard_block_size from config (#3797 )

2025-09-05 17:07:58 +08:00

w8a8.py

…

weight_only.py

WINT4/WINT8 dense gemm default use Machete (#4451 )

2025-10-23 17:57:59 +08:00

wfp8afp8.py

[BugFix]Fix wfp8afp8 triton moe group_topk renormalized=True (#4449 )

2025-10-16 23:17:48 +08:00

wint2.py

…