[Feature] support qkv&gate linear fusion (#6455)

* [Feature] support qkv&gate linear fusion * add test
2026-04-23 00:17:25 +08:00 · 2026-02-24 15:20:29 +08:00
parent 38c3e02470
commit 22566168c3
3 changed files with 692 additions and 0 deletions
@@ -23,6 +23,7 @@ from fastdeploy import envs
 from fastdeploy.model_executor.layers.linear import (
    MergedColumnParallelLinear,
    MergedReplicatedLinear,
+    QKVGateParallelLinear,
    QKVParallelLinear,
 )
 from fastdeploy.model_executor.layers.moe import FusedMoE
@@ -160,6 +161,7 @@ class BlockWiseFP8LinearMethod(QuantMethodBase):
                isinstance(layer, MergedColumnParallelLinear)
                or isinstance(layer, QKVParallelLinear)
                or isinstance(layer, MergedReplicatedLinear)
+                or isinstance(layer, QKVGateParallelLinear)
            ):
                tensor_output_dim = (self.model_format == "torch") ^ quant_attrs.get("output_dim", True)
                quant_attrs = {