[Metax] support cutlass moe & optimize flash attention (#4208)

2026-04-23 00:17:25 +08:00 · 2025-09-29 11:22:43 +08:00
parent 2b2b645296
commit 7c919070f7
20 changed files with 2786 additions and 103 deletions
@@ -123,10 +123,18 @@ class WeightOnlyConfig(QuantConfigBase):
        elif current_platform.is_maca():
            if isinstance(layer, FusedMoE):
                from fastdeploy.model_executor.layers.backends import (
+                    MetaxCutlassWeightOnlyMoEMethod,
                    MetaxTritonWeightOnlyMoEMethod,
                )

-                return MetaxTritonWeightOnlyMoEMethod(self)
+                if layer.use_method == "cutlass":
+
+                    return MetaxCutlassWeightOnlyMoEMethod(self)
+                elif layer.use_method == "triton":
+
+                    return MetaxTritonWeightOnlyMoEMethod(self)
+                else:
+                    raise ValueError(f"Unsupported MOE backend {layer.use_method}")
            else:

                return GPUWeightOnlyLinearMethod(self)