[Optimization] Improve perf for fd response token with internal adapter (#4992)

* [Optimize] Improve perf for fd response token with internal adapter * fix * fix bug * fix ci * fix ci * fix ci * fix ci
2026-04-23 00:17:25 +08:00 · 2025-11-21 19:02:03 +08:00
parent 5bcf79d780
commit 3ea1b44a58
15 changed files with 202 additions and 67 deletions
@@ -27,7 +27,6 @@ import numpy as np

 from fastdeploy.engine.common_engine import EngineService
 from fastdeploy.inter_communicator import IPCSignal
-from fastdeploy.splitwise.internal_adapter_utils import InternalAdapter
 from fastdeploy.utils import console_logger, envs, llm_logger


@@ -53,6 +52,13 @@ class ExpertService:
        end_pos = start_pos + self.cfg.parallel_config.tensor_parallel_size
        if cfg.scheduler_config.splitwise_role != "mixed":
            self.cfg.cache_config.rdma_comm_ports = self.cfg.cache_config.rdma_comm_ports[start_pos:end_pos]
+            if envs.FD_ENABLE_INTERNAL_ADAPTER:
+                envs.FD_ZMQ_RECV_REQUEST_SERVER_PORT = envs.FD_ZMQ_RECV_REQUEST_SERVER_PORTS.split(",")[
+                    local_data_parallel_id
+                ]
+                envs.FD_ZMQ_SEND_RESPONSE_SERVER_PORT = envs.FD_ZMQ_SEND_RESPONSE_SERVER_PORTS.split(",")[
+                    local_data_parallel_id
+                ]
        self.cfg.local_device_ids = self.cfg.parallel_config.device_ids.split(",")[start_pos:end_pos]
        llm_logger.info(f"local_data_parallel_id: {local_data_parallel_id}")
        self.cfg.disaggregate_info = None
@@ -77,7 +83,7 @@ class ExpertService:
        self._finalizer = weakref.finalize(self, self._exit_sub_services)

    def start(
-        self, ipc_signal_suffix, local_data_parallel_id, request_queues_for_dp_ipc=None, result_queue_for_dp_ipc=None
+        self, ipc_signal_suffix, local_data_parallel_id, request_queues_for_dp_ipc=None, result_queues_for_dp_ipc=None
    ):
        """
        Initializes the engine and starts its sub-services.
@@ -92,18 +98,15 @@ class ExpertService:
            self.engine.create_data_processor()
        if self.cfg.scheduler_config.name == "dp":
            self.cfg.init_cache_info()
-            assert (request_queues_for_dp_ipc is not None) and (result_queue_for_dp_ipc is not None)
-            self.engine.scheduler.start(local_data_parallel_id, request_queues_for_dp_ipc, result_queue_for_dp_ipc)
+            assert (request_queues_for_dp_ipc is not None) and (result_queues_for_dp_ipc is not None)
+            self.engine.scheduler.start(local_data_parallel_id, request_queues_for_dp_ipc, result_queues_for_dp_ipc)

        if ipc_signal_suffix is not None:
            self.api_server_pid = ipc_signal_suffix
            self.engine.start_zmq_service(ipc_signal_suffix)
        else:
            ipc_signal_suffix = self.cfg.parallel_config.engine_worker_queue_port[0]
-            if envs.FD_ENABLE_INTERNAL_ADAPTER:
-                self.internal_adapter = InternalAdapter(
-                    cfg=self.cfg, engine=self.engine, dp_rank=self.cfg.parallel_config.local_data_parallel_id
-                )
+            self.engine.start_zmq_service(self.cfg.parallel_config.engine_worker_queue_port[local_data_parallel_id])

        llm_logger.info(f"start expert service {local_data_parallel_id}")

@@ -189,7 +192,7 @@ class ExpertService:


 def start_data_parallel_service(
-    cfg, local_data_parallel_id, ipc_signal_suffix=None, request_queues_for_dp_ipc=None, result_queue_for_dp_ipc=None
+    cfg, local_data_parallel_id, ipc_signal_suffix=None, request_queues_for_dp_ipc=None, result_queues_for_dp_ipc=None
 ):
    """
    Start expert service
@@ -198,7 +201,7 @@ def start_data_parallel_service(

    try:
        expert_service.start(
-            ipc_signal_suffix, local_data_parallel_id, request_queues_for_dp_ipc, result_queue_for_dp_ipc
+            ipc_signal_suffix, local_data_parallel_id, request_queues_for_dp_ipc, result_queues_for_dp_ipc
        )

        def deamon_thread():