[Bug Fix] Fix scheduler bug in develop (#3292)

* Fix scheduler bug in develop * Fix scheduler bug in develop * Fix scheduler bug in develop
2026-04-23 00:17:25 +08:00 · 2025-08-10 13:55:38 +08:00
parent 1e4968e810
commit c011cb8b16
3 changed files with 34 additions and 9 deletions
@@ -215,11 +215,11 @@ class GPUModelRunner(ModelRunnerBase):

        req_len = len(req_dicts)
        has_prefill_task = False
+        has_decode_task = False
        for i in range(req_len):
            request = req_dicts[i]
            idx = request.idx
            if request.task_type.value == RequestType.PREFILL.value:  # prefill task
-                logger.debug(f"Handle prefill request {request} at idx {idx}")
                prefill_start_index = request.prefill_start_index
                prefill_end_index = request.prefill_end_index
                length = prefill_end_index - prefill_start_index
@@ -265,6 +265,7 @@ class GPUModelRunner(ModelRunnerBase):
                    )

                input_ids = request.prompt_token_ids + request.output_token_ids
+                logger.debug(f"Handle prefill request {request} at idx {idx} prefill_start_index {prefill_start_index} prefill_end_index {prefill_end_index} need_prefilled_token_num {len(input_ids)}")
                self.share_inputs["input_ids"][idx : idx + 1, :length] = np.array(
                    input_ids[prefill_start_index:prefill_end_index]
                )
@@ -293,6 +294,8 @@ class GPUModelRunner(ModelRunnerBase):
                self.share_inputs["block_tables"][idx : idx + 1, :encoder_block_num] = np.array(
                    request.block_tables, dtype="int32"
                )
+                if self.share_inputs["is_block_step"][idx]:  # has tasks to continue to decode
+                    has_decode_task = True
                continue
            else:  # preempted task
                logger.debug(f"Handle preempted request {request} at idx {idx}")
@@ -338,7 +341,7 @@ class GPUModelRunner(ModelRunnerBase):
            else:
                self.share_inputs["stop_seqs_len"][idx : idx + 1, :] = 0

-        if has_prefill_task:
+        if has_prefill_task or has_decode_task:
            self.share_inputs["not_need_stop"][0] = True
        self.share_inputs["seq_lens_this_time"] = self.seq_lens_this_time_buffer[:num_running_requests]