{"loss": 0.0, "grad_norm": 0.62425535, "learning_rate": 3.33e-06, "memory(GiB)": 24.92, "train_speed(iter/s)": 0.020695, "completions/mean_length": 466.25, "completions/min_length": 345.0, "completions/max_length": 648.0, "completions/clipped_ratio": 0.0, "rewards/WebAccuracy/mean": 0.75, "rewards/WebAccuracy/std": 0.5, "reward": 0.75, "reward_std": 0.5, "kl": 0.0, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.02380952, "global_step/max_steps": "1/42", "percentage": "2.38%", "elapsed_time": "43s", "remaining_time": "29m 34s"}
{"loss": 3.978e-05, "grad_norm": 0.01023898, "learning_rate": 9.94e-06, "memory(GiB)": 27.24, "train_speed(iter/s)": 0.036133, "completions/mean_length": 427.8125, "completions/min_length": 396.0, "completions/max_length": 469.75, "completions/clipped_ratio": 0.0, "rewards/WebAccuracy/mean": 0.9375, "rewards/WebAccuracy/std": 0.125, "reward": 0.9375, "reward_std": 0.125, "kl": 0.00098801, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.11904762, "global_step/max_steps": "5/42", "percentage": "11.90%", "elapsed_time": "2m 13s", "remaining_time": "16m 26s"}
{"loss": 5.843e-05, "grad_norm": 0.00882487, "learning_rate": 9.23e-06, "memory(GiB)": 27.24, "train_speed(iter/s)": 0.039621, "completions/mean_length": 417.25, "completions/min_length": 363.2, "completions/max_length": 479.4, "completions/clipped_ratio": 0.0, "rewards/WebAccuracy/mean": 1.0, "rewards/WebAccuracy/std": 0.0, "reward": 1.0, "reward_std": 0.0, "kl": 0.0014801, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.23809524, "global_step/max_steps": "10/42", "percentage": "23.81%", "elapsed_time": "4m 7s", "remaining_time": "13m 11s"}
{"loss": 6.225e-05, "grad_norm": 0.01165715, "learning_rate": 7.84e-06, "memory(GiB)": 27.24, "train_speed(iter/s)": 0.040726, "completions/mean_length": 419.3, "completions/min_length": 365.8, "completions/max_length": 498.2, "completions/clipped_ratio": 0.0, "rewards/WebAccuracy/mean": 0.95, "rewards/WebAccuracy/std": 0.1, "reward": 0.95, "reward_std": 0.1, "kl": 0.00153503, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.35714286, "global_step/max_steps": "15/42", "percentage": "35.71%", "elapsed_time": "6m 3s", "remaining_time": "10m 53s"}
{"loss": 7.369e-05, "grad_norm": 0.01381768, "learning_rate": 6e-06, "memory(GiB)": 27.24, "train_speed(iter/s)": 0.041503, "completions/mean_length": 398.45, "completions/min_length": 352.8, "completions/max_length": 470.2, "completions/clipped_ratio": 0.0, "rewards/WebAccuracy/mean": 1.0, "rewards/WebAccuracy/std": 0.0, "reward": 1.0, "reward_std": 0.0, "kl": 0.00180969, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.47619048, "global_step/max_steps": "20/42", "percentage": "47.62%", "elapsed_time": "7m 56s", "remaining_time": "8m 44s"}
{"loss": 7.666e-05, "grad_norm": 0.01585175, "learning_rate": 4e-06, "memory(GiB)": 27.24, "train_speed(iter/s)": 0.041884, "completions/mean_length": 407.5, "completions/min_length": 362.0, "completions/max_length": 481.2, "completions/clipped_ratio": 0.0, "rewards/WebAccuracy/mean": 1.0, "rewards/WebAccuracy/std": 0.0, "reward": 1.0, "reward_std": 0.0, "kl": 0.00192871, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.5952381, "global_step/max_steps": "25/42", "percentage": "59.52%", "elapsed_time": "9m 51s", "remaining_time": "6m 42s"}
{"loss": 7.617e-05, "grad_norm": 0.01004149, "learning_rate": 2.16e-06, "memory(GiB)": 27.24, "train_speed(iter/s)": 0.042161, "completions/mean_length": 421.5, "completions/min_length": 365.6, "completions/max_length": 484.2, "completions/clipped_ratio": 0.0, "rewards/WebAccuracy/mean": 0.95, "rewards/WebAccuracy/std": 0.1, "reward": 0.95, "reward_std": 0.1, "kl": 0.00191193, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.71428571, "global_step/max_steps": "30/42", "percentage": "71.43%", "elapsed_time": "11m 46s", "remaining_time": "4m 42s"}
{"loss": 8.65e-05, "grad_norm": 0.0243957, "learning_rate": 7.7e-07, "memory(GiB)": 27.24, "train_speed(iter/s)": 0.04248, "completions/mean_length": 388.1, "completions/min_length": 355.4, "completions/max_length": 429.0, "completions/clipped_ratio": 0.0, "rewards/WebAccuracy/mean": 1.0, "rewards/WebAccuracy/std": 0.0, "reward": 1.0, "reward_std": 0.0, "kl": 0.00216522, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.83333333, "global_step/max_steps": "35/42", "percentage": "83.33%", "elapsed_time": "13m 38s", "remaining_time": "2m 43s"}
{"loss": 0.0001075, "grad_norm": 0.01076664, "learning_rate": 6e-08, "memory(GiB)": 27.24, "train_speed(iter/s)": 0.042576, "completions/mean_length": 442.35, "completions/min_length": 386.6, "completions/max_length": 515.2, "completions/clipped_ratio": 0.0, "rewards/WebAccuracy/mean": 1.0, "rewards/WebAccuracy/std": 0.0, "reward": 1.0, "reward_std": 0.0, "kl": 0.00263824, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.95238095, "global_step/max_steps": "40/42", "percentage": "95.24%", "elapsed_time": "15m 34s", "remaining_time": "46s"}
{"eval_loss": 7.767e-05, "eval_completions/mean_length": 436.075, "eval_completions/min_length": 368.7, "eval_completions/max_length": 519.3, "eval_completions/clipped_ratio": 0.0, "eval_rewards/WebAccuracy/mean": 1.0, "eval_rewards/WebAccuracy/std": 0.0, "eval_reward": 1.0, "eval_reward_std": 0.0, "eval_kl": 0.00193863, "eval_clip_ratio/low_mean": 0.0, "eval_clip_ratio/low_min": 0.0, "eval_clip_ratio/high_mean": 0.0, "eval_clip_ratio/high_max": 0.0, "eval_clip_ratio/region_mean": 0.0, "eval_runtime": 170.4326, "eval_samples_per_second": 0.059, "eval_steps_per_second": 0.018, "epoch": 1.0, "global_step/max_steps": "42/42", "percentage": "100.00%", "elapsed_time": "19m 10s", "remaining_time": "0s"}
{"train_runtime": 1152.0944, "train_samples_per_second": 0.036, "train_steps_per_second": 0.036, "total_flos": 0.0, "train_loss": 7.149e-05, "epoch": 1.0, "global_step/max_steps": "42/42", "percentage": "100.00%", "elapsed_time": "19m 12s", "remaining_time": "0s"}
{"model_parameter_info": "PeftModelForCausalLM: 8212.5588M Params (21.8235M Trainable [0.2657%]), 0.0001M Buffers.", "last_model_checkpoint": "/data2/yuyr/direct_stepwise_train/output_data/v7-20250630-143128/checkpoint-42", "best_model_checkpoint": "/data2/yuyr/direct_stepwise_train/output_data/v7-20250630-143128/checkpoint-42", "best_metric": 1.0, "global_step": 42, "log_history": [{"loss": 0.0, "grad_norm": 0.6242553524580534, "learning_rate": 3.3333333333333333e-06, "memory(GiB)": 24.92, "train_speed(iter/s)": 0.020695, "completions/mean_length": 466.25, "completions/min_length": 345.0, "completions/max_length": 648.0, "completions/clipped_ratio": 0.0, "rewards/WebAccuracy/mean": 0.75, "rewards/WebAccuracy/std": 0.5, "reward": 0.75, "reward_std": 0.5, "kl": 0.0, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.023809523809523808, "step": 1}, {"loss": 3.9783695683581755e-05, "grad_norm": 0.01023897578138735, "learning_rate": 9.935251313189564e-06, "memory(GiB)": 27.24, "train_speed(iter/s)": 0.036133, "completions/mean_length": 427.8125, "completions/min_length": 396.0, "completions/max_length": 469.75, "completions/clipped_ratio": 0.0, "rewards/WebAccuracy/mean": 0.9375, "rewards/WebAccuracy/std": 0.125, "reward": 0.9375, "reward_std": 0.125, "kl": 0.000988006591796875, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.11904761904761904, "step": 5}, {"loss": 5.843056715093553e-05, "grad_norm": 0.008824866017233444, "learning_rate": 9.225950427718974e-06, "memory(GiB)": 27.24, "train_speed(iter/s)": 0.039621, "completions/mean_length": 417.25, "completions/min_length": 363.2, "completions/max_length": 479.4, "completions/clipped_ratio": 0.0, "rewards/WebAccuracy/mean": 1.0, "rewards/WebAccuracy/std": 0.0, "reward": 1.0, "reward_std": 0.0, "kl": 0.0014801025390625, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.23809523809523808, "step": 10}, {"loss": 6.224540993571281e-05, "grad_norm": 0.011657153567452776, "learning_rate": 7.84032373365578e-06, "memory(GiB)": 27.24, "train_speed(iter/s)": 0.040726, "completions/mean_length": 419.3, "completions/min_length": 365.8, "completions/max_length": 498.2, "completions/clipped_ratio": 0.0, "rewards/WebAccuracy/mean": 0.95, "rewards/WebAccuracy/std": 0.1, "reward": 0.95, "reward_std": 0.1, "kl": 0.0015350341796875, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.35714285714285715, "step": 15}, {"loss": 7.369210361503064e-05, "grad_norm": 0.013817682138053919, "learning_rate": 6.000128468880223e-06, "memory(GiB)": 27.24, "train_speed(iter/s)": 0.041503, "completions/mean_length": 398.45, "completions/min_length": 352.8, "completions/max_length": 470.2, "completions/clipped_ratio": 0.0, "rewards/WebAccuracy/mean": 1.0, "rewards/WebAccuracy/std": 0.0, "reward": 1.0, "reward_std": 0.0, "kl": 0.0018096923828125, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.47619047619047616, "step": 20}, {"loss": 7.665890152566134e-05, "grad_norm": 0.01585174721892653, "learning_rate": 3.999871531119779e-06, "memory(GiB)": 27.24, "train_speed(iter/s)": 0.041884, "completions/mean_length": 407.5, "completions/min_length": 362.0, "completions/max_length": 481.2, "completions/clipped_ratio": 0.0, "rewards/WebAccuracy/mean": 1.0, "rewards/WebAccuracy/std": 0.0, "reward": 1.0, "reward_std": 0.0, "kl": 0.0019287109375, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.5952380952380952, "step": 25}, {"loss": 7.616523071192205e-05, "grad_norm": 0.010041486259289783, "learning_rate": 2.159676266344222e-06, "memory(GiB)": 27.24, "train_speed(iter/s)": 0.042161, "completions/mean_length": 421.5, "completions/min_length": 365.6, "completions/max_length": 484.2, "completions/clipped_ratio": 0.0, "rewards/WebAccuracy/mean": 0.95, "rewards/WebAccuracy/std": 0.1, "reward": 0.95, "reward_std": 0.1, "kl": 0.00191192626953125, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.7142857142857143, "step": 30}, {"loss": 8.649948285892606e-05, "grad_norm": 0.02439569694038167, "learning_rate": 7.740495722810271e-07, "memory(GiB)": 27.24, "train_speed(iter/s)": 0.04248, "completions/mean_length": 388.1, "completions/min_length": 355.4, "completions/max_length": 429.0, "completions/clipped_ratio": 0.0, "rewards/WebAccuracy/mean": 1.0, "rewards/WebAccuracy/std": 0.0, "reward": 1.0, "reward_std": 0.0, "kl": 0.00216522216796875, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.8333333333333334, "step": 35}, {"loss": 0.00010750093497335911, "grad_norm": 0.010766639997972088, "learning_rate": 6.474868681043578e-08, "memory(GiB)": 27.24, "train_speed(iter/s)": 0.042576, "completions/mean_length": 442.35, "completions/min_length": 386.6, "completions/max_length": 515.2, "completions/clipped_ratio": 0.0, "rewards/WebAccuracy/mean": 1.0, "rewards/WebAccuracy/std": 0.0, "reward": 1.0, "reward_std": 0.0, "kl": 0.00263824462890625, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.9523809523809523, "step": 40}, {"eval_loss": 7.766595081193373e-05, "eval_completions/mean_length": 436.075, "eval_completions/min_length": 368.7, "eval_completions/max_length": 519.3, "eval_completions/clipped_ratio": 0.0, "eval_rewards/WebAccuracy/mean": 1.0, "eval_rewards/WebAccuracy/std": 0.0, "eval_reward": 1.0, "eval_reward_std": 0.0, "eval_kl": 0.001938629150390625, "eval_clip_ratio/low_mean": 0.0, "eval_clip_ratio/low_min": 0.0, "eval_clip_ratio/high_mean": 0.0, "eval_clip_ratio/high_max": 0.0, "eval_clip_ratio/region_mean": 0.0, "eval_runtime": 170.4326, "eval_samples_per_second": 0.059, "eval_steps_per_second": 0.018, "epoch": 1.0, "step": 42}, {"train_runtime": 1152.0944, "train_samples_per_second": 0.036, "train_steps_per_second": 0.036, "total_flos": 0.0, "train_loss": 7.149178210446345e-05, "epoch": 1.0, "step": 42}], "memory": 27.236328125}