2 өдөр өмнө · c88dd378ea
--- a/evaluate.py
+++ b/evaluate.py
@@ -0,0 +1,174 @@
 
				+import os
			
 
				+import numpy as np
			
 
				+import pandas as pd
			
 
				+import torch
			
 
				+import torch.distributed as dist
			
 
				+from torch.utils.data import DataLoader
			
 
				+from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, mean_absolute_error
			
 
				+from matplotlib import font_manager
			
 
				+import matplotlib.pyplot as plt
			
 
				+import seaborn as sns
			
 
				+from utils import FlightDataset
			
 
				+
			
 
				+
			
 
				+# 分布式模型评估
			
 
				+def evaluate_model_distribute(model, device, sequences, targets, group_ids, batch_size=16, test_loader=None, 
			
 
				+                              batch_flight_routes=None, target_scaler=None, 
			
 
				+                              flag_distributed=False, rank=0, local_rank=0, world_size=1, output_dir='.', batch_idx=-1,
			
 
				+                              csv_file='evaluate_results.csv', evalute_flag='evaluate', save_mode='a'):
			
 
				+    
			
 
				+    if test_loader is None:
			
 
				+        if not sequences:
			
 
				+            print("没有足够的数据进行评估。")
			
 
				+            return
			
 
				+        test_dataset = FlightDataset(sequences, targets, group_ids)
			
 
				+        test_loader = DataLoader(test_dataset, batch_size=batch_size)   # ??
			
 
				+    
			
 
				+    batch_fn_str = ' '.join([route.replace('|', ' ') for route in batch_flight_routes]) if batch_flight_routes else ''
			
 
				+
			
 
				+    model.eval()
			
 
				+
			
 
				+    # 初始化存储容器（张量形式以便跨进程通信）
			
 
				+    y_preds_list = []
			
 
				+    y_trues_list = []
			
 
				+    group_info_list = []
			
 
				+
			
 
				+    with torch.no_grad():
			
 
				+        for X_batch, y_batch, group_ids_batch in test_loader:
			
 
				+            X_batch = X_batch.to(device)
			
 
				+            y_batch = y_batch.to(device)
			
 
				+
			
 
				+            # 分布式模式下需确保不同进程处理不同数据分片
			
 
				+            outputs = model(X_batch)    
			
 
				+
			
 
				+            # 收集当前批次的结果（保留在GPU上）
			
 
				+            y_preds_list.append(outputs.cpu().numpy())  # 移动到CPU以节省GPU内存
			
 
				+            y_trues_list.append(y_batch.cpu().numpy())
			
 
				+
			
 
				+            # 处理 group_info（需转换为可序列化格式）
			
 
				+            for i in range(len(group_ids_batch[0])):
			
 
				+                group_id = tuple(g[i].item() if isinstance(g, torch.Tensor) else g[i] for g in group_ids_batch)
			
 
				+                group_info_list.append(group_id)
			
 
				+                pass
			
 
				+    
			
 
				+    # 合并当前进程的结果
			
 
				+    y_preds = np.concatenate(y_preds_list, axis=0)
			
 
				+    y_trues = np.concatenate(y_trues_list, axis=0)
			
 
				+    group_info = group_info_list
			
 
				+    
			
 
				+    # --- 分布式结果聚合 ---
			
 
				+    if flag_distributed:
			
 
				+
			
 
				+        # 收集所有进程的预测结果
			
 
				+        y_preds_tensor = torch.tensor(y_preds, device=device)
			
 
				+        y_trues_tensor = torch.tensor(y_trues, device=device)
			
 
				+
			
 
				+        # 收集所有进程的 y_preds 和 y_trues
			
 
				+        gather_y_preds = [torch.zeros_like(y_preds_tensor) for _ in range(world_size)]
			
 
				+        gather_y_trues = [torch.zeros_like(y_trues_tensor) for _ in range(world_size)]
			
 
				+        dist.all_gather(gather_y_preds, y_preds_tensor)
			
 
				+        dist.all_gather(gather_y_trues, y_trues_tensor)
			
 
				+
			
 
				+        # 合并结果到 rank 0
			
 
				+        if rank == 0:
			
 
				+            y_preds = np.concatenate([tensor.cpu().numpy() for tensor in gather_y_preds], axis=0)
			
 
				+            y_trues = np.concatenate([tensor.cpu().numpy() for tensor in gather_y_trues], axis=0)
			
 
				+
			
 
				+        # 将 group_info 转换为字符串列表以便传输
			
 
				+        group_info_str = ['|'.join(map(str, info)) for info in group_info]
			
 
				+        gather_group_info = [None for _ in range(world_size)]
			
 
				+        dist.all_gather_object(gather_group_info, group_info_str)
			
 
				+
			
 
				+        if rank == 0:
			
 
				+            group_info = []
			
 
				+            for info_list in gather_group_info:
			
 
				+                for info_str in info_list:
			
 
				+                    group_info.append(tuple(info_str.split('|')))   
			
 
				+
			
 
				+    # --- 仅在 rank 0 计算指标并保存结果 ---
			
 
				+    if rank == 0:
			
 
				+        
			
 
				+        # 分类任务结果
			
 
				+        y_preds_class = y_preds[:, 0]
			
 
				+        y_trues_class = y_trues[:, 0]
			
 
				+        y_preds_class_labels = (y_preds_class >= 0.5).astype(int)
			
 
				+        y_trues_class_labels = y_trues_class.astype(int)
			
 
				+
			
 
				+        # 打印指标
			
 
				+        printScore_cc(y_trues_class_labels, y_preds_class_labels, batch_fn_str=batch_fn_str, batch_idx=batch_idx, evalute_flag=evalute_flag)
			
 
				+
			
 
				+        # 构造 DataFrame
			
 
				+        results_df = pd.DataFrame({
			
 
				+            'city_pair': [info[0] for info in group_info],
			
 
				+            'flight_day': [info[1] for info in group_info],
			
 
				+            'flight_number_1': [info[2] for info in group_info],
			
 
				+            'flight_number_2': [info[3] for info in group_info],
			
 
				+            'from_date': [info[4] for info in group_info],
			
 
				+            'baggage': [info[5] for info in group_info],
			
 
				+            'price': [info[6] for info in group_info],
			
 
				+            'Hours_until_Departure': [info[7] for info in group_info],
			
 
				+            'update_hour': [info[8] for info in group_info],
			
 
				+            'probability': y_preds_class,
			
 
				+            'Actual_Will_Price_Drop': y_trues_class_labels,
			
 
				+            'Predicted_Will_Price_Drop': y_preds_class_labels,
			
 
				+        })
			
 
				+
			
 
				+        # 数值处理
			
 
				+        threshold = 1e-3
			
 
				+        numeric_columns = ['probability',
			
 
				+                           # 'Actual_Amount_Of_Drop', 'Predicted_Amount_Of_Drop', 'Actual_Time_To_Drop', 'Predicted_Time_To_Drop'
			
 
				+                           ]
			
 
				+        for col in numeric_columns:
			
 
				+            results_df[col] = results_df[col].where(results_df[col].abs() >= threshold, 0)
			
 
				+        
			
 
				+        # 保存结果
			
 
				+        results_df_path = os.path.join(output_dir, csv_file)
			
 
				+        if save_mode == 'a':
			
 
				+            # 追加模式
			
 
				+            results_df.to_csv(results_df_path, mode='a', index=False, header=not os.path.exists(results_df_path))
			
 
				+        else:
			
 
				+            # 重写模式
			
 
				+            results_df.to_csv(results_df_path, mode='w', index=False, header=True) 
			
 
				+        print(f"预测结果已保存到 '{results_df_path}'")
			
 
				+        
			
 
				+        return results_df
			
 
				+    
			
 
				+    else:
			
 
				+        return None
			
 
				+
			
 
				+
			
 
				+def printScore_cc(y_trues_class_labels, y_preds_class_labels, batch_fn_str='', batch_idx=-1, evalute_flag='evaluate'):
			
 
				+    
			
 
				+    accuracy = accuracy_score(y_trues_class_labels, y_preds_class_labels)
			
 
				+    precision = precision_score(y_trues_class_labels, y_preds_class_labels, zero_division=0)
			
 
				+    recall = recall_score(y_trues_class_labels, y_preds_class_labels, zero_division=0)
			
 
				+    f1 = f1_score(y_trues_class_labels, y_preds_class_labels, zero_division=0)
			
 
				+
			
 
				+    print(f"分类准确率: {accuracy:.4f}")
			
 
				+    print(f"分类精确率: {precision:.4f}")
			
 
				+    print(f"分类召回率: {recall:.4f}")
			
 
				+    print(f"分类F1值: {f1:.4f}")
			
 
				+
			
 
				+    # 获取二者都为1的正例索引
			
 
				+    indices = np.where((y_trues_class_labels == 1) & (y_preds_class_labels == 1))[0]
			
 
				+    if len(indices) > 0:
			
 
				+        pass
			
 
				+    else:
			
 
				+        print("没有正例")
			
 
				+
			
 
				+    font_path = "./simhei.ttf"
			
 
				+    font_prop = font_manager.FontProperties(fname=font_path)
			
 
				+    # font_prop = font.font_prop
			
 
				+    
			
 
				+    # 混淆矩阵
			
 
				+    cm = confusion_matrix(y_trues_class_labels, y_preds_class_labels)
			
 
				+    plt.figure(figsize=(6, 5))
			
 
				+    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
			
 
				+                xticklabels=['预测:不会降价', '预测:会降价'],
			
 
				+                yticklabels=['实际:不会降价', '实际:会降价'])
			
 
				+    plt.xticks(fontproperties=font_prop)
			
 
				+    plt.yticks(fontproperties=font_prop)
			
 
				+    plt.xlabel('预测情况', fontproperties=font_prop)
			
 
				+    plt.ylabel('实际结果', fontproperties=font_prop)
			
 
				+    plt.title('分类结果的混淆矩阵', fontproperties=font_prop)
			
 
				+    plt.savefig(f"./photo/{evalute_flag}_confusion_matrix_{batch_idx}_{batch_fn_str}.png")
			
--- a/font.py
+++ b/font.py
@@ -0,0 +1,4 @@
 
				+from matplotlib import font_manager
			
 
				+# 设置字体
			
 
				+font_path = "./simhei.ttf"
			
 
				+font_prop = font_manager.FontProperties(fname=font_path)
			
--- a/main_tr.py
+++ b/main_tr.py
@@ -6,15 +6,18 @@ from torch.nn.parallel import DistributedDataParallel as DDP
 
				 import joblib
			
 
				 import gc
			
 
				 import pandas as pd
			
 
				-import numpy as np
			
 
				+# import numpy as np
			
 
				 import redis
			
 
				 import time
			
 
				 import pickle
			
 
				 import shutil
			
 
				 from datetime import datetime, timedelta
			
 
				 from utils import chunk_list_with_index, create_fixed_length_sequences
			
 
				+from model import PriceDropClassifiTransModel
			
 
				 from data_loader import mongo_con_parse, load_train_data
			
 
				 from data_preprocess import preprocess_data, standardization
			
 
				+from train import prepare_data_distribute, train_model_distribute
			
 
				+from evaluate import printScore_cc
			
 
				 from config import mongodb_config, vj_flight_route_list, vj_flight_route_list_hot, vj_flight_route_list_nothot, \
			
 
				     CLEAN_VJ_HOT_NEAR_INFO_TAB, CLEAN_VJ_HOT_FAR_INFO_TAB, CLEAN_VJ_NOTHOT_NEAR_INFO_TAB, CLEAN_VJ_NOTHOT_FAR_INFO_TAB
			
 
				 
			
@@ -68,7 +71,19 @@ def init_distributed_backend():
 
				 
			
 
				 # 初始化模型和相关参数
			
 
				 def initialize_model(device):
			
 
				-    return None
			
 
				+    input_size = len(features)
			
 
				+    model = PriceDropClassifiTransModel(input_size, num_periods=2, hidden_size=64, num_layers=3, output_size=1, dropout=0.2)
			
 
				+    model.to(device)
			
 
				+
			
 
				+    if FLAG_Distributed:
			
 
				+        model = DDP(model, device_ids=[device], find_unused_parameters=True)   # 使用DDP包装模型
			
 
				+
			
 
				+    if FLAG_Distributed:
			
 
				+        print(f"Rank:{dist.get_rank()}, 模型已初始化，输入尺寸：{input_size}")
			
 
				+    else:
			
 
				+        print(f"模型已初始化，输入尺寸：{input_size}")
			
 
				+
			
 
				+    return model
			
 
				 
			
 
				 def continue_before_process(redis_client, lock_key):
			
 
				     # rank0 跳出循环前的处理
			
@@ -95,7 +110,7 @@ def start_train():
 
				     photo_dir = "./photo"
			
 
				 
			
 
				     date_end = datetime.today().strftime("%Y-%m-%d")
			
 
				-    date_begin = (datetime.today() - timedelta(days=18)).strftime("%Y-%m-%d")
			
 
				+    date_begin = (datetime.today() - timedelta(days=41)).strftime("%Y-%m-%d")
			
 
				 
			
 
				     # 仅在 rank == 0 时要做的
			
 
				     if rank == 0:
			
@@ -121,9 +136,9 @@ def start_train():
 
				 
			
 
				         print(f"最终特征列表：{features}")
			
 
				 
			
 
				-    # 定义优化器和损失函数(只回归)
			
 
				-    # criterion = RegressionLoss(loss_func_flag="Quantile", quantile=0.5)
			
 
				-    # optimizer = torch.optim.Adam(model.parameters(), lr=0.0005, weight_decay=1e-5)
			
 
				+    # 定义优化器和损失函数
			
 
				+    criterion = None   #  后面在训练之前定义
			
 
				+    optimizer = torch.optim.Adam(model.parameters(), lr=0.0005, weight_decay=1e-5)
			
 
				 
			
 
				     group_size = 1              # 每几组作为一个批次
			
 
				     num_epochs_per_batch = 200  # 每个批次训练的轮数，可以根据需要调整
			
@@ -136,7 +151,9 @@ def start_train():
 
				     lock_key = "data_loading_lock_11"
			
 
				     barrier_key = 'distributed_barrier_11'
			
 
				 
			
 
				+    assemble_size = 1   # 几个batch作为一个集群assemble
			
 
				     batch_idx = -1
			
 
				+    batch_flight_routes = None   # 占位, 避免其它rank找不到定义
			
 
				 
			
 
				     # 主干代码
			
 
				     # flight_route_list = vj_flight_route_list_hot + vj_flight_route_list_nothot
			
@@ -146,9 +163,9 @@ def start_train():
 
				 
			
 
				     # 调试代码
			
 
				     s = 38   # 菲律宾2025-12-08是节假日 s=38 选到马尼拉 
			
 
				-    flight_route_list = vj_flight_route_list_hot[:0] + vj_flight_route_list_nothot[s:]
			
 
				+    flight_route_list = vj_flight_route_list_hot[0:] + vj_flight_route_list_nothot[s:]
			
 
				     flight_route_list_len = len(flight_route_list)
			
 
				-    route_len_hot = len(vj_flight_route_list_hot[:0])
			
 
				+    route_len_hot = len(vj_flight_route_list_hot[0:])
			
 
				     route_len_nothot = len(vj_flight_route_list_nothot[s:])
			
 
				     
			
 
				     if local_rank == 0:
			
@@ -222,6 +239,7 @@ def start_train():
 
				             # 使用默认配置
			
 
				             client, db = mongo_con_parse()
			
 
				             print(f"第 {i} 组 :", group_route_list)
			
 
				+            batch_flight_routes = group_route_list
			
 
				 
			
 
				             # 根据索引位置决定是 热门 还是 冷门
			
 
				             if 0 <= i < route_len_hot:
			
@@ -277,11 +295,310 @@ def start_train():
 
				             
			
 
				             # 生成序列
			
 
				             sequences, targets, group_ids = create_fixed_length_sequences(df_train_inputs, features, target_vars, input_length=452)
			
 
				-            pass
			
 
				+            
			
 
				+            # 新增有效性检查
			
 
				+            if len(sequences) == 0 or len(targets) == 0 or len(group_ids) == 0:
			
 
				+                valid_batch[0] = 0
			
 
				+                print("警告：当前批次数据为空，标记为无效批次")
			
 
				+            
			
 
				+            # 数据加载及预处理完成，设置 Redis 锁 key 的值为 1
			
 
				+            redis_client.set(lock_key, 1)
			
 
				+            print("rank0 数据加载完成，已将 Redis 锁 key 值设置为 1")
			
 
				 
			
 
				         else:
			
 
				-            pass
			
 
				+            val = None
			
 
				+            # 其它 rank 等待：只有当 lock key 存在且其值为 "1" 时才算数据加载完成
			
 
				+            print(f"rank{rank} 正在等待 rank0 完成数据加载...")
			
 
				+            while True:
			
 
				+                val = redis_client.get(lock_key)
			
 
				+                if val is not None and val.decode('utf-8') in ["1", "2"]:
			
 
				+                    break
			
 
				+                time.sleep(1)
			
 
				+            if val is not None and val.decode('utf-8') == "2":
			
 
				+                print(f"rank{rank} 跳过空批次 {i}")
			
 
				+                time.sleep(3)
			
 
				+                continue
			
 
				+            print(f"rank{rank} 检测到数据加载已完成，继续后续处理...")
			
 
				+
			
 
				+        # 同步点：所有 Rank 在此等待
			
 
				+        if FLAG_Distributed:
			
 
				+            # 确保所有 CUDA 操作完成并释放缓存
			
 
				+            print(f"rank{rank} ready synchronize ...")
			
 
				+            torch.cuda.synchronize()
			
 
				+            
			
 
				+            print(f"rank{rank} ready empty_cache ...")
			
 
				+            torch.cuda.empty_cache()
			
 
				+            
			
 
				+            print(f"rank{rank} ready barrier ...")
			
 
				+            dist.barrier()  # 移除 device_ids 参数
			
 
				+            # dist.barrier(device_ids=[local_rank])
			
 
				+
			
 
				+        print(f"rank{rank} done barrier ...")
			
 
				+
			
 
				+        # 广播批次有效性标志
			
 
				+        if FLAG_Distributed:
			
 
				+            dist.broadcast(valid_batch, src=0)
			
 
				+
			
 
				+        # 所有 Rank 检查批次有效性
			
 
				+        if valid_batch.item() == 0:
			
 
				+            print(f"Rank {rank} 跳过无效批次 {i}")
			
 
				+            continue  # 所有 Rank 跳过当前循环
			
 
				+
			
 
				+        # 所有 Rank 同时进入数据分发
			
 
				+        if rank == 0:
			
 
				+            # 分片并分发
			
 
				+            my_sequences, my_targets, my_group_ids = distribute_sharded_data(sequences, targets, group_ids, world_size, rank, device, flag_distributed=FLAG_Distributed)
			
 
				+        else:
			
 
				+            # 其它 Rank 接收数据
			
 
				+            my_sequences, my_targets, my_group_ids = distribute_sharded_data([], [], [], world_size, rank, device, flag_distributed=FLAG_Distributed)
			
 
				+
			
 
				+        # 查看一下各rank是否分到数据
			
 
				+        debug_print_shard_info([], my_targets, my_group_ids, rank, local_rank, world_size)
			
 
				+
			
 
				+        pre_flag, train_single, val_single, test_single = prepare_data_distribute(my_sequences, my_targets, my_group_ids, 
			
 
				+            flag_distributed=FLAG_Distributed, rank=rank, local_rank=local_rank, world_size=world_size)
			
 
				+        
			
 
				+        del my_sequences
			
 
				+        del my_targets
			
 
				+        del my_group_ids
			
 
				+        gc.collect()
			
 
				+
			
 
				+        if not pre_flag:
			
 
				+            print(f"Rank {rank} 跳过无效数据批次 {i}")
			
 
				+            continue
			
 
				+
			
 
				+        train_sequences = train_single['sequences']
			
 
				+        train_targets = train_single['targets']
			
 
				+        train_group_ids = train_single['group_ids']
			
 
				+
			
 
				+        val_sequences = val_single['sequences']
			
 
				+        val_targets = val_single['targets']
			
 
				+        val_group_ids = val_single['group_ids']
			
 
				+
			
 
				+        # test_sequences = test_single['sequences']
			
 
				+        # test_targets = test_single['targets']
			
 
				+        # test_group_ids = test_single['group_ids']
			
 
				+
			
 
				+        if FLAG_Distributed:
			
 
				+            dist.barrier()
			
 
				+
			
 
				+        # 训练模型
			
 
				+        model = train_model_distribute(train_sequences, train_targets, train_group_ids, val_sequences, val_targets, val_group_ids,
			
 
				+            model, criterion, optimizer, device, num_epochs=num_epochs_per_batch, batch_size=16, target_scaler=target_scaler, 
			
 
				+            flag_distributed=FLAG_Distributed, rank=rank, local_rank=local_rank, world_size=world_size, 
			
 
				+            output_dir=output_dir, photo_dir=photo_dir, batch_idx=batch_idx, 
			
 
				+            batch_flight_routes=batch_flight_routes, patience=40, delta=0.001)
			
 
				+
			
 
				+        del train_single
			
 
				+        del val_single
			
 
				+        del test_single
			
 
				+        gc.collect()
			
 
				+
			
 
				+        # 重置模型参数
			
 
				+        if (i + 1) % assemble_size == 0:
			
 
				+            
			
 
				+            if FLAG_Distributed:
			
 
				+                dist.barrier()
			
 
				+
			
 
				+            del model, optimizer 
			
 
				+            torch.cuda.empty_cache()  # 清理GPU缓存
			
 
				+
			
 
				+            model = initialize_model(device)  # 重置模型
			
 
				+            
			
 
				+            optimizer = torch.optim.Adam(model.parameters(), lr=0.0005, weight_decay=1e-5)  # 重置优化器
			
 
				+            print(f"Rank {rank}, Reset Model at batch {i} due to performance drop")
			
 
				+
			
 
				+    ###############################################################################################################
			
 
				+
			
 
				+    # 在整体批次训练结束后
			
 
				+    if rank == 0:
			
 
				+        # pass
			
 
				+        # torch.save(model.state_dict(), os.path.join(output_dir, 'final_model.pth'))
			
 
				+        print("模型训练完成并已保存。")
			
 
				+
			
 
				+        csv_file = 'evaluate_results.csv'
			
 
				+        csv_path = os.path.join(output_dir, csv_file)
			
 
				+        # 汇总评估结果
			
 
				+        try:
			
 
				+            df = pd.read_csv(csv_path)
			
 
				+        except Exception as e:
			
 
				+            print(f"read {csv_path} error: {str(e)}")
			
 
				+            df = None
			
 
				+
			
 
				+        if df is not None:
			
 
				+            # 提取真实值和预测值
			
 
				+            y_trues_class_labels = df['Actual_Will_Price_Drop']
			
 
				+            y_preds_class_labels = df['Predicted_Will_Price_Drop']
			
 
				+
			
 
				+            printScore_cc(y_trues_class_labels, y_preds_class_labels, batch_fn_str='validate', batch_idx='')
			
 
				+
			
 
				+    if FLAG_Distributed:
			
 
				+        dist.destroy_process_group()   # 显式调用 destroy_process_group 来清理 NCCL 的进程组资源
			
 
				+
			
 
				+
			
 
				+def distribute_sharded_data(sequences, targets, group_ids, world_size, rank, device, flag_distributed):
			
 
				+    # --- 非分布式模式：直接返回全量数据
			
 
				+    if not flag_distributed:
			
 
				+        return sequences, targets, group_ids
			
 
				+
			
 
				+    # ================== 第一阶段：元数据广播 ==================
			
 
				+    if rank == 0:
			
 
				+        # 将 group_ids 序列化为字节流
			
 
				+        group_bytes = pickle.dumps(group_ids)
			
 
				+        # 转换为张量用于分块传输
			
 
				+        group_tensor = torch.frombuffer(bytearray(group_bytes), dtype=torch.uint8).to(device)
			
 
				+        # 处理其他数据
			
 
				+        seq_tensor = torch.stack(sequences, dim=0).to(device)    # shape [N, 2, 452, 25]
			
 
				+        tgt_tensor = torch.stack(targets, dim=0).to(device)      # shape [N, 1]
			
 
				+
			
 
				+        meta_data = {
			
 
				+            # sequences/targets 元数据
			
 
				+            'seq_shape': seq_tensor.shape,
			
 
				+            'tgt_shape': tgt_tensor.shape,
			
 
				+            'seq_dtype': str(seq_tensor.dtype).replace('torch.', ''),   # 关键修改点
			
 
				+            'tgt_dtype': str(tgt_tensor.dtype).replace('torch.', ''),
			
 
				+            
			
 
				+            # group_ids 元数据
			
 
				+            'group_shape': group_tensor.shape,
			
 
				+            'group_bytes_len': len(group_bytes),
			
 
				+            'pickle_protocol': pickle.HIGHEST_PROTOCOL
			
 
				+        }
			
 
				+    else:
			
 
				+        meta_data = None
			
 
				+
			
 
				+    # 广播元数据（所有rank都需要）
			
 
				+    meta_data = broadcast(meta_data, src=0, rank=rank, device=device)
			
 
				+    
			
 
				+    # ================== 第二阶段：分块传输 ==================
			
 
				+    # 初始化接收缓冲区（所有Rank）
			
 
				+    if rank == 0:
			
 
				+        group_tensor = group_tensor
			
 
				+        seq_tensor = seq_tensor
			
 
				+        tgt_tensor = tgt_tensor
			
 
				+    else:
			
 
				+        seq_dtype = getattr(torch, meta_data['seq_dtype'])   # 例如 meta_data['seq_dtype'] = "float32"
			
 
				+        tgt_dtype = getattr(torch, meta_data['tgt_dtype'])
			
 
				+        
			
 
				+        group_tensor = torch.zeros(meta_data['group_shape'], dtype=torch.uint8, device=device)
			
 
				+        seq_tensor = torch.zeros(meta_data['seq_shape'], dtype=seq_dtype, device=device)
			
 
				+        tgt_tensor = torch.zeros(meta_data['tgt_shape'], dtype=tgt_dtype, device=device)
			
 
				+    
			
 
				+    # 并行传输所有数据（按传输量排序：先大后小）
			
 
				+    _chunked_broadcast(seq_tensor, src=0, rank=rank)     # 最大数据优先
			
 
				+    _chunked_broadcast(tgt_tensor, src=0, rank=rank)
			
 
				+    _chunked_broadcast(group_tensor, src=0, rank=rank)    # 最后传输group_ids
			
 
				+
			
 
				+    # ================== 第三阶段：数据重建 ==================
			
 
				+    # 重建 sequences 和 targets
			
 
				+    sequences_list = [seq.cpu().clone() for seq in seq_tensor]   # 自动按第0维切分
			
 
				+    targets_list = [tgt.cpu().clone() for tgt in tgt_tensor]
			
 
				+
			
 
				+    # 重建 group_ids（关键步骤）
			
 
				+    if rank == 0:
			
 
				+        # Rank0直接使用原始数据避免重复序列化
			
 
				+        group_ids_rebuilt = group_ids
			
 
				+    else:
			
 
				+        # 1. 提取有效字节（去除填充)
			
 
				+        group_bytes = bytes(group_tensor.cpu().numpy().tobytes()[:meta_data['group_bytes_len']])
			
 
				+        # 2. 反序列化
			
 
				+        try:
			
 
				+            group_ids_rebuilt = pickle.loads(group_bytes)
			
 
				+        except pickle.UnpicklingError as e:
			
 
				+            raise RuntimeError(f"反序列化 group_ids 失败: {str(e)}")
			
 
				+        
			
 
				+        # 3. 结构校验
			
 
				+        _validate_group_structure(group_ids_rebuilt)
			
 
				+
			
 
				+    return sequences_list, targets_list, group_ids_rebuilt
			
 
				+
			
 
				+def broadcast(data, src, rank, device):
			
 
				+    """安全地广播任意数据，确保张量在正确的设备上"""
			
 
				+    if rank == src:
			
 
				+        # 序列化数据
			
 
				+        data_bytes = pickle.dumps(data)
			
 
				+        data_size = torch.tensor([len(data_bytes)], dtype=torch.long, device=device)
			
 
				+        # 创建数据张量并移动到设备
			
 
				+        data_tensor = torch.frombuffer(bytearray(data_bytes), dtype=torch.uint8).to(device)
			
 
				+        # 先广播数据大小
			
 
				+        dist.broadcast(data_size, src=src)
			
 
				+        # 然后广播数据
			
 
				+        dist.broadcast(data_tensor, src=src)
			
 
				+        return data
			
 
				+    else:
			
 
				+        # 接收数据大小
			
 
				+        data_size = torch.tensor([0], dtype=torch.long, device=device)
			
 
				+        dist.broadcast(data_size, src=src)
			
 
				+        # 分配数据张量
			
 
				+        data_tensor = torch.empty(data_size.item(), dtype=torch.uint8, device=device)
			
 
				+        dist.broadcast(data_tensor, src=src)
			
 
				+        # 反序列化
			
 
				+        data = pickle.loads(data_tensor.cpu().numpy().tobytes())
			
 
				+        return data
			
 
				+    
			
 
				+def _chunked_broadcast(tensor, src, rank, chunk_size=1024*1024*128):    # chunk_size 单位是字节
			
 
				+    """分块广播张量优化通信效率"""
			
 
				+    # Step 1. 准备连续内存缓冲
			
 
				+    buffer = tensor.detach().contiguous()
			
 
				+    # Step 2. 计算字节数
			
 
				+    element_size = buffer.element_size()  # 每个元素的字节数（如 float32 是 4）
			
 
				+    total_elements = buffer.numel()
			
 
				+
			
 
				+    # 计算每个块最多包含多少元素（根据字节数换算）
			
 
				+    elements_per_chunk = chunk_size // element_size
			
 
				+    # 分块数量
			
 
				+    num_chunks = (total_elements + elements_per_chunk - 1) // elements_per_chunk
			
 
				+    
			
 
				+    # Step 4. 逐块广播
			
 
				+    for chunk_idx in range(num_chunks):
			
 
				+        # 计算当前块的字节范围
			
 
				+        start_element = chunk_idx * elements_per_chunk
			
 
				+        end_element = min((chunk_idx+1)*elements_per_chunk, total_elements)
			
 
				+        # Step 5. 从大张量中切出当前块
			
 
				+        chunk = buffer.view(-1).narrow(0, start_element, end_element - start_element)
			
 
				+        # Step 6. 执行广播
			
 
				+        dist.broadcast(chunk, src=src)
			
 
				+        # 说明: 虽然单个chunk是一维的, 但通过其内部的 1.严格的传输顺序 2.接收端的内存预分配 3.最终reshape操作 原始张量的形状得以完美恢复
			
 
				+
			
 
				+def _validate_group_structure(group_ids):
			
 
				+    """校验 group_ids 数据结构完整性"""
			
 
				+    assert isinstance(group_ids, list), "Group IDs 必须是列表"
			
 
				+    if len(group_ids) == 0:
			
 
				+        print("还原的 group_ids 长度为0")
			
 
				+        return
			
 
				+    
			
 
				+    sample = group_ids[0]
			
 
				+    assert isinstance(sample, tuple), "元素必须是元组"
			
 
				+    assert len(sample) == 9, "元组长度必须为9"
			
 
				+
			
 
				+def debug_print_shard_info(sequences, targets, group_ids, rank, local_rank, world_size):
			
 
				+    """分布式环境下按Rank顺序打印分片前5条样本"""
			
 
				+    # 同步所有进程
			
 
				+    if FLAG_Distributed:
			
 
				+        dist.barrier(device_ids=[local_rank])
			
 
				+
			
 
				+    # 按Rank顺序逐个打印（避免输出混杂）
			
 
				+    for r in range(world_size):
			
 
				+        if r == rank:
			
 
				+            print(f"\n=== Rank {rank}/{world_size} Data Shard Samples (showing first 5) ===")
			
 
				+            
			
 
				+            # 打印序列数据
			
 
				+            # print("[Sequences]")
			
 
				+            # for i, seq in enumerate(sequences[:5]):
			
 
				+            #     print(f"Sample {i}: {seq[:3]}...")  # 只显示前3元素示意
			
 
				+
			
 
				+            # 打印目标数据
			
 
				+            print("\n[Targets]")
			
 
				+            print(targets[:5])
			
 
				+
			
 
				+            # 打印Group ID分布
			
 
				+            print("\n[Group IDs]")
			
 
				+            # unique_gids = list(set(group_ids[:50]))  # 检查前50条的group分布
			
 
				+            print(f"First 5 GIDs: {group_ids[:5]}")
			
 
				+            
			
 
				+            # sys.stdout.flush()  # 确保立即输出
			
 
				 
			
 
				+        if FLAG_Distributed:
			
 
				+            dist.barrier(device_ids=[local_rank])  # 等待当前Rank打印完成
			
 
				 
			
 
				 
			
 
				 if __name__ == "__main__":
			
--- a/model.py
+++ b/model.py
@@ -0,0 +1,87 @@
 
				+import torch
			
 
				+import torch.nn as nn
			
 
				+
			
 
				+
			
 
				+# 分类模型 (Transformer) 
			
 
				+class PriceDropClassifiTransModel(nn.Module):
			
 
				+    def __init__(self, input_size, num_periods=2, hidden_size=128, num_layers=3, output_size=1, dropout=0.3, conv_out_channels=64, kernel_size=3, num_heads=8):
			
 
				+        super(PriceDropClassifiTransModel, self).__init__()
			
 
				+        self.hidden_size = hidden_size
			
 
				+        self.num_layers = num_layers
			
 
				+        self.num_periods = num_periods
			
 
				+
			
 
				+        # 卷积层
			
 
				+        self.conv1 = nn.Conv1d(
			
 
				+            in_channels=input_size * num_periods,
			
 
				+            out_channels=conv_out_channels,
			
 
				+            kernel_size=kernel_size,
			
 
				+            padding=kernel_size // 2,
			
 
				+            bias=False,
			
 
				+        )
			
 
				+        self.relu = nn.ReLU()
			
 
				+
			
 
				+        # Transformer Encoder
			
 
				+        self.transformer_layer = nn.TransformerEncoderLayer(
			
 
				+            d_model=conv_out_channels,
			
 
				+            # d_model=input_size * num_periods,   # 这里的d_model应为输入的特征数量, d_model能被num_heads整除
			
 
				+            nhead=num_heads,
			
 
				+            dim_feedforward=hidden_size,
			
 
				+            dropout=dropout
			
 
				+        )
			
 
				+        self.transformer_encoder = nn.TransformerEncoder(
			
 
				+            self.transformer_layer,
			
 
				+            num_layers=num_layers
			
 
				+        )
			
 
				+
			
 
				+        # 注意力机制
			
 
				+        self.attention_layer = nn.Sequential(
			
 
				+            nn.Linear(conv_out_channels, hidden_size),
			
 
				+            # nn.Linear(input_size * num_periods, hidden_size),
			
 
				+            # nn.Conv1d(conv_out_channels, hidden_size),
			
 
				+            # nn.Tanh(),
			
 
				+            nn.ReLU(),
			
 
				+            nn.Linear(hidden_size, 1)
			
 
				+        )
			
 
				+
			
 
				+        # 分类和回归输出层
			
 
				+        self.fc_classification = nn.Linear(conv_out_channels, 1)
			
 
				+
			
 
				+    def forward(self, x):
			
 
				+        """
			
 
				+        输入x的形状应为 [batch_size, num_periods, seq_length, input_size]
			
 
				+        """
			
 
				+        batch_size, num_periods, seq_length, input_size = x.size()
			
 
				+        # x = x[:,0,:,:].view(batch_size, 1, input_size, seq_length)
			
 
				+
			
 
				+        # 将输入转换为 [batch_size, num_periods * input_size, seq_length]
			
 
				+        x = x.permute(0, 1, 3, 2).contiguous()  # [batch_size, num_periods, input_size, seq_length]
			
 
				+        x = x.view(batch_size, num_periods * input_size, seq_length)  # [batch_size, num_periods * input_size, seq_length]
			
 
				+        # x = x.view(batch_size, 1 * input_size, seq_length)
			
 
				+
			
 
				+        # 经过卷积层和激活函数
			
 
				+        x = self.conv1(x)    # [batch_size, conv_out_channels, seq_length]
			
 
				+        x = self.relu(x)
			
 
				+
			
 
				+        # 转置以适应Transformer输入要求
			
 
				+        x = x.permute(2, 0, 1)  # [seq_length, batch_size, conv_out_channels（num_periods * input_size）]
			
 
				+
			
 
				+        # 经过Transformer编码器
			
 
				+        x = self.transformer_encoder(x)  # [seq_length, batch_size, conv_out_channels（num_periods * input_size）]
			
 
				+
			
 
				+        # 计算注意力
			
 
				+        attention_scores = self.attention_layer(x)  # [seq_length, batch_size, 1]
			
 
				+        attention_weights = torch.softmax(attention_scores, dim=0)  # [seq_length, batch_size, 1]
			
 
				+        # 对所有时间步进行加权求和
			
 
				+        context_vector = torch.sum(attention_weights * x, dim=0)  # [batch_size, conv_out_channels（num_periods * input_size）]
			
 
				+        
			
 
				+        # 取最后一个时间步的输出进行分类和回归
			
 
				+        # context_vector = x[-1, :, :]  # [batch_size, conv_out_channels（num_periods * input_size）]
			
 
				+
			
 
				+        # 分类和回归输出
			
 
				+        classification_output = torch.sigmoid(self.fc_classification(context_vector))  # [batch_size, 1]
			
 
				+        # 打印检查：输出范围
			
 
				+        # print(f"Before clamp: min: {classification_output.min().item()}, max: {classification_output.max().item()}")
			
 
				+        # 将输出值限制在 [0.0001, 0.9999] 范围内，以避免数值极端
			
 
				+        # classification_output = torch.clamp(classification_output, min=1e-4, max=1 - 1e-4)
			
 
				+        
			
 
				+        return classification_output
			
--- a/simhei.ttf
+++ b/simhei.ttf
--- a/train.py
+++ b/train.py
@@ -0,0 +1,443 @@
 
				+import gc
			
 
				+import os
			
 
				+import torch
			
 
				+import torch.nn as nn
			
 
				+import torch.distributed as dist
			
 
				+from torch.utils.data import DataLoader, DistributedSampler
			
 
				+from sklearn.model_selection import train_test_split
			
 
				+from imblearn.over_sampling import SMOTE, RandomOverSampler
			
 
				+from collections import Counter
			
 
				+from evaluate import evaluate_model_distribute
			
 
				+from utils import FlightDataset, EarlyStoppingDist  # EarlyStopping, train_process, train_process_distribute, CombinedLoss
			
 
				+import numpy as np
			
 
				+import matplotlib.pyplot as plt
			
 
				+import font
			
 
				+import config
			
 
				+import redis
			
 
				+import time
			
 
				+
			
 
				+
			
 
				+# 智能分层划分函数
			
 
				+def safe_train_test_split(*arrays, test_size=0.2, random_state=None, stratify=None, rank=0, local_rank=0):
			
 
				+    if stratify is not None:
			
 
				+        counts = Counter(stratify)
			
 
				+        min_count = min(counts.values()) if counts else 0
			
 
				+        if min_count < 2:
			
 
				+            if local_rank == 0:
			
 
				+                print(f"Rank:{rank}, Local Rank:{local_rank}, 安全分层：检测到最小类别样本数={min_count}，禁用分层")
			
 
				+            stratify = None
			
 
				+    
			
 
				+    return train_test_split(
			
 
				+        *arrays,
			
 
				+        test_size=test_size,
			
 
				+        random_state=random_state,
			
 
				+        stratify=stratify
			
 
				+    )
			
 
				+
			
 
				+
			
 
				+# 分布式数据集准备
			
 
				+def prepare_data_distribute(sequences, targets, group_ids, flag_distributed=False, rank=0, local_rank=0, world_size=1):
			
 
				+    if len(sequences) == 0 or len(targets) == 0:
			
 
				+        print(f"Rank:{rank}, 没有足够的数据参与训练。")
			
 
				+        return False, None, None, None
			
 
				+    
			
 
				+    targets_array = np.array([t[0].item() if isinstance(t[0], torch.Tensor) else t[0] for t in targets])
			
 
				+    unique_classes, class_counts = np.unique(targets_array, return_counts=True)
			
 
				+    if len(unique_classes) == 1:
			
 
				+        print(f"Rank:{rank}, 警告：目标变量只有一个类别，无法参与训练。")
			
 
				+        return False, None, None, None
			
 
				+    
			
 
				+    # --- 高效过滤样本数 ≤ 1 的类别（浮点兼容版）---
			
 
				+    unique_classes, class_counts = np.unique(targets_array, return_counts=True)
			
 
				+    class_to_count = dict(zip(unique_classes, class_counts))
			
 
				+    valid_mask = np.array([class_to_count[cls] >= 2 for cls in targets_array])
			
 
				+
			
 
				+    if not np.any(valid_mask):
			
 
				+        print(f"Rank:{rank}, 警告：所有类别的样本数均 ≤ 1，无法分层拆分。")
			
 
				+        return False, None, None, None
			
 
				+
			
 
				+    # 一次性筛选数据（兼容列表/Tensor/Array）
			
 
				+    sequences_filtered = [seq for i, seq in enumerate(sequences) if valid_mask[i]]
			
 
				+    targets_filtered = [t for i, t in enumerate(targets) if valid_mask[i]]
			
 
				+    group_ids_filtered = [g for i, g in enumerate(group_ids) if valid_mask[i]]
			
 
				+    targets_array_filtered = targets_array[valid_mask]
			
 
				+
			
 
				+    # 第一步：将28样本拆分为训练集（80%）和临时集（20%）
			
 
				+    train_28, temp_28, train_28_targets, temp_28_targets, train_28_gids, temp_28_gids = safe_train_test_split(
			
 
				+        sequences_filtered, targets_filtered, group_ids_filtered,
			
 
				+        stratify=targets_array_filtered,
			
 
				+        test_size=0.2,
			
 
				+        random_state=42,
			
 
				+        rank=rank,
			
 
				+        local_rank=local_rank
			
 
				+    )
			
 
				+
			
 
				+    # 验证集与测试集全部引用临时集
			
 
				+    val_28 = temp_28
			
 
				+    test_28 = temp_28
			
 
				+    val_28_targets = temp_28_targets
			
 
				+    test_28_targets = temp_28_targets
			
 
				+    val_28_gids = temp_28_gids
			
 
				+    test_28_gids = temp_28_gids
			
 
				+
			
 
				+    # 合并训练集
			
 
				+    train_sequences = train_28
			
 
				+    train_targets = train_28_targets
			
 
				+    train_group_ids = train_28_gids
			
 
				+    
			
 
				+    # 合并验证集
			
 
				+    val_sequences = val_28 
			
 
				+    val_targets = val_28_targets 
			
 
				+    val_group_ids = val_28_gids
			
 
				+
			
 
				+    # 测试集
			
 
				+    test_sequences = test_28
			
 
				+    test_targets = test_28_targets
			
 
				+    test_group_ids = test_28_gids
			
 
				+
			
 
				+    if local_rank == 0:
			
 
				+        print(f"Rank:{rank}, Local Rank:{local_rank}, 批次训练集数量：{len(train_sequences)}")
			
 
				+        print(f"Rank:{rank}, Local Rank:{local_rank}, 批次验证集数量：{len(val_sequences)}")
			
 
				+        print(f"Rank:{rank}, Local Rank:{local_rank}, 批次测试集数量：{len(test_sequences)}")
			
 
				+
			
 
				+    train_sequences_tensors = [torch.tensor(seq, dtype=torch.float32) for seq in train_sequences]
			
 
				+    train_targets_tensors = [torch.tensor(target, dtype=torch.float32) for target in train_targets]
			
 
				+
			
 
				+    if local_rank == 0:
			
 
				+        # 打印检查
			
 
				+        print(f"Rank:{rank}, Local Rank:{local_rank}, train_targets_tensors[0].shape:{train_targets_tensors[0].shape}")  # 应该是 torch.Size([1])
			
 
				+        print(f"Rank:{rank}, Local Rank:{local_rank}, train_sequences_tensors[0].dtype:{train_sequences_tensors[0].dtype}")  # 应该是 torch.float32
			
 
				+        print(f"Rank:{rank}, Local Rank:{local_rank}, train_targets_tensors[0].dtype:{train_targets_tensors[0].dtype}")  # 应该是 torch.float32
			
 
				+
			
 
				+    train_single = {'sequences': train_sequences_tensors, 'targets': train_targets_tensors, 'group_ids': train_group_ids}
			
 
				+    val_single = {'sequences': val_sequences, 'targets': val_targets, 'group_ids': val_group_ids}
			
 
				+    test_single = {'sequences': test_sequences, 'targets': test_targets, 'group_ids': test_group_ids}    
			
 
				+
			
 
				+    def _redis_barrier(redis_client, barrier_key, world_size, timeout=3600, poll_interval=1):
			
 
				+        # 每个 rank 到达 barrier 时，将计数加 1
			
 
				+        redis_client.incr(barrier_key)
			
 
				+        
			
 
				+        start_time = time.time()
			
 
				+        while True:
			
 
				+            count = redis_client.get(barrier_key)
			
 
				+            count = int(count) if count else 0
			
 
				+            if count >= world_size:
			
 
				+                break
			
 
				+            if time.time() - start_time > timeout:
			
 
				+                raise TimeoutError("等待 barrier 超时")
			
 
				+            time.sleep(poll_interval)
			
 
				+
			
 
				+    # 等待其他进程生成数据，并同步
			
 
				+    if flag_distributed:
			
 
				+        redis_client = redis.Redis(host='192.168.20.222', port=6379, db=0)
			
 
				+        barrier_key = 'distributed_barrier_11'
			
 
				+
			
 
				+        # 等待所有进程都到达 barrier
			
 
				+        _redis_barrier(redis_client, barrier_key, world_size)
			
 
				+
			
 
				+    return True, train_single, val_single, test_single
			
 
				+
			
 
				+# 分布式训练
			
 
				+def train_model_distribute(train_sequences, train_targets, train_group_ids, val_sequences, val_targets, val_group_ids,
			
 
				+                           model, criterion, optimizer, device, num_epochs=200, batch_size=16, target_scaler=None,
			
 
				+                           flag_distributed=False, rank=0, local_rank=0, world_size=1, output_dir='.',
			
 
				+                           photo_dir='.', batch_idx=-1, batch_flight_routes=None, patience=20, delta=0.01
			
 
				+                           ):
			
 
				+    
			
 
				+    # 统计正负样本数量
			
 
				+    all_targets = torch.cat(train_targets)   # 将所有目标值拼接成一个张量
			
 
				+    positive_count = torch.sum(all_targets == 1).item()
			
 
				+    negative_count = torch.sum(all_targets == 0).item()
			
 
				+    total_samples = len(all_targets)
			
 
				+
			
 
				+    # 计算比例
			
 
				+    positive_ratio = positive_count / total_samples
			
 
				+    negative_ratio = negative_count / total_samples
			
 
				+
			
 
				+    if local_rank == 0:
			
 
				+        # 打印检查
			
 
				+        print(f"Rank:{rank}, Local Rank:{local_rank}, 汇总训练集数量：{len(train_sequences)}")
			
 
				+        print(f"Rank:{rank}, Local Rank:{local_rank}, 汇总训练集目标数量：{len(train_targets)}")
			
 
				+        print(f"Rank:{rank}, Local Rank:{local_rank}, 汇总验证集数量：{len(val_sequences)}")
			
 
				+        print(f"Rank:{rank}, Local Rank:{local_rank}, 汇总验证集目标数量：{len(val_targets)}")
			
 
				+
			
 
				+        # 打印正负样本统计
			
 
				+        print(f"Rank:{rank}, Local Rank:{local_rank}, 训练集总样本数: {total_samples}")
			
 
				+        print(f"Rank:{rank}, Local Rank:{local_rank}, 训练集正样本数: {positive_count} ({positive_ratio*100:.2f}%)")
			
 
				+        print(f"Rank:{rank}, Local Rank:{local_rank}, 训练集负样本数: {negative_count} ({negative_ratio*100:.2f}%)")
			
 
				+
			
 
				+    # 计算并打印推荐的 pos_weight
			
 
				+    if positive_count > 0:
			
 
				+        recommended_pos_weight = negative_count / positive_count
			
 
				+        if local_rank == 0:
			
 
				+            print(f"Rank:{rank}, Local Rank:{local_rank}, 推荐的 pos_weight: {recommended_pos_weight:.2f}")
			
 
				+    else:
			
 
				+        recommended_pos_weight = 1.0
			
 
				+        if local_rank == 0:
			
 
				+            print(f"Rank:{rank}, Local Rank:{local_rank}, 警告: 没有正样本!")
			
 
				+
			
 
				+    train_dataset = FlightDataset(train_sequences, train_targets)
			
 
				+    val_dataset = FlightDataset(val_sequences, val_targets, val_group_ids)
			
 
				+    # test_dataset = FlightDataset(test_sequences, test_targets, test_group_ids)
			
 
				+
			
 
				+    del train_sequences
			
 
				+    del train_targets
			
 
				+    del train_group_ids
			
 
				+    del val_sequences
			
 
				+    del val_targets
			
 
				+    del val_group_ids
			
 
				+    gc.collect()
			
 
				+
			
 
				+    if flag_distributed:
			
 
				+        sampler_train = DistributedSampler(train_dataset, shuffle=True)  # 分布式采样器
			
 
				+        sampler_val = DistributedSampler(val_dataset, shuffle=False)
			
 
				+        
			
 
				+        train_loader = DataLoader(train_dataset, batch_size=batch_size, sampler=sampler_train)
			
 
				+        val_loader = DataLoader(val_dataset, batch_size=batch_size,  sampler=sampler_val)
			
 
				+    else:
			
 
				+        train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
			
 
				+        val_loader = DataLoader(val_dataset, batch_size=batch_size)
			
 
				+
			
 
				+    if local_rank == 0:
			
 
				+        print(f"Rank:{rank}, Local Rank:{local_rank}, train_dataset 0 0 {train_dataset[0][0].shape}")  # 特征尺寸
			
 
				+        print(f"Rank:{rank}, Local Rank:{local_rank}, train_dataset 0 1 {train_dataset[0][1].shape}")  # 目标尺寸
			
 
				+
			
 
				+    pos_weight_value = recommended_pos_weight  # 从上面的计算中获取
			
 
				+    # 创建带权重的损失函数
			
 
				+    criterion = nn.BCEWithLogitsLoss(pos_weight=torch.tensor([pos_weight_value])).to(device)
			
 
				+
			
 
				+    early_stopping = EarlyStoppingDist(patience=patience, verbose=True, delta=delta, path=os.path.join(output_dir, f'best_model_as_{batch_idx}.pth'),
			
 
				+                                       rank=rank, local_rank=local_rank)
			
 
				+    
			
 
				+    # 分布式训练模型
			
 
				+    train_losses, val_losses = train_process_distribute(
			
 
				+        model, optimizer, early_stopping, train_loader, val_loader, device, num_epochs=num_epochs, criterion=criterion,
			
 
				+        flag_distributed=flag_distributed, rank=rank, local_rank=local_rank, loss_call_label="val")
			
 
				+    
			
 
				+    if rank == 0:
			
 
				+        font_prop = font.font_prop
			
 
				+
			
 
				+        # 绘制损失曲线（可选）
			
 
				+        plt.figure(figsize=(10, 6))
			
 
				+        epochs = range(1, len(train_losses) + 1)
			
 
				+        plt.plot(epochs, train_losses, 'b-', label='训练集损失')
			
 
				+        plt.plot(epochs, val_losses, 'r-', label='验证集损失')
			
 
				+        plt.title('训练和验证集损失曲线', fontproperties=font_prop)
			
 
				+        plt.xlabel('Epochs', fontproperties=font_prop)
			
 
				+        plt.ylabel('Loss', fontproperties=font_prop)
			
 
				+        plt.legend(prop=font_prop)
			
 
				+        plt.savefig(os.path.join(photo_dir, f"train_loss_batch_{batch_idx}.png"))
			
 
				+
			
 
				+    # 训练结束后加载最佳模型参数
			
 
				+    best_model_path = os.path.join(output_dir, f'best_model_as_{batch_idx}.pth')
			
 
				+
			
 
				+    # 确保所有进程都看到相同的文件系统状态
			
 
				+    if flag_distributed:
			
 
				+        dist.barrier()
			
 
				+    
			
 
				+    # 创建用于广播的列表（只有一个元素）
			
 
				+    checkpoint_list = [None]
			
 
				+
			
 
				+    if rank == 0:
			
 
				+        if os.path.exists(best_model_path):
			
 
				+            print(f"Rank 0: batch_idx:{batch_idx} Loading best model from {best_model_path}")
			
 
				+            # 直接加载到 CPU，避免设备不一致问题
			
 
				+            checkpoint_list[0] = torch.load(best_model_path, map_location='cpu')
			
 
				+        else:
			
 
				+            print(f"Rank 0: batch_idx:{batch_idx} Warning - Best model not found at {best_model_path}")
			
 
				+            # 使用当前模型状态（确保在 CPU 上）
			
 
				+            if flag_distributed:
			
 
				+                checkpoint_list[0] = model.module.cpu().state_dict()
			
 
				+            else:
			
 
				+                checkpoint_list[0] = model.cpu().state_dict()
			
 
				+
			
 
				+    # 广播模型状态字典
			
 
				+    if flag_distributed:
			
 
				+        dist.broadcast_object_list(checkpoint_list, src=0)
			
 
				+
			
 
				+    # 所有进程获取广播后的状态字典
			
 
				+    checkpoint = checkpoint_list[0]
			
 
				+
			
 
				+    # 加载模型状态
			
 
				+    if flag_distributed:
			
 
				+        model.module.load_state_dict(checkpoint)
			
 
				+    else:
			
 
				+        model.load_state_dict(checkpoint)
			
 
				+    
			
 
				+    # 确保所有进程完成加载
			
 
				+    if flag_distributed:
			
 
				+        dist.barrier()
			
 
				+
			
 
				+    if flag_distributed:
			
 
				+        # 调用评估函数
			
 
				+        evaluate_model_distribute(
			
 
				+            model.module,       # 使用 DDP 包裹前的原始模型
			
 
				+            device,
			
 
				+            None, None, None,
			
 
				+            test_loader=val_loader,  # 使用累积验证集 
			
 
				+            batch_flight_routes=batch_flight_routes, target_scaler=target_scaler,
			
 
				+            flag_distributed=flag_distributed,
			
 
				+            rank=rank, local_rank=local_rank, world_size=world_size, 
			
 
				+            output_dir=output_dir, batch_idx=batch_idx, save_mode='a'
			
 
				+        )
			
 
				+    else:
			
 
				+        evaluate_model_distribute(
			
 
				+            model,
			
 
				+            device,
			
 
				+            None, None, None,
			
 
				+            test_loader=val_loader,  # 使用累积验证集
			
 
				+            batch_flight_routes=batch_flight_routes, target_scaler=target_scaler,
			
 
				+            flag_distributed=False,
			
 
				+            output_dir=output_dir, batch_idx=batch_idx, save_mode='a'
			
 
				+        )
			
 
				+
			
 
				+    return model
			
 
				+
			
 
				+
			
 
				+def train_process_distribute(model, optimizer, early_stopping, train_loader, val_loader, device, num_epochs=200, criterion=None, save_file='best_model.pth',
			
 
				+                             flag_distributed=False, rank=0, local_rank=0, loss_call_label="train"):
			
 
				+    # 具体训练过程
			
 
				+    train_losses = []
			
 
				+    val_losses = []
			
 
				+    
			
 
				+    # 初始化损失为张量（兼容非分布式和分布式）
			
 
				+    # total_train_loss = torch.tensor(0.0, device=device)
			
 
				+    # total_val_loss = torch.tensor(0.0, device=device)
			
 
				+
			
 
				+    # 初始化 TensorBoard（只在主进程）
			
 
				+    # if rank == 0:
			
 
				+    #     writer = SummaryWriter(log_dir='runs/experiment_name')
			
 
				+    #     train_global_step = 0
			
 
				+    #     val_global_step = 0
			
 
				+    
			
 
				+    for epoch in range(num_epochs):
			
 
				+        # --- 训练阶段 ---
			
 
				+        model.train()
			
 
				+        if flag_distributed:
			
 
				+            train_loader.sampler.set_epoch(epoch)  # 确保每个进程一致地打乱顺序
			
 
				+
			
 
				+        # total_train_loss.zero_()   # 重置损失累计
			
 
				+        total_train_loss = torch.tensor(0.0, device=device)
			
 
				+        num_train_samples = torch.tensor(0, device=device)     # 当前进程的样本数
			
 
				+
			
 
				+        for batch_idx, batch in enumerate(train_loader):
			
 
				+            X_batch, y_batch = batch[:2]  # 假设 group_ids 不需要参与训练
			
 
				+            X_batch = X_batch.to(device)
			
 
				+            y_batch = y_batch.to(device)
			
 
				+            
			
 
				+            optimizer.zero_grad()
			
 
				+            outputs = model(X_batch)
			
 
				+            loss = criterion(outputs, y_batch)
			
 
				+            loss.backward()
			
 
				+
			
 
				+            # 打印
			
 
				+            # if rank == 0:
			
 
				+            #     # print_gradient_range(model)
			
 
				+            #     # 记录损失值
			
 
				+            #     writer.add_scalar('Loss/train_batch', loss.item(), train_global_step)
			
 
				+            #     # 记录元数据
			
 
				+            #     writer.add_scalar('Metadata/train_epoch', epoch, train_global_step)
			
 
				+            #     writer.add_scalar('Metadata/train_batch_in_epoch', batch_idx, train_global_step)
			
 
				+
			
 
				+            #     log_gradient_stats(model, writer, train_global_step, "train")
			
 
				+
			
 
				+            #     # 更新全局步数
			
 
				+            #     train_global_step += 1
			
 
				+
			
 
				+            # 梯度裁剪（已兼容 DDP）
			
 
				+            # torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
			
 
				+            optimizer.step()
			
 
				+            
			
 
				+            # 累计损失
			
 
				+            total_train_loss += loss.detach() * X_batch.size(0)   # detach() 保留张量形式以支持跨进程通信
			
 
				+            num_train_samples += X_batch.size(0)
			
 
				+        
			
 
				+        # --- 同步训练损失 ---
			
 
				+        if flag_distributed:
			
 
				+            # 会将所有进程的 total_train_loss 求和后, 同步到每个进程
			
 
				+            dist.all_reduce(total_train_loss, op=dist.ReduceOp.SUM)
			
 
				+            dist.all_reduce(num_train_samples, op=dist.ReduceOp.SUM)
			
 
				+
			
 
				+        # avg_train_loss = total_train_loss.item() / len(train_loader.dataset)
			
 
				+        avg_train_loss = total_train_loss.item() / num_train_samples.item()
			
 
				+        train_losses.append(avg_train_loss)
			
 
				+
			
 
				+        # --- 验证阶段 ---
			
 
				+        model.eval()
			
 
				+        # total_val_loss.zero_()  # 重置验证损失
			
 
				+        total_val_loss = torch.tensor(0.0, device=device)
			
 
				+        num_val_samples = torch.tensor(0, device=device)
			
 
				+
			
 
				+        with torch.no_grad():
			
 
				+            for batch_idx, batch in enumerate(val_loader):
			
 
				+                X_val, y_val = batch[:2]
			
 
				+                X_val = X_val.to(device)
			
 
				+                y_val = y_val.to(device)
			
 
				+                
			
 
				+                outputs = model(X_val)
			
 
				+                val_loss = criterion(outputs, y_val)
			
 
				+                total_val_loss += val_loss.detach() * X_val.size(0)
			
 
				+                num_val_samples += X_val.size(0)
			
 
				+
			
 
				+                # if rank == 0:
			
 
				+                #     # 记录验证集batch loss
			
 
				+                #     writer.add_scalar('Loss/val_batch', val_loss.item(), val_global_step)
			
 
				+                #     # 记录验证集元数据
			
 
				+                #     writer.add_scalar('Metadata/val_epoch', epoch, val_global_step)
			
 
				+                #     writer.add_scalar('Metadata/val_batch_in_epoch', batch_idx, val_global_step)
			
 
				+
			
 
				+                #     # 更新验证集全局步数
			
 
				+                #     val_global_step += 1
			
 
				+
			
 
				+                # if local_rank == 0:
			
 
				+                #     print(f"rank:{rank}, outputs:{outputs}")
			
 
				+                #     print(f"rank:{rank}, y_val:{y_val}")
			
 
				+                #     print(f"rank:{rank}, val_loss:{val_loss.detach()}")
			
 
				+                #     print(f"rank:{rank}, size:{X_val.size(0)}")
			
 
				+
			
 
				+        # --- 同步验证损失 ---
			
 
				+        if flag_distributed:
			
 
				+            dist.all_reduce(total_val_loss, op=dist.ReduceOp.SUM)
			
 
				+            dist.all_reduce(num_val_samples, op=dist.ReduceOp.SUM)
			
 
				+
			
 
				+        # avg_val_loss = total_val_loss.item() / len(val_loader.dataset)
			
 
				+        avg_val_loss = total_val_loss.item() / num_val_samples.item()
			
 
				+        val_losses.append(avg_val_loss)
			
 
				+
			
 
				+        # if rank == 0:
			
 
				+        #     # 记录epoch平均损失
			
 
				+        #     writer.add_scalar('Loss/train_epoch_avg', avg_train_loss, epoch)
			
 
				+        #     writer.add_scalar('Loss/val_epoch_avg', avg_val_loss, epoch)
			
 
				+
			
 
				+        if local_rank == 0:
			
 
				+            print(f"Rank:{rank}, Epoch {epoch+1}/{num_epochs}, 训练集损失: {avg_train_loss:.4f}, 验证集损失: {avg_val_loss:.4f}")
			
 
				+
			
 
				+        # --- 早停与保存逻辑（仅在 rank 0 执行）---
			
 
				+        if rank == 0:
			
 
				+            
			
 
				+            # 模型保存兼容分布式和非分布式
			
 
				+            model_to_save = model.module if flag_distributed else model   # 当使用 model = DDP(model) 封装后，原始模型会被包裹在 model.module 属性
			
 
				+            if loss_call_label == "train":
			
 
				+                early_stopping(avg_train_loss, model_to_save)  # 平均训练集损失 
			
 
				+            else:
			
 
				+                early_stopping(avg_val_loss, model_to_save)   # 平均验证集损失
			
 
				+            
			
 
				+            if early_stopping.early_stop:
			
 
				+                print(f"Rank:{rank}, 早停触发，停止训练 at epoch {epoch}")
			
 
				+                # 非分布式模式下直接退出循环
			
 
				+                if not flag_distributed:
			
 
				+                    break
			
 
				+
			
 
				+        # --- 同步早停状态（仅分布式需要）---
			
 
				+        if flag_distributed:
			
 
				+            # 将早停标志转换为张量广播
			
 
				+            early_stop_flag = torch.tensor([early_stopping.early_stop], device=device)
			
 
				+            dist.broadcast(early_stop_flag, src=0)
			
 
				+            if early_stop_flag.item():   # item()取张量的布尔值
			
 
				+                break
			
 
				+        # else:
			
 
				+        #     # 非分布式模式下，直接检查早停标志
			
 
				+        #     if early_stopping.early_stop:
			
 
				+        #         break
			
 
				+
			
 
				+    return train_losses, val_losses
			
--- a/utils.py
+++ b/utils.py
@@ -1,5 +1,7 @@
 
				+import gc
			
 
				+import time
			
 
				 import torch
			
 
				-
			
 
				+from torch.utils.data import Dataset
			
 
				 
			
 
				 # 航线列表分组切片并带上索引
			
 
				 def chunk_list_with_index(lst, group_size):
			
@@ -27,6 +29,9 @@ def insert_df_col(df, insert_col_name, base_col_name, inplace=True):
 
				 
			
 
				 # 真正创建序列过程
			
 
				 def create_fixed_length_sequences(df, features, target_vars, input_length=452, is_train=True):
			
 
				+    print(">>开始创建序列")
			
 
				+    start_time = time.time()
			
 
				+
			
 
				     sequences = []
			
 
				     targets = []
			
 
				     group_ids = []
			
@@ -77,7 +82,94 @@ def create_fixed_length_sequences(df, features, target_vars, input_length=452, i
 
				                            str(last_row['Hours_Until_Departure']), 
			
 
				                            str(last_row['update_hour'])])
			
 
				             group_ids.append(tuple(name_c))
			
 
				-            pass
			
 
				+        
			
 
				+        del df_group_bag_30_filtered, df_group_bag_20_filtered
			
 
				+        del df_group_bag_30, df_group_bag_20
			
 
				+        del df_group
			
 
				+
			
 
				+    gc.collect()
			
 
				+    print(">>结束创建序列")
			
 
				+    end_time = time.time()
			
 
				+    run_time = round(end_time - start_time, 3)
			
 
				+    print(f"用时: {run_time} 秒")
			
 
				+    print(f"生成的序列数量：{len(sequences)}")
			
 
				+    
			
 
				+    return sequences, targets, group_ids
			
 
				+
			
 
				+
			
 
				+class FlightDataset(Dataset):
			
 
				+    def __init__(self, X_sequences, y_sequences=None, group_ids=None):
			
 
				+        self.X_sequences = X_sequences
			
 
				+        self.y_sequences = y_sequences
			
 
				+        self.group_ids = group_ids
			
 
				+        self.return_group_ids = group_ids is not None
			
 
				+
			
 
				+    def __len__(self):
			
 
				+        return len(self.X_sequences)
			
 
				+
			
 
				+    def __getitem__(self, idx):
			
 
				+        if self.return_group_ids:
			
 
				+            if self.y_sequences:
			
 
				+                return self.X_sequences[idx], self.y_sequences[idx], self.group_ids[idx]
			
 
				+            else:
			
 
				+                return self.X_sequences[idx], self.group_ids[idx]
			
 
				+        else:
			
 
				+            if self.y_sequences:
			
 
				+                return self.X_sequences[idx], self.y_sequences[idx]
			
 
				+            else:
			
 
				+                return self.X_sequences[idx]
			
 
				+
			
 
				+
			
 
				+class EarlyStoppingDist:
			
 
				+    """早停机制(分布式)"""
			
 
				+    def __init__(self, patience=10, verbose=False, delta=0, path='best_model.pth', rank=0, local_rank=0):
			
 
				+        """
			
 
				+        Args:
			
 
				+            patience (int): 在训练集(或验证集)损失不再改善时，等待多少个epoch后停止训练
			
 
				+            verbose (bool): 是否打印相关信息
			
 
				+            delta (float): 训练集损失需要减少的最小变化量
			
 
				+            path (str): 保存最佳模型的路径
			
 
				+        """
			
 
				+        self.patience = patience
			
 
				+        self.verbose = verbose
			
 
				+        self.delta = delta
			
 
				+        self.path = path
			
 
				+        self.counter = 0
			
 
				+        self.best_loss = None
			
 
				+        self.early_stop = False
			
 
				+        self.rank = rank
			
 
				+        self.local_rank = local_rank
			
 
				+
			
 
				+    def __call__(self, loss, model):
			
 
				+        if self.best_loss is None:
			
 
				+            self.best_loss = loss
			
 
				+            self.save_checkpoint(loss, model)
			
 
				+        elif loss > self.best_loss - self.delta:
			
 
				+            self.counter += 1
			
 
				+            if self.verbose and self.rank == 0:
			
 
				+                print(f'Rank:{self.rank}, Local Rank:{self.local_rank}, EarlyStopping counter: {self.counter} out of {self.patience}')
			
 
				+            if self.counter >= self.patience:
			
 
				+                self.early_stop = True
			
 
				+        else:
			
 
				+            self.save_checkpoint(loss, model)
			
 
				+            self.best_loss = loss
			
 
				+            self.counter = 0
			
 
				+            if self.is_nan(loss):
			
 
				+                self.counter += self.patience  # 立即触发早停
			
 
				+                self.early_stop = True
			
 
				+
			
 
				+    def is_nan(self, loss):
			
 
				+        """检查损失值是否为NaN（通用方法）"""
			
 
				+        try:
			
 
				+            # 所有NaN类型都不等于自身
			
 
				+            return loss != loss
			
 
				+        except Exception:
			
 
				+            # 处理不支持比较的类型
			
 
				+            return False
			
 
				+
			
 
				+    def save_checkpoint(self, loss, model):
			
 
				+        """保存模型"""
			
 
				+        if self.verbose and self.rank == 0:
			
 
				+            print(f'Rank:{self.rank}, Local Rank:{self.local_rank}, Loss decreased ({self.best_loss:.6f} --> {loss:.6f}).  Saving model ...')
			
 
				+            torch.save(model.state_dict(), self.path)
			
 
				 
			
 
				-        pass
			
 
				-    pass