Commit Graph

  • d88a68e421 feat(model): 添加 MoEModelWithNeck 类及注意力池化模块 main LearnableRoutingMoE songsenand 2026-02-28 09:42:13 +0800
  • 4031a668da feat(model): 添加 tensorboard 依赖并重构训练监控逻辑 songsenand 2026-02-26 23:03:47 +0800
  • 43c8349d51 fix(trainer): 移除固定总步数,使用实际停止批次计算 warmup 步数 songsenand 2026-02-26 14:36:25 +0800
  • 1178f87713 fix(dataset): 添加6%概率返回None以增强数据多样性 songsenand 2026-02-26 14:30:35 +0800
  • dfcce1f1ed feat(dataset): 调整拼音输入数据集的采样和处理逻辑以提升效果 songsenand 2026-02-26 14:13:50 +0800
  • 66c2f78dda fix(model): 移除梯度 NaN 检查,直接执行优化器步骤 songsenand 2026-02-26 01:19:17 +0800
  • b0a4ce9ac8 fix(model): 修正评估损失计算以避免除零错误 songsenand 2026-02-26 01:00:16 +0800
  • dc718cde5b fix(dataset): 添加 token_type_ids 到 collate 函数的 hint 字段 songsenand 2026-02-26 00:58:05 +0800
  • 7c90633ebc refactor(model): 使用注意力池化替换 span pooling 并支持 token_type_ids songsenand 2026-02-26 00:48:09 +0800
  • 93dced50c7 feat(model): 更新模型结构,使用 GELU 激活函数并优化专家网络参数 songsenand 2026-02-25 16:56:09 +0800
  • db90516fcf fix(encoder): 修复 encoder 调用时缺少 src_key_padding_mask 参数 songsenand 2026-02-24 01:05:57 +0800
  • b1f78668dc fix(model): 修正池化层输入源以确保正确计算特征向量 songsenand 2026-02-24 00:52:50 +0800
  • be6b686bd1 refactor(model): 移除 encoder 的 padding_mask 参数调用 songsenand 2026-02-24 00:48:54 +0800
  • 63efc49aa6 feat(model): 添加训练完成通知功能,通过ServerChan发送微信消息 songsenand 2026-02-24 00:10:25 +0800
  • 019fa2d23d feat(dataset): 优化拼音处理逻辑并增强代码注释 songsenand 2026-02-23 22:40:39 +0800
  • a82279b02a 添加拼音丢弃率参数并根据该参数决定是否丢弃拼音 songsenand 2026-02-22 15:36:06 +0800
  • 398155721d feat: 调整拼音输入数据集处理逻辑及模型结构参数 songsenand 2026-02-22 15:19:59 +0800
  • 350cab20c5 调整拼音分组及模型参数以优化性能 songsenand 2026-02-22 13:00:02 +0800
  • 5857c90be7 重构代码结构并优化注释格式 songsenand 2026-02-22 12:16:22 +0800
  • 3bb44f1d73 feat(model): 添加共享残差块并调整池化层输出维度 songsenand 2026-02-22 11:02:01 +0800
  • 96706abb93 feat(model): 修改池化层输出维度并添加线性变换层 songsenand 2026-02-22 10:20:17 +0800
  • fc71124484 feat(suinput): 引入拼音分组配置并优化上下文采样逻辑 songsenand 2026-02-22 09:30:39 +0800
  • 2219f6530d 更新评估数据集样本文件 songsenand 2026-02-21 22:02:53 +0800
  • 51f9ddbc70 修复拼音组处理逻辑,避免未处理拼音导致的索引错误 songsenand 2026-02-21 22:01:28 +0800
  • 8f58917d13 调整拼音分组与采样逻辑,优化模型结构及专家路由策略 songsenand 2026-02-21 21:55:55 +0800
  • 917c9f4256 调整数据采样逻辑以提升模型训练效果 songsenand 2026-02-21 00:56:08 +0800
  • 17324ffa10 修复初始步骤损失计算逻辑 songsenand 2026-02-20 23:30:35 +0800
  • 4560a9ed06 移除 global_step 自增逻辑并调整至循环末尾 songsenand 2026-02-20 23:28:35 +0800
  • 558d7f9fc9 调整模型结构及参数以优化性能 songsenand 2026-02-20 23:21:27 +0800
  • ae414bae6b feat(trainer): 添加残差块以增强模型表达能力 songsenand 2026-02-16 10:26:47 +0800
  • ab2dbc378b 修复损失权重计算逻辑,修正平方根次数以提升稳定性 songsenand 2026-02-15 23:01:45 +0800
  • cd25349d90 删除旧的 MoE 模型文件 songsenand 2026-02-15 21:51:17 +0800
  • 0d529c0c89 调整损失权重计算并优化训练循环终止条件 songsenand 2026-02-15 01:48:37 +0800
  • 94b44e6f71 添加损失权重支持并重构部分模块结构 songsenand 2026-02-15 01:06:52 +0800
  • 515f261824 修复模型加载方法,使用正确的实例方法加载状态字典 songsenand 2026-02-15 00:25:38 +0800
  • fd913748ca 调整残差块和分类头的 dropout 概率,并新增残差模块到 MoE 模型 songsenand 2026-02-15 00:08:44 +0800
  • e91f823d65 feat: 优化模型输入处理与专家数量,增强训练与推理兼容性 songsenand 2026-02-14 23:34:27 +0800
  • 9fad2bf1d4 修复损失计算方式,使用NLLLoss替代原始criterion songsenand 2026-02-14 17:07:20 +0800
  • f89635b201 添加 package-data 配置以包含 trainer 和 suinput 模块的额外数据文件 songsenand 2026-02-14 15:50:14 +0800
  • d60997438e 更新评估数据集样本文件 songsenand 2026-02-14 15:42:50 +0800
  • b68f75b09d 修复 char_info.pinyin 访问方式,使用字典形式确保兼容性 songsenand 2026-02-14 15:29:25 +0800
  • d2d65c7efa 调整导入顺序并修复pickle保存逻辑 songsenand 2026-02-14 15:26:53 +0800
  • 134c8a09cf feat: 重构拼音输入数据集与 MoE 模型结构,优化专家网络配置及评估逻辑 songsenand 2026-02-14 15:24:07 +0800
  • 7eb00c6207 feat(model): 优化专家输出结构并添加专家偏置支持 songsenand 2026-02-13 16:11:35 +0800
  • f4be47df78 feat(trainer): 使用 hidden_size 代替 d_model 计算输出维度并添加池化层 songsenand 2026-02-13 15:05:53 +0800
  • d82c80f3a9 修复分类头输出维度,使用 d_model 替代 hidden_size songsenand 2026-02-13 14:19:57 +0800
  • 6923870171 修复输出维度计算错误,使用 d_model 代替 input_dim songsenand 2026-02-13 14:15:25 +0800
  • 0e3418798e 添加自定义学习率调度支持并优化默认优化器配置 songsenand 2026-02-13 12:58:09 +0800
  • 335540d8c2 调整学习率阈值并优化日志输出精度 songsenand 2026-02-13 12:12:12 +0800
  • 02f851205f 修复周期性评估时平均损失计算错误 songsenand 2026-02-13 11:29:22 +0800
  • 92b12ef703 调整数据集打乱缓冲区大小并优化样本处理逻辑 songsenand 2026-02-13 11:05:42 +0800
  • 54ac5af876 feat: 优化数据加载与训练逻辑,增加自定义学习率调度支持 songsenand 2026-02-13 10:48:17 +0800
  • 982d0521d5 添加日志记录和确保模型处于训练模式 songsenand 2026-02-13 01:44:30 +0800
  • 35e835f618 使用 hint 字段替代原始 input_ids 和 attention_mask 进行推理 songsenand 2026-02-13 01:31:18 +0800
  • bb72b4542b 更新 Python 版本要求至 3.12 songsenand 2026-02-13 01:14:06 +0800
  • c3c6f69532 feat: 优化数据加载器配置并新增模型评估与预测功能 songsenand 2026-02-13 00:57:21 +0800
  • 834872dc0b feat: 添加数据集使用示例和模型训练模块 songsenand 2026-02-12 00:13:09 +0800
  • 5b1c6fcb2b 重构代码结构并优化拼音字符查询逻辑 songsenand 2026-02-11 12:38:48 +0800
  • 1cbb0b07c4 重构:将 suinput 模块文件移至 tmp_utils 目录 songsenand 2026-02-11 10:13:06 +0800
  • ea54c7da39 调整拼音字符统计数据的键值顺序 songsenand 2026-02-11 00:34:55 +0800
  • 9b813732fd 优化打乱逻辑并提升数据处理效率 songsenand 2026-02-09 23:53:11 +0800
  • 1bdbbe284c feat: 优化拼音获取逻辑,添加 pinyin_list 参数提升性能 songsenand 2026-02-09 10:53:27 +0800
  • f6c58ab4c6 调整数据加载器工作进程数以提高训练效率 songsenand 2026-02-09 01:18:17 +0800
  • f2c260de72 feat: 添加拼音输入法模拟数据集及相关功能实现 songsenand 2026-02-09 00:43:38 +0800
  • 5ea0b0b31c 新增拼音字符统计文件 songsenand 2026-02-02 07:18:17 +0800
  • c22313748c feat: 添加汉字拼音统计工具,支持多线程处理与多种格式导出 songsenand 2026-02-02 07:17:29 +0800
  • 395c02b913 Initial commit songsenand 2026-01-21 00:45:17 +0800