songsenand
|
b1f78668dc
|
fix(model): 修正池化层输入源以确保正确计算特征向量
|
2026-02-24 00:52:50 +08:00 |
songsenand
|
be6b686bd1
|
refactor(model): 移除 encoder 的 padding_mask 参数调用
|
2026-02-24 00:48:54 +08:00 |
songsenand
|
63efc49aa6
|
feat(model): 添加训练完成通知功能,通过ServerChan发送微信消息
|
2026-02-24 00:10:25 +08:00 |
songsenand
|
019fa2d23d
|
feat(dataset): 优化拼音处理逻辑并增强代码注释
|
2026-02-23 22:40:39 +08:00 |
songsenand
|
a82279b02a
|
添加拼音丢弃率参数并根据该参数决定是否丢弃拼音
|
2026-02-22 15:36:06 +08:00 |
songsenand
|
398155721d
|
feat: 调整拼音输入数据集处理逻辑及模型结构参数
|
2026-02-22 15:19:59 +08:00 |
songsenand
|
350cab20c5
|
调整拼音分组及模型参数以优化性能
|
2026-02-22 13:00:02 +08:00 |
songsenand
|
5857c90be7
|
重构代码结构并优化注释格式
|
2026-02-22 12:16:22 +08:00 |
songsenand
|
3bb44f1d73
|
feat(model): 添加共享残差块并调整池化层输出维度
|
2026-02-22 11:02:01 +08:00 |
songsenand
|
96706abb93
|
feat(model): 修改池化层输出维度并添加线性变换层
|
2026-02-22 10:20:17 +08:00 |
songsenand
|
fc71124484
|
feat(suinput): 引入拼音分组配置并优化上下文采样逻辑
|
2026-02-22 09:30:39 +08:00 |
songsenand
|
2219f6530d
|
更新评估数据集样本文件
|
2026-02-21 22:02:53 +08:00 |
songsenand
|
51f9ddbc70
|
修复拼音组处理逻辑,避免未处理拼音导致的索引错误
|
2026-02-21 22:01:28 +08:00 |
songsenand
|
8f58917d13
|
调整拼音分组与采样逻辑,优化模型结构及专家路由策略
|
2026-02-21 21:55:55 +08:00 |
songsenand
|
917c9f4256
|
调整数据采样逻辑以提升模型训练效果
|
2026-02-21 00:56:08 +08:00 |
songsenand
|
17324ffa10
|
修复初始步骤损失计算逻辑
|
2026-02-20 23:30:35 +08:00 |
songsenand
|
4560a9ed06
|
移除 global_step 自增逻辑并调整至循环末尾
|
2026-02-20 23:28:35 +08:00 |
songsenand
|
558d7f9fc9
|
调整模型结构及参数以优化性能
|
2026-02-20 23:21:27 +08:00 |
songsenand
|
ae414bae6b
|
feat(trainer): 添加残差块以增强模型表达能力
|
2026-02-16 10:26:47 +08:00 |
songsenand
|
ab2dbc378b
|
修复损失权重计算逻辑,修正平方根次数以提升稳定性
|
2026-02-15 23:01:45 +08:00 |
songsenand
|
cd25349d90
|
删除旧的 MoE 模型文件
|
2026-02-15 21:51:17 +08:00 |
songsenand
|
0d529c0c89
|
调整损失权重计算并优化训练循环终止条件
|
2026-02-15 01:48:37 +08:00 |
songsenand
|
94b44e6f71
|
添加损失权重支持并重构部分模块结构
|
2026-02-15 01:06:52 +08:00 |
songsenand
|
515f261824
|
修复模型加载方法,使用正确的实例方法加载状态字典
|
2026-02-15 00:25:38 +08:00 |
songsenand
|
fd913748ca
|
调整残差块和分类头的 dropout 概率,并新增残差模块到 MoE 模型
|
2026-02-15 00:08:44 +08:00 |
songsenand
|
e91f823d65
|
feat: 优化模型输入处理与专家数量,增强训练与推理兼容性
|
2026-02-14 23:34:27 +08:00 |
songsenand
|
9fad2bf1d4
|
修复损失计算方式,使用NLLLoss替代原始criterion
|
2026-02-14 17:07:20 +08:00 |
songsenand
|
f89635b201
|
添加 package-data 配置以包含 trainer 和 suinput 模块的额外数据文件
|
2026-02-14 15:50:14 +08:00 |
songsenand
|
d60997438e
|
更新评估数据集样本文件
|
2026-02-14 15:42:50 +08:00 |
songsenand
|
b68f75b09d
|
修复 char_info.pinyin 访问方式,使用字典形式确保兼容性
|
2026-02-14 15:29:25 +08:00 |
songsenand
|
d2d65c7efa
|
调整导入顺序并修复pickle保存逻辑
|
2026-02-14 15:26:53 +08:00 |
songsenand
|
134c8a09cf
|
feat: 重构拼音输入数据集与 MoE 模型结构,优化专家网络配置及评估逻辑
|
2026-02-14 15:24:07 +08:00 |
songsenand
|
7eb00c6207
|
feat(model): 优化专家输出结构并添加专家偏置支持
|
2026-02-13 16:11:35 +08:00 |
songsenand
|
f4be47df78
|
feat(trainer): 使用 hidden_size 代替 d_model 计算输出维度并添加池化层
|
2026-02-13 15:05:53 +08:00 |
songsenand
|
d82c80f3a9
|
修复分类头输出维度,使用 d_model 替代 hidden_size
|
2026-02-13 14:19:57 +08:00 |
songsenand
|
6923870171
|
修复输出维度计算错误,使用 d_model 代替 input_dim
|
2026-02-13 14:15:25 +08:00 |
songsenand
|
0e3418798e
|
添加自定义学习率调度支持并优化默认优化器配置
|
2026-02-13 12:58:09 +08:00 |
songsenand
|
335540d8c2
|
调整学习率阈值并优化日志输出精度
|
2026-02-13 12:12:12 +08:00 |
songsenand
|
02f851205f
|
修复周期性评估时平均损失计算错误
|
2026-02-13 11:29:22 +08:00 |
songsenand
|
92b12ef703
|
调整数据集打乱缓冲区大小并优化样本处理逻辑
|
2026-02-13 11:05:42 +08:00 |
songsenand
|
54ac5af876
|
feat: 优化数据加载与训练逻辑,增加自定义学习率调度支持
|
2026-02-13 10:48:17 +08:00 |
songsenand
|
982d0521d5
|
添加日志记录和确保模型处于训练模式
|
2026-02-13 01:44:30 +08:00 |
songsenand
|
35e835f618
|
使用 hint 字段替代原始 input_ids 和 attention_mask 进行推理
|
2026-02-13 01:31:18 +08:00 |
songsenand
|
bb72b4542b
|
更新 Python 版本要求至 3.12
|
2026-02-13 01:14:06 +08:00 |
songsenand
|
c3c6f69532
|
feat: 优化数据加载器配置并新增模型评估与预测功能
|
2026-02-13 00:57:21 +08:00 |
songsenand
|
834872dc0b
|
feat: 添加数据集使用示例和模型训练模块
|
2026-02-12 00:13:09 +08:00 |
songsenand
|
5b1c6fcb2b
|
重构代码结构并优化拼音字符查询逻辑
|
2026-02-11 12:38:48 +08:00 |
songsenand
|
1cbb0b07c4
|
重构:将 suinput 模块文件移至 tmp_utils 目录
|
2026-02-11 10:13:06 +08:00 |
songsenand
|
ea54c7da39
|
调整拼音字符统计数据的键值顺序
|
2026-02-11 00:34:55 +08:00 |
songsenand
|
9b813732fd
|
优化打乱逻辑并提升数据处理效率
|
2026-02-09 23:53:11 +08:00 |