songsenand
|
e91f823d65
|
feat: 优化模型输入处理与专家数量,增强训练与推理兼容性
|
2026-02-14 23:34:27 +08:00 |
songsenand
|
9fad2bf1d4
|
修复损失计算方式,使用NLLLoss替代原始criterion
|
2026-02-14 17:07:20 +08:00 |
songsenand
|
d60997438e
|
更新评估数据集样本文件
|
2026-02-14 15:42:50 +08:00 |
songsenand
|
134c8a09cf
|
feat: 重构拼音输入数据集与 MoE 模型结构,优化专家网络配置及评估逻辑
|
2026-02-14 15:24:07 +08:00 |
songsenand
|
7eb00c6207
|
feat(model): 优化专家输出结构并添加专家偏置支持
|
2026-02-13 16:11:35 +08:00 |
songsenand
|
f4be47df78
|
feat(trainer): 使用 hidden_size 代替 d_model 计算输出维度并添加池化层
|
2026-02-13 15:05:53 +08:00 |
songsenand
|
d82c80f3a9
|
修复分类头输出维度,使用 d_model 替代 hidden_size
|
2026-02-13 14:19:57 +08:00 |
songsenand
|
6923870171
|
修复输出维度计算错误,使用 d_model 代替 input_dim
|
2026-02-13 14:15:25 +08:00 |
songsenand
|
0e3418798e
|
添加自定义学习率调度支持并优化默认优化器配置
|
2026-02-13 12:58:09 +08:00 |
songsenand
|
335540d8c2
|
调整学习率阈值并优化日志输出精度
|
2026-02-13 12:12:12 +08:00 |
songsenand
|
02f851205f
|
修复周期性评估时平均损失计算错误
|
2026-02-13 11:29:22 +08:00 |
songsenand
|
54ac5af876
|
feat: 优化数据加载与训练逻辑,增加自定义学习率调度支持
|
2026-02-13 10:48:17 +08:00 |
songsenand
|
982d0521d5
|
添加日志记录和确保模型处于训练模式
|
2026-02-13 01:44:30 +08:00 |
songsenand
|
35e835f618
|
使用 hint 字段替代原始 input_ids 和 attention_mask 进行推理
|
2026-02-13 01:31:18 +08:00 |
songsenand
|
c3c6f69532
|
feat: 优化数据加载器配置并新增模型评估与预测功能
|
2026-02-13 00:57:21 +08:00 |
songsenand
|
834872dc0b
|
feat: 添加数据集使用示例和模型训练模块
|
2026-02-12 00:13:09 +08:00 |