diff --git a/.README.md.kate-swp b/.README.md.kate-swp deleted file mode 100644 index d61619f..0000000 Binary files a/.README.md.kate-swp and /dev/null differ diff --git a/README.md b/README.md index 99c26c0..8549d90 100644 --- a/README.md +++ b/README.md @@ -92,8 +92,4 @@ - 注意力头数:4 - 专家数量:20 - 束宽:5 -- 学习率:待调(建议 1e-4 ~ 5e-4,带warmup) - ---- - -此方案结构完整,模块间接口清晰,可立即进入原型实现阶段。建议先在小规模数据上验证前向与训练流程,再逐步扩展至全量数据调优。 +- 学习率:待调(建议 1e-4 ~ 5e-4,带warmup)