标签:自我反思

华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」

近期研究围绕类 R1-Zero 的训练展开,聚焦于模型自我反思能力及响应长度变化的机制。研究表明,“顿悟时刻”并非如以往所认为出现在强化学习(RL)训练后,而是...

使用大模型进行股票预测,收益率16.6%,还会自我反思和给出合理解释

本文介绍了一种名为Summarize-Explain-Predict (SEP)的框架,该框架使用大型语言模型(LLMs)生成可解释的股票预测。SEP框架通过自我反思的代理和Proximal Po...