训练/评估上的挑战:

系统提示:为在数据选择时标注合理的思考与答案格式,提示要求模型在回答问题前先在脑海中思考(生成在 <think> 标签中),再给出最终答案(在 <answer> 标签中);如有不确定的知识需检索,则使用 <|begin_of_query|><|end_of_query|> 标签包裹关键词。检索系统会返回 <|begin_of_documents|>……<|end_of_documents|> 中的文档供推理使用。