我们在使用大语言模型 (LLMs) 构建产品一年中的经验总结 (第一部分)

《我们在使用大语言模型 (LLMs) 构建产品一年中的经验总结 (第一部分) [译]》

文章主要分享了大语言模型核心组件的最佳实践，包括提示词设计、对 LLM 输出结果的评估，什么时候该用 RAG 还是微调等等。

一、提示词设计

二、信息检索/检索增强生成（RAG）

三、从提示工程到工作流

逐步多轮的工作流能显著提升效果将一大段复杂提示词分解为若干段短小提示词可以取得更好的效果，而多个短小提示词需要有工作流来支撑
优先采用确定性工作流工作流越确定越容易管理和控制
合理使用温度（temperature）参数如果希望 LLM 生成结果更加多样化，那么调高温度参数，如果希望更加确定性，则调低。
不要忘记缓存对于 LLM 生成的结果，可以缓存起来，下次有相同的请求可以重用节约成本。
微调有一些任务，即使是最巧妙设计的提示也无法胜任。例如，即使经过大量提示工程，我们的系统可能仍然无法返回可靠的高质量输出。如果是这样，那么可能有必要为特定任务微调模型。

如果决定微调，为了减少收集人工标注数据的成本，可以生成并在合成数据上进行微调，或在开源数据上引导。

四、评估与监控

基于实际输入输出样本编写单元测试收集实际应用的输入输出样本，用这些数据编写测试。由于 LLM 输出存在一定的开放性，可以用一些特殊的验证方式，比如字数、句子数在范围内，比如格式是否符合要求等。
用 LLM 评估 LLM 生成结果可行，但不是万能的。
“实习生测试” 把 LLM 当成大学实习生，如果这个任务实习生能完成，那么模型是不是也可以？如果实习生都不能完成，那么是不是应该简化拆分？
过分强调某些评估指标可能损害整体性能 “当一个衡量标准变成目标时，它就不再是一个好的衡量标准。”

其他还有几个评估与监控方法，不再总结，有兴趣请阅读原文。