这种方法带来了显著的不良影响 通过并行处理任务我们在速度上取得了优势但这却以碎片化为代价。当与智能体的交互可能由不同的模型、提示词或工具管理时保持统一的用户体验变得极其具有挑战性。 为了解决这个问题我们采用了一个简单的组织结构: 一个小型“横向”工程小组负责处理公共组件并专注于整体体验。
这包括
各种支撑此产品的基础服务 评估测试工具 所有垂直领域使用的全局提示词模板(例如智能 澳大利亚电话号码数据 体的全局身份标识、对话历史、越狱攻击的防护等 客户端的共享组件(注:一般就是指按钮、下拉列表这些 一个服务器端驱动的框架用于发布新的更改而无需更改或发布客户端代码。
(注:因为在服务端那就需要有个在服务端生成的框架很麻烦的一个东西 多个“纵向”工程小组各自对其智能体拥有自主权例如: 个性化帖子摘要 岗位匹配度评估 面试技巧 那些东西对我们有用: 分而治之但限制智能体的数量 建立一个中心化的通过多轮对话支撑的评估过程 共享提示词模板(如“身份”定义、模板、工具及指令 . 评价输出好坏 评估我们回答的质量比预期的要困难得多。
这些挑战大致来自个方面:制定指南、扩展标注和自动评估。 制定指南:以岗位评估为例:点击“评估我是否适合这份工作”却得到“你非常不适合”的结果其实没啥用。我们希望它既具有事实性又充满同理心。有些用户可能正在考虑转行到他们目前并不十分适合的领域并需要帮助了解差距和下一步行动。