本文最初发表于 QBox 的博客,发布于 Cyara 收购 QBox 之前。 了解更多关于 Cyara + QBox 的信息。
无论您是刚开始构建聊天机器人模型,还是正在训练模型以优化性能,确保模型中每个意图的语句数量大致相同都至关重要。平衡的意图意味着平衡的模型,这将提高检测和返回正确意图的准确性。
Cyara 的对话式 AI 优化平台使您能够在整个聊天机器人开发生命周期中重新获得可见性和控制力。
如果你的聊天机器人模型中,有些意图包含的话语很少,而有些意图包含 智利电报号码数据 的话语却很多,这种严重的不平衡会导致分类器做出非常有偏见的决策,因为它们往往会被这些话语数量较多的意图所吸引;我们称之为“贪婪意图”。结果,较小的意图会因为与话语数量较多的意图竞争而导致性能下降。
拥有平衡的聊天机器人模型的重要性
我们发现许多客户的聊天机器人模型非常不平衡 - 他们的许多意图包含少于 10 条语句,而有些意图包含 200 多个语句,这通常是导致性能不佳的原因之一(并且不平衡往往是自然发生的而不是故意的,因此持续监控模型以发现任何不平衡的迹象非常重要)。然而,我们明白在现实世界中每个意图并不总是能有相同数量的语句。因此,我们通常建议我们的客户尝试确保所有意图都有相同的数量范围,例如每个意图 30 到 80 条语句之间可能是一个很好的最佳范围。如果他们确实有奇怪的意图,其语句数量远远超过范围,我们会问 -有必要拥有那么多数据吗?
我们通常会发现意图中有很多语句几乎完全相同,只有一两个词的差异——这些语句对模型的学习价值不大,因此我们建议删除大量类似的语句。此外,我们还发现一些意图过大,试图涵盖的内容过多。我们建议尽可能将它们划分为子类别,以创建更小、更易于管理的意图。