Spotify Engineering ·

建立信心：生成AI应用中信心评分创建的案例研究

💡 原文英文，约1900词，阅读约需7分钟。

📝

内容提要

本文探讨了金融自动化中生成信心评分的挑战与解决方案。通过比较三种方法，最终选择了与准确性高度相关的多数投票法。尽管实现简单，但需关注模型数量和投票权重等因素。文章还提到长文本字段的挑战及未来研究方向。

🎯

🔎

在金融自动化中，信心评分不仅影响决策的准确性，还关系到合规性要求。生成可靠的信心评分有助于建立对AI技术的信任，尤其是在处理复杂的发票解析任务时。企业需关注信心评分的生成方法，以确保其符合监管标准。

多数投票法被选为最佳方案，因其与准确性有强相关性。然而，实施时需考虑模型数量和投票权重等因素。过多相似模型可能导致收益递减，而模型多样性则有助于提高稳定性和准确性。

在长文本字段的信心评分生成中，多数投票法面临挑战。由于长文本的多样性，模型一致性较低，可能导致错误。因此，未来研究需探索更有效的解决方案，如将长文本拆分为更小的部分，以提高模型间的一致性。

❓

生成信心评分面临的挑战包括模型输出的信心分数难以解释、不一致性，以及需要满足人机协作和监管要求等问题。

多数投票法通过选择多个模型的共同响应来提高准确性，并且与模型的准确性有强正相关性，且相对一致和可解释。

信心评分的校准使用Platt缩放技术，以更好地与准确性对齐，调整原始信心分数以提高其可靠性。

长文本字段的挑战包括模型一致性较低，难以通过直接字符串匹配获得多数投票结果，且可能出现拼写差异导致的错误。

模型数量的选择需考虑任务复杂性、模型多样性和可用资源，通常建议使用四到七个模型以获得最佳效果。

对数概率法缺乏透明性，且与准确性之间没有明显的相关性，因此不能作为可靠的整体信心度量。

🏷️