小红花·文摘

研究表明，大型语言模型的内部表征包含丰富的真实性信息，有助于提高错误检测能力。研究发现特定标记中集中的真实性信息，并指出内部编码与外部行为的差异，为未来的错误分析和改进提供了新方向。