SEER:一种用于上下文混合问答的背包法示例选择
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
RetICL是一种可学习的方法,用于模拟和最佳选择逐个该如何为in-context learning选择任务例子。它使用LSTM设计示例检索器模型,并使用PPO进行训练。在数学问题求解数据集上验证了RetICL,表明它优于启发式和可学习的基线,并在TabMWP数据集上实现了最先进的准确性。
🎯
关键要点
- 提出了RetICL,一种可学习的方法,用于选择in-context learning的任务例子。
- 将顺序示例选择问题视为马尔可夫决策过程,使用LSTM设计示例检索器模型。
- 使用PPO进行训练以优化示例选择。
- 在数学问题求解数据集上验证了RetICL,结果优于启发式和可学习的基线。
- 在TabMWP数据集上实现了最先进的准确性。
- 通过案例研究展示了RetICL隐含学习的数学问题求解策略的表示方式。
➡️