本研究提出了一种基于问答的生成模型,旨在减轻正式邮件回复的时间和认知负担。用户通过回答简短问题,可以更高效地回复邮件,同时保持邮件质量,促进人工智能在沟通中的应用。
本研究提出了一种新颖的词级对抗策略QA-Attack,通过同义词替换来误导问答模型,显著提高了对抗攻击的成功率。
本文探讨了多个问答数据集的创建与研究,分析了个性化、主观性及偏见对问答模型的影响。研究发现,性别和种族等偏见普遍存在于模型中,影响其性能。提出了新的问答模型和任务,旨在提升模型的泛化能力和准确性,特别是在金融领域的应用。
本文介绍了TransferQA,一个结合抽取式和多选式问答的生成式模型,提升了零样本对话状态跟踪的性能。通过负面问题抽样和上下文截断等方法,实验证明在MultiWOZ数据集上显著改善了分类和非分类插槽的处理能力,展现了更好的泛化能力。
该研究提出了一种基于扰动的主动学习策略,旨在以更低的注释成本建立高效的问答模型。通过训练神经网络和模仿学习,研究了稀缺类别中的主动搜索问题,并提出新算法以减少标记数据,提高机器学习性能。该方法在多个基准数据集上表现出色,显著降低了计算资源需求。
本文提出了一个用于评估印度语问答模型的新基准IndicGenBench,以解决现有英语数据集翻译带来的偏差。研究评估了多种大型语言模型在该基准上的表现,发现PaLM-2模型在大多数任务中表现最佳,但与英语相比,所有语言仍存在显著差距,需进一步研究以提升多语言模型的性能。
通过实证评估发现,问答模型的分布稳健性受分布内性能影响,模型的变化不影响稳健性。零样本和上下文学习方法比完全微调的模型更稳健。少样本提示微调模型比少样本微调跨度预测模型更稳健。参数高效和稳健性增强的训练方法对稳健性没有显著改进。
本文研究了生物医学领域中问答模型存在的公平性问题,即由于患者人口统计信息而导致模型输出不合理的变化。研究发现,无关的人口统计信息最多会改变基于知识图谱的系统15%的答案和基于文本的系统23%的答案,包括影响准确性的变化。作者认为这种无理答案变化是一个常见现象,引起了公平性问题,需要更多关注。
本文研究了点击标题破坏的任务,分类了破坏类型并生成了适当的内容。在手动破坏的点击标题帖子语料库上进行了评估,结果显示分类器准确率达到80%,问答模型表现出色。
本文提出了一种基于主动学习的改变监测算法,利用问答模型和虚拟样例更新深度神经网络分类器,并通过对抗模型学习最具表征性、多样性和不确定性的虚拟实例。实验证明该算法性能更好。
完成下面两步后,将自动完成登录并继续当前操作。