本研究提出了一种双视角NLG元评估框架,解决了传统方法中人类评级和相关性度量的模糊问题。通过对16种大型语言模型的实验,验证了该框架的有效性。
本文探讨了文本生成中的一致性、多样性和创造性问题,提出了结合预训练语言模型和强化学习的新方法。研究表明,混合红狐人工蜂鸟算法和改进注意机制能提升文本生成质量。文献回顾分析了文本生成的任务、评估和挑战,指出九个主要挑战并提供解决方案。最新研究强调可控文本生成技术在提升安全性和风格丰富性方面的重要性。
本文探究了自然语言生成(NLG)评估中自动化评估方法的局限性,并提出了一种新型评价方法,实验证明这些方法不能完全反映人的判断,但仍可支持系统开发。
该论文提出了改进神经网络鲁棒性评估的方法,并探讨了恶意内容生成的威胁模型。通过演示,揭示了在缺乏最佳实践的情况下高估新方法鲁棒性的易发性。
本文提出了一种新框架,用于评估语言模型和人类评判者的偏见。结果显示人类和语言模型评判者都容易受到扰动,并存在偏见。作者呼吁社区意识到评估系统的脆弱性,并开发健壮的评估系统。
完成下面两步后,将自动完成登录并继续当前操作。