小红花·文摘

本文探讨了生成式大型语言模型（LLMs）的人工评估方法，提出了ConSiDERS-The-Human评估框架，涵盖一致性、评分标准等六个支柱。同时引入SECURE基准测试，评估LLMs在网络安全中的表现，并提出SciEval基准以解决数据泄露问题。最后，介绍了COGNET-MD工具包用于医学领域的评估，旨在提升LLMs的可靠性和实用性。

一个针对大型语言模型的 S.C.O.R.E. 评估框架：安全性，共识性，客观性，可重复性和可解释性

BriefGPT - AI 论文速递 ·

本文探讨了生成式大型语言模型（LLMs）在跨语言词汇适应、视觉-语言模型集成和语音合成等任务中的应用。研究表明，跨语言适应可提升推理速度，模型集成显著提高准确率，而LLMs作为文本编码器在语音合成中表现最佳。此外，集成技术与进化算法结合有助于提升生成文本质量。

跨越 LLM 集成中不同词汇之间的鸿沟

BriefGPT - AI 论文速递 ·

通过研究生成式大型语言模型在机器翻译中的性能，发现多语言模型在人工翻译输出方面表现类似人类水平。针对流行的语言模型作为机器翻译工具的错误和限制进行分类和提出设计提示进行上下文学习的方法。旨在促进生成式大型语言模型在机器翻译中的进步。

大语言模型的机器翻译：波斯语，英语和俄语方向的提示工程

BriefGPT - AI 论文速递 ·