小红花·文摘

＜span class=“js_title_inner“＞京东零售广告创意：统一的布局生成和评估模型＜/span＞

京东科技开发者 ·

京东零售广告创意：统一的布局生成和评估模型

京东科技开发者 ·

本研究提出了一种名为CHARM的校准方法，旨在解决奖励模型中的偏差问题，从而提高评估的准确性和与人类偏好的相关性，促进更公平可靠的奖励模型构建。

CHARM: Calibrating Reward Models Using Chatbot Arena Scores

BriefGPT - AI 论文速递 ·

本文探讨可解释自动事实核查中的行动性评估问题，指出现有研究缺乏有效评估方法。提出的FinGrAct框架通过明确标准和评估数据集，提高评估准确性，减少偏见，具有重要的实际应用价值。

FinGrAct: A Framework for Detailed Evaluation of Actionability in Explainable Automated Fact-Checking

BriefGPT - AI 论文速递 ·

本研究提出了MEMERAG，一个多语言端到端元评估基准，旨在解决现有评估主要集中于英语的问题。通过使用本土语言问题和多种大型语言模型生成的响应，增强了评估的准确性，实验结果表明该基准能有效识别多语言自动评估者的改进效果。

MEMERAG：用于检索增强生成的多语言端到端元评估基准

BriefGPT - AI 论文速递 ·

💧 📉 💧 你是否在浪费金钱和时间：你的数据是否存在泄漏？ 💧 📉 💧

DEV Community ·

本研究提出了一种结合检测与缓解技术的方法，针对大型语言模型中的幻觉问题。通过检索增强生成框架和负缺失信息评分系统，提高了评估准确性，Gemma2和GPT-4表现优异，为医疗等领域的应用提供了新思路。

通过RAG和NMISS解决意大利医疗大语言模型聊天机器人中的幻觉问题

BriefGPT - AI 论文速递 ·

本研究探索了大型语言模型在机器翻译评估中的工作机制，发现参考信息可以提高评估准确性，源语言信息有时会适得其反。类似现象也出现在翻译错误检测中，为进一步研究跨语言能力提供了潜在方向。

基于源感知训练的语言模型启用知识归属

BriefGPT - AI 论文速递 ·

本研究比较了ChatGPT和Bing Chat在检测政治信息真实性方面的能力。ChatGPT的评估准确性为72%，高于Bing Chat的67%。ChatGPT提供的输出更为细致入微，但聊天机器人的性能受到话题和来源的影响。这些发现突显了LLM聊天机器人在解决虚假信息方面的潜力，但也指出了其实现方式的差异。

利用大型语言模型和逼真的机器人账号激励社交媒体平台上的新闻消费

BriefGPT - AI 论文速递 ·

本研究比较了ChatGPT和Bing Chat在检测政治信息真实性方面的能力。ChatGPT在不同语言中的评估准确性为72%，Bing Chat为67%。ChatGPT提供的输出更为细致入微，但聊天机器人的性能受到话题和来源的影响。这些发现显示了LLM聊天机器人在解决虚假信息方面的潜力，但也指出了其实现方式的差异。

信赖生成 AI：聊天机器人能有效验证政治信息吗？

BriefGPT - AI 论文速递 ·