小红花·文摘

Mythos能否胜任？一位程序员对Anthropic调试工具的评判

The New Stack ·

哪个AI语音开发服务可靠？可靠性的评判维度与验证方法

实时互动网 ·

随着AI技术的发展，学生利用AI完成作业的问题日益突出，教师面临公平评判的挑战。传统检测工具存在误判风险。建议通过现场答辩和鼓励学生与AI协作，展示作业过程，以更好地评估学生的理解和参与度。

学生偷懒用 AI 完成作业，老师该怎么办？

少数派 ·

闲鱼“仅退款”泛滥：卖家财物受损，评判标准成迷？

TechWeb 全站精华 ·

Databricks宣布在Agent Evaluation中对内置LLM评判器进行重大改进

Databricks ·

庸人自扰

Surmon.me ·

使用评分说明增强LLM评判功能

Databricks ·

可扩展的监督协议旨在使人类能够准确监督超级智能。本文研究辩论、咨询和基准测试三种情景下两个 AI 之间的竞争，以及一个单个 AI 试图说服一个提问的法官的情况。

弱 LLM 评判强 LLM 的可扩展监督

BriefGPT - AI 论文速递 ·

研究者构建了Cline数据集，包含16,642个英语-印地语混合文本句子，用于混合文本生成的质量控制。实验证明，基于混合代码指标训练的多层感知机模型表现更佳。研究者还进行了零样本转移可接受性判断，超过了随机基线。研究者公开发布了相关数据集、训练检查点、混合文本语料库和数据生成以及模型训练的代码。

从人类评判到预测模型：解析混合代码句子的可接受性

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLM）在法律判决和文本生成评估中的应用，提出了一种新工作流程，证明其能提供可靠的相关判决。研究表明，LLM在自然语言处理任务中的评估结果与人类专家一致，但在某些情况下，信息检索系统的表现更佳。此外，文章讨论了LLM评估中的偏见问题，并提出了改进评估质量的多维度独立评估系统。

我们能利用大型语言模型填补相关性评判空缺吗？

BriefGPT - AI 论文速递 ·

数据科学学位与课程：价值评判

KDnuggets ·

我们提出了一种用于评估 Vision-Language Models（VLMs）的新方法，使用了一个名为 Perception Collection 的反馈数据集，并通过该数据集训练了一个开源的 VLM 评估模型 Prometheus-Vision，该模型在评估 VLMs 时表现出与人类评估者和 GPT-4V 最高的皮尔逊相关性，显示出其对 VLMs 的透明和可访问性评估的有效性。

Prometheus-Vision：以视觉语言模型作为细粒度评估的评判耠

BriefGPT - AI 论文速递 ·

DIV-SE和IDIV-SE方法通过改变输入提示的多样性和多种演绎方法，在不改变解码过程的前提下，提高了LLM推理的准确性。在多个推理基准和最新的计划基准上，DIV-SE和IDIV-SE方法优于现有基线，特别是在4/5 Blocksworld任务上，准确率提高了至少29.6个百分点。

从大型语言模型中我们能提取多少种不同的观点？基于评判标准的多样性激励！

BriefGPT - AI 论文速递 ·

我丝袜比你的丝滑

obaby@mars ·