小红花·文摘

代码质量评估工具：快速识别“屎山”等级和隐患 | 开源日报 No.767

开源服务指南 ·

llm-code-scorer

Yunfeng's Simple Blog ·

CVPR2025提出的Video-Bench框架通过模拟人类认知，评估AI生成视频的质量与美学，解决了视频与文本对齐的问题。该框架采用链式查询和少样本评分技术，显著提高了评估准确性，超越了传统方法。

CVPR2025视频生成统一评估架构，上交x斯坦福联合提出让MLLM像人类一样打分

量子位 ·

MLflow 3.0：统一的人工智能实验、可观察性与治理

Databricks ·

华为鸿蒙网络加速实操：应用“快速起飞”的底层逻辑

DEV Community ·

基于多模态大模型的细粒度视频质量评估方法 | CVPR 2025 Highlight

实时互动网 ·

本研究提出了SEval-Ex框架，以平衡自然语言处理中文本摘要质量评估的性能与可解释性。实验结果显示，该框架与人类一致性判断的相关性达到0.580，超越了现有方法。

SEval-Ex：一种用于可解释摘要评估的语句级框架

BriefGPT - AI 论文速递 ·

本研究提出了一种基于深度学习的自动生成轮廓质量评估方法，适用于在线适应性放射治疗。该方法在多种数据场景下准确率超过90%，显著降低了人工审查需求，提高了放射治疗的安全性和可靠性。

基于人工智能的临床评估自动分割轮廓质量的决策支持

BriefGPT - AI 论文速递 ·

本研究探讨了短视频用户生成内容的质量评估与增强，推出了轻量级视频质量评估模型和新数据集KwaiSR，旨在提升用户体验。该挑战吸引了266名参与者，推动了短视频质量评估和图像超分辨率领域的发展。

2025 NTIRE Challenge on Short-form User-Generated Content Quality Assessment and Enhancement: Methods and Results

BriefGPT - AI 论文速递 ·

CVPR 2025 | 火山引擎获得NTIRE 视频质量评价挑战赛冠军

实时互动网 ·

本文探讨了评估和提升AI生成文本的写作质量，提出了写作质量基准（WQ）和训练写作质量奖励模型（WQRM）。研究表明，WQRM在质量评估中表现优越，能够选择更高质量的输出。人类评估显示，使用WQRM选择的文本获得了66%的专家偏好，从而提升了AI写作系统的质量对齐。

From AI Draft to AI Polish? Aligning Language Models through Edit-Based Writing Rewards and Test-Time Computation

BriefGPT - AI 论文速递 ·

本研究提出了一种评估合成数据质量的框架，旨在确保数据驱动研究中的隐私和效用。该框架支持多种数据类型，并提供可解释的质量诊断，以促进合成数据生成技术的可重复性和一致性。

合成表格数据基准测试：一个多维评估框架

BriefGPT - AI 论文速递 ·

本研究提出了一种实时稻米分类与质量评估机制，结合单阶段目标检测、深度卷积神经网络和传统机器学习技术。实验结果表明，该机制在目标检测中达到99.14%的精度，分类任务准确率为97.89%，显著提升了稻米质量评估的效率和准确性。

An Overall Mechanism for Real-Time Classification and Quality Evaluation of Rice

BriefGPT - AI 论文速递 ·

本研究提出了一种新评分机制SBC分数，利用逆向生成技术评估AI生成代码的质量，量化其准确性并为开发者提供可操作的洞察。

Bridging the Gap Between LLM-Generated Code and Requirements: Reverse Generation Techniques and SBC Metrics for Developer Insights

BriefGPT - AI 论文速递 ·

本研究开发了提供者文档摘要质量工具（PDSQI-9），用于评估大型语言模型生成的临床摘要。该工具能够有效区分高低质量摘要，并验证了其构念效度和一般化能力，支持大型语言模型在医疗工作流中的安全整合。

大型语言模型提供者文档摘要质量工具的开发与验证

BriefGPT - AI 论文速递 ·

本研究提出ProNMT框架，旨在解决神经机器翻译中代词翻译的难题，通过质量评估和概率反馈机制优化训练，显著提升代词翻译的准确性及整体翻译质量。

Feedback Training Based on Quality Assessment to Improve Pronoun Translation

BriefGPT - AI 论文速递 ·

北京大学MMCAL团队开发了首个视频编辑质量评估指标VE-Bench，专注于编辑结果与原始视频的语义相关性。该指标通过丰富的数据集和创新的测试方法，提供了更符合人类感知的评价标准，并已被AAAI 2025会议录用。

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

量子位 ·

本研究提出了一种基于自动失真识别的无参考医学图像质量评估方法，旨在提高MRI引导放疗中的图像质量。通过分析106,000幅MR图像，该方法有效提升了图像质量指数，改善了肿瘤追踪的准确性，具有重要的临床应用价值。

A No-Reference Medical Image Quality Assessment Method Based on Automated Distortion Recognition Technology: Application in MRI-Guided Radiotherapy

BriefGPT - AI 论文速递 ·

本研究提出MESA框架，旨在自动测量自然语言生成系统的会议摘要质量。通过三步评估，提升了对错误理解的识别与人类判断的一致性，展示了其在会议总结质量评估中的潜力。

How Good is My Conference Summary? Estimating Quality Using Multiple LLM Evaluators

BriefGPT - AI 论文速递 ·

本文提出了多种图像生成和编辑框架，重点关注基于文本上下文的生成模型和用户偏好的编辑方法。研究强调生成图像的质量评估，特别是美学、真实性和公平性。通过创新的反馈学习框架和用户选择机制，提升了图像生成的质量和一致性，展示了在多样化用户输入下的应用潜力。

ComfyGI：图像生成工作流程的自动改进

BriefGPT - AI 论文速递 ·