小红花·文摘

RubiCap：基于评分标准的强化学习用于密集图像字幕生成

Apple Machine Learning Research ·

「歌手2025」第二集速评

海布里天井 ·

本研究通过增加多重语法错误修正参考和评分标准，丰富了韩语学习者语料库KoLLA，使其成为韩语二语教育研究的标准化资源，促进语言学习与评估。

Enriching the Korean Learner Corpus through Multiple Reference Annotations and Scoring Criteria

BriefGPT - AI 论文速递 ·

本研究提出KOFFVQA基准，旨在解决视觉语言模型评估中的主观性和开放性不足问题。该基准包含275个问题，结合图像和10个评分标准，通过客观评估提高评分一致性和可靠性，以更好地评估不同语言模型的表现。

KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models (Korean)

BriefGPT - AI 论文速递 ·

本文探讨了多种基于人工智能的运动质量评估（AQA）方法，包括可解释的Rubric-Informed Segmentation模型和不确定性感知评分模型（USDL）。研究表明，这些方法在运动表现评估中优于传统模型，增强了裁判的信任度，并提供了更可靠的评分依据。同时，多任务学习和半监督方法显著提高了评估准确性，推动了AI生成视频中动作质量评估的发展。