小红花·文摘

本研究探讨了生成AI模型中对酷儿艺术家参与的忽视，揭示了酷儿群体在使用这些技术时面临的常规价值。参与者提出了克服模型局限性的策略，为生成AI的未来应用提供了启示。

Non-linear Generative AI: How Queer Artists Emerge and Challenge the Normativity of Generative AI Models

BriefGPT - AI 论文速递 ·

本研究探讨了传统级联语音翻译模型的局限性，并介绍了Google的Translatotron模型。该模型通过直接进行语音到语音的翻译，提高了翻译效率，减少了错误，尤其在弥合非洲语言与其他正式语言的障碍方面表现优异，具有重要的应用前景。

Speech to Speech Translation with Translatotron: A State of the Art Review

BriefGPT - AI 论文速递 ·

解密图像分类：理解不同方法下分类模型的表现

DEV Community ·

本文探讨了现有模型在视频和语言任务中的局限性，并提出了多个新基准测试（如EgoSchema、MVBench、InfiniBench、E.T.基准和TemporalBench），以评估多模态大型语言模型在长视频理解中的表现。研究表明，现有模型在细粒度时间理解方面与人类存在显著差距，强调了改进的必要性。

一小时视频语言理解

BriefGPT - AI 论文速递 ·

本研究探讨了语言模型在伦理模糊情境中与人类判断的不匹配，指出现有模型的局限性。通过精细调优，模型在复杂道德决策中的理解能力显著提升，更好地对齐人类判断，强调了研究伦理推理技术的必要性。

Research on Optimizing Language Models to Address Ethical Ambiguity: A Comparative Study with Human Responses

BriefGPT - AI 论文速递 ·

本文探讨了视频理解中的模型局限性，提出了atemporal probe模型和SPOT Prober方法，以增强事件理解能力。通过MVBench和Event-Bench基准测试，评估视频大型语言模型（Video-LLMs）的表现，发现GPT-4o模型在准确率上优于其他模型。此外，研究提出了HEM-LLM和EventHallusion基准，以解决信息冗余和幻觉问题，推动视频理解领域的发展。

E.T.基准：迈向开放式事件级视频语言理解

BriefGPT - AI 论文速递 ·

本文评估了多模态大型语言模型（MLLMs）在低层视觉感知和理解方面的能力，发现其基本技能不稳定且不精确。研究提出了多个基准测试，如SEED-Bench-2和Multi，揭示了现有模型的局限性，并强调在多语言和多文化环境中评估的必要性，为未来MLLMs的发展提供了重要参考。

LIME-M：评估多模态大型语言模型的简约方法

BriefGPT - AI 论文速递 ·