小红花·文摘

SLI指南针：保真度与粒度

Alex Ewerlöf Notes ·

将B2风格的测试粒度引入CMake

Boost News ·

本研究解决了现有推理代理在交互中存在的延迟与质量之间的权衡问题。提出的“群体思考”方法通过将单个大型语言模型转化为多个并发推理代理，使它们在令牌级别上动态协作，从而减少冗余推理并显著降低延迟。最重要的发现是该方法能有效利用闲置计算资源，尤其适用于小批量推理场景，提高生成质量和效率。

群体思考：多个同时推理代理在令牌级粒度下的协作

BriefGPT - AI 论文速递 ·

SMUGGLER：稀疏多单元粒度生成学习与容错性

DEV Community ·

本研究解决了现有反应舞蹈生成方法在处理局部信息和细粒度交互时的不足，提出了一种新的基于扩散的框架ReactDance，实现高保真度的长期连贯性和多尺度可控性。研究表明，ReactDance在运动语义控制和序列生成的准确性上优于现有方法，推动了舞蹈生成技术的进步。

ReactDance：用于长期连贯反应舞蹈生成的渐进粒度表示

BriefGPT - AI 论文速递 ·

该研究针对现有心电图分类方法在捕捉局部形态细节和长期时间依赖性方面的不足，提出了一种新颖的多粒度混合模型Cardioformer。该模型通过跨通道补丁、分层残差学习和双阶段自注意力机制，显著提高了心电图分析的准确性和鲁棒性，在多个基准数据集上表现优异，展示了其在心血管疾病诊断中的潜在影响。

Cardioformer：利用多粒度补丁和ResNet推进心电图分析中的人工智能

BriefGPT - AI 论文速递 ·

本研究旨在解决传统计算机视觉任务无法有效识别图像中隐含意图的问题，提出了多粒度组合视觉线索学习（MCCL）方法，结合多种视觉特征进行意图识别。通过将意图识别视为多标签分类问题，采用图卷积网络来增强标签嵌入的相关性，显著提高了图像意图识别的准确性和可解释性，为理解复杂的人类表达形式奠定了基础。

多粒度组合视觉线索学习用于图像意图识别

BriefGPT - AI 论文速递 ·

本研究针对现有个性化新闻推荐方法只能通过单一用户资料无法充分捕捉用户兴趣多样性的问题，提出了一种多粒度候选关注的用户建模框架。该框架通过候选新闻编码和用户建模的组合，实现了对用户兴趣特征的综合表示，实验结果表明其表现显著优于基准模型。

基于多粒度候选关注的个性化新闻推荐

BriefGPT - AI 论文速递 ·

在测试iOS应用时发现亮度调节粒度需为0.1，0.01无效。自iOS 10.3.3起，亮度调节粒度由0.01变为0.05，官方文档未说明此变更。

iOS｜解决 setBrightness 调节屏幕亮度不生效的问题

码志 ·

本研究针对现有多模态情感识别中单一对齐策略的限制，提出了一种多粒度跨模态对齐框架（MGCMA），以全面整合情感信息。通过分布式、实例化和基于标记的对齐模块，我们的方法在IEMOCAP数据集上的实验结果显示出显著优于当前最先进的技术，显示了其在情感表达复杂性处理中的潜在影响。

通过多粒度跨模态对齐增强多模态情感识别

BriefGPT - AI 论文速递 ·

本研究通过整合细粒度概念注释，提升了多模态大型语言模型在视觉-语言任务中的性能，并推出了新数据集MMGiC，实验结果显示模型表现显著提高。

探索多粒度概念注释在多模态大型语言模型中的应用

BriefGPT - AI 论文速递 ·

本研究解决了视觉文本不一致性评估在清洗视觉语言数据中的重要性，以往方法难以应对图像描述数据集中的多样性和不一致性。提出的HMGIE框架通过构建语义图，实现了对图像-描述对的多粒度评估，并在实验中展示了在不同数据集上的优越性能。

HMGIE：用于视觉语言数据清洗的分层和多粒度不一致性评估

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的多模态、多粒度路径表示学习框架（MM-Path），旨在提升智能交通领域中路径表示的有效性。通过多粒度对齐策略和跨模态残差融合组件，MM-Path有效整合了道路网络与图像数据的特征，实验结果显示该方法在路径表示学习中具有重要潜力。

MM-Path：多模态、多粒度路径表示学习扩展版

BriefGPT - AI 论文速递 ·

本文提出了一种优化框架，用于生成信息性和主题连贯性更强的时间线摘要。研究介绍了多种时间线摘要生成方法及评估指标，创建了DiverseSumm数据集以应对多样信息摘要的挑战，并分析了大型语言模型在此任务中的表现。实验结果表明，背景摘要机制和合适的模型在处理复杂事件时效果显著，为多语言新闻摘要任务提供了新思路。

DTELS：朝着动态粒度的时间线摘要

BriefGPT - AI 论文速递 ·

本文介绍了GRank图模式实体排名模型，并评估其在链接预测任务中的表现，结果优于ComplEx和TorusE。研究还探讨了知识图谱的结构学习、补全及质量评估，提出了改进评估方法的建议，强调了知识图谱在各领域的应用潜力。

类粒度：您的知识图谱如何丰富地表示现实世界？

BriefGPT - AI 论文速递 ·

本研究解决了现有图形用户界面（GUI）任务训练数据不足的问题。我们提出了EDGE，一个通用的数据合成框架，能够从网页自动生成大规模多粒度的训练数据，显著提升了大型视觉语言模型（LVLMs）对网页的理解能力。实验证明，该方法大幅降低了对手动标注的依赖，能够将所生成的数据迁移到新的桌面和移动环境中，推动相关研究的进展。

EDGE：通过丰富的多粒度合成数据增强的图形用户界面理解

BriefGPT - AI 论文速递 ·

Kosmos-G模型利用多模态大型语言模型（MLLMs）的视觉感知能力生成多图像的视觉-语言输入。为提高感知准确性，提出了VCoder工具，并创建了COST数据集用于训练和评估。研究表明，VCoder在对象感知能力上优于其他模型。本文还回顾了MLLMs的架构、对齐策略和训练技术，分析了其在视觉理解任务上的表现，为未来研究奠定基础。

PUMA：通过多粒度视觉生成赋能统一的多模态大语言模型

BriefGPT - AI 论文速递 ·

本研究提出了MTU-Bench，一个多粒度工具使用基准，解决了现有工具在评估场景和成本上的不足。它涵盖五种工具使用场景，采用基于预测和实际结果的评估指标，降低评估成本。实验表明，MTU-Bench有效提升了大型语言模型的工具使用能力。

MTU-Bench：针对大型语言模型的多粒度工具使用基准

BriefGPT - AI 论文速递 ·

MapTR是一个高效的在线矢量高清地图构建系统，采用点集建模和层次查询方案，提升自动驾驶系统的规划性能。研究提出了Map Transformer框架，利用统一排列建模和层次匹配，实时处理复杂地图元素，表现优异。InsightMapper方法在NuScenes数据集上超越现有技术，提升拓扑正确性。新型Mask2Map方法通过实例级Mask和地图预测网络协作，进一步提高地图构建精度。

MGMapNet：用于端到端向量化高清地图构建的多粒度表示学习

BriefGPT - AI 论文速递 ·

本文提出了一种基于汉字视觉外观的表示方法，利用卷积神经网络有效表征汉字的语义和句法信息。研究探讨了字符级输入特征对文本图像生成的影响，并提出了RenderDiffusion和GlyphControl等新模型，显著提升了视觉文本的生成准确性和美学质量，推动了多模态学习的发展。

通过输入粒度控制和字形感知训练赋能视觉文本生成的主干模型

BriefGPT - AI 论文速递 ·