小红花·文摘

本文讨论了技能评估的方法，包括创建测试用例、记录结果、收集用户反馈并进行优化。强调生成真实复杂查询的重要性，并提到在不同模型上进行评估以确保技能的有效性和准确性。

如何评估技能

Measure Zero ·

本文提出了一种基于Transformer的多任务交付时间预测模型TransPDT，旨在提高包裹交付时间的估计精度。研究表明，取件对快递员决策影响显著，模型在真实数据集上的实验结果验证了其有效性，对提升物流服务时效性具有重要意义。

Learning to Estimate Package Delivery Time in Mixed Imbalanced Delivery and Pickup Logistics Services

BriefGPT - AI 论文速递 ·

Are Better Models Truly Better?

DemoChen's Clip ·

本文提出了一种改进自然语言处理（NLP）数据集的方法，以提升恶意语言检测分类器的性能。通过分析注释者的观点和不一致性，研究了不同模型在处理争议性任务中的有效性。所提模型能够预测标注员的意见分歧，并通过人口统计信息优化预测过程。此外，创建了一个包含150,000个标签的中文不确定性感知语义文本相似度数据集，以研究人类观点的集体性。

CoMeDi 共享任务：模型作为词汇语义中的注释者的分歧

BriefGPT - AI 论文速递 ·

本文探讨了一致性模型中的不一致性，指出改进的ODE求解并不一定提升生成样本质量。研究发现，尽管直接一致性模型在ODE求解中表现更好，但样本质量却显著下降，质疑了现有模型的有效性。

Inconsistencies in Consistency Models: Better ODE Solving Does Not Imply Better Samples

BriefGPT - AI 论文速递 ·

本文探讨文本到图像生成技术在建筑设计和设计师教育中的应用，强调生成工具对创意支持的潜力及其面临的挑战。研究提出了选择有效提示词的方法，并通过实验验证了不同模型的有效性，以优化生成图像与输入文本的匹配。

CAD 引导的生成模型：可行性和新颖性工程设计之路

BriefGPT - AI 论文速递 ·

该文章介绍了名为MOMENT的开源基础模型系列，用于时间序列分析。作者建立了Time-series Pile收集公共时间序列，设计了评估模型有效性的基准。实验证明预训练模型在少量数据和任务微调下有效。

MOMENT：一种开放的时间序列基础模型家族

BriefGPT - AI 论文速递 ·

本文介绍了一个名为VisEvent的大规模可见事件跟踪基准测试，包含820个视频对，其中包含低照度、高速和背景杂波等特点的数据集。通过将事件流转换为事件图像，并使用30多种基线算法和一个跨模态转换器，实现了可见数据和事件数据之间的有效特征融合。实验结果验证了模型的有效性。

RPEFlow: RGB-PointCloud-Event 模态多模融合光流与场景流估计

BriefGPT - AI 论文速递 ·

本文介绍了一种新方法，可以从2D图像生成逼真的3D人物。该方法使用多个辨别器和2D法线图形式的几何线索进行训练，性能超过以前的3D和关节感知方法。通过消融研究验证了模型的有效性和每个组件的重要性。

AniPortraitGAN：从 2D 图像集合生成可动态调整的 3D 肖像

BriefGPT - AI 论文速递 ·