小红花·文摘

Agent设计模式——

XINDOO的博客 ·

本研究提出了一种新颖的视觉-语言-行动模型FSD，旨在解决机器人操作中的泛化问题。FSD通过空间关系推理生成中间表示，显著提高了零-shot机器人操作任务的成功率。

从视觉到行动：连接推理与决策以实现机器人操作

BriefGPT - AI 论文速递 ·

本文提出了一种新的零-shot自动化作文评分方法——比较作文评分（LCES），旨在解决模型偏差和评分不一致的问题。通过成对比较任务，LCES 提高了评分的准确性和可扩展性，实验结果表明其优于传统评分方法。

LCES: A Zero-Shot Automated Essay Scoring Method Based on Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了SpatialPrompting框架，利用多模态大型语言模型实现三维环境中的零-shot空间推理。该框架通过关键帧驱动的提示生成策略，有效推断复杂的三维结构，展现出优越性能。

SpatialPrompting: Keyframe-Based Zero-Shot Spatial Reasoning with Off-the-Shelf Multimodal Large Language Models

BriefGPT - AI 论文速递 ·

本研究探讨了医疗保健领域语言模型的选择，比较了微调与零-shot使用的必要性。结果表明，微调的小语言模型在特定任务中表现优于零-shot模型，而领域相邻模型在困难任务上也优于通用模型，强调了微调的重要性。

小模型还是大模型？零-shot还是微调？指导语言模型在医疗保健专业应用中的选择

BriefGPT - AI 论文速递 ·

本研究分析了MILS框架在零-shot图像标题生成中的高计算成本，揭示了其多步骤迭代过程的开销，并比较了BLIP-2和GPT-4V等模型的效率，质疑了零-shot性能无需大量资源投入的观点。

Zero-Shot, But at What Cost? Unveiling the Hidden Costs of the MILS LLM-CLIP Framework in Image Captioning

BriefGPT - AI 论文速递 ·

本文提出了一种快速适应策略，显著提升了无监督零-shot 强化学习中行为基础模型的性能。

Rapid Adaptation Based on Behavior Foundation Models

BriefGPT - AI 论文速递 ·

本研究提出了一种零-shot人-物交互合成框架，旨在解决3D人-物交互数据获取困难导致的多样性不足问题。该方法利用预训练的多模态模型，从文本描述生成时序一致的2D人-物交互图像序列，并提升到3D交互，增强物理真实感和语义多样性。

Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors

BriefGPT - AI 论文速递 ·

本研究探讨了零-shot链式思维提示在日语中的有效性。比较GPT-3.5与GPT-4o-mini后发现，前者在大学数学和抽象代数领域表现提升，但在更先进模型中效果有所下降，为日语处理中的推理能力改进提供了新见解。

零-shot链式思维在日语提示中的有效性

BriefGPT - AI 论文速递 ·

本研究提出异常感知CLIP（AA-CLIP），解决现有CLIP在零-shot异常检测中缺乏异常意识的问题，显著提升了文本和视觉空间中的异常识别能力，适用于工业和医疗领域。

AA-CLIP：通过异常感知CLIP增强零-shot异常检测

BriefGPT - AI 论文速递 ·

本研究提出了Conceptrol框架，旨在解决零-shot个性化图像生成中个性化内容与文本提示的平衡问题。研究表明，Conceptrol在个性化生成能力上显著提升，性能比传统IP-Adapter高出89%。

概念控制：零-shot个性化图像生成的概念控制

BriefGPT - AI 论文速递 ·

探索人工智能模型的提示技巧

DEV Community ·

本研究提出了一种基于大型语言模型的零-shot负载预测框架，旨在应对集成能源系统中的负载预测复杂性与不确定性。实验结果表明，该框架在传统和零-shot场景下均优于现有方法，显示出在智能电网和可再生能源集成中的应用潜力。

Zero-Shot Load Forecasting Framework Based on Large Language Models: Multi-Task Learning for Integrated Energy Systems

BriefGPT - AI 论文速递 ·

本研究提出Vevo框架，解决了现有语音模仿技术对标注数据的依赖及音色与风格解耦的难题。Vevo通过内容-风格建模和声学建模的两阶段过程，实现了可控的零-shot语音模仿，能够在无需特定风格语料的情况下成功进行口音和情感转换。

Vevo: Controllable Zero-Shot Voice Imitation and Self-Supervised Disentanglement

BriefGPT - AI 论文速递 ·

该研究提出了一种轻量级且稳定的零-shot文本转语音合成系统，解决了对大规模模型和训练数据的依赖。通过新颖的架构和双阶段自我蒸馏框架，有效解耦语言内容与说话者特征，实验结果表明该系统在零-shot任务中表现优越，计算效率更高。

A Lightweight and Stable Zero-shot Text-to-Speech Synthesis Approach: Performance Disentanglement Based on Self-Distillation

BriefGPT - AI 论文速递 ·

本研究提出Glimpse方法，解决了零-shot LLM生成文本检测中白盒方法无法使用强大专有模型的问题。实验结果表明，Glimpse与Fast-DetectGPT和GPT-3.5结合，AUROC平均值约为0.95，提升幅度达51%。

Agent设计模式——

从视觉到行动：连接推理与决策以实现机器人操作

LCES: A Zero-Shot Automated Essay Scoring Method Based on Large Language Models

SpatialPrompting: Keyframe-Based Zero-Shot Spatial Reasoning with Off-the-Shelf Multimodal Large Language Models

小模型还是大模型？零-shot还是微调？指导语言模型在医疗保健专业应用中的选择

Zero-Shot, But at What Cost? Unveiling the Hidden Costs of the MILS LLM-CLIP Framework in Image Captioning

Rapid Adaptation Based on Behavior Foundation Models

Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors

零-shot链式思维在日语提示中的有效性

AA-CLIP：通过异常感知CLIP增强零-shot异常检测

概念控制：零-shot个性化图像生成的概念控制

探索人工智能模型的提示技巧

Zero-Shot Load Forecasting Framework Based on Large Language Models: Multi-Task Learning for Integrated Energy Systems

Vevo: Controllable Zero-Shot Voice Imitation and Self-Supervised Disentanglement

A Lightweight and Stable Zero-shot Text-to-Speech Synthesis Approach: Performance Disentanglement Based on Self-Distillation

Glimpse: Enabling White-Box Methods to Utilize Proprietary Models for Zero-Shot LLM-Generated Text Detection

Transliterated Zero-Shot Domain Adaptation for Automatic Speech Recognition

Evaluating and Mitigating Social Biases of Large Language Models in Open Environments

Unannotated Art Object Detection: A Method Based on Stable Diffusion

GVDepth: A Zero-Shot Monocular Depth Estimation Method Based on Probabilistic Cue Fusion