小红花·文摘 - 小红花技术领袖俱乐部

在具身智能时代，家务视频被高价回收用于训练机器人，时薪可达150美元。机器人行业面临数据短缺，需结合真实与合成数据以满足需求，优质数据仍然稀缺。

干家务一小时挣1000元，具身智能时代人类新岗位

量子位 ·

本研究探讨了阿拉伯诗歌朗读中的韵律识别问题，提出了一种整合两个高资源系统的框架，以应对数据短缺。研究表明，该框架有效提高了韵律识别的准确性，并为未来研究提供了基准数据。

Poem Meter Classification of Recited Arabic Poetry: Integrating High-Resource Systems for Low-Resource Tasks

BriefGPT - AI 论文速递 ·

本研究提出了一种嵌入驱动的多样性采样方法，旨在解决临床文本分类中高质量标注数据不足的问题。该方法通过从少量真实临床笔记中提取多样性，指导大语言模型生成符合临床语法的合成文本，从而提升模型性能并减少数据需求。

Embedding-Driven Diversity Sampling for Improved Few-Shot Synthetic Data Generation

BriefGPT - AI 论文速递 ·

本研究提出了一种基于分形几何的合成视频数据集生成方法，旨在解决视频动作识别中的数据短缺问题。该方法模拟真实视频特性，优化预训练过程，显著提升下游任务表现，效果与标准Kinetics预训练相当。

基于自动生成分形数据集的动作识别预训练

BriefGPT - AI 论文速递 ·

OpenAI转录了超过一百万小时的YouTube视频以训练GPT-4

OpenAI转录了超过一百万小时的YouTube视频以训练GPT-4

The Verge ·