小红花·文摘

Uber has decentralized its Hive data warehouse, migrating 16,000 datasets totaling over 10 petabytes using pointer-based federation. The migration ensures zero downtime, strict ACL enforcement,...

Uber’s Hive Federation Decentralizes 16K Datasets and 10+ PB for Zero-Downtime Analytics at Scale

InfoQ ·

本研究提出Robo-DM工具包，旨在解决大型机器人数据集管理问题，优化数据策划、分发和加载。该开源云工具显著减小数据集大小，降低传输成本，提高加载速度，压缩性能可节省空间高达70倍，且不影响任务准确性。

Robo-DM: Data Management for Large Robot Datasets

BriefGPT - AI 论文速递 ·

本研究提出Robo2VLM框架，旨在提升视觉语言模型在真实情境下的应用能力。通过多模态机器人轨迹数据生成视觉问答查询，Robo2VLM-1有效增强了模型在空间和交互推理方面的能力。

Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets

BriefGPT - AI 论文速递 ·

本研究提出FMSD-TTS框架，针对藏语低资源问题，通过少量音频和方言标签生成方言语音，提升了方言表现力和说话人相似性。

FMSD-TTS: Few-Shot Multi-Speaker Multi-Dialect Text-to-Speech Synthesis for Generating U-Tsang, Amdo, and Kham Speech Datasets

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型（LLMs）是否记忆推荐数据集，特别是MovieLens-1M。结果表明，模型的记忆程度与推荐性能相关，揭示了LLMs在推荐任务中的潜在局限性和偏见。

Do Large Language Models Memorize Recommendation Datasets? A Preliminary Study on MovieLens-1M

BriefGPT - AI 论文速递 ·

本研究针对临床对话数据集稀缺问题，提出了一种新的合成数据集类型学，以分类和评估不同的数据合成方式，从而推动医疗领域对话处理的研究进展。

A Typology of Synthetic Datasets for Dialogue Processing in Clinical Contexts

BriefGPT - AI 论文速递 ·

本研究提出了一种合成数据增强流程，以模拟自主驾驶中的传感器故障，旨在提高物体检测和跟踪的鲁棒性。通过训练轻量级噪声识别神经网络，识别准确率达到54.4%，从而提升自动驾驶系统的稳定性和可靠性。

Synthesis and Identification of Noise Levels in Autonomous Vehicle Camera Radar Datasets

BriefGPT - AI 论文速递 ·

本研究针对短视频平台的版权侵权问题，提出了一种结合音乐源分离和视频音乐检索技术的创新方法，能够有效分离背景音乐并恢复原始音轨。实验结果表明，该方法高效去除背景音乐，为用户生成内容的版权合规提供了可行的解决方案。

Solving Copyright Infringement on Short Video Platforms: Novel Datasets and an Audio Restoration Deep Learning Pipeline

BriefGPT - AI 论文速递 ·

该研究利用生成式人工智能和严格验证技术，通过GPT-4 API生成高质量的医疗合成数据，以解决隐私问题导致的医疗数据获取限制，从而有效促进人工智能算法的培训。

Leveraging Generative AI Through Prompt Engineering and Rigorous Validation to Create Comprehensive Synthetic Datasets for Healthcare Training

BriefGPT - AI 论文速递 ·

本研究探讨了检索增强生成（RAG）系统的评估方法，分析了63篇学术文章，提出了一种新颖的自动评估方法，并强调了域特定数据集在基准测试中的重要性，为RAG系统的评估提供了更严格的指导。

Can Large Language Models Be Trusted for Evaluating Retrieval-Augmented Generation Systems? A Survey of Methods and Datasets

BriefGPT - AI 论文速递 ·

Easy-to-follow guides on how to transcribe audio files into text using privacy friendly tools and how to convert different documents into a singular format. Watch the live demo here. As concerns...