小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

Uber has decentralized its Hive data warehouse, migrating 16,000 datasets totaling over 10 petabytes using pointer-based federation. The migration ensures zero downtime, strict ACL enforcement,...

Uber’s Hive Federation Decentralizes 16K Datasets and 10+ PB for Zero-Downtime Analytics at Scale

InfoQ
InfoQ · 2026-04-09T13:54:00Z

本研究提出Robo-DM工具包,旨在解决大型机器人数据集管理问题,优化数据策划、分发和加载。该开源云工具显著减小数据集大小,降低传输成本,提高加载速度,压缩性能可节省空间高达70倍,且不影响任务准确性。

Robo-DM: Data Management for Large Robot Datasets

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出Robo2VLM框架,旨在提升视觉语言模型在真实情境下的应用能力。通过多模态机器人轨迹数据生成视觉问答查询,Robo2VLM-1有效增强了模型在空间和交互推理方面的能力。

Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出FMSD-TTS框架,针对藏语低资源问题,通过少量音频和方言标签生成方言语音,提升了方言表现力和说话人相似性。

FMSD-TTS: Few-Shot Multi-Speaker Multi-Dialect Text-to-Speech Synthesis for Generating U-Tsang, Amdo, and Kham Speech Datasets

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究探讨大型语言模型(LLMs)是否记忆推荐数据集,特别是MovieLens-1M。结果表明,模型的记忆程度与推荐性能相关,揭示了LLMs在推荐任务中的潜在局限性和偏见。

Do Large Language Models Memorize Recommendation Datasets? A Preliminary Study on MovieLens-1M

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-15T00:00:00Z

本研究针对临床对话数据集稀缺问题,提出了一种新的合成数据集类型学,以分类和评估不同的数据合成方式,从而推动医疗领域对话处理的研究进展。

A Typology of Synthetic Datasets for Dialogue Processing in Clinical Contexts

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-05T00:00:00Z

本研究提出了一种合成数据增强流程,以模拟自主驾驶中的传感器故障,旨在提高物体检测和跟踪的鲁棒性。通过训练轻量级噪声识别神经网络,识别准确率达到54.4%,从而提升自动驾驶系统的稳定性和可靠性。

Synthesis and Identification of Noise Levels in Autonomous Vehicle Camera Radar Datasets

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

本研究针对短视频平台的版权侵权问题,提出了一种结合音乐源分离和视频音乐检索技术的创新方法,能够有效分离背景音乐并恢复原始音轨。实验结果表明,该方法高效去除背景音乐,为用户生成内容的版权合规提供了可行的解决方案。

Solving Copyright Infringement on Short Video Platforms: Novel Datasets and an Audio Restoration Deep Learning Pipeline

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-30T00:00:00Z

该研究利用生成式人工智能和严格验证技术,通过GPT-4 API生成高质量的医疗合成数据,以解决隐私问题导致的医疗数据获取限制,从而有效促进人工智能算法的培训。

Leveraging Generative AI Through Prompt Engineering and Rigorous Validation to Create Comprehensive Synthetic Datasets for Healthcare Training

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-29T00:00:00Z

本研究探讨了检索增强生成(RAG)系统的评估方法,分析了63篇学术文章,提出了一种新颖的自动评估方法,并强调了域特定数据集在基准测试中的重要性,为RAG系统的评估提供了更严格的指导。

Can Large Language Models Be Trusted for Evaluating Retrieval-Augmented Generation Systems? A Survey of Methods and Datasets

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z

Easy-to-follow guides on how to transcribe audio files into text using privacy friendly tools and how to convert different documents into a singular format. Watch the live demo here. As concerns...

Mozilla, EleutherAI launch toolkits to help AI builders create open datasets

The Mozilla Blog
The Mozilla Blog · 2025-04-25T16:59:22Z

本研究探讨了视觉语言模型在自动驾驶中对行人动态手势的理解能力,并创建了两个手势数据集。结果表明,现有模型在手势解读方面的准确性不足,强调了进一步研究的必要性。

Can Vision-Language Models Understand and Interpret Dynamic Gestures from Pedestrians? Preliminary Datasets and Exploration for Instructive Nonverbal Commands in Cooperative Autonomous Vehicles

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-15T00:00:00Z

本研究提出统一世界模型(UWM),通过结合视频和动作扩散,解决大规模机器人基础模型中模仿学习的扩展问题。UWM在统一变换器架构中整合这两种数据,显著提升了策略学习的通用性与鲁棒性。

Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-03T00:00:00Z

本研究提出了一种高效流程,通过神经辐射场自动生成多样化、高质量的3D数据集,显著提升了3D姿态估计网络的性能,解决了3D检测中数据集不足的问题。

Automatically Generating 3D Datasets Using Neural Radiance Fields

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究探讨了自动化人脸识别系统在身份验证和面部属性分析中的准确性与差异性之间的权衡,强调模型架构、损失函数和数据集的影响,并建议开发者关注数据集偏见。

Exploring the Trade-off Between Variability and Accuracy in Face Recognition Systems: The Role of Datasets, Architectures, and Loss Functions

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z

本研究提出了一种名为“规模高效训练(SeTa)”的新方法,旨在解决大规模数据集训练中低价值样本导致的效率低下问题。SeTa通过动态样本剪枝和分层学习策略,能够在减少训练时间的同时保持或提升模型性能,最高可减少训练成本达50%。

Efficient Training for Large Datasets

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-17T00:00:00Z

本研究提出了一种基于深度学习的直接叶面积估计方法,利用RGBD图像进行模型开发。通过真实叶面积样本的使用,显著提高了估计精度,为作物生长评估提供了有效工具。

Deep Learning-Based Direct Leaf Area Estimation: Model Development Using Two RGBD Datasets

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-13T00:00:00Z

本研究针对长文本生成中的“失落中间”问题,提出了长输入输出基准(LongInOutBench)和合成数据集,开发了检索增强长文本生成器(RAL-Writer),显著提升了长输入和长输出任务的生成效果。

The 'Lost-in-the-Middle' Problem in Long-Text Generation: Synthetic Datasets, Evaluation Frameworks, and Mitigation Strategies

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z

本研究探讨大型语言模型(LLMs)在清理机器学习数据集中的应用,解决数据集错误导致的模型性能下降问题。研究发现,LLMs能够识别和修正明显错误,但在处理复杂错误时效果有限。这为数据清理的自动化提供了新思路,有望提升数据集质量和模型性能。

Exploring the Application of Large Language Model Agents in Cleaning Tabular Machine Learning Datasets

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-09T00:00:00Z

本研究提出了Paralinguistic Speech Captions(ParaSpeechCaps)数据集,解决了大规模语音数据集风格标签不足的问题。通过结合多种文本与语音嵌入技术,自动扩展了59种风格标签的数据集。微调TTS模型后,语音风格一致性和自然度显著提高,展示了研究的潜在影响。

Scaling Rich Style-Prompted Text-to-Speech Datasets

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-06T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码