小红花·文摘

大模型看Coding，具身看Picking！原力灵机已抢先入局

量子位 ·

本文介绍了如何使用Mimesis、pandas和NumPy生成模拟的物联网（IoT）传感器数据，特别是每日温度读数。通过创建设备元数据和模拟季节性变化，生成了一整年的温度数据，并提供了详细的步骤和数学模型，最终可用于分析和预测。

使用Mimesis模拟一年的物联网传感器时间序列数据

KDnuggets ·

合成数据是人工生成的，避免了隐私问题和高数据收集成本。本文介绍如何通过Python脚本生成合成数据，包括生成随机数据、引入关系和规则、模拟过程生成数据、创建时间序列和事件日志，以及生成文本数据。合成数据在测试和分析中非常有用，但需注意确保数据的真实性和隐私保护。

5个用于合成数据生成的实用Python脚本

KDnuggets ·

$OmniRetarget——可与场景交互的人形全身行走-操控系统：实现26年春晚宇树攀爬、跳跃、翻滚、蹬墙翻转及箱体搬运$

OmniRetarget——可与场景交互的人形全身行走-操控系统：实现26年春晚宇树攀爬、跳跃、翻滚、蹬墙翻转及箱体搬运

结构之法算法之道 ·

$NavDP与LoGoPlanner——从「基于RGB、深度观测和目标扩散去噪生成行动轨迹：一方面模仿专家，一方面被做价值评估预测」，到含仅使用RGB的点目标导航$

NavDP与LoGoPlanner——从「基于RGB、深度观测和目标扩散去噪生成行动轨迹：一方面模仿专家，一方面被做价值评估预测」，到含仅使用RGB的点目标导航

结构之法算法之道 ·

【案例共创】开发者空间配合华为AskO3构建造数小程序

华为云官方博客 ·

数据清洗是提升数据质量和分析准确性的过程。本文通过Python示例展示了数据生成与清洗的完整流程，适合个人开发者和高校学生。使用预装库生成杂乱数据并进行清洗，最终保存清洗后的数据。

昇腾数据探险家：挖掘数据的隐藏宝藏

华为云官方博客 ·

本文研究了物理模型替代建模中的数据生成不平衡问题，提出了一种自适应采样算法（ASADG），通过优化输入数据选择，提高了替代建模的准确性和效率。研究表明，ASADG在数据生成方面优于传统方法。

An Adaptive Sampling Algorithm for Data Generation in Surrogate Modeling of Physical Problems

BriefGPT - AI 论文速递 ·

使用MongoDB工作负载生成器轻松进行MongoDB基准测试

Percona Database Performance Blog ·

本研究提出了一种基于去噪扩散概率模型（DDPM）的房间脉冲响应（RIR）插值方法，旨在估算未测量位置的RIR。该方法在不同麦克风阵列上有效重建缺失的RIR，显著提高插值精度。

DiffusionRIR: Room Impulse Response Interpolation Based on Diffusion Models

BriefGPT - AI 论文速递 ·

本研究首次提出“全栈”安全概念，系统探讨大型语言模型（LLM）在训练、部署和商业化过程中的安全问题，并通过回顾800多篇文献，为数据生成、安全对齐和模型编辑等研究提供指导。

A Comprehensive Survey on Full Stack Safety of Large Language Models (LLM): Data, Training, and Deployment

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过自适应问题难度生成高质量链式思维（CoT）数据，以解决大型语言模型在复杂任务中的推理能力不均衡问题。该方法显著降低了数据生成成本，提高了模型微调效率，并在数学竞赛和代码生成领域验证了其有效性。

Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading

BriefGPT - AI 论文速递 ·

ELTEX是一种基于领域驱动的合成数据生成框架，旨在解决网络安全等专业领域中合成训练数据不足的问题。通过动态提示和领域指示符，ELTEX能够生成高质量的合成数据，其模型性能与GPT-4相当，同时显著降低计算资源需求。

ELTEX: A Domain-Driven Synthetic Data Generation Framework

BriefGPT - AI 论文速递 ·

本研究提出了PiSA-Engine框架，旨在解决三维多模态大语言模型（MLLMs）在数据数量和质量上的不足。通过生成具有三维空间语义的数据集，结合2D和3D模型的优势，实现高质量数据的持续生成。实验结果表明，PointLLM-PiSA在零-shot三维物体描述和生成分类中显著提升了性能。

PiSA: A Self-Augmented Data Engine and Training Strategy for 3D Understanding

BriefGPT - AI 论文速递 ·

本研究探讨了生成对抗网络（GAN）在静息状态脑电图（EEG）中的应用。通过Wasserstein GAN及梯度惩罚，成功生成多通道EEG数据，并验证其质量，表明该模型可用于EEG数据生成和无监督特征提取。

YARE-GAN：又一个静息状态脑电图生成对抗网络

BriefGPT - AI 论文速递 ·

本文提出了一种低成本的数据生成管道，结合物理模拟和人类示范，有效生成用于机器人操作任务的数据集。通过轨迹优化技术，处理虚拟现实中的示范数据，适应不同机器人形态，实现数据重用。实验表明，训练的策略能在多种机器人形态下成功执行复杂任务。

基于物理驱动的数据生成用于接触丰富的操作通过轨迹优化

BriefGPT - AI 论文速递 ·

使用Python理解机器学习中的概率分布

MachineLearningMastery.com ·

本文介绍了Open R1的开源内容及其复现R1训练流程的过程，包括GRPO实现、数据生成和评估。OpenR1-Math-220k数据集生成了22万条高质量数学推理数据，提升了模型性能。通过改进验证工具和使用奖励模型，确保了数据质量和推理能力。

MTP——我对DeepSeek V3中多token预测MTP的代码实现(含对V3官方MoE、MLA推理代码的解读)

结构之法算法之道 ·

构建多源AI代理：连接数据库、API和AI模型

DEV Community ·

本研究提出了一种多LLM交流框架，旨在提高大型语言模型在生成说服对话时的流畅性和复杂性。该框架能够高效生成多样化的高质量说服数据，并在复杂情境中保持自然性和语言多样性，推动计算和社会科学领域的研究。

Communication is All You Need: Constructing a Persuasion Dataset through Multi-Language Model Communication

BriefGPT - AI 论文速递 ·