小红花·文摘

Graphify可将卡帕西个人wiki原始数据编译为知识图谱

极道 ·

GSoC 2025 - 字节类型：支持LLVM IR中的原始数据拷贝

The LLVM Project Blog ·

相当不错且相当准确的JavaScript原始数据类型简介（第一部分）

DEV Community ·

DeepSeek-R1通过多头潜在注意力机制（MLA）实现模型迁移，仅需原始数据的0.3%-0.6%。该研究由复旦大学等机构联合提出，MHA2MLA方法有效降低推理成本，同时保持模型性能，适用于多种大语言模型。

DeepSeek-R1秘籍轻松迁移，只需原始数据0.3% | 邱锡鹏团队联合出品

量子位 ·

原始数据类型与非原始数据类型

DEV Community ·

本研究解决了机器人自主性提高后在人与机器人交互中信任和社会接受度的挑战，尤其是在复杂现实场景中缺乏先验知识的问题。提出了一种基于归纳逻辑编程的离线算法，可以直接从少量异构的机器人执行原始数据中提取任务规范，同时结合简单的常识概念，增强了可解释性。实验结果显示，该方法在标准操作任务和安全关键的外科机器人训练基准中表现出强大的鲁棒性和数据、时间效率，展现了在更复杂领域的可扩展潜力。

数据湖的不可能三角

DEV Community ·

SSD-KD是一种小规模无数据知识蒸馏方法，通过平衡合成样本的类别分布和难度来提高整体训练效率。实验证明，SSD-KD在极小规模的合成样本条件下，比许多主流方法快一个或两个数量级，同时保持卓越或竞争性的模型性能。

SSD-KD：天翼云&清华出品，最新无原始数据的蒸馏研究 | CVPR'24 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

数据工程师使用AWS Glue创建了一个完整的ETL流水线，包括Fetch CSV、Convert to Parquet和Curate Data三个作业，可以处理结构化或非结构化数据。流水线易于实施和维护，使用Athena查看S3中的数据。

从原始数据到精炼数据：使用AWS Glue在S3中整理数据以供Athena查询

DEV Community ·

AI成像新标准，仅1%原始数据可达最佳性能，通用医学基础模型登Nature子刊

机器之心 ·

数据准备是为后处理和分析准备原始数据的过程，包括收集、清理、标记和探索数据，以提高数据质量和模型性能。关键步骤包括描述目的和要求、数据收集、数据组合和集成、数据分析、数据探索、数据转换和丰富、数据验证。数据准备工具包括Pandas、Trifacta Wrangler、KNIME、DataWrangler、RapidMiner、Apache Spark和Microsoft Excel。面临的挑战包括数据分析缺乏、数据不完整、无效值、数据集缺乏标准化、企业系统之间的不一致、数据丰富的挑战以及设置、维护和改进数据准备流程的挑战。

什么是数据准备？

极道 ·

本文介绍了一种自主学习的方法，通过无标注的机器人轨迹，自动学习抽象状态和动作的关系表示，形成了类似 PDDL 的领域模型。实证结果表明，仅凭少量机器人轨迹就可以学习到强大的抽象表示，并且学习的模型使得规划算法能够扩展到以前超出手工构思抽象的任务范围。

由实际到逻辑再到实践：从原始数据中创造符号词汇、行动和模型的规划方法

BriefGPT - AI 论文速递 ·

Graphify可将卡帕西个人wiki原始数据编译为知识图谱

将原始数据转化为实际影响

探索 GPUImage 音视频技术（16）：处理原始数据

GSoC 2025 - 字节类型：支持LLVM IR中的原始数据拷贝

特征工程的生命周期：从原始数据到模型准备输入

原始数据类型与非原始数据类型

从输入到影响：我们的数据中心如何将原始数据转化为实时信号

从输入到影响：我们的数据中心如何将原始数据转化为实时信号

数据管道的工作原理：从原始数据到洞察

相当不错且相当准确的JavaScript原始数据类型简介（第一部分）

DeepSeek-R1秘籍轻松迁移，只需原始数据0.3% | 邱锡鹏团队联合出品

原始数据类型与非原始数据类型

从原始数据和在线专家反馈中归纳学习机器人任务知识

数据湖的不可能三角

SSD-KD：天翼云&清华出品，最新无原始数据的蒸馏研究 | CVPR'24 - 晓飞的算法工程笔记

从原始数据到精炼数据：使用AWS Glue在S3中整理数据以供Athena查询

AI成像新标准，仅1%原始数据可达最佳性能，通用医学基础模型登Nature子刊

从原始数据到实际利润：构建成功数据业务的指南

什么是数据准备？

由实际到逻辑再到实践：从原始数据中创造符号词汇、行动和模型的规划方法