小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
更清洁的AI训练数据,减少漏洞:Sonar的SonarSweep解析

大型语言模型在软件开发中已成为基础设施,但其生成的代码质量受训练数据影响。Sonar的研究表明,低质量数据会导致安全漏洞和维护问题。通过数据质量工程,团队可以改善训练数据,提高模型输出的安全性和可维护性,有效的数据筛选能显著减少代码缺陷,提升开发效率。

更清洁的AI训练数据,减少漏洞:Sonar的SonarSweep解析

The New Stack
The New Stack · 2026-06-11T12:00:00Z
谷歌将保存您的Lens照片、搜索实时录音和翻译音频用于人工智能训练

谷歌将更新搜索服务的历史设置,保存用户的搜索互动,包括使用Google Lens的图片、实时搜索录音和翻译语音。用户可以选择关闭此功能,谷歌表示这些数据将用于改进服务和个性化推荐。如果用户已阻止保存搜索历史,谷歌将继续保持该设置关闭。

谷歌将保存您的Lens照片、搜索实时录音和翻译音频用于人工智能训练

The Verge
The Verge · 2026-06-10T16:18:45Z
摩尔线程MusaCoder开源:首个基于国产全功能GPU全栈训练的代码大模型,性能比肩国际SOTA

摩尔线程发布了开源大模型MusaCoder,专为GPU底层算子生成设计,支持从PyTorch自动生成高性能CUDA/MUSA代码,提升开发效率。MusaCoder在KernelBench评测中表现优异,超越多款主流模型。其全链路训练依托国产MTT S5000集群,验证了国产GPU的强大能力,推动GPU编程和AI技术的创新与应用。

摩尔线程MusaCoder开源:首个基于国产全功能GPU全栈训练的代码大模型,性能比肩国际SOTA

实时互动网
实时互动网 · 2026-06-10T09:59:05Z
全球首个机器人训练楼盘开盘:30万套中国住宅,机器人拎包入住

大晓机器人与港中文MMLab推出Kairos-Homeworld,这是首个全屋三维生成与物体级交互框架,利用30万套中国住宅户型数据为机器人提供训练环境。该系统能够自动生成家庭场景,支持机器人进行家务任务训练,提升交互能力。同时,开源的Kairos 3.0-4B世界模型增强了机器人的理解与预测能力,推动具身智能的发展。

全球首个机器人训练楼盘开盘:30万套中国住宅,机器人拎包入住

量子位
量子位 · 2026-06-05T06:33:37Z
MiniCPM5-1B采用RL+OPD训练,多项复杂任务达SOTA;面向复杂医疗业务自动化:医疗智能体评测数据集 CHI-Bench

TACK 是 AI Laboratory for Molecular Engineering 于 2026 年发布的一个标准化知识库数据集与基准测试集,旨在解决现有 PROTAC 机器学习基准中数据稀缺、缺乏严格评估及覆盖范围有限的问题,广泛应用于 PROTAC...

MiniCPM5-1B采用RL+OPD训练,多项复杂任务达SOTA;面向复杂医疗业务自动化:医疗智能体评测数据集 CHI-Bench

HyperAI超神经
HyperAI超神经 · 2026-06-05T05:55:57Z
NVIDIA研究解锁先进抓取技术、更智能的自动驾驶和大规模代理训练

NVIDIA的研究展示了通过大规模训练提升机器人抓取、自动驾驶和虚拟代理能力的突破。GraspGen-X模型适应不同抓手,LCDrive加速自动驾驶决策,NitroGen在虚拟环境中训练代理,提升其适应性和表现。这些进展推动了物理AI和自主系统的发展。

NVIDIA研究解锁先进抓取技术、更智能的自动驾驶和大规模代理训练

NVIDIA Blog
NVIDIA Blog · 2026-06-03T15:00:57Z
语音增强中的自监督学习:从无配对训练到基础模型先验

语音增强(SE)面临数据、目标和任务等挑战,自监督学习(SSL)逐渐成为解决方案。SSL通过未配对数据学习和生成式方法,重塑了SE的训练目标。研究表明,SSL特征在增强任务中有效,未来将关注多任务统一增强、低信噪比生成模型及可控的语音生成。整体来看,SSL为SE提供了更强的先验和设计空间。

语音增强中的自监督学习:从无配对训练到基础模型先验

实时互动网
实时互动网 · 2026-06-03T06:35:16Z
机器人运控训练步入分钟级时代!清华AIR开源UniLab:3分钟训好人形,速度暴涨10倍,Mac上也能跑

清华大学智能产业研究院推出了全新的机器人强化学习训练架构UniLab,打破了传统依赖GPU的训练模式。UniLab通过将仿真解耦到CPU侧,实现了更高的训练效率,并已开源,未来将扩展为通用的机器人学习研究平台。

机器人运控训练步入分钟级时代!清华AIR开源UniLab:3分钟训好人形,速度暴涨10倍,Mac上也能跑

量子位
量子位 · 2026-06-02T03:57:21Z
时薪最高304元!马斯克xAI招募中文AI训练师,支持远程兼职

马斯克的人工智能公司xAI正在全球招聘“中文AI训练师”,以提升其大模型Grok的语音互动和多语言处理能力。该职位时薪35至45美元,工作灵活,适合寻求副业者。申请者需精通中文和英语,熟悉方言者优先,主要负责语音标注和录音采集等任务。

时薪最高304元!马斯克xAI招募中文AI训练师,支持远程兼职

TechWeb 全站精华
TechWeb 全站精华 · 2026-06-02T01:32:17Z
别光给Agent加Tool了,它根本选不明白!复旦×通义提出全新CUA训练范式

复旦大学与通义实验室联合提出ToolCUA,旨在优化计算机使用代理(CUA)在GUI与工具调用之间的选择。研究表明,直接连接工具未能提升模型性能,反而导致准确率下降。ToolCUA通过生成混合轨迹数据,帮助模型学习何时使用GUI或工具,从而提高任务执行效率。在OSWorld-MCP上的评测结果显示,ToolCUA取得46.85%的准确率,显著优于其他模型,展示了其在复杂任务中的有效性和灵活性。

别光给Agent加Tool了,它根本选不明白!复旦×通义提出全新CUA训练范式

量子位
量子位 · 2026-05-31T14:25:18Z
τ0-WM:最大规模预训练的开源具身世界模型来了

上海创智学院的罗剑岚团队发布了全球最大规模的开源预训练具身世界模型τ0-WM,使用了17800小时的真机遥操作数据。该模型通过评估多个候选动作,提升了机器人在复杂任务中的成功率,推动了预训练与后训练的结合。

τ0-WM:最大规模预训练的开源具身世界模型来了

量子位
量子位 · 2026-05-31T07:38:43Z

本文讨论了后训练中的强化学习,重点介绍马尔可夫决策过程(MDP)、轨迹、回报、策略、价值函数和优势函数。强调了在语言模型生成中,奖励通常在序列末尾出现,导致信用分配和稀疏奖励问题。通过定义和贝尔曼期望方程,探讨了将语言生成视为MDP及其策略优化的挑战。

【强化学习与大模型后训练】02|MDP、回报与贝尔曼方程

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-29T00:00:00Z

后训练是一个复杂的数据流水线,包含多个阶段,如SFT、奖励模型和策略优化。每个阶段旨在将预训练模型转变为更符合人类指令和偏好的模型。SFT主要调整回答格式,奖励模型提供训练信号,策略优化提升生成候选的能力。评测确保模型的安全性和准确性,整体流程强调数据回流和持续优化,以提升模型性能和可靠性。

【强化学习与大模型后训练】06|后训练全景:SFT → RM → RLHF → 评测

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-29T00:00:00Z

PPO(近端策略优化)通过裁剪目标和重要性采样比率解决策略梯度的信任域问题。文章探讨了PPO的实现细节,包括优势归一化、价值裁剪和KL惩罚,强调在多轮minibatch更新中保持策略稳定的重要性。训练日志分析有助于识别正常探索与策略失效的信号,并讨论了PPO在RLHF(人类反馈强化学习)中的应用,指出奖励模型和参考策略的影响。

【强化学习与大模型后训练】05|PPO 深度解剖:裁剪目标、KL 约束与实现陷阱

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-29T00:00:00Z

这篇文章讨论了监督微调(SFT)在语言模型训练中的重要性,强调数据质量、模板设计和损失函数的影响。SFT通过指令与回答对训练模型,确保模型能够有效生成助手回答。此外,SFT是后续强化学习(RLHF)的基础,强调样本去重、数据来源和模板一致性的重要性,以避免模型学习错误的行为模式。

【强化学习与大模型后训练】07|监督微调(SFT):指令数据、模板与训练细节

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-29T00:00:00Z

后训练是调整预训练模型以实现特定目标的方法,包括预训练、监督微调、奖励建模、策略优化和评测。风格对齐关注表达方式,能力激发关注任务成功率。RLHF通过人类偏好优化助手行为,DPO简化为离线分类损失,RLVR通过可验证奖励提升推理能力。

【强化学习与大模型后训练】01|系列总览:从 RL 到 LLM 后训练的地图

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-29T00:00:00Z

REINFORCE方法通过回报加权优化不可微奖励,但在语言模型中方差过高。Actor-Critic方法将策略与价值函数分开训练,利用广义优势估计(GAE)在Monte-Carlo回报与时间差分(TD)引导之间平衡偏差和方差。Critic帮助构造优势估计,降低策略更新的方差。GAE通过加权多步TD残差,结合折扣因子B3和BB控制未来奖励的影响和优势估计的稳定性。

【强化学习与大模型后训练】04|Actor-Critic 与优势函数、GAE

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-29T00:00:00Z

本文讨论了策略梯度方法在语言模型训练中的应用,重点介绍了REINFORCE算法。通过log-derivative技巧,策略梯度能够优化期望回报,而无需对不可微奖励求导。文章还分析了高方差问题及其在长序列和稀疏奖励中的影响,并介绍了RLOO等现代改进方法,以降低方差并提高训练稳定性。

【强化学习与大模型后训练】03|策略梯度与 REINFORCE

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-05-29T00:00:00Z
用 Amazon SageMaker AI 与 Qualcomm AI Hub 打通从云端训练到端侧神经处理单元(NPU)的交付闭环

本文介绍了如何结合Amazon SageMaker AI与Qualcomm AI Hub,实现从云端训练到端侧NPU的端到端工作流。通过微调模型并在真实设备上进行编译与验证,整个过程可在约20分钟内完成,显著缩短了AI项目的上线时间。以手机人像分割为例,最终在Galaxy S24上实现了13.59毫秒的推理延迟,展示了该方案的高效性与实用性。

用 Amazon SageMaker AI 与 Qualcomm AI Hub 打通从云端训练到端侧神经处理单元(NPU)的交付闭环

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-05-28T09:54:27Z

5月17日,一名海外玩家Mixel34P制作了一个名为“每只宝可梦都有人爱”(Every Pokémon is someone's...

3万名训练师,用2天时间证明了每只宝可梦都有人爱

游戏研究社
游戏研究社 · 2026-05-27T16:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码