标签

 大模型 

相关的文章:

本列表汇集了关于大模型技术在各个领域应用的最新研究与实践,包括软件测试、视频创作及电商等,探讨其发展趋势与未来潜力。

原文中文,约5700字,阅读约需14分钟。发表于:
阅读原文

大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

将强化学习训练扩展到医学、化学、法律、心理学、经济学等多学科

研究团队提出了RLVR框架,将强化学习应用于医学、法律等多个领域,使用7B奖励模型显著提升了复杂任务的表现。通过软奖励机制,模型在处理非结构化答案时更加灵活,无需特定领域的标注。

原文中文,约1600字,阅读约需4分钟。发表于:
阅读原文

为什么劝大家2025一定投资学习AI大模型

Deepseek全球爆火,让AI技术又一次进入了快速发展期! 百度、字节、腾讯等等巨头互联网公司,纷纷接入De […]

运维派是国内早期IT运维社区,随着AI技术发展和企业数字化转型需求增加,大模型应用工程师职位需求激增。马哥教育推出《大模型应用与工程实践》课程,帮助学员提升技能,适应行业趋势。

原文中文,约2400字,阅读约需6分钟。发表于:
阅读原文

Gemini 2.5 Pro, 新一代的最佳编程 AI 大模型

最近在和好哥们 MT 在给 Emacs 开发 AI 插件 emigo,在 Emacs 上复刻 Cursor 的 Agent Mode,并结合 Emacs 的生态实现全键盘的编程 Agent。

Gemini 2.5 Pro 是一款新一代编程 AI 大模型,支持 100 万 Tokens 的上下文,能够更好地理解和重构大型项目。用户可通过生成 API Key 集成到 OpenRouter,体验其强大功能。

原文中文,约900字,阅读约需3分钟。发表于:
阅读原文

17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤

无法记答案的动态基准测试

研究人员发布了GameBoT评测基准,比较17款大模型在8款棋牌游戏中的表现。通过评估模型的思考过程,GameBoT提供了更细致的分析,避免了模型记忆答案。最终,o3-mini表现最佳,而DeepSeek R1在思考步骤中的得分较低,显示思考过程不够清晰。

原文中文,约4800字,阅读约需12分钟。发表于:
阅读原文

卖货主播大模型:激发用户购买意愿 | 开源日报 No.553

tj-actions/changed-files changed-files 是一个 GitHub Action,用于轻松跟踪与目标分支、当前分支(前一次提交或最后的远程提交)、多个分支或自定义提交相关的所有更改文件和目录。 快速执行,平均耗时 0-10 秒。 利用 GitHub REST API 或 Git 原生 diff...

changed-files 是一个 GitHub Action,用于跟踪分支相关的更改文件,支持多种匹配模式。awesome-sysadmin 提供适合 IT 专业人士的系统管理工具资源。Streamer-Sales 是一款卖货主播大模型,具备多种功能。MagicEdit 是高保真的视频编辑工具,支持多种编辑应用。prompt2model 能根据自然语言生成小型模型。

卖货主播大模型:激发用户购买意愿 | 开源日报 No.553
原文中文,约900字,阅读约需3分钟。发表于:
阅读原文
原文中文,约1700字,阅读约需4分钟。发表于:
阅读原文

聊聊大模型推理加速:从数据到系统的技术概要

随着 LLMs 在各行各业的广泛应用,如何在保证模型性能的前提下实现高效推理已成为重点挑战之一。为了应对这些挑战,学术界和工业界提出了多种优化方案。本文将介绍了若干 LLMs 的推理加速相关的关键技术。如有错误或不准确之处,欢迎指正。

发表于:
阅读原文

蚂蚁国产GPU训练大模型细节曝光!Ling模型研发负责人回应

国产芯片的训练成本与英伟达相当甚至更低,

蚂蚁公司Ling模型研发负责人表示,国产GPU训练大模型的成本与英伟达相当或更低。近期技术论文显示,蚂蚁的MoE大模型在国产GPU上实现高效训练,受到广泛关注。张志强分享了训练过程中的经验,强调训练稳定性和成本优化的重要性,并指出国产加速卡的潜力。

原文中文,约5000字,阅读约需12分钟。发表于:
阅读原文
原文中文,约1200字,阅读约需3分钟。发表于:
阅读原文