小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

查德·福勒研究了本地大型语言模型(LLM)生成代码的效果。他调整了代码以适应本地模型,并测试了多个模型的表现。大多数模型的结果与他的研究相似,但glm-4.7-flash模型表现不佳,输出冗长且常常偏离正确答案。作者希望通过此实验鼓励更多人参与改进和贡献数据,以更好地理解这些模型的能力。

研究:大型语言模型的默认语言是什么?

Neward & Asocciates, LLC Blog
Neward & Asocciates, LLC Blog · 2026-06-03T00:00:00Z
Harness工程来自loser死磕:每次失败都变成永久规则

本文探讨了Harness工程学在AI编程助手中的重要性。Harness包括模型的提示词、工具和反馈机制,能够有效提升模型表现。每次失败都转化为永久规则,帮助模型不断改进。设计Harness时需明确目标行为,并配置相应工具,确保每个组件都有明确目的。最终,Harness将成为动态系统,适应模型进化,提升AI助手的整体效率。

Harness工程来自loser死磕:每次失败都变成永久规则

极道
极道 · 2026-05-10T00:23:00Z
Claude Code难度等级Low/Medium/High/Max完整对比与使用指南

Claude Code的难度等级分为Low、Medium、High、xhigh和Max。实际使用中,良好的上下文比高难度更重要。提高难度不一定能提升模型表现,反而可能导致输出质量下降。不同模型对难度的响应不同,选择合适的难度和清晰的上下文能显著提升工作效率。建议从Medium或High开始,确保上下文清晰,避免复杂性。

Claude Code难度等级Low/Medium/High/Max完整对比与使用指南

极道
极道 · 2026-04-18T22:11:00Z
减少灌输以容纳更多:训练数据修剪提升事实记忆能力

本文探讨了大语言模型(LLMs)在记忆事实知识方面的挑战,并提出通过训练数据修剪来提高事实准确性。研究表明,当训练数据中的信息量超过模型容量时,事实准确性会下降。作者提出了一种基于训练损失的数据选择方案,能够有效提升模型的事实记忆能力,甚至使小模型的表现接近大模型。

减少灌输以容纳更多:训练数据修剪提升事实记忆能力

Apple Machine Learning Research
Apple Machine Learning Research · 2026-04-13T00:00:00Z
绩效改进计划 — 稳固的融合

2026年3月4日,GPT-4o-mini因评分不足被纳入绩效改进计划(PIP)。在Claude的指导和工具改进下,模型在基准测试中获得满分10/10。文章强调了清晰指令和宽容工具对提升模型表现的重要性,以及同理心在管理中的价值。

绩效改进计划 — 稳固的融合

Lifelog — A Mythology-Driven Devlog
Lifelog — A Mythology-Driven Devlog · 2026-03-04T21:05:23Z
链式思维在推理中的潜力:对轨迹动态的深入探讨

链式思维(CoT)提示是引导大型语言模型推理的标准技术。本文分析了数学问题中的CoT轨迹及其对最终答案的影响,发现CoT的潜力与正确答案的可能性相关,表现出非单调性和难以解释的尖峰。此外,部分CoT显著提升了较弱模型的表现,表明其机制具有可转移性。

链式思维在推理中的潜力:对轨迹动态的深入探讨

Apple Machine Learning Research
Apple Machine Learning Research · 2026-02-24T00:00:00Z
VisionWeaver:从“现象识别”到“病因诊断”,开启AI视觉幻觉研究新篇章

VisionWeaver及其诊断工具VHBench-10有效解决了大型视觉语言模型中的“幻觉”问题。通过动态协作多个视觉专家,系统性诊断视觉能力短板,显著降低幻觉率,提升模型表现,为多模态AI的可靠性提供新路径。

VisionWeaver:从“现象识别”到“病因诊断”,开启AI视觉幻觉研究新篇章

实时互动网
实时互动网 · 2025-11-14T06:12:59Z

全球首个AI投资大赛落幕,阿里千问Qwen以20%收益夺冠,DeepSeek位居第二,美系模型普遍亏损,GPT-5仅剩三成。比赛考验模型的理解力和执行稳定性,Qwen表现优异,成为首个在真实交易中获胜的AI。

全球首个AI投资大赛落幕!阿里Qwen 20%收益夺冠,GPT-5亏到只剩三成

量子位
量子位 · 2025-11-04T08:28:36Z
Switchboard-Affect:来自对话语音的情感感知标签

本文探讨了语音情感识别(SER)模型的潜力,强调自然对话语料库的重要性。研究团队使用Switchboard语料库,训练了众包标注的情感(如愤怒、快乐等)和维度属性(如激活度、效价)。结果显示模型在不同情感类别上的表现差异,尤其愤怒情感的泛化能力较差。研究强调使用自然情感变化数据集进行评估的重要性,并发布了SWB-Affect标签以促进进一步分析。

Switchboard-Affect:来自对话语音的情感感知标签

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-17T00:00:00Z
AI 智能体的上下文工程:实用指南

上下文工程是一种新策略,旨在优化输入Token以引导AI模型产生预期行为。与提示词工程不同,它在有限的注意力预算下选择信息,以提升模型表现和效率。有效的上下文管理对长时程任务至关重要,涉及压缩、结构化笔记和子智能体架构等技术。

AI 智能体的上下文工程:实用指南

宝玉的分享
宝玉的分享 · 2025-10-01T01:28:13Z
NVIDIA AI 发布 ProRLv2:通过扩展强化学习 RL 推进语言模型推理

ProRLv2是NVIDIA最新的强化学习版本,旨在提升大语言模型的推理能力。通过将训练步数从2000增加到3000,ProRLv2显著改善了模型在数学、编码和逻辑任务上的表现,体现了持续训练和正则化对学习和泛化能力的影响。

NVIDIA AI 发布 ProRLv2:通过扩展强化学习 RL 推进语言模型推理

实时互动网
实时互动网 · 2025-08-13T02:18:54Z
变换器模型中的混合专家架构

混合专家(MoE)架构在变换器模型中引入稀疏性,允许模型高效扩展而不增加计算成本。MoE通过多个专家模型处理输入,使用路由器选择合适的专家。每个变换器层都有独立的专家集,激活部分参数以提升性能。MoE的实现包括专家网络、路由机制和输出组合,能够在保持低计算资源的同时提升模型表现。

变换器模型中的混合专家架构

MachineLearningMastery.com
MachineLearningMastery.com · 2025-07-01T03:19:28Z

本研究提出了一种结合大语言模型与图像生成模型的语义进化框架,旨在解决模型对特定语义概念的敏感性问题,识别影响模型表现的敏感语义,并验证了该方法的有效性。

Blind Spot Navigation: Evolutionary Discovery of Sensitive Semantic Concepts in Large Visual Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本文研究中介标记的语义对模型表现的影响,发现模型即使在正确推理轨迹上也会生成无效轨迹,并且在使用噪声轨迹时表现良好,表明中介标记与解决方案的准确性关系不强。

Beyond Semantics: The Unreasonable Effectiveness of Groundless Intermediate Markers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

ChatGPT的新功能“深度研究”现已能连接GitHub,用户可以实时获取和分析代码库数据。该功能仍在测试中,未来将向更多用户开放。同时,OpenAI推出了强化微调(RFT),以提升模型在复杂领域的表现。

刚刚,ChatGPT的深度研究可以连接GitHub了!网友:这是真·RAG

量子位
量子位 · 2025-05-09T00:30:05Z

一名开发者接受了优化器的任务,旨在核范数下最小化近似误差并训练NanoGPT模型。尽管对任务理解不足,他记录了学习过程和实验结果,最终发现优化方向错误,导致模型表现不佳。

在核范数下推导和实现优化器

Nathan Chen
Nathan Chen · 2025-05-04T00:00:00Z

本研究提出了一种低秩自适应结构先验(LoASP)方法,旨在解决糖尿病性视网膜病分级中的领域泛化问题,提升模型在不同数据源上的表现,并增强可解释性,为诊断提供新思路。

Low-Rank Adaptive Structural Prior for Generalizable Diabetic Retinopathy Grading

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-27T00:00:00Z

本研究提出了FreshStack,一个自动构建技术文档检索评估基准的框架。该框架通过自动收集文档和生成相关内容,提升了检索质量,显示出当前模型在此基准上的表现有待改善。

FreshStack:构建评估技术文档检索的真实基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

本文探讨了大型推理模型在推理路径优化方面的不足,提出了一种受蒙特卡罗树搜索启发的追溯搜索算法,以提炼高质量推理路径。研究表明,该方法显著减少了推理长度并提升了模型表现,展示了搜索算法在推理模型中的改进潜力。

Retro-Search: Exploring Untaken Paths for Deeper and More Efficient Reasoning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-06T00:00:00Z

本研究提出了一种合成数据生成流程,旨在解决高质量意大利语训练数据获取的难题。研究表明,经过合成数据微调的模型在测试集上的表现优于其他模型,显示了合成数据在语言检测中的应用潜力。

Human Dialogue, Real Results: Enhancing Language Detection through Synthetic Data

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-31T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码