小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
沉浸式翻译 immersive translate
代理型大型语言模型系统为何失败:控制、成本与可靠性

近年来,代理AI系统如AutoGPT和BabyAGI展示了大型语言模型在多步骤任务中的能力,但在实际应用中面临控制、确定性和边界定义的挑战,导致表现不如预期。有效设计应优先考虑控制和可观察性,以确保系统的可靠性和合规性。

代理型大型语言模型系统为何失败:控制、成本与可靠性

The New Stack
The New Stack · 2026-01-22T18:00:45Z
对话:大型语言模型与什么/如何循环

软件开发的主要挑战在于构建能够适应变化的系统。许多人误以为编程仅是将需求转化为代码,实际上,真正的挑战在于如何有效管理系统以应对变化。

对话:大型语言模型与什么/如何循环

Martin Fowler
Martin Fowler · 2026-01-21T14:40:00Z
为什么AI需要GPU和TPU:大型语言模型背后的硬件

Granola是一款AI笔记工具,帮助用户在会议中保持专注,将对话转化为实际进展。它支持生成任务、搜索项目对话和创建自定义提示,适用于多种会议应用。文章还讨论了GPU和TPU在现代大语言模型中的重要性,强调并行计算和内存带宽对AI性能的影响。

为什么AI需要GPU和TPU:大型语言模型背后的硬件

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-01-19T16:30:29Z
小型语言模型与大型语言模型:为何小型AI模型在商业中更具优势

企业AI继承了消费级AI的模型,但不适用于大多数B2B问题。企业工作流程在封闭系统中运作,小型语言模型(SLM)更能满足特定任务的需求,提供更高的准确性和效率。SLM专注于特定领域,避免了大型模型的高成本和复杂性。

小型语言模型与大型语言模型:为何小型AI模型在商业中更具优势

The New Stack
The New Stack · 2026-01-16T17:00:21Z
如何利用大型语言模型进行持续的创意代码重构

AI辅助的IDE通过模型上下文协议(MCP)改变了重构方式,能够识别多种模式并进行转换。用户可以通过示例指导AI进行代码清理和组件提取,减少重复,提高代码质量,降低软件责任。开发者可利用AI验证新想法,实现更简洁的代码。

如何利用大型语言模型进行持续的创意代码重构

The New Stack
The New Stack · 2026-01-12T18:00:47Z
大型语言模型评估指南

安全授权MCP服务器访问复杂,涉及PKCE、范围、同意流程及撤销访问的方法。LLM评估面临概率性挑战,需要系统化评估方法。自动与人工评估各有优缺点,应结合使用。建立评估流程并定期迭代,以确保模型性能。

大型语言模型评估指南

ByteByteGo Newsletter
ByteByteGo Newsletter · 2026-01-12T16:30:42Z
谷歌发布 Gemma Scope 2 以加深对大型语言模型行为的理解

Gemma Scope 2 是一款工具,旨在解析 Gemini 3 模型的行为,帮助研究人员分析模型、审计 AI 代理并制定安全策略。它结合稀疏自编码器和转码器,允许研究人员检查模型内部表示,识别输出与内部状态的差异,并改进了训练技术,特别针对聊天机器人的复杂行为分析。

谷歌发布 Gemma Scope 2 以加深对大型语言模型行为的理解

InfoQ
InfoQ · 2026-01-12T10:00:00Z
发布FACTS基准套件以评估大型语言模型的事实准确性

FACTS基准套件发布,旨在系统评估大型语言模型的事实准确性。该套件由FACTS团队与Kaggle合作开发,扩展了事实基础评估,新增参数、搜索和多模态三个基准,共包含3513个示例,评估模型在不同场景下的准确性。Gemini 3 Pro模型得分最高,但整体准确率未超过70%。该基准旨在支持研究,提供共享的事实可靠性参考。

发布FACTS基准套件以评估大型语言模型的事实准确性

InfoQ
InfoQ · 2026-01-12T07:55:00Z
DeepMMSearch-R1:赋能多模态大型语言模型在多模态网页搜索中的应用

DeepMMSearch-R1是一种多模态大型语言模型,支持按需多轮网页搜索,并能动态生成图像和文本查询。它通过相关图像片段启动搜索,并根据检索结果调整文本查询,从而提高搜索效率。该模型采用两阶段训练流程,并引入新的多模态VQA数据集,显示出在知识密集型基准测试中的优越性。

DeepMMSearch-R1:赋能多模态大型语言模型在多模态网页搜索中的应用

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-12T00:00:00Z
搜索增强的大型语言模型中的过度搜索

搜索增强的大型语言模型在知识密集型任务中表现优异,但常因过度搜索导致计算效率低下和幻觉现象。研究表明,搜索能提高可回答查询的准确性,但对不可回答的查询则有负面影响。过度搜索在复杂推理和多轮对话中尤为明显。我们提出了“每个正确性令牌”(TPC)作为评估指标,并发布了OverSearchQA基准以推动相关研究。

搜索增强的大型语言模型中的过度搜索

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-12T00:00:00Z
LangChain4j - 一个开源Java库,提供统一API以集成大型语言模型和向量数据库...

LangChain4j是一个开源Java库,旨在简化大型语言模型与向量数据库在企业Java应用中的集成。它提供统一API、连接器和示例,支持检索增强生成(RAG)管道、工具调用和代理工作流,帮助Java开发者在熟悉的环境中利用模型能力。

LangChain4j - 一个开源Java库,提供统一API以集成大型语言模型和向量数据库...

云原生
云原生 · 2026-01-11T12:48:39Z
超越Python:为何大型语言模型需要更稳定的开源代码

未来大型语言模型(LLM)可能无需人类干预,直接用二进制编写代码。目前,LLM偏好Python,但JavaScript和Java也受欢迎。研究显示,LLM在选择编码库时倾向于成熟选项。随着开源模型的兴起,LLM生成的代码需更易维护,减少不确定性,未来可能需要建立代码“种子库”以确保训练数据的稳定性。

超越Python:为何大型语言模型需要更稳定的开源代码

The New Stack
The New Stack · 2026-01-10T16:00:11Z
逐步量化大型语言模型:将FP16模型转换为GGUF

量化技术可以缩小大型语言模型的体积,使其在个人电脑上运行成为可能。本文介绍了如何将FP16模型转换为GGUF格式,包括模型精度类型、使用huggingface_hub获取模型、量化步骤及上传到Hugging Face的方法。量化通过降低存储精度显著减少内存需求,使大型模型更易于使用。

逐步量化大型语言模型:将FP16模型转换为GGUF

MachineLearningMastery.com
MachineLearningMastery.com · 2026-01-08T11:00:38Z

这就是为什么.NET团队投资了一组扩展,这些扩展为使用模型提供一致的API,这些API是通用的但又是灵活的。它还支持中间件等场景,以减轻日志记录、跟踪、注入行为和您可能使用的其他自定义流程的负担。"礼宾代理"可能包括具有提供天气、事件和本地商业信息的工具的推理模型,以及能够生成带有基于转弯指令的地图的专用模型。在图中,单词"star"的语义含义可以根据其与"天体"(夜晚的星星)概念和"演员"...

2026 年在 C# 中使用大型语言模型进行生成式 AI

dotNET跨平台
dotNET跨平台 · 2026-01-08T00:03:11Z
掌握大型语言模型工具调用:连接模型与现实世界的完整框架

本文介绍了将大型语言模型与外部工具连接的三大支柱框架:数据访问、计算和行动。工具调用使聊天机器人能够执行实际操作,开发者可根据需求选择和连接工具。有效的代理系统需在这三方面取得平衡,以实现信息收集、决策和任务执行。

掌握大型语言模型工具调用:连接模型与现实世界的完整框架

MachineLearningMastery.com
MachineLearningMastery.com · 2026-01-06T11:00:39Z
英特尔DeepMath推出智能架构,提高大型语言模型的数学能力

英特尔推出了DeepMath,一个基于Qwen3-Thinking的轻量级数学问题解决代理。它通过生成小型Python脚本来增强数学推理,减少错误和输出长度。DeepMath在多个数据集上表现优异,使用GRPO训练提高准确性,并在沙箱环境中安全执行代码。该工具已在GitHub和Hugging Face上发布。

英特尔DeepMath推出智能架构,提高大型语言模型的数学能力

InfoQ
InfoQ · 2026-01-05T21:00:00Z
CSGHub - 一个开源平台,用于大型语言模型资产和生命周期管理,提供SaaS服务…

CSGHub是一个开源平台,专注于管理大型语言模型及相关资产,提供免费SaaS和本地部署选项,支持Python SDK和多种接口,适合需要集中管理模型和数据的团队与企业。

CSGHub - 一个开源平台,用于大型语言模型资产和生命周期管理,提供SaaS服务…

云原生
云原生 · 2026-01-05T07:57:52Z
在Kubernetes上通过远程MCP架构扩展大型语言模型工具

随着人工智能系统从实验阶段转向生产,开发者发现大型语言模型(LLM)在单台笔记本电脑上无法扩展。早期的本地模型上下文协议(MCP)服务器在实际工作流中表现不佳,导致崩溃和版本更新问题。为了解决这些问题,MCP工具被迁移到Kubernetes上,以实现可扩展性、可观察性和安全性,支持生产环境中的AI系统。

在Kubernetes上通过远程MCP架构扩展大型语言模型工具

The New Stack
The New Stack · 2025-12-24T18:00:07Z
Toad:一个统一的CLI工具,旨在为所有大型语言模型提供比现有工具更优的用户体验

Will McGugan在休假期间开发了Toad,这是一个统一的终端图形界面工具,支持多种AI代理,简化用户体验,允许通过单一应用程序无缝运行多个AI工具,并提供Markdown响应和交互式命令功能。该工具已开源,旨在提升AI辅助编码的日常使用。

Toad:一个统一的CLI工具,旨在为所有大型语言模型提供比现有工具更优的用户体验

InfoQ
InfoQ · 2025-12-22T12:12:00Z
Mini-SGLang - 一个轻量级高性能的大型语言模型推理框架…

Mini-SGLang是一个轻量级高性能推理框架,旨在简化大型语言模型的推理系统,支持本地和在线部署,提供OpenAI兼容API,适合大规模在线推理和批量测试。

Mini-SGLang - 一个轻量级高性能的大型语言模型推理框架…

云原生
云原生 · 2025-12-18T05:19:08Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码