标签

 语言模型 

相关的文章:

本列表汇集了关于语言模型的最新研究成果与应用案例,涵盖模型优化、序列建模及其在各领域的实际应用,助力深入理解语言模型的前沿动态。

语言模型到底能记忆多少内容?Meta 的新框架定义了比特级的模型容量

现代语言模型的记忆行为面临越来越多的质疑。例如,一个拥有 80 亿个参数的转换器,需要用 15 万亿个词元进行训练,研究人员开始质疑这些模型是否能够以有意义的方式记忆训练数据。数据...

AI生成摘要 研究者质疑现代语言模型的记忆行为,提出新方法评估模型对数据点的理解,区分非预期记忆与泛化。实验表明,GPT系列模型的记忆容量约为3.6位/参数,且随着训练集增大,记忆力下降。该研究为理解模型行为提供了框架,推动未来模型评估与隐私研究。

语言模型到底能记忆多少内容?Meta 的新框架定义了比特级的模型容量
原文中文,约1500字,阅读约需4分钟。发表于:3 天前
阅读原文
发表于:4 天前
阅读原文

8k长序列建模,蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂

阿布扎比 Inception AI 研究所与硅谷 Cerebras Systems 公司的联合研究团队开发了 Prot42 ——首个仅依赖蛋白质序列信息、无需 3D 结构输入的蛋白质语言模型(PLMs)家族,实现了长序列建模与高亲和力结合剂生成,为蛋白质设计领域带来颠覆性突破。

AI生成摘要 蛋白质结合剂在疾病诊断和药物递送中至关重要。阿布扎比和硅谷的研究团队提出的新模型Prot42,仅依赖蛋白质序列生成高亲和力结合剂,显著提高了蛋白质设计的效率。

原文中文,约6300字,阅读约需15分钟。发表于:5 天前
阅读原文

苹果设备和服务器基础语言模型的更新

With Apple Intelligence, we're integrating powerful generative AI right into the apps and experiences people use every day, all while protecting their privacy. At the 2025 Worldwide Developers...

AI生成摘要 苹果在2025年全球开发者大会上推出新一代语言基础模型,增强Apple Intelligence功能,支持15种语言,并优化在Apple硅上的运行效率。新框架为开发者提供直接访问模型的能力,旨在提升隐私保护和生成AI应用。

苹果设备和服务器基础语言模型的更新
原文英文,约4400词,阅读约需16分钟。发表于:6 天前
阅读原文
发表于:7 天前
阅读原文

Dev Proxy v0.28 具备语言模型使用和成本跟踪功能

The latest version of Dev Proxy introduces a new ability to help you understand language models’ usage and costs in your applications, alongside many improvements to mocking, TypeSpec generation,...

AI生成摘要 Dev Proxy v0.28发布,新增OpenAITelemetryPlugin以跟踪语言模型使用和成本,改进TypeSpec生成和插件灵活性,支持JSONC,增强OpenAI有效载荷支持,并修复多个bug。同时简化了与.NET Aspire的集成,提升开发效率。

Dev Proxy v0.28 具备语言模型使用和成本跟踪功能
原文英文,约1000词,阅读约需4分钟。发表于:9 天前
阅读原文

NVIDIA AI 发布 Llama Nemotron Nano VL:专为文档理解而优化的紧凑型视觉语言模型

NVIDIA 推出了Llama Nemotron Nano VL,这是一种视觉语言模型 (VLM),旨在高效、精准地处理文档级理解任务。该版本基于 Llama 3.1 架构构建,并...

AI生成摘要 NVIDIA推出了Llama Nemotron Nano VL,这是一种高效的视觉语言模型,专注于文档理解,基于Llama 3.1架构,结合轻量级视觉编码器,支持多模态输入,优化标记推理。该模型在OCRBench v2中表现优异,适用于自动文档问答和智能OCR等应用。

NVIDIA AI 发布 Llama Nemotron Nano VL:专为文档理解而优化的紧凑型视觉语言模型
原文中文,约1500字,阅读约需4分钟。发表于:10 天前
阅读原文

提升视觉语言模型的链式思维推理

Chain-of-thought (CoT) reasoning in vision language models (VLMs) is crucial for improving interpretability and trustworthiness. However, current training recipes often relying on datasets...

AI生成摘要 链式思维推理在视觉语言模型中至关重要,但现有训练方法依赖短注释,导致推理泛化差。本文提出两阶段后训练策略:首先用GPT-4o生成增强短答案,然后利用短答案作为强化学习的奖励,优化模型推理。实验表明,该方法显著提升了推理能力和答案预测的泛化性。

提升视觉语言模型的链式思维推理
原文英文,约200词,阅读约需1分钟。发表于:10 天前
阅读原文
发表于:10 天前
阅读原文
发表于:10 天前
阅读原文