标签

 语言模型 

相关的文章:

本列表汇集了关于语言模型的最新研究成果与应用实例,涵盖微调技术、视觉语言模型的评估及智能系统的创新,助力深入理解语言模型的前沿动态。

增强语言模型的能力:我在使用工具测试大型语言模型时的收获

LLMs are great at creative writing and language tasks, but they often stumble on basic knowledge retrieval and math. Popular tests like counting r's in "strawberry" or doing simple arithmetic...

大型语言模型(LLMs)在创意写作和语言任务上表现优异,但在基础知识检索和数学计算方面常出现错误。使用工具可以提升模型表现。测试表明,尽管一些小模型在使用工具时能正确计算,但它们通常不愿意使用工具,可能需要更多训练以认识自身局限。

增强语言模型的能力:我在使用工具测试大型语言模型时的收获
原文英文,约800词,阅读约需3分钟。发表于:
阅读原文

阿里巴巴Qwen 3是迄今为止最快的语言模型,微软的字节级开源模型,DeepSeek Prover在数学方面表现出色,更多精彩内容

Hello AI Enthusiasts! Welcome to the seventeenth edition of "This Week in AI Engineering"! Alibaba's Qwen3 sets new benchmark records with dual-mode thinking, Microsoft's BitNet runs AI with just...

本周AI工程动态:阿里巴巴Qwen3创下新纪录,微软BitNet以1位权重节能96%,Adobe Firefly与GPT-4o生成相似图像,DeepSeek Prover V2在数学证明上表现优异,OpenAI在ChatGPT中整合购物推荐。

阿里巴巴Qwen 3是迄今为止最快的语言模型,微软的字节级开源模型,DeepSeek Prover在数学方面表现出色,更多精彩内容
原文英文,约1700词,阅读约需6分钟。发表于:
阅读原文

人工智能时间旅行者?语言模型在历史准确性方面的挑战

This is a Plain English Papers summary of a research paper called AI Time Traveler? Language Models Struggle with Historical Accuracy. If you like these kinds of analysis, you should join...

研究探讨语言模型是否能准确反映历史观点,评估GPT模型对1914年语言和观点的捕捉能力。结果表明,现代数据训练的模型常混入当代观点,提供特定时期的例子有助于提高历史准确性。

人工智能时间旅行者?语言模型在历史准确性方面的挑战
原文英文,约200词,阅读约需1分钟。发表于:
阅读原文

扩散式语言模型AI如何加速推理

Many of today’s most well-known large language models (LLMs) are autoregressive AI models, which are designed to generate text sequentially, The post How Diffusion-Based LLM AI Speeds Up Reasoning...

LLaDA是一种新型的基于扩散的语言模型,采用动态掩码技术,支持双向生成,克服了传统自回归模型的局限性。通过逐步掩码和去掩码,LLaDA在文本生成和推理任务中表现优异,效率和速度均有所提升,可能引领语言模型的新方向。

扩散式语言模型AI如何加速推理
原文英文,约900词,阅读约需4分钟。发表于:
阅读原文

大规模语言模型的低精度训练:方法、挑战与机遇

本研究解决了大规模语言模型训练所需硬件资源巨大带来的效率和扩展性障碍,介绍了低精度训练技术作为解决方案。论文提供了对现有低精度训练方法的全面回顾,并将其根据数值格式进行系统分类,以促进研究者对该领域的理解和应用。研究表明,低精度训练在提高训练效率方面具有显著潜力,同时指出未来的研究方向。

发表于:
阅读原文

语言模型对齐中的引导限制

本文研究了引导向量作为对齐机制的局限性,尤其是在复杂场景中的应用效果。我们提出了一种框架,通过变压器钩干预和反义词功能向量评估提示结构和上下文复杂性对引导效果的影响。研究结果表明,引导向量在特定对齐任务中表现良好,但在通用对齐时可能不够稳健。

发表于:
阅读原文
发表于:
阅读原文

赋能代理视频分析系统的视视频语言模型

本研究针对现有视频分析系统在开放性分析场景中的适应性不足问题,提出了一种新颖的基于视频语言模型(VLM)的系统AVA。AVA通过实时构建事件知识图谱(EKGs)和代理检索生成机制,显著提高了在复杂查询中的表现,其在多个基准测试中的表现均超越了现有系统,展示了在超长视频内容处理中的潜在影响。

本研究提出了一种新的视频分析系统AVA,基于视频语言模型(VLM),通过实时构建事件知识图谱(EKGs)和代理检索生成机制,显著提升了复杂查询的性能,超越了现有系统。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文

深度搜索R1发布100天后的跟踪调查:复现研究及推理语言模型的新方向

本研究解决了对DeepSeek-R1及其相关模型开放性不够的缺失,旨在通过复现研究展示其杰出性能。论文重点探讨了监督微调(SFT)和基于可验证奖励的强化学习(RLVR)这两个方向的研究进展,揭示了在数据准备及方法设计方面的重要发现,助力未来研究发展。期待本报告能激发对推理语言模型的进一步探索和应用潜力。

本研究复现了DeepSeek-R1模型,探讨了监督微调和基于可验证奖励的强化学习的进展,强调数据准备和方法设计的重要性,以促进未来研究的发展。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文

多模态语言模型作为文本到图像模型评估者

本研究针对文本到图像生成模型(T2I)自动评估基准的不足提出了多模态大型语言模型(MLLM)作为评估代理的方法。我们提出了多模态文本到图像评估框架(MT2IE),该框架能有效生成评估提示并与现有基准相匹配,同时显示出与人类判断的更高相关性,显著提高了评估效率。

发表于:
阅读原文