小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
DeepSeek-v3.1 模型现已在 Amazon Bedrock 可用

AWS在Amazon Bedrock推出DeepSeek-V3.1模型,支持思考模式和非思考模式,增强多语言能力和复杂任务处理,特别适用于代码生成和代理式人工智能工具,全球企业可通过AWS控制台访问和测试该模型。

DeepSeek-v3.1 模型现已在 Amazon Bedrock 可用

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-12-01T09:41:48Z
通过像素级回退克服词汇限制

本文提出了一种无词汇编码器,通过将文本转化为像素生成输入嵌入,增强预训练语言模型。实验结果表明,该方法在机器翻译和跨语言迁移方面显著优于基于分词的方法,同时提升了单语模型的多语言能力,并减少了解码延迟。

通过像素级回退克服词汇限制

Apple Machine Learning Research
Apple Machine Learning Research · 2025-07-14T00:00:00Z
DeepSeek-R1 API:大语言模型接口详解

DeepSeek-R1 API 是一款高性能的大型语言模型,支持文本生成、代码辅助和知识问答等多种自然语言处理任务,具备长上下文支持和多语言能力,适合开发者快速构建智能应用。

DeepSeek-R1 API:大语言模型接口详解

APISpace
APISpace · 2025-07-10T02:29:37Z
Gemma 3支持视觉语言理解、长上下文处理和改进的多语言能力

谷歌开源的生成性人工智能模型Gemma 3具备视觉语言理解、长上下文处理和多语言能力。新特性包括减少的KV缓存内存、自定义Sigmoid损失的视觉编码器,以及改进的图像处理算法。Gemma 3支持高达128k的上下文,性能优于前代模型,适合单个消费者GPU或TPU主机。

Gemma 3支持视觉语言理解、长上下文处理和改进的多语言能力

InfoQ
InfoQ · 2025-05-20T22:15:00Z

本研究利用稀疏自编码器(SAE)分析大型语言模型的多语言能力,克服了传统方法的局限性。研究表明,SAE特征与特定语言相关,去除这些特征可提升语言控制能力。

Revealing Linguistic Features in Large Language Models through Sparse Autoencoders

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z
微软原生1位大型语言模型有望为日常CPU带来高效的生成式人工智能

微软研究人员推出了BitNet b1.58 2B4T,这是首个使用1位权重原生训练的大型语言模型。该模型在计算成本和硬件需求上显著低于全精度模型,同时在多项任务上表现相当。BitNet通过自定义的BitLinear层和量化技术,减小了模型大小并提高了训练稳定性。此外,微软还开发了专用推理库bitnet.cpp,以支持1位模型的高效推理。未来将探索更先进的技术和多语言能力。

微软原生1位大型语言模型有望为日常CPU带来高效的生成式人工智能

InfoQ
InfoQ · 2025-04-23T11:00:00Z

本研究推出了Gemma 3,一个参数规模从10亿到270亿的多模态模型。其创新架构有效降低了长上下文的内存消耗,并显著提升了数学、对话、指令遵循和多语言能力。

Gemma 3 技术报告

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z
为电子商务扩展大型语言模型:基于Llama的定制LLM开发

这篇文章讨论了eBay如何利用Llama模型开发定制的大型语言模型,以适应电子商务领域。通过结合eBay的数据和第三方模型,eBay创建了高效、可扩展的AI解决方案。文章介绍了训练方法、数据来源及其在电子商务特定基准测试中的性能提升,强调了继续预训练的重要性,以确保模型保留原有知识并增强多语言能力。

为电子商务扩展大型语言模型:基于Llama的定制LLM开发

eBay Tech Blog
eBay Tech Blog · 2025-01-17T08:00:00Z
藏不住了!OpenAI的推理模型有时用中文「思考」

OpenAI的o1模型在推理时偶尔使用中文,引发专家讨论,认为可能与训练数据或模型选择语言有关。这种多语言能力使AI在思维中自然切换语言,被视为智能的涌现现象。

藏不住了!OpenAI的推理模型有时用中文「思考」

机器之心
机器之心 · 2025-01-15T05:06:42Z

本研究提出XTransplant方法,探讨大型语言模型在多语言能力和文化适应性上的不足。通过交叉语言前馈移植,显著提升了模型的多语言能力,显示出其潜力未被充分利用。

XTransplant: Exploring the Upper Bound Performance of Multilingual Capability and Cultural Adaptability in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-17T00:00:00Z
Meta AI 发布 Llama Guard 3-1B-INT4:用于人机对话的紧凑型高性能 AI 调节模型

Meta推出了Llama Guard 3-1B-INT4模型,以应对生成式人工智能系统在内容安全方面的挑战。该模型体积小、性能强,适合移动设备,具备出色的多语言能力和安全审核功能,标志着生成式AI安全审核的重大进展。

Meta AI 发布 Llama Guard 3-1B-INT4:用于人机对话的紧凑型高性能 AI 调节模型

实时互动网
实时互动网 · 2024-12-02T06:07:08Z

本研究评估了多模态大型语言模型(MLLMs)在低层视觉感知和理解方面的能力,发现其基本技能不稳定且不精确。通过基准测试分析现有模型的优缺点,并提出改进建议,强调公平性和多语言能力的重要性,提出新的评估框架以促进视觉语言模型的发展。

Image2Struct:视觉-语言模型的结构提取基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-29T00:00:00Z

该研究探讨了大型语言模型(LLMs)的多语言能力及其局限性,分析了不同语言的表现,提出了改进建议,并探讨了未来研究方向。

大型语言模型是否有英语口音?评估和改善多语言LLM的自然性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-21T00:00:00Z

本研究提出了一种名为MAET的多语言能力提取与转移方法,旨在解决低资源语言缺乏多语言能力数据的问题。该方法通过提取与语言无关的能力权重,并在不同语言间进行转移,有效提升大型语言模型的多语言能力,实验结果表明其优于传统训练方法。

Extracting and Transferring Abilities to Build Multi-Lingual Enhanced Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

本研究提出了跨语言思维提示(XLT)方法,以提升大语言模型的多语言能力。通过多项基准测试评估,XLT显著提高了多语种任务的性能,缩小了不同语言间的表现差距。研究还探讨了双语词典诱导任务及自回归模型的提示技术,强调未来需进一步研究以弥合性能差距。

大型语言模型是优良的多语言学习者:当LLMs遇上跨语言提示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-17T00:00:00Z
Jina ColBERT v2:用于嵌入和重排序的多语言后期交互检索器

Jina ColBERT v2是一种先进的检索模型,相比以前的版本,它提高了性能。它支持89种语言的多语言能力,并允许用户控制输出嵌入大小。该模型紧凑且优于基于BM25的检索。它还提供了Matryoshka表示学习,允许不同的输出向量大小。Jina ColBERT v2可以通过各种API访问,并集成到不同的框架中。它在精确性和效率之间提供了平衡,可能降低存储和计算成本。

Jina ColBERT v2:用于嵌入和重排序的多语言后期交互检索器

Jina AI
Jina AI · 2024-08-30T07:19:58Z

本研究提出了BigTrans模型,扩展了LLaMA和BLOOM的多语言能力,支持100种语言。经过优化和实验,BigTrans在多语翻译上表现优异,接近ChatGPT和Google Translate。研究还探讨了大型语言模型在机器翻译中的优势与挑战,并提出了新的生成式翻译范式“GenTranslate”,显著提升翻译质量。

LLaMAX:扩展 LLM 的语言翻译能力,超越 100 种语言的限制

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-08T00:00:00Z
你好,Qwen2

Qwen系列模型进行了重大升级,推出了Qwen2系列,包含五个不同尺寸的预训练和微调模型,支持多达128K tokens的上下文长度。新增27种语言的高质量数据,提升了多语言能力及数学、代码处理能力。模型在多个评测基准上表现优异,特别是在自然语言理解和多语言任务中超越了现有领先模型。所有模型已在Hugging Face和ModelScope开源,期待用户反馈。

你好,Qwen2

Blog on Qwen
Blog on Qwen · 2024-06-06T16:00:00Z

本文介绍了多个开源语言模型的进展,包括ChuXin、Baichuan 2、CT-LLM、XGen、TinyLlama、LLaMA、XLM-T和Xmodel-VLM等。这些模型在参数规模、上下文长度和多语言能力上取得了显著提升,尤其在医学和法律领域表现突出。研究还强调了高效的训练方法和数据处理技术,以提升模型性能和生成能力。

Xmodel-LM 技术报告

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-05T00:00:00Z

本文介绍了针对印度语言的自然语言生成基准,如IndicNLG和IndicXTREME,评估了多种模型在不同任务上的表现。研究发现,GPT-4和PaLM2在资源稀缺语言上表现优异,并提出了针对Indic LLMs的资源套件,以推动相关研究和开发。此外,文章探讨了大型语言模型在法律领域和机器翻译中的能力,强调了多语言能力的重要性。

IndicGenBench:用于评估 LLMs 在印度语言上的生成能力的多语言基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-25T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码