小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
DeepSeek-v3.1 模型现已在 Amazon Bedrock 可用

AWS在Amazon Bedrock推出DeepSeek-V3.1模型,支持思考模式和非思考模式,增强多语言能力和复杂任务处理,特别适用于代码生成和代理式人工智能工具,全球企业可通过AWS控制台访问和测试该模型。

DeepSeek-v3.1 模型现已在 Amazon Bedrock 可用

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-12-01T09:41:48Z
通过像素级回退克服词汇限制

本文提出了一种无词汇编码器,通过将文本转化为像素生成输入嵌入,增强预训练语言模型。实验结果表明,该方法在机器翻译和跨语言迁移方面显著优于基于分词的方法,同时提升了单语模型的多语言能力,并减少了解码延迟。

通过像素级回退克服词汇限制

Apple Machine Learning Research
Apple Machine Learning Research · 2025-07-14T00:00:00Z
DeepSeek-R1 API:大语言模型接口详解

DeepSeek-R1 API 是一款高性能的大型语言模型,支持文本生成、代码辅助和知识问答等多种自然语言处理任务,具备长上下文支持和多语言能力,适合开发者快速构建智能应用。

DeepSeek-R1 API:大语言模型接口详解

APISpace
APISpace · 2025-07-10T02:29:37Z
Gemma 3支持视觉语言理解、长上下文处理和改进的多语言能力

谷歌开源的生成性人工智能模型Gemma 3具备视觉语言理解、长上下文处理和多语言能力。新特性包括减少的KV缓存内存、自定义Sigmoid损失的视觉编码器,以及改进的图像处理算法。Gemma 3支持高达128k的上下文,性能优于前代模型,适合单个消费者GPU或TPU主机。

Gemma 3支持视觉语言理解、长上下文处理和改进的多语言能力

InfoQ
InfoQ · 2025-05-20T22:15:00Z

本研究利用稀疏自编码器(SAE)分析大型语言模型的多语言能力,克服了传统方法的局限性。研究表明,SAE特征与特定语言相关,去除这些特征可提升语言控制能力。

Revealing Linguistic Features in Large Language Models through Sparse Autoencoders

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z
微软原生1位大型语言模型有望为日常CPU带来高效的生成式人工智能

微软研究人员推出了BitNet b1.58 2B4T,这是首个使用1位权重原生训练的大型语言模型。该模型在计算成本和硬件需求上显著低于全精度模型,同时在多项任务上表现相当。BitNet通过自定义的BitLinear层和量化技术,减小了模型大小并提高了训练稳定性。此外,微软还开发了专用推理库bitnet.cpp,以支持1位模型的高效推理。未来将探索更先进的技术和多语言能力。

微软原生1位大型语言模型有望为日常CPU带来高效的生成式人工智能

InfoQ
InfoQ · 2025-04-23T11:00:00Z

本研究推出了Gemma 3,一个参数规模从10亿到270亿的多模态模型。其创新架构有效降低了长上下文的内存消耗,并显著提升了数学、对话、指令遵循和多语言能力。

Gemma 3 技术报告

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z
为电子商务扩展大型语言模型:基于Llama的定制LLM开发

这篇文章讨论了eBay如何利用Llama模型开发定制的大型语言模型,以适应电子商务领域。通过结合eBay的数据和第三方模型,eBay创建了高效、可扩展的AI解决方案。文章介绍了训练方法、数据来源及其在电子商务特定基准测试中的性能提升,强调了继续预训练的重要性,以确保模型保留原有知识并增强多语言能力。

为电子商务扩展大型语言模型:基于Llama的定制LLM开发

eBay Tech Blog
eBay Tech Blog · 2025-01-17T08:00:00Z
藏不住了!OpenAI的推理模型有时用中文「思考」

OpenAI的o1模型在推理时偶尔使用中文,引发专家讨论,认为可能与训练数据或模型选择语言有关。这种多语言能力使AI在思维中自然切换语言,被视为智能的涌现现象。

藏不住了!OpenAI的推理模型有时用中文「思考」

机器之心
机器之心 · 2025-01-15T05:06:42Z

本研究提出XTransplant方法,探讨大型语言模型在多语言能力和文化适应性上的不足。通过交叉语言前馈移植,显著提升了模型的多语言能力,显示出其潜力未被充分利用。

XTransplant: Exploring the Upper Bound Performance of Multilingual Capability and Cultural Adaptability in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-17T00:00:00Z
Meta AI 发布 Llama Guard 3-1B-INT4:用于人机对话的紧凑型高性能 AI 调节模型

Meta推出了Llama Guard 3-1B-INT4模型,以应对生成式人工智能系统在内容安全方面的挑战。该模型体积小、性能强,适合移动设备,具备出色的多语言能力和安全审核功能,标志着生成式AI安全审核的重大进展。

Meta AI 发布 Llama Guard 3-1B-INT4:用于人机对话的紧凑型高性能 AI 调节模型

实时互动网
实时互动网 · 2024-12-02T06:07:08Z

本研究提出MAET方法,通过提取语言无关的能力权重并在不同语言间转移,提升低资源语言的多语言能力。实验显示,该方法在多个任务上优于传统方法。

提取与转移能力以构建多语言增强大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

本研究提出了“Lens”方法,提升大型语言模型的多语言能力,特别是改善非英语用户的服务。该方法利用模型的内部语言表示空间,提高多语言处理效率,同时保持核心语言表现,并更节省计算资源。

Lens:重新思考大型语言模型的多语言增强

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-06T00:00:00Z
Jina ColBERT v2:用于嵌入和重排序的多语言后期交互检索器

Jina ColBERT v2是一种先进的检索模型,相比以前的版本,它提高了性能。它支持89种语言的多语言能力,并允许用户控制输出嵌入大小。该模型紧凑且优于基于BM25的检索。它还提供了Matryoshka表示学习,允许不同的输出向量大小。Jina ColBERT v2可以通过各种API访问,并集成到不同的框架中。它在精确性和效率之间提供了平衡,可能降低存储和计算成本。

Jina ColBERT v2:用于嵌入和重排序的多语言后期交互检索器

Jina AI
Jina AI · 2024-08-30T07:19:58Z
你好,Qwen2

Qwen系列模型进行了重大升级,推出了Qwen2系列,包含五个不同尺寸的预训练和微调模型,支持多达128K tokens的上下文长度。新增27种语言的高质量数据,提升了多语言能力及数学、代码处理能力。模型在多个评测基准上表现优异,特别是在自然语言理解和多语言任务中超越了现有领先模型。所有模型已在Hugging Face和ModelScope开源,期待用户反馈。

你好,Qwen2

Blog on Qwen
Blog on Qwen · 2024-06-06T16:00:00Z

通过对101种语言进行全面分析,发现大型语言模型(LLMs)具有出色的多语言能力。将相似特征的语言分类为四个象限,并深入研究每个象限的属性,可以提高LLMs的多语言表现。

大型语言模型在多种语言上的多语言性能量化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-17T00:00:00Z

RWKV Foundation发布了新架构的最新论文,介绍了Eagle和Finch两种改进的RWKV架构,提高了模型表达能力和推理效率。新架构还增强了多语言能力,并在基准测试中表现出竞争力。未来的工作将聚焦于扩大训练数据集和训练更大规模的Finch模型。

RWKV-5/6(Eagle & Finch):基于矩阵值状态和动态递归的新模型架构

六虎
六虎 · 2024-04-11T12:22:45Z

基于解码器的预训练语言模型(PLMs)展示了多语言能力,但多语言处理仍不清楚。研究发现,PLMs内部存在语言特定神经元,不同语言之间存在轻微重叠。干扰这些神经元会改变生成文本中目标语言的概率。

基于解码器的预训练语言模型的多语言能力:发现和控制语言特定神经元

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-03T00:00:00Z

OMGEval是第一个能评估LLMs在不同语言中能力的开源测试集,包括中文、俄语、法语、西班牙语和阿拉伯语。OMGEval提供了804个问题,通过GPT-4作为仲裁者,证明OMGEval与人工评估密切相关,为研究共同体进一步理解和改进LLMs的多语言能力提供参考。

OMGEval:一个开放的多语言生成评估基准测试用于大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-21T00:00:00Z

通过对101种语言进行全面分析,研究发现大型语言模型(LLMs)具有出色的多语言能力。通过将相似特征的语言分类为四个象限,并深入研究每个象限的属性,可以提高LLMs的多语言表现。实验结果表明,通过关注不同属性,可以显著提高LLMs的多语言能力。

将以英语为中心的 LLMs 转变为多语种模型:需要多少语言能力?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-20T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码