小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
谷歌发布Gemini 3.5实时语音翻译模型 已在安卓和iOS版谷歌翻译中上线 也提供API

谷歌发布了Gemini 3.5实时语音翻译模型,支持70多种语言,具备抗噪能力,已在谷歌翻译iOS和安卓版上线。该模型能够生成自然流畅的翻译语音,保持说话者的语调和语速,适用于多语言会议和视频通话。开发者可通过Gemini Live API构建语音翻译应用,提升用户体验。

谷歌发布Gemini 3.5实时语音翻译模型 已在安卓和iOS版谷歌翻译中上线 也提供API

蓝点网
蓝点网 · 2026-06-10T03:00:29Z
NVIDIA 发布 Nemotron 3.5 ASR:一个拥有 6 亿参数、支持缓存的流式转录模型,可实时转录 40 种语言区域设置

NVIDIA发布了Nemotron 3.5 ASR,这是一个支持40种语言的流式自动语音识别模型,拥有6亿参数。该模型采用FastConformer-RNNT架构,实时转录时无需单独处理标点和大小写,推理延迟可调,适合多种应用场景。经过微调,希腊语和保加利亚语的识别准确率显著提高。

NVIDIA 发布 Nemotron 3.5 ASR:一个拥有 6 亿参数、支持缓存的流式转录模型,可实时转录 40 种语言区域设置

实时互动网
实时互动网 · 2026-06-08T02:31:38Z
Nvidia最新模型现已上线

Nvidia发布了Nemotron 3 Ultra模型,拥有5500亿参数,支持高达100万标记的上下文窗口。该模型速度显著提升,能节省用户30%的成本。尽管在某些基准测试中落后于中国模型,但在处理复杂任务和多语言支持方面表现出色。模型的权重和数据集将公开。

Nvidia最新模型现已上线

The New Stack
The New Stack · 2026-06-04T16:12:33Z
百度文心发布 PaddleOCR-VL-1.6:准确率突破 96.33%,刷新文档解析 SOTA

百度发布的PaddleOCR-VL-1.6在OmniDocBench v1.6评测中准确率超过96.3%,综合性能全球第一,支持100多种语言,适应复杂文档场景,满足文档数字化需求。该模型已上线官网并开源,供全球开发者使用。

百度文心发布 PaddleOCR-VL-1.6:准确率突破 96.33%,刷新文档解析 SOTA

量子位
量子位 · 2026-06-02T07:47:30Z
2026 年如何选择最适合您业务的 AI 语音 SDK?

到2026年,AI语音交互将进入“好用”阶段。选择合适的AI语音SDK时,应关注应用场景、端到端延迟、ASR/TTS质量等10个核心维度。关键指标包括低延迟、情感感知和多语言支持。推荐ZEGO实时互动AI Agent,具备超低延迟和多模型兼容性,适合快速搭建AI语音应用。

2026 年如何选择最适合您业务的 AI 语音 SDK?

实时互动网
实时互动网 · 2026-05-26T09:06:39Z
.NET 9 + Avalonia + Prism 高性能、小体积,支持 AOT 跨平台桌面应用

CodeWF Toolbox 是一个基于 .NET 9、Avalonia UI 和 Prism 的开源桌面工具,旨在为开发者和系统管理员提供轻量、高效的功能。支持 JSON 美化、YAML 转 JSON,兼容 Windows 7 至 macOS 11+,启动快、内存占用低,界面流畅,适合内网环境。项目强调模块化和多语言支持,完全开源,适合学习和二次开发。

.NET 9 + Avalonia + Prism 高性能、小体积,支持 AOT 跨平台桌面应用

dotNET跨平台
dotNET跨平台 · 2026-05-16T00:00:59Z

本文介绍了五种小型语言模型:SmolLM3-3B、Qwen3-4B-Instruct-2507、Phi-3-mini-4k-instruct、Gemma-4-E2B-it 和 Mistral-7B-Instruct-v0.3。这些模型支持工具调用,适用于多种应用场景,具有不同的参数、架构和上下文长度,能够在不依赖大型基础设施的情况下提供高效推理和多语言支持,适合边缘设备和低延迟需求。

五种小型语言模型用于自主工具调用

KDnuggets
KDnuggets · 2026-05-14T12:00:13Z
腾讯开源手机端离线翻译模型,仅0.4G,支持33种语言

腾讯混元推出了开源的离线翻译模型Hy-MT1.5-1.8B-1.25bit,支持33种语言,压缩至440MB,翻译质量优于谷歌翻译。该模型可在手机本地运行,无需网络,适用于多种业务场景,并提供量化压缩方案,确保高效使用内存。

腾讯开源手机端离线翻译模型,仅0.4G,支持33种语言

量子位
量子位 · 2026-04-29T09:00:30Z

Perl文档正在重写,目标是提供多语言支持,目前有英语、德语、法语和西班牙语版本,翻译工作正在进行中。重写包括内容结构调整和现代化示例,以便2026年的程序员能轻松理解。文档遵循忠实原则,确保技术准确性,并提供PDF格式以便离线阅读,旨在为非英语开发者提供可用的Perl文档。

Perl文档 - 重写版

blogs.perl.org
blogs.perl.org · 2026-04-26T18:05:02Z

OpenAI 发布了全新的图像生成模型 Images 2.0,显著提升了图像生成的细节、逻辑和可用性。新模型减少了中文字符的乱码,提升了文本渲染质量,支持多语言和复杂指令理解,能够批量生成风格一致的图像,推动内容生产效率和行业变革。

OpenAI推出图像生成模型Images 2.0 图像细节和逻辑都有显著提升

蓝点网
蓝点网 · 2026-04-22T06:34:17Z
随着ChatGPT Images 2.0的推出,OpenAI现在在绘图前会进行“思考”

OpenAI推出的ChatGPT Images 2.0标志着图像生成技术的重大进步。该模型具备推理能力,能够从单一提示生成多达八幅图像,并进行自我验证。它支持多种语言,尤其在处理非拉丁文本方面表现出色,尽管在某些复杂任务上仍有局限,但为创意工作提供了更高的准确性和一致性。

随着ChatGPT Images 2.0的推出,OpenAI现在在绘图前会进行“思考”

The New Stack
The New Stack · 2026-04-21T22:54:41Z
零抽样 TTS 新突破!几秒参考音频,OmniVoice 助你轻松克隆数百种语言;17 种语言一网打尽:MDPBench 解决低资源文字系统解析难的「心头大患」

小米人工智能实验室推出了OmniVoice,这是一款支持600多种语言的零样本文本转语音(TTS)模型。该模型采用单阶段框架,直接将文本映射为声学标记,基于58.1万小时的开源数据训练,广泛覆盖语言,并提升了对低资源语言的支持。

零抽样 TTS 新突破!几秒参考音频,OmniVoice 助你轻松克隆数百种语言;17 种语言一网打尽:MDPBench 解决低资源文字系统解析难的「心头大患」

HyperAI超神经
HyperAI超神经 · 2026-04-17T08:28:37Z
.NET 高级开发 | 定制 ASP.NET Core 框架

本文讲解了如何在ASP.NET Core中定制Web开发,包括模型验证、统一响应模型、筛选器、异常处理和Swagger定制。通过创建自定义模型验证器和响应模型,确保API的输入输出符合需求,并实现多语言支持和接口版本管理,以提高开发效率和用户体验。

.NET 高级开发 | 定制 ASP.NET Core 框架

dotNET跨平台
dotNET跨平台 · 2026-04-17T00:01:08Z
紫荆智康发布“紫荆AI医院”线上虚拟诊室

紫荆智康推出“紫荆AI医院”线上虚拟诊室,供医生和医学生使用。用户可以创建智能医生分身,与AI患者进行模拟诊疗,提升医疗能力。该系统支持多语言,提供实时病历撰写和决策建议,促进医生与AI的协同进化。

紫荆智康发布“紫荆AI医院”线上虚拟诊室

量子位
量子位 · 2026-04-10T11:42:34Z
C# 面向自动化产线上位机开源项目(支持报警、日志与多语言)

该项目是基于C#和.NET Framework开发的工业测试管理平台,专注于报警处理、日志追踪和多语言支持。软件模块化设计,具备运动控制、报警管理和动态语言切换功能,强调稳定性和用户体验,旨在解决工业自动化中的实际问题。

C# 面向自动化产线上位机开源项目(支持报警、日志与多语言)

dotNET跨平台
dotNET跨平台 · 2026-04-07T23:53:40Z

Apfel是一款免费的本地AI工具,专为Apple Silicon的Mac设计,利用macOS内置语言模型,无需网络和API密钥。支持命令行和交互式聊天界面,具备本地运行和多语言支持。该项目开源,已在GitHub上获得关注,未来将推出GUI界面和剪贴板工具。

2026 04 04 HackerNews

介绍 on SuperTechFans
介绍 on SuperTechFans · 2026-04-03T23:35:03Z

谷歌推出Gemini 3.1 Flash Live,增强语音对话能力,支持开发者和企业构建复杂任务的语音代理。该模型在自然对话和多语言支持方面表现出色,能够更好地理解用户情绪,提供快速自然的响应。

Gemini 3.1 Flash Live:让音频人工智能更加自然和可靠

The Keyword
The Keyword · 2026-03-26T15:21:00Z
墨梅博客 1.10.0 发布与 AI 编程工作流优化 | 2026 年第 12 周草梅周报

草梅周报更新了墨梅博客1.10.0版本,新增多语言支持和AI功能,并优化了系统。开发者可参与测试和反馈,以提升代码质量。

墨梅博客 1.10.0 发布与 AI 编程工作流优化 | 2026 年第 12 周草梅周报

草梅友仁的博客
草梅友仁的博客 · 2026-03-22T14:51:32Z
面向自主工作流的最先进嵌入模型现已公开预览

Qwen3-Embedding-0.6B是Databricks推出的先进嵌入模型,具备强大的检索性能和多语言支持,适用于语义搜索和文本分类等应用,确保数据安全和合规。

面向自主工作流的最先进嵌入模型现已公开预览

Databricks
Databricks · 2026-03-17T20:30:44Z
低延迟、多语种、轻量化,Voxtral Realtime 打破 ASR 全场景桎梏;可穿戴设备设计福音!Antenna Performance 构建天线性能与故障数据集

Mistral AI于2026年2月开源了Voxtral Mini 4B Realtime 2602模型,支持13种语言的实时语音转录,延迟低于500毫秒,适合轻量化应用,并可在边缘计算单元上部署,提升语音识别的精度与效率。

低延迟、多语种、轻量化,Voxtral Realtime 打破 ASR 全场景桎梏;可穿戴设备设计福音!Antenna Performance 构建天线性能与故障数据集

HyperAI超神经
HyperAI超神经 · 2026-03-13T08:23:29Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码