小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
谷歌发布Gemini 3.5实时语音翻译模型 已在安卓和iOS版谷歌翻译中上线 也提供API

谷歌发布了Gemini 3.5实时语音翻译模型,支持70多种语言,具备抗噪能力,已在谷歌翻译iOS和安卓版上线。该模型能够生成自然流畅的翻译语音,保持说话者的语调和语速,适用于多语言会议和视频通话。开发者可通过Gemini Live API构建语音翻译应用,提升用户体验。

谷歌发布Gemini 3.5实时语音翻译模型 已在安卓和iOS版谷歌翻译中上线 也提供API

蓝点网
蓝点网 · 2026-06-10T03:00:29Z
NVIDIA 发布 Nemotron 3.5 ASR:一个拥有 6 亿参数、支持缓存的流式转录模型,可实时转录 40 种语言区域设置

NVIDIA发布了Nemotron 3.5 ASR,这是一个支持40种语言的流式自动语音识别模型,拥有6亿参数。该模型采用FastConformer-RNNT架构,实时转录时无需单独处理标点和大小写,推理延迟可调,适合多种应用场景。经过微调,希腊语和保加利亚语的识别准确率显著提高。

NVIDIA 发布 Nemotron 3.5 ASR:一个拥有 6 亿参数、支持缓存的流式转录模型,可实时转录 40 种语言区域设置

实时互动网
实时互动网 · 2026-06-08T02:31:38Z
Nvidia最新模型现已上线

Nvidia发布了Nemotron 3 Ultra模型,拥有5500亿参数,支持高达100万标记的上下文窗口。该模型速度显著提升,能节省用户30%的成本。尽管在某些基准测试中落后于中国模型,但在处理复杂任务和多语言支持方面表现出色。模型的权重和数据集将公开。

Nvidia最新模型现已上线

The New Stack
The New Stack · 2026-06-04T16:12:33Z
百度文心发布 PaddleOCR-VL-1.6:准确率突破 96.33%,刷新文档解析 SOTA

百度发布的PaddleOCR-VL-1.6在OmniDocBench v1.6评测中准确率超过96.3%,综合性能全球第一,支持100多种语言,适应复杂文档场景,满足文档数字化需求。该模型已上线官网并开源,供全球开发者使用。

百度文心发布 PaddleOCR-VL-1.6:准确率突破 96.33%,刷新文档解析 SOTA

量子位
量子位 · 2026-06-02T07:47:30Z
2026 年如何选择最适合您业务的 AI 语音 SDK?

到2026年,AI语音交互将进入“好用”阶段。选择合适的AI语音SDK时,应关注应用场景、端到端延迟、ASR/TTS质量等10个核心维度。关键指标包括低延迟、情感感知和多语言支持。推荐ZEGO实时互动AI Agent,具备超低延迟和多模型兼容性,适合快速搭建AI语音应用。

2026 年如何选择最适合您业务的 AI 语音 SDK?

实时互动网
实时互动网 · 2026-05-26T09:06:39Z
.NET 9 + Avalonia + Prism 高性能、小体积,支持 AOT 跨平台桌面应用

CodeWF Toolbox 是一个基于 .NET 9、Avalonia UI 和 Prism 的开源桌面工具,旨在为开发者和系统管理员提供轻量、高效的功能。支持 JSON 美化、YAML 转 JSON,兼容 Windows 7 至 macOS 11+,启动快、内存占用低,界面流畅,适合内网环境。项目强调模块化和多语言支持,完全开源,适合学习和二次开发。

.NET 9 + Avalonia + Prism 高性能、小体积,支持 AOT 跨平台桌面应用

dotNET跨平台
dotNET跨平台 · 2026-05-16T00:00:59Z

本文介绍了五种小型语言模型:SmolLM3-3B、Qwen3-4B-Instruct-2507、Phi-3-mini-4k-instruct、Gemma-4-E2B-it 和 Mistral-7B-Instruct-v0.3。这些模型支持工具调用,适用于多种应用场景,具有不同的参数、架构和上下文长度,能够在不依赖大型基础设施的情况下提供高效推理和多语言支持,适合边缘设备和低延迟需求。

五种小型语言模型用于自主工具调用

KDnuggets
KDnuggets · 2026-05-14T12:00:13Z
腾讯开源手机端离线翻译模型,仅0.4G,支持33种语言

腾讯混元推出了开源的离线翻译模型Hy-MT1.5-1.8B-1.25bit,支持33种语言,压缩至440MB,翻译质量优于谷歌翻译。该模型可在手机本地运行,无需网络,适用于多种业务场景,并提供量化压缩方案,确保高效使用内存。

腾讯开源手机端离线翻译模型,仅0.4G,支持33种语言

量子位
量子位 · 2026-04-29T09:00:30Z

Perl文档正在重写,目标是提供多语言支持,目前有英语、德语、法语和西班牙语版本,翻译工作正在进行中。重写包括内容结构调整和现代化示例,以便2026年的程序员能轻松理解。文档遵循忠实原则,确保技术准确性,并提供PDF格式以便离线阅读,旨在为非英语开发者提供可用的Perl文档。

Perl文档 - 重写版

blogs.perl.org
blogs.perl.org · 2026-04-26T18:05:02Z

OpenAI 发布了全新的图像生成模型 Images 2.0,显著提升了图像生成的细节、逻辑和可用性。新模型减少了中文字符的乱码,提升了文本渲染质量,支持多语言和复杂指令理解,能够批量生成风格一致的图像,推动内容生产效率和行业变革。

OpenAI推出图像生成模型Images 2.0 图像细节和逻辑都有显著提升

蓝点网
蓝点网 · 2026-04-22T06:34:17Z
随着ChatGPT Images 2.0的推出,OpenAI现在在绘图前会进行“思考”

OpenAI推出的ChatGPT Images 2.0标志着图像生成技术的重大进步。该模型具备推理能力,能够从单一提示生成多达八幅图像,并进行自我验证。它支持多种语言,尤其在处理非拉丁文本方面表现出色,尽管在某些复杂任务上仍有局限,但为创意工作提供了更高的准确性和一致性。

随着ChatGPT Images 2.0的推出,OpenAI现在在绘图前会进行“思考”

The New Stack
The New Stack · 2026-04-21T22:54:41Z
零抽样 TTS 新突破!几秒参考音频,OmniVoice 助你轻松克隆数百种语言;17 种语言一网打尽:MDPBench 解决低资源文字系统解析难的「心头大患」

小米人工智能实验室推出了OmniVoice,这是一款支持600多种语言的零样本文本转语音(TTS)模型。该模型采用单阶段框架,直接将文本映射为声学标记,基于58.1万小时的开源数据训练,广泛覆盖语言,并提升了对低资源语言的支持。

零抽样 TTS 新突破!几秒参考音频,OmniVoice 助你轻松克隆数百种语言;17 种语言一网打尽:MDPBench 解决低资源文字系统解析难的「心头大患」

HyperAI超神经
HyperAI超神经 · 2026-04-17T08:28:37Z
.NET 高级开发 | 定制 ASP.NET Core 框架

本文讲解了如何在ASP.NET Core中定制Web开发,包括模型验证、统一响应模型、筛选器、异常处理和Swagger定制。通过创建自定义模型验证器和响应模型,确保API的输入输出符合需求,并实现多语言支持和接口版本管理,以提高开发效率和用户体验。

.NET 高级开发 | 定制 ASP.NET Core 框架

dotNET跨平台
dotNET跨平台 · 2026-04-17T00:01:08Z
紫荆智康发布“紫荆AI医院”线上虚拟诊室

紫荆智康推出“紫荆AI医院”线上虚拟诊室,供医生和医学生使用。用户可以创建智能医生分身,与AI患者进行模拟诊疗,提升医疗能力。该系统支持多语言,提供实时病历撰写和决策建议,促进医生与AI的协同进化。

紫荆智康发布“紫荆AI医院”线上虚拟诊室

量子位
量子位 · 2026-04-10T11:42:34Z
C# 面向自动化产线上位机开源项目(支持报警、日志与多语言)

该项目是基于C#和.NET Framework开发的工业测试管理平台,专注于报警处理、日志追踪和多语言支持。软件模块化设计,具备运动控制、报警管理和动态语言切换功能,强调稳定性和用户体验,旨在解决工业自动化中的实际问题。

C# 面向自动化产线上位机开源项目(支持报警、日志与多语言)

dotNET跨平台
dotNET跨平台 · 2026-04-07T23:53:40Z

Apfel是一款免费的本地AI工具,专为Apple Silicon的Mac设计,利用macOS内置语言模型,无需网络和API密钥。支持命令行和交互式聊天界面,具备本地运行和多语言支持。该项目开源,已在GitHub上获得关注,未来将推出GUI界面和剪贴板工具。

2026 04 04 HackerNews

介绍 on SuperTechFans
介绍 on SuperTechFans · 2026-04-03T23:35:03Z

谷歌推出Gemini 3.1 Flash Live,增强语音对话能力,支持开发者和企业构建复杂任务的语音代理。该模型在自然对话和多语言支持方面表现出色,能够更好地理解用户情绪,提供快速自然的响应。

Gemini 3.1 Flash Live:让音频人工智能更加自然和可靠

The Keyword
The Keyword · 2026-03-26T15:21:00Z
墨梅博客 1.10.0 发布与 AI 编程工作流优化 | 2026 年第 12 周草梅周报

草梅周报更新了墨梅博客1.10.0版本,新增多语言支持和AI功能,并优化了系统。开发者可参与测试和反馈,以提升代码质量。

墨梅博客 1.10.0 发布与 AI 编程工作流优化 | 2026 年第 12 周草梅周报

草梅友仁的博客
草梅友仁的博客 · 2026-03-22T14:51:32Z
面向自主工作流的最先进嵌入模型现已公开预览

Qwen3-Embedding-0.6B是Databricks推出的先进嵌入模型,具备强大的检索性能和多语言支持,适用于语义搜索和文本分类等应用,确保数据安全和合规。

面向自主工作流的最先进嵌入模型现已公开预览

Databricks
Databricks · 2026-03-17T20:30:44Z
低延迟、多语种、轻量化,Voxtral Realtime 打破 ASR 全场景桎梏;可穿戴设备设计福音!Antenna Performance 构建天线性能与故障数据集

Mistral AI于2026年2月开源了Voxtral Mini 4B Realtime 2602模型,支持13种语言的实时语音转录,延迟低于500毫秒,适合轻量化应用,并可在边缘计算单元上部署,提升语音识别的精度与效率。

低延迟、多语种、轻量化,Voxtral Realtime 打破 ASR 全场景桎梏;可穿戴设备设计福音!Antenna Performance 构建天线性能与故障数据集

HyperAI超神经
HyperAI超神经 · 2026-03-13T08:23:29Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码