小红花·文摘 - 小红花技术领袖俱乐部

阿里发布 Fun-ASR-Realtime 实时语音识别模型，支持16种方言和30种语言！

阿里发布 Fun-ASR-Realtime 实时语音识别模型，支持16种方言和30种语言！

实时互动网 ·

Waze推出了与新电影《迷你兵与怪兽》相关的主题导航，用户可以通过迷你兵的幽默语音体验导航。该功能支持多种语言，用户只需下载最新版本即可使用。

在Waze上与《迷你兵与怪兽》一起驾驶

The Keyword ·

Ticketbay推出全球K-pop演唱会门票转售服务

Ticketbay推出全球K-pop演唱会门票转售服务

全球TMT-美通国际 ·

谷歌发布Gemini 3.5实时语音翻译模型已在安卓和iOS版谷歌翻译中上线也提供API

谷歌发布Gemini 3.5实时语音翻译模型已在安卓和iOS版谷歌翻译中上线也提供API

蓝点网 ·

NVIDIA 发布 Nemotron 3.5 ASR：一个拥有 6 亿参数、支持缓存的流式转录模型，可实时转录 40 种语言区域设置

NVIDIA 发布 Nemotron 3.5 ASR：一个拥有 6 亿参数、支持缓存的流式转录模型，可实时转录 40 种语言区域设置

实时互动网 ·

Nvidia最新模型现已上线

Nvidia最新模型现已上线

The New Stack ·

百度文心发布 PaddleOCR-VL-1.6：准确率突破 96.33%，刷新文档解析 SOTA

量子位 ·

2026 年如何选择最适合您业务的 AI 语音 SDK？

2026 年如何选择最适合您业务的 AI 语音 SDK？

实时互动网 ·

.NET 9 + Avalonia + Prism 高性能、小体积，支持 AOT 跨平台桌面应用

.NET 9 + Avalonia + Prism 高性能、小体积，支持 AOT 跨平台桌面应用

dotNET跨平台 ·

本文介绍了五种小型语言模型：SmolLM3-3B、Qwen3-4B-Instruct-2507、Phi-3-mini-4k-instruct、Gemma-4-E2B-it 和 Mistral-7B-Instruct-v0.3。这些模型支持工具调用，适用于多种应用场景，具有不同的参数、架构和上下文长度，能够在不依赖大型基础设施的情况下提供高效推理和多语言支持，适合边缘设备和低延迟需求。

五种小型语言模型用于自主工具调用

KDnuggets ·

腾讯开源手机端离线翻译模型，仅0.4G，支持33种语言

量子位 ·

Perl文档正在重写，目标是提供多语言支持，目前有英语、德语、法语和西班牙语版本，翻译工作正在进行中。重写包括内容结构调整和现代化示例，以便2026年的程序员能轻松理解。文档遵循忠实原则，确保技术准确性，并提供PDF格式以便离线阅读，旨在为非英语开发者提供可用的Perl文档。

Perl文档 - 重写版

blogs.perl.org ·

OpenAI 发布了全新的图像生成模型 Images 2.0，显著提升了图像生成的细节、逻辑和可用性。新模型减少了中文字符的乱码，提升了文本渲染质量，支持多语言和复杂指令理解，能够批量生成风格一致的图像，推动内容生产效率和行业变革。

OpenAI推出图像生成模型Images 2.0 图像细节和逻辑都有显著提升

蓝点网 ·

随着ChatGPT Images 2.0的推出，OpenAI现在在绘图前会进行“思考”

随着ChatGPT Images 2.0的推出，OpenAI现在在绘图前会进行“思考”

The New Stack ·

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

HyperAI超神经 ·

.NET 高级开发 | 定制 ASP.NET Core 框架

.NET 高级开发 | 定制 ASP.NET Core 框架

dotNET跨平台 ·

紫荆智康发布“紫荆AI医院”线上虚拟诊室

量子位 ·

C# 面向自动化产线上位机开源项目（支持报警、日志与多语言）

C# 面向自动化产线上位机开源项目（支持报警、日志与多语言）

dotNET跨平台 ·

Apfel是一款免费的本地AI工具，专为Apple Silicon的Mac设计，利用macOS内置语言模型，无需网络和API密钥。支持命令行和交互式聊天界面，具备本地运行和多语言支持。该项目开源，已在GitHub上获得关注，未来将推出GUI界面和剪贴板工具。

2026 04 04 HackerNews

介绍 on SuperTechFans ·

谷歌推出Gemini 3.1 Flash Live，增强语音对话能力，支持开发者和企业构建复杂任务的语音代理。该模型在自然对话和多语言支持方面表现出色，能够更好地理解用户情绪，提供快速自然的响应。

Gemini 3.1 Flash Live：让音频人工智能更加自然和可靠

The Keyword ·