小红花·文摘

OCR教程汇总丨DeepSeek/百度飞桨/华中科大等开源创新技术，实现OCR高精度、本地化部署

HyperAI超神经 ·

第1期：PaddleOCR-VL与主流模型对比：为何能在复杂场景中脱颖而出？

百度大脑 ·

MinMo：约 8B 参数的多模态大型语言模型，实现无缝语音交互

实时互动网 ·

字节跳动推出首款AI硬件Ola Friend蓝牙耳机，售价1199元。耳机集成大模型，支持语音唤醒AI、英语口语练习和复杂问题解答。采用开放式设计，音质优良，能在嘈杂环境中识别用户声音。核心技术包括Seed-TTS和Seed-ASR，支持多语言识别和情感合成。Ola Friend将于10月17日发售。

字节豆包首个AI硬件来了，定价1199元！

量子位 ·

本文介绍了多种加速大型语言模型（LLM）推理的方法，如LLMA、Vistaar和METHODNS，显著提升了多语言和低资源语音识别的性能。研究还提出了分阶段投机性解码和混合方法，以优化解码效率、降低延迟并保持输出质量。此外，通过助理模型的训练，进一步减少了推理时间，增强了多语言环境中的应用效果。

SALSA：快速的ASR-LLM同步聚合

BriefGPT - AI 论文速递 ·

本文研究了低资源环境下的自动语音识别（ASR）技术，提出了Whistle方法，通过国际音标转写和自监督学习提高多语言识别性能。实验结果表明，该方法显著降低了训练数据需求，并提升了识别精度。

通过弱监督音素为基础的多语言预训练，实现对瑶族苗语的低资源语音识别

BriefGPT - AI 论文速递 ·

谷歌将卫星消息功能引入Android 15

The Verge ·