BriefGPT - AI 论文速递 ·

重新审视自动语音识别性能中的种族差异：源自区分干扰的作用

📝

内容提要

现在广泛使用基于大量音频数据训练的自动语音识别（ASR）模型将语音转换为书面文本，在视频字幕到医疗保健等各个领域中使用自动助手。本研究旨在通过研究当前最先进的基于神经网络的 ASR 系统（Whisper，OpenAI）在 CORAAL 数据集上的性能来了解康托语方言对 ASR 准确性的影响，并发现了方言差异和录音质量对 ASR 准确性的重要性。这些发现凸显了在研究神经 ASR...

➡️

继续阅读

视频问诊在互联网医院、医联体、药店场景的落地差异
视频问诊不是一个”装上就能用”的标准产品。在互联网医院、医联体和药店这三种典型的落地场景下，虽然底层用的都是视频通话技术，但系统架构、集成深度、功能侧重和合...
实时音视频(RTC) 延迟标准如何重塑远程医疗平台性能
远程医疗运行在一个速度几乎影响每一个就诊环节的行业里，加入在线问诊时你期望医生的回应即时到达，查看实时监护数据时同样容不得迟滞，哪怕短暂的卡顿也会迅速瓦解...
基于超1万肿瘤样本训练，哈佛医学院等提出泛癌症基础模型COMPASS，平均性能优于22种现有方法
COMPASS 首次将这一架构引入癌症转录组分析领域，通过利用免疫相关基因集，并建立：基因（gene）→ 基因集（gene set）→ 概念（concep...
苹果更新TestFlight应用对于参与大量测试的玩家现在可以使用搜索功能
# 软件资讯苹果更新 TestFlight 应用，对于参与大量测试的玩家来说，现在可以使用底部的搜索框快速找到应用。为避免误解所以需要说明，搜索功能仅可...
我在WAIC 2026看见的十大趋势
没有人因此热情减退
Skill、Subagent 与 Agent 究竟是什么？从一个月度总结实战谈 AI 原生架构
本文通过一个真实的“仓库月度自动统计与总结报告”落地需求，深入剖析 Skill、Subagent 和 Agent 三者的本质区别、协作模式与持久化原理，帮...