小红花·文摘

多人会议中如何突出某个发言人的声音：ZEGO 混流焦点语音方案详解

实时互动网 ·

提示：将YouTube视频（通过URL）或上传的本地视频转录为带发言人标签和时间戳的结构化格式化文本

宝玉的分享 ·

本研究解决了在多方对话中评估系统表现的难题，提出了一种方法论流程来研究模型在特定结构属性下的表现。通过对回应选择和发言人识别任务进行分析，发现回应选择更多依赖文本内容，而发言人识别则需要捕捉对话的结构维度。此工作有助于理解大型语言模型在多方对话中的表现缺陷。

大型语言模型是否遭受多方对话的困扰？一种对发言人识别和回应选择进行诊断的方法

BriefGPT - AI 论文速递 ·

该研究提出了一种导航指南模型，结合反向强化学习和神经序列模型，使机器人能够生成自然语言指令，帮助人们在未知环境中导航。实验结果显示，该方法在与人类指令的比较中获得了72.18%的BLEU分数，缩小了人机交互的差距。研究还探讨了视觉-语言导航、深度学习和合成语音等技术，显著提升了导航指令的生成和执行能力。

空间感知发言人用于视觉-语言导航指令生成

BriefGPT - AI 论文速递 ·

INDICVOICES数据集包含了来自16237名发言人的7348小时语音，涵盖了145个印度地区和22种语言。作者分享了数据收集的标准化协议、工具、问题、提示和对话场景库，以及质量控制机制和转录指南。利用INDICVOICES构建了IndicASR，是第一个支持22种语言的ASR模型。所有数据、工具、指南、模型和其他资料都将公开提供。

IndicVoices：为印度语言构建一个包容性的多语言语音数据集

BriefGPT - AI 论文速递 ·

本研究开发了一种整合反欺骗技术的演讲者验证嵌入式系统，能够拒绝非目标演讲者及目标演讲者的欺诈性输入。通过多阶段训练与损失函数的组合，解决了训练数据不足及短缺欺骗性数据的问题。实验结果表明，该系统在SASV2022挑战赛评估协议下的性能达到了1.06%的SASV-EER。

远场发言人验证的语音感知说话人嵌入

BriefGPT - AI 论文速递 ·

阿里巴巴推出AI工具“通义听悟”，支持实时语音转文字、区分不同发言人、多语言同步翻译等功能。该工具还提供智能总结等功能，利用AI自动提取会议中的重点内容，整理完成后可以保存原文、笔记、导出音视频文件等。通义听悟已上线公开测试，可通过阿里云账号登录参与。

阿里云公测通义听悟：实时语音转文字/区分发言人/同步翻译/智能总结

蓝点网 ·

为什么拥有一个强大的对抗性媒体来调查政府的说法并验证它们是否得到证据支持是如此重要？在这篇文章《我们迫切需要对抗性的新闻报道》中，作者认为不仅是俄罗斯政府，美国政府也有撒谎的前科和动机。所以媒体不应只是简单的转述政府的说法，而应该更加审慎的验证政府的说法。也就是我们需要更多的对抗性媒体。比如针对最近美国政府指控俄罗斯将要入侵乌克兰，

记者的对抗性提问 - 翻译一段美联社记者提问美国国务院发言人的片段

Owen的博客 ·