小红花·文摘

连续扩散口语语言模型的缩放特性

Apple Machine Learning Research ·

AI口语教学新解：ZEGO AI 数字人破解“开口难”与“成本高”难题

实时互动网 ·

斑马口语推出首个儿童AI外教，具备灵活互动和共情能力，能够根据孩子的兴趣调整话题。AI外教通过丰富的知识库和即时反馈，提升孩子的英语口语表达，学习氛围轻松愉快，性价比高，解决了传统外教的文化和年龄差异问题，推动个性化教育发展。

教育行业首个AI Agent落地！斑马口语「超人类外教」诞生

量子位 ·

口语文化与书面文化

夜行人 ·

本研究针对自然语言处理中的长上下文理解问题，提出了首个源自现场直播的口语长文本数据集。评估现有大语言模型后发现其在处理冗余输入时表现不佳，并提出新基线以改善冗余性，为电子商务系统开发提供基础。

LiveLongBench：解决现场直播中口语文本的长上下文理解问题

BriefGPT - AI 论文速递 ·

「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！

机器之心 ·

星空外语 – 1 对 1 私人外教，基于 DeepSeek 的外语口语学习应用[iPhone/Android]

小众软件 ·

提高英语能力

DEV Community ·

本文解决了全双工口语对话模型在轮流交互能力评估方面的不足。提出了全双工基准（Full-Duplex-Bench），系统性评估对话行为如暂停处理、回馈、轮流发言和打断管理。研究表明该基准能够提供一致和可重复的评估，以促进口语对话建模领域的进步。

全双工基准：评估全双工口语对话模型的轮流能力

BriefGPT - AI 论文速递 ·

本研究解决了同情心对话系统缺乏口语问答数据的问题，提出了一种名为“倾听、感知和表达”（LPE）的新方法。该方法通过两阶段训练流程，首先引导大语言模型（LLM）理解口语内容和情感，然后利用思维链提示促进模型生成具有同情心的响应。实验结果表明，该方法有效提高了系统在情感响应方面的能力。

利用思维链实现同情心口语对话，无需问答数据

BriefGPT - AI 论文速递 ·

本研究解决了低资源语言在自动语音识别（ASR）中可靠性不足的问题。论文提出了一种新颖的多语言口语理解基准Fleurs-SLU，涵盖102种语言的主题语音分类和92种语言的听力理解选择题回答。研究发现级联系统在多语言SLU任务中表现出更强的鲁棒性，并强调了语音与语义表示之间的相互促进效果。

Fleurs-SLU：一个大规模多语言口语理解基准

BriefGPT - AI 论文速递 ·

本研究解决了传统心理评估中观察和解读的主观性和不一致性问题，提出了一种多模态情感识别系统，提供标准化、客观的数据驱动工具来支持心理学家及临床医生的工作。该系统结合面部表情、语音、口语语言和身体动作分析，能够更加全面和准确地评估情感状态，减少误诊风险，展示了在临床和治疗环境中对传统评估方法的有效补充潜力。

多模态情感识别系统：整合面部表情、身体动作、语音和口语语言

BriefGPT - AI 论文速递 ·

本研究针对当前多模态语音建模中的不足，提出了一种数据中心的定制化方法以提高口语对话的理解能力。通过引入一种新颖的多任务学习范式，该方法有效地利用少量语音数据，实现了在Spoken-SQuAD基准上的最佳性能，并建立了一个稳健高效的音频中心对话建模框架。此外，研究中还推出了ASK-QA，这是首个涉及含糊用户请求和动态评估输入的多轮口语对话数据集。

增强多模态理解的以数据为中心的改进：应用于口语对话建模

BriefGPT - AI 论文速递 ·

宝宝通过学校课程、培训班、动画片和与菲佣的互动，展现出良好的英语交流能力，能够准确传达爷爷的需求，口语和听力显著进步。

港漂日记D93：宝宝居港三月余，英语表达大进步

明明如月的博客 ·

更适合新手的 AI 口语对话练习应用—— BabelDuck ｜好玩儿的Docker项目

我不是咕咕鸽 ·

本文探讨了意大利KIParla语料库树库的初步设计，填补了口语意大利语树库的研究空白，提出了创新设计方法，对后续语言分析和应用具有重要意义。

意大利口语KIParla语料库的KIPARLA森林树库：初步设计选择概述

BriefGPT - AI 论文速递 ·

本研究解决了在开发通用口语语言模型过程中缺乏全面评估基准的问题。作者提出动态SUPERB第二阶段，这是一个开放的、不断扩展的基准，以全面评估基于指令的通用语音模型，并引入了180个任务，大幅度提升了评估能力。研究发现，目前的模型在任务处理上存在普遍不足，亟需进一步创新。

动态SUPERB第二阶段：一个协作扩展的基准，用于测量口语语言模型的能力，共包含180个任务

BriefGPT - AI 论文速递 ·

本文介绍了一种新的自监督学习方法——发音者无关聚类（Spin），通过微调聚类语音表示，提升语音识别和声学单元发现的效果。同时提出了Robust Spin（R-Spin）框架，增强内容表征并减少计算资源消耗。研究表明，语义标记在多任务中优于压缩标记，并提出了系统化评估框架STAB，以推动语音标记器的发展。

DC-Spin：一种无关发言者的语音标记器，用于口语语言模型

BriefGPT - AI 论文速递 ·

深入评测与推荐：美加大学提供的《学英语：高级学术口语与听力》网络课程

我爱自然语言处理 ·

本研究通过为KIParla语料库构建普遍依赖树库，填补了意大利语资源的空白，丰富了口语意大利语的语言资源，为语言学研究提供了新视角。

迈向首个意大利语口语普遍依赖树库：KIParla森林

BriefGPT - AI 论文速递 ·