小红花·文摘 - 小红花技术领袖俱乐部

Myna发布，成为Ubuntu桌面系统的语音转文本解决方案

Myna发布，成为Ubuntu桌面系统的语音转文本解决方案

实时互动网 ·

如何在自己的硬件上使用QVAC实现私有文本转语音

如何在自己的硬件上使用QVAC实现私有文本转语音

freeCodeCamp.org ·

《GPT 图解》笔记：GPT-从 Decoder 到自回归文本生成

《GPT 图解》笔记：GPT-从 Decoder 到自回归文本生成

Ying’s Blog ·

在线教程丨最高4倍生成速度提升，DiffusionGemma可同时生成整块文本，基于多轮并行去噪持续优化结果

在线教程丨最高4倍生成速度提升，DiffusionGemma可同时生成整块文本，基于多轮并行去噪持续优化结果

HyperAI超神经 ·

使用Scikit-LLM进行多标签文本分类

使用Scikit-LLM进行多标签文本分类

MachineLearningMastery.com ·

Google AI 发布 DiffusionGemma：基于文本扩散的 260 亿 MoE 开放模型，生成速度可提升 4 倍

Google AI 发布 DiffusionGemma：基于文本扩散的 260 亿 MoE 开放模型，生成速度可提升 4 倍

实时互动网 ·

DiffusionGemma是一种实验性文本生成模型，其生成速度比传统模型快4倍，能够并行生成256个标记，优化了GPU使用效率，适合实时交互应用。尽管输出质量低于标准Gemma 4，但可通过微调提升性能，特别适合非线性文本结构和快速迭代。

DiffusionGemma：文本生成速度提升至4倍

Google DeepMind Blog ·

DiffusionGemma是一种实验性文本生成模型，采用文本扩散技术，速度比传统模型快4倍，能够同时生成256个标记，适用于实时交互应用。尽管输出质量低于Gemma 4，但可通过微调提升特定任务性能。该模型优化了硬件利用率，适合低并发本地推理。开发者可在Hugging Face获取模型权重并进行集成。

DiffusionGemma：文本生成速度提升4倍

The Keyword ·

在线教程丨16GB笔记本跑出接近26B MoE性能，Gemma 4 12B基于创新架构统一处理文本/图像/声音三种模态

在线教程丨16GB笔记本跑出接近26B MoE性能，Gemma 4 12B基于创新架构统一处理文本/图像/声音三种模态

HyperAI超神经 ·

本文探讨了大语言模型在推理阶段的退化现象，如死循环和乱码等问题。退化源于自回归Transformer的注意力机制和数值精度，导致输出失控。文章分析了退化的数学根源、表现形式及其机制，并提出了多层防御策略，包括架构设计、数值工程和解码策略，以提高模型在生产环境中的稳定性。

【Transformer 与注意力机制】59｜推理退化：为什么大模型会输出乱码、死循环和无意义文本

土法炼钢兴趣小组的博客 ·

论文周报 |微软MAI-Thinking探索纯RL自我进化，AIME准确率达97%；无需架构修改，VLM³凭纯文本坐标实现3D任务泛化...速览一周AI前沿论文

论文周报 |微软MAI-Thinking探索纯RL自我进化，AIME准确率达97%；无需架构修改，VLM³凭纯文本坐标实现3D任务泛化...速览一周AI前沿论文

HyperAI超神经 ·

Miso Labs发布MisoTTS：一款拥有开放权重的80亿情感文本转语音模型

Miso Labs发布MisoTTS：一款拥有开放权重的80亿情感文本转语音模型

实时互动网 ·

Ubuntu 计划为所有文本字段添加 AI 语音输入功能

Ubuntu 计划为所有文本字段添加 AI 语音输入功能

实时互动网 ·

Free CPU教程丨西湖大学张岳团队开源科研插图神器AutoFigure，可精准理解长篇科学文本

Free CPU教程丨西湖大学张岳团队开源科研插图神器AutoFigure，可精准理解长篇科学文本

HyperAI超神经 ·

Scikit-LLM与传统文本分类器的比较：何时应使用LLM？

Scikit-LLM与传统文本分类器的比较：何时应使用LLM？

MachineLearningMastery.com ·

在线教程丨英伟达开源LocateAnything，3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能

在线教程丨英伟达开源LocateAnything，3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能

HyperAI超神经 ·

CodeWF.Markdown：PDF 文本可复制、图片可嵌入，复制到公众号/知乎/掘金不再显示 HTML 源码

CodeWF.Markdown：PDF 文本可复制、图片可嵌入，复制到公众号/知乎/掘金不再显示 HTML 源码

dotNET跨平台 ·

卡帕西：AI直接生成html网页比看纯文本舒服一百倍

卡帕西：AI直接生成html网页比看纯文本舒服一百倍

极道 ·

一文通透Qwen3-VL——在交错式MRoPE、DeepStack、文本时间戳对齐机制的基础上，先预训练，再后训练(即分别SFT、蒸馏、RL)

一文通透Qwen3-VL——在交错式MRoPE、DeepStack、文本时间戳对齐机制的基础上，先预训练，再后训练(即分别SFT、蒸馏、RL)

结构之法算法之道 ·

基于文本条件的JEPA用于学习语义丰富的视觉表示

基于文本条件的JEPA用于学习语义丰富的视觉表示

Apple Machine Learning Research ·