小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Myna发布,成为Ubuntu桌面系统的语音转文本解决方案

Canonical 正在为 Ubuntu 26.10 开发名为 Myna 的语音转文本解决方案。Myna 提供可靠的桌面语音输入功能,用户可通过快捷键自然说话,实时转换为文本。该项目支持本地语音模型处理,无需互联网连接,初期专注于语音转文本功能。

Myna发布,成为Ubuntu桌面系统的语音转文本解决方案

实时互动网
实时互动网 · 2026-06-18T02:02:57Z
如何在自己的硬件上使用QVAC实现私有文本转语音

本文介绍了如何使用QVAC SDK在移动设备上实现离线文本转语音(TTS)功能。由于云服务成本高和延迟问题,作者开发了本地解决方案。QVAC允许在设备上直接运行AI模型,避免对外部API的依赖。文章详细阐述了项目设置、模型加载、音频处理及用户界面实现,强调了本地生成语音的隐私和成本优势。

如何在自己的硬件上使用QVAC实现私有文本转语音

freeCodeCamp.org
freeCodeCamp.org · 2026-06-14T02:06:42Z
《GPT 图解》笔记:GPT-从 Decoder 到自回归文本生成

本文讨论了GPT模型的结构及其自回归文本生成过程。GPT基于Decoder架构,采用贪婪解码和集束搜索策略生成文本。通过右移输入实现自回归,模型将输入和输出视为一个长序列,适用于多种生成任务。GPT的核心在于利用Causal Mask实现并行计算,简化了传统的编码-解码结构。

《GPT 图解》笔记:GPT-从 Decoder 到自回归文本生成

Ying’s Blog
Ying’s Blog · 2026-06-13T06:18:45Z
在线教程丨最高4倍生成速度提升,DiffusionGemma可同时生成整块文本,基于多轮并行去噪持续优化结果

Google于6月11日开源了基于离散扩散技术的文本生成模型DiffusionGemma。该模型具有高效的生成速度,能够以最高1100 Token/s的速度同时生成整个文本块,采用26B参数的混合专家设计,支持256K Token长上下文和多模态输入。尽管标准版Gemma 4在生成质量上更优,DiffusionGemma展示了新的发展方向。

在线教程丨最高4倍生成速度提升,DiffusionGemma可同时生成整块文本,基于多轮并行去噪持续优化结果

HyperAI超神经
HyperAI超神经 · 2026-06-12T10:10:12Z
使用Scikit-LLM进行多标签文本分类

本文介绍了如何使用scikit-LLM库进行多标签文本分类,利用大型语言模型(LLM)进行零-shot推理,无需标记训练数据。文章阐述了多标签分类的定义及其重要性,配置scikit-LLM的方法,以及如何加载真实数据集进行情感预测。通过示例,展示了为文本分配多个情感标签的简便性和高效性。

使用Scikit-LLM进行多标签文本分类

MachineLearningMastery.com
MachineLearningMastery.com · 2026-06-11T12:00:17Z
Google AI 发布 DiffusionGemma:基于文本扩散的 260 亿 MoE 开放模型,生成速度可提升 4 倍

谷歌AI团队发布了DiffusionGemma,一个260亿参数的开源文本生成模型。该模型采用文本扩散技术,支持并行生成,速度比传统自回归模型快4倍,适用于在线编辑、快速迭代和长文档分析等场景。尽管生成速度快,但输出质量低于标准Gemma 4,谷歌建议在生产中使用后者。

Google AI 发布 DiffusionGemma:基于文本扩散的 260 亿 MoE 开放模型,生成速度可提升 4 倍

实时互动网
实时互动网 · 2026-06-11T02:36:16Z

DiffusionGemma是一种实验性文本生成模型,其生成速度比传统模型快4倍,能够并行生成256个标记,优化了GPU使用效率,适合实时交互应用。尽管输出质量低于标准Gemma 4,但可通过微调提升性能,特别适合非线性文本结构和快速迭代。

DiffusionGemma:文本生成速度提升至4倍

Google DeepMind Blog
Google DeepMind Blog · 2026-06-10T16:24:11Z

DiffusionGemma是一种实验性文本生成模型,采用文本扩散技术,速度比传统模型快4倍,能够同时生成256个标记,适用于实时交互应用。尽管输出质量低于Gemma 4,但可通过微调提升特定任务性能。该模型优化了硬件利用率,适合低并发本地推理。开发者可在Hugging Face获取模型权重并进行集成。

DiffusionGemma:文本生成速度提升4倍

The Keyword
The Keyword · 2026-06-10T16:00:00Z
在线教程丨16GB笔记本跑出接近26B MoE性能,Gemma 4 12B基于创新架构统一处理文本/图像/声音三种模态

Google DeepMind 发布了新款多模态模型 Gemma 4 12B,参数为120亿,但在多项测试中表现接近260亿参数的模型。其无编码器架构显著降低了推理延迟和内存占用,支持音频输入,并可在普通笔记本上运行,降低了部署成本,为开发者提供了接近顶级性能的选择。

在线教程丨16GB笔记本跑出接近26B MoE性能,Gemma 4 12B基于创新架构统一处理文本/图像/声音三种模态

HyperAI超神经
HyperAI超神经 · 2026-06-10T03:09:51Z

本文探讨了大语言模型在推理阶段的退化现象,如死循环和乱码等问题。退化源于自回归Transformer的注意力机制和数值精度,导致输出失控。文章分析了退化的数学根源、表现形式及其机制,并提出了多层防御策略,包括架构设计、数值工程和解码策略,以提高模型在生产环境中的稳定性。

【Transformer 与注意力机制】59|推理退化:为什么大模型会输出乱码、死循环和无意义文本

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-06-09T00:00:00Z
论文周报 |微软MAI-Thinking探索纯RL自我进化,AIME准确率达97%;无需架构修改,VLM³凭纯文本坐标实现3D任务泛化...速览一周AI前沿论文

微软 AI 团队提出了「爬山机器」框架,并训练了参数达到 1T 的 MoE 模型 MAI-Thinking-1。该模型通过自适应熵控制的强化学习,在无第三方数据的情况下实现了长期稳定的性能增长,并在多个基准测试中取得领先水平。

论文周报 |微软MAI-Thinking探索纯RL自我进化,AIME准确率达97%;无需架构修改,VLM³凭纯文本坐标实现3D任务泛化...速览一周AI前沿论文

HyperAI超神经
HyperAI超神经 · 2026-06-08T09:19:04Z
Miso Labs发布MisoTTS:一款拥有开放权重的80亿情感文本转语音模型

Miso Labs发布了MisoTTS,这是一款拥有80亿参数的文本转语音模型,采用残差矢量量化技术,能够根据文本和音频上下文生成富有表现力的语音。该模型的词汇量可扩展至约2048³²,支持半双工传输,API访问正在开发中。

Miso Labs发布MisoTTS:一款拥有开放权重的80亿情感文本转语音模型

实时互动网
实时互动网 · 2026-06-05T03:07:15Z
Ubuntu 计划为所有文本字段添加 AI 语音输入功能

Ubuntu 26.10 将推出语音输入功能,用户可以通过说话代替打字。该功能由 AI 语言解析模型支持,旨在提升可访问性和便利性。此外,Canonical 还计划在后台添加隐式 AI 功能,以改进摄像头对焦和麦克风质量。

Ubuntu 计划为所有文本字段添加 AI 语音输入功能

实时互动网
实时互动网 · 2026-06-04T03:40:53Z
Free CPU教程丨西湖大学张岳团队开源科研插图神器AutoFigure,可精准理解长篇科学文本

西湖大学的张岳团队推出了智能科研插图生成系统AutoFigure,旨在解决高质量科研插图的生成难题。该系统基于长篇科学文本,确保插图的逻辑结构准确且视觉美观。此外,团队发布了FigureBench数据集,包含3300组科学文本与插图配对样本,支持科研插图的自动生成。

Free CPU教程丨西湖大学张岳团队开源科研插图神器AutoFigure,可精准理解长篇科学文本

HyperAI超神经
HyperAI超神经 · 2026-06-03T08:25:17Z
Scikit-LLM与传统文本分类器的比较:何时应使用LLM?

本文比较了三种文本分类方法:传统的TF-IDF与逻辑回归、基于BART的零-shot分类和使用scikit-LLM的零-shot分类。研究表明,scikit-LLM在分类准确性(0.86-0.87)和速度上优于其他方法,适合处理数据量小且需要深度语言理解的任务。

Scikit-LLM与传统文本分类器的比较:何时应使用LLM?

MachineLearningMastery.com
MachineLearningMastery.com · 2026-06-02T12:00:18Z
在线教程丨英伟达开源LocateAnything,3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能

NVIDIA 最近推出了视觉语言定位模型LocateAnything-3B,拥有30亿参数,支持多种视觉定位任务。其核心创新为并行框解码(PBD),显著提升了定位精度和解码速度,尤其在复杂场景下表现优异,推动了视觉定位技术的发展。

在线教程丨英伟达开源LocateAnything,3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能

HyperAI超神经
HyperAI超神经 · 2026-06-02T09:55:40Z
CodeWF.Markdown:PDF 文本可复制、图片可嵌入,复制到公众号/知乎/掘金不再显示 HTML 源码

这篇文章讨论了CodeWF.Markdown和Vex在Markdown导出过程中的技术改进,解决了图片导出和剪贴板格式的问题。改进后,导出的PDF和Word文件中的图片能够随文件保存,确保离线查看时不丢失。同时,复制到微信公众号等平台时,内容以富文本格式粘贴,避免显示HTML源码。这些改进提升了用户的写作体验和导出质量。

CodeWF.Markdown:PDF 文本可复制、图片可嵌入,复制到公众号/知乎/掘金不再显示 HTML 源码

dotNET跨平台
dotNET跨平台 · 2026-05-27T00:00:00Z
卡帕西:AI直接生成html网页比看纯文本舒服一百倍

AI可以直接生成HTML网页,提升用户体验。用户通过简单提示可以获取更直观的信息,如购物清单和旅游行程。未来,AI可能还会生成视频和交互式模拟器,进一步简化信息获取过程。

卡帕西:AI直接生成html网页比看纯文本舒服一百倍

极道
极道 · 2026-05-13T12:39:00Z
一文通透Qwen3-VL——在交错式MRoPE、DeepStack、文本时间戳对齐机制的基础上,先预训练,再后训练(即分别SFT、蒸馏、RL)

Qwen系列模型最新升级为Qwen3-VL,在视觉理解和视频处理方面有显著提升。引入多维旋转位置编码(MRoPE)和DeepStack技术,增强了对复杂场景的推理能力,支持长文档和长视频处理,具备更高的上下文长度和精确的时间定位能力,推动多模态理解的进步。

一文通透Qwen3-VL——在交错式MRoPE、DeepStack、文本时间戳对齐机制的基础上,先预训练,再后训练(即分别SFT、蒸馏、RL)

结构之法 算法之道
结构之法 算法之道 · 2026-05-08T07:57:45Z
基于文本条件的JEPA用于学习语义丰富的视觉表示

本文介绍了一种视觉自监督学习方法——文本条件JEPA(TC-JEPA),该方法通过图像标题减少特征预测的不确定性。TC-JEPA利用细粒度文本调节器,使图像特征更具语义意义,从而提升下游任务的表现和训练稳定性。该方法在视觉理解和推理任务中优于对比学习,展示了新的基于特征预测的视觉-语言预训练范式。

基于文本条件的JEPA用于学习语义丰富的视觉表示

Apple Machine Learning Research
Apple Machine Learning Research · 2026-05-07T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码