小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
基于Transformers.js的多模态浏览器AI:图像与语音处理

本文介绍了如何在浏览器中使用Transformers.js构建多模态AI功能,包括图像分类、图像描述和语音转录。用户无需服务器或API密钥,所有数据在本地处理。教程分为三个部分:使用ViT模型进行图像分类,使用GPT-2解码器进行图像描述,以及使用OpenAI的Whisper架构进行语音转录。最终将三者整合为一个多模态媒体分析器,支持并行加载模型并在统一仪表板上展示结果。

基于Transformers.js的多模态浏览器AI:图像与语音处理

MachineLearningMastery.com
MachineLearningMastery.com · 2026-06-10T11:35:14Z
GitHub 热门项目周刊 · 第 11 期 · 2026 年第 21 周

本期GitHub热门项目周刊精选了10个开源项目,涵盖AI和开发工具等领域,包括用于绕过BitLocker加密的黄金钥、编程Agent语言的Vercel Labs Zero、实现Gopay支付自动化的Gopay_plus_automatic、高效图像分类框架VGGT-Omega,以及针对特定漏洞的Nginx-Rift等。这些项目帮助开发者快速了解新工具和趋势。

GitHub 热门项目周刊 · 第 11 期 · 2026 年第 21 周

浅时光博客
浅时光博客 · 2026-05-18T05:41:34Z
新技术使人工智能模型在学习过程中更加精简和快速

麻省理工学院等研究团队开发的CompreSSM方法在训练过程中压缩人工智能模型,避免了传统方法的性能损失。该方法通过控制理论识别模型的重要部分,提前剔除无用组件,使模型训练更小更快。研究显示,压缩模型在图像分类任务中保持了接近原始模型的准确性,训练速度提高了1.5倍。CompreSSM为现代状态空间模型的压缩提供了理论基础,未来有望成为标准方法。

新技术使人工智能模型在学习过程中更加精简和快速

MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL)
MIT News - Computer Science and Artificial Intelligence Laboratory (CSAIL) · 2026-04-09T13:00:00Z
CS231n 讲义 I:图像分类

图像分类任务是将输入图像分配给固定类别,面临视角、尺度、变形和遮挡等挑战。通过数据驱动的方法,积累标记图像的训练数据集,开发学习算法。使用最近邻分类器评估模型准确性,并通过交叉验证调整超参数。

CS231n 讲义 I:图像分类

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-02-10T00:45:09Z
CS231n 讲义 I:图像分类

图像分类任务是将输入图像分配给固定类别标签,面临视角、尺度、变形、遮挡和光照等挑战。有效模型需对这些变化不敏感,同时对类别间变化敏感。通过积累标记图像的训练数据集,开发学习算法进行分类,并通过预测新图像标签评估分类器质量。k近邻分类器通过投票确定标签。

CS231n 讲义 I:图像分类

Louis Aeilot's Blog
Louis Aeilot's Blog · 2026-02-10T00:45:09Z
OpenAI CLIP:通过文本学习零样本图像识别的模型

CLIP是OpenAI开发的神经网络,通过学习4亿对图像和文本,实现无标注数据的图像分类。它通过匹配图像与文本描述,克服了传统计算机视觉的局限性,具有灵活性和高效性,广泛应用于AI领域。

OpenAI CLIP:通过文本学习零样本图像识别的模型

ByteByteGo Newsletter
ByteByteGo Newsletter · 2025-12-29T16:30:45Z
手把手教你在Arm边缘AI计算平台上部署飞桨模型

Arm与百度合作,推动边缘AI解决方案的开发。通过在Arm Ethos-U85上部署PaddleLite视觉模型,实现图像分类和目标检测等应用,并提供完整的开发环境和部署指南,帮助开发者优化模型和高效部署AI应用。

手把手教你在Arm边缘AI计算平台上部署飞桨模型

百度大脑
百度大脑 · 2025-09-12T11:14:56Z
服务地理空间、视觉及更多:在vLLM中实现多模态输出处理

vLLM支持多模态输出处理,集成地理空间基础模型,提升图像分类和音频合成等任务的效率。通过IO处理器插件,用户可以灵活处理模型的输入输出,简化操作,支持多种数据格式,推动多模态模型的发展。

服务地理空间、视觉及更多:在vLLM中实现多模态输出处理

vLLM Blog
vLLM Blog · 2025-09-05T00:00:00Z
科技爱好者周刊(第 363 期):最好懂的神经网络解释

本周科技动态包括青岛启用全球首栋零碳大楼、广州医科大学成功进行猪肺移植手术,以及韩国发明的90度订书机。此外,文章还介绍了神经网络的基本原理及其在图像分类中的应用。

科技爱好者周刊(第 363 期):最好懂的神经网络解释

阮一峰的网络日志
阮一峰的网络日志 · 2025-08-29T00:11:28Z
通过决策树看图像

本文介绍了如何将原始图像数据转化为结构化特征,并利用决策树进行图像分类。通过提取颜色直方图和边缘强度等特征,使用CIFAR-10数据集进行训练。引入HOG特征后,分类准确率提高至48.6%。文章讨论了特征提取的局限性及决策树模型的应用潜力。

通过决策树看图像

MachineLearningMastery.com
MachineLearningMastery.com · 2025-08-21T13:59:12Z
我如何构建并比较自定义CNN与MobileNetV2用于船只图像分类

作者在DeepTechReady课程中完成了深度学习作业,构建并比较了自定义CNN与MobileNetV2模型用于多类船只图像分类。通过Google Colab处理不平衡数据集,发现MobileNetV2在准确性和泛化能力上优于自定义CNN,尤其在少数类处理上表现更佳。

我如何构建并比较自定义CNN与MobileNetV2用于船只图像分类

DEV Community
DEV Community · 2025-05-24T12:41:23Z

本研究提出了一种名为KO的神经网络优化器,基于动力学理论和偏微分方程模拟。KO通过粒子系统演化重新构思参数更新,增强参数多样性,有效减缓参数凝聚现象。实验结果显示,KO在图像和文本分类任务中的表现优于传统优化器,如Adam和SGD,准确率更高。

KO:基于动力学的神经网络优化器与偏微分方程模拟方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了速度正则化Adam(VRAdam),旨在解决传统优化算法在训练深度神经网络时的振荡和收敛问题。VRAdam通过引入基于速度的惩罚项,优化动态学习率,从而提升了图像分类和语言建模等任务的性能。

A Physics-Inspired Optimizer: Velocity Regularized Adam

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本研究提出了一种新的多层递归注意模型(MRAM),有效模拟人类视觉体系的层次结构,改善了注视与扫视的平衡,并在图像分类基准测试中超越了现有模型。

Emergence of Fixational and Saccadic Movements in a Multi-Level Recurrent Attention Model

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本研究提出了一种神经启发的神经响应归一化(NeuRN)层,旨在提升深度学习模型在未知目标领域的图像分类性能。实验结果表明,NeuRN在跨域任务中表现出色,为未来模型的发展提供了支持。

NeuRN: A Neural-Inspired Approach for Domain Generalization in Image Classification

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-11T00:00:00Z

本研究提出了一种名为Biomed-DPT的双模态提示调优技术,旨在提升生物医学图像分类的提示学习效果。通过结合临床提示、领域适应提示和视觉提示中的零向量软提示,该方法显著提高了分类准确率。

Biomed-DPT: A Dual-Modal Prompt Tuning Technique for Biomedical Vision-Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

该研究提出了一种新方法,通过卷积神经网络直接从傅里叶相位显微镜测量中进行图像分类,避免了高计算成本的重建过程。该方法提高了12%的分类性能,减少了数据量和采集时间,同时保持了分类准确性。

Direct Image Classification from Fourier Ptychographic Microscopy Measurements without Reconstruction

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

本研究提出了seq-JEPA模型,旨在解决自监督算法在视觉表征学习中的局限性,特别是二视图范式下的不变性与不等变性之间的权衡。该模型能够同时学习这两种表示,显著提升图像分类等任务的性能。

seq-JEPA: Autoregressive Predictive Learning of Invariant-Equivariant World Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z

本研究提出了一种新的深度学习方法,解决乳腺癌组织病理图像分类中注释数据有限的问题。改进的方法显著提升了模型在有限标注下的分类性能,具有重要的临床应用潜力。

DCS-ST Method for Classification of Breast Cancer Histopathology Images with Limited Annotations

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z

本研究评估了内存受限环境中的轻量级深度学习模型,填补了低内存设备上图像分类的研究空白。通过基准测试五种架构,发现迁移学习显著提升了模型在复杂数据集Tiny ImageNet上的准确性和效率,为优化深度学习系统提供了建议。

Comparative Analysis of Lightweight Deep Learning Models on Memory-Constrained Devices

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-06T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码