小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
基于Transformers.js的多模态浏览器AI:图像与语音处理

本文介绍了如何在浏览器中使用Transformers.js构建多模态AI功能,包括图像分类、图像描述和语音转录。用户无需服务器或API密钥,所有数据在本地处理。教程分为三个部分:使用ViT模型进行图像分类,使用GPT-2解码器进行图像描述,以及使用OpenAI的Whisper架构进行语音转录。最终将三者整合为一个多模态媒体分析器,支持并行加载模型并在统一仪表板上展示结果。

基于Transformers.js的多模态浏览器AI:图像与语音处理

MachineLearningMastery.com
MachineLearningMastery.com · 2026-06-10T11:35:14Z
BalCapRL:一种基于强化学习的多模态大语言模型图像描述的平衡框架

本文介绍了一种名为BalCapRL的平衡强化学习框架,旨在优化多模态大语言模型的图像描述。该框架通过奖励解耦归一化和长度条件奖励掩蔽,显著提升了描述的实用性、覆盖率和语言质量,克服了现有方法在描述质量上的局限性,多个模型的性能均有显著提高。

BalCapRL:一种基于强化学习的多模态大语言模型图像描述的平衡框架

Apple Machine Learning Research
Apple Machine Learning Research · 2026-05-11T00:00:00Z
从零开始构建图像描述生成变换器

本文介绍了构建图像描述生成模型的过程,该模型采用编码-解码架构,通过交叉注意力连接图像与文本。图像被分割成小块以生成特征,解码器生成描述。模型在Flickr8k数据集上训练,并通过随机采样提高泛化能力。尽管在简单场景中表现良好,但在复杂场景中仍存在困难。关键学习包括图像分块、交叉注意力的重要性和数据增强的影响。

从零开始构建图像描述生成变换器

Yi's blog
Yi's blog · 2026-01-30T18:00:00Z
Wayland 协议 1.47 发布,更新了颜色管理协议

Wayland 协议 1.47 版修订了色彩管理和 HDR 支持,放宽了最大主控显示亮度限制,强制使用 64 位图像描述 ID,并新增“absolute_no_adaptation”渲染意图。同时更新了色彩管理协议,禁止宣传已弃用功能。

Wayland 协议 1.47 发布,更新了颜色管理协议

实时互动网
实时互动网 · 2025-12-16T02:19:33Z
您应该为您的应用选择哪些视觉语言模型

视觉语言模型(VLMs)是多模态AI的重要分支,能够处理文本和图像,执行描述、搜索和生成等任务。当前流行的VLM包括OpenAI的GPT-4o、Meta的Llama 4和Google的Gemini 2.5 Flash。评估VLM性能的方法有图像描述和视觉问答,常用数据集包括LAION-5B、VQA和Visual Genome。尽管VLM功能强大,但仍面临偏见和成本等挑战。

您应该为您的应用选择哪些视觉语言模型

The New Stack
The New Stack · 2025-06-23T18:00:42Z
如何在Vue 3中构建AI图像说明生成器

本文介绍了如何使用Vue 3和Hugging Face推理API构建自动生成图像描述的组件。用户可通过拖放上传图片,系统将生成类似人类的图像说明,以提升可访问性和用户体验。教程涵盖组件构建、图像预览和错误处理,适合前端开发者。

如何在Vue 3中构建AI图像说明生成器

DEV Community
DEV Community · 2025-04-07T20:53:56Z
Llama 4现已在Vercel Marketplace上提供

Meta的Llama 4模型现已通过Vercel Marketplace的Groq提供,用户可免费安装Groq集成,利用AI SDK与Llama 4互动,支持图像描述等功能。

Llama 4现已在Vercel Marketplace上提供

Vercel News
Vercel News · 2025-04-05T13:00:00Z

本研究探讨了机器生成图像描述评估的复杂性,分析了现有评估方法的优缺点,指出当前指标在适应多模态大语言模型生成的长篇描述时的局限性,并提出未来研究方向。

Image Captioning Evaluation in the Era of Multimodal Large Language Models: Challenges and Future Perspectives

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z
我的个人智能管家AI代理:基于CrewAI、Granite、DeepSeek等技术

本文介绍了一个基于CrewAI的智能代理项目,通过检测聊天关键词提供相关服务建议。目前实现了天气查询和图像描述功能,未来计划扩展更多工具。该项目利用Hugging Face平台的LLM和Streamlit构建用户界面,为编程学习和实践提供了良好机会。

我的个人智能管家AI代理:基于CrewAI、Granite、DeepSeek等技术

DEV Community
DEV Community · 2025-03-16T18:51:21Z

本研究提出两种策略以解决多语言图像描述评估中的数据稀缺问题,结果表明微调的多语言模型具有良好的泛化能力,并与人类评判结果高度相关。

多语言图像描述评估:CLIP模型能达到多远?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z
开发者的人工智能:基于视觉注意力的图像描述

本文总结了图像描述模型的训练过程,结合视觉注意力机制处理图像和文本。模型采用编码器-解码器架构,编码器提取图像特征,解码器生成描述文本。通过注意力层,模型学习图像特征与文本的关系,训练和推理过程相似,使用TensorFlow实现。

开发者的人工智能:基于视觉注意力的图像描述

DEV Community
DEV Community · 2025-01-29T21:36:29Z
解锁图像的魔力:使用尖端SmolVLM-500M模型的快速简易指南

SmolVLM-500M-Instruct是一个拥有5亿参数的紧凑型模型,能够高效快速地生成图像的详细文本描述。该Python脚本利用Hugging Face库进行图像处理和描述生成。

解锁图像的魔力:使用尖端SmolVLM-500M模型的快速简易指南

DEV Community
DEV Community · 2025-01-24T02:36:19Z

本研究提出了一种图像描述增强的CLIP适配器(IDEA),旨在解决少样本图像分类中的信息互补不足问题。通过结合视觉特征与文本描述,IDEA在多个任务中超越了现有模型,并引入了可训练的IDEA(T-IDEA),在11个数据集上取得了领先成果。

IDEA:图像描述增强的CLIP适配器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-15T00:00:00Z
谷歌发布PaliGemma 2视觉语言模型系列

谷歌DeepMind推出PaliGemma 2视觉语言模型,提供三种尺寸和分辨率,性能卓越。该模型结合了SigLIP-So400m图像编码器和Gemma 2 LLM,经过多项基准测试,超越了现有前沿模型。PaliGemma 2可生成详细图像描述,支持多种任务,且在CPU上运行时质量无显著差异。

谷歌发布PaliGemma 2视觉语言模型系列

InfoQ
InfoQ · 2025-01-14T14:00:00Z

本文探讨了如何使用Hugging Face的transformer库生成图像描述。通过ViT-GPT2模型,输入图像后,模型能够生成相应的文本描述。文章介绍了模型架构、环境设置及推理过程,强调了Hugging Face的灵活性和可用性,用户可以轻松生成图像标题并尝试不同模型以优化效果。

如何使用视觉变换器(ViT)和Hugging Face Transformers 实现图像描述生成

KDnuggets
KDnuggets · 2024-12-26T19:10:10Z

本研究提出了AI Flow框架,旨在解决资源限制环境中推送大型模型的延迟和性能瓶颈。该框架通过优化设备、边缘节点和云服务器之间的资源利用,在图像描述任务中有效降低响应延迟,同时保持高质量描述,为AI在网络边缘的应用提供新视角。

AI Flow at the Network Edge

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-19T00:00:00Z
ImageInWords数据集解锁超详细图像描述,推动人工智能视觉与语言的进步

本文介绍了ImageInWords数据集,包含250万对详细的图像描述,旨在推动图像标注和视觉问答的发展。该数据集提供更全面的描述,助力训练先进的视觉语言模型,生成细致的多句描述,促进无障碍和复杂问题解答等应用。尽管存在一些局限性,该数据集为视觉理解领域带来了重要进展。

ImageInWords数据集解锁超详细图像描述,推动人工智能视觉与语言的进步

DEV Community
DEV Community · 2024-11-02T07:11:41Z

本研究提出了一种名为最近邻规范化(NNN)的方法,旨在提升大规模预训练模型在图像描述、视觉问答和跨模态检索中的性能。该方法无需额外训练,显著改善了文本与图像检索的效果,具有广泛的应用潜力。

Nearest Neighbor Normalization Improves Multimodal Retrieval

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z

该论文介绍了Visual Genome数据集及其在图像描述和问答中的应用,提出了MAC网络和XNMs等新模型,强调了注意力机制在神经网络中的重要性,并探讨了提升模型解释性和视觉理解能力的方法。

有效指导模型注意力的简单是非注释

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-29T00:00:00Z
学习使用Claude AI构建文本总结器、图像描述器等项目

AI模型Claude由Anthropic开发,成为开发者的重要工具。freeCodeCamp.org推出课程,教授如何使用Claude和Anthropic的API进行项目开发。课程包括编码挑战,涵盖Claude的基本操作、提示设计、错误处理和云部署。学员将完成文本总结器和图像描述器项目,掌握Claude的应用。

学习使用Claude AI构建文本总结器、图像描述器等项目

freeCodeCamp.org
freeCodeCamp.org · 2024-10-22T15:13:45Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码