小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
获取 AceDataCloud 平台模型列表

AceDataCloud平台提供公开API接口,用户可获取所有可用模型列表,包括LLM、图像、视频等。接口支持按服务和标签过滤,返回模型的详细信息,如ID、价格和能力标签。用户可通过cURL或Python调用该接口,便于集成模型选择功能。

获取 AceDataCloud 平台模型列表

静觅
静觅 · 2026-06-13T21:28:11Z
基于Transformers.js的多模态浏览器AI:图像与语音处理

本文介绍了如何在浏览器中使用Transformers.js构建多模态AI功能,包括图像分类、图像描述和语音转录。用户无需服务器或API密钥,所有数据在本地处理。教程分为三个部分:使用ViT模型进行图像分类,使用GPT-2解码器进行图像描述,以及使用OpenAI的Whisper架构进行语音转录。最终将三者整合为一个多模态媒体分析器,支持并行加载模型并在统一仪表板上展示结果。

基于Transformers.js的多模态浏览器AI:图像与语音处理

MachineLearningMastery.com
MachineLearningMastery.com · 2026-06-10T11:35:14Z
在线教程丨16GB笔记本跑出接近26B MoE性能,Gemma 4 12B基于创新架构统一处理文本/图像/声音三种模态

Google DeepMind 发布了新款多模态模型 Gemma 4 12B,参数为120亿,但在多项测试中表现接近260亿参数的模型。其无编码器架构显著降低了推理延迟和内存占用,支持音频输入,并可在普通笔记本上运行,降低了部署成本,为开发者提供了接近顶级性能的选择。

在线教程丨16GB笔记本跑出接近26B MoE性能,Gemma 4 12B基于创新架构统一处理文本/图像/声音三种模态

HyperAI超神经
HyperAI超神经 · 2026-06-10T03:09:51Z

Hugging Face推荐了七个适合2026年的文本生成图像模型,包括FLUX.1 Schnell(商业用途,生成速度快)、FLUX.1 Dev(个人和研究,质量高)、FLUX.1 Kontext Dev(支持图像编辑)、Stable Diffusion 3.5(丰富的社区生态)和Kolors(中英文内容生成)。所有模型均可免费使用,满足不同需求。

当前Hugging Face上最佳免费图像生成器!

KDnuggets
KDnuggets · 2026-06-09T14:00:10Z
HumanEgo——从半小时人类第一视角视频中进行零样本学习的4大关键点:对人类手臂进行图像修补、将每只手和每个物体编码为一个交互中心Token、流匹配策略、稠密辅助目标

HumanEgo框架通过人类第一视角视频学习机器人策略,成功解决了人类与机器人之间的具身鸿沟。研究者利用佩戴的Aria眼镜采集示范数据,实现了零样本迁移,平均成功率达到92.5%。该方法无需机器人数据,数据高效,支持在新环境中稳健迁移,显著提升了机器人操作效率。

HumanEgo——从半小时人类第一视角视频中进行零样本学习的4大关键点:对人类手臂进行图像修补、将每只手和每个物体编码为一个交互中心Token、流匹配策略、稠密辅助目标

结构之法 算法之道
结构之法 算法之道 · 2026-06-08T15:46:32Z
在线教程丨英伟达开源LocateAnything,3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能

NVIDIA 最近推出了视觉语言定位模型LocateAnything-3B,拥有30亿参数,支持多种视觉定位任务。其核心创新为并行框解码(PBD),显著提升了定位精度和解码速度,尤其在复杂场景下表现优异,推动了视觉定位技术的发展。

在线教程丨英伟达开源LocateAnything,3B模型可实现图像+视频的目标指向/开放词汇目标检测/指代表达定位/OCR文本定位等功能

HyperAI超神经
HyperAI超神经 · 2026-06-02T09:55:40Z
对图像内容进行精确分析案例实践

某出行企业通过多模态大模型和Amazon Rekognition,实现了油表油量的自动化识别,提升了租车业务的结算效率和用户体验,满足了油量结算的精度要求。

对图像内容进行精确分析案例实践

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-05-28T01:20:51Z
ICASSP 2026 | IQ-LUT:高效图像超分的插值与量化查找表方法

本文提出了IQ-LUT方法,通过插值、非均匀量化和残差学习,解决了查找表超分辨率技术的存储膨胀问题。该方法在保持高质量图像重建的同时,显著压缩模型体积,尤其在移动端和嵌入式设备上表现优异。实验结果表明,IQ-LUT在多个基准数据集上优于现有方法,展现出高性能与效率。

ICASSP 2026 | IQ-LUT:高效图像超分的插值与量化查找表方法

实时互动网
实时互动网 · 2026-05-26T10:05:23Z
全新生图模型 Anima V1 发布:专注动漫风格的图像生成;MemLens 多模态长程记忆评估数据集:涵盖跨会话图文推理与知识更新机制

Anima V1 是 CircleStone Labs 于 2026 年推出的动漫风格图像生成模型,支持通过文本描述快速生成角色立绘和插画,用户可在 Gradio 界面中调整参数以提升创作效率。

全新生图模型 Anima V1 发布:专注动漫风格的图像生成;MemLens 多模态长程记忆评估数据集:涵盖跨会话图文推理与知识更新机制

HyperAI超神经
HyperAI超神经 · 2026-05-22T08:35:01Z
智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速

智象未来在北京发布了图像大模型HiDream-O1-Image-Pro,该模型基于原生全模态架构,参数超过200亿,刷新多项基准测试纪录。公司完成新一轮融资,显示市场对原生全模态模型的信心。该模型通过统一图像、文本和任务条件,提升生成和泛化能力,推动AI向理解和构建世界的方向发展。

智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速

量子位
量子位 · 2026-05-20T14:09:25Z

Genie是一个通用的世界模型,结合Google街景图像,允许AI代理在真实世界中导航。用户可以选择美国的真实地点,创造基于街景的虚拟世界。该功能已向全球Google AI Ultra订阅用户推出,仍在实验阶段。

通过Project Genie和街景图像模拟真实世界地点

The Keyword
The Keyword · 2026-05-19T17:45:00Z
泄露的图像揭示了索尼10周年‘ColleXion’耳机

索尼即将发布的10周年“ColleXion”耳机设计图泄露,预计售价649美元。耳机采用更厚的皮革填充和较大的耳罩,具备24小时电池续航(关闭ANC可达32小时)。新设计包括金属按钮和改进的麦克风格栅,并配有新款手提包和充电线。

泄露的图像揭示了索尼10周年‘ColleXion’耳机

The Verge
The Verge · 2026-05-18T12:10:03Z

谷歌DeepMind推出了Project Genie,结合真实世界街景图像,允许用户创建基于现实地点的虚拟环境。用户可以选择地点和风格,生成互动的想象世界。该功能现已向全球Google AI Ultra用户开放,旨在提升AI代理在复杂环境中的学习与互动能力。

通过Project Genie和街景图像模拟真实世界地点

Google DeepMind Blog
Google DeepMind Blog · 2026-05-17T19:53:18Z
腾讯开源 Hy-MT1.5 翻译模型:440MB 跑出顶级翻译能力;从图像序列到点云生成:LingBot-Map 在线 3D 重建流程

腾讯推出的Hy-MT1.5-1.8B-1.25bit是一款轻量级多语言翻译模型,支持33种语言和1056个翻译方向,翻译效果优于部分大型模型,参数仅为18亿。

腾讯开源 Hy-MT1.5 翻译模型:440MB 跑出顶级翻译能力;从图像序列到点云生成:LingBot-Map 在线 3D 重建流程

HyperAI超神经
HyperAI超神经 · 2026-05-15T04:26:58Z
基于多模态视觉模型和图文向量模型的工业图像知识库研究与应用

基于多模态视觉模型和图文向量模型构建的工业图像知识库,可以将复杂工业图片转化为可检索的结构化信息,从而提升故障排查效率。该系统适用于相似案例召回和维修工单辅助检索,具备快速落地和业务可解释性。通过结合语义理解与向量检索,知识库有效支持工业现场的决策与知识沉淀。

基于多模态视觉模型和图文向量模型的工业图像知识库研究与应用

dotNET跨平台
dotNET跨平台 · 2026-05-13T23:45:42Z
在线教程丨单卡即可爆改,面壁智能等开源MiniCPM-V-4.6,1.3B端侧模型支持图像理解/视频理解/OCR/多轮多模态对话

近年来,AI行业认识到并非所有场景都需使用大型模型。高昂的推理成本和数据隐私风险使得小型模型在实际应用中更具效率。新开源的MiniCPM-V 4.6模型仅有1.3B参数,支持多种任务,适合在端侧设备上运行,推动AI应用落地。

在线教程丨单卡即可爆改,面壁智能等开源MiniCPM-V-4.6,1.3B端侧模型支持图像理解/视频理解/OCR/多轮多模态对话

HyperAI超神经
HyperAI超神经 · 2026-05-13T10:50:55Z
BalCapRL:一种基于强化学习的多模态大语言模型图像描述的平衡框架

本文介绍了一种名为BalCapRL的平衡强化学习框架,旨在优化多模态大语言模型的图像描述。该框架通过奖励解耦归一化和长度条件奖励掩蔽,显著提升了描述的实用性、覆盖率和语言质量,克服了现有方法在描述质量上的局限性,多个模型的性能均有显著提高。

BalCapRL:一种基于强化学习的多模态大语言模型图像描述的平衡框架

Apple Machine Learning Research
Apple Machine Learning Research · 2026-05-11T00:00:00Z

nom-exif 3.0.0 发布,提供统一的元数据解析功能,支持多种图像和视频格式。新版本引入统一解析器、三种输入模式、Motion Photo 支持及结构化错误处理,旨在简化元数据解析,提升开发效率。

【Rust日报】2026-05-10 nom-exif 3.0.0 发布:纯 Rust 元数据解析库

Rust.cc
Rust.cc · 2026-05-10T01:06:57Z
如何使用JavaScript在浏览器中将图像转换为PDF - 一步一步的指南

本文介绍了如何使用JavaScript构建浏览器端的图像转PDF转换器。用户可以上传多张图片,配置PDF设置(如排序、方向、页面大小和边距),并生成可下载的PDF文件。整个过程在客户端完成,确保隐私和速度。教程涵盖项目设置、使用jsPDF库、处理多张图片及常见错误等内容。

如何使用JavaScript在浏览器中将图像转换为PDF - 一步一步的指南

freeCodeCamp.org
freeCodeCamp.org · 2026-05-08T17:18:29Z
LWiAI播客第242期 - ChatGPT图像2.0,Qwen 3.6 Max,Kimi-K2.6

本期播客讨论了最新的AI新闻,包括OpenAI发布的ChatGPT图像2.0模型,生成文本和截图的能力显著提升;阿里巴巴推出Qwen 3.6 Max,转为API服务;SpaceX与Cursor达成60亿美元的合作协议;Cerebras申请IPO;亚马逊向Anthropic投资50亿美元。

LWiAI播客第242期 - ChatGPT图像2.0,Qwen 3.6 Max,Kimi-K2.6

Last Week in AI
Last Week in AI · 2026-04-30T07:14:45Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码