小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
好玩!复旦与阶跃星辰联合发布SVG矢量图生成大模型OmniSVG!挑战3万Token极限

OmniSVG是一种统一的可缩放矢量图形生成模型,利用预训练的视觉-语言模型进行多模态SVG生成。它通过参数化SVG命令和坐标,提升了生成复杂SVG的能力,并开源了包含200万个样本的数据集。OmniSVG在多个生成任务中表现优异,展现了在专业设计中的应用潜力。

好玩!复旦与阶跃星辰联合发布SVG矢量图生成大模型OmniSVG!挑战3万Token极限

机器之心
机器之心 · 2025-04-18T09:51:32Z

本文介绍了一种新方法,使大型语言模型(LLM)能够处理可缩放矢量图形(SVG)格式的图像。该方法通过视觉到语言的分词器(V2T Tokenizer)实现视觉理解,无需微调。研究表明,LLM在图像识别、描述和视觉问题回答等任务中表现出色,具有良好的鲁棒性和自回归图像恢复能力。

借助大型语言模型重新思考逆向图形

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-23T00:00:00Z

本文介绍了一种新方法,使大型语言模型(LLM)能够处理可缩放矢量图形(SVG)格式的图像,旨在弥合视觉与文本模态的鸿沟。通过图像分类和生成,展示了该方法在鉴别性和生成性任务上的潜力及其鲁棒性。同时,研究评估了视觉语言模型(VLMs)在几何推理中的表现,发现其在视觉演绎推理方面仍有提升空间。

基于文本的矢量图形推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-09T00:00:00Z
苹果最新原型AI工具可通过文本描述为图像添加动画效果

苹果研究人员推出了Keyframer,这是一个原型生成式AI动画工具,用户可以通过描述动画效果给2D图像添加动态效果。Keyframer利用大型语言模型生成CSS代码,实现对可缩放矢量图形的动画效果。虽然编辑工具有限,但不需要编码经验。Keyframer目前还未公开发布,用户研究仅包括13人,局限于Web动画。

苹果最新原型AI工具可通过文本描述为图像添加动画效果

The Verge
The Verge · 2024-02-14T16:58:23Z

本文介绍了一种使用可缩放矢量图形(SVG)格式处理图像的新方法,弥合了视觉和文本模态之间的鸿沟,提高了语言模型对图像的理解和操作能力。通过简单的图像分类、生成和上下文学习,展示了该方法在鉴别性和生成性任务上的潜力,以及对分布偏移的鲁棒性和上下文学习能力的提高。

语言模型的视觉检查

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-03T00:00:00Z

本文介绍了一种使用可缩放矢量图形(SVG)格式处理图像的新方法,弥合了视觉和文本模态之间的鸿沟,提高了对分布偏移的鲁棒性。通过简单的图像分类、生成和上下文学习,展示了该方法在鉴别性和生成性任务上的潜力。

LLMs 作为视觉解释器:通过演变的视觉描述推进图像分类

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-20T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码