小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Jina-VLM:小型多语言视觉语言模型

jina-vlm是一个具有2.4B参数的视觉语言模型,支持29种语言的视觉问答,性能优越,适合消费级硬件。它结合了SigLIP2视觉编码器和Qwen3语言骨干,在多语言理解和视觉推理方面表现出色,并通过高效的注意力池化连接器减少视觉标记数量,保持多语言能力。

Jina-VLM:小型多语言视觉语言模型

Jina AI
Jina AI · 2025-12-04T18:57:53Z

LightGen模型由港科大与Everlyn AI合作开发,仅需8张GPU训练即可实现接近SOTA的高质量图像生成。通过知识蒸馏和直接偏好优化,显著降低了训练成本与资源需求,展现出在有限条件下生成高效图像的潜力。实验结果表明,LightGen在多个任务上优于现有模型,未来可扩展至其他生成任务。

8张GPU训出近SOTA模型,超低成本图像生成预训练方案开源

量子位
量子位 · 2025-03-19T04:20:46Z

本研究提出了一种Add-it方法,旨在解决在复杂场景中根据文本指令自然添加对象的问题。该方法无需额外训练,通过扩展扩散模型的注意机制,综合考虑场景图像和文本提示,实现了结构一致性和细节保留,性能显著优于现有监督方法。

Add-it:基于预训练扩散模型的无训练对象插入图像的方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-11T00:00:00Z
304 不锈钢笔记

304不锈钢是最常用的不锈钢,因其性能优越和产量高,在不锈钢领域具有重要地位。

304 不锈钢笔记

子虚栈
子虚栈 · 2024-10-19T07:48:56Z

本研究提出了一种新的演员-评论家算法,通过在动作空间中使用两点随机梯度估计的零阶近似,解决了确定性策略梯度算法在连续系统控制中的不准确问题。实验表明,该算法性能优于现有方法。

缓解复杂Q函数中确定性策略梯度的次优性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z

最近的研究发现,使用视觉语言模型可以开发多功能代理人来帮助人类完成图形用户界面导航任务。研究人员提出了GUICourse,一套用于训练基于视觉的图形用户界面代理人的数据集。实验证明,该代理人在常见的图形用户界面任务上表现更好。

基于纯视觉的 GUI 代理的全能解析器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-01T00:00:00Z
GPT-4o mini 发布:OpenAI 最便宜的小型模型,比 GPT-3.5 便宜,比 GPT-4 优秀

OpenAI发布了GPT-4o mini模型,性能优于GPT-4和GPT-3.5 Turbo,价格比GPT-3.5 Turbo便宜60%以上。支持文本和视觉输入输出,具有128K上下文和16K输出。未来将支持文本、图像、视频和音频输入输出。在推理任务、数学和编码能力以及多模态推理方面表现出色。API中可使用gpt-4o-mini模型名称。

GPT-4o mini 发布:OpenAI 最便宜的小型模型,比 GPT-3.5 便宜,比 GPT-4 优秀

小众软件
小众软件 · 2024-07-19T04:02:59Z
你好,GPT-4o

GPT-4o 提供更自然的人机交互,支持文本、音频、图像和视频输入,生成多种输出。其响应时间接近人类,性能优于 GPT-4 Turbo,尤其在非英语文本及视觉、音频理解方面表现更佳。

你好,GPT-4o

OpenAI
OpenAI · 2024-05-13T10:05:00Z

我们提出了一个概念简单但有效的多语言CLIP压缩框架,训练了一个轻量级的多语言视觉-语言模型DC-CLIP,用于中文和英文环境。DC-CLIP在英文环境中性能优越,在中文环境中表现竞争性能,即使使用较少的训练数据。训练机制证明了其有效性。

多语言场景的渐进式视觉语言知识蒸馏和对齐框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-17T00:00:00Z

介绍了RayDF框架,用于三维形状表示,性能优越。与基于坐标的方法相比,渲染深度图像速度提高1000倍。

NRDF: 神经黎曼距离场用于学习关节姿势先验

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-05T00:00:00Z

谷歌推出Gemini 1.5 Pro,支持处理长达100万个上下文Tokens的内容输入长度,性能优于1.0 Pro和1.0 Ultra版本,可处理超长内容和复杂推理任务。

谷歌即将推出Gemini 1.5 Pro版 最高支持100万Tokens 可以推理大量内容

蓝点网
蓝点网 · 2024-02-16T00:13:05Z

通过优化方程,提出了一种新型距离方法,无需依赖分布假设、先验知识和特定训练机制,利用几何信息判断样本是否来自分布之外,并在基准数据集上进行实验证明其性能优越。

基于最优输运的条件分布熵检测异常样本

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-22T00:00:00Z

谷歌推出Gemini人工智能模型,性能优于OpenAI的GPT-4和人类,有3个版本:Nano适用于智能手机,Pro和Ultra性能更强。Gemini在智力测试中得分最高,可解决家庭作业问题和处理实时视频。Gemini接受文本、图像和声音训练,适应各种任务。

谷歌发布最新人工智能模型Gemini

月光博客
月光博客 · 2023-12-07T12:49:13Z

使用对抗式对比学习提出了一种用于多个图领域的预训练模型,性能优于基准模型、未经训练的模型和非转移模型,包括在评估时使用节点标签。

图之道:基于多个领域对比学习的基础拓扑模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-07T00:00:00Z

该文介绍了一种新颖的后训练采样算法,可以从生成模型的潜在空间中取样,使得重建的样本更接近真实图像。该算法速度快,性能优于基于高斯混合模型的采样技术,并在多个模型和数据集上展现了显著的改进。同时,该算法在估算潜在空间分布方面也表现出有效性。

一种非层次性多保真度自适应采样的潜变量方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-05T00:00:00Z

该研究设计了一种词义消歧系统,使用主题模型,能够在上下文单词数增加的情况下扩展。在5个英语全单词WSD数据集上的评估表明,该方法优于当前最先进的无监督知识为基础的WSD系统。

语言模型作为视觉词义消歧的知识库

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-03T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码