jina-vlm是一个具有2.4B参数的视觉语言模型,支持29种语言的视觉问答,性能优越,适合消费级硬件。它结合了SigLIP2视觉编码器和Qwen3语言骨干,在多语言理解和视觉推理方面表现出色,并通过高效的注意力池化连接器减少视觉标记数量,保持多语言能力。
LightGen模型由港科大与Everlyn AI合作开发,仅需8张GPU训练即可实现接近SOTA的高质量图像生成。通过知识蒸馏和直接偏好优化,显著降低了训练成本与资源需求,展现出在有限条件下生成高效图像的潜力。实验结果表明,LightGen在多个任务上优于现有模型,未来可扩展至其他生成任务。
本文介绍了一种基于提示的文本风格转换方法,利用预训练语言模型进行风格分类和编辑,实验结果表明其性能优于现有技术。研究提出了软提示调优和无标签文本样式转换等新方法,展现出较高的泛化能力和效率。
OpenAI发布了GPT-4o mini模型,性能优于GPT-4和GPT-3.5 Turbo,价格比GPT-3.5 Turbo便宜60%以上。支持文本和视觉输入输出,具有128K上下文和16K输出。未来将支持文本、图像、视频和音频输入输出。在推理任务、数学和编码能力以及多模态推理方面表现出色。API中可使用gpt-4o-mini模型名称。
GPT-4o 提供更自然的人机交互,支持文本、音频、图像和视频输入,生成多种输出。其响应时间接近人类,性能优于 GPT-4 Turbo,尤其在非英语文本及视觉、音频理解方面表现更佳。
谷歌推出Gemini 1.5 Pro,支持处理长达100万个上下文Tokens的内容输入长度,性能优于1.0 Pro和1.0 Ultra版本,可处理超长内容和复杂推理任务。
通过优化方程,提出了一种新型距离方法,无需依赖分布假设、先验知识和特定训练机制,利用几何信息判断样本是否来自分布之外,并在基准数据集上进行实验证明其性能优越。
谷歌推出Gemini人工智能模型,性能优于OpenAI的GPT-4和人类,有3个版本:Nano适用于智能手机,Pro和Ultra性能更强。Gemini在智力测试中得分最高,可解决家庭作业问题和处理实时视频。Gemini接受文本、图像和声音训练,适应各种任务。
使用对抗式对比学习提出了一种用于多个图领域的预训练模型,性能优于基准模型、未经训练的模型和非转移模型,包括在评估时使用节点标签。
该文介绍了一种新颖的后训练采样算法,可以从生成模型的潜在空间中取样,使得重建的样本更接近真实图像。该算法速度快,性能优于基于高斯混合模型的采样技术,并在多个模型和数据集上展现了显著的改进。同时,该算法在估算潜在空间分布方面也表现出有效性。
该研究设计了一种词义消歧系统,使用主题模型,能够在上下文单词数增加的情况下扩展。在5个英语全单词WSD数据集上的评估表明,该方法优于当前最先进的无监督知识为基础的WSD系统。
完成下面两步后,将自动完成登录并继续当前操作。