BriefGPT - AI 论文速递 ·

HPE-CogVLM：基于视觉语言模型的新头部姿势定位任务探索

💡 原文中文，约300字，阅读约需1分钟。

📝

内容提要

CogVLM是一种开源的视觉语言基础模型，通过视觉专家模块实现了视觉语言特征的深度融合，性能在多个基准测试中达到最先进水平。

🎯

🏷️

从 OpenSwiftUI 到 DanceUI：换个方式 Dive SwiftUI - 肘子的 Swift 周报 #132
自2019年发布以来，SwiftUI逐渐成为苹果开发者的重要工具，但其闭源特性使得开发者难以深入理解。为此，社区希望通过开源项目复刻SwiftUI。最近，...
突破零样本 TTS 音色克隆上限：LongCat-AudioDiT 的声音克隆艺术
美团LongCat团队发布了LongCat-AudioDiT模型，采用全新的端到端文本转语音技术，减少信息损失。该模型在Seed基准测试中表现优异，取得最...
使用Unsloth Studio合并语言模型
本文介绍了如何使用Unsloth Studio合并语言模型。Unsloth Studio是一个无代码的本地界面，支持多种流行模型。合并模型可以结合不同适配...
国内三大头部AI 工具平台上架支付宝支付集成Skill，助“好想法”轻松“收到钱”
支付宝支付集成Skill已在多个AI工具平台上线，开发者可通过自然语言快速接入支付功能，推动创意变现和“人人皆可开发”的趋势。
Browser Harness是一种浏览器操控工具：让大模型自主完成任务！
Browser Harness是一种自愈式浏览器操控工具，允许大语言模型自主完成任务。它通过CDP协议与Chrome直接连接，去除了传统框架的限制。该工具...
聊聊为什么我要花这么大精力，带大家手写 Agent Harness？
本文永久链接 – https://tonybai.com/2026/04/21/why-we-are-building-agent-harness-fro...