RetinalGPT是一种基于大型视觉语言模型的视网膜临床对话助手,旨在改善视网膜图像解析的不足。通过构建大型数据集和创新的数据处理管道,RetinalGPT在视网膜疾病诊断中超越传统模型,推动可解释性临床研究的发展。
阿里云发布的新视觉模型Qwen2.5-VL包含三个版本,旗舰版在13项评测中超越GPT-4o和Claude3.5。该模型能够准确解析图像和视频,支持复杂操作,如发送祝福和订票,并在视觉理解、文档解析和动态视频处理方面有显著提升,开发者可基于此模型创建AI智能体。
BiomedParse是微软团队开发的生物医学图像解析模型,整合九种成像模式,提升对象识别精度,减少用户交互。用户可通过自然语言提示快速识别、检测和分割图像目标,标志着生物医学图像分析的新阶段。
Anthropic发布了Claude 3.5 Haiku和改进版Claude 3.5 Sonnet,后者能够像人类一样与计算机GUI互动。Claude 3.5 Haiku是最快的模型,性能优于GPT-4o等。新功能依赖于图像解析,尽管目前速度较慢且易出错,但具有自动化多种业务流程的潜力。
完成下面两步后,将自动完成登录并继续当前操作。