小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

DeepSeek-V3.2系列模型发布,性能接近Gemini-3.0-Pro,适合日常问答和复杂任务。引入稀疏注意力机制DSA,显著降低计算复杂度。模型在Agent任务上表现优异,支持思考与工具调用。尽管存在知识广度和Token效率的局限,团队计划在未来版本中进行改进。

DeepSeek-V3.2系列开源,性能直接对标Gemini-3.0-Pro

量子位
量子位 · 2025-12-01T14:03:54Z
UICoder:通过自动反馈微调大型语言模型以生成用户界面代码

本文探讨了如何利用自动反馈(编译器和多模态模型)指导大型语言模型(LLMs)生成高质量用户界面代码。研究通过自生成合成数据集并应用自动化工具进行筛选和评分,改进了原有LLM。结果显示,改进后的模型在性能上优于其他基线模型,接近大型专有模型的表现。

UICoder:通过自动反馈微调大型语言模型以生成用户界面代码

Apple Machine Learning Research
Apple Machine Learning Research · 2025-08-15T00:00:00Z

本研究分析了视觉语言模型(VLMs)在处理ASCII艺术时的局限性,发现其在文本与视觉模式冲突时存在文本优先偏见,且随着语义复杂度的增加,视觉识别能力下降。这为未来模型的改进提供了参考。

Text Over Visuals: ASCII Art Reveals Text Bias in Vision-Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z

本研究分析了大型语言模型在系统性推理,特别是定性空间和时间推理方面的不足。通过新评估方法发现,尽管模型表现优于随机水平,但整体效果仍不理想,为提升模型推理能力提供了改进方向。

Benchmarking Systematic Relational Reasoning with Large Language and Reasoning Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-30T00:00:00Z

本研究提出了ChatBEV-QA基准,包含超过137,000个问题,旨在提升交通场景理解。通过改进ChatBEV模型,从BEV地图中提取上下文信息,提高交通场景生成的真实感和一致性。

ChatBEV: A Visual Language Model for Understanding BEV Maps

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z

本研究针对大型语言模型评估中的基准污染问题,提出了无偏评估者协议,提供了更全面的评估方法,揭示了模型改进的空间及基准污染的证据。

Unbiased Evaluation of Large Language Models from a Causal Perspective

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-10T00:00:00Z

本研究探讨了神经网络中的量化不确定性,填补了深度集成与贝叶斯神经网络之间的理论空白。作者证明深度集成实现了贝叶斯平均,揭示了先验分布对集成现象的影响,为深度集成提供了新的理解,可能促进未来模型的改进。

Implicit Bayesian Nature of Deep Ensemble Methods

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-29T00:00:00Z

本研究提出了T2I-FactualBench,这是一个针对文本到图像生成模型的事实性评估基准,重点关注知识密集概念。实验结果表明,现有模型在该领域仍有显著改进空间。

T2I-FactualBench: A Benchmark for the Factuality of Text-to-Image Models Based on Knowledge-Intensive Concepts

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z

本研究探讨了大型语言模型(LLMs)在代码生成中的幻觉现象,定义并分类了幻觉类型,提出了CodeHalu基准测试集以检测幻觉。研究表明,现有LLMs在识别幻觉方面存在挑战,强调了改进模型和训练方法以确保生成代码的准确性和安全性的必要性。

通过可靠性对齐减少工具幻觉

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-05T00:00:00Z

该研究评估了社交媒体上抑郁症检测的挑战,揭示了机器学习模型的不足,如样本不具代表性和语言细微差别处理不足。建议丰富数据来源、标准化流程和提高透明度,以改进模型。

系统评估:社交媒体上机器学习与深度学习的文本处理算法在心理健康检测中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-21T00:00:00Z

大型语言模型通常依赖预训练的语义知识进行上下文学习,而不是直接学习输入和标签的关系。研究引入了“演示捷径”现象,并提出“上下文校准”方法,使模型更有效地学习新的输入和标签关系。这在多个模型中表现出显著改进。

上下文迁移学习:通过转移相似任务进行演示合成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

LLMs在处理医疗保健领域的患者记录方面具有潜在优势,但现有基准测试不能充分评估LLMs在处理真实世界中的冗长临床数据方面的能力。通过提供包含20个详细虚构病例的LongHealth基准测试,评估了9个开源LLMs和OpenAI的GPT-3.5 Turbo。结果显示,Mixtral-8x7B-Instruct-v0.1在检索信息任务上表现最好,但所有模型在识别缺失信息的任务中遇到困难,强调了临床数据解释中需要改进的关键领域。当前LLMs的准确性水平对于可靠的临床使用是不足的,需要进一步改进模型以实现安全有效的临床应用。提供了基准测试和评估代码。

俄语分析的长文输入基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-05T00:00:00Z

我们提出了一个新颖的沙盒套件,旨在提供综合实验平台,促进数据和模型的快速迭代和改进。通过应用最先进的LLaVA-like和DiT模型,验证了我们的工作流程,并取得了显著性能提升。基准测试揭示了数据质量、多样性和模型行为之间的关键相互作用,促进了对多模态数据和生成建模的深入理解和未来进展。

数据榨汁机沙盒:多模态数据模型协同开发的综合套件

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-16T00:00:00Z

本文回顾和分类了DNNs中的概念表示及其发现算法,并提供了关于基于概念的模型改进文献的详细信息。

概念模型中的概念关系理解

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-28T00:00:00Z

本文回顾和分类了DNNs中的概念表示及其发现算法,并提供了关于基于概念的模型改进文献的详细信息。

LLM 模型的概念归纳:用于评估的用户实验

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-18T00:00:00Z

我们提出了一种名为GraphCTA的新范式,通过一系列步骤解决领域适应问题。实验结果表明我们提出的模型较最近的无源基准模型有很大的改进。

合作自适应:无源图领域自适应的双向适应

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-03T00:00:00Z
微软用LASER消除大型语言模型的不准确性

微软研究实验室的研究员Dipendra Misra介绍了Layer-Selective Rank Reduction(LASER)的应用,该方法可以提高大型语言模型的准确性。通过LASER,研究人员可以用较小的权重矩阵替换一个权重矩阵,而不会降低模型的准确性。测试结果显示,使用LASER进行干预有时可以提高20到30个百分点的模型改进。

微软用LASER消除大型语言模型的不准确性

The Verge
The Verge · 2024-01-31T21:46:36Z

通过专业认证评估了GPT-3和Turbo-GPT3.5的职业技能。GPT-3在39%的认证中获得及格分数,展示了在计算机领域的熟练程度。Turbo-GPT3.5在OSCP考试中获得满分,展示了在多个专业领域的能力。两个模型在感官和基于经验的测试中表现良好。OpenAI的模型改进使得性能提升了60%。这一进展表明AI可能能够通过最严格的专业认证。

通过专业测试评估人工智能职业技能

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-17T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码