Birgitta Böckeler discusses the rapid evolution of AI agents, moving beyond "vibe coding" to sophisticated context engineering. She explains how architectural constraints and "harness engineering"...
Agoda recently published an observation arguing that while AI coding tools have measurably raised individual developer output, the resulting velocity gains at the project level have been...
LangSmith Fleet推出两种代理授权类型:Assistants(代表用户)和Claws(独立凭证)。支持多渠道,确保安全性,未来将改进记忆权限管理。
一种名为SesameOp的新型后门程序被发现,利用OpenAI Assistants API进行隐蔽的命令与控制通信,挑战传统安全假设。该恶意软件通过合法服务流量发送指令,隐藏在合法进程中,难以被检测。微软与OpenAI已联合调查并禁用相关API密钥。
本研究开发了名为PreCare的网站,旨在解决在线提前护理计划(ACP)中个性化价值探索不足的问题。该网站提供三款AI助手,显著提升用户的知识获取和决策信心,用户满意度高达92%。
本研究探讨了AI虚拟助手在用户管理访问控制政策(U-MAPs)方面的不足,评估其在理解和处理不同U-MAP方法时的局限性,并提出改进建议,以增强用户体验和安全性。
本文介绍了StreamBridge框架,该框架将离线视频大语言模型转变为流媒体助手,解决了在线场景下多轮实时理解和主动响应的不足。通过引入记忆缓冲和轻量级激活模型,StreamBridge在流媒体理解任务中显著提升了性能,超越了GPT-4o和Gemini 1.5 Pro等模型。
本研究提出知识图谱思维(KGoT)架构,旨在解决大型语言模型在AI助手中的高成本和低成功率问题。通过动态构建知识图谱,成功率提高29%,成本降低36倍,为AI助手的可扩展性和经济性提供了新方案。
本研究提出了一种名为“测试助手”的自动化测试系统,旨在解决传统软件测试在效率、准确性和覆盖率方面的瓶颈,显著提升缺陷检测的准确性和用户接受度。
本研究开发了一款科学助手软件,旨在帮助领域专家加速解决复杂问题。通过互动结构化归纳编程方法,软件工程师能够利用大型语言模型快速构建高效的数据分析助手,从而提升程序性能与质量,减少编程工作量。
本研究探讨了事件注释在市场变化、突发新闻监控和社会趋势理解中的重要性,提出利用大型语言模型(LLMs)辅助专家进行变量注释,以提高效率和准确性。
本研究系统探讨了近年来发展的人工智能个性化隐私助手(AI驱动PPAs),评估其特征与技术基础,填补相关研究空白,并指出未来研究方向。
本研究探讨了对话式用户界面与可解释人工智能(XAI)的结合效果,发现这种结合显著提升了用户对AI系统的理解和信任,但也可能导致对AI的过度依赖。这为设计有效的对话式可解释AI界面提供了重要依据,以改善人机协作。
本研究提出了一种基于预定义类别的长期记忆系统,旨在提升语音助手对用户偏好的保持能力。该系统利用大语言模型有效提取、存储和检索用户偏好,减少冗余和矛盾,提高个性化和透明度,增强用户参与度。
本研究提出了MedMax,一个包含147万实例的大型混合模态生物医学指令调优数据集,旨在解决生物医学领域数据可用性不足的问题。该数据集支持多种任务,显著提升了混合模态基础模型的性能,推动生物医学AI助手的发展。
本研究提出了RedCode基准,用于评估代码助手在生成或执行风险代码时的安全性。基准包含4,050个测试案例和160个提示,结果显示代码助手对风险操作的拒绝率较高,但对技术性错误的拒绝率较低,潜在风险较大。
本研究探讨了大型语言模型和生成式人工智能工具在软件测试中的应用,发现AI生成的单元测试质量与传统测试相当,并显著提高了自动化测试效率。
本研究评估了大型语言模型在个性化对齐方面的能力,特别是在处理用户提供的安全关键上下文时。分析表明,即使是最优秀的模型在理解用户需求时也存在系统性不一致,强调了需要更细致的对齐方法以促进安全的人工智能助手发展。
本研究通过引入混合助手模型解决了知识蒸馏中教师和学生模型架构差异导致的特征间隙问题。使用空间无关的InfoNCE损失优化特征对齐,在CIFAR-100和ImageNet-1K数据集上显著提升了性能。
本研究提出了LongMemEval基准,评估聊天助手在长期互动中的记忆能力。结果显示,现有助手在持续互动中的信息记忆准确率下降30%。研究还提供了优化方案,以提升记忆回调和问答表现。
完成下面两步后,将自动完成登录并继续当前操作。