BriefGPT - AI 论文速递 ·

PoisonBench：评估大型语言模型对数据中毒的脆弱性

📝

内容提要

本研究聚焦于当前大型语言模型偏好学习过程中的数据中毒攻击脆弱性。我们提出了PoisonBench，一个用于评估大型语言模型在偏好学习过程中对数据中毒的易感性的基准。研究发现，模型参数规模的增加并未提高抵御中毒攻击的能力，且数据中毒的影响可以推广到未包含在中毒数据中的触发因素，这突显了当前偏好学习技术的薄弱环节，并呼吁开发更强大的防御机制。

🏷️

继续阅读

数据显示：世界杯直播观看量比2022年增长473%
Everyone TV 公布的 Barb 收视数据显示，通过宽带观看 2026 年 FIFA 世界杯的人数显著增加，凸显了英国持续向互联网电视转型。 Ba...
涛思数据TDengine升级为AI原生工业数据平台
（全球TMT 2026年07月22日讯）涛思数据宣布TDengine产品重大升级，从高性能时序数据库正式演进为 […]
澳鹏数据已连续八届深度参与世界人工智能大会
(全球TMT 2026年07月21日讯)2026年7月17日至20日，2026世界人工智能大会暨人工智能全球治 […]
瀚高股份携新一代智能数据基座平台HigoBase参展WAIC 2026
(全球TMT 2026年07月21日讯)7月17日至20日，第八届世界人工智能大会（WAIC 2026）在上海 […]
Presentation: From Copy-Paste to Composition: Building Agents Like Real Software
Jake Mannix discusses moving AI agents past chaotic "1970s BASIC" arc...
Multi-Cluster databases on Kubernetes: Architecture and deployment
Introduction Running a database on Kubernetes is well understood. Running one...

内容提要

标签

继续阅读