一项研究评估了12个多模态大语言模型(MLLM)的规划能力,发现它们在不可解任务识别中的正确拒绝率仅为34.7%。研究提出了智能体规划基准(APB),通过五大评估设置揭示了模型在长程规划、工具鲁棒性和校准拒绝等方面的系统性弱点,强调规划能力的重要性。结果显示,模型在面对不可解任务时往往盲目尝试,可能导致资源浪费和有害输出。
美国网络安全审查委员会的报告揭示了供应商的安全漏洞和系统性弱点,警告政府过度依赖单一技术供应商的风险。报告提出了三个建议:采购安全设计的系统和产品,将安全纳入采购决策,并减少单一供应商的风险。Google推出新的Google Workspace产品以支持这些建议。
完成下面两步后,将自动完成登录并继续当前操作。