小红花·文摘 - 小红花技术领袖俱乐部

本文回顾了论文《谁评估人工智能的社会影响？第一方和第三方评估的覆盖与差距》。研究发现，AI开发者在偏见、环境成本和劳动实践方面的数据报告稀少，而独立第三方提供了更全面的分析。研究呼吁强制披露数据来源和评估成本，并建立独立评估生态系统和共享基础设施。

谁评估人工智能的社会影响？第一方和第三方评估的覆盖与差距

Micropaper ·

通过外部测试增强我们的安全生态系统

通过外部测试增强我们的安全生态系统

OpenAI ·

本文探讨了大型语言模型中的数据污染问题，分析了不同类型的污染对模型在自然语言处理任务（如摘要生成和问答）性能的影响。研究提出了污染分类法，并强调了独立评估的重要性，以提高模型的可靠性和准确性。

2024 CONDA 共享任务的数据污染报告

BriefGPT - AI 论文速递 ·