可信赖的第三方评估共享手册
OpenAI
·
元脑企智EPAI平台助力企业智能体上线前量化评估
全球TMT-美通国际
·
一分钟读论文:《诊断LLM裁判的可靠性:共形预测集与传递性违规》
Micropaper
·
一分钟读论文:《Humanity’s Last Exam:评估 AI 能力的专家级学术问题基准》
Micropaper
·
语言模型为何会产生幻觉?
KDnuggets
·
人工智能安全是否跟上了人工智能的发展?
DEV Community
·
医疗AI的隐形危机:大语言模型过度自信,如何破解?
机器之心
·