机器之心 ·

首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

本文介绍了大模型（LLMs）在文本评估中的问题，包括偏见和不一致性，并提出了一种新的评估范式，使用成对偏好排序来对LLMs进行评估。作者设计了两种高效的偏好搜索算法（PairS-greedy和PairS-beam），并在多个数据集上进行了实验，结果显示PairS在与人类评分的一致性方面表现更好。

🎯

🏷️

2026 03 09 HackerNews
本文介绍了阿里云Qwen 3.5系列大模型的本地运行指南，涵盖多种模型及其推理与部署方法。Qwen 3.5支持256K上下文长度，适用于多种任务，强调使用...
大模型推理资源需求计算及使用场景示例
博客自2016年成立以来，逐步接入CDN并添加功能，如音乐墙、动态和时光，至2021年更新了站点地图。
打败GPT-5.2，嵌入真实工业生产，这个大模型什么来头？
思谋科技的IndustryGPT在工业场景中表现优异，超越了GPT-5.2等通用大模型。通过三场考试，IndustryGPT展示了其在工业知识、工程决策能...
AReaL x 昇腾，加速大模型全异步RL训练创新
AReaL框架通过全异步强化学习训练，简化大模型开发，提升训练效率和系统可靠性。其核心优势在于解耦式Agentic RL和Single Controlle...
arXiv创始人亲测：水论文这一块，Grok最强，Claude最不配合
arXiv创始人Paul Ginsparg参与研究AI生成的“水论文”，测试了13个大语言模型的造假能力。结果显示，Claude模型最为守规，而Grok和...
商业智能分析：AI时代的完整指南
数据智能是现代商业智能的基础，通过学习数据结构和实时反馈提升分析能力。结合复合AI，数据智能高效处理分析工作流，帮助各业务部门快速获取洞察，显著提高企业决...