小红花·文摘 - 小红花技术领袖俱乐部

人工智能模型托管平台HuggingFace发现部分模型在基准测试中存在作弊行为，推出新版本的Open LLM Leaderboard以获得真实有效的评估结果。阿里云通义千问Qwen-72B模型在测试中排名第一。模型参数规模并非越大越好，AI公司开始关注主要测试而忽略其他方面的表现。未来可能需要构建更独特的测试集来评估模型。

HuggingFace搭建新系统测试模型能力通义千问排名第一部分模型被发现作弊

蓝点网 ·

HTC发布了中档U24 Pro智能手机，配备6.8英寸120Hz显示屏、骁龙7处理器、12GB RAM和最高512GB存储。该手机还配备了三摄像头设置，并支持60W有线充电和15W无线充电。该设备售价18,990新台币，目前可预订。谷歌正在巴西测试Android 15的反盗窃功能，使用AI算法判断用户手机是否被盗。企业微信宣布打击作弊行为，如自动在社交媒体上发布和虚拟定位。Paramount和Skydance的合并失败，Paramount的母公司National Amusements考虑出售该公司。该网站目前接受少量关于自力更生的文章投稿，并对选中的作品进行奖励。Minority Report商店推出了618活动，提供正版软件和定制商品。

派早报：HTC 推出 U24 Pro 手机、Android 测试防盗功能等

少数派 ·

我们的在线考试监控系统旨在解决COVID-19大流行期间在线考试作弊问题。该系统通过实时场景中高准确性和快速性来检测作弊行为，为监考人员提供有价值的信息，协助其决策。

考试监测系统：在线考试中异常行为的检测

BriefGPT - AI 论文速递 ·

这篇文章总结了环球时报的10个经典标题，指出这些标题都是为了获取流量而进行的作弊行为。作弊方式包括危言耸听和搜索词匹配。互联网公司通常有专门团队治理作弊行为。

面向推荐与面向搜索的标题作弊

SKYue's Home ·