蚂蚁健康与北大王俊院士团队发布全球首个专病循证评测框架GAPS,专注于肺癌,包含92个问题和1691个临床要点,旨在提升医疗AI的评测深度与可靠性。GAPS通过四个维度评估AI的临床能力,克服现有评测的局限,推动医疗AI向临床应用转型。
Learn how to bring life to your database by inserting records into your MySQL tables! This post shows beginners how to use INSERT statements—with lighthearted library metaphors, approachable SQL...
本研究探讨了人工神经网络在学习和虚构能力方面的不足,特别是在储层计算机中的虚构现象。分析未训练吸引子在重构失败时的作用,认为它们是学习系统的固有特征,可能影响人工智能的信息生成与失真。
本研究探讨了大语言模型(LLM)在复杂环境中的局限性,指出仅依赖程序性记忆无法满足实际需求。提出了一种结合语义记忆和联想学习的模块化架构,以增强LLM的适应能力,提升其在恶劣学习环境中的表现。
本研究探讨了人工智能治理中的现实差距,特别是在高风险领域的关注不足。研究指出,企业在AI部署阶段的研究关注减弱,导致对已部署AI的知识缺陷加深。建议扩大外部研究者对部署数据的访问。
本研究分析了中国医学大型语言模型在准确性、安全性和伦理一致性方面的不足,提出了细致的错误分类法,并评估了前10个模型在MedBench上的表现。研究还提出了四级优化策略,以提升医学LLMs的临床应用价值和安全性。
More productive MSMEs would help North Carolina foster the sustainable and inclusive economy it wants to be. And it would be good for business, too, write David Pralong and Kevin Russell in...
本研究提出了一种跨语言干预框架(INCLINE),旨在缩小大型语言模型在不同语言间的性能差距。通过对低表现语言与高表现语言的内部表征进行对齐,显著提升了多语言任务的性能。实验结果表明,INCLINE 在多个模型和任务中均有显著改进,具备良好的成本效益和应用潜力。
本研究评估大型语言模型在推理任务中的公平性与鲁棒性,特别关注非洲美式英语(AAVE)。新开发的基准ReDial显示,LLM对AAVE的表现存在显著不平等,AAVE查询对模型性能的影响超过标准英语中的拼写错误,反映出对方言用户服务的不足。
本研究提出了一种长问共指适应(LQCA)的方法,优化共指解析以提升大型语言模型在长文本理解和问答中的表现。实验显示,LQCA在多个数据集上优于传统方法。
本研究提出了一种领域自适应蒸馏微调(DADT)方法,旨在解决LiDAR基于3D物体检测器在不同传感器配置下的适应性问题。该方法仅需约100帧LiDAR数据即可微调预训练模型,显著提高了检测准确性并防止过拟合。
在过去十年的工作中,研究人员成功地将现代AI模型与几何形式系统无缝整合,为IMO级别的平面几何问题提供了可读、可追溯和可验证的解决方案。他们开发了几何形式化理论(GFT)和形式几何问题解决器(FGPS),并标注了FormalGeo7k数据集。实验证明GFT的正确性和实用性。
完成下面两步后,将自动完成登录并继续当前操作。