材料AI模型MPA通过中期训练和混合头设计,显著提升了对真实实验数据的预测能力。在40个工业任务中,MPA表现优异,尤其在新结构方面展现出强大的“物理直觉”。该方法结合理论计算与实验数据,推动了材料科学的发展。
PaddleOCR-VL-1.6正式发布,基于1.5版本进行了优化,文档解析性能显著提升,OmniDocBench v1.6指标突破96.3%。新版本支持异形框定位,增强了表格、古籍及生僻字的识别能力,模型结构保持一致,用户可快速适配。此外,PaddleOCR-VL系列与多家硬件及云平台合作,推动文档智能化转型。
谷歌DeepMind推出的「AI联合数学家」成功解决了Kourovka Notebook第21.10号问题,标志着数学研究的新突破。该系统通过人机协作,提升了解决数学难题的效率,强调持续互动与反馈,记录失败假设,帮助数学家更好地研究。在FrontierMath基准测试中,该系统取得了48%的准确率,超越了其他AI模型,展示了AI与数学家合作的潜力。
Google has unvelied a new generation of Tensor Processing Units (TPUs), featuring two specialized chips designed to accelerate model training and agent workflows, which require continuous,...
SOTA是“State Of The Art”的缩写,指当前最先进的技术水平。在机器学习和深度学习中,SOTA模型是指在特定任务上表现最佳的模型。理解SOTA有助于识别技术前沿和模型性能。
蚂蚁Inclusion AI团队推出了名为「大象」的AI模型,大小仅100B,具备高效的代码生成和修复能力。实测显示,「大象」在处理代码、会议纪要和数据分析等任务时,速度快、准确性高且节省Token。尽管在复杂任务和新知识处理上有所不足,但其高效性使其成为中小企业的理想选择。
浙江大学和上海人工智能实验室提出的IBISAgent框架,将医学图像分割重新定义为多步视觉决策过程,克服了现有方法的局限。通过冷启动和强化学习,IBISAgent在多个基准测试中显著提升了分割性能,展示了自主多轮交互推理的优势,为智能医学图像分析奠定了基础。
高德推出了面向AGI的全栈具身技术体系ABot,利用地图数据构建物理优先的机器人操作系统。ABot-World通过重建物理世界生成高质量训练数据,解决机器人理解物理的难题。高德的创新在于系统工程和物理智能内核,使机器人在真实环境中持续进化。该平台的开源将推动行业生态发展。
阿里巴巴旗下高德发布全球首款全自主具身机器人“高德途途”,成功协助视障人士完成复杂任务。该机器人基于高德新发布的ABot全栈具身技术体系,具备高效的数据驱动模型和持续自我进化能力,提升了在真实环境中的导航和操作能力。
ERNIE-Image是百度文心团队开发的开源文生图模型,基于8B参数的Diffusion Transformer架构,支持多种视觉风格,适合海报和漫画等内容生产。该模型在Hugging Face上开源,支持多语言生成,降低了创作门槛,鼓励用户参与创作。
刘壮和陈丹琦团队推出了开源视觉推理强化学习框架Vero,支持多种视觉任务,克服了单一任务训练的局限性。Vero通过600K高质量样本和任务路由奖励机制,在多项基准测试中超越现有模型,展示了广泛数据对视觉推理的促进作用。
ReCALL框架通过“诊断-生成-校准”闭环解决了多模态大模型在检索中的范式冲突,提升了细粒度推理能力,显著提高了组合图像检索的性能,标志着大模型向下游任务迁移的新阶段。
音频生成技术正向端到端生成演进。美团LongCat团队推出LongCat-AudioDiT,直接在波形潜空间进行文本转语音,避免信息损失。该模型在Seed基准测试中表现优异,取得了SOTA的说话人相似度和可懂度,展现出强大的零样本语音克隆能力。
华中科技大学与小红书hi lab联合开源了dots.mocr,旨在解决传统OCR在复杂文档解析中的不足。该工具能够将文字、图表等视觉元素解析为结构化数据,并转换为可编辑的SVG代码,提升文档理解和自动化处理能力。HyperAI官网已上线相关教程,用户可在线体验。
Qwen3.5-Omni是一款全模态AI,支持视频会议、论文解读和代码生成。在215项SOTA测试中表现优异,其音视频理解能力与Gemini 3.1-Pro相当。新功能如实时语义打断和自然对话提升了用户体验。
蚂蚁灵波开源了2700GB的LingBot-Depth-Dataset数据集,包含300万对RGB-D数据,旨在解决机器人感知空间的挑战。该数据集涵盖多种真实场景,增强模型的泛化能力,推动具身智能的发展,减少对昂贵硬件的依赖。
在计算生物学中,设计精准结合的蛋白质是一个关键挑战。机器学习的引入改变了这一领域,Complexa框架通过结合生成与优化,提高了结合剂设计的效率和成功率,推动了人工智能在蛋白质设计中的应用。
抱歉,您提供的文本内容过于简短,无法进行有效总结。请提供更详细的文章内容。
春节前最后一期节目讨论了AI领域的最新动态,包括Xcode新功能、Opus与GPT更新、马斯克的太空算力及AI产业变革。祝大家新年快乐!
谷歌推出的Gemini 3 Deep Think模型在多项基准测试中表现优异,Elo分数达到3455,仅次于7名人类程序员。该模型在AI推理能力测试中得分84.6%,并在科研领域降低推理成本82%。清华校友姚顺宇参与了该模型的开发,展现出强大的科学应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。