商汤科技与南洋理工大学推出NEO-unify,重构多模态模型,去除视觉编码器和变分自编码器,实现统一的端到端架构。该模型通过混合变换器架构,提升视觉与语言的理解与生成能力,标志着多模态AI向统一智能体的进化。
南洋理工大学与商汤科技联合研发的MatAnyone视频抠图技术,能够在复杂背景下高效提取目标。用户只需在首帧指定目标,后续帧将自动稳定抠图,具备良好的细节还原和时序一致性,适用于多种视频处理场景。
南洋理工大学的研究提出了一种通用动态图异常检测方法GeneralDyG,旨在解决数据分布多样性、动态特征捕获困难和高计算成本的问题,展现出优越的检测能力和通用性。
新加坡的Eude Technology与南洋理工大学合作,开展前沿AI研究,开发下一代大型语言模型,关注伦理AI、多语言能力及行业应用,强调学术与产业合作的重要性。
南洋理工大学、上海AI Lab和北京大学的研究者提出了名为LN3Diff的原生3D LDM生成框架,通过使用3D VAE和3D-DiT进行两阶段通用3D生成,解决了现有原生3D生成模型的可拓展性差、训练效率低和泛化性差等问题。LN3Diff在多个基准测试中取得了优异成绩,并具有更快的推理速度。
南洋理工大学、清华大学、帝国理工学院、西湖大学等研究人员完成了MeshAnything V2项目,使用Adjacent Mesh Tokenization(AMT)算法,将最大可生成面数提升到1600。MeshAnything是一个自回归的transformer,以点云为condition,实现高度可控的人造Mesh生成。AMT算法通过优先表达相邻的面片来用一个vertex表达一个面片,提高了性能和效率。
新加坡国立大学、南洋理工大学和哈工深的研究人员提出了视频思维链(VoT)框架,通过分解视频推理问题为多个子问题,实现对视频的深入理解和推理。实验结果表明,该框架在视频问答任务上性能超过传统方法。VoT框架的五个步骤包括任务定义与目标识别、目标追踪、行为分析、排名机制回答问题和答案验证。该框架提高了视频理解和推理的精确性和可靠性。
南洋理工大学CCMS团队在油管直播了他们研究云母石和磷化铜的初步结果,发现样品的低温电阻约为40欧,观察到了二磁性,初步结果显示LK-99样品为弱抗磁性半导体。LK-99的制备方法是将钙钛矿lanarkite和Cu3P以1:1的摩尔比混合均匀,然后在925℃加热10+小时。
南洋理工大学高材生孙燕姿回应“AI孙燕姿”现象,使用Sadtalker库和edge-tts实现音频转录和生成逼真的运动系数,展示超人智识水平。Sadtalker库提供面部运动细节,但增加了模型数量、推理成本和时间。
完成下面两步后,将自动完成登录并继续当前操作。