小红花·文摘

本研究提出了Point2Graph框架，旨在解决现有开放词汇场景图生成算法对RGB-D图像和相机姿态的依赖。该框架采用层次化设计，结合几何与学习方法进行房间和物体的检测与分类，评估结果显示其在实际场景数据集上的表现优于现有算法。

Point2Graph: An End-to-End Point Cloud-Based 3D Open-Vocabulary Scene Graph Generation Framework for Robot Navigation

BriefGPT - AI 论文速递 ·

本研究结合自监督学习与多视角匹配技术，利用机器人吸尘器捕获的数据提升物体分类性能。提出“数据透视主义”概念，探讨人类知识在机器学习中的应用，解决主观与客观任务问题。研究表明，训练数据集和目标函数对神经网络与人类认知的对齐性影响显著，多模态学习在泛化能力上优于单一模态。

基于人的感知的多模态模型的个体对齐的 POV 学习

BriefGPT - AI 论文速递 ·

聆思CSK6视觉语音大模型开发板提供了摄像头/麦克风/扬声器/屏幕/网络模组等硬件资源，适合视觉类、语音类应用开发。支持语音唤醒、坐姿检测、人脸识别、物体分类等AI能力。开发套件可联网进行大模型语音交互和视觉识别。使用type-c数据线连接电脑和开发板，打开串口日志调试工具，输入WiFi指令联网。开发套件还可使用其他AI能力，如单词评测。

在一块开发板上同时实现大模型语音交互和视觉识别

分享AI芯片开发经验 ·