中国开源生态经过二十年的发展,从零散探索到繁荣,推动了国产AI技术的崛起。DeepSeek等项目的成功得益于开源社区的积累与协作。尽管面临国际竞争,国内开源仍需持续发展,以实现更大技术突破。
智谱AI推出新模型GLM-4.7-Flash,参数300亿,激活仅30亿,适用于本地编程和智能助手。该模型在代码修复测试中表现优异,支持200K上下文窗口,兼容多平台,并可在苹果M5上运行。API免费开放,具备创意写作和翻译功能。
DeepSeek R1发布一年,尽管下载量下降,但在AI领域仍具影响力。其母公司幻方量化支持零融资策略,专注技术而非商业化。DeepSeek通过高效模型挑战硅谷巨头,预计将在农历新年发布新模型V4,继续推动AI发展。
谷歌研究表明,DeepSeek-R1等推理模型在解题时会自发产生不同性格的虚拟人格,通过内部对话增强推理能力。在面对复杂任务时,这种“脑内群聊”更加活跃,从而提高了模型的准确性,类似于人类的社交思维。
DeepSeek母公司幻方量化去年盈利50亿,支持AGI研究。尽管未融资,DeepSeek持续发表高水平论文,团队稳定,研发投入低,未来发展前景乐观。
DeepSeek发布论文《条件记忆》,提出将“条件记忆”作为大语言模型的新稀疏维度,以解决知识检索的低效问题。研究表明,结合条件记忆与混合专家(MoE)可显著提升模型性能,特别是在知识推理和代码生成方面。预计新模型DeepSeek V4将应用此技术,进一步增强AI竞争力。
许多改变世界的产品,如DeepSeek、Qwen和ChatGPT,最初都是不被重视的支线项目。这些项目因缺乏管理和约束,能够自由探索和创新,最终取得成功。在AI时代,支线项目的探索成本低、反馈快,可能成为未来发展的重要信号。
DeepSeek V4预计春节前发布,专注编码能力,测试结果显示超越现有模型,在超长代码处理和数据理解上有显著突破,生成答案逻辑更清晰,推理能力增强。
外卖竞争调查启动,美团、淘宝、京东表示支持。苹果Apple Watch房颤功能获批,拼多多春节加班激励曝光。库克去年薪酬7429万美元,苹果加速CEO继任计划。王腾新公司招聘不招应届生,主攻研发。微软否认裁员传言,特斯拉开源车衣设计模板。
DeepSeek发布了R1技术报告的64页补充内容,详细介绍了模型训练路径和安全性评估。新版本涵盖冷启动、推理导向RL等四个步骤,提升了模型的推理能力和安全性,团队成员流失少,显示出良好的内部稳定性。
DeepSeek发布了DeepSeek-V3.2开源AI模型,性能超过GPT-5,采用稀疏注意力机制和强化学习等新技术。尽管表现优异,但在知识广度和复杂任务解决上仍不及封闭模型,未来将致力于优化模型效率和知识积累。
在CES上,英伟达首次未发布消费级显卡,CEO黄仁勋介绍了新AI计算平台Vera Rubin,重设计六款芯片以加速AI训练。新平台性能显著提升,支持物理AI和开源模型,并展示了自动驾驶技术Alpamayo,强调AI在现实世界的应用潜力。
在测试三款AI模型(Claude Opus 4.5、GPT-5.2 Pro和DeepSeek V3.2)编写俄罗斯方块游戏时,Opus 4.5表现最佳,代码运行顺利。GPT-5.2 Pro智能但首次尝试出现布局错误,体验不佳。DeepSeek V3.2成本最低,但需多次调试才能正常运行。总体来看,Opus 4.5适合日常编码任务。
通过赋予 LLM 特定角色和回答范围(如仅限法律领域),可以帮助其理解具体需求的场景上下文,从而提供更优质的输出。
撰写高质量输入的一些技巧LLM 的本质是一个输入输出程序软件体,这意味着:
完成下面两步后,将自动完成登录并继续当前操作。