DeepSeek是一家中国对冲基金,近年来在人工智能领域表现突出。其开源大模型DeepSeek Coder和67B语言模型在多项评测中表现优异,推动市场价格下降。尽管面临技术挑战和舆论压力,DeepSeek仍在不断创新,未来将专注于商业化和基础设施建设,努力成为稳定的服务提供者。
【TechWeb】4月8日消息,没有发布会、没有博客、没有官方推文,DeepSeek网页端悄然上线了“快速模式”和“专家模式”两个新选项。用户打开网页就能看到输入框上方新增了一颗“闪电”和一个“钻石”图标。鼠标悬停在对应模式按钮上方后,会浮现提示语:快速模式“适合日常对话,即时响应”,专家模式“擅长复杂问题,高峰需等待”。这看似简单的界面改动,实则是DeepSeek首次在产品端引入模式分层设...
DeepSeek更新推出了“快速模式”和“专家模式”,并暗示V4版本可能即将发布。快速模式适合简单对话,专家模式处理复杂任务。网友推测专家模式可能是V4的简化版,V4的正式发布或许不远。
DeepSeek 网页端更新推出了快速模式和专家模式,快速模式适合日常对话,专家模式则更擅长处理复杂问题。尽管专家模式表现更佳,但功能有限。未来可能推出视觉模式,DeepSeek 正在探索产品分层以应对商业可持续性问题。
北京大学团队提出的新稀疏注意力机制HISA,速度提升2-4倍,几乎不损失精度。该机制通过块级粗过滤和块内精挑字符,降低索引器成本,适应超长文本需求,工程友好性强。测试结果显示HISA在速度和精度上表现优异,未来可进一步优化块特征计算和训练方式。
小墨阅读器基于DeepSeek-OCR技术,解决手机PDF阅读难题,支持PDF转换为EPUB和Markdown,精准识别复杂内容,提供翻译和语音功能,适用于iOS和桌面端。
这是一个基于.NET Core和Vue3的开源全栈管理系统,采用DDD和CQRS架构,支持图像识别和智能分析,具备高扩展性和安全性,适合企业级后台管理,并支持Docker和Kubernetes以满足自动化交付需求。
DeepSeek网页版经历11小时宕机后,用户反馈模型能力显著提升。新版本DeepSeek-V3稳定性增强,知识截止更新至2026年1月。服务恢复后仍有小问题,但整体表现令人期待。
Google推出的TurboQuant算法将AI内存KV缓存压缩6倍,几乎无损失,提升速度与吞吐量,降低成本,重塑行业结构。这项技术使AI更便宜、更快,推动复杂应用的发展,同时可能增加内存需求,给内存厂商带来压力与机遇。
Google Research 发布的 TurboQuant AI 压缩算法能够在不损失性能的情况下,将 AI 的工作记忆压缩至少 6 倍,解决显存瓶颈问题。该技术引发市场反应,导致存储芯片股价下跌。尽管前景广阔,但仍需克服训练阶段的显存消耗问题。
DeepSeek近期开放17个Agent岗位,专注于算法研究、数据评测和基础设施,强调AI编程工具的使用。招聘需求显示其从基础模型研究转向Agent产品化,旨在构建完整的数据闭环能力,并计划在2025年发布高级Agent功能的AI模型。
2026年3月23日,OpenClaw更新,DeepSeek成为可插拔插件,支持全球化的Qwen,提升AI模型灵活性与生态协作。OpenRouter优化模型选择,增强智能调度,改善与外部系统的交互,提升AI稳定性与可靠性,标志AI应用重大进步。
郭达雅是DeepSeek的核心工程师,以其卓越的科研和竞赛成绩受到关注。他在多项比赛中获奖,并参与多个重要模型的研发。此外,他还参加过综艺节目,展示了编程能力。离职后,他的去向引发热议。
小米发布了三款新模型:Hunter Alpha、Healer Alpha 和 MiMo-V2 系列,旨在提升 AI 任务执行能力。Hunter Alpha 和 Healer Alpha 为内测版本,MiMo-V2-Pro 专注推理与规划,MiMo-V2-Omni 实现多模态感知,MiMo-V2-TTS 提供自然语音表达。这些模型将推动小米的智能生态战略。
【TechWeb】3月19日消息,...
乐天集团发布的7000亿参数大模型Rakuten AI 3.0被指抄袭中国的DeepSeek-V3,仅进行了日文微调。尽管模型表现优异,乐天却未提及DeepSeek,甚至删除了相关开源协议,引发日本网友的不满,反映出日本在AI领域对中国技术的依赖。
乐天集团因删除 DeepSeek-V3 的开源许可证而遭到批评,后重新添加 NOTICE 文件以补救,虽然符合 MIT 协议,但其做法仍被指不道德,引发争议。
在NVIDIA GTC展会上,我们展示了基于MAX框架的FLUX图像生成和Mojo编程的CUTLASS内核移植。DeepSeek V3在云端运行,提供实时指标,欢迎到3004号展位交流。
开源模型迭代迅速,开发者希望低门槛部署新模型,但GPU成本和环境配置仍是障碍。HyperAI提供免费CPU配额和在线教程,帮助开发者快速体验模型。
DeepSeek R1 是中国 AI 公司推出的模型,采用纯强化学习实现自主推理,突破传统监督学习模式。R1-Zero 模型无需人类标注,展现出链式推理能力。GRPO 算法提升训练效率,简单的奖励系统驱动复杂推理策略。R1 的成功降低了推理模型的门槛,启发了新的研究方向,展示了纯强化学习的潜力,标志着 AI 训练的重要转变。
完成下面两步后,将自动完成登录并继续当前操作。