小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
DeepSeek识图模式是个新模型?!一手实测在此(没错我被灰度到了)

DeepSeek的识图模式在灰度测试中表现优异,支持快速识别和推理。非思考模式下速度快但准确性需提升;思考模式下推理能力强但耗时较长。该模式有效处理OCR和网页图片,显示出独立训练的潜力。整体来看,DeepSeek的多模态能力发展迅速,仍有改进空间。

DeepSeek识图模式是个新模型?!一手实测在此(没错我被灰度到了)

量子位
量子位 · 2026-04-30T06:52:23Z

阿里通义发布的新模型Qwen3.6-27B拥有27亿参数,在代码修复测试中得分77.2,超越前代397亿参数模型的76.2分。该模型采用全参数激活的稠密架构,显存需求低至18GB,适合本地运行,降低了开发门槛。其原生多模态能力可处理文本、图像和视频,提升编程助手效率。开源协议为Apache 2.0,便于商业应用,可能改变开发者的使用方式。

27B参数跑赢397B,这个开源模型让本地部署有了新选择

dotNET跨平台
dotNET跨平台 · 2026-04-25T00:09:04Z
“中国AI拿下这一轮,我没意见”——Kimi K2.6引爆Hacker News,海外开发者怎么看中国开源AI大模型?

Kimi K2.6是中国开源AI的最新成果,专注于长时程编码和多模态能力,受到开发者的广泛认可。其在编码任务上达到SOTA水平,展现了中国开源AI的强大实力,推动全球AI行业的进步。

“中国AI拿下这一轮,我没意见”——Kimi K2.6引爆Hacker News,海外开发者怎么看中国开源AI大模型?

人言兑
人言兑 · 2026-04-23T05:39:33Z
全球首个世界统一模型发布,机器人家庭成员来了!

自变量机器人发布了全球首个世界统一模型WALL-B,解决了传统机器人在家庭环境中执行任务的局限性。WALL-B通过整合视觉、听觉、语言和触觉模块,实现了多模态能力,使机器人能够理解物理世界并自主学习,适应复杂环境,并通过真实家庭数据不断进化,成为家庭成员的潜在助手。

全球首个世界统一模型发布,机器人家庭成员来了!

量子位
量子位 · 2026-04-22T05:49:56Z
20260120 B 站直播 —— 转行大模型文字精要

作者分享了在大模型公司的工作经验,探讨了大模型的各个层面及转行门槛,强调数据工程的重要性和模型使用的复杂性。提到Vibe Coding的趋势,认为大模型将改变代码生命周期和工作流,鼓励程序员尝试新技术。最后指出大模型的多模态能力及个人在该领域的机会。

20260120 B 站直播 —— 转行大模型文字精要

木鸟杂记
木鸟杂记 · 2026-01-25T08:13:26Z
AI教母李飞飞万字长文戳破LLM泡沫:生成语言只是起点,无法理解真实世界才是致命伤|空间智能 Fei-Fei Li 世界模型 人工智能 AI的下一个前沿

李飞飞在文章中指出,AI的下一个发展方向是空间智能,强调其重要性与复杂性。她讨论了大语言模型的局限性,定义了空间智能及其实现方法,强调生成能力、多模态能力和状态预测。她的研究对未来AI发展具有重要意义。

AI教母李飞飞万字长文戳破LLM泡沫:生成语言只是起点,无法理解真实世界才是致命伤|空间智能 Fei-Fei Li 世界模型 人工智能 AI的下一个前沿

硕鼠的博客站
硕鼠的博客站 · 2025-11-13T00:54:30Z
How I AI Coding 2025.10

作者分享了使用AI开发的经验,主要工具包括VSCode Insider、Copilot、Codex和Claude Code。Copilot的代码补全功能强大,适合日常使用;Claude Code在小项目中表现良好,但在复杂任务中效果不佳。Kagi搜索引擎精准,AIPP是作者自制的开源聊天应用。作者认为多模态能力和模型智力对编程至关重要,AI产品需持续使用以提升效果。

How I AI Coding 2025.10

Xieisabug
Xieisabug · 2025-10-26T08:23:26Z
Agent设计模式——术语表

提示词影响AI模型输出效果,上下文窗口是模型处理信息的最大容量。上下文学习使模型快速适应新任务,零样本、单样本和少样本提示提高响应精度。多模态能力使AI处理多种数据类型,事实锚定确保输出准确。核心架构包括Transformer和RNN,开发流程涵盖预训练、微调和对齐,以符合人类价值观。增强AI Agent能力的技术有思维链、思维树和规划等。

Agent设计模式——术语表

XINDOO的博客
XINDOO的博客 · 2025-10-04T15:59:17Z
Claude Code 最佳实践视频文稿

Claude Code 是一款提升软件开发效率的 AI 工具,支持项目探索、编码和部署等全周期应用。最佳实践包括使用 claude.md 文件共享指令、优化权限管理和利用多模态能力。新功能如模型切换和思考过程展示,提升了用户体验。

Claude Code 最佳实践视频文稿

宝玉的分享
宝玉的分享 · 2025-08-01T08:05:46Z
宣布谷歌的Gemma 3在Databricks上线

谷歌的Gemma 3模型已在Databricks上线,首个版本为Gemma 3 12B,支持多云环境,优化企业工作负载,适用于文档处理、内容分析、代码生成和对话AI等应用,提供高质量的多模态能力,助力企业高效构建和部署AI应用。

宣布谷歌的Gemma 3在Databricks上线

Databricks
Databricks · 2025-07-14T16:30:00Z
大语言模型高考数学拿高分靠强化学习,那文科考高分得靠什么?

大语言模型在高考文科中取得高分的原因包括优质训练数据、思维链推理、长上下文处理和多模态能力,这些因素提升了模型对复杂问题的理解和回答能力。

大语言模型高考数学拿高分靠强化学习,那文科考高分得靠什么?

宝玉的分享
宝玉的分享 · 2025-06-27T14:57:21Z
小本本系列:o3模型引发一次用好大模型工具的尝试

作者分析了OpenAI的o3模型,惊讶于其在图片定位和信息对齐方面的多模态能力。通过Gemini Deep Research,探索Multi-Modal Token技术,利用AI工具深入理解相关领域,进行个性化研究和数据处理。

小本本系列:o3模型引发一次用好大模型工具的尝试

Shadow Walker 松烟阁
Shadow Walker 松烟阁 · 2025-05-18T14:07:25Z
近年来大型语言模型(LLM)的突破

近年来,大型语言模型(LLM)在多模态能力上取得显著进展,支持文本、图像、音频和视频处理。小型高效模型如DistilBERT适合资源有限的设备。LLM在金融、教育和医疗等领域广泛应用,推动个性化服务。越南的ViGPT和PhởGPT优化了本地语言和文化。未来,LLM将朝向通用人工智能(AGI)发展,但面临伦理和环境挑战。

近年来大型语言模型(LLM)的突破

DEV Community
DEV Community · 2025-04-19T06:54:55Z
折叠 iPhone 要来了,起售一万五,内屏无折痕

苹果将推出折叠屏iPhone,预计售价15000元,采用无折痕设计,展开后屏幕为7.8英寸。分析师称其为“真正的AI手机”,具备多模态能力,预计2026年量产,但市场需求仍存疑。

折叠 iPhone 要来了,起售一万五,内屏无折痕

爱范儿
爱范儿 · 2025-03-07T11:22:16Z
基于 Amazon Nova 和 TEN 框架的实时音视频交互解决方案

随着人工智能技术的发展,实时音视频交互应用备受关注。企业可利用AWS的Amazon Nova、Transcribe和Polly等服务构建高效、低延迟的交互系统。本文介绍了基于这些服务的解决方案,强调其模块化架构和多模态能力,适用于智能助手和教育平台等场景。

基于 Amazon Nova 和 TEN 框架的实时音视频交互解决方案

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-03-04T04:28:52Z
最豪华大模型创业阵容!OpenAI前CTO组建,翁荔、Schulman等ChatGPT核心成员加盟

Thinking Machines Lab是一家新成立的人工智能公司,专注于开放科学和人机协作,团队由前OpenAI成员组成。公司致力于提升模型智能、基础设施质量和多模态能力,旨在推动科学发现和工程创新。

最豪华大模型创业阵容!OpenAI前CTO组建,翁荔、Schulman等ChatGPT核心成员加盟

机器之心
机器之心 · 2025-02-19T02:43:10Z
什么是基础模型?

基础模型是训练于大量无标签数据的人工智能神经网络,能够执行多种任务,如文本翻译和医学图像分析。2023年发布了149个基础模型,应用范围广泛。基础模型通过无监督学习节省标注时间,适应性强,具备处理文本、图像和视频等多种数据类型的多模态能力。随着技术进步,基础模型在商业和工业中的应用不断增加,但也面临偏见和知识产权等挑战。

什么是基础模型?

NVIDIA Blog
NVIDIA Blog · 2025-02-11T23:51:46Z

豆包1.5 Pro更新采用MoE架构,性能提升7倍,推理、代码和多模态能力显著增强,超越GPT-4o等国际大模型,展现自主技术的长远布局。

豆包1.5 Pro重磅更新!7倍MoE性能杠杆,“不使用任何其他模型数据”

量子位
量子位 · 2025-01-22T14:09:40Z

国产AI开源模型MiniCPM-o 2.6在海外受到关注,具备8B参数,能够在iPad上运行,支持实时视频通话和高级语音理解。其多模态能力与GPT-4o相当,能精准识别声音和图像,适合边端设备,推动AI原生应用发展。

全球首次!国产AI开源端侧GPT-4o海外爆火,8B参数iPad就能跑

量子位
量子位 · 2025-01-16T09:59:33Z

谷歌DeepMind推出了Gemini 2.0,这是一个为“代理时代”设计的新AI模型,具备更强的多模态能力,支持图像和音频输出及工具使用。开发者和受信测试者可提前体验Gemini 2.0 Flash,计划明年初广泛推出。谷歌致力于负责任地构建AI,确保安全和隐私,推动AI在搜索和其他产品中的应用,探索人机交互的新可能性。

推出Gemini 2.0:我们为“代理时代”设计的新AI模型

Google DeepMind Blog
Google DeepMind Blog · 2024-12-11T15:30:40Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码