小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
在24GB M4 MacBook上跑本地大模型:Qwen 3.5-9B实测40 tokens/s,支持工具调用

开发者jola分享了在M4 MacBook Pro上运行Qwen 3.5-9B(Q4_K_S量化版)本地大语言模型的经验,尽管该模型无法完成复杂任务,但它提升了开发者的参与度,成为一种可控的离线助手,适合24GB内存的用户。

在24GB M4 MacBook上跑本地大模型:Qwen 3.5-9B实测40 tokens/s,支持工具调用

dotNET跨平台
dotNET跨平台 · 2026-05-12T00:01:01Z
上下文窗口被打破:Subquadratic推出1200万tokens的窗口

Subquadratic公司推出了一种新模型,支持高达1200万tokens的上下文窗口,声称在检索效率上超越现有模型。其选择性注意力架构在计算和内存上实现线性扩展,速度比传统模型快52倍。公司计划未来推出5000万tokens的模型,并提供API和编码工具。尽管面临挑战,Subquadratic在多个基准测试中表现优异,吸引了投资者关注。

上下文窗口被打破:Subquadratic推出1200万tokens的窗口

The New Stack
The New Stack · 2026-05-05T18:01:04Z

GitHub Copilot将于2026年6月1日起实施按量计费模式,因应对不断上涨的成本。每个订阅套餐将获得相应的AI信用点,使用量按tokens计算。开发者可提前了解费用并选择购买额外信用点。不同订阅的信用点和费用已公布,企业用户可共享未使用的信用点。

Copilot从6月1日开始转为按量计费 根本原因是GitHub难以承受不断飙涨的成本

蓝点网
蓝点网 · 2026-04-28T03:38:15Z
ICLR 2026 丨单任务可训练参数减少 125 倍!新方法 Task Tokens 助力具身智能提升复杂任务能力

以色列理工学院的研究团队提出了一种名为 Task Tokens 的方法,旨在高效适配行为基础模型(BFM)到特定任务。该方法通过减少可训练参数和提高收敛速度,保持了模型的灵活性和泛化能力。实验表明,Task Tokens 在多种任务中表现优异,尤其在应对环境变化时展现出更强的鲁棒性。

ICLR 2026 丨单任务可训练参数减少 125 倍!新方法 Task Tokens 助力具身智能提升复杂任务能力

HyperAI超神经
HyperAI超神经 · 2026-04-23T05:28:20Z

人工智能Claude Opus 4.6和Claude Code近期性能显著下降,用户和开发者对此表示不满。开发者指出模型在复杂任务中的表现不佳,指令遵循能力下降,错误率上升。Anthropic承认调整了模型的努力程度以减少算力消耗,导致用户配额消耗加快,部分开发者质疑此举是为降低成本以准备上市,若不解决算力问题,可能会失去用户。

微软和AMD研究员都在吐槽Claude Code质量下降 疑似是为了节省tokens

蓝点网
蓝点网 · 2026-04-15T09:41:08Z

阿里云宣布自2026年4月13日起停止Coding Plan Lite版的续费和升级,现有订阅到期后结束。这一调整反映了整体涨价趋势,开发者将面临更高的Tokens购买成本。其他云服务商也在缩减基础订阅权益,未来AI模型使用费用将持续增加。

阿里云Coding Plan Lite套餐停止续费和升级 后续将被下架

蓝点网
蓝点网 · 2026-04-13T01:40:40Z

火山引擎的Coding Plan被指不透明,采用按调用次数和Tokens双重计费,导致用户配额迅速消耗。用户发现使用速度快于其他平台,客服解释高Tokens消耗会减少可调用次数,建议关注配额使用情况。

火山引擎Coding Plan被指不透明 说好按调用次数但实际还会按Tokens消耗双层计费

蓝点网
蓝点网 · 2026-04-03T02:21:23Z
我的天!豆包每天烧120万亿Tokens啊!

豆包大模型日均Token使用量已突破120万亿,增速显著,使用企业达140家,显示行业积极布局。火山引擎的Seedance 2.0已开启公测,AI发展速度的衡量标准愈发明显。

我的天!豆包每天烧120万亿Tokens啊!

量子位
量子位 · 2026-04-02T12:30:16Z
飞书上线云 OpenClaw,一步创建完成。限免到月底,每日10万个

飞书推出云 OpenClaw 服务器,限免至2026年3月31日,首日提供400万Tokens,后续每日100万Tokens。用户可轻松部署和更换大模型,AI故障时可由飞书接管。活动面向已注册用户,具体使用情况待定。

飞书上线云 OpenClaw,一步创建完成。限免到月底,每日10万个

小众软件
小众软件 · 2026-03-11T08:29:55Z
扩散模型成最快深度思考!告别自回归每秒1009个tokens,英伟达微软都投了

扩散模型Mercury 2成为最快的生成模型,生成速度达到每秒1009个tokens,比传统自回归模型快5倍。其并行优化机制提升了生成速度,并在性能和成本上具有优势。Inception Labs专注于扩散模型,致力于突破速度与成本的瓶颈。

扩散模型成最快深度思考!告别自回归每秒1009个tokens,英伟达微软都投了

量子位
量子位 · 2026-02-26T02:03:18Z
只要1100美元tokens,一周重写 Next.js!

抱歉,提供的文本内容不足以进行总结。请提供更详细的文章内容。

只要1100美元tokens,一周重写 Next.js!

机器之心
机器之心 · 2026-02-25T08:48:32Z

阿里发布的Qwen3.5-Plus大模型参数达到3970亿,性能超越Gemini 3和GPT-5.2,百万Tokens仅需0.8元,支持201种语言,具备强大的多模态能力,能够处理复杂视觉信息,提升开发效率,推动开源模型的普及。

最强开源大模型除夕登场!397B参数千问3.5超越Gemini 3,百万Tokens低至8毛

量子位
量子位 · 2026-02-16T11:15:22Z

蚂蚁技术研究院推出的LLaDA2.1扩散模型在编程任务中实现892 tokens/秒的速度,标志着研究模型向实用工具的转变。其双模式设计允许用户根据需求选择速度或质量,克服了传统模型的局限性。LLaDA2.1在速度和质量上均表现优异,开源版本提供了轻量化选择。

小众架构赢麻了!通过编辑功能让100B扩散模型飙出892 tokens/秒的速度!

量子位
量子位 · 2026-02-11T02:06:53Z
7B扩散语言模型单样例1000+ tokens/s!上交大联合华为推出LoPA

抱歉,您提供的文本内容过于简短,无法进行有效的总结。请提供更详细的文章内容。

7B扩散语言模型单样例1000+ tokens/s!上交大联合华为推出LoPA

机器之心
机器之心 · 2025-12-31T08:31:48Z
“星河产业应用创新奖”法律服务赛道火热进行中!报名即获得5000万tokens!!

“星河产业应用创新奖”将于2025年增设“AI+法律服务”赛道,旨在推动法律行业的创新与应用。参赛项目可利用人工智能技术解决法务问题,并获得资源支持和曝光机会。近期在厦门举办的私享会汇聚行业专家,探讨AI在法律服务中的应用,促进技术交流与合作。

“星河产业应用创新奖”法律服务赛道火热进行中!报名即获得5000万tokens!!

百度大脑
百度大脑 · 2025-11-17T12:30:49Z

上海发布的Minimax M2开源模型以61分成为开源模型第一,突破智力、成本和速度的限制。其编程能力和推理速度优于Claude 3.5,成本仅为8%。M2支持多种工具调用,表现出色,目前限时免费使用。

全球开源大模型杭州霸榜被终结,上海Minimax M2发布即爆单,百万Tokens仅需8元人民币

量子位
量子位 · 2025-10-28T01:52:11Z

麦肯锡因AI技术迅速发展裁员超过5000人,传统咨询模式受到冲击。AI工具如Lilli提升工作效率,取代初级顾问岗位。尽管如此,资深顾问的隐性知识仍然重要,咨询行业面临转型挑战。

ChatGPT千亿tokens,干掉麦肯锡5000名顾问

量子位
量子位 · 2025-10-21T06:30:56Z

谷歌每月处理的Tokens达到1.3千万亿,相当于近30亿本《红楼梦》的内容。这一数据体现了谷歌AI的强大实力,Tokens消耗量已成为行业竞争的新指标,影响模型的理解能力和商业价值。

1300000000000000!谷歌每月Tokens消耗量曝光(别数了是千万亿)

量子位
量子位 · 2025-10-10T06:55:03Z

OpenAI公布了30家Tokens消耗超万亿的企业客户,包括多邻国、OpenRouter和Canva等。这些公司因高频交互和复杂任务,日均消耗Tokens达10亿,反映了AI应用的真实需求。

30家Tokens吞金兽,每家烧光万亿Tokens!OpenAI最大客户名单曝光,多邻国上榜

量子位
量子位 · 2025-10-08T04:37:13Z

中国电信天翼AI构建了超过10万亿tokens的高质量数据集,存储量达350TB,支持AI模型训练。其星辰MaaS平台通过数据精炼和智能应用,提升各行业效率,推动AI技术落地,助力国家战略与市场需求。

超10万亿Tokens的高质量数据集是怎么炼成的?专访中国电信天翼AI阮宜龙

量子位
量子位 · 2025-09-26T02:18:49Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码