DeepSeek V4 最近发布,分为 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个版本。Pro 版本参数达到 1.6T,性能优异,超越其他开源模型;Flash 版本在性能和资源消耗上进行了优化,适合更广泛的硬件。HyperAI 提供一键部署教程,降低使用门槛。
商汤推出了开源图像生成模型SenseNova-U1,具备高效的图文创作能力,支持复杂信息图和连贯的图文输出。其底层架构NEO-unify提升了创作效率。尽管存在局限,商汤将持续改进并已向公众开放该模型。
本文介绍了Ollama的使用教程,重点讲解了命令及其参数,包括全局参数、环境变量和常用命令。内容涵盖如何启动Ollama服务、创建模型、查看模型信息及运行模型的选项,并提供了一些实用的命令示例和跨平台使用的注意事项,以帮助用户更高效地使用Ollama。
阿里通义发布的新模型Qwen3.6-27B拥有27亿参数,在代码修复测试中得分77.2,超越前代397亿参数模型的76.2分。该模型采用全参数激活的稠密架构,显存需求低至18GB,适合本地运行,降低了开发门槛。其原生多模态能力可处理文本、图像和视频,提升编程助手效率。开源协议为Apache 2.0,便于商业应用,可能改变开发者的使用方式。
DeepSeek v4发布了Pro和Flash两个版本,分别拥有1.6T和284B参数,价格低至3.48美元和0.28美元。Pro版适合复杂任务,Flash版则注重低成本高吞吐。DeepSeek的开源程度和性能接近顶级闭源模型,预计新硬件上市后推理成本将进一步降低,推动开源AI的发展。
通过前几篇文章的推导和计算,我们可以发现,第一篇《MuP之上:1. 好模型的三个特征》所提的三个稳定性指标通常可以分为“参数稳定性”和“增量稳定性”两部分,而在《MuP之上:2. 线性层与最速下...
以色列理工学院的研究团队提出了一种名为 Task Tokens 的方法,旨在高效适配行为基础模型(BFM)到特定任务。该方法通过减少可训练参数和提高收敛速度,保持了模型的灵活性和泛化能力。实验表明,Task Tokens 在多种任务中表现优异,尤其在应对环境变化时展现出更强的鲁棒性。
这款macOS工具可以快速查看视频文件的帧率和分辨率等信息。用户只需右键点击视频文件,选择“快速操作”即可获取详细信息,支持多种视频格式。该工具基于AVFoundation框架,完全免费且开源。
本文讨论了大模型输出的两个重要超参数:温度(Temperature)和核采样(Top-p)。温度控制输出的随机性,低温度使输出更确定,高温度增加多样性。核采样通过动态截断低概率词来调整候选词范围。建议在需要确定性时使用低温度和低Top-p,而在追求创意时使用高温度和高Top-p。默认配置为温度0.7和Top-p 0.9,适合大多数场景。
Qwen3.6-35B-A3B 模型近日开源,性能优于 Qwen3.5 和 Gemma4 系列,编程基准测试显著提升,新增“思考过程留存”功能,简化开发流程。HyperAI 提供在线部署和教程,支持全球开发者快速体验。
这篇文章探讨了AI智能体的演变,强调其能力不仅依赖于模型本身,还需要外部环境的支持。通过建立记忆库、技能库和协议,AI能够更有效地完成任务。未来的竞争在于优化这些外部支持,而非单纯增加模型参数。真正的智能在于模型与环境的结合。
字节Seed与北大合作提出“原地测试时训练”(In-Place TTT),使大模型在推理时无需重训练即可更新参数,从而提高计算效率和适应能力,尤其在长文本任务中效果显著。
马斯克在推特上意外透露AI模型Claude的参数,Sonnet为1T,Opus为5T。Colossus 2超算正在训练多个模型,引发网友热议Claude系列的参数规模。最新模型Claude 4.6在多个任务中表现优异,技术迭代使参数估算变得困难。
mssql-python现支持位置参数(?)和命名参数(%(name)s),简化了Python与SQL Server的交互,便于构建复杂查询和重用参数,提升代码清晰度和可维护性。开发者可根据需求选择参数风格,无需额外配置。
本文介绍了一种在Oracle ARM硬件上运行的大型语言模型(MoE),该模型拥有260亿参数,但每次生成仅激活40亿参数。性能估计显示,输入处理速度为150-400个令牌每秒,输出生成速度为3-8个令牌每秒,主要受内存带宽限制。建议通过优化线程设置和使用Flash Attention来提高效率。
在Python中,单个星号用于解包操作符,可以将列表或字典的元素解包为集合,例如`output = {*numbers}`将`range(3)`解包为`{0, 1, 2}`。在函数定义中,星号表示可以接受任意数量的参数。
文章讨论了如何通过修改内核参数和ulimit配置文件来增加Linux系统的连接数限制,默认最大文件描述符数量为1024,建议在开放服务器时进行调整。
哈苏相机X2D II 100C结合现代电子技术与传统光学,提供卓越的拍摄体验。其直观操作界面和高动态范围HDR功能使摄影变得简单愉悦。尽管价格昂贵,但其出色的成像质量和易用性适合初学者。文章强调选择相机应基于个人需求,而非单纯追求高端设备。
Mistral AI 发布了 Mistral Small 4,具备指令执行、推理和多模态理解功能,支持256k上下文窗口,具有可配置推理强度,提升了推理效率和经济性,适合通用聊天和复杂推理。
发现MySQL的binlog文件占用大量磁盘空间,重启后binlog_expire_logs_seconds参数失效。通过创建自定义配置文件并挂载到Docker中,成功解决了问题,节省了服务器空间。
完成下面两步后,将自动完成登录并继续当前操作。