小红花·文摘

模型调优无需标注数据！将Llama 3.3 70B直接提升到GPT-4o水平

机器之心 ·

ICLR 2025｜大模型也需要好奇心，TeleAI 提出探索驱动的对齐方法，8B越级胜70B

机器之心 ·

港大黄超教授团队提出的GraphAgent框架，通过多智能体协作，融合图数据与文本信息，显著提升预测与生成任务的性能。在8B参数下，该框架优于70B大模型，尤其在论文评审中有效预测录取可能性，展现出良好的零样本学习和跨域泛化能力。

AI预测论文能不能中，8B超越70B大模型，港大发布图文融合多智能体GraphAgent

量子位 ·

Meta 发布了唯一开源的 Llama 3.3 模型 Llama-3.3-70B-Instruct，其性能可与 405B 模型媲美。该系列的最后一款模型，期待 Llama 4 的推出。hyper.ai 提供一键部署及优质数据集和教程，支持 AI 研究与应用。

在线运行 Llama 3.3 唯一开源 70B 模型，性能堪比 405B！LaTeX OCR 数据集上线，助力数学公式识别

HyperAI超神经 ·

Meta 发布了唯一开源模型 Llama 3.3 的 Llama-3.3-70B-Instruct，性能可与 405B 模型媲美。该系列的最后一款模型，未来将推出 Llama 4。hyper.ai 提供一键部署及优质数据集和教程，提升用户体验与研究。

在线运行 Llama 3.3 唯一开源 70B 模型，性能堪比 405B！LaTeX OCR 数据集上线，助力数学公式识别...

HyperAI超神经 ·

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

机器之心 ·

Meta发布的Llama 3.3以70B参数实现405B性能，成本显著降低。谷歌的Gemini 1206更新后重回榜首，马斯克的Grok 3即将发布，市场竞争激烈。

新版Llama 3 70B反超405B！Meta开卷后训练，谷歌马斯克都来抢镜

量子位 ·

Cerebras Systems 改变 AI 推理：使用 Llama 3.1-70B 实现 3 倍速度提升，每秒处理 2,100 个 Token

实时互动网 ·

Imbue公司成功训练了一个70B参数的语言模型，并分享了数据集创建、评估和基础设施设置的经验。他们开发了超参数优化器CARBS，帮助研究者在小规模实验中找到最佳超参数，以便扩展到大规模模型。通过大量实验，Imbue团队优化了模型性能，确保训练过程的稳定性。

70B大模型训练秘方③：1000次超参数优化实验的发现

OneFlow深度学习框架 ·

英伟达开源最新大模型Nemotron 70B后，只有OpenAI o1一个对手了

机器之心 ·

Nvidia AI 悄然推出 Nemotron 70B：在多项基准测试中超越 OpenAI 的 GPT-4

实时互动网 ·

该项目使用Next.js和React开发AI聊天机器人，集成NVIDIA Llama 3.1 Nemotron-70B模型。前端采用Tailwind CSS，支持实时聊天和自定义应用，具备暗/明模式切换、响应式设计和安全API。用户可个性化界面。项目开源，欢迎贡献。

构建集成NVIDIA Llama 3.1 Nemotron-70B的Next.js聊天机器人

DEV Community ·

从裸机到70B大模型②：基础设施设置与脚本

OneFlow深度学习框架 ·

本研究评估了开源聊天机器人的性能，提出了LLaMA和Alpaca模型，以提升中文语义理解能力。构建了Aurora模型，验证其在中文对话中的有效性，并提出ChatFlow模型，实现高性能训练。研究还探讨了持续预训练和关键混合比的优化策略，提升了模型在特定领域的表现。

基于优化额外语言混合比例的Llama-3 70B后训练实践

BriefGPT - AI 论文速递 ·

Imbue公司在6月预训练了一个70B参数的模型，并在多个基准测试上进行了微调。微调后的模型在多个数据集上表现优于GPT-4o zero-shot模型。他们发布了工具和数据集，帮助其他团队进行模型训练和评估。他们清洗了11个公共数据集，并创建了一个用于代码理解的数据集。开源和闭源模型在高质量问题下的准确率接近100%。他们还讨论了数据集创建和清洗过程，并与其他前沿模型进行了比较。