Meta AI研究团队提出ExFM框架,解决了万亿级基础大模型在广告推荐中的高效服务问题。该框架通过外部蒸馏和动态适应机制,实现教师模型与学生模型的解耦,显著降低计算成本和延迟,提升模型性能,推动广告推荐系统优化。
Understanding the latest project to build speech-to-speech with open source technologies.
德国DESY研究人员提出利用大型语言模型(LLM)自主调节粒子加速器,展示了其在调优任务中的潜力。尽管LLM的表现尚未达到最先进算法的水平,但未来有望成为操作员的辅助工具,提高加速器调节效率。
Meta发布了备受期待的Llama-3.1系列模型,包括405B“超级杯”型号,成为首个能与最强大模型媲美的开源模型。Llama-3.1系列包括8B、70B和405B三个版本,具有128k的扩展上下文长度和支持八种语言。405B模型目前是最大的开源模型,在各种评估指标上超过了GPT-4。SiliconCloud在其平台上推出了Llama-3.1系列模型,使开发者更容易访问和使用这些先进模型。该平台还提供加速推理和实惠的价格。除了Llama-3.1,SiliconCloud还提供各种其他开源语言模型、图像生成模型和代码生成模型。开发者可以免费使用这些模型,消除了开发和大规模推广中的计算成本。SiliconCloud旨在为开发者提供更快、更便宜、更全面的模型API,以实现更流畅的用户体验。
研究人员通过将AI的“慢思考”结果蒸馏进“快思考”,使Llama2的表现提升了257%,超过了GPT4,同时降低了推理成本。他们使用了四种不同的系统2方法进行微调,发现这种模式使系统1模型的表现大幅提升,甚至超过了真正的系统2模型。这种蒸馏方法在实时交互和移动设备部署等场景下具有优势。
深度求索团队更新了DeepSeek-V2模型,新版本DeepSeek-V2-Chat在数学解题、逻辑推理、编程等方面性能提升了16%,对战胜率从41.6%提升到了68.3%。团队还优化了模型的指令跟随能力,提升了用户体验。SiliconCloud平台上线了DeepSeek-V2-Chat的推理加速版,速度快且输出准确。SiliconCloud还提供多种开源大语言模型和代码生成模型。
上海天鹜科技与长春金赛药业完成全球首款经大模型设计的蛋白质产品开发。英伟达开源最强通用模型Nemotron-4 340B,途深智合开源国内首个自然语言蛋白质大模型TourSynbio™。Cyrus Biotechnology分拆子公司Levitate Bio。GSK与Ochre Bio合作开发肝脏疾病治疗方法。
深度求索开源了DeepSeek-Coder-V2模型,是全球首个在代码、数学能力上超越GPT-4-Turbo等的开源代码大模型。DeepSeek-Coder-V2包含236B与16B两种参数规模,支持338种编程语言。SiliconCloud上线了DeepSeek-Coder-V2开源模型,并提供大模型推理加速服务。新用户还送1亿token。
KLING is the latest AI video generator that could rival OpenAI's Sora, OpenAI is restarting its robotics research group, and more!
黄仁勋在COMPUTEX上展示了英伟达的最新技术,包括GPT-4模型和Blackware GPU。他强调了GPT-4的训练参数达到了1.8T,展示了Blackware GPU的多GPU集成解决方案。然而,英伟达面临着摩尔定律失效、中心转移和巨头合作等威胁。尽管如此,英伟达仍然是一个轻公司,依靠缩放定律和扩大垄断来保持竞争优势。
Open AI 已经扩大了对 GPT-4 的免费访问,而苹果的未来尚不确定。Open AI 正卷入与斯嘉丽·约翰逊的诉讼中。GPT-4O 已经向有限制的免费用户开放。苹果的 WWDC 可能会让人失望。
本文介绍了三种免费使用GPT4的方法:COZE、copilot和加州大学伯克利分校的开源AI研究平台。这些方法提供了各种强大功能,如生成图片、总结文档、自动生成配音等。COZE是字节跳动开发的AI工具开发平台,提供全功能的GPT4模型;copilot是微软开发的日常办公助手,可以在Edge浏览器和Bing搜索上使用;加州大学伯克利分校的平台包含了常用的大模型。
ElevenLabs previews music-generating AI model, New Microsoft AI model may challenge GPT-4 and Google Gemini, and more!
使用基于 transformer 的大型语言模型(LLMs)的 ChatGPT 作为研究对象,通过分析 BERT 隐藏单元的激活模式,发现其在不同层次上根据文体变异(1)和叙事内容(4-5)进行聚类,揭示了 LLMs 内部的区别任务处理机制,为深入研究人类语言处理和认知过程提供了潜力。
最近,一个名为“gpt2-chatbot”的神秘AI模型在大模型竞技场上引起了广泛关注。它展现出了惊人的能力,可能超越了备受瞩目的GPT-4模型。有人认为它可能是OpenAI的GPT-2模型的版本,也有人认为它可能是GPT系列的下一个版本。无论如何,它的出现预示着AI技术的飞跃。
山姆·奥特曼在斯坦福大学演讲中提到了人工智能的快速发展和GPT4的标杆地位,以及即将发布的GPT5和缩放法则的重要性。他认为免费、无广告的GPT是更好的途径。他还讨论了创新、创业和人与人工智能的关系。他强调了社会需要为技术进步做好准备,并表示人类总会有更大的创新。
该文章讨论了使用专家来提高推理速度的方法。作者提出了一种使用两名专家的方法,以减少计算量。同时,作者还提到了使用更多专家可能会对模型产生负面影响。该模型是一种开放权重模型,具有宽松的许可证,并在成本/性能权衡方面表现最佳。
美司法部力促TikTok出售,CycleGAN作者领衔条件分散模型取得新成就,OpenAI有望在今年夏季推出GPT-5,黄仁勋对话Transformer论文七大作者,快手CEO程一笑表示自研大模型有决心半年内达到GPT4.0水平。
广大网友研究出了使用免费ChatGPT-4的方法,通过Coze和Discord实现API请求GPT4+DALL·E 3。Coze是AI Bot开发平台,支持搭建各类问答Bot,并发布到社交平台和通讯软件上。需要本地PC能科学上网,部署Coze代理服务器,使用外网服务器,需要域名和证书。
完成下面两步后,将自动完成登录并继续当前操作。