标签

 llm 

相关的文章:

本列表汇集了关于大模型(LLM)最新研究与应用的文章,涵盖强化学习、参数迁移及企业级基准测试等前沿话题,助您深入了解LLM的潜力与挑战。

Martin Fowler最新洞察:LLM 不止是“更高”的抽象,它正在改变编程的“本质”!

本文永久链接 – https://tonybai.com/2025/06/26/non-deterministic-abstraction 大家好,我是Tony Bai。 在软件开发领域,Martin Fowler 的名字几乎等同于思想的灯塔。他的每一篇文章、每一次演讲,都能为我们揭示行业发展的深层脉络。最近,Fowler 大师又发布了一篇简短但引人深思的博文——《LLMs bring...

本文探讨了大型语言模型(LLM)对软件开发的影响,认为其引入的“非确定性”编程将改变传统编程方式。Fowler指出,开发者需重新审视版本控制、测试和可靠性等问题,这一变革既带来挑战,也创造了新的机遇,促使开发者探索共存的方法。

原文中文,约3500字,阅读约需9分钟。发表于:
阅读原文

Inflection AI将其LLM推理堆栈从NVIDIA迁移至Intel Gaudi的经验教训

At Inflection AI, we recently made a major shift in our infrastructure: we ported our LLM inference stack from NVIDIA The post What Inflection AI Learned Porting Its LLM Inference Stack from...

Inflection AI将其LLM推理堆栈从NVIDIA GPU迁移至Intel Gaudi加速器,以应对GPU供应短缺和价格上涨。经过几周的调整和优化,性能接近NVIDIA。解决了不支持的操作和执行模式问题,提升了性能,并为未来硬件设计提供了经验。

Inflection AI将其LLM推理堆栈从NVIDIA迁移至Intel Gaudi的经验教训
原文英文,约800词,阅读约需3分钟。发表于:
阅读原文

淘宝直播数字人:LLM弹幕互动技术

本专题是淘宝直播技术团队打造智能数字人的部分实践总结。我们将探讨六大核心环节:LLM文案生产赋予数字人思考和内容生成能力,如同其“大脑”;LLM互动能力则聚焦对话逻辑与拟人化交流,...

本文总结了淘宝直播技术团队在智能数字人直播中的实践,涵盖文案生成、互动能力、语音合成、形象驱动、音视频工程和服务端支持六大核心环节。通过结合AIGC技术,数字人直播提升用户体验,增强参与感,优化意图识别和商品解析,致力于实现高效稳定的直播服务。

淘宝直播数字人:LLM弹幕互动技术
原文中文,约8700字,阅读约需21分钟。发表于:
阅读原文

7B小模型超越DeepSeek-R1:模仿人类教师,弱模型也能教出强推理LLM | Transformer作者团队

让教师模型“教学”而不是“解决”

Sanaka AI提出了一种新方法,使教师模型能够像人类教师一样进行启发式教学,训练出7B小模型在推理能力上超越671B的DeepSeek-R1。该方法通过逐步解释提高了教学效率,并显著降低了训练成本。

原文中文,约2000字,阅读约需5分钟。发表于:
阅读原文

从全心脏模型到基于 LLM 的疾病网络分析,清华长庚医院李栋从数据视角剖析医疗大模型发展趋势

近日,清华长庚医院医学数据科学中心主任李栋教授在 2025 北京智源大会中,就「智慧医疗时代下如何应用医疗数据开展创新研究」进行了专题分享,介绍了大模型在智慧医疗时代带来的创新。本文为李栋教授的分享精华实录。

随着人工智能技术的发展,医疗领域正在发生深刻变革。李栋教授在北京智源大会上指出医疗数据在大模型应用中的重要性,并强调数据治理和算法定制的必要性。尽管面临算力和算法的挑战,AI依然能够提升医疗效率,推动智慧医疗的创新与发展。

原文中文,约5100字,阅读约需13分钟。发表于:
阅读原文

从全心脏模型到基于LLM的疾病网络分析,清华长庚医院李栋从数据视角剖析医疗大模型发展趋势

近年来,中国医疗 AI 正处在提速阶段。医疗数据作为大模型的「燃料」,也是医疗决策的核心载体,它的角色至关重要,当没有好的研究思路,对创新性一筹莫展之际,不妨从数据入手,并善用最新信息科学研究手段,所以医院应鼓励并给予大力支持,科研数据机房要配备相应的计算、存储、网络、安全等基础设施建设,为数据层面的医疗创新提供关键服务。然而,这类上世纪 70...

李栋教授在2025北京智源大会上指出,智慧医疗时代医疗数据的创新应用依赖于大模型,以提升医疗效率和精准诊断。尽管面临算法局限、算力成本和数据治理等挑战,AI仍是医疗变革的关键。未来需加强医生与数据科学家的合作,推动医疗数据智能化发展。

原文中文,约5300字,阅读约需13分钟。发表于:
阅读原文
发表于:
阅读原文

LLM带来了新的抽象本质

Like most loudmouths in this field, I’ve been paying a lot of attention to the role that generative AI systems may play in software development. I think the appearance of LLMs will...

马丁·福勒认为生成性AI将深刻改变软件开发,类似于从汇编语言到高级语言的转变。与以往工具不同,LLM引入了非确定性,改变了编程方式。程序员需适应这种非确定性,尽管会失去一些东西,但也将获得新的理解和能力。这一演变在软件开发历史上是前所未有的。

LLM带来了新的抽象本质
原文英文,约700词,阅读约需3分钟。发表于:
阅读原文
发表于:
阅读原文

LLM微调经验

Personal experience care the changing of loss/reward and test dataste performance, ensure they change with same trend, otherwise, reward hacking / invalid loss function appear adjust learning-rate...

在阅读unsloth博客的“手动自动求导”后,我尝试解析模型,发现了更多可优化的点。torchview是一个很好的工具。

LLM微调经验
原文英文,约100词,阅读约需1分钟。发表于:
阅读原文