手机浏览器扫描二维码访问
最近商汤大装置和记忆张量联手搞出了个大动静——落地了业界首个国产GPGPU PD分离商用推理集群,最亮眼的成绩是:在大模型推理这个关键赛道上,综合推理性价比直接干到了同代NVIDIA A100的150%。
这话乍一听有点抽象,说白了就是:用国产的芯片和软件,跑大模型推理业务,花同样的钱能跑出1.5倍的效果,或者说跑出同样的效果,只需要花三分之二的钱。更关键的是,这不是靠堆硬件、拼参数的“笨办法”,而是靠体系级的软硬件协同创新,给国产算力闯出了一条“弯道超车”的路子,不是跟在别人屁股后面模仿。
下面咱们用大白话把这件事的来龙去脉、核心门道和行业意义掰扯清楚,让大家明白这波操作到底牛在哪。
一、先搞懂:大模型推理为啥这么难?PD分离又是啥?
要理解这个合作的价值,得先明白大模型推理的核心痛点。咱们平时用ChatGPT、文心一言这类大模型,看似只是发个指令等回复,背后的计算过程其实分两大步,这两步的需求天差地别,也是卡住很多算力的“瓶颈”。
第一步叫Prefill(预处理)。当你输入一个问题,比如“帮我写一篇关于古蜀文明的短文”,大模型要先把这段文字转换成机器能看懂的向量,然后一次性计算出大量的中间结果,也就是KV缓存。这个过程的特点是计算量大、可以批量处理,就像工厂里的流水线批量生产零件,需要算力集中发力,但对延迟要求不高——稍微等个几十毫秒,用户根本感觉不到。
第二步叫Decode(解码)。大模型拿到KV缓存后,要逐字逐句生成回复,也就是“逐token生成”。比如先出“古蜀文明”,再出“是中国西南地区一支极具特色的古代文明”,每生成一个词,都要用到前面的KV缓存。这个过程的特点是计算量小,但对延迟要求极高——要是生成一句话卡个一两秒,用户体验直接拉胯,而且这个过程没法批量,只能“串行干活”。
这两步本来是在同一批硬件上完成的,问题就出在这:Prefill阶段需要“暴力计算”,会占满硬件的算力和显存;等轮到Decode阶段,硬件又闲着大半,算力利用率直接暴跌。尤其是国产GPGPU,本身在显存容量、生态适配方面和国际顶尖产品有差距,这么一折腾,劣势更明显——跑同样的任务,成本高、速度慢,根本没法商业化。
那PD分离是啥?说白了就是“分工合作”——把Prefill和Decode这两个阶段,拆到不同的硬件集群上分别处理。负责Prefill的集群专门干“批量重活”,把KV缓存算好;负责Decode的集群专门干“精细快活”,用现成的KV缓存快速生成回复。这样一来,硬件不用在两种模式间来回切换,利用率能提一大截。
但这里要划重点:单纯的硬件PD分离,解决不了根本问题。很多厂商之前也试过,结果发现只是把“一个瓶颈”变成了“两个瓶颈”——Prefill集群算完的KV缓存,要传到Decode集群,传输过程会产生延迟;而且KV缓存本身占显存,就算分开处理,显存不够用的问题还是没解决,性价比提升非常有限。
二、核心突破:不是改硬件,是重构整个推理范式
商汤和记忆张量的聪明之处在于,他们没有局限在“硬件层面拆分工序”,而是把PD分离技术,和记忆张量的核心产品MemOS的激活记忆体系深度绑在了一起,相当于从“流水线分工”升级到了“全产业链协同”,直接重构了大模型推理的底层逻辑。
咱们来拆解这个“协同创新”的关键操作,其实就两件核心事,件件都戳中痛点:
1. MemOS的激活记忆体系:让KV缓存“活起来”,省下大量显存
前面说过,KV缓存是大模型推理的“刚需”,但它特别占显存——一个千亿参数的大模型,一次推理产生的KV缓存,就能吃掉好几GB的显存。传统模式下,这些缓存用过一次就扔,下次再推理,又要重新计算,既费算力又费显存。
而MemOS的激活记忆体系,说白了就是给KV缓存搞了个“智能管理系统”。它能做到两件事:
- 缓存复用:把高频出现的KV缓存(比如用户经常问的“大模型是什么”这类通用问题的缓存)存起来,下次再有用户问类似问题,直接调用现成的缓存,不用重新计算。这就像餐厅里的预制菜,不用每次都从零开始炒菜,节省大量时间和燃气。
- 动态压缩:对不常用的KV缓存,进行无损压缩,把显存占用率降下来。比如原本占10GB的缓存,压缩后只占5GB,省下的显存就能用来跑更多的推理任务,相当于一台机器当成两台用。
大国小鲜小说全文番外_秦放鹤天元帝大国小鲜, ?本书名称:大国小鲜(科举) 本书作者:少地瓜 本书简介:从一无所有到万人之上。(权谋、官场、科举) 高考大省杀出升天的秦放鹤国考上岸,多年来领导器重、同事羡慕,是所有人眼中的前途无量,然后止于加班猝死。...
《刑侦笔记》刑侦笔记小说全文番外_陆俊迟安郁辞刑侦笔记, 《刑侦笔记》作者:清韵小尸文案:一起残肢案的侦破陷入僵局,重案组组长陆俊迟去华警求教。陆队长原本以为会得到一位德高望重老教授的指点,没想到遇到了一位体弱多病的病美人苏回给他指点迷津。推理之前,陆俊迟想,这位苏美人怕不是个花瓶。实证之后,陆俊迟想,美人不是花瓶,我才是个憨憨。陆俊迟感激苏回对案件的帮助。...
天才少年气脉被废,受到家族冷漠,为了寻找离开家族的爷爷,不曾放弃修炼的念想。获得神秘吊坠的认可,踏上强者之路。......
红楼太妃要躺平作者:微云烟波文案:坏消息:我死了!好消息:我穿越了!坏消息:穿成了一个有两个孩子的寡妇!好消息:这个寡妇是太妃,大儿子是将来的王爷!社畜顾晓穿越了,开局就守寡!原身郁郁而亡,顾晓却觉得自己已经可以躺赢了!自己是太妃,儿子成年就能继承王位,不用工作就能白拿薪水,有地有房,仆妇环绕,不好好享受人生简直就是白来这一趟!什么,这里是...
【正文完结,全文精修中,番外不定时掉落】1.萧挽风被从边关召回,将军卸甲,做个京城的富贵闲王。宫宴歌舞升平时,堂下缓缓走过一个素衣美人。赫然正是最近卷入大案的罪臣谢氏之女。谢家嫡女明裳,容色鲜妍,性情骄纵。纵然戴罪之身,依旧扬着下巴,黑白分明的眸子斜乜,递来冷冰冰一记白眼。帝王笑指美人,“听说谢家在边关时,与五弟有旧怨?朕做主,将谢氏女赐你可好?”萧挽风手握金杯,平淡道,“谢皇兄。”2.河间王萧挽风,话少独断,手腕铁血。谢明裳正式见河间王的第一面,在自家里。河间王缺个王府,据说看上了谢家宅子。谢明裳:?两人正式相见的第二面,在宫宴上。谢明裳作为被赐下的美人,冷冰冰朝他翻了个白眼。提着包袱进河间王府的那一刻,她觉得,自己活不到谢家平反、家人重逢的时候了。入王府第一个月,想死。入王府第二个月,她还好好地活着。入王府第三个月,她开始怀疑,河间王该不会喜欢她??后来,京城春夏换了秋冬。冬日懒怠,她把白生生的脚趾头踩上河间王的膝盖,懒散叫他帮穿鞋。他也只用温热手掌捂着她冬日冰凉的脚,问她:“穿哪双?”3.当年,关山大漠风沙起,单骑绝尘照月来。萧挽风的无数个梦里,始终有个十来岁的娇俏小姑娘,挎起弯刀饮马河边,咬着甜杏,翘着小靴等他。一别多年再相逢,当初那个小姑娘长大了……不记得他了。【食用指南】1.正文女主视角2.男主暗恋多年,酸甜拉扯口味,双向救赎。微权谋向3.背景架空仿唐宋勿考据4.自割腿肉放飞写文,谢绝写作指导,愉快看文哈~5.想到再加===下本预收《都没人嫁给宿敌吗?》===章晗玉,名门遗孤出身,拜权宦为义父,清贵皮囊之下暗藏心机。巧言令色,挟小皇帝而操弄政令……如此佞臣,竟是个女子!一朝身份败露,天下哗然。章晗玉被罚没入宫劳役,原以为从此了结此女……没想到,小皇帝不舍得!把人藏在御前,随时可能东山复起。群臣大惊!春日宴中,众目睽睽之下,美貌宫人和赴宴朝臣滚落池中,又浑身湿透相抱上岸。宫装美人,正是路过池边的章晗玉;抱她上岸的清隽朝臣,赫然是她多年的政堂宿敌,凌凤池。小皇帝拗不过群臣催逼,哭着给两人赐了婚。“是我算计于你。毁你前程,又毁你名节。你若恨我……”凌凤池没有说完,垂目龙凤喜烛,伸手捻灭烛火。“往事不堪提,晗玉。今夜是你我结发之夜。”章晗玉趴在软衾上,眼角噙着未散尽的泪花。蜚声两京的高岭之花终于被她逼疯,抛却高冷,不为外人知的癫狂模样比想象中更好看十倍。嘶~~回味无穷。——【男主视角】凌凤池惜才。可惜今生最令他惊艳之女郎,最令他痛惜。他冷眼看其歪路上越行越远,她终究翻了船。算计她,强娶她为妻,看她在身下哭得泪水涟涟。她必定恨极了他。对她的晦暗爱欲,成了光风霁月的君子心底拔不出的一根暗刺。他遏制自己不去找她,他默许她逃离。人去楼空之后,他平静推门收拾婚房旧物,却意外发现她遗下的一本记事本。“这个月只两次。”“这个月一次。”“一次也没有。”“守活寡的日子谁受得了?走了走了。”缓缓眯起眼的凌凤池:“……”男主眼里的强娶豪夺x女主:爽完就走很快乐√【食用指南】1.女主神经回路不是正常人,不是正常人,重要的话说两遍2.男主高岭之花贵公子,自从遇到女主后三观尽碎3.轻松调剂文,快快乐乐HE...
五行仙府情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的玄幻魔法小说,五行仙府-会修仙的猫-小说旗免费提供五行仙府最新清爽干净的文字章节在线阅读和TXT下载。...