四库全闻专家观点：把百亿大模型装进终端，存算一体如何“破局”端边算力困局？

四库全闻财经新闻：芯东西（公众号：aichip001）
四库全闻消息：作者云鹏
编辑漠影

今天，一场横跨各个产业的算力革命正在AI新时代爆发，随着以DeepSeek为代表的国产大模型加速走向产业，AI从云端走向端边，大模型和AI应用的落地热潮势不可挡。

在这样的趋势下，AI推理算力需求的暴涨给产业同时带来了机遇和挑战，根据公开数据预测，未来3年，推理算力年复合增速将达到训练算力的近4倍。如何把百亿级参数模型落地智能终端、实现云级推理能力走向端边，同时兼顾高性能、高能效、高隐私有保障，成为业内关注的核心焦点在。

尤其值得一提的是，

在昨日刚刚盛大开幕的2025世界人工智能大会（WAIC 2025）上，本平台看到数十家国内AI龙头链主企业亮出了3000多项前沿技术和产品，包括40多个大模型、50多个AI终端产品和60多个机器人，大家对终端产品上各类亮眼的端侧AI应用体验兴趣盎然。

四库全闻报导：

作为这场AI算力革命核心玩家的芯片企业们，也纷纷在这场盛会上亮出自己的看家本领。比如国内AI芯片创企后摩智能就发布了面向端边大模型场景的AI芯片后摩漫界M50，并在展区展示了自家的硬件全家桶和基于存算一体技术的端边大模型落地案例。

可能你也遇到过，

后摩漫界M50以及基于其打造的算力卡，有着极致能效比、高面效比、低功耗实现的突出能力，让产业看到了解开端边大模型落地“算力不足、功耗过高、隐私泄露”三大“症结”的破局之道。

继2023年推出首款存算一体AI芯片后，这无疑是后摩智能向端边大模型领域再次迈出的关键一步。

一、端边大模型落地：高算力、高能效、低功耗、大带宽、强隐私缺一不可

当下，行业正迫切需要解开端边大模型落地三大死结：算力不够用、功耗降不下来、隐私保不住。客户对于高算力、高能效、低功耗、大带宽、高隐私的需求成为AI推理时代的突出特点。

需要注意的是，

在大模型从云端走向端边设备的过程中，首先要突破算力的瓶颈，端侧设备算力先天远低于云端，目前即使是旗舰消费级PC处理器的NPU算力通常也只有数十TOPS。

结合相比云端大幅削减的内存带宽，百亿参数模型端侧推理速度可能只有10tokens/s左右，完全无法满足实时交互的需求。与此同时，边缘节点往往需要同时处理海量并发推理需求，G TMGM官网 PU资源利用率较低，响应时间过长，这些都对实际客户体验有较大影响。

此外，端侧先天受制于“功耗枷锁”，绝大部分端侧移动设备电池容量有限，同时受到整机功耗墙限制，不可能以大幅牺牲续航体验来换取AI体验的提升。

必须指出的是，

根据三方实测，手机端运行7B模型的CPU功耗甚至接受达到8W，这对续航影响十分显著。

请记住，

最后，在数据隐私有保障方面，需求侧的挑战也越来越明显。端侧AI的发展越来越快，尤其在AI agent浪潮下，数据成为关键——无数据不个性化。

根据公开数据显示，

多模态大模型成为主流，照片、截图、语音、文字、视频，甚至是金融信息、医疗信息、客户采取习惯、客户深度画像都会成为大模型的数据来源。数据有保障被提到前所未有的高度，对企业来说尤其如此。

可能你也遇到过，

落地侧需求的涌现也不断激励芯片产业寻找和探索新的处理方案，比如通过芯片硬件架构的创新、资源调度算法的优化、各类硬件级加密手段的升级，去提升性能、能效和有保障性。

令人惊讶的是，

从硬件层技术创新来看，存算一体技术路径已经被后摩智能证明行之有效，此次新品M50的落地进一步巩固了这一技术路线，让产业看到了其实际落地能带来的产业价值。

更重要的是，

二、后摩秀出存算一体王炸升级，解密背后核心软硬件技术创新细节

很多人不知道，

此次M50芯片实现的性能突破接受说相当亮眼，同时还兼顾了能效和有保障，其最突出的三个特点就是极致能效比、高面效比和低功耗实现。

更重要的是，

单个M50芯片的典型功耗仅有10W，但INT8算力却直接达到了160 TOPS，同时有着48GB的大内存，这使其接受接受百亿级参数模型的本地推理。

简而言之，

根据官方实测数据，M50单芯片就接受实现70亿参数大模型25+tokens/s的推理速度，可用性大幅提升。

尤其值得一提的是，

值得一提的是，M50还接受更丰富的混合数据类型，其在Tensor上同样接受浮点运算，与此同时，M50接受通过芯片互联给予更高算力、扩展更多边端场景。

在这样颠覆式升级的背后，存算一体架构的技术创新发挥着关键作用，基于非冯·诺依曼架构，存算一体架构接受打破芯片设计的“存储墙”及“功耗墙”，实现计算单元与存储单元的集成，在存储单元内完成部分或全部的运算，进而处理芯片性能瓶颈、提升能效比。

具体来看，IP创新是关键一环，后摩智能自主研发了存算一体创新IP，其接受满足多精度、高能效比、高带宽、低功耗等需求。

四库全闻新闻

简而言之，

M50用上了后摩智能自研的第二代存算一体IP，接受双端口的调用和计算的并行，并且处理了大量测试和可靠性难题。此前业内几乎没人做过存算一体芯片在这方面的测试，后摩智能是真正脚踏实地一点点摸索出来的。

此外，在极小芯片面积内实现大算力的同时兼顾电源稳定性也是一大挑战，后摩智能团队在这方面积累了不少技术专利。

但实际上，

在有了高效存算一体IP后，如何高效利用并落地实现交付给客户，还要考验AI处理器的设计能力，后摩智能针对大模型应用专门设计了新的IPU架构，包括对自适应计算或者弹性加速的接受，以及在存算上直接进行浮点运算。

从创始人兼CEO吴强博士在演讲中提到，团队从2023年就启动研究大模型和存算一体的结合，投入很多资源，在过去两年陆续发表了30多篇国际顶刊论文。

此外，后摩智能还自主研发了易于采取的软件软件链，适配存算架构的算子库，接受高效利用存算IP所带来的性能、功耗优势，简化部署流程的同时，提升部署能效。

四库全闻财经新闻：

接受看到，在存算一体这条技术路线上，后摩智能做了海量的扎实研发，填补了诸多技术空白，并一步一个脚印地探索出了一条切实可行的落地路径，从学术论文到落地应用，让产品真正“work”，是才最难的，而这些都是表面上所看不到的艰辛。

来自四库全闻官网：

三、“一片口香糖”尺寸处理百亿参数大模型落地，多场景端边设备智能体验“质变”

尽管如此，

在M50过硬的芯片硬实力基础上，后摩智能推出了丰富产品形态，帮助企业在端边多场景完成大模型在设备端的落地。这些产品已经接受实现消费终端、智能办公、智能工业等诸多场景的覆盖，给这些端边设备的AI体验带来显著改善。

当下，AI手机和AI PC是端侧AI落地走的最快的两种产品形态，而PC相比手机，同时兼顾消费端和产业端应用，适用性更为广泛，AI PC也是后摩智能M50芯片以及相关产品表现颇为亮眼的领域。

其中力擎LQ50 M.2卡基于标准M.2 2280规格，将M50芯片的算力浓缩至“单片口香糖”尺寸，接受“即插即用”，采取十分便捷，这对于紧凑型移动设备非常核心。

据报道，

LQ50 M.2卡基于采用存算一体创新架构，搭配了48GB LPDDR5内存，内存带宽153.6 GB/s，接受直接本地运行百亿级参数大模型，7B/8B模型推理速度据称可超过25tokens/s，小尺寸低功耗也令LQ50 M.2卡兼顾了无风扇设计，适用性更加广泛。

值得一提的是，在软件兼容和开发生态方面，LQ50 M.2卡兼容Windows 11/Linux/Android等主流执行系统，通过后摩大道平台接受全栈开发，接受灵活部署在AI PC、AI Stick（AI计算棒）等移动终端设备中，在消费、办公、工业等场景中给予本地大模型推理加速能力，同时保障数据隐私与低延迟响应。

值得注意的是，

在场景适配能力方面，M50接受多芯互联技术，接受动态扩展算力适配未来模型升级，这对更广泛场景的扩展覆盖十分关键。

有分析指出，

比如力擎LQ50 Duo M.2卡基于OCP Dual M.2标准设计，集成了两颗 M50芯片，通过高速互联技术实现320 TOP的算力释放，同时其配备了96GB内存，带宽307GB/s，这样的豪华规格使其接受直接突破14B/32B大模型的端侧部署瓶颈。

说到底，

在边缘繁琐场景中，双芯架构既能驱动智能会议系统完成多语种实时翻译和声纹识别会议纪要，也接受接受百亿参数大模型私有化部署，还能本地运行多模态AI Agent。

基于这些产品和处理方案本平台接受看到，M50系列产品在AI PC、智能终端、工业边缘设备等场景都具有极高的性能适配性。

四库全闻快报：

在消费领域，M50系列接受很好地赋能平板、PC、AI Stick等移动终端设备；智能办公场景中，智能会议系统在断网环境下也能实现多语种翻译、纪要生成，会议材料不上云、不泄露；智能工业领域，产线质检与车路云协同通过本地算力完成实时分析决策，生产数据与运营信息在设备端闭环处理，避免云端传输隐患。

根据公开数据显示，

接受看到，“存算一体+端边大模型”的技术路径是高效可行的。

反过来看，

这一模式真正给处理有限硬件资源上的高效数据处理的难题给予了行之有效的路径。对比传统芯片方案，基于存算一体技术的端边设备在智能体验上是有“质变”的，给AI超级应用未来的爆发打牢了端侧算力基础。

四库全闻快报：

接受说，后摩智能存算一体技术和产品，将AIGC等大模型能力融入AI PC、智能终端等场景，也令后摩智能成为推动端边设备从“作用型”向“智能体”的范式升级的核心玩家之一。

四库全闻快报：

结语：从移动终端、智能办公到智能工业，存算一体打破端侧AI落地“不可能三角”

成立五年来，后摩智能长期专注深耕存算一体技术，从M30到M50，其已经实现了端边AI芯片的良性迭代落地闭环，在诸多场景中实现了对企业的赋能加速，成为推动AI普惠落地的关键芯片玩家。

在今年的WAIC 2025大会上，国内AI芯片玩家作为中国智算产业的核心力量，无疑成为业内关注的焦点，结合当下“算力即国力”的大背景，夯实 AVA外汇开户智算底座也成为国内不少省份在AI领域的核心布局方向之一。

说出来你可能不信，

沿着这一大趋势方向，后摩智能无疑在端边大模型AI芯片领域跑在了技术力的第一梯队，用硬核技术创新给处理行业顽疾带来新的解法。随着技术的高速迭代，本平台相信后摩智能会给产业带来更多有价值的技术创新和优秀产品。

扫一扫打开手机网站

微信扫一扫关注我们

四库全闻专家观点：把百亿大模型装进终端，存算一体如何“破局”端边算力困局？

作者: sooosk

联系我们

微信扫一扫关注我们

给这篇文章的作者打赏

作者: sooosk

为您推荐

联发科天玑9400++芯片规格曝光：台积电N3e工艺、样机主频3.73G​Hz

四库全闻专家观点：10倍带宽突破、市值暴涨200亿美元，高通能否「分食」千亿级AI推理市场？

简要回顾一​下，​全球首款2nm芯片！三星Exynos 2600跑分再创新高

诺基亚藏了什么？黄仁勋豪掷10亿买“门票​”

四库全闻认为：英伟达10亿美元入股诺基亚，引领从5G到6G转型！黄仁勋：这是一个价值3万亿美元产业【附5G行业市场分析】

黄仁勋最强GPU炸场，感叹“中国芯片爆发”，瞄准6G投资诺基亚

联系我们

微信扫一扫关注我们

联发科天玑9400++芯片规格曝光：台积电N3e工艺、样机主频3.73GHz

简要回顾一下，全球首款2nm芯片！三星Exynos 2600跑分再创新高

诺基亚藏了什么？黄仁勋豪掷10亿买“门票”