苹果能引领端侧AI年代吗？

09-10 1027阅读 0评论

北京时刻9月10日清晨，苹果正式发布了iPhone 16，这是苹果第一款真实意义上的AI iPhone。Apple Intelligence选用“端侧大模型+云端大模型”的方法，将为用户带来更丰厚的智能体会。而这仅仅是端侧智能的开端，未来咱们能够幻想，一个由大模型带来的移动智能生态正在慢慢翻开。

太长不看版：

1. 技能：端侧模型短期才干有限，端云结合是长时刻状况

手机大模型的瓶颈排序：

○电池容量和发热

○芯片核算速度

○现有架构下，8G+内存是最低要求

○内存读写速度或许需求进一步技能打破

~1B量级模型才干有限，功用提高空间不达观

手机端侧模型有实践价值->~10B模型塞到手机里->估量3~4年

云+端混合将是长时刻干流

○端侧模型+云上模型的合作才干将是核心技能点之一

○从用户价值看，端侧模型并不是必要途径

○端侧模型存在合理性是1)下降推理本钱，2)响应速度更快3）更好维护隐私

2. 产品：短期以小功用为先导，长时刻价值等待开释

当时AI手机以功用探究为主，用户价值有待更多开释；关于硬件，会有清晰的产品价格提高，因而职业会坚决推动

○短期=新功用亮点提高产品价格+FOMO（Fear of Missing Out）

○长时刻=抢夺新的流量进口

LLM是端侧模型要点；多模态生成在端侧的用户价值有限，更大的价值在于多模态了解

硬件粘性和价值>模型品牌吸引力

未来具有用户价值潜力的新领域：AI原生OS

○了解用户+智能唤醒APP（siri晋级）

○直接access APP内的数据和服务，或许绕过APP的UI，直接完结用户指令

○拆解指令，多APP一起完结使命（严峻依靠AI Agent的才干提高）

○（optional）关于常用服务手捏个人APP

引子：

问题1：从用户视点动身，“才智手机”的“价值”是什么？

从“智障”到“智能”

○从“物品”到“辅佐”的改变

是否会有全新的交互方法？什么是最“天然”的交互方法？

○翻阅式->查找式->引荐式->服务式（秘书+陪同）

问题2：关于用户来讲，为什么要在端侧搭载模型？

网络推迟+极点环境：端侧模型有优势，但场景很小，由于大多数日子场景关于大几百毫秒推迟能够承受

数据隐私：端侧模型多了一层关于个人数据的维护

个性化：在本地和云上都能够完结，但本地会更有数据优势

从技能视点来看，端侧或许做到什么？

○~1B等级=“如虎添翼”：P图，谈天，查找支撑……

○~10B等级=作用会更好，也有不确定性；要看哪些是这个等级也能够完结的新才干

○~100B等级+AI Agent=AI原生体会的潜力

问题3：从厂商视点动身，手机端侧模型的“价值”是什么？

带来更多新功用、新体会，提高手机价值

操控云上推理本钱

端云混合形式中，云上模型服务能够另收费

获取新流量进口

一、苹果等手机厂商纷繁推出端侧大模型

上一年以来，各厂商现已推出了多款端侧大模型手机。

参数量级：以1B～3B为主，如Google Gemini 3.25B等

是否自研：Google、苹果、华为等厂商推出了全自研模型

价格区间：国内价格4000元+，即干流旗舰机价格

总商场份额：2023年该细分商场出货量约2700万台，占国内安卓手机出货量约12%（苹果手机23年暂未布置端侧大模型）

苹果的新款iphone16搭载了更快的CPU、GPU，且在能耗上有更好的体现。以GPU为例，A18芯片是四年前iphone 12的A14芯片速度的2倍。

比较上一年A16芯片，在速度提高40%的一起，功耗下降了30%，为大模型的本地运算供给了更好的电源确保。

运用端侧大模型，iphone16不只能够生成、润饰文字、总结文本、回复邮件等，还能够生成表情符号，查找相片、视频等，并履行多种使命。

发布会中最为冷艳的功用之一，是视觉智能。比方，当你看到一家餐厅，你能够经过按压相机操控按钮拍下餐厅，然后就能经过Apple Intelligence获得该餐厅的营业时刻以及点评，并检查菜单或预定餐厅。

该功用也支撑和第三方APP联动，比方，看到你喜爱的自行车，只需点击一下，即可快速Google到相似的自行车并购买。

除了苹果，上一年以来，各大手机厂商现已连续发布了其端侧大模型的产品：

二、怎么点评端侧模型的成熟度？

1. 参数规划：“智商”水平至关重要，端侧模型负重致远

为什么“智商”重要？“如虎添翼”vs“底层革新”。

大参数+量化vs小参数：大参数＋量化作用上优于小参数。

当时量化已到极限：BF16量化根本安全；INT4量化是当时大多手机运用的方法，但经常出现过拟合和安稳性问题；当时在探究INT8量化的折衷方案。

FP32精度下，1B模型占用~4GB内存，而推理运转需求更多内存，这对现在8～16GB的手机干流内存是有应战的

Int4量化后，作用衰减~10%，占用内存削减~80%，一起推理速度提高~50%；但量化测验数据有overfitting的嫌疑

现在高通、联发科现已支撑INT4，Google现已支撑INT8，实践中为确保作用还要运用混合精度，进一步提高空间有限

~10B模型是当时模型才干分水岭。

Phi3-3.8B等模型打榜成果还能够，但实测过拟合状况较为严峻

~1B量级模型在了解才干、安稳性上都和7-13B的模型有显着距离

但并不能确保~10B模型在未来足以进化出接近人的才智水平

提高参数规划的瓶颈包含核算、内存读写和能耗，其间能耗最难打破。

芯片核算速度：手机算力30～50TOPS，PC是手机的20～40倍

内存读写速度：手机带宽40～80GB/S，PC是手机的10～20倍

内存容量：手机内存已到16GB乃至更高，与PC能够比较；未来还有扩展的空间

能耗：发热&续航：对标游戏运转，续航仅有3～4小时，且手机显着发热

2. 推理速度：杰出用户体会的基准是20token/s，现在刚刚合格

现状推理速度：最高达20token/s，刚刚到达可用门槛，仅有PC端的20％，距离显着。

miniCPM-2B Int4量化在部分干流机型上测验的推理吞吐速度，除iPhone外均在7token/s以下

当时在英伟达RTX4090运转Llama 7B 4bit的推理吞吐速度为100tokens/s以上

最新一代的高通或联发科芯片在芯片厂商的测验中Llama 7B INT4量化的推理速度能到达20token/s

推理加快技能+预判

现在没有清晰的SOC AI推理加快定量依据，咱们选用NVIDIA数据中心B200（vs H200）作为参照，以为每代更新能够有50％+的功耗功率提高和10%+的推理速度提高

推理运算加快：Google TPU的MXU（Matrix multiplication unit）Nvidia的Tensor Cores针对神经网络中很多的张量核算的加快；联发科针对transformer架构的Softmax+LayerNorm算子的加快；高通骁龙Gen3的微型区块推理单元，将大模型分解为能够独立履行的部分。

内存读写速度优化：Google TPU运用大规划片上内存，削减数据在HBM（High Bandwidth Memory）和VEM（Vector Engine Memory）之间传输的次数；苹果探究经过窗口化（Windowing）和队伍打包（Row-Column Bundling），在闪存中存储模型参数，并在推理过程中按需将这些参数加载到DRAM中。