苹果能引领端侧AI年代吗?

09-10 1027阅读 0评论

北京时刻9月10日清晨,苹果正式发布了iPhone 16,这是苹果第一款真实意义上的AI iPhone。Apple Intelligence选用“端侧大模型+云端大模型”的方法,将为用户带来更丰厚的智能体会。而这仅仅是端侧智能的开端,未来咱们能够幻想,一个由大模型带来的移动智能生态正在慢慢翻开。



太长不看版:


1. 技能:端侧模型短期才干有限,端云结合是长时刻状况


  • 手机大模型的瓶颈排序:


○电池容量和发热


○芯片核算速度


○现有架构下,8G+内存是最低要求


○内存读写速度或许需求进一步技能打破


  • ~1B量级模型才干有限,功用提高空间不达观


  • 手机端侧模型有实践价值->~10B模型塞到手机里->估量3~4年


  • 云+端混合将是长时刻干流


○端侧模型+云上模型的合作才干将是核心技能点之一


○从用户价值看,端侧模型并不是必要途径


○端侧模型存在合理性是1)下降推理本钱,2)响应速度更快3)更好维护隐私


2. 产品:短期以小功用为先导,长时刻价值等待开释


  • 当时AI手机以功用探究为主,用户价值有待更多开释;关于硬件,会有清晰的产品价格提高,因而职业会坚决推动


○短期=新功用亮点提高产品价格+FOMO(Fear of Missing Out)


○长时刻=抢夺新的流量进口


  • LLM是端侧模型要点;多模态生成在端侧的用户价值有限,更大的价值在于多模态了解


  • 硬件粘性和价值>模型品牌吸引力


  • 未来具有用户价值潜力的新领域:AI原生OS


○了解用户+智能唤醒APP(siri晋级)


○直接access APP内的数据和服务,或许绕过APP的UI,直接完结用户指令


○拆解指令,多APP一起完结使命(严峻依靠AI Agent的才干提高)


(optional)关于常用服务手捏个人APP


引子:


问题1:从用户视点动身,“才智手机”的“价值”是什么?


  • 从“智障”到“智能”


○从“物品”到“辅佐”的改变


  • 是否会有全新的交互方法?什么是最“天然”的交互方法?


○翻阅式->查找式->引荐式->服务式(秘书+陪同)


问题2:关于用户来讲,为什么要在端侧搭载模型?


  • 网络推迟+极点环境:端侧模型有优势,但场景很小,由于大多数日子场景关于大几百毫秒推迟能够承受


  • 数据隐私:端侧模型多了一层关于个人数据的维护


  • 个性化:在本地和云上都能够完结,但本地会更有数据优势


  • 从技能视点来看,端侧或许做到什么?


○~1B等级=“如虎添翼”:P图,谈天,查找支撑……


○~10B等级=作用会更好,也有不确定性;要看哪些是这个等级也能够完结的新才干


○~100B等级+AI Agent=AI原生体会的潜力


问题3:从厂商视点动身,手机端侧模型的“价值”是什么?


  • 带来更多新功用、新体会,提高手机价值


  • 操控云上推理本钱


  • 端云混合形式中,云上模型服务能够另收费


  • 获取新流量进口


一、苹果等手机厂商纷繁推出端侧大模型


上一年以来,各厂商现已推出了多款端侧大模型手机。


  • 参数量级:以1B~3B为主,如Google Gemini 3.25B等


  • 是否自研:Google、苹果、华为等厂商推出了全自研模型


  • 价格区间:国内价格4000元+,即干流旗舰机价格


  • 总商场份额:2023年该细分商场出货量约2700万台,占国内安卓手机出货量约12%(苹果手机23年暂未布置端侧大模型)


苹果的新款iphone16搭载了更快的CPU、GPU,且在能耗上有更好的体现。以GPU为例,A18芯片是四年前iphone 12的A14芯片速度的2倍。



比较上一年A16芯片,在速度提高40%的一起,功耗下降了30%,为大模型的本地运算供给了更好的电源确保。



运用端侧大模型,iphone16不只能够生成、润饰文字、总结文本、回复邮件等,还能够生成表情符号,查找相片、视频等,并履行多种使命。



发布会中最为冷艳的功用之一,是视觉智能。比方,当你看到一家餐厅,你能够经过按压相机操控按钮拍下餐厅,然后就能经过Apple Intelligence获得该餐厅的营业时刻以及点评,并检查菜单或预定餐厅。



该功用也支撑和第三方APP联动,比方,看到你喜爱的自行车,只需点击一下,即可快速Google到相似的自行车并购买。



除了苹果,上一年以来,各大手机厂商现已连续发布了其端侧大模型的产品:



二、怎么点评端侧模型的成熟度?


1. 参数规划:“智商”水平至关重要,端侧模型负重致远


为什么“智商”重要?“如虎添翼”vs“底层革新”。


大参数+量化vs小参数:大参数+量化作用上优于小参数。


当时量化已到极限:BF16量化根本安全;INT4量化是当时大多手机运用的方法,但经常出现过拟合和安稳性问题;当时在探究INT8量化的折衷方案。


  • FP32精度下,1B模型占用~4GB内存,而推理运转需求更多内存,这对现在8~16GB的手机干流内存是有应战的


  • Int4量化后,作用衰减~10%,占用内存削减~80%,一起推理速度提高~50%;但量化测验数据有overfitting的嫌疑


  • 现在高通、联发科现已支撑INT4,Google现已支撑INT8,实践中为确保作用还要运用混合精度,进一步提高空间有限


~10B模型是当时模型才干分水岭。


  • Phi3-3.8B等模型打榜成果还能够,但实测过拟合状况较为严峻


  • ~1B量级模型在了解才干、安稳性上都和7-13B的模型有显着距离


  • 但并不能确保~10B模型在未来足以进化出接近人的才智水平


提高参数规划的瓶颈包含核算、内存读写和能耗,其间能耗最难打破。


  • 芯片核算速度:手机算力30~50TOPS,PC是手机的20~40倍


  • 内存读写速度:手机带宽40~80GB/S,PC是手机的10~20倍


  • 内存容量:手机内存已到16GB乃至更高,与PC能够比较;未来还有扩展的空间


  • 能耗:发热&续航:对标游戏运转,续航仅有3~4小时,且手机显着发热



2. 推理速度:杰出用户体会的基准是20token/s,现在刚刚合格


现状推理速度:最高达20token/s,刚刚到达可用门槛,仅有PC端的20%,距离显着。


  • miniCPM-2B Int4量化在部分干流机型上测验的推理吞吐速度,除iPhone外均在7token/s以下



  • 当时在英伟达RTX4090运转Llama 7B 4bit的推理吞吐速度为100tokens/s以上


  • 最新一代的高通或联发科芯片在芯片厂商的测验中Llama 7B INT4量化的推理速度能到达20token/s


推理加快技能+预判


  • 现在没有清晰的SOC AI推理加快定量依据,咱们选用NVIDIA数据中心B200(vs H200)作为参照,以为每代更新能够有50%+的功耗功率提高和10%+的推理速度提高



  • 推理运算加快:Google TPU的MXU(Matrix multiplication unit)Nvidia的Tensor Cores针对神经网络中很多的张量核算的加快;联发科针对transformer架构的Softmax+LayerNorm算子的加快;高通骁龙Gen3的微型区块推理单元,将大模型分解为能够独立履行的部分。


  • 内存读写速度优化:Google TPU运用大规划片上内存,削减数据在HBM(High Bandwidth Memory)和VEM(Vector Engine Memory)之间传输的次数;苹果探究经过窗口化(Windowing)和队伍打包(Row-Column Bundling),在闪存中存储模型参数,并在推理过程中按需将这些参数加载到DRAM中。


  • 其他技能发展:联发科NeuroPilot Fusion根据低秩自适应(LoRA)交融技能,根据一个根底大模型,经过云端练习,在端侧完结多个功用的交融,然后赋予根底大模型更全面、更丰厚的生成式AI使用才干。


AI agent的推理速度要求:50~100 tokens/s


  • 现在国内商用LLM API输入处理速度可达数千tokens/s,生成速度平均在30-50 tokens/s,最快能够到达70 tokens/s(如abab-6.5s和智谱GLM3.5-turbo)


  • 用户体会视点,假定一次Agent操作要调用5次大模型,则需求速度到达100 tokens/s。


3. 能耗:发热&续航体现短期不会大幅优化,是手机端侧大模型的首要瓶颈


现状:现在没有大规划测验端侧模型推理的功耗;以游戏运转为benchmark,功率大约在4~7W,续航时刻仅为3~4小时。


崩坏:星穹铁道最高画质各机型实测成果(by小白测评数据库,续航时刻根据规范输出电压3.7V预算):



电池容量增加剖析猜测:未来每年增加不逾越5~10%


以iPhone和三星galaxy为例,近10年平均每年增加5~6%,尤其是21年以来,手机尺度不再增大后电池容量也几乎没有增加


注:电池容量单位mAh,每年取该系列电池容量最高的机型数据


限制手机电池电量增加的要素包含:


  • 电池体积:提高电池体积会影响产品分量和厚度


  • 电池资料进化:固态电池资料和半固态资料,现在仍在科学研究阶段,暂未看到大规划商用


  • 相同电池资料下完结能量密度提高:继续有小幅改进,但不显着


4. 搭载~10B模型的时刻估计=3~4年


  • 推理速度提高:每1~2年(每代)10%


  • 单位功耗提高:每1~2年(每代)50%


  • 电池容量提高:每年5~10%



3-4年后:


  • 推理速度x2是最低要求,或许需求x3-5倍速度才干支撑简略Agent


  • 7B模型才干不一定能够支撑Agent,有或许需求13B-30B规划


  • 算力做到x16(700TOPS)有很大不确定性;x8乃至x4是大概率事情;在这种状况结合推理加快x1.5,极限能够支撑模型吞吐速度要求。


  • 因而7-10B模型大概是可支撑的极限,很多逾越10B会比较困难


  • 在这些极限假定下,续航时刻能够满意8-10h要求,并缓解发热问题


3年内看不到纯端侧模型驱动的AI原生OS,杂乱使命都需求云上完结。


5. 端侧多模态大模型:端侧的价值首要在多模态了解,而不在多模态生成


  • 多模态生成不在端侧


价值有限:端侧多模态能完结的生成场景(例如修图),已有CV技能也能处理;新的生成功用(例如AI扩图)需求上云


吃算力:多模态模型的推理,占用的算力或许会数倍于大言语模型


发表评论

快捷回复: 表情:
评论列表 (暂无评论,1027人围观)

还没有评论,来说两句吧...

目录[+]