微信
二维码
2025年12月20日 jskeusjl123 股票配资交流 3 0

  AI手机的技术路线已形成鲜明分野 。

  12月19日 ,字节跳动在联合中兴努比亚推出“豆包手机 ”nubia M153后再传扩围动作——正与vivo 、联想 、传音等厂商推进AI手机合作 。

  以“豆包手机 ”为代表的阵营 ,凭借读屏、模拟点击等GUI(图形用户界面)技术,试图让AI助手突破应用壁垒完成复杂任务,却引发主流App集体“自卫”。

  反观海外 ,苹果、谷歌主导的阵营,则坚持API(应用程序接口)标准化路线,虽稳健却进展迟缓。

  两种技术路线的博弈 ,是移动互联网十余年商业逻辑与利益格局的剧烈碰撞 。流量入口迁移的序幕已然拉开,手机厂商 、应用开发者与用户的关系正被深度改写。

  GUI接管屏幕:豆包撕开系统级权限口子,智谱开源补位

  这场路线之争的导火索 ,是12月初字节跳动联合中兴努比亚发布的“豆包手机”nubia M153。这款手机凭借跨应用AI操作能力搅动行业:用户只需发出语音指令,AI便能完成订外卖、发微信、比价购物等一系列跨App任务,其技术核心是GUI(图形用户界面)多模态大模型与系统级权限的深度绑定 。

豆包手机图片来源:中兴商城

  前小米OS AI产品专家 、现出海AI应用公司ExcelMaster.ai创始人张和告诉《每日经济新闻》记者(以下称每经记者) ,通过与手机厂商(如中兴)达成操作系统层面的深度合作,让AI助手获得凌驾于所有App之上的系统级操作权限。其技术逻辑是模拟人类的点击、滑动等操作,贯通全手机应用 ,实现跨App的任务执行。

  但AI助手直接“接管 ”屏幕 ,很快引发主流App的“自卫反击”:微信提示环境异常甚至封号,淘宝频繁弹出人机验证,各大银行App则直接拒绝在录屏状态下运行 。

  12月9日 ,智谱AI宣布开源自主任务模型AutoGLM,为GUI路线提供了另一种可能性。

  AutoGLM同样基于GUI范式,通过视觉大模型实现手机自动化操作 ,但此前因未获厂商系统级权限支持,只能依赖安卓无障碍模式运行。

  张和指出,无障碍模式存在明显短板:“AI操作时会完全占据前台窗口 ,比如操作淘宝一分钟内,用户无法刷微博、聊天 。”但他强调,豆包与智谱AutoGLM本质同源 ,都是大模型厂商视角的探索,仅开源与否的差异。“只要手机厂商配合,智谱AutoGLM也能实现后台静默操作 ,核心症结始终是系统权限。 ”

  获得中兴努比亚手机的系统级权限 ,是豆包率先做出AI手机的核心原因之一 。

  但张和指出,这类合作的主动权掌握在手机厂商手里——并非厂商不具备同等技术研发能力,而是“要不要做(AI手机)”的战略考量 。

  厂商的顾虑主要有两点:首先是用户对隐私泄露的普遍担忧 ,贸然开放权限可能严重影响手机品牌的用户口碑和形象;其次,手机厂商希望将系统级AI入口牢牢掌握在自己手中,而非沦为AI公司的技术通道。

  “这也解释了为何豆包的首个合作伙伴是中兴努比亚 ,而非头部厂商。”张和补充道 。

  苹果 、谷歌“慢半拍 ”:API路线的保守布局

  豆包手机的出现,也引发了全球范围内关于AI手机两条技术路线——GUI范式与API(应用程序接口)范式——的对比和讨论。

  豆包和智谱的GUI,如同一个“AI保姆” ,它像人一样看着手机屏幕,帮用户操作手机。苹果和谷歌的API路线,则像给App们发了一套“手册” ,让它们自己把功能开放出来给系统调用 。

  两者的优劣对比十分鲜明:GUI不依赖App开发者配合,通过视觉大模型“读取 ”屏幕、模拟人类点击实现操作,优点是通用性强 ,理论上人能使用的App它都能驾驭;但缺点同样突出 ,一是隐私保护压力大,二是效率较低,需逐步骤操作且易出错。

  以苹果Apple Intelligence为代表的API范式 ,不是通过模拟,而是构建底层框架与标准化接口,让AI通过规范“调用能力”完成任务。这种模式的优点是稳定、保障隐私且效率高 ,缺点则是需要App开发者主动配合,生态构建周期更长 。

iPhone 17搭载Apple Intelligence 图片来源:苹果官网

  张和评价苹果是“最保守的大玩家”。

  2022年,苹果推出Apps Intent框架 ,鼓励开发者向系统声明功能供Siri调用,但坚决不开放读屏绕开应用的能力;即便未落地的“屏幕感知 ”功能,也选择通过API向Siri提供屏幕内容 ,而非直接操控界面。

  当前,苹果Apple Intelligence集成了OpenAI的ChatGPT 。而据媒体报道,苹果正计划采用谷歌的Gemini模型 ,为Siri语音助手升级提供技术支撑。苹果希望将该技术作为临时解决方案 ,直到自家模型足够强大。

  谷歌则走端云协同路线,且优先布局电脑端 。旗下Gemini大模型具备强大端云协同能力,但手机端未采用GUI多模态操作;推出的AppFunctions API ,旨在解决生态内的碎片化问题,实现系统对应用能力的统一发现与索引 。

  谷歌和苹果均倾向于推动应用开发者主动接入标准化接口,实现AI助手跨应用协作。

  张和透露 ,目前两家公司尚未在手机上推出GUI多模态操作相关功能,仍处于技术储备阶段。“谷歌一方面需要协调安卓生态的手机厂商,另一方面也在观望市场反馈和技术成熟度 。 ”

  AI生态洗牌:手机厂商 、超级App与长尾应用的利益重构

  市场调查机构Canalys报告显示 ,得益于芯片技术的快速发展和消费者对AI功能日益增长的需求,全球AI手机出货占比将从2024年的16%升至2028年的54%。该机构预计,2023年至2028年的年复合增长率将达到63% ,三星和苹果等主要玩家将推动这一增长。

  技术路线的抉择,最终将指向移动互联网利益格局的深度重构 。

  “靠AI助手去购物,相当于直接介入交易 ,互联网大厂自然担心商业模式受影响。”张和点出了超级App集体“自卫”的核心焦虑。

  API类似手机厂商向各家互联网大厂商议 ,让后者开发接入手机智能助手的API接口,在限定范围内向AI开放部分功能 。这一模式下,主动权掌握在互联网大厂手中 ,是否开放API接口、对谁开放、开放多少功能,都是未来提供议价权的筹码。

  而GUI Agent可以通过“看屏幕 、点按钮 ”的方式来操作App,相当于绕过了App对AI许可授权的过程。

  更关键的是 ,GUI Agent将用户操作截留在了手机系统层面:用户无需打开App,就能使用其核心功能 。这意味着,App上的广告投放将失去核心价值——而广告收入正是互联网行业的重要营收来源。

  张和认为 ,未来AI手机的生态将呈现“分层治理”格局,不同体量玩家命运迥异。

  对于微信 、淘宝等超级App而言,短期可以通过技术手段抵制外部AI读屏 ,保护商业数据与用户隐私 。长期最优解是自研AI Agent,形成Agent to Agent(A2A)协作模式:系统级AI将用户意图传递给应用Agent,后者在权限内完成操作 。这种模式既保护超级App“领地” ,又能融入AI手机生态。

  对于数以百万计的中长尾App来说 ,处境则将完全不同。

  张和认为,长尾App因缺乏自研Agent的技术与商业话语权,大概率将“被系统级AI直接控制 ” 。对它们而言 ,与其投入资源拉新获客,不如接受系统级AI操作,换取新生态的流量分发。手机厂商或会制定标准化利益分配条款 ,让长尾应用“搭上生态红利”。

  “这就像自动驾驶,是不可逆转的历史趋势 。”张和总结道。以用户需求为核心的变革,将推动生态从“流量争夺 ”走向“价值共创” ,最终形成手机厂商主导,超级App、长尾应用和大模型厂商各司其职的全新格局。

(文章来源:每日经济新闻)

你可能想看:

评论

精彩评论