苹果WWDC发布Core AI框架：端侧大模型运行门槛骤降，最高支持700亿参数

导读

苹果在2026年WWDC大会上正式推出了Core AI框架，这是Core ML的官方继任者，旨在让开发者能够在iPhone、iPad、Mac以及Apple Vision Pro等设备上完全本地运行大语言模型和生成式AI。该框架仅支持Apple Silicon芯片，强调用户数据隐私、零服务器依赖，且不会产生按词元计费的云端开销。

苹果WWDC发布Core AI框架：端侧大模型运行门槛骤降，最高支持700亿参数配图1

统一架构与硬件访问

Core AI提供了一个统一的架构，可部署小至30亿参数的视觉模型，大至最高700亿参数的推理模型。其关键能力包括：通过单个API在CPU、GPU和神经网络引擎上无缝运行工作负载；内存安全的Swift API实现零拷贝数据路径和对推理内存的精细控制；以及提前（AOT）编译技术，将运算预处理工作转移至设备外部，实现近乎瞬时的模型加载速度。

模型转换与优化

开发者可以使用Core AI PyTorch将PyTorch模型转换为Core AI模型。最简单的方法是将PyTorch导出为torch.export.ExportedProgram，然后通过TorchConverter().add_exported_program(ep).to_coreai()转换为Core AI的AIProgram。此外，开发者还可以利用库提供的内置复合算子（如注意力机制、RoPE嵌入、RMSNorm和gather-matmul）基于现有PyTorch模型构建新模型，注册自定义降阶函数以映射新算子到Core AI IR，甚至创建自定义Metal内核实现更底层优化。模型压缩是转换过程中的关键步骤，应用了量化和调色板化等优化技术，这些技术默认与Core AI运行时的执行模式对齐，旨在减少模型的内存占用、降低推理延迟和功耗。

运行时特性与缓存机制

运行AIModel时，模型会自动特化当前硬件和操作系统版本，这一过程在模型首次加载到缓存时完成，因此首次使用可能耗时稍长。开发者可以通过自定义SpecializationOptions、访问AICacheModel来检查模型是否可用或删除缓存，甚至可以在应用组之间共享模型缓存。

苹果AI生态三足鼎立

随着Core AI的推出，苹果在操作系统上提供了三种ML/AI运行方式：Core ML、Core AI和MLX Swift。根据Hacker News上的开发者讨论，苹果的建议是：Core ML用于“经典的非神经网络ML”，如决策树或表格特征工程；Core AI用于神经网络和Transformer；MLX用于处理自定义模型权重，尽管可能性能较低。社区反馈指出，虽然Core AI“让集成高性能LLM变得更加容易”，但其长期价值将取决于“官方Core AI/社区的未来发展”。对于开发者而言，Core AI的发布意味着端侧AI应用的门槛显著降低。从行业视角看，这一框架与苹果自研芯片深度绑定，进一步强化了其硬件-软件生态的闭环优势。AI大狗（AIdadog.com）作为AI导航与资讯平台观察到，此类端侧推理框架的成熟，将推动更多隐私敏感型AI应用落地，例如医疗、金融等领域的本地化智能助手。开发者可借助Core AI在苹果生态中快速构建自定义智能功能，而无需依赖云端算力。

文章来源：https://aidadog.com/news/57

苹果WWDC发布Core AI框架：端侧大模型运行门槛骤降，最高支持700亿参数

导读

统一架构与硬件访问

模型转换与优化

运行时特性与缓存机制

苹果AI生态三足鼎立

郭明錤爆料：iOS 27深度整合AI，低阶iPhone DRAM将升级至9GB

算力告急！谷歌限制Meta使用其Gemini模型，AI军备竞赛白热化

继续阅读

章节导航