边缘与端侧 AI
问题
什么是边缘 AI?如何在移动端和浏览器中运行 AI 模型?
答案
一、边缘 AI 概述
边缘 AI 指在终端设备上直接运行 AI 模型,而非调用云端 API:
| 对比维度 | 云端推理 | 边缘推理 |
|---|---|---|
| 延迟 | 100ms~2s | 10~100ms |
| 隐私 | 数据上传到服务器 | 数据不离开设备 |
| 成本 | API 按量计费 | 设备算力免费 |
| 离线 | 必须联网 | 可离线运行 |
| 模型大小 | 不限 | 受设备限制 |
二、端侧推理框架
| 框架 | 平台 | 特点 |
|---|---|---|
| TensorFlow Lite | iOS/Android | Google 生态,量化工具完善 |
| CoreML | iOS/macOS | Apple 硬件加速,Neural Engine |
| ONNX Runtime | 全平台 | 通用格式,支持多后端 |
| llama.cpp | 桌面/服务端 | C++ 实现,GGUF 格式,CPU 友好 |
| WebLLM | 浏览器 | 基于 WebGPU,浏览器内运行 LLM |
| Transformers.js | 浏览器/Node | HF 模型在 JS 环境运行 |
三、端侧 AI 芯片
| 芯片 | 设备 | 算力 |
|---|---|---|
| Apple Neural Engine | iPhone 15 Pro | ~35 TOPS |
| Qualcomm Hexagon NPU | Android 旗舰 | ~45 TOPS |
| Google Tensor TPU | Pixel 手机 | ~10 TOPS |
| Intel NPU | 笔记本 | ~10 TOPS |
四、模型适配流程
端侧模型选择建议
- 浏览器:3B 以下模型 + WebGPU,或 Embedding/分类等小模型
- 移动端:1B~7B 量化模型,Phi-3-mini、Gemma 2B
- 桌面端:7B~13B GGUF 量化模型,通过 llama.cpp 运行
常见面试问题
Q1: 浏览器中如何运行大模型?
答案:
- 使用 WebGPU API 调用 GPU 算力(WebLLM 基于此实现)
- 加载 GGUF/ONNX 格式的量化模型(通常 3B 以下)
- 模型文件缓存在浏览器 Cache Storage 中
- 限制:显存受限、首次加载慢、不是所有浏览器都支持 WebGPU
Q2: ONNX 格式的优势是什么?
答案:
- 通用中间格式:PyTorch/TF 模型都可导出为 ONNX
- 跨平台:同一模型可在 CPU/GPU/NPU/浏览器运行
- 优化:ONNX Runtime 内置图优化和量化工具
- 生态:支持 C++/Python/JS/C# 等多语言运行时