跳到主要内容

边缘与端侧 AI

问题

什么是边缘 AI？如何在移动端和浏览器中运行 AI 模型？

答案

一、边缘 AI 概述

边缘 AI 指在终端设备上直接运行 AI 模型，而非调用云端 API：

对比维度	云端推理	边缘推理
延迟	100ms~2s	10~100ms
隐私	数据上传到服务器	数据不离开设备
成本	API 按量计费	设备算力免费
离线	必须联网	可离线运行
模型大小	不限	受设备限制

二、端侧推理框架

框架	平台	特点
TensorFlow Lite	iOS/Android	Google 生态，量化工具完善
CoreML	iOS/macOS	Apple 硬件加速，Neural Engine
ONNX Runtime	全平台	通用格式，支持多后端
llama.cpp	桌面/服务端	C++ 实现，GGUF 格式，CPU 友好
WebLLM	浏览器	基于 WebGPU，浏览器内运行 LLM
Transformers.js	浏览器/Node	HF 模型在 JS 环境运行

三、端侧 AI 芯片

芯片	设备	算力
Apple Neural Engine	iPhone 15 Pro	~35 TOPS
Qualcomm Hexagon NPU	Android 旗舰	~45 TOPS
Google Tensor TPU	Pixel 手机	~10 TOPS
Intel NPU	笔记本	~10 TOPS

四、模型适配流程

端侧模型选择建议

浏览器：3B 以下模型 + WebGPU，或 Embedding/分类等小模型
移动端：1B~7B 量化模型，Phi-3-mini、Gemma 2B
桌面端：7B~13B GGUF 量化模型，通过 llama.cpp 运行

常见面试问题

Q1: 浏览器中如何运行大模型？

答案：

使用 WebGPU API 调用 GPU 算力（WebLLM 基于此实现）
加载 GGUF/ONNX 格式的量化模型（通常 3B 以下）
模型文件缓存在浏览器 Cache Storage 中
限制：显存受限、首次加载慢、不是所有浏览器都支持 WebGPU

Q2: ONNX 格式的优势是什么？

答案：

通用中间格式：PyTorch/TF 模型都可导出为 ONNX
跨平台：同一模型可在 CPU/GPU/NPU/浏览器运行
优化：ONNX Runtime 内置图优化和量化工具
生态：支持 C++/Python/JS/C# 等多语言运行时

相关链接

问题
答案
常见面试问题
- Q1: 浏览器中如何运行大模型？
- Q2: ONNX 格式的优势是什么？
相关链接