跳到主要内容

边缘与端侧 AI

问题

什么是边缘 AI?如何在移动端和浏览器中运行 AI 模型?

答案

一、边缘 AI 概述

边缘 AI 指在终端设备上直接运行 AI 模型,而非调用云端 API:

对比维度云端推理边缘推理
延迟100ms~2s10~100ms
隐私数据上传到服务器数据不离开设备
成本API 按量计费设备算力免费
离线必须联网可离线运行
模型大小不限受设备限制

二、端侧推理框架

框架平台特点
TensorFlow LiteiOS/AndroidGoogle 生态,量化工具完善
CoreMLiOS/macOSApple 硬件加速,Neural Engine
ONNX Runtime全平台通用格式,支持多后端
llama.cpp桌面/服务端C++ 实现,GGUF 格式,CPU 友好
WebLLM浏览器基于 WebGPU,浏览器内运行 LLM
Transformers.js浏览器/NodeHF 模型在 JS 环境运行

三、端侧 AI 芯片

芯片设备算力
Apple Neural EngineiPhone 15 Pro~35 TOPS
Qualcomm Hexagon NPUAndroid 旗舰~45 TOPS
Google Tensor TPUPixel 手机~10 TOPS
Intel NPU笔记本~10 TOPS

四、模型适配流程

端侧模型选择建议
  • 浏览器:3B 以下模型 + WebGPU,或 Embedding/分类等小模型
  • 移动端:1B~7B 量化模型,Phi-3-mini、Gemma 2B
  • 桌面端:7B~13B GGUF 量化模型,通过 llama.cpp 运行

常见面试问题

Q1: 浏览器中如何运行大模型?

答案

  • 使用 WebGPU API 调用 GPU 算力(WebLLM 基于此实现)
  • 加载 GGUF/ONNX 格式的量化模型(通常 3B 以下)
  • 模型文件缓存在浏览器 Cache Storage 中
  • 限制:显存受限、首次加载慢、不是所有浏览器都支持 WebGPU

Q2: ONNX 格式的优势是什么?

答案

  • 通用中间格式:PyTorch/TF 模型都可导出为 ONNX
  • 跨平台:同一模型可在 CPU/GPU/NPU/浏览器运行
  • 优化:ONNX Runtime 内置图优化和量化工具
  • 生态:支持 C++/Python/JS/C# 等多语言运行时

相关链接