现在大家用 AI 越来越多，但云模型总有烦恼：要联网、有广告、收费限流、隐私不安全。

其实完全可以在手机本地跑大模型，不用电脑、不用显卡、零代码、断网也能用。

本篇文章以MNNChat + Qwen3.5为例，全程对照图片操作，手把手教你在手机上部署属于自己的本地大模型。

一、本文能实现什么？

仅用手机，不需要电脑

模型完全本地运行，不上云、不泄露数据

支持离线使用，没网也能对话

免费、无次数限制、无内购
轻量运行，普通手机流畅使用

二、准备条件

安卓：Android 10 及以上；iPhone：iOS 15 及以上

预留存储空间：1GB 左右

全程无需登录、无需验证码

三、步骤 1：手机安装 MNNChat（iPhone【类似，本文以 Android 讲解】）

浏览器搜索：MNN 的官网（https://github.com/alibaba/MNN）,进入官网找到下载链接

下载安卓 APK 安装包
安装时允许「安装未知来源应用」
打开即使用，无需登录

四、步骤 2：下载 Qwen3.5 轻量模型

打开 MNNChat 后，你会看到模型列表页面：

在模型市场中找到：Qwen3.5-0.8B-MNN，点击下载

等待下载完成（约 500MB）
自动加载，无需手动配置
说明：该模型参数小、速度快，基本不挑机型。

五、步骤 3：启动模型，开始本地对话

模型下载完成后，在“我的模型”页面，点击模型
等待 5–10 秒加载完毕
进入聊天界面，直接输入问题即可使用

支持：问答、文案、总结、翻译、思路生成等日常 AI 功能。

六、步骤 4：测试使用测试

关闭 WiFi、移动数据
直接继续对话
完全正常使用，不依赖网络

这是本地 AI 与云端 AI 最核心的区别。

思考模式下的问题，可以看到速度还是很快，具体如下图所示：

核心指标解读：大模型生成文本的过程，本质分为两个完全不同的计算阶段，这两个指标分别对应这两个阶段的性能：

1. Prefill（预填充阶段）

Prefill: 0.15s, 24 tokens, 156.52 tokens/s

阶段作用：处理你输入的用户提问 / 上下文，把输入的文字转换成模型能理解的向量，是生成回答的「准备工作」。

指标拆解：

• 0.15s：处理输入耗时 0.15 秒

• 24 tokens：本次输入的总 token 数（约等于 24 个汉字 / 字符）

• 156.52 tokens/s：预填充速度，即每秒处理 156.52 个输入 token

通俗理解：你发一句 24 字的提问，模型用 0.15 秒就 “读完并理解” 了，速度非常快。

2. Decode（解码 / 生成阶段）

Decode: 41.12s, 1781 tokens, 43.31 tokens/s

阶段作用：模型逐字生成回答内容，是我们肉眼看到的 “打字输出” 的过程，也是最耗时的环节。

指标拆解：

• 41.12s：生成完整回答耗时 41.12 秒

• 1781 tokens：本次生成的总 token 数（约等于 1781 个汉字 / 字符，对应图中一整篇数字人民币的长文）

• 43.31 tokens/s：生成速度，即每秒输出 43.31 个 token

通俗理解：模型用 41 秒生成了近 1800 字的长文，平均每秒输出约 43 字，在手机端属于非常流畅的水平。

七、手机性能测试

MNNChat 工具自带的大模型基准性能测试报告，完整展示了 Qwen3.5-0.8B 轻量模型在手机（X200 Pro）上的运行表现

八、常见小问题

卡顿？关闭其他后台即可
加载慢？属于正常现象，手机性能不同略有差异
隐私安全？所有计算在本地，不会上传任何数据

九、总结

MNNChat 是目前手机本地运行大模型最简单的工具之一，搭配 Qwen3.5 轻量模型，实现：免费 + 离线 + 本地 + 隐私安全 + 零代码。不需要电脑、不需要显卡、不需要技术基础，普通用户也能轻松拥有自己的私人本地 AI。