MBE 云端部署方案

版本: v1.0
日期: 2026-01-21
适用场景: 从测试到千万级用户的完整部署方案

一、技术栈分析

1.1 组件清单

组件	技术	资源需求	说明
API 服务	FastAPI + Uvicorn	CPU	主服务
MCP 客户端	WebSocket	CPU	小智设备连接
数据库	PostgreSQL + pgvector	CPU + SSD	向量搜索
缓存	Redis	内存	配额/会话
AI 模型	TITANS + HOPE + MIRAS	GPU	核心能力
向量索引	FAISS	CPU/GPU	知识检索
外部 API	DeepSeek	网络	LLM 调用

1.2 资源需求估算

负载	并发用户	CPU	内存	GPU	带宽
轻量	<100	4核	8GB	4GB VRAM	10Mbps
中等	100-1000	8核	16GB	8GB VRAM	50Mbps
高负载	1000-10000	16核	32GB	16GB VRAM	100Mbps
超高负载	10000+	集群	集群	多GPU	200Mbps+

二、部署架构设计

2.1 单机架构（用户 <10万）

                         ┌──────────────────────┐
                         │    Nginx/SLB         │
                         │   (反向代理+SSL)      │
                         └──────────┬───────────┘
                                    │
                         ┌──────────┴───────────┐
                         │                      │
                         │   云服务器 (GPU)     │
                         │                      │
                         │  ┌────────────────┐  │
                         │  │  MBE API       │  │
                         │  │  (FastAPI)     │  │
                         │  └───────┬────────┘  │
                         │          │           │
                         │  ┌───────┴────────┐  │
                         │  │  MCP Client    │  │
                         │  │  (WebSocket)   │  │
                         │  └────────────────┘  │
                         │                      │
                         │  ┌────────────────┐  │
                         │  │ TITANS+HOPE    │  │
                         │  │ (GPU 模型)     │  │
                         │  └────────────────┘  │
                         │                      │
                         │  ┌────────────────┐  │
                         │  │ PostgreSQL     │  │
                         │  │ + Redis        │  │
                         │  └────────────────┘  │
                         │                      │
                         └──────────────────────┘
                                    │
                         ┌──────────┴───────────┐
                         │   DeepSeek API       │
                         │   (外部 LLM)         │
                         └──────────────────────┘

2.2 分布式架构（用户 10万-1000万）

                              ┌─────────────────┐
                              │   CDN (可选)     │
                              └────────┬────────┘
                                       │
                              ┌────────┴────────┐
                              │   负载均衡 SLB   │
                              └────────┬────────┘
                                       │
            ┌──────────────────────────┼──────────────────────────┐
            │                          │                          │
     ┌──────┴──────┐           ┌───────┴──────┐          ┌───────┴──────┐
     │ API Server 1│           │ API Server 2 │          │ API Server N │
     │   (CPU)     │           │    (CPU)     │          │    (CPU)     │
     └──────┬──────┘           └───────┬──────┘          └───────┬──────┘
            │                          │                          │
            └──────────────────────────┼──────────────────────────┘
                                       │
            ┌──────────────────────────┼──────────────────────────┐
            │                          │                          │
     ┌──────┴──────┐           ┌───────┴──────┐          ┌───────┴──────┐
     │ GPU Server 1│           │ GPU Server 2 │          │ Redis Cluster│
     │(TITANS/HOPE)│           │(TITANS/HOPE) │          │   (主从)     │
     └─────────────┘           └──────────────┘          └──────────────┘
                                       │
                              ┌────────┴────────┐
                              │  PostgreSQL     │
                              │   (主从复制)     │
                              └─────────────────┘

三、云厂商配置与成本

3.1 阿里云方案

方案 A：入门版（用户 <1万）

资源	规格	数量	单价/月	小计
ECS GPU	ecs.gn6i-c4g1.xlarge (T4 16GB)	1	¥2,100	¥2,100
	4核 15GB + T4 GPU
云数据库 RDS	pg.n2.small.2c (2核4GB)	1	¥340	¥340
Redis	云数据库 1GB	1	¥160	¥160
SLB	性能保障型	1	¥100	¥100
带宽	按流量 1TB	-	¥0.8/GB	¥800
对象存储 OSS	50GB	1	¥10	¥10
合计				¥3,510/月

方案 B：标准版（用户 1-10万）

资源	规格	数量	单价/月	小计
ECS 通用	ecs.g7.xlarge (4核16GB)	2	¥650	¥1,300
ECS GPU	ecs.gn6i-c8g1.2xlarge (T4 16GB)	1	¥4,200	¥4,200
	8核 31GB + T4 GPU
云数据库 RDS	pg.n4.medium.2c (4核8GB)	1	¥680	¥680
Redis	云数据库 4GB 主从	1	¥500	¥500
SLB	性能保障型	1	¥150	¥150
带宽	50Mbps 固定	-	¥2,300	¥2,300
对象存储 OSS	100GB	1	¥20	¥20
合计				¥9,150/月

方案 C：企业版（用户 10-100万）

资源	规格	数量	单价/月	小计
ECS 通用	ecs.g7.2xlarge (8核32GB)	4	¥1,300	¥5,200
ECS GPU	ecs.gn7i-c8g1.2xlarge (A10 24GB)	2	¥6,500	¥13,000
云数据库 RDS	pg.x4.large.2c (8核32GB) 主从	1	¥2,800	¥2,800
Redis	云数据库 8GB 集群	1	¥1,200	¥1,200
SLB	超强型	1	¥300	¥300
带宽	100Mbps 固定	-	¥4,500	¥4,500
CDN	1TB/月	-	¥150	¥150
对象存储 OSS	500GB	1	¥100	¥100
合计				¥27,250/月

3.2 腾讯云方案

方案 A：入门版（用户 <1万）

资源	规格	数量	单价/月	小计
GPU 云服务器	GN7.2XLARGE32 (T4 16GB)	1	¥1,900	¥1,900
	8核 32GB + T4 GPU
云数据库 PostgreSQL	2核4GB	1	¥280	¥280
Redis	1GB 标准版	1	¥120	¥120
CLB	共享型	1	¥50	¥50
带宽	按流量 1TB	-	¥0.8/GB	¥800
COS 对象存储	50GB	1	¥8	¥8
合计				¥3,158/月

方案 B：标准版（用户 1-10万）

资源	规格	数量	单价/月	小计
云服务器	S5.2XLARGE16 (8核16GB)	2	¥580	¥1,160
GPU 云服务器	GN7.4XLARGE64 (T4 16GB)	1	¥3,800	¥3,800
	16核 64GB + T4 GPU
云数据库 PostgreSQL	4核8GB 双机高可用	1	¥580	¥580
Redis	4GB 主从版	1	¥400	¥400
CLB	性能容量型	1	¥120	¥120
带宽	50Mbps 固定	-	¥2,100	¥2,100
COS 对象存储	100GB	1	¥15	¥15
合计				¥8,175/月

3.3 华为云方案

方案 B：标准版（用户 1-10万）

资源	规格	数量	单价/月	小计
ECS 通用	s6.2xlarge.2 (8核16GB)	2	¥600	¥1,200
GPU 推理	pi2.2xlarge.4 (T4 16GB)	1	¥3,600	¥3,600
RDS PostgreSQL	4核8GB 主备	1	¥620	¥620
DCS Redis	4GB 主备	1	¥450	¥450
ELB	共享型	1	¥100	¥100
带宽	50Mbps	-	¥2,000	¥2,000
OBS 对象存储	100GB	1	¥18	¥18
合计				¥7,988/月

四、成本对比汇总

4.1 各厂商对比

规模	阿里云	腾讯云	华为云	推荐
入门版 (<1万)	¥3,510	¥3,158	¥3,200	腾讯云
标准版 (1-10万)	¥9,150	¥8,175	¥7,988	华为云
企业版 (10-100万)	¥27,250	¥25,000	¥24,000	华为云
旗舰版 (100万+)	¥50,000+	¥45,000+	¥43,000+	定制

4.2 不同用户规模成本

用户数	DAU	峰值并发	推荐配置	月成本
1,000	100	20	入门版	¥3,000-3,500
10,000	1,000	200	入门版+	¥4,000-5,000
100,000	10,000	2,000	标准版	¥8,000-10,000
500,000	50,000	10,000	企业版	¥20,000-30,000
1,000,000	100,000	20,000	企业版+	¥35,000-50,000
10,000,000	1,000,000	200,000	旗舰版	¥100,000+

五、部署步骤

5.1 单机部署（推荐入门）

# 1. 创建 GPU 云服务器（以阿里云为例）
# 选择镜像: Ubuntu 22.04 + NVIDIA GPU Driver

# 2. 安装 Docker 和 NVIDIA Container Toolkit
curl -fsSL https://get.docker.com | sh
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | \
  sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
sudo systemctl restart docker

# 3. 克隆代码
git clone https://github.com/your-org/mises-behavior-engine.git
cd mises-behavior-engine

# 4. 配置环境变量
cp .env.example .env
# 编辑 .env 设置 LLM_API_KEY 等

# 5. 构建并启动
docker-compose -f docker-compose.gpu.yml build
docker-compose -f docker-compose.gpu.yml up -d

# 6. 配置 Nginx + SSL（使用 Let's Encrypt）
sudo apt install nginx certbot python3-certbot-nginx
sudo certbot --nginx -d mbe.yourdomain.com

5.2 Nginx 配置示例

# /etc/nginx/sites-available/mbe
upstream mbe_api {
    server 127.0.0.1:8000;
    keepalive 64;
}

server {
    listen 443 ssl http2;
    server_name mbe.yourdomain.com;

    ssl_certificate /etc/letsencrypt/live/mbe.yourdomain.com/fullchain.pem;
    ssl_certificate_key /etc/letsencrypt/live/mbe.yourdomain.com/privkey.pem;

    # WebSocket 支持
    location /ws {
        proxy_pass http://mbe_api;
        proxy_http_version 1.1;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection "upgrade";
        proxy_set_header Host $host;
        proxy_read_timeout 86400;
    }

    # API
    location / {
        proxy_pass http://mbe_api;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        proxy_set_header X-Forwarded-Proto $scheme;
    }
}

六、性能优化建议

6.1 应用层优化

优化项	方法	效果
连接池	配置 asyncpg/redis 连接池	减少连接开销
缓存	Redis 缓存热点数据	减少数据库查询
异步	全异步 I/O	提高并发
批处理	批量处理请求	减少 GPU 调用

6.2 基础设施优化

优化项	方法	效果
CDN	静态资源加速	减轻服务器压力
读写分离	PostgreSQL 主从	提高数据库性能
GPU 共享	多进程共享 GPU	提高 GPU 利用率
弹性伸缩	自动扩缩容	应对流量峰值

6.3 DeepSeek API 优化

问题	解决方案
限流	企业版 API / 多账户轮询
延迟	流式响应 / 超时重试
成本	缓存常见问答 / 模型降级

七、监控告警

7.1 推荐监控指标

类别	指标	告警阈值
服务	API 响应时间	>5s 告警
服务	错误率	>1% 告警
GPU	GPU 利用率	<20% 或 >90%
GPU	GPU 显存	>90% 告警
数据库	连接数	>80% 告警
Redis	内存使用	>80% 告警

7.2 监控工具

阿里云: 云监控 + ARMS
腾讯云: 云监控 + APM
自建: Prometheus + Grafana

八、迁移检查清单

8.1 迁移前准备

备份现有数据（PostgreSQL + Redis）
记录当前配置（环境变量）
测试新服务器连通性
准备 DNS 切换计划

8.2 迁移步骤

部署新环境并测试
同步数据库数据
切换 DNS 到新服务器
监控新环境 24-48 小时
关闭旧环境

8.3 回滚计划

保留旧环境 7 天
DNS TTL 设置为 5 分钟
准备数据回滚脚本

九、成本优化建议

9.1 节省成本的方法

方法	节省幅度	适用场景
包年包月	30-50%	长期运行
抢占式实例	50-80%	测试/开发
预留实例	40-60%	确定用量
闲时弹性	20-30%	业务有明显峰谷
资源共享	30-50%	GPU 利用率低

9.2 成本 vs 性能平衡

成本敏感型:
├── 单机部署 + 按需伸缩
├── 抢占式 GPU 实例
└── 共享数据库

性能优先型:
├── 多节点高可用
├── 独占 GPU 实例
└── 专属数据库

十、总结

阶段	用户规模	推荐方案	月成本	关键配置
MVP	<1,000	本地+Cloudflare	≈免费	当前方案
验证期	1,000-10,000	云入门版	¥3,000-4,000	单 GPU 服务器
成长期	10,000-100,000	云标准版	¥8,000-15,000	API+GPU 分离
规模期	100,000-1,000,000	云企业版	¥25,000-50,000	多节点集群
成熟期	1,000,000+	定制化部署	¥100,000+	K8s + 自动伸缩

文档版本: v1.0 | 创建日期: 2026-01-21