1. 通过ray serve（后端vllm）来动态拉起llm，支持多模型application部署，
2. 默认一个模型只有一个replica，用户配置可以多个
3. 用户可以删除（下线）模型
4. 可以指定模型用几张卡
5. 通过WebUI来进行配置，查看当前部署的模型列表，以及可以查看详情
6. 模型路径可以使用common，也可以用户自己指定user路径
7.