1. 通过ray serve(后端vllm)来动态拉起llm,支持多模型application部署, 2. 默认一个模型只有一个replica,用户配置可以多个 3. 用户可以删除(下线)模型 4. 可以指定模型用几张卡 5. 通过WebUI来进行配置,查看当前部署的模型列表,以及可以查看详情 6. 模型路径可以使用common,也可以用户自己指定user路径 7.