argus-cluster/specs/mvp/v3.8/requirements.md

404 B
Raw Blame History

  1. 通过ray serve后端vllm来动态拉起llm支持多模型application部署
  2. 默认一个模型只有一个replica用户配置可以多个
  3. 用户可以删除(下线)模型
  4. 可以指定模型用几张卡
  5. 通过WebUI来进行配置查看当前部署的模型列表以及可以查看详情
  6. 模型路径可以使用common也可以用户自己指定user路径