当前位置: 首页 > news >正文

Xinference下载模型卡住不动?从0%到100%的完整排坑指南

写在前面

最近在使用Xinference部署模型时,遇到了一个让人抓狂的问题:无论WebUI还是命令行,模型下载的进度始终卡在0%不动,多次重试后还是没变化。更诡异的是,服务日志显示一切正常,但是就是下载不了。

经过一顿倒腾,终于找到了问题所在并且成功解决,这篇文章记录了完整的排查过程以及解决方案,希望能帮助到你。

环境说明

  • 平台:AutoDL部署的Xinference
  • Xinference版本:最新版
  • 目标模型:bge-reranker-large
  • 网络环境:国内服务器

问题现象

  1. 启动Xinference服务成功,WebUI也能正常访问;
  2. 尝试下载模型,WebUI界面中进度条一直不动,命令行下载的时候也一直显示0%;
  3. 没有任何明确的错误提示。

排查过程

(1)确认服务状态

首先确认Xinference服务本身是否正常:

# 启动服务 xinference-local --host 0.0.0.0 --port 6006 # 检查服务健康状态 curl http://127.0.0.1:6006/v1/models

输入:root@autodl-container-969947803a-48d90d73:~# curl http://127.0.0.1:6006/v1/models

输出:{"object":"list","data":[]}root@autodl-container-969947803a-48d90d73:~#

说明Xinference服务在正常运行,返回的空列表[]确认了此时没有任何模型

(2)检查环境变量

发现xinference list命令报错接连失败,是因为命令默认连接到9997端口,而我们的服务是在6006端口:

# 需要指定正确的 endpoint xinference list --endpoint http://127.0.0.1:6006

(3)端口冲突

在输出的服务日志中发现一条警告:WARNING Failed to create socket with port 6006

说明6006端口已被别的进程占用,解决方法:

# 查看端口占用 lsof -i :6006 # 杀掉占用进程 kill -9 <PID> # 或者直接清理所有 Xinference 进程 pkill -f xinference

(4)网络问题

端口问题解决后,下载仍然卡住,是因为国内的服务器访问Hugging Face官方源速度极慢,甚至超时。解决方法:使用国内镜像源

# 设置 Hugging Face 镜像 export HF_ENDPOINT=https://hf-mirror.com # 重新启动服务 xinference-local --host 0.0.0.0 --port 6006

最终成功的启动方式

使用终端1:启动Xinference服务

# 确保端口干净 pkill -f xinference # 设置镜像源并启动 export HF_ENDPOINT=https://hf-mirror.com xinference-local --host 0.0.0.0 --port 6006 # 设置学术加速 source /etc/network_turbo

使用终端2:下载模型

xinference launch --model-type rerank --model-name bge-reranker-large --model-uid my-reranker --endpoint http://127.0.0.1:6006

就可以看到进度条变化了:

图形化界面也可以使用下载了:

最终就可以在 Running Models看到下载的模型:

同时可以重新查看服务的状态,发现两个模型的参数:

写在最后

每次重启Xinference后之前加载的模型都会被清空,这是因为Xinference的设计理念是:模型不会持久化运行,因此需要重新启动。打开WebUI点击Launch Model选择已经下载过的模型,点击启动即可(几秒钟就OK)

http://www.jsqmd.com/news/587330/

相关文章:

  • 3大突破:WinDiskWriter让Mac制作Windows启动盘变得前所未有的简单
  • 新手如何通过快马学习阿里p10常用的设计模式实战代码
  • 3分钟搞定OBS虚拟摄像头:新手也能轻松上手的高效直播方案
  • 让旧iPhone重获新生:LeetDown图形化降级工具全解析
  • 一次 Redis 热点 Key 引发的线上雪崩复盘:从缓存击穿到多级缓存架构的演进
  • OpenMTP:重新定义跨平台文件传输的开源解决方案
  • BomGw v1.0软网关后台服务程序安装说明书
  • 十一,MySQL日志篇之undo-log、redo-log、bin-log
  • Comfyui从入门到进阶教程分享
  • 告别低效循环:用快马生成jdk1.8 Stream代码提升数据处理效率
  • 首粉双拼,ia没有ua在一起,有点不规范,其余首右双拼相同
  • 配置Claude Code遇到Unable to connect to Anthropic services Failed to connect to api.anthropic.cOm: ERR_B
  • 碎碎念(四)| 术力口 recollection
  • 【python】MacOS下永久配置pip镜像源
  • 2024年软件开发的十大趋势预测(个人观点版)
  • 雀魂智能分析助手:提升麻将战术的全流程技术指南
  • SEO_避开常见误区,正确理解SEO的核心价值
  • 以太坊背后的密码学:构建数字信任的技术底座
  • 拆解 OpenHands(8)--- CodeActAgent
  • 2026高职物流工程技术毕业,但没有实习经验,学数据分析的前景分析
  • 开源音频解密工具:如何轻松解锁各大音乐平台加密格式?
  • 2026年4月阿里云1分钟新手集成OpenClaw及大模型百炼APIKey配置
  • 【愚公系列】《剪映+DeepSeek+即梦:短视频制作》047-转场:短视频一气呵成的秘密(转场类型)
  • 具备百万并发用户执行能力,静态页面加载的平均响应时间低于1.1毫秒, 事务请求处理成功率100%
  • OpenCode-Tokenscope 安装和使用指南
  • 根据所给文本,符合的标题可以是:“三菱PLC与MCGS组态农田智能灌溉系统:后发送产品包括梯形...
  • AI 模型压缩与推理加速
  • 夸克直充系统 电商平台
  • 数据库基础知识----数据库大观
  • 全球人形机器人革命浪潮涌动,特斯拉/微美全息聚焦AI具身量产应用新突破!