从零到一:华为iMaster NCE-Campus实战部署避坑指南
1. 环境准备与RAID配置实战
第一次接触华为iMaster NCE-Campus部署时,我对着那台2288X V5服务器发呆了半小时。物理服务器部署和虚拟机完全不同,从硬件配置开始就得亲力亲为。先说说RAID配置这个"入门关"——看似简单却暗藏玄机。
iBMC管理界面是配置RAID的第一站,但新手常会遇到PCIe Card无法操作的报错。这时候别慌,我摸索出的解决方案是:在iBMC界面找到"远程控制"选项,启用虚拟控制台后重启服务器。当屏幕出现华为LOGO时猛敲Delete键,就能进入BIOS级的RAID配置界面。这里有个细节要注意:2288X V5的RAID卡型号会影响操作路径,如果是Avago系列,需要选择"Advanced→AVAGO MegaRAID Configuration Utility"。
关于RAID级别选择,建议采用:
- 系统盘:RAID 1(镜像模式)
- 数据盘:RAID 0(条带化)
配置时遇到过最坑的情况是阵列创建失败,提示"物理磁盘已被占用"。这是因为出厂测试可能残留配置。解决方法是在"Manage Arrays"里先删除已有阵列,再创建新阵列。记得把全部磁盘都初始化,否则后续安装Euler OS时可能遇到分区表错误。
2. Euler OS安装避坑指南
安装镜像建议用华为官方提供的EulerOS 2.8 SP2版本。我试过用其他版本,结果FusionInsight环境检查直接报错。安装过程中最让人抓狂的就是卡在"Starting dracut initqueue hook",这个问题的根源往往是:
- 镜像文件损坏(校验SHA256值)
- 虚拟介质挂载异常(iBMC的Java控制台版本过旧)
- 磁盘控制器驱动缺失
我的解决三部曲:
- 在iBMC界面断开ISO连接
- 重新上传镜像并勾选"强制重载"
- 进入BIOS将启动项改为"UEFI:Virtual CDROM"
安装完成后别急着重启,先检查/var/log/messages里有没有磁盘错误日志。有次我就栽在这里,后来发现是RAID缓存策略没配置为WriteBack模式,导致系统频繁卡顿。
3. 网络绑定(Bond)的黄金配置
网络配置是连通性的基石,但文档里的bond配置示例太理想化。真实环境中,我推荐采用mode1主备模式而非负载均衡,原因很简单:多数交换机不支持LACP协商。配置时容易忽略的几个要点:
- 网口顺序:eth0和eth4绑定为bond0时,必须确保两个网口连接到不同物理交换机
- MTU值:如果后续要部署VXLAN,需要提前设置
mtu 9000 - 持久化配置:别只用ifconfig临时生效,记得修改
/etc/sysconfig/network-scripts/下的配置文件
实测有效的bond0配置命令:
nmcli con add type bond ifname bond0 mode active-backup nmcli con add type bond-slave ifname eth0 master bond0 nmcli con add type bond-slave ifname eth4 master bond0 nmcli con mod bond0 ipv4.addresses 192.168.1.1/24 nmcli con mod bond0 ipv4.gateway 192.168.1.254 nmcli con up bond04. FusionInsight安装的魔鬼细节
安装FusionInsight前务必确认:
- PC机IP与业务网段同网段
- 防火墙关闭了ICMP限制
- SSH的PermitRootLogin已设为yes
EusySuit环境检查失败的典型案例处理:
- SSH连接错误:检查
/etc/ssh/sshd_config是否包含AllowUsers root - 版本不匹配:修改
/etc/euleros-release文件内容为要求的版本号 - 时间不同步:配置chrony同步华为时间服务器
有个隐蔽bug我花了三天才解决:当服务器BIOS启用了Secure Boot时,EusySuit会静默失败。解决方法是在BIOS的"Security"菜单里禁用Secure Boot,并在Euler OS中执行:
mokutil --disable-validation5. NCE-Campus终极安装指南
安装NCE-Campus时最容易翻车的环节是磁盘分区。建议手动分区方案:
/opt分区至少500GB(日志文件狂魔)/var单独分区200GB- 交换分区为内存的1.5倍
安装后必做的健康检查:
- 执行
ncpa-cli命令检查所有服务状态 - 查看
/opt/oss/Product/applog/下的错误日志 - 测试南北向通信:
ping -I bond1 192.168.0.254
遇到组件启动超时的情况,可以尝试重置OM服务:
su - ossadm ./stop_all.sh ./start_all.sh6. 典型故障排查手册
案例1:iBMC突然无法访问
- 检查默认网关是否被修改
- 执行
ipmcset -d ipv4 -v重置管理口IP - 长按前面板复位按钮8秒恢复出厂设置
案例2:FusionInsight管理页面空白
- 清除浏览器缓存
- 检查
/opt/huawei/wisequery/logs/下的tomcat日志 - 重启wisequery服务:
systemctl restart wisequery
案例3:NCE-Campus南向接口丢包
- 用ethtool检查网卡协商模式
- 禁用GRO/GSO特性:
ethtool -K bond1 gro off gso off - 调整网卡队列:
ethtool -L eth1 combined 16
最后提醒:所有关键操作前,先用screen或tmux创建会话,防止SSH断开导致安装中断。我在凌晨三点的机房深刻体会过这个教训——当时正在安装补丁包,网络闪断直接让系统进入了半残状态。
