Vmware vSphere常见问题汇总(十一)

100、vCenter Server 升级失败并显示以下错误：系统管理员已设置策略以阻止此安装（和96类似）

故障状态：

vCenter Server 升级失败并显示以下错误：系统管理员已设置策略以阻止此安装 (The system administrator has set policies to prevent this installation)
如果计算机没有足够的连续内存供 Windows Server 2003 或 Windows XP 验证 .msi包或 .msp包具有正确的签名，就会发生此问题。

解决方案：

从 Windows 的 [开始] 菜单中，选择 [运行]，键入 [control admintools] 并单击 [确定]。

双击 [本地安全策略]。

选择 [软件限制策略]。

如果没有列出软件限制，则右键单击 [软件限制策略] 并选择 [新建策略]。

在 [对象类型] 下，双击 [强制]。

选择 [除本地管理员以外的所有用户]，并单击 [确定]。

重新启动计算机，然后重试 vCenter Server 升级。

101、ESXi/ESX 主机上检测不到物理网卡的故障排查方式

故障状态：
1 、 ESXi/ESX 主机无法识别物理网卡；

2 、执行如下命令也看不到网卡列表：

1. #esxcfg-nics -l

故障分析：
这种问题可能有很多种原因，可能是不在 HCL 里面，可能是驱动版本不对，也可能是其它因素，下面简单
介绍处理方式；

解决方案：
1 、执行如下命令看看能不能看到物理网卡：

1. #lspci -v | less

看看网卡有没有出现在输出列表里，如果有，记录下 PCI slot 和 bus 号，格式为： xx:xx ；

2 、根据第 1 步输出的信息执行如下命令来确认网卡的生产 ID 和设备 ID （ VID 和 DID ）：

1. #lspci -n | grep xx:xx

3. 备注：这里的 xx:xx 是第一步命令所得的结果；

3 、根据上面的输出结果确认网卡是否在官方的 HCL 支持列表里，如果在列表里则继续，如果不在，则到
此为止，更换网卡；

4 、确认是否装载了合适的驱动：
For ESXi ：

1. #vmkload_mod -l | grep < 驱动名称 >

For ESX ：

1. #rpm -qa | grep < 驱动名称 >

5 、如果驱动没有加载，则需要安装一下，首先是需要到官网下载合适的驱动版本，然后执行如下命令更

新：

1. #esxupdate --bundle=xxx.zip update

6 、完成后重启主机即可 ;

7 、如果网卡还是没有检测到，则要收集日志文件来分析了：

ESXi 的日志文件路径为：

1. /var/log/messages

2. /var/log/vmware/hostd-0.log

ESX 的日志文件路径为：

1. /var/log/vmkernel

102、vCenter Server Heartbeat必须禁止TCP Offload Engine

故障状态
当为网卡激活TOE时安装完成的vCenter Server Heartbeat可能存在以下问题：
1、操作系统启动失败表现形式可能为蓝屏；
2、安装了包过滤但是并没有任何作用且在网络中服务器并不可见；
故障分析
这个问题一般都是由于vCenter Server Heartbeat不支持TCP Offload Engine的原因导致；
解决方案
vCenter Server Heartbeat和TOE并不兼容，所以需要尽致TOE模块：
a.Offload IP Security
b.Offload TCP Segmentation
c.Offload TCP/IP Checksum
禁止的方法如下：
1、在计算机设备管理里面找到网卡属性的高级选项；
2、卸载掉Packet Filter：
a.停止掉vCenter Server Heartbeat服务和NFserverR2服务；
b.如果有利用软件做网卡绑定，则接触绑定；
c.如果是在备机上卸载，则最好拔掉网线；
d.命令行切换到C:\VMware\vCenter Server Heartbeat\r2\bin执行下列面命：
nfpktfltr uninstall "\VMware\vCenter Server Heartbeat\r2\drivers\nfpktfltr"
e.删除掉\system32\drivers\nfpktfltr.sys和所有nfpktfltr开头的文件；
f.进入注册表确认下列键值被成功删除掉：
HKLM\SYSTEM\CurrentControlSet\Enum\Root\nfpktfltr_mp
HKLM\SYSTEM\CurrentControlSet\Services\nfpkfltr
安装Packet Filter：
1、停止掉vCenter Server Heartbeat和NFserverR2服务；
2、命令行切换到VMware\vCenter Server Heartbeat\r2\bin执行下列命令：
nfpktfltr install "\VMware\vCenter Server Heartbeat\r2\bin"
3、打散网卡的Team（如果有），然后重建Team；
4、重启服务或服务器。

103、在ESXi5.0上安装第三方provider(可查看RAID健康状态等)

自从VMware发布ESXi有了免费授权以后，公司里还有自己手里的测试机装了不少VMware ESXi，在不配盘柜不使用外部存储的情况下，在ESXi4.x版本上均不支持本地磁盘超过2T，其实原因是因为4.x对本地磁盘分区使用MBR，而MBR限制在2T。

而我手里的N台ESXi主机，都很无奈的创建了若干个2T的VD来使用，用起来有点不爽。

在VMware发布ESXi5.0后，发现它已经支持GPT分区，可以创建超过2T的数据存储，于是考虑顺便攒台装ESXi5.0的主机，经过一番搜索，发现目前最便宜的支持ESXi的RAID是Dell PERC 5I，在taobao上买了2块，因为是自己折腾用，所以没有配电池，最近硬盘疯狂涨价，只好把手里的一台nas服务器的4块2T硬盘拆下来用。

一切都准备好，开始装系统，由于5.0原生就支持将ESXi安装到U盘，所以就把ESXi装到了U盘上，4块2T硬盘组了个6T的raid5，安装都很顺利，不过登陆到vSphere Client上发现，原来在健康状况-传感器里可以看到的raid卡状态，在5.0上消失了，经过一番搜索得出结论，vmware官方取消了所有第三方的provider，如果需要的话，得自己安装自己raid卡对应的cim provider。以下是几个参考链接（都是英文的）

http://communities.vmware.com/thread/327238

http://tinkertry.com/lsi92658iesxi5/

需要手动安装的vib文件在这里下载

http://downloads.vmware.com/d/details/dt_esxi50_lsi_2108_v534/dHRAYnRqZWRiZHAlZA==

http://www.lsi.com/Search/Pages/downloads.aspx?k=vib&r=os%3D%22AQ5WTVdhcmUgRVNYIDUueAJvcwECXiICIiQ%3D%22

安装方法比较简单，稍微懂点Linux的就可以操作，以下是流水账

将下载下来的两个文件解压缩，其实就需要里面的两个vib文件

scsi-megaraid-sas-5.34-1vmw.500.0.0.406165.x86_64.vib

vmware-esx-provider-LSIProvider.vib

在ESXi上开启SSH，用Winscp将这两个文件拷贝到/tmp，再用putty或者其他的终端连入ESXi，输入以下命令即可

esxcli software vib install -v /tmp/scsi-megaraid-sas-5.34-1vmw.500.0.0.406165.x86_64.vib

esxcli software vib install -v /tmp/vmware-esx-provider-LSIProvider.vib

安装完以后重新启动ESXi以后，就可以在健康状况里看到RAID卡的各种状态

104、分析、解决 IOPS 导致的虚拟机/存储性能下降和虚拟机磁盘延时较大的问题
故障状态:
1 、虚拟机性能较低；
2 、在执行备份时磁盘延时很厉害；
3 、虚拟磁盘 vmdk 延时较大；
故障分析:
这种问题基本都是由于虚拟机没有足够的IO Per Second（IOPS），或者IOPS低于30；
解决方案:
在解决问题前，首先要解决以下两个问题：
问题 1 ：什么是 IOPS ？
IOPS 全称为 Input/Output Per Second ，它是衡量一个磁盘（虚拟磁盘和物理磁盘）、存储的基本也是十分重要的标准。不同的磁盘、存储有着不同的 IOPS 。 IOPS 的高低直接会影响着系统的性能。当前， VMware 虚拟化环境中最大的瓶颈也就在于这个 IOPS 。针对数据密集型业务的数据库业务和流媒体业务，由于它们的 IOPS 很大，所以在虚拟化环境中部署它们一定要充分考量它们的负载，也就是 IOPS 大小，结合实际的存储性能来查看是否符合业务标准。
问题 2 ：如何计算 IOPS ？
当前的存储设备都有自己的基本 IOPS 标准，主流接口单盘的 IOPS 如下：

磁盘转数（ RPM ）	基本 IOPS
7200 RPM	100
10,000 RPM	150
15,000 RPM	230

在服务器领域，这列（ RAID ）是最常见的一种基本设备，基本所有服务器都会做阵列，而服务的阵列通常会有多个磁盘构成，这些磁盘自身的 IOPS 组合在一起，根据阵列卡的性能和磁盘本身的转数、接口补丁，基本可以起到 IOPS 的叠加效果，就拿 7200RPM 的磁盘而言，假设 10 个 7200RPM 的磁盘做 RAID0 阵列，那么， IOPS 理论上的 IOPS 值至少可达 100x10=1000 。

如何计算每台虚拟机的 IOPS ？
要想计算每个虚拟机的总的 IOPS 数量，首先就要确认磁盘类型以及它们的 IOPS 是多少。处于 RAID 阵列里面的每个盘的 IO 有利于增长整体存储的可用 IOPS 。而位于这个存储上面的单台虚拟机的 IOPS ，则可以通过将这个存储的总 IOPS 除掉虚拟机数量即可基本得到单台虚拟机的 IOPS 。
现实案例：
假定有 6 颗 10000RPM 的磁盘，那么它们的总的可用 IOPS 大约为 150x6=900 。如果 LUN 上面运行的虚拟机数量为 50 个，则单台虚拟机的 IOPS 为 900/50=18 IOPS 。如果以这个为标准，则意味着虚拟机的性能相对底下。如果想要满足虚拟机的基本 IOPS 需求，那么应该为 900/30=30 ，也就是说同一个 Volume 里 IOPS 为 30 （最低要求）虚拟机需要数量控制在 30 台以下。

备注：备份存储会消耗更多的 IOPS ，同时也会给 Volume 带来更多额外的符合。如果是这样，则需要用额外手段解决备份时的额外资源消耗；

105、vSphere 5.0 里命令行操作 ESXi 主机的详细资料

查看ESXi主机版本号：#esxcli system version get

设置系统时间：#esxcli system time set --hour 00 --min00 --sec00

设置Banner消息：#esxcli system welcomemsg set --message content>

配置远程Log主机：#esxcli system syslog config set --loghost=x.x.x.x

#esxcli system syslog reload

将主机加入到 Active Directory （ vCLI ）：

#vicfg-authconfig --server x.x.x.x --username <username

--password --authscheme AD --joindomain <domain_name

--adusername --adpassword

验证 AD 域信息（ vCLI ）：#vicfg-authconfig --server x.x.x.x --authscheme AD -c

ESXi 进入 / 退出维护模式（ vCLI ）：#vicfg-hostops --operation [enter|info|exit]

关闭 / 重启单一 ESXi 主机（ vCLI ）： #vicfg-hostops --operation [shutdown|reboot]

备份主机配置文件（ vCLI ）：#vicfg-cfgbackup -s /path/filename

恢复主机配置文件（ vCLI ）：#vicfg-cfgbackup -r /path/filename

列出主机当前所加载的 Module：#esxcli system module list --enable=true

106、开启FT显示硬件虚拟化未启用HV

使用 vSphere Fault Tolerance 之前，必须启用硬件虚拟化 (HV) 。

故障状态：

尝试打开启用了 Fault Tolerance 的虚拟机的电源时，如果未启用 HV ，则可能会显示一条错误消息。

故障分析：

通常情况下，出现此错误的原因是：对于您尝试在其上打开虚拟机电源的 ESXi 服务器， HV 在其上不可用。硬件虚拟化不可用的原因可能是其不受 ESXi 服务器硬件支持或未在 BIOS 中启用。

解决方法：

如果 ESXi 服务器硬件支持硬件虚拟化，但当前未启用硬件虚拟化，请在该服务器的 BIOS 中将其启用。各种 BIOS 中启用硬件虚拟化的过程不同。请参见主机的 BIOS 文档以获取有关如何启用硬件虚拟化的详细信息。如果 ESXi 服务器硬件不支持硬件虚拟化，请切换到使用支持 Fault Tolerance 的处理器的硬件。

107、开启FT显示无兼容主机可用于辅助虚拟机

故障状态：

如果打开启用了 Fault Tolerance 的虚拟机的电源，但没有为辅助虚拟机提供任何兼容主机，可能会显示一条错误消息。
“近期任务”窗格中可能会显示以下错误消息：

辅助虚拟机无法打开电源，因为没有兼容主机可以容纳该虚拟机。

故障分析：
这可能是由多种原因造成的，包括群集内没有其他主机、没有其他已启用硬件虚拟化的主机、数据存储不可访问、可用容量不足或主机正处于维护模式中。

解决方法：
如果主机数量不足，请向群集内添加更多主机。如果群集内有多台主机，请确保它们支持硬件虚拟化且硬件虚拟化已启用。各种 BIOS 中启用硬件虚拟化的过程不同。请参见主机的 BIOS 文档以获取有关如何启用硬件虚拟化的详细信息。检查主机是否有足够容量，并确认它们未处于维护模式中。

108、开启FT过载主机上的辅助虚拟机降低主虚拟机的性能

如果主虚拟机的执行速度似乎缓慢，即便它所在主机上的负载较轻且有空闲 CPU 时间，也请检查运行辅助虚拟机的主机是否负载较重。

故障状态：
当辅助虚拟机所在的主机负载过重时，这会影响主虚拟机的性能。

此问题的症状是主虚拟机“ Fault Tolerance ”面板上的“ vLockstep 时间间隔”指示器为黄色或红色。这表示辅助虚拟机比主虚拟机的运行慢数秒。在这种情况下， Fault Tolerance 将减慢主虚拟机的速度。如果“ vLockstep 时间间隔”指示器长时间保持为黄色或红色，则充分表明辅助虚拟机未能获取足够的 CPU 资源，因此跟不上主虚拟机的速度。

故障分析：

在 CPU 资源过载的主机上运行的辅助虚拟机获取的 CPU 资源与主虚拟机获取的 CPU 资源数量可能不同。当出现此情况时，主虚拟机必须减速以使辅助虚拟机跟进，将主虚拟机的执行速度大大降低至辅助虚拟机的较慢速度。

解决方法：

要解决此问题，请为主虚拟机设置明确的 CPU 预留（以 MHz 为单位），该预留应足以在所需性能级别上运行负载。此预留对于主虚拟机和辅助虚拟机均适用，能够确保两者均能以指定的速率执行。有关设置此预留的指导，请在启用 Fault Tolerance 前查看虚拟机的性能图表以查看在正常条件下使用的 CPU 资源量。

109、Fault Tolerant 虚拟机故障切换

即使主虚拟机或辅助虚拟机的 ESXi 主机未崩溃，主虚拟机或辅助虚拟机也可进行故障切换。在这种情况下，虚拟机执行不会中断，但会临时失去冗余。要避免此类故障切换，请了解可能会出现此类故障切换的一些情况，并采取措施进行避免。

与存储器有关的部分硬件故障
当存储器访问缓慢或无法访问某台主机时，可能出现此问题。此问题发生时， VMkernel 日志中将列出许多存储器错误。要解决此问题，必须解决与存储器有关的问题。

与网络有关的部分硬件故障
如果日志记录网卡不能正常工作或通过该网卡与其他主机的连接断开，将触发容错虚拟机进行故障切换，从而重新建立冗余。要避免此问题，请将每个独立网卡专门用于 vMotion 和 FT 日志记录通信，并仅在虚拟机活动较少时执行 vMotion 迁移。

日志记录网卡网络上的带宽不足
如果主机上有过多的容错虚拟机，则会发生此问题。要解决此问题，请将容错虚拟机对分布到更多的不同主机上。

由虚拟机活动级别引起的 vMotion 故障
如果通过 vMotion 迁移容错虚拟机失败，则虚拟机可能需要进行故障切换。此问题通常在虚拟机过于活跃（因而无法在对其造成最小损坏的情况下完成迁移）时发生。要避免此问题，请只在虚拟机活动较少时执行 vMotion 迁移。

VMFS 卷上活动过多可能会导致虚拟机故障切换
在单一 VMFS 卷上执行大量文件系统锁定操作、虚拟机打开电源 / 关闭电源或 vMotion 迁移时，可能会触发容错虚拟机进行故障切换。可能发生此现象的症状为在 VMkernel 日志中收到许多有关 SCSI 预留的警告。要解决此问题，请减少文件系统操作的数量，或确保容错虚拟机位于 VMFS 卷上，而且该卷上没有大量定期打开电源 / 关闭电源或使用 vMotion 进行迁移的其他虚拟机。

文件系统空间不足导致无法启动辅助虚拟机
请检查 /(root) 或 /vmfs/ datasource 文件系统中是否有可用空间。这些文件系统可能会因多种原因而变得空间已满，空间不足会导致您无法启动新辅助虚拟机。

本文转自 saturn 51CTO博客，原文链接:http://blog.51cto.com/saturn/971413