赞
踩
上次更新时间 2020年04月02日
添加到 MyLibrary
更新时间:2020 年 4 月 2 日 VMware vSAN 7.0 | 2020 年 4 月 2 日 | 内部版本 15843807 请查看发行说明以了解新增内容及更新。 |
本发行说明包含以下主题:
vSAN 7.0 引入了以下新功能和增强功能:
有关如何安装和配置 Kubernetes 节点虚拟机以及如何使用 Cloud Native Storage 的信息,请参见《VMware Cloud Native Storage 入门指南》。
使用 vSAN 时出现任何问题,都可以使用 vSAN 社区网站提供反馈和请求帮助。
有关升级 vSAN 的说明,请参见 VMware vSAN 7.0 文档。
注意:在执行升级之前,请查看最新版本的《VMware 兼容性指南》以验证您的平台是否可以使用最新的 vSAN 版本。
vSAN 7.0 是一个需要全面升级到 vSphere 7.0 的新版本。执行以下任务完成升级:
1.升级到 vCenter Server 7.0。有关详细信息,请参见 VMware vSphere 7.0 发行说明。
2.将主机升级到 ESXi 7.0。有关详细信息,请参见 VMware vSphere 7.0 发行说明。
3.将 vSAN 磁盘格式升级到 10.0 版本。如果是从磁盘格式版本 3.0 或更高版本升级,则无需执行数据撤出(仅更新元数据)。
在从 1.0 或 2.0 版本升级 vSAN 磁盘格式期间,会执行磁盘组撤出操作。移除磁盘组并升级到磁盘格式版本 10.0,再将磁盘组重新添加到群集。对于双节点或三节点群集或容量不足以撤出每个磁盘组的群集,从 vSphere Client 选择允许精简冗余。您还可以使用以下 RVC 命令升级磁盘格式:vsan.ondisk_upgrade --allow-reduced-redundancy
允许降低冗余性时,虚拟机在升级过程中不受保护,因为此方法不会将数据撤出到群集中的其他主机。该方法会移除各磁盘组,升级磁盘格式,然后将磁盘组重新添加到群集。所有对象仍可用,但冗余性已降低。
如果在升级到 vSAN 7.0 时启用去重和压缩,则可以从 vSphere Client 选择允许精简冗余。
有关 vSAN 7.0 版本的最高配置限制的信息,请参见“最高配置”文档。
已知问题分为如下类别。
删除支持 CNS 卷的 FCD 磁盘后,该卷可能仍在 CNS UI 中显示为存在。但是,尝试删除该卷会失败。您可能会看到类似于以下内容的错误消息:
找不到引用的对象或项目 (The object or item referred to could not be found)。
解决办法:下一次完全同步将解决不一致性并正确更新 CNS UI。
同时将多个卷附加到同一个 pod 时,附加操作有时可能会选择同一个控制器插槽。 因此,只有其中一个操作成功,而其他卷挂载会失败。您可能会看到类似于以下内容的错误消息:
CnsFault 错误: CNS: 输入卷 xyz 不是 CNS 卷 (CnsFault error: CNS: The input volume xyz is not a CNS volume)。
解决办法:Kubernetes 重新尝试执行失败的操作后,如果节点虚拟机上有可用的控制器插槽,则操作将成功。
例如,当您使用不合规的存储策略创建 CNS 卷时,可能会出现这种情况。操作失败,而 vSphere Client 显示任务状态为成功。
解决办法:vSphere Client 中成功的任务状态不保证 CNS 操作已成功。要确保操作已成功,请验证其结果。
当 EMM 任务正在主机上运行时,文件服务虚拟机 (FSVM) 将处于关闭电源状态。vSAN 文件服务修复功能会将这种情况视为 FSVM 故障,并尝试进行修复。但是,在所有 EMM 任务均已完成之前,vCenter 会阻止 vSAN 文件服务修复任务运行。这会导致出现错误消息。
在主机上完成所有 EMM 任务后,vSAN 文件服务修复任务会自动成功运行。
如果启用了 vSphere Lifecycle Manager 则无法在同一群集上启用 vSAN 文件服务,反之亦然。
要在已启用 vSAN 文件服务的群集上启用 vSphere Lifecycle Manager,请禁用 vSAN 文件服务,然后重试该操作。请注意,将集群转换为 vSphere Lifecycle Manager 集群后,无法禁用 vSphere Lifecycle Manager。
要在主机上启用文件服务,每个主机都必须具有 vSAN 声明的磁盘组。
将磁盘组添加到主机,并允许 vSAN 声明该磁盘组。
如果将文件共享创建、删除和重新配置操作分派到出现基础架构问题的主机,则操作可能会失败。
对该特定群集重试此操作。
文件服务虚拟机 (FSVM) 升级完成后,某些主机可能出现多个 FSVM,其中有些可能在运行较旧版本,或者已关闭电源。
1.确认每个 FSVM 的当前版本。
2.如果发现 FSVM 处于已关闭电源状态,请移除该 FSVM。
3.如果发现 FSVM 在较旧的版本上运行,则关闭其电源,并将其从主机中移除。
4.导航到 vSAN 群集,然后单击监控 > vSAN > Skyline 运行状况。
5.在“Skyline 运行状况”部分中,单击文件服务,然后单击重新测试。
6.单击基础架构运行状况,然后单击修复文件服务。等待修复完成。
7.重复步骤 1 到 6,直到所有 FSVM 均已打开电源并在新版本上运行。
当共享中的所有现有空间都在使用中时,vSAN 文件服务会自动创建新的 vSAN 对象以横向扩展存储。当群集处于无法创建新 vSAN 对象的状态时,写入文件共享将失败。这包括由于群集中的磁盘或节点故障而导致故障域数量不足的情况。
检查 vSAN 运行状况服务,并修复群集中的故障。
即使删除了所有文件,所分配的数据块也不会返回到 vSAN 存储。将新数据写入到同一文件共享时,将重用这些分配的数据块。
要将存储重新释放到 vSAN,请删除文件共享。
取消 EMM 任务,然后重试。如果重试操作不成功,请联系 VMware 全球支持团队。
对于具有 16 个以上主机的大型群集,在主机升级期间可能会出现间歇性 ping 故障。这些故障可能会中断 vSphere Life Cycle Manager 中的主机修复。
修复预检查完成后,将检查以下 vSAN 运行状况测试的静默警示:
修复任务完成后,还原 vSAN 运行状况测试的警示。
在热驱动器移除过程中,如果在一分钟内拔出并重新插入 NVMe 驱动器,则 VMware 本机 NVMe 热插拔可能会导致主机出现故障。重新插入任何新驱动器或现有驱动器时,vSphere 和 vSAN 都会出现此问题。
解决办法:移除热驱动器后,请等待一分钟,然后再重新插入新驱动器或现有驱动器。
使用 Update Manager 修复 vSAN 群集中的主机时,vSAN 运行状况检查可能会发现升级问题。当主机上的修复任务失败时,您可能会看到一条错误消息,其中包含测试 ID,而不是运行状况检查名称。例如:
在主机退出维护模式之前,修复因 vSAN 运行状况检查失败而失败。vSAN 群集的运行状况不正常,因为 vSAN 运行状况检查 com.vmware.vsan.health.test.controlleronhc 失败 (Before host exits MM, remediation failed because vSAN health check failed. vSAN cluster is not healthy because vSAN health check(s): com.vmware.vsan.health.test.controlleronhcl failed)
每个测试 ID 与一项 vSAN 运行状况检查相关。要了解修复运行状况检查,请参考以下文章:https://kb.vmware.com/s/article/60219
解决办法:如果 vSAN 主机上的修复任务失败,请使用 Health Service 识别并解决问题。然后执行其他修复任务。
如果群集中只剩下一个主机且该主机进入维护模式,则迁移全部数据或确保可访问性模式下的操作可能会失败,而不提供添加新资源的指导。如果群集中只剩下一个磁盘或磁盘组且将移除该磁盘或磁盘组,也可能会出现这种情况。
解决办法:在将群集中剩余的最后一个主机置于维护模式且选中迁移全部数据或确保可访问性模式之前,将具有相同配置的另一个主机添加到群集。在移除群集中剩余的最后一个磁盘或磁盘组之前,添加具有相同配置和容量的新磁盘或磁盘组。
当非去重群集中的磁盘或去重群集中的磁盘组达到可配置的重新同步暂停占用率阈值时,vSAN 重新同步将暂停。这是为了避免被重新同步 I/O 占满磁盘。如果磁盘达到此阈值,vSAN 将停止重新配置工作流,例如 EMM、修复、重新平衡和策略更改。
解决办法:如果群集中的其他位置有可用空间,重新平衡群集将释放其他磁盘上的空间,以便后续重新配置尝试操作能够成功。
在 vSAN 群集中,如果所含主机中的磁盘占用率为 100%,虚拟机可能存在未决问题,从而失去 HA 保护。此外,从群集完全占用这一情况恢复后,具有未决问题的虚拟机不受 HA 保护。
解决办法:从 vSAN 群集完全占用这一情况恢复后,执行以下操作之一:
如果虚拟机存在未决问题,则该问题得到解决后,才能执行任何与虚拟机相关的操作。
解决办法:尝试释放相关卷上的磁盘空间,然后单击重试。
如果 vSAN 群集已完全占用,其中一个或多个磁盘组达到 100%,则可能存在未决的虚拟机问题,需要用户执行操作加以解决。如果问题未得到解决并且无人处理群集已完全占用这一状况,则虚拟机的 IP 地址可能会更改为 IPv6 或变得不可用。这会阻止您使用 SSH 访问虚拟机。 此外,还会阻止您使用虚拟机控制台,因为在键入 root
后控制台变为空白。
解决办法:无。
如果移除启用了去重的磁盘组中的某个容量磁盘,其唯一 ID 发生更改或者设备发生不可恢复的硬件错误,则该容量磁盘会进入永久设备丢失 (PDL) 状态。如果尝试移除磁盘组,可能会看到一条错误消息,提示您操作无法完成。
解决办法:如果移除容量磁盘,其唯一 ID 发生更改或者设备发生不可恢复的硬件错误,请等待几分钟,然后再尝试移除磁盘组。
策略更改请求会使 vSAN 的对象运行状况处于与不可用性相关的不合规状态。这是因为可能还有其他已调度的工作正在利用请求的资源。不过,vSAN 会在资源可用时自动重新调度此策略请求。
解决办法:在大多数情况下,vSAN 周期性扫描会自动修复此问题。但是,即使在接受策略更改而不应用更改的策略后,其他正在进行的工作也可能会耗尽可用的资源。如果容量报告显示较高的值,则可以添加更多容量。
在去重群集中,当仪表板上显示磁盘占用率超过 80% 时,被动重新平衡可能不会按预期启动。这是因为在去重群集中,计算可用容量时还会考虑挂起的写入和删除操作。
解决办法:无。
如果客户机操作系统尝试在联机快照整合期间执行空间回收,剪裁/取消映射命令会失败。此失败会阻止回收空间。
解决办法:尝试在联机快照操作完成后回收空间。如果后续剪裁/取消映射操作失败,请重新挂载磁盘。
执行联机快照整合时,通过 SCSI 剪裁/取消映射命令实现的空间回收将丢失。脱机快照合不会影响 SCSI 取消映射操作。
解决办法:联机快照整合完成后再回收空间。
将 vSAN 群集转换为延伸群集时,必须提供见证主机。您可以将数据主机转换为见证主机,但在该过程中必须使用维护模式迁移全部数据。如果将主机置于维护模式并启用“确保可访问性”选项,然后将主机配置为见证主机,主机可能会发生故障并显示紫色诊断屏幕。
解决办法:移除见证主机上的磁盘组,然后重新创建磁盘组。
如果正在通过 Storage vMotion 将虚拟机从 vSAN 迁移到另一个数据存储(例如 NFS),当其驻留的主机在 vSAN 网络遇到故障而导致 HA 故障切换虚拟机时,可能会在 vCenter Server 中复制该虚拟机。
解决办法:关闭无效虚拟机的电源并从 vCenter Server 将其取消注册。
在新的 vCenter Server 下重新配置现有延伸群集会导致 vSAN 发出运行状况检查警告
在新的 vCenter Server 下重新构建当前延伸群集时,vSAN 群集运行状况检查为红色。将显示以下消息:vSphere 群集成员与 vSAN 群集成员匹配 (vSphere cluster members match vSAN cluster members)
解决办法:使用以下过程配置延伸群集。
vSAN 重新同步大型对象时磁盘格式升级失败
如果 vSAN 群集包含非常大的对象,那么重新同步此对象时磁盘格式升级可能会失败。您可能会看到以下错误消息:无法转换 vSAN 上的对象 (Failed to convert object(s) on vSAN)
重新同步对象后,vSAN 才能执行升级。您可以查看重新同步的状态(监控 > vSAN > 正在重新同步组件)以验证此过程是否完成。
解决办法:等待重新同步全部完成,然后重试磁盘格式升级。
深层重新加密操作期间群集一致性运行状况检查失败
对加密 vSAN 群集进行深层重新加密操作可能需要数小时。在重新加密期间,以下运行状况检查可能指示操作失败:群集配置一致性。群集一致性检查不会检测到深层重新加密操作,可能不存在问题。
解决办法:在深层重新加密操作完成后,重新测试 vSAN 群集一致性运行状况检查。
在群集上禁用 vSAN 后,vSAN 延伸群集配置丢失
在延伸群集上禁用 vSAN 后,不会保留延伸群集配置。延伸群集、见证主机和故障域配置将会丢失。
解决办法:重新启用 vSAN 群集时,请重新配置延伸群集参数。
更改延伸群集中的见证主机时,关闭电源的虚拟机在 vSphere Web Client 中短暂显示为无法访问。此过程完成后,关闭电源的虚拟机显示为可访问。在整个过程中,所有正在运行的虚拟机显示为可访问。
解决办法:无。
如果主机中存在故障引导介质,则无法将主机置于维护模式
vSAN 无法将存在引导介质故障的主机置于维护模式。进入维护模式的任务可能会因无法保存配置更改而失败,同时出现内部 vSAN 错误。您可能会看到类似以下内容的日志事件:Lost Connectivity to the device xxx backing the boot filesystem
解决办法:使用撤出全部数据选项从每个主机手动移除磁盘组。然后将主机置于维护模式。
如果 vSAN 群集中的 ESXi 主机运行 vSphere 6.0 Update 1 或更低版本,则运行状况服务无法正常运行
如果群集中的 ESXi 主机运行 vSphere 6.0 Update 1 或更低版本,则 vSAN 6.6 及更高版本的运行状况服务无法正常运行。
解决办法:不要将运行 vSphere 6.0 Update 1 或更低版本软件的 ESXi 主机添加到 vSAN 6.6 或更高版本的群集。
如果延伸群集中的辅助站点发生故障,虚拟机将故障切换到首选站点。首选站点上的虚拟机可能会发出以下警示:无法进行故障切换 (Failed to failover)。忽略此警示。不会影响故障切换行为。
解决办法:无。
在网络分区期间,活动站点中的组件显示为不存在
在 vSAN 2 主机或延伸群集中进行网络分区期间,vSphere Web Client 可能会从非活动站点的角度显示群集视图。您可能会发现主站点中的活动组件显示为不存在。
解决办法:使用 RVC 命令查询群集中对象的状态。例如:vsan.vm_object_info
某些对象在强制修复后不合规
在执行强制修复后,某些对象可能无法修复,因为对象的所有权在此期间已转移到其他节点。这些对象的强制修复可能会延迟。
解决办法:修复并重新同步所有其他对象后,尝试强制修复操作。可以等到 vSAN 修复对象。
将主机从某个加密群集移到其他加密群集,然后再将其移回原始群集时,任务失败
将主机从加密 vSAN 群集移动到其他加密 vSAN 群集,然后再将其移动到原始加密群集时,任务可能会失败。您可能会看到以下消息:出现了常规系统错误: 无效故障 (A general system error occurred: Invalid fault)。出现此错误的原因是 vSAN 无法使用原始加密密钥重新加密主机上的数据。短时间后,vCenter Server 将在主机上还原原始密钥,然后挂载 vSAN 群集中所有已卸载的磁盘。
解决办法:重新引导主机并等待挂载所有磁盘。
站点恢复后延伸群集不平衡
恢复延伸群集中的故障站点时,故障站点中的主机有时要经过很长一段时间才会依次恢复。vSAN 在开始修复缺失组件时可能会过度使用一些主机。
解决办法:在短时间内同时恢复故障站点中的所有主机。
虚拟机操作因延伸群集的 HA 主节点问题而失败
在延伸群集的某些故障场景中,某些虚拟机操作(如 vMotion 或打开虚拟机电源)可能受到影响。这些故障场景包括部分或完全站点故障,或站点之间的高速网络故障。导致此问题的原因是延伸群集站点的正常操作要求能够使用 VMware HA。
解决办法:在执行 vMotion、虚拟机创建或打开虚拟机电源操作之前禁用 vSphere HA。然后重新启用 vSphere HA。
如果卸载磁盘组,则无法执行深层重新加密
vSAN 在执行深层重新加密之前,首先会执行浅层重新加密。如果存在已卸载的磁盘组,浅层重新加密将会失败。深层重新加密过程无法开始。
解决办法:重新安装或移除已卸载的磁盘组。
日志条目显示防火墙配置已更改
启用 vSAN 加密时,安全配置文件中会显示新的防火墙条目:vsanEncryption。此规则控制主机如何与 KMS 直接通信。触发后,会在 /var/log/vobd.log 中添加日志条目。您可能会看到以下消息:
Firewall configuration has changed.Operation 'addIP4' for rule set vsanEncryption succeeded.
Firewall configuration has changed.Operation 'removeIP4' for rule set vsanEncryption succeeded.
可以忽略这些消息。
解决办法:无。
在 vmknic 上设置流量类型选项以支持见证流量后未发生 HA 故障切换
在 vmknic 上设置流量类型选项以支持见证流量,vSphere HA 不会自动发现新设置。您必须手动禁用,然后重新启用 HA,以便发现 vmknic。如果先配置 vmknic 和 vSAN 群集,然后再在群集上启用 HA,则会发现 vmknic。
解决办法:在群集上手动禁用 vSphere HA,然后重新启用它。
vSAN iSCSI 目标服务不支持每个会话多个连接 (MCS)。
解决办法:无。
任何 iSCSI 启动器都可以发现 iSCSI 目标
vSAN iSCSI 目标服务允许网络上的任何启动器发现 iSCSI 目标。
解决办法:您可以将 ESXi 主机与 iSCSI 启动器放置在不同的 VLAN 上,从而将它们隔离。
解析网络分区后,链接克隆虚拟机上的某些虚拟机操作可能会失败
在客户机操作系统中不生成 I/O 的链接克隆虚拟机上,某些虚拟机操作可能会失败。生成快照和挂起虚拟机操作可能会失败。如果基础父虚拟机的命名空间尚不可访问,则在解析网络分区后,可能会出现此问题。当父虚拟机的命名空间变得可访问时,未通知 HA 启动该虚拟机。
解决办法:重新启动未主动运行 I/O 操作的虚拟机。
无法将见证主机置于维护模式
尝试将见证主机置于维护模式时,主机仍处于当前状态并显示通知:指定的参数不正确 (A specified parameter was not correct)。
解决办法:将见证主机置于维护模式时,请选择不迁移数据选项。
将见证主机移入延伸群集然后再移出会将群集置于配置错误状态
如果将见证主机置于已启用 vSAN 的 vCenter 群集中,则会显示一条警报,通知您见证主机无法驻留在该群集中。但是,即使将见证主机移出群集,群集仍会处于配置错误状态。
解决办法:将见证主机移出 vSAN 延伸群集,然后重新配置延伸群集。有关详细信息,请参见知识库文章 2130587。
如果包含 HA 检测信号数据存储的群集在进行网络分区,则虚拟机不会在其他数据站点上重新启动
当 vSAN 群集中的首选站点或辅助站点断开与其他站点的网络连接后,断开网络连接的站点上运行的虚拟机不会在其他数据站点上重新启动,并可能显示以下错误:vSphere HA 虚拟机 HA 故障切换失败 (vSphere HA virtual machine HA failover failed)。
这是 vSAN 群集的预期行为。
解决办法:在群集上配置 vSphere HA 时,不要选择 HA 检测信号数据存储。
当磁盘持续显示高延迟时通过运行 esxcli vsan storage disk group unmount 命令或通过 vSAN 设备监控服务卸载 vSAN 磁盘或磁盘组后,vSphere Web Client 的“操作状态”字段中错误地显示为“已挂载”。
解决办法:使用“运行状况”字段而不是“操作状态”字段验证磁盘状态。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。