在制定灾难恢复计划时,务必要决定 RTO 和 RPO 阈值。为此,您需要了解可以做出哪些取舍。如果考虑到让系统快速恢复联机所需用到的基础设施和人手,那么实现非常短的 RTO 就需要付出较高的成本。如果选择在基础设施以及员工响应方面少投入一些,您就需要能够容忍长得多的 RTO(即停机时间更长)。如果 Tableau Server 是一款攸关成败的应用程序,那么任何停机都可能会影响到业务。在 DR 解决方案中做出更多投入,有助于最大限度减少给业务带来的影响。
了解备份
一份 Tableau Server 备份中包含:
1. Tableau数据 - 这包括在存储库和数据提取文件中存储的用户和工作簿元数据。有了备份,您就可以将这些数据从生产 Server 移到 DR Server。
2. 配置数据和拓扑数据 - 配置数据包含大部分的 Server 配置信息,例如 SMTP 设置、证书、身份验证设置等。拓扑数据包括在您部署的实例中是如何配置流程的。配置数据和拓扑数据的备份用于设置 DR Server。
Tableau 数据
Tableau 数据的备份是通过 tsm maintenance backup 命令生成的。该命令会将数据保存在一个带 .tsback 扩展名的文件中,以此方式来创建备份。备份文件生成后会保存在 Tableau Server 的初始节点中。
备份文件的大小取决于 Tableau Server 中的数据量。在生成备份前,一定要确保该节点上有充足的磁盘空间来保存备份文件。生成备份所用的时间在很大程度上取决于数据量,以及计算机上可供使用的 CPU 和内存资源。
如果您有大量数据,备份可能需要较长时间。下面提供了有助于您加快备份速度的两点建议:
如果您的企业认为 Tableau Server 是攸关任务成败的系统,不能出现停机,而且您也难以容忍 Tableau Server 无法正常运行,那么我们建议您采用专门的硬件为 Tableau Server 配置一个独立的 DR 环境。此 Tableau Server 实例应与生产环境中的 Tableau Server 群集运行相同的版本并采用相同的配置。DR Server 应使用来自生产环境的备份定期更新,而且只要生产环境中的配置或拓扑发生变化,DR Server 就应随之更新。下图显示了具体该如何设置专用的 DR Server。
在这里插入图片描述
生产群集与 DR Tableau Server 应分别运行在两个不同的数据中心。还需要配置一个外部负载均衡器,用于控制将用户流量重定向到何处。在正常运行时间,应将用户流量定向到生产群集。
这两个群集都应该指向实时数据源。如果 DR 群集正在运行且未收到任何用户流量,请关闭订阅和通知,以确保用户不会收到重复通知。
在制定的灾难恢复计划中,应安排在每日夜间或尽可能频繁地为生产群集生成 Tableau 数据定期备份。灾难发生后,应立即在 DR 群集上还原此备份。如果对生产群集的配置或拓扑做出了任何更改,也应将这些更改应用到 DR 群集,以确保其与生产环境采用相同的设置。 面对灾难,您的 DR 计划需包含以下步骤:
将外部负载均衡器指向 DR Tableau Server 群集。
针对 Server 群集中的每个站点,在相应的设置页面中打开订阅。
针对 Server 群集中的每个站点,在相应的设置页面中打开通知。
在这种情况下,停机将持续数分钟时间,还原到 DR 群集的最近一次备份将成为所能恢复的最新数据。
要想为 Tableau Server 构建可靠的灾难恢复解决方案,建议建立一个专用的 DR 群集并每日用最新备份更新一次该群集。
中等 RTO(RTO 为几小时)
如果您的企业允许设立中等 RTO,这意味着它可以容忍 Tableau Server 几个小时无法使用。这种情况下,我们建议为
Tableau Server 提前配置好硬件,以备不时之需。 在 DR 群集的设置过程中,需要完成以下步骤:
安装生产群集中所运行的同版 Tableau Server。
在 DR 群集中导入最新的配置和拓扑数据。
在 DR 群集中还原最新的 Tableau 数据备份。
关掉 DR Server 中的所有节点。
DR Tableau Server 现在将处于冷备状态。面对灾难,您的灾难恢复计划需包含以下步骤:
打开冷备 Server。
在 DR 群集中还原最新的配置和拓扑数据。
在 DR 群集中还原最新的 Tableau 数据备份。
将流量重定向到 DR Tableau Server。
在这种情况下,停机持续时间将取决于 Tableau Server 安装实例的大小,以及还原最近一次备份所用的时长。还原所得到的数据就是截至最近一次备份的最新数据。
高 RTO(RTO 为好几个小时或好几天)
如果您的企业允许设立高 RTO,这意味着它可以容忍 Tableau Server 好几个小时乃至好几天无法使用,那么您就适合采取这一节所讲的方法。面对灾难,您的恢复计划需包含以下步骤:
购置运行 Tableau Server 所需的硬件。
安装生产环境中所运行的同版 Tableau Server。
在 DR 群集中还原最新的配置和拓扑数据。
在 DR 群集中还原最新的 Tableau 数据。
将流量重定向到新的 Tableau Server。
在这种情况下,停机持续时长将取决于购置硬件、安装 Tableau Server 并还原最近一次备份所用的时长,以及 Tableau 生产配置的复杂程度。还原所得到的数据就是截至最近一次备份的最新数据。
其他注意事项
对于很多企业,灾难恢复政策对运行主服务器的数据中心与作为恢复目标的数据中心之间的距离也有要求(例如在美国,DR 站点必须距离主服务器至少 250 英里)。在这类情况下,进行灾难恢复时可以将 Tableau 视作任何其他攸关业务成败的应用程序加以管理。
对于部署到公有云的企业,您需要在生产环境所在地以外的地区为 DR 群集配置计算机。在同一个地区内的不同可用性区域
(AZ) 配置 DR 群集并不能实现真正的灾难恢复,因为如果一个地区发生灾难,那么该地区的所有 AZ 都会受到影响。
对于将 Tableau Server 部署到公有云的企业,购置计算机并不是影响恢复的障碍。在发生灾难时,这些企业可以按需启动一台新的云端计算机,安装 Tableau Server,然后快速还原最新的备份和配置 - 而且整个过程都可以自动完成。
总结
Tableau 内置的备份和恢复技术可用来满足您的 DR 需求。本白皮书着重介绍了如何优化灾难恢复计划,以实现企业的
RPO 和 RTO 目标。完备的灾难恢复计划可以让您和您的企业做到有备无患,从容应对灾难。除了制定完备的计划之外,还必须定期测试您的计划,以便在灾难发生期间能够快速、精准地采取行动,从而将灾难对业务的影响降到最低。
其他资源
在线帮助:分布式和高可用性 Tableau Server 安装白皮书: Tableau Server 的高可用性和灾难恢复 示例脚本:运行 Tableau Server
示例脚本:运行 Tableau Server 还原