BitMEX灾难恢复:极端情况应急预案
5 个回答
面对系统崩溃、攻击、服务器崩溃等极端情况,平台需要一套可以在短时间内切换使用的热备系统,即热备节点。对于BitMEX这类体量的交易所,一般采取多数据中心部署的方式,在出现故障时可以立即切换至其他数据中心。
关键数据的实时同步:如交易流水、账户余额等等,这是最需要保障的,需要毫秒级的备份,并且结合监控手段,及时发现问题,及时人工干预。
定期演练灾难恢复策略,纸上得来终觉浅。
极端异常环境下的应急处理预案必须满足三个条件:快、准、稳。 第一,核心数据要实时多点备份,并且具备全球节点实时切换的能力;服务器宕机后,可以无缝切换到备份数字集群继续运行;数据库要进行分布式改造,交易通道也要进行改造,实现通道冗余,保证业务不停摆。 第二,需要一支团队7*24小时轮班值守,灾备系统演练每个月做一次,并且要真的跑起来,不能仅仅是流程展示。 第三,需要与交易所的合规团队进行联动,及时对外透明披露处理进展,安抚用户的情绪,避免恐慌。
极端场景下,BitMEX这样的平台有3个:冷热钱包分离,私钥离线保存 多地多活,比如美国,欧洲,亚洲都有很多服务器。 异步存盘且日志加密,即便机器挂了也能恢复。 按照他的思路,你自己平台也得做业务隔离,自动备份,自动切换等方案,先不要考虑一步到位,做好核心链路不丢就可以了。
极端情况下,类似BitMEX的公司会优先保护用户的钱包安全问题,一般来说他们会采用多签钱包、冷热钱包分离、跨地区备份等措施解决这个问题。系统崩溃时,会自动启用备用服务器,并结合人工审核限制账号交易权限。对用户的告知一般会采用短信+邮件+站内信的方式同步通知。
核心原则就是三“不”:一不丧失客户资产;二不惊慌失措客户;三不形成恶性循环。
BitMEX等大型交易平台应急预案应做到以下几点: (1)多种极端场景的应急处理预案,包括但不限于系统宕机、黑客攻击、网络失联等常见风险。 (2)冷热存储相结合,并在多地多点配置冗余服务器集群,在突发情况下能够立即切换至其他线路。 (3)重要信息同步存储于冷钱包中,并对重要数据进行多重签名。 (4)在极端情况下,可以采取卫星通讯来确保基本功能的正常运行。 (5)定期进行极端压力测试以及安全攻防演习。一句话概括就是对于所有可能发生的风险均需做好“预案”。