双活存储故障测试_存储双活的必要性

1. 双活数据中心是什么

双活数据中心指的是热备份数据中心和冷备份中心。

1、在热备份的情况下，只有主数据中心承担用户的业务，此时备数据中心对主数据中心进行实时的备份，备数据中心可以自动接管主数据中心的业务，用户的业务不会中断，所以也感觉不到数据中心的切换。

2、在冷备份的情况下，也是只有主数据中心承担业务，但是备用数据中心不会对主数据中心进行实时备份，这时可能是周期性的进行备份或者干脆不进行备份，如果主数据中心挂掉了，用户的业务就会中断。

(1)双活存储故障测试扩展阅读：

双活数据中心的优点：

能够充分利用资源，避免了一个数据中心常年处于闲置状态而造成浪费。通过资源整合，“双活”数据中心的服务能力是双倍的。双活数据中心如果断了一个数据中心，另外一个数据中心还在运行，对用户来说是不可感知的。

双活数据中心的建设三个条件：

双活数据中心的建设首先要满足三个条件，第一个是应用双活，也就是说数据库一定要实现双活，第二个是网络要双活，业务网络要保证能够同时联通两个数据中心，第三个是数据要双活，两边的数据要能够实现被独立使用。

参考资料来源：网络：数据中心

2. 存储双活的必要性

存储双活的必要性：

随着云计算的发展，越来越多的生产服务转化成IT应用部署到数据中心。业务连续性的重要性也得到越来越多的关注，而且人们的关注点也不再仅仅集中于前端主机的高可用，而是开始意识到作为数据服务基石——存储层业务连续性的重要性。

存储是数据服务的基础，近几年人们对存储层的高可用越来越重视。只是前端主机实现应用双活，存储不实现双活无法建立真正的双活数据中心。存储双活的这个“双”代表两份数据（或两台存储），“活”代表这两份数据（或两台存储）都可以被读写访问，类似于主机A-A模式的集群。

设计双活存储高可用，防止仲裁防脑裂的方法：

AA模式的双活存储，在某些特定的多重故障下，仲裁机制会优先保证数据的一致性，可能会将双活存储上的所有LUN都停止主机访问。所以，在设计仲裁模式的时候，建议建立第三方站点作为仲裁机，但也不能完全避免上述情况。

所以，还要考虑强制启动，而强制启动端的存储作为同步源端，会在链路恢复后同步增量差异数据。

3. 双活与容灾有什么不同

双活是容灾范畴里的延伸技术，双活和容灾的区别主要体现在从属概念上，容灾在更广义上还包括在建立容灾备份系统时会涉及到多种技术，如：SAN或NAS技术、远程镜像技术、基于IP的SAN的互连技术、快照技术等。双活技术体现了容灾思维的基本脉络，从容灾思维意义上没本质区别。

综上对比发现：容灾是一个范畴比较广泛的概念。广义上，容灾是一个系统工程，包括所有与业务连续性相关的内容。对于IT而言，容灾是提供一个能防止用户业务系统遭受各种灾难影响破坏的计算机系统。而双活主要建立在狭义概念上，是指建立两套或多套功能相同的IT系统，互相之间可以进行健康状态监视和功能切换，当主要站点因意外（如火灾、地震、城市供电中断等）停止工作时，整个应用系统可以利用辅助站点快速恢复，并继续工作。

4. 相比于单纯的备份，双活的优势有哪些

相比于单纯的备份，双活是使用主备两套IT系统同时承载业务（一般“主”所承载的业务量会更多），这样既增加了业务承载量，同时主备又可以互为备援，当一套系统出现故障时可以快速切换到备端，从而保障业务的连续运行，最大程度降低人为或自然灾害对业务造成的影响。但双活的一个致命问题是无法解决逻辑错误问题，基于存储层面的双活一旦遭遇误删除、恶意篡改这种逻辑性错误，也就是出现我们常说的“双死”问题。

5. 存储器的测试

存储器测试的目的是确认在存储设备中的每一个存储位置都在工作。换一句话说，如果你把数50存储在一个具体的地址，你希望可以找到存储在那里的那个数，直到另一个数写入。任何存储器测试的基本方法是，往存储器写入一些数据，然后根据内存设备的地址，校验读回的数据。如果所有读回的数据和那些写入的数据是一样的，那么就可以说存储设备通过了测试。只有通过认真选择的一组数据你才可以确信通过的结果是有意义的。
当然，像刚才描述的有储器的测试不可避免地具有破坏性。在内存测试过程中，你必须覆盖它原先的内容。因为重写非易失性存储器内容通常来说是不可行的，这一部分描述的测试通常只适用于RAM 的测试。一，普通的存储器问题
在学习具体的测试算法之前，你应该了解可能遇到的各种存储器问题。在软件工程师中一个普遍的误解是，大部分的存储器问题发生在芯片的内部。尽管这类问题一度是一个主要的问题，但是它们在日益减少。存储设备的制造商们对于每一个批量的芯片都进行了各种产品后期测试。因此，即使某一个批量有问题，其中某个坏芯片进人到你的系统的可能性是微乎其微的。
你可能遇到的一种类型的存储芯片问题是灾难性的失效。这通常是在加工好之后芯片受到物理或者是电子损伤造成的。灾难性失效是少见的，通常影响芯片中的大部分。因为一大片区域受到影响，所以灾难性的失效当然可以被合适的测试算法检测到。
存储器出问题比较普遍的原因是电路板故障。典型的电路板故障有：
（1）在处理器与存储设备之间的连线问题
（2）无存储器芯片
（3）存储器芯片的不正确插人
二，测试策略
最好有三个独立的测试：数据总线的测试、地址总线的测试以及设备的测试。前面两个测试针对电子连线的问题以及芯片的不正确插入；第三个测试更倾向于检测芯片的有无以及灾难性失效。作为一个意外的结果，设备的测试也可以发现控制总线的问题，尽管它不能提供关于问题来源的有用信息。
执行这三个测试的顺序是重要的。正确的顺序是：首先进行数据总线测试，接着是地址总线测试，最后是设备测试。那是因为地址总线测试假设数据总线在正常工作，除非数据总线和地址总线已知是正常的，否则设备测试便毫无意义。如果任何测试失败，你都应该和一个硬件工程师一起确定问题的来源。通过查看测试失败处的数据值或者地址，应该能够迅速地找出电路板上的问题。
1，数据总线测试
我们首先要测试的就是数据总线。我们需要确定任何由处理器放置在数据总线上的值都被另一端的存储设备正确接收。最明显的测试方法就是写人所有可能的数据值并且验证存储设备成功地存储了每一个。然而，那并不是最有效率的测试方法。一个更快的测试方法是一次测试总线上的一位。如果每一个数据上可被设置成为 0 和1，而不受其他数据位的影响，那么数据总线就通过了测试。
2，地址总线测试
在确认数据总线工作正常之后，你应该接着测试地址总线。记住地址总线的问题将导致存储器位置的重叠。有很多可能重叠的地址。然而，不必要测试每一个可能的组合。你应该努力在测试过程中分离每一个地址位。你只需要确认每一个地址线的管脚都可以被设置成0和 1，而不影响其他的管脚。
3，设备测试
一旦你知道地址和数据总线是正确的，那么就有必要测试存储设备本身的完整性。要确认的是设备中的每一位都能够保持住0和 1。这个测试实现起来十分简单，但是它花费的时间比执行前面两项测试花费的总时间还要长。
对于一个完整的设备测试，你必须访问（读和写）每一个存储位置两次。你可以自由地选择任何数据作为第一步测试的数据，只要在进行第二步测试的时候把这个值求反即可。因为存在没有存储器芯片的可能性，所以最好选择一组随着地址变化（但是不等于地址）的数。优化措施
市场上并不缺少提高数据存储效率的新技术，然而这些新技术绝大多数都是关注备份和存档的，而非主存储。但是，当企业开始进行主存储数据缩减时，对他们来说，了解主存储优化所要求的必要条件十分重要。
主存储，常常被称为1级存储，其特征是存储活跃数据――即经常被存取并要求高性能、低时延和高可用性的数据。主存储一般用于支持关键任务应用，如数据库、电子邮件和交易处理。大多数关键应用具有随机的数据取存模式和不同的取存要求，但它们都生成机构用来运营它们的业务的大量的数据。因此，机构制作数据的许多份拷贝，复制数据供分布使用，库存数据，然后为安全保存备份和存档数据。
绝大多数数据是起源于主数据。随着数据存在的时间增加，它们通常被迁移到二级和三级存储保存。因此，如果机构可以减少主数据存储占用空间，将能够在数据生命期中利用这些节省下来的容量和费用。换句话说，更少的主存储占用空间意味着更少的数据复制、库存、存档和备份。
试图减少主存储占用空间存储管理人员可以考虑两种减少数据的方法：实时压缩和数据去重。
直到不久前，由于性能问题，数据压缩一直没有在主存储应用中得到广泛应用。然而，Storwize等厂商提供利用实时、随机存取压缩/解压技术将数据占用空间压缩15:1的解决方案。更高的压缩率和实时性能使压缩解决方案成为主存储数据缩减的可行的选择。
在备份应用中广泛采用的数据去重技术也在被应用到主存储。目前为止，数据去重面临着一大挑战，即数据去重处理是离线处理。这是因为确定数量可能多达数百万的文件中的多余的数据块需要大量的时间和存储处理器做大量的工作，因此非常活跃的数据可能受到影响。当前，推出数据去重技术的主要厂商包括NetApp、Data Domain和OcarinaNetworks。一、零性能影响
与备份或存档存储不同，活跃数据集的性能比能够用某种形式的数据缩减技术节省的存储容量更为关键。因此，选择的数据缩减技术必须不影响到性能。它必须有效和简单；它必须等价于“拨动一个开关，就消耗更少的存储”。
活跃存储缩减解决方案只在需要去重的数据达到非活跃状态时才为活跃存储去重。换句话说，这意味着实际上只对不再被存取但仍保存在活跃存储池中的文件――近活跃存储级――进行去重。
去重技术通过建议只对轻I/O工作负载去重来避免性能瓶颈。因此，IT基础设施的关键组件的存储没有得到优化。数据库排在关键组件清单之首。由于它们是1级存储和极其活跃的组件并且几乎始终被排除在轻工作负载之外，去重处理从来不分析它们。因此，它们在主存储中占据的空间没有得到优化。
另一方面，实时压缩系统实时压缩所有流经压缩系统的数据。这导致节省存储容量之外的意外好处：存储性能的提高。当所有数据都被压缩时，每个I/O请求提交的数据量都有效地增加，硬盘空间增加了，每次写和读操作都变得效率更高。
实际结果是占用的硬盘容量减少，总体存储性能显着提高。
主存储去重的第二个好处是所有数据都被减少，这实现了包括数据库在内的所有数据的容量节省。尽管Oracle环境的实时数据压缩可能造成一些性能问题，但迄今为止的测试表明性能提高了。
另一个问题是对存储控制器本身的性能影响。人们要求今天的存储控制器除了做伺服硬盘外，还要做很多事情，包括管理不同的协议，执行复制和管理快照。再向这些功能增加另一个功能可能会超出控制器的承受能力――即使它能够处理额外的工作负载，它仍增加了一个存储管理人员必须意识到可能成为潜在I/O瓶颈的过程。将压缩工作交给外部专用设备去做，从性能问题中消除了一个变数，而且不会给存储控制器造成一点影响。
二、高可用性
许多关注二级存储的数据缩减解决方案不是高可用的。这是由于它们必须立即恢复的备份或存档数据不像一级存储中那样关键。但是，甚至在二级存储中，这种概念也逐渐不再时兴，高可用性被作为一种选择添加到许多二级存储系统中。
可是，高可用性在主存储中并不是可选的选项。从数据缩减格式(被去重或被压缩)中读取数据的能力必须存在。在数据缩减解决方案中(其中去重被集成到存储阵列中)，冗余性是几乎总是高可用的存储阵列的必然结果。
在配件市场去重系统中，解决方案的一个组件以数据的原始格式向客户机提供去重的数据。这个组件就叫做读出器(reader)。读出器也必须是高可用的，并且是无缝地高可用的。一些解决方案具有在发生故障时在标准服务器上加载读出器的能力。这类解决方案经常被用在近活跃的或更合适的存档数据上;它们不太适合非常活跃的数据集。
多数联机压缩系统被插入系统中和网络上，放置(逻辑上)在交换机与存储之间。因此，它们由于网络基础设施级上几乎总是设计具有的高可用性而取得冗余性。沿着这些路径插入联机专用设备实现了不需要IT管理人员付出额外努力的无缝的故障切换；它利用了已经在网络上所做的工作。
三、节省空间
部署这些解决方案之一必须带来显着的容量节省。如果减少占用容量的主存储导致低于标准的用户性能，它没有价值。
主数据不具有备份数据通常具有的高冗余存储模式。这直接影响到总体容量节省。这里也有两种实现主数据缩减的方法：数据去重和压缩。
数据去重技术寻找近活跃文件中的冗余数据，而能取得什么水平的数据缩减将取决于环境。在具有高冗余水平的环境中，数据去重可以带来显着的ROI(投资回报)，而另一些环境只能取得10%到20%的缩减。
压缩对所有可用数据都有效，并且它在可以为高冗余数据节省更多的存储容量的同时，还为主存储应用常见的更随机的数据模式始终带来更高的节省。
实际上，数据模式冗余度越高，去重带来的空间节省就越大。数据模式越随机，压缩带来的空间节省就越高。
四、独立于应用
真正的好处可能来自所有跨数据类型(不管产生这些数据是什么应用或数据有多活跃)的数据缩减。虽然实际的缩减率根据去重数据的水平或数据的压缩率的不同而不同，但所有数据都必须合格。
当涉及存档或备份时，应用特有的数据缩减具有明确的价值，并且有时间为这类数据集定制缩减过程。但是对于活跃数据集，应用的特殊性将造成性能瓶颈，不会带来显着的容量缩减的好处。
五、独立于存储
在混合的厂商IT基础设施中，跨所有平台使用同样的数据缩减工具的能力不仅将进一步增加数据缩减的ROI好处，而且还简化了部署和管理。每一个存储平台使用一种不同的数据缩减方法将需要进行大量的培训，并造成管理级上的混乱。
六、互补
在完成上述所有优化主存储的工作后，当到了备份主存储时，最好让数据保持优化的格式(被压缩或去重)。如果数据在备份之前必须扩展恢复为原始格式，这将是浪费资源。
为备份扩展数据集将需要：
使用存储处理器或外部读出器资源解压数据;
扩展网络资源以把数据传送给备份目标；
把额外的资源分配给保存备份数据的备份存储设备。

双活存储故障测试

与双活存储故障测试相关的内容