重複排除の削減効果を計算してみよう!
だいぶ前から考えていたのですが、バックアップにおける重複排除の効果、これをどう説明したらよいか? にチャレンジしてみました。
教科書的なパターン(ポリシー)で、バックアップデータの保管容量に重複排除がどれほど効果があるか理論上の計算になります。簡単にするため容量のみの表にしています。バックアップストレージの速度がわかればバックアップ時間も表に追加することは簡単です。
では、いろいろな前提や条件、仮定を以下に列挙します。
バックアップポリシー
各曜日の業務終了後にバックアップを実施
- 日曜日:フルバックアップ
- 月~土:増分バックアップ
バックアップ対象データ
- プライマリーストレージのデータ:10TB(初期値)
データ増加率
- 月~金曜:0.2%
- 土曜日:0.05%(少数の休日業務などを考慮)
- 日曜日:0%(データ増加なし)
データにある重複部
- 重複部の検出率(10%)
上記のポリシーや条件(仮定)で、4週間(28日間)にわたってバックアップを継続し、28日間のバックアップデータを保管した時の計算が以下の表となります。
表の最後の行の赤枠の2箇所にご注目ください。通常のバックアップでは、約41.1TBの容量を格納するストレージが必要となります。一方、重複排除バックアップでは約9.39TBの容量を格納できるストレージでよいのです。重複排除の効果によって、約「4.4分の1」のサイズとなっています。
(計算あってるかな? 間違いがなければいいんですが…)
ちなみに、同条件でこの計算を繰り返しバックアップ期間を3か月間(12週、84日)とした場合、通常のバックアップに必要な保管容量は約129TBとなりますが、重複排除バックアップにすると約10.2TBで済みます。保管するバックアップデータ量は約「12分の1」になります。
つまり、バックアップを重複排除ストレージで行うと、通常のストレージ(ストレートディスク)に比べてはるかに少ない容量サイズのストレージ装置でバックアップデータを保管できることがわかります。
また、日々のデータの増加率が高くなると重複排除効果は低くなり、データに重複部分が多い(重複部分の率が高い)と当然のことながら重複排除効果は高まります。
参考記事:
上記の計算は「@IT」の「重複排除とは何か(2/2)」記事を参考にさせていただき、それに独自の変更を加えました。「@IT」の記事では、月曜日にフルバックアップを行い、土曜と日曜日にはデータの増加がない、という前提の表になっています。また説明文中に「差分バックアップ」とありますが、これは「増分バックアップ」の誤り?と理解して今回の表を作成しました。
以上です。
すべての記事をまとめた★カテゴリーごとの全記事一覧★がありますのでご覧ください。
≪ Cisco Webex Meetings参加の手引 | HOME | 初めての入店制限 ≫