ストレージ

AWS DataSync とは?オンプレ↔AWS データ転送の自動化

AWS DataSync は 大量データ転送を自動化・高速化するサービス。NFS / SMB / HDFS / S3 / EFS / FSx 等の各種ストレージ間でデータをコピーでき、従来手段の 10 倍速度 を謳う。スケジュール実行・差分転送・整合性チェック・帯域制御を備...

オンプレ↔AWS、AWS リージョン間、AWS サービス間のデータ転送を自動化するサービス。


1. 概要(端的に)

AWS DataSync は 大量データ転送を自動化・高速化するサービス。NFS / SMB / HDFS / S3 / EFS / FSx 等の各種ストレージ間でデータをコピーでき、従来手段の 10 倍速度 を謳う。スケジュール実行・差分転送・整合性チェック・帯域制御を備えた、ファイル/オブジェクト一括転送のデファクトツール。


2. 何ができるか

  • オンプレ ↔ AWS 転送:NFS / SMB / HDFS / オブジェクト
  • AWS リージョン間転送:S3 / EFS / FSx
  • AWS サービス間転送:S3 ↔ EFS、S3 ↔ FSx 等
  • 差分転送:変更ファイルのみコピー
  • 検証:転送後のデータ整合性チェック
  • スケジューリング:定期同期
  • 帯域制御:ピーク時の帯域抑制
  • 暗号化:転送中・保存時

3. 特徴

観点特徴
転送速度従来の 10 倍(並列・最適化)
対応プロトコルNFS / SMB / HDFS / オブジェクト
対応 AWS サービスS3 / EFS / FSx (Windows/Lustre/NetApp/OpenZFS)
スケジューリングあり
転送 GB 課金あり(オンプレ→AWS の場合)
帯域制御1 Mbps〜(最大ネットワーク帯域)

vs Storage Gateway / Snowball

観点DataSyncStorage GatewaySnowball
用途一括転送・定期同期継続的なファイル共有物理輸送(超大量)
接続インターネット / Direct Connect同上物理デバイス
速度高速中(キャッシュ依存)物流時間
容量TB 級まで現実的PB 級

4. 仕組み

DataSync は エージェント(オンプレ用)AWS 側のマネージドサービス で構成される。

構成要素

  • DataSync エージェント:オンプレに配置する VM(VMware / KVM / EC2)
  • タスク:転送ジョブ定義(ソース・宛先・スケジュール)
  • ロケーション:転送元・転送先の定義
  • CloudWatch Logs:転送ログ

AWS 内転送の場合

オンプレエージェント不要。AWS マネージドサービスが直接転送する。

動作の流れ(オンプレ→S3 例)

  1. オンプレに DataSync エージェントをデプロイ
  2. AWS マネコンでロケーション定義(オンプレ NFS、S3 バケット)
  3. タスク作成(ソース→宛先のマッピング)
  4. 実行 or スケジュール
  5. エージェントがファイルを並列転送
  6. 整合性検証 → 完了通知

並列・最適化

  • マルチスレッドでファイル並列転送
  • データ圧縮・差分検知で帯域効率化
  • 失敗ファイルの自動リトライ

5. ユースケース

ユースケース 1:オンプレ ファイルサーバー → S3 移行

ペタバイトクラスを段階的・自動的に移行。

ユースケース 2:S3 ↔ EFS 同期

バックアップや分析用の定期同期。

ユースケース 3:リージョン間 S3 同期

S3 レプリケーションが使えないシナリオ(フィルタ・スケジュール柔軟性)。

ユースケース 4:Hadoop HDFS → S3

オンプレ Hadoop データを S3 データレイクへ移行。

ユースケース 5:定期バックアップ

オンプレファイルサーバー → S3 への日次バックアップ。


6. 関連用語

  • S3 — DataSync の主な転送先
  • EFS / FSx — DataSync で同期可能
  • Storage-Gateway — 継続的接続用途(DataSync は転送特化)
  • Snowball — 超大容量物理輸送(DataSync の補完)

7. 関連サイト

AWS 公式

参考


🎓 試験での出題傾向

試験重要度主な出題パターン
CLF出題稀
SAA「オンプレ→AWS 転送・定期同期」シナリオ
DVA出題ほぼなし
SOAデータ転送運用