AWS DataSyncとは?
サービス概要
AWS DataSyncは、オンプレミス環境やクラウド間でデータを高速かつ安全に転送するマネージドサービスです。ネットワークの最適化や並列処理を活用し、従来の転送方法(rsync、SCP、手動コピーなど)と比較して、はるかに高速なデータ転送を実現します。
DataSyncは、次のような特徴を持っています。
簡単なセットアップ:管理コンソールまたはCLIを使用して数ステップでデータ転送を開始可能
高速転送:並列処理による高速化(最大10Gbps以上)
データ整合性の確保:転送後に整合性チェックを実施
セキュリティ対策:エンドツーエンドの暗号化、IAMポリシーによるアクセス制御
スケーラビリティ:大容量データの移行にも対応
AWS DataSyncは、AWS内外のストレージ間でのデータ転送に活用できます。サポートされる転送先・転送元の例として、以下が挙げられます。
オンプレミス ⇔ AWS(NFS, SMB, HDFS ⇔ S3, EFS, FSx)
AWS内のストレージ間(S3 ⇔ FSx、EFS ⇔ S3 など)
リージョン間のデータ転送(S3バケット間の移行)
主なユースケース
AWS DataSyncは、特に以下のようなシナリオで有効に活用できます。
オンプレミスからAWSへのデータ移行
企業がクラウドへの移行を進める際に、既存のファイルサーバーやストレージシステムのデータをAWSへ転送。
例:オンプレミスのNASストレージ(NFS, SMB)からAmazon S3やEFS,FSxへ移行。
AWS内でのデータ転送
AWSの異なるストレージ間でデータを移動し、システムの最適化やコスト削減を実施。

AWS DataSyncの主な機能
高速データ転送の仕組み
AWS DataSyncは、従来のファイル転送プロトコル(rsync, SCP など)と比較して、はるかに高速なデータ転送を実現します。その仕組みには以下の特徴があります。
▶並列処理による最適化
DataSyncは複数のファイルやディレクトリを並列に処理し、転送速度を向上させます。大規模なデータセットを扱う際も、効率的に帯域幅を活用します。
▶差分転送の活用
すでに転送済みのデータと比較し、変更があったデータのみを転送することで、転送時間とコストを削減します。
▶圧縮技術
圧縮化を行うことが標準機能に搭載されているため、高速なデータ転送を可能にします。
▶最大10Gbps以上のスループット
ネットワーク環境によりますが、DataSyncはAWS Direct Connectを活用することで、10Gbps以上の高速データ転送を実現できます。
サポートされるストレージ間の転送
AWS DataSyncは、さまざまなストレージ間でのデータ転送に対応しており、以下のようなパターンが可能です。
オンプレミスおよびクラウドストレージ間の転送
送信元 (から) | 送信先 (へ) |
---|---|
NFS SMB HDFS オブジェクトストレージ |
Amazon S3 (AWS リージョン内) Amazon EFS Amazon FSx for Windows File Server FSx for Lustre FSx for OpenZFS FSx for ONTAP |
Amazon S3 (AWS リージョン内) Amazon EFS FSx for Windows File Server FSx for Lustre FSx for OpenZFS FSx for ONTAP |
NFS SMB HDFS オブジェクトストレージ |
他のクラウドサービスからAWSへの転送
送信元 (から) | 送信先 (へ) |
---|---|
Google Cloud Storage Microsoft Azure Blob Storage Microsoft Azure Files Wasabi Cloud Storage DigitalOcean Spaces Oracle Cloud Infrastructure Object Storage Cloudflare R2 Storage Backblaze B2 Cloud Storage NAVER Cloud Object Storage Alibaba Cloud Object Storage Service IBM Cloud Object Storage Seagate Lyve Cloud |
Amazon S3 (AWS リージョン内) Amazon EFS Amazon FSx for Windows File Server FSx for Lustre FSx for OpenZFS FSx for ONTAP |
AWSから他のクラウドサービスへの転送
送信元 (から) | 送信先 (へ) |
---|---|
Amazon S3 (AWS リージョン内) Amazon EFS Amazon FSx for Windows File Server FSx for Lustre FSx for OpenZFS FSx for ONTAP |
Google Cloud Storage Microsoft Azure Blob Storage Microsoft Azure Files Wasabi Cloud Storage DigitalOcean Spaces Oracle Cloud Infrastructure Object Storage Cloudflare R2 Storage Backblaze B2 Cloud Storage NAVER Cloud Object Storage Alibaba Cloud Object Storage Service IBM Cloud Object Storage Seagate Lyve Cloud |
AWS Snowball Edgeとの転送
送信元 (から) | 送信先 (へ) |
---|---|
Amazon S3 互換ストレージ (AWS Snowball Edge) |
Amazon S3 (AWS リージョン内) Amazon EFS Amazon FSx for Windows File Server FSx for Lustre FSx for OpenZFS FSx for ONTAP |
Amazon S3 (AWS リージョン内) Amazon EFS FSx for Windows File Server FSx for Lustre FSx for OpenZFS FSx for ONTAP |
Snowball Edge上のAmazon S3 互換ストレージ |
AWS内でのストレージ間転送
送信元 (から) | 送信先 (へ) |
---|---|
Amazon S3 (AWS リージョン内) Amazon EFS FSx for Windows File Server FSx for Lustre FSx for OpenZFS FSx for ONTAP |
Amazon S3 (AWS リージョン内) Amazon EFS FSx for Windows File Server FSx for Lustre FSx for OpenZFS FSx for ONTAP |
Amazon S3 AWS Outpostsとの転送
送信元 (から) | 送信先 (へ) |
---|---|
Amazon S3 (AWS リージョン内) | Amazon S3 AWS Outposts |
Amazon S3 AWS Outposts | Amazon S3 (AWS リージョン内) |
データの整合性チェック
AWS DataSyncでは、データ転送後の整合性を保証するために3つの検証モードが提供されます。用途に応じて適切なモードを選択できます。
① 転送されたデータのみを検証する(推奨)
設定値:ONLY_FILES_TRANSFERRED
DataSyncは、転送されたデータ(メタデータを含む)のチェックサムをソースロケーションで計算し、転送終了時に転送先のデータと比較します。
S3 Glacier Flexible Retrieval または S3 Glacier Deep Archive にデータを転送する場合、このオプションが推奨されます。
検証対象が転送データに限定されるため、他のオプションと比較してパフォーマンスの影響を抑えることが可能です。
② すべてのデータを検証する
設定値:POINT_IN_TIME_CONSISTENT
転送の最後に、DataSyncは送信元と送信先全体を比較し、完全に同期されているかを検証します。
注意点
タスクで拡張モードを使用する場合、このオプションはサポートされません。
マニフェストを使用する場合、DataSyncはマニフェストにリストされたデータのみをスキャンおよび検証します。
S3 Glacier Flexible Retrieval または S3 Glacier Deep Archive には非対応(詳細は「Amazon S3 転送におけるストレージクラスに関する考慮事項」を参照)。
転送後の整合性をより厳密にチェックする必要がある場合に適していますが、大規模データでは検証に時間がかかることがあります。
③ 転送後にデータを検証しない
設定値:NONE
DataSyncは、転送中にデータ整合性チェックを実施しますが、転送完了後の追加検証は行いません。
パフォーマンス重視で、追加の整合性チェックが不要な場合に適しています。
データの完全性保証が不要なケース(例えば、転送元データを変更せず、別の方法で検証する場合)に有効です。
これにより、データの一貫性が保たれ、信頼性の高いデータ転送が実現できます。
暗号化とセキュリティ
AWS DataSyncでは、データ転送時および保存時のセキュリティを確保するため、以下の仕組みを提供しています。
▶転送中のデータ暗号化(in-transit encryption)
DataSyncは、TLS(Transport Layer Security)を使用してデータを暗号化し、転送中の情報漏洩を防ぎます。
▶保存データの暗号化(at-rest encryption)
転送先のストレージがサポートしている場合、S3のSSE(Server-Side Encryption)やEFS/FSxの暗号化機能を利用可能。
▶IAM(AWS Identity and Access Management)によるアクセス制御
DataSyncのジョブはIAMポリシーを通じて管理され、不要なアクセスを制限できます。
▶VPCエンドポイント対応
DataSyncをAWS VPC(Virtual Private Cloud)エンドポイント経由で利用することで、インターネットを経由せずにセキュアな転送が可能。
これらのセキュリティ機能により、DataSyncはエンタープライズレベルのデータ保護を実現し、安全なデータ転送を提供します。
AWS DataSyncのアーキテクチャ
AWS DataSyncは、大容量データを高速かつ安全に移動するためのサービスであり、複数のコンポーネントが連携して動作します。本章では、DataSyncのアーキテクチャを理解するために、各コンポーネントの役割、エージェントの導入方法、データ転送フローについて解説します。
コンポーネントの概要
AWS DataSyncのアーキテクチャは、以下の主要コンポーネントで構成されます。
コンポーネント | 役割 |
---|---|
ソース(送信元)ストレージ | 転送元のデータが格納されているストレージ(NFS、SMB、HDFS、オブジェクトストレージ、Amazon S3、Amazon EFS など) |
DataSync エージェント | オンプレミス環境や他のクラウドストレージとAWS間のデータ転送を仲介する仮想アプライアンス |
AWS DataSync サービス | AWSのマネージドサービスとして、データの転送、整合性チェック、スケジューリング、暗号化などを管理 |
ターゲット(送信先)ストレージ | 転送先となるAWSのストレージサービス(Amazon S3、EFS、FSx など) |
タスク | DataSyncが実行するデータ転送ジョブ。転送元、転送先、オプション(スケジュール、整合性チェック、暗号化など)を指定して設定する |
DataSyncは、これらのコンポーネントが連携することで、安全かつ効率的なデータ移動を実現します。
AWS DataSyncのセットアップ手順
AWS DataSyncを利用してデータを転送するには、エージェントのデプロイからタスクの作成、同期設定までの手順を適切に実施する必要があります。
本章では、DataSyncのセットアップ手順について詳しく解説します。
前提条件
AWS DataSyncを利用するには、以下の前提条件を満たしている必要があります。
① AWSアカウントの準備
AWS DataSyncを利用するには、有効なAWSアカウントが必要です。まだアカウントを持っていない場合は、AWS公式サイトで作成してください。
② ネットワーク要件の確認
DataSyncエージェントをオンプレミスまたは他のクラウド環境で使用する場合、以下の通信要件を満たす必要があります。
通信先 ポート プロトコル
AWS DataSync サービスエンドポイント 443 HTTPS
NFS/SMB/HDFS ストレージ (送信元/送信先) 2049 (NFS) / 445 (SMB) TCP
Amazon S3 / EFS / FSx 443 HTTPS
ファイアウォールの設定やVPCエンドポイントの利用を考慮し、必要な通信を許可してください。
③ IAM 権限の設定
DataSyncでAWSリソースにアクセスするためのIAMロールが必要です。以下のポリシーを持つIAMロールを作成してください。
{
"Version": "2012-10-17",
"Statement": [
{
"Effect": "Allow",
"Action": [
/*
必要Action以外は削除お願いします。
*/
"s3:*",
"efs:*",
"fsx:*",
"datasync:*"
],
"Resource": "*"
}
]
}
エージェントのデプロイ
AWS DataSyncエージェントは、オンプレミス環境や他のクラウドストレージとAWSの間でデータを転送する際に必要なコンポーネントです。
① デプロイ方法
AWS DataSync エージェントは、以下の環境にデプロイ可能です。
▶ オンプレミス環境:
VMware ESXi
KVM (Kernel-based Virtual Machine)
Microsoft Hyper-V
▶ クラウド環境:
Amazon EC2 (仮想プライベートクラウド/VPC内)
AWS Snowball Edge
AWS Outposts
② デプロイ手順
▶ オンプレミス環境 (VMware/KVM/Hyper-V)
AWS DataSync コンソールからエージェントの仮想マシン (VM) イメージをダウンロード
ハイパーバイザーにVMイメージをデプロイ
エージェントのIPアドレスを取得し、AWSでアクティベート
▶ Amazon EC2
AWS CLIまたはAWS Management Consoleから最新のDataSync AMI IDを取得
Amazon EC2 インスタンスを起動
適切なネットワーク設定 (VPC, サブネット, セキュリティグループ) を構成
エージェントのIPアドレスを取得し、AWSでアクティベート
③ 注意点
▶ ネットワークレイテンシー対策
オンプレミスのストレージを使用する場合、エージェントをストレージに近い環境に配置
EC2上のエージェントはオンプレミスストレージ向けには推奨されない
▶ ハイパーバイザー固有の設定
環境ごとに適切なイメージ (.ova, .qcow2, .vhdx) を使用
Hyper-V の Broadcom ネットワークアダプター使用時はVMQの設定に注意
▶ AWS 環境でのコスト管理
EC2エージェントのデプロイ時、アベイラビリティーゾーン間のデータ転送料金が発生しないように設定
転送タスクの作成
エージェントが登録できたら、次に転送タスクを作成します。
タスクの作成手順
AWS DataSync コンソールにアクセスし、「タスクの作成」をクリック
「送信元ロケーション」を選択(NFS、SMB、HDFS、オブジェクトストレージなど)
「送信先ロケーション」を選択(Amazon S3、EFS、FSx など)
転送設定を構成(スケジュール、整合性チェック、帯域制限 など)
タスクを作成し、一覧に追加されることを確認
データの同期設定
転送タスクを作成したら、定期的な同期設定を行うことで、最新データを自動で同期できます。
データ転送フロー
▶タスクの作成
AWS DataSync コンソールまたはAWS CLIでタスクを作成
送信元ストレージと送信先ストレージを指定
オプション設定(スケジュール、整合性チェック、帯域制御 など)
▶データのスキャンと転送準備
DataSyncは、転送元のファイルをスキャンし、変更があるかどうかを判別
増分転送の場合、変更されたデータのみを識別
▶データ転送の実行
DataSyncエージェントがデータをAWSへ送信
ネットワーク最適化(並列処理・圧縮)を活用し、高速にデータを転送
▶データの整合性チェック
転送終了後、設定された検証モードに応じてデータの整合性チェックを実施
ONLY_FILES_TRANSFERRED(推奨)などのオプションを活用
▶タスクの完了とログの確認
AWS Management Console またはCloudWatchでタスクのステータスを確認
必要に応じてエラーログを確認し、再試行
AWS DataSyncのセットアップは、エージェントのデプロイ→転送タスクの作成→同期設定の順で行います。
この手順を正しく実施することで、AWS DataSyncを活用した効率的なデータ転送が実現できます。
AWS DataSyncのパフォーマンス最適化
AWS DataSyncのデータ転送速度や効率を最大限に引き出すためには、ネットワークやストレージの設定を適切に調整することが重要です。本章では、DataSyncの帯域幅の最適化・並列転送の活用・ネットワーク設定のベストプラクティスについて解説します。
帯域幅の最適化
AWS DataSyncでは、大容量のデータを短時間で転送するために、利用可能なネットワーク帯域幅を最大限活用することが重要です。
帯域制限の設定
DataSyncはデフォルトでネットワーク帯域をフルに使用しますが、他の業務トラフィックへの影響を考慮し、スロットリング(帯域制限)を設定することが可能です。
設定方法:
AWS Management Console:
タスク作成時に「帯域幅の制限(Bandwidth Throttling)」を有効化し、Mbps単位で最大利用帯域を指定
AWS CLI:
sh
aws datasync update-task \
--task-arn <タスクARN> \
--options "{\"BytesPerSecond\": }"
ポイント:
業務時間外に帯域をフル活用するスケジュール設定を推奨
Amazon CloudWatchを活用し、ネットワーク使用率をモニタリング
並列転送の活用
DataSyncはデータ転送の並列化を行うことで、パフォーマンスを向上させることが可能です。
複数のワーカーを使用した並列処理
DataSyncはファイル単位で並列処理を実行します。より多くのワーカーを使用することで、転送速度を向上させることができます。
設定方法:
AWS Management Console:
タスク作成時に「並列処理の有効化(Parallelism)」を設定
AWS CLI:
sh
aws datasync update-task \
--task-arn <タスクARN> \
--options "{\"TaskQueueing\": \"ENABLED\"}"
ポイント:
小さなファイルが大量にある場合、並列数を増やすことで速度向上
CPU・メモリの負荷が高くなるため、エージェントのリソース状況を考慮
転送先のストレージのスループットに応じて適切な設定を行う
ネットワーク設定のベストプラクティス
AWS DataSyncのネットワーク環境を適切に構成することで、転送速度の最大化とエラーの最小化が可能です。
VPN/Direct Connectの活用
AWS Direct Connectを利用することで、安定した大容量データ転送が可能
Site-to-Site VPNを併用することで、暗号化通信を確保
セキュリティグループとNACLの最適化
AWS DataSyncが使用するポート許可
VPCエンドポイントを活用し、AWS内のトラフィックを最適化
セキュリティグループのインバウンド/アウトバウンドルールを適切に設定
AWS DataSyncの料金体系
AWS DataSyncは、シンプルな従量課金制の料金体系を採用しており、データ転送量やタスク実行回数に応じた課金が発生します。本章では、DataSyncの課金モデルと注意点について詳しく解説します。
課金モデル
AWS DataSyncの料金は、データ転送量に基づく基本料金とタスク実行にかかる料金(拡張モードのみ) で構成されています。
【データ転送の料金】
転送されたデータ量に応じて課金されます。
モード | 転送先/転送元 | 料金 (東京リージョン) |
---|---|---|
拡張モード | S3 ロケーション間 | USD 0.015/GB |
ベーシックモード | すべてのサポート対象ストレージ | USD 0.0125/GB |
拡張モードの特徴
▶並列処理 により大規模データ転送が高速化
▶S3ロケーション間のデータ転送 のみ対応
▶タスク実行ごとに追加料金 (USD 0.55/タスク) が発生
ベーシックモードの特徴
▶すべてのストレージタイプに対応
▶拡張モードに比べて転送速度は低下
▶タスク実行の追加料金なし
【DataSync Discovery の料金】
最大31日間の検出ジョブ: 無料
ジョブ完了後、データとレコメンデーションは60日間保持(追加料金なし)
注意点
AWS DataSyncの料金には、データ転送量とタスク実行料金のほかに、AWSの他のサービスに関連する追加料金が発生する場合があります。
【AWS サービスの追加料金】
DataSyncでデータをコピーする際、以下のAWSサービスの標準料金が適用されます。
関連サービス | 課金内容 |
---|---|
Amazon S3, EFS, FSx | ストレージ費用(データ保存・リクエスト料金) |
AWS KMS | データ暗号化/復号の費用 |
AWS PrivateLink | VPCエンドポイントの利用料金(コントロールトラフィックのみ) |
Amazon CloudWatch | ログ・メトリクス・イベントの費用 |
ポイント
▶DataSyncのファイル転送データ自体はPrivateLinkの課金対象外
▶CloudWatchの監視コストを考慮し、ログの保存期間を最適化
【AWSリージョン間のデータ転送】
AWS内で異なるリージョンやオンプレミス環境との間でデータを転送する場合、リージョン間またはAWS⇔オンプレミス間のデータ転送(OUT)料金が発生します。
転送元 | 転送先 | 課金対象 |
---|---|---|
AWSリージョンA | AWSリージョンB | リージョン間データ転送 (OUT) 料金 |
AWS | オンプレミス | AWSからのデータ転送 (OUT) 料金 |
EC2エージェント | AWSサービス間 | リージョン/AZ間のデータ転送 (OUT) 料金 |
ポイント
▶AWS DataSync EC2エージェントを利用するとAZ間転送料金が発生する可能性があるため、同じAZ内で実行するのが理想
▶Amazon S3のストレージクラスに応じた追加料金にも注意(Glacier系への転送は別途料金発生)
【AWS DataSync Discovery の追加料金】
オンプレミスストレージシステムの認証情報をAWS Secrets Managerで管理する場合、Secrets ManagerのAPIコール料金が発生します。
まとめ
AWS DataSync は、高速かつセキュアなデータ転送を実現するサービスであり、オンプレミスやクラウド間のデータ移動を効率化します。エージェントを適切にデプロイし、最適な設定を行うことで、パフォーマンスを最大化できます。特に、並列処理や帯域幅制御を活用することで転送速度を向上させ、コスト最適化も図れます。また、整合性チェック機能を活用し、確実なデータ同期を実現可能です。料金体系はシンプルな従量課金制で、データ転送量に応じたコストが発生しますが、追加料金にも注意が必要です。用途に応じたモード選択やネットワーク設定の最適化を行うことで、DataSync の利便性を最大限に活かせます。