データベース

Redshift Spectrum とは?S3 を Redshift から直接クエリ

Redshift Spectrum は S3 のデータを Redshift クラスターからロードせずに直接 SQL クエリできる機能。Redshift クラスター内のデータと S3 上のデータを JOIN して分析可能。データレイクと DWH を統合した分析が実現できる。 ---

S3 上のデータを Redshift から直接 SQL でクエリできる機能。データレイクとの統合に有効。


1. 概要(端的に)

Redshift Spectrum は S3 のデータを Redshift クラスターからロードせずに直接 SQL クエリできる機能。Redshift クラスター内のデータと S3 上のデータを JOIN して分析可能。データレイクと DWH を統合した分析が実現できる。


2. 何ができるか

  • S3 データの直接 SQL クエリ:ロード不要
  • Redshift と S3 のデータ JOIN:シームレス分析
  • 多形式対応:Parquet / ORC / CSV / JSON
  • Glue Data Catalog 統合:スキーマ管理
  • スキャン量に応じた課金:使った分だけ

3. 特徴

観点特徴
追加料金スキャンしたデータ量($5/TB)
対応形式Parquet(推奨)/ ORC / CSV / JSON / Avro
スキーマ管理AWS Glue Data Catalog
対象S3 のみ

vs Athena

観点Redshift SpectrumAthena
必要前提Redshift クラスターなし(サーバーレス)
統合Redshift と JOIN 可単体
料金$5/TB スキャン$5/TB スキャン
用途DWH + データレイク連携アドホック分析

同じ料金体系だが用途が違う。


4. 仕組み

Redshift Spectrum は Redshift クラスターから別の Spectrum 専用ワーカーにクエリを送り、S3 上のデータをスキャン・処理する。Redshift 本体のリソースは消費しない。

動作の流れ

  1. Glue Data Catalog で S3 上のデータスキーマを定義
  2. Redshift で External Schema として登録
  3. Redshift から SELECT ... FROM external_schema.s3_table
  4. Spectrum がリーダーから別ワーカーに処理委託
  5. S3 をスキャン → 結果を Redshift に返す

5. ユースケース

ユースケース 1:コールドデータの分析

頻繁アクセスデータは Redshift、過去ログは S3 に置いて Spectrum で参照。

ユースケース 2:データレイク統合

Glue + S3 + Spectrum でデータレイク分析。

ユースケース 3:コスト最適化

Redshift にロードせずに S3 から直接クエリ → ストレージコスト削減。


6. 関連用語

  • Redshift — Spectrum の基盤
  • S3 — データソース
  • Athena — 競合(サーバーレス代替)
  • Glue — Data Catalog 提供

7. 関連サイト

AWS 公式


🎓 試験での出題傾向

試験重要度主な出題パターン
CLF出題なし
SAAデータレイク統合シナリオ
DVA出題稀
SOA出題ほぼなし