Please enable JavaScript.
Coggle requires JavaScript to display documents.
Redshift - Coggle Diagram
Redshift
特徴
マルチAZはない、マルチリージョンもない
インスタンスタイプ
RA3インスタンス
1時間400円 最低でも!
高いインスタンスタイプ
2ノード以上
DC2
安いインスタンス
1ノードから作成可能
1時間100円以下
クラスタ構成となる
クラスタはノードから構成される
永続化データはS3が勝手に使われる
ユーザ側からは見えない
AWSが勝手に作成して使う感じ
ノード
リーダーノードとコンピュートノードからなる
コンピュートノードにはキャッシュがあり
よく使うクエリをキャッシュさせることで、高速化可能
運用系はRDSとほぼ同じ
バックアップとか、スケールアップとか、モニタリングとか
Redshift Spectrum
データレイクを使用するときにのみ使用
意義
この機能はS3のデータ内を解析するのだが
これは、atenaとか他のAWSサービスでもできる
spectrumを使う理由は?
理由というか目的になるが
atenaとかはたまたまS3に溜め込んでいたデータを解析するもの
spectrumは解析するためにS3に溜め込むというもの。目的順序が異なる
S3に明示的にデータを溜め込んで解析する
S3バケットを作って溜め込む
クエリエンジンというのがあり、これはコンピュートノードから触られる
クエリエンジンで実際にS3に入っているデータを解析する
役割
データウェアハウス
列思考型でデータを溜め込んでBIツールとかで分析する
業務系データを溜め込む
データレイク
S3にデータを溜め込んでいって、Redshifのスペクトラムで直接分析する
S3がデータレイクとなる
ペタバイトまで拡張可能
ワークロード管理
クエリの実行順序を機械学習で自動化
キューと呼ばれる、実行されるクエリ群かな?
このキューに対して割り当てるリソースを決定できる
スロットと呼ばれる単位で性能を決める
キューの時間かかる度合いに合わせて、機械学習で良き順序を導き出してくれる
スケーリング
スケールさせるにはノードの追加とクラスタの追加がある
ノード
1クラスタあたり32個までノードを追加可能
クラスタ
クラスタは10個まで追加可能
クラスタは一時的な負荷上昇に合わせて、10秒程度で追加できる
連携
データウェアハウスとして
データをredshiftに入れる
RDS
DynamoDB
EMR
Apache SparkとかHive、Prestoなどのビッグデータフレームワークを使用できる
大量のデータを分析できる
Kinesis
S3
データをredshiftから取り出す
QuicSight -> BIツール
Redshiftのデータ可視化できる
S3
RDS(ぽすぐれ)
機械学習のやつ
Glue
ETLとして使う
データの抽出、加工、ロード
AWS Lake Formation
RedshiftはS3とかGlueとか連携できるものが多く、
一から設定するのは面倒
よくある連携パターンをテンプレ化して、自動で作ってくれるやつ