Please enable JavaScript.
Coggle requires JavaScript to display documents.
S3とGCS, 課題 (ジョブ実行対象を わかりやすくしたい, ファイル名, S3の保管, 運用時にエラーファイルを わかりやすくしたい,…
S3とGCS
S3
ファイルの持ち方
フラット
フォルダ分け
機能
日付
ファイル
削除
する
しない
連携
同期
フォルダ移動
ファイル名
動的部分あり
動的部分なし
GCS
アーカイブ方法
バケットで分割
フラットの中でクラスチェンジ
フォルダでクラスチェンジ
組み合わせ
その1
S3
フラット
連携
同期
GCS
フラットでクラスチェンジ
課題
ジョブ実行対象を
わかりやすくしたい
そもそも、ジョブ実行は
どの単位なのか?
機能
ファイル
n:nの場合のジョブ制御はどうする?
※必要CSVがジョブでかぶる
そもそも、日次とかのタイミングで
必要なファイルはすべて連携する
なら、日付ごとのフォルダを作成して
入れ込む方が便利
命名規約で、該当日付分をすべて取得
取込JOBとして一つにまとめる
一時テーブルを作成したほうが
クエリとして扱いやすい?
日次のバッチとして全部まとめる
切り戻しはかなりやりにくい
全TRテーブル作成まで
DWHは書き込まない方が無難
S3側でなんとかする?
実行単位ごとにフォルダを区切る
連携完了後は削除する
(mvを使う)
容量によってはStorageTransferServiceの検討
ファイル名
動的部分なし
動的部分あり
S3の保管
削除
残すのか
運用時にエラーファイルを
わかりやすくしたい
GCSのフォルダ分け
GCSでバケット分け
保管時のコストを抑えたい
クラスチェンジ
GCS
保管方法
バケット分割
フォルダで分割
フラット
アーカイブは容易に
削除できないようにしたい
ディレクトリを分けてdelete権限を制御する
連携後どうするか
フォルダ
フォルダ名
サブジェクト
実行日付
ファイル名
S3
フラット
命名規約
ファイル名はユニークにする
UUIDと紐付け?
管理テーブルで管理する
ログ
共有ストレージ
ファイル
命名規約
持ってきて適切にする
バッチ実行してから