「サービス連携」から各種サービスとデータ連携します。
※「サービス連携」画面に出てこないものはカスタム接続で対応させていただいておりますので、チャットもしくは担当者へご連絡ください。
■ 連携手順
接続設定
接続名
ディレクトリの名前となります。任意のお好きなものを入力してください。
データセット
連携シートの名前となります。お好きなものを英数字と「-」で入力してください。
パスパターン
**
を入力してください。
バケット
バケット名を入力してください。
AWSアクセスキーID
非公開のデータである場合、入力してください。
AWSシークレットアクセスキー
非公開のデータである場合、入力してください。
パスプレフィックス
バケット名以降のファイルが格納されているフォルダまでのパスを入力してください
例: s3://bucket/folder1/folder2/
に格納されているファイルを連携する場合であれば、folder1/folder2/
を入力
※指定したフォルダとファイルに複数のフォーマットが存在しないようにご注意ください。
さらに「フォーマット」や「文字コード」に変更が必要であれば変更してください。
その他の項目はデフォルト値のままで問題ありませんので、「次へ」進んでください。
オブジェクト選択
フォルダ内に差分のファイルが更新されていく場合には、「データ同期方式」を「差分同期」に変更してください。
「更新キー」は「_ab_source_file_last_modified」のみ選択可能です。
「一意キー」にはファイル内のユニークな列名(IDなど)選択してください。
※同一の「一意キー」で「更新キー」が異なるものがあれば、「更新キー」が新しい方のデータで上書きする挙動となります。詳細は本ページ下部をご参考ください。
連携に成功するとそのサービスのアイコンと接続名が新たに作成され、データ取得がはじまります(グレーのぐるぐるアイコン)。
画面を再読み込みしてアイコンが緑のチェックマークになればデータ取得完了です。
■ 連携仕様
全データ同期
更新の際に、毎回すべてのデータを取得して同期します。
※S3に日次や週次でファイルが増えていくような場合は、年月が経過するにつれてデータ量が膨大になり更新が終わらなくなってしまうなどの問題が発生するため差分同期をお願いします。
差分同期
更新の際に、差分のデータを判別して同期します。
差分の判別には「更新キー」「一意キー」が必要です。
更新キー
時系列の判別に使われる情報です。
S3連携では「_ab_source_file_last_modified」のみ選択可能です。
「_ab_source_file_last_modified」とは、S3上のファイルの更新日です。
更新キーをみて、どのデータが新しいのかを判別します。
一意キー
データの特定に使われる情報です。
S3上のファイルにある列の中から1つ選択可能です。
たとえばIDなど、ユニークに割り当てられる列を選択してください。
一意キーをみて、同期済のデータなのか、新しいデータなのかを判別します。
更新条件
差分同期では、以下のように同期が行われます。
- 一意キーが異なる場合、新しいデータとして同期
- 一意キーが同一で更新キーが異なる場合
- 更新キーが新しければ新しい方のデータで上書き
- 更新キーが古ければそのまま(Srush上のデータは上書きされない)
■ その他
末尾に「_SCD」がつくシートについて
Srushの連携シートは、末尾に「_SCD」がつくものとつかないものがあります。
「_SCD」がつかないシートでは、一意キーは必ず1つだけとなり重複は発生しませんのでこちらをご使用ください。
「_SCD」がつくシートは、データ連携時に生成される副次的なファイルですので分析では使用しないようご注意ください。
同一の一意キーが複数存在するファイルを同期する場合
同一の一意キーが複数存在するファイルがS3にある場合は、Srushへ同期する際に重複排除されて「_SCD」がつかないシートに格納されます。
その際はファイル内で最後に出現した行のデータがSrushへ同期されます。
たとえば、以下のようなデータがS3にあった場合、
一意キー | 氏名 | 部署 |
1001 | 佐藤 | 営業 |
1002 | 宮田 | 営業 |
1003 | 鈴木 | 人事 |
1004 | 高橋 | 開発 |
1001 | 佐藤 | 人事 |
「_SCD」がつかないシートには、一意キー:1001のデータは以下の内容が格納されます。
1001 | 佐藤 | 人事 |
差分同期で一意キーにファイル内の列名が出てこない、全データ同期が赤×で失敗する
ファイルの内容によってファイル内のデータが正常に取得できず、一意キー選択時に列名が表示されない場合、あるいは全データ同期が赤×で失敗する場合があります。
その場合は、文字コードが「utf8」であればまず「データ型の推測」のチェックを外してください。
それでも改善されない、もしくは文字コードが「shiftjis」の場合は接続設定の「スキーマ」を指定する必要があります。
以下の形ですべての列名を並べ、「スキーマ」の入力欄に設定してください。
{"列名1": "string", "列名2": "string"}