Google BigQuery / Tableauを使ってみた


TableauからGoogle BigQueryへ接続してみました。
弊社で利用しているTreasureDataからデータ出力してBigQueryへロード、Tableauから接続まで実際に行った手順について記載します。

TreasureDataからAmazonS3へデータ出力

まず、データが蓄積されているTreasureDataからAmazonS3へファイル出力します。
やり方は簡単で、コンソール上の”Result Export”から”AWS S3/Riak CS”を選択して、APIキーや出力先のディレクトリを選択するだけです。
Compressionオプションで”gz”を指定したのですが、これが仇になるとは。。。詳細は後述します。
(GoogleCloudStorageへ直接出力できたら嬉しいな、なんて思いつつ)

AmazonS3からGoogleCloudStorageへデータ転送

AmazonS3からGoogleCloudStorageへのデータ転送はgsutilを使います。

gsutilのインストール

wget https://storage.googleapis.com/pub/gsutil.tar.gz
tar xvzf gsutil.tar.gz
cd ./gsutil
./gsutil config

すると認証用のURLが表示されるので、アクセスして認証コードを入れるだけです。簡単です。

configファイルの編集

インストール設定が完了すると、.botoファイルが生成されます。
AmazonS3から転送を行うためのAPIキーとシークレットキーを設定する箇所があるので設定します。

#aws_access_key_id = <your aws access key ID>
#aws_secret_access_key = <your aws secret access key>

あとは以下のような感じで、S3からCloudStorageへの転送ができます。

gsutil -m rsync -r s3://(bucket)/(path)/ gs://(bucket)/(path)/

BigQueryへのロード

bqコマンドを利用するので、GoogleCloudSDKをインストールします。
インストール方法についてはhttps://cloud.google.com/sdk/に書いてあります。
※コンソールからでもロードはできます。

ファイルについてはtsvで出力したので、以下のコマンドでロードします。

bq load --source_format=CSV --field_delimiter="\t" (Dataset).(Table) gs://(bucket)/(path)/xxxxxx.gz schema.json

フォーマットとしてCSV、tsvファイルなのでデリミタとしてタブ、ロードするファイルのCloudStorageのパス、テーブルスキーマを設定しているjsonを指定します。

loadコマンドのオプションについてはここに詳細が記載されています。

実に簡単だなーと思ったら、ここでつまずきました。ロード失敗。
よくよく調べてみると、CSVフォーマットで圧縮ファイルの場合4GBが上限
ちゃんと書いてありましたね。
https://cloud.google.com/bigquery/loading-data-into-bigquery#quota

かなり馬鹿っぽいんですが、再度ダウンロード、解凍、アップロードしなおしてなんとかロード成功。

今回ロードするファイルがいくつかあり、4GBを超えるものとそうなでないものがあったので、圧縮と非圧縮ファイルのロードのパフォーマンスを比べてみました。
結果は以下のとおりです。

ファイル 圧縮 サイズ サイズ(非圧縮) ロード時間(秒) MB/sec
001 6.25GB 26.76GB 259 105.8
002 6.25GB 26.75GB 249 110.0
003 6.25GB 26.78GB 249 110.1
004 6.25GB 26.78GB 250 109.6
005 ◯(gz) 68.51MB 294MB 35 8.4
006 ◯(gz) 145.21MB 622MB 87 7.1

圧縮と非圧縮でファイルサイズが全然違うので、これだけではなんともいえないですが、
これだけ見ると、非圧縮のほうが10倍くらい速いですね。

BigQueryを使ってみる

本当にデータがロードされたのかコンソール上からクエリを投げて確認してみます。
とりあえず、カウント。
bq1
約3億2千万レコードがロードできました。1.2秒で出力されました。

Tableauから接続

やっとここまで来ました。Tableau経由で接続してみたいと思います。

  • Tableauのデータ接続から”Google BigQuery”を選択します。
  • 認証画面が出るので、GCPが利用できるGoogleアカウントのID/パスワードを入力します。
  • プロジェクト>データセットを選択するとテーブル一覧が表示されるので選択します。

あとは他のデータソースと同じ形でいけます。
今回、BigQueryにはAudienceOneのテストデータを入れました。
なので、こんな感じでユーザの分析ができます。3億レコード入ってますがサクサクできました。

bq2

TableauからはRedshiftに接続して利用することが多かったのですが、BigQueryもアリですね。
とはいえ、レコード数が多くなるとクエリ単位に課金されてしまうので、若干コストが心配ですが。


DACエンジニア採用情報

  関連記事

logomono-tableau-software-mono
Tableauを利用してMySQLとRedshiftのクロスDBジョインを実現する

はじめに RedshiftやTreasureDataなどのデータマート用のDBにはID単位の解析結果が格納され、ローカルのMySQLにはIDに紐づいた名称マスタが管理されている構成の場合、データマートのクロス集計結果に対してIDに紐づいた名称を付与したいことがあります。 データマート用に用意したDB …

PPG_anteli-kunatokei_TP_V
Treasure Dataで大規模なマスタデータを扱う際にはtimeカラムインデックスを活用しよう

DACではTreasure Dataを利用して各種データの蓄積や集計を行っています。Treasure Dataは時系列のデータを扱うのに特にすぐれたアーキテクチャなのですが、セグメントIDとユーザーIDの組み合わせといった大量のマスタデータを利用した計算にも利用することもできます。そのような場合にt …

sqlカクテル
【入門編】TreasureDataでサイトのアクセス解析をしてみた~第2弾!~

今回もやります、集計クエリ解説シリーズ第2弾!! 前回は、Webログからセッション単位のデータを作成するだけでした。 第2弾では作成したテーブルを元に、より実践的なアクセス解析、サイト分析で使えるHiveQLについて、実際に使用したクエリとともに解説していきたいと思います。 今回やったこと 利用した …

【超入門】Hivemallで機械学習_サムネイル
【超入門】Hivemallで機械学習 〜Treasure Dataでロジスティック回帰編〜

こんにちは。俺やで。 ビッグデータとかデータサイエンティストとかいう言葉が未だブームですね。 (「データサイエンティスト」は下火か。) ビッグデータ扱えるエンジニアも、 統計解析ができるアナリストも、 どっちもできるスーパーマンも世の中にはたくさんいますが、 ビッグデータも統計解析も扱えるインフラは …

14391226325_8c35c2a652_z
D3.jsとその活用事例について

D3.jsとは? D3とは「Data Driven Document」の略で、データに基づいてドキュメントを操作するための JavaScript ライブラリです。 ご存知の方も多いと思いますが、ちょっとだけD3.jsの基本的な使い方、そして弊社プラットフォームでの利用についてご紹介したいと思います。 …

heatmap
巨大データベースのスケールアップと引越作業

はじめに ビッグデータ解析部でオーディエンスデータ解析基盤の開発、運用を担当している Mike です。 弊社ではインターネット広告配信ログをはじめとする「ビッグデータ」と呼ぶにふさわしいデータボリュームを扱うオーディエンスデータ解析基盤を構築しています。今秋、そのうちの1構成要素である、データサイズ …

gasserverless
GoogleAppsScriptとTreasureData REST APIを使ってサーバレスにTwitterのデータを取得

またまたTreasureDataネタです。 ただ、今回はクエリ系のネタではなく、GoogleAppsScriptとTreasureDataのREST APIを使ってTwitterのデータをTreasureDataに入れてみたので、その方法を紹介したいと思います。 はじめに ログデータだけではなく、公 …

6914441342_605f947885
Treasure Dataの新機能(Data Tank)をAudienceOneのレポート機能で利用した話

Data Tankとは? Treasure Dataの新機能でTreasure Dataのプラットフォーム上に構築されたデータマートです。 Tableau等のBIツールとの接続を想定されており、AWSでいうところのRedshift的なものだと考えるとわかりやすいかと。 Data TankはPostg …

no image
いま必要なのは「アナリティクスアプローチ」

こんにちは。 ビッグデータ解析部のakiです。 解析部で、Markezineでの連載をはじめましたのでご紹介です。 いま必要なのは「アナリティクスアプローチ」、ビッグデータ活用の課題とこれから (http://markezine.jp/article/detail/21293) マーケターのかた向け …

logomono-tableau-software-mono
Tableau 9.2で郵便番号の特性を地図で可視化してみる

Tableau 9.2から郵便番号地図が表示可能に 弊社ではデータ分析ツールのTableauを利用しています。オーディエンスデータの重複を分析したり、デモグラフィック属性を表示したりするなどデータの可視化に役立ちますTableauでは9.2から日本の郵便番号を用いて地図を可視化できるようになりました …