GoogleAppsScriptとTreasureData REST APIを使ってサーバレスにTwitterのデータを取得


またまたTreasureDataネタです。
ただ、今回はクエリ系のネタではなく、GoogleAppsScriptとTreasureDataのREST APIを使ってTwitterのデータをTreasureDataに入れてみたので、その方法を紹介したいと思います。

はじめに

ログデータだけではなく、公開されているAPIからデータを取得したり、クロールしたデータをTreasureDataに入れたいな、なんて思ったことはありませんか?
(そういったニーズがある前提で話を進めます)

そういった場合、1回だけデータを入れるのであれば、マニュアルで対応してしまえばいいですが、定期的にデータを取得したいとなると、サーバの準備をしなくてはいけなかったり、ちょっとめんどうです。
そんな課題に応えるべく、GoogleAppsScriptを使ってサーバレスにやってみました。

概要

GoogleAppsScirptの処理のおおまかな流れとしては、以下のようになっています。

  • TwitterAPIの認証&Search APIを利用してデータを取得
  • 取得したデータをTreasureDataのAPIを使ってデータ投入

 

上記GoogleAppsScirptをトリガー機能を使って定期実行

Twitter APIについて

いろいろサイトでTwitterAPIの使い方については解説されているので、細かい説明は割愛します。
TwitterAPIの認証と、SearchAPIを使ってTweetを取得するGoogleAppsScriptのコードは以下になります。
リクエストをかけるのにUrlFetchAppを利用しています。

[code lang=”js”]
function getTwitterAccessToken(){
var consumerKey = "(Your ConsumerKey)";
var consumerSecret = "(Your ConsumerSecret)";
var auth = Utilities.base64Encode(consumerKey + ‘:’ + consumerSecret);
var options = {
"method": "POST",
"contentType" : "application/x-www-form-urlencoded;charset=UTF-8",
"headers" : {
"Authorization" : "Basic " + auth
},
"payload": {
"grant_type" : "client_credentials"
}
};
var response = UrlFetchApp.fetch("https://api.twitter.com/oauth2/token", options);
var responseJson = JSON.parse(response.getContentText());
return responseJson["access_token"];
}

function searchTweets(query){
var bearerToken = getTwitterAccessToken();
var options = {
"method": "GET",
"contentType" : "application/x-www-form-urlencoded;charset=UTF-8",
"headers" : {
"Authorization" : "Bearer " + bearerToken
}
};
var params = [];
params.push(‘q=’ + encodeURIComponent(query));
params.push(‘lang=ja’);
var response = UrlFetchApp.fetch("https://api.twitter.com/1.1/search/tweets.json?" + params.join("&"), options);
return JSON.parse(response.getContentText());
}
[/code]

TreasureData REST APIについて

公式ドキュメントはこちらになります。
https://docs.treasuredata.com/articles/rest-api-import

単純に入れたいデータをJSONでPOSTするだけです。
以下がGoogleAppsScriptのコードになります。TreasureDateのAPIキーが必要になります。

[code lang=”js”]
function postTd(data, database, table) {
var payload = JSON.stringify(data);
var options = {
"method": "POST",
"contentType" : "application/json",
"headers" : {
"X-TD-Write-Key" : "(Your Write API Key)"
},
"payload": payload
};
var response = UrlFetchApp.fetch("http://in.treasuredata.com//postback/v3/event/" + database + "/" + table, options);
}
[/code]

TweetデータをTreasureDataにPOST

TwitterAPIからデータを取得して、TreasureDataにPOSTするのが、以下のコードになります。
基本的には取得したTweetのJSONをそのままPOSTしているだけですが、Tweetのcreated_atをTreasureDataのtimeカラムとして使えるようにしてます。

[code lang=”js”]
function postTweet2Td(){
var query = ‘恵比寿’;
var tweets = searchTweets(query);
tweets.statuses.forEach(function(tweet){
tweet[‘time’] = (Date.parse(tweet[‘created_at’]) / 1000).toString();
postTd(tweet, ‘(Your Database)’, ‘(Your Table)’);
})
}
[/code]

実際にTreasureData上で、データを見てみましょう。

td_twitter

ちゃんとデータが入ってますね。
ネストしているデータはそのままJSONの文字列になってしまってますが。

定期的に実行する設定

AppsScriptの[リソース] > [トリガー]から今回のスクリプトのトリガーを設定できます。
以下のキャプチャのように「新しいトリガー」からトリガーを追加、実行するfunctionを選択、イベントとして「時間主導型」を選択することで、cronのように定期的に実行ができます。
gas_trigger

最後に

今回はTwitterのSearch APIのパラメータとして言語しか設定していませんでしたが、他にもオプションは多数あるので、適宜変更してもらえればと。Tweeter API GET search/tweets
また、APIの制限もあるので、注意しましょう。

次回は、GoogleAppsScriptからクエリを投げたり、テーブル一覧を取得したり、なんてこともやってみたいと思います。


DACエンジニア採用情報

  関連記事

トレジャーデータの新機能「Data Connector」でクライアントレスなビッグデータ連携を実現する

トレジャーデータは、スキーマレスな大量のデータ(ビッグデータ)をパブリッククラウド上に保管して集計や抽出をするためのサービスなのですが、他システムからの連携データをトレジャーデータのテーブルに格納するまでが一苦労でした。 他システムとの外部連携を行う場合、一般的にローカルサーバー内のストレージを外部 …

GoogleスプレッドシートからTreasureDataへデータを取り込む

AudienceOneの開発を担当しています。skryoです。 またまたTreasureDataネタですが、今回はGoogleスプレッドシートからGoogleAppsScriptを使ってTreasureDataへデータを取り込む手順を紹介したいと思います。 なぜ? Googleスプレッドシート上でマ …

Treasure Dataで大規模なマスタデータを扱う際にはtimeカラムインデックスを活用しよう

DACではTreasure Dataを利用して各種データの蓄積や集計を行っています。Treasure Dataは時系列のデータを扱うのに特にすぐれたアーキテクチャなのですが、セグメントIDとユーザーIDの組み合わせといった大量のマスタデータを利用した計算にも利用することもできます。そのような場合にt …

HivemallでMinhash!〜似てる記事を探し出そう。〜

こんにちは。俺やで。 前回の投稿に続き(間が空きましたが)、 ビッグデータに対応したHiveで使える機械学習ライブラリ、 「Hivemall」の使い方、第2弾となります。 今回はMinhashという手法について書きたいと思います。 ※前回 【超入門】Hivemallで機械学習 〜Treasure D …

no image
Treasure Dataで長期間の集計

プラットフォーム・ワン T氏です。プラットフォーム・ワンでは、DSPのMarketOneとSSPのYIELD ONE提供しています。 MarketOneやYIELD ONEのログを調査する場合にTreasure Dataを使うことがあります。Treasure Dataでは大量のデータに対してHive …

Google BigQuery / Tableauを使ってみた

TableauからGoogle BigQueryへ接続してみました。 弊社で利用しているTreasureDataからデータ出力してBigQueryへロード、Tableauから接続まで実際に行った手順について記載します。 TreasureDataからAmazonS3へデータ出力 まず、データが蓄積され …

fastavroとjqでAVRO形式のファイルからデータを取得しよう

AVRO形式のファイルを取り扱いたい AVROとはApacheプロジェクトのひとつとして開発されているデータ交換形式です。 コンパクトなバイナリで高速なシリアライズ・デシリアライズが行えるため、サーバーログなどに利用されています。 弊社内での一部システムのログデータにも利用されているのですが、専用の …

no image
いま必要なのは「アナリティクスアプローチ」

こんにちは。 ビッグデータ解析部のakiです。 解析部で、Markezineでの連載をはじめましたのでご紹介です。 いま必要なのは「アナリティクスアプローチ」、ビッグデータ活用の課題とこれから (http://markezine.jp/article/detail/21293) マーケターのかた向け …

Amazon ElastiCache/Redisのパフォーマンス確認

はじめに こんにちは、AudienceOne開発部です。AudienceOne開発部ではいわゆるビッグデータと呼ばれる大量のデータをアドホックあるいは定常的に日々ETLだの集合演算だのをする一方で、様々な大規模データ処理ソリューションを継続的に検証しております。 本記事は、その中でもユーザが保持して …

HyperLoglogでcount distinctを速くする

こんにちは。俺やで。 HyperLoglogについて書きます。おもしろいです。名前が。 ■1. HyperLoglogとは? count distinctを速くするアルゴリズム 以前、Minhashについて書きました。 (Treasure Dataさんのブログにも載せていただきました。ありがとうござ …