GoogleAppsScriptとTreasureData REST APIを使ってサーバレスにTwitterのデータを取得


またまたTreasureDataネタです。
ただ、今回はクエリ系のネタではなく、GoogleAppsScriptとTreasureDataのREST APIを使ってTwitterのデータをTreasureDataに入れてみたので、その方法を紹介したいと思います。

はじめに

ログデータだけではなく、公開されているAPIからデータを取得したり、クロールしたデータをTreasureDataに入れたいな、なんて思ったことはありませんか?
(そういったニーズがある前提で話を進めます)

そういった場合、1回だけデータを入れるのであれば、マニュアルで対応してしまえばいいですが、定期的にデータを取得したいとなると、サーバの準備をしなくてはいけなかったり、ちょっとめんどうです。
そんな課題に応えるべく、GoogleAppsScriptを使ってサーバレスにやってみました。

概要

GoogleAppsScirptの処理のおおまかな流れとしては、以下のようになっています。

  • TwitterAPIの認証&Search APIを利用してデータを取得
  • 取得したデータをTreasureDataのAPIを使ってデータ投入

 

上記GoogleAppsScirptをトリガー機能を使って定期実行

Twitter APIについて

いろいろサイトでTwitterAPIの使い方については解説されているので、細かい説明は割愛します。
TwitterAPIの認証と、SearchAPIを使ってTweetを取得するGoogleAppsScriptのコードは以下になります。
リクエストをかけるのにUrlFetchAppを利用しています。

[code lang=”js”]
function getTwitterAccessToken(){
var consumerKey = "(Your ConsumerKey)";
var consumerSecret = "(Your ConsumerSecret)";
var auth = Utilities.base64Encode(consumerKey + ‘:’ + consumerSecret);
var options = {
"method": "POST",
"contentType" : "application/x-www-form-urlencoded;charset=UTF-8",
"headers" : {
"Authorization" : "Basic " + auth
},
"payload": {
"grant_type" : "client_credentials"
}
};
var response = UrlFetchApp.fetch("https://api.twitter.com/oauth2/token", options);
var responseJson = JSON.parse(response.getContentText());
return responseJson["access_token"];
}

function searchTweets(query){
var bearerToken = getTwitterAccessToken();
var options = {
"method": "GET",
"contentType" : "application/x-www-form-urlencoded;charset=UTF-8",
"headers" : {
"Authorization" : "Bearer " + bearerToken
}
};
var params = [];
params.push(‘q=’ + encodeURIComponent(query));
params.push(‘lang=ja’);
var response = UrlFetchApp.fetch("https://api.twitter.com/1.1/search/tweets.json?" + params.join("&"), options);
return JSON.parse(response.getContentText());
}
[/code]

TreasureData REST APIについて

公式ドキュメントはこちらになります。
https://docs.treasuredata.com/articles/rest-api-import

単純に入れたいデータをJSONでPOSTするだけです。
以下がGoogleAppsScriptのコードになります。TreasureDateのAPIキーが必要になります。

[code lang=”js”]
function postTd(data, database, table) {
var payload = JSON.stringify(data);
var options = {
"method": "POST",
"contentType" : "application/json",
"headers" : {
"X-TD-Write-Key" : "(Your Write API Key)"
},
"payload": payload
};
var response = UrlFetchApp.fetch("http://in.treasuredata.com//postback/v3/event/" + database + "/" + table, options);
}
[/code]

TweetデータをTreasureDataにPOST

TwitterAPIからデータを取得して、TreasureDataにPOSTするのが、以下のコードになります。
基本的には取得したTweetのJSONをそのままPOSTしているだけですが、Tweetのcreated_atをTreasureDataのtimeカラムとして使えるようにしてます。

[code lang=”js”]
function postTweet2Td(){
var query = ‘恵比寿’;
var tweets = searchTweets(query);
tweets.statuses.forEach(function(tweet){
tweet[‘time’] = (Date.parse(tweet[‘created_at’]) / 1000).toString();
postTd(tweet, ‘(Your Database)’, ‘(Your Table)’);
})
}
[/code]

実際にTreasureData上で、データを見てみましょう。

td_twitter

ちゃんとデータが入ってますね。
ネストしているデータはそのままJSONの文字列になってしまってますが。

定期的に実行する設定

AppsScriptの[リソース] > [トリガー]から今回のスクリプトのトリガーを設定できます。
以下のキャプチャのように「新しいトリガー」からトリガーを追加、実行するfunctionを選択、イベントとして「時間主導型」を選択することで、cronのように定期的に実行ができます。
gas_trigger

最後に

今回はTwitterのSearch APIのパラメータとして言語しか設定していませんでしたが、他にもオプションは多数あるので、適宜変更してもらえればと。Tweeter API GET search/tweets
また、APIの制限もあるので、注意しましょう。

次回は、GoogleAppsScriptからクエリを投げたり、テーブル一覧を取得したり、なんてこともやってみたいと思います。


DACエンジニア採用情報

  関連記事

巨大データベースのスケールアップと引越作業

はじめに ビッグデータ解析部でオーディエンスデータ解析基盤の開発、運用を担当している Mike です。 弊社ではインターネット広告配信ログをはじめとする「ビッグデータ」と呼ぶにふさわしいデータボリュームを扱うオーディエンスデータ解析基盤を構築しています。今秋、そのうちの1構成要素である、データサイズ …

Tableauを利用してMySQLとRedshiftのクロスDBジョインを実現する

はじめに RedshiftやTreasureDataなどのデータマート用のDBにはID単位の解析結果が格納され、ローカルのMySQLにはIDに紐づいた名称マスタが管理されている構成の場合、データマートのクロス集計結果に対してIDに紐づいた名称を付与したいことがあります。 データマート用に用意したDB …

Treasure Dataの新機能(Data Tank)をAudienceOneのレポート機能で利用した話

Data Tankとは? Treasure Dataの新機能でTreasure Dataのプラットフォーム上に構築されたデータマートです。 Tableau等のBIツールとの接続を想定されており、AWSでいうところのRedshift的なものだと考えるとわかりやすいかと。 Data TankはPostg …

【Hivemall入門】RandomForestで毒キノコ推定モデルを作る

こんにちは。俺やで。 今回も前回から間が空いてしましたが、ビッグデータに対応したHiveで使える機械学習ライブラリ、 Hivemallの使い方について、書かせていただければと思います。 なお今回はQiitaのTreasure Data / Advent Calender 2015の12/3日分として …

no image
Treasure Dataで長期間の集計

プラットフォーム・ワン T氏です。プラットフォーム・ワンでは、DSPのMarketOneとSSPのYIELD ONE提供しています。 MarketOneやYIELD ONEのログを調査する場合にTreasure Dataを使うことがあります。Treasure Dataでは大量のデータに対してHive …

HyperLoglogでcount distinctを速くする

こんにちは。俺やで。 HyperLoglogについて書きます。おもしろいです。名前が。 ■1. HyperLoglogとは? count distinctを速くするアルゴリズム 以前、Minhashについて書きました。 (Treasure Dataさんのブログにも載せていただきました。ありがとうござ …

Amazon ElastiCache/Redisのパフォーマンス確認

はじめに こんにちは、AudienceOne開発部です。AudienceOne開発部ではいわゆるビッグデータと呼ばれる大量のデータをアドホックあるいは定常的に日々ETLだの集合演算だのをする一方で、様々な大規模データ処理ソリューションを継続的に検証しております。 本記事は、その中でもユーザが保持して …

気象予報士とビッグデータ解析の意外な関係

DACから気象予報士が誕生しました ビッグデータ解析部のMikeです。 2015年1月の気象予報士試験に合格し、めでたく4月からアドテク業界ただ一人(本当?)の気象予報士となりました 。 そんなわけで、今回は気象予報士とビッグデータ解析の関係についてお話したいと思います。 なぜ気象予報士を目指したか …