Twitterの方では流しましたがfluent-plugin-cassandraをリリースしました。
FluentとはTreasureDataの古橋さんが作成されたプラガブルなイベントログ収集ツールです。
自分も、ログ収集ツールを探していて、flumeにするかscribeにするかなど悩んでいたのですが
flumeは重いし面倒だし、scribeは敷居高いし面倒だしなどピンとこない状態が続いていました。
Cassandraにデータを入れたかったのもあって接続が大変というのもありました。
そこに丁度という感じで先日Fluentが発表されてこれは良いなと感じたわけです。
発表の場にいたので、Cassandraのプラグインは?と聞いてみたのですが書いてーとの返事だったのでこれはやるしか無いかなと。
Python使いとしてはrubyは結構遠くて手こずりましたがどうにか公開にこぎつけました。
書き方が悪いとかそういうツッコミは直接いくらでもください。rubyのお作法解らないし。
github からかもしくは
gem install fluent-plugin-cassandra
でどうぞ。
尚、構造としては受け取ったJSON毎にそのままCassandraのColumnFamilyに流し込んでいます。
ですのでJSONの構造は単純なKey-Valueのペアか、SuperColumnFamilyを作成して
二元ハッシュにしてください。キーはイベントタグにイベント取得時間を単純にくっつけていkeyにしています。
想定としてはイベントをCassandraに放り込んだ後に上にbriskを乗せるですかねぇ。(要するに後からマップ・レデュースで解析)