日別アーカイブ: 2014年4月16日

ElasticsearchにCSVでデータ登録

最近、こそこそとElasticsearchを触っています。

とりあえず、手始めに簡単なところからと思い、気象庁のHPから千葉の気温に関するCSVを取得。
どんな風に見えるかをやってみようかと。

過去の気象データ・ダウンロード
http://www.data.jma.go.jp/gmd/risk/obsdl/index.php

注意しなければいけないのは、CSVファイルがダウンロードされる割にそのまま使える形になっていません。
微妙に整形しないといけないし、最初の行をタイトルとすると列名が重複する事になります。
この辺りは手操作で修正する形ですね。

Elasticsearchにデータを流し込むのはcsv_riverというプラグインを使いました。

CSV River
https://github.com/xxBedy/elasticsearch-river-csv

流し込む事自体はそれほど苦労せずに出来たのですが、Kibanaにてヒストグラムを表示しようとするとエラーになりました。

実は、以前にOracleデータをJDBC Riverを使って入れた時はこんなエラーにならなかったので一瞬何が起きたのか分かりませんでした。

ただ、Kibana上からデータをJSON形式で見てみると

これ、データが文字列として登録されているように見える。
つまり、自動判別されてしまうもしくは、CSV Riverがすべて文字列として登録してしまっているので、フィールドの定義をきちんとしてあげればOKになるはず。
ただ、CSV Riverのプロパティを見てもそれっぽいところが見つからなかった

そこで、困った時の神頼みと言うことでおもむろにTwitterへ投稿したら

 

反応してくれる人がやはりいた。ありがたい。

私はJDBC Riverの時にうまい事判定してくれたので、データの登録側で何かするのではないかと考えていたのだが、
あらかじめElasticsearch側に定義を作っておく形を取るようだ。
もしかすると、JDBC RiverではRDBからそういう情報を抜いて、あらかじめマッピング定義をしているのかもしれない。
違うかもしれないけど。

さて、何となくの仕組みは理解したが、リファレンスをじっくりと読む事が苦手な私はとりあえず見よう見まねでやってみた。

curl -XPUT localhost:9200/temperature/chiba/_mapping -d ‘{
“chiba”:{
“properties”:{
“average”:{“type”:”double”},
“high”:{“type”:”double”},
“low”:{“type”:”double”},
“date”:{“type”:”date”, “format”:”yyyy/MM/dd”}
}
}
}’

こんな感じかな〜?と思ってやってみたが、エラー。

{“error”:”MergeMappingException[Merge failed with failures {[mapper [average] of different type, current_type [string], merged_type [double], mapper [low] of different type, current_type [string], merged_type [double]]}]”,”status”:400}

マージに失敗?
確かにリファレンスには、マッピング情報が定義されてから登録されるデータに適用されると言う話だったので、一度全部データを削除してから定義してみようとしたけど

{“error”:”IndexMissingException[[temperature] missing]”,”status”:404}

INDEXそのものを削除してしまってはいかんか。
面倒だったけど、もう一度INDEXを作り、その後INDEXを残してTYPEを削除。
再度、マッピング情報を登録してあげると・・・

ヒャッハー

なんて見た目がつまんないデータなんだー!

今日はここまで。
なんか凄い疲れた

高速スケーラブル検索エンジン ElasticSearch Server
Rafal Kuc Marek Rogozinski
KADOKAWA/アスキー・メディアワークス
売り上げランキング: 24,547