カテゴリー別アーカイブ: Elasticsearch / Kibana

Elasticsearchにjdbc-river経由で漏れが発生した件

少し前にエントリーした件ですが、解決というか結果からすると回避する事が出来ました。

まず、ログを調べようと考え、config/logging.yml上でログをデバッグ出力に変更。

#es.logger.level: INFO
es.logger.level: DEBUG

実際に取込んでみたところ、出力されるログには

[2014-04-25 09:58:00,343][INFO ][org.xbib.elasticsearch.river.jdbc.strategy.simple.SimpleRiverMouth] bulk [225] success [100 items] [20ms]
[2014-04-25 09:58:00,358][INFO ][org.xbib.elasticsearch.river.jdbc.strategy.simple.SimpleRiverMouth] bulk [226] success [100 items] [15ms]
[2014-04-25 09:58:00,362][INFO ][org.xbib.elasticsearch.river.jdbc.strategy.simple.SimpleRiverMouth] new bulk [227] of [100 items], 1 outstanding bulk requests
[2014-04-25 09:58:00,373][DEBUG][org.xbib.elasticsearch.river.jdbc.strategy.simple.SimpleRiverSource] merged 22709 rows
[2014-04-25 09:58:00,378][INFO ][org.xbib.elasticsearch.river.jdbc.strategy.simple.SimpleRiverMouth] bulk [227] success [100 items] [16ms]
[2014-04-25 09:58:00,382][DEBUG][org.xbib.elasticsearch.river.jdbc.strategy.simple.SimpleRiverFlow] … fetched, flushing

見たいに書かれて、22709件実施したと出る。
ただし、実際にElasticsearch側へ登録されたデータ件数はもっと少ない状態でした。

river側は処理したが、データ不正かなにかによってElasticsearch側ではじかれたのか?
それともまさかUpdateされた?と思って地道に失敗したレコードの一部を特定。
単独でjdbc-riverを実施してみると・・・

問題なく登録される。

以前話に聞いた、大量件数を実施した時に問題が起こるって奴なのか?と再び考え、
たかだか2万件程度で問題が無いと思いつつも/config/elasticsearch.ymlに下記の設定を追加
ちなみに、参考にさせていただいたのはこちら

threadpool.index.queue_size: -1
threadpool.bulk.queue_size: -1

参考サイトには、キューが足りなくなったときと書いてあった。デフォルトでは30。
ログを見る限り、多分「outstanding」で示された数がそれに当たるんだろうけど、
それらは30に達しているようには見えない。
最高でも17〜18程度に見える。
そう考えると、これの影響は内容に思えるのだが、なぜかこれを設定する事で件数はあった。

ちょうど、jdbc-riverを見てたら話題になっていた

It is an issue with BulkProcessor class of ES. I patched the class and will release a fixed version of JDBC river soon.
https://github.com/jprante/elasticsearch-river-jdbc/issues/228

こちらはriver側のパラメータ指定で回避されたと報告されている。
受け渡す側のしきい値か、受け取る側のしきい値かの違いだとは思う。

どのしきい値に達したのかは、数からしてちょっと納得いかないものがあるがログくらいには出して欲しいものだ。
さしあたってなんとかなったけど、この辺りはもう少しなんとかしたいところだと思うので
今度ソースを当たってみよう。

高速スケーラブル検索エンジン ElasticSearch Server
Rafal Kuc Marek Rogozinski
KADOKAWA/アスキー・メディアワークス
売り上げランキング: 77,882

Elasticsearch JDBC river での取りこぼし

先日の Elasticsearch 勉強会では、これまで知らなかった事を色々と勉強出来た。
勉強会が終わってから、勉強会中に話されていたが自分で理解出来ていなかった事をあれこれと消化しようとしています。

当初はログをぶち込んで Kibana で見る事によって何かしらの解析を行う事が出来ないか?という事を考えていたんだけど、
Elasticsearch を生かそうとした時には全文検索もちゃんと生かした方がいいと考えを改めた。
特に、基本語化等の自然言語処理系のお話はこれまで携わっていなかった分野なので素直に面白いと思ったのです。

と言う訳で、これまでは RDB に入れて Like 検索を行っていたような情報を Elasticsearch に入れて、フロントを適当に作ってしまえば誰かしら(not 自分)が幸せにならないかなぁと考えた。

Kibana を使うにあたって、既に RDB からのインポートと言う意味では JDBC river を試した事があったのでそれを利用して早速データを入れてみたんだけど・・・・

件数があわない

たかだか2万件ちょっとのデータなのだが、取込んでみると1万8千件位になってしまう。
これではちょっと困る。

先日の勉強会で、Couchbase からのデータ移行時に処理が追いつかずに Elasticsearch が取りこぼすような話があったんだけど、、、うーん。
当然の事ながら、Elasticsearch のログには特にエラーのようなものは出ていない。

元となっているRDB側のデータは少し変なデータが混ざっているかもしれなくて、それが悪さをしているのかもしれないけど、それにしてもエラーも何もでないのは困る。
(別なところにエラーが出ていてそれに気づいていない??)

JDBC river のソースはあるので、そちらを少しいじってみようかなと考えています。
river プラグイン側の問題なのか、それとも Elasticsearch 本体側ではじかれているのか。
せめてそれくらいはどこかしらにメッセージ出してくれてもいいじゃないか

まぁ、それはそれとして、あれこれと使ってみる上でやはり調べる事が多すぎて追いついていない状態です。
と言う訳で、AmazonでKindle版をポチりました。
お世話になりまする

高速スケーラブル検索エンジン ElasticSearch Server
Rafal Kuc Marek Rogozinski
KADOKAWA/アスキー・メディアワークス
売り上げランキング: 3,439

Elasticsearch 勉強会 #4

少し妻に頼み込んで、最近気になっている Elasticsearch 勉強会に行ってきた。
いやぁ、頼もしい妻で助かります。(大事なところ)

今回、初めてこの勉強会に参加した訳ですが、ここで使われている技術のほとんどは、
現在の私の業務上ではそれほど使う事がない技術ばかり。
そういう事もあって、とても新鮮な印象を受けました。

恐らく、全体の概要と言う形では他の参加者が記事にされると思うし、私に取っては整理が追いついていない事柄も多々あるのでここでは割愛。
ただ、今後調べてみたりした事に関しては随時記事にしていきたいと思っている。

特にこれまで Kibana に目が行き過ぎていたけど、今日の発表中にあった文字の「基本語化」という処理などは、あったらいいなと思う場面は幾つかありそう。
それらのソリューションに対して、今回の Couchbase や Hadoop , Hive などの技術を組み合わせて対応するというのは、素直に面白そうだなと思える。

なかなかこういった勉強会への参加は、子供が小さかったり家が遠かったりすると
参加が難しい現実があります。
いや、その辺りはうまい事家族内で折り合いが付けられればいいんですけどね。

とはいえ、勉強してなんぼの業界ではあるので学ぶ機会と言うのは増やしていきたいですね。

logに関して考える日曜日

最近、先日も記事に書いた Elasticsearch、Kibana 周辺を見ています。
Kibana を知ったきっかけはただの偶然で、

Hacker News でElasticsearch 1.0 Release ! → Kibana ってかっこいいー!

という、目的とかそういうの何も考えない世界からのスタートでした。

所謂 Big Data ブームに関しては、私の業務的にはそれほど密接に繋がっている訳ではないんだけど、
もう少しデータを有効活用する事で随分と自分の周りは変化するのではないかとよく考えていました。

よくある話と言えばよくある話なのかもしれませんが、IT に携わっている割にデータや数値ではなく経験に頼って物事が進んでしまう事が多々あります。
ソフトウェアを提供する側が、もう少しソフトウェアに頼って行きたいところ。
ソフトウェアに使われるような形にはなりたくありませんが、利用出来るものは有効活用していきたいですね。

時間の長さからこれまで見ていなかったけど、Kibana に関しては公式のビデオが結構分かりやすかった。

kibana: data visualization made simple and beautiful
http://www.elasticsearch.org/webinars/kibana-made-simple/?watch=1

ただ、どちらかというと logstash 経由の Web アクセスログが対象で、公開 Web サーバーを取り扱っている訳ではない私にはどう使っていくかが完全には見えていない。
特に Kibana で面倒だと思うのは、可視化する事は出来るが、データの操作を行う事は出来ない点だ。
あらかじめ、Elasticsearch に対して分析が容易になるような形でデータを取込む必要があるので、独自のデータを対象とした場合にはその形式を決めるのに少し知恵を絞る必要がありそう。

確かにグラフへ変換が容易だったり、フィルタリングなどの仕組みは秀逸。
文字列の検索に関しても言う事は無い。
ただ、実際にそれらを分析するシーンにはいいけどよく話としてはありがちなレポートとして利用するとなると、どうしていいのかがよくわからない。

あくまで、分析や問題発見のシーンに利用する感じなのかな?
そもそも Web の世界のカックイイ人たちはレポートとかURLで示す事が出来ればOKなのかな。

それはそれで一つの形だとは思うし、そういう使い方でも十分だとは思う。
結局のところ、何を持って「可視化出来た」というかなんだろうな。

さてはて、データを有効活用したいという考え自体は間違っていないとは思うが、問題は何をどう活用すれば有効なのか?という基本的なところの考えが足りていない。

ElasticsearchにCSVでデータ登録

最近、こそこそとElasticsearchを触っています。

とりあえず、手始めに簡単なところからと思い、気象庁のHPから千葉の気温に関するCSVを取得。
どんな風に見えるかをやってみようかと。

過去の気象データ・ダウンロード
http://www.data.jma.go.jp/gmd/risk/obsdl/index.php

注意しなければいけないのは、CSVファイルがダウンロードされる割にそのまま使える形になっていません。
微妙に整形しないといけないし、最初の行をタイトルとすると列名が重複する事になります。
この辺りは手操作で修正する形ですね。

Elasticsearchにデータを流し込むのはcsv_riverというプラグインを使いました。

CSV River
https://github.com/xxBedy/elasticsearch-river-csv

流し込む事自体はそれほど苦労せずに出来たのですが、Kibanaにてヒストグラムを表示しようとするとエラーになりました。

実は、以前にOracleデータをJDBC Riverを使って入れた時はこんなエラーにならなかったので一瞬何が起きたのか分かりませんでした。

ただ、Kibana上からデータをJSON形式で見てみると

これ、データが文字列として登録されているように見える。
つまり、自動判別されてしまうもしくは、CSV Riverがすべて文字列として登録してしまっているので、フィールドの定義をきちんとしてあげればOKになるはず。
ただ、CSV Riverのプロパティを見てもそれっぽいところが見つからなかった

そこで、困った時の神頼みと言うことでおもむろにTwitterへ投稿したら

 

反応してくれる人がやはりいた。ありがたい。

私はJDBC Riverの時にうまい事判定してくれたので、データの登録側で何かするのではないかと考えていたのだが、
あらかじめElasticsearch側に定義を作っておく形を取るようだ。
もしかすると、JDBC RiverではRDBからそういう情報を抜いて、あらかじめマッピング定義をしているのかもしれない。
違うかもしれないけど。

さて、何となくの仕組みは理解したが、リファレンスをじっくりと読む事が苦手な私はとりあえず見よう見まねでやってみた。

curl -XPUT localhost:9200/temperature/chiba/_mapping -d ‘{
“chiba”:{
“properties”:{
“average”:{“type”:”double”},
“high”:{“type”:”double”},
“low”:{“type”:”double”},
“date”:{“type”:”date”, “format”:”yyyy/MM/dd”}
}
}
}’

こんな感じかな〜?と思ってやってみたが、エラー。

{“error”:”MergeMappingException[Merge failed with failures {[mapper [average] of different type, current_type [string], merged_type [double], mapper [low] of different type, current_type [string], merged_type [double]]}]”,”status”:400}

マージに失敗?
確かにリファレンスには、マッピング情報が定義されてから登録されるデータに適用されると言う話だったので、一度全部データを削除してから定義してみようとしたけど

{“error”:”IndexMissingException[[temperature] missing]”,”status”:404}

INDEXそのものを削除してしまってはいかんか。
面倒だったけど、もう一度INDEXを作り、その後INDEXを残してTYPEを削除。
再度、マッピング情報を登録してあげると・・・

ヒャッハー

なんて見た目がつまんないデータなんだー!

今日はここまで。
なんか凄い疲れた

高速スケーラブル検索エンジン ElasticSearch Server
Rafal Kuc Marek Rogozinski
KADOKAWA/アスキー・メディアワークス
売り上げランキング: 24,547

Kibana

多少、今更感はあるかもしれないけどKibanaを触っている。

会社では、所謂ビッグデータとして取り扱われるようなデータに携わっている訳ではないんだけど、
それでももう少しデータを有効活用する事が出きるんじゃないかと考えているからだ。
Kibanaを選んだのは、実を言うとただの気まぐれなので、実はもっと適したものがあるかもしれない。

でも、何となく見た目がかっこいい気がしているのでそれほど後悔はしていなかったりする

正直、Elasticsearchに対してのデータの挿入だったり、Kibana上でもう少しこういうダッシュボードが作れないものかと思うところが結構ある。
調べながら調べながらなんだけど、目的を忘れないようにしながら進めていきたい。

高速スケーラブル検索エンジン ElasticSearch Server
Rafal Kuc Marek Rogozinski
KADOKAWA/アスキー・メディアワークス
売り上げランキング: 12,804