Elasticsearch JDBC river での取りこぼし

先日の Elasticsearch 勉強会では、これまで知らなかった事を色々と勉強出来た。
勉強会が終わってから、勉強会中に話されていたが自分で理解出来ていなかった事をあれこれと消化しようとしています。

当初はログをぶち込んで Kibana で見る事によって何かしらの解析を行う事が出来ないか?という事を考えていたんだけど、
Elasticsearch を生かそうとした時には全文検索もちゃんと生かした方がいいと考えを改めた。
特に、基本語化等の自然言語処理系のお話はこれまで携わっていなかった分野なので素直に面白いと思ったのです。

と言う訳で、これまでは RDB に入れて Like 検索を行っていたような情報を Elasticsearch に入れて、フロントを適当に作ってしまえば誰かしら(not 自分)が幸せにならないかなぁと考えた。

Kibana を使うにあたって、既に RDB からのインポートと言う意味では JDBC river を試した事があったのでそれを利用して早速データを入れてみたんだけど・・・・

件数があわない

たかだか2万件ちょっとのデータなのだが、取込んでみると1万8千件位になってしまう。
これではちょっと困る。

先日の勉強会で、Couchbase からのデータ移行時に処理が追いつかずに Elasticsearch が取りこぼすような話があったんだけど、、、うーん。
当然の事ながら、Elasticsearch のログには特にエラーのようなものは出ていない。

元となっているRDB側のデータは少し変なデータが混ざっているかもしれなくて、それが悪さをしているのかもしれないけど、それにしてもエラーも何もでないのは困る。
(別なところにエラーが出ていてそれに気づいていない??)

JDBC river のソースはあるので、そちらを少しいじってみようかなと考えています。
river プラグイン側の問題なのか、それとも Elasticsearch 本体側ではじかれているのか。
せめてそれくらいはどこかしらにメッセージ出してくれてもいいじゃないか

まぁ、それはそれとして、あれこれと使ってみる上でやはり調べる事が多すぎて追いついていない状態です。
と言う訳で、AmazonでKindle版をポチりました。
お世話になりまする

高速スケーラブル検索エンジン ElasticSearch Server
Rafal Kuc Marek Rogozinski
KADOKAWA/アスキー・メディアワークス
売り上げランキング: 3,439

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください