誤検出チェック
実験手順
- データセットを作成する(17000個くらい)
-
それを検索エンジンに入れる
-
戦略
- 検索時間は
../../solr/CursorMark/script/row_search.py
を使って求める- こいつは件数で閾値まで検索してそこで切るので,実際に使うケースを想定している
- しかし検出漏れがわからない(わからなくていいか?)
- 今の所,検出漏れは考えないで行こう
- 誤検出は
ToolForResearch
を利用しよう
考えること
- 投げるバースマーク
- 検索エンジンに入っているものか?
- 全く関係のないものを投げるか?
- 両方ともで試したら良さそう
結果
## 全体
/Volumes/mituba_20180425/2gram ❯❯❯ for i in ./search_result/* ; do wc $i ;done | awk '{a+=($1 - 2)} END {print a}' master ◼
10333545