検索にどれくらいの時間がかかっているのかを計測しましょう

# BM25
cat time.csv | sed 's/elapsed_time://g' | sed 's/\[sec\]//g' | awk '{a+=$1} END {print a }'
330.33 sec => 5分30秒

# edit
cat time.csv | sed 's/elapsed_time://g' | sed 's/\[sec\]//g' | awk '{a+=$1} END {print a }'
43964 sec => 12時間12分44秒

# cloud
78280.6 => 21時間44分40.6秒

検索件数どれくらいあるの?

# BM25
for i in ./search_result/* ; do wc $i ;done | awk '{a+=$1} END {print a}'
4150300
ave: 919.8359929078014

# edit
for i in ./search_result/* ; do wc $i ;done | awk '{a+=$1} END {print a}'
13792389
ave: 3056.8238031914893

検索クラスは4512個

検索ヒット数が三倍違う

でもBM25の方が断然検索時間が早い

レスポンス速度上昇なぁ

これは2gramなので6gramでやってみようかな

6gram

検索時間

# BM25
cat time_6gram.csv | sed 's/elapsed_time://g' | sed 's/\[sec\]//g' | awk '{a+=$1} END {print a }'
152.823 => 02分32.823秒

# edit

検索件数

# BM25
for i in ./search_result/* ; do wc $i ;done | awk '{a+=$1} END {print a}'
18027