検索にどれくらいの時間がかかっているのかを計測しましょう
# BM25
cat time.csv | sed 's/elapsed_time://g' | sed 's/\[sec\]//g' | awk '{a+=$1} END {print a }'
330.33 sec => 5分30秒
# edit
cat time.csv | sed 's/elapsed_time://g' | sed 's/\[sec\]//g' | awk '{a+=$1} END {print a }'
43964 sec => 12時間12分44秒
# cloud
78280.6 => 21時間44分40.6秒
検索件数どれくらいあるの?
# BM25
for i in ./search_result/* ; do wc $i ;done | awk '{a+=$1} END {print a}'
4150300
ave: 919.8359929078014
# edit
for i in ./search_result/* ; do wc $i ;done | awk '{a+=$1} END {print a}'
13792389
ave: 3056.8238031914893
検索クラスは4512個
検索ヒット数が三倍違う
でもBM25の方が断然検索時間が早い
レスポンス速度上昇なぁ
これは2gramなので6gramでやってみようかな
6gram
検索時間
# BM25
cat time_6gram.csv | sed 's/elapsed_time://g' | sed 's/\[sec\]//g' | awk '{a+=$1} END {print a }'
152.823 => 02分32.823秒
# edit
検索件数
# BM25
for i in ./search_result/* ; do wc $i ;done | awk '{a+=$1} END {print a}'
18027