全体調査
実験
script: ../script/greater_than_seach_sim.py
greater_than_count: 561506, pochi::0.75: 1468, pochi::0.5: 118366, pochi::0.25: 506035, pochi::0.25_under: 55471, search_sim::0.75: 12567, search_sim::0.5: 223574, search_sim::0.25: 526202, other: 7249393
# 検索エンジンの類似度0.25以上という閾値を儲けた
greater_than_count: 561506, pochi::0.75: 1468, pochi::0.5: 118366, pochi::0.25: 506035, pochi::0.25_under: 20167, search_sim::0.75: 12567, search_sim::0.5: 223574, search_sim::0.25: 526202, other: 7249393
# 0.5の閾値を設けてみる
greater_than_count: 561506, pochi::0.75: 1468, pochi::0.5: 118366, pochi::0.25: 223536, pochi::0.25_under: 38, search_sim::0.75: 12567, search_sim::0.5: 223574, search_sim::0.25: 526202, other: 7249393
# 0.75の閾値にしてみる
greater_than_count: 561506, pochi::0.75: 1468, pochi::0.5: 11971, pochi::0.25: 12567, pochi::0.25_under: 0, search_sim::0.75: 12567, search_sim::0.5: 223574, search_sim::0.25: 526202, other: 7249393
検索エンジンの方が類似度が高いやつは全体の (561506 / 7249393 = 7.745558835063846%) 検索エンジンのほうが類似度が高いということは検出漏れするかも 検索エンジンの類似度より低い類似度のやつは0.25とかを閾値にした時いらないやつになる
0.25が一番下の閾値なので,それでやってみたら変わらない 0.5にしてみると結果が少し変わった <- 当たり前だった
それ以外(検索エンジンの類似度よりpochiの類似度が上にある組)の内訳を見てみる
# それ以外の中にどれだけ正解(0.75)があるか
greater_than_count: 561506, pochi::0.75: 1468, pochi::0.5: 11971, pochi::0.25: 12567, pochi::0.25_under: 0, search_sim::0.75: 12567, search_sim::0.5: 223574, search_sim::0.25: 526202, other: 7249393, other_poshi::0.75: 65905
# それ以外の中にどれだけ正解(0.75)があるか and 検索エンジンの閾値も0.5にしてみた
greater_than_count: 561506, pochi::0.75: 1468, pochi::0.5: 11971, pochi::0.25: 12567, pochi::0.25_under: 0, search_sim::0.75: 12567, search_sim::0.5: 223574, search_sim::0.25: 526202, other: 7249393, other_poshi::0.75::search_sim::0.5: 65905
0.5で何件なのかを見たい
まず閾値0.25の検出漏れを見てみる
148022, 4578728
検出漏れは (148022 / (148022 + 4578728)) = 3.1315808959644573%
.まぁ低い
閾値0.5だとどうなるか
472456 / (472456 + 6730222) = 6.559449138223311%
まぁ低い
0.5以上の検索件数は255166 + 353055 = 608221
(ちなみに件数は7810899 -> すなわち全体の7.786824538379002%の検索で済む)
ちなみに0.25の件数だと579600 + 2504549 = 3084149
(全体の39.485198822824366%検索する)