6gramでjaccardやるぜぇ
greater_than_count: 3327734, pochi::0.75: 2, pochi::0.5: 2, pochi::0.25: 58, pochi::0.25_under: 2385, search_sim::0.75: 2443, search_sim::0.5: 15612, search_sim::0.25: 119139, other: 2317601, other_poshi::0.75: 25
検出漏れを見る
# 0.25閾値
[0, 5526171, 0, 0, 0]
# 0.5閾値
[0, 5629698, 0, 0, 0]
# 0.75閾値
[0, 5642867, 0, 0, 0]
# 1.0閾値
[27, 5645308, 0, 0, 0]
27件のバースマークを見てみる
長さが気になる
# 検索バースマークの長さ
{51: 1, 336: 1, 136: 1, 74: 1, 270: 1, 323: 1, 159: 1, 58: 2, 119: 1, 199: 1, 206: 1, 150: 1, 103: 1, 155: 1, 95: 1, 86: 1, 215: 1, 283: 1, 172: 1, 149: 1, 362: 1, 342: 1, 65: 1, 407: 1, 130: 1, 161: 1}
{51: 1, 336: 1, 136: 1, 74: 1, 270: 1, 323: 1, 159: 1, 58: 2, 119: 1, 199: 1, 206: 1, 143: 1, 103: 1, 155: 1, 95: 1, 86: 1, 215: 1, 283: 1, 172: 1, 149: 1, 362: 1, 308: 1, 65: 1, 407: 1, 130: 1, 161: 1}
filenameを見たら,全て同じファイルが引っかかっていてる しかしversion違いでバースマークの長さが変わるものがある. がしかし類似度は非常に高い
検索エンジンの類似度は1.0だがpochiで測ったら少し落ちるやつがあった
# 長さ,類似度
150 - 143 = 7
a,b,0.8544303797468354
342 - 308 = 34
a,b,0.8518518518518519
基本的に同一のものを見分けている感じがする.
同じクラスが存在していたが1.6を検索では用いていて,データベースの中には1.3が入っていた.
ここまで来たら誤検出が気になりますかね?
# 閾値0.75
# pochi0.75以下,0.75以上
[2441, 27, 0, 0, 0]
# 閾値0.5
[15610, 27, 0, 0, 0]
# 閾値0.25
[119137, 27, 0, 0, 0]
ちょっとjarファイルを変更してみる
greater_than_count: 382067, pochi::0.75: 0, pochi::0.5: 0, pochi::0.25: 0, pochi::0.25_under: 98, search_sim::0.75: 98, search_sim::0.5: 2311, search_sim::0.25: 25668, other: 0, other_poshi::0.75: 0
0.75以上0
# 全件
[0, 382067, 0, 0, 0]
# 最高pochi類似度
0.164179104
低すぎて無理
全く類似しているものが一つも無い