jaccard係数でやり直してみるよ

greater_than_count: 6026008, pochi::0.75: 124, pochi::0.5: 3283, pochi::0.25: 27412, pochi::0.25_under: 50940, search_sim::0.75: 78352, search_sim::0.5: 607906, search_sim::0.25: 3053401, other: 1784891, other_poshi::0.75: 120

検出漏れ

all: 7810899

# 0.25
[0, 4726751, 0, 0, 0]

# 0.5
[0, 7202678, 0, 0, 0]

# 0.75
[9, 7732418, 0, 0, 0]

# 0.8
[52, 7748909, 0, 0, 0]

# 0.85
[57, 7783062, 0, 0, 0]

# 0.9
[62, 7805086, 0, 0, 0]

# 0.95
[95, 7809329, 0, 0, 0]

# 1.0
[253, 7810646, 0, 0, 0]

正解が253個しかないのでそれを見てみる

ミスったのでやり直し

greater_than_count: 5951912, pochi::0.75: 24, pochi::0.5: 2919, pochi::0.25: 27473, pochi::0.25_under: 76609, search_sim::0.75: 104082, search_sim::0.5: 628714, search_sim::0.25: 3037601, other: 1714121, other_poshi::0.75: 0

特に変化は見られない

そもそも0.75になったペアの長さが15以下である だめじゃん・・・

正解0

長さの内訳

{5: 2, 8: 93, 11: 10, 10: 120, 14: 28}

6gramでやったら変わるかなぁ?

6gramをやった後の考察

6gramはクラス名が同じだったのに対して,2gramはクラス名が違っていた でも長さで弾くので,まぁ何も見なかったことにしたらいい

ここでいいたいのは短い文字だったら余り効果が発揮できない