この前やってたようなことをやっていく
pochi0.75以上のものの長さの頻度
当然のごとく長さは一緒らしい
pochi0.75以上のものはファイル名が一緒なのか?
same: 1419, other: 0
これちがうかも
同じやつは当然のように79件しかなく、まぁそうなるなぁって感じ(検索jarファイルが79件である)
~これを見ると一緒のものしかないらしい~
これ、全体で1419件なので一件あたりの件数を見てみる
一件あたりの平均検索ヒット件数(正解集合が入っている件数)
平均件数:17.96202532
長さとヒット件数の関係
ヒット件数が多いものの長さがどうなっているのか?
長さの平均:62.94936709
image: ./result_length_relation.png
結果を見るとバースマークの長さが長いやつは、結構厳しめにしていると思ったけどそんなことはなくて下がっていっても件数が下がるやつもある とりあえず下がっているやつがどういったやつなのかが気になる
同じファイルの検索エンジンでの類似度
com.google.protobuf.test.UnittestImport$ImportMessageに着目する まず同一クラスの検索エンジンの類似度は144.04166だった ランキングの順位的には5位(低い)
ランキング一位のクラスはprotobuf_unittest.UnittestMset$TestMessageSetExtension1で、類似度は163.05688である
- 参考
25 183,183 177,177 25,183 58,58 25,25 176,176 25,183 25,25 182,182 177,177 187,187 89,89 183,182 176,182 153,153 25,25 25,182 182,182 87,87 25,25 180,180 2,2 159,159 25,180 172,172 3,3 54,54 25,153 21,21 4,4 25,182 184,184 96,96 54,25 21,21 181,181 21,21 172,172 25,182 54,54 21,21 16,16 126,126 7,7 160,160 25,176 21,21 171,171 25,176 167,167 25,87 167,25 4,182 192,192 176,176 187,192 182,25 187,183 18,18 182,182 18,25 18,25 166,166 4,4 172,25 198,198 25,18 165,165 3,3 172,25 192,182 172,182 25,182 130,130 153,153 3,182 159,159 3,172 4,172 18,18 54,16 25,130 130,130 54
25 183,183 177,177 25,183 58,58 25,25 176,176 25,183 25,25 182,182 177,177 187,187 89,89 183,182 176,182 153,153 25,25 25,182 182,182 87,87 25,25 180,180 2,2 159,159 25,180 172,172 3,3 54,54 25,153 21,21 16,16 25,182 184,184 96,96 54,25 21,21 181,181 21,21 172,172 25,182 54,54 21,16 126,126 7,7 160,160 25,176 21,21 171,171 25,176 167,167 25,87 167,25 16,182 192,192 176,176 187,192 182,25 187,183 18,18 182,182 18,25 18,25 166,166 4,4 172,25 198,198 25,18 165,165 3,3 172,25 192,182 172,182 25,182 130,130 153,153 3,182 159,159 3,172 4,172 18,18 54,130 130,130 54
明らかに同一ではないけど、類似度計算方法的に単語の頻度が高いとスコアが良くなる傾向にある edit distanceやら文字列の長さを測るやつだと一文字ごとに考えていくので、要素という観点ではあまり意味がないかなぁ
今のやつは要素ごとにスコアを出していくので、まぁ良いかもしれない
pochi0.75以上のものの類似度の頻度
ヒストグラムにしよう 高さが頻度、横が類似度 image: ./script/search_birhtmark_length_no_nomal.png
思ったこととしては、検索エンジンに入っているドキュメントの数によって、検索エンジンの類似度が変わっていく(そういう仕様)
同じ検索バースマークを投げた時、500件だと最高類似度が166、131476件だと最高類似度が215である
そして明らかに166(前の最高の類似度)の頻度が減っており、それより低い類似度のやつらが増えている 関係のないドキュメントがいろいろ入ってきて、それに引っ張られて類似度が下がったと推測する
今の類似度計算の方法的に、カンマ区切りで一つの要素を取り出して、その後その要素が含まれるドキュメントの数を調べている。 その要素の場所は考慮に入れられていない。これはいいのか?
検索エンジンの中のデータによって、類似度が変わってくるのでその都度最適な閾値を見つける必要がある。 低い類似度だと0.07593925などがあった. つまり0以下は少ししか似てないようなものなので無視できるかもしれない