500個ランダムに選んだjarファイルでサーバーを構築
activemq-protobuf-test-1.1.jar-2gram.csvを使ってみる
結果
# 0 -> 一位
[(0, 30), (1, 10), (2, 6), (3, 11), (4, 6), (5, 3), (6, 5), (7, 4), (8, 2), (9, 1), (10, 1)]
40 + 17 + 9 + 9 + 3 + 1 = 79 検索件数と一致しています
10番目に出てきたバースマークを見てみる.
['25 183', '183 25', '25 3', '3 181', '181 25', '181 177', '177 25', '25 180', '180 172', '172 25', '25 182', '182 25', '25 4', '4 181', '25 21', '21 181', '25 176', '176 25']
['25 183', '183 25', '25 3', '3 181', '181 25', '181 177', '177 25', '25 180', '180 172', '172 25', '25 182', '182 25', '25 4', '4 181', '25 21', '21 181', '25 176', '176 25']
一致した・・・・
10番目までのバースマークを見てみる
# 検索
25 183,183 25,25 3,3 181,181 25,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,25 21,21 181,25 176,176 25
# 結果
25 183,183 25,25 3,3 181,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,181 25,25 21,21 181,25 176,176 25
25 183,183 25,25 3,3 181,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,181 25,25 21,21 181,25 176,176 25
25 183,183 25,25 3,3 181,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,181 25,25 21,21 181,25 176,176 25
25 183,183 25,25 3,3 181,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,181 25,25 21,21 181,25 176,176 25
25 183,183 25,25 3,3 181,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,181 25,25 21,21 181,25 176,176 25
25 183,183 25,25 3,3 181,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,181 25,25 21,21 181,25 176,176 25
25 183,183 25,25 3,3 181,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,181 25,25 21,21 181,25 176,176 25
25 183,183 25,25 3,3 181,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,181 25,25 21,21 181,25 176,176 25
25 183,183 25,25 3,3 181,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,181 25,25 21,21 181,25 176,176 25
25 183,183 25,25 3,3 181,181 25,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,25 21,21 181,25 176,176 25
25 183,183 25,25 3,3 181,181 25,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,25 21,21 181,25 176,176 25
どれもpochiの類似度は1.0
9番目までのバースマークを見てみるよ
# 検索
25 183,183 25,25 3,3 181,181 25,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,25 21,21 181,25 176,176 25
# 結果
25 183,183 25,25 3,3 181,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,181 25,25 21,21 181,25 176,176 25
25 183,183 25,25 3,3 181,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,181 25,25 21,21 181,25 176,176 25
25 183,183 25,25 3,3 181,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,181 25,25 21,21 181,25 176,176 25
25 183,183 25,25 3,3 181,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,181 25,25 21,21 181,25 176,176 25
25 183,183 25,25 3,3 181,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,181 25,25 21,21 181,25 176,176 25
25 183,183 25,25 3,3 181,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,181 25,25 21,21 181,25 176,176 25
25 183,183 25,25 3,3 181,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,181 25,25 21,21 181,25 176,176 25
25 183,183 25,25 3,3 181,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,181 25,25 21,21 181,25 176,176 25
25 183,183 25,25 3,3 181,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,181 25,25 21,21 181,25 176,176 25
25 183,183 25,25 3,3 181,181 25,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,25 21,21 181,25 176,176 25 <- これ
# 以下
25 183,183 25,25 3,3 181,181 25,181 177,177 25,25 180,180 172,172 25,25 182,182 25,25 4,4 181,25 21,21 181,25 176,176 25
同じ検索バースマークだった でもfilenameが違う.
調べたら同じ類似度のやつはfilenameでソートされるらしい
同じやつと同じやつ(結果)の類似度頻度
[('1', 61), ('0.982226128644055', 1), ('0.9701926149195159', 1), ('0.9564905995020847', 1), ('0.9540563130575881', 3), ('0.9500656982613372', 1), ('0.9455120727893098', 1), ('0.9258289302857698', 1), ('0.9008058649733615', 1), ('0.8996075372037898', 1), ('0.8836401718784667', 5), ('0.8740421024610862', 1), ('0.8500234995472105', 1)]
同じfilenameなのに類似度が1じゃないのよく分からんので調べる
類似度が低いけど,同一のバースマークらしい
pochiで類似度測ると,全部1.0だった
検索エンジンの類似度計算に若干変な所あるかぁ
後日
再試行
janrain4j-1.1.0.jar-2gram.csvを使ってみる
# ランキング
{0: 38, 1: 6, 2: 2, 3: 1, 4: 1, 5: 1}
# 類似度頻度
{'1': 49}
全件69件なので少ないか? 普通に長さフィルターでremoveされただけだった -> 長さ15以下のものが20件あったということ
6gramでもやろうかなぁ
6gram
janrain4j-1.1.0.jar-6gram.csvを使う
{0: 29, 1: 3, 3: 1, 4: 1, 5: 1}
{'1': 35}
なんか一件が出てないので調べてみる
com.googlecode.janrain4j.json.JSONObject
検索エンジンには入っているが検索結果に出てこない!?
なんだこれ
とりあえず無視
activemq-protobuf-test-1.1.jar-2gram.csvを使ってみる
{0: 46, 1: 5, 2: 4, 3: 2, 4: 2, 5: 1, 6: 1, 7: 1}
{'1': 62}
62件中全件類似度1.0なので上々であると考える