6gramでやってみた
正解検索件数と検索バースマークの長さの関係
excel: ./sim_freq_6gram_no_nomalize.xlsx
これを見ると59件の検索バースマークで正解を見つけたが、3つの検索バースマークは正解が一つもでないという結果になった
調べたら59件の中にちゃんと検索結果のやつが入っている
スコアと長さの関係
class: protobuf_unittest.UnittestProto$TestAllTypes length: 664 image: ./score_length-664_relational.png
class: com.google.protobuf.test.UnittestImport$ImportMessage length: 190 image: ./score_length-190_relational.png
class: protobuf_unittest.MessageWithNoOuter$NestedMessage length: 190 image: ./score_length-190-2_relational.png
そもそも正解が出てくると想定されているのにでてこないのはなんでだという疑問
org.apache.activemq.protobuf.DeferredUnmarshal$FooBase protobuf_unittest.MessageWithNoOuter$NestedEnum protobuf_unittest.UnittestMset$RawMessageSet$ItemBase
なんで出てこないのかようわからんのでもういい
正解集合が検索結果の難易ぐらいに出てくるかの調査
意味不明な三件を除いて,全て上位に位置している
親和性はたかそう
image: ./pochi_sim_transition_6gram.png, ./pochi_sim_transition_6gram_zoom.png
これもいい感じに線形的に落ちている
親和性高そう