類似度計算式などはこれ
- ref
- bm25
実験
検索したバースマークの長さと検索結果ランキング一位の類似度を見てみる
結果
- 縦軸:類似度,横軸:長さ img: ./seach_sim_freq_no_nomal.png
でも類似度計算的に長さ依存ではないっぽいことがわかる 全体の頻度とかが影響したりするので,うーむって感じする
しかし合計値なので基本的には長さが長いほうが値が大きくなる
研究としては,検索して出てきたやつに盗用の疑いの高いものが出てきたらいい
検索してスコアの閾値を設けるのは難しそう
弁別性,保存性
弁別性 -> 検索してでてきたやつが欲しいやつ
edit distanceだと全体的に見るとBM25より誤検出やら検出漏れが多かったので却下した節はある
とりあえず閾値頻度分布作る