類似度計算式などはこれ

実験

検索したバースマークの長さと検索結果ランキング一位の類似度を見てみる

結果

でも類似度計算的に長さ依存ではないっぽいことがわかる 全体の頻度とかが影響したりするので,うーむって感じする

しかし合計値なので基本的には長さが長いほうが値が大きくなる

研究としては,検索して出てきたやつに盗用の疑いの高いものが出てきたらいい

検索してスコアの閾値を設けるのは難しそう

弁別性,保存性

弁別性 -> 検索してでてきたやつが欲しいやつ

edit distanceだと全体的に見るとBM25より誤検出やら検出漏れが多かったので却下した節はある

とりあえず閾値頻度分布作る