文書類似度

自然言語処理に関する用語

tf-idfとは?自然言語処理における用語解説

tf-idf(Term Frequency-Inverse Document Frequency)とは、自然言語処理で広く使用される文書の特徴量です。これは、特定の単語が文書内で出現する頻度(Term Frequency)と、文書のコレクション全体の文書でその単語が出現する頻度(Inverse Document Frequency)の積を計算することで得られます。tf-idfは、単語が文書にとって重要であるかどうかを評価するのに使用されます。出現頻度の高い単語であっても、コレクション内の他の文書にも頻繁に出現する場合は、その文書にとって重要とはみなされません。一方、出現頻度は低くても、コレクション内の他の文書ではほとんど出現しない単語は、その文書にとって重要と判断されます。