Tf-idf 문서 원본 보기
←
Tf-idf
둘러보기로 이동
검색으로 이동
문서 편집 권한이 없습니다. 다음 이유를 확인해주세요:
요청한 명령은 다음 권한을 가진 사용자에게 제한됩니다:
사용자
.
문서의 원본을 보거나 복사할 수 있습니다.
{{위키데이터 속성 추적}} {{소문자}} '''TF-IDF'''(Term Frequency - Inverse Document Frequency)는 [[정보 검색]]과 [[텍스트 마이닝]]에서 이용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 [[통계]]적 수치이다. 문서의 [[핵심어]]를 추출하거나, [[검색 엔진]]에서 검색 결과의 순위를 결정하거나, 문서들 사이의 비슷한 정도를 구하는 등의 용도로 사용할 수 있다. TF(단어 빈도, term frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값으로, 이 값이 높을수록 문서에서 중요하다고 생각할 수 있다. 하지만 단어 자체가 문서군 내에서 자주 사용되는 경우, 이것은 그 단어가 흔하게 등장한다는 것을 의미한다. 이것을 DF(문서 빈도, document frequency)라고 하며, 이 값의 역수를 IDF(역문서 빈도, inverse document frequency)라고 한다. TF-IDF는 TF와 IDF를 곱한 값이다. IDF 값은 문서군의 성격에 따라 결정된다. 예를 들어 '[[원자]]'라는 낱말은 일반적인 문서들 사이에서는 잘 나오지 않기 때문에 IDF 값이 높아지고 문서의 핵심어가 될 수 있지만, 원자에 대한 문서를 모아놓은 문서군의 경우 이 낱말은 상투어가 되어 각 문서들을 세분화하여 구분할 수 있는 다른 낱말들이 높은 가중치를 얻게 된다. == 수학적 설명 == TF-IDF는 단어 빈도와 역문서 빈도의 곱이다. 두 값을 산출하는 방식에는 여러 가지가 있다. '''단어 빈도''' tf(''t'',''d'')의 경우, 이 값을 산출하는 가장 간단한 방법은 단순히 문서 내에 나타나는 해당 단어의 총 빈도수를 사용하는 것이다. 문서 d 내에서 단어 t의 총 빈도를 f(''t'',''d'')라 할 경우, 가장 단순한 tf 산출 방식은 tf(''t'',''d'') = f(''t'',''d'')로 표현된다. 그 밖에 TF값을 산출하는 방식에는 다음과 같은 것들이 있다.<ref>{{서적 인용 |저자= Manning, C. D. |공저자=Raghavan, P.; Schutze, H. |제목=Introduction to Information Retrieval |url= https://archive.org/details/introductiontoin0000mann_b6m0 |인용문=Scoring, term weighting, and the vector space model |출판사=Cambridge University Press |초판연도=2008 |ISBN=9780521865715 |쪽=100~123 |확인날짜=2013-12-11}}</ref>{{rp|118}} * [[불리언 자료형|불린]] 빈도: tf(''t'',''d'') = ''t''가 ''d''에 한 번이라도 나타나면 1, 아니면 0; * [[로그]] 스케일 빈도: tf(''t'',''d'') = log (f(''t'',''d'') + 1); * 증가 빈도: 최빈 단어를 분모로 target 단어의 TF를 나눈 값으로, 일반적으로는 문서의 길이가 상대적으로 길 경우, 단어 빈도값을 조절하기 위해 사용한다. :<math>\mathrm{tf}(t,d) = 0.5 + \frac{0.5 \times \mathrm{f}(t, d)}{\max\{\mathrm{f}(w, d):w \in d\}}</math> '''역문서 빈도'''는 한 단어가 문서 집합 전체에서 얼마나 공통적으로 나타나는지를 나타내는 값이다. 전체 문서의 수를 해당 단어를 포함한 문서의 수로 나눈 뒤 [[로그]]를 취하여 얻을 수 있다. :<math> \mathrm{idf}(t, D) = \log \frac{|D|}{|\{d \in D: t \in d\}|}</math> * <math> |D| </math>: [[집합의 크기|문서 집합 D의 크기]], 또는 전체 문서의 수 * <math> |\{d \in D: t \in d\}| </math> : 단어 <math>t</math>가 포함된 문서의 수.(즉, <math> \mathrm{tf}(t,d) \neq 0</math>). 단어가 전체 [[말뭉치]] 안에 존재하지 않을 경우 이는 분모가 0이 되는 결과를 가져온다. 이를 방지하기 위해 <math>1 + |\{d \in D: t \in d\}|</math>로 쓰는 것이 일반적이다. TF-IDF는 다음과 같이 표현된다. :<math>\mathrm{tfidf}(t,d,D) = \mathrm{tf}(t,d) \times \mathrm{idf}(t, D)</math> 특정 문서 내에서 단어 빈도가 높을 수록, 그리고 전체 문서들 중 그 단어를 포함한 문서가 적을 수록 TF-IDF값이 높아진다. 따라서 이 값을 이용하면 모든 문서에 흔하게 나타나는 단어를 걸러내는 효과를 얻을 수 있다. IDF의 로그 함수 안의 값은 항상 1 이상이므로, IDF값과 TF-IDF값은 항상 0 이상이 된다. 특정 단어를 포함하는 문서들이 많을 수록 로그 함수 안의 값이 1에 가까워지게 되고, 이 경우 IDF값과 TF-IDF값은 0에 가까워지게 된다. == 같이 보기 == * [[워드 임베딩]] * [[쿨백-라이블러 발산]] * [[잠재 디리클레 할당]] * [[잠재 의미 분석]] * [[상호정보]] * [[페이지랭크]] * [[벡터 공간 모델]] == 참고자료 == * Salton G. and McGill, M. J. 1983 ''Introduction to modern information retrieval''. McGraw-Hill, {{ISBN|0-07-054484-0}}. == 각주 == <references/> [[분류:벡터 공간 모델]] [[분류:자연어 처리]] [[분류:통계적 자연어 처리]]
이 문서에서 사용한 틀:
틀:ISBN
(
원본 보기
)
틀:Rp
(
원본 보기
)
틀:서적 인용
(
원본 보기
)
틀:소문자
(
원본 보기
)
틀:위키데이터 속성 추적
(
원본 보기
)
Tf-idf
문서로 돌아갑니다.
둘러보기 메뉴
개인 도구
로그인
이름공간
문서
토론
한국어
보기
읽기
원본 보기
역사 보기
더 보기
검색
둘러보기
대문
최근 바뀜
임의의 문서로
미디어위키 도움말
특수 문서 목록
도구
여기를 가리키는 문서
가리키는 글의 최근 바뀜
문서 정보