관리 메뉴

Fintecuriosity

[확률 기반의 자연어 처리] 데이터 중심의 파싱(DOP) 개념 본문

언어학/확률기반 자연어 처리

[확률 기반의 자연어 처리] 데이터 중심의 파싱(DOP) 개념

DataHolic26 2020. 8. 3. 04:12

 

이번 글의 내용은 이강혁 교수님의 "문법을 넘어서, 확률 기반의 자연어 처리" 저서를 참조 하였음을 먼저 밝힙니다. (다른 참조한 논문과 자료들은 아래에 기재되어 있습니다.) 

 

혹시 제가 잘못 알고 있는 점이나 보완할 점 있다면 댓글로 알려주시면 감사하겠습니다. 

 


 

※ 개인의 과거 언어경험이 어떤 형태로든 자신의 문장분석처리를 결정하게 된다는 것은 분명합니다.

 

데이터 중심의 파싱 (Data-Oriented Parsing, DOP)의 기본개념은 이러한 문장분석이 직접적인 방식으로 이루어진다는 것입니다. 개인의 과거 언어경험에 대한 표시로서 우리는 적절한 분석이 이루어진 이전에 발생했던 발화의 코퍼스를 사용합니다. 새로운 발화의 분석은 코퍼스에 있는 분석의 부분구조들 (fragments)을 자유롭게 결합함으로써 이루어집니다. 분석 부분구조들의 발생빈도 (occurrence-frequencies) 를 고려함으로써 이런 방식으로 구축되는 가장 높은 확률값의 분석을 결정할 수 있습니다.

 

따라서 DOP 접근방식은 통상적인 언어학적 방식과는 상당한 대조를 이룹니다. Bob & Kaplan(1998a)이 관찰했듯이 한 언어이론의 발화-표시 (utterance-representations) 또는 분석을 반영하는 DOP 모델은 그 이론의 특정 문법규칙이나 도출 메커니즘을 반영하지 않습니다. DOP 모델은 좀 더 큰 구문으로 이루어진 특정집합을 요구하지 않으며, 발화-분석이 임의의 크기와 복잡도를 지니는 구조, 심지어 다른 구조들의 부분구조로부터도 이루어질 수 있도록 허용합니다.

 

확률모델은 크기가 다른 구조 집합으로부터 가장 적절한 발화의 분석을 구성하는 구조를 선택하기 위해 사용됩니다. 그러므로 어떤 표시이론에 대한 DOP 모델이 그 이론과 일치하는 (무한히 많은) 발화-분석을 생성한다 할지라도 발화-표시의 전체집합에 대한 최소의 중복되지 않는 문법규칙의 발견에 의존하거나 기여하는 것은 아닙니다.

 

 

 

긴 글 읽어주셔서 감사합니다.


References

 

[1] K. Lee. (2003). 문법을 넘어서, 확률 기반의 자연어 처리.