관리 메뉴

Fintecuriosity

[확률 기반의 자연어 처리] 부분구조 (Fragments) 본문

언어학/확률기반 자연어 처리

[확률 기반의 자연어 처리] 부분구조 (Fragments)

DataHolic26 2020. 8. 10. 07:18

 

이번 글의 내용은 이강혁 교수님의 "문법을 넘어서, 확률 기반의 자연어 처리" 저서를 참조 하였음을 먼저 밝힙니다. (다른 참조한 논문과 자료들은 아래에 기재되어 있습니다.) 

 

 

혹시 제가 잘못 알고 있는 점이나 보완할 점 있다면 댓글로 알려주시면 감사하겠습니다. 

 


 

DOP1이 단위로써 사용하는 코퍼스 수형도의 부분구조는 부분수형도(subtrees)입니다. 수형도 T의 부분수형도는 T의 부분그래프 (subgraph) t이며, 이 때

 

 

(1) t는 두개 이상의 마디(node)로 구성되며

(2) t는 연결되어 있으며

(3) t의 경계마디(frontier nodes)를 제외한 t에 있는 각각의 마디는 T에 있는 대응 마디들과 동일한 딸 마디(daughter nodes)를 가집니다.

 

예를 들어서, 아래의 그림에 있는 수형도 T가 있다고 가정하면, 아래의 수형도는 T의 유효한 부분구조가 됩니다.

 

 

 

유효한 부분구조

하지만 위의 정의에 따르면 다음과 같은 부분구조는 배제됩니다.

 

유효하지 않은 부분구조

 

부분수형도 (a)는 부분구조가 두 개 이상의 마디로 구성되어야 한다는 조건항 (1)에 배치됩니다. 연결되지 않은 부분수형도 (b)는 조건항 (2)에 어긋납니다. 마지막으로 부분수형도 (c)는 부분구조의 각 마디가 자신의 도출되는 수형도 내에 대응하는 마디와 같은 딸 마디를 가져야 한다는 요구를 어기고 있습니다.

 

이러한 조건은 구구조 수형도에서 자매관계(sister relations)로 표현되는 하위범주화 의존관계(subcategorization dependencies)의 완전성을 유지하는 효과를 지닙니다.

 

수형도 코퍼스 C가 주어지면, C의 모든 부분수형도는 정확히 C에 있는 수형도에서 확인될 수 있는 만큼 발생합니다.

 

 

 

긴 글 읽어주셔서 감사합니다.

 

 


References

 

[1] K. Lee. (2003). 문법을 넘어서, 확률 기반의 자연어 처리.