관리 메뉴

Fintecuriosity

[확률 기반의 자연어 처리] 합성 연산 (Composition Operation) 본문

언어학/확률기반 자연어 처리

[확률 기반의 자연어 처리] 합성 연산 (Composition Operation)

DataHolic26 2020. 8. 28. 02:21

 

이번 글의 내용은 이강혁 교수님의 "문법을 넘어서, 확률 기반의 자연어 처리" 저서를 참조 하였음을 먼저 밝힙니다. (다른 참조한 논문과 자료들은 아래에 기재되어 있습니다.) 

 

 

혹시 제가 잘못 알고 있는 점이나 보완할 점 있다면 댓글로 알려주시면 감사하겠습니다. 

 


 

 

John likes Mary에 대한 가능한 분석 수형도(그림 1)

 

DOP1은 단 한 가지 합성연산, 즉 명칭 붙은 수형도에 대한 부분함수(partial function)인 마디-대치(node-substituition) 연산만을 기술합니다. 합성연산의 범위는 명칭이 붙은 수형도의 집합입니다. t º u 로 표기되는 수형도 t와 수형도 u의 합성은 t의 극좌 비종단(leftmost nonterminal) 경계마디상의 명칭이 u의 뿌리마디(root node)상의 명칭과 동일할 때만 정의됩니다. t º u 가 정의되면 t º u는 u의 복사 수형도가 t의 극좌 비종단 경계마디와 대치되는 t의 복사 수형도를 산출하게 됩니다. (극좌 비종단 마디와 대치된다는 요구조건으로 인해 2개의 부분수형도의 합성은 유일성을 획득합니다.)

 


 

합성연산의 예시 (그림 2)

합성연산의 예시는 위의 그림 1처럼 두 부분구조가 극좌 마디-대치(leftmost node-substitution)에 의해 그림 2처럼 결합됩니다. 문장 Mary likes John의 분석을 도출해내기 위해 그림 2에 있는 합성 수형도는 그림 1에 있는 다른 NP 부분구조와 합성될 수 있습니다.

 


 

Mary likes John의 분석 도출 (그림 3)

º 는 좌연접(left-associative) 규약에 따라 (t º u) º v t º u º v 로 쓸 수 있습니다. 부분수형도의 집합 B가 주어지면, 비종단 나뭇잎(nonterminal leaves)이 없이 뿌리마디를 지닌 수형도 T를 산출하는 합성순열 t1 º ... º vn (ti ∈ B)을 T의 도출(derivation)이라고 불릅니다.

 

부분수형도의 집합 B가 주어지면, B의 원소들의 반복합성에 의해 생성될 수 있는, 비종단 나뭇잎이 없이 뿌리 마디를 지니는 수형도의 집합을 B에 의해 생성되는 수형도 언어(tree language)라고 불릅니다. 이러한 수형도에 의해 산출되는 문자열(strings)의 집합을 B에 의해 생성되는 문자열 언어(string language)라고 불립니다.

 

수형도 코퍼스 C가 주어지면, C의 수형도 내에 있는 부분수형도의 집합에 의해 생성되는 수형도 언어를 C에 의해 유도되는 수형도 언어라고 불릅니다. C의 수형도 내에 있는 부분수형도의 집합에 의해 생성되는 문자열 언어를 C에 의해 유도되는 문자열이라고 불릅니다.

 

 

 

 

긴 글 읽어주셔서 감사합니다.

 

 


References

 

[1] K. Lee. (2003). 문법을 넘어서, 확률 기반의 자연어 처리.