관리 메뉴

Fintecuriosity

[확률 기반의 자연어 처리] 통계적 언어능력문법 본문

언어학/확률기반 자연어 처리

[확률 기반의 자연어 처리] 통계적 언어능력문법

DataHolic26 2020. 8. 3. 01:25

 

이번 글의 내용은 이강혁 교수님의 "문법을 넘어서, 확률 기반의 자연어 처리" 저서를 참조 하였음을 먼저 밝힙니다. (다른 참조한 논문과 자료들은 아래에 기재되어 있습니다.) 

 

혹시 제가 잘못 알고 있는 점이나 보완할 점 있다면 댓글로 알려주시면 감사하겠습니다. 

 


※ 통계적인 방법에 의해 확장된 이런 종류의 언어능력문법은 한 언어의 모든 문장과 문장의 모든 분석을 정의합니다.

 

이러한 문법은 또한 각각의 문장과 분석에 확률값을 할당합니다. 따라서 이러한 문법은 중요한 언어 수행 현상

 

즉 (언어생성과 음성인식에 있어서) 서로 다른 문장들 사이에서 또는 (중의성 해소에 있어서) 서로 다른 문장 분석들 사이에서 선택할 때 사람들이 보이는 선호도에 대해 일정한 예측을 하게 됩니다. 

 

하지만 이러한 예측의 정확성은 제한적일 수 밖에 없습니다. 확률문법은 통계적으로 유의미한 언어단위가 언어능력 문법에 의해 채용된 언어단위(문법과 단어)와 정확하게 일치한다는 가정을 지니고 있습니다. 그러므로 빈도에 근거한 중의성 해소, 즉 새로운 구문구조보다는 상투적인 어구나 고정된 구조에 따라 해석하려는 경향을 지닌다는 가장 명백한 경우조차도 확률문법의 범위를 벗어나게 됩니다.

 

관용어 및 상투어구는 임의적인 크기와 복잡도를 지니는 구문이 언어학적 관점으로는 완전히 중복되는 것이지만 통계적으로는 중요할 수도 있다는 점을 보여줍니다. 또한 큰 구문들은 보통 그보다 작은 구문들로 보통 이루어지기 때문에 특정한 의존관계의 집합의 경계를 개념적으로 결정하기는 어렵습니다.

 


 

※ 임의의 크기와 형태를 지니는 구문들이 통계적으로 중요하다면 어떤 구문들이 새로운 발화를 처리하고 생성하는데 사용될까요?

 

성인 언어 사용자의 언어경험은 많은 수의 발화-분석 (utterance-analyses)으로 구성되어 있습니다. 이러한 각각의 발화-분석은 많은 구문, 즉 문장 전체의 수형도 및 그에 따른 모든 구성성분 수형도(consituent tree) 뿐만 아니라 단어나 복잡한 구성요소에 대한 자유변항 (free variable)을 도입함으로써 이러한 수형도로부터 추출할 수 있는 모든 패턴을 포함하고 있습니다. 

 

우리는 이러한 구문구조 중 어떤 것이 중요한 것인지 사전에 알 수 없으므로 미리 생성단위를 제약하거나 정의할 수 없으며 모든 임의의 (이전에 경험된) 발화-분석을 가능한 단위로 받아들여 통계에 의해 결정하도록 해야합니다.   

 

 

긴 글 읽어주셔서 감사합니다.


References

 

[1] K. Lee. (2003). 문법을 넘어서, 확률 기반의 자연어 처리.