일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 메타휴리스틱
- 경제용어
- 통계적품질관리
- 품질경영
- 정보시스템설계및분석
- 지식재산경영
- 언어학
- 공대생의전공공부
- 산업공학
- 이공계를위한특허이해
- 인공지능
- 확률기반자연어처리
- 공대생의문과공부
- 통계학
- 최적화기법
- 공대생의경제공부
- 영어영문학
- 공대생의언어학공부
- 지적재산권
- 최적화문제
- 국어국문학
- 고전방법론
- 공대생의산업공학공부
- 컴퓨터공학
- 정보시스템
- 일일경제공부
- 자연어처리
- 특허
- 언어적지식
- 공대생의연구공부
- Today
- Total
Fintecuriosity
[확률 기반의 자연어 처리] 통계적 언어능력문법 본문

이번 글의 내용은 이강혁 교수님의 "문법을 넘어서, 확률 기반의 자연어 처리" 저서를 참조 하였음을 먼저 밝힙니다. (다른 참조한 논문과 자료들은 아래에 기재되어 있습니다.)
혹시 제가 잘못 알고 있는 점이나 보완할 점 있다면 댓글로 알려주시면 감사하겠습니다.
※ 통계적인 방법에 의해 확장된 이런 종류의 언어능력문법은 한 언어의 모든 문장과 문장의 모든 분석을 정의합니다.
이러한 문법은 또한 각각의 문장과 분석에 확률값을 할당합니다. 따라서 이러한 문법은 중요한 언어 수행 현상
즉 (언어생성과 음성인식에 있어서) 서로 다른 문장들 사이에서 또는 (중의성 해소에 있어서) 서로 다른 문장 분석들 사이에서 선택할 때 사람들이 보이는 선호도에 대해 일정한 예측을 하게 됩니다.
하지만 이러한 예측의 정확성은 제한적일 수 밖에 없습니다. 확률문법은 통계적으로 유의미한 언어단위가 언어능력 문법에 의해 채용된 언어단위(문법과 단어)와 정확하게 일치한다는 가정을 지니고 있습니다. 그러므로 빈도에 근거한 중의성 해소, 즉 새로운 구문구조보다는 상투적인 어구나 고정된 구조에 따라 해석하려는 경향을 지닌다는 가장 명백한 경우조차도 확률문법의 범위를 벗어나게 됩니다.
관용어 및 상투어구는 임의적인 크기와 복잡도를 지니는 구문이 언어학적 관점으로는 완전히 중복되는 것이지만 통계적으로는 중요할 수도 있다는 점을 보여줍니다. 또한 큰 구문들은 보통 그보다 작은 구문들로 보통 이루어지기 때문에 특정한 의존관계의 집합의 경계를 개념적으로 결정하기는 어렵습니다.
※ 임의의 크기와 형태를 지니는 구문들이 통계적으로 중요하다면 어떤 구문들이 새로운 발화를 처리하고 생성하는데 사용될까요?
성인 언어 사용자의 언어경험은 많은 수의 발화-분석 (utterance-analyses)으로 구성되어 있습니다. 이러한 각각의 발화-분석은 많은 구문, 즉 문장 전체의 수형도 및 그에 따른 모든 구성성분 수형도(consituent tree) 뿐만 아니라 단어나 복잡한 구성요소에 대한 자유변항 (free variable)을 도입함으로써 이러한 수형도로부터 추출할 수 있는 모든 패턴을 포함하고 있습니다.
우리는 이러한 구문구조 중 어떤 것이 중요한 것인지 사전에 알 수 없으므로 미리 생성단위를 제약하거나 정의할 수 없으며 모든 임의의 (이전에 경험된) 발화-분석을 가능한 단위로 받아들여 통계에 의해 결정하도록 해야합니다.
긴 글 읽어주셔서 감사합니다.
References
[1] K. Lee. (2003). 문법을 넘어서, 확률 기반의 자연어 처리.
'언어학 > 확률기반 자연어 처리' 카테고리의 다른 글
[확률 기반의 자연어 처리] DOP 모델의 구성, 체계 (0) | 2020.08.03 |
---|---|
[확률 기반의 자연어 처리] 데이터 중심의 파싱(DOP) 개념 (0) | 2020.08.03 |
[확률 기반의 자연어 처리] 확률문법 (stochastic grammar) (0) | 2020.08.02 |
[확률 기반의 자연어 처리] 통계학적 접근방식 (0) | 2020.08.02 |
[확률 기반의 자연어 처리] 언어수행 모델에 대한 빈도기반 접근방식 (0) | 2020.08.02 |