일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 통계학
- 언어적지식
- 경제용어
- 언어학
- 산업공학
- 일일경제공부
- 컴퓨터공학
- 공대생의문과공부
- 공대생의연구공부
- 지적재산권
- 인공지능
- 정보시스템설계및분석
- 통계적품질관리
- 공대생의산업공학공부
- 고전방법론
- 공대생의경제공부
- 영어영문학
- 공대생의전공공부
- 품질경영
- 확률기반자연어처리
- 최적화문제
- 국어국문학
- 공대생의언어학공부
- 최적화기법
- 이공계를위한특허이해
- 지식재산경영
- 자연어처리
- 메타휴리스틱
- 특허
- 정보시스템
- Today
- Total
Fintecuriosity
[확률 기반의 자연어 처리] 언어수행 모델에 대한 빈도기반 접근방식 본문
이번 글의 내용은 이강혁 교수님의 "문법을 넘어서, 확률 기반의 자연어 처리" 저서를 참조 하였음을 먼저 밝힙니다. (다른 참조한 논문과 자료들은 아래에 기재되어 있습니다.)
혹시 제가 잘못 알고 있는 점이나 보완할 점 있다면 댓글로 알려주시면 감사하겠습니다.
※ 오랫동안 계속된 심리학적 연구를 살펴보겠습니다.
(1) 사람들이 빈도 및 빈도의 차이를 등록
(2) 새롭게 구축해야 하는 분석보다는 이전에 경험했던 분석을 선호
(3) 이러한 선호도는 빈번히 발생되었던 분석이 그렇지 못한 분석보다 선호된다는 점
즉, 분석의 발생빈도에 의해 영향을 받는다는 사실을 나타내주고 있습니다.
위의 명제들은 언어수행 모델에 대한 빈도 기반의 접근 방식에 중요한 동기를 부여합니다. 확률론은 발생빈도의 개념을 일관된 수학적 정확성으로 모델에 반영할 수 있게 해줍니다.
따라서 (1)~(3)의 명제들을
(4)언어 해석자는 새로운 발화의 가장 가능성 높은 분석을 이전에 인지된 발화-분석(utterance-analyses)에 근거해 인지하는 경향을 지닌다. 라는 명제로 대치할 수 있습니다.
(4) 명제가 어떤 발화에 대한 다른 가능한 분석들이 틀린 것이라고 말하는 것은 아닙니다. 한 분석이 언어이론(언어능력 모델)에 의해 생성될 수 있다는 것은 형식문법적으로는 올바른 것입니다. 모든 올바른 분석 중에서 실제로 언어 해석자에 의해 인지되는 분석을 선택하는 것은 수행모델의 과제입니다.
이것이 해석자가 발화의 다른 분석을 인지할 수 없다는 것을 의미하지 않습니다. 단지 해석자는 자신의 이전 언어경험과 관련하여 좀 더 가능성이 높은 분석을 인지하게 되는 매우 강한 경향을 지닌다는 것입니다. 명제 (4)가 함축하는 의미는 서로 다른 언어경험은 발화에 대해 서로 다른 분석을 내놓게 된다는 것입니다.
이러한 함축의미를 지지하는 흥미로운 연구결과도 있었습니다. 하지만 개인적 언어경험을 모두 모을 수 없으므로 우리의 논의는 이미 분석되어 이용 가능한 자연어 발화 자료에 제한될 수 밖에 없습니다.
긴 글 읽어주셔서 감사합니다.
References
[1] K. Lee. (2003). 문법을 넘어서, 확률 기반의 자연어 처리.
'언어학 > 확률기반 자연어 처리' 카테고리의 다른 글
[확률 기반의 자연어 처리] 통계적 언어능력문법 (0) | 2020.08.03 |
---|---|
[확률 기반의 자연어 처리] 확률문법 (stochastic grammar) (0) | 2020.08.02 |
[확률 기반의 자연어 처리] 통계학적 접근방식 (0) | 2020.08.02 |
[확률 기반의 자연어 처리] 언어수행에서 중의성 해소 (0) | 2020.08.02 |
[확률 기반의 자연어 처리] 언어능력-언어수행 이분법 (0) | 2020.08.02 |