일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 확률기반자연어처리
- 최적화기법
- 최적화문제
- 컴퓨터공학
- 공대생의산업공학공부
- 통계적품질관리
- 공대생의연구공부
- 언어학
- 정보시스템설계및분석
- 공대생의경제공부
- 고전방법론
- 지적재산권
- 통계학
- 인공지능
- 자연어처리
- 일일경제공부
- 정보시스템
- 품질경영
- 이공계를위한특허이해
- 공대생의문과공부
- 공대생의언어학공부
- 산업공학
- 메타휴리스틱
- 공대생의전공공부
- 영어영문학
- 경제용어
- 특허
- 언어적지식
- 국어국문학
- 지식재산경영
- Today
- Total
Fintecuriosity
[확률 기반의 자연어 처리] 데이터 중심의 파싱(DOP) 개념 본문

이번 글의 내용은 이강혁 교수님의 "문법을 넘어서, 확률 기반의 자연어 처리" 저서를 참조 하였음을 먼저 밝힙니다. (다른 참조한 논문과 자료들은 아래에 기재되어 있습니다.)
혹시 제가 잘못 알고 있는 점이나 보완할 점 있다면 댓글로 알려주시면 감사하겠습니다.

※ 개인의 과거 언어경험이 어떤 형태로든 자신의 문장분석처리를 결정하게 된다는 것은 분명합니다.
데이터 중심의 파싱 (Data-Oriented Parsing, DOP)의 기본개념은 이러한 문장분석이 직접적인 방식으로 이루어진다는 것입니다. 개인의 과거 언어경험에 대한 표시로서 우리는 적절한 분석이 이루어진 이전에 발생했던 발화의 코퍼스를 사용합니다. 새로운 발화의 분석은 코퍼스에 있는 분석의 부분구조들 (fragments)을 자유롭게 결합함으로써 이루어집니다. 분석 부분구조들의 발생빈도 (occurrence-frequencies) 를 고려함으로써 이런 방식으로 구축되는 가장 높은 확률값의 분석을 결정할 수 있습니다.
따라서 DOP 접근방식은 통상적인 언어학적 방식과는 상당한 대조를 이룹니다. Bob & Kaplan(1998a)이 관찰했듯이 한 언어이론의 발화-표시 (utterance-representations) 또는 분석을 반영하는 DOP 모델은 그 이론의 특정 문법규칙이나 도출 메커니즘을 반영하지 않습니다. DOP 모델은 좀 더 큰 구문으로 이루어진 특정집합을 요구하지 않으며, 발화-분석이 임의의 크기와 복잡도를 지니는 구조, 심지어 다른 구조들의 부분구조로부터도 이루어질 수 있도록 허용합니다.
확률모델은 크기가 다른 구조 집합으로부터 가장 적절한 발화의 분석을 구성하는 구조를 선택하기 위해 사용됩니다. 그러므로 어떤 표시이론에 대한 DOP 모델이 그 이론과 일치하는 (무한히 많은) 발화-분석을 생성한다 할지라도 발화-표시의 전체집합에 대한 최소의 중복되지 않는 문법규칙의 발견에 의존하거나 기여하는 것은 아닙니다.
긴 글 읽어주셔서 감사합니다.
References
[1] K. Lee. (2003). 문법을 넘어서, 확률 기반의 자연어 처리.
'언어학 > 확률기반 자연어 처리' 카테고리의 다른 글
[확률 기반의 자연어 처리] 언어이해와 언어생성 (0) | 2020.08.06 |
---|---|
[확률 기반의 자연어 처리] DOP 모델의 구성, 체계 (0) | 2020.08.03 |
[확률 기반의 자연어 처리] 통계적 언어능력문법 (0) | 2020.08.03 |
[확률 기반의 자연어 처리] 확률문법 (stochastic grammar) (0) | 2020.08.02 |
[확률 기반의 자연어 처리] 통계학적 접근방식 (0) | 2020.08.02 |