일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 통계학
- 최적화기법
- 국어국문학
- 품질경영
- 공대생의전공공부
- 통계적품질관리
- 영어영문학
- 특허
- 정보시스템
- 확률기반자연어처리
- 고전방법론
- 공대생의문과공부
- 일일경제공부
- 인공지능
- 공대생의산업공학공부
- 경제용어
- 지적재산권
- 이공계를위한특허이해
- 지식재산경영
- 공대생의연구공부
- 공대생의언어학공부
- 컴퓨터공학
- 메타휴리스틱
- 정보시스템설계및분석
- 최적화문제
- 언어적지식
- 자연어처리
- 산업공학
- 공대생의경제공부
- 언어학
- Today
- Total
Fintecuriosity
[확률 기반의 자연어 처리] DOP 모델의 구성, 체계 본문
이번 글의 내용은 이강혁 교수님의 "문법을 넘어서, 확률 기반의 자연어 처리" 저서를 참조 하였음을 먼저 밝힙니다. (다른 참조한 논문과 자료들은 아래에 기재되어 있습니다.)
혹시 제가 잘못 알고 있는 점이나 보완할 점 있다면 댓글로 알려주시면 감사하겠습니다.
※ Bod(1995a)에 의해 개략적으로 제시된 일반적인 DOP 구성에 따르면 특정 DOP 모델은 아래와 같은 4가지 매개변향을 명시함으로써 기술되고 있습니다.
(1) 발화분석에 대한 적형표시 (well-formed representation)의 형식적 정의
(2) 새로운 발화의 분석을 구축함에 있어 단위로 사용될 수 있는 발화-분석의 부분구조의 정의
(3) 그러한 부분구조들의 결합이 이루어지게 하는 합성연산 (composition operations)의 집합
(4) 새로운 발화-분석의 확률값이 그러한 분석을 이루기 위해 결합되는 부분 구조들의 확률값에 근거해 어떻게 계산되는 지를 나타내는 확률모델
따라서 DOP 체계는 광범위한 구조의 구현을 가능하게 해줍니다. 우리의 가정은 인간의 문장처리 (human sentence processing)가 과거의 언어경험을 표시한 코퍼스에 연산을 가하는 확률적 처리로서 모델화할 수 있다는 것이며, 코퍼스에 있는 발화-분석이 어떻게 표시되는지, 이러한 발화-분석의 부분들이 어떻게 결합될 수 있는지, 확률계산에 대한 자세한 내용은 무엇인지 하는 것은 그 다음 문제입니다.
전산언어학에서는 구구조 수형도, 합성의미표시(compositional semantic representations), 속성-값(attribute-value) 표시, 대화표시(dialogue representations) 등 다양한 언어표시에 대한 DOP모델을 개발하는 것이 목적입니다. 이를 위해서 형식적, 언어학적, 전산학적 관점에서 이러한 모델들을 살펴보고, 이 모델들을 우리가 제시한 가설의 검증을 위해 사용할 것입니다.
즉, 우리는 모든 임의의 크고 복잡한 부분 구조들이 실제로 새로운 발화의 적절한 분석의 예측을 위해 타당한 근거를 제공하는지 또는 적절한 분석의 예측결과가 나빠지지 않도록 부분구조에 대해서 제약을 가할 수 있는지를 검증하고자 합니다.
DOP모델의 필요조건은 주석이 달린 이용 가능한 언어 코퍼스의 확보입니다. 최근까지도 손쉽게 이용할 수 있는 코퍼스는 통사 명칭을 붙인 (syntactically labeled) 구구조 수형도로만 구성되어 있었습니다. 의미표시가 있는 최근의 코퍼스개발은 의미해석과 음성이해를 시뮬레이트하는 DOP 모델들의 구현을 가능하게 해주고 있습니다. 이러한 서로 다른 DOP 모델들의 비교를 통해 자연어에 대한 표시와는 무관한 흥미 있는 내용들을 파악할 수 있습니다.
우리는 DOP 체계가 앞에서의 4개 매개변항의 정의에 직접적으로 반영되지 않은 여러 심리학적 현상을 통합적으로 설명할 수 있음을 살펴보게 될 것입니다. 예를 들면, 언어경험 발생의 최신성 (recency of occurrence) 개념은 확률함수에 의해서 4번째 매개변항에 통합될 수 있습니다. 이 확률함수는 좀 더 최근에 인지/생성된 부분구조의 빈도값을 높게 조정하는 반면 좀 더 오래전에 인지/생성된 부분구조의 빈도값을 낮게 (최하 0까지) 조정합니다. 그러므로 모든 (부분적) 언어경험이 저장된다는 것이 DOP의 기본가정이긴 하지만 이것은 그러한 언어경험이 반드시 기억되어진다는 것을 전제하는 것은 아닙니다. 부분구조를 다시 불러내어 사용하지 않는다면 기억되지 못할 수도 있습니다.
긴 글 읽어주셔서 감사합니다.
References
[1] K. Lee. (2003). 문법을 넘어서, 확률 기반의 자연어 처리.
'언어학 > 확률기반 자연어 처리' 카테고리의 다른 글
[확률 기반의 자연어 처리] DOP 모델의 평가 (0) | 2020.08.06 |
---|---|
[확률 기반의 자연어 처리] 언어이해와 언어생성 (0) | 2020.08.06 |
[확률 기반의 자연어 처리] 데이터 중심의 파싱(DOP) 개념 (0) | 2020.08.03 |
[확률 기반의 자연어 처리] 통계적 언어능력문법 (0) | 2020.08.03 |
[확률 기반의 자연어 처리] 확률문법 (stochastic grammar) (0) | 2020.08.02 |