일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 지식재산경영
- 인공지능
- 통계학
- 공대생의문과공부
- 언어적지식
- 고전방법론
- 경제용어
- 영어영문학
- 공대생의전공공부
- 최적화문제
- 공대생의연구공부
- 지적재산권
- 자연어처리
- 정보시스템
- 공대생의언어학공부
- 메타휴리스틱
- 정보시스템설계및분석
- 일일경제공부
- 언어학
- 확률기반자연어처리
- 이공계를위한특허이해
- 특허
- 국어국문학
- 통계적품질관리
- 공대생의산업공학공부
- 산업공학
- 공대생의경제공부
- 품질경영
- 컴퓨터공학
- 최적화기법
- Today
- Total
Fintecuriosity
[확률 기반의 자연어 처리] 언어이해와 언어생성 본문
이번 글의 내용은 이강혁 교수님의 "문법을 넘어서, 확률 기반의 자연어 처리" 저서를 참조 하였음을 먼저 밝힙니다. (다른 참조한 논문과 자료들은 아래에 기재되어 있습니다.)
혹시 제가 잘못 알고 있는 점이나 보완할 점 있다면 댓글로 알려주시면 감사하겠습니다.
일반적인 DOP 체계의 일차적 관심은 언어분석 (language parsing) 또는 언어이해 (language comprehension)에 있습니다. 하지만 DOP 체계는 언어생성 (language production)을 위해서 사용될 수도 있습니다. 생성의 문제는 보통 언어이해의 반대, 즉 어떤 의도 또는 의미가 언어사용자의 의해 어떻게 발화로 생성되는가 하는 것으로 볼 수 있습니다.
여러 다른 발화들이 동일한 의미를 표현할 수도 있으므로 언어수행 모델의 목표는 모든 가능한 발화들 중에서 주어진 의미에 대해 실제적으로 생성되는 발화를 선택하는 것입니다. 언어이해에 적용되었던 내용이 언어생성에도 동일하게 적용됩니다. 언어사용자는 이전의 발화-표시 (utterance-representations)에 근거하며 주어진 의미에 대한 가장 확률값이 높은 발화를 생성하는 경향이 있습니다.
DOP에 있어서 이것은 새로운 발화가 코퍼스에 있는 부분구조들을 결합함으로써 구축되는 한편 부분구조들의 빈도는 주어진 의미에 대해 가장 확률값이 높은 발화를 결정하는데 사용된다는 것을 의미합니다. 임의의 크기를 가지는 부분구조들을 허용함으로써 DOP는 관용어구를 사용함에 있어 언어 사용자들이 보여주는 선호도를 자연스럽게 설명합니다.
예를 들자면, 영어화자는 'How late is it?' 보다는 'What time is it?'이라고 말합니다. 문법적 관점에서 'How late is it?'이란 문장을 배제할 이유는 전혀 없습니다. 하지만 'What time is it?' 은 원어민의 과거 언어경험에서 훨씬 더 빈번하게 발생합니다. 두 문장 모두 더 작은 구조들로부터 구성될 수 있지만 'What time is it?' 만이 한번의 간단한 일치비교 (match)를 통해 구축될 수 있습니다.
우리는 DOP 확률모델이 가능한 가장 큰 부분구조로부터 구성될 수 있는 문장과 문장분석에 대해 분명한 선호도를 보이며 따라서 이전에 보았던 것과 가장 유사한 문장과 문장-분석 (sentence-analyses)에 이르게 된다는 것을 알게 될 것입니다. 이러한 선호도는 ('What age do you have?'에 대응하는) 'How old are you?'나 ('Do you have a hunger?'에 대응하는) 'Are you hungry'와 같은 준고착(semi-fixed) 어구로부터 구성되는 문장의 경우에 특히 중요하게 작용합니다.
전형적인 DOP에서 문장은 부분적으론 큰 부분구조(완전한 코퍼스 분석만큼 클 수도 있는) 또 부분적으론 더 작은 부분구조(구구조 규칙만큼 작을 수도 있는)에 의해 생성됩니다. 더군다나 DOP는 자주 인지되었거나 생성되었다면 어떤 부분구조들도 관용화 될 수 있다는 것을 예측합니다. 그러므로 DOP 내의 코퍼스는 고정된 어구의 사전이 아니라 새로운 언어 경험에 의해서 지속적으로 업데이트 되는 생산적 부분구조들의 앙상블이라고도 할 수 있습니다.
언어이해와 관련해 주의해야 할 사항은 언어생성에도 적용됩니다. 언어사용자가 주어진 의미에 대해 가장 확률값이 높은 문장과는 다른 문장을 생성하지 못하는 것이 아니라 자신의 과거 언어경험에 비추어서 가장 빈번히 출현했던 발화를 생성하려는 강한 경향성을 지닌다는 것입니다.
더불어서 DOP는 다른 언어경험은 동일한 의미를 표현함에 있어서도 다른 발화를 생성할 수 있다고 추정합니다. DOP는 또한 확률처리과정(stochastic process)이 언어생성에 있어 개인이 지니는 다양성, 즉 한 개인이 같은 말을 항상 같은 방식으로 말하지 않는다는 것을 예측합니다.
긴 글 읽어주셔서 감사합니다.
References
[1] K. Lee. (2003). 문법을 넘어서, 확률 기반의 자연어 처리.
'언어학 > 확률기반 자연어 처리' 카테고리의 다른 글
[확률 기반의 자연어 처리] 구구조 표시를 위한 경험기반 모델 (0) | 2020.08.10 |
---|---|
[확률 기반의 자연어 처리] DOP 모델의 평가 (0) | 2020.08.06 |
[확률 기반의 자연어 처리] DOP 모델의 구성, 체계 (0) | 2020.08.03 |
[확률 기반의 자연어 처리] 데이터 중심의 파싱(DOP) 개념 (0) | 2020.08.03 |
[확률 기반의 자연어 처리] 통계적 언어능력문법 (0) | 2020.08.03 |