[확률 기반의 자연어 처리] 통계학적 접근방식

DataHolic26 2020. 8. 2. 22:53

이번 글의 내용은 이강혁 교수님의 "문법을 넘어서, 확률 기반의 자연어 처리" 저서를 참조 하였음을 먼저 밝힙니다. (다른 참조한 논문과 자료들은 아래에 기재되어 있습니다.)

혹시 제가 잘못 알고 있는 점이나 보완할 점 있다면 댓글로 알려주시면 감사하겠습니다.

※ 심리언어학적 관점과는 별도로 통계학적 접근방식은 엔지니어링 관점에서도 그 동기를 찾을 수 있습니다.

언어이론에 대한 통계학적 확장은 자연어 처리(Natural Language Processing, NLP) 분야에서도 많은 환영을 받았습니다. 오로지 문법 규칙에만 근거한 방법들이 과다생성(overgeneration: 한 문장에 대해 너무 많은 분석이 생성된 경우) 및 생성미달(undergeneration: 한 문장에 대해 어떤 분석도 생성되지 않은 경우)로 인한 불확실성의 문제를 해결함에 있어서 견고성(robustness)을 보여주지 못했다는 것은 자연어 처리 분야에서 잘 알려진 사실입니다.

※ 통계적 접근방식은 불확실성이 발생할 최상의 추측을 허용함으로 규칙기반의 접근방식에 비해 더 견고하다고 할 수 있습니다.

음성인식 분야에서의 통계적 방법의 성공은 이러한 점을 확인해주고 있습니다.

긴 글 읽어주셔서 감사합니다.

References

[1] K. Lee. (2003). 문법을 넘어서, 확률 기반의 자연어 처리.