관리 메뉴

Fintecuriosity

[비정형 데이터 분석] 정형 데이터 & 비정형 데이터 본문

Industrial Engineering/비정형데이터분석

[비정형 데이터 분석] 정형 데이터 & 비정형 데이터

DataHolic26 2020. 7. 5. 16:55

이번 글의 내용은 서울대학교 산업공학과 조성준 교수님의 "세상을 읽는 새로운 언어, 빅데이터" 저서와 고려대학교 산업경영공학과 강필성 교수님의 강의를 정리 및 참조 하였음을 먼저 밝힙니다. (다른 참조한 논문과 자료들은 아래에 기재되어 있습니다.)

 

 

4차 산업혁명 이후에 컴퓨터 기술의 발전과 다른 첨단 기술들이 다양한 산업에 도입되면서 우리의 삶은 윤택해졌습니다.

 

그리고 그중에서도 빼놓을 수 없는 키워드가 한가지가 있습니다. 

 

바로 "빅데이터"입니다. 빅데이터 시대가 도래함에 따라서 엄청난 양의 데이터들이 존재하고 업무 및 기술발전을 의해서 사용되고 있습니다.

 

그러면 빅데이터에서 데이터들은 어떠한 형태를 지니고 있을까요?

 


대표적으로 데이터의 형태나 종류를 나누면 2가지로 나눌 수 있습니다.

 

1) 정형 데이터

2) 비정형 데이터

 

위의 그림을 참조하면 대부분의 데이터는 비정형 데이터로 이루어져 있습니다. 약 80% 가량의 데이터가 비정형 형태(Unstructured type)을 지니고 있는 것을 알 수 있습니다. 이어서 나머지 20%는 정형 데이터의 형태를 띄고 있는데, 이 데이터들은 수치형 형식으로 이루어져 있습니다. 흔히 우리가 아는 숫자로 이루어져 있다고 보면 됩니다.

 

 

그러면 구체적으로 정형, 비정형 데이터들에 대해서 예제와 함께 설명하도록 하겠습니다. 

 

먼저 '정형 데이터'는 흔히 우리가 사용하는 신용카드를 통하여 기록될 수 있습니다. 예를 들면 신용카드를 사용하면 사용한 날짜와 시간, 금액, 장소등이 기록이 되고 이 로그값들은 신용카드사의 데이터베이스나 저장하는 공간으로 전송된 후 기록이 될 것입니다.

 

그러면 이 포스트의 핵심인 '비정형 데이터'는 어떤 형태를 띄고 있을까요? 

 

'비정형 데이터'는 흔히 일상 생활에서 찾아볼 수 있습니다. 오디오, 이미지, 비디오, 텍스트 등의 형태를 띄고 있습니다. 즉 쉽게 설명하면 수치화 되어있지 않은 형태를 가지고 있다고 보면 됩니다. 그리고 추가적으로 강의와 논문에서는 XML, HTML 형태는 Semi-Structured 형태의 데이터라고 하였습니다.

 

이 부분에 대해서는 추후에 간략하게 예제를 통해 핵심만 설명하도록 하겠습니다.

 

 

긴 글 읽어주셔서 감사합니다.


[References]

 

[1] S. Cho. (2019). 세상을 읽는 새로운 언어, 빅데이터.

 

[2] P. Kang. (2020). Graduate Course

 

[3] Gandomi, A., & Haider, M. (2015). Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management, 35(2), 137–144.