관리 메뉴

Fintecuriosity

[데이터마이닝] 데이터마이닝이 탄생하게 된 계기 본문

Industrial Engineering/데이터마이닝

[데이터마이닝] 데이터마이닝이 탄생하게 된 계기

DataHolic26 2020. 8. 5. 23:44

이번 글의 내용은 UIUC(일리노이 대학교 어배너-섐페인) 컴퓨터공학과 Jiawei Han 교수님의 "Data mining concepts and techniques" 저서를 참조 하였음을 먼저 밝힙니다. (다른 참조한 논문과 자료들은 아래에 기재되어 있습니다.) 

 

 


 

"우리는 정보화 시대에 살고 있다"라는 유명한 말이 있지만, 실제로 우리는 데이터 시대에 살고 있습니다. 비즈니스, 사회, 공학, 약학, 일상생활의 거의 모든 다양한 부분에서 tera byte 혹은 peta byte의 데이터가 우리의 컴퓨터 네트워크, WWW(월드와이드 웹)과 다양한 데이터 저장장치에서 쏟아지고 있습니다. 

 

사용할 수 있는 데이터의 양의 폭발적인 성장은 전산화와 강력한 데이터 수집과 저장 도구의 신속한 개발에 의한 결과이기도 합니다. 기업은 글로벌 판매 정보, 주식 거래 기록, 제품 설명, 마케팅 활동 정보, 기업 프로파일 및 실적, 소객 의견 등을 기반으로 거대한 데이터 셋을 생성하게 됩니다. 

 

예를 들면, 월마트 같은 대형 매장은 전 세계 수천 여 개의 지점에서 매주 수억개의 거래 정보를 처리합니다. 과학 및 엔지니어링 업무는 원격 진단, 프로세스 측정, 과학 실험, 시스템 성능, 엔지니어링 관측, 환경 조사를 통하여 연속적으로 고차원의 peta byte를 생성합니다.

 


 

글로벌 기간 통신망은 매일 수십 peta byte의 데이터 트래픽을 처리합니다. 의료 및 건강 산업은 엄청난 양의 의료 기록, 환자 모니터링, 의료 영상 데이터를 생성합니다. 검색 엔진을 이용한 수십억의 웹 검색은 매일 수십 개의 peta byte를 처리합니다. 커뮤니티 및 SNS는 사진과 비디오, 블로그, 웹 커뮤니티, 다양한 종류의 소셜 네트워크를 생산하는 점점 더 중요한 데이터 소스가 되고 있습니다. 거대한 양의 데이터를 생산하는 소스 목록은 수없이 많습니다.

 

계속 폭발적으로 증가하고 있고, 널리 사용되고 방대한 양의 데이터는 현재를 빅데이터 기반의 시대로 만들었습니다.

 

따라서 엄청난 양의 데이터에서 가치 있는 정보를 발견하고 체계적인 지식으로 변환하기 위한 강력하고 다양한 도구들이 필요하게 됬습니다. 데이터마이닝은 위와 같은 필요에 의해서 탄생하게 되었습니다.

 

 

 

 

긴 글 읽어주셔서 감사합니다.


References

 

[1] Han, J., & Kamber, M. (2001). Data mining: Concepts and techniques. San Francisco: Morgan Kaufmann Publishers.