일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 메타휴리스틱
- 공대생의경제공부
- 언어학
- 정보시스템설계및분석
- 공대생의언어학공부
- 최적화기법
- 통계적품질관리
- 지식재산경영
- 특허
- 국어국문학
- 확률기반자연어처리
- 고전방법론
- 자연어처리
- 영어영문학
- 인공지능
- 이공계를위한특허이해
- 품질경영
- 언어적지식
- 공대생의산업공학공부
- 일일경제공부
- 공대생의전공공부
- 정보시스템
- 최적화문제
- 산업공학
- 컴퓨터공학
- 공대생의연구공부
- 지적재산권
- 통계학
- 공대생의문과공부
- 경제용어
- Today
- Total
목록빅데이터 (8)
Fintecuriosity

이번 글의 내용은 UIUC(일리노이 대학교 어배너-섐페인) 컴퓨터공학과 Jiawei Han 교수님의 "Data mining concepts and techniques" 저서를 참조 하였음을 먼저 밝힙니다. (다른 참조한 논문과 자료들은 아래에 기재되어 있습니다.) "우리는 정보화 시대에 살고 있다"라는 유명한 말이 있지만, 실제로 우리는 데이터 시대에 살고 있습니다. 비즈니스, 사회, 공학, 약학, 일상생활의 거의 모든 다양한 부분에서 tera byte 혹은 peta byte의 데이터가 우리의 컴퓨터 네트워크, WWW(월드와이드 웹)과 다양한 데이터 저장장치에서 쏟아지고 있습니다. 사용할 수 있는 데이터의 양의 폭발적인 성장은 전산화와 강력한 데이터 수집과 저장 도구의 신속한 개발에 의한 결과이기도 합니..

이번 포스트에서는 캐글에서 import하여 쓰거나 개인 local 환경에서 쓸 수있는 딥러닝 라이브러리 및 프레임워크들의 종류에 대해서 알아보겠습니다. 주로 많이 쓰는 텐서플로우, 케라스, 파이토치 외에도 수많은 딥러닝 라이브러리들이 존재하지만 그 중에서도 인지도가 높고 연구, 개발 분야에서 많이 알려진 위주로 포함을 하였습니다. 아직까지는 Tensorflow를 제일 많이 선호하고 그림에서 또한 똑같은 결과를 확인할 수 있습니다. 하지만 최근에 Pytorch가 직관적이고 간결한 사용법을 제공하고 있어서 연구 및 개발하시는 분들께서 선호하십니다. 긴 글 읽어주셔서 감사합니다. References [1] Jung, K., (2018). Kaggle 우승작으로 배우는 머신러닝 탐구생활.

이번 글의 내용은 고려대학교 컴퓨터공학과 이상근 교수님의 "뉴럴 모델을 이용한 자연어 처리" 저서를 참조 하였음을 먼저 밝힙니다. (다른 참조한 논문과 자료들은 아래에 기재되어 있습니다.) 혹시 제가 잘못 알고 있는 점이나 보완할 점 있다면 댓글로 알려주시면 감사하겠습니다. NLP 분야에서는 오래 전부터 컴퓨터에 인간의 언어를 이해시키는 방법을 연구했습니다. 인간의 언어를 자연스럽게 이해할 수 있는 컴퓨터가 있다면 인간이 할 수 있는 수많은 일을 컴퓨터가 수행할 수 있을 것이라고 판단하였습니다. 가장 쉬운 방법으로, "인간의 언어 사전을 그대로 컴퓨터에 넣어서 활용해 보자!"는 아이디어를 떠올릴 수 있습니다. 학자들은 이 아이디어를 조금 더 발전시켜서, 인간의 단어 중 동의어와 유의어의 관계, 상/하위 ..

최근에 데이터 사이언스 분야로 커리어를 변경 하시려는 분 들이나 이미 ML, DL 엔지니어로 현업에 계시는 분들까지 캐글에 대해서 한번 쯤은 들어보셨거나 익숙하실 것이라고 생각합니다. 이 포스트는 캐글의 유래와 특징에 대하여 설명하는 포스트입니다. 이미 익숙하신 분들은 재미로 읽어주시면 좋을 것 같습니다. 캐글은 2010년 4월에 설립된 공공 및 기업 데이터를 활용하여 문제를 해결하는 머신러닝 경진대회 플랫폼입니다. 주로 캐글에서는 데이터 분석을 하는 task가 메인인데 주로 머신러닝, 딥러닝 방법론들을 사용하여 문제를 해결합니다. 많은 분들이 데이터 사이언스 분야에 처음 입문하실 때 접하는 것이 캐글의 "타이타닉 생존자 예측" 경진대회로 연습을 하십니다. 캐글에서 주어지는 문제들은 주로 기업이나 단체가..

데이터 사이언스에 관련을 가지게 되면서 머신러닝, 딥러닝에 관한 연구, 논문과 수업들에서는 이해가 안가는 단어들이 한,두가지 아니였습니다. 그래서 항상 공부를 하며 모르는 단어의 어원과 유래를 먼저 검색하고, 그 의미를 추론을 하는 과정을 계속 반복하였습니다. 물론 그 다음에 단어의 의미를 깨닫고도 원리가 이해가 가지 않았을 때는 논문이나 다른 엔지니어 및 연구자 분들의 자료를 공부를 하는 방법으로 위와 같은 문제점을 해결해 나갔습니다. 그러면 이 포스트인 핵심인 Ablation study에 대해서 오늘 이야기 해보려고 합니다. 제가 Ablation study라는 단어를 제일 처음 접한 것은 대학교에서 진행하는 데이터 분석 수업이었습니다. 교수님께서 수업에서 쓰는 다른 단어들 예를 들면 causualiz..

이번 글의 내용은 포항공과대학교 산업경영공학과 전치혁 특임교수님의 "예측 및 분류를 위한 데이터 애널리틱스 기법" 강의를 정리 및 참조하였음을 먼저 밝힙니다. 이번 포스트에서는 아래에 간단한 커리큘럼에 대해서 설명을 하고 무엇을 배우는지에 대하여 간략하게 핵심만 기재하겠습니다. "예측 및 분류를 위한 데이터 애널리틱스 기법"은 총 7주간의 수업이 진행되며 확률 통계, 선형대수를 기반으로 데이터를 분석하고 이를 활용하여 데이터 애널리틱스 방법론을 통하여 산업에 빈번하게 분석, 예측 관련 문제들을 해결할 수 있을 것 같습니다. 참고로 저는 학교에서 데이터 관련 수업을 들을 때는 다변량 통계 혹은 데이터 사이언스 수업 등에 나누어서 배웠습니다. 아니면 통계수업 혹은 인공지능 개론 수업에서도 회귀분석에 대해서 ..

이번 글의 내용은 "비즈니스 인텔리전스를 위한 데이터마이닝" 책과 함께 고려대학교 산업경영공학과 김성범 교수님과 강필성 교수님의 강의를 참조 하였음을 먼저 밝힙니다. (다른 참조한 논문과 자료들은 아래에 기재되어 있습니다.) ※ 여러분은'데이터 마이닝' 이란 단어를 들으면 어떠한 생각이 드시나요? 보통은 빅데이터나 머신러닝 등 최근에 유행하는 학습 분야 키워드들이 제일 먼저 떠올거라고 생각합니다. 데이터 마이닝은 비교적 새로운 학문입니다. 그리고 계속적으로 지금까지 발전하는 분야입니다. 데이터 마이닝이란 용어에서 마이닝(채굴)이란 의미를 지니고 있습니다. 마치 광산에서 광물들을 캐내는 것에 비유하는데, 극히 소수의 가치있는 광물(금, 다이아몬드)을 여러 단계를 걸쳐서 추출하는 것처럼 수많은 데이터들로부터..

이번 글의 내용은 서울대학교 산업공학과 조성준 교수님의 "세상을 읽는 새로운 언어, 빅데이터" 저서와 고려대학교 산업경영공학과 강필성 교수님의 강의를 정리 및 참조 하였음을 먼저 밝힙니다. (다른 참조한 논문과 자료들은 아래에 기재되어 있습니다.) 4차 산업혁명 이후에 컴퓨터 기술의 발전과 다른 첨단 기술들이 다양한 산업에 도입되면서 우리의 삶은 윤택해졌습니다. 그리고 그중에서도 빼놓을 수 없는 키워드가 한가지가 있습니다. 바로 "빅데이터"입니다. 빅데이터 시대가 도래함에 따라서 엄청난 양의 데이터들이 존재하고 업무 및 기술발전을 의해서 사용되고 있습니다. 그러면 빅데이터에서 데이터들은 어떠한 형태를 지니고 있을까요? 대표적으로 데이터의 형태나 종류를 나누면 2가지로 나눌 수 있습니다. 1) 정형 데이터..