Introduction to Statistics for Data Science I _ Part1
p_new_h
2020 11 15
데이터사이언스를 위한 통계학입문 I
1. 데이터 과학과 통계 - 데이터과학이란 무엇인가
1-1-1 데이터 과학이란
- 통계학, 데이터마이닝, 빅데이터, 딥러닝, 인공지능 등의 개념을 아우르는 개념
- 통계적 개념과 지식 – 샘플링, 확률분포, 가설검정, p-value
- 데이터를 다둘수 있는 기술 (데이터 큐레이션) – 빅데이터 다루기
- 데이터의 요약된 정보 전달 기술 – 데이터 시각화 (공간지도분석, 다차원그래픽)
- 데이터윤리, 데이터보안
- 데이터 도메인에 대한 지식과 분석능력 (현실 문제의 해결능력)
1-1-2 데이터 과학의 예시
- 데이터 분석 결과를 쉽게 이해할 수 있도록 보여주는 것!
- 그래프, 도표, 이미지, 단어 구름 등을 통해 한 눈에 이해할 수 있도록 하는 것!
- 핀란드의 의료데이터 프로젝트 (FinnGen)
- 핀란드인(Finnish)과 유전자(Genome)의 합성어.
- 자발적 참여자의 유전자정보를 수집하고 환자의 의료정보까지 통합구축.
- 현재 50만명 목표에서 23만명 수집. 그 중 15만명의 유전자정보 보유.
- 6개월마다 데이터 업데이트 – 전세계 연구자와 공유
- 관절염/당뇨병 등 자가면역질환 연구 수행중 – 개인 맞춤형 약 개발 추진중
1-1-3 데이터 과학을 위한 통계학 입문
- 데이터과학을 위한 통계적 개념과 지식
- 공유데이터와 오픈소스
- 빅데이터분석을 위한 첫걸음 – 데이터의 중심위치, 산포정도
- 데이터의 시각화
- 데이터과학에서 확률분포는 무슨 의미를 전달
1-2 데이터 과학과 통계 - 통계가 상식이 된 사회 -
1-2-1 통계가 왜 필요한가
통계가 왜 필요한가? = 데이터를 올바르게 다룰줄 알면 무엇이 더 좋아지나?
통계는 올바른 의사결정을 돕는다.
요약된 정보 제공
과거 데이터를 통해 미래 데이터를 예측
데이터에 숨겨진 패턴 발견
1-2-2 의사결정애서 통계의 역할
- 고객의 금융 검색 경로를 추적
- 고객 이동경로(Customer Journey) 분석
- 이탈 가능성이 높은 고객을 붙잡고 신규 고객 유입하는데 활용
정부 정책의 근거자료 – 영국의회 노령연금 도입
- 1886년 영국의 사회학자 찰스 부스(Charles Booth)
- 산업혁명으로 부유해진 런던에서 시민 빈곤 상황을 12년간 조사
- 가난을 8단계로 분류하여 절대빈곤이 30.7%에 달한다는 결과를 발표
- 1908년 영국의회의 노령연금 도입
정부 정책의 근거자료 – 서울시 심야버스 노선정책
- 시민들이 사용한 자정~새벽 5시까지의 휴대폰전화 데이터 수집
- 유동인구 분포 및 밀도를 파악하여 유동인구 및 교통수요가 많은 곳에 심야버스 노선 수립
### 1-2-3 요약
- 개인의 일상활동은 데이터화를 통해 예측분석이 가능하도록 수량화, 객관화되어진다.
- 통계는 수많은 데이터로부터 요약된 정보를 제공, 미래 데이터를 예측, 숨겨진 패턴을 발견함으로써 올바른 의사결정을 돕는다. - 통계치는 금융권의 관리전략, 정부 정책 수립, 법정소송에서의 근거자료 등으로 활용될 수 있다.
1-3 데이터 과학과 통계 - 데이터 분석과 윤리 -
1-3-1 데이터의 정직성
한강 수질 검사를 위해 한강물 채취
채취한 한강물을 집에 있던 보온병에 담아 방안에 보관 세계 최고 수질 검사 기관에서분석한 결과, 마셔도 되는 물로 판명됨!
- 왜 신뢰할 수 없을까?
- 데이터를 잘못 수집했다! + 한강이 얼마나 넓은데 어디서 수집?
+ 어제 산성비가 내렸을지도 모르잖아!
+ 손으로 채집하면 어떡해! 오염됐을지도 몰라!
- 데이터를 잘못 보관했다!
+ 보온병에 있던 세균이 옮으면 어떡해?
+ 차가운데 보관해야하는 거 아냐?
+ 다른 사람이 손대지 못하게 안전한 곳에 보관해야지!
- 너무 적은 양의 데이터, 편향된 표본 추출, 데이터의 왜곡 및 훼손 등등
+ 바르지(정직하지) 못한 데이터
+ 데이터분석은 무의미!
- 정직하지 못한 데이터의 주요 원인은 데이터 분석가의
+ 비윤리성
+ 무지함
+ 환경의 제약
1-3-2 기사에 등장하는 통계치 해석과 평가
- 동등한 조건으로 비교 필요 (주5일 근무)
- 근로 시간이 적은 비정규직의 월급여가 전일제인 정규직의 월급여보다 적은 것은 당연한 결과
- 성, 연령, 근속년수 등의 요인을 통제한 후 시급으로 비교하는 것이 적합
- 편향된 표본 추출
- 알고보니 세무사 39명을 대상으로 조사
- 그중 연봉이 3억~4억원대인 자영업 세무사가 우연히 많았던 것
1-3-3 요약
- 데이터과학의 윤리는 데이터를 올바르게 분석할 뿐만 아니라 올바른 방법으로 데이터를 수집해야 함을 의미한다.
- 정직하지 못한 데이터의 주요 원인은 데이터분석자의 무지함, 비윤리성, 그리고 환경의 제약에 의한다.
- 데이터 수집 시 너무 적은 양의 데이터, 편향된 표본 추출, 데이터의 왜곡 및 훼손에 주의해야 한다.
- 결측치 문제도 고려해야 한다.
1-4 데이터 과학과 통계 - 공유데이터와 오픈소스 -
1-4-1 공유데이터란
- 모든 사람이 자유롭게 사용 및 재사용이 가능하며 재배포할 수 있는 데이터
- 이용성 및 접근성
- 재사용과 재배포
- 보편적 참여
1-4-2 공유데이터
- 연구자들을 위한 공유데이터 서비스
머신러닝기법분석에 활용가능한 데이터 저장소 Machine Learning Repository in UC, Irvine
[https://archive.ics.uci.edu/ml/index.php]정부에서 제공하는 공공데이터
- 통계청 [kostat.go.kr]
- 공공데이터포털 [www.data.go.kr]
- 서울열린데이터광장 [data.seoul.go.kr]
1-4-4 오픈소스
- 저작권자가 소스 코드를 공개하여 누구나 복제, 개작, 배포할 수 있는 소프트웨어
- R, Python : 오픈소스 통계분석 프로그램
- C++, 자바, 파이썬 등 다른 프로그래밍 언어와 쉽게 연동
- 빅데이터 시스템인 스파크와도 일부 기능을 연동함으로써 응용범위가 더욱 넓어짐
1-4-5 인공지능에서의 오픈소스
- 구글은 머신러닝과 신경망 연구를 위한 소프트웨어 텐서플로우를 오픈소스로 공개
- 구글 딥마인드는 인공지능 개발 플랫폼인 딥마인드랩을 공개해 누구나 인공지능 알고리즘을 테스트해볼 수 있게 함
1-4-6 공유데이터 vs. 오픈소스
- 공유데이터 : 단순히 수치로 표현되는 측정치 또는 결과 값으로 표현
- 오픈소스 : 단순 데이터가 아닌 지적 창작물
1-4-7 GitHub란
• 2008년 미국 Github사에서 서비스를 시작 • 현재 전세계에서 오픈소스 프로젝트 관리를 위해 가장 맣이 사용되는 웹호스팅 서비스!! • Git은 2005년 리눅스 제작자인 리누스 토발즈가 개발
- Git : 프로그램 등의 소스 코드 관리를 위한 분산 관리 툴 (프로그램 소스를 공유하고 협업하여 개발할수 있는 버전관리 시스템)
- GitHub은 Git에 프로젝트 관리지원기능을 확장한 웹 호스팅 서비스. Git을 손쉽게 이용 및 오픈소스 개발자들을 확산하는 데 중요한 역할을 한 웹 서비스
- 가장 인기있는 오픈 소스 코드 저장소
- 깃허브 사용자는 2,800만 명 이상, 깃허브에 내에 저장된 소스코드 저장소는 약 5,700만 개
- 2018년 마이크로소프트가 인수
1-4-8 GitHub의 오픈소스 프로젝트
### 1-4-9 GitHub의 활용 : 오픈지식과 오픈코드
• 예시 1 : fMRI데이터를 이용한 Naïve Bayes 기법적용
[https://github.com/mguindani/NPBayes_fMRI]
• 예시2 : 시계열분석 정리내용? 혹은 Tensorflow를 이용한 Keras models?
[https://yjucho1.github.io/]
### 1-4-10 GitHub의 활용 : 지식과 코드
1-4-11 요약
- 공유데이터의 활용
- 공유데이터를 생성하고 제공
- 오픈소스의 활용
- 오픈소스의 개발과 서비스
install_url to use ShareThis. Please set it in _config.yml.