jhnoru 2019. 8. 5. 22:31

제 1장 데이터의 이해

 

A. 데이터와 정보

 

1. 데이터는 객관적 사실이라는 존재적 특성을 갖는 동시에 추론,예측,전망, 추정을 위한 근거로 기능하는 당위적 특성 또한 갖고 있는 것이다.

 

2. 객관적 사실로서의 데이터를 살펴보면 그 형태에 따라 언어/문자 등으로 기술되는 정성 데이터수치/기호/도형으로 표시되는 정량 데이터로 구분된다.

 

3. 데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의 상호작용에 있어 중요한 역할을 한다. 암묵지는 겉으로 드러나지 않은 무형의 지식을 말한다. 암묵지는 개인에게 체화되어 있기 때문에 공유되기 어렵다. 형식지는 메뉴얼과 같이 형상화된 지식으로, 전달과 공유가 매우 용이하다.

 

4. 현장 경험을 통해 개인에게 축적된 내면화된 지식을 조직의 지식으로 공통화하기 위해서는 개인의 암묵지를 언어나 기호, 숫자 등의 형태로 표출화하고 이를 다시 다른 개인이 본인의 지식에 연결하여 그 바탕 위에서 새로운 경험이 부가되는 과정이 반복되어 지식은 증대된다.

 

5.데이터와 정보의 관계는 DIKW(DATA, INFORMATION, KNOWLEDGE, WISDOM HIERARCHY)로 표현된다.

 

 

 

 

B. 데이터베이스 정의와 특징

 

1. EU의 지침에 따르면, 데이터베이스를 체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물이라고 규정하고 있다.

 

2. 국내 저작권법에서는 "소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것"이라고 정의하고 있다.

 

3. 컴퓨터 용어 사전에서는 "동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성한 데이터의 집합"으로 정의하고 있다.

 

 

4. 데이터 베이스는 다음과 같은 특징을 가진다.

 

4-1. 통합된 데이터: 동일한 내용의 데이터가 중복되어 있지 않다.

4-2. 저장된 데이터: 데이터베이스는 컴퓨터가 접근할 수 있도록 저장 매체에 저장되어 있다.

4-3. 공용 데이터 : 여러 상요자가 서로 다른 목적으로 데이터베이스를 공동으로 이용한다.

4-4. 변화되는 데이터 : 데이터베이스는 갱신으로 변화 되면서도 항상 현재의 정확한 데이터를 유지한다.

 

5. 데이터베이스의 특성은 다음과 같다.

 

5-1. 기계가독성 : 컴퓨터가 읽을 수 있다.

5-2. 검색가동성 : 원하는 정보를 찾을 수 있다.

5-3. 원격조작성 : 온라인으로 조작할 수 있다.

 

 

 

C. 데이터베이스 활용

 

1. OLTP(Online Transaction Processing) : 정보의 수집과 이를 조직 내에서 공유하기 위한 경영정보시스템

 

2. OLAP(Online Analytical Processing) : 단순한 정보 수집에서 탈피, '분석'이 중심이 되는 시스템

 

3. CRM(Consumer Relationship Management, 고객관계관리) : 고객별 구매이력 데이터베이스를 분석하여 고객에 대한 이해를 돕고 이를 바탕으로 각종 마케팅 전략을 펼치는 것

 

4. SCM(Supply Chain Management, 공급망관리) : 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여시간과 비용을 최적화시키기 위한 것이다.

 

5. ERP(Enterprise Resource Planning) : 회사의 자원을 관리하는 계획

6 EDW(Enterprise Data Warehouse) : 회사 데이터 창고

7. BSC(균형성과관리), KPI(핵심성과지표) : 고객 분석 툴의 일종

 

 

 

 

 

 

 

제 2장 데이터의 가치와 미래

 

A. 빅데이터의 이해

 

1. 빅데이터는 3V : Volume, Variety, Velocity

1-2 빅데이터는 새로운 데이터 처리를 저장하며 클라우드 컴퓨팅을 활용한다.

1-3. 데이터 과학자의 필요와 데이터 중심의 조직이 필요하다.

 

2. 빅데이터의 출현 배경은 다음과 같다.

 

2-1. 산업계 : 고객 데이터 축적

2-2 학계 : 거대 데이터 활용 과학의 확산

2-3. 관련 기술 발전

 

3. 클라우드 분사 병렬처리 컴퓨팅은 빅데이터와 같은 데이터 처리 비용을 맵리듀스와 같은 혁신적인 방식을 통해 획기적으로 줄였다.

 

4. 빅데이터 기능의 비유는 다음과 같다.

 

4-1. 산업혁명의 석탄/철

4-2. 21세기의 원유

4-3. 렌즈

4-4. 플랫폼

 

 

5. 빅데이터는 다음과 같은 본질적인 변화를 만들어 낸다.

 

5-1. 사전처리에서 사후처리의 시대로

5-2. 표본조사에서 전수조사

5-3. 질에서 양으로

5-4. 인과관계에서 상관관계로.

 

 

 

B. 빅데이터의 가치와 영향

 

1. 빅데이터의 가치 산정이 어려운 이유는 다음과 같다.

 

1-1. 데이터의 활용 방식: 재사용, 재조합, 다목적용 개발

1-2. 새로운 가치 창출

1-3. 분석 기술 발전

 

2. 빅데이터의 영향은 다음과 같다.

 

2-1. 기업 : 혁신, 경쟁력 제고, 생산성 향상

2-2. 정부 : 환경 탐색, 상황 분석, 미래 대응

2-3. 개인 : 목적에 따라 활용

 

 

 

C. 비지니스 모델

 

1. 빅데이터의 활용 기본 테크닉은 다음과 같다.

 

1-1. 연관 규칙 학습 : "커피를 구매하는 사람이 탄산음료를 더 많이 사는가?"

1-2. 유전 알고리즘 : "최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?"

1-3. 회귀 분석 : "구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?"

1-4. 소셜 네트워크 분석 : "특정인과 다른 사람이 몇 촌 정도의 관계인가?"

1-5. 유형 분석 : "이 사용자는 어떤 특성을 가지는 집단에 속하는가?"

1-6. 기계 학습: "기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까?"

1-7. 감정 분석 : "새로운 환불 정책에 대한 고객의 평가는 어떤가?"

 

D. 위기 요인과 통제 방안

 

1. 빅데이터 시대의 위기 요인은 다음과 같다.

 

1-1. 사생활 침해 : 익명화 기술 발전

1-2. 책임 원칙 훼손 : 예측 알고리즘의 희생양 발생

1-3. 데이터 오용 : 데이터의 과신, 데이터 의존적 

 

2. 위기 요인에 대한 통제 방안은 다음과 같다.

 

2-1. 동의에서 책임으로 : 사용자가 책임진다.

2-2. 결과 기반 책임 원칙 고수 : 실제 결과에 책임을 묻는다.

2-3. 알고리즘 접근 허용. : 알고리즘의 투명한 공개 필요

 

 

E. 미래의 빅데이터

 

1. 미래의 빅데이터의 특징은 다음과 같다

 

1-1. 데이터 : 모든 것의 데이터화

1-2. 기술 : 진화하는 알고리즘, 인공지능

1-3. 인력 : 데이터 사이언티스트, 알고리즈미스트

 

 

 

 

 

제 3장 가치 창조를 위한 데이터 사이언스와 전략 인사이트

 

 

 

 

A. 빅데이터 분석과 전략 인사이트

 

1. 빅데이터 분석의 핵심은 BIG이 아니다.  데이터는 크기의 이슈가 아니라, 거기에서 어떤 시각과 통찰을 얻을 수 있느냐의 문제다.

 

 

 

 

B. 전략 인사이트 도출을 위한 필요 역량

 

1. 데이터 사이언스란 데이터로부터 의미 있는 정보를 추출해내는 학문이다. 통계학이 정형화된 실험 데이터를 분석 대상으로 하는 것에 비해, 데이터 사이언스는 정형 또는 비정형을 막론하고 인터넷, 휴대전화, 감시용 카메라 등에서 생성되는 숫자와 문자, 영상 정보 등 다양한 유형의 데이터를 대상으로 한다.

 

2. 또한 데이터 마이닝이 주로 분석에 초점을 두고 있는 개념인데 반해 데이터 사이언스는 분석 뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지를 포함한 포괄적 개념이다.

 

 

 

 

C. 데이터 사이언스의 구성 요소

 

1. 데이터 사이언스의 핵심 구성요소 : 분석, IT, 비지니스 분석

 

2. 데이터 사이언스의 요구 역량은 다음과 같다.

 

2-1. HARD SKILL 

2-1-1. 빅데이터에 대한 이론적 지식 : 관련 기법에 대한 이해

2-1-2. 분석 기술에 대한 숙련 : 최적의 분석

 

2-2. SOFT SKILL

2-2-1. 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판

2-2-2. 설득력 있는 전달 : 스토리 텔링, 비주얼라이제이션

2-2-3. 다분야간 협력 : 커뮤니케이션

 

 

D. 빅데이터 그리고 데이터 사이언스의 미래

 

1. 빅데이라는 용어는 잠시의 유행 속에서 떴다 사라질 수 있다. 하지만 IT의 유행론 속에서 꼭 명심해야 할 것이 있다. 빅데이터를 한때의 유행으로 여겨 그 핵심에 놓인 데이터 사이언스의 가치를 제대로 보지 못한다면 정말 치명적인 결과를 초래할 것이다. 지금 우리는 나름의 확신에 찬 답을 해야 한다.

 

2. 뛰어난 데이터 사이언티스트는 이 비행사의 충고를 가슴에 새겨야 할 것이다. 어떻게 해서 우리가 그 지식으로 세상을 이해한다고 믿는가를 따지는 것, 우리가 어떻게 하다 그런 식으로 생각하게 됐느냐를 집요하게 따지는 것을 잊지 말아야 한다. 그리고 분석 모델과 데이터의 한계를 되묻기 위해 가끔 창밖을 쳐다보아야 한다.