할껀하고놀자
ADsP 1과목 정리 본문
제 1절 / 데이터와 정보
1. 데이터 정의
1) 데이터 정의 : 데이터는 추론과 추정의 근거를 이루는 사실이다. 다른 객체와의 상호관계 속에서 가치를 갖는다.
2) 데이터 특성 :
- 존재적 특성 : 걍 객관적 사실임
- 당위적 특성 : 추론, 예측하기 위한 근거
3) 데이터 유형 :
- 정성적 : 언어로 표현된 수치
- 정량적 : 숫자로 표현된 수치
4) 지식경영의 핵심 이슈
- 암묵지 : 장인의 기술
- 형식지 : 우정원 입사 목록
2. 데이터와 정보의 관계
1) DIKW
Data : 객관적 사실
Information : 가공, 처리에 따른 의미 도출된 정보
Knowledge : Information을 구조화하여 유의미한 정보 분류, 암묵지 경험 결합시켜 고유의 지식으로 내재화 한 것
Wisdom : Knowledge의 축적과 아이디어가 결합된 창의적 산물
2) DIKW 적용
Data : A 마트는 빵이 100원, B 마트는 빵이 200원이다. -> 걍 객관적 사실임
Information : A 마트의 빵이 B 마트의 빵보다 100원 더 싸다. ->의미 도출함.
Knowledge : 물건 살 떄 A 마트에 가야겠군. -> 내 고유의 지식 결합
Wisdom : A마트의 다른 상품도 B마트보단 쌀 것이다. -> 이해를 바탕으로 추론.
제 2절 / 데이터베이스 정의와 특징
1. 용어
년도 |
내용 |
1950년대 |
미국에서 군비상황 관리 위해 데이터의 기지라는 뜻을 만듬 |
1963년 |
미국 SDC 심포지엄에서 공식 용어 사용 |
1970년 |
유럽에서 데이터베이스라는 단일어로 일반화됨 |
1975년 |
국내에서 미국의 CAC가 KORSTIC을 통해 처음으로 서비스됨 |
2. 정의
출처 |
내용 |
EU |
체계적, 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물,데이터 또는 기타 소재의 수집물 |
국내 저작권법 |
소재를 체계적으로 배열 또는 구성한 편집물, 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것 |
국내 컴퓨터용어사전 |
동시의 복수 업무 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위해서 일정한구조에 따라서 편성된 데이터의 집합 |
3. 데이터베이스의 특징
- 일반적인 특징
데이터베이스 특징 |
설명 |
통합된 데이터 |
동일한 데이터가 중복되어있지 않다는 말임. |
저장된 데이터 |
컴퓨터가 접근할 수 있는 저장매체에 저장되는 것을 말함. |
공용 데이터 |
여러 사용자가 다른 목적으로 데이터를 이용한다. |
변화되는 데이터 |
갱신 하면서도 항상 현재의 정확한 데이터를
유지해야 한다. |
-데이터베이스의 다양한 측면에서의 특징
측면 |
특성 |
정보의 축적 및 전달 측면 |
-기계가독성: 일정한 형식만 주면 컴퓨터가 알아서 읽고 쓸 수 있음. -검색가독성: 다양한 방법으로 필요한 정보 검색 -원격조작성: 원거리에서도 인터넷 이용 가능 |
정보 이용 측면 |
-이용자의 정보 요구에 따라 정보 신속하게 획득 -원하는 정보 정확하고 경제적으로 찾아낼 수 있음 |
정보 관리 측면 |
-정보 일정한 질서에 따라 정리,저장,검색,관리할 수 있게 하여 많은 양의 정보를 체계적으로 축적하고 새로운 내용 추가나 갱신 용이 |
정보기술 발전 측면 |
-발전함으로써 네트워크 기술이 발전된다. |
경제,산업 측면 |
-경제,산업활동의 효율성 제고, 국민의 편의 증진하는 수단이 된다. |
제 3절 / 데이터베이스 활용
1.기업내부 데이터베이스
-OLTP(On-Line Transaction Processing) : 주문 입력 시스템, 재고 관리 시스템 / 데이터 갱신 위주 / 단순 자동화
-OLAP(On-Line Analytical Processing) : 제품 판매 추이, 구매 성향 파악, 재무 회계 분석 등에 사용된다. / 데이터 조회 위주 / 의사결정
-CRM(Customer Relationship Management) : 고객관계관리 / 고객특성에 맞게 마케팅 활동을 계획,지원,평가하는 과정
-SCM(Supply Chain Management) : 공급망 관리
2 day 데이터의 가치와 미래
제 1절 / 빅데이터의 이해
1.빅 데이터의 이해
1)빅데이터의 정의
-맥킨지(2011) : 일반적인 데이터베이스 소프트웨어로 저장,관리,분석할 수 있는 범위를 초과하는 규모의 데이터이다.
-IDC(2011) : 다종류 대규모 데이터로부터 저렴한 비용으로 가치 추출, 데이터의 초고속 수집,발굴,분석을 지원하도록 고안된 차세대 기술 및 아키텍쳐
-가트너 그룹의 더그 래니의 3V : 양,규모(Volume) : 데이터의 규모 측면, 다양성,형태(Variety) : 데이터의 유형과 소스 측면, 속도(Velocity) : 데이터의 수집과 처리 측면
-메이어-쇤베르거와쿠키어
-빅 데이터 정의 종합.(관점이 좁냐 중간이냐 넓냐에 따라 구분)
데이터 자체의 특성 변화에 초점을 맞춤 ->좁은 범위
데이터 자체 뿐 아니라 처리,분석 기술적 변화까지 포함 ->중간 범위
인재, 조직변화까지 포함 -> 넓은 범위
-빅 데이터 정의의 범주 및 효과
데이터 변화 |
기술 변화 |
인재, 조직 변화 |
규모(volume) 형태(variety) 속도(velocity) |
-새로운 데이터 처리, 저장 , 분석기술 및 아키텍쳐 -클라우드 컴퓨팅 활용 |
-Data Scientist같은 새로운 인재 필요 -데이터 중심 조직 |
-> 기존 방식으로는 얻을 수 없었던 통찰 및 가치 장출
-> 사업방식, 시장, 사회, 정부 등에서 변화와 혁신 주도
2.빅데이터 출현 배경
1)출현 배경
산업계 |
고객의 데이터 축적 및 활용 |
학계 |
거대 데이터 활용, 과학 발전 |
기술발전 |
디지털화, 저장기술, 인터넷 보급, 클라우드 컴퓨팅 |
2)빅데이터 출현에 따른 변화
- 사용자 로그정보(사용자가 인터넷에 접속한 시간대 정보, 검색 기록)을 활용해서 마케팅 가능
3.빅데이터 기능
산업혁명의 석탄,철
원유
플렛폼
렌즈 – Ngram VIewer
4.빅데이터가 만들어내는 본질적인 변화
(1)사전처리->사후처리 : 필요없는 정보는 버리던 시대에서 일단 다 모은다음에 다양한 방식으로 조합
(2)표본조사->전수조사 : 특정 집단의 대표를 뽑아 조사하는 표본조사에서 전부 다 조사하는 전수조사로 변화
(3)질->양 : 많이 모을수록 전체적으로 좋은 결과를 뽑아낸다
(4)인과관계-> 상관관계 : 데이터기반의 상관관계분석이 주는 미래예측이 인과관계보다 더 정확해지는 시대가 올 것.
제 2절 / 빅데이터의 가치와 영향
1. 빅 데이터의 가치
빅데이터의 가치 산정이 어려운 이유
1) 데이터 활용 방식 : 특정 데이터를 언제,어디서,누가 활용할지 알 수 없게 되었음. 어떤 것에 비중을 둬서 어떤 가치를 창출해낼까
정하는 것 조차 어려움.
2) 새로운 가치 창출 : 기존에 없던 새로운 가치를 창출하기 때문에 어렵다.
3) 분석 기술의 발전 : 지금은 가치가 없던 데이터도 새로운 분석 기법의 등장으로 거대한 가치를 만들어내는 재료가 될 가능성 있다.
2. 빅데이터 영향
빅데이터가 가치를 만들어내는 다섯가지 방식
1) 투명성 제고로 연구개발 및 관리 효율성 제고
2) 시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화
3) 고객 세분화 및 맞춤 서비스 제공
4) 알고리즘을 활용한 의사결정 보조 혹은 대체
5) 비즈니스 모델과 제품, 서비스의 혁신
빅데이터의 영향
1) 기업 : 소비자 행동을 분석하고 시장 변동을 예측, 비즈니스 모델을 혁신하거나 신 사업을 발굴한다.
2) 정부 : 기상, 인구이동, 각종 통계, 법제 데이터등을 수집해 사회 변화를 추정, 정보를 추출한다.
3) 개인 : 개인의 목적에 따라 빅데이터 활용한다.
-> 맞춤형 서비스를 저렴하게 이용하고, 적시에 필요한 정보를 얻음으로써 다양한 형태로 기회비용을 절약할 수 있게 된다.
-> 생활전반의 스마트화.
제 3절 / 비즈니스 모델
1. 빅데이터 활용 사례
마트의 고객 구매패턴 분석 -> 상품 진열에 활용
구글의 페이지 랭크 알고리즘 갱신
정부 실시간 교통정보 수집, 소방 서비스 모니터링
정치인의 사회관계망 분석을 통해 유세지역 선정, 해당 지역의 유권자에게 영향을 줄 수 있는 내용 선정해 효과적인 선거활동 함.
가수 팬들의 음악 청취 기록 분석해서 실제 노래공연에서 부를 노래 순서를 짜는데 활용한다.
2. 빅 데이터 활용 기본 테크닉
=각각의 테크닉이 어떤 기술인지, 어떻게 활용되고 있는지 반드시 숙지하자
=빅데이터가 등장하기 전에는 정형 데이터를 이용함(연관규칙,유형분석,기계학습,회귀분석)
=최근들어 비정형 데이터를 많이 사용(감정분석)
연관 규칙 학습 – 어떤 변인들 간에 주목할 만한 상관관계가 있는지 찾아내는 방법
예) 치킨을 먹는 사람은 어떤 종류의 음료를 많이 마실까?
유형분석 – 문서를 분류할 때, 특성에 따라 분류할 때 사용한다.
예) 이 사용자는 어떤 특성을 가진 집단에 속하는지?
기계 학습 – 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측해보기
예) 기존 시청기록 바탕으로 시청자가 현재 보유한 영화중에서 어떤 것을 가장 보고싶어할까?
회귀분석 – 독립변수를 조작, 종속변수가 어떻게 변하는지 보자.
예)구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가
감정 분석 – 특정 주제에 대해 말하거나 글 쓴 사람의 감정을 분석
예) 새로운 환불 정책에 대한 고객의 평가는 어떠한가
소셜 네트워크 분석 – 특정인과 다른 사람이 몇 촌정도의 관계인가 파악하고 싶을 때, 영향력 있는 사람을 찾아낼 때 사용한다.
제 4절 / 위기 요인과 통제 방안
1. 위기 요인
=주관식으로 출제될 수 있다.
사생활 침해 : 사용자의 다음 행동 예측
책임 원칙 훼손 : 범죄 저지르지도 않았는데 체포, 신용 나쁘지도 않는데 대출 거절이 발생
데이터 오용 : 잘못된 데이터 사용
2. 통제 방안
동의에서 책임으로 – 사생활 문제
결과기반 책임 원칙 고수 – 기존의 책임 원칙을 좀 더 보강하고 강화한다.
알고리즘에 대한 접근권 제공, 알고리즘의 부당함을 반증할 수 있는 방법 명시해 공개할 것을 주문 – 데이터 오용
-> 알고리즘을 해석할 능력을 가진 전문가인 알고리즈미스트가 필요하게 됨.
제 5절 / 미래의 빅데이터
데이터 사이언티스트 : 빅데이터 다각적 분석을 통해 인사이트 도출, 전략 방향 제시에 사용하는 기획 전문가.
알고리즈미스트 : 데이터 사이언티스트 견제.
3 day 가치 창조를 위한 데이터 사이언스와 전략 인사이트
제 1절 / 빅데이터 분석과 전략 인사이트
2. 빅데이터 회의론의 원인 진단
- 부정적인 학습 효과
도입만 하면 모든게 해결될 것이라 생각했던 것들이 막상 실패하는 경우가 많다.
- 빅데이터 성공 사례가 기존 프로젝트를 포함해 놓은 것들이 많다.
굳이 빅데이터가 필요하지 않음.
-> 분석을 통해 가치를 만드는 것에 집중해야 한다.
3. 왜 싸이월드는 페이스북이 되지 못했나?
- OLAP와 같은 분석 인프라가 존재하였지만, 중요한 의사결정이 데이터 분석에 기초하지 못했다.
- 웹로그 분석을 통한 일차원적인 분석에 머물러있어서 사업 상황 확인을 위한 협소한 문제에 집중되었다.
6. 일차원적인 분석 vs 전략 도출을 위한 가치 기반 분석
일차원 분석 자체만으로 도움이 되지만 일차원적 분석만으로는 환경변화와 같은 큰 변화에 제대로 대응하거나 고객 환경의 변화를 파악하고 새로운 기회를 포착하기가 어렵다.
분석의 활용 범위를 더 넓고 전략적으로 변화시켜야 한다.
제 2절 / 전략 인사이트 도출을 위한 필요 역량
1. 데이터 사이언스의 의미와 역할
=데이터 사이언스에 대해 묻는 문제가 출제될 수 있음.
- 데이터 사이언스 : 데이터로부터 의미있는 정보를 추출해내는 학문이다.
숫자 문자 영상정보 등 다양한 유형의 데이터를 대상으로 한다.
분석 + 구현 + 전달하는 과정 전부를 말한다.
데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화의 전문 지식을 종합한 학문이다.
소통력이 중요하다.
3. 데이터 사이언스의 구성요소
=데이터 사이언스의 구성요소와 그 내용에 대한 객관식 문제가 출제될 가능성이 있다.
데이터 사이언스의 영역
분석적 영역 : 머신러닝, 확률모델
데이터 처리와 관련된 IT 영역 : 프로그래밍, 고성능 컴퓨팅
비즈니스 컨설팅 영역 : 커뮤니케이션, 프리젠테이션
데이터 사이언티스트의 역할
복잡한 대용량 데이터를 구조화, 불완전한 데이터를 서로 연결해야 한다.
문제의 이면을 파고들고, 질문을 찾고, 검증 가능한 가설을 세우는 호기심을 가져야 한다.
스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 글쓰기 능력, 대화능력을 갖춰야 한다.
4. 데이터 사이언티스트의 요구 역량
하드 스킬
빅데이터에 대한 이론적 지시 : 관련 기법에 대한 이해와 방법론 습득
분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적
소프트 스킬
통찰력 있는 분석과 설득력있는 전달, 커뮤니케이션
5. 데이터 사이언스 : 과학과 인문의 교차로
컨버전스 -> 디버전스
제품 생산 -> 서비스
생산 -> 시장 창조
7. 데이터 사이언티스트에 요구되는 인문학적 사고의 특성과 역할
=데이터사이언티스트에게 요구되는 인문학적 사고에 대해 과거->현재->미래로 정리해 이해하자. 또한 정보만으로 할 수
있는 것과 통찰력으로 인해 추가적으로 할 수 있는 것에 대해서 숙지하자.
8. 데이터 분석 모델링에서 인문학적 통찰력의 적용 사례
인간을 바라보는 관점
타고난 성향의 관점 : 원래 성향을 정해두고 그 기반으로 판단
행동의 관점 : 과거의 행동에 따라 이럴 것이다라는 것을 유추해 판단
상황의 관점 : 상황들을 분석해 앞으로의 상황과 맥락을 예측
제 3절 / 빅데이터 그리고 데이터 사이언스의 미래
오답 문제 풀이
- 데이터 베이스의 특징 4가지 : 통합 저장 공용 변화된
- 빅데이터 정의 : 맥킨지(범위 초과) / IDE(차세대 기술) / 더그래니(3V)
- 맵리듀스 : 분산 병렬 컴퓨팅
'[IT] > ADsP' 카테고리의 다른 글
[ADsP] 3과목 시험 분석 (0) | 2018.02.27 |
---|---|
[ADsP] 2과목 시험 분석 (0) | 2018.02.26 |
ADsP 3과목 정리 (1) (0) | 2018.02.06 |
ADsP 2과목 정리(2) (0) | 2018.02.04 |
ADsP 2과목 정리(1) (2) | 2018.01.24 |