할껀하고놀자
ADsP 3과목 정리 (1) 본문
3과목 데이터 분석 – 7개
3-1 데이터 분석 개요
3-1-1 데이터 분석 프로세스
요건 정의 -> 모델링 -> 검증 및 테스트 -> 적용
요건 정의 |
분석요건 도출->수행방안 설계->요건 확정 분석 요건을 구체적으로 도출, 선별, 결정하고, 분석과정 설계, 구체적인 내용을 실무 담당자와 협의하는 업무이다. 전체 프로세스 중 가장 중요한 부분으로, 업무 성과를 좌우함. |
모델링 |
모델링 마트 설계와 구축->탐색적 분석과 유의변수 도출->모델링 ->모델링 성능 평가 요건 정의에 따라서 상세 분석 기법 적용해 모델 개발하는 과정이다. 통계모형, 데이터마이닝 모형, 시뮬레이션, 최적화 등 다양한 방법론 사용한다. |
검증 및 테스트 |
운영 상황에서 실제 테스트->비즈니스 영향도 평가 과적합 발생할 수 있으므로 주의가 필요함. |
적용 |
운영 시스템에 적용과 자동화->주기적 리모델링 성과를 지속적으로 모니터링해준다. |
**요건 정의
1) 분석요건 도출 : 비즈니스 이슈로부터 요건을 도출한다.
비즈니스 이슈 : 전사적 측면에서 개선되어야 할 사항(수익 증가, 비용 증가, 상황의 변화, 처리속도 지연을 발생시키는 항목)
-주의할 점 : 단순 불평불만을 개선사항으로 설정 시 의미를 비즈니스적 의미가 낮아진다.
-기획단계와 유사하지만, 상세하고 실무적 측면에서 접근한다.
-투자수익(ROI)로 증명할 수 있어야 한다.
-방향성이 중요하다.
2)수행방안 설계 : 분석을 구체적으로 수행하기 위해서 간단한 탐색적 분석을 수행하면서, 미리 가설들을 수립해 어떤 분석을 수행할지 틀을 잡는 프로세스 단계
최종 산출물로는 분석계획서와 WBS에 대한 설계도가 나온다.
3)요건 확정 : 확정된 요건은 되도록 바꾸지 말자.
확정 데이터 분석 요건 항목들을 변경이력 및 추적성을 확보해서 현행화 한다.
**모델링
1)모델링 마트 설계와 구축
데이터 정제시 3단계를 거친다(데이터 요약, 파생 변수 도출, 변수 확대)
전처리한 분석 대상 데이터를 적재해 모델 마트를 구축할 수 있다.
2)탐색적 분석과 유의변수 도출
EDA(Exploratory Data Analysis) : 해당 비즈니스 이해와 분석요건에 대한 구체적인 팩트를 발견해 통찰을 얻기 위함.
분석 목적과 요건, 데이터 특성을 기반으로 적합한 데이터 분석기법을 선정할 수 있다.
설계한 분석 모형을 기준으로 유의성을 분석해, 높은 유의성을 보유한 변수들을 식별할 수 있다.
선정된 데이터 분석기법을 기준으로 분석모형을 설계할 수 있다.
3)모델링
데이터마이닝 모델링 |
미래값을 예측하는데 프로세스적 측면이 없다. |
시뮬레이션 기법 |
프로세스 및 자원에 대한 제약이 있고, 입력값이 확률분포를 갖는다. |
최적화 기법 |
프로세스 및 자원에 대한 제약이 있고, 상수값을 가진다. |
4)모델링 성능평가
데이터마이닝: 정확도(Accuracy), 정밀도(Precision), 디텍트 레이트(Detect rate), 리프트(Lift)로 평가한다.
시뮬레이션 : Throughput, Average Waiting Time으로 평가한다.
**검증 및 테스트
1)운영 상황에서 실제 테스트
돌발 상황에서 문제 없이 모델링을 적용할 수 있는지 통합시험을 하는 과정이다.
구축 및 조정된 분석 모형을 테스트하기 위한 유사 운영환경 구축할 수 있다.
최종 테스트 결과를 기반으로 분석 모형의 실제 운영환경 적용을 판단할 수 있다.
2)비즈니스 영향도 평가
만족도 개선 및 추가 수익창출의 단계이다.
정량화 기법 : 총소유비용(TCO),투자대비효과(ROI),순현재가치(NPV)
**적용
1)운영 시스템에 적용과 자동화
2)주기적 리모델링
3-1-2 데이터 분석 기법의 이해
1. 데이터 처리 |
비정형 데이터나 소셜 데이터는 정형화한 패턴으로 처리해야 한다. 비정형 데이터 : DBMS에 저장되었다가 텍스트 마이닝을 거쳐 데이터 마트와 통합한다. 관계형 데이터 : DBMS에 저장돼 사회 신경망 분석을 거쳐 분석 결과 통계값이 마트와 통합되어 활용된다. |
2. 시각화 기법 |
탐색적 분석을 할 때 시각화는 필수이다. |
3. 공간 분석 |
공간적 차원과 관련된 속성들을 시각화 함. 지도 위에 관련 속성들을 생성, 크기, 모양, 선, 굵기 등으로 구분하여 인사이트를 얻는다. |
4. 탐색적 자료분석(EDA) |
다양한 차원과 값을 조합해가면서 특이점이나 의미있는 사실을 도출, 분석의 최종 목적을 달성해가는 과정이다. 데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포 등을 시각화하여 분석하는 분석 방식 |
5. 통계 분석 |
통계 : 어떤 현상을 알아보기 쉽게 일정한 체계에 따라 숫자, 표, 그림의 형태로 나타내는 것. 기술통계 : 모집단으로부터 표본을 추출하고, 표본이 가지고 있는 정보를 쉽게 파악할 수 있도록 데이터 정리, 요약하기 위해 하나의 숫자, 그래프의 형태로 표현하는 절차. 추측통계 : 표본의 표본통계량으로부터 모집단을 추출해내는 단계. |
6. 데이터 마이닝 |
대표적인 고급 데이터 분석법, 대용량의 자료로부터 정보 요약, 자료에 존재하는 관계, 패턴, 규칙 탐색 후 이를 모형화함. 데이터가 크고 정보가 다양할수록 보다 활용하기 유리한 분석이다. |
7. 시뮬레이션 기법 |
복잡한 실제상황을 단순화해 컴퓨터상의 모델로 만들어 재현하거나 변경 |
8. 최적화 |
목적함수의 값을 최대화 또는 최소화하는 것을 목표로 하는 방법이다. |
'[IT] > ADsP' 카테고리의 다른 글
[ADsP] 3과목 시험 분석 (0) | 2018.02.27 |
---|---|
[ADsP] 2과목 시험 분석 (0) | 2018.02.26 |
ADsP 2과목 정리(2) (0) | 2018.02.04 |
ADsP 2과목 정리(1) (2) | 2018.01.24 |
ADsP 1과목 정리 (0) | 2018.01.18 |