할껀하고놀자

ADsP 3과목 정리 (1) 본문

[IT]/ADsP

ADsP 3과목 정리 (1)

working_hard 2018. 2. 6. 00:30
728x90

3과목 데이터 분석 – 7

 

3-1 데이터 분석 개요

3-1-1 데이터 분석 프로세스

요건 정의 -> 모델링 -> 검증 및 테스트 -> 적용

요건 정의

분석요건 도출->수행방안 설계->요건 확정

분석 요건을 구체적으로 도출, 선별, 결정하고, 분석과정 설계, 구체적인 내용을 실무 담당자와 협의하는 업무이다.

전체 프로세스 중 가장 중요한 부분으로, 업무 성과를 좌우함.

모델링

모델링 마트 설계와 구축->탐색적 분석과 유의변수 도출->모델링

->모델링 성능 평가

요건 정의에 따라서 상세 분석 기법 적용해 모델 개발하는 과정이다.

통계모형, 데이터마이닝 모형, 시뮬레이션, 최적화 등 다양한 방법론 사용한다.

검증 및 테스트

운영 상황에서 실제 테스트->비즈니스 영향도 평가

과적합 발생할 수 있으므로 주의가 필요함.

적용

운영 시스템에 적용과 자동화->주기적 리모델링

성과를 지속적으로 모니터링해준다.

 

**요건 정의

1) 분석요건 도출 : 비즈니스 이슈로부터 요건을 도출한다.

비즈니스 이슈 : 전사적 측면에서 개선되어야 할 사항(수익 증가, 비용 증가, 상황의 변화, 처리속도 지연을 발생시키는 항목)

-주의할 점 : 단순 불평불만을 개선사항으로 설정 시 의미를 비즈니스적 의미가 낮아진다.

-기획단계와 유사하지만, 상세하고 실무적 측면에서 접근한다.

-투자수익(ROI)로 증명할 수 있어야 한다.

-방향성이 중요하다.

2)수행방안 설계 : 분석을 구체적으로 수행하기 위해서 간단한 탐색적 분석을 수행하면서, 미리 가설들을 수립해 어떤 분석을 수행할지 틀을 잡는 프로세스 단계

최종 산출물로는 분석계획서와 WBS에 대한 설계도가 나온다.

3)요건 확정 : 확정된 요건은 되도록 바꾸지 말자.

확정 데이터 분석 요건 항목들을 변경이력 및 추적성을 확보해서 현행화 한다.

 

**모델링

1)모델링 마트 설계와 구축

데이터 정제시 3단계를 거친다(데이터 요약, 파생 변수 도출, 변수 확대)

전처리한 분석 대상 데이터를 적재해 모델 마트를 구축할 수 있다.

2)탐색적 분석과 유의변수 도출

EDA(Exploratory Data Analysis) : 해당 비즈니스 이해와 분석요건에 대한 구체적인 팩트를 발견해 통찰을 얻기 위함.

분석 목적과 요건, 데이터 특성을 기반으로 적합한 데이터 분석기법을 선정할 수 있다.

설계한 분석 모형을 기준으로 유의성을 분석해, 높은 유의성을 보유한 변수들을 식별할 수 있다.

선정된 데이터 분석기법을 기준으로 분석모형을 설계할 수 있다.

3)모델링

데이터마이닝 모델링

미래값을 예측하는데 프로세스적 측면이 없다.

시뮬레이션 기법

프로세스 및 자원에 대한 제약이 있고, 입력값이 확률분포를 갖는다.

최적화 기법

프로세스 및 자원에 대한 제약이 있고, 상수값을 가진다.

4)모델링 성능평가

데이터마이닝: 정확도(Accuracy), 정밀도(Precision), 디텍트 레이트(Detect rate), 리프트(Lift)로 평가한다.

시뮬레이션 : Throughput, Average Waiting Time으로 평가한다.

 

**검증 및 테스트

1)운영 상황에서 실제 테스트

돌발 상황에서 문제 없이 모델링을 적용할 수 있는지 통합시험을 하는 과정이다.

구축 및 조정된 분석 모형을 테스트하기 위한 유사 운영환경 구축할 수 있다.

최종 테스트 결과를 기반으로 분석 모형의 실제 운영환경 적용을 판단할 수 있다.

2)비즈니스 영향도 평가

만족도 개선 및 추가 수익창출의 단계이다.

정량화 기법 : 총소유비용(TCO),투자대비효과(ROI),순현재가치(NPV)

 

**적용

1)운영 시스템에 적용과 자동화

2)주기적 리모델링

 

3-1-2 데이터 분석 기법의 이해

 

1. 데이터 처리

비정형 데이터나 소셜 데이터는 정형화한 패턴으로 처리해야 한다.

비정형 데이터 : DBMS에 저장되었다가 텍스트 마이닝을 거쳐 데이터 마트와 통합한다.

관계형 데이터 : DBMS에 저장돼 사회 신경망 분석을 거쳐 분석 결과 통계값이 마트와 통합되어 활용된다.

2. 시각화 기법

탐색적 분석을 할 때 시각화는 필수이다.

3. 공간 분석

공간적 차원과 관련된 속성들을 시각화 함.

지도 위에 관련 속성들을 생성, 크기, 모양, , 굵기 등으로 구분하여 인사이트를 얻는다.

4. 탐색적 자료분석(EDA)

다양한 차원과 값을 조합해가면서 특이점이나 의미있는 사실을 도출, 분석의 최종 목적을 달성해가는 과정이다.

데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포 등을 시각화하여 분석하는 분석 방식

5. 통계 분석

통계 : 어떤 현상을 알아보기 쉽게 일정한 체계에 따라 숫자, , 그림의 형태로 나타내는 것.

기술통계 : 모집단으로부터 표본을 추출하고, 표본이 가지고 있는 정보를 쉽게 파악할 수 있도록 데이터 정리, 요약하기 위해 하나의 숫자, 그래프의 형태로 표현하는 절차.

추측통계 : 표본의 표본통계량으로부터 모집단을 추출해내는 단계.

6. 데이터 마이닝

대표적인 고급 데이터 분석법, 대용량의 자료로부터 정보 요약, 자료에 존재하는 관계, 패턴, 규칙 탐색 후 이를 모형화함. 데이터가 크고 정보가 다양할수록 보다 활용하기 유리한 분석이다.

7. 시뮬레이션 기법

복잡한 실제상황을 단순화해 컴퓨터상의 모델로 만들어 재현하거나 변경

8. 최적화

목적함수의 값을 최대화 또는 최소화하는 것을 목표로 하는 방법이다.


'[IT] > ADsP' 카테고리의 다른 글

[ADsP] 3과목 시험 분석  (0) 2018.02.27
[ADsP] 2과목 시험 분석  (0) 2018.02.26
ADsP 2과목 정리(2)  (0) 2018.02.04
ADsP 2과목 정리(1)  (2) 2018.01.24
ADsP 1과목 정리  (0) 2018.01.18
Comments