공부/빅데이터분석기사 21

[빅데이터분석기사] 분석 작업 계획, 분석 프로젝트 관리

1. 분석 프로젝트 분석 프로젝트는 과제 형태로 도출된 분석 기회를 프로젝트화하여 그 가치를 증명하기 위한 수단이다. 데이터 영역과 비즈니스 영역에 대한 이해와 더불어 지속적인 반복이 요구되는 분석 프로세스의 특성을 이해하여 프로젝트 관리방안을 수립해야 한다. 지속적인 개선 및 변경을 염두해 두고 프로젝트 기한 내에 가능한 최선의 결과를 도출할 수 있도록 프로젝트 구성원들과 협업이 필요하다. 데이터를 다루면서 분석 모형을 생성하는 프로젝트 특성상 아래 표의 추가적인 중점 관리 영역을 고려하여야 한다. 관리 영역 내용 데이터 크기 (Data Size) 데이터가 지속적으로 생성되어 증가하는 점을 고려한다. 데이터 복잡도 (Data Complexity) 정형, 비정형 데이터와 다양한 시스템에 산재되어 있는 원..

[빅데이터분석기사] 분석 작업 계획, 분석 절차와 작업 계획

1. 분석 절차 분석 절차는 데이터 분석의 시발점이 되는 문제 인식에서부터 시작하여 데이터를 확보하고 분석하여 결과를 도출 및 제시하는 단계까지의 일반적인 과정을 정형화한 프로세스이다. 데이터 분석을 수행하기 위한 기본적인 과정을 명시하고 있다. 분석 방법론을 구성하는 최소 요건이다. 상황에 따라 단계를 추가할 수도 있으며 생략 가능하다. 구분 내용 문제 인식 문제를 인식하고 분석 목적을 명확하게 정의한다. 분석 주제는 가설 형태 또는 결과 해석을 중심으로 할 수 있다. 연구조사 문제 해결을 위한 각종 문헌을 조사하고 내용을 바탕으로 문제에 대한 해결방안을 정의한다. 중요한 요인이나 변수들을 파악한다. 모형화 복잡한 문제를 논리적이면서도 단순화하는 과정이다. 많은 변수가 포함된 현실 문제를 특징적 변수로..

[빅데이터분석기사] 분석 작업 계획, 데이터 확보 계획

1. 데이터 확보를 위한 사전 검토사항 분석 목적에 맞는 데이터를 정의하고, 필요한 데이터를 확보할 수 있는지 확인 하여야 하며, 확보할 수 없다면 대안을 함께 고려하여야 한다. 기업 내부 및 외부 공공기관이나 협력관계의 타 기업 담당자, 전문가 등 이해관계자들과 확보 가능한 데이터의 목록과 기대효과 등을 작성한다. 자전에 정의한 데이터의 존재 여부와 분석 품질을 보장할 만큼 데이터 품질이 우수한지, 충분한 양이 존재하는지 확인한다. 분석 데이터 확보를 위해 수집 대상 데이터의 유형을 고려해야 한다. 어떤 데이터를 어떤 기법을 이용하여 분석할 것인지 수립된 계획에 따라 데이터의 유형을 선택하고 변수를 정의해야 한다. 데이터 분석 기법에 따라 훈련(Training) 데이터셋, 검증(Validation) 데..

[빅데이터분석기사] 분석 작업 계획, 분석 작업 개요

분석 작업 계획을 수립하기 위해 데이터 처리 프로세스 전체에 대한 이해가 필요하며, 데이터 처리 영역과 데이터 분석 영역으로 나우어 살펴볼 수 있다. 1. 데이터 처리 영역 데이터 분석을 위한 기초 데이터를 정의하고 수집 및 저장, 분석하기 수월하도록 물리적인 환경을 제공하는 영역이다. 단계 내용 데이터 소스 기업 내 각 부서나 서비스별 적재되고 있는 내부 데이터와 다른 기업이나 공공 데이터 등 외부 데이터가 있다. 데이터 수집 사용자로부터 데이터를 직접 입력받거나 로그수집기, 크롤링, 센서네트워크 등을 통해 데이터를 수집한다. 데이터 저장 데이터를 유형별로 나눠 최적의 설계를 하여 데이터 스토리지에 저장한다. 데이터 처리 저장된 대용량의 데이터를 신속하고 정확하게 처리하기 위하여 실시간 처리 및 분산 ..

[빅데이터분석기사] 분석 방안 수립, 빅데이터 분석 방법론

1. 빅데이터 분석 방법론 개요 분석 방법론은 응용 서비스 개발을 위한 3계층으로 구성되었다. 단계 (Phase) 데이터 분석을 수행하기 위한 절차이다. 기준선(Baseline)을 설정하고 버전관리를 통해 통제되어야 한다. 태스크 (Task) 각 단계별로 수행되어야 하는 세부 업무이다. 각 태스크가 완료되면 그에 대한 성과를 얻을 수 있다. 스텝 (Step) 단기간 내에 수행 가능한 워크패키지(Work Package)이다. 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스이다. 각 단계별로 세부 태스크와 스텝이 정의되어 있다. 2. 빅데이터 분석 방법론의 개발 절차 비즈니스 이해 및 범위 설정 - 향후 프로젝트 진행을 위한 방향을 설정하고, 프로젝트 목적에 부합한 범위를 설정한다. - 프로젝트의..

[빅데이터분석기사] 분석 방안 수립, 데이터 분석 방안

1. 분석 방법론 데이터 분석시 품질확보를 위하여 단계별로 수행해야 하는 활동, 작업, 산출물을 정의한다. 프로젝트는 한 개인의 역량이나 조직의 우연한 성공에 의해서는 안 되고 일정 품질 수준 이상의 산출물과 프로젝트의 성공 가능성을 제시해야 한다. 상세한 절차(Procedures) 방법(Methods) 도구와 기법(Tools & Techniques) 템플릿과 산출물(Templates & Outputs) 어느 정도의 지식만 있으면 활용 가능한 수준의 난이도 형식화 개인의 암묵지가 조직의 형식지로 발전되었다. 분석가의 경험을 바탕으로 정리하여 문서화한다. 체계화 문서화한 최적화된 형식지로 전개됨으로써 방법론이 생성되었다. 문서에는 절차나 활동 및 작업, 산출물, 도구 등을 정의한다. 내재화 개인에게 전파되..

[빅데이터분석기사] 분석 방안 수립, 분석 문제 정의 개요

1. 분석 문제 정의 개요 분석 과제는 해결해야 할 다양한 문제들을 데이터 분석 문제로 변환하여 분석 프로젝트로 수행할 수 있는 과제정의서 형태로 도출한다. 문제가 먼저 주어지고 이에 대한 해법을 찾아가는 하향식 접근 방식과 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하는 상향식 접근 방식이 있다. 동적인 환경에서 발산과 수렴 단계를 반복적으로 수행하며 상호 보완을 통해 분석의 가치를 극대화할 수 있다. 상향식 접근 방식의 발산(Diverge) 단계 : 가능한 옵션을 도출 하향식 접근 방식의 수렴(Converge) 단계 : 도출된 옵션을 분석하고 검증 분석 과제 정의서는 다양한 방식으로 도출한 분석 과제들을 명확하게 정의하여 상세하게 작성한다. - 필요한 데이터, 데이터 수집과 분석 난이도, 분석..

[빅데이터분석기사] 분석 방안 수립, 분석 마스터 플랜과 로드맵 설정

1. 분석 마스터 플랜 분석 마스터 플랜 시 일반적인 정보전략계획 방법론을 활용할 수 있다. 다만 데이터 분석 기획의 특성을 고려하여 수행하여야 한다. 과제 도출 방법을 활용하여 데이터 분석 과제들을 빠짐없이 정의한다. 분석 과제의 중요도와 난이도 등을 고려하여 우선순위를 결정한다. 단기와 중장기로 나누어 분석 로드맵을 수립한다. 정보기술 및 시스템을 전략적으로 활용하기 위한 중장기 마스터 플랜을 수립하는 절차이다. 조직 내, 외부의 환경을충분히 분석하여 새로운 기회나 문제점을 도출한다. 사용자의 요구사항을 확인하여 시스템 구축 우선순위를 결정한다. 2. 분석 과제 우선순위 평가 기준 전략적 중요도, 실행 용이성 등 기업에서 고려하는 중요 가치 기중에 따라 다양한 관점으로 과제 우선순위 기준을 정의하여 ..

[빅데이터분석기사] 분석 방안 수립, 데이터 분석 기획

1. 데이터 분석의 현황 대다수의 기업들은 빅데이터가 갖고 있는 무한한 비즈니스 잠재력을 규명하는 초기 프로젝트에 머무르고 있다. 빅데이터를 활용하기 위한 장애물은 비용보다 데이터 분석을 수행하기 위한 분석적 방법과 성과에 대한 이해의 부족이다. 2. 데이터 분석의 지향점 단순하게 데이터 분석을 자주, 많이 수행하는 것이 경쟁우위를 가져다 주는 것은 아니다. 분석은 경쟁의 본질에 영향을 미치고 기업의 경쟁전략을 이끌어 가므로, 경쟁의 본질을 제대로 바라보지 못한 분석은 불필요한 결과를 만들어 낸다. 대부분의 기업들은 업계 내부의 문제에만 중점을 두고 있으며, 주로 부서 단위로 관리되기에 전체 비즈니스 관점의 핵심적인 역할을 기대하기 어렵다. 산업군 데이터 분석 내용 금융 신용점수 산정, 사기방지, 프로그..

[빅데이터분석기사] 빅데이터 기술 및 제도, 개인정보 활용

1. 데이터 수집의 위기 요인과 통제 방안 M2M(Machine to Machine) 시대가 되면서 정보를 수집하는 센서들의 수가 증가하고 있다. 개인정보의 가치가 커짐에 따라 많은 사업자들이 개인정보 습득에 더 많은 자원을 투입하고 있다. 특정 데이터가 본래 목적 외로 가공되어 2차, 3차 목적으로 활용될 가능성이 커지고 있다. 위험의 범위가 사생활 침해 수준을 넘어 사회, 경제적 위협으로 더 확대될 수 있다. 개인정보는 본래의 1차적 목적 외에도 2차, 3차적 목적으로 가공, 유통, 활용 되고 있다. - 개인정보의 활용에 대해 개인이 매번 동의하는 것은 매우 어려운 일이며, 경제적으로도 비효율적이다. 개인정보 사용으로 발생하는 피해에 대해서는 개인정보 사용자가 책임을 지게한다. 개인정보를 사용하는 주..

[빅데이터분석기사] 빅데이터 기술 및 제도, 개인정보 비식별화

1. 개인정보 비식별화 개요 정보의 집합물에 대해[개인정보 비식별 조치 가이드라인]에 따라 적정하게 '비식별 조치'된 정보를 말한다. 정보의 집합물에서 개인을 식별할 수 있는 요소를 전부 or 일부 삭제하거나 대처등의 방법을 통해 개인을 알아볼 수 없도록 하는 조치를 말한다. 비식별 정보는 개인정보가 아닌 정보로 추정되므로 정보주체로부터의 별도 동의없이 해당 정보를 이용하거나 제3자에게 제공할 수 있다. - 다만, 불특정 다수에게 공개되는 경우에는 다른 정보를 보유하고 있는 누군가에 의해 해당 정보주체가 식별된 가능성이 있으므로 비식별 정보의 공개는 원칙적으로 금지된다. 비식별 정보는 개인정보가 아닌 것으로 추정되지만, 새로운 결합 기술이 나타나거나 결합 가능한 정보가 증가하는 경우에는 정보주체가 '재식..

[빅데이터분석기사] 빅데이터 기술 및 제도, 개인정보, 제도

1. 개인정보보호법 당사자의 동의 없는 개인정보 수집 및 활용하거나 제3자에게 제공하는 것을 금지하는 등 개인정보보호를 강화한 내용을 담아 제정한 법률이다. 상대방의 동의 없이 개인정보를 제3자에게 제공하면 5년 이하의 징역이나 5,000만 원 이하의 벌금에 처할 수 있다. 어떤 정보가 개인정보에 해당하는지는 그 정보가 특정 개인을 알아볼 수 있게 하는 다른 정보와 쉽게 결합할 수 있는가에 따라 결정된다. 법원은 그 정보 자체로는 누구의 정보인지를 알 수 없더라도 다른 정보와 결함 가능성을 비교적 넓게 인정하여 개인정보에 해당한다 판단하고 있다. 일정한 내용을 기재한 문서에 의하여 업무 위탁이 이루어져야 한다(개인정보보호법 제26조 제1항). 위탁하는 업무의 내용과 수탁자를 정보주체에게 알려야 하는바, ..

[빅데이터분석기사] 빅데이터 기술 및 제도, 개인정보 개요

1. 개인정보의 정의와 판단기준 1. 개인정보의 정의 살아 있는 개인에 관한 정보로서 개인을 알아볼 수 있는 정보이다. 해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보를 포함한다. 2. 개인정보의 판단기준 '생존하는''개인에 관한'정보여야 한다. '정보'의 내용,형태 등은 제한이 없다. 개인을 '알아볼 수 있는' 정보여야 한다. - 다른 정보와'쉽게 결합하여' 개인을 알아볼 수 있는 정보도 포함한다. 2. 개인정보의 처리와 활용 1. 개인정보의 이전 개인정보가 다른 사람(제3자)에게 이전되거나 공동으로 처리하게 하는 것이다. 2. 개인정보의 처리 위탁 개인정보처리자의 업무를 처리할 목적으로 제3자에게 이전되는 것이다. 3. 개인정보의 제3자 제공 해당 정..

[빅데이터분석기사] 빅데이터 기술 및 제도, 빅데이터와 인공지능

1. 인공지능(AI: Artificial Intelligence) 인공지능은 기계를 지능화하는 노력이며, 지능화란 객체가 환경에서 적절히, 그리고 예지력을 갖고 작동하도록 하는 것이다. 인공지능은 합리적 행동 수행자이며, 어떤 행동이 최적의 결과를 낳을 수 있도록 하는 의사결정 능력을 갖춘 에이전트를 구축하는 것이다. 인공지능은 설정한 목표를 극대화하는 행동을 제시하는 의사결정 로직이다. 인공지능을 논할 때 기계학습과 딥러닝을 혼재하여 사용한다. 인공지능은 사람이 생각하고 판단하는 사고 구조를 구축하려는 전반적인 노력이다. 기계학습은 인공지능의 연구 분야 중 하나로 인간의 학습 능력과 같은 기능을 축적된 데이터를 활용하여 실현하고자 하는 기술 및 방법이다. 딥러닝은 기계학습 방법 중 하나로 컴퓨터가 많은..

[빅데이터분석기사] 빅데이터 기술 및 제도, 빅데이터 처리기술

1. 빅데이터 처리과정과 요소기술 데이터베이스나 파일 관리 시스템과 같은 내부 데이터가 있다. 인터넷으로 연결된 외부로부터 생성된 파일이나 데이터가 있다. 크롤링을 통해 데이터 원천으로부터 데이터를 검색하여 수집한다. ETL을 통해 소스 데이터로부터 추출하고, 변환하여, 적재한다. 단순한 수집이 아니라 검색 및 수집, 변환 과정을 모두 포함한다. 로그 수집기나, 센서 네트워크 및 Open API 등을 활용할 수 있다. 저렴한 비용으로 데이터를 쉽고 빠르게 많이 저장한다. 정형 데이터뿐만 아니라 반정형, 비정형 데이터도 포함한다. 병렬 DBMS나 하둡, NoSQL 등 다양한 기술을 사용할 수 있다. 시스템 간의 데이터를 서로 공유 가능하다. 데이터를 효과적으로 처리하는 기술이 필요한 단계이다. 분산 병렬 ..