공부/빅데이터분석기사

[빅데이터분석기사] 빅데이터 기술 및 제도, 빅데이터와 인공지능

Blackshoot 2021. 8. 12. 22:06
728x90
반응형

1. 인공지능(AI: Artificial Intelligence)

<인공지능의 정의>

  • 인공지능은 기계를 지능화하는 노력이며, 지능화란 객체가 환경에서 적절히, 그리고 예지력을 갖고 작동하도록 하는 것이다.
  • 인공지능은 합리적 행동 수행자이며, 어떤 행동이 최적의 결과를 낳을 수 있도록 하는 의사결정 능력을 갖춘 에이전트를 구축하는 것이다.
  • 인공지능은 설정한 목표를 극대화하는 행동을 제시하는 의사결정 로직이다.

<인공지능과 기계학습 및 딥러닝의 관계>

인공지능을 논할 때 기계학습과 딥러닝을 혼재하여 사용한다.

  • 인공지능은 사람이 생각하고 판단하는 사고 구조를 구축하려는 전반적인 노력이다.
  • 기계학습은 인공지능의 연구 분야 중 하나로 인간의 학습 능력과 같은 기능을 축적된 데이터를 활용하여 실현하고자 하는 기술 및 방법이다.
  • 딥러닝은 기계학습 방법 중 하나로 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습할 수 있도록 인공신경망 등의 기술을 이용한 기법이다.

<딥러닝의 특징>

딥러닝은 제프리 힌튼의 노력으로 함수추정 방법으로써의 신경망 관점에서 정보를 압축, 가공, 재현하는 알고리즘으로 일반화하면서 인공지능의 핵심 동인이 되었다.

깊은 구조에 의해 엄청난 양의 데이터를 학습할 수 있는 특징을 갖고 있다.

- 딥러닝의 학습을 위한 데이터의 확보는 곧 우수한 인공지능 개발과 깊은 관련성이 있다.

<기계학습의 종류>

종류 내용
지도학습
(Supervised Learning)
학습 데이터로부터 하나의 함수를 유추해내기 위한 방법이다.
지도 학습기가 하는 작업은 훈련 데이터로부터 주어진 데이터에 대해 예측하고자 하는 값을 올바로 추측해 내는 것이다.
비지도학습
(Unsupervised Learning)
데이터가 어떻게 구성되었는지를 알아내는 문제의 범주에 속한다.
지도학습 or 강화학습과는 달리 입력 값에 대한 목표치가 주어지지 않는다.
통계의 밀도 추정과 깊은 연관이 있으며, 데이터의 주요 특징을 요약하고 설명할 수 있다.
준지도학습
(Semi-supervised Learning)
목표 값이 표시된 데이터와 표시되지 않은 데이터를 모두 학습에 사용하는 것을 말한다.
많은 기계학습 연구자들이 목표 값이 없는 데이터에 적은 양의 목표 값을 포함한 데이터를 사용할 경우 학습 정확도에 있어서 상당히 좋아짐을 확인하였다.
강화학습
(Reinforcement Learning)
행동심리학에서 영감을 받았으며, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 순서를 선택하는 방법이다.
강화학습의 초점은 학슴 과정에서의 성능이며, 이는 탐색과 이용의 균형을 맞춤으로써 제고된다.

<기계학습 방법에 따른 인공지능 응용분야>

학습 종류 방법 응용 영역
지도학습 분류모형 이미지 인식
음성 인식
신용평가 및 사기검출
불량예측 및 원인발굴
회귀모형 시세/가격/주가 예측
강우량 예측 등
비지도 학습 군집분석 텍스트 토픽 분석
고객 세그멘테이션
오토인코더 이상징후 탐지
노이즈 제거
텍스트 백터화
생성적 적대 신경망 시뮬레이션 데이터 생성
누락 데이터 생성
패션 데이터 생성 등
강화학습 강화학습 게임 플레이어 생성
로봇 학습 알고리즘
공급망 최적화 등

2. 인공지능 데이터 학습의 진화

<전이학습(Transfer Learning)>

인간의 응용력과 같이 유사 분야에 학습된 딥러닝 모형을 다른 문제를 해결하기 위해 사용하고자 할 때 적은 양의 데이터로도 좋은 결과를 얻을 수 있다.

  • 주로 이미지, 언어, 텍스트 인식과 같이 지도학습 중 분류모형인 인식 문제에 활용 가능하다.

- 인식 문제의 경우 데이터 표준화가 가능하여 사전학습모형 입력형식에 맞출 수 있다.

<전이학습 기반 사전학습모형>

  • 학습 데이터에 의한 인지능력을 갖춘 딥러닝 모형에 추가적인 데이터를 학습시키는 방식이다.
  • 데이터 학습량에 따라 점차 발전하는 것도 중요하지만, 응용력을 갖추는 것 또한 필수적이다.
  • 상대적으로 적은 양의 데이터로도 제한된 문제에 인공지능 적용이 가능하다.

-  이미 학습된 사전학습모형도 데이터를 함축한 초보적 인공지능으로서 충분한 가치를 지닌 새로운 의미의 데이터라고 할 수 있다.

<BERT(Bidirectional Encoder Repressentations from Transformers)>

2018년 구글에서 발표한 언어인식 사전학습모형이다. 확보된 언어 데이터의 추가 학습을 통한 신속한 학습이 가능하다.

  • 다층의 임베딩 구조를 통해 1억2천 개가 넘는 파라미터로 구성된 획기적인 모형이다.
  • 256개까지 문자가 입력되어 768차원 숫자 백터가 생성되는 방식이다.
  • 언어 인식뿐 아니라 번역, 챗봇 Q&A 엔진으로 활용 가능하다.

3. 빅데이터와 인공지능의 관계

<인공지능을 위한 학습 데이터 확보>

  • 학습 데이터 측면을 고려한 양질의 데이터 확보는 결국 성공적인 인공지능 구현과 직결된다.
  • 딥러닝은 깊은 구조를 통해 무한한 모수 추정이 필요한 만큼 많은 양의 데이터가 필요하다.
  • 인공지능 학습에 활용될 수 있는 데이터로 가공이 필요하며, 학습의 가이드를 제공해 주는 애노테이션 작업이 필수적이다.

<학습 데이터의 애노테이션 작업>

많은 데이터 확보 후 애노테이션을 통해 학습이 가능한 데이터로 가공하는 작업이 필요하다.

  • 작업의 특성상 많은 수작업이 동반되며, 이로 인해 인공지능 사업은 노동집약적이라는 인식을 만들어 냈다.

<애노테이션 작업을 위한 도구로써의 인공지능>

인공지능 시장이 확장되며 에노테이션 작업을 전문으로 하는 기업의 수가 증가하였다.

- 경쟁으로 인해 학습용 데이터에 대한 보안 및 애노테이션 결과에 대한 품질 요구수준이 높아졌다.

- 기업들은 데이터 업로드 및 애노테이션 도구, 작업 모니터링을 위한 플랫폼을 제공하기 시작했다.

현재 자동으로 애노테이션을 수행해 주는 인공지능 기반의 애노테이션 도구를 제공하는 서비스로 진화 중이다.

4. 인공지능의 기술동향

<기계학습 프레임워크 보급확대>

  • 구글브레인이 개발한 Tensorflow는 파이썬 기반 딥러닝 라이브러리로 여러 CPU 및 GPU와 플랫폼에서 사용 가능하다.
  • Keras는 딥러닝 신경망 구축을 위한 단순화된 인터페이스를 가진 라이브러리이며, 몇 줄의 코드만으로도 딥러닝 모형 개발이 가능하다.

<생성적 적대 네트워크(GAN: Generative Adversarial Networks)>

GAN은 두 개의 인공신경망으로 구성된 딥러닝 이미지 생성 알고리즘이다.

  • 생성자가 가짜 사례를 생성하면 감별자가 진위를 판별하도록 구성한 후 이들이 적대적 관계 속에서 공방전을 반복하도록 한다.

- 가짜 사례의 정밀도를 점점 더 진짜 사례와 구별하기 어려운 수준으로 높이는 방식으로 작동한다.

  • 주로 새로운 합성 이미지를 생성하는 분석에 많이 적용되어 왔으나, 점차 다른 분야에 응용하는 사례가 늘고 있다.

<오토인코더>

오토인코더는 라벨이 설정되어 있지 않은 학습 데이터로부터 더욱 효율적인 코드로 표현하도록 학습하는 신경망이다.

  • 입력 데이터의 차원을 줄여 모형을 단순화시키기 위해 활용할 수 있다.

<설명 가능한 인공지능>

설명가능한 인공지능은 결론 도출 과정에 대한 근거를 차트나 수치 또는 자연어 형태의 설명으로 제공한다.

  • 기존의 기계학습은 정확한 예측을 할 수 있도록 하는 방향으로 개발되어 왔다.

-  기존 기계학습의 완성된 모형은 내부 구조가 매우 복잡하고 의미를 이해하기 어려워 일종의 블랙박스 모형이라 불리었다.

<기계학습 자동화>

기계학습 자동화는 명칭 그대로 기계학습의 전체 과정을 자동화하는 것이다.

  • 세부적으로는 데이터 전처리, 번수 생성, 변수 선택, 알고리즘 선택, 하이퍼파라미터 최적화 등의 기능을 수행한다.
  • 기계학습 모형 개발 과정의 생산성을 높이며 비전문가들의 활용을 용이하게 할 것으로 기대된다.

5. 인공지능의 한계점과 발전방향

<국내시장의 한계>

  • 국내에서 축적한 머신러닝 및 인공지능과 관련한 수학, 통계학적 이해도는 낮은 수준이다.
  • 인공지능 개발을 위한 데이터 확보 및 그 중요성에 대한 인식이 부족하다.

<인공지능의 미래>

  • 딥러닝의 재학습 및 전이학습 특성을 활용한 사전학습모형이 새로운 데이터 경제의 모습이 될 것이다.
  • 마스킹이나 라벨링 등의 애노테이션 작업을 통해 학습용 데이터를 가공하는 산업이 확산되고 있다.
  • 복잡한 BERT의 학습을 위한 구글의 클라우드 서비스와 같은 확장된 개념의 데이터 경제로 파생될 것으로 보인다.
반응형