본문 바로가기
5. 자기계발

데이터 라벨링(초급:1편)

by 우연! 2023. 2. 23.
728x90
SMALL

 

'데이터 라벨링'이란 

인공지능 알고리즘 고도화를 위해 AI 가 스스로 학습할 수 있는 형태로

데이터를 가공하는 작업이다.

 

사람은 어린아이가 태어나면 그 아이는 커가면서 보고,

듣고 배워서 세상을 알아 나가게 된다.

인공지능 역시 어떤 목적으로 만들어졌건 일단 만들어진

그 상태만으로는 세상에 갓 태어난 어린아이와

다를 바가 없다. 아이가 가르침을 받으며 세상을 알아가듯,

인공지능 또한 학습을 통해 세상을 인식하고

똑똑한 인공지능으로 발전할 수 있는 것이다. 학습하지 않은

인공지능은 어린아이처럼 아는 게 없다.

이때 인공지능이 학습할 수 있도록 하기 위해서는 이렇게 

 

 

 

 

 

 

데이터 라벨을 달아주는 것을 '데이터 라벨링'이라고 한다.

가공은 라벨을 달아주는 작업이다. 데이터의 유형과 개발 목적에 맞는

정제와 라벨링이 이뤄져야만 인식할 수 있는데 '라벨'은 해당 물체에 대한 명칭뿐 아니라

데이터 인식에 필요한 설명이나 정답과 같은  의미를 갖는다. 

 

AI 학습에 필수적인 작업, 데이터 라벨링

이러한'DATA'(데이터)는'수집'을 통해 확보한다.

다양한 종류의 사람과 자동차의 사진을 모으는 것이 '수집'에 해당한다.

 

수집한 데이터는 학습에 적합한 형태로 만들기 위해서는

'정제'라는 과정이 필요하다.

원유는 정제라는 과정을 거치지 않고서는 사용할 수가 없다.

'데이터' 역시 마찬가지다.

 

세상에는 수많은 형태의 다양한 데이터 홍수시대지만,

그 자체만으로는 인공지능이 데이터를 이해하지 못한다.

 

그래서 정제 과정을 거쳐 인공지능에게 유용한 형태로

바꿔주는 과정이 필요한 것이다.

 

★필요한 형식이나 크기로 맞추거나

★중복과 같은 불필요한 부분을 제거하거나

★개인정보를 비식별화하는

등의 작업이다. 정제까지 완료된 데이터에는 '라벨링'이 진행된다.

 

'데이터 라벨링= 데이터 가공' 결국 같은 의미다. 

인공지능의 학습에 적합한 데이터가 생성됐으나

바로 학습을 진행할 수 없다. 데이터에 라벨링이 올바르게  되었는지

확인하는 '검수' 과정을 거쳐야 한다.

 

데이터에 잘못된 라벨이 부착됐다면 잘못된 학습결과가

발생할 수밖에 없기 때문에 학습을 진행하기

전에 반드시 진행되어야 하는 필수적인 작업이다.

수집된 후 정제와 라벨링을 거쳐 검수까지 완료된 데이터는

 

 

'인공지능 학습용 데이터'라고 부르며 인공지능이 학습하는 데 있어

정답지와 같은 역할을 한다. 이러한  과정에 참여해 인공지능이 학습할 수 있는

형태의 데이터를  만드는 사람을 '데이터 라벨러'라고 한다. 데이터

 

라벨러에 의해 만들어진 '인공지능 학습용 데이터'는 양이 많을수록,

또 학습이 많이 반복될수록 인공지능의 성능을 고도화시킬 수 있다.

 

4차 산업혁명과 언택트 그리고 디지털 대전환의 영향으로 인공지능의

역할과 비중이 높아지면서 양질의 학습용 데이터에  대한 관심과 중요성이

커지는 이유다. 그러면 양질의 학습용 데이터를 만들기 위해 '데이터 라벨러'는

무엇을, 어떻게 해야 하는지 알아보자.

 

&. 데이터 유형별 데이터 라벨링 방법

자신의 일상을 공유하고 타인의 삶에 공감하는 사람들, 다양한 주제,

다양한 형식으로 수없이 업로드되는 동영상 전 세계적으로 기하급수적인

데이터 생성으로 인해 2025년이 되면 생성되는 데이터 총량이 현재의 10배인 

163ZB에 이를 것이라고 한다.

 

수없이 쏟아져 나오는 데이터의 종류와 양만큼이나 라벨링의 종류와 방법도

다양화, 고도화되고 있는 추세다.

463EB는 463 Exabyte를 뜻하며 미국의 한 시장정보 조사업체에서

'2025년 지구에서 하루 동안 생산될 데이터가 양'을 조사. 예측한 수치라고 한다.

 

 매일 5억 개의 트윗이 포스팅되고 2,940억 개의 이멜을 

주고받으며 자동차 한 대당 4 테라바이트의 데이터가 생성되는 등

이렇게 우리의 일상에서 하루 동안 만들어지는 데이터만 약 463 엑사바이트가

될 것이라고 예측한 것이라고 한다. 

 

사실 수치에 대한 감각은 하나도 느껴지지 않으나

암튼 어마어마한 데이터의 홍수 속에서 쏟아져 나오는 데이터를 

모두 인공지능 학습에 사용할 수는 없다.

 

데이터의 유형과 개발 목적에 맞는 정제와 라벨링이 이뤄져야만 비로소

인공지능 학습에 적합한 데이터의 자격을

갖추게 되기 때문이다.

 

우리가 일반적으로 '데이터'라고 통칭해서 부르지만

데이터의 유형은  매우 다양하다.

 

크게 ●이미지, ●영상, ●텍스트, ●오디오로 분류되며  '데이터 라벨러'가

담당하는 업무는 일반적으로

데이터를 모으는 '수집'과 인공지능이 학습할 수 있는

형태로 '가공'하는 작업으로 나뉜다.

라벨링 방식은 데이터의 유형에 따라 다르게 진행된다.

 

 

 

 

 

728x90
LIST

댓글