본문 바로가기

데이터 관리

데이터 라벨링으로 AI 모델 성능을 높여라.

반응형

데이터 라벨링은 텍스트, 음성, 이미지 등 비정형 데이터를 AI 모델 학습에 필요한 형태로 가공하고 분류하는 것으로서 AI 모델 성능에 중요한 요소입니다. 따라서 데이터 라벨링 품질은 AI 모델 성능에 많은 영향을 미칩니다. 

데이터 라벨링

데이터 라벨링은 쉽게 말하면 각각의 데이터에 의미 있는 태그(Tag)나 주석을 추가하거나, 기준에 따라 분류하는 등의 작업을 말합니다. 텍스트 데이터의 경우 특정 단어들을 기준으로 카테고리화 하거나 긍정 또는 부정 등의 감성이나 의미 등을 분류할 수도 있습니다. 필요한 경우 특정 목적의 카테고리를 추가하는 것도 가능합니다. 고객 VOC (Voice of Customer) 데이터에서 고객 감정 또는 상태의 긍정과 부정을 구분하는 것이 하나의 예라고 할 수 있습니다. 이미지 데이터의 경우 이미지 내의 객체를 식별하여 분류하는 것을 라벨링이라고 할 수 있습니다. 음성 데이터의 경우 음성 정보를 기반으로 남성 또는 여성을 구분하고, 연령대를 식별하며, 얘기하는 화자를 구분하는 것이 그 예입니다.

지금까지는 AI 모델에 활용되는 데이터 라벨링은 주로 사람이 진행했습니다. 보통 아르바이트나 저임금 인력을 활용하여 라벨링 하는 방식이 일반적이었습니다. 사람이 라벨링을 하는 경우 특정 목적에 따라 데이터를 분류하거나 카테고리화 하는 것도 가능합니다. 또한 하나의 문장 내에 긍정과 부정이 섞여 있는 경우나 반어적인 표현에 대한 의도 파악에도 유용합니다.

데이터 라벨링의 발전

최근에는 학습된 AI 모델을 기반으로 AI가 새로운 데이터에 대해 스스로 라벨링 하는 것도 증가하고 있습니다. 특히 이미지에서 객체 분류나 음성 화자 구분에 많이 적용되고 있습니다. 또한 사람과 AI가 협업하여 데이터를 라벨링 하는 것도 가능합니다. 모든 데이터를 사람이 직접 라벨링 하는 경우 라벨링의 정확성은 높지만 많은 비용과 시간이 소요됩니다. 반대로 AI가 모든 데이터를 라벨링 할 경우 속도와 비용 측면에서는 유리하지만 라벨링 결과의 정확성 측면에서는 문제가 될 수도 있습니다. 따라서 AI가 먼저 전체 데이터에 대한 라벨링을 제안하고, 그 결과를 사람이 검증하여 확정하는 것이 효율성과 정확성 측면에서 효과적인 방법이라고 할 수 있습니다.

한편 특정 도메인을 중심으로 업무 전문성을 보유한 '전문가 기반 고급 데이터 라벨링'도 증가하는 것이 최근의 추세입니다. 기존에는 데이터 라벨링에 업무 전문성이 없는 저임금 인력을 주로 활용했다면, 특정 도메인 영역의 AI 모델 성능을 높이기 위해서 해당 영역의 전문가들이 직접 데이터 라벨링을 수행하는 것입니다. 예를 들면 법률 서비스와 관련된 AI 모델을 학습하기 위해 변호사 등 법률 전문가들이 전문용어를 포함하여 맥락과 의도 기반의 라벨링을 직접 수행하는 것입니다. 의료 분야도 마찬가지입니다. 이를 통해 Fine Tuning 단계에서 우수한 AI 모델 성능을 확보할 수 있습니다. 비용은 다소 많이 들지만 고품질의 라벨링 데이터를 기반으로 특정 영역에서의 우수한 AI 모델 개발 뿐만 아니라 서비스까지 적용할 수 있기 때문에 최근 많은 각광을 받고 있습니다.

AI 성능이 고도화되면 궁극적으로는 라벨링이 필요 없는 때가 올 수도 있습니다. 성능 좋은 모델이 실시간으로 데이터를 정확하게 바로바로 라벨링 하여 활용할 수도 있고, 경우에 따라서는 라벨링 없이 데이터를 활용할 수도 있을 것입니다. 핵심은 라벨링 자체에 있는 것이 아니라 AI 모델의 성능을 어떻게 하면 높일 수 있을까 하는 점입니다. 그 목적을 위해 라벨링도 하나의 수단으로써 활용해야 합니다.  

반응형