AI 활용 이전에는 빅데이터를 효율적으로 확인하고 분석하기 위해서, 대부분의 경우 데이터 가공 또는 전처리를 통해 분석하기 용이한 형태로 처리한 후 데이터를 활용하는 경우가 많았습니다. 여기서 말하는 데이터 전처리 예로는 다음과 같은 것들이 있습니다.
- 다양한 데이터 중에서 특정 활용과제나 분석 목적에 필요한 데이터만 추출
- 특정 로직을 적용하여 데이터를 연결하는 등의 가공 또는 처리
- 연관된 데이터를 연결한 후 활용하기 위한 Pinning (ID Pinning 등)
- 데이터 타입이나 포맷 표준화
AI 활용을 위한 데이터 전처리 필요성
그러면 AI 활용 시대에는 과연 이런 데이터 전처리 없이도 AI 모델이 데이터를 잘 활용할 수 있을까요? AI 모델이 이해할 수 있는 메타정보만 충실히 관리된다면 AI 모델은 목적에 맞게 데이터를 자유롭게 활용하는 것이 가능할까요? 이에 대한 답은 결국 AI 모델의 데이터 이해와 분석 능력에 달려 있다고 할 수 있습니다. 미래의 어느 시점에는 AI 모델이 스스로 데이터 간의 연관성이나 관계를 파악하여, 별도의 데이터 전처리나 가공 없이도 데이터를 활용하여 분석하는 것이 가능해질 것입니다. 이때 AI 모델은 데이터 이해와 분석에 있어서 고도의 성능을 보유하고 있어야 합니다.
하지만 현실적으로 지금 현재의 AI 모델 성능은 아직 그 정도 수준에는 미치지 못하고 있는 것 같습니다. 특정 정형 데이터의 경우에는 더 그렇다고 할 수 있습니다. 따라서 AI 모델이 데이터를 제대로 활용하여 분석하기 위해서는 메타정보 뿐만 아니라 일정 부분 AI 모델이 이해하는데 필요한 데이터에 대한 가공 또는 전처리가 필요합니다.

AI 활용을 위한 데이터 전처리
AI 활용에 있어 가장 많이 활용되는 데이터 전처리에는 데이터 연결과 분류라고 할 수 있습니다. 이러한 것들은 데이터 기준정보 성격으로써, 특정 로직을 기반으로 미리 정의되어 있다면 AI 모델의 처리 속도 뿐만 아니라 분석 결과의 정확성과 일관성을 높이면서 오류를 줄이는 데 도움이 됩니다. 즉 분석 성능을 높일 수 있습니다.
먼저 데이터 연결은 Pinning 체계를 기반으로 다양한 영역에 걸쳐 있는 데이터를 쉽게 활용하기 위해 사전에 미리 연결해 두는 것을 의미합니다. 다양한 Value Chain 또는 도메인에 걸쳐 데이터 분석에 필요한 기준정보를 기반으로 데이터를 연결할 수 있는 준비체계라고 할 수 있습니다.
고객 여정에서 데이터 연결을 위한 고객 ID Pinning, 개발~생산~물류 등의 단계에서 제품을 기준으로 정보를 연결하는 것이 대표적인 예라고 할 수 있습니다. AI가 이런 Pinning이나 연결 로직을 처음부터 파악하기는 어렵기 때문에 어느 정도 수준까지는 이러한 연결로직 구성이 분석 정확도 측면에서 유용하다고 할 수 있습니다.
또 다른 데이터 전처리의 한 예로 데이터 분류가 있습니다. 제품이나 고객 VOC 등 다양한 영역에서 카테고리화 또는 분류가 필요한 경우가 많습니다. 처음부터 이런 분류에 대한 기준정보 데이터를 정의한 후에 활용하는 것이 이상적입니다. 하지만 현실적으로는 분류에 대한 기준정보 데이터가 없는 경우가 많으며, 필요에 의해서 그때그때 정의되는 경우도 있기 때문에, 각각의 업무 영역에서 활용과제에 따른 필요와 기준에 의해 조금씩은 상이한 분류 기준을 가져가는 경우가 많습니다. 따라서 초기부터 사전에 목적에 따른 데이터 분류체계를 정의한 후 그에 맞는 데이터를 수집하거나, 만일 이미 각각의 영역에서 조금씩은 상이한 분류체계를 가져가고 있다면 후속적인 작업에 의해 이런 분류체계를 하나로 통합하거나 매핑하는 것도 많은 도움이 됩니다.
이 외에도 비즈니스 특성이나 분석 목적을 반영한 다양한 형태의 데이터 기준정보가 필요할 수도 있습니다. 따라서 AI 모델이 효율적이고 우수한 성능의 데이터 분석을 할 수 있도록 데이터 기준정보를 구성하기 위한 최소한의 전처리는 필요합니다.
'데이터 관리' 카테고리의 다른 글
| 데이터의 관계를 정의하라 - Ontology (2) (0) | 2025.09.17 |
|---|---|
| 데이터의 관계를 정의하라 - Ontology (1) (0) | 2025.09.15 |
| 사내 문서를 AI로 읽고 이해할 수 있도록 하라 (0) | 2025.09.08 |
| 기업 내 문서를 데이터화 하라 (0) | 2025.09.06 |
| 데이터 라벨링으로 AI 모델 성능을 높여라. (0) | 2025.09.04 |