데이터의 폭발적 증가
인류가 파피루스를 시작으로 기록을 남기기 시작한 이후, 2000년대 초까지 약 5000년 동안 생성된 전체 데이터 사이즈는 약 20 엑사바이드(Exabyte) 정도로 추정된다고 합니다. 그 이후 2000년대 초반부터 2021년까지 약 20년간 생산된 전 세계 데이터 사이즈는 약 50 제타바이트(Zetabyte)라고 합니다. 인류가 불과 최근 20년 동안 생산한 데이터가 지난 5000년간 생산된 전체 데이터의 약 2,500배를 넘는 양이고, 이는 인류가 생산한 데이터의 약 90%는 최근 5년간 생산된 것임을 의미합니다. 2025년까지 전 세계 데이터 사이즈는 약 160 제타바이트에 이를 것으로 예상되며, 이는 2016년 대비 10배 증가한 규모로 예상됩니다.
이러한 데이터의 증가는 최근 다양한 디지털 기기의 등장과 산업활동 등으로 인해 인간이 생성한 데이터들이 크게 늘어난 것에 그 이유가 있습니다. 불과 30~40년 이전에는 대부분의 데이터가 활자화된 문서 형태로 존재했습니다. 하지만 인터넷의 보급과 함께 온라인 상에서 다양한 텍스트, 오디오, 이미지, 영상 등의 데이터가 기하급수적으로 증가하기 시작했습니다. 이후 스마트폰 등이 보급되면서 개인의 데이터 생성 속도와 양은 폭발적으로 증가하였습니다. 또한 제조업을 포함한 다양한 산업 영역에서 생성되는 데이터를 관리하고 활용하기 시작한 것도 데이터 사이즈의 증가에 큰 영향을 끼쳤다고 할 수 있습니다. 비록 장치나 기계에 의해 생성되기는 하지만 모두 인간의 주체적인 활동과 직접적인 관계에 의해 생성된 데이터라고 할 수 있습니다.
데이터 생성 주체의 다양화
이제 AI 적용이 활발해지기 시작하면서 데이터 생성의 주체가 기존 인간 위주에서 다른 형태로 변화하는 추세가 나타나고 있습니다. 즉 AI 모델과 Agent가 현실 세계와 상호작용하여 스스로 새로운 데이터를 생성해 내기 시작했다는 점입니다. 인간의 직접적인 개입 없이 말이죠. 이런 데이터는 AI 자율주행이나 AI 로봇이 확산되는 속도를 감안하면 엄청한 속도로 만들어질 것입니다. 그리고 향후 일반 인공지능인 AGI(Artificial General Intelligence) 시대로 가면서 데이터 생성의 속도와 양은 지금과 비교할 수 없을 정도로 기하급수적으로 증가할 것입니다.
한편으로 합성 데이터(Synthetic Data)도 증가할 것으로 예상됩니다. 합성 데이터는 AI 및 머신러닝 모델의 학습을 위해 사람의 개입 없이 실제 데이터의 통계적 특성을 모방하여 인공지능이 스스로 생성한 데이터로서, 실제 데이터를 보완하거나 대체하는 목적으로 사용되는 데이터입니다. 따라서 기존에 인간이 생성하는 데이터 외에도 인공지능이 현실 세계와 상호작용하여 생성한 데이터나 합성 데이터 등에 의해 인류가 관리해야 할 데이터는 엄청나게 증가할 것입니다.
효율적인 데이터 관리의 필요성
이렇게 향후 급격하게 증가하는 데이터를 효율적으로 관리하기 위한 방안이 필요한 시점입니다. 인간이 생성하는 데이터 뿐만 아니라 AI가 생성하는 경험적 데이터와 합성 데이터를 모두 포함하여, 향후에는 다양한 유형의 데이터가 생성될 것입니다. 특히 앞으로는 지금까지 존재하는 않았던 새로운 형태나 유형의 다양한 데이터가 출몰할 수 있기 때문에 이를 빠르고 효율적으로 표준화하는 방법이 필요할 수도 있습니다. 또한 엄청나게 증가하는 데이터를 효율적으로 저장하기 위한 기술과 효율적인 데이터 압축과 암호화 기술에 대한 요구도 증가할 것입니다.
앞으로는 데이터를 효율적으로 잘 관리하고 운영한다면 다양한 분야에서 데이터가 제공하는 가치를 활용할 수 있겠지만, 만일 데이터를 효율적으로 관리하지 못한다면 데이터 관리 비용 뿐만 아니라 활용 측면에서 오히려 도움이 되지 않을 수도 있습니다.
데이터 수집과 저장의 효율화, 빠르고 쉬운 데이터 표준화, 고품질의 데이터 확보 등은 데이터 거버넌스 측면에서 지속적으로 고도화하고 강화해 나가야 합니다.
'데이터 관리' 카테고리의 다른 글
| 사내 문서를 AI로 읽고 이해할 수 있도록 하라 (0) | 2025.09.08 |
|---|---|
| 기업 내 문서를 데이터화 하라 (0) | 2025.09.06 |
| 데이터 라벨링으로 AI 모델 성능을 높여라. (0) | 2025.09.04 |
| 딥 데이터(Deep Data) & 다크 데이터(Dark Data) (0) | 2025.08.25 |
| 빅데이터(Big Data) vs. 스몰 데이터(Small Data) (0) | 2025.08.24 |