본문 바로가기

데이터 관리

사내 문서를 AI로 읽고 이해할 수 있도록 하라

반응형

기업 내부에는 테이블 형태의 정형 데이터 이외에도 파일 형태의 수많은 문서들이 있습니다. 특히 문서의 경우 업무와 관련된 지식과 노하우, 전략 등이 많이 포함되어 있습니다. 즉 문서 자체만으로도 기업의 자산이라고 할 수 있습니다. 하지만 이런 문서들을 제대로 활용하기가 굉장히 힘든 것이 현실입니다. 개인별 업무 PC에 있는 다양한 버전의 문서를 하나로 통합하여 관리하는 것도 어렵지만, 이 문서의 내용을 빠르게 검색하고 확인하는 것은 더욱 어렵습니다. 특히 AI 모델이 이런 문서 정보를 활용하기 위해서는 AI 모델이 이해할 수 있는 수준으로 관리되어야 합니다.

기업내 문서정보의 DB화 및 메타관리 (생성형 AI 활용 - Gemini)

문서 정보의 DB화

AI 모델이 문서 정보를 제대로 활용하기 위해서는 문서 내의 문자를 인식하고, 관련된 핵심정보를 추출하는 것이 중요합니다. 이를 위해서는 파일 형태로 저장된 문서를 정제한 후 자동검출 할 수 있는 형태로 변환하는 작업이 필요합니다. 또한 동일한 문서를 기반으로 내용이 추가 또는 수정된 경우 변경점 관리도 중요합니다. 

파일 형태의 문서정보를 AI 모델이 이해 가능한 형태로 변경하기 위해서는 크게 구조 파악(DLA: Document Layout Analysis), 파싱(Parsing), 청킹(Chunking)의 단계를 거칩니다.
먼저 구조 파악은 문서 내에서 텍스트, 이미지, 표 등을 구분해 내는 과정입니다. 이렇게 DLA를 거치고 나면 파싱을 통해 텍스트, 이미지, 표에서 정보를 추출해 냅니다. 텍스트 정보의 경우 텍스트 추출 후 전처리 및 요약을 하고, 필요한 경우 벡터화까지 진행합니다. 표의 경우 행과 열의 정보를 추출하는데, 이를 위해 AI를 활용하기도 합니다. 이미지 정보의 경우 OCR(Optical Character Recognition)을 통해 이미지 내의 텍스트를 추출하고, 또한 객체를 탐지하거나 분할하기도 합니다. 역시 객체 탐지나 분할에 AI가 적용되기도 합니다. 이렇게 파싱된 정보는 청킹 과정을 거치기도 하는데, 청킹은 데이터 활용 목적을 고려하여 진행 여부를 결정하는 것이 좋습니다. 청킹은 문서의 제목, 부제목 등 섹션을 청크로 분리하거나, 주제 또는 키워드를 기반으로 그룹화 하는데 필요합니다. 

위에서 설명한 파일 형태의 문서정보 외에도 Collab이나 Teams 등 사내에서 협업 툴을 사용하는 경우, 이러한 텍스트 정보도 체계적으로 관리해야 합니다. 다만 파일 형태의 문서 정보보다는 AI 활용 관점에서 용이하며, 쉽게 검색하고 추출할 수 있기 때문에 API 등을 활용하여 AI 모델이 잘 활용할 수 있는 관리체계를 적용해야 합니다. 

반응형

문서 데이터의 메타관리

한편으로 문서 내용에 대한 구조화 이외에도 파일 형태의 문서에 대한 메타정보를 관리하는 것도 중요합니다. 실제로 사내의 다양한 문서 파일을 빠르게 검색하고자 하는 요구는 증가하고 있으며, 이를 효과적으로 지원하기 위해서는 파일 단위의 메타정보 관리가 효율적인 대안이 될 수 있습니다. 예를 들어 문서 Naming Rule을 통해 메타정보를 충분히 반영하여 관리하는 것도 간단하지만 유용한 방안이 될 수 있습니다. 추가적으로 해당 문서의 핵심 키워드 뿐만 아니라, 어떤 내용이 있는지를 AI를 활용하여 핵심 내용을 요약하여 제공하는 것도 좋습니다.

기업 또는 조직 내외부 시스템 등을 통해 목적 기반으로 수집되는 데이터 외에도, 사내 업무수행 과정에서 생성되는 파일 형태의 문서나 시스템 상에서 관리되는 텍스트 정보는 사내 지식의 자산화 측면에서 아주 중요한 정보입니다. 따라서 이 정보를 AI 모델을 통해 활용할 수 있다면 기업의 경쟁력을 한 단계 더 높일 수 있을 것입니다. 

반응형