[세종=뉴시스]박광온 기자 = 정부가 인공지능(AI)이 공신력 있는 공식 통계를 직접 활용할 수 있도록 하는 ‘AI 친화형 메타데이터’ 체계 구축에 본격 나선다.
지금처럼 AI가 뉴스 기사나 블로그, 보고서 등 2차 출처에 의존해 부정확한 수치를 내놓는 문제를 근본적으로 해결하겠다는 취지다.
4일 뉴시스 취재를 종합하면, 통계청은 2025년부터 2029년까지 총 1723억원을 투입해 통계청 승인통계를 중심으로 한 ‘통계정보 플랫폼 및 원포털’ 사업을 추진한다.
이 사업은 기존의 노후화된 통계 시스템을 클라우드 기반으로 전면 재구축하고, 분산된 통계 데이터를 한 곳으로 통합해 보다 쉽고 효율적으로 검색·연계·분석할 수 있도록 하는 것이 핵심이다. 일종의 통계 허브를 만드는 것이다.
특히 이 중 약 100억원을 AI가 데이터를 이해하고 활용할 수 있도록 하는 ‘메타데이터 기반 구축’에 투입할 계획이다. 이를 통해 AI가 통계청 데이터에 직접 접근하고 정확한 정보를 분석·제공할 수 있는 환경을 조성하겠다는 것이다.
이는 AI가 ‘출처 불명’ 통계를 인용해 잘못된 정보를 제시하는 경우가 늘면서, 통계 왜곡에 따른 사회적 혼란과 정책 오남용 우려가 커졌기 때문이다.
세계은행 실험사례에 따르면, AI가 각국 청년 실업률을 묻는 질문에 대해 공신력 있는 출처가 아닌 뉴스나 블로그 등을 인용하면서 수치가 일관되지 않거나 단위가 불명확한 오류가 발생한 바 있다.
실제 인도네시아 청년 실업률에 관해 AI는 11.9~16.3%까지 다양한 답변을 제시했지만, 공식 수치는 13.1%였다. 태국 청년 실업률에 대해서도 공식 수치는 4.5%였지만, AI는 5.2%나 6.0% 등 부정확한 답변을 내놨다.
이런 문제를 방지하려면 AI가 신뢰도 높은 공식 데이터에 접근할 수 있도록 하는 기반 조성이 시급하다는 게 정부의 판단이다.
이선희 통계청 통계서비스혁신추진단 과장은 뉴시스와의 통화에서 “AI가 통계청 데이터베이스(DB)에 접근하는 방법과 경로를 설명서 형태로 제공함으로써, AI가 필요한 데이터를 직접 찾아가서 활용할 수 있게 되는 것이 이번 사업의 핵심”이라고 설명했다.
메타데이터는 흔히 ‘데이터를 설명하는 데이터’로 불린다. 통계 수치 자체만으로는 ‘무엇을, 어떻게, 언제 측정했는지’ 등의 통계 사용 맥락이 부족한데, 메타데이터는 이런 정보를 덧붙여 데이터를 찾고 해석하는 데 필수적인 역할을 한다.
이번 사업에서 구축하는 ‘AI 친화형 메타데이터’는 사람이 아닌 AI가 이해할 수 있는 형식으로 표준화된 설명서다. AI가 이 설명서를 바탕으로 정확한 경로를 따라 통계청 DB에 접근하게 되는 구조다.
예를 들어 실업률 같은 지표를 AI에 물으면 지금은 각종 웹문서에서 수집한 수치를 제시하지만, 이 사업이 완료되면 AI가 설명서를 익혀 통계청의 공식 DB에서 실시간으로 정확한 수치를 가져다 쓸 수 있다는 것이다.
이선희 과장은 “AI는 아주 똑똑한 박사급 인재와 같지만, 공식 DB에 어떻게 접근해야 할지 방법을 모른다”며 “우리는 그 ‘사용법’을 AI에 알려주겠다는 것”이라고 부연했다.
통계청은 올해 하반기 예비타당성조사(예타) 통과를 목표로 하고 있으며, 7월 재정평가심의위원회에서 심의가 진행될 예정이다.
이후 2026년까지는 정보시스템 마스터플랜 수립과 사전 연구를 거쳐, 2027년부터 본격적인 시스템 구축에 나설 계획이다.
◎공감언론 뉴시스 lighton@newsis.com