병원 연구데이터는 왜 한 번에 모이지 않을까

연구자는 데이터를 하나의 표로 생각한다

병원 데이터를 활용한 연구를 처음 준비하면 필요한 항목을 정리해 요청하면 하나의 엑셀 파일로 받을 수 있을 것이라고 생각하기 쉽습니다. 환자번호를 기준으로 기본정보, 진단명, 검사결과, 처방, 수술기록을 합치면 연구용 데이터가 완성될 것처럼 보입니다.

하지만 실제 병원 데이터는 처음부터 연구를 위해 한곳에 모여 있는 것이 아닙니다. 환자 기본정보는 원무 시스템에 있고, 검사결과는 진단검사 시스템에 있으며, 처방과 진단은 EMR이나 CDW에 저장됩니다. 수술기록, 영상, 간호기록, 설문자료는 또 다른 시스템이나 부서에서 관리될 수 있습니다.

저도 여러 기관과 연구 데이터를 정리하는 업무를 하면서 처음에는 “필요한 데이터를 한곳에 모으면 되는 것 아닌가”라고 생각했습니다. 그런데 실제로는 데이터를 모으는 것보다 서로 다른 자료가 같은 환자와 같은 시점을 의미하는지 확인하는 일이 훨씬 오래 걸렸습니다. 병원 연구데이터는 흩어진 파일을 합치는 문제가 아니라 서로 다른 기준으로 만들어진 기록을 연구 목적에 맞게 다시 연결하는 문제에 가깝습니다.

같은 단어가 같은 데이터를 뜻하지 않는다

연구자가 사용하는 표현과 병원 시스템의 데이터 항목이 정확히 일치하지 않는 경우가 많습니다. 연구계획서에는 단순히 입원일, 퇴원일, 수술시간, 응급실 체류시간이라고 적을 수 있습니다. 하지만 시스템 안에는 접수시간, 실제 입실시간, 입원결정시간, 병동 이동시간, 퇴실 처리시간처럼 여러 시점이 따로 존재할 수 있습니다.

예를 들어 응급실 체류시간을 계산한다고 해도 시작점을 접수시간으로 볼지 트리아지 시간으로 볼지 결정해야 합니다. 종료점도 입원결정 시점인지 실제 병동으로 이동한 시점인지에 따라 값이 달라집니다. 둘 다 틀린 데이터는 아니지만 연구자가 무엇을 보고 싶은지에 따라 적절한 기준이 달라집니다.

이 때문에 데이터 담당자에게 “응급실 체류시간을 주세요”라고 요청하면 바로 값이 나오는 것이 아니라 어떤 시간을 기준으로 계산할 것인지 다시 논의하게 됩니다. 연구자가 당연하다고 생각한 개념이 데이터베이스에서는 여러 변수로 나뉘어 있는 경우가 많습니다. 저는 연구 초반에 이런 정의를 충분히 맞추지 않으면 데이터를 받고 나서도 같은 이야기를 반복하게 된다는 것을 자주 느꼈습니다.

부서마다 가지고 있는 데이터가 다르다

병원 안의 모든 데이터가 CDW에서 바로 추출되는 것도 아닙니다. 정형화된 진단코드, 처방, 검사값은 비교적 조회가 쉽지만 의무기록 자유서술문, 수술동영상, 설문지, 의료기기에서 생성된 자료는 별도의 저장소에 있을 수 있습니다.

일부 자료는 특정 진료과나 연구자가 자체적으로 관리하기도 합니다. 연구용으로 수집한 설문이나 의료기기 데이터가 개인 컴퓨터나 연구팀 서버에 저장되어 있다면 병원 전체 데이터와 연결하기 위해 추가 절차가 필요합니다. 환자 식별자를 동일하게 사용하지 않았거나 수집 시점이 명확하지 않으면 연결 자체가 어려울 수도 있습니다.

다기관 연구에서는 이런 문제가 더 커집니다. 한 기관에서는 수술명을 세부 코드로 관리하지만 다른 기관은 큰 분류만 가지고 있을 수 있습니다. 같은 검사라도 단위나 정상범위가 다르고, 변수명이 같아도 실제 의미가 다를 수 있습니다. 그래서 데이터를 많이 받는 것보다 기관마다 어떤 방식으로 데이터를 기록하고 있는지 먼저 확인하는 작업이 필요합니다.

여러 엑셀 파일을 환자번호로 합치는 일 자체는 어렵지 않을 수 있습니다. 하지만 기술적으로 합쳐졌다고 해서 연구에 바로 사용할 수 있는 통합 데이터가 되는 것은 아닙니다. 한 환자에게 여러 번 시행된 검사 중 어떤 값을 사용할지, 여러 번 입원한 환자를 한 명으로 볼지 각각의 입원 건으로 볼지 기준을 정해야 합니다.

날짜 기준도 중요합니다. 수술 전 검사라고 했을 때 수술 하루 전 검사인지, 입원 후 수술 전 마지막 검사인지, 30일 이내 가장 가까운 검사인지에 따라 값이 달라집니다. 이런 기준 없이 파일만 합치면 데이터는 많아지지만 어떤 값이 연구질문과 연결되는지 설명하기 어렵습니다.

저는 연구데이터 통합에서 가장 중요한 것이 파일 형식을 맞추는 기술보다 연구자들이 같은 기준에 합의하는 과정이라고 생각합니다. 데이터 담당자가 기술적으로 테이블을 합쳐도 임상적 의미는 연구자가 정해야 합니다. 반대로 연구자가 원하는 개념이 명확해도 실제 시스템에서 구현할 수 있는지 데이터 담당자의 확인이 필요합니다.

데이터 요청 전에 먼저 맞춰야 하는 것

병원 연구데이터를 요청하기 전에는 최소한 연구대상자, 기준시점, 주요 결과변수, 필요한 데이터 영역을 정리해두는 것이 좋습니다. 처음부터 모든 변수를 완벽하게 정의할 필요는 없지만 연구가 어떤 환자를 대상으로 어떤 결과를 보려는지는 설명할 수 있어야 합니다.

변수 목록을 만들 때도 단순히 검사결과, 수술기록, 환자정보라고 적기보다 어느 시점의 어떤 값을 사용할 것인지 적는 편이 좋습니다. 데이터가 어느 시스템이나 부서에 있는지 모른다면 해당 부분도 함께 확인해야 합니다. 이런 과정을 거치면 처음 요청한 데이터와 실제 받은 데이터 사이의 차이가 줄어듭니다.

현장에서는 데이터를 빨리 받는 것이 가장 중요해 보이지만, 저는 오히려 요청 전에 기준을 맞추는 시간이 전체 연구기간을 줄인다고 생각합니다. 기준이 불명확한 상태에서 데이터를 먼저 받으면 연구 중간에 대상자와 변수를 다시 정하고, 데이터를 재요청하고, 분석을 반복하는 일이 생기기 때문입니다.

좋은 데이터는 한 번에 나오지 않는다

병원 연구데이터는 이미 병원 안에 존재하지만, 연구에 바로 사용할 수 있는 모습으로 기다리고 있는 것은 아닙니다. 진료를 위해 만들어진 여러 기록을 연구질문에 맞게 다시 정의하고 연결해야 비로소 연구용 데이터가 됩니다.

그래서 데이터가 한 번에 완성되지 않는 것은 담당자가 일을 못해서라기보다 병원 데이터의 구조 자체가 복잡하기 때문인 경우가 많습니다. 연구자와 데이터 담당자, 임상의, 통계분석자가 여러 번 기준을 확인하는 과정이 필요합니다.

의료 AI 연구에서도 모델을 만드는 시간보다 데이터를 찾고 연결하고 정리하는 시간이 더 길어질 수 있습니다. 결국 좋은 연구데이터는 많은 자료를 한곳에 모은 결과가 아니라, 서로 다른 기록의 의미를 연구 목적에 맞게 정확히 맞춘 결과라고 생각합니다.

※ 본 글은 병원 연구데이터 통합 업무를 경험하며 느낀 내용을 바탕으로 정리한 글입니다. 실제 데이터 제공 및 활용 절차는 기관과 연구유형에 따라 달라질 수 있습니다.

raonnn