신종 코로나 사태로 온 세계가 시끄러운 상태에, 확진자 수와 사망자 수가 기계처럼 늘어서 무언가 있나 하고 시끄러운 상태이다. 특히 서울대생 커뮤니티에서 먼저 제기된, 2차함수에 피팅했더니 설명계수(R스퀘어) 값이 1에 가까워서 현실에는 있을수 없는 일이다라는 말이 나오고 있다.
“내일 사망자수 알수 있다?” …중국 신종 코로나 확진자 수 조작 주장 세기
따라서 이 포스팅에서는 파이썬을 이용해, 빠른 시각화와 모델링을 통해 정말 다른 질병과 달리 신종 코로나 바이러스 (우한폐렴) 통계치가 정말 현실적으로 불가능한가에 대해 조사해보도록 한다. 이 글을 쓰는 시점에는 아무런 정치적 성향이나 편향된 생각이 없는 상태이다.
각각의 질병들 모양 확인하기
한번 질병마다 대충의 모양새를 살펴본다. 시각화에 앞서 데이터는 신종코로나는 중국 한정 데이터이며, MERS데이터는 한국만을 대상으로 했다. 메르스의 경우에는 전세계중 확진자수 2위로 특이한 경우라 할수 있다. 에볼라는 전세계 대상이며, 사스도 마찬가지이다.
데이터의 스케일과 발병시기가 각각 달라 표기하기가 힘들지만 확진자 수로 봤을때 분명히 신종코로나가 굉장히 빠른상태로 느는 형태임을 확인할 수 있다. 이를 병마다 각각 추세를 한번 확인해보자.
신종 코로나 (우한폐렴, 23일치 기록)
이제 각 전염병의 증가 추세를 나타내는 그래프를 한번 그려보자.
특징이라면, 그래프가 상당히 매끈한 편이나 이는 어떻게 보면 중국의 NHC가 매일매일 4시와 24시에 두번씩 데이터를 지속적으로 업데이트 하고 있어서 빠지는 구석이나 일자가 없기 때문이다. 실제로, 0~25일까지 지속적인 증가를 확인할 수 있다. 그리고 매일매일의 확진자도 꾸준히 늘어나는 추세이다. 전체적인 치사율은 2%이다.
SARS (95일치 기록)
사스의 경우도 전염병이기 때문에 당연히 늘어나는 추세이지만, 어떤 일자에는 폭발적으로 늘어나고 어떤일자에는 늘어나지 않는 등의 불규칙함이 보인다. 사실 어떻게 보면 조금 더 현실성 있는 데이터일수 있다. 사스의 치사율은 약 10%를 보인다.
EBOLA (258일치 기록)
마찬가지로 그래프는 급격히 우상향 하다가 줄어드는 양상을 보인다. 다만 기록된 일자가 굉장히 많다. 에볼라 바이러스는 무섭게도 치사량이 40%를 기록하고 있는점도 특이한 사항이다. 확진자수가 줄어드는 경우도 있는데, 이는 다시 음성으로 재분류한 경우로 보인다.
MERS (한국한정, 42일치 기록)
메르스의 경우에도 마찬가지의 그래프를 띈다. 처음에는 급격한 상승이 이뤄지다가 나중에는 잦아드는 형태로 기록되어 있다. 한국을 한정으로 했음에도 불구하고, 우리나라가 선진국으로 분류가 됨에도 불구하고 치사율은 20%선으로 굉장히 높다. 이는 세계 2위로 방역 시스템의 결함을 인정할수 밖에 없는 굉장히 아쉬운 순간이다.
왜 신종 코로나의 데이터가 균질한가?
이 현상에 대한 설명은 아래와 같이 가정해볼 수 있다.
- 직접 전수조사 하는것이 불가능하여 통계적인 방법을 이용해 근사한 값으로 후보정한다. (통계가 외부 정치적 영향을 받게 될수 있음)
- 다른 질병과 비교했을때, 확진을 내리는 기관이 통일되어 있으며 매일매일 업데이트가 수시로 되고 있다. 또한 모수가 굉장히 많은 대신 측정하는 기관이 통일되어 있다.
같은 시기의 일자를 고정시켰을때의 분석
분명 time window가 굉장히 긴 이미 지나가버린 전염병을 대상으로 신종코로나를 비교하는것은 애매한 부분이 있다. 이럴 경우에는 현재 코로나가 지니고 있는 window를 살펴보고 비슷한 시기로 한정해서 봐야한다.
SARS (windows size 25)
EBOLA (window size 25)
MERS (한국한정 window size 25)
대체로 모든 전염병에 대해서 25일을 window로 보았을때는 모든 그래프가 눈으로 봐도 어느정도는 평평해진것을 확인할수 있다. 이제 다시한번 신종 코로나의 중국 전염 상태를 확인해본다.
분명히 다른 그래프보다는 훨씬 좀더 매끈해 보이기는 하지만, 너무 짧은 시간단위로 측정하기 때문에 이를 가지고 조작이라고 하기는 조금 무리가 있어 보인다
다른 전염병도 마찬가지로 좀더 짧은 일자를 대상으로 그래프를 그려보면 눈에 보이는 패턴이 항상 존재한다.
데이터의 결측치
day로 환산을 하였으나, 신종코로나를 제외한 다른 전염병들은 중간중간 빠진 결측치가 분명 존재한다. 하루가 비면 그래프의 연속성이 떨어질수 밖에 없다. 따라서 다른 질병들은 대체로 그래프의 연속성이 신종코로나보다는 듬성듬성할수 있다.
SARS의 경우 5%가 하루 확진자가 없었으며, EBOLA는 데이터의 16%가, MERS의 경우 33%가 하루 확진자 늘어나지 않는 데이터이다. 연속성이 끊어질수 있다.
에볼라의 경우 대부분의 수집 시간 차이는 이틀에서 삼일정도가 있다. 이는 데이터의 연속성에 또한 악영향을 미친다.
몇가지 궁금점
- 분명 그래프가 뭔가 굉장히 정제되어 보이지만, 이미 숫자자체가 확진자 수 증가로만 보면 그 어떤 전염병보다도 창궐하는 중이다. 이를 통제하려 했다면 중국정부는 더 낮은숫자로 통제하여야 하지 않았을까?
- 다른나라에서 발생한 사망자수는 홍콩을 제외하고 0이다. 높은 전염력에 비해 낮은 치사율을 기록하는것이 다른나라에서도 증명이 되는 중이다. MERS의 경우 우리나라에서 굉장히 높은 치사율을 보였다. 그러나 코로나는 0%다. 중국이 기록한 2%는 현재 상황에서 충분히 높아보인다. 만약 중국이 조작을 하려했다면 더 낮은숫자로 하지 않았을까?
- 아직 모여진 데이터가 적고, 중국 NHC는 하루에 두번씩 정기적으로 질병 상태를 기록하고 있다. 다른 질병보다 훨씬 기록자체는 잘 이뤄지는것으로 보인다. 다만 이 기록자체가 어떤식으로 기록되는가? 어떻게 정시에 업데이트가 꼬박꼬박 될수있을까?
데이터 파일 및 출처
일단 본 포스팅을 위해 데이터를 하나하나 모았습니다.
- nCOV (신종코로나) : 중국의 National Health Commision
- EBOLA : OCHA HDX 에서 2차 인용된 Kaggle Dataset
- MERS-KOR : 2015 Middle East respiratory syndrome outbreak in South Korea
- SARS : Cumulative Number of Reported Probable Cases of Severe Acute Respiratory Syncdrome (SARS), Kaggle Dataset
안녕하세요 ~~~ 질병 데이터로 분석을 해보고 싶어서
괜찮으시면 데이터를 얻을 수 있을까요 ? [email protected] >> 감사합니다.
좋은 글 잘 읽고 갑니다.
데이터가 너무 예전이라 최신것이 없어서 사실 의미가 없습니다~ ㅜ