Scilavinka

<이 글은 Nature Vol. 503 의 Twenty tips for interpreting scientific claims 글을 번역한 글입니다.>


정치적 의사결정 과정에 있어 과학과의 긴밀한 통합을 요구하는 목소리는 지난 수 십년간 있어 왔다. 그러나 여기서의 심각한 문제는, 과학적 배경지식을 요하는 에너지와 건강 그리고 환경에서 교육에 이르는 많은 정책적 문제들에 과학이 혹은 과학자들이 직접적으로 개입되고 있지 않다는데 있다.


이같은 사태를 개선 시킬 수 있는 하나의 제안은 보다 많은 수의 과학자들이 정치에 참여할 수 있도록 그들을 격려하는 것이다. 물론 이 제안은 칭찬 할 만한 제안이지만, 많은 수의 과학자들이 정책결정에 참여할 것을 기대하는 것은 비현실적이다. 여기서 또 다른 제안은, 정치적 과정에서 과학자들의 수와 유용성 그리고 그들의 참여를 증가시키기 위해 수석 과학 고문의 역할을 확대 시켜야 한다는 것이다. 그러나 이 중 어느것도, 수 많은 유권자들이 가지고 있는 과학적 무지에 대한 핵심 문제에 접근하지 못한다.


그렇다면 문득 이런 생각을 해보자. 우리가 정치인들에게 과학을 가르칠 수 있지 않을까? 이것은 매우 매력적인 아이디어 같지만, 어떤 바쁜 정치인이 이 곳에 충분한 시간을 할애 해줄 것인지를 생각해 본다면 그리 매력적인 아이디어 같지는 않다. 실제로, 대부분의 정책 결정권자들은 과학적인 문서나 책들을 결코 읽지 않으며, 그날의 주제와 관련된 연구, 가령 미토콘드리아 대체, 소결핵증 혹은 핵패기물 처리와 관련된 문제들 조차 그들의 고문 혹은 지지자들에 의해 결정되어진다. 


그러나 한 가지 분명한 것은 지금까지 훌륭하게 설계된 과학적 실험들, 가령 대규모 표본 상의 이중맹검법과 무작위 추출, 재현가능성 등을 적용한 실험 결과와 과학이 이끌어 낸 명백한 결론이, 정책적 이슈에 발목을 잡은 일은 거의 없었다는 것이다.


이같은 맥락에서 우리의 최우선 과제는 자연과학에 대한 정책 입안자들의 불완전한 이해를 향상시키는 것이며, 따라서 우리는 이들에게 각 전문가들과 고문을 보다 현명하게 심문하고, 과학적 제한사항과 증거 편향, 용어 등을 이해하는 필수적 능력을 습득하기를 제안한다. 이러한 능력들은 기초과학에 대한 이해를 보다 향상시킬 것이며, 많은 정치인들의 다양한 능력군 중 일부를 형성할 수 있을 것이다.


이를 위해, 우리는 공무원, 정치인, 정치고문 그리고 저널리스트들을 포함하여 과학과 과학자들과 교류하고자하는 모두를 위해 다음의 20가지 개념을 제안한다. 과학에 대한 건전한 회의론을 가진 정치인들은 이같은 비판적 지식 목록들로 무장하는 것을 선호할지도 모른다.


물론 우리는 이러한 제안이 곧바로 향상된 정책 판단으로 이행 될 것이라고 믿을 만큼 순진하지 않다. 우리는 과학적 결정 그 자체가 가치판단적이고, 편견과 맥락이 데이터의 수집과 해석에 필수적이라는 사실을 잘 숙지하고 있다.


우리가 제공하는 것은 의사결정자에게 증거가 어떻게 의사결정에 기여할 수 있는지를 분석하기 위함과, 잠재적으로 기득권을 가진자가 부당한 영향력을 행사하는 것을 방지하기 위한 간단한 아이디어들의 목록이다. 이제 남은 것은 폭 넓은 정치적 과정과 정치인들의 손에 달려있다.


물론, 다른 사람들에겐 약간 다른 목록이 주어질 것이다. 우리의 요점은 사회가 이 20 가지의 개념들을 폭 넓게 이해함으로써 사회적 진보를 이끌어 내고자 하는 것이다.




01. 차이와 우연이 만들어내는 변화


현실은 예측 할 수 없을 만큼 서로 다른 모습을 하고있다. 과학은 일반적으로 우리가 보는 자연의 패턴 원인을 발견한다. 왜 기후는 지난 10년보다 더 더운가? 왜 일부 지역에서는 사람들보다 새들이 더 많이 서식하고 있는가? 이같은 추세에 대한 많은 설명들이 존재하지만, 그 원인을 정확히 확인하는 작업은 결코 순탄하지 않다. 


가령, 기후변화가 조류의 개체수 변화에 미치는 영향을 조사하고자 할 때, 기후변화에 영향을 미치는 수 많은 요소들이 연구자의 연구과정을 괴롭힐 것이다. 이같은 예는 충분히 많다. 농경지의 확대와 천적의 확산에 관한 광범위한 문제나, 출생과 죽음을 결정 짓는 작은 요소들에 대한 문제 등이다.



02. 측정은 정확하지 않다


거의 모든 측정에는 약간의 오차가 있다. 측정 과정이 반복된 경우라면, 한 번은 다른 결과가 기록될 수도 있고, 어떤 경우에는 측정 오류가 실제의 차이에 비해 클 수도 있다. 만일 당신이 지난달에 경제 수치가 0.13% 상승한다는 말을 했었어도, 실재로는 축소 될 가능성이 있을지도 모른다. 이처럼 결과가 부정확한 정확도를 나타내는 것을 방지하기 위해, 관련된 오류들에 대한 적절한 정밀도와 함께 제공되어져야 한다.



03. 편견은 만연해있다


실험 계획 혹은 측정 장비는 일관된 방향으로 비정형적인 결과를 도출해 낼 수 있다. 


예를 들어, 유권자의 투표 행위를 결정하는 요소를 각 인구 비율에 따라 조사하는 경우를 생각해보자. 이때 거리, 자택, 인터넷 상에서의 설문조사 방법으로 통계를 얻고, 이렇게 얻은 각각의 결과들에 대한 정보를 모두 공개한다고 가정해보자. 만일 이 같은 방법으로 통계적 결과를 공개하게 된다면 어떤 정보를 공개하게 될까? 소위 말하는 ‘통계적으로 유의미한’ 결과를 보고한 연구가 더 많이 기록되고 공표될 가능성이 높을 것이다. 때문에 과학 문헌에서의 통계 자료는 언제나 해당 문제 혹은 해결책과 관계된 유효성의 크기를 과장한 그림을 보여주는 경향이있다.


마찬가지로 실험적 결론 역시 기대에 편향된 결과를 도출 할 수도 있다. 한 가지 예로 의약품에 대한 임상 실험의 경우를 생각해보자. 이 경우 나타나는 가장 보편적인 오류 가능성은 피실험자들의 경험이다. 약품을 투여받은 피실험자들은 서로 다른 경험을 얻을 수 있을 것이라고 추정할 지도 모르기 때문에 약품에 대한 효과를 개인적 경험에 따라 서로 다르게 추정하거나 보고할 수도 있다. 이 점은 다시 결과를 수집하는 연구원들이 가지고 있는 피실험자들에 대한 생각, 다시 말해 그들이 어떤 생각과 행동을 보이는지에 대해 모두 알고 있다는 태도가 결과에 영향을 미칠 수 있다.


이 같은 문제들로 인해 고안된 이상적인 실험이 바로 이중맹검 실험이다. 이 실험은 약의 효과를 객관적으로 평가하기 위한 방법으로 증세가 같은 피험자들에게 진짜 약과 가짜 약을 무작위로 주고, 또한 효과를 판정하는 의사에게도 진짜와 가짜를 알리지 아니하고 시험하여 결과를 얻는 방법을 말한다. 물론 이 방법은, 약물 실험에서는 유용하게 적용될 수 있을지 모르지만, 핵패기물 등과 관련한 사회문제에는 적용이 불가능하다.


확인된 편견은 선호하는 이론에 대한 증거를 발견했을 때, 그리고 자신의 결과가 충분히 중요하다고 생각될때 혹은, 반증에 대한 증거 탐색을 멈출 때 발생한다.



04. 표본은 클 수록 좋다


큰 표본으로부터 얻은 평균값은 작은 표본을 사용한 경우보다 훨씬 유익할 것이다. 이처럼 증거를 보다 많이 축적한다면 우리의 지식은 한 층 더 향상 될 것이다. 이것은 연구가 자연변화와 측정오차에 상당히 뒤덮혀있을 때 특히나 중요하다. 즉, 약물 치료의 효과는 피실험자들에 따라 자연히 다를 것이며, 이에 따른 약물의 효과에 대한 결론은 수 백만의 피실험자들 보다 수 천만의 피실험자들을 대상으로 할 경우에 보다 확실하고 정확할 수 있다.



05. 상관관계는 인과관계가 아니다


이것은 하나의 패턴이 무엇인가의 원인이라고 추측하려고 하는 유혹이다. 그러나, 이같은 상관관계는 우연의 일치이거나 세번째 요인에서 기인한 결과 일지도 모른다. 실례로 생태학자들은 강의 하구퇴적지에서 물고기가 죽어있는 현상과 다수의 조류를 목격하고 한번은, 이들의 죽임이 하구퇴적지의 유독한 조류에 의한 것이라고 믿었다. 그러나 조사결과는 이와는 반대로 물고기가 죽은 장소에서 유독성 조류가 성장했던 것으로 조사되었고, 조류는 물고기의 죽음을 일이키는 원인이 되지 않았다는 사실이 밝혀지기도 했다.



06. 비율의 감소는 오해의 소지가 있다


데이터의 극단적인 패턴은 우연이나 오류에 의한 변칙적인 부분일 가능성이 높다. 다음의 예는 이것이 어떤 의미인지를 간접적으로 잘 보여준다. 한 예로 교통사고 빈발 지역에 사고비율을 줄이기 위한 목적으로 이 지역에 과속카메라를 설치했었고, 이때 카메라의 설치 이후 사고발생비율이 감소한 것으로 조사되었다. 그렇다면 이같은 사고비율을 감소는 카메라의 설치에 의한 것일까? 외면적으로는 카메라의 설치가 사고율의 감소를 야기했을 것이라고 추측할 수 있으나, 이같은 감소 추세가 반드시 카메라의 설치에 기인한 것이라고는 볼 수 없었다. 왜냐하면 이같은 감소추세는 카메라의 설치와 무관하게 일어나고 있었기 때문이다.



07. 알려진 사실에 기반하지 않은 추정은 위험하다


정해진 범위 내에서 발견된 패턴은 어떤 경우에도 그 범위 이외엔 적용되지 않는다. 그렇기 때문에 이상기후라는 새로운 변수의 등장과 종의 변화 속도가 기존 종의 진화 역사에서 경험한 것보다 빠르게 관측되고 있는 현재, 기후변화가 생태계에 어떤 영향을 미치는지를 예측하는 것은 매우 어렵다.



08. 확률에 주의하라


조건을 식별하기 위한 불완전한 시험 방법은 해당 조건의 발생 가능성에 의존하는 것이다. 가령, 한 사람이 희귀 질병에 대해 ’99% 정확한’’ 혈액검사에서 양성반응을 얻었다고 해도, 그는 해당 질병을 가지고 있지 않을지도 모른다. 


만일, 10,001명의 사람들이 이 검사를 받는다면, 그 중 한 명은 반드시 양성반응을 받게 될 것이며, 음성반응을 얻은 나머지 1000명에게 다시 검사를 실시하게 된다면 비록 음성반응을 얻었다고 해도 그 중 100명 (1%)은 양성반응이라는 결론을 얻게 될 것이다.


어떤 검진 절차를 고려하더라도 이같은 유형의 계산은 매우 가치있다.



09. 대조는 중요하다


실험에서 대조군은 실험군과 정확히 같은 크기로 나눈다. 대조 없는 실험결과는 주어진 치료의 결과가 정말로 효과가 있었는지를 확인하기 어렵다. 이처럼 대조는 연구자가 실험 결과에 영향을 미치는 어떠한 변수도 없음을 확신할 수 있도록 도와주지만, 때로는 실험 참가한 사람의 개인적인 사정이나 치료를 제공한 사람, 심지어 제공된 약의 색상 때문에 긍정적인 결과를 보고한다.


이같은 실험 방법은 플라시보 없이 진행된 통제된 실험에서 얻은 비교결과의 중요성에 근저를 이루는 방법이다.



10. 무작위 추출은 편견을 방지한다


실험은 각 개인들 또는 그룹 사이에서 가능한 한 무작위적으로 할당해야한다.  


편견에 시달리지 않을 가능성이 높은 부모들이 선택한 아이들의 건강 프로그램으로부터 아이들의 교육적 성취를 비교할 때, 잘 설계된 실험은 프로그램을 받아들인 몇몇 부모들을 무작위적으로 선택하지만, 그렇게 생각하지 않는 사람이 많은 것이 현실이다.



11. 모의응답이 아닌 반복을 원한다


한 연구가 내놓은 결론이 독립된 모집단으로부터 반복적으로 측정 혹은 실험된 연구에 기반하고 있다면, 이 연구의 결론은 하나의 지식으로 고착될 가능성이 있다. 그와 같은 몇몇 실험들의 결과는 체계적인 검토 혹은 개별적 연구들을 상회하는 보다 확실한 통계적 검정력과 함께, 각 주제에 대한 포괄적인 검토를 제공하기 위한 메타분석과 결합되었을 가능성이 있다. 


모집단에 몇몇 개인의 간섭을 적용하면, 아이들은 적용된 간섭이 아닌 다른 것에 의해 특색화될 가능성이 있기 때문에, 실험군으로 선정된 아이들의 학급에서의 주장은 결과를 호도할 수도 있다.


이처럼 같은 특징을 공유하지 않는 많은 수의 아이들로부터 일반화한 결론은, 연구자들을 ‘모의응답’의 실수에 빠져들게 만들지도 모른다.


이처럼 ‘모의응답’은 결과에 대한 부당한 결론을 이끌어낸다.



12. 과학자도 사람이다


과학자들은 일반적으로 연구와 추가 연구자금을 촉진하기 위한 기득권을 가지고 있다. 때문에 이러한 기득권으로부터 직접적인 금전적 이득을 취하기 위해 보고서의 선택적 보고나 과장을 일삼기도 한다. 


동료평가 역시도 확실하지 않다. 단적인 예로 저널 편집자들은 긍정적인 연구결과나 뉴스 가치가 있는 내용에 호의를 보이거나, 증거의 독립된 소스나 반복에 보다 설득력을 가질 수 있다.



13. 통계적 유의도는 중요하다


P라는 문자로 나타내어지는 통계적 유의도는, 연구로부터 얻은 결과가 우연에 의해 일어날 확률의 양을 나타낸 값이다. 가령, 의약품 실험에서 약품의 임상적 효과가 P=0.01라는 것은, 약품의 유요한 효과가 우연에 의해 발생할 것이라고 예상된 수치를 나타내거나, 우연에 의한 효과가 사실상 전혀 없다는 것을 나타내는 것이다. 따라서 일반적으로 과학자들은 자신의 연구 결과에서 P값이 0.05 (1/20) 보다 더 작을 때 이 결과를 중요한 것처럼 보고한다.



14. 비중대성으로부터 오는 독립된 무효과


통계적 유의도가 부족한 결론, 가령 P값이 0.05보다 크다는 결론이 반드시 유의미하지 않은 효과를 나타내는 것은 아니다. 이같은 결론은 결국 아무런 효과도 발견되지 않았다는 것을 의미한다.


작은 연구는 실제 차이를 감지할 수 있는 능력이 없을 수도 있다. 한 예로, 유전자 변이를 통해 해충들로부터 자신을 보호할 수 있는 독소를 생산해 내도록 조작된 목화와 감자 작물 실험들은, 이들 식물들이 꽃가루 매개자와 같은 유익한 곤충들에게는 부정적인 효과를 보이지 않는다고 주장했다. 그러나 과학자들 중 어느 누구도, 유전자 조작된 두 식물이 유익한 곤충들에게 주는 영향을 발견할 만큼 충분한 크기의 큰 표본을 가지고 실험되었는지의 여부에 대해선 어떠한 것도 긍정하지 않았다.



15. 통계적 영향력의 문제들


작은 반응들은 검출될 가능성이 작다. 많은 반복에 의한 실험은 통계적으로 유의미한 결론을 이끌어 낼지도 모르지만, 통계적으로는 작은 영향력을 가지고 있을 지도 모른다. 


통계적 영향력의 중요성은 생물학적, 물리학적 혹은 사회학적 문제가 아닌 통계적인 것이다. 실제로 1990년대, 미국 전염병 학회지의 편집자들은 저자들이 통계자료에서 유의성 검정의 의미 잘못 해석함으로써 생긴 효력없는 혹은 잘못 이해된 공중위생 정책에 대한 권고로 인해, 제출된 원고에서 해당 연구의 통계적 유의도의 이용을 중단할 것을 저자들에게 요구했다.



16. 연구 타당성의 일반화를 제한한다


연구의 타당성은 연구가 완료되는 조건과 검토중인 사안의 조건들이 얼마나 많이 유사한지에 따라 달라진다. 예를 들어, 실험실에서 이루어진 사람의 실험이나 동물로부터 만들 수 있는 일반화에는 한계가 있다는 것을 들 수 있다.



17. 감정은 위험 인식에 영향을 미친다


대체로 위험은 일정 기간동안 발생한 사건의 가능성으로 생각할 수 있으며, 사건 발생이 불러일으킨 결과에 의해서도 크게 증가되어진다.


사람들의 위험 인식은 희귀한 사건을 포함한 다양한 경험, 그들 스스로를 얼마나 믿고 통제하는지, 결과의 반대 그리고 위험이 내부에 의한 것인지의 여부 등에 의해 불균형적으로 영향을 받는다.


직접적인 예로, 미국 사람들은 각 가정이 총기를 보유하고 있다는 사실의 위험성을 100배 가까이 과소평가하고 있으며, 생활속에서의 원자로의 위험성에 대해 10배 가까이 과대평가 하고 있다.



18. 종속성은 위험성을 변화시킨다


이것은 개별적인 사건들의 결과 가령, 극심한 조석간만의 차나 폭우 그리고 근로자 부재 등의 영향을 계산하는 것이 가능하다. 그러나 만일, 폭우가 만조를 일으키거나, 폭우가 노동자들을 현장으로 접근하는 것을 발해하는 것과 같이 각 사건들이 서로 밀접한 관계를 가지고 있다면, 이들의 동시발생확률은 예상되었던 것보다 훨씬 더 높을 것이다.


서브프라임 모기지 가입자들의 채무불이행 가능성이 극도로 낮을 것이라고 전망한 신용평가기관들의 확신은 2008년 금융시장 붕괴의 주요 원인이었다.



19. 데이터는 조작 되거나, 선별되어 질 수 있다


증거는 지지하는 가설에 의해 조작 되어 질 수 있다. 가령, 임신중 요구르트 소비와 이후 자녀의 천식 사이의 분명한 연관성을 설명하기 위해, 저자는 자신이 지지하는 유일한 가설을 검증한 것인지 혹은 거대한 데이터군 전체에 의해 발견된 결과인지의 여부를 알아야 한다.


이와는 대조적으로, 힉스보존에 대한 증거는 일명 ‘한눈 팔기 효과’에 의해 명백히 설명되어진다. 왜냐하면, 연구자들은 힉스입자를 직접 관측한 것이 아닌, 배경효과에 의한 간접적 증거로 찾아낼 수 밖에 없었기 때문이다.


의문에 대한 질문은 이 것이다. ’나는 무엇을 말하지 않는 거지?’



20. 극단적인 측정은 실수의 가능성이 있다


어떤 측정값의 데이터 정렬도 천부적인 재능의 차이 혹은 표본의 추출, 편견, 측정 오류 등으로 인해 가변성을 보여 준다. 그러나, 이때 얻어진 결과 변화는 일반적으로 다른 소스를 무시하거나 타고난 능력의 차이로만 해석되다. 이것은 극단적인 결론을 설명하는 진술이나, 평균 또는 범위를 극단적으로 비교할 때 많은 문제가 된다.


1 ··· 24 25 26 27 28 29 30 31 32 ··· 54