Xóa tan sự nhầm lẫn giữa tương quan và nguyên nhân 

Đây là một mẩu tin lịch sử mà bạn có thể không biết. Giữa những năm 1860 và 1940, khi số lượng bộ trưởng Phương pháp sống ở New England tăng lên, số lượng rượu rum Cuba được nhập khẩu vào Boston cũng tăng theo - và cả hai đều tăng theo cách cực kỳ giống nhau. Vì vậy, các bộ trưởng Phương pháp phải mua rất nhiều rượu rum trong khoảng thời gian đó!

Trên thực tế không, đó là một kết luận ngớ ngẩn để rút ra. Điều thực sự đang diễn ra là cả hai số lượng - các bộ trưởng Phương pháp và rượu rum Cuba - đã được thúc đẩy bởi các yếu tố khác, chẳng hạn như sự gia tăng dân số.

Để đưa ra kết luận không chính xác đó, chúng tôi đã phạm phải sai lầm quá phổ biến của mối tương quan khó hiểu với quan hệ nhân quả.

Có gì khác biệt?

Hai số lượng được cho là quan hệ  nếu cả hai tăng và giảm cùng nhau (thì có mối tương quan tích cực với nhau), hoặc nếu tăng khi cái kia giảm và ngược lại (có nghĩa là tương quan tiêu cực).

Tương quan dễ dàng được phát hiện thông qua các phép đo thống kê của Hệ số tương quan của Pearson, biểu thị mức độ gắn kết chặt chẽ của hai đại lượng, từ -1 (tương quan hoàn toàn tiêu cực) đến 0 (hoàn toàn không tương quan) và lên đến 1 (tương quan hoàn toàn tích cực).


đồ họa đăng ký nội tâm


 quan hệ nhân quả1tylervigen.com

Nhưng chỉ vì hai đại lượng tương quan không nhất thiết có nghĩa là một trực tiếp gây ra người khác thay đổi. Sự tương quan nào không bao hàm nhân quả, giống như thời tiết nhiều mây không ngụ ý lượng mưa, mặc dù điều ngược lại là đúng.

Nếu hai đại lượng tương quan thì đó cũng có thể có mối quan hệ nguyên nhân và kết quả thực sự (chẳng hạn như lượng mưa và doanh số ô), nhưng có thể các biến số khác đang thúc đẩy cả hai (như số cướp biển và sự nóng lên toàn cầu), hoặc có lẽ đó chỉ là sự trùng hợp (chẳng hạn như Tiêu thụ phô mai Hoa Kỳ và siết cổ-by-bedsheet).

Ngay cả khi có nguyên nhân, chúng ta phải cẩn thận không trộn lẫn nguyên nhân với hiệu ứng, nếu không chúng ta có thể kết luận, ví dụ, việc sử dụng máy sưởi tăng lên gây ra thời tiết lạnh hơn.

Để thiết lập nhân quả, chúng ta cần vượt ra ngoài các số liệu thống kê và tìm kiếm bằng chứng riêng biệt (có tính chất khoa học hoặc lịch sử) và lý luận logic. Sự tương quan có thể khiến chúng ta phải tìm kiếm bằng chứng như vậy ngay từ đầu, nhưng nó không có nghĩa là một bằng chứng theo đúng nghĩa của nó.

Các vấn đề tinh tế

Mặc dù các ví dụ trên rõ ràng là ngớ ngẩn, nhưng mối tương quan rất thường bị nhầm lẫn với quan hệ nhân quả theo những cách không rõ ràng ngay lập tức trong thế giới thực. Khi đọc và giải thích số liệu thống kê, người ta phải hết sức hiểu chính xác dữ liệu và số liệu thống kê của nó là gì - và quan trọng hơn, chúng là gì không ngụ ý.

 quan hệ nhân quả2

Một ví dụ gần đây về sự cần thiết phải thận trọng trong việc diễn giải dữ liệu là sự phấn khích đầu năm nay xung quanh sự đột phá rõ ràng phát hiện sóng hấp dẫn - một thông báo dường như đã được đưa ra sinh non, trước khi tất cả các biến ảnh hưởng đến dữ liệu được tính đến.

Thật không may, phân tích số liệu thống kê, xác suất và rủi ro không phải là một kỹ năng được kết nối với chúng tôi trực giác của con ngườivà như vậy là quá dễ dàng để bị dẫn dắt lạc lối. Toàn bộ sách đã được viết trên những cách tinh tế trong đó số liệu thống kê có thể bị hiểu sai (hoặc được sử dụng để đánh lừa). Để giúp bạn cảnh giác, đây là một số vấn đề thống kê trơn trượt phổ biến mà bạn cần lưu ý:

1) Hiệu ứng Công nhân khỏe mạnh, trong đó đôi khi hai nhóm không thể được so sánh trực tiếp trên một sân chơi bình đẳng.

Hãy xem xét một nghiên cứu giả thuyết so sánh sức khỏe của một nhóm nhân viên văn phòng với sức khỏe của một nhóm phi hành gia. Nếu nghiên cứu cho thấy không có sự khác biệt đáng kể giữa hai - không có mối tương quan giữa sức khỏe và môi trường làm việc - chúng ta có thể kết luận rằng sống và làm việc trong không gian không có rủi ro sức khỏe lâu dài cho các phi hành gia?

Không! Các nhóm không cùng quan điểm: các ứng viên sàng lọc phi hành gia tìm kiếm các ứng cử viên khỏe mạnh, sau đó duy trì chế độ tập thể dục toàn diện để chủ động chống lại các tác động của việc sống trong cuộc sống siêu vi trọng lực.

Do đó, chúng tôi hy vọng họ sẽ khỏe mạnh hơn đáng kể so với nhân viên văn phòng, và nên quan tâm đúng mức nếu họ không.

2) Phân loại và Hiệu ứng di chuyển giai đoạn - xáo trộn mọi người giữa các nhóm có thể có tác động lớn đến kết quả thống kê.

Điều này còn được gọi là Will Rogers có hiệu lực, sau khi diễn viên hài người Mỹ đã châm biếm:

Khi Okies rời Oklahoma và chuyển đến California, họ đã nâng mức độ tình báo trung bình ở cả hai tiểu bang.

Để minh họa, hãy tưởng tượng chia một nhóm bạn lớn thành một nhóm ngắn ngắn và một nhóm người cao (có lẽ để sắp xếp họ cho một bức ảnh). Làm như vậy, thật dễ dàng để tăng chiều cao trung bình của cả hai nhóm cùng một lúc.

Đơn giản chỉ cần yêu cầu người thấp nhất trong nhóm người cao cấp của Google chuyển sang nhóm người ngắn. Nhóm người cao tuổi của họ mất thành viên ngắn nhất của họ, do đó tăng chiều cao trung bình của họ - nhưng nhóm ngắn Short có được thành viên cao nhất của họ, và do đó cũng tăng chiều cao trung bình.

Điều này có ý nghĩa chính trong các nghiên cứu y học, trong đó bệnh nhân thường được sắp xếp vào các nhóm lành mạnh, hay lành mạnh, trong quá trình thử nghiệm một phương pháp điều trị mới. Nếu các phương pháp chẩn đoán cải thiện, một số bệnh nhân rất không khỏe mạnh có thể được phân loại lại - dẫn đến kết quả sức khỏe của cả hai nhóm được cải thiện, bất kể việc điều trị có hiệu quả (hoặc không) như thế nào.

 quan hệ nhân quả3Chọn và chọn trong số các dữ liệu có thể dẫn đến kết luận sai. Những người hoài nghi nhìn thấy thời gian làm mát (màu xanh) khi dữ liệu thực sự cho thấy sự nóng lên lâu dài (màu xanh lá cây). hoài nghi.com 

3) Khai thác dữ liệu - khi có nhiều dữ liệu, các bit và mảnh có thể được chọn để hỗ trợ cho bất kỳ kết luận mong muốn nào.

Đây là thực tế thống kê xấu, nhưng nếu cố tình làm có thể khó phát hiện mà không có kiến ​​thức về bộ dữ liệu gốc, đầy đủ.

Ví dụ, xem xét biểu đồ cho thấy hai cách hiểu về dữ liệu nóng lên toàn cầu. Hoặc fluoride - với số lượng nhỏ, đây là một trong những loại thuốc phòng ngừa hiệu quả nhất trong lịch sử, nhưng tác dụng tích cực sẽ biến mất hoàn toàn nếu người ta chỉ xem xét lượng fluoride độc ​​hại.

Vì những lý do tương tự, điều quan trọng là các quy trình cho một thử nghiệm thống kê nhất định được cố định tại chỗ trước khi thử nghiệm bắt đầu và sau đó không thay đổi cho đến khi thử nghiệm kết thúc.

4) Phân cụm - được dự kiến ​​ngay cả trong dữ liệu hoàn toàn ngẫu nhiên.

Hãy xem xét một nghiên cứu y khoa xem xét cách một bệnh cụ thể, chẳng hạn như ung thư hoặc Bệnh đa xơ cứng, là phân bố theo địa lý. Nếu bệnh tấn công ngẫu nhiên (và môi trường không có tác dụng), chúng ta sẽ thấy nhiều nhóm bệnh nhân là chuyện đương nhiên. Nếu bệnh nhân được trải đều một cách hoàn hảo, sự phân phối sẽ thực sự không ngẫu nhiên!

Vì vậy, sự hiện diện của một cụm đơn, hoặc một số cụm trường hợp nhỏ, là hoàn toàn bình thường. Các phương pháp thống kê tinh vi là cần thiết để xác định chỉ cần phân cụm bao nhiêu để suy ra rằng một cái gì đó trong khu vực đó có thể gây ra bệnh.

Thật không may, bất kỳ cụm nào - ngay cả một cụm không quan trọng - làm cho một tiêu đề tin tức dễ dàng (và thoạt nhìn, hấp dẫn).

 quan hệ nhân quả4

Phân tích thống kê, giống như bất kỳ công cụ mạnh mẽ nào khác, phải được sử dụng rất cẩn thận - và đặc biệt, người ta phải luôn cẩn thận khi đưa ra kết luận dựa trên thực tế là hai đại lượng có tương quan.

Thay vào đó, chúng ta phải luôn nhấn mạnh vào các bằng chứng riêng biệt để tranh luận về nguyên nhân và kết quả - và bằng chứng đó sẽ không xuất hiện dưới dạng một con số thống kê duy nhất.

Có vẻ tương quan hấp dẫn, nói giữa các gen đã cho và tâm thần phân liệt hoặc giữa một chế độ ăn nhiều chất béo và bệnh tim, có thể dựa trên phương pháp rất đáng ngờ.

Chúng tôi có lẽ là một loài bệnh nhận thức được chuẩn bị để đối phó với những vấn đề này. Là nhà giáo dục Canada Kieran Egan đặt nó trong cuốn sách của mình Bắt nó sai từ đầu:

Tin xấu là sự tiến hóa của chúng tôi đã trang bị cho chúng tôi sống trong những xã hội nhỏ, ổn định, săn bắn hái lượm. Chúng ta là người Pleistocene, nhưng bộ não suy yếu của chúng ta đã tạo ra những xã hội rộng lớn, đa văn hóa, tinh vi về công nghệ và thay đổi nhanh chóng để chúng ta sinh sống.

Kết quả là, chúng ta phải liên tục chống lại sự cám dỗ để thấy ý nghĩa trong cơ hội và nhầm lẫn giữa mối tương quan và nguyên nhân.Conversation

Bài viết này ban đầu được xuất bản vào Conversation
Đọc ban đầu bài viết.


Về các tác giả

Borwein jonathanJonathan Borwein (Jon) là giáo sư toán học Laureate tại Đại học Newcastle. Ông là Giáo sư toán học tại Đại học Newcastle và Giám đốc Trung tâm Toán học Nghiên cứu Hỗ trợ Máy tính và Ứng dụng (CARMA). Ông đã làm việc tại các trường đại học Carnegie-Melon, Dalhousie, Simon Fraser và Waterloo và đã giữ hai Ghế nghiên cứu Canada về điện toán.

hoa hồngMichael Rose là một ứng cử viên tiến sĩ, Trường Khoa học Toán học và Vật lý tại Đại học Newcastle. Nghiên cứu sinh tiến sĩ dưới sự giám sát của Laureate Giáo sư Jon Borwein tại Đại học Newcastle, Úc. Hiện đang hỗ trợ nghiên cứu ứng dụng toán học fractal để mô hình hóa các phân phối synap não.

Tuyên bố công khai: Các tác giả không làm việc, tham khảo ý kiến, sở hữu cổ phần trong hoặc nhận tài trợ từ bất kỳ công ty hoặc tổ chức nào sẽ được hưởng lợi từ bài viết này. Họ cũng không có liên kết liên quan.


Sách giới thiệu:

Tiền bạc, tình dục, chiến tranh, nghiệp chướng: Những ghi chú cho một cuộc cách mạng Phật giáo
của David R. Loy.

Tiền bạc, tình dục, chiến tranh, nghiệp chướng: Những ghi chú cho một cuộc cách mạng Phật giáo của David R. Loy.David Loy đã trở thành một trong những người ủng hộ quyền lực nhất của thế giới quan Phật giáo, giải thích không giống ai khả năng biến đổi cảnh quan xã hội chính trị của thế giới hiện đại. Trong Tiền, Tình dục, Chiến tranh, Nghiệp chướng, ông đưa ra những bài thuyết trình rõ ràng và thậm chí gây sốc về những yếu tố Phật giáo bị hiểu lầm - công việc của nghiệp, bản chất của bản thân, nguyên nhân của rắc rối ở cả cấp độ cá nhân và xã hội - và những lý do thực sự đằng sau ý thức tập thể của chúng ta "không bao giờ đủ , "Cho dù đó là thời gian, tiền bạc, tình dục, an ninh ... thậm chí là chiến tranh. "Cách mạng Phật giáo" của David không gì khác hơn là một sự thay đổi căn bản trong cách chúng ta có thể tiếp cận cuộc sống, hành tinh của chúng ta, những ảo tưởng tập thể tràn ngập ngôn ngữ, văn hóa và thậm chí cả tâm linh của chúng ta.

Bấm vào đây để biết thêm thông tin và / hoặc đặt mua cuốn sách này trên Amazon.