Một lý do Một số nghiên cứu khoa học có thể sai

Có một khủng hoảng nhân rộng trong khoa học - tích cực không xác định được tràn ngập các tạp chí nghiên cứu hàng đầu của chúng tôi.

Một dương tính giả là một tuyên bố rằng một hiệu ứng tồn tại khi trong thực tế nó không tồn tại. Không ai biết tỷ lệ các bài báo được công bố có chứa kết quả không chính xác hoặc phóng đại như vậy, nhưng có dấu hiệu cho thấy tỷ lệ không nhỏ.

Nhà dịch tễ học John Ioannidis đã đưa ra lời giải thích tốt nhất cho hiện tượng này trong một bài báo nổi tiếng ở 2005, có tựa đề khiêu khíchTại sao hầu hết các kết quả nghiên cứu được công bố là saiNÓI. Một trong những lý do Ioannidis đưa ra rất nhiều kết quả sai đã được gọi là Látp hack hack, phát sinh từ các nhà nghiên cứu áp lực cảm thấy để đạt được ý nghĩa thống kê.

Ý nghĩa thống kê là gì?

Để rút ra kết luận từ dữ liệu, các nhà nghiên cứu thường dựa vào kiểm tra ý nghĩa. Nói một cách đơn giản, điều này có nghĩa là tính toánp giá trị, đó là xác suất của kết quả như chúng ta nếu thực sự không có hiệu lực. Nếu p giá trị đủ nhỏ, kết quả được tuyên bố là có ý nghĩa thống kê.

Theo truyền thống, một p giá trị nhỏ hơn .05 là tiêu chí có ý nghĩa. Nếu bạn báo cáo một p<.05, người đọc có thể tin rằng bạn đã tìm thấy một hiệu ứng thực sự. Tuy nhiên, có lẽ thực tế không có tác dụng gì và bạn đã báo cáo dương tính giả.


đồ họa đăng ký nội tâm


Nhiều tạp chí sẽ chỉ xuất bản các nghiên cứu có thể báo cáo một hoặc nhiều tác động có ý nghĩa thống kê. Sinh viên tốt nghiệp nhanh chóng học được rằng đạt được huyền thoại p

Áp lực này để đạt được pp hack.

Sự thu hút của p hack

Để minh họa p hack, đây là một ví dụ giả thuyết.

Bruce gần đây đã hoàn thành bằng tiến sĩ và đã giành được một khoản trợ cấp có uy tín để tham gia một trong những nhóm nghiên cứu hàng đầu trong lĩnh vực của mình. Thí nghiệm đầu tiên của anh ta không thành công lắm, nhưng Bruce nhanh chóng hoàn thiện các quy trình và thực hiện một nghiên cứu thứ hai. Điều này có vẻ hứa hẹn hơn, nhưng vẫn không cung cấp cho p giá trị nhỏ hơn .05.

Tin chắc rằng anh ta đang ở một cái gì đó, Bruce thu thập thêm dữ liệu. Anh quyết định bỏ một vài kết quả, trông có vẻ rõ ràng.

Sau đó, ông nhận thấy rằng một trong những biện pháp của mình đưa ra một bức tranh rõ ràng hơn, vì vậy ông tập trung vào đó. Một vài điều chỉnh nữa và Bruce cuối cùng cũng xác định được một hiệu ứng hơi bất ngờ nhưng thực sự thú vị đạt được p

Bruce đã rất cố gắng để tìm ra hiệu ứng mà anh ấy biết đang rình rập đâu đó. Anh cũng cảm thấy áp lực phải đánh. p

Chỉ có một nhược điểm: thực sự không có tác dụng. Mặc dù kết quả có ý nghĩa thống kê, Bruce đã công bố một dương tính giả.

Bruce cảm thấy anh ta đang sử dụng hiểu biết khoa học của mình để tiết lộ hiệu ứng ẩn giấu khi anh ta thực hiện các bước khác nhau sau khi bắt đầu nghiên cứu:

  • Ông thu thập thêm dữ liệu.
  • Anh ta bỏ một số dữ liệu có vẻ kỳ lạ.
  • Ông bỏ một số biện pháp của mình và tập trung vào những triển vọng nhất.
  • Ông đã phân tích dữ liệu một chút khác nhau và thực hiện một số điều chỉnh thêm.

Vấn đề là tất cả những lựa chọn này đã được thực hiện sau khi xem dữ liệu Bruce có thể, trong vô thức, đã say sưa - lựa chọn và điều chỉnh cho đến khi anh ta có được sự khó nắm bắt pp

Các nhà thống kê có một câu nói: nếu bạn tra tấn dữ liệu đủ, họ sẽ thú nhận. Lựa chọn và điều chỉnh được thực hiện sau khi xem dữ liệu là những thực tiễn nghiên cứu đáng ngờ. Sử dụng chúng, cố tình hay không, để đạt được kết quả thống kê đúng là p hack, đó là một lý do quan trọng mà được công bố, kết quả có ý nghĩa thống kê có thể là dương tính giả.

Tỷ lệ kết quả được công bố là sai?

Đây là một câu hỏi hay, và một câu hỏi khó hiểu. Không ai biết câu trả lời, có khả năng là khác nhau trong các lĩnh vực nghiên cứu khác nhau.

Một nỗ lực lớn và ấn tượng để trả lời câu hỏi cho tâm lý học xã hội và nhận thức đã được xuất bản trên 2015. Dẫn đầu bởi Brian Nosek và các đồng nghiệp của ông tại Trung tâm Khoa học mở, Dự án tái tạo: Tâm lý học (RP: P) từng nhóm nghiên cứu 100 trên khắp thế giới thực hiện sao chép cẩn thận một trong những kết quả được công bố của 100. Nhìn chung, đại khái 40 được nhân rộng khá tốt, trong khi trong các trường hợp 60, các nghiên cứu sao chép thu được hiệu ứng nhỏ hơn hoặc nhỏ hơn nhiều.

Các nghiên cứu sao chép 100 RP: P đã báo cáo các hiệu ứng, trung bình, chỉ bằng một nửa kích thước của các hiệu ứng được báo cáo bởi các nghiên cứu ban đầu. Các bản sao được tiến hành cẩn thận có thể đưa ra ước tính chính xác hơn mức có thể p đã hack các nghiên cứu ban đầu, vì vậy chúng tôi có thể kết luận rằng các nghiên cứu ban đầu đã đánh giá quá cao hiệu quả thực sự, trung bình, một yếu tố của hai. Điều đó thật đáng báo động!

Làm sao để tránh p hack

Cách tốt nhất để tránh p hack là để tránh thực hiện bất kỳ lựa chọn hoặc chỉnh sửa sau khi xem dữ liệu. Nói cách khác, tránh thực hành nghiên cứu nghi vấn. Trong hầu hết các trường hợp, cách tốt nhất để làm điều này là sử dụng đăng ký trước.

Việc chuẩn bị trước đòi hỏi bạn phải chuẩn bị trước một kế hoạch nghiên cứu chi tiết, bao gồm phân tích thống kê để áp dụng vào dữ liệu. Sau đó, bạn đăng ký trước kế hoạch, với dấu ngày, tại Khung khoa học mở hoặc một số đăng ký trực tuyến khác.

Sau đó thực hiện nghiên cứu, phân tích dữ liệu theo kế hoạch và báo cáo kết quả, bất kể chúng là gì. Độc giả có thể kiểm tra kế hoạch đã đăng ký trước và do đó hãy tự tin rằng phân tích đã được chỉ định trước, và không p bị hack. Preregistration là một ý tưởng mới đầy thách thức đối với nhiều nhà nghiên cứu, nhưng có khả năng là con đường của tương lai.

Ước tính chứ không phải p giá trị

Sự cám dỗ để p hack là một trong những bất lợi lớn của việc dựa vào p các giá trị. Một cái khác là pthay vì nói một hiệu ứng tồn tại hoặc nó không.

Nhưng thế giới không phải là đen và trắng. Để nhận ra nhiều sắc thái của màu xám, tốt hơn hết là sử dụng ước lượng chứ không phải là p các giá trị. Mục đích với ước tính là ước tính kích thước của hiệu ứng - có thể nhỏ hoặc lớn, bằng 0 hoặc thậm chí âm. Về mặt ước tính, kết quả dương tính giả là ước tính lớn hơn hoặc lớn hơn nhiều so với giá trị thực của hiệu ứng.

Chúng ta hãy nghiên cứu giả thuyết về tác động của trị liệu. Nghiên cứu có thể, ví dụ, ước tính rằng trung bình trị liệu làm giảm sự lo lắng về điểm 7. Giả sử chúng ta tính toán từ dữ liệu của mình khoảng tin cậy - một loạt các yếu tố không chắc chắn ở hai bên trong ước tính tốt nhất của chúng tôi - về [4, 10]. Điều này cho chúng tôi biết rằng ước tính của chúng tôi về 7 rất có thể nằm trong khoảng điểm 3 theo thang điểm lo lắng về hiệu quả thực sự - lượng lợi ích trung bình thực sự của trị liệu.

Nói cách khác, khoảng tin cậy cho biết ước tính của chúng tôi chính xác đến mức nào. Biết một ước tính như vậy và khoảng tin cậy của nó là nhiều thông tin hơn bất kỳ p giá trị.

Tôi đề cập đến ước tính là một trong những số liệu thống kê mới. Bản thân các kỹ thuật không phải là mới, nhưng sử dụng chúng làm cách chính để rút ra kết luận từ dữ liệu đối với nhiều nhà nghiên cứu sẽ là mới, và là một bước tiến lớn. Nó cũng sẽ giúp tránh các biến dạng gây ra bởi p hack.

Giới thiệu về Tác giả

Geoff Cumming, Giáo sư danh dự, Đại học La Trobe

Bài viết này ban đầu được xuất bản vào Conversation. Đọc ban đầu bài viết.

Sách liên quan:

at Thị trường InnerSelf và Amazon