Bagaimana secangkir teh meletakkan fondasi untuk analisis statistik modern

Jika Anda membeli sesuatu menggunakan tautan dalam cerita kami, kami dapat memperoleh komisi. Ini membantu mendukung jurnalisme kami. Pelajari lebih lanjut. Harap pertimbangkan juga Berlangganan ke Wired

Di awal 1920 -an, trio para ilmuwan duduk untuk istirahat di Stasiun Penelitian Pertanian Rothamsted di Hertfordshire, Inggris. Salah satu dari mereka, seorang ahli statistik bernama Ronald Fisher, menuangkan secangkir teh, lalu menawarkannya kepada rekannya, Muriel Bristol, seorang spesialis ganggang yang kemudian memiliki pabrik C. Murrella dinamai menurut namanya. Bristol menolak, karena dia suka memasukkan susu sebelum teh. Fisher skeptis. Tentunya itu tidak masalah? Ya, katanya. Cangkir dengan susu yang dituangkan pertama rasanya lebih enak.

“Mari kita uji dia,” yang terkelupas di ilmuwan ketiga, yang juga merupakan tunangan Bristol. Itu menimbulkan pertanyaan tentang bagaimana menilai kemampuan mencicipinya. Mereka perlu memastikan dia diberi kedua jenis teh, sehingga dia bisa membuat perbandingan yang adil. Mereka menetap untuk menuangkan beberapa cangkir, beberapa teh-then-silk dan lainnya susu-lalu-tea, lalu membuatnya mencobanya satu per satu. Tapi masih ada beberapa masalah. Bristol mungkin mencoba mengantisipasi urutan yang mereka pilih, yang berarti cangkir yang diperlukan untuk tiba dalam urutan yang benar -benar acak. Dan bahkan jika pemesanannya acak, dia mungkin mendapatkan beberapa yang benar secara kebetulan. Jadi perlu ada cangkir yang cukup untuk memastikan ini cukup tidak mungkin.

Fisher menyadari bahwa jika mereka memberinya enam cangkir – tiga dengan susu pertama dan tiga dengan susu kedua – ada 20 cara berbeda mereka dapat dipesan secara acak. Karena itu, jika dia hanya menebak, satu dalam 20 kali dia akan mendapatkan semua enam yang benar. Bagaimana dengan menggunakan delapan cangkir? Dalam situasi ini, Fisher menghitung ada 70 kombinasi yang mungkin, yang berarti ada satu dari 70 – atau 1,4 persen – kemungkinan dia akan mendapatkan urutan yang benar dengan keberuntungan semata. Ini adalah percobaan yang mereka putuskan untuk dijalankan dengan Bristol. Mereka menuangkan delapan cangkir, empat dari masing -masing jenis, dan membuatnya mengujinya secara acak. Dia menamai empat yang dia sukai, dan keempatnya dia tidak suka, kemudian mereka membandingkan kesimpulannya dengan pola sebenarnya. Dia mendapatkan delapan yang benar.

Alasan kesuksesan Bristol pada akhirnya menjadi kimia. Pada tahun 2008, Royal Society of Chemistry melaporkan bahwa teh-then-milk akan memberikan susu rasa yang lebih terbakar. “Jika susu dituangkan ke dalam teh panas, tetes individu terpisah dari sebagian besar susu dan bersentuhan dengan suhu teh yang tinggi untuk waktu yang cukup untuk terjadi denaturasi yang signifikan,” Mereka mencatat. “Ini jauh lebih kecil kemungkinannya terjadi jika air panas ditambahkan ke susu.”

Fisher kemudian menggambarkan percobaan mencicipi teh dalam buku tahun 1935 berjudul Simply Simply Desain Eksperimen. Antara lain, buku ini merangkum teknik -teknik penting yang mereka perintahkan di ruang teh Rothamsted itu. Salah satunya adalah pentingnya pengacakan; Itu tidak akan menjadi ujian yang ketat atas kemampuan Bristol jika pemesanan cangkir entah bagaimana dapat diprediksi. Lain adalah bagaimana sampai pada kesimpulan ilmiah. Resep Statistik Dasar Fisher sederhana: Mulailah dengan teori awal – ia menyebutnya “hipotesis nol” —Ketika mengujinya terhadap data. Di Ruang Teh Rothamsted, hipotesis nol Fisher adalah bahwa Bristol tidak bisa membedakan antara teh-then-milk dan susu-lalu-tea. Keberhasilannya dalam percobaan yang dihasilkan menunjukkan Fisher memiliki alasan yang baik untuk membuang hipotesis nolnya.

Tapi bagaimana jika dia hanya mendapatkan tujuh dari delapan yang benar? Atau enam, atau lima? Apakah itu berarti hipotesis nol itu benar dan dia tidak bisa membedakan sama sekali? Menurut Fisher, jawabannya adalah tidak. “Perlu dicatat bahwa hipotesis nol tidak pernah terbukti atau ditetapkan, tetapi mungkin dibantah, dalam perjalanan eksperimen,” tulisnya kemudian. “Setiap percobaan dapat dikatakan hanya ada untuk memberikan fakta kesempatan untuk membantah hipotesis nol.” Jika Bristol salah satu atau dua, itu tidak berarti dia tidak memiliki kemampuan untuk membedakan urutan susu. Itu hanya berarti percobaan tidak memberikan bukti yang cukup kuat untuk menolak pandangan awal Fisher bahwa itu tidak ada bedanya.

Jika Fisher ingin eksperimen untuk menantang hipotesis nol, ia perlu memutuskan di mana harus mengatur garis. Temuan statistik secara tradisional dianggap “signifikan” jika probabilitas mendapatkan hasil yang ekstrem secara kebetulan (yaitu nilai-p) kurang dari 5 persen. Tetapi mengapa nilai-p 5 persen menjadi ambang yang populer?

Itu datang ke kombinasi hak cipta dan kenyamanan. Dalam makalah 1908, ahli statistik William Sealy Gosset telah menyelidiki bagaimana keacakan dalam data dapat mempengaruhi analisis data, dengan makalah yang berisi halaman tabel statistik tentang pengaruh keacakan. Fisher ingin memanfaatkan penelitian ini, tetapi berhati -hati dalam mengangkat meja yang dilindungi hak cipta secara langsung. Jadi alih-alih dia membingkai ulang mereka, dan menemukan bahwa nilai-p yang cocok untuk menentukan signifikansi statistik yang disarankan oleh pekerjaan-sekitar 4,6 persen-ditentukan dengan rapi dengan beberapa perhitungan yang telah dia lakukan. Mudah untuk membulatkannya hingga 5 persen.

Ketika Muriel Bristol memilih cangkir -cangkir itu, ada peluang 1,4 persen dia akan mendapatkan banyak hal yang benar. Di mata Fisher, ini memberikan bukti “signifikan” bahwa hipotesis nolnya salah. Saat dia Nantinya akan mengatakannyanilai-p di bawah 5 persen berarti “baik peluang yang sangat langka telah terjadi atau teorinya tidak benar.”

Perbandingan statistik yang digunakan dalam percobaan ruang teh itu akan dikenal sebagai “tes eksak Fisher,” tetapi tidak semua orang yakin Fisher mendapatkan pendekatannya dengan benar. Dalam eksperimennya, Fisher tertarik untuk menguji apakah hipotesis nol salah, bukan dalam memutuskan hipotesis mana yang benar. Misalkan Muriel Bristol salah beberapa cangkir. Secara seimbang, haruskah kita menyimpulkan bahwa dia tidak bisa membedakannya? Atau dia bisa? Seperti yang telah kita lihat, Tes Fisher menghindari membuat pilihan dalam situasi ini; itu tidak sampai pada kesimpulan apa pun.

Statistik Jerzy Neyman dan Egon Pearson (putra Karl Pearson, yang pertama kali menciptakan nilai-p) tidak berpikir ini cukup bagus. Jika mereka mulai dengan dua hipotesis – seperti apakah seseorang dapat atau tidak dapat membedakan antara cangkir teh – mereka tidak menginginkan metode yang menolak untuk memilih. Menurut Neyman dan Pearson, para peneliti membutuhkan cara untuk memutuskan hipotesis mana yang harus diterima dan mana yang harus ditolak.

Sikap berbasis keputusan terhadap statistik ini analog dengan pendekatan yang diambil dalam kasus-kasus hukum. Sama seperti keputusan hukum, pendekatan Neyman dan Pearson mengharuskan kita untuk memutuskan beban pembuktian: dihadapkan dengan bukti tertentu, seberapa skeptis seharusnya kita? Jika kita mudah dibujuk, kita akan menerima banyak hipotesis, apakah itu benar atau tidak. Sebaliknya, jika kita menetapkan standar untuk bukti yang sangat tinggi, kita akan membuang sebagian besar hipotesis yang salah, tetapi juga mengabaikan banyak yang benar.

Untuk menangani trade-off ini, Neyman dan Pearson memperkenalkan dua konsep yang akan terus mengganggu statistik siswa: kesalahan tipe I dan tipe II. Kesalahan pertama terjadi ketika kita salah menerima hipotesis palsu; Yang kedua terjadi ketika kita salah menolak hipotesis yang sebenarnya.

Pertimbangkan rasio Blackstone, yang menunjukkan bahwa lebih baik memiliki 10 orang yang bersalah secara keliru dibebaskan daripada memiliki satu orang yang tidak bersalah dipenjara. Intinya, rasionya mengatakan bahwa, ketika datang ke peradilan pidana, kemungkinan kesalahan tipe I harus 10 kali lebih kecil dari kemungkinan kesalahan tipe II. Dalam studi medis, rasio 4 biasanya digunakan sebagai gantinya: ambang populer untuk kesalahan tipe I adalah probabilitas 5 persen (berkat Fisher) tetapi 20 persen untuk kesalahan tipe II. Kami tidak ingin melewatkan perawatan yang berhasil, tetapi kami Sungguh Tidak ingin menyimpulkan bahwa pengobatan berfungsi ketika tidak.

Fisher tidak menerima kritik Neyman dan Pearson dengan baik. Sebagai tanggapan, ia menyebut metode mereka “kekanak -kanakan” dan “akademis yang tidak masuk akal.” Secara khusus, Fisher tidak setuju dengan gagasan memutuskan antara dua hipotesis, daripada menghitung “signifikansi” bukti yang tersedia, seperti yang ia usulkan. Sedangkan keputusan sudah final, tes signifikansinya hanya memberikan pendapat sementara, yang kemudian dapat direvisi. Meski begitu, daya tarik Fisher untuk pikiran ilmiah terbuka agak dirusak oleh desakannya bahwa para peneliti harus menggunakan cutoff 5 persen untuk nilai-p “signifikan”, dan klaimnya bahwa ia akan “mengabaikan sepenuhnya semua hasil yang gagal mencapai level ini.”

Acrimony akan memberi jalan ke ambiguitas puluhan tahun, ketika buku teks secara bertahap mengacaukan pengujian hipotesis nol Fisher dengan pendekatan berbasis keputusan Neyman dan Pearson. Debat yang bernuansa tentang bagaimana menafsirkan bukti, dengan diskusi tentang penalaran statistik dan desain eksperimen, sebaliknya menjadi seperangkat aturan tetap untuk diikuti oleh siswa.

Penelitian ilmiah arus utama akan mengandalkan ambang batas p-value yang sederhana dan keputusan sejati atau false tentang hipotesis. Di dunia yang dipelajari peran ini, efek eksperimental ada atau tidak. Obat -obatan berhasil atau tidak. Tidak akan sampai 1980 -an bahwa jurnal medis utama akhirnya mulai membebaskan kebiasaan ini.

Ironisnya, banyak pergeseran dapat ditelusuri kembali ke gagasan yang diciptakan Neyman pada awal 1930 -an. Dengan ekonomi yang berjuang dalam Depresi Hebat, dia memperhatikan bahwa semakin banyak permintaan akan wawasan statistik tentang kehidupan populasi. Sayangnya, ada sumber daya terbatas yang tersedia bagi pemerintah untuk mempelajari masalah ini. Politisi menginginkan hasil dalam beberapa bulan – atau bahkan berminggu -minggu – dan tidak ada cukup waktu atau uang untuk studi yang komprehensif. Akibatnya, ahli statistik harus bergantung pada pengambilan sampel sebagian kecil dari populasi. Ini adalah kesempatan untuk mengembangkan beberapa ide statistik baru. Misalkan kita ingin memperkirakan nilai tertentu, seperti proporsi populasi yang memiliki anak. Jika kami mencicipi 100 orang dewasa secara acak dan tidak satu pun dari mereka adalah orang tua, apa yang disarankan ini tentang negara secara keseluruhan? Kami tidak dapat mengatakan secara pasti bahwa tidak ada yang memiliki anak, karena jika kami mencicipi kelompok yang berbeda dari 100 orang dewasa, kami mungkin menemukan beberapa orang tua. Karena itu kami membutuhkan cara untuk mengukur seberapa percaya diri kami harus tentang perkiraan kami. Di sinilah inovasi Neyman masuk. Dia menunjukkan bahwa kita dapat menghitung “interval kepercayaan” untuk sampel yang memberi tahu kita seberapa sering kita harus mengharapkan nilai populasi yang sebenarnya terletak dalam kisaran tertentu.

Interval kepercayaan dapat menjadi konsep yang licin, mengingat mereka mengharuskan kita untuk menafsirkan data kehidupan nyata yang nyata dengan membayangkan banyak sampel hipotetis lainnya dikumpulkan. Seperti kesalahan tipe I dan tipe II, interval kepercayaan Neyman menjawab pertanyaan penting, hanya dengan cara yang sering membingungkan siswa dan peneliti. Terlepas dari rintangan konseptual ini, ada nilai dalam memiliki pengukuran yang dapat menangkap ketidakpastian dalam sebuah penelitian. Sering menggoda – terutama dalam media dan politik – untuk fokus pada nilai rata -rata tunggal. Nilai tunggal mungkin terasa lebih percaya diri dan tepat, tetapi pada akhirnya itu adalah kesimpulan ilusi. Dalam beberapa analisis epidemiologis yang menghadap publik, rekan-rekan saya dan karena itu saya telah memilih untuk melaporkan hanya interval kepercayaan, untuk menghindari perhatian yang salah tempat jatuh pada nilai-nilai tertentu.

Sejak 1980-an, jurnal medis lebih fokus pada interval kepercayaan daripada klaim yang mandiri atau false mandiri. Namun, kebiasaan bisa sulit dipatahkan. Hubungan antara interval kepercayaan dan nilai-p tidak membantu. Misalkan hipotesis nol kami adalah bahwa pengobatan tidak memiliki efek. Jika interval kepercayaan 95 persen yang diperkirakan untuk efek tidak mengandung nol, maka nilai-p akan kurang dari 5 persen, dan berdasarkan pendekatan Fisher, kami akan menolak hipotesis nol. Akibatnya, makalah medis seringkali kurang tertarik pada interval ketidakpastian itu sendiri, dan sebaliknya lebih tertarik pada nilai -nilai yang dilakukannya – atau tidak – terus -menerus. Kedokteran mungkin berusaha untuk bergerak melampaui Fisher, tetapi pengaruh cutoff 5 persen sewenang -wenang tetap ada.

Kutipan diadaptasi dari Bukti: Ilmu Kepastian yang tidak pasti, oleh Adam Kucharski. Diterbitkan oleh Buku Profil pada 20 Maret 2025, di Inggris.

Post Views: 50

Read Also