20 anni di sventura?

20 anni di sventura?

  • Bassa potenza statistica + bassa probabilità di baseline = difficile distinguere veri positivi da falsi positivi

Combinato con (da Wikipedia):

  • Solo, siloed investigator limited to small sample sizes
  • No preregistration of hypotheses being tested
  • Post-hoc cherry picking of hypotheses with best P values
  • Only requiring P < .05
  • No replication
  • No data sharing

Science - OSC 2015

Szucs and Ioannidis (2017)

Gelman, la piuma e il canguro

“(…) My best analogy is that they are trying to use a bathroom scale to weigh a feather—and the feather is resting loosely in the pouch of a kangaroo that is vigorously jumping up and down”

Gelman, la piuma e il canguro

“Top journals in psychology routinely publish ridiculous, scientifically implausible claims, justified based on ‘p < 0.05’. Recent examples of such silliness include claimed evidence of extra-sensory perception (published in the Journal of Personality and Social Psychology), claims that women at certain stages of their menstrual cycle were three times more likely to wear red or pink clothing and 20 percentage points more likely to vote for the Democratic or Republican candidate for president (published in Psychological Science), and a claim that people react differently to hurricanes with male and female names (published in the Proceedings of the National Academy of Sciences).”

Gelman, A. (2015). Working through some issues. Royal Statistical Society, 12(3), 33-35. https://doi.org/10.1111/j.1740-9713.2015.00828.x

See also:

Button, K. S., Ioannidis, J. P. A., Mokrysz, C., Nosek, B., Flint, J., Robinson, E. S. J. and Munafo, M. R. (2013). Power failure: Why small sample size undermines the reliability of neuroscience. Nature Reviews Neuroscience, 14(5), 365-376. https://doi.org/10.1038/nrn3475

Simmons, J., Nelson, L. and Simonsohn, U. (2011) False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22(11), 1359–1366. https://doi.org/10.1177/0956797611417632

Che fare?

  • (Valore null results, studi di replica, review & meta-analisi, ecc.)
  • Large-scale collaborations: International multi-lab studies [1, 2, 3]
  • Appropriata power analysis a priori, giustificare sample size per le ipotesi (quali?) [4]
  • Pre-registration e registered reports: trasparenza nel distinguere tra ipotesi e metodi pensati prima vs pensati dopo [5]
  • Data availability: reperimento facile dei dati grezzi quantitativi anonimizzati per 1) rianalisi secondarie (multiverse?); 2) meta-analisi
  • Code availability per 1) totale chiarezza sui metodi; 2) immenso valore educativo, diffusione conoscenza; 3) test error checking 😬, garanzia riproducibilità risultati

Noticina sulla code availability

“Data will be available from the corresponding author upon reasonable request”

😂

Policy reforms?

  • Ripetute indicazioni che pratiche Open Science e trasparenza dovrebbero essere valorizzate nel reclutamento, perfino su espressione della Commissione Europea[1, 2, 3, 4]
  • Temi “Open Science” ampiamente presenti al 1° Congresso CNR su Integrità Ricerca (es. data transparency suggerita tra metodi necessari per valutazione di ricerca e ricercatori in un mondo accademico globalizzato e caotico; cf. E. Bucci su AI-fraud)
  • VQR in IRIS prevedeva campi “Open Access” (almeno AAM obbligata per ricerca finanziata da bandi pubblici) + “Open Science (dati FAIR[5, 6])”

The Times They Are A-Changin’

Hardwicke et al. (2024) results

Opinions on Open Science?

Opinions on Open Science?

— see also: Berkeley Initiative for Transparency in the Social Sciences

Pro e Contro?

• Preregistrazione (e registered reports)

• Open data

• Open code

Pro e contro (veri e soprattutto presunti) possono essere sia sul piano scientifico che su quello personale (e spesso sono in contrasto tra i due piani) → Abbiamo provato a elencarli a questo link

Quanta ne stiamo facendo?

Quanta ne stiamo facendo?

Quanta ne stiamo facendo?

Quanta ne stiamo facendo?

Quanta ne stiamo facendo?

Quanta ne stiamo facendo?

Esempi (nel bene e nel male) 1/2

Esempi (nel bene e nel male) 2/2

Buone prassi 1/2

  • Usare repository adeguata allo scopo (es. PsyArXiv per preprint, OSF registries per preregistrazioni, GitHub se prevale scrittura codice; nota che GitHub può essere connesso e sincronizzato con progetto OSF)

  • In OSF, creare da subito un link anonimizzato per la condivisione e usarlo! Appena diventa possibile, rendere pubblico il progetto!

  • Preparare un ✅ README comprensibile che illustri l’intero contenuto

  • Condividere file in formato accessibile, non proprietario, anche se a volte non “bellissimi” (es. ✅ .txt, ❌ .docx, ✅ .csv, ❌ .xlsx)

  • Favorire software free e open source per consentire riproducibilità (es. ✅ R, ✅ Python)

Buone prassi 2/2

  • In README e paper specificare versioni software e pacchetti (es. “R 4.3.3”, “lme4 1.1.35.1” > packageVersion("lme4"))

  • Nel codice usare path relativi (es. “Data/pisa.csv”) NO assoluti (es. “C:/Users/enrico/documents/…/pisa.csv”)

  • Commentare e indentare tutto il codice (nel dubbio, chiedere a GPT)

  • Best practice ideale: creare e condividere virtual environment (es. R, Python)

Tipi di Dati nella Ricerca

  • Raw Data: Originali, non elaborati - Spesso unici e irriproducibili! - Formato non compresso - Possono includere metadati specifici

  • Processed Data: Digitalizzati (eg., da carta a pc), compressi, tradotti, puliti

  • Analysed Data: Interpretati e analizzati - Varie rappresentazioni (testo, tabelle, grafici)

Data Management Plan

1) Data Summary

  • Scopo della raccolta
  • Tipo/formato di dato raccolto e/o generato
  • Dati riutilizzati?
  • Origine del dato

2) FAIR data

  • Findable: Metadati e identificatori standard
  • Accessible: Disponibile e ottenibile
  • Interoperable: Comprensibile e scambiabile
  • Reusable: Ben descritto, licenze aperte

Creating a data dictionary!

  • Usa un linguaggio comprensibile a tutti
  • Includi contesto su misurazioni e calcoli
  • Spiega codici e abbreviazioni usati
  • Indica valori speciali (es. dati mancanti)

3) Chi fa cosa ?