El cebo y el anzuelo en la inferencia

Esta es una traducción al español de la entrada “Inference bait and switch” que publiqué recientemente. La traducí para divertirme y practicar mi segundo idioma. Es mi primer intento de traducir algo tan complejo como esto, entonces lo siento por algún error. Muchas gracias a Patricio Maturana Russel por corregirla.

Cuando me mudé de un departamento de física a uno de estadística, estaba un poco nervioso por la posibilidad de que colisiones de cosmovisiones ocurrieran, y cómo funcionarían. De lo que he oído, la situación ha mejorado mucho por las ultimas décadas. Los bayesianos, frecuentistas, y (lo más común ahora mismo) haz-lo-que-quieras pragmatistas, ya trabajan juntos sin ninguna fricción. Ha pasado una vez que un colega le dijo “bullshit” a toda la inferencia bayesiana durante un discurso de Steven Novella, lo cual fue entretenido, pero no es una experiencia típica.

A pesar de la atmósfera amigable, todavía hay mucho que discutir, y cuando los temas surgen muchas cosas interesantes pueden pasar, tal como la siguiente discusión que tuve hace unas cuantas semanas. Lo he escrito de memoria, y he tratado de representar las opiniones de mi colega honestamente.

COLEGA: Algunas quejas generales acerca de la significación estadística, y umbrales arbitrarios como valores p menores que 0.05, etcétera.

YO: Estoy de acuerdo. Más quejas acerca del hecho de que la gente sigue usando los valores p en primer lugar.

COLEGA: Espera un momento. El problema no es por los valores p en sí, sino por los umbrales arbitrarios, el sesgo en la publicación científica, y todo eso. Los valores p no son para hacer decisiones definitivas.

YO: En tu opinión, ¿cómo se deberían usar los valores p?

COLEGA: Los científicos están interesados en si varios hipótesis sean plausibles o no. Así que hacen experimentos y observaciones para obtener más información. El valor p es una cantidad que mide la fuerza de la evidencia, y los científicos pueden usarlo para ajustar sus actitudes a las hipótesis.

YO: Eso me parece muy bayesiano en espíritu.

COLEGA: Sí, lo sé. Simplemente prefiero los métodos de Fisher, porque son más fáciles y no necesitan tantas entradas.

YO: Estoy de acuerdo técnicamente con la materia de las entradas, pero las respuestas a nuestras preguntas realmente dependen de esas entradas, lo cual es algo que deberíamos reconocer y entender. Opino que los métodos de Fisher son más fáciles sólo porque los enfatizamos demasiado en nuestros programas de estudio. Pero eso es una afirmación empírica que tendríamos que verificar experimentalmente.

COLEGA: Los científicos no están interesados en la inferencia de por sí, como tú, y no les importa que las respuestas dependen de las entradas. Ellos simplemente desean saber más de sus propios temas, como las ballenas, las medicinas, o las galaxias.

YO: Bien. Es cierto. A mí me interesa mucho que podamos medir las masas de agujeros negros usando “reverberation mapping”, por ejemplo. No me importa lo que resulten ser, pero a mis colegas sí. Cada maestrillo tiene su librillo. ¿Pero qué harías tú si hubiera un problema en el que la conclusión bayesiana fuera muy sensible a las distribuciones de probabilidad a priori, y no se pudiera llegar a un acuerdo en una elección sensata para eso? Yo simplemente les presentaría un análisis de sensitividad.

COLEGA: Yo les ofrecería un valor p. Presentar un análisis de sensitividad no serviría para nada excepto confundirlos. Sólo les interesaría a los estadísticos. La única justificación necesitada para dar un valor p es que convenzan a los científicos reales.

Esta fue una conversación muy fascinante para mí, ante todo porque encontramos más puntos en común de lo que había esperado, sin embargo terminó en un punto de desacuerdo fundamental. A los científicos les interesa la plausibilidad de varias hipótesis, y recurren a estadísticos porque somos expertos en esa área. Al descubrir que la plausibilidad de un hipótesis depende de una entrada subjetiva (e.g. “sin saber los datos, ¿cuál sería la plausibilidad de que la medicina funciona igual que un placebo?”), la respuesta adecuada es la divulgación completa, no confundir el temaCambiar a un valor p es como la técnica de publicidad “el cebo y el anzuelo”. El cliente pidió una bicicleta, pero le ofrecemos un monociclo en vez de eso, con la justificación “al menos va a necesitar una sola rueda”.

El hecho que convence a científicos reales es un problema también. Los científicos deberían razonar lógicamente. Si uno cree que una “hipótesis nula” es inverosímil por un valor p bajo, sin pensar en qué tan pequeño es el tamaño del efecto si no es cero, está razonando incorrectamente y perdiendo una oportunidad de aprender.

¿Por qué el resultado depende así de las entradas de esta manera? Si no podemos acordar en lo que deberían ser, ¿dónde estamos permitido buscar más información?
Estas preguntas no son particularmente difíciles, y se volverían más fáciles por el tiempo si pasáramos más tiempo enseñando a nuestros estudiantes acerca de su existencia.

Advertisements

About Brendon J. Brewer

I am a senior lecturer in the Department of Statistics at The University of Auckland. Any opinions expressed here are mine and are not endorsed by my employer.
This entry was posted in Inference. Bookmark the permalink.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s