"Points of Significance"

Esta página del blog está dirigida a traducir y comentar la columna "Points of Significance" de la revista Nature Methods. Esta columna de la revista surge como un intento por presentar temas básicos entorno a estadística y pruebas comúnmente utilizadas que son mal interpretadas, es una columna mensual (a excepción del número de enero, ya que por lo general la revista lo dirige a destacar el método del año).

El propósito de esta traducción es poder ofrecer el acceso a una columna que precisa términos estadísticos y metodológicos en términos sencillos y de forma práctica. Cabe señalar que la revista (Nature Methods) no es una revista de acceso abierto (open access) pero la columna Points of Significance es gratuita, si se da click en cada uno de los meses serán remitidos a la columna original (inglés) en la revista.



"Mayo: pruebas no paramétricas

Martin Krzywinski & Naomi Altman

Nature Methods,11, 467-468 (2014). doi:10.1038/nmeth.2937

Las pruebas no paramétricas comparan con firmeza datos sesgados o en rangos.

Hemos visto que la prueba t es robusta con respecto a los supuestos sobre la normalidad y equivarianza y por lo tanto es ampliamente aplicable. Hay otra clase de métodos -pruebas no paramétricas- más adecuadas para los datos que provienen de distribuciones sesgadas o que tienen una escala discreta u ordinal. Las pruebas no paramétricas, como el signo de Wilcoxon y pruebas de suma de rangos permite relajar los supuestos de distribución y por lo tanto más fácil de justificar, pero tienen un costo y es una menor sensibilidad a causa de menos información inherente a sus supuestos. Para muestras pequeñas, el rendimiento de estas pruebas también se ve limitada debido a que sus valores de p son sólo toscamente muestreados y pueden tener un gran mínimo. Ambas cuestiones son mitigados mediante el uso de muestras más grandes.

Estas pruebas funcionan de manera análoga a sus equivalentes paramétricas: una prueba estadística y su distribución bajo la hipótesis nula se utilizan para asignar importancia a las observaciones. Comparamos en la figura 1 la prueba t para una muestra y un equivalente no paramétrico, la prueba de los signos (aunque existen variantes más sensibles y sofisticados), utilizando una muestra putativa X cuya distribución de código fuente no es posible identificar fácilmente (Fig. 1a). La hipótesis nula de la prueba de los signos es que la mediana de la muestra mX es igual a la mediana propuesta, M = 0,4. La prueba utiliza el número de los valores de la muestra superiores a M como su estadístico de prueba, W —bajo la hipótesis nula se espera ver como muchos valores por debajo de la mediana anterior, con la probabilidad exacta dada por la distribución binomial (Fig. 1c). La mediana es un descriptor más útil que la media para las distribuciones asimétricas e irregulares. La prueba de los signos no hace suposiciones sobre la distribución— la única condición es que los valores deben ser independientes. Si proponemos que la mediana de la población es M = 0,4 y observamos X, encontramos W = 5 (fig. 1b). La probabilidad de observar un valor de W bajo la hipótesis nula es al menos extremo (W ≤ 1 o W ≥ 5) es p = 0,22, utilizando ambos extremos de la distribución binomial (Fig. 1c). Para limitar la prueba a si la mediana de X fue sesgada hacia valores superiores a M, consideraríamos solamente el área para W ≥ 5 en la cola derecha para encontrar p = 0,11.


Figure 1: A sample can be easily tested against a reference value using the sign test without any assumptions about the population distribution. (a) Sample X (n = 6) is tested against a reference M = 0.4. Sample mean is shown with s.d. (sX) and s.e.m. error bars mx is sample median. (b) The t-statistic compares to M in units of s.e.m. The sign test's W is the number of sample values larger than M. (c) Under the null, t follows Student's t-distribution with five degrees of freedom, whereas W is described by the binomial with 6 trials and P = 0.5. Two-tailed P values are shown.
El valor de p de 0,22 de la prueba de los signos es mucho mayor que la de la prueba t (p = 0,04), lo que refleja que la señal de prueba es menos sensible. Esto se debe a que no se ve influida por la distancia real entre los valores de la muestra y M—mide sólo 'cuántos' en vez de 'cuánto'. En consecuencia, se necesitan muestras de mayor tamaño o más evidencia que la que apoya la prueba t. Para el ejemplo de X, para obtener p <0,05 tendríamos que tener todos los valores mayores que M (W = 6). Sus valores de p grandes y la aplicación directa hace que la señal de prueba de un diagnóstico útil. Tomemos, por ejemplo, una situación hipotética ligeramente diferente de la de la Figura 1, donde p > 0,05 se reporta para el caso en el que un tratamiento ha reducido la presión arterial en 6 de 6 sujetos. Usted puede pensar que esto parece inverosímil p grande, y estaríamos en lo cierto porque el escenario equivalente para la prueba de los signos (W = 6, n = 6) da una p de dos colas = 0,03.

Para comparar dos muestras, la prueba de suma de rangos de Wilcoxon es ampliamente utilizada y se refiere a veces como la prueba de Mann-Whitney o de Mann-Whitney-Wilcoxon. Pone a prueba si las muestras proceden de distribuciones con la misma meidana. No asume la normalidad, sino como una prueba de la igualdad de las medianas, requiere dos muestras que ver las distribuciones con la misma forma. La prueba de Wilcoxon es uno de los muchos métodos que reducen el rango dinámico de valores mediante la conversión a sus filas en la lista de valores ordenados agrupados a partir de ambas muestras (Fig. 2a). El estadístico, W, es el grado en el que la suma de filas es mayor que el más bajo posible en la muestra con las filas inferiores (Fig. 2B). Esperamos que una muestra de una población con una mediana más pequeña se convierta en un conjunto de filas más pequeñas.

Figure 2: Many nonparametric tests are based on ranks. (a) Sample comparisons of X vs. Y and X vs. Z start with ranking pooled values and identifying the ranks in the smaller-sized sample (e.g., 1, 3, 4, 5 for Y; 1, 2, 3, 6 for Z). Error bars show sample mean and s.d., and sample medians are shown by vertical dotted lines. (b) The Wilcoxon rank-sum test statistic W is the difference between the sum of ranks and the smallest possible observed sum. (c) For small sample sizes the exact distribution of W can be calculated. For samples of size (6, 4), there are only 210 different rank combinations corresponding to 25 distinct values of W.
Debido a que existe un número finito (210) de las combinaciones de rango-orden para X (ny = 6) y Y (NY = 4), podemos enumerar todos los resultados de la prueba y de forma explícita la construcción de la distribución de W (Fig. 2c) para asignar un valor de p a W. El valor más pequeño de W = 0 se produce cuando todos los valores en una muestra son más pequeños que los de la otra. Cuando todos ellos son más grandes, la estadística alcanza un máximo, W = nXnY = 24. Para X versus Y, W = 3, y hay 14 de 210 resultados de prueba con W ≤ 3 o W ≥ 21. Por lo tanto, pXY = 14 / 210 = 0,067. Para X contra Z, W = 2, y pXZ = 8/210 = 0,038. Para los casos en los que ambas muestras son mayores de 10, W es aproximadamente normal, y podemos obtener el valor de p de una prueba z de (W - mW) / σW, donde mW = n1 (n1+n2+1)/2 y σW = √(μWn2/6).


La capacidad de enumerar todos los resultados de la prueba estadística hace que el cálculo del valor p sea sencillo (1c Figs. y 2c), pero hay una consecuencia importante : habrá un valor de p mínimo, Pmin. Dependiendo del tamaño de las muestras, Pmin puede ser relativamente grande. Para la comparación de muestras de tamaño n X = 6 y nY = 4 (Fig. 2a), Pmin = 1/ 210 = 0.005 para una prueba de una cola, o 0,01 para una prueba de dos colas, que corresponden a W = 0. Por otra parte, porque sólo hay 25 valores distintos de W (Fig. 2c), sólo otros dos valores de p de dos colas son < 0,05: p = 0.02 (W = 1) y P = 0.038 (W = 2). El valor p- siguiente mayor (W = 3) es p = 0,07. Debido a que no hay p con un valor de 0,05, la prueba no se puede configurar para rechazar la hipótesis nula con un error tipo I del 5%. Incluso si ponemos a prueba en α = 0,05, estaremos rechazando la hipótesis nula en la próxima baja P- para un error de tipo I efectivo de 3,8%. Vamos a ver cómo esto afecta al rendimiento de pruebas para muestras pequeñas más adelante. De hecho, incluso puede ser imposible alcanzar significación en α = 0,05 porque hay un número limitado de formas en las que las pequeñas muestras pueden variar en el contexto de filas, y ningún resultado de la prueba pasa menos de 5% del tiempo. Por ejemplo , las muestras de tamaño 4 y 3 ofrecen sólo 35 arreglos de filas y una Pmin dos colas = 2/ 35 = 0,057. Contraste esto con la prueba t, que puede producir cualquier valor p porque la estadística de prueba puede tomar un número infinito de valores.


"Abril: Comparando muestras - Parte II

Martin Krzywinski & Naomi Altman

Nature Methods,11, 355-356 (2014). doi:10.1038/nmeth.2900

Cuando una gran cantidad de pruebas t es realizado, el valor p debe ser interpretado diferente.

Es sorprendente cuando tu mejor amigo se gana la lotería pero no cuando una persona al azar en la ciudad de Nueva York gana. Cuando estamos controlando un gran número de resultados experimentales, si se trata de la expresión de todas las características de un "experimento ómico" o los resultados de todos los experimentos realizados en el curso de la vida de un proyecto, esperamos ver resultados poco frecuentes que ocurren por casualidad. El uso de valores p, que asignan una medida de la rareza de un único resultado experimental, es engañosa cuando se consideran muchos experimentos. En consecuencia, estos valores deben ser ajustados y reinterpretados. Los métodos que logran esto se llaman correcciones de pruebas múltiples. Se discuten los principios básicos de este análisis e ilustramos varios enfoques.

Recordemos la interpretación del valor p obtenido a partir de una prueba t de una sola muestra: la probabilidad de que la prueba podría producir un estadístico al menos tan extremo, suponiendo que la hipótesis nula es verdadera. La significancia es asignada cuando p ≤ α, donde α es la tasa de error de tipo I establecido para controlar los falsos positivos. Aplicando el α = 0,05 convencional, esperamos un 5% de probabilidad de hacer una inferencia de falsos positivos. Esta es la tasa de error por comparación de (PCER).

Cuando desempeñamos una N cantidad de pruebas, esta relativamente pequeña PCER puede resultar en un gran número de inferencias de falsos positivos, αN. Por ejemplo, si N = 10.000, como es común en los análisis que examinan grandes conjuntos de genes, esperamos que 500 genes esten asociados incorrectamente con un efecto para α = 0,05. Si la probabilidad del efecto es del 10% y el poder de prueba es del 80%, vamos a concluir que 1250 genes muestran un efecto, y vamos a tener mal 450 de 1.250 veces. En otras palabras, más o menos 1 de cada 3 'descubrimientos'  es falso. Para los casos en los que la probabilidad del efecto es aún más bajo, nuestra lista de genes importantes estará con numerosos falsos positivos: un 1% la probabilidad de efecto, es de 6 de cada 7 (495 de 575) descubrimientos son falsos. El papel de los métodos de corrección de múltiples ensayos es para mitigar estos problemas —un gran número de falsos positivos y una gran fracción de falsos descubrimientos— mientras idealmente se mantiene un alto poder.

Hay muchos métodos de ajuste; vamos a hablar de los más comunes que ajustan el valor de p. Para ilustrar su efecto, se realizó una simulación de un típico experimento ómico de expresión en el que N genes son la prueba de un efecto entre el control y el tratamiento (Fig. 1a). Se han simulado algunos genes para tener la expresión diferencial con un tamaño del efecto d = 2, lo que corresponde a una potencia de prueba de 80% a α = 0,05. El valor de p para la diferencia en la expresión entre las muestras de control y tratamiento se calculó con una prueba t de dos muestras. Hemos creado conjuntos de datos con N = 10, 100, 1.000 y 10.000 genes y una probabilidad de efecto (porcentaje de genes que tienen un efecto distinto de cero) de 10% y 50% (fig. 1b). Se realizó la simulación 100 veces para cada combinación de N y probabilidad de efecto para reducir la variabilidad en los resultados para ilustrar mejor las tendencias, que se muestran en la Figura 2.

Figure 1: The experimental design of our gene expression simulation. (a) A gene's expression was simulated by a control and treatment sample (n = 5 each) of normally distributed values (μ = 0, σ = 1). For a fraction of genes, an effect size d = 2 (80% power) was simulated by setting μ = 2. (b) Gene data sets were generated for 10% and 50% effect chances. P values were tested at α = 0.05, and inferences were categorized as shown by the color scheme. For each data set and correction method, false positive rate (FPR), false detection rate (FDR) and power were calculated. FNR is the false negative rate.

Figure 2: Family-wise error rate (FWER) methods such as Bonferroni's negatively affect statistical power in comparisons across many tests. False discovery rate (FDR)-based methods such as Benjamini-Hochberg (BH) and Storey's are more sensitive. Bars show false positive rate (FPR), FDR and power for each combination of effect chance and N on the basis of inference counts using P values from the gene expression simulation (Fig. 1) adjusted with different methods (unadjusted (—), Bonferroni, BH and Storey). Storey's method did not provide consistent results for N = 10 because a larger number of tests is needed.

La Figura 1b define medidas útiles del desempeño de un experimento de comparación múltiple. Dependiendo del método de corrección, una o más de estas medidas son priorizadas. La tasa de falsos positivos (FPR) es la probabilidad de inferir un efecto cuando ningún efecto está presente. Sin ajuste del valor p, esperamos FPR para estar cerca de a. La tasa de falso descubrimiento (FDR) es la fracción de inferencias positivas que son falsas. Técnicamente, este término se reserva para el valor esperado de esta fracción sobre todas las muestras —para cualquier muestra dada, se utiliza el porcentaje de falso descubrimiento (FDP), pero o bien se puede utilizar si no hay ambigüedad. De forma análoga a la FDR, la tasa de no descubrimientos falsos (FNR) mide la tasa de error en términos de falsos negativos. Juntos, el FDR y el FNR son los equivalentes de varias de las pruebas de los niveles de error de tipo II y tipo I. Por último, el poder es la fracción de los efectos reales que son detectados. El funcionamiento de los métodos de corrección populares se ilustra con FPR, FDR y el poder en la figura 2.

El método de corrección más simple es de Bonferroni que ajusta los valores de p mediante la multiplicación por el número de pruebas, P '= PN, hasta un valor máximo de P' = 1. Como resultado un valor de p puede perder su significancia en la contexto de múltiples pruebas. Por ejemplo, para N = 10.000 pruebas, una p observada = 0,00001 se ajusta a P '= 0,1. El efecto de esta corrección es controlar la probabilidad de cometer el error tipo I a través de todas las pruebas. La probabilidad de que esto se llame la tasa de error familia de sabios (FWER), y la corrección de Bonferroni asegura que FWER < α.

Los métodos FWER tales como el de Bonferroni son extremadamente conservadores y reducen en gran medida el poder de la prueba con el fin de controlar el número de falsos positivos, en particular cuando el número de pruebas aumenta (Fig. 2). Para N = 10 comparacioneS, nuestra simulación muestra una reducción en el poder para Bonferroni de 80% a ~ 33% tanto para el 10% y el 50% probabilidad de efecto. Estos valores caen a ~ 8% para N = 100, y por el momento estamos poniendo a prueba un gran conjunto de datos N = 10.000, nuestra capacidad es de ~ 0.2%. En otras palabras, para un 10% de la probabilidad de efecto, de los 1000 genes que tienen un efecto, se espera encontrar sólo 2!. Es menor el costo de un falso positivo que el costo de un falso negativo, aplicando la corrección de Bonferroni hace un experimento ineficiente. Hay otros métodos FWER (tales como Holm de y Hochberg) de que están diseñados para aumentar el mediante la aplicación de un ajuste menos estrictos para los valores de p. Los beneficios de estas variantes se realizan cuando el número de comparaciones es pequeño (por ejemplo, < 20) y la tasa de efecto es alta, pero ninguno de los métodos rescata el poder de la prueba para un gran número de comparaciones.

En la mayoría de situaciones, estamos dispuestos a aceptar un cierto número de falsos positivos, medidos por el FPR, siempre y cuando la proporción de falsos positivos para los verdaderos positivos sea baja, medido por el FDR. Los métodos que controlan el FDR—como Benjamini-Hochberg (BH), que modifican los valores de P en proporción inversa a su rango cuando es ordenado —proporcionan mejores características de potencia que los métodos FWER. Nuestra simulación muestra que el poder no disminuye tan rápidamente como en Bonferroni con N para una probabilidad pequeña de efecto (por ejemplo, 10%) y en realidad aumenta con N cuando la probabilidad de efecto es alta (fig. 2). En N = 1.000, mientras que la corrección de Bonferroni tiene un poder de <2%, BH mantiene el 12% y el 56% en el poder en un 10% y un 50% de tasa de efecto manteniendo FDR en el 4,4% y 2,2%, respectivamente. Ahora, en lugar de identificar dos genes en N = 10.000 y efecto tasa del 10% con Bonferroni, nos encontramos con 88 y equivocamos sólo cuatro veces.

El método final que se muestra en la Figura 2 es Storey, que introduce dos medidas útiles: π0 y el valor de q. Este enfoque se basa en la observación de que si se cumplen los requisitos de la prueba t, se espera que la distribución de valores p para comparaciones en las que la hipótesis nula es verdadera se espera sea uniforme (por definición del valor p). En contraste, las comparaciones correspondientes a un efecto tendrán más valores de p cercanos a 0 (Fig. 3a). En un experimento en el mundo real no sabemos que las comparaciones verdaderamente corresponden a un efecto, así todo lo que vemos es la distribución agregada, que se muestra como el tercer histograma en la Figura 3a. Si el tipo de efecto es bajo, la mayor parte de nuestros valores de p provendrán de los casos en los que la hipótesis nula es verdadera, y el pico más cercano a 0 será menos pronunciado que para una alta probabilidad de efecto. El pico también se atenúa cuando el poder de la prueba es bajo.

Figure 3: The shape of the distribution of unadjusted P values can be used to infer the fraction of hypotheses that are null and the false discovery rate (FDR). (a) P values from null are expected to be distributed uniformly, whereas those for which the null is false will have more small values. Shown are distributions from the simulation for N = 1,000. (b) Inference types using color scheme of Figure 1b on the P value histogram. The FDR is the fraction of P < α that correspond to false positives. (c) Storey's method first estimates the fraction of comparisons for which the null is true, π0, by counting the number of P values larger than a cutoff λ(such as 0.5) relative to (1 − λ)N (such as N/2), the count expected when the distribution is uniform. If R discoveries are observed, about αNπ0 are expected to be false positives, and FDR can be estimated by αNπ0/R.
Cuando realizamos la comparación p ≤ α en los valores de p no ajustados, cualquier valor de la hipótesis nula se traducirá en un falso positivo (Fig. 3b). Esto resulta en una FDR muy grande: para la prueba no ajustada, FDR = 36% para N = 1000 y efecto 10% de probabilidad. El método de Storey ajusta los valores de p con un esquema de clasificación similar al de BH pero incorpora la estimación de la fracción de las pruebas para las que la hipótesis nula es verdadera, π0. Conceptualmente, esta fracción corresponde a una parte de la distribución por debajo del límite óptimo que la divide en uniforme ( p bajo la H nula cierta) y componentes asimétricos (p bajo la H nula falsa) (Fig. 3b). Dos estimaciones comunes de π0 tienen el doble del promedio de todos los valores de p (método Pound y Cheng) y 2/N veces el número de valores de p superior a 0,5 (método de Storey). Este último es un caso específico de una estimación generalizada en la que un punto de corte diferente, λ, se elige (fig. 3c). Aunque π0 se utiliza en el método de Storey en el ajuste de los valores de p, se puede estimar y utilizar de forma independiente. Método de Storey se desempeña muy bien, siempre y cuando haya suficientes comparaciones para estimar robustamente π0. Para todos los escenarios de simulación, el poder es mejor que la BH, y FDR está más estrechamente controlada en el 5%. Utilice los gráficos interactivos en el cuadro complementario 1 para ejecutar la simulación y explorar las distribuciones del valor p ajustado.

Las consecuencias de la mala interpretación de los valores de p son surgen repetidamente. La medida apropiada para reportar en escenarios de múltiples pruebas es el valor q, que es el equivalente FDR del valor de p. Los valores de p ajustados obtenidos a partir de métodos tales como la BH y Storey son en realidad valores de q. El valor q de una prueba es la FDR mínima a la que la prueba sería declarada significativa. Este valor FDR es una medida colectiva calculada a través de todas las pruebas con FDR ≤ q. Por ejemplo, si tenemos en cuenta una comparación con q = 0,01 significativo, entonces aceptamos un FDR de un máximo de 0,01 en el conjunto de comparaciones con q ≤ 0,01. Este FDR no debe confundirse con la probabilidad de que cualquier prueba dada es un falso positivo, que viene dada por el FDR local. El valor q tiene un significado más directo a las actividades de laboratorio que el valor p, ya que relaciona la proporción de errores en la cantidad de interés—el número de descubrimientos.

La elección del método de corrección depende de su tolerancia a los falsos positivos y el número de comparaciones. Los métodos FDR son más sensibles, sobre todo cuando hay muchas comparaciones, mientras que los métodos FWER sacrifican sensibilidad para controlar los falsos positivos. Cuando no se cumplen los supuestos de la prueba t, la distribución de los valores de p puede ser inusual y estos métodos pierden su aplicabilidad —siempre recomendamos realizar una rápida comprobación visual de la distribución de los valores de p de su experimento antes de aplicar cualquiera de estos métodos."




"Marzo: Comparando muestras - Parte I

Martin Krzywinski & Naomi Altman

Nature Methods,11, 215-216 (2014). doi:10.1038/nmeth.2858

En general comparar pares de muestras dependientes o independientes requieren diferentes aproximaciones de la prueba t.

Entre los tipos más frecuentes de experimentos están los estudios que constrastan los resultados bajo diferentes condiciones tales como hombres versus mujeres, placebo versus fármaco, o antes versus después del tratamiento. El análisis de estos experimentos requiere métodos para comparar cuantitativamente muestras para juzgar si las diferencias en los datos apoyan la existencia de un efecto en las poblaciones que representan. Este análisis es sencillo y robusto cuando se comparan muestras independientes; pero los investigadores a menudo tienen que comparar muestras relacionadas, y esto requiere un enfoque diferente. Discutiremos ambas situaciones.

Comencemos con el escenario simple de comparar dos condiciones. Entender este caso es importante porque sirve como base para diseños más complejos con comparaciones simultáneas múltiples. Por ejemplo, es posible que deseemos contrastar varios tratamientos, el seguimiento de la evolución de un efecto en el tiempo o tener en cuenta las combinaciones de tratamientos y demás (como diferentes drogas en diferentes genotipos).

Queremos evaluar el tamaño de las diferencias observadas en relación con la incertidumbre en las muestras. Por incertidumbre, nos referimos a la dispersión medida por la s.d., escrita como σ y s cuando se refieren a la población y la estimación de la muestra, respectivamente. Es más conveniente para modelar la incertidumbre utilizando varianza, que es el cuadrado de la s.d. y denotado por Var () (o σ2) y s2 de la población y de la muestra, respectivamente. Usando esta notación, la relación de incertidumbre entre las medias de la muestra poblacional y la población es  para muestras de tamaño n. La afirmación equivalente para los datos de la muestra es , dónde  es el s.e.m. y sX es la s.d. de la muestra

Recordemos nuestro ejemplo de la prueba t para una muestra donde la expresión de una proteína se comparó con un valor de referencia. Nuestra meta será extender este enfoque, en el que sólo una cantidad era incierta, para dar cabida a una comparación de dos muestras, en las que en ambas cantidades se presenta la incertidumbre. Figura 1a encapsula las distribuciones relevantes para el escenario de una muestra. Asumimos que nuestra muestra X se extrae de una población, y se utilizó la media de la muestra para estimar la media poblacional. Definimos el estadístico t (t) como la diferencia entre la media muestral y el valor de referencia, μ, en unidades de incertidumbre de la media, dada por el s.e.m., y demostramos que t siguela distribución t de Student cuando el valor de referencia es la media de la población. Hemos calculado la probabilidad de que la diferencia entre la muestra y la referencia se deba a la incertidumbre en la media de la muestra. Cuando esta probabilidad es menor que un nivel de error de tipo I, α, llegamos a la conclusión de que la media de la población difiere de μ.

Figure 1: The uncertainty in a sum or difference of random variables is the sum of the variables' individual uncertainties, as measured by the variance. Numerical values reflect sample estimates from Figure 2. Horizontal error bars show s.d., which is √Var. (a) Comparing a sample to a reference value involves only one measure of uncertainty: the variance of the sample's underlying population, Var(X). The variance of the sample mean is reduced in proportion to the sample size as Var(X)/n, which is also the uncertainty in the estimate of the difference between sample and reference. (b) When the reference is replaced by sample Y of sizem, the variance of Y contributes to the uncertainty in the difference of means.
Ahora vamos a sustituir la referencia con una muestra Y de tamaño m (Fig. 1b). Debido a que las medias de la muestra son una estimación de la media de la población, la diferencia  sirve como nuestra estimación de la diferencia en la media de las poblaciones. Por supuesto, las poblaciones pueden variar no sólo en sus medias, pero por ahora nos centraremos en este parámetro. Al igual que en el caso de una muestra, queremos evaluar la diferencia en unidades de su incertidumbre. La incertidumbre adicional introducida tendrá que ser tenida en cuenta al reemplazar la referencia con Y. Para la estimación de la incertidumbre en  podemos convertirlo a un resultado útil en la teoría de la probabilidad.

Para cualquiera de las dos cantidades aleatorias no correlacionadas, X y Y, tenemos la siguiente relación: Var (X - Y) = Var (X) + Var (Y). En otras palabras, la incertidumbre esperada en una diferencia de valores es la suma de las incertidumbres individuales. Si tenemos razones para creer que las varianzas de las dos poblaciones son casi iguales, es habitual utilizar el promedio de las variaciones de la muestra como una estimación de los dos varianzas poblacionales. Esto se llama la varianza combinada, sp2. Si los tamaños de las muestras son iguales, se calcula un promedio simple, sp= (sXsY2)/2. Si no, será un promedio ponderado por n - 1 y m - 1, respectivamente. Utilizando la varianza conjunta y la aplicación de la regla de la adición de la varianza a la varianza de la muestra da . La incertidumbre en   viene dada por su s.d., que es la raíz cuadrada de esta cantidad.

Para ilustrarlo con un ejemplo concreto entonces reproducimos la prueba t de una muestra de la expresión de la proteína del ejemplo de la columna de noviembre en la Figura 2a y el contraste a su equivalente de dos muestras en la Figura 2b. Hemos ajustado valores de muestra ligeramente para ilustrar mejor la diferencia entre estas dos pruebas. Para el caso de una muestra, nos encontramos con t = 2.93 y un valor p correspondiente de 0.04. En un punto de corte de error de tipo I de α = 0.05, se puede concluir que la expresión de la proteína es significativamente más elevado en relación con el de referencia. Para el caso de dos muestras, t = 2,06 y p = 0,073. Ahora, cuando la referencia se sustituye con una muestra, la incertidumbre adicional en nuestra diferencia estimada ha resultado en un valor más pequeño de t que ya no es significativo en el mismo nivel α. En la búsqueda de entre t y p para una prueba de dos muestras, utilizamos los grados de libertad df = n + m - 2, que es la suma de los valores df para cada muestra.

Figure 2: In the two-sample test, both samples contribute to the uncertainty in the difference of means. (a) The difference between a sample and a reference value (μ = 10) can be assessed with a one-sample t-test. (b) When the reference value is itself a sample , the two-sample version of the test is used, in which the t-statistic is based on a combined spread of X and Y, which is estimated using the pooled variance, sp2.
Nuestra incapacidad de rechazar la hipótesis nula en el caso de dos muestras es un resultado directo del hecho de que la incertidumbre en  es más grande que en  (Fig. 1b), porque ahora  es un factor que contribuye. Para llegar a la significancia, necesitaríamos recoger mediciones adicionales. Suponiendo que las medias de la muestra y s.d. no cambian, una medida adicional sería suficiente -disminuir  y aumentar el d.f. Esto último tiene el efecto de reducir la anchura de la distribución t y bajar el valor de p para un t dado.

Esta reducción en la sensibilidad está acompañada de una reducción en el poder. La prueba de dos muestras tiene un poder más bajo que el de una muestra, para la misma varianza y el número de observaciones por grupo. Nuestro ejemplo con una muestra de 5 tiene un poder del 52% para un cambio de expresión de 1,0. El poder correspondiente para la prueba de dos muestras con cinco observaciones por muestra es 38%. Si la varianza de la muestra se mantiene constante, para llegar a la fuente de 52%, la prueba de dos muestras requeriría muestras de mayor tamaño (n = m = 7).

Cuando se cumplen los supuestos, la prueba t de dos muestras es el procedimiento óptimo para la comparación de medias. La solidez de la prueba es un punto de interés debido a que estos supuestos pueden ser violados en datos empíricos. Una salida de rendimiento óptimo es reportada por la diferencia entre α —el error de tipo I que asumimos que estamos probando— y tasa de error tipo I actual, τ. Si todos los supuestos se cumplen, α = τ, y nuestra oportunidad de cometer un error de tipo I es por lo tanto igual a α. Sin embargo, al no satisfacer los supuestos puede darse que τ > α, provocando que cometamos un error de tipo I más a menudo de lo que pensamos. En otras palabras, nuestra tasa de falsos positivos será más grande de lo previsto. Vamos a examinar los supuestos de la prueba t en el contexto de robustez.

En primer lugar, la prueba t asume que las muestras se toman de las poblaciones que tienen una distribución normal. Este supuesto es el menos grave. Las simulaciones sistemáticas de una amplia gama de distribuciones prácticos encuentran que la tasa de error de tipo I es estable dentro de 0,03 < τ < 0,06 para α = 0,05 para n ≥ 5.

Luego, se requiere que las poblaciones de la muestra tengan la misma varianza (fig. 1b). Afortunadamente, la prueba también es extremadamente robusta con respecto a este requisito —más que la cantidad de la gente que la realiza. Por ejemplo, cuando los tamaños de las muestras son iguales, las pruebas en α = 0,05 (o α = 0,01) da τ <0,06 (τ <0,015) para n ≥ 15, independientemente de la diferencia de varianzas poblacionales. Si estos tamaños de muestra no son prácticos, entonces podemos caer de nuevo en el resultado de que τ <0,064 cuando se prueba en α = 0,01, independientemente de n o de la diferencia en la varianza. Cuando los tamaños de muestra son desiguales, el impacto de la diferencia de la varianza es mucho más grande, y τ puede apartarse  sustancialmente. En estos casos, se recomienda la variante de Welch para la prueba t, que utiliza las varianzas reales de la muestra, sX2/n + sY2/m, en lugar de la estimación combinada. La prueba estadística se computa como de costumbre, pero los d.f. para la distribución de referencia depende de las varianzas estimadas.

La última consideración y probablemente la más importante, es el requisito en el que las muestras no estén relacionadas. Este requisito es a menudo expresado en términos de independencia, aunque los dos términos tienen diferentes definiciones técnicas. Lo  importante es que su coeficiente de correlación de Pearson (ρ) sea 0, o cerca de esto. La correlación entre las muestras puede surgir cuando los datos se obtienen a partir de muestras emparejadas o mediciones repetidas. Si las muestras están correlacionadas positivamente (valores más grandes en la primera muestra se asocian con valores más grandes en la segunda muestra), entonces la prueba se realiza de manera más conservadora (τ < α), mientras que las correlaciones negativas aumentan el error tipo I real (τ > α). Incluso una pequeña cantidad de correlación puede hacer la prueba difícil de interpretar —pruebas con α = 0,05 da τ < 0,03 para ρ > 0,1 y τ > 0,08 para ρ < -0.1.

Si los valores se pueden aparear a través de muestras, tales como mediciones de la expresión del mismo conjunto de proteínas antes y después de la intervención experimental, se puede enmarcar el análisis como un problema de una muestra para aumentar la sensibilidad de la prueba.

Considere las dos muestras de la Figura 3a, que utilizan los mismos valores que en la Figura 2b. Si las muestras X y Y son medidas en diferentes conjuntos de proteínas, entonces ya hemos visto que no podemos concluir con seguridad que las muestras sean diferentes. Esto se debe a que la dispersión dentro de cada muestra es grande en relación con las diferencias en las medias de la muestra. Sin embargo, si Y mide la expresión de las mismas proteínas que X, pero después de algún tipo de intervención, la situación es diferente (Fig. 3b), ahora no nos ocupamos de la dispersión de los valores de expresión dentro de una muestra sino con el cambio de expresión de una proteína de una muestra a otra. Mediante la construcción de una muestra de diferencias en la expresión (D; Fig. 3c), reducimos la prueba a una t de una muestra en la que la única fuente de incertidumbre es la varianza en diferencias. La dispersión en X y Y ha sido un factor fuera del análisis, por lo que la prueba de la diferencia de la expresión es más sensible. Para nuestro ejemplo, podemos concluir que la expresión ha cambiado entre X y Y con P = 0,02 (t = 3.77) para evaluar  contra la hipótesis nula de que μ = 0. Este método se llama a veces la prueba t pareada/relacionada.

Figure 3: The paired t-test is appropriate for matched-sample experiments. (a) When samples are independent, within-sample variability makes differences between sample means difficult to discern, and we cannot say that X and Y are different at α = 0.05. (b) If X and Y represent paired measurements, such as before and after treatment, differences between value pairs can be tested, thereby removing within-sample variability from consideration. (c) In a paired test, differences between values are used to construct a new sample, to which the one-sample test is applied .
Continuaremos nuestra discusión de la comparación de la muestra el próximo mes, cuando vamos a discutir la forma de abordar la realización y presentación de informes de comparaciones múltiples. Mientras tanto, el cuadro complementario 1 se puede utilizar para explorar de forma interactiva las comparaciones de dos muestras."





"Febrero: Visualizando las muestras con diagramas de caja y bigotes

Martin Krzywinski & Naomi Altman

Nature Methods,11, 119-120 (2014). doi:10.1038/nmeth.2813

Utilice los diagramas de caja para ilustrar la dispersión y las diferencias de las muestras.

Lo métodos de visualización mejoran nuestra comprensión de los datos y nos ayudan a hacer comparaciones entre muestras. Los diagramas de caja son una sencilla pero potente herramienta gráfica que se puede utilizar en lugar de histogramas para abordar ambos objetivos. Considerando que los histogramas requieren un tamaño de muestra de al menos 30 para ser útil, los diagramas de caja requieren un tamaño de muestra de sólo 5, proporcionan más detalles en las colas de la distribución y son más fácilmente en comparación a través de tres o más muestras. Varias mejoras en el diagrama de caja básico pueden hacer que sea aún más informativo.

Los diagramas de caja se caracteriza por una muestra con los percentiles 25º, 50º y 75º también conocido como el cuartil inferior (Q1), la mediana (m o Q2) y el cuartil superior (Q3) y el rango intercuartil (IQR = Q3 - Q1), que abarca el 50% central de los datos. Los cuartiles son insensibles a los valores atípicos y preservan información sobre el centro y la propagación. En consecuencia, se prefieren a la media y s.d. para la distribución de la población que son asimétricos o de forma irregular y para muestras con valores extremos. En tales casos, estas medidas pueden ser difíciles de interpretar de manera intuitiva: la media puede estar lejos de la mayor parte de los datos, y las reglas convencionales de interpretación de la s.d. es probable que no aplicaran.

El elemento central que da a la gráfica su nombre es un cuadro/caja cuya longitud es la IQR y cuya anchura es arbitraria (Fig. 1). Una línea dentro de la caja muestra la mediana, que no es necesariamente central. La posición puede estar orientado en vertical u horizontal -que usamos aquí (con una excepción) cajas horizontales para mantener la orientación en consonancia con las correspondientes distribuciones muestrales. Los bigotes se extienden convencionalmente para el punto de datos más extrema pero no más de 1,5 × IQR desde el borde de la caja (estilo Tukey) o hasta el final, es decir, al mínimo y el máximo de los datos (estilo lanza). El uso de cuartiles de diagramas de caja es una convención bien establecida: las cajas o los bigotes nunca deben ser utilizados para mostrar la media, s.d. o s.e.m. Al igual que con la división de la caja por la mediana, los bigotes no son necesariamente simétricos (Fig. 1b). El multiplicador de 1,5 corresponde a aproximadamente ± 2.7σ (donde σ es s.d.) y 99,3 % de cobertura de los datos para una distribución normal. Los puntos más allá de los bigotes pueden representarse de manera individual. La construcción del diagrama de cajas requiere una muestra de por lo menos n = 5 (preferiblemente más grande), aunque algunos software no comprueban esto. Para n < 5 recomendamos que se muestren los puntos individuales.

Figure 1: The construction of a box plot. (a) The median (m = −0.19, solid vertical line) and interquartile range (IQR = 1.38, gray shading) are ideal for characterizing asymmetric or irregularly shaped distributions. A skewed normal distribution is shown with mean μ = 0 (dark dotted line) and s.d. σ = 1 (light dotted lines). (b) Box plots for an n = 20 sample from a. The box bounds the IQR divided by the median, and Tukey-style whiskers extend to a maximum of 1.5 × IQR beyond the box. The box width may be scaled by √n, and a notch may be added approximating a 95% confidence interval (CI) for the median. Open circles are sample data points. Dotted lines indicate the lengths or widths of annotated features.
Las diferencias en el tamaño de la muestra se pueden evaluar mediante la ampliación de la anchura diagrama de caja en proporción a √n (Fig. 1b), el factor por el que la precisión de la estimación de la muestra de las estadísticas de la población mejora a medida que el tamaño de la muestra se incrementa. 

Para ayudar a juzgar las diferencias entre las medianas de la muestra, una muesca (fig. 1b) se puede utilizar para mostrar el intervalo de confianza del 95% (IC) para la mediana, dada por m ± 1,58 × IQR/√ n (ref. 1). Esta es una aproximación basada en la distribución normal y es más precisa en muestras grandes que otras distribuciones. Si sospecha que la distribución de la población no está cerca de lo normal y el tamaño de la muestra es pequeño, debe evitar interpretar el intervalo de forma analítica en la forma que hemos descrito para las barras de error CI. En general, cuando las muescas no se superponen, las medianas se pueden juzgar como que pueden diferir significativamente, pero si se superponen no excluye una diferencia significativa. Para pequeñas muestras la muesca puede abarcar un intervalo más grande que la caja (fig. 2).

Figure 2: Box plots reflect sample variability and should be avoided for very small samples (n < 5), with notches shown only when they appear within the IQR. Tukey-style box plots for five samples with sample size n = 5, 10, 20 and 50 drawn from the distribution in Figure 1a are shown; notch width is as in Figure 1b. Vertical dotted lines show Q1 (−0.78), median (−0.19), Q3 (0.60) and Q3 + 1.5 × IQR (2.67) values for the distribution.
La posición exacta de los límites de la caja dependeran del software. En primer lugar, no hay acordado universalmente el método para calcular los valores cuartiles, que pueden estar basados ​​en un promedio simple o interpolación lineal. En segundo lugar, algunas aplicaciones, como R, usa bisagras en lugar de cuartiles de límites del cuadro. Las bisagra inferior y superior son la mediana de la mitad inferior y superior de los datos, respectivamente, incluyendo la mediana si es parte de los datos. Las cajas basadas ​​en bisagras serán ligeramente diferentes en algunas circunstancias que las basadas en cuartiles. 

Los aspectos de la gráfica de caja como el ancho, la posición del bigote, el tamaño de la primera línea y visualización de valores atípicos son objeto de afinar, por lo que es importante etiquetar claramente cómo se construyó el diagrama de caja. Menos del 20% de los gráficso de caja en 2013 Nature Methods  especifican el tamaño de la muestra y el tipo de barba en sus leyendas —animamos a los autores a ser más específicos.

El diagrama de caja se basa en los estadísticos de la muestra, que son estimaciones de los valores correspondientes a la población. La variabilidad de la muestra se verá reflejado en la variación de todos los aspectos del diagrama de caja (Fig. 2). Tamaños de muestra modestos (n = 5 -10) de la misma población pueden producir diferentes diagramas de caja en cuyas muescas es probable que se extienda más allá de la IQR. Incluso para grandes muestras (n = 50), las posiciones de los bigotes pueden variar en gran medida. Recomendamos indicar siempre el tamaño de la muestra y evitar muescas a menos que caigan totalmente dentro del IQR. 

Aunque la media y la s.d. siempre se pueden calcular para cualquier muestra no comunican de manera intuitiva la distribución de valores (Fig. 3). Distribuciones altamente sesgadas aparecen en forma de diagrama de caja con una región del bigote notablemente más corta y una ausencia de valores extremos en el lado opuesto a la inclinación. Tenga en cuenta que para las muestras pequeños, que no necesariamente representan bien la distribución, estas características pueden aparecer por casualidad.

Figure 3: Quartiles are more intuitive than the mean and s.d. for samples from skewed distributions. Four distributions with the same mean (μ = 0, dark dotted line) and s.d. (σ = 1, light dotted lines) but significantly different medians (m) and IQRs are shown with corresponding Tukey-style box plots for n = 10,000 samples.
No aconsejamos en ningún caso el uso de diagramas de barra con barras de error (Fig. 4a), que son los más utilizados para el recuento o proporciones. Estos gráficos siguen siendo prevalentes (contamos con 100 figuras que fueron utilizadas en los artículos de 2013 en Nature Methods, en comparación con sólo el 20 que utilizaron los  diagramas de caja). Por lo general aparece solo el brazo de la barra de error, por lo que las comparaciones de solapamiento son difíciles. Más importante aún, la barra en sí misma dificulta la percepción de que la media está relacionada con su altura más que en el lugar de la posición del límite superior. Como resultado, la elección de la línea de base puede interferir con la evaluación de los tamaños relativos de las medias y sus barras de error. La adición de saltos en el eje y la escala de registro hace que las comparaciones visuales sean aún más difíciles.

Figure 4: Box plots are a more communicative way to show sample data. Data are shown for three n = 20 samples from normal distributions with s.d. σ = 1 and mean μ = 1 (A,B) or 3 (C). (a) Showing sample mean and s.e.m. using bar plots is not recommended. Note how the change of baseline or cutting the y axis affects the comparative heights of the bars. (b) When sample size is sufficiently large (n > 3), scatter plots with s.e.m. or 95% confidence interval (CI) error bars are suitable for comparing central tendency. (c) Box plots may be combined with sample mean and 95% CI error bars to communicate more information about samples in roughly the same amount of space.
La media, el error de dispersión o 95% que se muestran en el gráfico de barra tradicional con barras de error (Fig. 4B) se pueden incorporar en los diagramas de caja (Fig. 4C), combinando así detalles acerca de la muestra con una estimación de la media de la población. Para muestras pequeñas, la barra s.e.m. puede extenderse más allá de la caja. Si los datos se distribuyen normalmente, > 95% de las barras de error estarán dentro de la IQR para n ≥ 14. Para el 95% las barras de CI el punto de corte es n ≥ 28. 

Debido a que nos basabamos en estadísticas que no nos obligan a asumir nada acerca de la forma de la distribución, los diagramas de caja proporcionan información más robusta acerca de las muestras que las barras de error convencionales. Fomentamos su uso más amplio y sugerimos al lector ir a http://boxplot.tyerslab.com/ (ref. 4), una herramienta en línea conveniente para crear diagramas de caja que permiten implementar todas las opciones descritas aquí."




"Diciembre: Poder y tamaño de la muestra

Martin Krzywinski & Naomi Altman

Nature Methods,10, 1139–1140 (2013). doi:10.1038/nmeth.2738

La capacidad para detectar efectos experimentales puede verse afectada en los estudios que carecen de poder

Las pruebas estadísticas proporcionan un paradigma para decidir si los datos son o no son típicos de los valores esperados cuando la hipótesis es verdadera. Debido a que nuestro objetivo por lo general es detectar una desviación de la hipótesis nula, es útil definir una hipótesis alternativa que exprese la distribución de las observaciones cuando la hipótesis nula es falsa. La diferencia entre las distribuciones captura el efecto experimental y la probabilidad de detectar el efecto es el poder estadístico.

El poder estadístico es realmente importante pero a menudo pasa por alto. Cuando el poder es bajo, los efectos importantes pueden no ser detectados, y en experimentos con muchas condiciones y resultados, como los estudios "ómicos", un gran porcentaje de los resultados significativos pueden ser erróneos. La figura 1 ilustra esto mostrando la proporción de resultados de inferencia en dos conjuntos de experimentos. En el primer grupo, de forma optimista suponemos que las hipótesis han sido delineadas y se tiene el 50% de oportunidad para tener un efecto (Fig. 1a). Si ellas se evalúan con un poder de 0,2, identificado como la mediana en una reciente revisión de estudios de neurociencia, entonces el 80% de los resultados positivos pueden perderse, y el 20% de resultados positivos será un error (valor predictivo positivo, VPP = 0,80), la prueba se llevó a cabo suponiendo el nivel de 5% (Fig. 1b).

Figure 1: When unlikely hypotheses are tested, most positive results of underpowered studies can be wrong.(a) Two sets of experiments in which 50% and 10% of hypotheses correspond to a real effect (blue), with the rest being null (green). (b) Proportion of each inference type within the null and effect groups encoded by areas of colored regions, assuming 5% of nulls are rejected as false positives. The fraction of positive results that are correct is the positive predictive value, PPV, which decreases with a lower effect chance.
En experimentos con múltiples medidas (por ejemplo, estudios de expresión genética), no es raro que menos del 10% de los resultados tengan una oportunidad a priori de un efecto. Si el 90% de las hipótesis son nulas (Fig. 1a), la situación a un nivel de poder 0.2 es sombrío y más de dos tercios de los resultados positivos están equivocados (PPV = 0,31;. Fig. 1b). Incluso con la potencia mínima aceptada convencionalmente de 0,8, más de un tercio de los resultados positivos están mal (PPV = 0,64) ya que si bien se detecta una mayor fracción de los efectos verdaderos (8 sobre 10), declaramos un número absoluto mayor de falsos positivos (4,5 de 90).

Las restricciones sobre el diseño experimental junto con la falta habitual de rigor estadístico, contribuyen a muchos estudios con bajo poder con informes falsos de tanto efectos falsos positivos y falsos negativos. Las consecuencias de un bajo poder son particularmente grave en la búsqueda de resultados de alto impacto, cuando el investigador puede estar dispuesto a perseguir hipótesis de baja probabilidad de un descubrimiento innovador (Fig. 1). Un análisis de la literatura de investigación médica encontró que sólo el 36% de los experimentos examinados que tuvieron resultados negativos podría detectar una diferencia relativa del 50% al menos 80% de las veces. Recientes revisiones también reportan que la mayoría de los estudios tienen poco poder. Reducir el poder y un aumento del número de falsos negativos es particularmente común en los estudios ómicos, los cuales evalúan a muy bajos niveles de significancia para reducir el gran número de falsos positivos.

Los estudios con poder estadístico inadecuado están desperdiciando los recursos de investigación y posiblemente no es ético cuando los sujetos están expuestos a condiciones experimentales inferiores o potencialmente dañinos. Abordar esta deficiencia es una prioridad -ver lista de chequeo de Nature Publishing Group para las estadísticas y métodos (http://www.nature.com/authors/policies/checklist.pdf) que incluye como primera pregunta: "¿Cómo fue seleccionado el tamaño de la muestra para garantizar poder adecuado para detectar un tamaño del efecto pre-especificado?" Aquí hablamos de errores de inferencia y poder para ayudarle a responder a esta pregunta. Nos centraremos en cómo la sensibilidad y la especificidad de un experimento pueden ser balanceados (y mantenerse alto) y cómo el aumento de tamaño de la muestra puede ayudar a conseguir el poder suficiente.

Vamos a usar el ejemplo del último mes de la medición del nivel de expresión de proteína x contra un nivel de referencia asumido de μ=0. Desarrollamos la idea de una distribución nula, H0, y decimos que x fue estadísticamente significativa mayor que la referencia si se supera cierto valor crítico x* (Fig. 2a). Si se observa un valor así  rechazamos H0 como el modelo candidato.

Figure 2: Inference errors and statistical power. (a) Observations are assumed to be from the null distribution (H0) with mean μ0. We reject H0 for values larger than x* with an error rate α (red area). (b) The alternative hypothesis (HA) is the competing scenario with a different mean μA. Values sampled from HA smaller than x* do not trigger rejection of H0 and occur at a rate β. Power (sensitivity) is 1 − β (blue area). (c) Relationship of inference errors to x*. The color key is same as in Figure 1.
Debido a que H0 se extiende más allá de x*, es posible rechazar falsamente H0, con una probabilidad de α (Fig. 2a). Este es un error de tipo I y corresponde a un falso positivo, es decir, inferir un efecto cuando en realidad hay ninguno. En un buen diseño experimental, a se controla y se tiende a mantener bajo, tradicionalmente en α = 0,05, para mantener una alta especificidad (1 - α), que es la probabilidad de un verdadero negativo, es decir, inferir correctamente que no existe ningún efecto.

Supongamos que x > x*, y esto nos lleva a rechazar H0. Es posible que hayamos encontrado algo interesante. Si x no se extrae de H0, de donde proviene esta distribución? Podemos postular una hipótesis alternativa que caracteriza a una distribución alternativa, HA, para la observación. Por ejemplo, si esperamos que los valores de expresión sean más grandes en un 20%, HA tendría la misma forma que H0 pero una media de μA = 12 en lugar de μ0 = 10 (fig. 2b). Intuitivamente, si ambas distribuciones tienen medias similares, anticipamos que será más difícil distinguir de forma fiable entre ellos. Esta diferencia entre las distribuciones típicamente se expresa por la diferencia de medias, en unidades de su sd, σ. Esta medida, dada por d = ( μA - μ0 )/σ , se llama el tamaño del efecto. A veces el tamaño del efecto se combina con el tamaño de la muestra como el parámetro de no centralidad, d√n .

En el contexto de estas distribuciones, el poder (sensibilidad) se define como la probabilidad de rechazar H0 de forma adecuada si los datos se han extraído de HA. Se calcula a partir de la zona de HA en la región de rechazo H0 (fig. 2b). El poder se relaciona por 1 - β a la tasa de error de tipo II, β, que es la probabilidad de un falso negativo (no rechazar H0 cuando los datos se han extraído de HA).

Un test debería ser al mismo tiempo: 1.) sensible (baja tasa de falsos positivos, α) y 2) específico (baja tasa de falsos negativos, β). Las tasas de α y β son inversamente proporcionales: la disminución de α aumenta β y reduce el poder (Fig. 2c). Típicamente, α < β, porque las consecuencias de la inferencia de tipo falso positivo (en un caso extremo, la retractación en un artículo) son más graves que los de la inferencia de falsos negativos (una oportunidad perdida para publicar). Pero el equilibrio entre α y β depende de los objetivos: si los falsos positivos están sujetos a otra ronda de pruebas, pero los falsos negativos se descartan, β debería mantenerse baja.

Volvamos a nuestro ejemplo de la expresión de proteínas y miremos cómo se relacionan las magnitudes de estos dos errores. Si fijamos α = 0,05 y asumimos H0 normal con σ = 1, entonces se rechaza H0 cuando x > 11.64 (Fig. 3a). La fracción de HA superior a esta región de corte es el poder (0,64). Podemos aumentar el poder al disminuir la sensibilidad. El aumento de α a 0,12 disminuye el punto de corte para x> 11.17, y el poder es ahora 0.80. Este aumento del 25% en el poder ha tenido un costo: tenemos ahora más del doble de probabilidades de tener un falso positivo (α = 0,12 vs 0,05).

Figure 3: Decreasing specificity increases power. H0 and HA are assumed normal with σ = 1. (a) Lowering specificity decreases the H0 rejection cutoff x*, capturing a greater fraction of HA beyond x*, and increases the power from 0.64 to 0.80. (b) The relationship between specificity and power as a function of x*. The open circles correspond to the scenarios in a.
La Figura 3b muestra la relación entre α y el poder para nuestra medición expresión como una función de la posición del punto de rechazo de H0, x*. La forma en S de la curva de potencia refleja la tasa de cambio del área bajo HA más allá de x*. El estrecho acoplamiento entre α y el poder sugiere que para μA = 12 la potencia más alta que podemos lograr para α ≤ 0,05 es 0,64, ¿cómo podemos mejorar nuestra probabilidad para detectar el aumento de expresión de HA (aumentar el poder) sin comprometer α (aumento de falsos positivos)?

Si las distribuciones de la Figura 3a fueran más estrechas, su solapamiento se reduciría, una mayor fracción de HA debería quedar detrás del punto de corte x* y la potencia mejoraría. No podemos hacer mucho acerca de σ, aunque podríamos intentar disminuirla al reducir el error de medición. Una forma más directa, sin embargo, es tomar múltiples muestras. Ahora, en lugar de utilizar los valores de expresión individuales, formulamos distribuciones nula y alternativa utilizando el valor promedio de expresión de una muestra que se ha extendido σ/√n (ref. 4).

La figura 4a muestra el efecto de tamaño de la muestra en el poder utilizando distribuciones de la muestra media bajo H0 y HA. A medida que aumenta n, el punto de corte rechazo H0 se disminuye en proporción con el s.e.m., reduciendo la superposición entre las distribuciones. El tamaño de la muestra afecta sustancialmente el poder de nuestro ejemplo. Si tenemos una media de siete medidas (n = 7), que son capaces de detectar un aumento del 10% en los niveles de expresión (μA = 11, d = 1) el 84% de las veces con α = 0,05. Variando n podemos lograr una combinación deseada de potencia y α para un tamaño del efecto dado, d. Por ejemplo, para d = 1, un tamaño de muestra de n = 22 alcanza una potencia de 0,99 para α = 0,01.

Figure 4: Impact of sample (n) and effect size (d) on power. H0 and HA are assumed normal with σ = 1. (a) Increasing n decreases the spread of the distribution of sample averages in proportion to 1/√n. Shown are scenarios at n = 1, 3 and 7 for d = 1 and α = 0.05. Right, power as function of n at four different α values for d = 1. The circles correspond to the three scenarios. (b) Power increases with d, making it easier to detect larger effects. The distributions show effect sizes d = 1, 1.5 and 2 for n = 3 and α = 0.05. Right, power as function of d at four different a values for n = 3.
Otra forma de aumentar el poder es aumentar el tamaño del efecto que queremos detectar. Podriamos ser capaces de inducir un mayor tamaño del efecto con un tratamiento experimental más extremo. A medida que aumenta d también se incrementa el poder debido a que el solapamiento entre las dos distribuciones se disminuyó (Fig. 4b). Por ejemplo, para α = 0,05 y n = 3 , podemos detectar μA = 11 , 11,5 y 12 (10% , 15% y 20% de incremento relativo; d = 1 , 1,5 y 2) con una potencia de 0,53, 0,83 y 0,97, respectivamente. Estos cálculos son idealizados debido a que asumimos formas exactas y conocidas de distribución de H0 y HA. En la práctica, ya que se estima la σ de la población a partir de las muestras, el poder se disminuye y necesitamos un tamaño de la muestra un poco más grande para alcanzar el poder deseado.

El balance entre el tamaño de la muestra, el tamaño del efecto y el poder es fundamental para un buen diseño de estudio. Comenzaremos por definir los valores de error de tipo I (α) y potencia (1 - β) para ser estadísticamente adecuados: tradicionalmente 0.05 y 0.80, respectivamente. A continuación, determinar n sobre la base del efecto más pequeño deseamos medir. Si el tamaño requerido de la muestra es demasiado grande, es posible que tengamos que reevaluar nuestros objetivos o más bien controlar las condiciones experimentales para reducir la varianza. Utilice los gráficos interactivos en el cuadro 1 complementario para explorar los cálculos de poder.

Cuando el poder es bajo, sólo efectos grandes pueden ser detectados, y los resultados negativos no se pueden interpretar de forma fiable. Asegurar que los tamaños de las muestras son lo suficientemente grandes como para detectar los efectos de interés es una parte esencial del diseño del estudio."




"Noviembre: Significancia, valor p y prueba t

Martin Krzywinski & Naomi Altman

Nature Methods,10, 1041-1042 (2013). doi:10.1038/nmeth.2698

El valor p reportado por las pruebas estadísticas es una significancia probabilística, no una biológica


Los científicos suelen realizar pruebas estadísticas para determinar si una observación es estadísticamente significativa. Muchas pruebas informan el valor P para medir la fuerza de la evidencia de que el resultado no es sólo una casualidad por el azar. Para tomar decisiones informadas acerca de las observaciones en un contexto biológico, tenemos que entender lo que el valor de p nos está diciendo y cómo lo interpretamos. Este mes vamos a desarrollar el concepto de la significancia estadística y las pruebas mediante la introducción de una prueba t para una muestra.

Para ayudarle a entender cómo funciona una prueba estadística, considere el siguiente escenario experimental representado en la Figura 1. en donde se ha medido el nivel de expresión de la proteína en una línea celular con una prueba de western blot. Supongamos que medimos un valor de la expresión de x = 12 y tenemos buenas razones para creer (por ejemplo, a partir de las mediciones anteriores) que el nivel de referencia es μ ​​= 10 (Fig. 1a). ¿Qué podemos decir acerca de si esta diferencia se debe a la casualidad? la prueba estadística puede responder a esta pregunta. Pero primero, tenemos que enmarcar matemáticamente nuestra comprensión intuitiva de los factores biológicos y técnicos que dispersan las mediciones a través de un rango de valores.

Figure 1: The mechanism of statistical testing. (a–c) The significance of the difference between observed (x) and reference (μ) values (a) is calculated by assuming that observations are sampled from a distribution H0 with mean μ (b). The statistical significance of the observation x is the probability of sampling a value from the distribution that is at least as far from the reference, given by the shaded areas under the distribution curve (c). This is the P value.
Comenzamos con la suposición de que las fluctuaciones aleatorias en el experimento pueden caracterizarse por una distribución (Fig. 1b). Esta distribución se llama la distribución nula, y encarna la hipótesis nula (H0), así, nuestra observación es una muestra del grupo de todos los posibles casos de medición de la referencia. Podemos pensar en la construcción de esta distribución al incluir un gran número de mediciones independientes de una proteína cuya expresión media es conocida por ser igual al valor de referencia. Esta distribución representa la probabilidad de observar un nivel de expresión dado para una proteína que se está expresando en el nivel de referencia. La media de esta distribución, μ, es la expresión de referencia, y su dispersión se determina por factores de reproducibilidad inherentes a nuestro experimento. El propósito de una prueba estadística es localizar nuestra observación en esta distribución para identificar el grado en que es un valor atípico.

La estadística cuantifica el estado de valores atípicos de una observación por la probabilidad de muestreo de que otra observación de la distribución nula esté más cerca o lejos de μ. En nuestro ejemplo, esto corresponde a la medición de un valor de expresión más lejos del punto de referencia x. Esta probabilidad es el valor de p, que es el reporte de las pruebas estadísticas comunes. Se calcula a partir del área bajo la curva de distribución en las regiones sombreadas (Fig. 1c). En algunas situaciones es posible que importe sólo si x es demasiado grande (o pequeño), en cuyo caso podríamos calcular el área de sólo la región oscura de la figura 1c.

Por desgracia, el valor p es frecuentemente malinterpretado como la probabilidad de que la hipótesis nula (H0) sea verdadera. Este error se llama la "falacia del fiscal", que apela a nuestra intuición y quedó tan arraigado debido a su uso frecuente en los argumentos judiciales. En el proceso de cálculo del valor p, asumimos que H0 es verdadera y que x se extrajo de H0. Por lo tanto, un valor de p bajo (por ejemplo, P = 0.05) sólo nos dice que un evento improbable se ha producido en el contexto de esta suposición. El grado de improbabilidad es evidencia en contra de H0 y apoya la hipótesis alternativa de que la muestra en realidad proviene de una población cuya media es diferente a μ. La significancia estadística sugiere pero no implica significación biológica.

En este punto usted puede preguntar cómo llegamos a nuestras suposiciones acerca de la nula distribución en la Figura 1b. Después de todo, con el fin de calcular p, necesitamos conocer su forma exacta. Debido a que la determinación experimental no es práctica, tenemos que hacer una conjetura informada. Para los efectos de esta columna, vamos a suponer que es normal. Vamos a discutir la solidez de las pruebas para esta hipótesis de la normalidad en otra columna. Para completar nuestro modelo de H0, todavía tenemos que estimar su dispersión. Para ello volvemos al concepto de muestreo.

Para estimar la dispersión de H0, repetimos la medición de la expresión de nuestra proteína. Por ejemplo, podríamos hacer cuatro mediciones independientes adicionales para conformar una muestra con n = 5 (Fig. 2a). Utilizamos la media de los valores de expresión (media = 10,85) como una medida de la expresión de nuestra proteína. A continuación, hacemos la hipótesis clave para que el s.d. de nuestra muestra (sx = 0.96) ques es una estimación adecuada del s.d. de la distribución nula (fig. 2b). En otras palabras, sin importar si la media de la muestra es representativa de la distribución nula, asumimos  que su dispersión si lo es. Este supuesto de varianzas iguales es común, y volveremos a él en futuras columnas.

Figure 2: Repeated independent observations are used to estimate the s.d. of the null distribution and derive a more robust P value. (a) A sample of n = 5 observations is taken and characterized by the mean x̄, with error bars showing s.d. (sx) and s.e.m. (sx/√n). (b) The null distribution is assumed to be normal, and its s.d. is estimated by sx. As in Figure 1b, the population mean is assumed to be μ. (c) The average expression is located on the sampling distribution of sample means, whose spread is estimated by the s.e.m. and whose mean is also μ. The P value of x̄ is the shaded area under this curve.
De nuestra discusión sobre el muestreo, sabemos que dado que H0 es normal, la distribución muestral de las medias también será normal, y podemos usar sx/√n para estimar su s.d. (Fig. 2c). Localizamos la expresión media de esta distribución para calcular el valor de p, de forma análoga a lo que se hizo con el único valor en la figura 1c. Para evitar la molestia de tratar con una distribución muestral de medias para cada combinación de parámetros de la población, podemos transformar la media x̄ a un valor determinado por la diferencia de la muestra y la población significa D = x - μ dividimos por el s.e.m. (sx/√n). Esto se conoce como la prueba estadística.

Resulta, sin embargo, que la forma de esta distribución de muestreo está cerca, pero no exactamente, normal. La medida en que se aparta de la normalidad es conocida y dada por la distribución t de Student t (Fig. 3a), descrita por primera vez por William Gosset, que publicó bajo el seudónimo de 'Estudiante' (para evitar dificultades con su empleador, Guinness) en su obra en la optimización de los rendimientos de la cebada. El test estadístico descrito anteriormente se compara con esta distribución y por lo tanto se llama el estadístico t. El test ilustrado en la Figura 2 se denomina la prueba t de una muestra.

Figure 3: The t and normal distributions. (a) The t distribution has higher tails that take into account that most samples will underestimate the variability in a population. The distribution is used to evaluate the significance of a t statistic derived from a sample of size n and is characterized by the degrees of freedom, d.f. = n − 1. (b) When n is small, P values derived from the t distribution vary greatly as n changes.

Esta característica en la forma de la distribución se debe al hecho de que para la mayoría de las muestras, la varianza de la muestra, Sx2, es una subestimación de la varianza de la distribución nula. La distribución de varianzas de las muestras resulta ser sesgada. La asimetría es más evidente para los tamaños de n pequeños, donde es más probable que se observa una varianza menor que la de la población . La distribución t representa esta subestimación por tener colas más altas que la distribución normal (Fig. 3a). Cuando n crece, la distribución t se parece mucho a la normal, lo que refleja que la varianza de la muestra se convierte en una estimación más precisa.

Como resultado, si no corregimos esto -es decir, si utilizamos la distribución normal en el cálculo se muestra en la Figura 2c- estaremos usando una distribución que es demasiado estrecha y sobreestimaremos la significancia de nuestro hallazgo. Por ejemplo, usando la muestra n = 5 en la Figura 2b para los que t = 1,98, la distribución t nos da P = 0,119. Sin la corrección integrada en esta distribución, podríamos subestimar P utilizando la distribución normal como P = 0,048 (Fig. 3b). Cuando n es grande, la corrección requerida es menor: el mismo t = 1,98 para n = 50 da P = 0,054, que ahora es mucho más cerca al valor obtenido a partir de la distribución normal.

La relación entre t y p se muestra en la Figura 3b y se puede utilizar para expresar p en función de las cantidades en la que t depende (D, sx, n). Por ejemplo, si nuestra muestra en la Figura 2b tenía un tamaño de al menos n = 8, la diferencia de expresión observado D = 0,85 sería significativa en P < 0,05 , suponiendo que todavía sx = 0,96 (t = 2,50, p = 0,041). Un tipo de cálculo más general puede identificar las condiciones para que una prueba puede detectar con fiabilidad si una muestra procede de una distribución con una media diferente. Esto habla del poder de la prueba, que se discutirá en la siguiente columna.

Otra forma de pensar en alcanzar la significancia es considerar qué medias de la población darían p <0,05. Para nuestro ejemplo, estos serían μ < 9,66 y μ>12,04 y definir la gama de valores de expresión estándar (9,66-12,04) que son compatibles con la muestra. En otras palabras, si la distribución nula tenía una media dentro de este intervalo, no podemos rechazar H0 com P = 0,05 sobre la base de nuestra muestra. Este es el intervalo de confianza del 95% tratado el mes pasado, dado por μ = x̄ ± t* × s.e.m. (una forma reordenada de la ecuación de la prueba t de una muestra), donde t* es el valor crítico del estadístico t para un n dado y P. En nuestro ejemplo, n = 5, p = 0,05 y t* = 2,78. Animamos a los lectores a explorar estos conceptos por sí mismos utilizando los gráficos interactivos en el cuadro complementario 1.

La prueba t para una muestra se utiliza para determinar si nuestras muestras podrían provenir de una distribución con una media dada (por ejemplo, para comparar la media de la muestra en un valor fijo putativo m) y para construir intervalos de confianza para la media. Al parecer, en muchos contextos, como la medición de la expresión de proteínas, la cantidad de fármaco suministrado por un medicamento o el peso de los cereales en su caja de cereal. Los conceptos que subyacen a esta prueba son una base importante para columnas futuras en las que vamos a hablar de las comparaciones entre las muestras que son omnipresentes en la literatura científica."




"Octubre: Barras de Error

Martin Krzywinski & Naomi Altman

Nature Methods,10, 921-922 (2013). doi:10.1038/nmeth.2659

El significado de las barras de error es normalmente mal interpretado al igual que la significancia estadística de su solapamiento.


El mes pasado en Points of Significance, mostramos cómo se utilizan las muestras para estimar las estadísticas de la población. Hemos enfatizado en que, debido al azar, nuestras estimaciones tienen un grado de incertidumbre. Este mes nos centramos en cómo se representa la incertidumbre en las publicaciones científicas y mostramos varias maneras en las que se malinterpretan con frecuencia.

La incertidumbre en las estimaciones se representada habitualmente usando las barras de error. Aunque la mayoría de los investigadores han visto y utilizado barras de error, los conceptos erróneos persisten acerca de cómo las barras de error se refieren a la significación estadística. Cuando se les pidió que estimaran la separación requerida entre dos puntos con barras de error para una diferencia significativa de p = 0.05, sólo el 22% de los encuestados estaban dentro de un factor de 2 (ref. 1). A la luz del hecho de que las barras de error son para ayudar a evaluar la significancia de la diferencia entre dos valores, esta observación es desalentadora y preocupante.

Aquí ilustramos las diferencias de las barras de error con ejemplos basados ​​en una situación simplificada en la cual los valores son medias de muestras independientes (no relacionadas) del mismo tamaño y dibujado en poblaciones normales con la misma dispersión. Calculamos la significancia de la diferencia en las medias de la muestra utilizando la prueba t de dos muestras y reportamos con el familiar valor p. Aunque la presentación del valor P exacto se prefiere, convencionalmente, la significancia con frecuencia se evalúa a la luz de un umbral de P = 0,05. Vamos a discutir los valores de p y la prueba t con más detalle en una columna posterior.

La importancia de distinguir el tipo de barra de error se muestra en la Figura 1, en la que los tres tipos más comunes de barras de error —desviación estandar (s.d.), el error estándar de la media (s.e.m.) y el intervalo de confianza (IC)— muestra la dispersión en los valores de dos muestras de tamaño n = 10 junto con el valor p de la diferencia en las medias de la muestra. En la Figura 1a, simulamos las muestras de modo que cada tipo de barra de error tenga la misma longitud, elegidas para que sean exactas. Aunque estos tres pares de datos y sus barras de error son visualmente idénticos, cada uno representa un escenario de datos diferente con un valor de p diferente. En la Figura 1b fijamos el valor de p = 0,05 y mostramos la longitud de cada tipo de barra para este nivel de significancia. En este último escenario, cada uno de los tres pares de puntos representa el mismo par de muestras, pero las barras tienen diferentes longitudes, ya que indican diferentes propiedades estadísticas de los mismos datos. Y debido a que cada barra tienen una longitud diferente es probable interpretar a cada una de manera muy diferente. En general, una espacio entre las barras no asegura significancia ni el solapamiento las descarta, esto depende del tipo de barra. Es probable que usted se sorprenda al saber este resultado poco intuitivo.

Figure 1: Error bar width and interpretation of spacing depends on the error bar type. (a,b) Example graphs are based on sample means of 0 and 1 (n = 10). (a) When bars are scaled to the same size and abut, P values span a wide range. When s.e.m. bars touch, P is large (P = 0.17). (b) Bar size and relative position vary greatly at the conventional P value significance cutoff of 0.05, at which bars may overlap or have a gap.

El primer paso para evitar la mala interpretación es tener claro cuál es la medida de incertidumbre que está siendo representada por la barra de error. En 2012, las barras de error aparecieron en Nature Methods en cerca de dos tercios de los paneles de figuras en las que se podrían esperar (gráficos de barras y de puntos). El tipo de barras de error se dividió casi por igual entre barras s.d. y s.e.m. (45% frente a 49%, respectivamente). En el 5% de los casos no se especificó el tipo de barra de error en la leyenda. Sólo uno figura utilizó las barras en función del IC del 95%. Los IC son una medida más intuitiva de incertidumbre y son muy populares en la literatura médica.

Las barras de error basadas en s.d. nos informan acerca de la dispersión de la población y por lo tanto son útiles como predictores del rango de las nuevas muestras. También pueden ser utilizadas para llamar la atención sobre diferencias en las dispersiones muy grandes o muy pequeñas. Debido a que las barras de s.d. solo admiten evaluación visual de las diferencias en los valores, si decide usarlas, deberá estar dispuesto a ayudar a su lector a comprender que las barras de s.d. reflejan la variación de los datos y no el error en la medición. ¿Qué debería un lector concluir de la s.d. muy grande y superposición barras de error para p = 0,05 en la Figura 1B? que aunque las medias difieren, y esto se pueden detectar con un tamaño de la muestra suficientemente grande, hay una considerable superposición en los datos de las dos poblaciones. 

A diferencia de las barras de s.d. las barras de error basadas ​​en la s.e.m. reflejan la incertidumbre de la media y su dependencia del tamaño de la muestra, n (s.e.m. = s.d./ √n ). Intuitivamente, las barras de error de s.e.m. se encogen mientras se llevan a cabo más mediciones. Por desgracia, la opinión generalizada de que "si las barras s.e.m no se superponen, la diferencia entre los valores es estadísticamente significativa" es incorrecta. Por ejemplo, cuando n = 10 y las barras de s.e.m apenas se tocan, p = 0,17 (Fig. 1a). Deforma contraria, para llegar a p = 0,05, las barras de error de s.e.m. para estos datos deben estar a unos 0,86 longitudes de distancia (Fig. 1b). No podemos exagerar la importancia de reconocer la diferencia entre s.d. y s.e.m.

El tercer tipo de barras de error que es probable se encuentre es el basado en el CI. Se trata de una estimación del intervalo que indica la fiabilidad de una medición. Cuando se escala a un nivel de confianza (CI%) —el IC del 95% es común— la barra captura el CI% de la media poblacional (Fig. 2a). El tamaño de s.e.m. se compara con el CI del 95% en la Figura 2b. Los dos están relacionados por la prueba t, y en grandes muestras la barra s.e.m. puede ser interpretado como un IC con un nivel de confianza de 67%. El tamaño del CI depende de n; dos aproximaciones útiles para el CI son 95% CI ≈ 4 × s.e.m. (n = 3) y 95% CI ≈ 2 × SEM (n > 15). Un error común acerca de CI es la expectativa de que CI capta la media de una segunda muestra extraída de la misma población con CI%. Debido a la posición y el tamaño de CI varían con cada muestra, esta oportunidad es en realidad baja.

Figure 2: The size and position of confidence intervals depend on the sample. On average, CI% of intervals are expected to span the mean—about 19 in 20 times for 95% CI. (a) Means and 95% CIs of 20 samples (n = 10) drawn from a normal population with mean m and s.d. σ. By chance, two of the intervals (red) do not capture the mean. (b) Relationship between s.e.m. and 95% CI error bars with increasing n.
Esta variedad en las barras puede ser abrumadora, y relacionar visualmente su posición en relación con una medida de significancia es un reto. Proporcionamos una referencia de espacio entre barras de error para valores de p comunes en la Figura 3. Observe que p = 0,05 no se alcanza hasta que las barras s.e.m. están separadas por aproximadamente 1 s.e.m., mientras que las barras de CI de 95% son más generosos y pueden superponerse tanto como 50% y aún indican una diferencia significativa. Si las barras de error de CI sólo se tocan, el resultado es altamente significativo (p = 0,005). Todas las figuras se pueden reproducir utilizando la hoja de cálculo disponible en el cuadro complementario 1, con la que se puede explorar la relación entre el tamaño de la barra de error, brecha y valor p. 

Figure 3: Size and position of s.e.m. and 95% CI error bars for common P values. Examples are based on sample means of 0 and 1 (n = 10).

Tenga cuidado con las barras de error para las muestras pequeñas —ya que no son sólidos, como lo demuestra la fuerte disminución en el tamaño de las barras de CI en ese régimen (Fig. 2b). En estos casos (por ejemplo, n = 3), es mejor para mostrar los valores de datos individuales. Por otra parte, cuando se trata de muestras que están relacionados (por ejemplo, a la par, como antes y después del tratamiento), se necesitan otros tipos de barras de error, lo que vamos a discutir en una columna futura. 

Parece, por lo tanto, que ninguno de los tipos de barras de error es intuitivo. Una alternativa es seleccionar un valor del %CI para la cual las barras se tocan en un valor p deseado (por ejemplo, 83% las barras de CI se tocan a p = 0.05). Desafortunadamente, debido al peso de la convención existente, todos los tres tipos de barras seguirá siendo utilizado. Con nuestros consejos, esperamos que tenga más argumentos al interpretarlas."




"Septiembre: La importancia de ser incierto

Martin Krzywinski & Naomi Altman

Nature Methods,10, 809-810 (2013). doi:10.1038/nmeth.2613

La estadística no nos dicen si estamos en lo cierto. Nos dice la probabilidad de equivocarse.

Cuando se reproduce un experimento casi nunca se obtienen exactamente los mismos resultados. En lugar de esto, mediciones repetidas abarcan un rango de valores debido a los límites de variabilidad biológica y precisión del equipo de medida. Pero si los resultados son diferentes cada vez ¿cómo podemos determinar si una medida es compatible con nuestra hipótesis? En "la gran tragedia de la Ciencia el asesinato de una bella hipótesis por un hecho feo", ¿cómo se mide 'fealdad'?

La estadística nos ayuda a responder esta pregunta. Nos da una forma de modelar cuantitativamente el papel del azar en nuestros experimentos y representar los datos no como mediciones precisas sino como estimaciones con error. También nos dice cómo el error en los valores de entrada se propaga a través de los cálculos. La aplicación práctica de este marco teórico es asociar la incertidumbre al resultado de los experimentos y asignar los niveles de confianza a las declaraciones que generalizan más allá de las observaciones.

Aunque muchos de los conceptos fundamentales en la estadística se pueden entender de forma intuitiva, debemos reconocer los límites de nuestra intuición al pensar en el azar y probabilidad. El problema de Monty Hall es un ejemplo clásico de cómo la respuesta equivocada puede aparecer demasiado rápido y demasiado creíble ante nuestros ojos. Un concursante se le da una opción de tres puertas, sólo una conduce a un premio. Después de seleccionar una puerta (por ejemplo, puerta 1), el anfitrión abre una de las otras dos puertas que no conducen a un premio (por ejemplo, la puerta 2) y le da al participante la opción de cambiar su selección de puertas (por ejemplo, puerta 3). La pregunta inquietante es si el concursante debería cambiar. La respuesta es sí, pero ud debería estar en buena compañía si ud pensó lo contrario. Cuando la solución se publicó en la revista Parade, miles de lectores (muchos de ellos con doctorado) escribieron en que la respuesta era equivocada. Comentarios variaron desde "cometiste un error, pero mira el lado positivo. Si todos esos doctores estaban equivocados, el país estaría en problemas muy graves" a "debo admitir haber dudado de ti hasta que mi clase de quinto grado de matemáticas le ha dado la razón"

La columna Points of Significance te ayudará a ir más allá de una comprensión intuitiva de la estadística fundamental relacionada con su trabajo. El objetivo será abordar la observación de que "aproximadamente la mitad de los artículos publicados en las revistas médicas que utilizan métodos estadísticos lo hacen de forma incorrecta". Nuestra presentación será práctica y convincente, con el foco en los conceptos fundamentales, consejos prácticos e ideas falsas comunes. Una hoja de cálculo acompañará a cada columna para demostrar los cálculos (Cuadro 1). No te vamos a agotar con las matemáticas. 

La estadística se pueden dividir en dos categorías: descriptiva e inferencial. La primera resume las principales características de un conjunto de datos con medidas tales como la media y la desviación estándar (s.d.). El segundo generaliza a partir de los datos observados para el mundo en general. Ambos sustentan los conceptos de muestreo y estimación, que abordan el proceso de recolección de datos y la cuantificación de la incertidumbre en estas generalizaciones. 

Para hablar sobre el muestreo, es necesario introducir el concepto de una població , que es el conjunto de las entidades sobre las que hacemos inferencias. El histograma de frecuencias de todos los valores posibles de una variable experimental se llama la distribución de la población (Fig. 1a). Estamos interesados ​​normalmente en inferir la media (μ) y la s.d. (σ) de una población, dos medidas que caracterizan a su ubicación y la dispersión (Fig. 1b). La media se calcula como la media aritmética de los valores y puede ser indebidamente influenciada por los valores extremos. La mediana es una medida más robusta de la ubicación y más adecuada para las distribuciones que están sesgadas o de otro modo de forma irregular. La s.d. se calcula basándose en el cuadrado de la distancia de cada valor de la media. A menudo aparece como la varianza (σ2) debido a que sus propiedades son matemáticamente más fáciles de formular. La s.d. no es una medida intuitiva y las reglas empíricas nos ayudan en su interpretación. Por ejemplo, para una distribución normal, 39%, 68%, 95% y 99,7% de los valores caen dentro de ± 0.5σ, ± 1σ, ± 2σ y ± 3σ. Estos puntos de corte no se aplican a las poblaciones que no se aproximan a la distribución normal, cuya dispersión es más fácil de interpretar utilizando el rango intercuartil.

Figure 1: The mean and s.d. are commonly used to characterize the location and spread of a distribution. When referring to a population, these measures are denoted by the symbols μ and σ.
Las limitaciones fisicas y prácticas limitan nuestro acceso a la población: no podemos medir directamente su media (μ) y s.d. (σ). Lo mejor que podemos hacer es estimar utilizando nuestros datos recogidos a través del proceso de toma de muestras (Fig. 2). Incluso si la población se limita a un intervalo estrecho de valores, por ejemplo entre 0 y 30 (fig. 2a), la naturaleza aleatoria de muestreo impartirá incertidumbre a nuestra estimación de su forma. Las muestras son conjuntos de datos extraídos de la población (Fig. 2b), caracterizado por el número de datos n, generalmente denotado por X e indexado por un subíndice numérico (X1). Muestras más grandes se aproximan mejor a la población.

Figure 2: Population parameters are estimated by sampling. (a) Frequency histogram of the values in a population. (b) Three representative samples taken from the population in a, with their sample means. (c) Frequency histogram of means of all possible samples of size n = 5 taken from the population in a.
Para mantener la validez, la muestra debe ser representativa de la población. Una forma de lograr esto es con una muestra aleatoria simple, en donde todos los valores de la población tienen la misma probabilidad de ser seleccionados en cada etapa del proceso de muestreo. La representatividad no significa que la muestra sea una réplica en miniatura de la población. En general, una muestra no se asemejan a la población a menos que n sea muy grande. Cuando se construye una muestra, no siempre es fácil determinar si está libre de sesgo. Por ejemplo, las encuestas por muestreo sólo se tienen los datos de los individuos que aceptaron participar y no capturan la información sobre los que se negaban. Estos dos grupos pueden ser significativamente diferentes. 

Las muestras son nuestras ventanas a la población, y la estadística se utiliza para estimar los valores de la población. La media de la muestra y s.d. se denota por X̅ y s. La distinción entre la muestra y las variables de población se destaca por el uso de las letras romanas para las muestras y las letras griegas de la población (s contra σ).

Los parámetros de la muestra, tales como X̅ tienen su propia distribución, llamada la distribución de muestreo (Fig. 2c), que se construye teniendo en cuenta todas las posibles muestras de un tamaño determinado. Los parámetros de la distribución de la muestra están marcados con un subíndice de la variable de la muestra asociada (por ejemplo, μX̅ y σX̅ son la media y la desviación estándar de las medias de la muestra de todas las muestras). Al igual que la población, la distribución muestral no es directamente medible, porque no tenemos acceso a todas las muestras posibles. Sin embargo, resulta ser un concepto extremadamente útil en el proceso de estimación de las estadísticas de población.

Observe que la distribución de la media de la muestra en la Figura 2c se ve muy diferente de la población en la Figura 2a. De hecho, parece similar en forma a una distribución normal. Observe también que su dispersión, σX̅, es un poco más pequeño que el de la población, σ. A pesar de estas diferencias, las distribuciones de la población y muestreo están íntimamente relacionados. Esta relación es capturada por una de las afirmaciones más importantes y fundamentales en la estadística, el teorema del límite central (CLT).

El CLT nos dice que la distribución de la media de la muestra (Fig. 2c) será cada vez más cerca de una distribución normal conforme aumenta el tamaño de la muestra, independientemente de la forma de la distribución de la población (Fig. 2a), de la misma forma la frecuencia de los valores extremos cae rápidamente. El CLT se refiere también parámetros de la población y distribución de la muestra por μX̅ = μ y σ = σX̅/√n. Los términos de la segunda relación se confunden a menudo: σX̅ es la dispersión de la media de la muestra, y σ es la dispersión de la población subyacente. A medida que aumenta n, σX̅ disminuirá (nuestras muestras tendrán medias más similares), pero σ no va a cambiar (muestreo no tiene efecto en la población). La medida de dispersión de la media de la muestra también se conoce como el error estándar de la media (s.e.m., SEX̅) y se utiliza para estimar σX̅. 

Una demostración del CLT para diferentes distribuciones de la población (Fig. 3) cualitativamente muestran el aumento de la precisión de nuestra estimación de la media de la población con el aumento de tamaño de la muestra. Tenga en cuenta que todavía es posible para una media de muestra caer lejos de la media de la población, especialmente para los n pequeños. Por ejemplo, en diez repeticiones de dibujo 10.000 muestras de tamaño n = 3 de la distribución irregular, el número de veces que la media de la muestra quedaba fuera μ ± σ (indicada por líneas de puntos verticales en la fig. 3) varió de 7,6% a 8,6% . Por lo tanto, tenga cuidado cuando interpreta medias de muestras pequeñas.

Figure 3: The distribution of sample means from most distributions will be approximately normally distributed. Shown are sampling distributions of sample means for 10,000 samples for indicated sample sizes drawn from four different distributions. Mean and s.d. are indicated as in Figure 1.
Siempre tenga en cuenta que sus mediciones son estimaciones, que no se debe dotar con "un aura de exactitud y firmeza". La omnipresencia de la variabilidad se asegurará de que cada muestra sea diferente. Por otra parte, como consecuencia del factor de proporcionalidad 1/√n en la CLT, el aumento en la precisión de la estimación de una muestra de la población es mucho más lento que el ritmo de recolección de datos. En la Figura 4 se ilustra esta variabilidad y convergencia para tres muestras extraídas de la distribución en la figura 2a, conforme su tamaño se incrementa progresivamente a partir de n = 1 a n = 100. Fíjense en los dos efectos y su papel en la reducción del impacto de las medidas adicionales: para duplicar su precisión, debe recoger cuatro veces más datos.

Figure 4: The mean (X̅), s. d. (s) and s.e.m. of three samples of increasing size drawn from the distribution in Figure 2a. As n is increased, X̅ and s more closely approximate μ and σ. The s.e.m. (s/√n) is an estimate of sX̅ and measures how well the sample mean approximates the population mean.
El mes que viene vamos a seguir con el tema de la estimación y discutir cómo la incertidumbre puede estar delimitado con intervalos de confianza y se visualiza con barras de error."

--César Acevedo-Triana--

No hay comentarios:

Publicar un comentario