FUENTES DE INVALIDACIÓN INTERNA (AMPLIACIÓN Y
EJEMPLIFICACIÓN)
En el libro impreso se describieron estas fuentes y se mencionó que se deben eliminar mediante el control, lo que León y Montero (2003) denominan: “descartar causas alternativas”. A continuación se amplían y ejemplifican.
1. Historia. Son acontecimientos que ocurren durante el desarrollo del experimento, que pueden afectar a la variable dependiente y llegan a confundir los resultados experimentales. Diferencias en la variable dependiente pueden atribuirse a la manipulación de la independiente o al acontecimiento que ocurrió durante el experimento.
2. Maduración. Son procesos internos de los participantes que operan como consecuencia del tiempo y afectan los resultados del experimento, tales como cansancio, hambre, aburrimiento, aumento en la edad y cuestiones similares. Si a un grupo de niños se le expone a un nuevo método de aprendizaje por dos años, los resultados pueden estar influidos simplemente por la maduración de los infantes durante el tiempo que persistió el experimento. En un experimento quizá los sujetos se cansen y sus respuestas sean afectadas por ello. Si tenemos dos grupos y la condición experimental del primero implica mucho más tiempo que la del segundo, puede afectar esta fuente.
3. Inestabilidad del instrumento de medición. Poca o nula confiabilidad de las mediciones, que provoca desconfianza en las puntuaciones obtenidas, no sabemos si las deducciones son certeras, el instrumento a veces da unos resultados y luego, otros. Esto se evita diseñando instrumentos válidos y confiables.
4. Inestabilidad del ambiente experimental. Las condiciones o componentes del ambiente o entorno del
experimento pueden ser desiguales para todos los grupos participantes. Imaginemos que en un experimento sobre memorización se tienen dos grupos, y al sortearlos a uno le corresponde realizarlo en un aula cerca de donde se efectúa una remodelación del edificio y al otro, en un aula lejos de tal
remodelación. Si el experimento requiriera de elevada concentración por parte de los individuos que participan en él, pudiera ser que la concentración de un grupo fuera diferente de la del otro (a causa del ruido, del tránsito de personas, etc.), y ello afectara la interpretación de los resultados. Tal vez las diferencias en los grupos se deban a variaciones en la concentración y no a la variable independiente, o es posible que ésta sí tenga un efecto; pero no podamos estar seguros de ello. No tenemos confianza en los resultados.
5. Administración de pruebas. Se refiere al efecto que puede tener la aplicación de una prueba sobre las puntuaciones de pruebas subsecuentes. Por ejemplo, si en un experimento sobre prejuicio en el cual tenemos un grupo al que se le aplica una prueba para detectar su nivel de prejuicio, luego se le expone a un estímuloexperimental (que supuestamente debe reducir el prejuicio), y después se vuelve a medir el prejuicio para evaluar si disminuyó o no. Puede ocurrir que las puntuaciones de prejuicio de la segunda medición (después del estímulo) sean influidas por la aplicación de la primera prueba sobre prejuicio (antes del estímulo). Es decir, la administración de la primera medición puede sensibilizar a los participantes del experimento y, cuando respondan a la segunda prueba, sus respuestas estarían afectadas por esa sensibilización. Si disminuye el prejuicio y no hay control, no sabremos cuánto se debió al estímulo
experimental o a la variable independiente, y cuánto a dicha sensibilización.
6. Instrumentación. Hace referencia a cambios en los instrumentos de medición o en los observadores, los cuales son capaces de producir variaciones en los resultados que se obtengan. Si la prueba del grupo experimental es diferente a la del grupo de control u otro grupo experimental, puede intervenir la instrumentación. Por ejemplo, si queremos ver el efecto de dos diferentes métodos de enseñanza, a un grupo lo exponemos a un método, mientras que a otro grupo al otro método; y después aplicamos un examen de conocimientos para ver la eficacia de cada método y comparar los resultados. Si los exámenes no fueran equivalentes podría presentarse esta fuente.
7. Regresión estadística. Se refiere a que a veces seleccionamos participantes sobre la base de puntuaciones extremas y cuando se miden por primera vez se encuentran en valores muy altos o bajos en la variable que nos interesa, después tienden a regresar a su estado normal, y en una segunda medición obtienen valores no extremos; la comparación entre las dos mediciones indica un cambio,
pero en realidad lo que ocurre es que los medimos cuando su condición en la variable era extrema.
En términos de Campbell y Stanley (1966, pp. 24‐28): “se trata de un efecto provocado por una tendencia que muestran los y las participantes seleccionados sobre la base de puntuaciones extremas, al regresar en pruebas posteriores, a un promedio en la variable en la que fueron elegidos”.
La regresión estadística representa el hecho de que puntuaciones extremas en una distribución particular tenderán a desplazarse (esto es, regresar) hacia el promedio de la distribución en función de mediciones repetidas (Christensen,2006). Entre una primera y una segunda mediciones, las puntuaciones más altas tienden a bajar y las más bajas a aumentar. En ocasiones, este fenómeno de regresión se presenta porque ambas mediciones no están adecuadamente correlacionadas.
8. Selección. Puede presentarse al elegir a las personas para los grupos del experimento, de tal manera que los grupos no sean equiparables. Es decir, si no se escogen los participantes de los grupos asegurándose su equivalencia, la selección resultaría tendenciosa. Por ejemplo, en un experimento sobre métodos educativos, si en un grupo se incluyen a los estudiantes más inteligentes y estudiosos; y en otro grupo a los estudiantes menos inteligentes y estudiosos, las diferencias entre los grupos se deberán a una selección tendenciosa, aparte del tratamiento experimental o variable independiente.
9. Mortalidad experimental. Se refiere a diferencias en la pérdida de participantes entre los grupos que se comparan. Si en un grupo se pierde 25% de los participantes y en otro grupo sólo 2%, los resultados se verían influidos por ello, además de por el tratamiento experimental. La pérdida de participantes puede deberse a diversas razones, una de ellas es la desmoralización (Grinnell, Williams y Unrau, 2009), por lo que algunos autores la incluyen como una fuente de invalidación interna por sí misma. Imaginemos un experimento que utiliza como estímulo un programa de televisión antisocial que ha sido visto por una tercera parte del grupo al que se le expondrá, mientras que al otro grupo se le
expone a un programa prosocial que nadie ha visto. Condiciones agresivas, dolorosas, de cansancio, etc., pueden provocar mortalidad diferencial en los grupos, y ésta puede ocurrir no sólo por el experimento en sí, sino por el tipo de personas que componen cada grupo o por factores externos al experimento.
EJEMPLO DE LA TÉCNICA DE EMPAREJAMIENTO EN EXPERIMENTOS
Siguiendo lo que se expuso en el capítulo 7 del libro impreso sobre el emparejamiento, a continuación presentamos un ejemplo con dos grupos.
Suponga que se tuvieran 16 personas para un experimento sobre desempeño académico (recuerde la sugerencia de tener 15 o más en cada grupo; aquí se incluyen 16 únicamente para no hacer muy largo el caso); y se tuviera un grupo experimental al cual se le dará un estímulo (50% de beca para sus estudios universitarios) y un grupo de control (no se le otorga ninguna beca). La variable
dependiente sería tal desempeño académico, medido por el promedio de sus calificaciones en todas las asignaturas. Los estudiantes se ordenarían de la siguiente manera:
Hasta ahora, el grupo 1 lleva dos puntos más que el grupo 2 (grupo 1 = 248, grupo 2 = 246). Hay que compensarlo.
Hasta aquí se ha conservado el balance entre los grupos, van a la par (grupo 1 = 477 y grupo 2 = 477).
Son grupos equivalentes en cuanto a la variable deseada. Este procedimiento puede extenderse a más de dos grupos (si se trata de tres grupos, en lugar de parejas se va emparejando por tercias, con cuatro grupos por cuartetos, etcétera). Respecto al emparejamiento debemos recordar lo señalado en el texto
impreso: la asignación al azar es el mejor método para hacer equivalentes los grupos (más preciso y confiable). El emparejamiento no la sustituye por completo. Éste llega a suprimir o eliminar el posible efecto de la variable apareada, pero nunca nos asegura que otras variables (no apareadas) no vayan a afectar los resultados del experimento. En cambio, la asignación aleatoria garantiza que otras variables (además de la o las variables independientes de interés para el investigador) no afecten las dependientes ni confundan al experimentador. Como comentan Nunnally y Bernstein (1994), la bondad de la asignación al azar de los participantes o sujetos a los grupos de un diseño experimental es que el procedimiento asegura absolutamente que, en promedio, los grupos no diferirán (antes de que participen en
los tratamientos experimentales) en ninguna característica más de lo que pudiera esperarse por pura casualidad.
DISEÑOS EXPERIMENTALES DE SERIES CRONOLÓGICAS MÚLTIPLES
Cuando el experimentador se interesa en analizar efectos en el mediano o largo plazo, porque tiene bases para suponer que la influencia de la variable independiente sobre la dependiente tarda en manifestarse. Por ejemplo, programas de difusión de innovaciones, métodos educativos o estrategias de las psicoterapias. En tales casos, es conveniente adoptar diseños con varias pospruebas. A estos diseños
se les conoce como series cronológicas experimentales. En realidad, el término “serie cronológica” se aplica a cualquier diseño que efectúe varias observaciones o mediciones sobre una variable a través del tiempo, sea o no experimental, sólo que en este caso se les llama experimentales porque reúnen los requisitos para serlo.
En estos diseños de series cronológicas se controlan todas las fuentes de invalidación interna, siempre y cuando se lleve a cabo un seguimiento minucioso de los grupos, para asegurarse de que la única diferencia entre ellos sea la manipulación de la variable independiente. En algunos casos, llega a haber una influencia de la repetición de las mediciones sobre la variable dependiente (administración de pruebas múltiples), sobre todo en las pruebas donde el individuo participa activamente y sabe que está respondiendo a una prueba (cuestionarios, entrevistas, tests estandarizados); no tanto así en las mediciones en las que el participante es más pasivo y no se encuentra consciente de qué se le mide (por ejemplo, la observación). De cualquier manera, en caso de que exista dicha influencia, se
presentará de forma similar en todos los grupos (porque son equivalentes y el número de pruebas aplicadas es el mismo).
Diseños de series cronológicas con repetición del estímulo
En ocasiones, el investigador anticipa que el tratamiento o estímulo experimental no tiene efecto o es mínimo si se aplica una sola vez, tal como sería hacer ejercicio físico un sólo día (no se esperaría un cambio en la musculatura); o como sería consumir vitaminas por una única vez. También en ocasiones el investigador quiere conocer el efecto sobre las variables dependientes cada ocasión que se aplica el estímulo
experimental.
Por ejemplo, en técnicas de condicionamiento es común que uno se cuestione:
¿cuántas veces debo aplicar el reforzamiento a una conducta para lograr condicionar la respuesta a un estímulo? En estos casos es posible repetir el tratamiento experimental y administrar una posprueba después de cada aplicación, para evaluar su efecto.
Diseños con tratamientos múltiples
A veces el investigador desea analizar el efecto de la aplicación de los distintos tratamientos experimentales a todos los grupos o participantes. En estos casos es posible utilizar los diseños con tratamientos múltiples. La aplicación de tratamientos puede ser individual o en un grupo y hay distintas variaciones:
a) Varios grupos. En este caso, se tienen varios grupos a los cuales se asignan los sujetos o participantes al azar. A cada grupo se le aplican todos los tratamientos. La secuencia de la aplicación de tratamientos puede o no ser la misma para todos los grupos y es posible administrar una o más pospruebas a los grupos (posteriores a cada tratamiento experimental).
b) Con secuencia diferente. El experimentador debe tener cuidado al interpretar las segundas pospruebas y mediciones subsecuentes, ya que quizás exista una influencia diferente en los grupos provocada por distintas secuencias de los tratamientos. De hecho, durante el experimento es muy probable que haya diferencias entre grupos, incluso al finalizar el experimento los resultados se deban,
en buena medida, a la secuencia con que fueron administrados los tratamientos. Los diseños experimentales con tratamientos múltiples y secuencia diferente en los grupos, llegan a tener distintos efectos que deben analizarse con minuciosidad. Algunos tratamientos tienen efectos reversibles; en esta situación no hay interferencia entre tratamientos y las pospruebas se ven influidas únicamente por el tratamiento inmediato anterior.
b) Un solo grupo. En situaciones donde sólo se cuenta con un número reducido de
participantes para el experimento, es posible realizar un diseño con tratamientos múltiples y un solo grupo. No hay asignación al azar puesto que se tiene a un único grupo. La equivalencia se obtiene puesto que no hay nada más similar a un grupo que este mismo. El grupo hace las veces de “grupos experimentales” y de “control”.
DISEÑOS FACTORIALES
Los diseños factoriales manipulan dos o más variables independientes e incluyen dos o más niveles de presencia en cada una de las variables independientes. Se utilizan muy a menudo en la investigación del comportamiento. La construcción básica de un diseño factorial consiste en que todos los niveles de cada variable independiente sean tomados en combinación con todos los niveles de las otras variables independientes (Wiersma y Jurs, 2008).
El diseño factorial más simple manipula (hace variar) dos variables, cada una con dos niveles. A este diseño se le conoce como “diseño factorial 2 X 2”, en donde el número de dígitos indica el número de variables independientes.
El valor numérico de cada dígito indica el número de niveles o modalidades de la variable independiente en cuestión. En este caso es “2”, lo cual quiere decir que cada una de las variables tiene dos niveles. Como mencionan Wiersma y Jurs (2008), no es necesario que los valores numéricos sean los mismos para todas las variables independientes. En teoría, puede haber cualquier número de variables independientes con cualquier número de niveles cada una. Por ejemplo, el diseño factorial 2 X 2 X 3 indica que hay tres variables independientes, la primera y la segunda con dos niveles, mientras que la tercera con tres niveles. El diseño factorial 4 X 5 X 2 X 3 indica una variable independiente con cuatro niveles, otra con cinco, otra más con dos y una última con tres. Un ejemplo de un diseño factorial 2 X 2 sería tener como variables independientes “método de enseñanza” y “género”. La primera con dos niveles:
“método de enseñanza tradicional‐oral” y “método de enseñanza por medio de video”. La segunda con los niveles “masculino” y “femenino”.
Utilidad de los diseños factoriales
Los diseños factoriales son sumamente útiles porque permiten al investigador evaluar los efectos de cada variable independiente sobre la dependiente por separado, así como los efectos de las variables independientes de manera conjunta. Por medio de estos diseños se observan los efectos de interacción entre las variables independientes.
En términos de Wiersma y Jurs (2008), la interacción es un efecto producido sobre la variable dependiente, de tal manera que el efecto de una variable independiente deja de permanecer constante en los niveles de la otra u otras independientes. El efecto de interacción está presente si el efecto conjunto de las variables independientes no es igual a sus efectos por separado (aditivos). Ello significa que el efecto de una variable independiente por sí mismo no es igual que cuando se toma en combinación con los niveles de otra variable independiente. Por ejemplo, si el alto contenido de violencia televisada afecta sólo cuando hay orientación sobre el programa por parte de la madre, pero no cuando dicha orientación está a cargo del padre o de ambos.
Así, hay dos tipos de efectos que es posible evaluar en los diseños factoriales: los efectos de cada variable independiente (llamados efectos principales) y los efectos de interacción entre dos o más variables independientes (si se tienen cuatro variables, por ejemplo, pueden interactuar dos entre sí y otras dos entre sí, o pueden interactuar tres o las cuatro variables independientes).
Métodos estadísticos de los diseños factoriales
Los métodos estadísticos más usuales para estos diseños son el análisis de varianza factorial (ANOVA) y el análisis de covarianza (ANCOVA), con la variable dependiente medida en intervalos, y la chicuadrada (c2) para múltiples grupos, con esa variable medida nominalmente. Por último, a estos diseños se les pueden agregar más variables dependientes (tener dos o más) y se convierten en diseños multivariados experimentales que utilizan como método estadístico el análisis multivariado de varianza (MANOVA).
¿QUÉ OTROS EXPERIMENTOS EXISTEN?:
CUASIEXPERIMENTOS
Ya se comentó, en el capítulo 7 del libro, que los diseños cuasiexperimentales también manipulan deliberadamente una o más variables independientes para observar su efecto y relación con una o varias dependientes, sólo que trabajan con “grupos intactos”, formados por motivos ajenos al experimento: en los diseños cuasiexperimentales los participantes no se asignan al azar a los grupos ni se emparejan, sino que dichos grupos ya estaban integrados previamente al experimento.
Problema de los diseños cuasiexperimentales
Estos diseños se utilizan cuando no es posible asignar en forma aleatoria los participantes a los grupos que recibirán los tratamientos experimentales. La falta de aleatorización introduce posibles problemas de validez interna y externa. Como comenta Weiss (1990, p. 89):
[…]estos diseños deben luchar con la selección como fuente posible de
interpretación equivocada, lo mismo que con la interacción de la selección y
otros factores; así como, posiblemente, con los efectos de la regresión.
Asimismo, diversos elementos pudieron operar en la formación de los grupos (que no están bajo el control del investigador), que impiden afirmar que éstos son representativos de poblaciones más amplias. De este modo, dado que su validez es menor que la de los experimentos “puros”, reciben el nombre de cuasiexperimentos. A causa de los problemas potenciales de validez interna, en estos diseños el
investigador debe intentar establecer la semejanza entre los grupos; esto requiere considerar las características o variables que estén relacionadas con las variables estudiadas (Wiersma y Jurs, 2008; Babbie, 2009).
La ausencia de asignación al azar hace que se ponga especial atención al interpretar los resultados y se tenga sumo cuidado de no caer en interpretaciones erróneas. Las limitaciones deben identificarse con claridad, la equivalencia de los grupos debe discutirse y la posibilidad de generalizar los resultados, así como la representatividad, deberán argumentarse sobre una base lógica (Wiersma y Jurs, 2008).
Los cuasiexperimentos difieren de los experimentos “puros” en la equivalencia inicial de los grupos (los primeros trabajan con grupos intactos y los segundos utilizan un método para hacer equivalentes a los grupos).
Tipos de diseños cuasiexperimentales
1. Diseño con posprueba únicamente y grupos intactos.
Este primer diseño utiliza dos grupos: uno recibe el tratamiento experimental y el otro no. Los grupos son comparados en la posprueba para analizar si el tratamiento experimental tuvo un efecto sobre la variable dependiente (01 con 02). Observe que si los grupos no son equiparables entre sí, las diferencias en las pospruebas de ambos grupos se atribuirían a la variable independiente, pero también a otras razones diferentes, lo peor es que el investigador quizá no se dé cuenta de ello.
2. Diseño con pruebaposprueba y grupos intactos (uno de ellos de control).
Este diseño es similar al que incluye posprueba únicamente y grupos intactos, sólo que en este caso a los grupos se les administra una preprueba, la cual puede servir para verificar la equivalencia inicial de los grupos (si son equiparables no debe haber diferencias significativas entre las prepruebas de los grupos).
TIPOS DE VARIABLES EN EXPERIMENTOS
Y CUASIEXPERIMENTOS
Como complemento a lo que se menciona en el libro sobre variables y experimentos, únicamente queremos ahondar un poco sobre los tipos de variables en los diseños experimentales y cuasiexperimentales. Los principales tipos de variables son:
1. Independiente: tratamiento experimental que provoca efectos (causa).
2. Dependiente: efecto o consecuencia (provocado o provocada por el tratamiento o variable independiente).
3. Interviniente: moderador de la relación causal entre la variable independiente y dependiente. Si no se conoce su efecto o no se controla, el experimento puede invalidarse.
4. Explicaciones rivales o fuentes de invalidación interna (pueden ser variables independientes o intervinientes): su influencia debe conocerse o controlarse, de no ser así, el experimento puede invalidarse. Asimismo, es factible que se combine con otras variables para afectar a la dependiente.
5. Variable de control: influye en la dependiente, pero es neutralizada por el diseño o por los procedimientos estadísticos.
Coloque un ejemplo de matching (emparejamiento) incluido en el libro de Roberto Hernandez debido a una duda expresada por uno de sus compañeros al finalizar la clase del dia de hoy. Saludos
ResponderBorrar