Curso: Ciencia de datos y estadística R
Ciencia de datos y estadística R
¡Bienvenido al estudio del pensamiento estadístico!
Hemos visto desde nuestra experiencia, que los estudiantes suelen temer a la asignatura de estadística, hecho reflejado en la ansiedad y aprensión de sus tareas. Si bien es cierto que el pensamiento estadístico requiere un amplio antecedente matemático, al mismo tiempo cuenta con una fama que le precede, dentro de cálculos de carácter social y científico. Ahora que se deja de lado el cálculo a mano, creemos que es oportuno dar énfasis al pensamiento estadístico. Hemos descubierto que el uso de un paquete de software como R, para llevar a cabo cálculos y crear gráficos no solo permite un mayor énfasis en la comprensión conceptual y la interpretación, sino también permite a los estudiantes hacer del estudio de esta asignatura una manera que refleje la práctica estadística del profesional moderno. R esta disponible en https://cran.r-project.org/, es de código abierto y libre incorpora un paquete de software y librerías especializadas que lo hacen el más potente para el análisis de grandes conjuntos de datos.
La estadística, un poeta diría: es la que nos permite mirar a través de la niebla bizarra del mundo sobre nosotros. Para comprender la realidad subyacente del significado de los datos, la estadística es una tecnología de métodos que nos permiten la extracción del significado dentro de esa niebla. La estadística es esa tecnología para el manejo de la incertidumbre, ese anhelo del hombre de predecir los eventos futuros. Las inferencias acerca de esa neblina, esas que nos arrojan datos de lo desconocido para tomar decisiones, previsiones, análisis de la dinámica de la realidad, son la tarea de las estadísticas. Pero por qué llamarla tecnología y no una disciplina científica. Una tecnología es la aplicación de los conocimientos científicos, la estadística es la aplicación del conocimiento del cómo se refiere a complementar e inferir la información en los datos de la neblina y realizar inferencias sobre sus significados. (La neblina la podemos imaginar como una nube de entropía, incertidumbre; con el potencial de transformarse en información). Una estadística es un hecho numérico o resumen de análisis de datos. Así que de cierta manera un resumen de datos es el que incluye: tamaño, tasas, desviaciones, tendencias y el cómo se recopiló, manipuló, analizó y se dedujo sobre los hechos numéricos. La neblina puede ser una nube de partículas, una sociedad, el espacio climatológico, reacciones químicas, biológicas o el comportamiento de enjambres, parvadas o corrientes moleculares en un recipiente.
Los datos, es una palabra que hace énfasis en la “referencia”, significa algo dado sobre alguna parcela de la realidad y definido por conceptos operativos. Frases como: los datos nos indican; los datos demuestran; los datos muestran; los datos corroboran la teoría. Los datos son señales de algún tipo sobre algo que está fuera de nuestra mente, ese algo que está allí con independencia, y las matemáticas buscan dotarnos de un significado racional sobre eso llamado realidad. El dato tiene significado gracias al cobijo de los hechos. Un hecho es un concepto frontera entre nuestro lenguaje y la realidad, estos conceptos dan el sentido necesario a los datos, que bajo esa semántica categorizan las señales de la realidad. Cuando los datos son procesados por la estadística, se genera un producto estructurado conocido como información. La información es el paso necesario para realizar inferencias (acciones de razonamiento) que eventualmente agrupan inferencias, se produce el pensamiento abstracto que da origen al conocimiento.
Desarrollar un curso que presente a los estudiantes las ideas básicas del aprendizaje complejo del estilo de la ciencia, relevante para su vida diaria y futuro desarrollo intelectual. Pasa por enseñar el modelado, podría hacer que los estudiantes razonaran mejor mientras se introducen a la complejidad del pensamiento moderno. Enseñarles este tipo de herramientas, mejora sus habilidades de disertación para razonar, explicar, diseñar experimentos, comunicar, cálculos de análisis y exploración de la realidad. ¿Cómo diseñar un curso específico para aprender a pensar como científico?
Un primer paso es dibujar los modelos abstractos para los estudiantes universitarios. Pero para que cualquier esfuerzo valga la pena, amerita perseguir interrogar y pensar con claridad el terreno que se está pisando.
Para ser sabios en su diseño tenemos que tener modelos en mente. Y tenemos que ofrecer experiencia, tanto vicaria como directa, en esta celosía de modelos. Los modelos son estructuras formales representadas en matemáticas y diagramas que nos ayudan a entender el mundo. El dominio de los modelos mejora nuestra capacidad de razonar, explicar, diseñar, comunicar, actuar, predecir y explorar.
Organizar e interpretar datos con modelos se ha convertido en una competencia central para estrategas de gobiernos, el mundo empresarial, planificación urbana, distribución de vacunas, cambio climático… entre otras. Cualquier persona que analiza datos, formula estrategias, diseña productos y protocolos para tomar decisiones, expresa modelos. De ello se deduce que los modelos abarcan la innovación, la predicción, el aprendizaje y en el tiempo será de mucho valor práctico para los profesionales.
Pensar modelos hace que mejore su rendimiento intelectual. Le hará capaz de identificar defectos en su lógica y en la de los demás. Aprenderá a identificar cuándo está permitiéndose en su conciencia estar enajenado por la ideología, supliendo la razón y, tener información más rica y estratificada sobre las implicaciones de las evidencias. Los modelos 1) simplifican el mundo, 2) aportan analogías matemáticas y 3) dan construcciones artificiales exploratorias. En cualquier forma los modelos hacen un mundo más manejable. Debe ser bastante simple el modelo para que dentro de su forma podamos aplicar la lógica. Vemos cómo los procesos causales se superponen e interactúan. Creamos la posibilidad de dar sentido a la complejidad y lo hacemos sin abandonar el rigor, el pensamiento del modelo garantiza la coherencia lógica. Esa lógica se basa en evidencia dentro de modelos de datos, para probarlos, perfeccionarlos, y mejorarlos. Para las personas que usan modelos, el auge del pensamiento de modelado tiene una explicación aún más simple: los modelos nos hacen más inteligentes. Sin modelos las personas sufren en el asignar probabilidades sesgadas e ignoran las tasas bases de los efectos.
La lógica detrás del enfoque de modelos se basa en la idea milenaria de que logramos sabiduría a través de una multitud de modelos: calendarios, mapas de navegación, ciclos biológicos… Esta idea se remonta a Aristóteles, quien escribió sobre el valor de combinar muchos enfoques a la hora de enfrentar un problema. La diversidad de perspectivas también es una motivación: aprender a hacer nuestra mente más grande, ya que el universo es infinito y además dejamos espacio para las paradojas. Los modelos comparten tres características comunes, primero, simplifican eliminando detalles necesarios que obstruyen la realidad. En segundo lugar, formalizan, haciendo definiciones precisas. Los modelos usan matemáticas, no lenguaje natural. Un modelo podría representar creencias como distribuciones de probabilidad sobre estados del mundo o preferencias como clasificación de alternativas. Al simplificar y precisar, se crean espacios manejables dentro de los cuales podemos trabajar a través de la lógica, generar hipótesis, diseñar soluciones y ajustar datos. Los modelos crean estructuras que denotan la complejidad, utilidad, limitación del modelo, en cada caso podemos pensarlas lógicamente —la lógica se cuida a sí misma—; todo lo que tenemos que hacer es mirar y ver cómo lo hace. La lógica ayudará a explicar, predecir, comunicarnos y diseñar. Pero la lógica tiene un costo, lo que nos lleva a su tercer característica de los modelos. Todos los modelos están equivocados, como señaló George Box[1]. Eso es cierto para todos los modelos; incluso las sublimes creaciones de Newton a las que nos referimos como leyes solo lo son en ciertas escalas. Los modelos están equivocados porque simplifican —omiten detalles—. Teniendo en cuenta muchos modelos, podemos separar el estrechamiento del rigor cruzando el paisaje de lo posible.
Confiar en un único modelo es una arrogancia. Invita al desastre. Creer que una sola ecuación puede explicar o predecir todo fenómeno complejo del mundo real, es caer presa del carisma de las formas matemáticas limpias. No debemos esperar que ningún modelo produzca predicciones numéricas exactas del clima proyectadas a 20 años o tasas de producción de libros de un profesor universitario al paso de los años. Necesitamos modelos para dar sentido a los sistemas complejos, estos sistemas exhiben estructuras y patrones emergentes en constante cambio que se encuentran entre ordenados y aleatorios. Por definición los sistemas complejos son difíciles de explicar, evaluar o predecir.
Por lo tanto, nos enfrentamos a una desconexión. Por un lado, necesitamos modelos para pensar coherentemente. Por otro lado, cualquier modelo único con algunas partes móviles no puede dar sentido a fenómenos complejos y de alta dimensión, como patrones de climas, tendencias comerciales o respuestas adaptativas dentro del cerebro. Debemos llegar a ellos por modelos de aprendizaje automático, modelos de dinámica de sistemas, modelos de teoría de juegos, de justicia y modelado basado en agentes.
Referencias
[1] Jones, Stephen. (2014). George Box and Robust Design. Applied Stochastic Models in Business and Industry. 30. 10.1002/asmb.2023
Datos
∅
→
∧
∨
⇔
↔
⇒
¬
∀
∃
⊥
〈 〉
≈
⊥
∼
ρ σ
×
⁄
⁄
<
≤
×
v
∗
⁄
∼
≤
∗
•
∗
⊥
⁄
⊗
×
⊕
∗
†
⊗
·
∞
∏
∑
√
∗
⌈ ⌉
⌊ ⌋
≡
≷
≧
≥
≦
≤
≫
∝
∼
≈
≡
≠
∉
±
÷
×
·
⊂
Δ
∉
∉
⊇
⊃
⊆
∅
×
⊆
∩
∉
∪
·
Curso: Ciencia de datos y estadística con R
Contenido
Módulo 0. Entropía, información e incertidumbre
0.1. Introducción: la incertidumbre
0.2 Construcción de la función de entropía
0.3 Cálculo de entropías
0.3.1 Modelos heterocedásticos condicionales
0.3.2 Medidas de entropía para la cuantificación de la incertidumbre
0.3.2.1 Entropía de Shannon
0.3.2.2 Entropías de Renyi y Tsallis
0.3.2.3 Entropía muestral
0.3.2.4 Información mutua y entropía de transferencia
0.3.2.5 Entropía de transferencia efectiva
0.3.2.6 Tasa de entropía
0.3.2.7 Entropía de permutación normalizada y número de patrones prohibidos
0.3.2.8 Medidas de entropía basadas en la descomposición de valores singulares
0.3.2.9 Entropía aproximada
0.4 Caso de estudio ejemplo
0.5 En síntesis entropía
Módulo 1. La estadística
1.1 Modelos
1.1.1 Convertir a la realidad en datos
1.1.2 Comunicar recuentos y proporciones
1.2 Estadística
1.2.1 Datos
1.2.2 Estadística descriptiva
1.2.3 Dispersión
1.2.4 Oblicuidad
1.2.5 ¿Qué es una población?
1.3 ¿Qué causa qué?
1.4 ¿Qué hacemos cuando no podamos aleatorizar?
1.5 Modelado de relaciones mediante regresión
1.6 ¿Por qué necesitamos la teoría de la probabilidad al hacer estadísticas?
1.6.1 ¿Qué es probabilidad de todos modos?
1.6.2 Juntas probabilidad y estadística
1.6.3 El teorema del límite central
1.6.4 Hipótesis estadística
1.6.4.1 Significancia estadística
1.6.4.2 Hipótesis nula
1.6.4.3 Consecuencias
1.6.4.4 Ilustración gráfica
1.7 La ciencia de datos
Módulo 2. Pensamiento estadístico
2.1 ¿Qué es el pensamiento estadístico?
2.2 ¿Cómo estimamos f?
2.3 Métodos no paramétricos
2.4 Pensamiento supervisado versus no supervisado
2.5 Regresión versus problemas de clasificación
2.6 Evaluación de la precisión del modelo
2.6.1 Medición de la calidad de ajuste
2.7 El desafío en el marco de la regresión
2.8 ¿Por qué aprender regresión?
2.8.1 Algunos ejemplos de regresión
2.9 Creación, interpretación y comprobación de modelos de regresión
2.10 Inferencia clásica y bayesiana
Módulo 3. Valores P
3.1 Formar el instinto científico en los estudiantes universitarios
3.1.1 De la confusión a la satisfacción
3.2 Un científico universitario en expansión
3.3 Causalidad
3.4 ¿Qué es la reproducibilidad?
3.5 La psicología del descubrimiento científico
3.5.1 Ver patrones en la aleatoriedad
3.5.2 No querer perderse nada
3.5.3 El acantilado psicologico de p =0.05
3.5.4 El descuido de la variabilidad del muestreo
3.5.5 Sesgo de independencia
3.5.6 Sesgo de confirmación
3.5.7 Efectos de expectativa
3.5.8 Sesgo de retrospectiva
3.5.9 Efecto de pastoreo
3.6 Lo que dicen los estadísticos
3.7 Lo que dicen al respecto los científicos
3.7.1 Evidencia empírica y prácticas de investigación cuestionables
3.8 Calidad de los estudios
3.8.1 Reproducibilidad de los estudios
3.8.2 Publicaciones sesgadas
3.9 La cultura científica no conduce a la “búsqueda de la verdad”
3.10 Inferencia estadística frecuentada
3.10.1 Estimación de parámetros
Módulo 4. Probabilidad y certeza
4.1 Formar el instinto científico
4.2 Teoría primitiva
4.3 La domesticación del azar
4.3.1 De lo impredecible a las leyes
4.3.2 Probabilidad
4.3.3 Orden en grande
4.3.4 La ley normal
4.3.5 ¿Es aleatorio?
4.3.6 Una perspectiva bayesiana
4.3.6.1 Dónde estamos ahora
4.4 Incertidumbre e información
4.4.1 Mensajes e información
4.4.2 Entropía
4.4.3 Mensajes, códigos y entropía
4.4.4 Entropía aproximada
4.4.5 De nuevo, ¿es aleatorio?
4.4.6 La percepción de la aleatoriedad
4.5 Aleatoriedad
4.5.1 ¿Es el determinismo una ilusión?
4.5.2 Generación de aleatoriedad
4.6 Janus y los demonios
4.7 El borde de la aleatoriedad
4.8 Leyes de complejidad y potencias
4.9 ¿Qué buena es la aleatoriedad?
4.10 Engañado por la casualidad
4.11 El modelo de aleatoriedad de Poisson
4.12 Ilusiones cognitivas
Modulo 5. Laboratorio R
5. Lenguaje R
5.1 Computación R
5.1.1 Lo básico
5.1.2 Fuentes de datos, importación y exportación
5.2 Regresión lineal simple
5.2.1 Evaluación de la precisión de las estimaciones de coeficientes
Módulo 6. Estadística bayesiana
6.1 Frecuentistas versus Bayesianos: la estadística moderna
6.2 Distribución estadística
6.2.1 Distribuciones de probabilidad, variables aleatorias, notación y parámetros
6.2.2 Fundamentos
6.2.2.1 Distribución continua
6.2.2.2 Distribuciones discretas
6.3 Datos de muestra estadísticas básicas
6.4 Métodos de estimación de parámetros
6.4.1 Estimador de máxima verosimilitud (MLE)
6.4.2 Método de Momentos (MoM)
6.4.3 Transformación de variables
6.4.4 Transformar datos a cero o más grandes
6.4.5 Transformar datos en cero y uno
6.5 Los datos
6.5.1 Datos de relación categórica
6.6 Probabilidad
6.6.1 Axiomas de probabilidad de Kolmogorov
6.6.2 La unidad
6.6.3 Aditividad
6.6.4 Corolario de monotonía
6.6.5 Pensamiento de modelos bayesianos
6.6.6 Pensamiento Bayesiano
6.6.7 Un misterio sobre un asesinato
6.6.8 Teorema de Bayes
6.6.8.1 Implicaciones del teorema de Bayes
6.6.8.2 La forma de probabilidades del teorema de Bayes y una aplicación simple
6.6.8.3 Medición, modelización y ciencia: las tres ecuaciones básicas
6.6.8.4 Confusión terminológica
6.7. Modelos basados en procesos versus modelos empíricos
6.7.1 Errores e incertidumbres en el modelado
6.7.2 Errores e incertidumbres en los controladores de modelos 446
6.7.3 Errores e incertidumbres en los parámetros del modelo
6.7.4 Errores e incertidumbres en la estructura del modelo
6.7.5 Propagación directa de la incertidumbre a los resultados del modelo
6.8 Bayes y la ciencia
6.8.1 Estimación de parámetros bayesianos
6.8.2 Asignar una distribución previa
6.8.3 Cuantificación de la incertidumbre y MaxEnt
6.8.4 Comentarios finales para Prior
6.8.5 Asignar una función de verosimilitud
Nota 1: El reinado del valor p ha terminado
Referencias
Referencias
Autores:
Eduardo Ochoa Hernández
Gladys Juárez Cisneros
Héctor Javier Anselmo Villegas Moreno
Nicolás Zamudio Hernández
Berenice Yahuaca Juárez
Lizbeth Guadalupe Villalon Magallan
Rogelio Ochoa Barragán
Salomón Eduardo Borjas García
Juan Alejandro Cortez Rangel
Daniela Fernández Gómez
Marco Antonio Alemán Méndez
Nestor Alejandro Muñoz Ruiz
Neftali Rangel García
Nicolás Abraham Zamudio Durán
Fatima Ariana Cruz Cendejas
Miriam Rodríguez Caratachea
José Fabián Sánchez López
Mitzi Arismel Pérez Díaz
Estrada López Brittanny Dayan
Jorge Armando Tinoco Michel
Pedro Gallegos Facio
Gerardo Sánchez Fernández