El investigador de la Universidade da Coruña (UDC) Ricardo Cao ha sido reconocido con la Medalla de la Sociedad de Estadística de Investigación Operativa por su contribución al desarrollo y proyección de la disciplina.

¿Es la estadística la gran olvidada de las disciplinas científicas cuando se trata de reconocimientos populares? ¿La sociedad ignora a qué se dedican?

La Sociedad de Estadística de Investigación Operativa conjuga dos campos de las matemáticas: la parte dedicada a la estadística y la investigación operativa. Esta última es la más reciente, surgió a raíz de problemas complejos que movilizan grandes recursos. La estadística se adentra casi en el ADN del ser humano: está en los primeros recuentos de las civilizaciones antiguas. Su auge vino a raíz de ver que hay una parte de las matemáticas, la teoría de la probabilidad, que puede ser muy útil a la hora de analizar los datos que vienen de la realidad. Con el auge de la disponibilidad de datos a principios del siglo XX, la estadística acabó cobrando un papel importante por el uso de las matemáticas para sacar conclusiones. Estos son logros colectivos.

Nunca hay una sola persona detrás de una investigación.

Exacto. Nuestro grupo de investigación tiene las dos vertientes: estadística e investigación operativa. Yo me dedico sobre todo a la estadística. Nos dedicamos a la investigación no paramétrica, que son los modelos estadísticos que no son muy rígidos y dejan que los datos hablen por sí mismos. Es lo que ocurre, por ejemplo, desde el punto de vista de la gente de Inteligencia Artificial que trabaja en Machine Learning, los típicos algoritmos. Son métodos muy flexibles que tratan de extraer o aprender toda la información posible.

¿Todo es medible en el mundo?

Hay una frase muy famosa de Galileo que decía: ”mide todo lo que sea medible y haz medible aquello que no lo sea”. Hay cosas en la vida que no se pueden medir, pero es cierto que podemos medir muchas cosas, cada vez lo vemos más. Todo aquello que se pueda medir, que a veces pueden ser cualidades, como estar o no enfermo, cualquier atributo de los seres humanos que puedas medir es susceptible de utilizar la estadística. El problema es para qué. Una cosa importante es fijar primero los objetivos, y otra adicional es cómo tener datos para responder a esas preguntas, y eso a veces se pasa de puntillas. En el gran auge de los algoritmos, que es super útil, hay el riesgo de que esto ocurra, es decir: yo tengo un conjunto de datos que no sé cómo se generaron, y quiero dar respuesta a algo. Es muy importante ver que los datos que has obtenido son útiles para dar esa respuesta a la pregunta que te planteas; y si no lo son, como puedes obtener otros, o complementar o corregir esos. Es uno de los temas en los que nuestro grupo de investigación está trabajando, el Big Data sesgado. Con esto nos referimos a que, quizás, de forma natural, esas cantidades de datos no representan fielmente la realidad que tú tienes. Eso no es irresoluble.

Una de sus aportaciones más relevantes fue la parte estadística del proyecto CovidBens, que no recibió tanta atención como la parte de la microbiología. ¿Cuál fue su papel en la detección de la carga viral en aguas residuales?

Fue un proyecto fascinante, porque supuso colaborar con gente de diversos ámbitos. Cuando uno hace mediciones, como la carga viral en aguas residuales, al final eso es cierto número de copias del virus por litro. Esas cantidades se miden experimentalmente, y esas mediciones están sujetas a ciertos errores. Mides la misma muestra dos veces y no te va a dar lo mismo. Algo importante es estimar la carga viral verdadera. Nuestras colegas tomaban mediciones cada día, pero eso no quiere decir que sean iguales, tenían variaciones. El poder estimar lo verdadero del error aleatorio es importante, suavizar la curva cuando tienes una nube de puntos que no ves nada y detectas la tendencia. Otra cosa es el problema de estimar la proporción de variantes, que se caracterizan porque en determinadas posiciones del genoma hay mutaciones. Cuando tienes muestras clínicas de un paciente, eres capaz de tener casi todo el genoma del virus de un golpe. Puedes ver donde hay mutaciones e identificar si tiene delta u ómicron.

¿Y en aguas residuales?

En aguas residuales eso es imposible, porque a las depuradoras el material genético llega fragmentado. Tú no eres capaz de observar el genoma, observas trocitos pequeños de miles de seres humanos que han excretado el virus. Los modelos estadísticos que tuvimos que implementar para eso son preciosos, porque uno tiene que imaginarse qué es lo que ocurre en ese proceso de fragmentación del virus para formular un modelo estadístico en el que luego estimar los parámetros desconocidos: tenemos un 50% de ómicron, un 40 de delta.