Recientemente, se ha popularizado un acrónimo que parece sacado de la ciencia ficción: CODA. Este término se utiliza en diversas áreas como la conservación de especies, la ingeniería genética y la selección de modelos de inteligencia artificial. Detrás de este nombre se encuentran dos métodos creados por investigadores del Instituto Tecnológico de Massachusetts (MIT) que buscan aprovechar la inteligencia artificial para resolver problemas complejos.
CODA en la selección de modelos de IA para la conservación animal
La versión más conocida de CODA se traduce como «selección de modelos activa guiada por el consenso». Este método fue desarrollado por el doctorando Justin Kay y su equipo en los laboratorios CSAIL del MIT y la Universidad de Massachusetts Amherst para abordar un reto práctico: ¿cómo elegir el modelo de IA más adecuado entre millones ya entrenados?
Actualmente, existen más de 1,9 millones de modelos de aprendizaje automático en plataformas como HuggingFace. Sin embargo, seleccionar el más apropiado requiere generar un amplio conjunto de datos de validación, un proceso que consume tiempo y recursos. CODA propone un enfoque diferente. En lugar de etiquetar miles de ejemplos aleatoriamente, el algoritmo primero analiza las predicciones de modelos candidatos y determina cuáles ejemplos son más informativos para etiquetar. Con esta información, crea una matriz de confusión para cada modelo, evaluando la probabilidad de que acierte o falle en cada categoría, y ajusta su evaluación para identificar el mejor modelo.
Esta técnica activa permite que los expertos solo etiqueten los datos más relevantes. Según los investigadores del MIT, CODA puede identificar el modelo más adecuado con tan solo 25 ejemplos en muchos casos.
En estudios sobre la clasificación de especies usando imágenes de cámaras trampa, los ecólogos solo necesitaban revisar algunas fotos representativas. Si un modelo acertaba consistentemente en las primeras 50 fotos de tigres, era probable que también lo hiciera en las restantes; las diferencias entre modelos ayudaban a excluir los menos precisos.
Beneficios para la conservación
La principal utilidad de CODA radica en acelerar la selección de modelos para proyectos de conservación. La vigilancia de fauna genera grandes volúmenes de imágenes y videos: desde salmones migratorios hasta aves en peligro. Con CODA, los biólogos pueden utilizar modelos existentes sin necesidad de entrenar uno nuevo desde cero ni etiquetar grandes bases de datos manualmente. Esto reduce costos y acelera el tiempo entre la recolección de datos y la obtención de resultados, lo cual es esencial para monitorear especies en peligro de extinción.
Además, la filosofía de CODA —focalizada en el consenso y las discrepancias entre modelos para guiar el proceso de etiquetado— puede aplicarse a otros campos donde se deba elegir entre múltiples alternativas con pocos datos. El equipo del MIT subraya la importancia de enfocar recursos en la evaluación de modelos, no solo en su entrenamiento. Esta investigación fue reconocida como Highlight Paper en la conferencia ICCV 2025 y ha sentado las bases para futuros sistemas de evaluación automática.
CODA para optimizar la actividad del ADN
Otro enfoque denominado CODA, que significa «Optimización Computacional de la Actividad del ADN», fue desarrollado por un consorcio que incluye al MIT, el Broad Institute de MIT y Harvard, la Universidad de Yale y el laboratorio Jackson. Esta metodología no se centra en la selección de modelos de IA, sino en el diseño de secuencias de ADN sintéticas que puedan activar o desactivar genes de forma precisa.
Funcionamiento del método
Los elementos cis reguladores (CRE) son los encargados de controlar cuándo y dónde se activan los genes. Sin embargo, su «gramática» es compleja y sus combinaciones, prácticamente infinitas.
Los investigadores entrenaron un modelo de aprendizaje profundo con datos sobre la actividad de más de 775,000 CRE en células humanas. Este modelo aprendió a relacionar las secuencias de ADN con la intensidad y especificidad de la expresión génica.
A partir de esto, desarrollaron CODA, una plataforma que utiliza IA para generar nuevas secuencias de CRE que cumplen con características específicas. Similar a herramientas generativas como DALL-E, el sistema puede proponer millones de variantes y evaluar cuáles logran activar un gen en un tipo celular determinado sin afectar a otros.
Después de numerosas simulaciones y experimentos, el equipo logró diseñar miles de CRE sintéticos que superaban en precisión a los naturales, combinando elementos activadores y represores.
El interés en CODA radica en su potencial para desarrollar terapias génicas más seguras y precisas, permitiendo activar genes solo en células enfermas y evitando efectos secundarios. Los estudios en modelos animales han mostrado resultados prometedores, como el diseño de una secuencia que activó un gen en una región específica del cerebro de un ratón.
Las aplicaciones de CODA no se limitan a la medicina. También se prevén usos en biomanufactura e investigación básica, donde la modulación precisa de la expresión génica puede abrir nuevas posibilidades para estudiar funciones celulares y crear productos biológicos de manera más eficiente.
Diferencias entre los métodos CODA
A pesar de compartir el mismo acrónimo, los dos métodos CODA abordan problemas distintos. Uno surge en el ámbito de la ciencia de datos para mejorar la evaluación de modelos, mientras que el otro proviene de la bioingeniería y busca reescribir el código de la vida. En ambos casos, el objetivo común es utilizar la inteligencia artificial para optimizar recursos —ya sean datos o combinaciones de ADN— y conseguir resultados que serían inalcanzables con métodos tradicionales.