Takeaways
-
Un programa de software de «aprendizaje profundo» del laboratorio DeepMind, propiedad de Google, mostró grandes progresos en la resolución de uno de los mayores retos de la biología: entender el plegamiento de las proteínas.
-
El plegado de proteínas es el proceso por el cual una proteína toma su forma a partir de una cadena de bloques de construcción hasta su estructura tridimensional final, que determina su función.
-
Al predecir mejor cómo las proteínas toman su estructura, o «se pliegan», los científicos pueden desarrollar más rápidamente medicamentos que, por ejemplo, bloqueen la acción de proteínas virales cruciales.
Resolver lo que los biólogos denominan «el problema del plegado de las proteínas» es algo importante. Las proteínas son los caballos de batalla de las células y están presentes en todos los organismos vivos. Están formadas por largas cadenas de aminoácidos y son vitales para la estructura de las células y la comunicación entre ellas, además de regular toda la química del cuerpo.
Esta semana, la empresa de inteligencia artificial DeepMind, propiedad de Google, demostró un programa de aprendizaje profundo llamado AlphaFold2, que los expertos califican de avance hacia la solución del gran reto del plegamiento de las proteínas.
Las proteínas son largas cadenas de aminoácidos unidas entre sí como cuentas de un hilo. Pero para que una proteína cumpla su función en la célula, debe «plegarse», un proceso de torsión y flexión que transforma la molécula en una compleja estructura tridimensional que puede interactuar con su objetivo en la célula. Si el plegado se interrumpe, la proteína no tendrá la forma correcta y no podrá realizar su trabajo dentro del cuerpo. Esto puede dar lugar a una enfermedad, como es el caso de una enfermedad común como el Alzheimer, y otras raras como la fibrosis quística.
El aprendizaje profundo es una técnica computacional que utiliza la información a menudo oculta contenida en vastos conjuntos de datos para resolver cuestiones de interés. Se ha utilizado ampliamente en campos como los juegos, el reconocimiento del habla y de la voz, los coches autónomos, la ciencia y la medicina.
Creo que herramientas como AlphaFold2 ayudarán a los científicos a diseñar nuevos tipos de proteínas, unas que podrían, por ejemplo, ayudar a descomponer los plásticos y a luchar contra futuras pandemias y enfermedades virales.
Soy químico computacional y autor del libro The State of Science. Mis alumnos y yo estudiamos la estructura y las propiedades de las proteínas fluorescentes mediante programas informáticos de plegado de proteínas basados en la física clásica.
Después de décadas de estudio por parte de miles de grupos de investigación, estos programas de predicción de plegado de proteínas son muy buenos para calcular los cambios estructurales que se producen cuando hacemos pequeñas alteraciones en moléculas conocidas.
Pero no han conseguido predecir adecuadamente cómo se pliegan las proteínas desde cero. Antes de que llegara el aprendizaje profundo, el problema del plegado de proteínas parecía imposiblemente difícil, y parecía preparado para frustrar a los químicos computacionales durante muchas décadas.
El plegado de la proteína
La secuencia de los aminoácidos -que está codificada en el ADN- define la forma 3D de la proteína. La forma determina su función. Si la estructura de la proteína cambia, no puede realizar su función. Predecir correctamente los pliegues de las proteínas basándose en la secuencia de aminoácidos podría revolucionar el diseño de fármacos y explicar las causas de enfermedades nuevas y antiguas.
Todas las proteínas con la misma secuencia de aminoácidos se pliegan en la misma forma tridimensional, lo que optimiza las interacciones entre los aminoácidos. Lo hacen en milisegundos, aunque disponen de un número astronómico de configuraciones posibles: unas 10 a la potencia de 300. Este enorme número es lo que hace difícil predecir cómo se pliega una proteína, incluso cuando los científicos conocen la secuencia completa de aminoácidos que la componen. Antes era imposible predecir la estructura de una proteína a partir de la secuencia de aminoácidos. Las estructuras de las proteínas se determinaban experimentalmente, un esfuerzo que requería mucho tiempo y dinero.
Una vez que los investigadores puedan predecir mejor cómo se pliegan las proteínas, podrán entender mejor cómo funcionan las células y cómo las proteínas mal plegadas causan enfermedades. Unas mejores herramientas de predicción de proteínas también nos ayudarán a diseñar fármacos que puedan dirigirse a una región topológica concreta de una proteína en la que se produzcan reacciones químicas.
AlphaFold nace del aprendizaje profundo de partidas de ajedrez, Go y póker
El éxito del programa de predicción de plegado de proteínas de DeepMind, llamado AlphaFold, no es inesperado. Otros programas de aprendizaje profundo escritos por DeepMind han demolido a los mejores jugadores de ajedrez, Go y póker del mundo.
En 2016 Stockfish-8, un motor de ajedrez de código abierto, fue el campeón mundial de ajedrez por ordenador. Evaluaba 70 millones de posiciones de ajedrez por segundo y contaba con siglos de estrategias de ajedrez humanas acumuladas y décadas de experiencia informática. Jugaba de forma eficiente y brutal, venciendo sin piedad a todos sus contrincantes humanos sin un ápice de delicadeza. Entra el aprendizaje profundo.
El 7 de diciembre de 2017, el programa de ajedrez de aprendizaje profundo de Google, AlphaZero, derrotó a Stockfish-8. Los motores de ajedrez jugaron 100 partidas, y AlphaZero ganó 28 y empató 72. No perdió ni una sola partida. AlphaZero hizo sólo 80.000 cálculos por segundo, frente a los 70 millones de cálculos de Stockfish-8, y tardó sólo cuatro horas en aprender ajedrez desde cero jugando contra sí mismo unos cuantos millones de veces y optimizando sus redes neuronales a medida que aprendía de su experiencia.
AlphaZero no aprendió nada de los humanos ni de las partidas de ajedrez jugadas por humanos. Se enseñó a sí mismo y, en el proceso, derivó estrategias nunca antes vistas. En un comentario publicado en la revista Science, el ex campeón mundial de ajedrez Garry Kasparov escribió que, al aprender de sus propias partidas, AlphaZero desarrolló estrategias que «reflejan la verdad» del ajedrez en lugar de reflejar «las prioridades y los prejuicios» de los programadores. «Es la encarnación del tópico ‘trabaja más inteligentemente, no más duro'».
CASP: las olimpiadas de los modeladores moleculares
Cada dos años, los mejores químicos computacionales del mundo ponen a prueba la capacidad de sus programas para predecir el plegamiento de las proteínas y compiten en la competición Critical Assessment of Structure Prediction (CASP).
En la competición, los equipos reciben la secuencia lineal de aminoácidos de unas 100 proteínas de las que se conoce la forma 3D pero que aún no se ha publicado; luego tienen que calcular cómo se plegarían estas secuencias. En 2018 AlphaFold, el novato del aprendizaje profundo en la competición, venció a todos los programas tradicionales, pero por poco.
Dos años después, el lunes, se anunció que Alphafold2 había ganado la competición de 2020 por un amplio margen. Venció a sus competidores, y sus predicciones fueron comparables a los resultados experimentales existentes determinados mediante técnicas estándar de oro como la cristalografía de difracción de rayos X y la criomicrografía electrónica. Pronto espero que AlphaFold2 y su progenie sean los métodos elegidos para determinar las estructuras de las proteínas antes de recurrir a técnicas experimentales que requieren un trabajo minucioso y laborioso con instrumental caro.
Una de las razones del éxito de AlphaFold2 es que pudo utilizar la Base de Datos de Proteínas, que cuenta con más de 170.000 estructuras 3D determinadas experimentalmente, para entrenarse en el cálculo de las estructuras correctamente plegadas de las proteínas.
El impacto potencial de AlphaFold puede apreciarse si se compara el número de todas las estructuras proteicas publicadas -aproximadamente 170.000- con los 180 millones de secuencias de ADN y proteínas depositadas en la Base de Datos Universal de Proteínas. AlphaFold nos ayudará a clasificar los tesoros de secuencias de ADN a la caza de nuevas proteínas con estructuras y funciones únicas.
¿Ha hecho AlphaFold que yo, un modelador molecular, sea redundante?
Al igual que con los programas de ajedrez y Go -AlphaZero y AlphaGo- no sabemos exactamente qué hace el algoritmo AlphaFold2 y por qué utiliza ciertas correlaciones, pero sí sabemos que funciona.
Además de ayudarnos a predecir las estructuras de proteínas importantes, entender el «pensamiento» de AlphaFold también nos ayudará a obtener nuevos conocimientos sobre el mecanismo de plegado de las proteínas.
Uno de los temores más comunes expresados sobre la IA es que conduzca al desempleo a gran escala. A AlphaFold aún le queda un importante camino por recorrer antes de poder predecir de forma consistente y con éxito el plegamiento de las proteínas.
Sin embargo, una vez que haya madurado y el programa pueda simular el plegado de proteínas, los químicos computacionales participarán de forma integral en la mejora de los programas, tratando de comprender las correlaciones subyacentes utilizadas y aplicando el programa para resolver problemas importantes como el mal plegado de proteínas asociado a muchas enfermedades como el Alzheimer, el Parkinson, la fibrosis quística y la enfermedad de Huntington.
AlphaFold y sus descendientes cambiarán sin duda la forma de trabajar de los químicos computacionales, pero no los hará redundantes. Otras áreas no serán tan afortunadas. En el pasado, los robots eran capaces de sustituir a los humanos que realizaban trabajos manuales; con la IA, nuestras habilidades cognitivas también se ven desafiadas.