Takeaways
-
Program „głębokiego uczenia się” z należącego do Google laboratorium DeepMind wykazał ogromny postęp w rozwiązywaniu jednego z największych wyzwań biologii – zrozumienia procesu składania białek.
-
Fałdowanie białek to proces, w którym białko przyjmuje swój kształt od ciągu bloków do ostatecznej trójwymiarowej struktury, która określa jego funkcję.
-
Dzięki lepszemu przewidywaniu, w jaki sposób białka przyjmują swoją strukturę, czyli „fałdowanie”, naukowcy mogą szybciej opracowywać leki, które na przykład blokują działanie kluczowych białek wirusowych.
Rozwiązanie tego, co biolodzy nazywają „problemem składania białek”, to poważna sprawa. Białka są siłą roboczą komórek i są obecne we wszystkich żywych organizmach. Składają się z długich łańcuchów aminokwasów i są niezbędne do budowy komórek i komunikacji między nimi, a także regulują całą chemię w organizmie.
W tym tygodniu należąca do Google firma DeepMind, zajmująca się sztuczną inteligencją, zademonstrowała program głębokiego uczenia o nazwie AlphaFold2, który eksperci nazywają przełomem w kierunku rozwiązania wielkiego wyzwania, jakim jest składanie białek.
Białka to długie łańcuchy aminokwasów połączone ze sobą jak koraliki na sznurku. Ale aby białko mogło wykonywać swoją pracę w komórce, musi się „złożyć” – jest to proces skręcania i wyginania, który przekształca cząsteczkę w złożoną trójwymiarową strukturę, która może oddziaływać z celem w komórce. Jeśli fałdowanie zostanie zaburzone, białko nie utworzy prawidłowego kształtu – i nie będzie w stanie wykonywać swoich zadań w organizmie. Może to prowadzić do choroby – tak jak w przypadku tak powszechnych chorób jak Alzheimer i rzadkich jak mukowiscydoza.
Głębokie uczenie jest techniką obliczeniową, która wykorzystuje często ukryte informacje zawarte w dużych zbiorach danych do rozwiązywania interesujących nas problemów. Znalazła ona szerokie zastosowanie w takich dziedzinach jak gry, rozpoznawanie mowy i głosu, autonomiczne samochody, nauka i medycyna.
Wierzę, że narzędzia takie jak AlphaFold2 pomogą naukowcom w projektowaniu nowych typów białek, takich, które mogą na przykład pomóc w rozkładaniu tworzyw sztucznych i zwalczaniu przyszłych pandemii wirusów i chorób.
Jestem chemikiem obliczeniowym i autorem książki The State of Science. Moi studenci i ja badamy strukturę i właściwości białek fluorescencyjnych za pomocą programów komputerowych do składania białek, opartych na fizyce klasycznej.
Po dekadach badań prowadzonych przez tysiące grup badawczych, te programy przewidujące składanie białek są bardzo dobre w obliczaniu zmian strukturalnych, które zachodzą, gdy dokonujemy niewielkich zmian w znanych cząsteczkach.
Ale nie udało im się odpowiednio przewidzieć, jak białka składają się od podstaw. Zanim pojawiło się głębokie uczenie, problem składania białek wydawał się niewiarygodnie trudny i wydawało się, że będzie frustrować chemików obliczeniowych przez wiele kolejnych dekad.
Fałdowanie białka
Sekwencja aminokwasów – która jest zakodowana w DNA – określa kształt 3D białka. Kształt ten determinuje jego funkcję. Jeśli struktura białka ulegnie zmianie, nie będzie ono w stanie pełnić swojej funkcji. Prawidłowe przewidywanie fałd białek na podstawie sekwencji aminokwasów może zrewolucjonizować projektowanie leków i wyjaśnić przyczyny nowych i starych chorób.
Wszystkie białka o tej samej sekwencji aminokwasów składają się do tej samej trójwymiarowej formy, która optymalizuje interakcje między aminokwasami. Robią to w ciągu milisekund, choć mają do dyspozycji astronomiczną liczbę możliwych konfiguracji – około 10 do potęgi 300. Ta ogromna liczba sprawia, że nawet znając pełną sekwencję aminokwasów, z których powstaje białko, trudno jest przewidzieć, jak się ono składa. Wcześniej przewidzenie struktury białka na podstawie sekwencji aminokwasów było niemożliwe. Struktury białek były określane doświadczalnie, co było czasochłonnym i kosztownym przedsięwzięciem.
Kiedy naukowcy będą w stanie lepiej przewidzieć, jak białka się składają, będą w stanie lepiej zrozumieć, jak funkcjonują komórki i w jaki sposób źle złożone białka powodują choroby. Lepsze narzędzia do przewidywania białek pomogą nam również zaprojektować leki, które będą mogły celować w konkretny region topologiczny białka, w którym zachodzą reakcje chemiczne.
AlphaFold rodzi się z głębokiego uczenia gry w szachy, Go i pokera
Sukces programu DeepMind do przewidywania składania białek, zwanego AlphaFold, nie jest niespodziewany. Inne programy deep-learningowe napisane przez DeepMind zdemolowały najlepszych na świecie szachistów, graczy Go i pokerzystów.
W 2016 roku Stockfish-8, open-source’owy silnik szachowy, był komputerowym mistrzem świata w szachach. Oceniał 70 milionów pozycji szachowych na sekundę i miał do dyspozycji wieki nagromadzonych ludzkich strategii szachowych oraz dekady doświadczenia komputerowego. Grał wydajnie i brutalnie, bezlitośnie pokonując wszystkich swoich ludzkich rywali bez odrobiny finezji. Wprowadź głębokie uczenie.
7 grudnia 2017 roku program szachowy Google’a AlphaZero, wykorzystujący głębokie uczenie, pokonał Stockfish-8. Silniki szachowe rozegrały 100 partii, przy czym AlphaZero wygrał 28 i zremisował 72. Nie przegrał ani jednej gry. AlphaZero wykonywał tylko 80 000 obliczeń na sekundę, w porównaniu z 70 milionami obliczeń Stockfish-8, a nauka gry w szachy od podstaw zajęła mu zaledwie cztery godziny, dzięki graniu przeciwko sobie kilka milionów razy i optymalizowaniu sieci neuronowych na podstawie zdobytych doświadczeń.
AlphaZero nie nauczył się niczego od ludzi ani z gier szachowych rozgrywanych przez ludzi. Uczył się sam, a w procesie tym uzyskał strategie, których nigdy wcześniej nie widziano. W komentarzu w magazynie Science, były mistrz świata w szachach Garry Kasparow napisał, że ucząc się na podstawie własnej gry, AlphaZero opracował strategie, które „odzwierciedlają prawdę” o szachach, a nie „priorytety i uprzedzenia” programistów. „To ucieleśnienie frazesu 'pracuj mądrzej, nie ciężej'”.
CASP – olimpiada dla modelarzy molekularnych
Co dwa lata najlepsi chemicy obliczeniowi na świecie testują zdolności swoich programów do przewidywania składania białek i rywalizują w konkursie Critical Assessment of Structure Prediction (CASP).
W konkursie zespoły otrzymują liniowe sekwencje aminokwasów dla około 100 białek, dla których kształt 3D jest znany, ale nie został jeszcze opublikowany; następnie muszą obliczyć, jak te sekwencje będą się składać. W 2018 roku AlphaFold, debiutant w konkursie deep-learningu, pokonał wszystkie tradycyjne programy – ale ledwo.
Dwa lata później, w poniedziałek, ogłoszono, że Alphafold2 wygrał konkurs w 2020 roku z dużym marginesem. Pobił swoich konkurentów, a jego przewidywania były porównywalne z istniejącymi wynikami eksperymentalnymi ustalonymi za pomocą technik złotego standardu, takich jak krystalografia dyfrakcji rentgenowskiej i mikroskopia krioelektronowa. Wkrótce spodziewam się, że AlphaFold2 i jego potomstwo staną się metodami z wyboru do określania struktur białek przed uciekaniem się do technik eksperymentalnych, które wymagają żmudnej, pracochłonnej pracy na drogim oprzyrządowaniu.
Jedną z przyczyn sukcesu AlphaFold2 jest to, że mógł on wykorzystać bazę danych białek (Protein Database), w której znajduje się ponad 170 000 eksperymentalnie wyznaczonych struktur 3D, do wyszkolenia się w obliczaniu prawidłowo złożonych struktur białek.
Potencjalny wpływ AlphaFold można docenić, jeśli porówna się liczbę wszystkich opublikowanych struktur białkowych – około 170 000 – ze 180 milionami sekwencji DNA i białek zdeponowanych w Universal Protein Database. AlphaFold pomoże nam przebrnąć przez skarbnice sekwencji DNA w poszukiwaniu nowych białek o unikalnych strukturach i funkcjach.
Czy AlphaFold sprawił, że ja, modelarz molekularny, stałem się zbędny?
Tak jak w przypadku programów do gry w szachy i Go – AlphaZero i AlphaGo – nie wiemy dokładnie, co robi algorytm AlphaFold2 i dlaczego wykorzystuje pewne korelacje, ale wiemy, że działa.
Prócz tego, że pomoże nam przewidzieć struktury ważnych białek, zrozumienie „myślenia” AlphaFold pomoże nam również uzyskać nowy wgląd w mechanizm fałdowania białek.
Jednym z najczęstszych lęków wyrażanych na temat AI jest to, że doprowadzi ona do bezrobocia na wielką skalę. AlphaFold ma przed sobą jeszcze długą drogę, zanim będzie w stanie konsekwentnie i z powodzeniem przewidywać składanie białek.
Jednakże, gdy program dojrzeje i będzie w stanie symulować składanie białek, chemicy obliczeniowi będą integralnie zaangażowani w ulepszanie programów, próbując zrozumieć podstawowe korelacje i stosując program do rozwiązywania ważnych problemów, takich jak nieprawidłowe składanie białek związane z wieloma chorobami, takimi jak choroba Alzheimera, Parkinsona, mukowiscydoza i choroba Huntingtona.
AlphaFold i jego potomstwo z pewnością zmieni sposób pracy chemików obliczeniowych, ale nie sprawi, że staną się oni zbędni. Inne dziedziny nie będą miały tyle szczęścia. W przeszłości roboty były w stanie zastąpić ludzi wykonujących pracę fizyczną; dzięki AI nasze umiejętności poznawcze również stają się wyzwaniem.