27.04.2024
Подписывайтесь на Telegram-канал по ссылке

Машинное обучение помогает изучать клетки и белки по изображениям

Self-supervised deep learning

Команда учёных из Стэнфордского университета разработала метод машинного обучения для количественного анализа и сравнения изображений – в данном случае микроскопических изображений белков – без каких-либо предварительных знаний. Как сообщается в журнале Nature Methods, их алгоритм, получивший название «Cytoself», предоставляет богатую и подробную информацию о расположении и функции белка в клетке. Эта возможность может ускорить время исследований для клеточных биологов и, в конечном счёте, использоваться для ускорения открытия лекарств и их скрининга. Исходный код модели доступен на Github.

Cytoself не только демонстрирует возможности алгоритмов машинного обучения, но и даёт представление о клетках — основных строительных блоках жизни, и белках — молекулярных строительных блоках клеток. Каждая клетка содержит около 10 000 различных типов белков – некоторые из них работают отдельно, многие – вместе, выполняя различную работу в разных частях клетки для поддержания её здоровья.

«Клетка гораздо более пространственно организована, чем мы думали ранее. Это важный биологический вывод о том, как устроена человеческая клетка», — рассказывает Мануэль Леонетти, соавтор исследования.

Cytoself является примером так называемого самообучения, то есть человек не учит алгоритм чему-либо об изображениях белков, как это происходит при контролируемом обучении. Выяснилось, что алгоритм смог извлечь очень много информации из изображений.

«Уровень детализации локализации белков оказался гораздо выше, чем мы могли себе представить. Машина преобразует каждое изображение белка в математический вектор. Таким образом, вы можете начать ранжировать изображения, которые выглядят одинаково. Мы поняли, что таким образом мы можем с высокой точностью предсказать, какие белки работают вместе в клетке, просто сравнивая их изображения, что было просто удивительно», – отмечают учёные.

Хотя ранее уже были проведены некоторые работы по визуализации белков с использованием самоконтролируемых или не самоконтролируемых моделей, никогда ранее самоконтролируемое обучение не использовалось столь успешно на таком большом наборе данных, включающем более 1 миллиона изображений, охватывающих более 1300 белков, измеренных на живых человеческих клетках.

Эти изображения стали результатом проекта CZ Biohub OpenCell под руководством Леонетти, направленного на создание полной карты человеческой клетки, включая в конечном итоге характеристику примерно 20 000 типов белков, которые питают клетки человека. Ранее в этом году журнал Science опубликовал первые 1 310 белков, которые они охарактеризовали, включая изображения каждого белка (полученные с помощью флуоресцентной метки) и сравнение их взаимодействий друг с другом.