2015: Построение карт пространств химических соединений и материалов

2015-mapping-spaces-chemical-compounds.jpg

Учеными физического факультета МГУ им. М.В. Ломоносова в сотрудничестве с зарубежными коллегами из Страсбургского университета разработан эффективный подход к анализу и визуализации больших объемов данных по структурам и свойствам химических соединений и материалов, что открывает новые возможности для их дизайна.

Анализ, визуализация, картирование и навигация по многомерному химическому пространству, представляющему структуры и свойства химических соединений и материалов, является новым и очень перспективным подходом к их направленному дизайну. Получаемые графические диаграммы позволяют обобщить накопленные результаты многочисленных экспериментов, число которых может достигать многих миллионов – в этом случае говорят о “больших данных” (big data).

Учеными физического факультета МГУ им. М.В. Ломоносова (группа в.н.с. И.И. Баскина кафедры физики полимеров и кристаллов) в сотрудничестве с зарубежными партнерами из Страсбургского университета (лаборатория хемоинформатики, возглавляемая проф. А. Варнеком) разработали эффективный подход к анализу и визуализации больших объемов данных по структурам и свойствам химических соединений и материалов на основе инкрементного метода генеративных топографических карт. В этом случае любой химический объект (химическое соединение либо материал) представляется в виде точки в многомерном химическом пространстве. В рамках этого подхода совокупность точек, соответствующих имеющимся данным, аппроксимируется при помощи двухмерного гладкого многообразия (manifold), которое можно наглядно представить в виде гибкого листа, «летающего» в пространстве данных. Отображаемые на него данные могут быть использованы для построения карт взаимного расположения химических объектов в пространстве. Данная процедура эффективно может быть применена для обработкя практически неограниченного объема данных по структурам и свойствам химических объектов, причем получающиеся при этом карты обладают высокой информативностью. Они могут быть использованы как для анализа имеющихся данных, так и для направленного поиска новых химических соединений либо материалов с заранее заданными свойствами. Кроме того, разработанный подход позволяет эффективно осуществлять сравнительный анализ наборов данных, что было продемонстрировано в статье на примере сравнения больших библиотек химических соединений.

Результаты данной работы опубликованы в статье: H.A. Gaspar, I.I. Baskin, G. Marcou, D. Horvath, and A. Varnek, “Chemical Data Visualization and Analysis with Incremental Generative Topographic Mapping: Big Data Challenge.” J. Chem. Inf. Model. 55, 84–94 (2015).