We describe graph machines, an alternative approach to traditional machine-learning-based QSAR, which circumvents the problem of designing, computing and selecting molecular descriptors. In that approach, which is similar in spirit to recursive networks, molecules are considered as structured data, represented as graphs. For each example of the data set, a mathematical function (graph machine) is built, whose structure reflects the structure of the molecule under consideration; it is the combination of identical parameterised functions, called "node functions" (e.g. a feedforward neural network). The parameters of the node functions, shared both within and across the graph machines, are adjusted during training with the "shared weights" technique. Model selection is then performed by traditional cross-validation. Therefore, the designer's main task consists in finding the optimal complexity for the node function. The efficiency of this new approach has been demonstrated in many QSAR or QSPR tasks, as well as in modelling the activities of complex chemicals (e.g. the toxicity of a family of phenols or the anti-HIV activities of HEPT derivatives). It generally outperforms traditional techniques without requiring the selection and computation of descriptors.
-Approche QSAR Graph Machines pour la modélisation des propriétés thermodynamiques des amines : application au captage du CO 2 en postcombustion-Le procédé d'absorption aux amines est considéré comme la technologie la plus efficace pour limiter les rejets de CO 2 dans le cadre du captage en postcombustion puis du stockage du CO 2. Cependant, l'optimisation des propriétés du solvant nécessite d'évaluer un grand nombre de candidats potentiels et donc de collecter une quantité importante de propriétés expérimentales. Dans ce contexte, l'utilisation de méthodes de modélisation statistique de type QSAR (Quantitative Structure Activity Relationship) s'avère être un outil très précieux puisqu'elles permettent d'établir une relation entre un ensemble de vecteurs d'entrées (i.e. les caractéristiques ou les propriétés des molécules étudiées) et un ensemble de vecteurs de sorties (i.e. les propriétés ciblées). Dans ce travail, nous avons utilisé un équipement d'expérimentation à haut débit pour mesurer la solubilité du CO 2 dans un ensemble de 46 solutions aqueuses d'amines. Les isothermes d'absorption sont modélisées en utilisant une approche thermodynamique basée sur l'évaluation de deux constantes d'équilibres, pKa * et pKc * caractéristiques des principales réactions chimiques intervenant dans la phase liquide. Nous avons ensuite utilisé une approche statistique baptisée graph machines à la fois pour classifier les molécules et modéliser la variation de la constante d'acidité pKa * en fonction de la structure moléculaire. L'originalité de notre approche réside dans l'utilisation des graphes associés aux molécules afin de les représenter dans des espaces multidimensionnels et construire, en même temps, un modèle prédictif de leurs propriétés physico-chimiques. Cette approche est appliquée dans cet article pour prédire les propriétés thermodynamiques d'un ensemble de 5 nouvelles molécules.
Abstract. The recent developments of statistical learning focused on vector machines, which learn from examples that are described by vectors of features. However, there are many fields where structured data must be handled; therefore, it would be desirable to learn from examples described by graphs. Graph machines learn real numbers from graphs. Basically, for each input graph, a separate learning machine is built, whose algebraic structure contains the same information as the graph. We describe the training of such machines, and show that virtual leave-one-out, a powerful method for assessing the generalization capabilities of conventional vector machines, can be extended to graph machines. Academic examples are described, together with applications to the prediction of pharmaceutical activities of molecules and to the classification of properties; the potential of graph machines for computer-aided drug design is highlighted.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.