学习嗅觉:使用深度学习来预测分子的嗅觉特性

学习嗅觉:使用深度学习来预测分子的嗅觉特性Learning to Smell: Using Deep Learning to Predict the Olfactory Properties of Molecules

原文链接

嗅觉是众多生命有机体共有的一种感觉,并且他在生命体如何分析和对外界做出反应反面起着关键作用。对于人类而言,嗅觉让我们很好地享用食物,也能勾起我们的回忆。嗅觉让我们可以闻到日常生活中随处可见的香水,物理是众所周知的玫瑰,还是一批新鲜出炉的并购,还是最受欢迎的香水。尽管嗅觉直观重要,但嗅觉并没有像视觉或者听觉那样受到研究人员的关注。

人类的嗅觉是嗅觉上皮组织中的400万种不同类型的嗅觉受体(olfactory receptors,ORs)被激活的结果,这些受体在1百万个嗅觉感觉神经元(olfactory sensory neurons, OSNs)中表达。这些嗅觉神经将信号发送到嗅球,然后嗅球字发送到大脑中的其他结构。与基于视觉和听觉的深度学习研究相似,即使不知道所有涉及系统的复杂细节,应该可以通过深度神经网络来直接预测分子的嗅觉特性。解决嗅觉预测问题将有助于发现新的合成气味剂,从而减缓对天然产物的依赖。对产生嗅觉的模型进行深入研究甚至可以提出对气味生物学的新见解。

小的气味分子味道和香味的基本组成部分,因此这也代表了气味预测问题的最简形式。但是,每个分子可以具有多个气味描述符。比如: 香兰素具有甜味,香草味,奶油味和巧克力味等描述语,有些味道可能比其他味道的更加明显。因此,气味的预测也是一个多标签的分类问题。

在“机器学习中的气味:学习小分子的通用感知表示”中,我们利用图神经网络(Graph Neural Network, GNN,一种将图作为输入进行传递的深度神经网络)直接预测单个分子的气味描述符,并且不需要使用任何人工制定的规则。我们证明,与目前最先进的技术相比,该方法在气味预测方面具有显著改善的性能,并且是未来研究的很有希望的方向。

用于气味预测的图神经网络

由于分子和图类似,原子构成顶点,化学键构成图的边,因此使用GNN是解决问题的自然选择。但是,如何将分子的结构转化成图表示?最初,图中每个节点都表示成向量,向量可以使用任何优先的特征(原子标识,原子电荷等)。然后,通过一些了的消息传递步骤,每个节点将他的当前的向量广播给每个邻近原子。然后,更新功能将收集发送给他的向量的集合,并更新其向量。该过程将重复多次,直到最终通过求和或者求均值将图中所有节点汇总成单个向量。然后,可以将代表整个分子的单个向量作为已知的分子特征传递到全连接网络中。网络的输出将用于预测分子对应的气味描述符(由专家提供)。

1571993980680.gif

每个节点都表示成一个向量,向量中每个条目最初都会编码一些原子级别的信息。

1571994551764.gif

对于每个节点,我们都查看其相邻节点并收集其信息,然后使用神经网络将其转换为中心节点的新信息。此过程是迭代执行的。GNN的其他变体是利用边和图级别的信息。

1571994672768.gif

GNN的气味预测图。我们将分子的结构转换成图,然后将其输入到GNN网络中学习更好的节点表示。这些节点被简化成单个向量,并传递到用于预测多个气味描述符的神经网络中。

这种表示对原子的空间位置一无所知,因此无法区分空间异构体,基相同原子组成但分子结构略有不同,并且闻起来也可能不同,比如(R)-和(S)-香芹酮。尽管如此,我们发现及时不区分空间异构体,在实践中仍可以很好的预测气味。

对于气味预测,GNN和昂前最先进的技术相比(比如不直接编码图结构的随机森林),始终展示出更好的预测性能。预测性能的提升的程度取决于人们试图预测哪种气味。

1571995012578.png

用AUROC分数来衡量的GNN气味描述符预测的性能比较。随机抽取示例气味描述符,越接近1意味预测效果越好。可以看到,大多数情况下GNN的性能大大超过了基线。用其他指标(AUPRC, 召回率,精准度等)比较,GNN和基线的性能则相似。

从模型中学习,并扩展到其他任务

除了预测气味描述符外,GNN还可以用于其他嗅觉任务。比如,以仅使用有线的数据对新的或精制的气味描述符进行分类的情况为例。对于每个分子,我们从模型的中间层提取一个学习的表示形式,该中间层针对气味描述符预测进行优化,称之为“气味嵌入“。可以将其视为色彩空间的嗅觉版本,比如RGB或者CMYK。为了了解这种气味嵌入对于预测相关但不同的任务是否有用,我们设计了一些实验在并非最初设计的相关任务上来测试我们的嵌入。然后,我们将气味嵌入表示的性能和普通的化学信息表示(将分子结构信息编码)进行比较,发现气味嵌入可以推广到一些具有挑战性的新任务,甚至可以与最新的技术匹配。

1571995467010.png

嵌入空间的2维图,突出显示了一些示例气味。左边:每中气味都聚集在自己的空间。右边:气味描述符的层次性质。阴影和轮廓区域是使用嵌入的核密度估计来计算的。

展望

在机器学习领域,气味仍然是最难琢磨的,我们很高兴继续做下去,通过进一步的研究来阐明它。未来研究的可能性是多种多样的,涉及到从涉及更便宜,更可持续性生产的气味分子到数字化气味,甚至有一天让没有嗅觉的人也可以感受到玫瑰的香味。我们也希望通过创建和共享高质量的开放数据集。使这个问题引起更多机器学习研究人员的注意。

人艰不拆,生活不易