新材料研发与人工智能

2016年3月阿尔法狗(AlphaGo)围棋程序对战围棋世界冠军、职业九段选手李世石,以4:1的总比分获胜,展示了人工智能技术和超级计算机技术相结合的强大威力。阿尔法狗不仅可以像人类一

产品应用
 
2016年3月阿尔法狗(AlphaGo)围棋程序对战围棋世界冠军、职业九段选手李世石,以4:1的总比分获胜,展示了人工智能技术和超级计算机技术相结合的强大威力。阿尔法狗不仅可以像人类一样应对围棋中千变万化的局面,甚至可以做得更好。
千百年来,人类寻找新材料的过程中也面对着无穷无尽的可能。自然界中天然存在近百种元素,按照不同的组合和比例原则上形成的材料可能是无限的,但其中只有很小的一部分已经被人类发现或者合成,更小一部分因为某方面性质上的优势而获得应用。人类发现这有应用价值的极小一部分材料经历了非常漫长的过程,有些可能历经数十年,几代人反复尝试、改进才获得成功。有些材料学家调侃自己的工作就是“炒菜”,今天组合一些元素,按一定条件让它们反应,看看产物是什么,明天又换一些,再继续尝试,就像炒菜时原料换一换、佐料变一变。在菜炒出来之前不能确定炒出来的菜味道怎样,材料合成出来之前也不知道性能怎样,要找出好的材料需要不断炒、不断“试错”。这就导致炒出好的菜、找到好的材料的过程漫长,成本也很高。

 
正交实验
近年来,随着人们对功能材料性能要求的快速提高,一种新材料数十年的研发过程已经远远不能满足需求。如何能快速、精确的找出并合成出优秀的锂离子电池材料,让我们的电动汽车的里程更长、充电更快、更安全,或者找出廉价、环保的太阳能电池材料,可以高效地将太阳能转化为电能,这些问题促使人们思考新材料研发的新模式。如果人工智能技术能够比人类更好的应对围棋中的千变万化,这一技术能否也可以比人类更快、更准地找出好的锂离子电池材料和太阳能电池材料,并找出合成它们的最优反应条件呢?
2016年3月,英国《自然》杂志发表封面论文,报道了美国哈弗福德学院和普渡大学化学家的最新成果,他们发现基于机器学习算法的人工智能技术可以比有十余年经验的材料化学家更为准确的预测制备亚硒酸盐晶体的反应条件。以一种无机-有机杂化材料钒亚硒酸盐的模板化合成为对象,他们从实验室的笔记本档案中收集了失败的水热合成实验记录,并为笔记本中的原始数据添加了相应的理化性质描述。使用这些数据,包括近4000份不同反应条件(温度、浓度、酸度、反应物量等)下合成出晶体的实验数据,他们训练了一种机器学习模型来预测反应的成功率。然后,他们根据这一机器学习模型来预测用以前未测试过的、但是市场上可以买到的有机结构单元来合成新的亚硒酸盐晶体的反应条件,他们的机器学习模型的预测成功率高达89%,而经验丰富的人类仅有78%。这表明,人工智能技术在寻找合成材料的反应条件方面,可能比人类做得更好。
2016年2月,美国康涅狄格大学的材料学家通过机器学习算法,对其精确计算的一系列聚合物材料性质数据进行研究,发展出了一套全新的性质预测模型,再利用遗传算法来优化高分子的组成单元,从而设计出全新的聚合物电介质材料,显著降低了设计的经济和时间成本。2016年1月,丰田汽车公司在美国硅谷成立新的子公司,未来5年,丰田将在该公司投资10亿美元以发展人工智能和机器人技术,其中一个重要的目标,就是发展应用于新材料设计的人工智能技术。
最近的这些进展表明,利用人工智能技术来寻找、设计新材料或者新材料的合成方法已经引起了学术界和企业界的共同关注,并且取得了一些成功,人们已经开发出了初步的能设计新材料的阿尔法狗。但是,这一技术还远远没有达到围棋中阿尔法狗程序的水平,对于绝大多数材料的研发,人工智能技术还不能战胜人类,可以说,还处在起步阶段。
相对于传统的“炒菜”、“试错”式的新材料研究方法,利用人工智能技术进行新材料研发具有一个与生俱来的优点一一在错误中学习。在“炒菜”式研究新材料中,当一次实验合成的材料性能不好时,虽然人们也能从这次实验中积累了一些经验教训,但是很多关于这次失败实验的信息并没有被有效利用。而人工智能技术可以充分利用成功和失败实验的各种数据,基于数据挖掘、机器学习等算法去挖掘、训练出具有预测功能的新模型,从而在下一步的设计中加以充分应用。阿尔法狗围棋程序之所以能打败人类围棋冠军,一个很重要的原因是其利用近两千个CPU和三百个GPU的超级计算机进行并行计算,模仿人类,自我对弈,进行了大量的前期训练,这些自我对弈的训练过程积累了大量成功和失败的经历,并被有效利用,从而实现了程序的不断进化。利用人工智能技术来研发材料也一样,需要通过大量的实验和计算,训练出可以普遍适用的模型。
阿尔法狗程序不断进步,关键在于其能自我对弈;寻找新材料的人工智能技术要发展,也需要大量成功或者失败的实验及计算数据。大量实验数据产生耗费的经济和时间成本较大,相对而言,近年来并行计算技术的发展使得大量数据的计算在经济和时间上成本都远远低于实验。因此,采用并行计算技术来产生大量的材料性质和性能的数据,并以此为基础来发展材料研发的人工智能技术成为近年来的发展方向。



2011年,美国政府启动了材料基因组创新计划,在此计划支持下,麻省理工学院和伯克利国家实验室的材料学家开展了大量材料性质的计算,建立了材料工程(MaterialsProject)数据库,为材料研发的人工智能技术发展了提供了数据基础。美国杜克大学的学者也独立发展了包含100多万种材料和几十万种假想材料性质的AFLOWlib数据库,其包含材料的数目是目前国际上最多的。西北大学的学者则独立发展了OQMD数据库,包含大约40万种假想材料,其中钙钛矿相关的材料性质尤其丰富。另外,其特点在于,用户可以下载整个数据库,而前两个数据库只允许用户一次下载有限几种材料性质。在欧洲,瑞士洛桑联邦理工学院(EPFL)等结构的一批计算材料学家共同启动TMARVEL项目,使用新的计算平台制作了一个叫做MaterialsCloud的材料性质数据库,主要收录石墨等由一层原子或分子组成的“二维”材料性质,预计将于近期开放。2016年3月,我国启动了新一批国家重点基础研发计划,其中,材料基因组工程是一个重点研究方向,也计划建立包含大量材料性质的数据库。

大量材料性质的计算为寻找新材料研发的人工智能技术提供了大数据基础,同时,人工智能技术也可被应用于发展材料性质的精确、快速计算方法。近年来,德国柏林自由大学和马普研究所的物理学家正在利用机器学习算法,提高材料性质计算的精度和速度,使得收录到数据库中的材料性质更加精确,包含的材料数量更大。
总而言之,能设计材料的阿尔法狗已经出生,但是还在幼儿阶段。大量材料性质的数据库为这只阿尔法狗的成长提供了丰富的食物。在不久的未来,我们应该会看到,成熟的阿尔法狗为人类找到更多更好的新材料,改变我们的生活。(作者单位:华东师范大学信息科学技术学院、极化材料与器件教育部重点实验室)9