高分子材料大数据研究共性基础、进展及挑战

时间：分类：科学技术论文浏览次数：

摘要介绍了作为一种新的认知范式，大数据研究常见和前沿算法及其应用在高分子材料研究中的共性基础，围绕材料的基础与应用研究聚焦的定量组成-工艺-结构-性质-性能关系，剖析了该关系中的要素和可数值化、定量化的资源和途径.进而系统介绍近4年在高分子材料的合成与自

　　摘要介绍了作为一种新的认知范式，大数据研究常见和前沿算法及其应用在高分子材料研究中的共性基础，围绕材料的基础与应用研究聚焦的定量组成-工艺-结构-性质-性能关系，剖析了该关系中的要素和可数值化、定量化的资源和途径.进而系统介绍近4年在高分子材料的合成与自组装、机械热性质、光电声磁性质、分离性质和加工性质等方面大数据研究的一些典型进展，梳理了当前高分子材料大数据研究的难题和挑战，对这一新兴快速发展方向和一段时间内可能的突破进行了展望.

　　关键词高分子材料，大数据，组成-工艺-结构-性质-性能关系，计算辅助材料设计

高分子材料

　　高分子材料成就了我们生活的方方面面，在提升人类生活的便易性，健康舒适，助力人类探索未知世界的同时，也成为全球人类可持续发展和环境保护的主要挑战之一.高分子材料的机械热、光电声磁、分离、降解和加工性质是设计、生产和应用的聚焦内容，其柔性可设计的特征，有力地支撑着社会的多样化发展，对密切相关的组成、加工、结构及其性质关系的认识也在不断完善中.

　　在对高分子材料个性化、智能化生产和应用的驱动下，传统经验理论提供的定性指导模型渐不能满足，而对支撑给定性质实现材料逆设计的定量决策模型产生大量需求.特别是人们对于给定目标性质实现对材料组成工艺精准定位“逆设计”的渴求，迫切需要对高分子材料多因素及其联系的定量化研究，即大数据研究，取得进展.基于我们4年前对材料基因组学研究的梳理[1]，本文将介绍对高分子材料大数据研究共性基础的进一步思考，综述近几年高分子材料大数据研究的代表性进展，探讨高分子材料大数据研究这一急速升温领域的前沿方向和当前面临的主要挑战.

　　1材料大数据研究的共性基础

　　众所周知，人类探索未知世界存在4种认知范式，即以实验试错法为主的第一范式，以理论推理演绎为主的第二范式，以基于模型的计算模拟仿真为主的第三范式，和以数据驱动创新为主的第四范式.这4种范式都可以产生基础可用的数据，在数据基础上建立联系形成可流通的信息，从信息流中梳理出一定条件下存在的模式形成知识，进一步凝练出法则(principle)从而获得智慧，即科学认知的DIKW(Data，Information，Knowledge，Wisdom)框架.

　　在该框架中，人类生活生产和研究长期汇集的基础科学数据逐步成为一种资源并可以较为广泛地公开共享，机器学习、人工智能、深度学习和大数据(注：这4个专业名词的内涵具有高度重叠的共同知识，但有不同的侧重，相互间联系仍在变化中)为代表的新兴理念和技术手段，正快速地发展并重塑着生产力和生活模式.

　　统计力学和贝叶斯统计学与多个学科交叉，先后形成了生物信息学、化学信息学和材料信息学3个前沿学科.目前生物信息学发展的典型代表是AlphaFold2[2]的产生，在预测蛋白质序列到三维折叠结构的经典难题中已经部分超过人类专家.化学信息学仍在快速发展中，对短程关联体系，小分子、力场和作用、化学语言的符号化和定量表达等的进展强有力地推动着对众多物理、化学、生物现象和过程的定量认识，其中近几年以人工智能驱动新药开发(即AI制药)而广为人知.

　　而材料信息学正处于急速膨胀阶段，个性化和智能制造正渗透到社会的方方面面，有力地支撑着全人类的可持续发展和未来美好生活愿景.高分子材料的大数据研究是材料信息学的前沿核心内容，而材料信息学的研究存在的共性框架，即组成-工艺-结构-性质-性能关系(CPSPPr)，其中包含组成工艺决定结构，结构性质关系(QSAR/QSPR)以及性质性能关联三方面主要内容.要实现精准可靠的“逆设计”，需要明确CPSPPr中的因果关系，部分或者能可靠外推的充分必要关系，而这几个要素及其内在可控因素实现定量可计算是首要任务.下面将围绕这些因素展开：

　　材料的组成量化了物质的种类即电子、原子、结构或功能基团、结构片段、分子、聚集体、相界面和部件种类及其配比分数，决定了体系的相互作用，相貌形态和成本.相互作用用于定量描述材料体系的势能和动能，也包括表征、生产和应用中对外场的响应.

　　在25℃(298.15K)，1.01×105Pa的参考态下，1个热力学涨落能量单位与多种性质和响应能量存在如下等价关系，1kBT= 1RT/NA，4.11×10−21J，4.11pN·nm，9.83×10−22Cal，0.0256eV，9.408×10−4Hartree，6.2×1012Hz，48.4×104nm，2.479kJ·mol−1，0.593kCal·mol−1，200cm−1，该等价关系包含kB是Boltzmann因子，T是绝对温度(K)，R是气体常数，NA是阿伏伽德罗常数，h是普朗克常数，C为真空光速.

　　其中，除常见能量单位焦耳J，卡路里Cal外，pNnm用于如单分子力谱测量键长变化或构象变化，电子伏特eV测量光电能量，Hartree是量子化学计算中的能量单位，赫兹Hz、nm和cm−1则从不同角度衡量探测波的能量.该关系表明了从微观到宏观，相互作用在能量层面上对力、光电声磁、波和谱学的可探测信号可以实现统一.

　　对于高分子材料类的软物质，在高于25℃的环境中，低于1kBT(T=298.15K)的能量扰动不会引起相态变化，或诱发临界现象.材料不同尺度相互作用的定量计算可以基于量子化学、全原子和粗粒化力场、介观碰撞和耗散力、宏观连续介质固体和流体力学.这些定量信息则来自不同时空尺度的实验、理论模型和计算方法的相互佐证和层级关联.但在大数据研究中，不同尺度的相互作用则可被视为平等信息，从而可不受已有模型约束用于建立经验理论模型之外的关联关系.材料的相态包含相图，相变或相转变，性质和结构特征等数据信息，是区分和刻画材料组分的本征属性.成本是材料产业化的要素，包括原子经济、生产和应用的能源成本、生态成本和经济成本等.

　　在工艺方面，主要包含对配方组分的反应、分散和融合3类操作.反应是化学键的变化，涉及物质本征属性改变，包括物质的合成、修饰改性、化学交联、降解等，常见的因素包括手性、异构、键生成断裂平衡、活性、选择性以及与反应关联的小分子产物，反应过程伴随的物质和能量扩散和传递的调节控制等.分散是通过对体系助剂或能量输入，提升物相接触交换界面，使材料快速达到热力学平衡状态(一般是熵增过程)，或者使物质分布达到具有特定分布结构的稳态状态.融合主要是破坏或黏合热力学不相容表界面使体系成为整体，如表面活性剂、胶黏剂或者“锁-钥原理”实现结构锚定(药物筛选的原则之一)等.

　　这些工艺涉及较多人为经验性因素，易造成精细层面的可重复性低，对复杂、精密、长期或在极端条件服役的材料体系，在生产和应用之前一般会引入宏观尺度的计算机辅助设计/制造(CAD/CAM).在实际CAD建模计算模拟仿真中，常常需要引入材料中组分的体相宏观性质，如密度、模量、泊松比以及可以描述物质相态的本构方程等[3~5]，已有一些商业软件如Abaqus，Ansys，Comsol等.性质分为组分、材料和器件性质，组分性质一般接近其本征性质，但在材料的多组分作用下，其性质可能发生大幅变化.在高分子材料体系里，无论是从单体到聚合物，还是聚合物链的交联、共混等，材料性质都很难用组分性质直接或者加权平均近似[6].

　　在器件性质层面，材料构成的本体结构和表面形貌都具有重要贡献.小分子的流失、材料降解、表面形貌退化等化学或结构性变化都可能导致器件性质失效.而材料在模拟或实际应用中的机械、热、光电声磁、分离、加工性能等则可以解析为多种性质在实际应用场景中给定阈值范围内的叠加，即材料性能通过一系列标准组合或依据第一、二和三范式的专家经验实现性质拆分.不同于小分子、金属、无机非金属材料，利用大数据研究实现从性质到分子结构的“逆设计”已有不少成功报道[7~12]，高分子材料则少有类似成功，主要障碍在于其结构的定量化，将在下一节单独介绍.在材料大数据研究的这些共性因素中，通过一系列变量调控，可以使材料的性质发生显著变化.

　　由于高分子多分散性的特点，高分子材料在CPSPPr中各要素都存在分布.即从某属性或性质的当前分布A，逐步产生小概率事件偏倚或分布外的离散事件形成拖尾分布B，进而通过持续条件演化对小概率事件和离散事件的富集产生拖尾分布C，进一步演化为平衡态或稳态分布D.典型的例子是Ising模型中磁畴的变化，虽然单个磁子(spin)的取向是瞬时变化的，但在时间或磁场强度的连续变化中，总能观察到不同磁子取向的拖尾分布.高分子材料常见的性质调控、结构控制、相变过程等的序参量分布演化都满足这个模式.

　　2高分子材料结构定量数据

　　一般地，材料结构的定义为组成基元的时空间分布，组成基元可以是电子、原子、离子、基团、分子片段、分子、聚集体、相区和器件单元，分布可以表达为笛卡尔坐标、极坐标、内坐标或傅里叶倒空间的基元丰度，或者场模型中的概率密度.基元的属性和分布可以随时间发生变化，存在内部的热涨落或对外部的刺激响应，从而通过表征手段获得信号或表达出材料的不同性质.结构是一系列探测手段与材料作用的谱学信号，而性质也是材料对外部的刺激响应结果.

　　因此，材料的定量结构活性/性质关系(QSAR/QSPR)在本质上是不同谱学信号的相互关联，当某些表征信号可以比较完备地描述性质时，该表征手段常被作为性质的代理量(surrogate).如利用某种试剂盒的UV特征吸收表达物质的生物活性，用杨氏模量刻画材料的弹性，特定条件下的熔融指数衡量高分子材料的加工性，以及溶胀率表征材料的体积稳定性等.因为结构可由组成和工艺共同决定，并通过物理、化学的知识阐明机理，因而结构性质关系常用结构特征建立性质的代理模型或代理量，从而用于理解、设计和调节控制材料的宏观性质.从理论和计算模拟仿真角度来看，高分子材料的结构仅包括化学结构和聚集结构两方面.

　　化学结构用于区分组成物质的属性，其定量化是化学信息学研究的核心内容.主要包含化学语言的定量描述，包括编码与解码，比较成熟的有SMILES(simplifiedmolecular-inputline-entrysystem)和InChI(internationalchemicalidentifier)2套系统.化学结构的图论和图特征表达这类有长久历史的方法也存在一定程度应用和发展[13,14].

　　在此基础上，进一步通过分子指纹算法如Avalon、Daylight和开源RDKit库[15]等计算出组成基元的数量、键连接、键角、二面角、共轭面、拓扑和电荷、极性、排斥体积、氢键等加权平均的拓扑几何、物理、化学性质参数.化学信息学的这些计算方法的目的是从不同角度得到化合物的唯一编码和性质数据，但对于具有多层次结构的高分子来说这并不简单[16]，需要在整体覆盖尺度和细节分辨率之间权衡[17].由于高分子存在手性、异构、构象、拓扑结构和多聚体，多个单体化学键连接存在强协同效应等，使得高分子既不能像蛋白质中的二十余种保守氨基酸进行可以枚举成序列描述，又不能像小分子的SMILES可直接转换为数值向量.

　　因此，高分子化学结构的定量描述仍需要取得突破.另一方面是精确力场的发展，受高通量药物和精准催化剂设计的驱动，经典的通用力场如CHARMM[18]，AMBER，UFF[19]，OPLS[20]，MMFF[21]等已不能满足需求，大量的研究工作在通用力场基础上，针对特定一类分子体系，建立了力场修正，如ReaxFF系列[22]，可迁移力场TAFFI[23]等.对于高分子材料聚集结构的计算可分为粒子模型和场模型，前者将每个结构基元看作具有一定质量、性质和时空间排它占有的实体粒子，后者则描述结构基元在特定时空间的出现概率密度.

　　而计算模拟方法常见的有量子力学(quantummechanics，QM)，分子力学(molecularmechanism，MM)，分子动力学(moleculardynamics，MD)，蒙特卡洛(MonteCarlo，MC)，耗散粒子动力学(dissipativeparticledynamics，DPD)，格子波尔兹曼(latticeBoltzmann，LB)，密度泛函(densityfunctionaltheory，DFT)，自洽场(self-consistentfieldmethod，SCFT)，相场模型(phase-fieldmodel，PFM)和有限元分析(finiteelementanalysis，FEA)等.

　　这些计算方法涵盖了电子、原子、分子、聚集体、相区、表界面和宏观组件的多个尺度.但是目前宏观尺度和场论的计算方法还无法定量分辨材料的精确化学结构差异，微观和介观的计算模拟数据难以和宏观性质形成充要关联，使“逆设计”陷入困境，这也是高分子材料多尺度计算长期未解决的难题.该计算难题同样也存在高分子材料多尺度结构的实验表征中，特别是聚集结构的定量解析实现还需要长时间的努力.化学结构、晶体结构或单分散结构通过X光衍射、NMR、冷冻电镜、小角散射等可以较准确解析，而在计算方面，除共聚或共混两相组装相图有较系统的定量数据外，实际材料至多有半定量数据.常见的材料结构实验表征和计算方法的共性认识.结构的实验表征可分为组分、物相和微观结构三大类，包括化学、色谱、能谱、质谱和光谱分析等手段.

　　结构信息的获取包含材料样品、探测源、作用原理与信号3部分.探测源的能量可以从伽玛射线、电子、中子、X射线、紫外可见红外/偏振、微波、剪切或周期力等，而这些探测源在与样品发生诸如透射、反射、折射、散射/衍射、吸收、荧光、共振和形变等作用后，结构表征信号可以探测到直接的强度或强度差、相位或相位差、微分或积分面积、水平或角度分辨等，从而产生了不同角度、不同原理的结构定量数据，即谱学信号.在统计力学的框架中，理论上所有的谱学信号都可以通过量子化学计算获得，但由于高分子多尺度、多分散和长程关联的特性，量化计算的时空尺度和计算成本受限导致可用数据非常稀少.

　　目前机器学习对于小分子化合物的光谱预测已取得一定进展[24]，IR[25]，MS[26]，NMR[27]等在已知条件下能够较为准确预测和谱图模式识别.即使是对于较为复杂的X光吸收光谱(XAFS)，通过神经网络算法结合图论已能达到高于90%可靠度的准确预测，对峰位的预测误差小于1eV[28].可以预见，从国家大科学装置、仪器开发商到终端科研和检测人员，对高分子材料结构的定量数据一直都十分关注，大数据辅助结构定量数据的收集、分析和综合利用的进展报道将越来越多.大数据与结构谱学分析深度结合，未来将继续向精细分辨、高通量快速分析，以及多尺度多角度结构数据的整合等方向发展.

　　3大数据研究的数据和算法进展

　　材料大数据研究的主要流程可参考综述文献[1]，近4年来该研究领域蓬勃发展，算法和数据两方面都形成了一些新的趋势.

　　大数据研究的算法主要包括数据挖掘和机器学习两部分，前者侧重从文献报道、专利、书籍、标准等文本或图表中的信息批量提取，构建可机读、可批量计算的数据库或数据集，利用统计学呈现数据的完备性和代表性，当前的显著进展与自然语言处理(naturallanguageprocessing，NLP)以及化学信息学对化学物质的编码和解码算法的研究前沿密切关联.

　　而机器学习侧重于对给定单一或多目标算法的优化，自扩展搜索空间和给定函数的快速收敛.与之紧密相关的是人们对数据资源的认识加深，涌现了一大批长期积累的、由专家参与的数据整理建设，目前与高分子材料相关的一些代表性数据库或数据集列于.

　　相比于4年前的综述调研[1]，传统数据库的数据量，以及材料对应的物化性质等获得了大量扩充，数据的完备性进一步提升，如PoLyInfo(polymer.nims.go.jp/en/).同时也看到，基于量化和力场准确计算的物化参数也急剧增加，填补过去大量材料物化性质缺失，如clogP，HOMO，LUMO等.值得一提的是PubChem(pubchem.ncbi.nlm.nih.gov),Reaxys(www.reaxys.com)，SciFinder(sso.cas.org)，QM7/9[29]等数据库支撑了深度学习在小分子设计[30~33]，反应合成[34~36]等领域的应用，同时也对高分子的合成和性质预测提供了应用基础.

　　在机器学习的算法方面，增强学习[43,44]、主动学习[45]、深度神经网络等在近几年取得长足发展.在传统的监督式和无监督式学习方法中，用于回归分析、分类算法、聚类和降维分析除了经典算法如随机森林(randomforest,RF)[46]、逻辑回归(logisticregression)[47]、朴素贝叶斯(naiveBayes)[48]、支持向量机(supportvectormachine,SVM)[49]、K-means聚类[50]、层次聚类(hierarchicalclustering)[51]和主成分分析(principalcomponentanalysis,PCA)[52]等得到进一步的广泛应用外。

　　一些新的算法也从提出快速地得到应用，多学科交叉促进材料研究模式变化的节奏随着信息高度流通明显加快.对于缺少大量专家标记数据的应用场景，半监督式学习算法得到快速发展，包含自我训练[53]、协同训练[54]、直推式支持向量机[55]和图网络方法[56]等.

　　在强化学习算法方面，其原理类似于给定模型的计算模拟仿真，通过打分和惩罚函数在迭代反馈中优化，建立代理模型.典型的强化学习算法有Q-learning方法(如深度Q-网络[57]，Q值函数反向传播算法[57~59]、策略梯度方法[60]和信任区域策略优化[61])等.这些算法与前述经典学习算法复合或定制用于特定场景，出现了主动学习、强化学习、迁移学习、多任务学习等一系列新的方法分支.这些算法可以对已知人工数据点进行生成扩充[62~66]，进而提升模型性能，同时也可助力高分子材料实现高通量实验和高通量表征[67]，为高效构建高分子实验数据库提供了新思路[68].这方面感兴趣的读者可参考文献[69,70]等书籍了解更多原理和应用细节.特别值得一提的是近几年深度学习对整个机器学习算法、人工智能和大数据从基础研究到生产应用都带来了极大的冲击.

　　人工智能自动编程，机器学习数据自动生成等的急速发展与深度学习算法的高速发展密切相关，在广泛应用的机器学习编程语言Python，R，Matlab的基础上，新产生了一些建模框架，如Pytorch，TensorFlow，MxNet等.一些新的数据和工具包也形成了一定的流行度，如Hyperopt[71]和GPTune[72]，COMBO[73]等.也有一些经典的数据和算法项目得到持续发展，如早期DeepChem开源项目，包括MoleculeNet[74]有机分子的基准和训练数据集，面向化学和材料数据的建模软件ChemML[75]，以及面向QSPR/QSAR的自动化工具TPOT[76],auto-sklearn等[77~80].

　　但这些数据和工具包很少考虑高分子的应用场景，主要原因是数据集较小，缺少基准数据，数据不确定性高或歧义较多等.在算法方面，迄今得到广泛使用的深度学习算法包括循环神经网络(RNN)[81]，变分自动编码器(VAE)[82]，生成对抗网络(GAN)[83]等.这些算法在高分子材料领域已得到一定的应用并表现出巨大潜力.如Chen等利用RNN对基于SMILES准确预测了高分子的玻璃化转变温度(Tg)[84].Batra等[85]利用VAE结合高斯过程回归(GPR)模型发现了预期在高温、高电场极端条件下具有潜在使用价值的新聚合物.Hiraide等开发了一个逆向设计框架GAN算法，对一类具有共性结构的高分子材料实现了从杨氏模量到化学结构的“逆设计”[86].

　　4高分子材料大数据研究的代表性进展

　　4.1进展分类

　　高分子材料大数据研究是材料基因组学或材料信息学中极具挑战的重要课题，当前阶段材料基因组学强调高通量计算、高通量表征和高通量制备及数据共享，但高通量对于高分子材料实现起来存在诸多困难，源于高分子材料多分散和多尺度关联等特性.另一方面，以核酸、蛋白、多糖、多酚和小分子为主要研究对象的生物信息学最先发展成型，这类体系的组成单元收敛可枚举，多分散性效应不明显.近年来仍在高速发展的化学信息学，聚焦化学语言数值化、微观结构多角度精确计量等极大地促进了材料信息学的发展，特别是在小尺寸强关联体系用化学信息学方法可直接指导材料的“逆设计”.

　　为了系统地介绍近几年高分子材料大数据研究的代表性进展，在CPSPPr中，主要按材料应用性质分类，包含新型高分子合成与自组装、机械热性质、光电声磁性质、分离性质等材料分类.在大数据计算方法、数据集，以及计算预测与实验验证迭代的方法和思路的进展也将融合到这些具体材料分类中.整体来说，得益于化学信息学对物质化学属性和近程作用的精确刻画，光电声磁功能高分子材料的大数据研究已取得可媲美金属合金、无机非金属材料方面的成功应用，但其他性质的高分子材料大数据研究还缺乏能够推动行业研究和生产模式发生改变的显著成果.

　　在组成工艺决定结构、结构性质关系(QSPR/QSAR)以及性质性能3类主要关系中，结构性质关系研究较多，而结构多数限于化学结构，对高分子材料聚集结构的关联关系研究报道非常少见.高分子材料大数据研究的实际应用如配方工艺优化、材料新性质发现，以及材料组成工艺决定结构的基础研究这些方面的报道也较少.下面我们将围绕材料性质分类对近几年的代表性进展进行简要回顾介绍.

　　5难题与挑战

　　如前所述，建立高分子材料的定量CPSPPr是大数据研究的核心，在数学本质上是谱学数据的预测.目前基于量化计算对小分子的多尺度谱学数据已能较为准确的计算和预测，对于多分散系数趋近于1的体系如蛋白、核酸等其结构和生物活性利用生物信息学的一体化建模(information-drivenintegrativemodeling)已经能够提供可与人类专家媲美的准确预测.

　　蛋白与核酸结构定量化的成功与PDB的长期建设密不可分，但对于高分子，由于其二面角旋转位垒与热涨落能量1kBT相当，并缺少蛋白和核酸分子中的密集氢键约束，高分子材料的结构数据不能够用原子坐标的办法直接描述，需要更复杂的构象集合来表示，但目前还缺少公认可靠高效的概念和框架.

　　在实际的高分子材料体系，往往还包括一定量的复合成分、添加剂或助剂，这些物质分布广泛，小分子可用的比如SMILES定量描述系统失效，而高分子自带的手性、支化、成环、长程作用的芳环堆砌、静电作用等对构象、聚集和性质的影响规律往往还依赖计算模拟近似分析，缺少可迁移利用的基础定量数据.总的来说，对于具有典型的多分散、局域精度高和大尺度准确、存在非线性、非单调性累积协同效应的高分子材料体系，从近程作用化学异构和拓扑结构的化学信息学定量描述到跨尺度关联，大数据研究仍面临权衡.

　　这些问题在传统研究中长期存在，常见表述为临界现象、相变和相转变、标度行为、多级弛豫等概念模型.理论模型中会采用了多种近似，如假定结构分布在平均场背景中、或假定高分子链长或拓扑结构满足高斯分布、或假定物质聚集可用随机相近似(randomphaseapproximation，RPA)，或假定结构和性质关系在多层次具有自相似性(selfsimilarity)，或在临界点附近拖尾分布存在标度关系指数分布等.在实际应用的材料中，这些假设可能失效但某些模型在一定条件下可能仍旧适用，而理论模型的不可靠性需要严格评估.因此，当前高分子材料大数据研究的首要难题和挑战是系统客观地评估已有的理论模型、经验公式的可靠性，以及模型定量描述的准确度和适用性边界.

　　6结语与展望

　　高分子材料大数据研究还处于积累和爆发阶段，可以预见在未来几年中，相关的研究报道和生产应用实践将急剧增加.得益于生物信息学较为成熟的多学科交叉深入合作和数据共享模式，化学信息学对物质属性的覆盖度和准确率的提升，以及应对复杂体系和模糊语义的机器学习算法发展，材料信息学在金属、无机非金属和有机小分子材料研究中取得了广泛的成功，也切实推动了高分子材料的大数据研究.

　　由于高分子材料描述模糊和歧义命名等长期历史积累问题，以及高分子的多分散、多尺度、非线性协同效应显著、长程弱关联强响应等特点，对高分子材料的准确定量数据和高通量计算难以实现，是造成高分子材料大数据研究进展滞后的主要因素.

　　在数据的标准化和可共享流通方面，生产应用数据与实验室研究数据严重脱节、工业化和原料供应数据不透明造成大量重复表征测试，基于不同关注点对高分子的基础表征数据和性质测试方法等关键信息缺失，使高分子材料可用的数据库远未达到诸如CSD，Reaxys，PDB，UniProt等规模水平，但专一聚焦的高分子材料数据库已有许多在路上.高分子材料大数据研究基础的数据源建设发展方向，很可能类似当前计算模拟领域的通用力场和专用力场修正的发展模式，即通用高分子多谱学数据与功能高分子特殊结构性质数据的整合.

　　出版社(如ACS，Wiley，Elsevier,Springer，Cambridge，CRC等)、政府机构(如NIST,NIMS等)以及跨国公司等已广泛布局数据的汇集和价值开发，数据已成为重要资源.数据的增加主要将朝着类似地理地图大数据的方向发展，在顶层设计和支持下对具有多种应用场景的高分子材料具有高覆盖度、精细分辨，支持高通量快速分析，提供多尺度多角度全方位数据支持或数据共享.同时在面向特定应用和研究兴趣，前沿领域的专业数据积累将更快地与新兴大数据方法交叉，在高分子新材料研发或经典问题的研究中产生突破进展.

　　REFERENCES：

　　1LiYunqi(李云琦),LiuLunyang(刘伦洋),ChenWenduo(陈文多),AnLijia(安立佳).SciSinChim(中国科学:化学),2018,48(3):243-255

　　2JumperJ,EvansR,PritzelA,GreenT,FigurnovM,RonnebergerO,TunyasuvunakoolK,BatesR,ZidekA,PotapenkoA,BridglandA,MeyerC,KohlSAA,BallardAJ,CowieA,Romera-ParedesB,NikolovS,JainR,AdlerJ,BackT,PetersenS,ReimanD,ClancyE,ZielinskiM,SteineggerM,PacholskaM,BerghammerT,BodensteinS,SilverD,VinyalsO,SeniorAW,KavukcuogluK,KohliP,HassabisD.Nature,2021,596:583-589

　　3KaurG,HomaD,SinghK,PandeyOP,ScottB,PickrellG.JPowerSources,2013,242:305-313

　　4CrawfordAJ,ChoiD,BalducciPJ,SubramanianVR,ViswanathanVV.JPowerSources,2021,501:230032-230047

　　5LigonSC,LiskaR,StampflJ,GurrM,MulhauptR.ChemRev,2017,117(15):10212-10290

　　6KrevelenDWV,NijenhuisKT.PropertiesofPolymers.4thed.Amsterdam:Elsevier,2009

　　7ShenC,KrennM,EppelS,Aspuru-GuzikA.MachLearn:SciTechnol,2021,2(3):03LT02

　　8NohJ,KimJ,SteinHS,Sanchez-LengelingB,GregoireJM,Aspuru-GuzikA,JungY.Matter,2019,1(5):1370-1384

　　9Gomez-BombarelliR,WeiJN,DuvenaudD,Hernandez-LobatoJM,Sanchez-LengelingB,SheberlaD,Aguilera-IparraguirreJ,HirzelTD,AdamsRP,Aspuru-GuzikA.ACSCentSci,2018,4(2):268-276

　　10KimB,LeeS,KimJ.SciAdv,2020,6:eaax9324

　　11Sanchez-LengelingB,Aspuru-GuzikA.Science,2018,361(6400):360-36512VasudevanR,PilaniaG,BalachandranPV.JApplPhys,2021,129(7):070401

　　作者：刘伦洋1,2丁芳1,2李云琦1,2

上一篇：高超声速快响应PSP测量技术研究进展下一篇：矿山地质环境保护与土地复垦预算费用及效果