以法统方结合机器学习探索中医温胆治法沿革

时间：分类：医学论文浏览次数：

摘要：目的以温胆治法的清温倾向沿革为例，探索以法统方结合机器学习的中医治法研究方法。方法根据以法统方原理，将中医治法比较转化为方剂集合的比较，通过方剂药物组成变化研究治法的变化。建立并应用随机森林模型，量化比较 2 组或多组方剂集合的相似

　　摘要：目的以温胆治法的清温倾向沿革为例，探索以法统方结合机器学习的中医治法研究方法。方法根据以法统方原理，将中医治法比较转化为方剂集合的比较，通过方剂药物组成变化研究治法的变化。建立并应用随机森林模型，量化比较 2 组或多组方剂集合的相似性，即不同治法之间的相似性。结果在《三因方》之前，温胆治法与温法的相似性为 75%;在《三因方》之后，温胆治法与温法的相似性为 19%。结论中医温胆治法在《三因方》之前以温法为主，之后则倾向于清法。以法统方结合机器学习方法建立模型可用于中医治法领域的量化研究。

　　关键词：方剂学;中医治法;机器学习;随机森林;温胆治法

内蒙古中医药

　　以往中医治法研究多为回溯性研究，总结某个治法筛选出的方剂集合内部的规律;其更多作为一个分类工具，依附于其他研究对象如专病或特定医家的组方用药等。不同治法之间的关系一直是中医方剂研究的盲点。以法统方是对治法和方剂关系的高度概括，包括依法遣方、以法组方、以法释方和以法类方四方面[1]。

　　其数据挖掘领域的本质是对于治法与方剂组成关联数据集的研究。通过以法统方，在给定样本总体范围内，可以将 2 种治法的比较问题转化为其所代表的 2 个方剂集合的比较。随机森林是机器学习中一种高级分类技术，通过随机放回抽样，削弱数据间的相关性，构建大量的规则树，进而通过简单投票判断类别，实现对学习样本集合规则的较优拟合[2]。

　　与其他常见基于连续数据的算法比较，随机森林有适用性广泛的特点，尤其是对离散数据的拟合[3]。方剂集合的组成数据为离散型，适合运用随机森林算法。温胆是针对胆寒病机的治法，最早见于《备急千金要方》“治大病后，虚烦不得眠，此胆寒故也，宜服温胆汤方”[4]，学术界对于温胆治法是温胆还是清胆有诸多讨论[5-8]。本研究基于以法统方理论，将治法的比较转化为方剂集合的比较，再通过机器学习模型对方剂集合进行量化比较，从而量化“温胆治法” 与温法、清法的相似程度，厘清温胆治法清温倾向的沿革，更好地继承和理解历代医家的认识。

　　1 研究对象

　　针对温胆治法的温清倾向，“温胆治法”与“温法”的比较可以转化为温胆治法的方剂集合与温法方剂集合的比较(V 温胆/V 温法)，“温胆治法”与“清法” 的比较可以转化为温胆治法的方剂集合与清法方剂集合的比较(V 温胆/V 清法)。在给定样本总体范围内比较 2 个方剂集合的问题，可通过随机森林算法转化为以一个方剂集合建模，另一方剂集合应用模型的形式，量化比较 2 个方剂集合的相似性。

　　以“温胆治法” 方剂集合(V 温胆)与“温法”方剂集合(V 温法)比较为例：先由 V 温法和“清法”方剂集合(V 清法)生成研究范围内的温法辨别模型(F 温法)，则 V 温胆/V 温法=F 温法(V 温胆)/F 温法(V 温法)=F 温法(V 温胆)。也就是近似地建立一个含有几百个方剂学专家的辨别模型系统，通过投票来量化 V 温胆与 V 温法的相似性，即“温胆治法”与“温法”的相似性。同理，V 温胆与 V 清法的比较即 F 清法(V 温胆)。

　　2 方法与结果

　　2.1 模型建立

　　采用《中医方剂大辞典》(第一版)[9]的清法和温法方剂组成数据，基于随机森林算法构建温法辨别模型 F 温法，运用模型判别温胆治法对应方剂是否属于温法，通过其被判别为温法的比例 F 温法(V 温胆)分析温胆治法与温法的相似性。同理可获得温胆治法与清法的相似性。

　　2.2 数据录入

　　将《中医方剂大辞典》(第一版)共 15163 首具有功用字段的方剂导入数据库。以“清热”等 50 个治法关键词检索获得清法方剂 2110 首，以“散寒” 等 39 个治法关键词检索获得温法方剂 968 首，两者构成学习集;以“胆寒”“胆冷”“胆虚冷”“温胆” 为关键词检索获得温胆治法方剂 48 首，构成应用集。

　　2.3 数据清洗

　　排除清温并用的方剂 25 首、与胆有关的治法方剂 1 首。提取方剂组成字段的中药，剔除剂量、炮制和服法等信息，根据《中华人民共和国药典》[10]、《中华本草》[11]、《中药大辞典》[12]、《中药学》[13]、《中药别名速查大辞典》[14]对药名进行规范。

　　2.4 模型训练

　　从随机森林调参效率角度，将学习集中出现 30 次以上的中药(共 192 味)作为随机森林的构成参数。袋外错误率是一种取代测试集的误差泛估计[15]。使用 R 语言，调用 randomForest 包，通过不断人工调整参数，以较低袋外错误、较高学习集正确率，选定参数 try=19、nodesizes=15、ntree=1500，其他参数使用默认值。通过 set.seed 保证随机模型的可重复性，不断人工调整参数，以袋外错误率 0.09、学习集正确率 0.96，选择为“温法辨别模型”。同理获得相同袋外错误率和学习集正确率的清法辨别模型。

　　2.5 模型应用

　　使用温法辨别模型对应用集(温胆治法方剂集) 进行判断，获得温胆治法的总体温法相似性为 31%。同理获得温胆治法的总体清法相似性为 69%。在温法辨别模型、清法辨别模型判断应用产生的数据结果基础上，以《中医方剂大辞典》(第一版) 为数据来源，补充方剂出处(方书)的成书年代，作为该方剂的出现时间。

　　在 1174 年以前，即《三因方》出现之前，新增加的温胆治法方剂多倾向于温法，温胆治法与温法的相似性为 75%，与清法的相似性为 25%，组方多为含有肉桂、附子、乌头的温补之剂，可见温胆治法早期主要为温法;在 1174 年及以后，即《三因方》出现后，温胆治法方剂多倾向于清法，与温法的相似性为 19%，与清法的相似性为 81%，尤其在明代方书整理过程中，温胆的清法特性被加强，甚至将温胆默认为清法，其源头为《千金》温胆汤[16]，可见温胆治法后期倾向于清法。

　　3 讨论

　　随机森林相对其他简单分类方法难以解释，只能从结果进行逆向推测，且调参困难，对失衡分布学习集效果不佳，故本研究在构建学习集时，尽量平衡数据，采用样本加倍的方式构建清法学习集。随机森林结果具有随机性，本研究通过 set.seed 保证可重复性。

　　针对不同模型结果不稳定问题，改进为建立 5 个同参数不同随机数(不同 seed)的模型，各模型结果基本与原模型结果分析无差异。对于单个方剂，剂量、味数、炮制和服法都是影响其清温倾向的重要属性。但对于方剂集合来说，其中某个方剂的特殊剂量等信息对整体属性影响有限。

　　从大数据角度，个别偏差会被排除，药物组成是方剂集合最主要的属性特点，因此，本研究虽然仅采用药物组成建模进行研究，仍可大致反映方剂集合的整体属性。如将药物剂量、味数、炮制和服法也纳入分析，数据模型分析结果会更加全面和准确。本研究建立的方法可运用于各种治法相似性研究，以及基于治法相似性的古方、古法的传承脉络探索研究。经过一定变化，可以运用于中医疾病的异名准确性研究(如消渴各种异名的相对准确性)，以及现代病名与古代病名的对应关系研究(如骨质疏松症对应的古代病名)。本方法变换后可应用于基于对应方剂的各种中医基本概念量化比较，如以五脏方剂集构成学习集，三焦方剂集构成应用集，可以从方剂组成角度量化判断三焦与各脏的相关性。

　　医学论文投稿刊物：《内蒙古中医药》已经有24年的办刊历史，由内蒙古自治区卫生厅主管，内蒙古自治区中医药学会、内蒙古自治区中蒙医研究所主办的综合性中医药学术期刊。

　　综上所述，本研究以探索温胆治法的清温倾向历史沿革为例，结合以法统方和机器学习，将方剂集合量化比较问题转换为随机森林的建模和应用，进而反映与方剂集合关联的中医治法之间的量化关系，提供了一种新的中医治法量化研究方法。本方法尚不十分成熟，对于将中医各种治法转化为方剂集合、方剂集合变换为随机森林模型的过程中，如何更好地进行数据信息的取舍，最终结果的参数评估，以及本方法在不同研究范围内的有效性，还需要通过大量实践进一步积累经验。

　　参考文献：

　　[1] 邓中甲.方剂学[M].北京：中国中医药出版社,2003：11.

　　[2] BREIMAN L. Random forests[J]. Machine Learning,2001,45(1)： 5-32.

　　[3] 洪燕珠,周昌乐,张志枫,等.基于随机森林法的慢性疲劳证候要素特征症状的选择[J].中医杂志,2010,51(7)：634-638.

　　[4] 孙思邈.备急千金要方[M].北京：中医古籍出版社,1997：371.

　　[5] 侯志明,王艳荣.胆寒症浅析[J].内蒙古中医药,2008,27(3)：21-22

　　作者：杨巍，文小平，郭晶磊

上一篇：新形势下医院后勤物业化管理研究下一篇：药品验收存在的问题及改进措施