作者:朱文锋 晏峻峰 何军锋 黄碧群
【关键词】 中医辨证 证素 证候 数据挖掘 频权剪叉算法
中医辨证是非线性的复杂巨系统,证素辨证研究应该建立在数据挖掘的理念上,以证素为信息分析的核心,运用复杂系统分析方法,探索从证候确认证素的有效方法。
1 中医辨证原理
在中医学中,“证”相对于“病”来说,是对疾病中机体整体反应状态的阶段性病理本质概括。疾病中患者的症状、体征等各种病理信息,中医称为证候;中医辨证的目的,是为了明确病位与病性等辨证要素,简称证素;各证素的相互组合,可概括成完整的证名诊断。“辨证”就是根据中医学理论,通过对证候(症状等)进行分析,而确定其病理本质——证素,并作出证名诊断的思维认识过程。
“根据证候,辨别证素,组成证名”,既是辨证的原则、规律,也是辨证思维过程中的3个台阶、3个步骤。证候、证素、证名之间存在着极其复杂的网络关系,构成以证素为核心的辨证体系。中医不是依赖个别“金指标”对病情作出判断,不是从局部处理不确定性,而是强调从整体进行分析,即从各方面综合诊察疾病中机体现阶段的整体反应状态。因此,中医辨证是非线性的复杂巨系统。
2 辨证研究的数据挖掘
从定性描述到定量分析是现代科学发展的必由之路,相应数理模型和算法的建立是实现这一途径的方法。对证候的研究有基于聚类分析的神经网络模式[1]、隐变量分析法中的结构方程模型[2]以及粗糙集、支持向量机[3]等。算法有主成分分析和因子分析[4]、多元统计中的fisher判别、bayes判别分析、多元线性回归等[5]。由于整体辨证是非线性复杂系统,现有的数据处理方法尚不能完全反映中医辨证的规律,尚难解决在证的多因素信息分析中诸如有效因素组合爆炸之类的问题。中医辨证研究应该建立在数据挖掘的理念上。数据挖掘技术很多,不同的方法所能解决问题的能力不同、适应范围不同。因此,找到一种适合要求的数据挖掘方法,对于证素辨证的研究至关重要。
3 双层频权剪叉算法
中医临床辨证的实践提示,证候辨证具有多维复杂性,每个症状对各证素判断的贡献度并不是简单地以出现频数的多少为依据,有些证候临床出现的频数虽然很高,但其对证素的判断能力并不强,与之相反,某些证候临床发生的频数虽然不高,但其对证素的诊断具有很强的特征性。为了避免一些变量的频数范围过大,另一些变量的频数范围过小,而形成的局部优化、判别偏移,必须将频数转化成权值,即根据证候的不同属性,拟定各证候、各证素的标准化权值。为使每个证候、每项证素纳入判断的机遇相等,因而应当是高频数变量的权值轻、低频数变量的权值重的原则,这就是“频权剪叉”。据“频权剪叉”原理,对证素所见证候的权值进行分配,将各症状对各证素、证型的贡献度进行分配,形成证候和证素标准化权值,故为“双层”。
权值拟定的方法是:①从“中医辨证数据库”中将证候、证素出现的频数(证候总频数、证素总频数、各证候发生相关证素的频数、各证素发生相关证候的频数)进行累计;②按高频变量权轻、低频变量权重的原理,根据各证候的总频数计算出各自的权重,根据各证素的总频数合理分配出各自的权重;③将某证候在某证素中出现的频数乘以该证候的权值、乘以该证素的权值,即为该证候对相关证素的判别系数。
4 验证举例
我们在所建“中医辨证数据库”的基础上,采用“双层频权剪叉”算法,能够提取证素、证型的特征证候,获得证候辨证的准确参数。
4.1 常见证型的特征症提取
从“中医辨证数据库”中提取指定常见证型所含证素的证候频数。证候频数×证候权值×证素权值=证型主要证候系数。如亡阳证主要证候系数及排序,见表1。 表1 亡阳证主要证候系数及排序表(略)
采用双层频权剪叉算法,提取出亡阳证的证候特征,与亡阳证“以冷汗淋漓,手足厥冷,呼吸气微,面色苍白,脉微欲绝,瞳孔散大、反射消失,口鼻气冷,心音微弱,血压极低甚至无,体温低等为主要表现”[6]的描述完全相同。
4.2 证素特征症的提取
从“中医辨证数据库”中提取指定证素的证候频数。证候频数×证候权值×证素权值=证素的证候系数。如证素“心”的主要证候系数及排序,见表2。表2 证素“心”的主要证候系数及排序表(略)
采用双层频权剪叉算法提取出病位证素“心”的特征证候,与《现代中医临床诊断学》[6]所说“以心悸、怔忡,心痛,心界扩大、心脏杂音,心包积液,心律失常、脉结代或促,舌痛、舌疮、口舌溃烂、舌尖红等为主要表现者,其病位多归属于心。”的论述非常相似。
4.3 证候辨证权值提取
从“中医辨证数据库”中提取指定证候的频数。证候频数×证候权值×证素权值=指定证候的辨权值。如经常便溏辨证素的权值及排序,见表3。表3 经常便溏辨证素的权值及排序表(略)
4.4 辨证检验举例
临床辨证时,将所出现的证候按照“双层频权剪叉”算法原理,确定各症映射相关证素的系数;再按证素进行系数累加,系数达到及超过阈值以上的证素诊断成立。如764号病例的辨证计算,见表4。表4 764号病例辨证系数统计表(略)
据上述计算,取系数80以上的证素——脾、湿,从而诊断为脾湿证,与临床辨证完全相符。
5 结论
“中医辨证数据库”中的资料(症状、证素等)入库时首先经过规范化处理,保证了原始资料的准确,从而为辨证参数的获取奠定了基础。在中医辨证体系的框架下,以临床信息为对象,采用双层频权剪叉算法,从杂乱无章的数据中找出了中医辨证的规律,合理度量了变量间的相关性,能明确证素、常见证的特征证候,各症状的诊断贡献度,建立起证候与证素、证型间的非线性映射函数,对认识证候与证素、证型间复杂的非线性关系具有重要意义。双层频权剪叉算法克服了神经网络、贝叶斯网络等算法的某些不足,为解决中医辨证研究中诊断权值的确定这个关键问题,找到了一种简便、准确的运算方式。
【参考文献】
[1] 李建生,胡金亮,余学庆,等.基于聚类分析的径向基神经网络用于证候诊断的研究[j].中国中医基础医学杂志,2005,11(9):685-687.
[2] 陈启光,申春悌,张华强,等.结构方程模型在中医证候规范标准研究中的应用[j].中国卫生统计,2005,22(1):2-4.
[3] 晏峻峰,朱文锋.粗糙集理论在中医证素辨证研究中的应用[j].中国中医基础医学杂志,2006,12(2):90-93.
[4] 袁世宏,王天芳.多元统计方法在建立证候诊断模型研究中存在问题的思考[j].北京中医药大学学报,2004,27(4):9-11.
[5] 王 阶,姚魁武.中医学证候量化诊断研究现状与思考[j].世界科学技术,2003,5(5):10-13.
[6] 朱文锋,何清湖.现代中医临床诊断学[m].北京:人民卫生出版社,2003.