关键词:
热毒宁注射液
近红外光谱
机器学习算法
临床用药潜在风险
数据均衡
贝叶斯优化
摘要:
该文采用近红外光谱(near-infrared spectroscopy,NIRS)技术,对热毒宁注射液的129批次市售产品进行分析,获取其近红外光谱信息;并根据国家药品监督管理局药品评价中心(国家药品不良反应监测中心)的药品上市许可持有人药品不良反应直接报告系统中2021年8月—2022年8月热毒宁注射液报告情况估算批次报告率,并据此划分为潜在风险批次与安全批次。采用不处理、随机过采样(random oversampling,ROS)、随机欠采样(random undersampling,RUS)、合成少数类过采样技术(synthetic minority over-sampling technique,SMOTE)4种方法,对不平衡数据进行均衡处理。按照合适的采样方法划分样本后进行特征工程,即分别采用竞争性自适应重加权采样法(competitive adaptive reweighted sampling method,CARS)、连续投影算法(successive projections algorithm,SPA)、无信息变量消除法(uninformative variables elimination,UVE)、遗传算法(genetic algorithm,GA)对光谱数据进行特征筛选,然后选取支持向量机(support vector machine,SVM)、逻辑回归(logistic regression,LR)、K最近邻(k-nearest neighbors,KNN)、朴素贝叶斯(naive Bayes,NB)、随机森林(random forest,RF)和人工神经网络(artificial neural network,ANN)6种机器学习算法模型,建立潜在风险预测模型,并对比4种特征工程对模型准确率的影响;选取最优的处理方法,采用贝叶斯优化器(Bayesian optimization)优化模型参数以提高模型识别的准确率及稳健性。为进一步挖掘临床用药潜在风险与质量检验数据的相关性,采用树网(TreeNet)模型识别影响热毒宁注射液临床安全性的潜在质量参数。结果显示,SVM、LR、KNN、NB、RF、ANN算法的F1分数分别为0.85、0.85、0.86、0.80、0.88、0.85,准确率分别为88%、88%、88%、85%、91%、88%,预测时间少于5 s,表明所建立的模型预测准确高效,提示近红外光谱技术结合机器学习算法可快速预测批次热毒宁注射液的临床用药潜在风险。通过TreeNet模型识别出3个可能影响临床安全性的关键质量参数,为热毒宁注射液实现更高的安全标准提供科学依据和策略。