1.医疗器械临床试验目的
临床试验需设定明确、具体的试验目的。申请人可综合分析试验器械特征、非临床研究情况、已在中国境内上市(下文简称已上市)同类产品的临床数据等因素,设定临床试验目的。临床试验目的决定了临床试验各设计要素,包括主要评价指标、试验设计类型、对照试验的比较类型等,进而影响临床试验样本量。不同情形下的临床试验目的举例如下:
(一)当通过临床试验确认试验器械在其预期用途下的安全有效性时,若更关注试验器械的疗效是否可满足临床使用的需要,其临床试验目的可设定为确认试验器械的有效性是否优于/等效于/非劣于已上市同类产品,同时确认试验器械的安全性。此时,临床试验的主要评价指标为有效性指标。
(二)当通过临床试验确认试验器械在其预期用途下的安全有效性时,若更关注试验器械的安全性是否可满足临床使用的需要,其临床试验目的可设定为确认试验器械的安全性是否优于/等效于/非劣于已上市同类产品,同时确认试验器械的有效性。此时,临床试验的主要评价指标为安全性指标,以乳房植入体为例,临床试验通常选择并发症发生率(如包膜挛缩率、植入体破裂率)作为主要评价指标。
(三)对于已上市产品增加适应症的情形,临床试验目的可设定为确认试验器械对新增适应症的安全有效性。例如,止血类产品在已批准适用范围(如普通外科、妇产科)的基础上,增加眼科、神经外科、泌尿外科使用的适应症。
(四)当已上市器械适用人群发生变化时,临床试验目的可设定为确认试验器械对新增适用人群的安全有效性。例如膜式氧合器产品,在原批准适用范围的基础上新增体重≤10kg的适用人群;又如治疗类呼吸机在已批准的适用于成人的基础上新增适用于儿童的适用范围。
(五)当已上市器械发生重大设计变更时,可根据变更涉及的范围设定试验目的。例如冠状动脉药物洗脱支架平台花纹设计发生改变时,临床试验目的可设定为确认变化部分对于产品安全有效性的影响。
(六)当已上市器械的使用环境或使用方法发生重大改变时,试验目的可设定为确认产品在特定使用环境和使用方法下的安全有效性。例如:已上市的植入式心脏起搏器通常不能兼容核磁共振检查,如申请兼容核磁共振检查,其临床试验目的可设置为对兼容核磁共振检查相关的安全有效性进行确认。
2.临床试验设计的基本类型和特点
1) 平行对照设计
随机、双盲、平行对照的临床试验设计可使临床试验影响因素在试验组和对照组间的分布趋于均衡,保证研究者、评价者和受试者均不知晓分组信息,避免了选择偏倚和评价偏倚,被认为可提供高等级的科学证据,通常被优先考虑。对于某些医疗器械,此种设计的可行性受到器械固有特征的挑战。
2) 配对设计
对于治疗类产品,常见的配对设计为同一受试对象的两个对应部位同时接受试验器械和对照治疗,试验器械和对照治疗的分配需考虑随机设计。配对设计主要适用于器械的局部效应评价,具有一定的局限性。例如,对于面部注射用交联透明质酸钠凝胶的临床试验,配对设计在保证受试者基线一致性上比平行对照设计具有优势,但试验中一旦发生系统性不良反应则难以确认其与试验器械或对照器械的相关性,且需要排除面部左右侧局部反应的互相影响。因此,申请人考虑进行配对设计时,需根据产品特征,综合考虑该设计类型的优势和局限性,恰当进行选择,并论述其合理性。
对于诊断器械,若试验目的是评价试验器械的诊断准确性,常见的配对设计为同一受试者/受试样品同时采用试验器械和诊断金标准方法或已上市同类器械来进行诊断。
3) 交叉设计
在交叉设计的临床试验中,每位受试者按照随机分配的排列顺序,先后不同阶段分别接受两种或两种以上的治疗/诊断。此类设计要求前一阶段的治疗/诊断对后一阶段的另一种治疗/诊断不产生残留效应,后一阶段开始前,受试者一般需回复到基线状态,可考虑在两个干预阶段之间安排合理的洗脱期。
4) 单组设计
单组试验的实质是将主要评价指标的试验结果与已有临床数据进行比较,以评价试验器械的有效性/安全性。与平行对照试验相比,单组试验的固有偏倚是非同期对照偏倚,由于时间上的不同步,可能引起选择偏倚、混杂偏倚、测量偏倚和评价偏倚等,应审慎选择。在开展单组试验时,需要对可能存在的偏倚进行全面分析和有效控制。
3.受试对象
根据试验器械预期使用的目标人群,确定研究的总体。综合考虑对总体人群的代表性、临床试验的伦理学要求、受试者安全性等因素,制定受试者的选择标准,即入选和排除标准。入选标准主要考虑受试对象对总体人群的代表性,如适应症、疾病的分型、疾病的程度和阶段、使用具体部位、受试者年龄范围等因素。排除标准旨在尽可能规范受试者的同质性,将可能影响试验结果的混杂因素(如影响疗效评价的伴随治疗、伴随疾病等)予以排除,以达到评估试验器械效应的目的。
4.评价指标
评价指标反映器械作用于受试对象而产生的各种效应,根据试验目的和器械的预期效应设定。在临床试验方案中应明确规定各评价指标的观察目的、定义、观察时间点、指标类型、测定方法、计算公式(如适用)、判定标准(适用于定性指标和等级指标)等,并明确规定主要评价指标和次要评价指标。指标类型通常包括定量指标(连续变量,如血糖值)、定性指标(如有效和无效)、等级指标(如优、良、中、差)等。对于诊断器械,临床试验评价指标通常包括定性检测的诊断准确性(灵敏度、特异性、预期值、似然比、ROC曲线下面积等)或检测一致性(阳性/阴性一致性、总一致性、KAPA值等),以及定量检测回归分析的斜率、截距和相关系数等。
1) 主要评价指标和次要评价指标
主要评价指标是与试验目的有本质联系的、能确切反映器械疗效或安全性的指标。主要评价指标应尽量选择客观性强、可量化、重复性高的指标,应是专业领域普遍认可的指标,通常来源于已发布的相关标准或技术指南、公开发表的权威论著或专家共识等。临床试验的样本量基于主要评价指标的相应假设进行估算。临床试验的结论亦基于主要评价指标的统计分析结果做出。次要评价指标是与试验目的相关的辅助性指标。在方案中需说明其在解释结果时的作用及相对重要性。
一般情况下,主要评价指标仅为一个,用于评价产品的疗效或安全性。当一个主要评价指标不足以反映试验器械的疗效或安全性时,可采用两个或多个主要评价指标。以一次性使用脑积水分流器的临床试验为例,当参照《一次性使用脑积水分流器注册技术审查指导原则》进行方案设计时,同时采用两个主要评价指标,包括术后30天内颅内压的达标率、首次植入分流器后1年时分流器存留率。对于第二个主要评价指标(1年存留率),试验组与对照组间需进行组间比较,同时要求试验组1年存留率不小于90%。因此,该临床试验的样本量估算需同时考虑三重假设检验:(1)试验组术后30天颅内压达标率非劣效于对照组;(2)试验组1年的存留率非劣效于对照组;(3)试验器械1年的存留率达到目标值要求。上述三重假设检验都有统计学意义时,才可下推断结论。由于此时没有意图或机会选择最有利的某次假设检验结果,因此可设定每次检验的I类错误水平等于预先设定的α,无需进行多重性校正。对于同时采用多个主要评价指标的临床试验设计,当有可能选择最有利的某次假设检验结果进行结论推断时,样本量估算需要考虑假设检验的多重性问题,以及对总Ⅰ类错误率的控制策略。
2) 复合指标
按预先确定的计算方法,将多个评价指标组合构成一个指标称为复合指标。当单一观察指标不足以作为主要评价指标时,可采用复合指标作为主要评价指标。以冠状动脉药物洗脱支架的临床试验为例,主要评价指标之一为靶病变失败率。靶病变失败定义为心脏死亡、靶血管心肌梗死以及靶病变血运重建三种临床事件至少出现一种,即为复合指标。以血液透析浓缩物的临床试验为例,采用透析达标率作为主要评价指标,“达标”的定义为透析前后K+、Na+、Ca2+、Cl-、CO2CP(二氧化碳结合力)或HCO3-、pH值均达到预先设定的临床指标数值。复合指标可将客观测量指标和主观评价指标进行结合,形成综合评价指标。临床上采用的量表(如生活质量量表、功能评分量表等)也为复合指标的一种形式。需在试验方案中详细说明复合指标中各组成指标的定义、测定方法、计算公式、判定标准、权重等。当采用量表作为复合指标时,尽可能采取专业领域普遍认可的量表。极少数需要采用自制量表的情形,申请人需提供自制量表效度、信度和反应度的研究资料,研究结果需证明自制量表的效度、信度和反应度可被接受。需考虑对复合指标中有临床意义的单个指标进行单独分析。
3) 替代指标
在直接评价临床获益不可行时,可采用替代指标进行间接观察。是否可采用替代指标作为临床试验的主要评价指标取决于:①替代指标与临床结果的生物学相关性;②替代指标对临床结果判断价值的流行病学证据;③从临床试验中获得的有关试验器械对替代指标的影响程度与试验器械对临床试验结果的影响程度相一致的证据。
4) 主观指标的第三方评价
部分评价指标由于没有客观评价方法而只能进行主观评价,临床试验若必需选择主观评价指标作为主要评价指标,建议成立独立的评价小组,由不参与临床试验的第三者/第三方进行指标评价,需在试验方案中明确第三者/第三方评价的评价规范。
5.样本量估算
临床试验收集受试人群中的疗效/安全性数据,用统计分析将基于主要评价指标的试验结论推断到与受试人群具有相同特征的目标人群。为实现样本(受试人群)代替总体(目标人群)的目的,临床试验需要一定的受试者数量(样本量)。样本量大小与主要评价指标的变异度呈正相关,与主要评价指标的组间差异呈负相关。
样本量一般以临床试验的主要评价指标进行估算。需在临床试验方案中说明样本量估算的相关要素及其确定依据、样本量的具体计算方法。附录2提供了样本量估算公式的样例,供参考。确定样本量的相关要素一般包括临床试验的设计类型和比较类型、主要评价指标的类型和定义、主要评价指标有临床实际意义的界值、主要评价指标的相关参数(如预期有效率、均值、标准差等)、Ⅰ类和Ⅱ类错误率以及预期的受试者脱落和方案违背的比例等。主要评价指标的相关参数根据已有临床数据和小样本可行性试验(如有)的结果来估算,需要在临床试验方案中明确这些估计值的确定依据。一般情况下,Ⅰ类错误概率α设定为双侧0.05或单侧0.025,Ⅱ类错误概率β设定为不大于0.2,预期受试者脱落和方案违背的比例不大于0.2,申请人可根据产品特征和试验设计的具体情形采用不同的取值,需充分论证其合理性。
6.统计分析
1) 分析数据集的定义
意向性分析(Intention To Treat,简称ITT)原则是指主要分析应包括所有随机化的受试者,基于所有随机化受试者的分析集通常被称为ITT分析集。理论上需要对所有随机化受试者进行完整随访,但实际中很难实现。
临床试验常用的分析数据集包括全分析集(Full Analysis Set,FAS)、符合方案集(Per Protocol Set,PPS)和安全性数据集(Safety Set,SS)。需根据临床试验目的,遵循尽可能减少试验偏倚和防止Ⅰ类错误增加的原则,在临床试验方案中对上述数据集进行明确定义,规定不同数据集在有效性评价和安全性评价中的地位。全分析集为尽可能接近于包括所有随机化的受试者的分析集,通常应包括所有入组且使用过一次器械/接受过一次治疗的受试者,只有在非常有限的情形下才可剔除受试者,包括违反了重要的入组标准、入组后无任何观察数据的情形。符合方案集是全分析集的子集,包括已接受方案中规定的治疗、可获得主要评价指标的观察数据、对试验方案没有重大违背的受试者。若从全分析集和符合方案集中剔除受试者,一是需符合方案中的定义,二是需充分阐明剔除理由,需在盲态审核时阐明剔除理由。安全性数据集通常应包括所有入组且使用过一次器械/接受过一次治疗并进行过安全性评价的受试者。
需同时在全分析集、符合方案集中对试验结果进行统计分析。当二者结论一致时,可以增强试验结果的可信度。当二者结论不一致时,应对差异进行充分的讨论和解释。如果符合方案集中排除的受试者比例过大,或者因排除受试者导致试验结论的根本性变化(由全分析集中的试验失败变为符合方案集中的试验成功),将影响临床试验的可信度。
全分析集和符合方案集在优效性试验和等效性或非劣效性试验中所起作用不同。一般来说,在优效性试验中,应采用全分析集作为主要分析集,因为它包含了依从性差的受试者而可能低估了疗效,基于全分析集的分析结果是保守的。符合方案集显示试验器械按规定方案使用的效果,与上市后的疗效比较,可能高估疗效。在等效性或非劣效性试验中,用全分析集所分析的结果并不一定保守。
2) 缺失值和离群值
缺失值(临床试验观察指标的数据缺失)是临床试验结果偏倚的潜在来源,在临床试验方案的制定和执行过程中应采取充分的措施尽量减少数据缺失。对于缺失值的处理方法,特别是主要评价指标的缺失值,需根据具体情形,在方案中遵循保守原则规定恰当的处理方法,如末次观察值结转(Last Observation Carried Forward, LOCF)、基线观察值结转(Baseline Observation Carried Forward, BOCF)等。必要时,可考虑采用不同的缺失值处理方法进行敏感性分析。
不建议在统计分析中直接排除有缺失数据的受试者,因为该处理方式可能破坏入组的随机性、破坏受试人群的代表性、降低研究的把握度、增加Ⅰ类错误率。
对于离群值的处理,需要同时从医学和统计学两方面考虑,尤其是医学专业知识的判断。离群值的处理应在盲态审核时进行,如果试验方案中未预先规定处理方法,在实际资料分析时,需要进行敏感性分析,即比较包括和不包括离群值的两种试验结果,评估其对试验结果的影响。
3) 统计分析方法
1.统计描述
人口学指标、基线数据一般需选择合适的统计指标(如均数、标准差、中位数等)进行描述以比较组间的均衡性。
主要评价指标在进行统计推断时,需同时进行统计描述。值得注意的是,组间差异无统计学意义不能得出两组等效或非劣效的结论。
次要评价指标通常采用统计描述和差异检验进行统计分析。
2.假设检验和区间估计
在确定的检验水平(通常为双侧0.05)下,按照方案计算假设检验的检验统计量及其相应的P值,做出统计推断,完成假设检验。对于非劣效性试验,若P≤α,则无效假设被拒绝,可推断试验组非劣效于对照组。对于优效性试验,若P≤α,则无效假设被拒绝,可推断试验组临床优效于对照组。对于等效性试验,若P1≤α和P2≤α同时成立,则两个无效假设同时被拒绝,推断试验组与对照组等效。
亦可通过构建主要评价指标组间差异置信区间的方法达到假设检验的目的,将置信区间的上限和/或下限与事先制定的界值进行比较,以做出临床试验结论。按照方案中确定的方法计算主要评价指标组间差异的(1-α)置信区间,α通常选取双侧0.05。对于高优指标的非劣效性试验,若置信区间下限大于-∆(非劣效界值),可做出临床非劣效结论。对于优效性试验,若置信区间下限大于∆(优效界值),可做出临床优效结论。对于等效性试验,若置信区间的下限和上限在(-∆,∆)(等效界值的劣侧和优侧)范围内,可做出临床等效结论。
对试验结果进行统计推断时,建议同时采用假设检验和区间估计方法。
3.基线分析
除试验器械及相应治疗方式外,主要评价指标常常受到受试者基线变量的影响,如疾病的分型和程度、主要评价指标的基线数据等。因此,在试验方案中应识别可能对主要评价指标有重要影响的基线变量,在统计分析中将其作为协变量,采用恰当的方法(如协方差分析方法等),对试验结果进行校正,以修正试验组和对照组间由于协变量不均衡而对试验结果产生的影响。协变量的确定依据以及相应的校正方法的选择理由应在临床试验方案中予以说明。对于没有在临床试验方案中规定的协变量,通常不进行校正,或仅将校正后的结果作为参考。
4.中心效应
在多个中心开展临床试验,可在较短时间内入选所需的病例数,且样本更具有代表性,结果更具有推广性,但对试验结果的影响因素更为复杂。
在多个中心开展临床试验,需要组织制定标准操作规程,组织对参与临床试验的所有研究者进行临床试验方案和试验用医疗器械使用和维护的培训,以确保在临床试验方案执行、试验器械使用方面的一致性。当主要评价指标易受主观影响时,建议采取相关措施(如对研究者开展培训后进行一致性评估,采用独立评价中心,选择背对背评价方式等)以保障评价标准的一致性。尽管采取了相关质量控制措施,在多中心临床试验中,仍可能出现因不同中心在受试者基线特征、临床实践(如手术技术、评价经验)等方面存在差异,导致不同中心间的效应不尽相同。当中心与处理组间可能存在交互作用时,需在临床试验方案中预先规定中心效应的分析策略。当中心数量较多且各中心病例数较少时,一般无需考虑中心效应。
在多个中心开展临床试验,各中心试验组和对照组病例数的比例需与总样本的比例基本相同。当中心数量较少时,建议按中心进行分层设计,使各中心试验组与对照组病例数的比例基本相同。
来源:CFDA