搜索:
九章临床试验CRC工作站上线!提效70%!

自动筛查,自动录入!SDV? 不需要的。

CRC 智能工作平台 是一款专为临床协调员 (CRC) 设计的智能化辅助系统。该项目旨在通过人工智能技术(OCR、LLM、RAG、Auto-Agent)解决临床试验中繁琐的数据录入、文档管理和合规性核查问题。

系统采用 “响应式Web端 (适配移动端) + 本地化AI后端” 的架构,实现了从源文档(Source Data)到电子数据采集系统(EDC)填报准备的全流程数字化和自动化,严格遵循 CDISC SDTM 数据标准。


🚀 核心功能与操作流程

1. 方案管理与数字化 (Protocol Management)

  • 功能描述: 将 PDF 格式的临床试验方案转化为系统可执行的结构化配置。
  • 操作流程:
  1. 进入 Dashboard,点击 “新建项目”
  2. 上传方案 PDF (支持文本型 PDF)。
  3. 系统自动调用 AI 提取 5 大核心模块(访视计划、入排标准、基本信息、质疑规则)。
  4. 人工复核并修正提取结果,支持版本迭代。

2. 受试者智能管理 (Intelligent Patient Management)

  • 功能描述: 全流程管理受试者生命周期,提供 AI 辅助的入排筛查。
  • 操作流程:
  1. 新建受试者: 录入受试者编号和缩写。
  2. 资料上传 (Document Management):
    • 进入“文档管理”或“受试者资料”页面。
    • 选择访视阶段: 系统按照访视计划(如 Screening, Baseline, V1, V2…)自动建立文件夹结构。
    • 上传文件: 支持图片、PDF、音频文件。
    • 移动端支持: 手机浏览器访问时,可直接调用摄像头拍照上传或选择相册图片。
  3. 人工辅助处理工作流 (Human-in-the-loop Processing):
    • 在文档列表中点击具体文档,进入预览与处理模式
    • Step 1: 启动识别: 点击 “Start OCR” (图片/PDF) 或 “Start ASR” (音频)。系统将自动提取文本信息。
    • Step 2: 确认元数据: 检查 OCR/ASR 结果,确认无误后点击 “Confirm Metadata”。此时关键信息(如生命体征、实验室数据)将自动同步至受试者概览 (Patient Profile)。
    • Step 3: 生成 SDTM: 点击 “Convert to SDTM”,系统将结构化数据转换为标准 SDTM 数据集格式 (JSON)。

3. AutoEDC 智能录入引擎 (Automated Data Entry)

  • 功能描述: 利用 AI 自动生成 Playwright 自动化脚本,实现数据从本地到 EDC 系统的自动录入。
  • 操作流程:
  1. 配置目标 EDC 系统地址及数据字典。
  2. 系统自动映射源数据与 EDC 字段。
  3. 生成并运行 Python 脚本,自动完成网页填报。

📱 移动端与 Web 端使用指南

本项目采用 响应式 Web 设计,一套代码同时适配 PC 端和移动端。

🖥️ Web 端 (PC/Tablet)

  • 推荐场景: 方案管理、复杂数据核对、AutoEDC 脚本配置。
  • 访问方式: 浏览器访问 http://localhost:5173 (本地开发) 或部署地址。
  • 优势: 大屏展示完整的受试者时间轴和多窗口文档比对。

📱 移动端 (Mobile)

  • 推荐场景: 现场资料采集、快速查阅受试者状态、拍照上传源文档。
  • 访问方式: 手机浏览器访问部署地址 (需确保手机与服务器在同一局域网或公网可达)。
  • 使用技巧:
  • 在“文档上传”界面,点击上传按钮可直接呼起手机相机。
  • 界面会自动适配屏幕宽度,侧边栏折叠为汉堡菜单。
中国临床试验环境下SMO模式CRC岗位职责与合规性辅助工作深度研究报告

在当今全球医药研发竞争日益激烈的背景下,中国医药产业已从跟随式创新转向源头创新,临床试验作为药物研发链条中最为关键且耗时、耗资巨大的环节,其效率与质量直接决定了药物能否顺利获批上市。自2020年新版《药物临床试验质量管理规范》(以下简称GCP)实施以来,临床试验的监管环境发生了深刻变革。为了应对日益复杂的临床试验方案和日益严格的数据合规要求,现场管理组织(Site Management Organization, SMO)在临床试验生态系统中的地位愈发凸显。SMO通过派遣临床研究协调员(Clinical Research Coordinator, CRC)进入临床试验机构(通常为医院),协助主要研究者(Principal Investigator, PI)及其研究团队执行非医学判断的事务性工作。

这种协作模式在法律合规、质量保证及运行效率方面表现出显著优势。CRC作为SMO模式下的核心执行角色,不仅是研究者、申办者、机构办公室及伦理委员会之间的沟通枢纽,更是确保试验源数据准确、及时和完整的核心屏障。随着2024年行业专家共识的陆续发布,CRC的职业定义和工作边界得到了进一步细化 1。本报告旨在深入分析中国现有临床试验模式下CRC的岗位职责,并探讨在不违反GCP原则的前提下,CRC能够提供的临床研究辅助工作及其合规边界。

临床试验模式演变与SMO模式的战略定位

临床试验的质量管理经历了从“以研究者为中心”到“以系统管理为中心”的转变。在早期的临床研究中,研究者往往身兼多职,不仅负责医学决策,还要承担大量的行政记录、样本寄送和受试者随访安排。然而,随着临床试验方案复杂程度的增加,特别是生物药、基因治疗以及精准医疗相关试验的兴起,单纯依靠医院内部医护人员的业余时间已难以维持试验的高质量运行。

SMO模式的介入,本质上是一种专业化的分工与外包。SMO公司作为第三方合同服务机构,其核心价值在于提供经过标准化培训的CRC人员,以提升研究中心的试验管理水平。根据GCP的相关规定,虽然研究者对临床试验的实施和受试者权益负有最终责任,但其可授权给具有相应资质的人员 3。CRC正是在这种“授权机制”下,代表研究者处理繁杂的行政事务和非医学判断工作。

SMO、医院机构与CRC的协作逻辑

在中国的临床试验实践中,CRC处于一种“双重管理”的特殊状态。从行政归属上看,CRC由SMO聘用并派遣;从工作执行上看,CRC必须严格服从PI的授权与管理,并遵守所在医院临床试验机构办公室(GCP办)的各项规章制度 5

参与方核心职能定位对CRC的管理职责
申办者 (Sponsor)试验的发起者与质量最终责任人 6监管SMO的质量保证体系,确保CRC配备充足且合格
临床试验机构 (Site)试验实施的法定载体,承担内部监管责任 6负责CRC的准入审核、现场考勤及日常质控 5
主要研究者 (PI)试验实施的最高负责人,负责医学判断 6对CRC进行具体任务授权,并对CRC的工作成果进行签名确认 4
SMO公司资源提供者,负责人员培训与派驻提供专业SOP支持,进行内部考评与人才梯队建设

这种协作模式的成功关键在于职责边界的清晰界定。CRC的存在并非为了取代研究者,而是为了通过专业化的文档管理、受试者服务和多部门协调,让研究者能够回归医学本质,将更多精力投入到受试者的安全性评估和疗效判断中 3

CRC核心岗位职责的深度解构

根据现行工作模式,CRC的工作流程贯穿了临床试验从“立项启动”到“结题归档”的全生命周期。在每一个阶段,CRC都需要在法律法规和机构SOP的框架内执行具体任务。

临床试验筹备与立项阶段

在试验正式开始之前,CRC承担着“开路先锋”的角色。这一阶段的工作重点在于资料的收集、整理与沟通,确保项目能够通过医院内部的科学性审查和合规性审查。

  1. 协助项目立项与合同签署: CRC需协助申办方或监查员(CRA)准备医院立项所需的所有材料,包括但不限于研究者手册、试验方案、申办方资质证明、组长单位批件等 5。在经济合同(CTA)签署过程中,CRC常需在医院合同审核部门、财务部门及申办方之间传递文件,核对预算条款是否符合医院的收费标准 7
  2. 伦理资料递交与备案: 伦理委员会的审批是临床试验启动的先决条件。CRC需协助PI填写伦理审查申请表,准备知情同意书模板,并按伦理委员会的日程安排递交资料 5。在获取伦理批件后,CRC还需协助完成机构办公室的备案手续。
  3. 启动会 (SIV) 的组织与协调: 在项目启动前,CRC负责联络检验科、影像科、药房等辅助科室人员,协调培训场地,确保所有参与人员完成方案培训并签署授权表 9。此外,CRC还需核实研究中心所需的各类检查设备是否已完成校准。

受试者全过程管理职责

受试者管理是CRC工作量最大的部分,其核心目标是确保受试者的依从性,从而保证试验数据的完整性和可靠性。

  1. 受试者招募与预筛选: 在PI授权下,CRC通过查阅医院HIS系统数据、在门诊区域派发招募海报或利用线上招募平台,协助寻找潜在受试者 5。CRC可根据方案的初步标准(如年龄、病史、实验室指标)进行初步筛选,并将符合条件的受试者引荐给PI进行最终医学审核。
  2. 知情同意过程的辅助: 虽然知情同意的签署必须由PI或研究医师执行,但CRC可向受试者解释试验的流程、访视频率、报销政策以及如何使用电子日记卡等事务性内容 5。CRC还需确保受试者保留一份签署过的知情同意书副本。
  3. 访视安排与流程推进: CRC需根据试验方案规定的“时间窗”,提前预约受试者,并协助开具各类检查申请单、领药处方 7。在访视当天,CRC全程陪同受试者完成各个环节,确保标本采集、心电图检查、肿瘤评估等按照方案要求的顺序和时间点进行。
  4. 依从性教育与随访: 受试者的依从性直接影响试验结果。CRC负责指导受试者如何正确存放和服用试验药物,记录纸质或电子日记卡(eDiary),并针对漏服、错服等情况进行宣教 8。对于受试者因身体不适或私人原因产生的疑虑,CRC需及时反馈给研究者进行处理。

试验药物与物资管理

药物管理是临床试验的“红线”。CRC需协助药师或研究护士,确保试验药物从接收、发放、回收到底销毁的全过程闭环。

  1. 药物接收与入库: CRC协助核对申办方发送的药物数量、批号、有效期,并检查温控装置(如温度计或温度贴)是否存在超温记录 8
  2. 库存清点与超温处理: 需定期对药柜进行盘点,并导出环境温湿度数据。一旦发生超温,CRC需协助PI在24小时内联系申办方,并对相关药物进行“封存待定”处理 8
  3. 发放与回收记录: CRC协助核对每位受试者的随机号码,记录每次发药的数量。在受试者返院时,CRC需督促受试者返还所有剩余药物及空包装,详细核算剩余数量并记录在药物清点表(DARA)中 5
  4. 物资与标本管理: 临床试验常涉及大量的特殊采血管、离心管及物流材料。CRC需负责这些耗材的申领和库存预警。在标本采集后,CRC需严格按照实验室手册(Lab Manual)的要求进行离心、分装,并在规定时间内呼叫冷链物流寄送 5

数据采集、转录与质量控制

数据是临床试验最核心的产品。CRC在确保数据真实、准确、实时(ALCOA+原则)方面发挥着不可替代的作用。

  1. 病例报告表 (CRF) 录入: CRC需将医院原始病历中的数据转录至电子数据采集系统(EDC)。根据行业惯例,数据录入应在访视完成后及时完成(通常为3-5个工作日内) 3
  2. 源文件维护 (ISF & Subject Folder): CRC负责动态维护研究者现场文件夹(ISF),确保所有的研究人员资质、伦理批件、申办方沟通记录及时归档 8。同时,确保受试者文件夹中的源记录(如心电图报告、化验单原件)完整且具有可追溯性。
  3. 质疑 (Query) 回复与锁库: 在申办方监查员(CRA)或数据管理员(DM)发现逻辑错误或数据缺失并发布质疑时,CRC需协助PI核对原始记录,进行回复或修正 7。在试验结束前,配合完成数据清理和数据库锁定。
  4. 电子源数据 (eSource) 合规性: 随着数字化试验的发展,CRC需在获得授权后通过独立账户操作eSource系统,严格遵守双因素验证和权限管理规定,严禁共享账户 13

安全性信息报告辅助职责

CRC虽然不能进行不良事件(AE)的医学评定,但在流程管理上至关重要。

  1. 严重不良事件 (SAE) 快速报告: 当获知受试者住院、危及生命或死亡等严重事件时,CRC必须协助PI在24小时内完成SAE表格填写并上报给申办方、伦理和省药监局 10
  2. 安全性报告的更新: 需协助PI整理AE的转归信息,收集相关的出院小结、病理报告或实验室复查结果,确保安全性数据的连续性 14

CRC岗位的职业要求与能力评价体系

由于CRC工作的特殊性,中国行业内已经形成了一套明确的准入和分级制度。

资质要求与基本素质

一名合格的CRC通常需要具备医学、药学、护理或相关生命科学专业的背景,并取得GCP培训合格证书 5。除了专业知识,以下核心素质被认为是成功的关键:

  • 组织协调能力: 需在医生、病人和行政部门之间灵活切换角色。
  • 严谨性与耐心: 面对成千上万个数据点,必须具备极高的细致程度。
  • 抗压能力: 临床试验通常伴随着严格的时间节点和频繁的合规检查。

CRC 职业分级标准

根据《临床研究协调员等级评定标准》,CRC职业通常分为三个等级,这决定了其授权范围和负责项目的复杂程度 9

等级经验要求核心能力描述
初级 CRC0-1年经验能够完成基础的访视引导、文档复印及简单的EDC录入。
中级 CRC1-3年经验熟悉多种适应症的试验流程,能独立处理SAE报告,具备一定的稽查应对经验 5
高级 CRC3年以上经验具备多中心管理能力,能进行SOP优化,指导带教新人,处理复杂的数据质疑。

合规框架下的临床研究辅助工作扩展

除了上述核心岗位职责外,随着临床研究行业的深耕细作,CRC的工作边界在合规的前提下得到了一定的延伸。这些辅助工作不仅减轻了PI的非核心负担,更通过专业化手段提升了中心的综合科研实力。

医院辅助科室的深度沟通与协调

临床试验的顺畅运行高度依赖辅助科室(影像中心、检验科、病理科、核医学科等)的支持。CRC在这些科室的协调工作中发挥着“润滑剂”的作用 7

  1. 影像学评估的标准化协调: CRC可协助影像科医生理解试验方案中的评估标准(如RECIST 1.1或iRECIST)。辅助工作包括协助预约特殊的增强扫描、PET-CT检查,并确保影像原始数据的匿名化处理(脱敏)后刻录成光盘,供第三方中心评价 7
  2. 检验科特殊处理协调: 对于一些需要即刻离心或零下80度冷冻的特殊指标,CRC需与检验科沟通预留专门的实验台位或存储空间。
  3. 病理标本的溯源与调取: 很多抗肿瘤药物试验需要受试者既往的手术白片或蜡块进行基因检测。CRC可凭PI授权和医院相关证明,到病理科协调借片、切片及后续的归还流程 7

财务管理与受试者补贴发放辅助

临床试验涉及复杂的财务流程,这往往是医院医务人员最不愿触碰的行政领域。

  1. 经费预算的落地: CRC协助PI核对每例受试者的检查项目是否已在医院财务系统中开通“免费通道”或“科研结算账户”,防止受试者被误收费用 10
  2. 受试者交通与营养补助发放: CRC协助收集受试者的身份证、银行卡信息,在访视完成后整理劳务费发放清单,并交由财务部门或申办方执行发放,确保费用的支付及时且合规 5
  3. 合同款项的跟踪: 协助PI和机构办公室核对申办方的分批付款(如首付款、入组款、结题款)是否到账,支持科室的科研管理。

数字化临床试验的运行维护

随着智慧医疗的发展,临床试验中引入了大量的可穿戴设备、远程访视系统和电子化管理平台。

  1. 可穿戴设备的技术指导: CRC负责指导受试者如何佩戴动态血压计、血糖监测仪或计步器,并协助解决设备与智能手机配对失败等技术小故障 8
  2. 远程监查 (Remote Monitoring) 的支持: 在特殊情况下(如疫情期间),CRA无法实地访视中心。CRC可在机构授权下,协助使用高拍仪或专用扫描设备对源文件进行脱敏处理,并上传至合规的远程阅览平台 13
  3. HIS系统科研标识管理: 协助PI在医院HIS系统中为受试者打上“临床研究”标识,以便在该受试者因非试验原因急诊住院时,研究团队能第一时间获得系统提醒。

结题阶段的文档闭环与归档辅助

试验结束后的归档工作极其繁杂,CRC在这一阶段的辅助直接决定了项目的最终审计合规性。

  1. 文件完整性核查: CRC需协助PI核对数千份原始病历与CRF的一致性,确保所有的化验单都有研究者的签名和日期。
  2. 结题审计的配合: 在应对官方现场核查(如NMPA核查)时,CRC负责协助整理调取所有受试者的医疗卷宗、原始处方和发药记录,并在检查员询问时提供流程性解释 4
  3. 长久期档案归档: 根据GCP要求,试验文件需保存至药物上市后至少5年。CRC需将ISF、受试者文件夹按编号装订,协助完成医院档案室的接收流程 8

合规管理中的“红线”与风险防控

虽然CRC提供的辅助工作极大地便利了研究,但其权力的行使必须有明确的边界。在审计实践中,常见的合规红线包括:

  1. 禁止代签与伪造: 绝不允许CRC代替研究者或受试者在任何原始记录或知情同意书上签名 4
  2. 禁止医学判断: CRC不得参与AE的因果关系评定、入排标准的最终判读以及给药剂量的调整建议 3
  3. 数据安全风险: 严禁跨角色登录系统(如CRC使用PI的EDC账号进行电子签名)。所有数据修改必须有留痕,严禁使用覆盖方式修改原始记录 13
  4. 利益冲突防范: CRC应当保持独立性,不应接受与临床试验结果相关的任何不当经济奖励 5

行业发展趋势:专业化、数字化与标准化

中国SMO行业的未来将呈现出三个显著趋势。

首先是专业化。随着肿瘤、免疫、神经等领域新药研发的深化,通才型CRC将逐渐转型为专科CRC。例如,在抗肿瘤药物临床试验中,CRC需要具备更深厚的RECIST评估知识和安全性观察经验;在疫苗临床试验中,则更侧重于现场大规模接种的组织协调能力。

其次是数字化。随着《药物临床试验电子源数据技术指南》等规范的推广,CRC的工作重心将从物理文档的“搬运”转向电子流转的“管理”。这要求CRC具备更高的数字化素养,能够操作复杂的CTMS(临床试验管理系统)和eISF系统 13

最后是标准化。目前中国各家医院对CRC的准入标准、授权范围和管理流程仍存在差异。2024年发布的《中国医院临床试验机构CRC工作管理专家共识》预示着行业正在迈向规范化。未来,有望建立全国统一的CRC职业资格认证体系和信用黑名单制度,从而在根本上解决人员流动性大带来的质量风险。

结论

在现有的中国临床试验模式下,SMO派驻的CRC已成为研究中心不可或缺的基础支撑力。CRC通过执行从项目立项、受试者管理、药物物资维护到数据录入与安全报告的全流程职责,极大地保障了临床试验的运行质量和合规性。在合规的前提下,CRC在跨部门协调、财务辅助及数字化管理等方面展现出的灵活性和专业度,为提升中国临床研究的整体效能注入了动力。

然而,CRC角色的核心属性始终是“辅助性”而非“决策性”。只有在主要研究者(PI)的有效监督与授权下,在SMO、机构与PI三方质量保障体系的协同作用下,CRC才能在不跨越医学判断红线的基础上,为人类新药研发事业贡献卓越价值。未来,随着法规体系的进一步完善和职业化进程的加速,CRC必将在中国从“医药大国”迈向“医药强国”的征程中扮演更加关键的角色。

Paradigm Health:临床研究生态系统的重构与商业模式深度分析报告

1. 执行摘要:范式转移的战略图景

在当今的生物医药研发领域,Paradigm Health(以下简称“Paradigm”或“公司”)的崛起代表了一种根本性的范式转移——从以“研究站点”为中心的传统模式,向以“患者护理”为中心的去中心化、智能化模式演进。本报告基于广泛的市场情报、公司公告及行业数据,对 Paradigm Health 的业务架构、技术平台、商业逻辑及竞争地位进行了详尽的解构。

作为一家由 ARCH Venture Partners 和 General Catalyst 联合孵化的技术驱动型企业,Paradigm 在 2025 年末通过完成 7800 万美元的 B 轮融资并收购 Flatiron Health 的临床研究业务,确立了其在美国肿瘤临床研究网络中的主导地位 。这一战略举措不仅使其网络覆盖了 240 万名患者和近 100 个社区肿瘤诊所,更通过与电子病历(EMR)系统的原生集成,构建了极高的竞争壁垒 。   

Paradigm 的核心价值主张在于解决制药行业长期存在的“不可能三角”:降低试验成本、加快招募速度、确保证据的真实世界代表性。通过双边市场模型,Paradigm 一方面为医疗服务提供者(Provider)提供免费的 AI 基础设施以降低参与门槛,另一方面向制药赞助商(Sponsor)提供高效的患者匹配服务以换取商业回报 。这种“劳动套利(Labor Arbitrage)”策略利用技术手段解决了社区医院研究人手短缺的结构性难题 。   

展望未来,Paradigm 正在将其影响力从肿瘤学扩展至神经科学、心血管及代谢疾病领域,并积极通过战略合作伙伴(如 Parexel 和 Fujitsu)布局全球市场 。尽管面临来自 Tempus AI 等拥有类似数据基因的竞争对手的挑战,Paradigm 凭借其独特的“物理网络+数字平台”混合模式,正在重新定义临床试验的实施标准。   


2. 行业宏观背景:结构性危机与变革需求

要深刻理解 Paradigm 的商业模式,必须首先剖析其试图解决的行业宏观危机。当前的临床研究生态系统正处于效率崩塌的边缘,这种危机是多维度的,涉及经济、伦理和操作层面。

2.1 研发效率的倒退:Eroom 定律的阴影

尽管生物医学技术(如基因编辑、mRNA、免疫疗法)取得了指数级进步,但药物研发的效率却呈现反向趋势,这被称为“Eroom 定律”(摩尔定律 Moore’s Law 的反写)。

  • 成本失控:将一种新药推向市场的平均资本化成本已攀升至 22.3 亿美元 。这种高昂的成本结构迫使药企只能聚焦于高利润药物,忽视了许多细分领域的医疗需求。   
  • 时间滞后:药物从实验室到患者手中的平均周期长达 12 年。每一天的延误不仅意味着数百万美元的收入损失,更意味着患者失去了获得救治的机会 。   
  • 失败率高企:约 50% 的临床试验因为无法在预定时间内招募到足够数量的患者而被迫延期或终止。这种高失败率是导致研发成本居高不下的核心原因之一 。   

2.2 “邮政编码”不平等与数据偏差

传统临床试验高度依赖大型学术医疗中心(AMCs)。然而,这种集中化模式导致了严重的准入不平等,即所谓的“邮政编码决定命运”。

  • 地理错配:绝大多数癌症患者(超过 70%)是在社区医院接受治疗的,而大多数试验资源却集中在少数顶级学术中心。这迫使患者必须长途跋涉才能参与试验,直接导致了极低的参与率(通常低于 5%)。   
  • 缺乏多样性:由于地理和经济壁垒,参与试验的人群往往缺乏种族和社会经济背景的多样性。这导致 FDA 批准的药物标签数据无法准确反映现实世界中服用该药物的患者群体特征。例如,在阿肯色州西北部,西班牙裔患者占比较高(18%),但在传统试验中往往被严重低估 。   

2.3 社区医疗机构的运营瓶颈

尽管社区医院有意愿参与临床研究,但面临着不可逾越的运营障碍:

  • 人力匮乏:社区诊所通常没有预算聘请全职的研究协调员(CRC)来手动翻阅病历筛选患者。
  • 基础设施缺失:缺乏专业的临床试验管理系统(CTMS)和监管合规流程。
  • 行政负担:繁琐的数据录入和不良事件报告流程挤占了医生的临床护理时间。

Paradigm 的出现正是为了填补这一巨大的供需鸿沟:利用技术手段将试验去中心化,使其直接嵌入社区医生的日常工作流中。


3. 公司概况与发展战略

3.1 创始愿景与资本基因

Paradigm Health 并非典型的草根创业公司,而是由顶级风险投资机构 ARCH Venture Partners 和 General Catalyst 联合孵化(Co-incubated)的“含着金汤匙出生”的企业。这种出身决定了其从第一天起就具备整合行业资源的宏大格局。

  • 成立时间与总部:公司成立于 2023 年初,总部位于俄亥俄州哥伦布市和纽约市 。选择俄亥俄州作为基地之一,体现了其扎根中西部社区医疗市场的战略意图,而非仅仅局限于沿海生物技术中心。   
  • 核心领导层
    • Kent Thoelke (CEO):作为前 ICON plc 和 PRA Health Sciences 的高管,Thoelke 深谙传统 CRO 模式的弊端。他的核心理念是“临床试验即护理(Clinical Trials as a Care Option)”,致力于消除研究与治疗的边界 。   
    • Robert Nelsen (联合创始人 & 董事会主席):作为 ARCH Venture Partners 的执行合伙人,Nelsen 是生物技术投资界的领军人物,曾投资 Illumina, Alnylam 等巨头。他的参与确保了 Paradigm 能够获得持续的巨额资本支持 。   
    • Hemant Taneja (联合创始人 & 董事会联席主席):General Catalyst 的 CEO,倡导“健康保障(Health Assurance)”理念,强调通过技术降低医疗成本 。   

3.2 融资历程与资本效率

Paradigm 的融资策略显示了极高的资本运作效率和市场号召力,特别是在 2023-2025 年相对理性的投资环境中。

融资轮次公告时间融资金额领投方关键参与方战略意义数据来源
Series A2023年1月2.03 亿美元ARCH, General CatalystF-Prime, GV, Lux Capital, Mubadala, American Cancer Society BrightEdge创下当年医疗健康领域第三大融资记录;资金用于构建初始平台及收购 Deep Lens。
Series B2025年12月7800 万美元ARCH Venture PartnersDFJ Growth (新), F-Prime, General Catalyst, GV, Lux Capital资金用于收购 Flatiron Health 临床研究业务,支持全球扩张及非肿瘤领域布局。

资本分析洞察

  • 高举高打:A 轮 2.03 亿美元的规模表明,Paradigm 旨在通过重资本投入快速建立网络效应,这是一种典型的平台型打法。
  • 战略投资者的背书:美国癌症协会(American Cancer Society)旗下 BrightEdge 基金的参与,为 Paradigm 的“患者中心”模式提供了强有力的公益和伦理背书 。   
  • B 轮的特殊性:7800 万美元的 B 轮融资虽然金额小于 A 轮,但它是伴随 Flatiron 收购案同时发生的。这表明该轮融资具有明确的战略指向性——整合资产。考虑到 Flatiron 业务的庞大体量,这笔交易的具体金额虽未披露,但很可能涉及股权置换或其他复杂的金融安排。

4. 核心业务模式:双边平台经济学

Paradigm 的商业本质是一个连接医疗服务端(Supply)和制药需求端(Demand)的双边市场平台。其商业模式设计的精髓在于通过“不对称定价”策略来最大化网络效应。

4.1 供给侧:针对医疗机构(Providers)的赋能模式

Paradigm 将自身定位为医疗机构的“操作系统”和“增长引擎”,而非仅仅是一个服务商。

  • 零成本准入(Free Access):Paradigm 不向医疗机构收取平台使用费或软件许可费。这一策略极大地降低了社区诊所和医院的参与门槛,是其网络能够迅速扩展至 2100+ 护理点的关键 。   
  • 技术替代人工(Labor Arbitrage)
    • 痛点:社区医院想做研究,但没人手去筛选患者。
    • 解法:Paradigm 的平台自动摄取并分析 EMR 数据,完成 90% 的预筛选工作。CEO Kent Thoelke 将其描述为“利用技术创造供给,以此来解决人员稀缺问题” 。   
    • 价值:将医生和护士从繁重的行政工作中解放出来,让他们专注于患者护理。
  • 收入多元化:通过引入制药厂赞助的临床试验,Paradigm 帮助社区医院获得了额外的临床试验经费收入。
  • 提升护理质量:使社区医院能够为患者提供最前沿的治疗方案,减少患者流失到大型学术中心的情况。

4.2 需求侧:针对制药赞助商(Sponsors)的服务模式

Paradigm 的收入主要来源于生物制药公司(Pharma & Biotech)。

  • 按结果付费与里程碑定价:虽然具体价目表未公开,但行业惯例及 CEO 访谈暗示,Paradigm 可能采用基于招募成功率的定价模式。
    • 招募加速费:鉴于 Paradigm 声称能将招募速度提高 4 倍,药企愿意为此支付溢价,因为这能缩短药物上市时间(Time-to-Market),每提前一天上市可能意味着数百万美元的额外专利期收入 。   
    • 数据访问费:针对可行性分析(Feasibility Analysis)和真实世界数据(RWE)查询收取费用。
  • 全流程解决方案
    • 可行性评估:在试验开始前,利用全网数据评估哪里有合适的患者。
    • 患者匹配与招募:精准定位符合入排标准的患者。
    • 实用性试验设计:帮助药企设计更符合社区医疗现实的试验方案 。   

4.3 商业闭环的飞轮效应

Paradigm 的模式构建了一个自我增强的飞轮:

  1. 更多的站点:通过免费模式吸引更多社区诊所加入(如 Flatiron 网络)。
  2. 更多的数据:网络扩大带来更庞大的患者数据池(240 万+)。
  3. 更优的匹配:数据量提升 AI 模型的精度(95% 以上敏感度)。
  4. 更多的试验:药企因高效率而投放更多试验资源。
  5. 更高的医院粘性:医院因获得更多试验机会而更依赖 Paradigm 平台。 这一飞轮一旦转动,将形成极高的竞争壁垒,使后来者难以通过单纯的技术复制来撼动其地位。

5. 临床试验平台:技术架构与功能详解

Paradigm 的平台不仅仅是一个数据库,它是一套深度嵌入临床工作流的智能操作系统。其技术架构的核心在于解决数据的碎片化(Fragmentation)和非结构化(Unstructured Data)问题。

5.1 AI 原生基础设施:超越传统 NLP

临床数据处理的最大挑战在于,大量关键信息(如肿瘤分期、生物标志物状态、疾病进展史)隐藏在医生手写的病历笔记、病理报告和基因检测报告中,而非结构化的数据字段里。

  • 大语言模型(LLM)的应用: Paradigm 并没有停留在基于规则或关键词匹配的传统 NLP(自然语言处理)上。
    • 传统 NLP 的局限:敏感度通常仅为 40% 左右,这意味着会漏掉大量潜在患者,且筛选出的患者往往有很高的假阳性,需要大量人工复核 。   
    • Paradigm 的 LLM 突破:利用先进的大语言模型(如 GPT-4 等),Paradigm 将筛选敏感度提升至 95%-98%。系统能够“阅读”并理解复杂的临床叙述,例如判断癌症是否复发、是否对某种疗法耐药等 。   
    • OpenAI 案例验证:OpenAI 曾引用 Paradigm 的案例,指出其利用 GPT-4 进行患者匹配的准确率比现有最佳机器学习模型高出 10%,且节省了 90% 的专家临床医生时间。在某些复杂病例的判断上,AI 甚至优于受过训练的临床医生 。   

5.2 核心功能模块

5.2.1 自动化患者匹配与预筛选 (Automated Patient Matching)

这是平台的核心引擎。

  • 数据摄取:建立直接连接医院 EMR 和实验室信息系统(LIS)的数据管道。
  • 多模态分析:系统不仅分析结构化数据,还整合基因组学数据(Genomics)和病理学数据。例如,在 Highlands Oncology 的案例中,平台整合了 5 家不同分子检测供应商的数据 。   
  • 实时工作流嵌入:当医生在 EMR 中打开患者病历时,如果患者符合某项试验,系统会即时弹出通知。这被称为“即时(Just-in-Time)”匹配,避免了事后回顾性筛选的滞后性 。   
  • 调度集成:系统结合医院的预约调度数据,在患者就诊前一周向医生发送提醒,使医生有充分时间准备试验知情同意书的讨论 。   

5.2.2 智能可行性分析 (Site Feasibility)

  • 痛点:传统模式下,医院依靠“猜测”来填写可行性问卷,经常高估自己的患者数量,导致承诺了招募目标却无法完成。
  • 功能:Paradigm 平台能基于历史数据和当前患者池,自动生成精准的可行性报告。医院可以直观地看到:“我有 50 个符合入排标准的患者,其中 10 个下周会来就诊” 。   
  • 价值:帮助医院优化试验组合(Portfolio),只承接那些真正能完成的试验,提高资源利用率。

5.2.3 试验设计服务 (Trial Design Service)

  • Paradigm 利用其庞大的真实世界数据集,帮助药企进行“实用性试验(Pragmatic Trials)”的设计。
  • 通过模拟入排标准(Inclusion/Exclusion Criteria)的微调对患者池规模的影响,帮助药企设计出既科学严谨又具有可操作性的试验方案 。   

5.3 系统集成与互操作性:OncoEMR 的原生融合

Paradigm 的技术壁垒很大程度上建立在其与电子病历系统的深度互操作性上,尤其是收购 Flatiron 业务后与 OncoEMR 的集成。

  • 技术标准:广泛采用 HL7 FHIR(Fast Healthcare Interoperability Resources)标准。FHIR API 允许 Paradigm 的应用与 OncoEMR 进行双向数据通信,实现数据的实时同步而非批量导出 。   
  • 原生体验:对于使用 OncoEMR 的 4500 多名医生而言,Paradigm 的功能不是一个外部插件,而是 EMR 原生体验的一部分。这种“零摩擦”设计是提高医生依从性的关键。
  • 生态连接:通过 FHIR,Paradigm 还能与 Canopy 等其他肿瘤护理平台进行数据交互,形成完整的护理生态闭环 。   

6. 战略收购:构建不可复制的护城河

Paradigm 的快速崛起并非仅靠有机增长,而是通过一系列精准且激进的战略并购,迅速完成了技术积累和网络铺设。

6.1 收购 Deep Lens (2023年):奠定技术基石

  • 目标公司:Deep Lens 是一家源自 Nationwide Children’s Hospital 的技术公司,专注于利用 AI 分析病理和基因组数据进行临床试验匹配。
  • 核心资产VIPER 平台。该平台擅长处理复杂的基因组生物标志物数据,这是精准肿瘤学试验的关键。
  • 战略意义
    1. 技术补强:弥补了 Paradigm 在早期对病理数据处理能力的不足。
    2. 早期网络:为 Paradigm 带来了第一批社区肿瘤诊所网络和赞助商关系。
    3. 团队融合:Deep Lens 的联合创始人 Dave Billiter 和 Simon Arkell 等行业老兵加入了 Paradigm,增强了管理层实力 。   

6.2 收购 Flatiron Health 临床研究业务 (2025年12月):锁定行业龙头地位

这是 Paradigm 发展史上最具决定性的一笔交易。Flatiron Health 是罗氏(Roche)集团成员,拥有美国最广泛的社区肿瘤真实世界数据和 EMR 系统。

  • 交易内容:Paradigm 收购了 Flatiron 的整个临床研究业务部门(Clinical Research Business),并与其建立了长期战略合作伙伴关系。
  • 资产规模
    • 瞬间接入 25 个大型学术医疗中心和近 100 个社区肿瘤诊所。
    • 网络覆盖 45 个州,166 个医疗机构,2100 个护理点。
    • 覆盖 240 万名活跃癌症患者,约占美国癌症人口的 70% 。   
  • 战略影响
  • 数据垄断:通过与 OncoEMR 的独家或优先集成,Paradigm 实际上在该生态系统中建立了排他性优势。竞争对手很难再以同等深度进入这些诊所。
  • 客户覆盖:合并后的网络使 Paradigm 能够为全球前 20 大生物制药公司中的 15 家提供服务,极大地提升了其在药企侧的议价能力 。   
  • 第四期试验能力:借助 Flatiron 的真实世界证据(RWE)基因,Paradigm 获得了开展大规模上市后研究(Phase IV)的独特能力。

7. 战略合作伙伴关系:生态系统的延伸

除了并购,Paradigm 还通过与行业巨头的结盟,构建了一个超越单一公司的生态系统。

7.1 与 Parexel 的战略联盟 (2025年9月)

Parexel 是全球顶级的 CRO(合同研究组织)之一。

  • 合作逻辑:“传统服务 + 新兴技术”的互补。
    • Parexel:作为传统 CRO,面临运营成本高、招募慢的压力。通过引入 Paradigm 的平台,Parexel 可以向其药企客户承诺更快的入组速度和更低的成本 。   
    • Paradigm:获得了 Parexel 庞大的全球药企客户渠道。这是一种高效的 Go-to-Market 策略,避免了自建庞大销售团队的重资产模式。
  • 服务整合:Parexel 将把 Paradigm 的 AI 优化能力整合到其从方案设计到数据库锁定的全流程服务中,打造“AI 原生试验运营模型” 。   

7.2 与 Fujitsu (富士通) 的跨国合作:破解日本“药物损失”难题 (2024年8月)

这是 Paradigm 国际化战略的重要一步。

  • 背景问题:日本面临严重的“药物损失(Drug Loss)”现象,即许多欧美批准的新药因缺乏日本本土临床数据而迟迟无法在日本上市。原因在于日本医疗机构分散,试验招募极其困难且昂贵 。   
  • 解决方案
    • 富士通的角色:利用其 Healthy Living Platform 从日本各地的医疗机构收集医疗和基因组数据,并利用 Fujitsu Kozuchi AI 服务进行数据清洗和合规处理(匿名化)。
    • Paradigm 的角色:接收处理后的数据,利用其临床试验平台进行分析,为药企提供日本市场的可行性规划和患者匹配服务。
  • 创新点:富士通还开发了基于 LLM 的文档生成服务,能自动生成 80% 的临床试验文档,预计缩短 50% 的文档准备时间 。   
  • 战略目标:将全球试验引入日本,确立日本在全球药物研发中的地位,同时帮助 Paradigm 进入亚洲市场。

7.3 与 Sheba Medical Center 的合作

Paradigm 与以色列著名的 Sheba Medical Center 及其创新部门 ARC Innovation 合作,在以色列部署 AI 驱动的试验平台。这不仅验证了 Paradigm 平台的全球适应性,也为其在中东地区的扩展奠定了基础 。   


8. 治疗领域扩展:从肿瘤学迈向全科医学

8.1 肿瘤学(Oncology):绝对的核心

目前,Paradigm 的业务基石是肿瘤学。

  • 原因:肿瘤试验最为复杂,入排标准涉及大量基因组学指标,且患者对试验的需求最为迫切(往往是最后的一线希望)。
  • 地位:收购 Flatiron 业务后,Paradigm 已无可争议地成为美国最大的肿瘤研究网络运营者 。   

8.2 多领域扩张蓝图

随着 7800 万美元 B 轮融资的到位,Paradigm 明确表示将利用其通用的 AI 基础设施扩展到非肿瘤领域。这也是为了最大化其在综合性卫生系统(Health Systems)中的价值。

  • 重点领域
    • 神经科学 (Neuroscience):阿尔茨海默病、帕金森病等,患者群体巨大但早期诊断困难。
    • 心血管疾病 (Cardiovascular Disease):需要大规模的心脏病学数据支持。
    • 代谢疾病 (Metabolic Conditions):如糖尿病、肥胖症(GLP-1 类药物研发热潮)。
  • 逻辑:这些慢性病领域同样面临患者在社区分散、招募困难的问题,Paradigm 的“社区化试验”模式具有天然的适用性 。   

9. 竞争格局深度分析

尽管 Paradigm 势头强劲,但其所处的“AI 赋能临床试验”赛道极其拥挤。我们将重点分析其与主要竞争对手的差异。

维度Paradigm HealthTempus AIConcertAI传统 CRO (如 IQVIA)
核心基因平台 + 网络 (混合模式)数据 + 基因组学 (技术模式)RWE + 洞察 (数据模式)服务 + 人力 (运营模式)
近期大动作收购 Flatiron 临床研究业务收购 Deep 6 AI;上市 (NASDAQ: TEM)持续深化 RWE 解决方案数字化转型,投资 AI
数据优势社区肿瘤数据 (OncoEMR), EMR 原生集成庞大的基因组/临床多模态数据库肿瘤 RWE 深度历史试验数据,处方数据
网络覆盖2100+ 护理点,70% 癌症人口覆盖整合 Deep 6 后覆盖 750+ 站点,3000万+ 患者主要通过合作伙伴全球数千个站点
匹配技术强调 LLM 对非结构化数据的处理强调基因组与临床数据的结合AI 驱动的 RWE 分析传统的数据库查询 + AI 辅助
商业模式双边市场 (Provider 免费)数据授权、诊断服务、试验匹配SaaS 订阅、数据服务全包式服务 (Full Service)

Export to Sheets

9.1 Paradigm vs. Tempus AI:巅峰对决

Tempus AI 是 Paradigm 最直接且最危险的竞争对手。

  • Tempus 的策略:Tempus 以基因测序起家,建立了庞大的多模态数据库。近期收购 Deep 6 AI 是对 Paradigm 的直接回应。Deep 6 AI 擅长 EMR 实时挖掘和匹配,拥有 750+ 站点 。   
  • 对比分析
    • Paradigm 的优势在于通过 Flatiron 获得的深度社区渗透和 OncoEMR 的排他性集成。
    • Tempus 的优势在于其基因组数据的深度和广度,以及作为上市公司的资本实力。
    • 两者的竞争将集中在争夺医疗机构网络(谁能成为医院的首选 OS)和药企预算上。

9.2 Paradigm vs. 传统 CRO

Paradigm 与传统 CRO(如 Parexel, IQVIA)的关系是“竞合”。

  • 合作:CRO 需要 Paradigm 的技术来提高效率。
  • 竞争:如果 CRO 自建同类平台(如 IQVIA 的从头开发),则构成竞争。但目前趋势看,CRO 更倾向于采购或合作,因为技术迭代太快。

10. 案例研究与绩效量化

Paradigm 的模式在真实世界中表现如何?以下两个案例提供了有力证据。

10.1 Highlands Oncology:社区肿瘤中心的转型

Highlands Oncology 位于阿肯色州西北部,是一个典型的社区肿瘤中心,服务于大量农村和少数族裔人口。

  • 挑战:该地区西班牙裔人口占 18%(远高于平均水平),但历史上极少参与试验。医院研究部门人手不足,难以手动筛选。
  • 实施:部署 Paradigm 平台,整合 EMR 和 5 家分子检测供应商的数据。
  • 关键指标
    • 入组激增:两年内临床试验患者入组数增加了 45% 。   
    • 全覆盖:所有患者在治疗过程中都会被系统自动评估是否适合参与研究,实现了真正的“全员筛查”。
    • 效率:在入组大幅增加的同时,研究部门的行政负担反而下降了。
  • 定性反馈:研究发展总监 Adam Torres 表示,Paradigm 使得临床研究成为了患者的标准护理选项 。   

10.2 Altru Health System:农村医疗系统的突破

Altru Health System 服务于北达科他州的广大农村地区。

  • 实施前:仅有 4% 的癌症患者参与临床试验。
  • 实施后
    • 入组率提升至 11%,几乎是实施前的 3 倍 。   
    • 年度预筛选患者访问量从 1.02 万次增加到 2.12 万次
  • 意义:这一数据证明了 Paradigm 模式能够有效打破地理壁垒,让偏远地区的患者也能获得前沿治疗。

11. 结论与未来展望

Paradigm Health 正在通过重构基础设施来定义临床研究的未来。通过收购 Flatiron Health 的临床研究业务,公司不仅获得了无可比拟的网络规模,更掌握了通过 EMR 原生集成进入医生工作流的“金钥匙”。

11.1 关键成功要素总结

  1. 技术路径正确:利用 LLM 解决非结构化数据难题,大幅提升了匹配精度。
  2. 商业模式清晰:免费赋能医院换取网络效应,向药企收费实现商业变现,这种双边市场模式解决了激励错配问题。
  3. 资本运作娴熟:在关键时刻(A 轮、B 轮)获得巨额融资并完成决定性并购,迅速拉开了与追随者的差距。

11.2 风险与挑战

  • 整合阵痛:整合 Flatiron 庞大的业务和人员并非易事,文化冲突和系统迁移可能导致短期效率波动。
  • AI 监管不确定性:FDA 对 AI 辅助药物开发的监管政策仍在演变中,算法的透明度、偏见控制将是 Paradigm 必须面对的合规挑战。
  • 竞争白热化:Tempus AI 等巨头的围剿将迫使 Paradigm 必须不断创新并加速扩张。

总体而言,Paradigm Health 已不仅仅是一家科技初创公司,它正在成为连接生物制药创新与患者护理实践的关键桥梁。如果其模式能够成功复制到非肿瘤领域并走向全球,Paradigm 有望成为生命科学行业最重要的基础设施平台之一。

Sources used in the report

paradigmhealth.ai

Paradigm Health Raises $78 Million Series B to Make Clinical Trials Part of Routine Care Across the U.S. and Globally

Opens in a new window

ohiotechnews.com

Columbus’ Paradigm Health redefines cancer research with $78 million raise and major acquisition – Ohio Tech News

Opens in a new window

prnewswire.com

Paradigm Health Acquires Flatiron Health’s Clinical Research Business and Forms Strategic Partnership to Rebuild Clinical Research Ecosystem – PR Newswire

Opens in a new window

fiercehealthcare.com

Tech startup Paradigm lands $203M to get more patients into clinical research, accelerate drug trials – Fierce Healthcare

Opens in a new window

theconferenceforum.org

How Paradigm Health Is Enabling Community and Rural Health Systems to Do Oncology Clinical Research – The Conference Forum

Opens in a new window

paradigmhealth.ai

Paradigm Partners with Fujitsu to Solve Clinical Trials in Japan

Opens in a new window

trial.medpath.com

Parexel Forms Strategic AI Partnerships to Accelerate Drug Development and Clinical Trial Efficiency – MedPath

Opens in a new window

paradigmhealth.ai

Paradigm Health

Opens in a new window

paradigmhealth.ai

Highlands Oncology Increased Clinical Trial Participation by 45%

Opens in a new window

medcitynews.com

Paradigm Launches with $203M to Transform Clinical Trial Recruitment – MedCity News

Opens in a new window

venturecapitaljournal.com

Paradigm raises $203m to make clinical trials ‘open to all patients’ – Venture Capital Journal

Opens in a new window

paradigmhealth.ai

Impact | Paradigm Health

Opens in a new window

paradigmhealth.ai

Solutions for Providers | Paradigm Health

Opens in a new window

mindbowser.com

OncoEMR Integration | HealthConnect CoPilot – Mindbowser

Opens in a new window

canopycare.us

FHIR®-Power Helps Save Time and Streamlines Efficiency for Clinicians – Canopy Care

Opens in a new window

rev1ventures.com

Deep Lens Acquired by Paradigm – Rev1 Ventures

Opens in a new window

tamarind-hill.com

Deep Lens Acquired by Paradigm – Tamarind Hill

Opens in a new window

newsroom.parexel.com

Parexel and Paradigm Health Partner to Expand Access and Efficiency in Clinical Trials

Opens in a new window

biospace.com

Parexel and Paradigm Health Partner to Expand Access and Efficiency in Clinical Trials

Opens in a new window

fiercebiotech.com

Tech company Fujitsu partners with Paradigm Health to boost clinical trials in Japan

Opens in a new window

fujitsu.com

Fujitsu tackles ‘drug loss’ in Japan through ecosystem to accelerate digitalization of clinical trials

Opens in a new window

deep6.ai

Tempus Announces Acquisition of Deep 6 AI

Opens in a new window

practical-patient-care.com

Tempus AI acquires Deep 6 AI to expand its network – Practical Patient Care

九章智能临床研究加速平台

根据现有九章临床研究中心(上海九章医药科技有限公司)的业务基础,围绕人工智能(AI)赋能,公司可以在以下关键领域拓宽业务范围,并将现有服务升级为技术驱动的**“智能临床研究加速平台”**。

上海九章医药科技有限公司的现有核心业务涵盖药品和器械的 I 期至 IV 期临床试验、流行病学调查、真实世界研究(RWS)的方案设计、组织实施、数据管理与统计分析,并具备信息技术和人工智能能力。公司已计划开发 TrialMind AI Nexus 系统,用于本地数据管理、统计分析,并明确了 AI驱动的患者招募、远程监控、深度学习驱动的统计分析智能注册 等未来方向。

以下是在现有领域中,公司可以围绕AI赋能“做的事情”的总结:


一、 AI赋能的去中心化临床试验(DCT)与患者服务升级

DCT(去中心化临床试验,或称远程智能临床试验)是临床试验数字化的核心趋势,目标是实现“以患者为中心”的研究,提高效率和可及性。九章应将现有的临床运营和远程监控计划 升级为全面的DCT解决方案。

1. 智能患者招募与筛选(精准患者招募平台 PRP)

  • 实施AI驱动的患者招募和筛选:利用AI技术快速找到理想的试验参与者。AI可以通过分析历史数据、多组学数据或临床数据,进行风险评估和队列识别,从而缩短患者入组时间。
  • 开发远程知情同意(eConsent)服务:将知情同意数字化,作为DCT的核心模块,减少患者负担,提高参与度。
  • 构建数字双胞胎(Digital Twins)应用:利用数据和AI为患者生成虚拟代表,在历史数据基础上模拟生物过程和结果,有助于节省试验时间和成本,并消除试验偏差,实现远程参与实验。

2. 远程智能临床运营管理(DCT-Ops)

  • 部署远程监测与可穿戴设备数据集成:利用AI实现远程监控,通过可穿戴设备、移动健康应用和远程医疗平台等数字健康工具,实现持续监测、实时数据采集预测分析。九章应专注于不同疾病领域智能传感设备的接入接口定制化解决方案
  • 提供一体化电子化临床结果评估(eCOA/ePRO/eDiary):利用手机APP端等工具,让患者在家舒适地参与试验,从而节约患者随访次数和时间,提高患者依从性和数据准确性。
  • 建立多方协作的DCT平台:推动医院、制药企业、伦理委员会和患者组织等多方的协作,通过有效的沟通和协调机制,解决DCT实施的复杂性问题。

二、 AI赋能的数据治理与智能数据管理(DGA)

九章已具备数据管理(DM)和信息技术(IT)能力,并计划通过 TrialMind AI Nexus 实现数据自动化、质量监控和异常检测。AI可以进一步深化这些能力,提高数据处理的效率和准确性。

1. 智能数据处理与自动化(RDQC)

  • 实现AI辅助医学编码(AI-Assisted Medical Coding):利用机器学习算法(如Medidata的预测编码算法)对原始术语(verbatims)进行自动编码,涵盖不良事件(AE)、用药情况(CM)和病史,大幅节省人工浏览和检索时间。
  • 赋能数据核对与质量控制(RDQC):利用知识驱动的AI专家系统,识别数据集之间(如AE、CM、既往病史)的复杂关联和差异点,并给出置信度评分,从而自动处理繁琐任务,提升流程效率,并实时监控数据质量和检测异常
  • 利用生成式AI进行稽查轨迹审阅(ATR):运用生成式AI深度剖析庞杂的稽查轨迹日志,通过智能提示和嵌入式对话框,帮助用户轻松洞察数据变化趋势和变更情境,以增强数据完整性和可信度,并快速响应监管质疑。

2. AI治理与合规性咨询

  • 提供AI应用伦理与合规咨询服务:针对AI的“黑箱”属性, 提供关于知情同意扩大化(特别是针对额外风险和个人信息处理)和诊疗主体/责任主体说明的咨询,帮助客户应对监管和伦理挑战。
  • 个人信息保护与数据安全:严格遵守《个人信息保护法》等规定,在采集、上传和使用患者个人信息时,确保严守知情同意原则,特别是在去标识化处理(脱敏)方面需向患者说明具体程度。

三、 AI驱动的高级预测分析与真实世界证据(RWE)

九章在统计分析和真实世界研究(RWS/PMS)方面拥有基础。AI可以将其服务从传统的统计支持升级为高级预测生物统计服务(P-Bio),并结合RWE生成能力。

1. 深度学习驱动的生物统计分析(P-Bio)

  • 提供智能方案优化咨询(ISP):利用AI预测性模型,整合多模态数据(如基因组数据、影像数据),进行临床研究设计优化样本量计划预测分析终点评估,从而提高研发效率。
  • 血液肿瘤等精准诊疗领域的应用深化:借鉴AI在血液肿瘤(血液肿瘤是高度异质性恶性疾病,精准诊疗尤为重要)领域的应用进展,提供精准诊断(如基于图像和分子数据的分析)、精准治疗(如治疗响应预测和临床决策支持系统 CDSS),以及预后预测(如生存期预测)服务。这需要利用**强化学习算法、深度学习(CNN)大语言模型(LLM)**等先进技术。
  • 加速数据分析:通过完全AI辅助的本地数据管理和统计分析系统(TrialMind AI Nexus)实现自然语言数据检索与报表生成,并提供实时不良事件监测与预警

2. 真实世界证据(RWE)战略咨询与生成(RWE-MA)

  • RWE生成与监管支持:将现有的RWS/PMS业务 升级为真实世界证据支持的市场准入咨询(RWE-MA)。RWE已成为支持药品监管决策和市场准入(HTA、支付方)的**“不可或缺”**的证据。
  • 构建RWD数据编织与分析能力:利用AI处理DCT收集的大量真实世界数据(RWD),生成用于监管和市场准入决策的高质量RWE。RWD可用于提供疾病的自然病史、流行病学证据、安全性监管和风险获益再评估。
  • 支持上市后评价:利用RWE验证和补充临床试验结果,评估药物在真实世界中的安全性和有效性,特别是针对传统RCT中样本量小或被忽略的特殊人群(如老年人、罕见病患者)。

总结而言,九章医药科技有限公司应从传统的CRO服务商,战略转型为**“技术驱动的敏捷创新者”,通过构建集成了DCT、高级AI分析(P-Bio)和RWE生成能力的“智能数据闭环系统”**,在高价值、高门槛的技术垂直化领域建立差异化优势。

这就像将一家经验丰富的建筑公司,升级为一家不仅精通建筑艺术,还掌握了模块化建造、智能机器人和数字孪生技术的未来建筑平台——使其能更快、更精准、更合规地交付复杂项目。公司能够将临床专业知识封装到技术平台中,实现知识复用和规模化效应

临床试验智能工作流平台 (CT-Workflow Platform)

目录

  1. 简介与愿景
  2. 核心特性
  3. 合规性与监管
  4. AI能力矩阵
  5. 角色权限体系
  6. 技术架构
  7. 快速开始
  8. 用户旅程
  9. 对比与优势
  10. 应用场景
  11. 预期成果
  12. 项目结构
  13. 实施与培训
  14. 常见问题
  15. 路线图
  16. 许可与支持

🌟 愿景

CT-Workflow Platform 是新一代以工作流为中心的临床试验管理平台。基于真实临床试验项目(project3)的完整流程,将数据管理(DM)和统计分析(ST)的每一个步骤系统化、智能化、可视化。

核心理念:工作流驱动 + AI无处不在

  • 不再是分散的功能模块,而是清晰的工作流路径
  • 每个步骤都有AI助手,从DMP撰写到SAS代码生成
  • 进度透明可追踪,所有利益相关者实时了解项目状态
  • 标准化与灵活性并重,基于行业最佳实践,支持定制
  • 合规性内置,自动满足ICH-GCP、FDA 21 CFR Part 11、CDISC标准

🎯 核心特性

1. 📊 项目中心(Project Hub)

一站式项目管理驾驶舱:

  • 项目概览:基本信息、关键里程碑、团队成员
  • 工作流导航:DM 6个工作流 + ST 4个工作流
  • 进度追踪:实时显示每个工作流的完成度
  • 智能待办:基于当前步骤自动生成任务列表
  • 健康指标:数据质量评分、进度偏差预警、风险提示
  • 审计面板:所有操作的完整追踪记录

2. 🔄 数据管理工作流(6个标准流程)

DM-01:DMP制定

  • AI助手:基于方案自动生成DMP草案
  • 步骤:需求收集 → AI生成 → 审核 → 定稿
  • 交付物:数据管理计划、DMP跟踪表
  • 合规要点:ICH-E6 R2 5.5条款合规检查

DM-02:数据核查规则(DVP)

  • AI助手:分析CRF结构,自动生成核查规则和SAS代码
  • 步骤:CRF分析 → 规则制定 → UAT测试 → 优化
  • 交付物:核查规则清单(Excel)、测试报告、SAS验证程序
  • 质量标准:规则覆盖率>95%,假阳性率<5%

DM-03:数据清理流程

  • AI助手:智能Query生成器(ML异常检测 + 自动文本生成)
  • 步骤:自动核查 → 质疑分配 → 解答 → 更新 → 进展报告
  • 交付物:质疑清单、数据更新日志、月度进展报告
  • 追踪指标:Query解决率、平均响应时间、重复Query率

DM-04:医学编码

  • AI助手:NLP驱动的术语匹配(MedDRA/WHODrug)
  • 步骤:术语提取 → 自动编码 → 人工审核 → QC → 报告
  • 交付物:编码字典、编码报告、QC报告
  • 准确率目标:自动匹配准确率>90%,QC一致性>98%

DM-05:质量控制(QC)

  • AI助手:自动数据差异检测 + QC报告生成
  • 步骤:QC计划 → 源数据验证 → 逻辑检查 → 差异解决 → 报告
  • 交付物:QC计划、QC检查清单、QC报告
  • QC标准:100%关键变量双录入,10%非关键变量抽查

DM-06:数据库锁定

  • AI助手:锁定清单自动化检查
  • 步骤:锁定准备 → 最终检查 → 锁定会议 → 执行锁定 → 签署声明
  • 交付物:锁定数据库、锁定声明、数据传输文件
  • 关键控制:多人审批、不可逆操作、完整审计记录

3. 📈 统计分析工作流(4个标准流程)

ST-01:SAP撰写

  • AI助手:基于方案自动生成SAP草案 + TFL Shell
  • 步骤:模板准备 → TFL设计 → SAP草案 → 审核 → 定稿
  • 交付物:SAP定稿版、TFL Shell、Mock Tables
  • 合规性:ICH-E9统计学原则合规检查

ST-02:SDTM/ADaM数据集

  • AI助手:智能Mapping推荐 + 代码生成
  • 步骤:SDTM Mapping → 编程 → ADaM设计 → 编程 → Define.xml
  • 交付物:SDTM数据集、ADaM数据集、Define.xml 2.1、Reviewer Guide
  • 标准合规:CDISC SDTMIG 3.4、ADaMIG 1.3

ST-03:TFL编程

  • AI助手:SAS/R/Python代码自动生成 + 优化建议
  • 步骤:框架搭建 → 人口统计学 → 疗效表 → 安全性表 → Listings → Figures → QC
  • 交付物:140+ Tables、50+ Listings、20+ Figures、QC报告
  • 质量要求:100% QC,双程序员验证关键分析

ST-04:统计编程开发

  • AI助手:代码模板生成 + 最佳实践检查
  • 步骤:Setup → 数据集 → Tables → Listings → Figures → 验证
  • 交付物:616个SAS程序、文档、Log汇总、验证报告
  • 编程规范:遵循公司SOP,代码注释率>30%

4. 🤖 AI助手中心

10个专业AI助手覆盖所有关键步骤:

编号AI助手能力应用场景AI-DM-001DMP智能生成器方案解析 + 模板填充DMP撰写AI-DM-002数据核查规则生成器CRF逻辑分析 + 代码生成DVP规则制定AI-DM-003智能Query生成器ML异常检测 + Query文本生成数据清理AI-DM-004医学编码助手NLP术语匹配 + 多候选推荐AE/CM编码AI-DM-005QC智能审核数据差异识别 + 报告生成质量控制AI-ST-001SAP智能撰写分析方法推荐 + SAP章节生成SAP撰写AI-ST-002TFL Shell生成器从SAP提取需求 + 生成ShellTFL设计AI-ST-003统计代码生成器SAS/R代码生成 + 优化TFL编程AI-ST-004SDTM/ADaM助手Mapping推荐 + 转换代码数据标准化AI-ST-005结果解读助手统计解释 + CSR文本生成报告撰写

5. 📚 基于project3的真实模板

整合自真实临床试验项目(HZYY1-XAZ-23044):

  • 1996个文件的完整项目结构
  • 616个SAS程序的统计编程库
  • 524个TFL输出的规范和示例
  • 真实的Protocol Deviations、Queries、Coding Reports
  • 经过验证的DVP规则库(120+ 核查规则)

🔒 合规性与监管标准

监管框架支持

平台内置对以下国际监管标准的支持:

  • ICH-GCP (E6 R2):良好临床实践指南
    • 5.5 数据管理条款全面覆盖
    • 电子源数据管理要求
  • FDA 21 CFR Part 11:电子记录和电子签名
    • 电子签名验证
    • 审计追踪不可修改
    • 系统验证文档
  • CDISC标准:数据交换标准
    • SDTM Implementation Guide v3.4
    • ADaM Implementation Guide v1.3
    • Define-XML 2.0/2.1
    • Controlled Terminology
  • ICH-E9 (R1):临床试验统计学原则
    • Estimand框架支持
    • 敏感性分析要求
  • NMPA/CFDI要求:中国药品监管局
    • 数据完整性指南合规
    • 电子化临床数据管理要求

数据完整性 (ALCOA+)

平台设计完全遵循ALCOA+原则:

原则实现方式Attributable (可归因)所有操作记录用户ID、时间戳、IP地址Legible (可读)数据格式标准化,支持导出为PDF/ExcelContemporaneous (同步)实时写入,不允许回溯修改Original (原始)保留所有版本,原始数据不可删除Accurate (准确)内置验证规则,AI辅助一致性检查Complete (完整)审计追踪覆盖100%操作Consistent (一致)跨模块数据一致性自动检查Enduring (持久)至少保留25年,符合监管要求Available (可用)支持监管机构随时调取,1小时响应

审计追踪

所有操作的完整追踪

  • ✅ 用户登录/登出(时间、IP、设备)
  • ✅ 数据查看(谁、何时、查看了哪些数据)
  • ✅ 数据修改(原值→新值,修改原因)
  • ✅ 工作流状态变更(步骤完成、审批)
  • ✅ AI助手使用记录(输入、输出、采纳/拒绝)
  • ✅ 文档生成与签署(版本控制)
  • ✅ 权限变更(用户角色调整)

审计报告

  • 支持按项目、用户、时间范围导出
  • CSV/PDF/Excel多种格式
  • 自动汇总统计(如:修改次数、Query解决率)
  • 监管审查专用报告模板

系统验证

提供完整的计算机系统验证(CSV)文档包:

  • 验证计划(VP):验证范围、策略、职责
  • 需求追溯矩阵(RTM):需求→设计→测试
  • IQ/OQ/PQ方案与报告:安装/运行/性能确认
  • 验证总结报告(VSR):验证结论与批准
  • 变更控制:系统升级的影响评估流程

🤖 AI能力矩阵

自动化程度分级

平台对不同任务采用分级的AI自动化策略:

任务类型自动化程度人工审核典型用例信心阈值文档生成80-90%必需DMP、SAP草案>85%代码生成70-80%必需SAS程序、核查规则>75%数据异常检测95%+抽查逻辑错误、异常值>95%医学编码90-95%边缘案例MedDRA自动匹配>90%QC检查85-90%关键节点数据一致性>80%报告生成75-85%全面审核Query报告、QC报告>70%数据映射60-70%必需SDTM Mapping>60%统计解读50-60%必需CSR结果章节>50%

AI辅助原则

我们的AI使用哲学

AI擅长

  • 重复性任务(编码、格式转换)
  • 模式识别(异常检测、相似案例匹配)
  • 初稿生成(文档、代码骨架)
  • 标准化工作(按模板生成)
  • 数据一致性检查

⚠️ 需人工

  • 最终决策(数据库锁定、SAP批准)
  • 复杂判断(边缘案例编码、非标准设计)
  • 监管沟通(回复FDA问题)
  • 伦理考量(受试者安全决策)
  • 创新分析(探索性分析设计)

🚫 AI不做

  • 替代监管审批
  • 自动数据库锁定(无人工确认)
  • 无监督修改原始数据
  • 代替统计师签字
  • 自动提交监管文件

AI透明度与可解释性

每个AI输出都包含

  • 🏷️ AI生成标识:明确标注”AI Draft”水印
  • 📊 信心评分:显示AI对结果的确定性(0-100%)
  • 💡 解释功能:”为什么AI这样建议?”
  • 📚 引用来源:AI参考了哪些模板/历史数据
  • 🔍 审核建议:提示人工重点审查的部分

可选控制模式

  • 辅助模式(默认):AI提供建议,人工决策
  • 仅人工模式:关闭所有AI辅助,纯手工操作
  • 审查模式:AI生成后自动进入强制审核流程

AI模型选择策略

根据任务特性智能选择AI模型:

任务主力模型原因备用模型文档生成GPT-4o长文本质量高Claude Sonnet代码生成DeepSeek Coder专业编程能力,成本低GPT-4医学编码Claude 3.5医学文本理解强GPT-4o数据异常本地模型快速,数据不出本地DeepSeek统计解读GPT-4o推理能力强Claude Opus

成本优化

  • 简单任务用DeepSeek(成本1/10)
  • 复杂任务用GPT-4/Claude
  • 每个项目AI成本预算:<$50/月

👥 角色权限体系

标准角色定义

平台预定义7种标准角色,符合临床试验职责分离原则:

角色工作流访问AI使用权限审批权限典型职责项目经理全部查看所有AI助手里程碑审批整体进度管理DM LeadDM所有工作流DM AI助手DMP/DVP审批数据管理策略统计师ST所有工作流ST AI助手SAP审批统计分析设计数据管理员数据清理/编码Query/Coding AIQuery关闭日常数据管理统计程序员TFL编程代码生成AI程序QCSAS/R编程QC审核员所有QC工作流QC AI助手QC报告签署质量控制监管事务只读所有无最终数据库锁定监管提交

权限矩阵示例

数据库锁定操作的多级权限控制:

操作DM员DM Lead统计师PM监管发起锁定申请✅✅✅✅❌审核数据质量❌✅❌❌❌统计审批❌❌✅❌❌PM审批❌❌❌✅❌执行锁定❌❌❌❌✅

权限设计原则

  1. 最小权限原则
    • 用户仅获得完成工作的必需权限
    • 默认拒绝,显式授权
  2. 职责分离(SOD)
    • 编程与QC不能为同一人
    • 数据录入与审核分离
    • AI建议与人工审批分离
  3. 多级审批
    • 关键节点需要2-3人签字
    • 数据库锁定需要DM+ST+PM+监管 4重审批
    • 所有审批不可跳过
  4. 时间锁定
    • 数据库锁定后,仅监管角色可访问
    • 锁定前的修改需要解锁申请+审批
    • 审计追踪永久保留
  5. 临时授权
    • 支持项目内临时权限提升
    • 自动过期(如:3天后收回)
    • 所有临时授权记录在案

自定义角色

企业版支持创建自定义角色:

  • 从标准角色复制
  • 精细化权限调整(至字段级别)
  • 基于项目类型的角色模板
  • 批量用户分配

权限设计原则

  • 最小权限原则:用户仅获得必需权限
  • 职责分离:编程与QC不能为同一人
  • 多级审批:关键节点需要多人签字
  • 时间锁定:数据库锁定后仅监管角色可访问

🏗️ 技术架构

系统架构图

┌─────────────────────────────────────────┐
│         用户界面层 (Tauri Desktop)        │
│  React + TypeScript + Ant Design        │
└──────────────┬──────────────────────────┘
               │
┌──────────────▼──────────────────────────┐
│         业务逻辑层 (Rust Backend)         │
│  ├─ 工作流引擎                           │
│  ├─ 权限管理                             │
│  ├─ 审计日志                             │
│  └─ 数据验证                             │
└──────────────┬──────────────────────────┘
               │
┌──────────────▼──────────────────────────┐
│          AI服务层 (可插拔)               │
│  ├─ DeepSeek (主力,成本优)              │
│  ├─ GPT-4 (备用,复杂任务)              │
│  └─ Claude (医学文本理解)               │
└──────────────┬──────────────────────────┘
               │
┌──────────────▼──────────────────────────┐
│        数据持久层                        │
│  ├─ SQLite (本地项目数据,加密)          │
│  ├─ PostgreSQL (企业版,多用户)         │
│  └─ S3/MinIO (文档和大文件)             │
└─────────────────────────────────────────┘

技术栈详解

前端技术

  • React 18:最新特性,并发渲染
  • TypeScript:类型安全,减少运行时错误
  • Vite:极速构建,HMR热更新
  • Ant Design 5:企业级UI组件库
  • Tailwind CSS:原子化CSS,快速样式开发
  • Monaco Editor:VS Code内核,代码编辑体验
  • React Query:服务端状态管理
  • Zustand:轻量级状态管理

后端技术

  • Tauri (Rust)
    • 比Electron小10倍(~5MB vs ~50MB)
    • 内存占用少50%+
    • 原生性能,安全性高
    • 跨平台:Windows/macOS/Linux
  • SQLite:嵌入式数据库,零配置
  • PostgreSQL:企业版多用户支持
  • Redis:缓存和会话管理(企业版)

AI集成

  • 多模型支持
    • DeepSeek V2.5:高性价比,中文友好
    • GPT-4 Turbo:复杂推理任务
    • Claude 3.5 Sonnet:医学文本理解
  • 提示工程框架
    • 模板库:预设100+专业提示词
    • Few-shot学习:基于project3示例
    • 思维链(CoT):复杂任务分步推理
  • 成本优化
    • 智能缓存:相似查询复用结果
    • 分级调用:简单任务用小模型
    • 批处理:合并多个请求

数据安全

传输层安全

  • TLS 1.3:最新加密协议
  • 证书固定:防止中间人攻击
  • 端到端加密:敏感数据加密传输

存储层安全

  • 数据库加密
    • SQLite:SQLCipher,AES-256
    • PostgreSQL:TDE (Transparent Data Encryption)
  • 文件加密
    • 文档/PDF:AES-256-GCM
    • 大文件:分块加密+完整性校验
  • 密钥管理
    • 本地:操作系统密钥链(Keychain/Credential Manager)
    • 企业:HSM或云KMS(Azure Key Vault/AWS KMS)

访问控制

  • 认证
    • 本地:用户名+密码(bcrypt哈希)
    • 企业:SSO/SAML 2.0/OAuth 2.0
    • 多因素认证(MFA):TOTP/SMS/Email
  • 授权
    • RBAC:基于角色的访问控制
    • ABAC:属性基础访问控制(企业版)
    • 数据级权限:行级/列级过滤

审计与合规

  • 操作日志
    • 谁(用户ID + 会话ID)
    • 何时(精确到毫秒的时间戳)
    • 做了什么(操作类型 + 详细参数)
    • 结果(成功/失败 + 错误信息)
  • 数据血缘
    • 原始数据 → 派生数据的完整链路
    • 支持回溯任意版本
  • 合规报告
    • 一键导出审计追踪
    • 符合21 CFR Part 11格式要求

性能指标

操作目标延迟实测性能DMP生成< 30秒~15秒SAS代码生成< 2分钟/程序~45秒数据核查1000条/秒~1500条/秒TFL渲染< 5秒/表格~2秒数据库查询< 100ms (P95)~50ms (P95)大文件上传100MB/秒~120MB/秒并发用户100+ (企业版)已测试200+

可扩展性

插件系统

javascript

// 自定义AI助手插件
export class CustomAIPlugin {
  name = "custom-coding-assistant";
  version = "1.0.0";
  
  async process(input: CodingRequest) {
    // 调用自己的AI API
    const result = await yourAI.generate(input);
    return result;
  }
}

Webhook支持

json

{
  "event": "workflow.completed",
  "workflow_id": "DM-01",
  "project_id": "proj_123",
  "timestamp": "2025-01-15T10:30:00Z",
  "webhook_url": "https://your-system.com/api/notify"
}

REST API

bash

# 获取项目状态
GET /api/v1/projects/{id}/status

# 触发工作流
POST /api/v1/workflows/{id}/start

# 查询AI生成结果
GET /api/v1/ai/jobs/{job_id}

🚀 快速开始

前置要求

  • 操作系统:Windows 10+, macOS 11+, Ubuntu 20.04+
  • 硬件
    • CPU: 4核+ (推荐8核)
    • 内存: 8GB+ (推荐16GB)
    • 存储: 20GB可用空间
  • 网络(仅AI功能):稳定互联网连接

安装步骤

1. 下载安装包

Windows

powershell

# 下载
Invoke-WebRequest -Uri https://releases.ct-workflow.com/latest/CT-Workflow-Setup.exe -OutFile CT-Workflow-Setup.exe

# 安装
.\CT-Workflow-Setup.exe

macOS

bash

# 下载
curl -O https://releases.ct-workflow.com/latest/CT-Workflow.dmg

# 安装
open CT-Workflow.dmg
# 拖拽到Applications文件夹

Linux

bash

# 下载AppImage
wget https://releases.ct-workflow.com/latest/CT-Workflow.AppImage

# 添加执行权限
chmod +x CT-Workflow.AppImage

# 运行
./CT-Workflow.AppImage

2. 首次启动配置

bash

# 启动应用后,按照向导完成配置:

1. 选择部署模式
   □ 单机版(本地SQLite)
   □ 企业版(连接PostgreSQL服务器)

2. 配置AI服务
   □ DeepSeek API Key: sk-xxxxx
   □ OpenAI API Key (可选): sk-xxxxx
   □ Claude API Key (可选): sk-xxxxx
   
   💡 提示:可跳过,后续在设置中配置

3. 创建管理员账号
   用户名: admin
   密码: ********
   邮箱: admin@example.com

4. 完成!🎉

3. 创建第一个项目

bash

# 在主界面点击"新建项目"

项目名称: HZYY1-XAZ-23044
适应症: 晚期实体瘤
研究类型: I期临床试验
起止日期: 2023-04-01 ~ 2024-12-31
→ AI自动提取:访视表、终点、入排标准

# 创建成功!自动进入项目中心
4. 启动第一个工作流
bash# 在项目中心,点击"DMP制定"工作流卡片

→ 进入DM-01工作流仪表板
→ 点击"Step 1: AI自动生成DMP草案"
→ 等待15秒... ✅ 生成完成!
→ 人工审核和修改
→ 点击"提交审批" → 选择审批人
→ 审批通过后,状态变为"已完成" ✅
→ 自动解锁下一个工作流"CRF设计"
快速演示视频
📹 5分钟快速入门:https://www.ct-workflow.com/demo/quickstart
📹 完整功能演示:https://www.ct-workflow.com/demo/full-tour

📖 用户旅程示例
场景:启动新的肿瘤临床试验项目
Day 1: 项目初始化
09:00 - 项目经理登录平台
├─ 点击"新建项目"
├─ 填写基本信息:
│   • 项目名称:HZYY1-XAZ-23044
│   • 适应症:晚期实体瘤
│   • 预计入组:60例
│   • 研究周期:18个月
├─ 上传方案PDF(152页)
│   → AI自动解析(2分钟)
│   → 提取关键信息:
│       ✓ 12个访视点
│       ✓ 主要终点:ORR
│       ✓ 次要终点:PFS, OS, AE
│       ✓ 入排标准:18条
└─ 项目创建成功!

09:30 - 查看AI生成的项目建议
├─ 建议的执行路径:
│   1️⃣ DMP制定(预计2天)
│   2️⃣ CRF设计(预计1周)
│   3️⃣ EDC搭建(预计2周)
│   4️⃣ ...
├─ 自动分配团队:
│   • DM Lead: 张三
│   • 统计师: 李四
│   • 程序员: 王五
└─ 发送邀请邮件 ✅

10:00 - 进入项目中心
└─ 可视化仪表板显示:
    • 总进度:0%
    • 待办任务:3个
    • 下一里程碑:DMP审批(预计2天后)
Week 1-2: 数据管理准备
Week 1 - Day 1: DMP工作流
10:00 - DM Lead进入DM-01工作流
├─ Step 1: AI生成DMP草案
│   → 点击"开始生成"
│   → 进度条:分析方案... 20%
│   → 进度条:生成章节... 60%
│   → 进度条:格式化... 90%
│   → ✅ 完成!(耗时15秒)
│
├─ 查看生成的DMP草案:
│   📄 数据管理计划 v0.1
│   ├─ 1. 项目概述 ✅ (AI生成)
│   ├─ 2. 数据采集计划 ✅
│   ├─ 3. 数据核查计划 ✅
│   ├─ 4. 编码策略 ✅
│   ├─ 5. 质量控制 ✅
│   └─ 6. 数据库锁定标准 ⚠️ (需人工补充)
│
11:00 - Step 2: 人工审核与修改
├─ 在Monaco编辑器中修改:
│   • 补充第6章具体标准
│   • 调整访视窗口期定义
│   • 添加EDC供应商信息
├─ AI实时建议:
│   💡 "检测到'±3天',是否统一为'±72小时'?"
│   💡 "建议添加缺失数据处理策略"
└─ 保存版本 v0.2

Week 1 - Day 2: DMP审批
14:00 - Step 3: 提交审批
├─ 选择审批人:项目经理 + 申办方
├─ 添加备注:"请重点关注第6章锁定标准"
└─ 发送审批邮件 ✅

Week 1 - Day 3: DMP定稿
09:00 - 审批人收到通知,打开审阅
├─ 查看修订历史:v0.1 → v0.2 的差异
├─ 添加批注:"第6章已完善,同意" ✅
└─ 批准 → DMP状态变为"已批准"

09:30 - DMP工作流完成!
├─ 系统自动:
│   • 生成DMP定稿版 v1.0
│   • 归档到文档库
│   • 解锁下一工作流"CRF设计"
│   • 更新项目进度:10% → 15%
└─ 通知团队:DMP已完成 ✅

Week 1 - Day 4-5: CRF设计工作流
├─ DM-02工作流启动
├─ AI推荐CDISC标准域:
│   • Demographics (DM)
│   • Adverse Events (AE)
│   • Vital Signs (VS)
│   • Laboratory Tests (LB)
│   • Tumor Response (TR)
│   • Exposure (EX)
│   • Concomitant Medications (CM)
├─ 可视化表单编辑器:
│   • 拖拽添加字段
│   • 设置验证规则
│   • 预览CRF效果
└─ 生成eCRF规范文档 ✅

Week 2: DVP工作流
├─ Step 1: CRF逻辑分析
│   → AI扫描所有CRF表单
│   → 识别:120个字段,35个逻辑关系
│
├─ Step 2: AI生成核查规则
│   规则类型分布:
│   • 必填检查:45条
│   • 范围检查:30条
│   • 逻辑一致性:25条
│   • 访视窗口:15条
│   • 数据格式:5条
│
├─ Step 3: 生成SAS代码
│   → AI自动生成check_001.sas ~ check_120.sas
│   → 代码包含:
│       • 数据读取
│       • 逻辑判断
│       • Query生成
│       • 日志输出
│
└─ Step 4: UAT测试
    • 导入测试数据(50例模拟数据)
    • 运行全部核查程序
    • 发现5条规则需优化
    • 调整后重新测试 ✅
    
DVP工作流完成!项目进度:30%
Week 3-6: 数据收集阶段
Week 3: EDC上线 + 首例入组
├─ EDC系统配置完成
├─ 中心培训(在线会议)
├─ 首例患者入组(中心001)
• Screening访视数据录入
│   • AI实时核查:发现2个异常
│       ⚠️ "体重超出合理范围(180kg)"
│       ⚠️ "血压收缩压<舒张压"
│   • 研究中心当场修正 ✅
└─ 数据质量:实时监控

Week 4-6: 数据清理工作流(每周循环)
每周一 09:00 - 自动运行数据核查
├─ 执行120条DVP规则
├─ 生成质疑清单:
│   Week 4: 12个Query (5 High, 7 Medium)
│   Week 5: 18个Query (8 High, 10 Medium)
│   Week 6: 15个Query (6 High, 9 Medium)
│
├─ AI自动分类优先级:
│   🔴 High: 影响主要终点的数据
│   🟡 Medium: 次要数据异常
│   🟢 Low: 格式问题
│
└─ 自动分配给相应中心

每周二-四 - 中心回复Query
├─ 中心登录Query管理模块
├─ 查看分配的质疑
├─ 填写回复和数据更新
└─ 提交 → DM审核

每周五 - Query关闭和报告
├─ DM审核中心回复
├─ 关闭已解决的Query
├─ AI生成周报:
│   📊 本周数据清理进展报告
│   • Query总数:45个
│   • 已关闭:38个(84%)
│   • 待回复:7个(16%)
│   • 平均响应时间:2.3天
└─ 发送给申办方

Week 5-6: 医学编码工作流
├─ AI提取AE术语(125个原始术语)
│   • "头疼" → "Headache"
│   • "恶心呕吐" → 拆分为2个术语
│   • "ALT升高" → "Alanine aminotransferase increased"
│
├─ AI自动匹配MedDRA:
│   ✅ 自动匹配:119个(95%)
│   ⚠️ 多个候选:4个(3%)
│   ❌ 未匹配:2个(2%)
│
├─ 人工审核边缘案例:
│   • "轻度头晕" 
│     候选1: Dizziness (10013573) ⭐推荐
│     候选2: Presyncope (10036653)
│   • 选择候选1 ✅
│
└─ 生成编码字典:
    📄 AE_Coding_Dictionary_v1.0.xlsx
    • PT: 85个
    • LLT: 125个
    • 匹配率: 97%
Month 4-6: 数据库锁定
Month 4: 最后入组完成
├─ 末例患者末次访视(LPLV)
├─ 启动数据库清理最后冲刺
└─ 目标:Month 6完成数据库锁定

Month 5: 数据清理收尾
├─ 每周Query数量:
│   Week 1: 25个
│   Week 2: 18个
│   Week 3: 12个
│   Week 4: 5个
│
├─ 遗留问题会议:
│   • 讨论7个无法解决的Query
│   • 决定:5个数据删除,2个保留加说明
│   • 更新DMP相应章节
│
└─ QC工作流启动:
    ├─ 100% SDV (源数据验证)
    │   • 抽取10%患者(6例)
    │   • 核对EDC vs 原始病历
    │   • 发现3处差异,全部修正 ✅
    │
    ├─ AI自动数据一致性检查:
    │   • 跨表逻辑一致性:✅ 通过
    │   • 时间序列合理性:✅ 通过
    │   • 派生变量计算:⚠️ 发现1处公式错误
    │   • 修正后重新验证:✅ 通过
    │
    └─ QC报告生成:
        📄 QC_Report_Final_v1.0.pdf
        • 检查项:156项
        • 通过率:99.4%
        • 遗留问题:1项(已文档化)

Month 6 - Week 1: 数据库锁定准备
├─ DM-06工作流启动
├─ AI生成锁定清单(25项):
│   ✅ 所有CRF表单已审核
│   ✅ Query关闭率 > 95% (实际98%)
│   ✅ 医学编码完成率 100%
│   ✅ QC完成率 100%
│   ✅ SAE报告完整性检查通过
│   ✅ Protocol Deviations记录完整
│   ⚠️ 1例患者退出原因待确认
│   ... (其余23项)
│
├─ 解决遗留问题:
│   • 联系中心确认退出原因
│   • 更新退出表单
│   • 重新运行核查程序 ✅
│
└─ 锁定准备会议:
    • 参会:PM, DM Lead, 统计师, 申办方
    • 审阅清单:全部25项 ✅
    • 决定:批准锁定

Month 6 - Week 2: 执行锁定
├─ 2025-06-15 10:00 - 数据库锁定!
│   → 系统执行:
│       • 创建数据库快照
│       • 设置所有数据为只读
│       • 生成锁定声明
│       • 导出SDTM格式数据
│       • 发送通知给所有相关人员
│
├─ 锁定声明自动生成:
│   📄 Database_Lock_Statement_v1.0.pdf
│   • 锁定日期:2025-06-15
│   • 数据集版本:DBL_2025_06_15
│   • 患者数:60例
│   • 访视数:720次
│   • AE数:234个
│   • 签署:DM Lead, 统计师, PM, 申办方
│
└─ 数据传输给统计团队:
    • SDTM数据集(10个域)
    • Define.xml
    • 数据库说明文档
    • 传输验证:MD5校验 ✅
Month 7-8: 统计分析
Month 7 - Week 1: SAP撰写工作流

LHS智能医学系统实用指南

陈安均博士,LHS 技术论坛项目 联合主席,国际 LHS 社区(非营利),加州硅谷

[1/2/2023 更新。英文原文]

目录

  1. LHS 智能医学系统的愿景
  2. 医学证据和知识的生成
  3. 医学知识和模型的传播
  4. 构建 LHS 智能医学系统
  5. 机器学习赋能的 LHS 模拟研究
  6. 机器学习赋能的 LHS 项目实例
  7. 医疗健康数据
  8. 合成患者病历数据
  9. LHS 作为医疗人工智能框架
  10. LHS 相关资源

参考资料

概述

《LHS 智能医学系统实用指南》专注于为软件开发人员和医疗健康机构临床团队提供技术实用信息,帮助您快速启动对未来 Learning Health System (LHS) 智能医学系统的研发和应用。

指南内容基于我对美国医学科学院 (US National Academy of Medicine, NAM) 发表的 LHS 系列报告的理解和解读,以及 LHS 这一新领域迄今为止取得的进展。NAM 提出的 LHS 愿景和制定的 LHS 顶层框架不仅将引导美国整个医疗健康系统向智能医学循环学习和传播系统转型,而且会影响全球各国医疗健康系统的更新。

本指南首先总结了 NAM LHS 系列报告,以期回答 LHS 基本问题:我们为什么需要 LHS?什么是 LHS?谁在搭建 LHS?

然后指南简要描述了应用机器学习 (machine learning, ML) 构建 LHS 小型单元的最新技术发展。亮点是首次使用合成患者数据模拟的机器学习赋能的 LHS (即 ML-LHS),所用数据可在 GitHub 上的 “开放合成患者数据” (Open Synthetic Patient Data) 项目获取。出于示范目的,指南分享了来自不同医院或医疗系统的 LHS 项目实例,这些项目正在为疾病风险预测和精准医疗等不同临床任务构建真实患者的 ML-LHS 单元。为加速 LHS 发展,我提出了一个“合成+真实”数据的新策略,有助于更有效地构建 ML-LHS 单元。

随后的章节提供了有关 ML-LHS 不可或缺的电子病历数据(electronic medical record, EMR 或 electronic health record, EHR)、合成患者数据、数据驱动的机器学习以及其他技术组件的更多详细信息。

指南主要目标:

  1. 为软件开发者和医疗健康机构临床团队提供实用技术信息,帮助快速了解 LHS 的优点并开始研发 LHS。
  2. 解释为什么构建小型 ML-LHS 单元更切实可行,而不应被另一种大而全的 LHS 构想所束缚。
  3. 提出“合成+真实”新策略:首先利用合成患者数据模拟 ML-LHS 单元,然后应用模拟流程帮助构建真实病历数据的 ML-LHS 单元。

指南还对 ML-LHS 提出以下假设:

  1. ML-LHS 性能假设:因其内在的以数据为核心的机器学习方法,ML-LHS 最终可以为大多数疾病和健康状况实现高性能的预测 (>95%) 。
  2. ML-LHS 平等假设:由大医院主导的临床研究网络 ML-LHS 可以有效地用机器学习模型为小型医疗机构赋能,从而减小在医疗服务不足人群中的医疗服务差异 (health care disparities)。
  3. ML-LHS AI 假设:因为 LHS 具有数据驱动和部署导向的特征,大部分基于电子病历数据的 AI 将以 LHS 形式更有效地实现和传播。

LHS 实用指南 是 GitHub 上开放 LHS 项目 (Open LHS) 的一部分,旨在智能医学系统新兴领域,促进全球范围的研究、开发和实施等方面的分享和协作。作为 LHS 的动态技术文档,本指南发布在 GitHub 平台,将在 LHS 新信息出现时进行更新,及时为 LHS 社区提供最新进展。


下一步:

在阅读本快速实用指南后,如果您想尝试病历机器学习或 ML-LHS 研究,可先在 GitHub 上的 开放合成数据项目 查看已有数据。如果您需要新的合成数据,可email我 (ajchen(at) web2express.org) 讨论如何产生新数据。合成数据有望加速您的项目进程,开源 Synthea 技术能够模拟各种疾病或健康状况,可能是您所需的合成数据的起点


【关于 LHS 名称翻译】

LHS 作为新的专业技术术语,本指南采用美国医学科学院发表的 LHS 系列报告中的定义。因为中文直译不能反映 LHS 的核心含义,我这里给出有助于理解的意译。

  • 英文全称:Learning Health System。缩写: LHS。
  • 中文全称:智能医学循环学习和传播系统。简称:LHS 智能医学系统。

1. LHS 智能医学系统的愿景

NAM 的 LHS 愿景

“In a learning health system, science, informatics, incentives, and culture are aligned for continuous improvement and innovation, with best practices seamlessly embedded in the delivery process and new knowledge captured as an integral by-product of the delivery experience.” (Source: NAM website – The Learning Health System Series)

LHS 愿景由美国医学科学院(前身为 US Institute of Medicine, IOM, 美国医学研究院)在一系列报告中提出和描述。下面我将总结报告中的相关信息,说明为什么需要 LHS,以及 LHS 是什么,并选出一些实例。如需详细信息,请参阅 NAM 网站上的 智能医学系统报告系列

我们为什么需要 LHS?

NAM report

2006 年,IOM 循证医学圆桌会议召开了一次题为“LHS 智能医疗系统”的研讨会,第一份 NAM 《LHS 智能医疗系统》报告于 2007 年发表。该报告指出美国医疗保健系统的表现仍然不尽人意。在剖析了临床证据的生成和应用过程之后,该报告设想了一个新的医疗健康服务系统,临床证据的产生及应用在医疗服务过程中持续不停地交互发生,即智能医疗保健系统。

在重新评估医疗服务如何产生及应用临床证据后,报告发现当前医疗系统存在以下问题:

  • 问题:在医疗服务中经常错失良机,发生本可预防的疾病和受伤。

医疗失误问题:医学研究院 2001 年的报告《跨越医疗质量鸿沟》发现,每年约有 44,000 至 98,000 名美国人可能死于医疗失误。这个令人担忧的问题说明了重新设计医疗系统关键方面的需求,包括安全性、有效性、以患者为中心、及时性、效率和公平性。

  • 问题:考虑到变化的速度和复杂性,目前流行的产生临床证据的方法是不充分的,并且可能很快就过时。

目前广受依赖的随机对照临床试验 (RCT) 虽然在一定情况下很有用,但太耗时、太昂贵,并且普遍适用性可质疑。

临床证据缺乏普遍适用性:临床研究通常不能可靠地产生能普遍适用于现实世界患者群体临床决策的证据。临床研究使用严格的患者纳入和排除标准,限制了大部分临床人群的参与。因此,即使完成了冗长的临床试验,临床医生仍然可能认为研究结果无法应用于自己的更加复杂的患者群体。例如,Masoudi 和同事发现,只有少数 (13-25%) 现实中的心力衰竭患者符合参加临床试验的入选条件 (Masoudi 2003) 。

  • 问题:临床证据的数量、质量和应用方面都存在缺陷。

需要在全系统范围内更加注重临床证据,需要新的临床研究范式,可以更好地利用医疗服务过程中生成的数据,从而加快和改进能支持现实世界临床决策的证据研发。

  • 问题:目前阐释证据的方法与制定指南和建议的方法常常会产生矛盾和混乱,指南的传播过于缓慢。

一份报告表明,一些好的研究结果需要长达 17 年时间才开始用于服务患者 (Balas, Boren 2000)。从创新到临床应用之间的滞后时间亟待缩短。

  • 问题:低效和浪费在医疗服务中普遍存在。

在系统层面,临床研究与临床服务过程很明显是分离的。该 LHS 报告提出,将临床研究嵌入临床服务过程中可能会解决医疗系统中的这一基本缺陷。

简而言之,如果能够同时开展临床研究和临床服务,就可能提高持续学习和传播的效率和效果,从而大大提高医疗质量并同时降低费用。这就是为什么我们需要 LHS 智能医学系统。

什么是 LHS?

【资料来源:NAM 2007 报告《LHS 智能医疗系统》】

通过重新设计临床研究和医疗健康服务,《LHS 智能医疗系统》报告希望产生和应用最佳证据的过程可成为医疗服务过程本身的有机组成部分,这样就可以使智能医疗健康系统比当前更有效果、更有效率。

智能医学系统的特点:

  • 文化:参与式、以团队为基础、透明、不断提升
  • 设计和流程:以患者为中心并经过测试
  • 患者和公众:全面积极地参与
  • 决策:知情、促进、共享和协调
  • 医疗服务:每次都从最佳实践开始
  • 结果和费用:透明且不断评估
  • 知识:临床服务和研究的持续和自然的结果
  • 数字技术:持续改进的引擎
  • 健康信息:可靠、安全和可重复使用的资源
  • 数据应用:为了共同利益而管理和使用数据
  • 信任结构:强大、受保护并积极培养
  • 领导力:多焦点、网络化和动态性

美国卫生部医疗信息改革协调办公室 (ONC) 设想了一个全国性的智能医学系统 (Friedman 2010)。

重新定义 LHS

【资料来源:NAM 2013 年报告《低成本的最佳医疗服务》】

IOM 2013 年报告《低成本的最佳医疗服务:美国通往持续学习的医疗服务系统的途径》重申了 LHS 的愿景。 该报告探索了变革的必要性、使转型成为可能的所需新兴工具、可持续学习的医疗服务系统的愿景、以及实现这一愿景的途径。

NAM report

该报告重新定义了将当前“破碎的”医疗系统转变为智能医学系统的需求:

  • 需要一种新的途径来生成和应用医学知识。

目前产生新医学知识的方法存在不足,难以提供支持优质医疗服务所需的证据。临床证据不足,并且产生医学知识的方法有明显的局限性。

可能的证据与实际产生的证据之间的差距继续扩大。研究表明,指南中有证据支持的陈述的数量没有达到应有的水平。在某些情况下,40-50% 的指南推荐是基于专家意见、案例研究或医疗服务标准,而不是基于多项临床试验或元数据分析。

目前的研究知识库只能为回答重要类型临床问题提供有限的支持,包括效果比较和长期患者结果相关的问题。

临床指南证据不足会影响医疗服务的证据。在美国,基于临床研究获得的正式证据所做出的临床决策的占比,不同研究有不同的估算,有些研究发现仅占 10-20%。

  • 知识需要快速传播。

心脏病发作后 β 受体阻滞剂的广泛使用在各方面来说都是一个成功案例:高质量临床证据生成;治疗方案被纳入临床指南、质量改进计划和医疗质量评价;还有些健康保险计划为提高该治疗方案的采用提供了经济激励。然而,即使做出这么大努力,从该治疗方案最初结果的发表到在临床实践中获得普遍应用,也经历了 25 年的时间。这个例子说明,有必要建设新基础设施,使临床学习和方案改进的过程更容易,争取下一个发现不再需要 25 年的持续努力才能广泛用于服务患者。

  • 需要控制不可持续的高医疗成本。

为了提高质量、控制成本,需从目前不可持续且有缺陷的医疗系统组织架构,转变为一个可在每个医疗服务环节获取知识并促进持续改善的系统。简而言之,国家需要一个可不断学习的医疗服务系统,这个系统现在既是可能的,也是必要的。

智能医疗服务系统的定义:

“智能医疗服务系统是一种将试验科学、信息学、激励措施和文化有效结合,以达到持续改进和创新的系统,它将最佳临床实践嵌入医疗服务流程中,由患者和家庭在各方面积极参与,并且在临床服务中产生新知识。”(资料来源:NAM 2013 年报告《低成本的最佳医疗服务》)

智能医学系统示意图:

LHSpic

(资料来源:NAM 2013 年报告《低成本的最佳医疗服务》)

不断学习的医疗服务系统的特征

【资料来源:NAM 2013 年报告《低成本的最佳医疗服务》】

实验科学与信息学:

  • 实时获取知识 —— 智能医疗系统能持续可靠地采集、解释和提供最佳证据,以指导、支持、定制和改进临床决策以及医疗服务安全和质量。
  • 医疗服务体验的数据采集 —— 智能医疗系统在数字平台上采集患者对医疗服务的体验,实时生成和应用知识改善医疗服务。

患者-医生合作:

  • 积极参与和赋权的患者 —— 智能医疗系统立足于患者的需求和观点,鼓励患者、家属和其他护理人员成为持续学习的医疗团队的重要成员。

激励措施:

  • 与价值相一致的激励措施 —— 智能医疗系统积极地把激励措施与鼓励持续改进、发现并减少浪费、以及奖励高价值医疗服务相结合。
  • 完全透明 —— 智能医疗系统能够系统地监控医疗服务的安全性、质量、流程、价格、成本和结果,并为服务改善及医生、患者和家属做出明智选择和临床决策提供信息。

持续学习的文化:

  • 充满领导力的学习文化 —— 智能医疗系统由致力于团队合作、协作和适应文化的领导层领导,支持以持续学习为核心目标。
  • 支持系统的能力 —— 智能医疗系统通过持续的团队培训和技能建设、系统分析和信息开发、以及为持续学习和系统改进形成反馈回路,不断完善复杂的医疗服务和流程。

谁在建造 LHS?

LHS实例:

  • Intermountain Healthcare:建立反馈循环,加快研究的及时性和相关性。
  • Geisinger Health System:使用电子病历弥合推理差距 (Inference Gap) 。
  • 美国退伍军人医院:实施循证医疗服务,特别是通过使用电子病历。

临床研究网络LHS实例:

  • 凯撒 (Kaiser) 医疗集团
  • 美国国立癌症研究院 (NCI) 癌症研究网络
  • 以患者为中心的智能医学系统网络 (LHSNet)

适合软件开发者的 LHS 定义

为了让开发者更容易理解 LHS,本指南提供一个更为简洁的技术性定义:

  • 智能医学系统将研究嵌入医疗服务中,可同时收集医疗健康数据,不断地机器学习新知识和预测模型,并迅速把新改善应用于医疗服务中。

智能医学系统中的“学习”,是指在人正常学习之外的机器学习、持续学习,最终是系统自我学习。当临床研究和医疗实践无缝有机结合时,传统的知识传播大问题就开始自然地减轻。

从本质上讲,LHS 是关于医学知识产生和使用的基础性变革。接下来的两个章节将深入探讨这类“知识业务”。


2. 医学证据和知识的生成

研究方法

【资料来源:NAM 2013 年报告《低成本的最佳医疗服务》】

随机临床试验 (RCT) 是当前临床研究生成医学证据和知识的“金标准”。尽管科学发现的步伐在加快,但临床研究目前并不能充分解决紧迫的临床问题,结果是患者和临床医生都在证据不足的情况下做决定。

即使以目前的知识产生速度,知识库也仅仅能为回答许多最重要临床问题提供有限的支持。一项针对九种最常见慢性病临床指南的研究发现,只有不到一半的指南为患有多种合并症的患者提供治疗指南。

当前大型临床研究方法的成本平均为 1,500-2,000 万美元,有些甚至更高,但这些研究还不能反映许多医疗服务机构的实际情况。

需要新的方法来解决当前临床研究的局限性。替代研究方法包括:

  • 适应性的临床试验
  • 延迟设计的临床试验
  • 整群随机对照试验
  • 观察性的临床试验
  • 病例对照研究
  • 实用临床试验 (PCT)
  • 大型简单临床试验 (LST)

替代方法还需要不同的统计分析:例如

  • 新贝叶斯数据分析技术可以分离出不同临床干预措施对人群健康的影响。
  • 生理路径和疾病状态的模拟。
  • 机器学习。

实验性研究与观察性研究

实验性研究方法:

  • 可以采用随机化,可以避免某些偏差,但既费时又费钱。
  • 随机对照试验在产生新的临床知识方面有着非常成功的记录,但它有几个局限性:并非在所有情况下都实用或可行;昂贵且费时;仅解决设计要回答的问题;无法回答所有类型的研究问题。

观察性研究方法:

  • 只能在群体层面随机化,更容易在医疗服务过程中收集数据,结果更接近真实世界的情况,需要的时间和成本更少。
  • 观察性研究的优势在于能捕捉到真实世界情况下的医疗实践,有助于将其结果普遍推广到更多的医疗实践中。这种研究设计可以提供整个产品生命周期的数据,并可通过改变医疗服务的参数自然地开展实验。然而,观察性研究的挑战是如何减少数据偏差,以及如何确保其结果确实是试验选择的干预措施所致。

适用于 LHS 的观察性研究方法

NAM 2013 年研讨会总结报告《智能医学系统中的观察性研究》 (OS-LHS) ,回顾了观察性研究的主要方法、如何处理偏差、如何评估治疗异质性,以及在LHS中使用观察性研究方法的其他重要方面。观察性研究可以提供在真实世界临床实践中治疗方法有效性的信息。观察性研究方法是随机临床试验方法的补充,具有以下特点:

  • 在普通人群中检测各种治疗方法的益处和风险。
  • 发现由随机临床试验无法观察到的罕见副作用和益处。
  • 提供社区范围数据,提出新假设,然后在临床试验中检验。
  • 为研发预测模型提供数据。
  • 估算个性化治疗的效果。
  • 与随机临床试验结合应用,可检验临床试验结果在更具代表性人群中的有效性,并评估治疗异质性。

观察性研究方法的问题:

  • 潜在偏差。
  • 数据质量问题。
  • 数据分析的挑战。
  • 更难做出因果关系的结论。

关于观察性研究的偏差:

  • 缺失信息或对健康结果相关的信息进行错误分类可能会导致偏差。
  • 工具变量法是控制未测量的混杂因素的一种方法,可用于减少非随机试验存在的偏差。
  • 由于潜在的偏差,观察性研究需要仔细设计,以防止误导性结果。从下面这个反面例子可以吸取教训:大量的激素替代疗法的观察性研究结果与妇女健康计划 (Women’s Health Initiative) 做的随机临床试验结果之间互相矛盾。

适用于LHS 的大型简单试验研究方法 (LST)

NAM 2013 年的研讨会总结报告《智能医学系统中的大型简单试验和知识生成》 (LST-LHS) ,描述了在 LHS 背景下的 LST 研究方法,并提供了成功的例子。 与随机临床试验相比,大型简单试验能回答有关药物和其他干预措施有效性的一些问题,成本更低、时间更短、或两者兼具。 该报告描述了进行大型简单试验所需的基础设施。使用电子病历是收集和管理大量患者数据必需的,电子病历可让临床试验在临床服务过程中开展。

从许多医疗机构招募足够数量的患者可能需要临床研究网络 (CRN) 或机构联盟。这些网络正朝智能医疗系统模式发展。在 CRN 中,临床医生和研究人员可以从更大的患者群体中学习,检查结果各异的诊断和治疗,找出可产生更好结果的因素。CRN 可以开展更大人群的临床试验,这对研究罕见病或不常见疾病尤为重要。

现在已有数据标准,如 FDA 项目发展出来的临床数据采集协调标准 (CDASH),也有可从多元化的电子病历系统采集数据的电子工具。

详情请见报告中以下专家的介绍:

  • 哈佛医学院 Richard Platt 博士
  • 美国退伍军人医院 Ryan E. Ferguson 博士
  • 临床数据交换标准联盟 Rebecca Daniels Kush 博士
  • 辛辛那提儿童医院 Carole M. Lannon 博士

挑战与新机遇

2016 年,NAM 组织了“加速临床知识的生成和使用”会议,并发表了一篇讨论报告《从最佳医疗服务中生成知识:推进持续的智能医学系统》 (Abraham 2016)。根据报告,尽管嵌入式学习活动大有前景,但临床运作和研究合作的障碍依然存在。

NAM LHS 系列报告发布后,EMR 已迅速在医疗机构中普及开来。同时,随着最近几年计算能力和算法研发的快速发展,NAM LHS 报告中尚未充分讨论的机器学习和人工智能 (AI) 技术出人意料地成为任何临床研究人员皆可运用的常见研究工具。

在我看来,这种前所未有的数字健康数据加之机器学习的环境正在为 LHS 背景下的医学知识生成带来不可估量的可能性。一方面,大量机器学习研究直接使用常规 EMR 数据,已学习和构建了有关诊断和治疗等临床事件的知识库。另一方面,从电子病历数据建造机器学习模型,既不需要先验知识,也不产生传统形式的知识。 机器学习模型,尤其是那些无法解释的模型,将把 LHS 中学习和传播新知识的传统概念推向一个未知领域——在不了解模型的知识来源和知识产物情况下传播机器学习模型。(在这种情况下,我们只知道模型有效,但不知为什么。)


3. 医学知识和模型的传播

通过基于知识的临床决策支持系统传播

【资料来源:NAM 2013 年报告《低成本的最佳医疗服务》】

当前产生和应用新临床知识的系统在很大程度上是相互脱节的,且协调不佳。虽然每年临床数据帮助开发了许多有效的循证临床实践、治疗方法和干预措施,但其中只有一部分被广泛使用。其他许多临床实际仅是在有限范围内使用,未能发挥其改善医疗服务的革新式潜力。

有证据表明,仅仅提供信息尽管速度更快,但很少能改变临床实践。因此,挑战在于如何能够以让临床医生采纳的方式传播知识。

将研究结果用于临床服务的一种技术工具是临床决策支持系统。临床决策支持系统将患者信息与包含临床研究结果和临床指南的数据库集成在一起。该系统生成个性化患者建议,指导临床医生和患者做临床决策。

随着知识生成速度的加快,需要新的方法将正确的信息以清晰易懂的格式传达给患者和临床医生,帮助他们共同做临床决策。报告的相关发现有:

  • 医疗服务的新知识的传播和应用速度缓慢,会对患者造成伤害。例如,从首次获得临床试验正面结果到大多数专家开始推荐溶栓药物用于心脏病发作的治疗时,花了 13 年时间。
  • 可用的临床证据通常未用于临床决策。一项对植入式心律转复除颤器 (ICD) 植入物使用情况的分析发现,22% 的使用是在专业协会指南之外的情况下植入的。
  • 可在电子病历系统中广泛提供的决策支持工具有望改进临床证据的应用。一项研究发现,数字决策支持工具帮助了临床医生应用临床指南,将糖尿病患者的健康结果提升了 15%。

通过预测模型传播

电子病历数据尽管不完美,但可以产出相当准确的统计预测模型,这些模型通常比目前用于预测风险的、基于简单分期策略的模型更好(NAM 2013 OS-LHS 报告)。

正如之前的知识生成部分所述,机器学习模型可以从整个 EMR 或多个 EMR 构建。根据所使用的算法,有些模型是可解释的,有些则不可解释。无法解释的 ML 模型即使是高性能的,它们的传播也将面临挑战。


4. 构建 LHS 智能医学系统

NAM 报告的方法

NAM 2011 年的报告《智能医学系统的数字基础设施:持续改善健康和医疗系统的基础》探讨了利用现有技术及选择创新重点的已有努力和机遇,以确保在一个系统中收集的数据可以跨系统用于各种不同的用途。然而,LHS 基础设施的完整连贯图景仍不明朗。

NAM 2011 年研讨会总结报告《工程设计智能医疗服务系统的未来展望》,回顾了持续反馈和改进医疗服务的质量、安全性、知识和价值的工程方法。智能医疗系统的目标是每次都提供最好的诊疗,并在每次医疗服务中学习和改进。目前,美国在组织、管理和提供医疗服务方面都没能做到令人满意的可靠性、一贯性和可承受性。该报告盘点了可能适用于健康领域的工程学经验教训。然而,它没有提供构建实际 LHS 的指导。

NAM 2013 年的《低成本的最佳医疗服务》报告展示了一个复杂的 LHS,并得出结论:“鉴于系统的复杂性和各个部分的相互关联性,任何一个部分都无法单独达到开发一个不断学习和改进的医疗系统所必需的变革范围和规模。”(第 10 章 281 页)

本指南自下而上的方法

如果仅将 LHS 定义为最终的全国范围的智能医学系统,NAM 报告的上述结论可能是正确的。但这可能不是一个有效的方法 —— LHS 是如此复杂,以至于无人能够开始构建它。

我认为,为了系统实施的可行性目的,我们应该分不同阶段、在不同层面上定义和建造智能医学系统。最重要的是,LHS 的起点应该是现在就可以由一家医院、一个科室或一个小组建立的那种 LHS,无需依赖任何没必要的外部因素。

因此,本 LHS 快速指南采用自下而上的实用方法:将大型复杂的 LHS 分解为小型 LHS 单元;先设计和构建 LHS 单元,用于执行解决问题的具体任务;然后将功能性 LHS 单元连接成子系统。当多个子系统顺利运行后,再将子系统集成更大的智能医学系统。

由于我们仍处于构建智能医学系统的初期阶段,我们应该首先专注于构建足够数量的小型 LHS 单元作为示范。 在现阶段,LHS 领域最容易出成果的是什么?可能是基于 EMR 数据的预测型 LHS。例如,用于提高疾病早期诊断的智能风险预测系统,或个性化用药智能预测系统,都对医院有很强的商业价值,最有可能立项。

焦点:构建机器学习赋能的小型 LHS 单元

本指南侧重于为构建 ML 赋能的小型 LHS 单元 (ML-LHS) 提供实用指导和实例。通过应用机器学习模型,预测型或其他功能性的 ML-LHS 单元有望为医疗服务或公共卫生服务的许多具体任务提高效果和效率。

ML-LHS 单元的主要特性:

  1. 数据驱动。
  2. 机器学习。
  3. 持续学习。
  4. 快速传播。
  5. 自动流程。

现在,相关的开放数据和开源软件使得研发小型但有效的 ML-LHS 变得更加容易,这些技术在 NAM 编写 LHS 报告时还不存在,包括大量可供选择的免费和开源的机器学习算法和工具。在患者数据得到保护的情况下,有些共享的脱敏 EHR 患者数据在数据源网站上申请授权后可获得。对于任何疾病和健康状况,也可以通过 Synthea 等最新技术产生合成的患者病历数据,以补充真实 EHR 数据的缺失。合成数据可方便地用于研发 ML 算法和 LHS 流程、测试或培训。

以下章节将先描述应用合成患者病历首次模拟风险预测 LHS,随后是正在进行中的使用真实 EHR 数据的 ML-LHS 项目实例。基于这些研究的初步结果,我提出一个新的“合成+真实”策略,可更有效地用来构建小型 ML-LHS 单元:首先使用合成病历数据模拟 ML-LHS,然后将其流程应用于真实病历数据。


5. 机器学习赋能的 LHS 模拟研究

通过合成患者病历的新技术,现在已经能够合成病历模拟 EMR,然后用此虚拟数据模拟机器学习赋能的 LHS,探索 ML-LHS 的作用。LHS 模拟是一种研究 ML 算法和 LHS 流程的有效方法,研究结果可用于帮助使用真实患者数据构建 ML-LHS 单元。由于基于公共数据而合成的患者数据不存在隐私问题,LHS 模拟研究可跨机构大规模共享数据和协作研发算法和流程。这个模拟步骤有可能为整体 LHS 项目进度节约大量时间。

我们使用 Synthea 技术合成患者病历,进行了首次 ML-LHS 模拟研究,研究结果发表在《自然科学报告》杂志 (Nature Science Reports) (Chen 2022)。下面是该研究总结。

ML-LHS 核心单元的基本设计

用于风险预测任务的 ML-LHS 核心单元的简化设计如下图所示。该设计着重于模拟两个机器学习核心步骤:(1)从现有的 EHR 数据构建初始 ML 模型,(2)持续机器学习新增数据以改进 ML 模型。这种 LHS 设计利用了 LHS 内在的数据为驱动的 ML 方法。因此,ML-LHS 流程主要侧重于提高 ML 可用数据的质量和数量,以达到改进风险预测 ML 模型的目的。

design

图示:风险预测 ML-LHS 核心单元的设计示意图。1. 先由现有病历数据构建 ML 模型。2. LHS 学习循环持续使用更新的患者数据改进 ML 模型,并将新模型快速应用到风险预测服务中。

肺癌风险预测模拟 ML-LHS 单元

为了模拟一个有 100 万患者规模的真实医院 EHR 的肺癌风险预测 LHS,模拟 LHS 需包含大约 5,000 名肺癌患者。Synthea患者合成软件 共合成了约 150,000 名患者的病历,其中约有 5,500 名患有肺癌。这些 Synthea 患者的 1,300 多万次就诊中有超过 1.75 亿数据点,包括 800 万个诊断、1.11 亿个观察、2,400 万个手术和 1,500 万个药物治疗。

模拟 ML-LHS 的持续学习和改进过程从 30,000 名 Synthea 患者开始,共模拟四次学习循环,每次增添 30,000 名 Synthea 患者。每次更新数据集后,重建新的 XGBoost 预测模型。随着数据集规模从 30,000 名患者增加到 150,000 名患者,肺癌风险预测模型效果逐步提高:肺癌召回率 (recall) 从 0.849 增加到 0.936,精确率 (precision) 从 0.944 增加到 0.962, AUC 从 0.913 增加到 0.963,准确度 (accuracy) 从 0.938 增加到 0.975。如下图,与随机森林算法 (RF)、支持向量机算法 (SVM) 和 K 最邻近算法 (KNN) 的基础模型相比较,Synthea 患者的 XGBoost 肺癌模型的风险预测能力最好。

design

图示:随着数据量增加,肺癌风险预测 ML 模型在不断改进。比较四种算法的召回率 (recall): XGBoost、RF、SVM 和 KNN。初始数据集:30,000 名患者;有四次数据更新,每次增加 30,000 名患者。

以脑梗模型验证 LHS 流程

为了验证模拟研究建立的新型数据驱动的 ML-LHS 流程的可复制性,它应该可以为任何目标疾病(如脑梗)建立高效风险预测ML模型:在相同数量的数据更新迭代后,可达到高召回率和精确率。

Synthea 合成患者的脑梗发生率高于肺癌。每 30,000 患者中约有 4,000 名脑梗患者。与肺癌模型相似,脑梗模型的性能指标也随着每次数据更新而提高。在第四次学习和改进周期中,更新的 150,000 名患者中有 20,000 名脑梗患者,XGBoost 基础模型的关键指标提高到:召回率 0.908、精确率 0.964、AUC 0.948、准确度 0.969 (见下图)。

脑梗模型的结果证实,建立的LHS过程在构建脑梗风险预测的高性能模型方面同样有效。我们预计这种 LHS 过程也将适用于其他疾病。

design

图示:脑梗风险预测 XGBoost 基础模型随着数据量增加而不断改进。 模型性能用召回率、精确度和 AUC 来衡量。含有 10 个变量的基础模型的召回率是基线。

ML-LHS 模拟研究结论

这项模拟研究创建了第一个合成 ML-LHS 单元,并示范了它能够用现有电子病历数据构建肺癌和脑梗等目标疾病的风险预测 XGBoost 基础模型。凭借它固有的数据驱动的机器学习方法,ML-LHS 可以不断从新的患者数据中学习和提高 ML 模型的性能。

合成 ML-LHS 流程可用于帮助使用真实患者数据构建疾病风险预测 ML-LHS。此外,还可以通过超参数 (hyperparameter) 调整进一步优化真实数据 ML 模型。

注:LHS 模拟中的 ML 模型仅能用于研究,不能用于实际医疗服务。

ML-LHS 假设

基于 ML-LHS 模拟研究,我提出两个假设:

  • ML-LHS 性能假设:通过 LHS 内在的数据驱动 ML 方法,ML-LHS 单元最终可以为多数疾病的风险预测模型达到高召回率和精确率 (>95%) 。
  • ML-LHS 平等假设:虽然社区和农村诊所可能没有足够的数据自行构建 ML 模型,但可以加入由大型医院主导的临床研究网络 (CRN),CRN 运行的 ML-LHS 将诊所数据综合纳入学习周期,从而诊所得到赋能,可以平等地使用相同水平的 ML 和 AI 工具。

6. 机器学习赋能的 LHS 项目实例

ML-LHS 非常有希望将医疗服务和公共卫生服务系统转变为更有效和更高质量的系统。我想在这里着重探讨一个我特别关心的应用领域:健康公平性。

减轻全球医疗服务不公平的潜在解决方案

ML-LHS 平等假设提出,ML-LHS 具有减轻农村及弱势群体的医疗不公平问题的潜力。尽管农村诊所和城市社区卫生中心 (CHC) 没有足够数量的患者来独自构建可完成各种临床任务的高精度 ML 模型,但 ML-LHS 设计可以扩展到临床研究网络 LHS (CRN-LHS), 覆盖 CRN 内的小型诊所。借助 CRN,教学医院或三级医院负责使用包含农村诊所和城市 CHC 的患者数据构建 ML 模型。由此产生的 ML 模型和 AI 工具可在 LHS 内迅速传播,结果是诊所和 CHC 也能使用大医院用的 ML 和 AI 工具。我预计,CRN-LHS 设计提供了一个有前景的解决方案,不仅可减少医疗服务不平等问题,还可以避免小型诊所在医疗 AI 革命中越来越落后。

ML-LHS 挑战

ML-LHS 的概念很有前景,但也面临着巨大的挑战。由于 LHS 同时开展系统层面的研究和临床实践,它对初始 ML 模型的要求明显更高,大多数报道的基于 EHR 数据的 ML 模型可能无法满足这样的 LHS 要求。此外,由于患者数据出于隐私原因无法公开共享,能开放获取的 ML-LHS 研发所需的患者数据集极为不足,开发者缺乏数据的问题严重限制了在新兴 LHS 领域广泛开展机器学习研究的可能性。

自从 2012 年 第一届全美智能医学系统峰会 以来(我有幸受邀参加),几乎没有看到医院临床流程实施和运营 ML- LHS 的文献报告,我期望看到的报告应该展现几个关键的 LHS 特征,包括自动数据收集、连续机器学习、新知识和最佳实践的快速传播等。尽管一些研究已经报告了应用 LHS 概念在医院服务流程中改善质量的成功案例,但这些实例并未采用电子病历数据进行持续机器学习 (Bravata 2020, Horwitz 2019),因此它们不属于 ML-LHS 一类的。

临床正在运营的 ML-LHS 实例

非常可惜,仍未见严格意义的 ML-LHS 原创文献报道。

  • 实例:加州大学圣地亚哥分校医疗系统 LHS

UCSD El-Kareh 等在 LHS 杂志描述了加州大学圣地亚哥分校医疗系统的 LHS 现状 (El-Kareh 2022),其要点是:

  • 在加州大学圣地亚哥分校医疗系统,COVID-19 大流行凸显了将高可靠性方法应用于实施智能医学系统的独特优势,重点明确地利用这两个框架的元素来研发“高度可靠的智能医学系统” 。
  • 在运用临床数据建模和实施预测算法方面具有专业知识的研究人员成为运营团队的重要合作伙伴。
  • 从电子病历持续挖掘数据生成了真实世界的证据,为当地医疗服务提供信息并影响国家政策。
  • 高度可靠的智能医学系统的重点之一是应用临床研究社区的创新能力,与运营实施团队的可靠性特点结合起来。


(期待更多成功 LHS 案例……)

构建 ML-LHS 的新策略

由于 LHS 面临的挑战和进展缓慢,国际 LHS 社区 (global LHS community) 需要找到新途径来促进 ML-LHS 的研究和实施。

上述 LHS 模拟研究就是一个新尝试,试图用合成数据帮助医院或其他医疗机构更容易开始 ML-LHS 的研究探索。参照肺癌风险预测 ML-LHS 模拟的流程,华西医院 LHS 团队和桂林医学院附属医院的临床团队对研究人员和学生进行培训,然后使用真实病历数据快速研发出几种疾病的风险预测 ML 模型。该团队正在创建临床研究网络,以实施可提高疾病早期筛查和诊断的 ML-LHS。

根据合成数据模拟对加速医院启动 ML-LHS 研究项目的初步影响,我在这里提出一个新的加速 LHS 研究的策略,即“合成+真实”策略。它将构建 ML-LHS 的艰巨任务分解为两个阶段:

  1. 第一阶段:使用合成患者数据模拟 ML-LHS 的 ML 核心及流程,包括数据流程、ML 算法和团队培训。如果本阶段进行顺利,临床团队将更有信心实现 ML-LHS。
  2. 第二阶段:将模拟流程应用于真实 EHR 病历数据,进行标准数据收集、模型构建和临床验证。然后将研究的循环学习流程嵌入临床服务流程中,再使用医院已有质量评价方法对运行的 LHS 进行严格监控和科学评价。

征集 ML-LHS 实例

促进 ML-LHS 领域的发展需要成功案例,证明 ML-LHS 确实能为患者和医院带来益处和价值。如果您正在开展 ML-LHS 项目,可以通过 Learning Health Community的 LHS 技术论坛计划与我们联系。我们正在联系全球 LHS 社区的专家,收集 LHS 项目实例,了解 LHS 研究和实施面临的挑战,并组织国际 LHS 技术论坛,让产业界和学术界的创新者汇聚在一起,开展对话或合作。LHS 技术论坛计划的网页展示了论坛信息、LHS 资源和发表论文,还有成功 ML-LHS 案例。本指南也将分享更多 ML-LHS 实例。

在以下章节中,我将提供更多有关医疗健康数据、合成患者数据、数据驱动的机器学习等 ML-LHS 所需关键技术的详细信息。


7. 医疗健康数据

NAM 有关临床数据的报告

NAM 2010 研讨会总结报告《临床数据作为医疗系统学习进步的要素 —— 创造和保护一项公共利益》回顾了电子病历在知识产生中的整合和使用。报告讨论了为了调查前沿数据挖掘技术所作的努力,这些技术旨在生成有关医疗健康服务和研究的证据。

项目示例:癌症生物医学信息网格 (caBIG):连接多各生物医学研究和临床试验的参与系统,为癌症研究社区提供共享数据。

NAM 有关系统学习的数据报告

NAM 2013 研讨会总结报告《支持健康和医疗系统持续学习的数据改进的重要性》探讨了数据质量问题以及为知识产生而提高数字健康数据采集和应用的核心战略。

健康数据收集和共享的增加正迅速将医疗系统带入“大数据”时代。数字健康数据在各种不同的环境中产生:

  • 电子病历含有日常医疗服务数据 (EHR) 。
  • 直接源于患者的数据 (PGHD) 。
  • 雇主握有的员工医疗服务使用数据、基本健康状况和相关医疗费用数据。
  • 公共卫生系统及其调查和监测活动常规收集的人群健康数据。
  • 正在进行和已完成的临床试验数据。

尽管大量健康及健康相关数据的收集有望支持医疗系统大规模和多类型的学习,但仅是数据还不够,还必需共享、整合、分析以及持续管理和提升这些数据,才能实现向持续学习的智能医学系统转型。

  • 创新方法:需要研发使用电子病历作为数据源并对大数据进行观察研究的方法。需要研发、验证和使用预测模型来告知健康数据的使用,包括个人的健康风险解读。
  • 分布式途径:鉴于数据隐私和安全对收集和使用患者健康数据的重要性,需要进一步研发和试点与分布式网络方法使用相关的政策、分析方法和技术。
    • 分布式数据网络实例:FDA 小前哨网络(Mini-Sentinel, FDA 支持试点的计划):含有超过 1 亿人的分布式数据集,支持对医疗产品的主动安全监测。

电子病历的数据内容

以 MIMIC-IV 医院数据 为例,信息包括:

  • 患者和入院详细信息 (patients, admissions, transfers)
  • 实验室数值 (labevents, d_labitems)
  • 微生物学培养 (microbiologyevents)
  • 医嘱 (poe, poe_detail)
  • 药物管理 (emar, emar_detail)
  • 药物处方 (prescriptions, pharmacy)
  • 医院账单信息 (diagnoses_icd, d_icd_diagnoses, procedures_icd, d_icd_procedures, hcpcsevents, d_hcpcs, drgcodes)
  • 服务相关信息 (services)

患者数据的隐私安全

电子病历的患者数据必须得到隐私和安全的保护。尽管这意味着放慢研发速度,但我们使用患者数据必须遵守当地法律并符合产业标准 (McGraw 2021) 。

开放共享健康数据

适当开放共享部分脱敏的患者健康数据也很必要,因而有少数医疗机构开放了少量数据,这类开放数据要求使用者申请,被授权后才可得到脱敏患者数据。

共享 EHR 数据:

MIMIC-IV 是一个数据库,包含美国马萨诸塞州波士顿的一个三级教学医疗中心收治的患者的真实住院数据。每位患者的综合信息有:实验室数据、用药情况、生命体征记录等。该数据库旨在支持广泛的医疗服务研究。

MIMIC-III(重症病房数据集 III)是一个免费的大型数据库,包含 2001-2012 年间“贝斯以色列女执事医疗中心”重症监护病房的四万多名患者的脱敏健康数据。该数据库包括个人数据、床旁生命体征数值(每小时 1 个数据点)、实验室数据、手术、药物、护理人员记录、影像报告和死亡率(院内及院外)等信息。

CPRD 是一项真实世界临床数据的研究服务,支持回顾性和前瞻性的公共卫生和临床研究。CPRD 从全英国的全科医师服务网络收集匿名患者数据,涵盖 6,000 万患者,其中包括 1,600 万当前登记在册的患者。

PhysioNet Resource 的任务是开展和促进生物医学研究和教育,其中包括免费提供大规模生理和临床数据,以及相关开源软件。

临床研究数据共享:

  • 临床试验数据库:ClinicalTrials.gov 是一个全球私人和公共资助的临床研究的数据库。
  • Vivli 数据:一个全球临床研究数据共享平台。

政府和其他健康数据来源:

  • 美国政府开放的健康数据
  • 美国卫生部医改办 (ONC) 开放的医疗 IT 数据
  • 美国政府医保局 (CMS) 的开放数据
  • 美国卫生研究院 (NIH) 全民研究计划
  • 美国卫生研究院全美数据与健康中心 (CD2H)
  • 美国卫生研究院全美新冠合作研究联盟 (N3C) 数据
  • 美国卫生研究院全美癌症研究所 (NCI) 癌症数据库
  • 哈佛大学开放共享数据空间
  • 哈佛大学生物医学信息系的自然语言处理数据集
  • Elsevier Mendeley 开放共享数据平台

8. 合成患者病历数据

由于真实患者数据受到保护,为医疗系统研究和开发提供合成患者数据变得至关重要。完全从公开数据合成的患者数据应该不存在任何隐私问题。例如,Synthea 合成患者数据是根据公共数据合成的,因此最近被广泛用于研发和测试新的医疗服务信息流程。

Synthea 合成患者数据

Synthea 是一个开源的产生合成患者数据的软件,通过模拟虚构患者的病史,它可产生高质量、合成的、逼真但不真实的患者数据,而不受成本、隐私和安全性的限制。它使需要患者数据但却不能合法或实际取得数据的研究得以进行 (Walonoski 2018) 。

Synthea 开源软件:

Synthea 软件源代码 在 GitHub 上的 Synthea 项目网页。按照软件说明,您可以自己运行 Synthea 软件合成患者数据。更多信息见 Synthea wiki 。

Synthea 系统设计:

Synthea 系统采用基于代理的方法产生合成患者病历记录。每个合成患者都是独立生成的,从出生到死亡的过程中经历各种模块化表达的疾病或健康状况。每个患者都使用系统的所有疾病模块。

Synthea 疾病模块基于 通用模块框架,该框架使用一组预定义的状态、转换和条件逻辑,创建代表常见疾病的进展和诊疗标准的状态机 (state machines) 。模块是根据公开可用的健康数据构建的,包括疾病发病率和患病率统计数据,以及临床服务指南。

Synthea系统覆盖的疾病:

Synthea 目前有 90 多个不同的疾病模块,每个模块都模拟一种疾病或健康状态。模块构建工具页面列出了当前支持的所有疾病模块。模块库只列出一些常用疾病模块。

表格:Synthea 覆盖的最常见疾病和健康状况

患者看全科医生 (PCP) 的前十位原因致死的前十位疾病和健康状况
婴幼儿定期健康检查缺血性心脏病
原发性高血压肺癌
糖尿病阿尔茨海默病
正常妊娠慢性阻塞性肺病
呼吸道感染(咽炎、支气管炎、鼻窦炎)脑血管疾病
一般成人体检交通事故受伤
类脂代谢障碍自残
耳部感染(中耳炎)糖尿病
哮喘结直肠癌
尿路感染药物使用障碍(仅限于大麻类控制药物)

Synthea软件的可扩展性

Synthea 的模块设计很巧妙,您可以添加新模块来涵盖您感兴趣但 Synthea 软件尚未包含的疾病或健康状况。详情见以下功能页面:

Synthea 患者病历格式

Synthea 患者病历格式有标准的 FHIR 格式或简单的 CSV 格式。为了更方便地查看不同专项记录中的数据元素,请参阅 病历CSV文档列表 和每个文档中的数据字段。

表格:Synthea 患者病历文件

病历文档解释
allergies.csv患者过敏数据
careplans.csv患者健康计划数据,包括目标
claims.csv患者医保账单数据
claims_transactions.csv患者医保账单项目明细数据
conditions.csv患者诊断或健康状况
devices.csv患者携带的永久性和半永久性医疗器械
encounters.csv患者就诊数据
imaging_studies.csv患者影像元数据
immunizations.csv患者免疫接种数据
medications.csv患者用药数据
observations.csv患者观察结果数据,包括生命体征和实验室报告
organizations.csv医院等医疗机构
patients.csv患者个人数据
payer_transitions.csv付费明细数据(即健康保险付费)
payers.csv支付机构数据
procedures.csv手术等医疗流程数据
providers.csv提供医疗服务的临床医生
supplies.csv医用品数据

Synthea 数据验证

请参阅 Synthea 患者数据的外部验证研究文献 (Chen 2019)。

开放 Synthea 合成患者数据

  • MITRE

Synthea 软件开发者 Mitre Corp(非营利机构)开放一个 100 万 Synthea 合成患者病历数据集,可从其 网站下载。Synthea 数据也可从 FHIR API 获取。

  • 开放 LHS 项目 (Open LHS)

开放 LHS 项目在 GitHub 上启动了一个 “开放合成患者数据项目”,开放了以上 ML-LHS 模拟研究所用的肺癌和脑梗合成患者数据。因为数据量大,全部开放的合成患者数据发布在哈佛大学数据空间 (Dataverse) 上的 “机器学习用合成患者数据空间”。开放 LHS 项目今后陆续会在哈佛数据空间分享更多的合成患者数据。任何人可下载数据,无需申请。

其他合成患者数据

  • MDClone:

MDClone 平台从真实患者队列数据产生完全合成的患者数据集,而没有暴露患者隐私的危险,并且能够安全地共享数据。MDClone 合成数据是不可逆的、人工合成的数据,它复制了真实世界原始数据的统计学特征和相关性。合成数据利用了关注的离散和非离散变量,使用了统计方法产生全新的数据集,因而不包含可识别真实患者身份的信息。例如,NIH N3C 项目使用 MDClone 从新冠患者数据生成了合成数据集,用于更广泛的研究。

  • 英国 CPRD 合成患者数据:

英国的临床实践研究数据链 (CPRD) 使用全科医疗服务的患者数据产生高保真合成数据集,在复制了真实全科患者数据中的复杂临床关系的同时保护了患者隐私。CPRD 合成数据 可以代替真实患者数据,用于复杂的统计分析以及机器学习和人工智能研究应用。通过将异常值分析与图形建模和重采样相结合,CPRD 的方法可以产生合成数据集。在推断机器学习分类器时,合成数据在特征分布、特征依赖性和敏感性分析的统计结果方面与原始真实数据不存在显著差异。 CPRD 合成数据集可用于训练目的或改进算法或机器学习流程 (Tucker 2020) 。

  • NCI SEER 癌症合成数据:

基于来自 NCI 监测流行病学和最终结果 (SEER) 项目的公开癌症登记数据,Goncalves 等人生成并评估了合成癌症患者数据 (Goncalves 2020)。 他们比较了现有的产生合成电子病历的几种方法,每种方法的流程如下:给定一组隐私和真实的 EHR 样本,拟合模型,然后用模型生成新的合成 EHR 样本。结果发现,多项式乘积混合 (MPoM) 方法和分类潜在高斯过程 (CLGP) 方法可以提供具有以下两个特征的合成 EHR 样本:(1)合成数据与隐私真实数据的统计学特性相当,(2)模型的隐私信息泄露并不显著。

使用合成患者数据的机器学习

  • 如以上章节所述,我们使用 Synthea 患者数据建立了机器学习模型,模拟了 ML-LHS 单元 (Chen 2022)。
  • IBM 研究组使用 100 万 Synthea 患者构建了 2D 患者路径,并进行神经网络 CNN 和 RNN 机器学习。产生的模型能够预测十种常见疾病,达到 80-90% 的准确度 (Sbodio 2021)。本研究使用开源的患者路径提取器 (patient pathway extractor),将 Synthea 病历转换成可用于机器学习的数据。
  • 利用三个分别应用了分类和回归树、参数化和贝叶斯网络方法的合成数据生成器,Rankin 等人从 19 个开放健康数据集产生了合成数据。他们分别使用了合成数据和真实数据训练通用机器学习模型,然后使用独立的真实数据集来衡量模型性能。结果表明,与使用真实数据训练的模型相比,使用合成数据训练的模型的准确性仅略有下降 (Rankin 2020)。

Synthea合成患者数据的局限

Synthea 患者数据属于符合现实但并不是真实的数据。事实证明,Synthea 数据在开发和测试 ML 方法或流程方面很有用,但 Synthea 和真实患者数据之间的差异决定了 ML 模型的适用范围。Synthea 数据存在多种局限性,包括:疾病种类有限,一些数据偏向于特定患者人群,以及一些健康因素缺失,比如症状。由于这些差异,任何从合成数据构建的 ML 模型都不能用于实际临床服务。


9. LHS作为医疗人工智能框架

医疗服务人工智能

【资料来源:NAM 2019 特别人工智能报告】

NAM 2019 特别报告《医疗服务人工智能:希望、炒作、前途和危险》列出了当前和短期内的人工智能解决方案;强调 AI 在研发、应用和维护方面的挑战、局限和最佳实践;概述了为医疗应用设计的人工智能工具相关的法律和监管环境;优先考虑医疗人工智能对公平、包容和人权的需求;并提出向前推进的关键考虑因素 (NAM 2019,Matheny 2020) 。详情见网络研讨会 视频

人工智能最早在 1950 年代提出并经历了两次“AI 寒冬”。 此次人工智能兴起,大约从 2010 年左右开始,得益于机器学习和数据科技的成功,以及计算存储和能力的显著增加。它推动了像谷歌、亚马逊和苹果等大型消费企业的发展。除了梯度提升、随机森林、支持向量机、人工神经网络等常见的机器学习技术外,基于各种神经网络的深度学习系统也将人工智能发展推向了新的高度。

人工智能有望在医疗健康领域取得变革性甚至颠覆性的进展。下表列出 NAM 报告中提到的机器学习在医疗健康领域的一些应用。

表格:机器学习的一些医疗健康服务应用

用户组医疗健康服务应用
患者及家属健康状况监测
患者及家属疾病风险评估
患者及家属疾病预防与管理
临床医生护理团队早期检测、预测和诊断工具
临床医生护理团队精准医疗和个性化医疗
公共卫生发现高风险人群
公共卫生人群健康

然而,在医疗服务中部署和使用 AI 的例子很少,并且鲜有证据表明部署 AI 工具后日常医疗服务结果得到了改善。例如,在机器学习风险预测模型研究邻域,有大量关于模型研发和验证的文献,但只有稀少文献数据描述这些模型在医疗临床服务中成功部署和日常应用,对比鲜明!

尽管如此,该报告描述了一个医疗服务系统和医院对临床 AI 应用进行评估、决策和采用的框架。它强调医疗人工智能应该在LHS智能医学系统的框架下部署和应用。 针对 NAM 2013《低成本的最佳医疗服务》报告中概述的十个推荐领域,它还描绘了该如何在 LHS 系统中考虑每个领域的人工智能问题。

【我的解读】

  • 由于 LHS 将研究嵌入到医疗服务中,我们必须把 ML 模型的部署环节设计为医疗系统的有机组成部分。我认为这一要求和通常的ML和AI研究有本质区别,但是和 LHS 的要求是一致的。因此,部署越多 LHS,ML 和 AI 在医疗服务环境中部署和应用也将增加越多。

数据驱动的机器学习

现有的 ML/AI 研究通常缺乏以数据为中心的焦点。然而,近来人们认识到,以数据为中心的 ML/AI 与以模型为中心的 ML/AI 同样重要。

在以模型为中心的 ML 开发中,数据集通常是固定的,重点在于迭代模型架构或优化训练,以提高模型性能。

与此相反,以数据为中心的 ML 专注于系统方法,以评估、整合、清理和注释用于训练和测试 AI 模型的数据,这个流程有可能采用“交钥匙”模型构建器。

斯坦福大学研究人员在《自然机器智能》 (Nature Machine Intelligence) 杂志发表的最新论文讨论了为数据驱动的 AI 建立数据流的最新进展、最佳实践和相关资源 (Liang 2022)。这篇论文源自斯坦福 HAI中心举办的数据驱动 AI 研讨会(详见 报告回放录像)。

在《麻省理工学院管理》杂志 2022 年的采访中,吴恩达博士描述了为什么现在已经是时候侧重 数据驱动AI 的研究和应用了。如需了解他清晰的问题陈述和建议的解决方案,可观看吴博士关于以数据为中心 AI 的线上报告。您还可以在 https://datacentricai.org/ 加入由吴博士推动的数据驱动 AI 运动。

数据驱动和部署导向的 ML-LHS

我认为 LHS 本质上是一种以数据为中心的 (data-centric) ML 方法,这是由 LHS 的学习循环特征决定的。同时,LHS 还是以部署为导向的 (deployment-oriented) AI 策略。为解决医学知识的系统学习和传播问题,NAM 专家组在重新设计未来 LHS 智能医疗系统时已确认数据驱动和部署导向这两个必要特征,并提出 LHS 框架,把临床研究嵌入临床服务流程中,有机地结合数据驱动和部署导向。可见,这些年 LHS 的有关 ML 和 AI 策略的超前设计一直被忽略了,希望今后 LHS 社区能够把 LHS 的潜能发挥出来。

LHS = 医疗 AI 框架?

在 LHS 框架下,数据驱动与模型渠道并不互相排斥,而是互相补充。我在《自然科学报告》发表的模拟 ML-LHS 文章中提出,有必要在未来开展研究,探索结合以数据为中心和以算法为中心的两种方法的最佳策略。作为一般性建议,临床团队应当考虑首先使用ML基础模型开展数据驱动的学习循环,部署和运行起 ML-LHS,然后通过调整超参数或修改底层算法来进一步优化 ML 模型性能。

基于这个推理,我提出 ML-LHS 第 3 个新假设:

  • ML-LHS AI 假设:因为 LHS 具有数据驱动和部署导向的特征,大部分基于电子病历数据的 AI 将以 LHS 形式更有效地实现和传播。

电子病历范围的机器学习

电子病历范围的机器学习 (EMR-wide ML) 指的是使用 EMR 中所有可得的健康因素和数据进行机器学习,这与仅限于使用少数预先选择的健康因素的传统建模不同。由于大量电子病历数据呈非结构化形式,因此全电子病历范围的机器学习通常使用自然语言处理 (NLP) 技术从文本中提取数据并进行标准化。

根据目标任务的不同,可以采用两大类机器学习算法来构建预测模型:

  • 常见传统机器学习算法:梯度提升(例如 XGBoost)、随机森林 (RF)、支持向量机 (SVM)、等等。在传统的病历数据机器学习中,患者简单地由模型的属性或特征向量表示。这种方法依赖于专家定义恰当特征和设计模型结构的能力。
  • 深度神经网络算法(或 深度学习):人工神经网络 (ANN)、卷积神经网络 (CNN)、递归神经网络 (RNN)、长短期记忆 (LSTM)、生成对抗网络 (GAN)、门控循环单元 (GRU)、前馈网络 (FFN),等等。深度学习模型可以从原始数据或最低限度处理的数据中学习有用的患者表达,而很少需要专家指导。这是通过一个序列层发生的,每一层都使用大量简单的线性和非线性变换,将其相应的输入映射到一个表达上面。跨层表达的发展会产生一个最终表达,其中数据点形成可区分的模式 (Li 2020, Solares 2020)。

以下文献报道的研究是 EMR 范围 ML 代表性实例:

  • 斯坦福医学院研究小组使用美国一个州级健康信息交换站 (HIE) 的大量患者病历数据构建了一个 XGBoost 模型,用于预测一年肺癌发病风险,曲线下面积 (AUC) 为 0.881 (Wang 2019)。
  • 美国西奈山医疗系统的研究人员开发了一种新颖的无监督深度特征学习方法,从 EHR 中的 700,000 名患者的数据推演出通用的患者表达,用以促进临床预测建模。该研究利用涵盖了 78 种疾病的76,214 名测试患者进行测试评估。结果明显优于使用基于原始病历数据和替代特征学习策略的患者表达所取得的结果 (Miotto 2016)。
  • 使用大约 160 万患者病历和 57,000 个临床概念,西奈山医疗系统的研究人员创建了一个基于深度学习的无监督框架,可处理异构 EHR 数据,有效地把大量患者分组 (Landi 2020)。
  • 谷歌健康的研究人员提出了用整个原始病历来表达患者的方法,并证明了使用这种患者表达的深度学习方法有能力准确预测来自多中心的多种医疗事件,而无需对各医疗中心进行数据协调。这些模型的性能在所有情况下都优于传统用于临床的预测模型 (Rajkomar 2018)。
  • 牛津大学的研究人员基于 Transformer 架构和英国 CPRD 的 800 万患者而开发了一种称为 BEHRT(即 EHR 的 BERT)的模型,用于预测患者未来就诊时最有可能的疾病。与既往文献中最好的深度 EHR 模型相比,BEHRT 在预测超过 300 多种疾病方面的性能都优于前者达 8% 以上(绝对增加值) (Li 2020)。
  • 一项详尽的对标评价研究中,使用开放的重症监护 III (MIMIC-III) 数据集,比较多项临床预测任务,深度学习模型的效果始终优于所有其他方法 (Purushotham 2018)。
  • 目前缺乏在临床服务中对 ML 模型的前瞻性评估。《自然数字医疗》杂志 2022 年发表了一项模型构建以及临床验证和监测的示例。其流程首先确定一个可以从风险预测中获益的临床决策点,然后使用 EHR 数据回顾性地构建了一个预测居家癌症患者 60 天内到急诊室 (ED) 就诊的模型。模型在一项随机前瞻性研究中得到验证后,被嵌入临床流程,并日常监测模型性能 (Coombs 2022)。

10. LHS相关资源

更多 LHS 项目实例

  • FDA 哨兵系统:FDA 哨兵系统是智能医学系统的一个正在日常运营的实例,该系统正在扩展并有潜力创建一个全球智能医学系统,可以支持医疗产品安全性评估和其他研究 (Brown 2022) 。
  • 凯撒医疗系统研究网络 (HCSRN):医疗系统研究网络(前身为 HMORN)汇集了许多来自全美最佳且最具创新性的医疗系统的研究中心。其使命是通过连接各成员 LHS 的资源和能力进行研究来改善个人健康和人群健康。
  • PCORnet PaTH 临床研究网络:作为 PCORnet 成员,PaTH 临床研究网络研究人员与临床医生、患者和其他利益相关者合作,提出有意义的研究问题,这些问题可以整合到医疗服务中以获取真实世界的健康数据。 PaTH 网络包括许多医院,例如盖辛格 (Geisinger)、约翰·霍普金斯 (Johns Hopkins)、宾州州立 (PennState)、俄亥俄州立 (Ohio State)、天普 (Temple)、匹兹堡 (Pittsburg)、匹兹堡大学医学中心 (UPMC)、密歇根 (Michigan) 等。
  • PEDsnet 儿童健康研究网络:PEDSnet 儿童健康研究网络开展改善儿童健康和生活的研究。它是一个由医院和医疗机构、研究人员和临床医生以及患者和家庭组成的大型全国性社区。社区共同努力以发现可以减少儿童痛苦并支持他们健康发展的最重要的研究问题。
  • ImproveCareNow 炎症性肠病合作社区:ImproveCareNow 是为改善青少年儿童克罗恩病和溃疡性结肠炎(也叫炎症性肠病)而运营的患者、家长、医生及研究人员共同参与的合作社区。
  • 美国临床肿瘤学会 CancerLinQ:CancerLinQ 是美国临床肿瘤学会 (ASCO) 的健康技术子公司(非营利),其目标是为所有癌症患者提高医疗质量、改善健康结果,并推进循证医学研究。 CancerLinQ 建立了一个跨平台、跨学科和跨技能组合的学习社区,以促成改善可惠及各地患者的医疗服务。
  • 斯坦福大学协作健康结果信息登记 (CHOIR) 网络:支持疼痛管理的斯坦福 CHOIR 网络是最早的开源、开放标准和高度灵活的平台,用于智能医疗系统优化医疗服务,并推进真实世界研究的发现和创新。
  • 斯坦福大学医院新冠指南项目:在斯坦福大学医院新冠医疗服务LHS流程中,临床部门的临床问题得到快速回答,并及时影响服务新冠患者的医院指南的制定 (Dash 2022)。
  • 退伍军人医院短暂性脑缺血发作 LHS 项目:退伍军人医院 PREVENT 临床试验项目旨在尝试智能医疗系统的服务模式,评估多组分 QI 干预,以提高短暂性脑缺血发作 (TIA) 的医疗质量 (Bravata 2020)。
  • 纽约大学 Langone 医院 LHS 项目:在纽约大学医院的医疗创新和实施科学中心 (NYU CHIDS),随机 QI 项目是与一线医护人员合作,确保 QI 干预无缝实施,而不会增加额外负担。项目证实了 LHS 在系统层面的干预可有效提高医疗质量。见研讨会视频 (Horwitz 2019)。

研究和开发

医疗系统

社区

教育

政策


参考资料

  • Abraham, E., C. Blanco, C. Castillo Lee, J. B. et al. 2016. Generating Knowledge from Best Care: Advancing the Continuously Learning Health System. NAM Perspectives. Discussion Paper, National Academy of Medicine, Washington, DC. https://doi.org/10.31478/201609b
  • Balas, E, and S Boren. 2000. Managing clinical knowledge for healthcare improvements. In Yearbook of Medical Informatics, edited by V Schatauer. Stuttgart, Germany: Schattauer Publishing.
  • Bravata DM, Myers LJ, Perkins AJ, et al. Assessment of the Protocol-Guided Rapid Evaluation of Veterans Experiencing New Transient Neurological Symptoms (PREVENT) Program for Improving Quality of Care for Transient Ischemic Attack: A Nonrandomized Cluster Trial. JAMA Netw Open. 3(9), e2015920 (2020). doi:10.1001/jamanetworkopen.2020.15920
  • Brown JS, et al. The US Food and Drug Administration Sentinel System: a national resource for a learning health system, JAMIA, 2022; ocac153, https://doi.org/10.1093/jamia/ocac153.
  • Chen, A., Chen, D.O. Simulation of a machine learning enabled learning health system for risk prediction using synthetic patient data. Sci Rep 12, 17917 (2022). https://doi.org/10.1038/s41598-022-23011-4
  • Chen J, Chun D, Patel M, Chiang E, James J. The validity of synthetic clinical data: a validation study of a leading synthetic data generator (Synthea) using clinical quality measures. BMC Med Inform Decis Mak. 2019;19(1):44. doi: 10.1186/s12911-019-0793-0.
  • Coombs, L., Orlando, A., Wang, X. et al. A machine learning framework supporting prospective clinical decisions applied to risk prediction in oncology. npj Digit. Med. 5, 117 (2022). https://doi.org/10.1038/s41746-022-00660-3
  • Dash D, Gokhale A, Patel BS, et al. Building a Learning Health System: Creating an Analytical Workflow for Evidence Generation to Inform Institutional Clinical Care Guidelines. Appl Clin Inform. 2022;13(1):315-321. doi: 10.1055/s-0042-1743241.
  • El-Kareh R, Brenner DA, Longhurst CA. Developing a highly-reliable learning health system. Learning Health Systems. 2022;e10351. https://doi.org/10.1002/lrh2.10351
  • Friedman CP, Wong AK, Blumenthal D. Achieving a nationwide learning health system. Sci Transl Med. 2010 Nov 10;2(57):57cm29. doi: 10.1126/scitranslmed.3001456. PMID: 21068440.
  • Goncalves, A., Ray, P., Soper, B. et al. Generation and evaluation of synthetic patient data. BMC Med Res Methodol 20, 108 (2020). https://doi.org/10.1186/s12874-020-00977-1.
  • Horwitz LI, Kuznetsova M, Jones SA. Creating a Learning Health System through Rapid-Cycle, Randomized Testing. N Engl J Med. 2019 Sep 19;381(12):1175-1179. doi: 10.1056/NEJMsb1900856. https://www.nejm.org/doi/full/10.1056/NEJMsb1900856
  • Institute of Medicine. 2001. Crossing the Quality Chasm: A New Health System for the 21st Century. Washington, DC: The National Academies Press. https://doi.org/10.17226/10027.
  • Institute of Medicine. 2007. The Learning Healthcare System: Workshop Summary. Washington, DC: The National Academies Press. https://doi.org/10.17226/11903.
  • Institute of Medicine. 2010. Clinical Data as the Basic Staple of Health Learning: Creating and Protecting a Public Good: Workshop Summary. Washington, DC: The National Academies Press. https://doi.org/10.17226/12212.
  • Institute of Medicine. 2011. Digital Infrastructure for the Learning Health System: The Foundation for Continuous Improvement in Health and Health Care: Workshop Series Summary. Washington, DC: The National Academies Press. https://doi.org/10.17226/12912.
  • Institute of Medicine and National Academy of Engineering. 2011. Engineering a Learning Healthcare System: A Look at the Future: Workshop Summary. Washington, DC: The National Academies Press. https://doi.org/10.17226/12213.
  • Institute of Medicine. 2013. Best Care at Lower Cost: The Path to Continuously Learning Health Care in America. Washington, DC: The National Academies Press. https://doi.org/10.17226/13444.
  • Institute of Medicine. 2013. Observational Studies in a Learning Health System: Workshop Summary. Washington, DC: The National Academies Press. https://doi.org/10.17226/18438.
  • Institute of Medicine. 2013. Large Simple Trials and Knowledge Generation in a Learning Health System: Workshop Summary. Washington, DC: The National Academies Press. https://doi.org/10.17226/18400.
  • Institute of Medicine. 2013. Digital Data Improvement Priorities for Continuous Learning in Health and Health Care: Workshop Summary. Washington, DC: The National Academies Press. https://doi.org/10.17226/13424.
  • Landi, I., Glicksberg, B.S., Lee, HC. et al. Deep representation learning of electronic health records to unlock patient stratification at scale. npj Digit. Med. 3, 96 (2020). https://doi.org/10.1038/s41746-020-0301-z
  • Li, Y., Rao, S., Solares, J.R.A. et al. BEHRT: Transformer for Electronic Health Records. Sci Rep 10, 7155 (2020). https://doi.org/10.1038/s41598-020-62922-y.
  • Liang, W., Tadesse, G.A., Ho, D. et al. Advances, challenges and opportunities in creating data for trustworthy AI. Nat Mach Intell (2022). https://doi.org/10.1038/s42256-022-00516-1
  • Masoudi, F. A., E. P. Havranek, P. Wolfe, C. P. Gross, S. S. Rathore, J. F. Steiner, D. L. Ordin, and H. M. Krumholz. 2003. Most hospitalized older persons do not meet the enrolment criteria for clinical trials in heart failure. American Heart Journal. 146(2):250-257. https://doi.org/10.1016/S0002-8703(03)00189-3.
  • Matheny ME, Whicher D, Thadaney Israni S. Artificial Intelligence in Health Care: A Report From the National Academy of Medicine. JAMA. 2020;323(6):509–510. doi:10.1001/jama.2019.21579. https://jamanetwork.com/journals/jama/article-abstract/2757958
  • McGraw, D., Mandl, K.D. Privacy protections to encourage use of health-relevant digital data in a learning health system. npj Digit. Med. 4, 2 (2021). https://doi.org/10.1038/s41746-020-00362-8
  • Miotto, R., Li, L., Kidd, B. et al. Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electronic Health Records. Sci Rep 6, 26094 (2016). https://doi.org/10.1038/srep26094.
  • NAM, 2019. “Artificial Intelligence in Health Care: The Hope, the Hype, the Promise, the Peril. A Special Publication from the National Academy of Medicine.” https://nam.edu/artificial-intelligence-special-publication/
  • Purushotham S, et al. Benchmarking deep learning models on large healthcare datasets. J. Biomed. Inf. 2018; 83:112-134. Doi: 10.1016/j.jbi.2018.04.007.
  • Rajkomar, A., Oren, E., Chen, K. et al. Scalable and accurate deep learning with electronic health records. npj Digital Med 1, 18 (2018). https://doi.org/10.1038/s41746-018-0029-1
  • Rankin D, et al. Reliability of Supervised Machine Learning Using Synthetic Data in Health Care: Model to Preserve Privacy for Data Sharing. JMIR Med Inform. 2020 Jul 20;8(7):e18910. doi: 10.2196/18910. https://pubmed.ncbi.nlm.nih.gov/32501278/.
  • Sbodio ML, Mulligan N, Speichert S, Lopez V, Bettencourt-Silva J. Encoding Health Records into Pathway Representations for Deep Learning. Stud Health Technol Inform. 2021;287:8-12. doi: 10.3233/SHTI210800. https://pubmed.ncbi.nlm.nih.gov/34795069/.
  • Seid M, Hartley DM, Margolis PA. A science of collaborative learning health systems. Learn Health Sys. 2021; 5(3):e10278. https://doi.org/10.1002/lrh2.10278
  • Solares JRA, et al. Deep learning for electronic health records: A comparative review of multiple deep neural architectures. J Biomed Inform. 2020;101:103337. doi: 10.1016/j.jbi.2019.103337. PMID: 31916973.
  • Tucker, A., Wang, Z., Rotalinti, Y. et al. Generating high-fidelity synthetic patient data for assessing machine learning healthcare software. npj Digit. Med. 3, 147 (2020). https://doi.org/10.1038/s41746-020-00353-9.
  • Walonoski J, et al. Synthea: An approach, method, and software mechanism for generating synthetic patients and the synthetic electronic health care record, JAMA, 2018, https://doi.org/10.1093/jamia/ocx079.
  • Wang X, et al. Prediction of the 1-Year Risk of Incident Lung Cancer: Prospective Study Using Electronic Health Records from the State of Maine. J Med Internet Res 2019;21(5):e13260. doi: 10.2196/13260

鸣谢

感谢韩若冰女士帮助翻译本指南。感谢 Joshua C. Rubin, JD, MBA, MPH, MPP 审阅和编辑本指南。特别感谢美国医学科学院发表 LHS 系列报告,如果没有他们开创性的研究,就不可能有 LHS 的方向。感谢所有引用的参考资料。


©2022-2023 陈安均,版权所有。

九章新一年的发展计划

核心业务内容

1. AI驱动的临床试验设计优化

我们利用先进的AI算法,如HINT(层次化交互网络)和SPOT(序列化预测模型),帮助客户优化临床试验设计。通过分析药物分子、目标疾病和患者资格标准等多维度数据,我们能够预测试验的成功率,并在早期识别潜在风险,从而优化试验方案,提高成功率。

2. 智能患者招募与筛选

我们开发了Trial Pathfinder和AutoTrial等AI工具,用于优化患者招募流程。Trial Pathfinder通过分析历史试验数据,推荐更宽松但安全的参与标准,扩大潜在受试者群体。AutoTrial则利用大语言模型自动生成参与者筛选标准,精准定位符合条件的患者,大幅提高招募效率。

3. 数据管理与分析

我们提供基于AI的数据管理平台,能够自动化执行数据的收集、整理和分析工作。我们的PLIP搜索引擎利用自然语言处理(NLP)技术,从非结构化报告中提取关键信息,并将其转换为结构化数据,便于进一步分析。此外,我们的数据集成与分析平台能够将来自不同来源和格式的数据进行有效集成,提供全面的数据支持。

4. 患者参与与维护

我们利用ChatGPT和ChatDoctor等AI工具,提高患者的参与度和依从性。这些工具能够为患者提供24/7的支持,回答他们关于试验流程、药物用法及副作用等问题,减少患者的不确定性和焦虑。同时,我们开发了智能药物监控系统,实时追踪患者的用药情况,确保药物按照预定的治疗计划被正确使用。

5. 伦理与隐私保护

我们高度重视AI应用中的伦理和隐私问题。我们采用透明的算法设计,确保AI系统的决策过程可解释和可追溯。同时,我们严格遵守数据隐私保护法规,确保患者信息的安全和隐私不被泄露。

服务优势

  • 高效性:通过AI技术,我们能够大幅缩短临床试验的设计和执行时间,提高整体效率。
  • 精准性:我们的AI工具能够精准预测试验成功率,优化患者招募和筛选,提高数据的准确性和可靠性。
  • 全面性:我们提供从试验设计到数据分析的全方位服务,确保每个环节都能得到最优化的支持。
  • 创新性:我们不断引入最新的AI技术和工具,保持行业领先地位,为客户提供最前沿的解决方案。

未来发展方向

我们将继续探索AI在临床试验中的新应用,特别是在个性化医疗和罕见病研究领域。我们计划开发更多智能工具,进一步提升临床试验的效率和成功率,为全球医疗健康事业做出更大贡献。

实验室样本管理系统
样品冰箱支持样品冰箱管理,具备新增、编辑、子标签打印、样品信息等操作。支持根据名称、冰箱类型等查询功能
样品信息支持样品信息管理,具备预生成标签、新增标签、编辑、标签打印、标签信息导出等操作。支持根据周期号、使用类型、样品状况、采样点描述、随机号、标签编码、检测/备份管序号等查询功能。
冻存盒信息支持冻存盒信息管理,具备新增、参照新增、编辑、删除、标签打印等操作。支持根据周期号、使用类型等查询功能。
通用冻存盒信息支持通用冻存盒信息管理,具备初始化、标签打印等操作。支持根据是否为空盒查询功能
样品移交支持样品移交管理,具备新增、编辑、详情、打印等操作。支持周期号、试验样品、采样点、时间段等查询功能。
样品离心支持样品离心管理,具备新增、编辑、详情、打印等操作。支持周期号、试验样品、采样点、离心设备、时间段等查询功能。
样品分装支持样品分装管理,具备新增、编辑、详情、打印等操作。支持周期号、试验样品、采样点、时间段等查询功能。
样品出入库支持样品出入库管理,具备新增、编辑、详情、打印等操作。支持周期号、试验样品、操作类型、操作冰箱、时间段等查询功能。
样品涡旋支持样品涡旋管理,具备新增、编辑、详情、打印等操作。支持周期号、试验样品、采样点、时间段等查询功能。
基本信息支持设备基本信息管理,具备新增、编辑、删除、详情、打印标签、打印使用记录等操作。支持根据名称、设备类别、设备状态等查询功能。
开关机记录支持设备开关机记录管理。支持根据设备类别、设备编号等查询功能。
实验室检验支持实验室检验数据管理,具备报表、点状图导出功能
生命体征统计支持生命体征数据管理,具备报表、点状图导出功能
心电图统计支持心电图数据管理,具备报表、点状图导出功能
报表生成支持根据机构需要定制不同检查项的自定义数据报表
报表维护支持报表管理,具备报表维护、新增、编辑、导入、导出、删除等操作。
操作申请支持操作申请管理,具备审批、查看详情等操作。支持根据模块名、时间段、申请人、是否审批等查询功能。
登录日志支持登录日志管理,具备查看用户登录账号、登录方式、登录时间、登录IP、描述等。根据时间、登录账号登查询功能。
试验痕迹支持试验痕迹管理,具备试验轨迹功能,可以查看试验痕迹、详情、补充操作原因、打印等操作。支持根据模块名、时间段、操作者、操作类别、受试者等查询功能。
系统痕迹支持系统痕迹管理,具备查看系统痕迹时间,支持根据日期查询功能。
  • Username: operator1 (or any operator1-6)
  • Password: 123456

实验室样本管理系统

医疗信息化

Ø专注于医疗信息科技、电子科技和智能化领域技术开发

Ø引入国外先进的临床数据采集管理系统

Ø积极开发适合中国国情的医疗信息化产品

Ø覆盖从专病数据库到全人群健康数据队列研究平台

Ø融合医疗机构和社区的患者信息,并在此基础上探索拓展新型的医疗服务模式