时间:2023-01-19 | 标签: | 作者:Q8 | 来源:网络
小提示:您能找到这篇{医学数据科研——数据自定义导出}绝对不是偶然,我们能帮您找到潜在客户,解决您的困扰。如果您对本页介绍的医学数据科研——数据自定义导出内容感兴趣,有相关需求意向欢迎拨打我们的服务热线,或留言咨询,我们将第一时间联系您! |
一、背景医学科研是医学进步的动力。通过科学的方法对医学数据进行整理分析,进而得出医学中的诊疗规律,并应用于相同病症的患者,进而提高患者的治愈率。 患者的诊疗数据存储于医院的信息系统中。由于医院信息系统并未提供医学科研相关的分析工具,所以需要使用专业的分析软件对数据进行统计分析。 首先,通过搜索功能找到符合要求的患者记录。然后,设法将科研相关的字段导出。 如果人工将数据导出,那么操作过程将会变成如下过程:从患者列表逐个进入患者详情,从患者详情中找到目标数据。 如果科研的数据涉及到多种业务,那么在同一条患者记录内部,就需要跨多张表单查找目标数据。并手动复制粘贴到系统外的Excel表格中。 整个数据导出过程中涉及多次打开系统、关闭系统,打开表单、关闭表单,在表单内查找目标字段,耗费了大量的时间成本,还存在数据粘贴在错误位置的可能。 如何能够快速将目标字段整理出来?就是我们今天讨论的主题——数据自定义导出。 二、数据自定义导出数据自定义导出,指的是从变量池中根据需求选中符合要求的目标变量,以某种格式的文件一次性从系统中全部导出。 例如,系统提供600 个变量可用于数据导出。在做胃部分切除术相关的研究时,从中选择了30个字段导出为CSV文件。 其中, “600 个变量”就是“变量池”,指的是系统中允许被导出的所有字段。
首先,将不同业务内、不同表单内的导出频率高的字段组合在一起形成变量池。省去查找目标字段时的,表单切换和表单阅读的时间。 然后,将在数据导出时,对数据格式进行处理,使其满足目标软件的要求,然后将导出后的数据直接导入到目标软件中。缩短了数据格式进一步加工的时间。 通过这两步,大大提高数据导出的效率。 1. 变量池医疗业务复杂,一个人无法处理所有的业务,所以需要将业务拆分成不同的部分,由不同的专业人员负责不同的业务范围,只有这样才能让系统正常运行。 例如,张技师和王技师分别负责实验室检验部分和影像检查部分的业务。如果张技师去负责影像检查部分的业务,由于对影像业务的完全不熟悉,该段时间内的影像检查部分的业务将停滞。与之相关的业务都将收到影响。 医院信息系统中与患者诊疗相关的系统包括门急诊电子病历系统、住院电子病历系统、实验室检验系统、影像学检查系统、手术麻醉系统等系统。 住院电子病历系统中包括住院医生工作站、住院护士工作站、病案管理工作站等,存储了患者的长临医嘱、用药信息、日常病程记录、既往病史、家族史等信息。 不同的模块、不同的表单存放不同的患者信息。查找需要导出的字段时,需要翻阅不同的系统,在系统内部切换不同的表单,在表单中找到需要导出的字段。整个过程耗费大量时间,严重影响字段查找效率。 例如,导出患者胃部分切除术手术及手术前后的相关信息,则需要前往手麻系统、电子病历系统、检查系统、检验系统等。在某个子系统中,仍然需要找到患者,并且进入患者详情找到对应表单内容。整个过程耗费大量时间。 有没有一种可能将可能用于导出的字段放在一起,不需要切换系统、表单逐个查找。 变量池就是将不同业务系统、不同表单中可能会用于导出的字段名称放在一起。 变量池具备字段数量多、字段多值性的特点。 1)字段数量多 字段数量多,指的是可以用于导出的字段数量比较大。 出现这种情况的原因是,不同科室在做数据分析时关注的重点不同,需要导出的字段不完全一致。为了满足这么多的导出需求,就需要把可能涉及到的字段全部放在变量池中。 一个分析方向可能会导出二三十个变量,需要支持几十个可能的分析方向。对字段进行去重以后,变量池内的字段数量同样也会达到几百个。 变量池内字段较多时,通过人眼从中找到某一个字段,耗时较长。 可以按照字段所属业务系统、所在业务表单对字段进行分组。直接选中目标字段所在表单,缩小字段查找范围,提高字段查找效率。 也可以通过搜索功能,通过输入目标变量的字段名,直接定位到目标变量所在位置,提高字段查找的效率。 例如,为了支持肝脏介入科的数据分析工作,将可能用到的字段进行整理,共计整理出 300 个字段(下图字段仅做示例)。 将字段按照所在表单进行划分人口学、现病史、检验、手术,可以通过点击左侧的表单列表,将字段的范围缩小到几十个变量。也可以在搜索框内输入字段名,直接定位到该字段的位置。 2)字段的多值性 字段的多值性,指的是同一个患者的同一个字段会有多个结果。 例如,张三的血常规中的白细胞计数字段有 11 个结果。 产生字段多值的原因是,患者症状在变化。为了让记录不断变化的病情,需要做多次检验检查,并据此调整治疗方案,最终产生了多个值。 例如,患者张三随着放疗的进行,身体状况在不断变化。通过检验检查等手段来测量身体的各项指标。放疗 2 个月,共做了 7 次检验。使得检验部分的字段产生了 多次结果。 而研究时往往关注患者在某个状态下的指标情况,即从众多结果中找到某一个特定的结果。 例如,研究胃部分切除术的情况时,需要了解术后第一次白细胞计数的结果。此时就需要精准的找到患者的该次白细胞计数的值。 所以就需要给具有多值性的字段增加一个限定条件。 常见的限定条件有:
上述说的限定条件都有一个默认前提,“在所有的时间范围内”,即在患者的整个就医时间范围内,但是实际研究中,我们可能需要的是患者在某个特定时间内某个状态的结果。 例如,需要患者在“最近一次胃部分切除术后的第一次白细胞计数结果”。其中,特定时间值得是“最近一次胃部分切除术后的所有时间”。 此时需要先找到该患者的最近一次,胃部分切除术的时间点,最后以该时间为基准时间点。然后去所有的血常规检查中查找白细胞计数。根据血常规的检查时间,定位到具体的某一次结果。 这种限定类型称之为“事件-时间”型,即先通过某一个具体的事件,以该事件发生的时间点作为基准,在该基准前 / 后某段时间范围内,目标字段的特定值。常见的事件有“放疗、化疗、手术、用药、临床诊断、病理诊断等”。 2. 特定的数据格式科研的需求一直存在,为了满足科研需求,专业统计分析软件应运而生,并逐步发展。常用的软件有spss、SAS、R等。其中SPSS从1984年开始发展,到2009年已经将数据管理、数据分析做到非常完善的地步。 而2009年,中国首次将医疗卫生信息化定性为支撑改革的支柱,在国家级层面提出发展信息化的要求。此后医院信息化软件迅速发展,前期以业务信息化为主。2014年才开始重点转移到健康数据上。 如果此时医院信息系统再集成或者开发统计分析软件,需要投入大量的金钱和精力,而且蛋白粉贸易医生的接受度如何都是未知数。医院自行开发或采购的意义都变得不大。 造成了现在的情况,医院现有的软件系统中医学统计分析部分缺失,统计分析工作需要在专业统计分析软件中完成的。所以当医生想要做医学统计分析时,就需要将数据从在医院信息系统中导出。 数据导出后,需要手动对数据格式处理,才可以满足目标软件的需要,浪费医生的时间。 怎么才能让数据导出后,不需要额外的数据处理,直接被目标软件所使用,从而减少医生时间的浪费。 在数据导出时,由系统完成数据格式处理的工作,数据被导出后可以直接导入分析软件,从而节约数据处理的时间。 在数据导出时,根据目标软件的需要,生成特定数据格式的文件。数据文件被导出后可以直接导入分析软件,从而节约数据处理的时间。 特定的数据格式,指的是医疗信息系统往统计分析软件传输数据时,按照统计分析软件对数据格式的要求生成数据。 以将数据导入spss分析为例。 spss对开通条件抖音代运营机构功导入数据有以下要求:
如果导入的数据不符合要求,则数据导入失败,需要手动对数据进行调整,然后再重新导入。 为了保证数据能够直接导入spss中。导出的数据需要满足:
系统将处理好格式的数据,以Excel文件的形式传递给前端页面。用户将文件下载下来以后,直接导入spss做分析工作。 三、总结由于医疗信息化和专业统计软件的发展速度不均衡,造成了医院信息系统与统计分析软件互不相通。所以医学数据统计分析时,需要先数据导出,再导入分析软件。 2014年,中国提出“46312”计划,开展“健康中国云服务计划”,国内的医疗大数据产品迅速崛起。临床大数据公司纷纷成立,医院开始建设临床数据中心。医院信息化从业务信息化发展到临床数据精细化。 各大数据平台不仅开始增加传统的统计分析工具,也增加了基于深度学习、机器学习的的新的分析方法。这使得我们可以在大数据平台中完成统计分析工作。不过易用性、使用习惯仍需要不断打磨。 相信不远的将来,再做医学数据统计分析时,可以在院内大数据平台中,无缝完成数据分析工作,不再需要将数据导出。 PS:与之前完成的刚好组成一体,通过高级检索搜索到目标患者,然后将需要的字段导出。
本文由 @山南 于,, 题图来自 Pexels,基于 CC0 协议 |
上一篇:威尔逊得分:样本量过少,如何科学衡量喜好程
下一篇:互联网 VS 传统行业,数据分析有何异同
小提示:您应该对本页介绍的“医学数据科研——数据自定义导出”相关内容感兴趣,若您有相关需求欢迎拨打我们的服务热线或留言咨询,我们尽快与您联系沟通医学数据科研——数据自定义导出的相关事宜。
关键词:2年, 初级, 数据导出,