Please wait a minute...

中国生物工程杂志

CHINA BIOTECHNOLOGY
中国生物工程杂志  2020, Vol. 40 Issue (1-2): 109-115    DOI: 10.13523/j.cb.1906028
技术与方法     
基于多源异构大数据挖掘的流感病毒防控预测预警平台构建研究 *
陈翠霞1,2,王小龙3,蒋太交4,曹宗富1,2,李天君1,2,于磊1,2,喻浴飞1,2,蔡瑞琨1,2,高华方1,2,马旭1,2,**()
1 国家卫生健康委科学技术研究所 北京 100081
2 国家人类遗传资源中心 北京 102206
3 中国科学院电子学研究所 北京 100081
4 中国科学院生物物理研究所 北京 100730
Platform Construction for the Early-Warning Forecast in Prevention and Control of Influenza Based on Multi-Source Heterogeneous Big-Data Mining
CHEN Cui-xia1,2,WANG Xiao-long3,JIANG Tai-jiao4,CAO Zong-fu1,2,LI Tian-jun1,2,YU Lei1,2,YU Yu-fei1,2,CAI Rui-kun1,2,GAO Hua-fang1,2,Ma Xu1,2,**()
1 National Research Institute for Family Planning,Beijing 100081,China
2 National Center of Human Genetic Resources,Beijing 102206,China
3 Institute of Electrics, Chinese Academy of Sciences,Beijing 100081,China
4 Institute of Biophysics,Chinese Academy of Sciences,Beijing 100730,China
 全文: PDF(894 KB)   HTML
摘要:

流感传播速度快,病原变异频繁,影响范围广,对其快速反应与防范对全球来说仍然是一个严重的挑战。医疗卫生和高通量测序技术的组合产生了非常复杂可变的海量的异质异构数据集,对其实现整合挖掘分析是个重要任务。现有逐级上报方式的流感监测体系存在分析结果滞后(1~2周)的问题,与流感病毒变异和传播速度快形成尖锐矛盾。因此,实时而全面的了解其流行动态非常必要。基于以上原因,建立统一的大数据平台,整合不同来源、不同结构的监测数据和特定算法及模型,对信息加以分析利用,并对病毒的流行、发展、变异、控制和反馈进行全生命周期的监控,通过时间、地域、环境和病毒之间的关联性等综合分析,形成一个高效安全、快速稳定,且准确及时的流感地理信息图谱预测预警系统,成为提升流感中心信息管理水平的必由之路。

关键词: 流感病毒大数据流感流行实时监测地理信息图谱预测预警    
Abstract:

The control and prevention of the influenza virus is a challenging scientific question. The difficulty lies in its wide spread, variable antigen with high mutation rate, which enable it to escape the host’s immunity. The existing system for influenza surveillance is a hierarchical reporting system. Therefore, the influenza report was lagged behind 1-2 weeks. But influenza virus has a rapid mutation and transmission speed. So it is important to understand the influenza epidemic status in a real-time. The thesis focused on establishing a unified platform for influenza surveillance through the big-data minning of multi-source and the integration of a series of specific algorithm models.It includes three projects. The first one referred to the rapid estimation of influenza virus’s full-life monitoring in epidemic status, control, feedback, mutation and variation. Another project in the thesis was to systematically map the correlation between the dimension (such as time, geography and environment) and influenza virus through comprehensive analysis. Based the two project above, can gain an in-depth and comprehensive view of influenza forecasting warning system with characteristics of a safety, speediness, stability, accuration and real-time in mainland China.Systematic work has highlighted the challenge in its prevention and control, speaking to the necessity of extensive global influenza surveillance and local planning of the influenza.

Key words: Big-data of influenza virus    Influenza epidemic    Real-time surveillance    Geographic information map    Forecasting warning system
收稿日期: 2019-06-21 出版日期: 2020-03-27
ZTFLH:  Q813  
基金资助: * 中央公益性科研机构基础研究基金(2018GJM06)
通讯作者: 马旭     E-mail: 83555041@qq.com
服务  
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章  
陈翠霞
王小龙
蒋太交
曹宗富
李天君
于磊
喻浴飞
蔡瑞琨
高华方
马旭

引用本文:

陈翠霞,王小龙,蒋太交,曹宗富,李天君,于磊,喻浴飞,蔡瑞琨,高华方,马旭. 基于多源异构大数据挖掘的流感病毒防控预测预警平台构建研究 *[J]. 中国生物工程杂志, 2020, 40(1-2): 109-115.

CHEN Cui-xia,WANG Xiao-long,JIANG Tai-jiao,CAO Zong-fu,LI Tian-jun,YU Lei,YU Yu-fei,CAI Rui-kun,GAO Hua-fang,Ma Xu. Platform Construction for the Early-Warning Forecast in Prevention and Control of Influenza Based on Multi-Source Heterogeneous Big-Data Mining. China Biotechnology, 2020, 40(1-2): 109-115.

链接本文:

https://manu60.magtech.com.cn/biotech/CN/10.13523/j.cb.1906028        https://manu60.magtech.com.cn/biotech/CN/Y2020/V40/I1-2/109

ID 基础数据表 存储内容 主题模型视图
1 暴发疫情信息表 存储暴发疫情模块的相关信息,如编号、事件名称、地理编码、机构编码、地址、型别、起数、时间编码、周次、用户ID等 暴发疫情主题模型
2 流病学信息表 存储ILI模块的样本信息,如地理编码、机构编码、送检单位、地理位置、时间编码、周、型别、哨点医院、诊室、年龄、批次、用户ID等 流病学监测主题模型
3 病原学信息表 存储病原学模块样本信息,如样本ID、患者姓名、送检医院、地理编码、机构编码、型别、时间编码、检测结果(分离、核酸鉴定、复核结果)周次、用户ID等 病原学监测主题模型
4 禽流感环境信息表 该表用于存储禽流感环境样本基本信息,如时间编码、地理位置、地理编码、机构编码、起数、型别、检测结果、周次、用户ID等 禽流感环境监测主题模型
5 禽流感血清信息表 该表主要用于存储禽流感血清样本信息,如地理编码、机构编码、时间编码,送检单位、检测结果、周次、用户ID等 禽流感血清监测主题模型
表1  流感基础数据库表关联元数据库表后构建主题模型视图表
ID 中文名 描述
1 模块信息表 存储模块相关信息,如模块ID、模块名称、业务名称等
2 子模块信息表 存储一个模块下对应的子模块的相关信息,如子模块ID、子模块名称、子模块参数请求类型、获取数据时与sqlmap的映射ID、数据处理规则ID、返回数据类型等
3 图表模板信息表 存储图表的模板,每个图表都对应有相应的模板,当数据返回时会对模板进行替换,形成相应的需要的数据,存储的信息包括模块ID、模板、规则信息等
4 数据库缓存信息表 为了提高用户响应速度,存储用户对应条件请求下的数据库相应数据,存储的信息如模块ID、请求参数、请求返回的数据、最终模板替换后的数据等
5 规则映射表 为了配合规则引擎而设计的表,在对业务进行处理时,加入了相应的规则,在对业务进行处理时会根据相应的规则对业务进行相应的规则处理,该表就是用于存储规则替换的相关信息
表2  业务图表数据库说明表
图1  实验室信息系统主页面
图2  流感流行分析系统自动生成的流感周报图表
图3  指定年份周次内流感病毒分型统计表
系统模块 指标体系 地图指征 表征信息阐述 图例
暴发疫情 指定时间段暴发疫情起数 散点数量
色差梯度
疫情活动强度,打点越多或者颜色越深,表示暴发起数越多,打点位置是暴发疫情地点,精确到乡镇
病原学
监测
毒株分型比 饼图 监测指定时间段各地区主导流行毒株(占比最大的型别)及各型别占比
流病学
监测
就诊总数、流感疑似病例ILI绝对数、ILI百分比 热度色差
梯度
监测指定时间段各地区流感样疑似病例分布情况,鼠标移入或点击地图上的具体地理位置,有详细数据展示(就诊总数、ILI绝对数、ILI%)。颜色越红,流感疑似病例数ILI数量越多
禽流感环
境样本和
血清样本
监测
毒株分型比 饼图
色差梯度
类似于流感病毒病原学监测地理图谱,目前禽流感环境样本及职业暴露人群血清样本检测出的型别主要是H5、H7、H9。颜色越深,表示数量越多
表3  地理信息图谱系统展示的模块内容
[1] 杨宏钧 . 2019年启航献礼. 中国生物工程杂志, 2019,39(2):1-2.
Yang H J . Departure gift of 2019. China Biotechnology, 2019,39(2):1-2.
[2] 武奥申, 刘小娜, 刘昀赫 , 等. 二代基因测序数据管理和大数据平台在精准医学中的应用. 中国生物工程杂志, 2019,39(2):101-111.
Wu S A, Liu X N, Liu Y H , et al. Application of second generation gene sequencing data management and big data platform in precision medicine. China Biotechnology, 2019,39(2):101-111.
[3] 董银峰, 刘忠于, 王好锋 , 等. 大数据在疾病预防控制中的重要性. 实用医药杂志, 2015,32(7):579-581.
Dong Y F, Liu Z Y, Wang H F , et al. Importance of big data in the disease prevention and control. Prac J Med &Pharm, 2015,32(7):579-581.
[4] 杜鹏程, 于伟文, 陈禹保 , 等. 利用系统进化树对H7N9大数据预测传播模型的评估. 中国生物工程杂志, 2014,34(11):18-23.
Du P C, Yu W W, Chen Y B , et al. Evaluation of spread-prediction model based on big-data of H7N9 using phylogenetic tree. China Biotechnology, 2014,34(11):18-23.
[5] 李秀婷, 刘凡, 董纪昌 , 等. 基于互联网搜索数据的中国流感监测. 系统工程理论与实践, 2013,33(12):3028-3034.
Li X T, Liu F, Dong J C , et al. Detecting China influenza using search engine data. System Engineering-Theary & Practice, 2013,33(12):3028-3034.
[6] Anychart Company. Anychart.[2020-1-6]. http://www.anychart.com/.
[7] Easyui Team. EasyUI.[2020-1-6]. http://www.jeasyui.com/.
[8] The Apache Software Foundation(ASF). Echarts.[2020-1-6]. https://www.echartsjs.com/zh/index.html.
[9] 杜传明 . 百度地图API在小型地理信息系统中的应用. 测绘与空间地理信息, 2011,34(2):152.
Du C M . Application of BaiDu map API in small geographic information system. Geomatics & Spatial Information Technology, 2011,34(2):152-156.
[10] Baidu Company. BaiDu map Javascript API.[2020-1-6]. http://developer.baidu.com/map/.
[11] 贾俊平, 何晓群, 金勇 . 统计学. 第4版. 北京: 中国人民大学出版社, 2009: 89-90.
Jia J P, He X Q, Jin Y. Statistics.4th ed. Beijing: China Renmin University Press, 2009: 89-90.
[12] 郑元达 . 十一篇血清学实验论著中GMT统计方法质疑. 中国卫生统计, 1997,14(2):58-59.
Zheng Y D . The question on the statistical method of GMT value in eleven serological experimental works. Chinese Journal of Health Statistics, 1997,14(2):56-57.
[1] 邵惠训. 人类最大的瘟疫——流感[J]. 中国生物工程杂志, 2000, 20(2): 72-75.
[2] 傅仲华, 吕年青. 生物制药中的灌注层析技术[J]. 中国生物工程杂志, 1997, 17(4): 55-63.