解决的难点问题
针对数据库数据资源,建立统一的数据标准和规范,对数据的格式、单位、精度等进行统一规定,提高了数据的可比性和可用性,为后续的数据分析和应用提供便利。针对典型工业过程重点生产单元“减污降碳”需求,开发出生产单元建模工具,工具多种经典机器学习算法用于模型开发,同时支持用户上传算法;采用多种模型评估指标进行训练模型评估,以帮助用户选择最佳模型;支持迁移学习,方便用户在现有工作模型基础上进一步训练模型,提升模型开发效率和质量
基本原理
依托Fairman系列科学数据软件,根据化学数据的特点建立了以化合物结构为基础的化合物目录系统,开展本领域数据资源归档保存;通过设立化学数据来源标识号,方便数据问题的回溯与追踪保证数据质量。针对领域工业生产单元机理模型很难描述实际工业生产问题且求解困难的难题,利用数据驱动方法具有处理复杂问题的优势,开发领域大数据分析建模工具。利用软件开发了典型工业废水处理单元模型,如萃取、蒸氨、生化等,构建模型库,并用于废水处理过程的集成优化研究;基于化学主题数据库,利用RDKit化学信息学的开源工具包,设计开发含分子结构文件格式批量转换和批量获取化合物基本信息功能的软件工具。
技术描述(创新点及优势)
本数据库构建技术创新在于在化学化工基础数据建设和研究的基础上,结合我国重点工业生产流程及生产单元现状,突出工业全过程污染控制强化应用驱动的专题特色数据资源建设及相关数据分析挖掘研究,提升化学化工数据库的数据规模、数据质量和数据应用水平,如利用软件开发了典型工业废水处理单元模型,如萃取、蒸氨、生化等,构建了模型库,并用于废水处理过程的集成优化研究。从而可以更好地服务于科研和生产。
技术推广应用情况
数据库提供在线数据开放共享—检索、浏览、下载。除部分面向专题应用,具有较大潜在经济价值的专题数据库尚未在线服务外,数据资源均通过数据库门户对外提供免费的数据共享服务,其中部分数据访问要用户注册后免费访问。目前开放共享数据量占总数据量98%以上,数据服务方式以在线数据查询、浏览及下载为主。目前,独立ip访问人次达到30万人次/年,累计在线资源访问量约为500万人次;共计为160余个课题/项目提供数据支撑,涉及10余个国家重点研发计划/重大科技专项等国家级科研项目,30多项国家自然科学基金项目、中国科学院项目和省部级科研项目。