注册 | 登录 忘记密码? 51cto首页 | 博客 | 论坛 | 招聘
热点文章 WEB3.0来了,能知道100米..
 帮助

POWER数据质量检查系统


2007-01-26 23:32:38
 标签:   [推送到技术圈]

数据质量检查系统

是用来对应用系统中的数据质量进行完整性检查的产品。尤其在数据仓库的建设中,转换或者前移过来的数据质量是影响其上应用系统正常运行的一个关键因素。本系统可以进行的检查包括:数据格式检查、数据长度检查、区间范围检查、空值、默认值检查、完整性检查、 一致性检查等等。产品一个非常重要的特点是支持对多种不同类型数据库的同时连接。比如:检查的目标是DB2,但是在进行数据检查时,需要读取Oracle和SQL server数据库中的相关内容来确立检查规则。另外,也可以利用Inspector 来做数据迁移工作,进行边检查边迁移,把符合规则的数据迁移到目标数据库中,而把不符合规则的数据通过文档的方式检取出来,等待下一步处理。

 

   产品背景:

    随着IT应用的不断深入,应用程序的升级、更换越来越频繁,尤其是BI在企业中的应用不断普及,对旧系统数据和不同应用系统数据的处理需求越来越多,以至于对数据库中数据的转换和处理逐渐成为新信息系统建立的关键。
    在这些数据处理中,处理完数据的质量如何直接影响着新系统的正常运行。特别是数据仓库的建立,其数据内容都是从其他应用系统或者历史数据中转换而来,而这些数据是否完整、是否符合规则都直接决定着基于数据仓库上的应用系统能否上线及上线后的稳定性。比如:
    证券公司在建立数据仓库的过程中,完成了从旧系统到数据仓库的数据转换工作,但是在1995年左右建立起来的交易系统中,对业务员输入数据的系统校验做的不是很完全(由于不影响交易的进行,所以在业务员输入数据时旧系统对有些字段没有进行合法性检查),例如:客户的开户日期输入为字符“2995-01-01”。但是,转换到数据仓库内的字段有可能变成29950101,这完全违反了业务规则。如果从成百上千万条记录中寻找这样的非法数据,采用手工或者现编程的方式来进行检查,其工作量和复杂程度可想而知,有时根本不可能完成。
    所以,在进行数据处理过程中或者转换完成后,对转换完的数据进行一次彻底的、完整的质量检查非常必要,这些检查包括:

  • 数据格式检查:检查数据的格式是否一致和可用。如:目标数据要求为int型。
  • 数据长度检查:检查数据的有效长度是否符合规则。如:对于char类型的字段转换到varchar类型中,需要特别关注。
  • 区间范围检查:检查数据是否包含在定义的区间内。如:年龄为300,或录入日期为4000-1-1。
  • 空值、默认值检查:检查新旧系统定义的空值、默认值是否相同。如:不同数据库系统对空值的定义可能不同,需要特别关注。
  • 完整性检查:检查数据的关联完整性。如:记录引用的代码值是否存在,特别需要注意的是有些系统在使用一段时间后,为了提高效率而去掉了外键约束。
  •  一致性检查:检查逻辑上是否存在违反一致性的数据,特别是存在分别提交操作的系统等等。

  POWER Inspector 正是适应这方面应用而产生的系统。通过POWER Inspector,操作人员只需要联接需要进行质量检查数据库和相关数据库,通过专用的用户界面设定检查规则,然后调用数据检查核心组件,POWER Inspector 就会按照设定的规则自动进行相应的数据检查操作,检查的结果会根据操作员的要求以文档或者载入数据库的方式展现出来。
  POWER Inspector 一个非常重要的特点是支持对多种不同类型数据库的同时连接。比如:检查的目标是DB2,但是在进行数据检查时,需要读取Oracle和SQL server数据库中的相关内容来确立检查规则,如下图所示:

    另外,也可以利用Inspector 来做数据迁移工作,进行边检查边迁移,把符合规则的数据迁移到目标数据库中,而把不符合规则的数据通过文档的方式检取出来,等待下一步处理。

系统特点

  •  即插即用交换模块
     数据质量检查的流程通过各个功能模块的组合来实现,极大的提升了系统的灵活性
  • 图形化交换编程设计
     图形化的质量检查流程设计界面,最大限度的减少配置和维护的工作量
  • 图形化调度
     分页的图形化调度窗口,让大批量数据的处理变得直观而又直接
  • 应用级并行处理
     从数据应用层次来灵活设置并行和串行,充分的利用系统的资源为应用数据交换服务
  • 无“落地”数据处理
    数据质量检查的过程在内存中进行,极大的提高了数据交换的处理速度,同时极大的降低了对系统存储资源的要求
  • 开放的数据接口
     标准的XML文件作为信息控制和交换的接口,具有良好的移植性和互操作性

系统规格

  •  前端系统需求
      IBM PC及兼容机 
     处理器-Intel Pentium
    显示器-SVGA以上
    内存-64MB(建议128MB)
    磁盘空间-60 M
    Windows XP, Windows NT Client, Windows NT Server
  •  后端系统需求
    服务器硬件
    内存-256MB(建议512M以上)
    磁盘空间-60M(数据空间另外计算)
    AIX、HP-UX、LINUX、SOLARIS
  •  可用交换模块
    DB2 抽取模块、DB2 载入模块
    ORACLE抽取模块、ORACLE载入模块
    SQL SERVER抽取模块、SQL SERVER载入模块
    MYSQL 抽取模块、MYSQL载入模块
    分隔符文件行变化模块、分隔符文件列变化模块
    HASH文件查找模块
    数据排序模块
  •  支持数据源
    DB2 7-8  for AIX、HP-UX、Linux、Solaris、Windows
    Oracle 8i – 11i for AIX、HP-UX、Linux、Solaris、Windows
    Sybase 11.0 -12.5  for  AIX、HP-UX、Linux、Solaris、Windows
    MS SQL Server 所有版本
    MYSQL 3.32 -5.0  for  Linux、 Windows
    分隔符的文本文件
    dbf - for  Windows
    Access - for  Windows
  •  支持数据目的
    DB2 7-8  for AIX、HP-UX、Linux、Solaris、Windows
    Oracle 8i – 11i for AIX、HP-UX、Linux、Solaris、Windows
    Sybase 11.0 -12.5  for  AIX、HP-UX、Linux、Solaris、Windows
    MS SQL Server 所有版本
    MYSQL 3.32 -5.0  for  Linux、 Windows
    分隔符的文本文件
  •  图形化可编程交换设计前端系统
    支持图形的DRAG and Drop
    无组件设计数据的限制
    数据连接数据无限制
    支持动作的撤消和重做
    直连后台更新配置
  •  图形化调度设计前端系统
    无作业数量限制
    支持跨机器之间的作业调度
    支持作业组的合并和分拆
    图形化监控前端系统
  •  作业调度流程的监控
    提供明细监控和汇总监控
    定时刷新监控作业

典型应用

 

  • 总、分部的数据符合规则检查
  • 系统升级换代中数据迁移的数据质量检查
  • 数据仓库建设中的数据质量检查
  • 应用系统和备份系统之间的数据校验等




    文章评论
 
 

发表评论

昵   称:
验证码:  点击图片可刷新验证码  博客过2级,无需填写验证码
内   容: