|
功能特点和性能参数 |
在上述系统配置条件下,有如下参数表现。 .支持多种类型信息的获取: 强大的信息获取工具不仅可以采集普通的静态和动态网页信息,而且可以采集zip、mp3、avi、rar、mov、pdf、jpg、gif等多达几十种不同类型的信息。 .信息重复下载控制: 通过对指定页面的位置、时间、内容等条件的智联化信息分析,有效防止信息的重复下载情况,提高信息的获取效率。 .完善的信息源配置: 用户可以自定义每个信息源的标示、起始地址、抓取信息地址格式、抓取信息类型、抓取区域、抓取深度、关键字、优先级、启停时间、模版等参数,同时,系统还提供完善的信息源管理功能,可方便的实现网站信息源的增、删、改、查等操作。 .支持模版下载: 通过指定模版,实现网页正文信息的精确下载,自动过滤无用的广告、栏目、版权等信息,同一信息源下还可设置多个不同的下载模板。 .支持关键字下载: 用户可以通过设置关键字获取指定的信息,关键字支持与、或、非的逻辑组合,同时,系统还提供完善的关键字管理功能。 .支持代理下载和用户认证(cookie认证方式)下载 .下载速度快: 多进程多线程多信息源同时,下载用户可以根据同时启动多个进程,每个进程都可以进行高速信息页的下载,系统可以根据网络带宽和数据流量自动调节启动的进程数。共享2M带宽即可达到,平均每小时下载240M数据,或约12万个网页。 .支持镜像下载: 系统可以将获取的信息保存在本地,不会因为源网站的故障或信息删除,而影响已获取信息的检索和应用。 .开放性: 采集到的网页信息经过各种自动标引和加工处理后统一存放为XML格式文件,方便应用的定制开发和与其它产品的集成;还可以把信息直接导出为文本文件或直接导入到SQL Server数据库表中。 .内嵌全文检索――快、准、全: 用户无须对检索内容做任何标引, 即可对全文信息进行快速检索,支持与,或,非等组合词逻辑关系检索。 |
|
|