• 首页 | 期刊简介 | 征订信息 | 投稿指南 | 编委会  | English
数字图书馆Web 学术资源信息的分块采集研究
投稿时间:2012-07-29    点此下载全文
引用本文:王兰成 朱建华.数字图书馆Web 学术资源信息的分块采集研究[J].中国科技资源导刊,2012,(6):76~80
摘要点击次数: 1594
全文下载次数: 2066
作者单位
王兰成 朱建华 南京政治学院上海校区军事信息管理系上海 200433 
中文摘要:在数字图书馆Web 学术信息资源的优化采集中,有效结合网页空间特征、内容特征和标签信息对网页进 行分块,研究对分块结果进行识别和合并,然后输出网页的主题文本和相关链接块集合,最后通过实验分析该方法能 够进一步去除页面中噪音、准确地分析页面的主题相关性和提高Web 主题信息采集的质量。
中文关键词:数字图书馆  Web 学术资源  自动采集  信息系统
 
Research of Page Segmentation for Digital Library Based on Web Academic Resource Crawling
Abstract:Web academic resource crawling on digital library is an important research area. The effective integration of web space characteristics, content characteristics and label information on the web pages block are researched. The identification and the merger of results on Page Segmentation are studied. The subject of the final text page and related links block collection are output. It is fact that more accurate analysis of the topic pages and improve the quality of Web information collection subject.
keywords:digital library, web academic resource, automation crawling, information system
查看全文  查看/发表评论  下载PDF阅读器

版权所有:  您是本站第 4013935 位访问者
主管单位:国家科技部 主办单位:中国科学技术信息研究所 地址:北京市西城区三里河路54号272
技术支持:北京勤云科技发展有限公司 京ICP备10027328