成果名称:一种基于网页切分爬取的网络地址置信度评估方法
发 明 人:朱全银
获批时间:2022/04/12
成果类型:发明授权
专 利 号:CN201810397206.0
成果简介:
本专利公开发明了一种基于网页切分爬取的网络地址置信度评估方法,首先对已分类的网页链接进行切分,使用脚本爬取切分后的网页内容,采用卷积神经网络对网页内容进行分类,将切分后的网页分类准确率与原始网页分类准确率相减,得到网页分类差值集,再通过计算不同切分网页的权重,得到网络地址置信度算法公式,接着使用脚本爬取待分类网页链接,并计算切分的数量,将置信度大于一定阈值的网页链接放入已分类网页链接集中继续优化算法公式中的权重,最后使用网络地址置信度算法得出爬取网页的置信度。本发明方法有效的评估了在对网页进行切分爬取时,待爬取的网页与原始网页内容的信息差异,提高了网页爬取的效率。
联系人:陈帅
电话:0517-83591025
联系地址:江苏省淮安市枚乘东路1号
邮编:223003
电子邮箱:11000080@hyit.edu.cn