成果名称:一种学生浏览网页分类方法
发 明 人:肖绍章;朱全银;李翔;钱凯;于柿民;潘舒新;瞿学新;唐海波;邵武杰;高阳;江丽萍
获批时间:2020/09/08
成果类型:发明授权
专 利 号:CN201710792423.5
成果简介
本发明公开了一种学生浏览网页分类方法基于N‑Gram和朴素贝叶斯分类器,具体实现步骤,先从导航类网站爬取URL描述信息,构建四分类语料库,把语料库文本表示成uni‑gram和bi‑gram的形式,以TF‑IDF作为文本特征的权重,用朴素贝叶斯分类算法构建分类器;对学生浏览记录中的URL按设定规则进行切分,通过分类器和URL类别库匹配确定URL类别,由分类器确定的URL类别,若符合设定置信度,则加入到URL类别库中。本发明方法有效的对学生浏览记录中URL分类,提高了网页的识别率和分类的准确率。
联系人:陈帅
电话:0517-83591025
联系地址:江苏省淮安市枚乘东路1号
邮编:223005
电子邮箱:11000080@hyit.edu.cn