百度识别原创文章算法的具体细节
据百度工程师称,百度原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。同时LEE表示,通过实验以及真实线上数据,百度原创识别“起源”算法已经取得了一定的进展,在新闻、资
查看详情 By 六兄弟网络科技(大连)网站建设