上亿条url数据去重方案,用户点击url数据集

数据分析方法 2023-12-10 20:32 909 墨鱼

数据分析方法

上亿条url数据去重方案,用户点击url数据集

使用bloomfilter实现亿级别爬虫url链接去重对比这边的爬虫系统又出现了一些个瓶颈。由于网络间的链接错综复杂，蜘蛛在网络间爬行很可能会形成“环”。为了避免形成“环”，就需要知URL 去重的方案，其中Redis Set、Redis 布隆过滤器、数据库和唯一索引这4 种解决方案适用于分布式系统，如果是海量的分布式系统，建议使用Redis 布隆过滤器来实

ˇ△ˇ 一、url去重url存到数据库所有url放到set中(一亿条占用9G内存) md5之后放到set中(一亿条占用2,3G的内存)scrapy采用的就是类似方法bitmap方法(url经过hash后1L左移index位，定位到了bit在long中的位置。下一步以上就是URL去重的一点思路，希望对大家有帮助。喜欢的话点击一下关注和喜欢，下期打算为大家介绍下字符编解码，以及乱码的完美解决方案。再见！

ˋ＾ˊ 为了尽快把整个爬⾍搭建起来，最开始的URL去重采⽤⽅案是⼀个内存中的HashSet，这是最直观的⽅法，所有⼈都能想得到。HashSet中放置的就是URL的字符串，任何⼀个新的URL⾸先添加一个URL和查询一个URL 还要求这两个操作执行效率尽可能高处理上亿网页链接，内存消耗大，存储效率要尽可能高效。散列表、红黑树、跳表这些动态数据结构，都

比如要把我的csdn url "https://blog.csdn.net/songmulin"放到Bitmap中，就需要找到第https://blog.csdn.net/songmulin这个位置，然后把他设置成1就可以了。这样，把60亿个URL都放到Bitmap之后，所有url,需要支持的操作有两个，添加一个url和查询一个url.除了这两个功能性的要求之外，在非功能性方面，我们还要求这两个操作的执行效率要尽可能高.除此之外，因为我们处理的是上

后台-插件-广告管理-内容页尾部广告（手机）

标签：用户点击url数据集