爬取数据是什么意思
爬取数据的意思就是通过程序来获取需要的网站上的内容信息,比如文字、视频、图片等数据。网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
0
纠错
猜你喜欢
孤独的小螃蟹告诉了我们什么
告诉我们朋友之间不应该为了一些小事生气,应该相互理解,相互帮...奇点偶点是什么意思
由一点引出的线段为奇数个,则这个点为奇点。由一点引出的线段为...中国的战略联盟国有哪些
中国的战略联盟国目前唯一有法律明文规定的带有军事同盟性质的国...10斤鹅蛋的腌制方法
在家中腌鹅蛋时,还可以准备适量的新鲜鹅蛋或食用盐,以及一定数...林则徐为什么销烟
林则徐销烟的原因清朝统治受到威胁。本国经济被英国压迫到了崩溃...知人知明是什么意思
知人之明的意思是能看出人的品行才能的眼力。出自后汉书吴佑传功...初二转学的学籍怎么转
初二转学籍手续家长联系好校方转入学校后,向就读学校提出申请,...国合局是什么
国合网是中国国际合作交易网的简称,它是工业和信息化部中小企业...定点投篮技巧大全
投篮分跳投和踮投跳投的时候高高跳起并同时举起球跳到最高点的时...独立寒秋什么意思
独立寒秋意为独自一人在寒秋中站着。独立寒秋来源于我国伟大的革...松仁玉米的家常做法
准备的材料玉米豌豆松仁盐白糖淀粉姜末新鲜玉米从棒子上掰下来后...本开头的成语
本末倒置本树根。末树梢。置放。比喻把主次轻重的位置弄颠倒了本...2022京东618组队瓜分19亿红包一队最多多少人
京东优惠玩法多多,其中组队瓜分亿现金红包也吸引无数消费者参与...夏季生活小贴士
天气转热,皮肤裸露在外导致许多皮肤问题,可提前买一点这方面的...贵州草海和泸沽湖哪个更值得去
贵州草海位于贵州省西部威宁县县城西南面,面积平方公里其中水域...