Python用于蜘蛛爬取相关知识点与试题

当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapygenspider的第二个参数直接输入" 163.com"就可以了()

此题为判断题(对，错)。

正确答案:错

Scrapy的工程名字不能使用"scrapy",否则爬虫会无法运行。除此以外工程名不受限制。()

此题为判断题(对，错)。

正确答案:错

在Scrapy工程的settings.py文件中,哪个配置项,如果设置为True,那么Scrapy就会自动跳过网站不允许爬取的内容()

A.ROBOTSTXT_OBEY

B.ROBOTSTXT_JUDGE

C.ROBOTSTXT

D.ROBOTSTXT_IF

正确答案:A

已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行()

此题为判断题(对，错)。

参考答案：错

Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。()

此题为判断题(对，错)。

参考答案：对

简述一下爬虫的步骤？

参考答案：确定需求；确定资源；通过url获取网站的返回数据；定位数据；存储数据。

如果让你来防范网站爬虫，你应该怎么来提高爬取的难度？

参考答案： 1. 判断headers的User-Agent； 2. 检测同一个IP的访问频率； 3. 数据通过Ajax获取； 4. 爬取行为是对页面的源文件爬取，如果要爬取静态网页的html代码，可以使用jquery去模仿写html。

在Python中切片是什么？

参考答案：从序列类型（如列表，元组，字符串等）中选择一系列项目的机制称为切片。

如果让你来防范网站爬虫，你应该怎么来提高爬取的难度？

如何在Python中删除文件？

参考答案：使用命令os.remove(filename) 删除文件或 os.unlink(filename) 删除快捷方式

大数据的文件读取？

参考答案： 1. 利用生成器generator 2. 迭代器进行迭代遍历：for line in file

scrapy和requests的使用情况？

参考答案： requests 是 polling 方式的，会被网络阻塞，不适合爬取大量数据 scapy 底层是异步框架 twisted ，并发是最大优势

scrapy和scrapy-redis的区别？

参考答案： scrapy是一个爬虫通用框架，但不支持分布式，scrapy-redis是为了更方便的实现scrapy分布式爬虫，而提供了一些以redis为基础的组件为什么会选择redis数据库？因为redis支持主从同步，而且数据都是缓存在内存中，所以基于redis的分布式爬虫，对请求和数据的高频读取效率非常高什么是主从同步？在Redis中，用户可以通过执行SLAVEOF命令或者设置slaveof选项，让一个服务器去复制（replicate）另一个服务器，我们称呼被复制的服务器为主服务器（master），而对主服务器进行复制的服务器则被称为从服务器（slave），当客户端向从服务器发送SLAVEOF命令，要求从服务器复制主服务器时，从服务器首先需要执行同步操作，也即是，将从服务器的数据库状态更新至主服务器当前所处的数据库状态

使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控()中的数据,并不读取start_urls中的数据。

A、Redis

B、RedisSpider

C、Spider

D、MongoDB

参考答案：A

在Scrapy的目录下,哪个文件负责数据抓取以后的处理工作 ()

A.spiders文件夹

B.item.py

C.pipeline.py

D.settings.py

正确答案：C

按照()爬取的网页内容根据目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行,当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。

A、深度优先策略

B、广度优先策略

C、PageRank优先策略

D、随机爬行策略

参考答案：B

()的爬虫针对的是网页上的数据,所抓取的数据一般要符合一定的模式,或者可以转化或映射为目标数据模式。

A、基于目标网页特征

B、基于领域概念

C、基于目标数据模式

D、深层网络爬虫

参考答案：C

()是Hadoop的前身,是一种分布式爬虫工具,更适合集群爬取。

A、Crawler

B、Jsoup

C、Hertrix

D、Nutch

参考答案：D

51题库考试学习网

51tk.com

Python用于蜘蛛爬取相关知识点与试题

相关考题：