2021新太科技股份11月招聘面试题

爬虫的源代码通过公开不会对被爬虫网站造成影响()

此题为判断题(对,错)。


正确答案:错


已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行()

此题为判断题(对,错)。


参考答案:错


()的爬虫针对的是网页上的数据,所抓取的数据一般要符合一定的模式,或者可以转化或映射为目标数据模式。

A、基于目标网页特征

B、基于领域概念

C、基于目标数据模式

D、深层网络爬虫


参考答案:C


如果要采集指定的数据,则需要使用到(),又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。

A、增量式网络爬虫

B、聚焦网络爬虫

C、DeepWeb爬虫

D、全网爬虫


参考答案:B


(),又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。

A、聚焦网络爬虫

B、增量式网络爬虫

C、通用网络爬虫

D、深层网络爬虫


参考答案:A


遇到反爬机制怎么处理?

可用的回答 : 反爬机制: headers方向 判断User-Agent、判断Referer、判断Cookie。 将浏览器的headers信息全部添加进去 注意:Accept-Encoding;gzip,deflate需要注释掉

 

什么是PEP 8?

可用的回答 :PEP 8是一个编码约定,关于如何编写Python代码更具可读性。

 

什么是Python?使用Python有什么好处?

可用的回答 :Python是一种编程语言,包含对象,模块,线程,异常和自动内存管理。Python的好处在于它简单易用,可移植,可扩展,内置数据结构,并且它是一个开源的。问题

 

如何将数字转换为字符串?

可用的回答 :

要将数字转换为字符串,请使用内置函数str()。

如果需要八进制或十六进制表示,请使用内置函数oct()或hex()

 

写爬虫使用多进程好,还是用多线程好?

可用的回答 : IO密集型代码(文件处理、网络爬虫等), 多线程能够有效提升效率(单线程下有IO操作会进行IO等待,造成不必要的时间浪费,而开启多线程能在线程A等待时,自动切换到线程B,可以不浪费CPU的资源,从而能提升程序执行效率)。 在实际的数据采集过程中,既考虑网速和响应的问题,也需要考虑自身机器的硬件情况,来设置多进程或多线程


()又称全网爬虫,爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。

A、聚焦网络爬虫

B、增量式网络爬虫

C、通用网络爬虫

D、深层网络爬虫


参考答案:C


关于beego框架,下面说法正确的是()

A. beego是一个golang实现的轻量级HTTP框架

B. beego可以通过注释路由、正则路由等多种方式完成url路由注入

C. 可以使用bee new工具生成空工程,然后使用bee run命令自动热编译

D. beego框架只提供了对url路由的处理, 而对于MVC架构中的数据库部分未提供框架支持


参考答案:ABC


爬虫中间件的激活需要另外写一个文件来进行。()

此题为判断题(对,错)。


参考答案:错误


MapReduce与传统并行计算框架的对比中,说法正确的是()。

A.MapReduce属于共享式集群架构,容错性好

B.传统并行计算框架比MapReduce硬件更加便宜

C.传统并行计算框架适用于实时、细粒度计算

D.MapReduce适用于数据密集型,传统并行计算框架适用于计算密集型


标准答案:CD


优点是扩展性好,灵活性好,大量写操作时性能高的数据库是()。

A.列族数据库

B.键值数据库

C.图数据库

D.文档数据库


正确答案:B


相关考题:

考题 VB代码的问题?! 怎么写能让多核CPU满载,也就是申请CPU多线程(不是任务多线程) 首先你要知道cup多核与主频之间的关系,多核不是指运行速度的关键,是多任务时分配工作,使任务合理分配使得提升运算能力,主频是CPU运算能力的参数,多核就相当于多个人工作,主频就是这些人的工作能力有多强,主频高的多核CPU那就是非常高端的了,现在4核已经很普遍了,还有六核的,CPU多线程好像听说过,是英特尔酷督I7的四核8线程CPU,那是CPU出厂固有的参数,改不了。

考题 单选题选择性地爬行预先定义好的与主题相关的页面,是()。A通用网络爬虫B聚焦网络爬虫C增量式网络爬虫D反向网络爬虫正确答案: A解析: 暂无解析

考题 怎样写一个c/c++的框架? 做一个框架,此框架程序需支持xml文件和ini记事本文件读取和解释功能。 用Windows API编程, 先把Window.h包含进去,开始定义窗口函数并实现消息的映射,再 定义WinMain程序入口函数,在里面 先填充一个窗口类, 根据其指针注册窗口类,随后就是创建窗口,最后显示窗口,下面通过getMessage来捕获消息传给系统, 系统会调整窗口函数来辨别消息类型进行不同的处理。 您好!框架我的理解就是用一套类库搭建出程序的方式。比较有名的当然就是mfc,是微软的。还有boland的vcl,不过好像已经卖给别的公司了。还有trolltech公司的qt,这个支持跨平台。有了基础还需要一个RAD(Rapid Application Development),比如vc,delphi。既然是要显示图形界面 那得用到Windows API编程了 首先要把Window.h包含进去 开始定义窗口函数并实现消息的映射 接下来 定义WinMain程序入口函数 在里面 先填充一个窗口类 根据其指针注册窗口类 随后就是创建窗口 最后显示窗口 下面通过getMessage来捕获消息传给系统 系统会调整窗口函数来辨别消息类型进行不同的处理

考题 假定某处理器可通过软件对高速缓存设置不同的写策略,那么,处理器主要运行包含大量存储器写操作的数据访问密集型应用应设置成什么写策略?为什么?正确答案: 采用write back策略较好,可减少访存次数。

考题 关于同步镜像的描述正确的是?()A、同步镜像方式生产端和灾备端的数据实时同步B、同步镜像方式不受距离限制C、同步镜像方式受距离限制D、同步镜像方式下生产端存储在收到服务器的写IO后要等待灾备端存储完成IO写操作才返回IO写成功信号给服务器正确答案:A,C,D

考题 单选题下列哪些选项属于框架布局的优点()。A支持滚动条,方便导航,节省页面下载时间B方便排列有规律、结构均匀的内容或数据C兼容性好,保存时方便D代码精简、表现和内容相分离正确答案: B解析: 暂无解析

考题 关于框架的描述不正确的是( )。A.利用框架可以把浏览器的显示空间分割为几个部分,每个部分都独立显示网页内容B.选择“文件”→“新建”菜单,在弹出的“新建文档”对话框中,选择“框架集”类别,从“框架集”列表选择合适的框架集,然后单击“创建”按钮,即可创建一个基于该框架类型的网页C.在进行框架页面保存时,需要将每个框架中所用到的页面都保存下来后,这个框架页面才能真正保存下来,也才能真正正常显示D.定义好的框架就不能再进行拆分 正确答案:D

考题 下列哪些选项属于框架布局的优点()。A、支持滚动条,方便导航,节省页面下载时间B、方便排列有规律、结构均匀的内容或数据C、兼容性好,保存时方便D、代码精简、表现和内容相分离正确答案:A

考题 下列不属于GFS的假设和目标的是()A、硬件出错正常B、主要负载是流数据读写C、数据写主要是“插入写”D、需要存储大尺寸的文件正确答案:C

考题 判断题jQuery是一个优秀的Javascript框架。其宗旨是——WRITELESS,DOMORE,写更少的代码,做更多的事情。()A对B错正确答案: 错解析: 暂无解析