sokaoti.com
深圳键桥通讯技术股份有限公司3月招聘面试题81道2020313

百度拥有两种类型的大数据()。

A、用户关系数据

B、用户搜索表征的需求数据

C、基于用户关系数据产生的社交数据

D、爬虫和阿拉丁获取的公共web数据


正确答案:BD


爬虫的源代码通过公开不会对被爬虫网站造成影响()

此题为判断题(对,错)。


正确答案:错


使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控()中的数据,并不读取start_urls中的数据。

A、Redis

B、RedisSpider

C、Spider

D、MongoDB


参考答案:A


()爬行过程中最重要部分就是表单填写及处理。

A、聚焦网络爬虫

B、增量式网络爬虫

C、通用网络爬虫

D、深层网络爬虫


参考答案:D


()采集的目标是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。

A、聚焦网络爬虫

B、增量式网络爬虫

C、通用网络爬虫

D、深层网络爬虫


参考答案:D


深圳键桥通讯技术股份有限公司3月招聘面试题面试题面试官常问到的一些题目整理如下:问题 Q1:提到Python中局部变量和全局变量的规则是什么?可用的回答 :局部变量:如果在函数体内的任何位置为变量赋值,则假定它是本地的。全局变量:仅在函数内引用的那些变量是隐式全局变量。问题 Q2:Python中的生成器是什么?可用的回答 :实现迭代器的方法称为生成器。这是一个正常的函数,除了它在函数中产生表达式。问题 Q3:遇到过得反爬虫策略以及解决方法?可用的回答 : 反爬虫策略: 1.通过headers反爬虫 2.基于用户行为的发爬虫(同一IP短时间内访问的频率,封IP) 3.动态网页反爬虫(通过ajax请求数据,或者通过JavaScript生成) 4.对部分数据进行加密处理的(数据是乱码) 解决方法: 1. 对于基本网页的抓取可以自定义headers,添加headers的数据 2. 使用多个代理ip进行抓取或者设置抓取的频率降低一些, 3. 动态网页的可以使用selenium + phantomjs 进行抓取 4. 对部分数据进行加密的,可以使用selenium进行截图,使用python自带的pytesseract库进行识别,但是比较慢最直接的方法是找到加密的方法进行逆向推理。 问题 Q4:用Python匹配HTML tag的时候,和有什么区别?可用的回答 :术语叫贪婪匹配( )和非贪婪匹配( )问题 Q5:在Python中切片是什么?可用的回答 :从序列类型(如列表,元组,字符串等)中选择一系列项目的机制称为切片。问题 Q6:谷歌的无头浏览器?可用的回答 : 无头浏览器即headless browser,是一种没有界面的浏览器。既然是浏览器那么浏览器该有的东西它都应该有,只是看不到界面而已。 Python中selenium模块中的PhantomJS即为无界面浏览器(无头浏览器):是基于QtWebkit的无头浏览器。 问题 Q7:Python中的反向索引是什么?可用的回答 :Python序列可以是正数和负数的索引。对于正索引,0是第一个索引,1是第二个索引,依此类推。对于负索引,( - 1)是最后一个索引,( - 2)是倒数第二个索引,依此类推。问题 Q8:Django 和 Flask 之间有什么区别?可用的回答 :Flask是一个“微框架”,主要用于具有更简单要求的小型应用程序。在Flask中,必须使用外部库。Django也可以用于更大的应用程序。它包括一个ORM。问题 Q9:谈谈你对闭包的理解?可用的回答 : #闭包函数的实例 # outer是外部函数 a和b都是外函数的临时变量 def outer( a ): b = 10 # inner是内函数 def inner(): #在内函数中 用到了外函数的临时变量 print(a+b) # 外函数的返回值是内函数的引用 return inner if _name_ = _main_: # 在这里我们调用外函数传入参数5 #此时外函数两个临时变量 a是5 b是10 ,并创建了内函数,然后把内函数的引用返回存给了demo # 外函数结束的时候发现内部函数将会用到自己的临时变量,这两个临时变量就不会释放, 会绑定给 这个内部函数demo = outer(5) # 我们调用内部函数,看一看内部函数是不是能使用外部函数的临时变量 # demo存了外函数的返回值,也就是inner函数的引用,这里相当于执行inner函数 demo() # 15 demo2 = outer(7)问题 Q10:遇到过得反爬虫策略以及解决方法?可用的回答 : 反爬虫策略: 1.通过headers反爬虫 2.基于用户行为的发爬虫(同一IP短时间内访问的频率,封IP) 3.动态网页反爬虫(通过ajax请求数据,或者通过JavaScript生成) 4.对部分数据进行加密处理的(数据是乱码) 解决方法: 1. 对于基本网页的抓取可以自定义headers,添加headers的数据 2. 使用多个代理ip进行抓取或者设置抓取的频率降低一些, 3. 动态网页的可以使用selenium + phantomjs 进行抓取 4. 对部分数据进行加密的,可以使用selenium进行截图,使用python自带的pytesseract库进行识别,但是比较慢最直接的方法是找到加密的方法进行逆向推理。 算法题面试官常问到的一些算法题目整理如下(大概率会机考):算题题 A1:落单的数题目描述如下:Given a non-empty array of integers, every element appears twice except for one. Find that single one.Note:Your algorithm should have a linear runtime complexity. Could you implement it without using extra memory?Example 1:Input: 2,2,1Output: 1Example 2:Input: 4,1,2,1,2Output: 4给定一个非空数组,除了一个元素外,其余均出现两次。找出它。需要在线性时间内,且不用额外空间。用到了 missing number 的思路,利用异或的性质,相同的异或会抵消掉。直接在原数组上操作,用了 i 变量,一个变量都不用要怎么写?Discuss里也没找到相关的。测试地址:https:/ Solution(object): def singleNumber(self, nums): :type nums: Listint :rtype: int for i in range(1, len(nums): numsi = numsi numsi-1 return nums-1

以下关于网络爬虫的说法,不正确的是()。

A、网络爬虫还可以对网页建立索引

B、有些网络爬虫能够从网站抓取内容聚合起来

C、有些网络爬虫甚至能发动DDos攻击、发送垃圾邮件等

D、隐藏在表单后的信息无法被网络爬虫发现


参考答案:D


()的爬虫针对的是网页上的数据,所抓取的数据一般要符合一定的模式,或者可以转化或映射为目标数据模式。

A、基于目标网页特征

B、基于领域概念

C、基于目标数据模式

D、深层网络爬虫


参考答案:C


增量式爬虫中的()指的是:爬虫根据个体网页的改变频率来重新访问各页面。

A、统一更新法

B、基于分类的更新法

C、个体更新法

D、随机更新法


参考答案:C


增量式爬虫中的()指的是:爬虫根据网页改变频率将其分为更新较快网页子集和更新较慢网页子集两类,然后以不同的频率访问这两类网页。

A、统一更新法

B、基于分类的更新法

C、个体更新法

D、随机更新法


参考答案:B


通过使用Web浏览器、网络爬虫或者其它的工具,客户端发起一个到服务器上指定端口的HTTP请求。我们称这个客户端叫()。

A、数据库

B、播放器

C、用户代理

D、源服务器


参考答案:C

更多 “深圳键桥通讯技术股份有限公司3月招聘面试题81道2020313” 相关考题
考题 增量式爬虫中的()指的是:爬虫以相同的频率访问所有网页,不考虑网页的改变频率。A、统一更新法B、基于分类的更新法C、个体更新法D、随机更新法参考答案:A

考题 ()只会在需要的时候爬行新产生或发生更新的页面,并不重新下载没有发生变化的页面,可有效减少数据下载量,及时更新已爬行的网页,减小时间和空间上的耗费,但是增加了爬行算法的复杂度和实现难度。A、聚焦网络爬虫B、增量式网络爬虫C、通用网络爬虫D、深层网络爬虫参考答案:B

考题 (),又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。A、聚焦网络爬虫B、增量式网络爬虫C、通用网络爬虫D、深层网络爬虫参考答案:A

考题 网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。()此题为判断题(对,错)。参考答案:正确

考题 用户跟踪技术不包括()。A、IP定位B、CookieC、网络爬虫D、蠕虫病毒正确答案:D

考题 使用了百度分享的网页可以更快地被百度爬虫发现,从而帮助网站的内容更快地被百度抓取。请问百度分享能使网页被快速抓取的原因是什么?()A、百度分享吸引爬虫抓取链接到百度数据库中,再由爬虫提交收录B、真实分享行为可以将链接直接存储到百度数据库中,并加速爬虫提交收录C、爬虫直接将分享的链接提交收录D、百度分享只能加速爬虫从数据库提交收录,不能影响链接的存储正确答案:B

考题 通过对网站爬虫活动的分析可获得何种信息?()A、网站在搜索引擎上的排名B、通过搜索引擎浏览网站的访问者的数量C、搜索引擎抓取网站数据的频率D、付费链接通过搜索引擎被点击的次数正确答案:C

考题 多选题验证码的作用有哪些?()A反爬虫B保证用户信息安全C验证D制造麻烦正确答案:B,C解析:暂无解析

考题 如果要采集指定的数据,则需要使用到(),又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。A、增量式网络爬虫B、聚焦网络爬虫C、DeepWeb爬虫D、全网爬虫参考答案:B

考题 单选题爬行对象从一些种子URL扩充到整个网络,主要为了门户站点搜索引擎和大型网络服务提供商采集数据()。A 通用网络爬虫B 聚焦网络爬虫C 增量式网络爬虫D 反向网络爬虫正确答案:D解析:暂无解析