[奥鹏]南开22春学期《网络爬虫与信息提取》在线作业[答案]
时间:2022-05-05 08:29 来源:奥鹏教育 作者:奥鹏作业答案 点击:次
正确答案:----- 22春学期(高起本1709-2103、全层次2109-2103)《网络爬虫与信息提取》在线作业-00001 正确答案:----- 试卷总分:100 得分:100 一、单选题 (共 20 道试题,共 40 分) 1.如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个大字典,大字典里面的每一个键值对都对应了一个集合,Key为(),Value就是一个集合。 正确答案:----- A.字典 B.集合的名字 C.集合 D.文档 正确答案:-----
2.Redis若要进入交互环境,需要打开终端输入() 正确答案:----- A.redis-cli 正确答案:----- B.redis 正确答案:----- 正确答案:----- C.redis-cmd 正确答案:----- D.redis-start 正确答案:-----
3.xpath中extract方法返回值类型是() A.列表 B.元组 C.字典 D.集合 正确答案:----- 正确答案:----- 正确答案:----- 正确答案:-----
4.Scrapy自带的待爬队列是() A.deque 正确答案:----- B.queue C.list D.lqueue 正确答案:-----
5.请问按哪个键可以打开Chrome自带的开发者工具() A.F10 B.F1 C.F11 D.F12 正确答案:-----
6.服务器端记录信息确定用户身份的数据是 A.session B.cookies C.moonpies D.localstorage 正确答案:----- 正确答案:-----
7.以下关于Charles的说法正确的是( ) A.Charles是一个跨平台的HTTP抓包工具,可以截取HTTP或者HTTPS请求的数据包 B.Charles有Windows 32/64版和Linux 64 版,但是目前还没有对Mac OS进行有效的支持。 正确答案:----- C.Charles上面滚动的数据就是目前计算机发起的数据包。单击工具栏上面的黄色笤帚图标,可以清停止抓包。 D.在Charles启动时,系统自带浏览器的部分HTTP流量不会经过Charles。 正确答案:-----
8.MongoDB中数据存储的形式类似于() 正确答案:----- A.列表 B.元组 C.字典 D.集合
9.一般来说在页面传输登录信息都用HTTP()请求类型 A.GET B.POST C.PUT D.SEND 正确答案:-----
10.使用了RedisSpider作为爬虫的父类以后,爬虫会直接监控()中的数据,并不读取start_urls中的数据。 正确答案:----- A.Redis B.RedisSpider 正确答案:----- 正确答案:----- C.Spider D.MongoDB 正确答案:-----
11.当需要把Python里面的数据发送给网页时,需要先转换成()字符串 A.Python B.Json C.正则表达式 D.Ajax 正确答案:-----
12.lxml库中etree模块的()方法把Selector对象转换为bytes型的源代码数据 A.etree.tostring B.etree.convertBytes C.etree.toBytes D.etree.convertstring 正确答案:-----
13.Python中以下哪个容器里的元素不能重复() A.列表 B.元组 C.字典 D.集合
14.通常使用()工具来模拟浏览器进行爬虫请求 A.Selenium B.Chrome C.ChromeDriver 正确答案:----- D.WebDriver 正确答案:-----
15.下面Python代码输出为(): def default_para_trap(para=[], value=0): para.append(value) return para print('第一步:{}'.format(default_para_trap(value=100))) print('第二步:{}'.format(default_para_trap(value=50))) 正确答案:----- A.第一步:[100] 第二步:[100,50] B.第一步:[100] 第二步:[50] C.第一步:[100] 第二步:[] D.第一步:[100] 第二步:[100] 正确答案:-----
16.Python中若定义object=[1, 2, 3, 4, 5],则print(object[:3])输出() A.12 B.123 C.23 D.234 正确答案:-----
17.使用Xpath构造属性值包含相同字符串的路径采用()方法 A.contain B.contains C.include 正确答案:----- D.includes 正确答案:-----
21.使用UI Automatorr长按点击的操作是得到相应控件后使用命令() A.longclick B.long_click C.clicklong D.click_long 正确答案:-----
19.HTTP常用状态码表明服务器上没有请求的资源的是() A.500 B.503 C.403 D.404 正确答案:-----
20.Scrapy_redis是Scrapy的“()”,它已经封装了使用Scrapy操作Redis的各个方法 正确答案:----- A.组件 B.模块 C.控件 D.单元 正确答案:-----
南开22春学期《网络爬虫与信息提取》在线作业[答案]多选题答案 二、多选题 (共 10 道试题,共 20 分) 21.Python中有哪些实现多线程方法() A.multiprocess.dummy 正确答案:----- B.threading.Thread 正确答案:----- C.process D.PyMongoDB 正确答案:-----
22.最常见的HTTP请求类型有() A.GET B.POST C.SEND D.RECEIVE 正确答案:-----
23.Redis中的值可以支持() 正确答案:----- A.列表 B.哈希 C.集合 D.有序集合 正确答案:-----
24.常用的会话跟踪技术是 A.session B.cookies C.moonpies D.localstorage
25.以下哪种方法是MongoDB的查找方法() 正确答案:----- A.find B.find_one 正确答案:----- C.finds 正确答案:----- D.find_all 正确答案:-----
26.针对解析源代码的BeautifulSoup对象,构造时BeautifulSoup(网页源代码, '解析器')中的解析器可以为() A.html B.html.parser C.lxml D.xml 正确答案:-----
27.Python中一个函数可以有()个return语句 A.0 B.1 C.多个 D.2 正确答案:-----
28.Python中的容器有() A.列表 B.元组 C.字典 D.集合
29.Python中一个函数没有返回值则可以写() A.没有return B.return C.return None D.return NULL 正确答案:-----
30.下列关于在IOS上配置charles的说法正确的是() A.不同ios设备之间会有比较大的差别,所以配置的时候需要找到对应的安装证书的入口。 B.手机和电脑需要在同一个局域网下。 C.HTTP代理可以使用“自动”选项。 正确答案:----- D.安装好证书以后,打开iOS设备上的任何一个App,可以看到Charles中有数据包在流动 正确答案:-----
三、判断题 (共 20 道试题,共 40 分) 31.Python中使用下面代码打开文件也需要对文件进行close关闭操作 with open('文件路径', '文件操作方式', encoding='utf-8') as f 正确答案:-----
32.在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。
33.Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据,在Redis中把这个Key删除即可。 正确答案:-----
34.插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1 正确答案:-----
35.Python正则表达式中“.*”是贪婪模式,获取最长的满足条件的字符串。 正确答案:-----
36.使用Scrapyd,可以实现一键部署Scrapy爬虫,访问一个网址就启动/停止爬虫 正确答案:-----
37.Python中元组生成以后还可以往里面继续添加数据,也可以从里面删除数据;
38.如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。
39.HTTP状态码302与307完全同义。
40.如果元组里面只有整数、浮点数、字符串、一个列表,就既不能添加数据,也不能删除数据,还不能修改里面数据的值。
41.HTTP状态码302表示资源永久重定向。
42.使用异步加载技术的网站,被加载的内容可以在源代码中找到
43.Python中条件语句在使用and连接的多个表达式中,只要有一个表达式不为真,那么后面的表达式就不会执行。 正确答案:-----
44.当运行爬虫代码后,出现"Forbidden by robots.txt"提示后,说明当前时间段被爬取的网站无法访问。 正确答案:-----
45.在请求头中设置User-Agent即可正常请求网站
46.爬虫中间件的激活需要另外写一个文件来进行
47.在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动Redis 正确答案:-----
48.当使用Charles监控iOS设备或者Android设备的数据包以后,打开微信小程序,小程序的数据包不能自动被Charles抓住,需要另作处理。 正确答案:----- (责任编辑:admin) |
![[奥鹏]南开22春学期《网络爬虫与信息提取》在线作业[答案]](/uploads/allimg/240109/b059c1c5a193af8be22ee5a1c150cb34.jpg)