北语22秋《大数据技术与应用》作业1【标准答案】

周老师 · 发表于 2022-11-25 14:31:54

21秋《大数据技术与应用》作业1-00001
试卷总分:100 得分:100
一、单选题 (共 15 道试题,共 60 分)
1.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为
A.2
B.4
C.6
D.8

2.在pandas中脏数据的典型表明有（）
A.np.nan
B.*
C.?
D.no

3.使用pandas处理数据缺失值时，用于丢掉缺失值的函数为
A.isnull
B.head
C.tail
D.dropna

4.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22}的中四分位数为
A.2
B.4
C.6
D.8

5.数据集{1,2,3,5,7,8,9}的中位数是
A.3
B.5
C.7
D.4

6.用练习好的LOF实例对数据进行LOF分数计算并排序的句子是
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
D.X_scores = clf.negative_outlier_factor_

7.使用pandas处理数据缺失值时，用于发现重复值的函数为
A.isnull
B.duplicated
C.fillna
D.dropna

8.分类的方针是
A.将一组对象分组以发现它们之间是不是存在某种关系
B.从一组预订义的类中查找新对象所属的类
C.进步数据标签使用功率
D.以上都不对

9.项集 S ={ },则项集S称为
A.1项集
B.2项集
C.3项集
D.空集

10.练习随机森林模型实例的句子是
A.from sklearn.tree import DecisionTreetClassifier
B.clf=DecisionTreetClassifier()
C.clf.fit(Xtrain,Ytrain)
D.predictions=clf.predict(Xtest)

11.:from sklearn.tree import DecisionTreeClassifiernclf = DecisionTreeClassifier()nclf.fit(Xtrain,Ytrain) npredictions = clf.predict(Xtest)n上面代码第4行中Xtest表明
A.练习数据集
B.测试数据集
C.练习数据的种类标签数组
D.测试数据的种类标签数组

12.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的上四分位数为
A.20
B.22
C.20.5
D.28

13.相关规矩 X→Y 表明中Y称为
A.前件
B.后件
C.中心件
D.以上都不对

14.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的四分位差为
A.20
B.22
C.20.5
D.18.5

15.用练习好的LOF实例判别数据是不是反常，正常样本用1表明，反常样本用-1表明的句子
A.from sklean.neighbors import LocalOutlierFactor
B.clf=LocalOutlierFactor(n_neighbors=20)
C.y_pred=clf.fit_predict(X)
D.X_scores = clf.negative_outlier_factor_

二、多选题 (共 5 道试题,共 20 分)
16.常用的描绘统计剖析方法包含
A.比照剖析法
B.均匀剖析法
C.穿插剖析法
D.以上都不对

17.相关规矩反映的是
A.可分类性
B.可切割性
C.事物之间彼此依存性
D.事物之间彼此相关性

18.数据会集趋势剖析的常用目标包含
A.均匀值
B.中位数
C.众数
D.四分位数

19.数据发掘是习惯信息社会从海量数据中获取信息的需求而发生的新学科，也是穿插学科，包含
A.统计学
B.机器学习
C.数据库
D.形式辨认

20.常用的分类方法包含
A.朴素贝叶斯分类器
B.决议计划树
C.KNN
D.以上都不对

三、判别题 (共 5 道试题,共 20 分)
21.分箱法是对于接连的数值型数据中噪声进行处理

22.由于 Bayes 理论可以协助了解根据概率估量的杂乱现况，所以它变成了数据发掘和概率论的基础

23.数据类型等级最高的是定类数据

24.分类算法的意图是找到数据的最优拟合

25.数据类型等级最低的是定比数据