数据库disp(机器学习的问题你了解吗,本站通过大数据汇集了数据库 sid, dii数据库的相关解答,希望对你有所帮助。
本文虽然主要从数据科学的角度提出了最顶级和最经典的面试问题,但同样适用于机器学习以及人工智能。
数据科学是当今世界领先和最受欢迎的技术之一。世界上最优秀的公司正在招聘该领域的专业人员。由于这些专业人士的高需求和低可用性,数据科学家是收入最高的 IT 专业人士之一。这个数据科学面试包括数据科学工作面试中最常见的问题。
以下是这些流行的数据科学面试问题的列表:
Q2.区分数据分析和数据科学
这些数据科学面试问题分为三类:
一、基础问题(1-25,25个)
2. 区分数据分析和数据科学
8. 解释有监督学习和无监督学习的区别
21. 解释推荐系统是如何工作的
25. 解释选择偏差
二、中级问题(26-55,30个)
39. 解释单变量、双变量和多变量分析
49. 解释推荐系统中的协同过滤
50. 解释推荐系统中基于内容的过滤
51. 解释数据科学中的 bagging
52. 解释数据科学中的提升
53. 解释数据科学中的堆叠
54. 解释机器学习与深度学习有何不同
三、高级问题(56-81,26个)
56. 从下面给出的“钻石”数据集中,只提取“价格”值大于 1000 并且“切割”是理想的那些行
57. 使用 ggplot 在“price”和“carat”之间绘制散点图。“price”应该在 y 轴上,“carat”应该在 x 轴上,点的“颜色”应该由“切割”确定
58. 在这个“iris”数据集中引入 25% 的缺失值,并将“Sepal.Length”列用“mean”插补,“Petal.Length”列用“median”插补
59. 在 R 中对这个“mtcars”数据集实施简单的线性回归,其中因变量是“mpg”,自变量是“disp”
60. 计算模型构建的 RMSE 值
61. 在这个“波士顿”数据集上用 Python 实现简单的线性回归,其中因变量是“medv”,自变量是“lstat”
62. 在 R 中对这个“心脏”数据集实施逻辑回归,其中因变量是“目标”,自变量是“年龄”
63. 为建立的模型建立ROC曲线
64. 为模型建立一个预测值概率阈值为0.6的混淆矩阵,并找出模型的准确度
65. 在 Python 中的“customer_churn”数据集上构建逻辑回归模型。因变量是“Churn”,自变量是“MonthlyCharges”,找到模型的 log_loss
66. 在“鸢尾花”数据集上构建决策树模型,其中因变量是“物种”,所有其他列都是自变量。找出所构建模型的准确性
67. 在这个“CTG”数据集之上建立一个随机森林模型,其中“NSP”是因变量,所有其他列都是自变量
68. 编写一个函数来计算两点之间的欧几里得距离
69. 编写代码来计算均方根误差 (RMSE),给出实际值和预测值的列表
70. 提到可以在 SVM 中使用的不同内核函数

72. 编写代码,使用混淆矩阵计算二元分类算法的准确度。
76. 在下面的混淆矩阵中,计算准确率和召回率。
77. 编写一个函数,当使用二元分类模型的混淆矩阵调用该函数时,它会返回一个字典,其中包含其精度和召回率。
具体问题和答案详见:「链接」
数据库disp(机器学习相关信息就介绍到这里,数据库 sid, dii数据库的问题希望对你有所帮助。