错题知识点回顾1
大数据
1、数据预处理的主要步骤分为:
数据清理、数据集成、数据规约、数据变换
数据清理:通过填补缺失值、光滑噪声数据,平滑或删除离群点,并解决数据的不一致性来“清理“数据。否则输出的结果是不可靠的。
数据集成:数据分析任务多半涉及数据集成。数据集成将多个数据源中的数据结合成、存放在一个一致的数据存储,如数据仓库中。这些源可能包括多个数据库、数据方或一般文件。
数据规约:数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近地保持原数据的完整性。 这样,在归约后的数据集上挖掘将更有效,并产生相同(或几乎相同)的分析结果。数据变换数据变换包括对数据进行规范化,离散化,稀疏化处理,达到适用于挖掘的目的。
2、为数据的总体分布建模,把多维空间划分成组等问题属于数据挖掘的哪一类任务?
建模描述
其他选项分析:
1)探索性数据分析(EDA,Exploratory Data Analysis):
对数据进行清洗,对数据进行描述(描述统计量,图表),查看数据分布,比较数据间的关系,培养对数据的直觉,对数据进行总结等。
传统统计分析步骤:
提出问题->准备数据->建模->分析->得出结论
探索性数据分析步骤:
提出问题->准备数据->分析->建模->得出结论
EDA注重数据的真实分布,强调数据的可视化,使分析者一目了然看到数据中的规律,从而得到启发,建立何时的数据模型。
2)预测建模
1预测方法和模型选择->
2预测指标和确定指标评价体系->
3检验、修正不合理的预测模型->
4计算预测值与分析结果,并根据最新反馈信息修正预测结果
主要预测模型有:线性回归模型、指数平滑模型、趋势外推模型、ARIMA预测模型(差分整合移动自回归)、马尔可夫预测模型、投入产出预测模型、灰色预测模型、人工神经网络预测模型(BP神经网络+非线性函数理论)。
3、考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是(3.5)
截断均值计算:
共6个数,p=0.2,则前后各去掉int(6*0.1)个数,得到(2,3,4,5)取均值=3.5
4、最大最小规范化,映射到[0,1]
算法
1、排序算法
个数约为50K的数列需要进行从小到大排序,数列特征是基本逆序(多数数字从大到小,个别乱序),以下哪种排序算法在事先不了解数列特征的情况下性能最优(不考虑空间限制)。
冒泡、选择、插入,基本时间复杂度为O(N^2)
题目中要求升序/降序,就是改进的冒泡排序,近似O(N)。快速排序时间复杂度退化成O(N^2),而堆排序无论任何情况下的时间复杂度都是O(NlogN)。
网址:错题知识点回顾1 https://www.yuejiaxmz.com/news/view/33724
相关内容
新生儿育儿知识 妈妈如何照顾新生儿照顾狗狗的要点
关于育儿知识!这篇文章一定不要错过!
美容与化妆技术 知识点1舞台妆妆容技巧一 MH0205pp01知识点1舞台妆妆容技巧一.ppt
狗狗日常照顾小知识
夏季养生小知识发给顾客的?
家居装修花点小钱,让生活变好 1%
活动 | “老年人家庭自救与急救知识讲座”精彩回顾!
【宠物知识】宠物知道你是在照顾它吗
临近年关,小型宠物犬托运回家该如何照顾