数据挖掘的一般步骤 数据挖掘模型有哪些( 二 )

数据预处理主要包括以下内容:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约 。
第二步,模式发现
样本抽取完成并经预处理后,接下来要考虑的问题是:本次建模属于数据挖掘应用中的哪类问题(分类、聚类、关联规则或者时序模式),选用哪种算法进行模型构建?
模型构建的前提是在样本数据集中发现模式,比如:关联规则、分类预测、聚类分析、时序模式等 。
在目标进一步明确化的基础上,我们就可以按照问题的具体要求来重新审视已经采集的数据,看它是否适应挖掘目标的需要 。
第三步,模型构建
确定了本次建模所属的数据挖掘应用问题(分类、聚类、关联规则或者时序模式)后,还需考虑:具体应该采用什么算法,实施步骤是什么?
这一步是数据挖掘工作的核心环节,模型构建是对采样数据轨迹的概括,它反映的是采样数据内部结构的一般特征,并与该采样数据的具体结构基本吻合 。
预测模型的构建通常包括模型建立、模型训练、模型验证和模型预测4个步骤,但根据不同的数据挖掘分类应用会有细微的变化 。
第四步,模型评价
模型评价的目的是什么?如何评价模型的效果?通过什么评价指标来衡量?
模型效果评价通常分两步:
第一步是:直接使用原来建立模型的样本数据来进行检验 。
假如这一步都通不过,那么所建立的决策支持信息价值就不太大了 。一般来说,在这一步应得到较好的评价 。这说明你确实从这批数据样本中挖掘出了符合实际的规律性 。
第一步通过后,第二步是:另外找一批数据,已知这些数据是反映客观实际的、规律性的 。
业务应用场景:网红销售额评估模型、客户ROI评估模型、网红品类推荐模型、网红报价建议模型、网红欺诈行为预警模型、网红流失预警模型等
结论
实践表明:由于人工智能发展的局限性,计算机在未来相当长的一段时期内不可能像人类这样会进行复杂的思考,它只会按照人的指令工作 。
但是,计算机拥有海量的数据存储能力和超强的计算能力,所以只要我们建立合适的业务模型,设计完善的执行程序,选择正确的分析算法,它一定可以更好地为我们服务 。
数据挖掘技术是一个年轻且充满希望的研究领域,商业利益的强大驱动力将会不停地促进它的发展 。
每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入 。尽管如此,数据挖掘技术仍然面临着许多问题和挑战:如数据挖掘方法的效率亟待提高,尤其是超大规模数据集中数据挖掘的效率;开发适应多数据类型、容噪的挖掘方法,以解决异质数据集的数据挖掘问题;动态数据和知识的数据挖掘;网络与分布式环境下的数据挖掘等 。
另外,近年来短视频,图片等多媒体数据库发展很快,面向多媒体数据库的挖掘技术今后将成为研究开发的热点 。
本文由 @无语凝咽 原创发布于人人都是产品经理 。未经许可,禁止转载
题图来自Unsplash,基于CC0协议