在数字经济时代,互联网、智能设备等信息技术的迅猛发展,使数据以同样令人印象深刻的速度增长。企业管理的各个阶段都可以被记录下来,产品销售的各个环节也可以被记录下来,消费者的行为和顾客的在线行为也被收集起来,数据已经成为重要的生产要素。通过数据的收集、存储、重新组织、分析和建模,数据中隐藏的重要价值和规律逐渐显现出来,正在成为企业转型、升级和可持续发展的重要推动力。大数据分析建模是大数据应用的核心和重要基础,已成为科技界和企业界关注的热点话题。
大数据分析建模的背景
随着企业信息化的逐步深入,大量信息系统在企业中广泛应用,物联网、云计算、工业互联网等技术与企业经营生产紧密结合,设备运行、生产加工、测试试验等数据采集过程更加自动化,企业积累了大量的数据,包括产品销售数据、客户消费数据、客户行为数据、企业运营数据等,企业经营生产的各个阶段都可以被记录下来,产品销售的各个环节也被记录下来,客户的消费行为和网上行为都被采集下来,这些数据隐藏着大量的有价值的规律和信息,是企业的重要资产。
另一方面,传统的数据报表、即席查询等简单分析手段已无法满足企业对于深层次信息的挖掘需求,大数据融合、大数据分析、大数据挖掘等技术不断发展,漏斗分析、事件分析、行为分析、留存分析、属性分析等模型不断完善,神经网络、决策树、关联规则等挖掘算法不断成熟,基于hadoop、hdfs的分布式存储技术以及基于storm、spark、mapreduce等分布式计算技术迅猛发展,为大数据分析处理及分析建模提供了坚实的技术支撑。
大数据分析建模步骤
企业开展大数据分析,首先应开展业务调研和数据调研工作,明确分析需求,其次应开展数据准备工作,即选择数据源、进行数据抽样选择、数据类型选择、缺失值处理、异常值检测和处理、数据标准化、数据簇分类、变量选择等,再次应进行数据处理工作,即进行数据采集、数据清洗、数据转换等工作,最后开展数据分析建模及展现工作。大数据分析建模需要进行5个步骤,即选择模型、训练模型、评估模型、应用模型、优化模型结构。
1选择分析模型
基于收集到的业务需求、数据需求等信息,研究决定选择具体的模型,如行为事件分析、漏斗分析、留存分析、分布分析、点击分析、用户行为分析、分群分析、属性分析等模型,以便更好地切合具体的应用场景和分析需求。
2训练分析模型
每个数据分析模型的模式基本是固定的,但其中存在一些不确定的参数变量或要素在里面,通过其中的变量或要素适应变化多端的应用需求,这样模型才会有通用性。企业需要通过训练模型找到最合适的参数或变量要素,并基于真实的业务数据来确定最合适的模型参数。
3评估分析模型
需要将具体的数据分析模型放在其特定的业务应用场景下(如物资采购、产品销售、生产制造等)对数据分析模型进行评估,评价模型质量的常用指标包括平均误差率、判定系数,评估分类预测模型质量的常用指标包括正确率、查全率、查准率、roc曲线和auc值等。
4应用分析模型
对数据分析模型评估测量完成后,需要将此模型应用于业务基础的实践中去,从分布式数据仓库中加载主数据、主题数据等,通过数据展现等方式将各类结构化和非结构化数据中隐含的信息显示出来,用于解决工作中的业务问题的,比如预测客户行为、科学划分客户群等。
5优化分析模型
企业在评估数据分析模型中,如果发现模型欠拟合或过拟合,说明这个模型有待优化;在真实应用场景中,定期进行优化,或者当发现模型在真实的业务场景中效果不好时,也要启动优化,具体优化的措施可考虑重新选择模型、调整模型参数、增加变量因子等。
大数据分析建模建议
数据分析建模是企业大数据应用的重要基础,通过建模不仅有效地组织了原始数据,而且为数据展现提供了重要支撑,企业在开展数据分析建模过程中应注意以下几点:
1重视需求牵引作用,深化业务问题解决
企业应结合业务发展目标,梳理经营生产过程中的瓶颈问题,以问题为导向,重视业务需求调研工作,清理业务流程和业务数据,研究数据来源、采集通道和映射关系,深入梳理数据基础,不断推进业务问题的解决并构建合理的业务架构。
2加大数据积累力度,夯实数据体系基础
企业应深化信息系统应用,提升业务流程和业务数据上线力度,深化物联网、云计算等新兴技术应用,提高数据采集效率,丰富数据积累力度;完善主数据、主题数据、数据建模等标准规范,构建包含业务、指标、报表等的数据体系,夯实数据体系基础。
3加大人员队伍建设,提高技术支撑能力
企业应加大技术专家、业务专家、数据分析师、数据管理员、运营专家等专业人员的培养,调动业务部门参与数据分析的积极性和主动性。同时加大数据分析、数据建模、数据挖掘技术储备、技术工具库和模型库建设,提高技术支撑能力。
干货!大数据分析如何建模的建议.中琛魔方大数据表示大数据分析建模不仅是数据向信息转化的重要支撑,也是突出数据价值实现的重要环节。企业应加强业务需求调查和业务结构优化,巩固数据基础和应用基础,不断选择、培训、评价、应用和优化模型,不断促进大数据分析建模的应用,为大数据分析模型的转换和升级奠定坚实的基础。