暂无图片
暂无图片
暂无图片
机器学习数据挖掘
2023-03-21 19:05:15 4911
简介:机器学习数据挖掘
人工智能创新挑战赛:助力精准气象和海洋预测Baseline[2]:数据探索性分析(温度风场可视化)、CNN+LSTM模型建模
“AIEarth”人工智能创新挑战赛:助力精准气象和海洋预测Baseline[2]:数据探索性分析、CNNLSTM模型建模。在本次任务中,将探索赛题中给出的两份训练数据,可视化分析四个气象特征的分布情况,思考如何进行特征工程以及如何选择或设计模型来实现我们的预测任务。简而言之,提供的训练数据中的每个样本为某年、某月、某个维度、某个经度的SST、T300、Ua、Va数值,标签为对应年、对应月的Nino3.4指数。另外一点需要注意的是,Nino3.4指数是Nino3.4区域从当前月开始连续三个月的SST平均值,也就是说,我们也可以不直接预测Nino3.4指数,而是以SST为预测目标,间接求得Nino3.4指数。测试数据为国际多个海洋资料同化结果提供的随机抽取的。N段长度为12个月的时间序列,数据采用npy格式保存,维度为,第一维度为连续的12个月份,第四维度为4个气候变量,按SST、T300、Ua、Va的顺序存放。
汀丶人工智能
2023-06-06
397 浏览
“AI Earth”人工智能创新挑战赛:助力精准气象和海洋预测Baseline[1]、NetCDF4使用教学、Xarray 使用教学,针对气象领域.nc文件读取处理
聚焦全球大气海洋研究前沿方向,将人工智能技术应用到天气气候预测领域中,提高极端灾害性天气的预报水平,已成为整个行业研究的热点方向。发生在热带太平洋上的厄尔尼诺南方涛动现象是地球上最强、最显著的年际气候信号,经常会引发洪涝、干旱、高温、雪灾等极端事件,2020年底我国冬季极寒也与ENSO息息相关。对于ENSO的预测,气候动力模式消耗计算资源大且存在春季预测障碍。基于历史气候观测和模拟数据,利用T时刻过去12个月的时空序列,可以构建预测ENSO的深度学习模型,预测未来124个月的Nino3.4指数,这对极端天气与气候事件的预测具有重要意义。训练数据提供对应月份的Nino3.4index标签数据。测试用的初始场数据为国际多个海洋资料同化结果提供的随机抽取的n段12个时间序列,数据格式采用NPY格式保存。SODAtrain.nc中[1,0:36,:,:]为第2第4年逐月的历史观测数据;标签数据为Nino3.4SST异常指数,数据维度为。
汀丶人工智能
2023-06-06
217 浏览
数据挖掘实践(金融风控):金融风控之贷款违约预测挑战赛(下篇)[xgboots/lightgbm/Catboost等模型]--模型融合:stacking、blending
训练速度较快,分类的时候,计算量仅仅只和特征的数目相关;简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响;适合二分类问题,不需要缩放输入特征;逻辑回归需要预先处理缺失值和异常值;不能用Logistic回归去解决非线性问题,因为Logistic的决策面是线性的;对多重共线性数据较为敏感,且很难处理数据不平衡的问题;准确率并不是很高,因为形式非常简单,很难去拟合数据的真实分布;集成方法主要包括Bagging和Boosting,Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个更加强大的分类。常见的基于Baggin思想的集成模型有:随机森林、基于Boosting思想的集成模型有:Adaboost、GBDT、XgBoost、LightGBM等。为了直观表示这一现象,引入ROC。
汀丶人工智能
2023-05-17
511 浏览
数据挖掘实践(金融风控):金融风控之贷款违约预测挑战赛(上篇)[xgboots/lightgbm/Catboost等模型]–模型融合:stacking、blending
赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。赛题以预测用户贷款是否违约为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。一般而言,对于数据在比赛界面都有对应的数据概况介绍,说明列的性质特征。竞赛采用AUC作为评价指标。AUC被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。
汀丶人工智能
2023-05-17
327 浏览
【机器学习入门与实践】合集入门必看系列,含数据挖掘项目实战
逻辑回归虽然其中带有"回归"两个字,但逻辑回归其实是一个分类模型,并且广泛应用于各个领域之中。虽然现在深度学习相对于这些传统方法更为火热,但实则这些传统方法由于其独特的优势依然广泛应用于各个领域中。它是基于贝叶斯定义和特征条件独立假设的分类器方法。由于朴素贝叶斯法基于贝叶斯公式计算得到,有着坚实的数学基础,以及稳定的分类效率。决策树的核心思想是基于树结构对数据进行划分,这种思想是人类处理问题时的本能方法。XGBoost是2016年由华盛顿大学陈天奇老师带领开发的一个可扩展机器学习系统。更重要的是,XGBoost在系统优化和机器学习原理方面都进行了深入的考虑。毫不夸张的讲,XGBoost提供的可扩展性,可移植性与准确性推动了机器学习计算限制的上限,该系统在单台机器上运行速度比当时流行解决方案快十倍以上,甚至在分布式系统中可以处理十亿级的数据。
汀丶人工智能
2023-04-17
255 浏览
【机器学习入门与实践】数据挖掘-二手车价格交易预测(含EDA探索、特征工程、特征优化、模型融合等)
比赛要求参赛选手根据给定的数据集,建立模型,二手汽车的交易价格。来自EbayKleinanzeigen报废的二手车,数量超过370,000,包含20列变量信息,为了保证。同时会对名称、车辆类型、变速箱、model、燃油类型、品牌、公里数、价格等信息进行。一般而言,对于数据在比赛界面都有对应的数据概况介绍,说明列的性质特征。了解列的性质会有助于我们对于数据的理解和后续分析。v0’,‘v1’,‘v2’,‘v3’,‘v4’,‘v5’,‘v6’,‘v7’,‘v8’,‘v9’,‘v10’,‘v11’,‘v12’,‘v13’,‘v14’。评估指标即是我们对于一个模型效果的数值型量化。对于二类分类器/分类算法,评价指标主要有accuracy,[Precision,Recall,Fscore,Pr曲线],ROCAUC曲线。平均绝对误差,均方误差,平均绝对百分误差,均方根误差,R2.此题为传统的数据挖掘问题,通过数据科学以及机器学习深度学习的办法来进行建模得到结果。
汀丶人工智能
2023-04-13
170 浏览
深度学习基础入门篇[二]:机器学习常用评估指标:AUC、mAP、IS、FID、Perplexity、BLEU、ROUGE等详解
机器学习的评价指标有精度、精确率、召回率、PR曲线、F1值、TPR、FPR、ROC、AUC等指标,还有在生物领域常用的敏感性、特异性等指标。即所有分类正确的样本占全部样本的比例。根据预测结果将预测样本排序,最有可能为正样本的在前,最不可能的在后,依次将样本预测为正样本,分别计算当前的TPR和FPR,绘制ROC曲线。即有病(阳性)人群中,检测出阳性的几率。在目标检测任务中,还有一个非常重要的概念是mAP。mAP是用来衡量目标检测算法精度的一个常用指标。目前各个经典算法都是使用mAP在开源数据集上进行精度对比。在计算mAP之前,还需要使用到两个基础概念:准确率和召回率。IS全称是InceptionScore,其名字中Inception来源于InceptionNet,因为计算这个score需要用到InceptionNetV3。对于一个在ImageNet训练好的GAN,IS主要从以
汀丶人工智能
2023-04-06
274 浏览
机器学习实战系列[一]:工业蒸汽量预测(最新版本下篇)含特征优化模型融合等
y0.5x2x2np.random.normal.准确率为0.495,比较低,直线拟合数据的程度较低。degree2:均方误差为1.0987392142417856;degree越大拟合的效果越好,因为样本点是一定的,我们总能找到一条曲线将所有的样本点拟合,也就是说将所有的样本点都完全落在这根曲线上,使得整体的均方误差为0;预测函数学习时使用k1个折叠中的数据,最后一个剩下的折叠会用于测试。当需要运行时可以使用它KFoldn次,在每次重复中产生不同的分割。每个学习集都是通过除了一个样本以外的所有样本创建的,测试集是被留下的样本。与LeaveOneOut和KFold不同,当p1时,测试集会重叠。
汀丶人工智能
2023-03-31
281 浏览
机器学习算法(九): 基于线性判别模型的LDA手写数字分类识别
线性判别模型在模式识别领域中有非常广泛的应用。LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。LDA算法的一个目标是使得不同类别之间的距离越远越好,同一类别之中的距离越近越好。不过在学习LDA之前,我们有必要将其与自然语言处理领域中的LDA区分开,在自然语言处理领域,LDA是隐含狄利克雷分布,它是一种处理文档的主题模型,我们本文讨论的是线性判别分析,因此后面所说的LDA均为线性判别分析。LDA除了可以用于降维以外,还可以用于分类。
汀丶人工智能
2023-03-29
203 浏览
机器学习算法(八):基于BP神经网络的乳腺癌的分类预测
BP网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层、隐层和输出层。在模拟过程中收集系统所产生的误差,通过误差反传,然后调整权值大小,通过该不断迭代更新,最后使得模型趋于整体最优化。BP神经网络模型要点在于数据的前向传播和误差反向传播,来对参数进行更新,使得损失最小化。误差反向传播算法简称反向传播算法。使用反向传播算法的多层感知器又称为BP神经网络。在这个过程,函数的导数链式法则求导很重要,需要手动推导BP神经网络模型的梯度反向传播过程,熟练掌握链式法则进行求导,对参数进行更新。
汀丶人工智能
2023-03-28
307 浏览
机器学习系列入门系列[七]:基于英雄联盟数据集的LightGBM的分类预测
LightGBM是2017年由微软推出的可扩展机器学习系统,是微软旗下DMKT的一个开源项目,它是一款基于GBDT算法的分布式梯度提升框架,为了满足缩短模型计算时间的需求,LightGBM的设计思路主要集中在减小数据对内存与计算性能的使用,以及减少多机器并行计算时的通讯代价。LightGBM可以看作是XGBoost的升级豪华版,在获得与XGBoost近似精度的同时,又提供了更快的训练速度与更少的内存消耗。正如其名字中的Light所蕴含的那样,LightGBM在大规模数据集上跑起来更加优雅轻盈,一经推出便成为各种数据竞赛中刷榜夺冠的神兵利器。LightGBM是基于CART树的集成模型,它的思想是串联多个决策树模型共同进行决策。LightGBM采用迭代预测误差的方法串联。LightGBM的基模型是CART回归树,它有两个特点:CART树,是一颗二叉树。LightGBM在机器学习与数据挖掘领域有着极为广泛的应用。这些竞赛来源于各行各业的真实业务,这些竞赛成绩表明LightGBM具有很好的可扩展性,在各类不同问题上都可以取得非常好的效果。同时,LightGBM还被成功应用在工业界与学术界的各种问题中。
汀丶人工智能
2023-03-27
293 浏览
机器学习算法(五):基于企鹅数据集的决策树分类预测
决策树是一种常见的分类模型,在金融风控、医疗辅助诊断等诸多行业具有较为广泛的应用。决策树的核心思想是基于树结构对数据进行划分,这种思想是人类处理问题时的本能方法。由于决策树模型中自变量与因变量的非线性关系以及决策树简单的计算方法,使得它成为集成学习中最为广泛使用的基模型。在新的研究中,南京大学周志华教授提出一种多粒度级联森林模型,创造了一种全新的基于决策树的深度集成方法,为我们提供了决策树发展的另一种可能。同时决策树在一些明确需要可解释性或者提取分类规则的场景中被广泛应用,而其他机器学习模型在这一点很难做到。例如在医疗辅助系统中,为了方便专业人员发现错误,常常将决策树算法用于辅助病症检测。在他们运行了一个决策树模型后发现,算法认为剧烈咳嗽的病人患哮喘的风险很小。用于建模的数据认为这类病人风险很小,是因为所有这类病人都得到了及时治疗,所以极少有人在此之后患病或死亡。
汀丶人工智能
2023-03-26
219 浏览
机器学习算法(六)基于天气数据集的XGBoost分类预测
XGBoost是2016年由华盛顿大学陈天奇老师带领开发的一个可扩展机器学习系统。严格意义上讲XGBoost并不是一种模型,而是一个可供用户轻松解决分类、回归或排序问题的软件包。更重要的是,XGBoost在系统优化和机器学习原理方面都进行了深入的考虑。毫不夸张的讲,XGBoost提供的可扩展性,可移植性与准确性推动了机器学习计算限制的上限,该系统在单台机器上运行速度比当时流行解决方案快十倍以上,甚至在分布式系统中可以处理十亿级的数据。XGBoost在机器学习与数据挖掘领域有着极为广泛的应用。这些实实在在的例子都表明,XGBoost在各种问题上都可以取得非常好的效果。同时,XGBoost还被成功应用在工业界与学术界的各种问题中。虽然领域相关的数据分析和特性工程在这些解决方案中也发挥了重要作用,但学习者与实践者对XGBoost的一致选择表明了这一软件包的影响力与重要性。XGBoost是基于CART树的集成模型,它的思想是串联多个决策树模型共同进行决策。XGBoost采用迭代预测误差的方法串联。
汀丶人工智能
2023-03-26
377 浏览
机器学习算法(三):基于horse-colic数据的KNN近邻(k-nearest neighbors)预测分类
kNN,中文翻译K近邻。我们常常听到一个故事:如果要了解一个人的经济水平,只需要知道他最好的5个朋友的经济能力,这句话里面就包含着kNN的算法思想。2找出距离近期的K个训练样本。3依据这K个近邻归属的类别来确定样本的类别。①投票决定,少数服从多数。取类别最多的为测试样本类别。②加权投票法,依据计算得出距离的远近,对近邻的投票进行加权,距离越近则权重越大,设定权重为距离平方的倒数。还能用来做数据预处理的缺失值填充。由于KNN模型具有很好的解释性,一般情况下对于简单的机器学习问题,我们可以使用KNN作为。Baseline,对于每一个预测结果,我们可以很好的进行解释。推荐系统的中,也有着KNN的影子。机器学习领域中,数据往往很重要,有句话叫做:“数据决定任务的上限,模型的目标是无限接近这个上限”。接下来我们就来看看KNN如果做分类,怎么做回归以及怎么填充空值。
汀丶人工智能
2023-03-25
214 浏览
机器学习算法(二): 基于鸢尾花数据集的朴素贝叶斯(Naive Bayes)预测分类
朴素贝叶斯算法是应用最为广泛的分类算法之一。它是基于贝叶斯定义和特征条件独立假设的分类器方法。由于朴素贝叶斯法基于贝叶斯公式计算得到,有着坚实的数学基础,以及稳定的分类效率。当年的垃圾邮件分类都是基于朴素贝叶斯分类器识别的。我们用一句话理解贝叶斯:世间很多事都存在某种联系,假设事件A和事件B。确诊具体的情况。这里就用到了贝叶斯思想,A是已经发生的病人症状,在A发生的条件下是Bi的概率。朴素贝叶斯算法假设所有特征的出现相互独立互不影响,每一特征同等重要,又因为其简单,而且具有很好的可解释性一般。相对于其他精心设计的更复杂的分类算法,朴素贝叶斯分类算法是学习效率和分类效果较好的分类器之一。朴素贝叶斯算法一般应用在文本分类,垃圾邮件的分类,信用评估,钓鱼网站检测等。通过分析发现训练数据是数值类型的数据,这里假设每个特征服从高斯分布,因此我们选择高斯朴素贝叶斯来进行分类计算。
汀丶人工智能
2023-03-25
357 浏览
机器学习算法(四): 基于支持向量机的分类预测
支持向量机是一个非常优雅的算法,具有非常完善的数学理论,常用于数据分类,也可以用于数据的回归预测中,由于其其优美的理论保证和利用核函数对于线性不可分问题的处理技巧,在上世纪90年代左右,SVM曾红极一时。本文将不涉及非常严格和复杂的理论知识,力求于通过直觉来感受SVM。了解支持向量机的分类标准;由于此处选择的线性核函数,所以在此我们可以将svm进行可视化。接下来我们进行SVM的一些简单介绍。为了判断好坏,我们需要引入一个准则:好的分类器不仅仅是能够很好的分开已有的数据集,还能对未知数据集进行两个的划分。可以看到,此时黑色的线会把这个新的数据集分错,而蓝色的线不会。我们刚刚举的例子可能会带有一些主观性。此时,我们需要引入一个非常重要的概念:最大间隔。
汀丶人工智能
2023-03-24
190 浏览
机器学习算法(一): 基于逻辑回归的分类预测
逻辑回归虽然其中带有"回归"两个字,但逻辑回归其实是一个分类模型,并且广泛应用于各个领域之中。虽然现在深度学习相对于这些传统方法更为火热,但实则这些传统方法由于其独特的优势依然广泛应用于各个领域中。而对于逻辑回归而且,最为突出的两点就是其模型简单和模型的可解释性强。例如,最初由Boyd等人开发的创伤和损伤严重度评分被广泛用于预测受伤患者的死亡率,使用逻辑回归基于观察到的患者特征分析预测发生特定疾病的风险。逻辑回归模型也用于预测在给定的过程中,系统或产品的故障的可能性。条件随机字段是逻辑回归到顺序数据的扩展,用于自然语言处理。逻辑回归模型现在同样是很多分类算法的基础组件,比如分类任务中基于GBDT算法LR逻辑回归实现的信用卡交易反欺诈,CTR预估等,其好处在于输出值自然地落在0到1之间,并且有概率意义。但同时由于其本质上是一个线性的分类器,所以不能应对较为复杂的数据情况。
汀丶人工智能
2023-03-22
319 浏览
专栏作者
暂无图片
近期活动
StarRocks 小课堂 | 监控告警全覆盖,别等服务挂了才处理!
04/16 19:00 0人报名
阿里云 SelectDB x Apache Doris 日志存储与分析解决方案联合 Meetup
04/19 13:30 0人报名
Apache Cloudberry™ (Incubating) Meetup · 杭州
04/19 14:00 1人报名