暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据属性--标称属性、二进制属性、数值属性、序数属性

糟老头修炼记 2020-07-13
17697

一.数据的属性

1.数据对象:数据集由数据对象组成。一个数据对象代表一个实体。

数据对象又称为样本、实例、数据点、对象或元组。

数据对象用属性描述。数据表的行对应数据对象; 列对应属性


2.属性(特征,变量,维):是一个数据字段,表示数据对象的一个特征。

    例如:客户编号、姓名、地址等

3.属性类型:

标称属性(nominal attribute):类别,状态或事物的名字。每个值代表某种类别、编码或状态,这些值不必具有有意义的序,可以看做是枚举的

    例如:头发颜色= {赤褐色,黑色,金色,棕色,褐色,灰色,白色,红色}

也可以用数值表示这些符号或名称,但并不定量地使用这些数。

    例如:婚姻状况,职业,ID号,邮政编码,可以用0表示未婚、1表示已婚


二元属性(binary attribute):布尔属性,是一种标称属性,只有两个状态:0或1。

对称的(symmetric): 两种状态具有同等价值,且具有相同的权重。例如:性别

非对称的(asymmetric): 其状态的结果不是同样重要。例如:体检结果(阴性和阳性),惯例:重要的结果用1编码(如,HIV阳性)。


序数属性(ordinal attribute):其可能的值之间具有有意义的序或者秩评定(ranking),但是相继值之间的差是未知的。例如:尺寸={小,中,大},军衔,职称

序数属性可用于主观质量评估:例如:顾客对客服的满意度调查。0-很不满意;1-不太满意;2-基本满意;3-满意;4-非常满意


数值属性(numeric  attribute):定量度量,用整数或实数值表示

  区间标度(interval-scaled)属性:使用相等的单位尺度度量。值有序,可以评估值之间的差,不能评估倍数。没有绝对的零点。例如:日期,摄氏温度,华氏温度

比率标度(ratio-scaled)属性:具有固定零点的数值属性。值有序,可以评估值之间的差,也可以说一个值是另一个的倍数。例如:开式温标(K),重量,高度,速度


离散属性(discrete Attribute):具有有限或者无限可数个值。有时,表示为整型量。二进制属性是离散属性的一个特例

    例如:邮编、职业或文库中的字集        

连续属性(Continuous Attribute):属性值为实数,一般用浮点变量表示。

    例如,温度,高度或重量,实际上,真实值只能使用一个有限的数字来测量和表示。


二.数据统计:目的:更好地识别数据的性质,把握数据全貌

包括:

中心趋势度量:均值、加权算数均值、中位数、众数、中列数

数据分散度量:极差、分位数和四分位数、方差和标准差

数据的图形表示:箱图、饼图、频率直方图、散点图


令x1,x2,…,xN为某数值属性X的N个观测值

均值(Mean)

加权算数平均数(Weighted Mean)

中位数(Median)

分组数据中位数(Grouped Median)

众数(Mode)

中列数(Midrange)

极差(又称全距,Range)

分位数(Quantile)

四分位数(Quantile)

四分位数极差( InterQuartile Range ,IQR)


极差(又称全距,Range):是集合中最大值与最小值之间的差距,即最大值减最小值后所得数据

分位数(Quantile):取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合

给定数据分布的第k个q-分位数的值为x,使得小于x的数据值最多为k/q,而大于x的数据值最多为(q-k)/q,其中k是整数,使得0<k<q。这里有q-1个q-分位数。

四分位数(Quantile):把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。这3个数据点称为四分位数。

Q1:“下四分位数” ;Q2:“中位数” ;Q3:“上四分位数” 

确定四分位数的位置:

Q1的位置= (n+1)/4=(n+1) × 0.25

Q2的位置=2*(n+1)/4= (n+1) × 0.5

Q3的位置= 3*(n+1)/4=(n+1) × 0.75

n表示项数


四分位数极差( InterQuartile Range ,IQR):Q1和Q3之间的距离。

IQR=Q3-Q1               

方差(样本方差):是每个数据分别与平均数之差的平方的平均数

标准差:方差的平方根

盒图(又称箱线图,Box-plot),是一种用来描述数据分布的统计图形,可以表现观测数据的中位数、四分位数和极值等描述性统计量。

特点:

用盒子表示数据

盒子的端点在四分位数上,使得盒子长度为四分位数极差IQR

中位数用盒内线标记

盒子外线延伸到最小和最大的观测值

离群点:绘制在离群阈值范围外的点

五数概括 : min, Q1, median, Q3, max

盒图 : 分布直观表示,体现五数概括

离群点: 第三个四分位数之上或者第一个四分位数之下至少1.5 x IQR的值


饼图(又称圆形图或饼形图,Pie Graph):通常用来表示整体的构成部分及各部分之间的比例关系。饼图显示一个数据系列中各项的大小与各项总和的比例关系

频率直方图(又称频率分布直方图,Frequency Histogram),:是在统计学中表示频率分布的图形(注意直方图和条形图的区别)

散点图(Scatter Diagram):将样本数据点绘制在二维平面或三维空间上,根据数据点的分布特征,直观地研究变量之间的统计关系以及强弱程度。

三.数据的相似性和相异性

相似性(Similarity):两个对象相似程度的数量表示

数值越高表明相似性越大,通常取值范围为[0,1]

相异性(Dissimilarity)(例如距离):两个对象不相似程度的数量表示

数值越低表明相似性越大,相异性的最小值通常为0,相异性的最大值(上限)是不同的

邻近性(Proximity):相似性和相异性都称为邻近性


 数据矩阵:对象-属性结构

行-对象:n个对象;

列-属性:p个属性;

相异性矩阵:对象-对象结构

n个对象两两之间的邻近度;

对称矩阵;

单模(Single mode);

标称属性的邻近性度量、二进制属性的邻近性度量、数值属性的邻近性度量:

序数属性的邻近性度量:

序数属性可以通过把数值属性的值域划分成有限个类别,对数值属性离散化得到。

相异性:

     假设f是用于描述n个对象的序数属性,关于f的相异性计算步骤如下:

    ①第i个对象的f值为xif,属性f有Mf个有序的状态,表示排位1,…,Mf。用对应的排位rif∈{1,…,Mf}取代xif。

     ②将对象的每个序数属性的值域映射到[0.0,1.0]上,以便每个属性都有相同的权重。通过用zif代替第i个对象的rif来实现数据规格化,其中



文章转载自糟老头修炼记,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论