不同变量的值应当被有效的储存,以备电脑分析。对于某些变量来说,所记录的值的含义显而易见,因为它由直接搜集的数值构成。举个例子,学术能力(AA)这个变量的值显然是入学考试时0-100的分值。父母教育(PE)变量也类似,上学年限也是输入的数字。但对于其他变量,其编码值(value code,用来指代变量值的符号)的含义并不那么明显。 我们来看“学生动机”变量,其值包括“愿意”、“不愿意”、和“无法确定”。在表2.1的列SM中,数字2指代那些回答“愿意”的学生,数字1指代那些回答“无法确定”的学生,数字0指代那些回答“不愿意”的学生。这些数字只是编码,它们指代学生回答的类别。显然,我们可以用其他数字来指代某个特定的回答,而不会改变该回答的内在含义。譬如,如果我们用“3”来替代“学生动机”变量中的编码“2”,并不表示更高的动机水平;而仅仅是用另一个数字来识别那些回答“愿意”的学生。对于数据中其他变量(性别、宗教、社区类型和导师评价),我们同样看到变量值都是数字编码,但��仅把这些数字看作位置标记符(placeholder)。 社会科学研究中对每个个案的观测,包括变量标签(labels)和编码,一般来说都是输入到电脑中并储存在一个数据文件中。表2.1确实看起来很像是一个典型的来自个人电脑的数据文件。我们应当经常仔细核查可能存在的编码错误(coding error),即是否变量值的输入有误?令人欣喜的是,对表2.1中数字的核查表明不存在失控编码(wild code),即不存在超出变量可能取值范围的变量值(如没有人的“学术能力”分数是“103”,或“学生动机”值是“8”)。但更为细微的错误,如回答类别的记录错误则可能发生。例如,一个学生可能在“学生动机”变量上回答“愿意”(编码=2),但却被错误记录为“不愿意”(编码=0)。为了避免此类错误,研究团队的每位成员都应核查编码过程,从而获得较高的交互编码信度(intercoder reliability)。我们确信数据中即使存在编码错误,数量也极少。*后,虽然一些受访者在某些调查项目上存在缺失数据(missing data),但在表2.1所含变量上并不存在缺失数据。或许颇令人惊讶,但宗教变量R上没有缺失数据,样本中的每位学生都选择了三个选项中的一项。这表明我们对问卷的先期规划较好,对回答类别的设定也比较合适,从而有效减少了拒答情况。如果不是这种情况,那么我们就面临明显的缺失数据问题,而接下来几章中所运用的分析技术也会无用武之地。