学生学业测量和评价

学生学业测量和评价 华东师范大学高等教育研究所所长唐安国教授 2007.11

1 2 3 教学评价的意义和职能学业测量及评价思考本次报告分为三个部分学生学业测量和评价

教学评价定义：对教学活动现实的或潜在的价值作出判断的过程教学评价定义：对教学活动现实的或潜在的价值作出判断的过程形成型评价：通过诊断教育方案计划、教学过程中存在的问题，为正在进行的教育活动提供反馈信息，以促进实践中正在进行的教育活动质量的评价总结型评价：在教学活动发生后关于教育效果的判断，与分等鉴定，作出决策相联系价值判断是在事实判断的基础上，根据评价人的目的、目标、需要和期望对客观事实作出判断。价值判断的特点：客观性与主观性的高度统一教学评价的意义和职能学生学业测量和评价

类型形成型（Formative）总结型（Summative）目的、期望的用途和职能帮助师生把注意力集中到提高教学质量上作出教学效果的判断，从而区分优劣，分等级或鉴定合格，为决策部门的决策提供依据评价报告的听取人内部导向。评价结果主要提供给那些正在实施教学活动的人参考外部导向。评价报告主要是呈交各级政策制定者，为其采取行政措施提供依据覆盖教育过程时间直接指向正在进行的活动，以改进教学活动为目的，是在过程中进行的评价考察活动的最终效果，一般在过程结束后进行，对教学活动全过程的检验对评价抽象化程度要求分析性的，不要求对评价资料作高度概况，较具体综合性的，对最后获得的资料有较高度概况准则过程性的结果性的两类教学评价对比学生学业测量和评价

定义：对学生个体学业进展和行为变化的评价 现代学业评价：以教育目标为依据，衡量学生个体的发展是否达到预定教育目标的过程测量工具:考试、测验在测量的基础上对学生个体发展和学习效果作出价值判断学生的学业评价学生学业测量和评价

随机抽样编制试卷 确定和表述所考课程的教学目标编审试题结果处理实施考试取得信息评分学业评价六大步骤学生学业测量和评价

设计代考课程的教学目标方法有三步：以较抽象的术语来表达课程的一般目标；将每一目标分解成内容成分与行为成分两方面；制作双向细目表设计代考课程的教学目标方法有三步：以较抽象的术语来表达课程的一般目标；将每一目标分解成内容成分与行为成分两方面；制作双向细目表学业评价须以一定的判断准则作为根据，这个根据即为教学目标、教学活动和教学评价三者关系步骤1.确定和表述所考课程的教学目标教学目标教学活动教学评价教学目标、教学活动和教学评价三者之间的关系学生学业测量和评价

情意领域 1.0接受（注意）1.1发现1.2积极地接受1.3受控制的或有选择的注意 2.0反应2.1按指令默认2.2积极的反应2.3满意地反映 3.0价值判断3.1领会一种价值3.2选择一种价值3.3确信一种价值 4.0价值的体系化4.1价值的概念化4.2价值体系的组织 5.0一个价值或价值复合体的个性化5.1赋予价值观5.2赋予世界观认知领域1.00知识1.10特定事物1.11专门术语1.12特定事实1.20处理特定事物的方法及手段1.21常规1.22趋势和顺序1.23分类和范畴1.24标准1.25方法论1.30某一学科领域中普遍原理与抽象概念1.31应用原理与概括的知识1.32关于理论与结构的知识及智力智能2.00理解2.10转化2.20解释2.30推断3.00应用3.10规则3.20方法3.30概念4.00分析4.10要素4.20关系4.30结构原理5.00综合5.10归纳个人所要表达的见解5.20拟定计划或实施规划5.30引出一套抽象关系6.00评价6.10根据内在证据逻辑地评价6.20根据外部标准逻辑地评价布卢姆（B.J.Bloom）：认知领域与情意领域的教育目标分类转引自竹田清夫《新行为主义教育方法学》学生学业测量和评价

步骤2 .编审试题 • 编审试题是将比较抽象的教育目标具体化，使目标达到可操作 • 构成上:试题由刺激（给定的情景和条件）、反应（预期的行为和反应）和标准（提供评判依据）三部分组成 • 外形上：试题可分为固定应答型（选择题、配对题等）和自由应答型（问答题、简述题等）两类 • 编制试题即制作测试量尺；审定考试试题则是检验所制量尺是否标准 • 编制原则和程序：紧扣教学大纲且难易适度；同一试卷统一规格编写；试题用词恰当，文字简明，表义确切；避免与教材相同表述；试题各自独立等 • 试测：保证正式考试的信度、效度，并为建立常模提供依据学生学业测量和评价

大分类 小分类优点缺点命题原则自由应答型或供应型简答题（含填充题） 1.命题容易 2.受猎测的成都小 1.无法考核复杂的学习结果 2.记分不够客观 1.一个试题只能有一个简短具体的答案 2.填充的部分须是“关键问题” 3.要编成“直接问句”形式，避免猜测因素 4.避免可能的提示和只需机械记忆的试题 5.“填充题型”空格不要太多论述题 1.可用于测量高层次的学习结果 2.对学生的学习态度和方式有积极影响 3.可培养写作能力 4试题编写容易 1.试题取样不广且不均匀，无法有效代表学科的全部内容 2.评分主观性强，易受无关因素影响 1.测量较高层次的学习成果 2.明确而有系统的陈述问题 3.避免出现含糊的一般性问句，要说明应对回答长度的限制 4.不允许学生随意选择试题作答 5.应提示每题作答的时间固定应答型或选择型选择题 1.适用于测量各种不同层次学习 2.试卷容量大，测量面广，信度高 3.利于培养判断力 4.评分标准统一、客观、准确 5具诊断效果 1.命题需专门技巧 2.易受暗示影响 3.不能测量完整推理论证能力、对知识的综合运用能力及表达写作能力 1.每道题只能测量一个重要问题 2.题干应只涉及一个明确的问题 3.试题叙述必须简单、清晰、准确 4.避免暗示 5.只采用似是而非的迷惑答案以吸引未具有这方面知识的学生 6.避免使用“以上皆是或皆不是”答案配合题 1.短时间内测量大量内容 2.可有效测量知识相关性，可广泛用于不同场合 3.较易命题 1.仅能测量机械记忆的知识 2.若命题者不理解限于采用同质性资料以及提供超量选项的重要性，则会出现暗示 1.限于使用同质性资料 2.选项的数目要多于题干的数目，且不限制每个选项被选择的次数 3.指导语要叙述清楚 4.安排卷面要易于理解、易于评分各类试题类型的优缺点及命题原则学生学业测量和评价

信度：指同一份试卷两次或多次测试程度 大致相同的考生，考试得分相符合的程度。若两次考试成绩基本一致，说明考试信度高，反之则低效度：指考试结果的有效程度，即用某种量具对某一对象测得的结果与欲测的结果相符合的程度。某次考试效度高，意味着考试所测到的内容恰恰是需要测试的内容；而效度低或根本没有效度，说明需要测试的内容没有完全测到，或完全没有测到试题和试卷的四个质量指标难度：衡量试题难易程度的质量指标；指试题对应试者实际水平的适合程度区分度：指试题能对应试者水平差异的鉴别能力；区分度好的试题能把不同水平的考生成绩区分开试题和试卷质量指标学生学业测量和评价

质量指标 表示方法举例1 举例2 备注难度常用考试中答对或通过某题人数在整个应试者中所占的比例来表示（P）问答题：P=X/a P：难度值即答错率 X：全体应试着的失分数的平均值 a：该题满分值选择题：P=R/N P：难度值即没有通过率 R：选错某题正确答案人数 N：应考人数试题的难易程度一般控制在P值0.4～0.7之间；试题的平均难度即P值控制在0.5～0.6之间。 P值在0.4以下和0.8以上的试题，应少用或不用区分度以D表示，其值处于-1至1之间，即－1≤ D≤1 D=1：试题能准确鉴别应试者个体水平差异； D=0：该题无区分能力； D= － 1：考试分数与应试者的实际水平相反 D=PH－Pt D：区分度 PH：某题高分组的通过率或答对率 Pt：某题低分组的通过率或答对率积差相关计算法点二列相关计算法（略）所谓高低分组是指考生在该题得分以从高到低排序，两端各取27%的考生组成高、低分组。鉴别能力好的试题，D值在0.5～0.65；较好的在0.4～0.5，在0.3以下，不宜采用一份试卷要求P和D呈现一个合理的分布，即不是所有试题都是高难度和高区分度，或相反。一份试卷的难易程度由难易程度不等的各试题组成。高和低难度试题宜各占1/3～ 1/4,其余为一般难度的试题。区别度也如此。不过，对于择优型测试，D值应偏高质量指标列表学生学业测量和评价

质量指标 表示方法举例提高质量指标的方法信度折半法、再测法及等值法计算一次考试等值的两部分得分以及两次等值考试得分之间的相关系数 1.严格按照程序编制试题和纸卷，最大限度控制施测过程中无关因素的干扰，如泄露试题或考场纪律差；2.扩大题量，降低某一试题比重3.总之即增加试题和试卷编制的科学性和控制随机误差效度效度指一次考试结果与主试者主观愿望的符合程度。常用的两种考试效度：预测效度，内容效度预测效度：考试在预测应试者将来从事某种学习或工作能够达到应有水平方面的有效程度。通常是求考试实得分数与能够体现考试目的的效标分数之间的相关系数。如选拔性考试内容效度：测到的内容与需要测到的内容相符合程度不能以考试信度高低作为衡量该次考试效度的标准信度较高只表明所测到的内容较好地反映了考生的水平，但没有回答所测到的内容是否反映了全部要测的内容一次考试的信度高仅是效度高的必要条件，而不是充分条件续前表学生学业测量和评价

考试时，须从全部符合要求的试题中抽取以部分作为试题考试时，须从全部符合要求的试题中抽取以部分作为试题抽样的两种方式：在一门课程中随机抽样；将一门课程先分解为若干单元，在各单元中随机抽样。后一种方法能保证试卷有较大覆盖面随机抽样的基础性工作即建立题库即将经过筛选，符合标准的题目填卡、编目，输入计算机，便于在需要时很快拼配出试卷步骤3.通过随机抽样编制试卷学生学业测量和评价

所属学科 试题原文：试题号题库编号测试结果统计分析资料试题来源使用情况正确答案编题人编题目题库试题卡样式题库试题卡样式（正面）题库试题卡样式（反面）学生学业测量和评价

制定实施考试方案 印刷试卷设置考场施测阅卷评分分数转换统计分析编写考试分析报告步骤4.实施考试，取得信息实施考试的7个基本环节如下：学生学业测量和评价

定义举例备注名义量表与分类有紧密联系，它是对被测量变量仅作的定性描述单项选择题，可供选择的答案有四个，但答案只按对或错两类加以区分低水平的量表，但在心理与教育测量中应用广泛位次量表用来反映事物相对顺序关系的分值来表示的一种量表如高校科研投入排序只能解决同类比较重先后次序，却不能在不同排序之间进行加减运算原因是位次排序之间是不等距的间距量表具有相同计量单位（单位间的距离是确定的）变量不具有相同的零点。数值可以作加减运算，但不表示倍数关系比率量表等距、等质，具相同的零点，因此可作四则运算如将一次考试的原始分数转换成标准分数，就符合比率量表的要求步骤5.阅卷评分量表：是一种用以测量的工具四种量表斯蒂文斯（S.S.Stevens）《论测量量表》学生学业测量和评价

由于不同考试科目之间的难度及考试过程中各环节质量的可控程度不一致，因而，对于不同科目的考试而言，原始分数之间不具可比性，失去了不同科目考试分数相加的条件由于不同考试科目之间的难度及考试过程中各环节质量的可控程度不一致，因而，对于不同科目的考试而言，原始分数之间不具可比性，失去了不同科目考试分数相加的条件原始分数的转换，是以常模为标准参照点，把原始分数变为具有同一计量单位的分数标准分数表示考生的成绩在考试总体中的位置。既可以把某考生的分数与其他考生的分数比较，也可与该生不同科目或不同考试中的分数比较模糊量表是名义量表（分类描述）在更高层次上的推广由于实际测量活动的复杂性，需要依据阶段不同使用两种以上的量表综合使用量表学生学业测量和评价

统计分析的目的：对整个考试结果进行全面检验，获得各种反映试题及考试质量指标的数据，以判断考试是否可靠有效，是否符合规定的考试目的。同时找出教学过程中的薄弱环节及问题，提出改进措施统计分析的目的：对整个考试结果进行全面检验，获得各种反映试题及考试质量指标的数据，以判断考试是否可靠有效，是否符合规定的考试目的。同时找出教学过程中的薄弱环节及问题，提出改进措施统计分析的内容：整个考试分数的分布情况，试题和试卷难易程度，信度、效度是否达标等举例：就某门考试，分析考试分数的分布问题汇集全班考试的原始分数；分组；计算组距；计算每一组的下限值；分组统计各组的频数（即每组内人数）；画出考试成绩分布曲线；分析失分原因（可用因果分析图）；列出对策步骤6.考试结果的统计分析与对策学生学业测量和评价

4 3 分析失分原因（如因果分析图） 2 1 收集数据，作出相关统计考试结果的处理环节列出对策画出考试成绩分布曲线学生学业测量和评价

因果分析图（鱼刺图） 平时测验少教师学生粗枝大叶授课时间安排不当综合能力差缺乏管理实践能力缺乏教学经验综合练习少计算能力差青年教师教学目标不甚明确实践环节太少内容繁杂筛选不当重视不够缺乏了解不是专用教材联系实际差考试太仓促教学管理教材学生学业测量和评价

序号存在问题相应措施落实人员 1 教材内容繁杂 1.针对教育目标筛选 2.自编讲义 2 教师缺乏管理实践经验 1.有目的地参加教育管理活动 2.参加有关课题研究 3 教师缺乏教学经验 1组织相互听课 2.交流经验 3.向老教师学习 4 学生综合能力差 1.平时加强对实际问题的综合研讨、交流 2.组织课题小组 5 教学目标不甚明确 1.召开座谈会、了解教育对象 2.根据教育目标重新设计教学环节对策表学生学业测量和评价

如何结合实际，进行一次考试后的统计分析和对策分析如何结合实际，进行一次考试后的统计分析和对策分析你对试题库的看法？如何建立你所教课程的试题库？测量的信度、效度、难度与区别度的概念及计算 1 3 2 思考学生学业测量和评价

Thank You !

学生学业测量和评价

学生学业测量和评价

Presentation Transcript