留学美研考试GRE如何判断issue题目中的逻辑公式?算分规则解读_美国留学网

留学美研考试GRE如何判断issue题目中的逻辑公式?算分规则解读
美研DIY申请GRE考试留学干货
作者: 美国留学网
发布时间: 2022-10-27 14:59:57
本文的标题是:留学美研考试GRE如何判断issue题目中的逻辑公式?算分规则解读

  留学美研考试GRE如何判断issue题目中的逻辑公式?算分规则解读

  美研考试ETS几乎所有的考试都不会公开其精确的算分规则,所以语培老师们也就会孜孜不倦地研究各种考试的算分规则。

  GRE分为普通考试(General Test)和专业考试(SubjectTest)两种,考生可以根据自身条件和所申请学校的要求参加其中一项或两项考试。GRE general测试的特点是考试内容涵盖面较为广泛。该测试涉猎几乎所有领域,但同时又做到即使对某个领域不是很了解,但是通过超群的逻辑思维能力也可以正确回答问题。此外,GRE测试十分注重对于考生能力的考察,由于参与该测试的考生即将成为专业领域的人员,因此对于学生的真实水平要求是很高的。分析能力考试主要测试考生的分析推理和逻辑推理、判断能力,这种能力无需学过形式逻辑或数学,但需考生在已形成的能力中具备一定的逻辑推理能力。美国研究生GRE

  而GRE subject测试的目的则在于测试考生在学科领域或专业领域中所获得知识和技能以及能力水平的高低。目前专业考试只安排如生物学、化学、计算机等约20个学科的考试。相对GRE general测试而言,GRE subject测试则侧重了单一科目的深入水平,而非总体水平。(陈娟.美国研究生入学考试类型分析与思考[J].理工高教研究,2005(06):43-44.)

  即使GRE general测试中所有的题目均为选择题,然而由于该测试为难度自适应考试,即会根据考生的答题情况调整难度以及评分标准,因此缺乏公认精确可靠的评分准则,很多学生在正式测试之前进行的模拟测试总会难以估计考生的真实水平,并且也不能在正式测试之后及时发现考生具体弱项的失误而没有达到理想的分数。因此模糊的评分标准对于考生查缺补漏以及考情分析中都会有着很强的阻碍作用。

  GRE general测试分为两个半场,三个部分以及6个小节,每个半场有3个小节。三个部分分别为阅读逻辑(verbal reasoning),数学逻辑(analytical reasoning),以及逻辑写作(analytical writing)。

  阅读逻辑,即语言能力测验,主要考察学生所具有的语言知识,词汇水平以及逻辑思维的综合能力。

  数学逻辑,即定量能力测验,通过定量比较和数学测试来考察考生是否能在短时间内迅速做出判断的能力,包括判别比较,数据归纳分析基础等内容。

  逻辑写作,即分析能力测验,考察考生是否能根据特定的场景,来迅速分析事物之间的内在联系以及逻辑关系。

  在考试的前半场中,首先进行的小节一定是逻辑写作部分,作文部分过后会随机出现数学或者是阅读部分,但是在前半场中必定会出现一次数学与一次阅读小节。后半场中的三个小节会根据前半场的数学和阅读的答题准确率进行难度自适应,总共分为三大种难度,即easy,medium和hard三种模式。并且在后半场中,不会出现写作部分,前半场中仅次于写作出现的小节的科目会在后半场中出现两次,其中一次为加试。举个例子,假设v表示阅读,q表示数学,w表示写作,那么出题顺序就如1-1或1-2两种情况:

  考试过程正如上所述,我们发现共有3个阅读小节或者是3个数学小节。当出现3个某种小节时,会随机地将一个小节改为加试部分,加试部分是不计分的,但是系统将会核对加试部分的准确率是否与计分部分的准确率相似并且对总体计分部分的分数进行调整来构成最终分数。阅读与数学部分满分均为170分,分值最小间隔为1分。写作满分为6分,分值最小间隔为0.5分。因此测试最高成绩为170+170+6,但是即使所有问题均回答错误,作文也没有完成,最低分仍然有130+130+0。对于中国考生而言,数学逻辑部分属于中国考生的强项,大多数英文能力较好的同学都可以获得165分以上的成绩,甚至满分的学生也数不胜数。并且对于写作部分,大多数学生均会获得3分,无论学习该测试时间长短,对于我国学生而言,假如出国留学选择理工科的专业,那么作文分数3-3.5分也足以达到大多数学校的标准,因此写作也并非难事。然而对于verbal部分,中国的考生平均分只有146分,低于世界平均水平,并且又由于该测试的阅读部分难度较大,所以verbal部分也是大多数学生关注的部分,也是许多学生进行多次考试反复攻克不下该测试的原因。

  本文主要利用统计学的相关知识,根据他们verbal部分的考情诊断(每场考试结束后会有一次免费的成绩诊断)采集出相关的数据并进行整理,并根据该数据进行分析,并最终得出相对可靠的能合理估算学生具体学习程度的结果。

  Verbal reasoning部分内一共有两大类题型,分别为填空逻辑与阅读逻辑。

  填空逻辑下分为单空,双空以及三空题,阅读逻辑分为短文章,中文章以及长文章还有逻辑单题几种题型。每个verbal reasoning部分总有20道题目,填空逻辑10题,阅读逻辑10题。前半场总是会出一个中等难度的阅读部分,并且根据错误状况来进行后半场难度的调整。而官方对于每道题也有其量化的数值等级去评定,分为1-5共5个难度等级。对于不同难度的差别较大,假如进入了简单难度,即使后半场阅读部分全部正确,得分也只有150分左右。而这个分数对于进入了中等难度的同学而言,后半场的计分小节即使错12-15个也可以达到。因此后半场的难度评定标准对于我们正在准备该测试的同学们而言就显得十分重要。

  而这也是本篇文章的研究价值,能够帮助走在留学路上的学生们更清楚自己的实力并针对自己的实际情况制定更适合自己的学习方案以及考试安排。

  留学美研考试GRE如何判断issue题目中的逻辑公式?算分规则解读

  计算机自适应模型相关文献及先前研究

  综上叙述,GRE general测试其实是一种计算机难度自适应测试,即同一场测试不同考生面对的是不同的题目。因此若想对GRE general测试有更深的了解,先研究计算机难度自适应考试以及这种系统的工作原理是必要的。

  计算机自适应测试应用到的基本假设

  计算机自适应测试,全称computerized adaptive testing(CAT),是以计算机技术为手段,根据答题者的答题情况,因人而异的选择出题的题目难度的测试。测试也属于计算机自适应测试中的一种,但是与大多数计算机自适应测试的不同点就是其他的测试会在每一道题的基础上对下一道题进行难度判断,即以题目为单位进行逐题判断,而GRE general测试则会根据第一小节的回答情况对第二小节进行判断,即以小节为单位进行判断。

  但是若想具体研究该类测试,研究其基本原理是必要的,即项目反映理论(IRT)的重要内容。GRE general项目反映理论中其中有一项较重要的假设,即项目特征曲线函数,如下:

  该函数反映的是被测试的对象的能力和其对于所作的测试的反应正确概率之间的函数像。即横轴为被测试者的真实水平,纵轴为对于特定题目测试对象回答正确的概率。那么不难发现,对于项目区分度a,即测试项在多大程度上能区分被测试者的能力,这一指标,反映在中就是曲线在横坐标为0的切线斜率。而另一指标,项目难度b,则是可以对曲线进行横向平移,假如被测试者水平为1,题目难度也是1,那么就相当于将(0,0.5)这一点,横向移动到了(1,0.5)这一点。指标c,指的是猜测对于实验造成的影响,即假设被测试者一无所知,随机猜测某个选项,正确的概率是c。由于在GREgeneral测试中题型均为选择题,因此对于本文的研究主题,c的存在是合理且有意义的。

  基于本条基本原理,GRE等计算机自适应测试才得以萌生。我们可以将这种对于某一道题的原理类比到整个一个小节上,第一个小节的总体答题情况会被ETS系统记录,并且其内部有其独特的算法与评分标准,记录过考生第一小节的答题情况后,会根据其正确率进行小节2的难度分级与归类,与上不同的是,GRE general测试是整个小节答完后合并评估再出下一个小节整小节的题目。而经过推算后,系统会给出一个最适合考生的题目难度进行考核,最终给出学生接近真实水平的评价。根据前文提及的曲线含义,对考生区分度最大的题目就是跟考生程度最相当的题目,也就是中曲线斜率最大的点。对于每个考生,该点的横坐标可能不一致,而计算机自适应测试做的正是将题目难度做到匹配考生能力,此时的评分才是最具有代表性的。(汪泽,陈纪梁.计算机自适应考试:GRE考试成绩分析(英文)[J].Teaching English in China,2004(01):12-17+126.)

  此外,相关文献表明,这种计算机自适应测试有内部的提要电子评分器系统。开发电子评分器评分模型通常是一个两阶段的过程:模型构建和模型评估。以考生的得分为变量,对电子评分模型进行训练和评价。电子评分器模型的质量和模型在操作环境中的有效运行在一定程度上取决于训练样本和测试数据的性质和质量。

  计算机自适应测试的基本原理与步骤

  根据以上所述,简而言之,计算机自适应测试的基本思想就是,只有当项目难度与被测试者的真实水平相当,函数提供的信息量(即对被测试者的区分度,形中的斜率a)才最大。因此如果想让测试更为准确,误差更小,测试效果更理想,我们必须根据被测试者的能力水平进行题目选取。因此,我们需要经过一系列算法选择与被测试者能力相当的题目来进行测试。美国GRE考试

  首先,选择一个基本的项目进行测试,然后我们根据被测试者对于该项目的反应来初步计算被测试者的能力值。然后根据该能力值,选择下一道题目,进行测试。换句话说,就是逐步确定被测试者能力的最终水平。然后到达了规定的步数或者精确程度后,测试终止,输出我们函数中的横坐标(即被测试者的水平)就可以完成对被测试者的考核。

  采取计算机自适应测试的优缺点

  明确了该种测试机制之后,我们不难发现,进行该项考试之前必须建立系统题库,并且对每道题进行难度评估,而这样也就防止了所谓的超纲题,以及无用题的产生。使题目难度都在测试范围内,避免应试者遇到与能力不符的题目。并且与传统测试想比,计算机自适应测试可以更加直观的反映测试题目的难易程度。并且利用系统出题(例如GRE测试)时,可以保证大概每场测试的难度水平平均一致,保证了测试的准确客观性,增加测试的准确率。并且最重要的一点,就是在测试中,测试者彼此由于水平不尽相同并且出题具有随机性的特点,可以在最大程度上避免了抄袭的产生。也就是说应试者在测试过程中只能依靠自己的能力进行回答,不能徇私舞弊,这样也保证了测试的真实性,考试过程彰显应试者自身实力,也能对应试者的能力综合判断提供有效的判断依据。这也是许多海外大学要求GRE以及GMAT等难度自适应测试成绩的原因。

  但是自适应测试也有一个致命的缺点,就是其有固定的题库,假如考生仅靠背诵答案,就能将题库中的题目记住并且作答。

  针对此项缺点,ETS官方因此进行了定期新题目注入与限制测试次数的措施。这样一来,就能弥补该缺点给测试带来的不准确性。总体来讲,这一类计算机自适应测试仍然比传统测试有着很大进步。

  数据获取

  数据获取是本次研究中比较困难的一个问题,起初采用了调查问卷的形式进行初步数据收集,但是处理数据后期发现几乎所有数据均不可用,原因是本次数据要求的十分详细,并且获取过程较为私密,且全程为英文界面,并需要学生本人登陆ETS官方网站并且要通过链接进入最后的考情诊断界面。在考生本人进入该界面后,需要完整的保存整个网页(有直接输出成绩报告的链接),才作为一条有效数据。但是由于很多学生的不配合以及英文水平不足,在整个过程中会有很多学生由于耐心不足放弃配合,导致许多数据残缺以及数据无效。

  因此,针对学生提供的这部分原始数据,首先要做的就是清除无效数据,将残缺的数据拒均直接整条删去后,原本就不足的样本量更是大幅缩水。当最后发现这个问题很严重的时,采集数据的方法也有所转变,我向多个GRE教师提出请求,需要他们协助收集完整而权威的GRE测试成绩诊断报告以及最终分数的文件截。最终获取到了大量学生的GRE general测试的成绩诊断报告,与真实成绩截,进行核实后,并且对其进行录入,转换成需要的信息构成样本。同时将问卷收集的数据以及后期获取的数据两部分合起来构成了最终完整的原始数据。

  由于数据较为特殊,所有自变量均为整数型,因此对于数据收集后的处理过程也较为容易。在收集过程中采用了按照成绩从高到低的排序顺序来进行,为方便训练集和测试集的抽取,将数据打乱后重新进行编号,最终构成了可供研究的样本空间。

  变量选取

  本次研究的数据主要需要满足以下几个目的:

  首先要保证可以通过数据反映出学生每个半场中计分的阅读小节错题数量,以及每个错误题目的难度等级。并且要根据后半场的小节各种难度的题目的数量来辨识这个小节的难度等级(简单、中等还是困难)。美国留学标化考试

  因此,为简化数据获取难度,首先选取自变量第一verbal小节错误难度等级为1-5的每种错题数量,第二verbal小节错误难度等级为1-5的每种错题数量,这样可以具体量化到底各小节中错误难度等级数量,便于小节内部分析学生错误情况。

  此外,为了方便研究在何种情况下学生才会进入到各个难度,就采用以下自变量来反映第二verbal小节的难度:第二verbal小节中难度系数小于2的题目数量,和第二verbal小节中难度系数大于4的题目数量。这样,我们不仅掌握了小节内的答题情况,也掌握了小节之间的相互决定关系。因变量当然就是GRE general测试中verbal最终获得的分数。

  建立模型与分类讨论

  根据前人研究经验,以及计算机自适应测试还有ETS官方考试指南对于GRE测试的研究和指导,首先应当根据小节1的情况来判断小节2的难度。并且由于小节2又有3种难度分级,因此第一步应当根据小节2的题目难度进行初步聚类,在聚类之后,再逐步对于每种情况进行分析。

  聚类分析

  首先采用R语言中的scale函数对自变量提取并补充小节2中难度为3的题目数量作为聚类自变量,并对数据进行中心化与标准化。中心化即指数据集中的各项数据减去数据集的均值,标准化即中心化之后的数据除以数据集的标准差,即数据集中的各项数据减去数据集的均值再除以数据集的标准差。而这两者的目的均为消除量纲对于数据结构以及研究结果的影响。

  在数据标准化之后,我们采用K平均法进行聚类分析。而K平均法的基本流程即,首先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。

  终止条件可以是以下任何一个:

  ①没有(或最小数目)对象被重新分配给不同的聚类。

  ②没有(或最小数目)聚类中心再发生变化。

  ③误差平方和局部最小。

  在R语言中,采用factoextra程序包可以更简便的利用K均值法进行聚类分析。前置ggplot2包,之后进行基于R语言的聚类。

  在确定了聚类的个数后,接下来对于每一类到底错题的难度等级和数目如何决定最终的分数。首先我们观察一下对于每一类,难度系数小于2与难度系数大于4的题目数量是如何分配的。因此做出每一类中难度等级小于2和难度等级大于4的题目数量箱线来进行比较。

  留学美研考试GRE如何判断issue题目中的逻辑公式?算分规则解读

  下文将对三种模式分别进行回归,根据回归系数再最后进行拟合。

  easy模式

  对easy模式的数据进行简单分析之后,我发现easy模式下小节2中的题目难度等级为5的题目本来就数量极少,且样本中没有人错误小节2中难度等级为5的题目,因此在回归中将nd5这一变量删去。经过简单线性回归,我们得出下表:

  lm.E=lm(Y~.,data=E)

  从上表我们可以看出,模型整体拟合效果较好。R方在实际问题的研究下也算表现的不错,全模型F检验p值较小,说明全模型显著。而对于模型内部的十个自变量,我们就可以更加清楚的看清楚他们对于最终分数所占有的权重。而且各个自变量显著性也表现良好。但是我们注意到小节2错误难度等级为5的题目数量仍旧不显著,出现这样结果的原因就是在easy模式中,我们很少会看到难度等级为5的题目的出现,因此对于错题难度为5的情况也十分罕见,因此想要具体了解在easy模式中错误题目难度为5的题目数量对于最终结果的影响,理论上应当增加样本量,并且稍有针对性的多搜集一些我们现在确实的这种情况的样本,可以避免这种模型中的小瑕疵的产生。

  medium模式

  lm.M=lm(Y~.,data=M)

  在medim模式中,首先我们观察到截距项比easy模式高了2,且考虑到进入medium模式的前提条件,我们就不难发现进入medium模式其实与进入easy模式的考生们发生了质的改变。再看模式重视的题目种类,我们可以发现,对于小节2中难度等级为1的题目在本模型中并不显著,因此我们可以提出猜测,即进入medium模式中从某种程度上来讲小节1中难度等级为1的题目并不被重视作为评分标准之一。接下来我们分析一下各自变量的估计值,我们可以发现,在小节2中,难度等级相同的情况下,medium模式错误扣分会比easy模式小得多,因此争取进入下一难度模式才是提高分数的最直接手段。最后看一下全模型表现,模型R方与调整的R方均表现良好,F检验显著,模型有效。

  hard模式

  而进入hard模式之后,我就发现数据确实存在了一些问题,由于hard模式下,聚类个数仅有10条,但是我需要回归出10个系数,因此数据较少导致该部分需另换策略。因此,针对hard模式,我本来运用的方法是对全样本集的所有进入hard模式中的90%进行回归,当作训练集,并利用剩下的10%当作测试集。但是发现进入hard模式的人数在本文的样本中确实不够,因此,考虑根据实际意义对于自变量个数进行删减。根据GRE多年教师的访谈,我了解到对于GRE测试,假如能进入到hard模式中,那么小节1中的低难度错误率应当很低,在本次研究中,经过对数据的观察,我发现小节1中仅有1人错误难度等级为1的题目,并且小节2中仅有2人错误难度等级为1的题目且hard模式中难度等级为1,2的题目特别少,因此将这三个自变量删去,因为其不具有研究的实际意义,但今后若有人能收集更多hard模式的数据,可以对本模型进行进一步的修改使其更加准确。并且在聚类过程中,有一条数据的干扰,十分影响结果,有一条最终得分为149的同学,由于其大多数题目相比一般medium难度来讲,难度等级为3,4,5的居多,因此被错误的分到了hard组,因此在建模过程中对该条数据进行剔除处理并重新建立模型。

  lm.H=lm(Y~.,data=H)

  结果在我们的预料之内,我们可以发现,截距比medium模式高出了5,但是进入hard模式相当于踏入了危机重重的高风险区域。通过观察自变量系数的估计值我们可以发现,倘若进入了hard模式,那么对于超低难度的题目看的也不是很重要,从样本就可以看出,首先很少有人错误该种题型,且通过分析估计值我们很容易发现小节1中对于2,3难度等级的题目也看的稍微不是特别重要,但是小节2中难度等级为3的题目却出乎预料的大。经过思考,我分析,应该是由于对于高层次的学生,错误难度等级为3的题目已经是致命错误,可能是由于马虎或者是对于难度等级为3的知识点掌握不牢导致,而GRE的高分是要给那些基础掌握较牢靠的同学的,况且小节2中出现难度等级为3的题目数量本来就很少,因此错误这些低难度的题目对于高分同学来讲是致命的。模型由于样本较少,后续研究若可以扩大样本量,定能让本研究更具准确性。R方表现过于良好,可能也与样本量有关,全模型F统计量极其大,模型显著。

  模型检验

  在模型完成的基础上,由于在建模期间留出25%左右的样本作为本次模型的测试集,因此根据上文的模型,应当将剩下的这25%的数据首先进行类别判断,即判断该样本到我们训练集中已经判断过的三大类的中心的距离的大小。然后根据其与每类的距离判断其具体的归类,最后再根据具体的类别的回归系数进行最后的估计。

  即首先引入已知变量:

  以上三个变量均可通过训练集得到,因此为已知变量。然后我们需要根据待测样本到已知三大类的重心的距离的大小关系来判断到底该样本属于哪一类,并且根据其的类别来选择具体的回归曲线进行拟合。

  横纵坐标含义与简单模式下相同,对于中等难度模式下该模型表现良好,数据集中也是中等难度的样本较多,因此模型总体回归表现良好,两条线几乎重合。估计值与真实值之间的差别较小,该模式下研究比简单模式更为精确。

  综上所述,当考生进行过一次模拟测试并且归纳出每种难度等级错误的题目数量之后,首先应当根据小节2中的两类题目数量构成的二维向量与已知的三类中心的距离即

  留学美研考试GRE如何判断issue题目中的逻辑公式?算分规则解读

  GRE考试如何判断issue题目中的逻辑公式搭配

  GRE作文中,Issue题目思路非常灵活。如果在考场上临时去构思,肯定会耗费很多时间,同时也有走题的风险。美国GRE备考

  因此,建议大家用我总结好的公式法来应对灵活的issue题目。

  但是,有些题目可能会同时匹配到2个公式,那我们要怎么判断哪个公式更合适呢?

  标准很简单,哪个更容易展开论述,我们就选哪一个。

  解析

  这是一道典型的双观点题目,两个观点都要涉及到(双观点中,两个观点的逻辑公式是一样的)

  这道题目,很多同学会认为是N应该做某事,对应的逻辑是学生应该按照…来选课。乍一看,这个选择没有什么问题。

  但是N应该做某事侧重讨论的是影响。

  言外之意,为了支持某一方,我们必须分两段来论述影响。

  那么问题来了,我们要写两种不同性质的影响,同时展开大约120-150词左右的论述,难度较大。

  另外一个公式是:N应该对M做某事

  讨论的思路是N的责任,对M的影响以及可行性问题(分分钟可以写三段)

  N可以是college的责任(促进社会发展),M是对学生的影响(积极、消极都可以),再写一段针对对立面的观点就可以了。

  相对比之下,这个公式的拓展难度会小的多哦!

  GRE general测试对于许多有出国留学意向的本科毕业生是必要的一项测试,但对于其余大多数人对于本测试甚至闻所未闻,因此在对GRE general测试研究之前,本文首先介绍GRE general测试的相关内容以做铺垫。

  GRE general为美国研究生入学测试,全称为Graduate Record Examination,由ETS(美国教育考试服务处)主办。本测试主要体现申请人的综合逻辑能力,是美方大学用来评判奖学金以及是否录取改同学的重要标准之一,并且适用面相对来讲十分广泛。

万佳留学助手
猜你喜欢
最新文章
Offer案例
最热文章