A méltányosság nyomában: A nemek szempontjából eltérő itemműködés (DIF) vizsgálata német nyelvi ECL beszéd- és szövegértés feladatokban
Abstract
Doktori értekezésem központi témája a beszéd- és szövegértés nyelvvizsgafeladatok érvényessége, megbízhatósága és méltányossága. Célom olyan kvantitatív és kvalitatív minőségbiztosítási módszerek bemutatása és olyan kvalitatív módszerek kifejlesztése, amelyek hozzájárulnak ahhoz, hogy a vizsgázók nemüktől, koruktól, anyanyelvüktől és származásuktól függetlenül egyenlő eséllyel vegyenek részt a nyelvvizsgán.
Jelen értekezés a 2018 és 2019-es években felhasznált német nyelvű B2 szintű feladatsorokra koncentrál, a megnevezett időszakban a teljes vizsgázói létszám itemszintű eredményeit dolgozza fel. Az értekezés célja egyrészt annak felderítése, hogy az ECL beszéd- és szövegértés vizsgafeladatok tartalmaznak-e olyan itemeket, amelyek megoldásában szignifikáns különbség mutatkozik a különböző nemű vizsgázói csoportok között, és ezáltal hátrányba vagy előnybe helyezik valamelyik csoportot. Másrészt az értekezés az eltérő itemműködés okait kívánja feltárni azáltal, hogy vizsgálja az adatokban található esetleges rendszeres mintázatokat, illetve felderíti, hogy a vizsgált itemek valóban előnyben vagy hátrányban részesítik-e a vizsgált nemi csoportok valamelyikét, ezáltal torzítva az eredményeket.
A kutatás kevert módszertanú, a kvantitatív kutatás a klasszikus és a probabilisztikus tesztelmélet segítségével feltárja az esetleges mérési hibákat, a kvalitatív módszerek célja pedig az eltérő itemműködés és az esetleges torzítások okainak feltárása, és olyan eljárásmódok kidolgozása, melyek a torzítás kiküszöbölésére alkalmasak. A Rasch-alapú DIF-elemzés összesen 13 beszéd- és 17 szövegértés item esetén tárt fel eltérő itemműködést, vagyis a beszédértés itemek 6,5%-a, a szövegértés itemek 8,5 %-a bizonyult DIF-nek. Az érintett itemek tartalomelemzésére kérdőíves módszer és mélyinterjúk segítségével került sor.
A kutatás eredményeként beigazolódik a hipotézis miszerint az ECL B2-es szintű német nyelvi beszéd- és szövegértés feladatokban az éles vizsgát megelőző és azt követő minőségbiztosítási eljárások sokfélesége miatt csak korlátozott számú, a nemek szempontjából eltérő működést mutató item található, a DIF-itemek jelenléte azonban nem okoz szignifikáns különbséget a férfi és női vizsgázók feladatszintű teljesítményében. Az eredmények alapján a feladatok tehát valóban tartalmaznak DIF-itemeket, melyek megoldásában szignifikáns különbség mutatkozik a nők és a férfiak csoportja között, de a tapasztalt különbségek nem magas arányúak, és nem befolyásolják érdemi módon az eredményt, mivel a két vizsgázói csoport feladatszintű teljesítményében nem mutatkozik szignifikáns különbség. A tartalomelemzés alapján mindössze két beszédértés item esetén észlelhető torzítás. Az elemzés ugyanis ezen itemek esetén feltárta, hogy az itemek a szöveg ismerete nélkül is megválaszolhatóak, a kérdéseket a férfi vizsgázók pedig vélhetően a témával kapcsolatos háttértudásuk segítségével válaszolták meg. A többi vizsgált beszéd- és szövegértés item esetén az item nehézségét a lexikai hiányosságok, a szöveg értelmezésének nehézségei, a kulcsszavak figyelmen kívül hagyása, valamint a szöveg komplexitása okozta, és nem a nemek közötti különbségek. Az eredmények alapján nincs empirikus bizonyíték arra, hogy bármelyik itemtípus vagy az item más jellemzője szisztematikusan előnyös vagy hátrányos helyzetbe hozná valamelyik vizsgázói csoportot, és ezáltal veszélyeztetné a vizsga érvényességét és megbízhatóságát. A vizsgált DIF-itemek struktúrája terén azonban tapasztalhatóak szisztematikus mintázatok. E mintázatok figyelembevételével a kutatás eredményeként egy modellt hoztam létre, amely a tesztírás szakaszában alkalmazható és hozzájárulhat a nemek, életkor, nemzetiség és kulturális háttér szempontjából torzításmentes tesztek készítéséhez.