KAPITTEL 7

Rammeverk og metoder

Torgeir Onstad og Liv Sissel Grønmo

7.1 Om TIMSS Advanced

TIMSS er en stor internasjonal undersøkelse av elevers kunnskaper og ferdigheter i matematikk og naturfag. Forkortelsen står for Trends in International Mathematics and Science Study. TIMSS samler inn et bredt utvalg av data om elevenes prestasjoner i disse fagene med sikte på sammenlikninger nasjonalt og internasjonalt. Sentralt i studien er å kunne gi gode beskrivelser av utviklingen over tid, såkalte trender i fagene. Studien samler også inn viktige bakgrunnsdata i spørreskjemaer til skoleledere, lærere og elever som skal kunne bidra til å forstå forskjeller i og utviklingen av prestasjoner.

Den første TIMSS-studien ble gjennomført i 1995, med populasjoner på barnetrinnet, ungdomstrinnet og i videregående skole. Undersøkelsene i videregående skole kalles TIMSS Advanced. Norge har deltatt i de aller fleste TIMSS- og TIMSS Advanced-studiene. TIMSS gjennomføres regelmessig hvert fjerde år, senest i 2015. TIMSS Advanced har blitt gjennomført i 1995, 2008 og 2015.

TIMSS Advanced består av to populasjoner på øverste trinn i videregående skole:

I 1995 deltok Norge i studien av fysikkspesialistene, men ikke i studien av matematikkspesialistene. Myndighetene ønsket likevel en undersøkelse også av matematikkspesialistene, og i 1998 gjennomførte man den samme matematikkstudien i Norge som hadde vært gjennomført internasjonalt i 1995 (Angell et al., 1999).

Det at Norge gjennomførte matematikkundersøkelsen i etterkant av den internasjonale studien, hadde visse konsekvenser. De norske matematikkresultatene kom ikke med i den internasjonale databasen, og var ikke med i grunnlaget for den standardiserte skalaen og beregningen av det internasjonale skalerte gjennomsnittet. Det betyr at det er noe større usikkerhet forbundet med norske matematikkdata fra 1998 enn det ville ha vært dersom Norge hadde deltatt i 1995. Vi får likevel et godt inntrykk av hvordan Norge gjorde det i 1998 i forhold til andre land i 1995, slik dataene ble analysert i den norske rapporten den gang (ibid.). Men siden vi ikke deltok internasjonalt i 1995, er de norske matematikkresultatene fra 1998 ikke med i de internasjonale rapportene, bare i de norske rapportene.

Tabell 7.1 viser de landene som deltok i TIMSS Advanced i henholdsvis 1995, 2008 og 2015.

Tabell 7.1 Deltakerland i TIMSS Advanced i 1995, 2008 og 2015. Land som har deltatt flere ganger, er gulfarget.
Land Deltok i 1995 Deltok i 2008 Deltok i 2015
Armenia X
Australia (X)
Canada X
Danmark (X)
Filippinene M
Frankrike X X
Hellas X
Iran X
Israel (X)
Italia M X X
Kypros X
Latvia F
Libanon X X
Litauen M
Nederland X
Norge Fm X X
Portugal X
Russland X X X
Slovenia (X) X X
Sveits X
Sverige X X X
Tsjekkia X
Tyskland X
USA (X) X
Østerrike (X)
X: Deltok på ordinær måte i begge fag
(X): Deltok, men med for små utvalg
M: Deltok bare i matematikk
F: Deltok bare i fysikk
Fm: Deltok ordinært i fysikk, men avholdt matematikkstudien i 1998

Totalt har altså 25 land deltatt minst én gang i TIMSS Advanced. Av de ni landene som deltok i 2015, har åtte deltatt én eller to ganger før.

Organisering

Det overordnede ansvaret for utviklingen og gjennomføringen av alle TIMSS-studiene, deriblant TIMSS Advanced, ligger hos den internasjonale organisasjonen IEA (International Association for the Evaluation of Educational Achievement). IEA er et internasjonalt nettverk for utdanningsforskning som ble etablert i 1959. Det internasjonale prosjektsenteret er lagt til Boston College i USA. Ansvar knyttet til statistisk design og databehandling er delegert til Data Processing and Research Center i Hamburg og Statistics Canada i Ottawa.

I Norge er det Utdanningsdirektoratet som på vegne av Kunnskapsdepartementet har ansvaret for norsk deltakelse og bevilgning av midler. Ansvaret for gjennomføringen av og rapporteringen fra studiene er delegert til Institutt for lærerutdanning og skoleforskning (ILS) ved Universitetet i Oslo. Prosjektet er der organisert med en prosjektleder og prosjektgruppe som har arbeidet med TIMSS Advanced i flere år. Det er en tilsvarende prosjektgruppe på ILS for TIMSS-undersøkelsene i grunnskolen. Disse prosjektgruppene er tilknyttet Enhet for kvantitative utdanningsanalyser (EKVA) ved ILS.

Den norske prosjektgruppa for TIMSS Advanced har samarbeidet med prosjektsenteret i Boston, IEAs sekretariat i Amsterdam, Data Processing and Research Center i Hamburg, Statistics Canada og med de nasjonale prosjektgruppene i noen av de andre deltakerlandene. Den norske prosjektgruppa har hatt to medlemmer i SMIRC (Science and Mathematics Item Review Committee – en internasjonal gruppe oppnevnt av prosjektsenteret i Boston), som har hatt et overordnet ansvar for oppgavene som er blitt brukt i de faglige testene. Disse to medlemmene har også sittet i et mindre arbeidsutvalg (Task Force) for SMIRC.

Informasjon om ulike hovedaktører finnes på følgende nettsider:

Populasjoner og utvalg

Når det gjelder hvilke populasjoner som blir undersøkt, er det viktige forskjeller mellom TIMSS i grunnskolen og TIMSS Advanced i videregående skole. I grunnskolen undersøker TIMSS et representativt utvalg av hele det aktuelle årskullet. TIMSS Advanced undersøker betraktelig snevrere grupper, nemlig de elevene på øverste trinn i den videregående skolen som har valgt det eller de kurs som vedkommende land har definert som avansert matematikk eller fysikk. I Norge i 2015 gjaldt det kursene Matematikk R2 og Fysikk 2. Elever som tok begge disse kursene, tilhørte begge populasjonene.

Tabell 7.2 viser hvor stor prosentandel denne populasjonen er av årskullet i hvert deltakerland. Det dreier seg altså ikke om andelen av skoleelevene, men om andelen av hele det aktuelle årskullet i befolkningen. Denne prosentsatsen kalles dekningsgraden (coverage index) for hvert land.

Tabell 7.2 Dekningsgrad: matematikkpopulasjonen i TIMSS Advanced i prosent av hele årskullet.
Land Dekningsgrad i matematikk i prosent av hele årskullet
Libanon 3,9
Russland* 10,1
Norge 10,9
USA 11,4
Sverige 14,1
Frankrike 21,5
Italia 24,5
Portugal 28,5
Slovenia 34,4
* I 2008 testet Russland bare elever som tok svært avanserte matematikkurs. Da var dekningsgraden bare 1,4 %. I 2015 valgte de å definere flere kurs som avanserte, og dermed ble dekningsgraden større. For å kunne gjøre fornuftige trendanalyser rapporterer de denne gangen resultatene både til hele gruppa og til den delgruppa som svarer til populasjonen i 2008. I denne boka konsentrerer vi oss hovedsakelig om de russiske resultatene fra hele gruppa.

Det er store variasjoner i dekningsgrad i matematikk, fra under 4 % til godt over 30 %. For Libanon avspeiler den lave prosentandelen trolig landets mangel på ressurser til videregående utdanning. I den andre enden av skalaen finner vi Slovenia; der tar over en tredel av årskullet avansert matematikk. Skulle vi overført Slovenias prosentsats til Norge, ville det betydd at de fleste av elevene på studieforberedende programmer skulle ha tatt Matematikk R2.

Hvis vi vil sammenlikne prestasjonene i matematikk for flere land i TIMSS Advanced, er det viktig å ha dekningsgraden i mente.

Til sammenlikning viser tabell 7.3 dekningsgraden i fysikk.

Tabell 7.3 Dekningsgrad: fysikkpopulasjonen i TIMSS Advanced i prosent av hele årskullet.
Land Dekningsgrad i fysikk i prosent av hele årskullet
Libanon 3,9
USA 4,8
Russland 4,9
Portugal 5,1
Norge 6,5
Slovenia 7,6
Sverige 14,3
Italia 18,2
Frankrike 21,5

I fysikk er forskjellene i dekningsgrad mellom landene mindre enn i matematikk. Libanon, Sverige og Frankrike har omtrent samme dekningsgrad i de to fagene, mens de andre landene har klart lavere dekningsgrad i fysikk enn i matematikk. Mest iøynefallende er den lave dekningsgraden i fysikk sammenliknet med matematikk i Slovenia.

Bare et utvalg av elevene i hvert deltakerland blir testet. Dette utvalget trekkes ut etter bestemte statistiske regler og prosedyrer. For å kunne gjøre generaliseringer fra utvalget til hele populasjonen med liten usikkerhet (små feilmarginer), ble det satt som mål at utvalgene burde omfatte 3600 elever i hvert fag. Dette målet gjaldt i utgangspunktet alle land. For små land kunne disse målene ikke nås, og prosedyrer og mål måtte modifiseres. Av de 264 aktuelle videregående skolene i Norge ble 134 trukket ut til å delta i matematikk, og de andre 130 til å delta i fysikk. Den norske prosjektgruppa fant det ikke ønskelig at skoler skulle bes om å delta i begge studiene. Det ville lett føre til at samme elev måtte delta i begge studiene, siden svært mange av fysikkelevene også tar matematikk. Det ville være en urimelig belastning relativt kort tid før avsluttende eksamen. På skoler som ble trukket ut i matematikk, var alle elevene i Matematikk R2 med i utvalget, og på skoler som ble trukket ut i fysikk, var alle elevene i Fysikk 2 med i utvalget.

Den nasjonale prosjektgruppa kontaktet alle skolene med en oppfordring om å delta i undersøkelsen. Av de 134 skolene som ble bedt om å delta i matematikk, var det 133 som svarte ja. Av de aktuelle elevene på disse skolene deltok 93 %. Av de 130 skolene som ble bedt om å delta i fysikk, var det 127 som svarte ja. Av de aktuelle elevene på disse skolene deltok 94 %. Det gir en samlet deltakelsesprosent på 93 % i både matematikk og fysikk. Til sammen deltok 2537 norske elever i matematikkundersøkelsen og 2472 i fysikkundersøkelsen.

TIMSS hadde detaljerte regler for trekking og krav til deltakerprosent i utvalgene for at de skulle være representative. Norge tilfredsstilte disse kravene med god margin. På denne måten fikk vi et representativt utvalg av skoler og et representativt utvalg av elever.

Utvalget av lærere ble derimot ikke trukket tilfeldig. Lærerne fulgte med som et «attributt» til elevutvalget – det var de utvalgte klassenes matematikk- eller fysikklærere som deltok i undersøkelsen. Strengt tatt betyr det at lærerutvalget ikke med sikkerhet kan anses som representativt for hele lærerpopulasjonen; det er derfor litt mer usikkert å generalisere fra det. Men siden lærerutvalget omfatter så mange av de aktuelle lærerne – og det er et biprodukt av en tilfeldig utvalgsprosess – kan det vanskelig tenkes betydelige feilutslag om man antar at de på god måte representerer samtlige lærere i henholdsvis matematikk og fysikk. Vi kan anse lærerutvalget som «tilstrekkelig tilfeldig» til at vi kan generalisere fra det. Derfor har vi i denne boka tillatt oss å bruke uttrykk av typen «23 % av de norske R2-lærerne» og liknende uttrykksmåter når vi strengt tatt burde ha skrevet «lærerne til 23 % av R2-elevene i Norge».

Vektingen av dataene ble beregnet av datasenteret til IEA. Dette blir beskrevet i den internasjonale tekniske rapporten til TIMSS Advanced 2015 (Martin, Mullis & Hooper, 2016).

7.2 Analysenivåer i TIMSS Advanced

TIMSS Advanced samler inn og analyserer data på tre nivåer:

Systemnivå – intendert læreplan

Dette nivået gjelder utdanningssystemet slik det legges til rette av nasjonale og regionale myndigheter i et land. Det dreier seg om organisering av skoletilbudet, rammefaktorer, ressurstilgang og elevenes muligheter til skole- og fagvalg. Ikke minst dreier det seg om læreplaner og vurderingsformer. Det er slike faktorer som forteller hva slags utdanningstilbud samfunnet og myndighetene ønsker og planlegger at elevene skal få. Opplysninger på dette nivået er primært hentet inn fra de nasjonale prosjektlederne i de enkelte deltakerlandene.

Nylig er det utgitt en ensyklopedi med beskrivelser av skolesystemene i alle deltakerlandene i TIMSS 2015 (Mullis, Martin, Goh & Cotter, 2016). Samtlige deltakerland i TIMSS Advanced 2015 er med der. Selv om hovedvekten i ensyklopedien er på grunnskolen (primary education og lower secondary education), kan den gi en viss støtte for å forstå ulikheter mellom landene på systemnivået. Dessuten inneholder den internasjonale rapporten for TIMSS Advanced 2015 (Mullis, Martin, Foy & Hooper, 2016) ytterligere opplysninger om skolesystemene i deltakerlandene, med særlig vekt på videregående opplæring.

Klasseromsnivå – implementert læreplan

Dette nivået handler om hva som skjer i klasserommet, om undervisningen og læringsmiljøet. Hvordan blir intensjonene fra systemnivået omsatt i praksis? Hvordan blir den intenderte læreplanen iverksatt i skolen?

Både elevene, lærerne deres (i det faget elevene ble testet i) og skolelederne deres har svart på spørreskjemaer om situasjonen på skolen. Elevene ble blant annet spurt om hjemmebakgrunn, utdanningsplaner, trivsel på skolen, tidsbruk på skolearbeid og på arbeid utenom skolen og om undervisningsmetoder i matematikk og fysikk. Lærerne ble blant annet spurt om alder, utdanning, erfaring som lærer, etter- og videreutdanning, faglige emner som er undervist, undervisningsmetoder, bruk av digitale verktøy, bruk og oppfølging av lekser, lærersamarbeid, trygghet og trivsel i jobben og om eventuelle problemer i arbeidssituasjonen. Skolelederne ble blant annet spurt om utdanning og ledererfaring, skolens ressurser og begrensninger, elevenes bakgrunn, skolens vektlegging av matematikk og fysikk, eventuelle problemer med å rekruttere kvalifiserte lærere og generelt om skolens miljø.

Elevnivå – resultert læreplan

Det siste nivået handler om hva som er oppnådd. Hvilke kunnskaper har disse elevene i matematikk og fysikk, og hvilke holdninger har de til fagene? Elevenes prestasjoner på den faglige testen ga informasjon om faglige kunnskaper og ferdigheter, mens elevspørreskjemaet ga informasjon om holdninger til fag og læring.

Med data på alle disse nivåene kan man beskrive og analysere situasjonen på en rekke måter. Vi kan studere forandringer i forhold til den forrige TIMSS Advanced-undersøkelsen. Vi kan sammenlikne elevprestasjoner i ulike land. Vi kan sammenlikne prestasjonene til jenter og gutter. Vi kan også analysere om det synes å være sammenheng mellom prestasjonene og noen av bakgrunnsvariablene, som for eksempel undervisningsmetoder, leksearbeid, lærernes utdanning eller elevenes hjemmebakgrunn.

7.3 Rammeverk for studien

TIMSS Advanced baserer seg på et rammeverk som definerer hvilke kunnskaper og ferdigheter elevene skal testes i. Rammeverket er utviklet gjennom en drøftingsprosess mellom deltakerlandene, som leder fram mot konsensus om hva som utgjør sentrale kunnskaper og ferdigheter i faget sett i forhold til de respektive landenes læreplaner. Det foregår en viss justering foran hver undersøkelse, noe som er naturlig ettersom skolesystemer utvikler seg og læreplaner revideres. Men det er samtidig et poeng å holde rammeverket relativt stabilt for å gi et solid fundament for pålitelige sammenlikninger over tid.

Rammeverket for TIMSS Advanced 2015 (Mullis & Martin, 2014) bygger på rammeverket for TIMSS Advanced 2008 (Garden et al., 2006). Det er et mål at rammeverket skal ligge så tett som mulig opp til de aktuelle læreplanene i deltakerlandene. Det er selvsagt umulig å få det til fullt ut; til det er læreplanene for ulike, spesielt når man kommer til de høyere trinnene i skoleverket. Derfor blir målet isteden at ikke noe land skal oppleve at det blir et urimelig stort avvik fra deres læreplan. Vi skal helst alle sammen kunne si at testen i hovedsak faller inn under vår læreplan. Samtidig aksepterer vi at noen av oppgavene ikke passer godt i vårt land, og at noen deler av vår læreplan ikke dekkes av testen. For å oppnå dette er det viktig at alle deltakerlandene gis anledning til å påvirke prosessen med utvikling av rammeverket, slik at man oppnår konsensus om det.

Rammeverket definerer de fagområdene som testoppgavene skal dekke. Samtidig er det bestemt i rammeverket hvor stor andel av oppgavene som bør høre til hvert av disse fagområdene.

I tillegg inneholder rammeverket en beskrivelse av kognitive kategorier. Det er et mål at oppgavene skal stille ulike kognitive krav til elevene. Derfor angir rammeverket også hvor stor andel av oppgavene som bør ligge i hver av de kognitive kategoriene.

Fagområder i matematikk

Fagområder i matematikk med anbefalt og faktisk fordeling av oppgavene er vist i tabell 7.4. Kategoriene og den anbefalte oppgavefordelingen er de samme som i 2008.

Tabell 7.4 Fordeling av matematikkoppgaver i TIMSS Advanced 2015 i fagområder.
Fagområder Anbefalt prosentandel av oppgavene Faktisk prosentandel av oppgavene
Algebra 35 % 35 %
Kalkulus 35 % 36 %
Geometri 30 % 29 %

Fulle detaljer finnes i rammeverket (Mullis & Martin, 2014).

Kognitive kategorier i matematikk

TIMSS Advanced 2015 brukte de samme kognitive kategoriene og den samme anbefalte fordelingen av oppgaver som i 2008. Tabell 7.5 viser disse, samt den faktiske oppgavefordelingen i 2015.

Tabell 7.5 Fordeling av matematikkoppgaver i TIMSS Advanced 2015 i kognitive kategorier.
Kognitiv kategori Anbefalt prosentandel av oppgavene Faktisk prosentandel av oppgavene
Kunne 35 % 29 %
Anvende 35 % 41 %
Resonnere 30 % 30 %

Å kunne betyr blant annet å huske fakta, å gjenkjenne matematiske størrelser som er ekvivalente, å beherske algoritmer (som for eksempel løsing av enkle likninger og derivasjon av polynomfunksjoner) og å hente informasjon fra grafer og tabeller. Å anvende betyr blant annet å bruke kunnskapene og ferdighetene sine til å velge metoder og strategier, å representere matematisk informasjon på ulike måter, å modellere situasjoner og å løse rutineoppgaver. Å resonnere betyr blant annet å tenke logisk, å analysere informasjon, å avgjøre hvilke framgangsmåter som trengs for å løse et problem, å kombinere ulike kunnskapselementer og representasjoner, å vurdere ulike strategier og løsninger, å trekke gyldige konklusjoner, å generalisere resultater og å formulere matematiske argumenter og bevis.

Fulle detaljer finnes i rammeverket (Mullis & Martin, 2014).

Fagområder i fysikk

Fagområder i fysikk med anbefalt og faktisk fordeling av oppgavene er vist i tabell 7.6.

Tabell 7.6 Fordeling av fysikkoppgaver i TIMSS Advanced 2015 i fagområder.
Fagområder Anbefalt prosentandel av oppgavene Faktisk prosentandel av oppgavene
Mekanikk og termodynamikk 40 % 41 %
Elektrisitet og magnetisme 25 % 26 %
Bølger og atom-/kjernefysikk 35 % 33 %

Fagområdene er justert siden 2008. Den gangen var inndelingen som vist i tabell 7.7.

Tabell 7.7 Fordeling av fysikkoppgaver i TIMSS Advanced 2008 i fagområder.
Fagområder Anbefalt prosentandel av oppgavene
Mekanikk 30 %
Elektrisitet og magnetisme 30 %
Varme og temperatur 20 %
Atom- og kjernefysikk 20 %

Vi ser at antall områder har blitt redusert fra fire til tre. Dermed får hvert område flere oppgaver, og dette gir mer robuste mål for landenes prestasjoner innenfor de enkelte fagområdene. Revisjonen har også tatt hensyn til utviklinger i deltakerlandenes læreplaner i fysikk.

Fulle detaljer finnes i rammeverket (Mullis & Martin, 2014).

Kognitive kategorier i fysikk

TIMSS Advanced 2015 brukte de samme kognitive kategoriene og den samme anbefalte fordelingen av oppgaver som i 2008. Tabell 7.8 viser disse, samt den faktiske oppgavefordelingen i 2015.

Tabell 7.8 Fordeling av fysikkoppgaver i TIMSS Advanced 2015 i kognitive kategorier.
Kognitiv kategori Anbefalt prosentandel av oppgavene Faktisk prosentandel av oppgavene
Kunne 30 % 27 %
Anvende 40 % 44 %
Resonnere 30 % 29 %

Å kunne betyr blant annet å huske fakta, fenomener og begreper, å kjenne riktig bruk av apparater og framgangsmåter, å gjenkjenne og bruke vitenskapelig vokabular, symboler og enheter, å beskrive materialer, strukturer, fenomener og prosesser og å bruke eksempler til å klargjøre fakta og begreper. Å anvende betyr blant annet å bruke modeller til å illustrere begreper, prinsipper, prosesser og systemer, å bruke kunnskap om fysiske begreper og prinsipper til å tolke informasjon i tekst, tabeller og diagrammer, å bruke en fysisk relasjon, likning eller formel til å finne en kvalitativ eller kvantitativ løsning og å forklare en observasjon eller et fenomen ved bruk av et fysikkbegrep, en fysisk lov eller en teori. Å resonnere betyr blant annet å analysere fysiske problemer, å anvende matematiske begreper i fysikk, å formulere forskningsspørsmål og planlegge systematisk utforsking av dem, å formulere og teste hypoteser, å vurdere resultatene av utforsking og alternative forklaringer av et fenomen, å trekke gyldige konklusjoner, å generalisere resultater og å bruke empiri og fysikkforståelse til å argumentere for en forklaring.

Fulle detaljer finnes i rammeverket (Mullis & Martin, 2014).

Digitale hjelpemidler

I TIMSS Advanced har kalkulator vært tillatt i alle studiene (1995, 2008 og 2015). Et hovedargument har vært at av hensyn til trendmålinger må «spillereglene» være de samme hver gang. Den norske prosjektgruppa har problematisert denne argumentasjonen i forbindelse med TIMSS Advanced 2008 og 2015, spesielt når det gjelder matematikktesten. Vi pekte på den enorme teknologiske utviklingen på dette området fra 1995 til 2008. Kalkulatorer som var i vanlig bruk i undervisningen i en del land i 2008, kunne knapt sammenliknes med de som var tilgjengelige i 1995. Rammeverket for TIMSS Advanced 2008 erkjente denne problematikken: «it is noted that there have been tremendous changes in calculator technology since 1995» (Garden et al., 2006, s. 16). Dette er fyldigere beskrevet i (Onstad, 2010). Det har vært gjort forsøk på å minske problemet ved å lage mange oppgaver der kalkulator (eller annen digital teknologi) er til liten nytte.

Den teknologiske utviklingen fortsetter, og det planlegges nå en overgang til tester i TIMSS og TIMSS Advanced på digitale plattformer. Bruken av eventuelle hjelpemidler i oppgaveløsingen vil da kunne styres på en helt annen måte enn hittil.

7.4 Instrumenter for datainnsamling

Oppgaver til elevene

Når TIMSS utvikler oppgaver til undersøkelsene sine, tar de mange hensyn (Mullis et al., 2005):

Oppgavene skal også fungere relativt godt i alle land, basert på resultatene fra piloteringen som gjennomføres året før hovedundersøkelsen. Videre er det et mål å få en balansert fordeling mellom flervalgsoppgaver og åpne oppgaver.

Punktet om å «fungere teknisk godt» betyr blant annet at en oppgave skal diskriminere godt, det vil si at den skal skille mellom sterke og svake elever. For å kunne få høy reliabilitet på testen som helhet, er det i tillegg viktig å ha oppgaver med ulik vanskegrad.

TIMSS Advanced er en trendstudie. Det betyr at den legger til rette for sammenlikning over tid. Et utvalg av oppgavene i TIMSS Advanced 1995 ble ikke offentliggjort, men lagt til side for gjenbruk i den neste TIMSS Advanced-studien i 2008. Dette er trendoppgavene, som knytter de to studiene sammen og gjør det mulig å sammenlikne prestasjonene. Tilsvarende skjedde i neste runde. Omtrent halvparten av oppgavene i 2008 ble hemmeligholdt og brukt som trendoppgaver i 2015.

Alle deltakerlandene ble invitert til å lage oppgaver til studien, samtidig som et av de internasjonale prosjektmøtene ble brukt til å lage nye oppgaver til 2015. Oppgaveforslagene ble sendt til SMIRC, en internasjonal ekspertkomité for matematikk og naturfag (Mullis & Martin, 2014, s. 65f). Komiteen vurderte oppgaveforslagene mot rammeverket. Lå en oppgave utenfor rammeverket, ble den enten modifisert eller forkastet. Falt den innenfor, ble den plassert i et fagområde og i en kognitiv kategori. SMIRC hadde ansvaret for at det var tilstrekkelig med oppgaver innen de ulike faglige og kognitive områdene, at det var en akseptabel fordeling i oppgavenes vanskegrad, og at det var et passende forhold mellom flervalgsoppgaver og åpne oppgaver. Ekspertkomiteen hadde også ansvaret for beskrivelsene av de ulike kompetansenivåene. To medlemmer i den norske prosjektgruppa for TIMSS Advanced var med i matematikkdelen av SMIRC.

Den store «oppgavebanken» som ble utviklet på denne måten, ble grundig gjennomgått. Fra denne valgte man ut omtrent dobbelt så mange oppgaver som man trengte til testen. Disse oppgavene ble utprøvd internasjonalt våren 2014. Resultatene i denne pilottesten ga grunnlag for å gjøre det endelige utvalget av oppgaver til selve TIMSS Advanced-undersøkelsen i 2015. Oppgaveutvalget ble diskutert internasjonalt med representanter fra alle deltakerlandene.

Oppgavene for 2015 ble fordelt i ni blokker i hvert fag. Blokkene hadde omtrent like mange oppgaver og like stor vanskegrad og arbeidsmengde. Den totale arbeidsmengden for alle blokkene ville blitt altfor stor for en enkelt elev, anslagsvis 4½ time (pluss nok en halvtime for spørreskjemaet). Det er behov for å bruke mange oppgaver for å gi en bred dekning av fagområdene i rammeverket. På den måten kan man også dekke læreplanene i de enkelte land på en god måte. Hver enkelt elev får imidlertid bare et utvalg av alle oppgavene som er med i testen. Blokkene ble fordelt på seks forskjellige hefter. Hvert hefte inneholdt tre blokker. Hver blokk forekom i to forskjellige hefter.

Hver elev fikk ett hefte. Skolene sendte inn anonymiserte lister over alle elevene som skulle delta. Prosjektgruppa brukte et dataprogram spesiallaget for TIMSS Advanced til å trekke ut hvilken elev som skulle ha hvilket oppgavehefte.

Den enkelte elev fikk på denne måten prøve seg på en tredel av oppgavene i studien. TIMSS Advanced er derfor lite egnet til å si noe om den enkelte elev; studien er designet for å kunne trekke relativt sikre konklusjoner om hele den nasjonale populasjonen og delgrupper av denne.

Alle oppgaveheftene i TIMSS inneholdt en kortfattet instruksjon til elevene om hvordan de ulike oppgavetypene – det vil si flervalgsoppgaver og åpne oppgaver – skulle besvares. Det var en kort formelsamling i begynnelsen av hvert hefte.

Koding av oppgavene

Omtrent halvparten av oppgavene i TIMSS Advanced er flervalgsoppgaver. I slike oppgaver får elevene fire svaralternativer å velge mellom: A, B, C eller D. (I 1995 var det fem svaralternativer.) Eleven skal markere hvilket av svarene som hun eller han mener eller tror er det riktige. Det ligger et grundig arbeid bak konstruksjon av flervalgsoppgaver. Det er viktig at ett av svaralternativene er riktig, og at ingen av de andre er det. De gale alternativene kalles distraktorer. Gode distraktorer bør avspeile typiske misoppfatninger, regnefeil eller liknende. Flervalgsoppgaver er enkle å kode; det skal bare registreres hvilket svar eleven har valgt.

De åpne oppgavene stiller større utfordringer til kodingen. De tillatte kodene på en oppgave er utførlig beskrevet i de internasjonale kodemanualene. Dette materiellet var grundig gjennomgått på en internasjonal samling. I det enkelte land ble kodedefinisjonene nøye gjennomgått i fellesskap før kodingen startet. Eventuelle uklarheter ble drøftet og avklart, i noen tilfeller i samråd med den internasjonale TIMSS-ledelsen. For mange av oppgavene var det utarbeidet et eksempelmateriell som illustrerte hvordan kodene skulle brukes. Deretter ble hvert enkelt elevsvar kodet.

Som en kontroll ble det gjennomført en reliabilitetskoding, det vil si at to personer kodet samme oppgaver uavhengig av hverandre. På denne måten kunne man statistisk måle den nasjonale sensorreliabiliteten, det vil si graden av samsvar mellom koderne (sensorene) i et land.

Spørreskjemaer

Hver elev som deltok i TIMSS Advanced, svarte på et elevspørreskjema i tillegg til den faglige testen. Lærerne til disse elevene (i det faget de ble testet i) fikk dessuten et eget lærerspørreskjema, og skolens ledelse fikk et skolespørreskjema. Gjennom skjemaene ble det samlet inn en rekke opplysninger om holdninger, hjemmebakgrunn, undervisningsmetoder, skolens ressurser med mer.

Alle landene hadde anledning til å komme med forslag til hva det skulle spørres om i spørreskjemaene. Forslagene ble behandlet i en egen ekspertkomité, QIRC (Questionnaire Item Review Committee; Mullis & Martin, 2014, s. 67). Deres forslag til spørreskjemaer ble så lagt fram på et internasjonalt møte til en grundig debatt før de ble ferdigstilt. Alle deltakerlandene hadde en demokratisk mulighet i prosessen til å foreslå endringer og tillegg.

Det var mulig for land å sløyfe enkelte spørsmål som ble ansett som irrelevante for deres utdanningssystem, eller å legge til spørsmål som utdanningsmyndighetene eller den nasjonale prosjektgruppa fant interessante. Svarene på slike spørsmål blir ikke tatt med i den internasjonale rapporten.

Oversetting

Det internasjonale arbeids- og samarbeidsspråket i TIMSS er engelsk. Alle offisielle dokumenter, instruksjoner, oppgaver og spørreskjemaer foreligger på engelsk. Men når undersøkelsen gjennomføres, må oppgavene og spørreskjemaene foreligge på de språkene som brukes i skolene i de respektive landene. Elevene, lærerne og skolelederne skal møte oppgavene og spørsmålene på et språk de er vant til, ellers vil internasjonale sammenlikninger gi liten mening.

TIMSS har omfattende rutiner for oversetting og språkkontroll. Oversettelsesforslagene våre ble sendt til IEA, som sendte dem videre til en norsk språkekspert som var ukjent for prosjektgruppa i Norge. Kommentarene og forslagene fra eksperten ble sendt via IEA tilbake til Norge, der prosjektgruppa gjennomgikk dem, vurderte dem fra en faglig og språklig synsvinkel og foretok nødvendige forbedringer av tekstene.

Det er også viktig at layout på oppgaver og hefter er så lik som mulig i alle land. Alle heftene sendes derfor til internasjonal godkjenning av layout før de trykkes.

7.5 Gjennomføring av studien

TIMSS har utviklet grundige prosedyrer for å sikre en ensartet gjennomføring av undersøkelsen i alle deltakerlandene. Prosedyrene er nøye beskrevet i manualer for gjennomføringen av ulike deler av studien. En teknisk rapport blir etter hvert publisert av det internasjonale prosjektsenteret (Martin et al., 2016).

Tidspunkt

TIMSS Advanced-undersøkelsen skulle gjennomføres i slutten av det siste året i videregående skole. Det betydde våren 2015 innenfor tidsrammer som var fastsatt sentralt.

Gjennomføring på skolene

Det internasjonale prosjektsenteret hadde utarbeidet detaljerte instrukser for hvordan testen skulle gjennomføres i klasserommet. Det var gjort for å sikre like testvilkår for alle elever, både nasjonalt og internasjonalt.

Alt elevmateriell ble sendt til skolene litt før undersøkelsen skulle gjennomføres. Materiellet besto av oppgavehefter og spørreskjemaer til elevene, samt instrukser for gjennomføringen. En av de tilsatte på skolen var ansvarlig for å sette seg inn i instruksene på forhånd og å påse at de ble fulgt nøye.

Elevene fikk opplest informasjon om testen og om gjennomføringen, og eksemplene forrest i heftene ble gjennomgått. Deretter fikk de nøyaktig 90 minutter til å løse oppgavene. Etterpå besvarte elevene spørreskjemaet.

Den internasjonale TIMSS-ledelsen hadde knyttet til seg én person i hvert land som kontrollerte gjennomføringen på en del tilfeldig valgte skoler. Vedkommende var uavhengig av den nasjonale prosjektgruppa og rapporterte direkte til den internasjonale ledelsen ved hjelp av et grundig rapporteringsskjema.

Den ansvarlige personen for gjennomføringen på den enkelte skole sendte alt materiellet tilbake til den nasjonale prosjektgruppa. Det ble kontrollert at ingen oppgavehefter forsvant i prosessen.

Spørreskjemaene til lærerne og skolelederne ble distribuert og utfylt på nett.

7.6 Databehandling

De innlagte dataene ble kontrollert i flere omganger, først i Norge og deretter i det internasjonale datasenteret til TIMSS. Dataene ble «vasket», det vil si at man lette etter inkonsistente og overraskende data. Disse ble så kontrollert mot oppgaveheftene og spørreskjemaene. Prosedyrene skal sikre høy grad av samsvar mellom det elevene, lærerne og skolelederne faktisk hadde svart, og de dataene som ble lagret elektronisk.

Da datavaskingen var avsluttet, ble alle forbindelser mellom de elektroniske dataene og deltakerne i undersøkelsen slettet. Dermed lar det seg ikke gjøre å spore enkeltresultater tilbake til elever eller skoler.

Avanserte statistiske metoder er brukt for å behandle dataene på en måte som muliggjør sammenlikninger – mellom land og over tid. Dette blir grundig beskrevet i den internasjonale tekniske rapporten (Martin et al., 2016).

Som nevnt ovenfor svarte hver enkelt elev bare på en tredel av det samlede oppgavetilfanget. Prestasjonene til to elever som hadde samme hefte, kan sammenliknes. To elever som fikk forskjellige hefter, fikk derimot helt eller delvis forskjellige oppgaver, og da kan ikke prestasjonene uten videre sammenliknes. Tilsvarende kan prestasjoner i 2015 ikke uten videre sammenliknes med prestasjoner i 2008.

Disse problemene løses ved hjelp av blokker som er felles mellom hefter og mellom de to undersøkelsene. Disse blokkene fungerer som «broer» som knytter de enkelte delene sammen. Teknikkene som brukes for slik «brobygging» mellom undersøkelser baserer seg på Item Response Theory og er statistisk avanserte. De blir beskrevet i den internasjonale tekniske rapporten til TIMSS Advanced (Martin et al., 2016).

En skalering ble gjort med dataene i TIMSS Advanced 1995. Elevskårene i alle deltakerlandene ble regnet om til en ny skala slik at det internasjonale gjennomsnittet ble 500 «poeng» og standardavviket ble 100 «poeng». Disse tallene er ikke poeng oppnådd på selve testen, men de er likevel mål for hvor godt elevene presterte. En slik skalering ble utført for matematikk og fysikk hver for seg.

Denne prosessen med skalering og «brobygging» ga en skala (for hvert av fagene) som kan brukes som fast målestokk for prestasjoner i den første undersøkelsen i 1995, for TIMSS Advanced 2008, for TIMSS Advanced 2015 og for eventuelle nye TIMSS Advanced-studier. Dette muliggjør trendanalyser.

Den internasjonale gjennomsnittsskåren var 500 per definisjon i 1995. I 2008 var den ikke lenger 500. Det kunne heller ikke forventes. For det første må vi forvente at de landene som hadde deltatt i 1995, ikke presterte akkurat likt i 2008. Viktigere er det likevel at det ikke var samme gruppe land som deltok i begge undersøkelsene. Noen land som deltok i 1995, uteble i 2008, og nye land kom til, se tabell 7.1. På samme måte var det en viss utskifting av deltakerland fra 2008 til 2015. Det er ingen grunn til å forvente at én gruppe land skal prestere nøyaktig like godt i gjennomsnitt som en (delvis) annen gruppe land.

Å relatere prestasjoner til det internasjonale gjennomsnittet på den enkelte studien kan gi liten mening, siden et slikt gjennomsnitt naturlig varierer fra studie til studie. Kommer det for eksempel inn et fattig land som presterer svakt – som Filippinene i 2008 – vil det kunne trekke gjennomsnittet ned i forhold til den foregående studien. Det ville være sterkt misvisende om en bedring i norske prestasjoner i forhold til det internasjonale gjennomsnittet på én studie ble framstilt som en framgang i forhold til en tidligere studie, mens det i virkeligheten skyldtes at gjennomsnittet hadde endret seg fordi nye land med svakere prestasjoner deltok. Dersom vi tenker oss at Singapore hadde deltatt i TIMSS Advanced 2008 istedenfor Filippinene, ville totalbildet utvilsomt vært ganske annerledes. Vurderingen av den norske utviklingen skal ikke avhenge av hvilke andre land som velger å delta.

De prestasjonsdataene som foreligger, gir god anledning til å studere et enkelt lands utvikling over tid. Da sammenliknes landet med seg selv på den faste skalaen fra undersøkelse til undersøkelse. Sammenlikninger mellom land i samme undersøkelse er også meningsfulle. Dersom to eller flere land har deltatt i flere av undersøkelsene, kan landenes utvikling over tid også sammenliknes. Det som derimot gir liten mening, er å sammenlikne prestasjoner for et land med de internasjonale gjennomsnittene fra undersøkelse til undersøkelse, siden disse altså varierer og er avhengige av hvilke land som deltar. I de internasjonale rapportene for TIMSS og TIMSS Advanced unnlater prosjektsenteret i Boston å gjøre dette. I tabellene over deltakerlandenes gjennomsnittsskår er skalamidtpunktet på 500 oppgitt, men ikke årets internasjonale gjennomsnitt. Samme valg er gjort i denne boka.

7.7 Analyser og rapportering

Det internasjonale prosjektsenteret for TIMSS Advanced har ansvaret for en første grundig gjennomgang og analyse av dataene fra samtlige deltakerland. Det er de som beregner vekter for dataene i alle land, og som foretar den internasjonale skaleringen av skårene. De utgir en teknisk rapport om gjennomføringen av studien og om hvordan dataene er behandlet (Martin et al., 2016). De utgir også en rapport om de internasjonale resultatene (Mullis, Martin, Foy & Hooper, 2016). Det enkelte land har ansvar for å kontrollere at landets data som brukes i disse analysene, er korrekte.

Til hjelp i analysene er det utviklet en del samlevariabler, oftere kalt konstrukter. Eksempler på slike er engasjerende undervisning, liker å lære faget, nytte av faget og hjemmeressurser. En samle variabel er en slags sammenfatning av flere variabler. Etablering av en samlevariabel er en omfattende prosess som baserer seg både på faglig innsikt og på statistiske metoder. Med bakgrunn i erfaring og tidligere forskning vil man ofte anta at flere variabler representert ved ulike spørsmål måler aspekter av samme fenomen, det vil si at man antar at de sammen danner et naturlig og interessant konstrukt. Denne antakelsen blir testet med korrelasjonsundersøkelser, regresjonsanalyser og eksplorerende faktoranalyse, og i etterkant med konfirmerende faktoranalyse. På denne måten søker man å etablere et solid faglig og statistisk grunnlag for bruken av samlevariablene.

For den som er interessert i statistiske resonnementer og metoder som brukes i slike store studier, finnes det mye teori man kan sette seg inn i. Eksempler er bøkene Introduction to classical and modern test theory (Crocker & Algina, 1986), Structural Equations with Latent Variables (Bollen, 1989), Statistics for social data analysis (Knoke, Bohrnstedt & Mee, 2002) og Multilevel analysis: An introduction to basic and applied multilevel analysis (Snijders & Bosker, 2012).

Den norske prosjektgruppa har valgt noen såkalte referanseland til bruk i en del av de nasjonale analysene, nemlig Frankrike, Russland, Slovenia, Sverige og USA. Landene er valgt fordi de har deltatt i tidligere TIMSS Advance-studier, fordi de har en relativt høy andel elever som har valgt matematikk og/eller fysikk til topps i videregående skole, og fordi vi finner dem relevante for en norsk skoledebatt.

De nasjonale rapportene har ulike omfang og innfallsvinkler. Noen er bare deskriptive, mens andre land skriver bøker hvor de presenterer resultatene i et forskningsperspektiv. Denne boka presenterer resultater fra de internasjonale analysene, samt resultatene fra ulike typer egne analyser, både av kvalitativ og av kvantitativ karakter. Resultatene er satt inn i og drøftet i et utdanningspolitisk og fagdidaktisk perspektiv som viktige bidrag til matematikkdidaktisk og fysikkdidaktisk forskning i Norge.

I de neste bøkene, en i fysikk og en i matematikk, som planlegges utgitt i 2017, vil vi gjennomføre flere typer analyser for å få ytterligere informasjon om situasjonen i norsk videregående opplæring.