Kostholdsstatistikk. Metodenotat for publisering av 2018-årgangen
Working paper

View/ Open
Date
2024-07Metadata
Show full item recordCollections
- Notater / Documents [894]
Abstract
Kostholdsstatistikken, som baserer seg på data brukt til å utvikle prisstatistikk (konsumpris indeksen), viser detaljer om norsk kosthold basert på hvilke matvarer som selges i et representativt
utvalg dagligvarebutikker.
Denne nye tilnærmingen til å estimere befolkningens kosthold basert på kjøpte mat- og drikkevarer,
muliggjør hyppigere målinger og gir en innsikt i kostholdstrender og utvikling over tid sammenliknet
med andre metoder.
Dette metodenotatet er et supplement til «Om statistikken», med mer detaljerte forklaringer av
metodene vi har brukt. For å beregne tallene for 2018, har vi utviklet nye metoder som beskrives
nærmere i dette notatet.
Kapittel 2 om datakilder introduserer de ulike kildene som har blitt benyttet til å utarbeide denne
statistikken. Vi diskuterer noen utfordringer og valg som er tatt underveis for å tilpasse data som i
utgangspunktet er samlet inn og brukt til andre formål.
En nøkkelkomponent i utarbeidelsen av statistikken er nøyaktig bestemmelse av hver vares vekt,
som korresponderer med mengdevariabelen i prisdataene. I kapittel 3 beskrives de ulike metodene
vi har brukt i prioritert rekkefølge.
Vi har gjort et omfattende arbeid for å identifisere korrekte energi- og næringsverdier for de mest
solgte varene i datagrunnlaget. Disse verdiene brukes til å gi korrekte næringsinformasjon på de
mest solgte matvarene, samt til å trene en maskinlæringsmodell som predikerer manglende verdier
for de resterende varene, basert på tekstinformasjon på enkeltvare- og gruppenivå. I kapittel 4 om
maskinlæring gjennomgår vi hovedpunktene i prosessen, og foreslår forbedringer for fremtidige
utgivelser.
Norsk matvaregruppering er et nyutviklet kodeverk som er tilpasset norske forhold. Vi presenterer i
kapittel 5 kort hvordan dette implementert. Til slutt i kapittel 6 skisseres hvordan vekting og
skalering av datagrunnlaget er gjort for å få representative tall for hele befolkningen.