Omnibus prik

DEBAT: Dansk forskning har brug for et nyt bibliometrisk system

Der er brug for et nyt, dansk system til at måle forskningsproduktion og gennemslagskraft. For de nuværende systemer og rankings giver ikke et retvisende billede inden for felter som datalogi, informationsvidenskab og ingeniørvidenskab – og det har konsekvenser, fordi felterne fremstår svage over for styrelser og fonde, skriver Kaj Grønbæk, der er institutleder ved Institut for Datalogi.

Kaj Grønbæk, institutleder ved Institut for Datalogi, Aarhus Universitet.
Kaj Grønbæk, institutleder ved Institut for Datalogi, Aarhus Universitet. Foto: Jens Hartmann, AU Foto

Dette er et debatindlæg, synspunkterne i indlægget er udtryk for skribentens holdning.

Der udgives jævnligt statusrapporter om dansk forskning, der ikke er retvisende, fordi de kun tæller tidsskriftspublikationer. De data, man bygger på i disse rapporter, stammer typisk fra Leiden Ranking. Det til trods for at Leiden Ranking selv siger, at data er ufuldstændige på flere forskningsområder, fordi de ikke tæller 'conference proceedings', på dansk: konferenceartikler, med i deres metrik, og de selv nævner, at det udgør en væsentlig begrænsning i forhold til visse forskningsfelter, i særdeleshed datalogi, ingeniørvidenskab, socialvidenskab og humaniora.

Men netop konferenceartikler er den dominerende publiceringskanal inden for datalogi, ingeniørvidenskab og flere andre områder. Der er kæmpe vækst i publikationer og citationer inden for netop datalogi og ingeniørvidenskab bl.a. AI-forskning, men de bliver altså ikke talt med i de nationale opgørelser, fordi man baserer dem på Leiden Ranking. Når jeg spørger hvorfor, er begrundelsen, at med Leiden Ranking kan man sammenligne med tidligere analyser og se udviklingen. Men man jo netop ikke se udviklingen, når man ikke tæller de nye publikationskanaler i stor vækst med.

Konferenceartikler overhaler klassiske tidsskriftartikler

For at illustrere udviklingen i publiceringskanaler, kan man slå op på Google Scholar Metrics. Her vil man se, at blandt top 10 inden for publiceringskanaler (Nature er stadig nr. 1), ligger 3 AI-relaterede publiceringskanaler inden for datalogi:

  • 2. IEEE/CVF Conference on Computer Vision and Pattern Recognition
  • 7. Neural Information Processing Systems (NeurIPS konferencen)
  • 10. International Conference on Learning Representations

Det danske Pioneer Center for AI, som KU er vært for med AU, AAU, DTU og ITU som deltagere, har over tre år publiceret 250 fagfællebedømte konferenceartikler, heraf mere end 25 i de nævnte 3 publiceringskanaler. Men hverken publikationerne eller deres citationer tæller med i de forskningsopgørelser, man baserer Leiden Ranking på. Så selvom AI-konferenceartikler har overhalet hedengangne medicinske tidsskrifter som The Lancet (nr. 6 på listen), tæller vi dem ikke med i vores ”forsknings-BNP”. Det bør der gøres noget ved. Og det kan man, men det kræver en lille investering i at nedsætte et udvalg og nogle udviklere, der kan hente data fra forskellige kilder.

Misvisende analyser

Jeg giver her to eksempler, der viser, hvordan brugen af Leiden Ranking leder til misvisende resultater.

I rapporten The scientific impact of Danish Univesities research 1980-2020 udgivet af Novo Nordisk Fonden og Villum Fonden står f.eks.: “Only computer and information sciences sees an increase in relative impact, but it is a small field, and the increase comes from a low starting point”.

Figur 12 viser at “Computer and Information Science” i to perioder (2009-2011) og (2018-2020) har den absolut laveste produktion af alle discipliner. Aflæst fra grafen er det cirka 250 publikationer i perioden 2009-2011 og cirka 500 i 2018-2020. Jeg har tallene for Institut for Datalogi på AU i perioden 2018-2020, og vi har alene registreret 420 fagfællebedømte publikationer i PURE her. Så de 500 for hele landet i denne periode er slet ikke retvisende. Der tages i rapporten ingen forbehold for, at metoden bruger ufuldstændige data. Det er et stort problem over for styrelser og fonde, hvis dansk datalogi fremstår så svagt i forhold til alle andre fagområder, bare fordi publikationerne ikke bliver opgjort retvisende.

Et andet dugfrisk eksempel fra tænketanken DEA, er en analyse af forskning i frie og ikke-frie lande med Leiden som hovedkilde. Her fordeles de 25 højst rangerede universiter baseret på top 10 procent citationer i en række forskningsområder på frie og ikke-frie lande. Her kommer “Mathematics and Computer Science” ud med 100 procent - altså 25/25 universiteter liggende i ikke-frie lande. Med lidt kendskab til amerikanske og europæiske top-universiteter inden for datalogi, bør et sådant resultat få alle alarmklokker til at ringe. Men resultatet formidles uden forbehold for metoden.

Computer Science-samfundet har lavet egne optællinger i CSRankings med de absolutte topkonferencer i centrale datalogiske emner. Blandt top 25 universiteter i denne ranking, er der kun 5 universiteter fra ikke-frie lande, herunder 4 kinesiske universiteter. Altså er 80 procent fra frie lande som USA, Canada, Europa og Sydkorea og ikke 0 procent som angivet i DEA-rapporten. 

Den sikreste måde at få alle typer af publikationer og deres citationer med i alle fagområder er pt. at bruge Google Scholar. Der er lavet flere analyser af dette bl.a. er der en god oversigt i Journal of Infometrics af Martín-Martín et al. 2018.

Jeg håber, at Danske Universiteter vil være med til at igangsætte et initiativ og etablere et forum og et projekt, der kan modernisere vores bibliometriske metoder. Endelig vil det være godt, hvis nogle fonde kunne have lyst at finansiere det projekt. Jeg og andre datalogi-kolleger bidrager gerne med ideer.