NOTE METHODOLOGIQUE Les publications scientifiques

NOTE METHODOLOGIQUE
Les publications scientifiques
Les publications scientifiques
A) INTRODUCTION
Les publications scientifiques
Les publications dans les journaux scientifiques constituent pour les chercheurs un des
principaux modes de validation et de diffusion de leurs travaux. Les notices qui décrivent ces
publications sont enregistrées dans des bases de données bibliographiques, qui comportent
des informations sur les sources (journal, auteurs, laboratoires et leurs affiliations
institutionnelles), les contenus scientifiques (titre, mots-clés, résumé), et les liens de contenu
scientifique avec d'autres publications (références ou citations).
L’analyse bibliométrique mobilise les ressources de la statistique et de l’analyse des
données pour traiter l’information contenue dans ces notices. Elle s'appuie sur des
nomenclatures disciplinaires (liées aux journaux et aux contenus des publications) et
géographiques (liées aux adresses des laboratoires des auteurs) pour ces traitements.
Les données d’une part, les limites statistiques d’autre part, rendent les indicateurs très
sensibles aux choix méthodologiques adoptés : leur interprétation demande donc une
grande vigilance, et une bonne connaissance du processus de recherche – et notamment
des pratiques de publication – dans les différentes disciplines. Les biais statistiques peuvent
devenir très sensibles sur de petits échantillons (60 publications).
De plus, il faut rappeler que la dimension disciplinaire est un facteur contextuel essentiel en
bibliométrie. Elle intervient pour apprécier la représentativité de la base, mais également
pour interpréter les indicateurs, car on sait que les pratiques de publication et de citations
sont très différentes d'une communauté disciplinaire à l'autre.
En effet, comme l'illustrent par exemple les tables 1 à 3 ci-dessous, la propension à publier,
à collaborer, à citer diffère fortement selon les disciplines. C'est pourquoi la plupart des
indicateurs utilisés par l'OST sont normalisés pour la dimension disciplinaire- à l'exception
des indicateurs calculés pour le périmètre "toutes disciplines confondues".
Un autre point important à noter - pour interpréter des valeurs moyennes par exemple - est
que la plupart des distributions bibliométriques, notamment celles touchant aux citations,
sont de type exponentiel (voir par exemple le graphique 1 ci-dessous). Les valeurs
moyennes proposées n'informent pas sur de possibles fortes disparités de distribution, qui
ne sont pas réparties de façon symétrique, alors que ce serait le cas pour des distributions
gaussiennes.
B) LA SOURCE DES DONNEES
La base de données utilisée est le Web of Science® de Thomson Reuters, qui est l’une des
bases de référence pour la bibliométrie. C'est une base qui recense en priorité les journaux
scientifiques les plus influents au niveau international. Elle est plutôt orientée vers l'activité
scientifique académique et représentative pour les disciplines bien internationalisées. Sa
représentativité est moins bonne dans les disciplines appliquées, de « terrain », à forte
Mars 2014
1
tradition nationale, ou encore dont la taille de la communauté est faible. C’est par exemple le
cas de certaines spécialités de la recherche médicale ou de la biologie appliquée. Elle est
également limitée dans les disciplines (comme l'informatique ou l’ingénierie) où une part
importante des informations passe par d'autres canaux que les journaux scientifiques
internationaux, comme dans de nombreuses disciplines des sciences humaines et sociales,
où des journaux à orientation nationale et les livres peuvent jouer un rôle important dans
l'avancée des connaissances. Ainsi, le Web of Science® ne doit pas être considéré comme
un échantillon représentatif de la production scientifique mondiale mais plutôt comme un
recensement raisonné des meilleures revues de niveau international, plus ou moins
représentatif de l'ensemble du secteur selon les disciplines.
Les indicateurs standard sont calculés à partir du périmètre complet (“Science Citation Index
Expanded”) de la base en retenant les types de documents suivants : articles originaux (y
compris ceux issus des comptes rendus de conférences), lettres, articles de synthèse
(Reviews). La version du Web of Science® utilisée comprend aussi les journaux et séries se
rapportant aux conférences du produit CPCI (Conference Proceedings Citation Index) de
Thomson Reuters.
C) LES METHODES DE DECOMPTE
Le plus souvent, une publication scientifique comporte plusieurs lignes d’adresses de
laboratoires signataires, car elle a été produite par collaboration entre chercheurs de
laboratoires différents. Se pose donc la question du mode de prise en compte de la
publication pour chacun des laboratoires ayant participé à sa production.
Deux logiques sont utilisées pour attribuer à un acteur (laboratoire, institution, territoire...) le
décompte d’une publication dans laquelle on trouve son adresse : le compte de présence et
le compte fractionnaire.
Pour une publication ayant n adresses
Quel crédit attribuer à l'acteur pour la publication ?
"Compte fractionnaire"
"Compte de présence"
Nombre a d'adresses
de l'acteur
Nombre a d'adresses
de l'acteur
Crédit = a/n
Crédit = 1
Le compte de présence est utilisé lorsque l'on s'intéresse à la participation d'un acteur à la
production scientifique. On compte pour 1 chacune des publications dans laquelle l'adresse
de cet acteur apparaît, sans tenir compte du nombre total d'adresses de laboratoires
signataires.
Mars 2014
2
Le compte fractionnaire est utilisé lorsque l’on s’intéresse à la contribution d'un acteur à
la production scientifique, afin d'appréhender son poids scientifique. En ce cas, on prend en
compte, pour chaque adresse de l'acteur, la fraction de compte que représente cette adresse
dans le total des adresses de la publication.
De la même manière, les publications sont souvent rattachées à plusieurs disciplines, et
deux logiques de décompte disciplinaire peuvent donc être utilisées.
Une publication relevant de p disciplines
Quel crédit attribuer à la publication
pour chaque discipline ?
"Compte disciplinaire
fractionnaire "
"Compte disciplinaire
de présence"
Crédit = 1 / p
Crédit = 1
Quand on utilise le compte disciplinaire de présence, une publication étiquetée avec p
disciplines est comptée pour 1 dans chacune de ces disciplines, dans une logique de
participation. Quand on utilise le compte disciplinaire fractionnaire, une publication
étiquetée avec p disciplines est comptée 1/p pour chaque discipline, dans une logique de
contribution.
D) LES INDICATEURS
1 - Lissage temporel
Pour atténuer les fluctuations annuelles non significatives de la mesure, les indicateurs sont
en général moyennés (“lissés”) sur trois ans (moyenne triennale glissante) ; dans les
tableaux, la dernière année du lissage est utilisée pour dater l’indicateur : 2012 pour la
moyenne des années 2010 à 2012. L’année correspond à la date de publication des articles.
2 - Les formules de calcul
La part de publications
Pour un acteur donné et pour une année P de publication, l'indicateur «part de publications»
est défini par le nombre de publications de l’acteur rapporté au nombre de publications
publiées la même année pour une référence donnée (le monde par exemple).
Nombre de publications de l’année P de l’acteur
Part de publications (%) =
X 100
Nombre de publications de l’année P de la référence
Mars 2014
3
La densité scientifique
Pour un acteur donné et pour une année P de publication, l'indicateur «densité scientifique »
est défini par le nombre de publications de l’acteur rapporté à sa population active ou à son
PIB. Il est normalisé à 100 pour la référence considérée (le monde par exemple).
Densité scientifique =
Nombre de publications de l’acteur
Nombre de publications de la référence
/
Population active (resp. PIB) de l’acteur
X 100
Population active (resp. PIB) de la référence
L’indice de spécialisation scientifique
Pour une année P de publication, l'indicateur «indice de spécialisation scientifique» est défini
par la part de publications de l'acteur, dans une discipline et pour une référence (le monde
par exemple) données, rapportée à sa part de publications publiées la même année, dans
l'ensemble des disciplines et pour la même référence.
Part de publications (%) de l’acteur dans la référence pour une discipline
Indice de spécialisation =
Part de publications (%) de l’acteur dans la référence toutes disciplines confondues
Par construction, la valeur neutre de l’indice de spécialisation est égale à 1.
La part de citations (observées)
Le délai N pris en compte incluant l’année P de publication, la part de citations à N ans est le
nombre de citations reçues en N années par les publications de l'acteur rapporté au nombre
de citations reçues, pendant la même durée N, par l'ensemble des publications publiées la
même année dans une référence donnée (le monde par exemple).
Part de citations à N ans (%) =
Nombre de citations reçues par les publications de l’année P de l’acteur pendant N années
X 100
Nombre de citations reçues par les publications de l’année P de la référence pendant N années
L’indice d’impact (relatif) observé
Le délai N pris en compte incluant l’année P de publication, l'indicateur « indice d’impact
relatif à N ans » est défini par la part de citations reçues en N années par les publications de
l’acteur dans une référence donnée (le monde par exemple), rapportée à la part de ces
mêmes publications dans la même référence.
Indice d’impact (relatif) observé à N ans =
Part de citations observées (%) à N ans de l’acteur dans une référence donnée
Part de publications (%) de l’acteur dans la même référence
Lorsque N = 2, on parle de citations immédiates.
Par construction, la valeur de l’indice d’impact relatif observé est égale à 1 pour la référence
considérée (le monde par exemple).
Mars 2014
4
L’indice d’impact espéré
Le délai N pris en compte incluant l'année P de publication, l’indicateur «indice d’impact
espéré à N ans» est défini par la part de citations espérées à N années des publications de
l’acteur dans une référence donnée (le monde par exemple), rapportée à la part de ces
publications dans la même référence.
Indice d’impact espéré à N ans =
Part de citations espérées à N ans (%) de l’acteur dans une référence donnée
Part de publications (%) de l’acteur dans la même référence
Le calcul de la part de citations espérées d'un acteur est fait en attribuant à chacune des
publications de l'acteur le nombre moyen de citations obtenues, la même année et pour le
même type de documents, par les publications des journaux dans lesquels elles ont été
publiées.
Le ratio de citations relatif
Le délai N pris en compte incluant l'année P de publication, l’indicateur «ratio de citations
relatif à N ans » (RCR) est défini par l’'indice d'impact relatif de l'acteur, rapporté à son indice
d'impact espéré pour la même référence (le monde par exemple).
Indice d’impact (relatif) observé à N ans de l’acteur pour l’année P
Ratio de citations relatif à N ans =
Indice d’impact espéré à N ans de l’acteur pour l’année P
Le ratio de citations relatif exprime le fait que les publications de l’acteur sont plus ou moins
citées, en moyenne et pour une année de publication et un type de document donnés, que
l’ensemble des publications des journaux dans lesquels il publie.
Les classes de visibilité scientifique
Le délai N pris en compte incluant l'année P de publication, les classes de visibilité
scientifique, ou classes de citations, sont construites par percentiles décroissants de l'indice
d'impact (à N ans) des publications dans la référence considérée (le monde par exemple).
Cette répartition est utilisée afin de rendre compte de la réalité de la distribution très
dissymétrique des citations : en effet, beaucoup de publications reçoivent peu de citations et
peu de publications sont très citées.
On peut établir les classes de différentes manières : par exemple,
1) des classes englobantes : le TOP 1 des 1 % de publications les plus citées à N ans au
niveau mondial une année P donnée, puis le TOP 5 des 5 % de publications les plus
citées (englobant la classe précédente), puis le TOP 10 des 10 % de publications les
plus citées (englobant les classes précédentes), etc.
2) des classes juxtaposées : la classe des 5 % de publications les plus citées au niveau
mondial, suivie de la classe de 5 % suivantes correspondant aux 6 à 10 % des
publications les plus citées au niveau mondial, etc.
L’Indice d’activité par classe de visibilité
Pour une année P, l’indicateur «indice d’activité» est défini, pour une classe i (à N ans) de
visibilité donnée, par la part des publications de l'acteur dans la classe de visibilité étudiée,
rapportée à la part des publications de la référence (le monde par exemple) dans la même
classe.
Mars 2014
5
Part des publications (%) de l’acteur dans la classe i
Indice d’activité dans une classe i =
Part des publications (%) de la référence dans la classe i
La part de publications en collaboration internationale
Pour un acteur et pour une année P de publication, l'indicateur «part de publications en
collaboration internationale » (ou «part de copublications internationales») est défini par le
nombre de publications en collaboration internationale de l’acteur rapporté au nombre de
publications de l’acteur publiées la même année.
Part des publications en collaboration internationale =
Nombre des publications de l’acteur publiées en collaboration internationale
Nombre total de publications de l’acteur
L’indice d’internationalisation
Pour un acteur et pour une année P de publication, l'indicateur « indice d’internationalisation
» est défini par le ratio de la part de publications en collaboration internationale de l’acteur
rapporté à la part des publications en collaboration internationale de la référence (le monde
par exemple).
Indice d’internationalisation =
Part de publications en collaboration internationale (%) de l’acteur
X 100
Part de publications en collaboration internationale (%) de la référence
Par construction, l’indice d’internationalisation est égal à 1 pour le monde.
ANNEXE : quelques statistiques décrivant le contenu de la base Web of Science®
Tableau 1 : nombre et part de publications scientifiques par grande discipline (2002, 2012)
Publications scientifiques
Nombre
Grande discipline
Part (%)
2002
2012
2002
2012
Biologie fondamentale
122 796
167 364
14,2
11,9
Recherche médicale
228 828
346 522
26,4
24,6
55 645
96 925
6,4
6,9
Biologie appliquée-écologie
Chimie
110 838
184 675
12,8
13,1
Physique
95 527
136 045
11,0
9,7
Sciences de l'univers
52 735
88 186
6,1
6,3
Sciences pour l'ingénieur
95 653
199 346
11,0
14,2
Mathématiques
Toutes disciplines SMV
Sciences humaines
24 284
41 260
2,8
2,9
789 515
1 268 080
91,1
90,0
40 034
63 135
4,6
4,5
Sciences sociales
37 188
77 084
4,3
5,5
Toutes disciplines SHS
77 222
140 218
8,9
10,0
866 737
1 408 298
100,0
100,0
Toutes disciplines confondues
données Thomson Reuters - WoS (février 2013), traitements OST - OST 2014
Calculs en compte disciplinaire fractionnaire
Mars 2014
6
Tableau 2 : nombre et part des publications scientifiques dans la base (2002, 2012) par
discipline
Publications scientifiques
Nombre
Discipline
Biochimie
Bioingénierie
Biotechnologie, genetique
Microbiologie et virologie, immunologie
Neurosciences, sciences comportementales
Endocrinologie
Reproduction, biologie du developpement
Cancérologie
Cardiologie-Pneumologie
Chirurgie, gastroenterologie, urologie
Divers médical
Pharmacie,toxicologie
Santé publique et divers
Agriculture, biologie végétale
Agro-Alimentaire
Ecologie, biologie marine
Chimie générale
Chimie analytique
Chimie organique, minérale, nucléaire
Matériaux, Polymères
Physique du solide
Physique particules et nucléaire
Physique générale
Environnement
Astronomie, astrophysique
Géosciences
Energie, Génie chimique et industriel
Génie civil, minier
STIC : génie électrique et électronique
STIC : informatique, télécommunications
STIC : intelligence artificielle
Mathématiques
Multidisciplinaire
Art-architecture
Autres sciences humaines
Droit
Economie
Géographie-démographie-éthnographie
Gestion-finance
Histoire-archéologie
Lettres-philosophie
Politiques publiques
Psychologie
Sanitaire et social
Sciences de l'éducation
Sciences de l'information
Sciences politiques
Sociologie et sciences sociales diverses
Toutes disciplines confondues
Part (%)
2002
2012
2002
2012
51 024
17 844
15 419
27 792
39 020
12 830
12 464
14 257
28 159
30 038
63 401
20 502
23 717
20 471
14 524
22 551
17 854
12 271
20 537
38 355
60 312
39 492
23 845
13 462
11 736
26 556
26 619
7 475
18 285
17 078
14 045
24 284
2 427
3 858
1 837
2 488
5 209
2 420
4 262
6 134
10 111
2 323
15 674
9 017
3 043
1 363
4 415
5 068
68 501
36 872
24 447
38 251
52 741
18 187
18 381
23 686
39 898
44 013
88 144
35 187
44 702
29 698
26 162
33 349
32 975
18 593
25 136
78 193
87 331
57 594
32 600
28 812
17 484
41 013
56 946
17 260
37 808
36 769
30 264
41 260
5 821
5 498
3 352
3 909
10 680
4 975
10 689
9 635
13 818
4 637
25 856
19 835
8 559
2 293
7 466
9 015
5,9
2,1
1,8
3,2
4,5
1,5
1,4
1,6
3,2
3,5
7,3
2,4
2,7
2,4
1,7
2,6
2,1
1,4
2,4
4,4
7,0
4,6
2,8
1,6
1,4
3,1
3,1
0,9
2,1
2,0
1,6
2,8
0,3
0,4
0,2
0,3
0,6
0,3
0,5
0,7
1,2
0,3
1,8
1,0
0,4
0,2
0,5
0,6
4,9
2,6
1,7
2,7
3,7
1,3
1,3
1,7
2,8
3,1
6,3
2,5
3,2
2,1
1,9
2,4
2,3
1,3
1,8
5,6
6,2
4,1
2,3
2,0
1,2
2,9
4,0
1,2
2,7
2,6
2,1
2,9
0,4
0,4
0,2
0,3
0,8
0,4
0,8
0,7
1,0
0,3
1,8
1,4
0,6
0,2
0,5
0,6
866 737
1 408 298
100,0
100,0
données Thomson Reuters - WoS (février 2013), traitements OST - OST 2014
Calculs en compte disciplinaire fractionnaire
Mars 2014
7
Tableau 3 : nombre de citations à 2 ans et indice d’impact direct à 2 ans par grande discipline
(2002, 2012)
Citations à 2 ans
Nombre
Grande discipline
Indice d'impact direct
2002
2012
2002
2012
Biologie fondamentale
429 189
440 113
2,69
1,96
Recherche médicale
430 636
607 168
1,60
1,47
58 261
127 351
0,82
1,05
Chimie
172 208
378 914
1,25
1,53
Physique
168 882
221 472
1,43
1,19
Sciences de l'univers
81 757
162 217
1,30
1,47
Sciences pour l'ingénieur
43 332
126 390
0,34
0,48
Mathématiques
10 103
24 954
0,34
0,48
1 822
7 387
0,45
0,74
1 396 190
2 095 965
1,73
1,61
Sciences humaines
21 214
42 405
0,40
0,50
Sciences sociales
22 217
52 668
0,41
0,47
Toutes disciplines SHS
43 431
95 072
0,44
0,53
1 439 621
2 191 038
1,66
1,56
Biologie appliquée-écologie
Non attribué
Toutes disciplines SMV
Toutes disciplines confondues
données Thomson Reuters - WoS (février 2013), traitements OST - OST 2014
Calculs en compte disciplinaire fractionnaire
Mars 2014
8