Institut numerique

3.4. Détection

Aussi les universités et autres institutions, se sont-elles attelées pour s’équiper d’outils informatiques pouvant les aider dans leur campagne de lutte contre ce phénomène, via sa détection notamment. C’est la stratégie, comme le précise March (op.cit., p. 134), de «[…] Combattre le feu par le feu…une solution technologique à un problème technologique ». La détection dans ce contexte réfère au processus de vérification des travaux académiques des étudiants pour en déceler ceux qui sont plagiés et de quelles sources. (Lancaster, 2003)

Ainsi les moteurs de recherche tels que Google, yahoo, Meta-Crawler, Altavista, Amazone, Baidu, Numika, Voilà, Bing, Hotbot,Dogpil, Vivisimo, Ixquick, Northern light et tant d’autres, peuvent être utilisés pour détecter les documents copiés. (Silverman, 2002)

Toutefois, cette mesure n’est que moyennement efficace, parce que ces moteurs ne vérifient que ce qui est accessible sur le net. C’est pour cette raison que « […] L’usage de bases de données en ligne auxquelles les bibliothèques peuvent souscrire, peut être bénéfique pour dénicher les articles copiés que les moteurs de recherche libres ne peuvent trouver ». (Sharkey et Bartlow Culp, 2005, p.108)

Il n y’a rien de mieux, selon Olsson (2004), que des compétences linguistiques en investigation informatique moyennent les moteurs de recherche pour détecter le plagiat. Il appuie cette assertion en procurant effectivement une panoplie de techniques syntaxiques, stylistiques, orthographiques et lexicales dont un enseignant pour faire usage, sans qu’il ait besoin d’autres engins autrement plus onéreux et plus sophistiqués.

Néanmoins, ces techniques de détection, quoi que relativement satisfaisantes, consument énormément de temps. (Whiteman, 2001) En effet, un professeur, selon Sutherland-Smith (op.cit.) et Brandt (2009), peut passer jusqu’à quinze heures pour vérifier, colliger et préparer les preuves pour un seul cas de plagiat. Par ailleurs, la détection est d’autant plus délicate que les plagiaires potentiels ont accès à des sources d’information qu’aucun enseignant ne pourra jamais maîtriser.

3.4.1. Outils de détectons de plagiat électronique :

De plus en plus d’universités un peu partout dans le monde utilisent les logiciels de détection automatique de plagiat. Elles peuvent choisir parmi un large éventail d’outils de détection dont voici un aperçu :

Tableau 3.1. Représentation des outils de détection de plagiat

Source : McCorde, A. (2009)(38)

Soulignons que cette liste n’est nullement exhaustive, et qu’il existe beaucoup d’autres outils de détection de plagiat tels que compilatio.com, noplagiat.com, pompotron.com… Mais quel que soit leur nature, libre ou commerciale, on peut les catégoriser en quatre types :

– Ceux qui utilisent des moteurs de recherche comme Google, Microsoft Live…Sans qu’il soit installé sur le poste de l’usager et sans se connecter au site de la société éditrice.
– Ceux qui ne s’installent pas sur le poste de l’usager mais envoient les documents à analyser vers le site de la société éditrice.
– Ceux qui s’installent sur le poste local de l’usager. Ils effectuent des comparaisons de documents locaux et font appel à un moteur de recherche pour démasquer les sites web plagiés et ce, sans l’aide de l’éditeur.
– Et ceux qui s’installent sur le poste locale et envoient les documents pour analyse à l’éditeur. (McCorde, 2009; Daci, 2008)

Ainsi, lorsqu’une institution d’enseignement décide de se doter de l’un de ces outils, en fait, elle n’achète pas un logiciel qui se suffit à lui-même, mais plutôt « le droit d’utiliser un logiciel qui est autorisé à accéder à l’index constitué par la société éditrice du logiciel ». (Beregadà, 2007, p.113)

Or, ce droit nécessite une licence, dont le coût peut aller d’un dollar pour une simple et unique analyse, à des milliers de dollars pour un usage illimité et, à ce titre, il risque d’être prohibitif non seulement pour une faculté mais même pour une université. (Vilic et Cini, 2006 Quickwit, 2004))

3.4.2. Principes de fonctionnement :

En fait, les outils de détection de plagiat contiennent une base de données des sources web (indexation qui se fait en récupérant et en stockant des documents de millions de sites web) et une base de données contenant des copies de tous les devoirs et documents qui leur ont été soumis. (Bothma et al., 2009)

Globalement, ces logiciels réalisent les tâches suivantes lorsqu’un document leur est soumis pour analyse :

– Comparaison du travail :

o Avec ce qui se trouve sur Internet ;
o Avec d’autres travaux des étudiants en format électronique accumulés sur le serveur de l’entreprise qui fournit le service ;
o Avec le contenu de revues et autres publications en ligne : celles-ci ne sont pas généralement indexées dans Google car elles sont disponibles seulement sur abonnement et leur accès est donc contrôlé ;

– Soumission d’un rapport intégrant un graphique de « taux d’originalité » pour chaque travail soumis et un rapport synthèse pour le groupe. Les emprunts sont soulignés et les sources sont indiquées. (Perreault, 2007, p.15)

Autrement dit, lorsqu’un enseignant soumet le travail d’un étudiant pour vérification à l’un de ces logiciels, il est comparé aux travaux enregistrés dans les deux bases de données, et il en devient lui-même partie. En pratique « […] cela signifie que le travail en question sera comparé non seulement aux autres travaux soumis un peu de par le monde, mais aussi comparé aux documents soumis par les étudiants de la même classe ». (Note traduction) (Bothma et al., op.cit., p.127)

L’aboutissement en est un rapport d’originalité qui procure moult détails sur les similarités relevées. (Barrett et Malcolm 2006 ; Atkinson et Yeoh, 2008), proposent qu’un taux de similarité dépassant les 15%, signifie qu’on est potentiellement devant un cas de plagiat.

Or, C’est loin d’être systématique. L’outil ne fournit que des similarités. C’est la raison pour laquelle (Bergadaà, 2007 ; Koberstein et Ng, 2006 ; Decoo et Colpaert, 2002) préfèrent plutôt parler d’ « outils de détection de similarité ». C’est aux enseignants qu’incombe la responsabilité de décider, après investigation et vérification, ce qui est plagiat de ce qui ne l’est pas. L’outil n’est qu’un adjuvent.

Falchikov (2005, p.53) souligne à juste titre que « […] la technologie peut aider dans ce domaine, [mais] elle ne peut remplacer l’expertise humaine ». (Notre traduction) Encore faut-il que les enseignants soient efficacement informés et formés pour le faire. Tant il est vrai que le risque d’erreur est assez significatif. (Ormiston, 2004; Bérci, 2007; Harris, 2003)

Toutefois, un certain degré d’objectivité dans la vérification est atteint, en comparaison avec les anciennes méthodes instinctives de détection dont faisaient usage certains enseignants. Ci-après un tableau illustrant les méthodes qu’utilisent les enseignants pour vérifier les écrits de leurs étudiants, selon qu’elles soient subjectives ou objectives :

Tableau 3.2 Les méthodes subjectives et objectives de détection de plagiat qu’utilisent les enseignants

Source: Newton (2009, p.18)(39)

Ce que l’on retient du tableau, c’est que, effectivement, plus la technologie est intégrée dans le processus de détection de plagiat dans les travaux des étudiants, moins la subjectivité des enseignants est enregistrée.

Il appert ainsi de la littérature que le besoin à ces outils de détection de plagiat n’a jamais été aussi grand. Toutefois le nombre de produits disponibles sur le marché demeure en deçà de la demande. (Loutzenhiser, Pita et Reed, 2006) Néanmoins, l’outil de détection le plus sollicité et le plus vanté de par le monde reste sans conteste turitin.com. (Bacon, 2003 ; Senders, 2008 ; Hannay, 2006 ; Sutherland-Smith, 2008)

John Barrie de l’Université de Berkeley, le développeur de ce logiciel a, en fait, « […] orchestré l’un des outils de détection de plagiat les plus utilisés et les plus lucratifs dans le monde ». (March, 2007, p.134)

Le PDG de iParadigms LLC, société éditrice de Turnitin, (cité par Hannay, 2006, p.174) précise qu’ « approximativement 30% des 20.000 documents que nous analysons chaque jour sont loin d’être originaux ». Ils sont en fait comparés à une base de données de quelques cinq milliards de pages web. (Jones, Reid et Bartlett, 2005).

Pour lui ôter son caractère coercitif et policier, les services de cet outil sont présentés comme une pédagogie éducative et corrective ayant pour but ultime la socialisation des étudiants par rapport aux normes d’originalité, de citation de sources et d’écriture académique. (March, op.cit.)

Ainsi, les étudiants, en leur permettant de soumettre leurs travaux répétitivement à cet outil et sous la supervision effective de leurs enseignants, apprennent, via les rapports que leur procure l’outil mais aussi et surtout la guidance de leurs enseignants, ce qui est considéré comme plagiat de ce qui ne l’est pas. (Burnett, 2009 ; Martin, 2004, McCorde, 2009) L’exercice est d’autant plus instructif que le plagiat électronique est commis inintentionnellement. En outre, la disponibilité du logiciel permettra aux étudiants de faire un « toilettage » de leurs écrits avant de les soumettre à leurs enseignants, ce qui dispensera ces derniers de le faire et, donc gagner une marge de temps assez conséquente. (Enagkeeran, Rozlan et Kamaruzaman, 2009)

Cependant, cette accessibilité des étudiants aux outils de détection, certains la récusent pour la simple raison que celà leur ouvrira d’autres perspectives de triche autrement plus sournoises. C’en serait certainement le cas si c’était la seule approche adoptée pour combattre le plagiat électronique. (McCorde, 2009)

En tout cas, Les enseignants qui ont en fait usage « […] rapportent que prévenir les étudiants que leurs travaux seront analysés par un outil de détection de plagiat, réduit considérablement le nombre de plagiaires ». (Thomas, 2006, p. 176)

3.4.3. Les quatre étapes du processus de détection de plagiat :

Lancaster (2003) propose un cadre proactif de détection de plagiat à quatre étapes. Celles-ci peuvent faire l’objet d’une automatisation en tout en partie. En effet, comme l’illustre la figure ci-dessous, le clipart ordinateur indique que l’étape peut être automatisée.

Le clipart, enseignant réfère à l’étape où l’assistance humaine est exigée. L’icône réunissant les deux cliparts indique que l’étape demande les deux.

Figure 3.2. Les quatre étapes du processus de détection de plagiat

Source : (Lancaster, 2003, p.11) (avec adaptation des clipart)

La première étape est la collection, celle où les travaux des étudiants sont soumis à l’outil pour vérification. La seconde est celle de l’analyse, où le logiciel de détection de similarité produit un rapport où figurent les passages potentiellement plagiés avec un taux de similarité. Faut-il mentionner que l’efficacité de la détection dépend du type de logiciel de détection utilisé. La troisième étape est celle de la confirmation, c’est celle où l’on décide si la similarité relevé par l’engin constitue plagiat ou non. A ce stade l’expertise humaine est nécessaire. La quatrième étape est, quant à elle, celle où l’on reconsidère et investigue davantage les travaux plagiés pour finalement infliger une pénalité adéquate. (Lancater, 2003)

S’il est vrai que l’implémentation de ces outils s’avère être hautement dissuasive à l’endroit du plagiat électronique, (Quickwit, 2004 ; Martin, 2004) il n’en reste pas moins vrai qu’elle doit impérativement être accompagnée de la mise en place d’un système punitif approprié, transparent, juste et équitable. Autrement, elle n’aboutira qu’à des résultats mitigés.

Le fait est que, une détection transparente avec une échelle de pénalités « […] fonctionnent comme un pack pour éduquer et dissuader, et par conséquent pour prévenir ». (Park, 2004, p.302)

Au moment où certains présentent ces logiciels comme une « balle d’argent » pouvant venir à bout de ce phénomène, d’autres se montrent plutôt sceptiques, et soulignent qu’ils sont encore à leur premier cycle de vie technologique et, à ce titre, ne peuvent être que faillibles. (McCorde, op.cit., p. 612)

Certes, la détection et la punition éducative sont indissociables et indéniablement utiles, toutefois, ne sont dissuasives en tant qu’elles sont intégrées à un cadre institutionnel adoptant une approche holistique du problème. (Macdonalds et Carroll, 2006)

3.4.4. Les limites des outils de détection de plagiat

Comme nous l’avons mentionné plus haut, les outils de détection de plagiat présentent des imperfections que nous listons comme suit :

– Les documents non digitalisés ne sont pas détectés. Il en est de même pour certains sites scientifiques spécialisés à accès restreint et nombre de sites commerciaux. (Bergadaà, 2007 ;)
– Les sites vendant des travaux « clés en mains » ou sur mesure(40) ne leur sont pas accessibles. (Hannay, 2006, Bergadà, 2007) le plan de développement de ces sites, dont le commerce est fleurissant plus que jamais notamment dans le contexte nord-américain, canadien et européen, garantit les clients que leur produits résistent à l’épreuve du plagiat.

Voici un petit échantillon de ces sites (avec notre traduction) :

Tableau 3.3 Sites vendant des travaux tout fait ou personnalisés

Sources : (Loutzenhiser, Pita et Reed, 2006, p.56)

– L’écueil du multilinguisme et des travaux traduits désarment littéralement ces outils. (Ceska, Toman et Jezek, 2008 ; Enagkeeran et al., 2009) Il y’en a même qui ne prennent en charge que l’anglais ou le français. (Bergadaà, 2007)

– l’usage de la synonymie ou de la paraphrase (la thésaurisation)(41) peuvent aussi généralement déjouer ces outils, même si certains outils pouvant composer avec cette donne tels que EuroWordNest Thesaurus commencent à être utilisé. Toutefois, ils sont encore à un stade de balbutiement. (Ceska et al., 2008)

– Le gostwriting ne peut être détecté ; Un étudiant peu scrupuleux peut de faire faire son travail par quelqu’un d’autre et, les outils de détection de plagiat ne peuvent pas le découvrir. Il en est de même pour le plagiat des idées. (Martin, 2004 ; Parsell et Townley, 2004)

A ces limites sus-mentionnées s’ajoute un litige d’ordre éthiquo-légal de plus en plus soulevé par les étudiants notamment dans les universités nord-américaines. Il s’agit de l’archivage et l’usage des travaux des étudiants par ces outils, ce qui est en soi une violation de la propriété intellectuelle. Les étudiants arguent que ces outils « […] utilisent leur propriété intellectuelle à des fins commerciales sans les mentionner ou prendre leur assentiment ». (Freedman, 2008, p. 38) C’est un irrespect pur et simple du choix des étudiants qui rechignent à ce que leurs travaux soient insérés dans une base de données dont l’usage est pécuniaire. D’autant plus que c’est une violation de leur vie privée. Mais le système est tel qu’ils n’ont d’autre choix que de s’y plier. (Parsell et Townley, 2004 ; Loutzenhiser et al., 2006)

Ci-après un schéma illustratif du fonctionnement et des limites des outils de détection de plagiat :

Figure 3.4. Fonctionnement et limites des outils de détection de similarité

Sources : Giezendanner, F.D. (2008)(42)

Il apparaît donc que les outils de détection de plagiat, contrairement à leur nom, ne détectent pas le plagiat mais plutôt des copies ou parties de copies de document, (Intronas et Hayes, 2008) et ce faisant, ils ne vérifient que la partie visible de l’iceberg qu’est internet.

Or, comme tous les icebergs, la partie immergée ou « l’Internet invisible ou profond » (Loutzenhiser et al., op.cit., p.58) est beaucoup plus grande, ce qui fait que la portée dissuasive de ces logiciels, bien que réelle, néanmoins limitée.

Par ailleurs, L’instrumentation de ces outils à des fins uniquement punitives est inique, pour les raisons qu’Intronas et hayes (2008.) invoquent comme suit :

– les outils sont basés sur l’assertion que « copiage=plagiat », ce qui est un point de vue complètement légaliste du plagiat électronique, et qui ne sort pas des ornières du copyright occidental qui protège l’expression et non les idées. Par conséquent, les étudiants dont la langue d’apprentissage n’est pas la langue mère s’en trouvent désavantagés, car leurs connaissances linguistiques sont telles qu’ils ne peuvent réexprimer les travaux des autres, et se trouvent ainsi toujours détectés par les algorithmes de détection.

– Les étudiants non occidentaux dont les moeurs d’imitation des prédécesseurs et « le respect des seniors et l’autorité établie » (Irons, 2004, p.103) sont largement encouragées, sont improprement identifiés comme plagiaires, alors les natifs pouvant faire le plagiat des idées ou arguments des autres, échappent aux rets de la détection.

– Les hypothèses intégrées aux logiciels de détection sont développées dans un contexte culturel occidental avec sa vision propre de l’enseignement et de l’apprentissage. En tant que tels, Ils ne peuvent être que discriminants vis-à-vis des non occidentaux. Aussi, « […] l’usage du logiciel doit-il être contextualisé ». (Atkinson et Yeoh, 2008, p. 227)

– Aucun outil en pratique n’allège le travail des enseignants, bien au contraire il en rajoute puisque, « les utilisateurs finaux devront décider à quel moment « la similarité » se transforme « en plagiat ». (Bergadaà, 2007, p.118)

Pour toutes les raisons invoquées plus haut et tant d’autres, la posture d’affût qu’adoptent certaines universités n’aurait qu’un effet boomerang, puisque des solutions technologiques pourront toujours être surmontées par des technologies encore plus sophistiquées et cela irait crescendo indéfiniment. (Parsell et Townley, 2004)

C’est pourquoi « […] l’acte de détection doit être secondaire et l’acte de prévention doit être primaire », (Stepehyshyn et Nelson, 2007, p. 7), et le tout chapeauté par une approche éducative proactive à l’endroit du plagiat électronique.

38 MCCORDE, A. (2009). «Detection and deterrence of plagiarism In an Online Environments». Dans ROGERS, P., G. BERG, J. BOETTCHER, C. HOWARD, L. JUSTICE ET K.
SCHENK (sous la direction de), Encyclopedia of Distance Learning, Second edition, Hershey et Londres, Information Science reference , IGI Global, p. 607
39 NEWTON, G.J. (2009). Plagiarism In High Schools: A Case Study Of How Teachers Adress A Perpetual Dilemma, dissertation soumise pour l’obtention partielle de doctorat en education, College Of Human Resources And Education, West Virginia University, 189 pages.
40 Certains sites commerciaux vendent aux étudiants des travaux personnalisés qu’il leur confectionnent, en tenant compte de leur niveau linguistique et, pousse la supercherie jusqu’à y glisser quelques fautes d’orthographes et autres tournures de styles mal agencées pour donner l’impression que c’est l’étudiant qui a rédigé le travail.
41 La thésaurisation est une technique consistant à prendre une source et en remplacer les mots par leurs synonymes ou des mots ayant un sens proche ou encore étendre les abréviations sous leur forme complètes.
42 GIEZENDANNER, F.D. (2008). Choisir un système de détection de plagiat. CMS-SPIP.[En ligne] http://icp.ge.ch/sem/cms-spip/spip.php?article603 (Retiré le 20/01/10)

Page suivante : 3.5. Prévention

Retour au menu : LE PLAGIAT ẾLECTRONIQUE AU NIVEAU DE L’ENSEIGNEMENT SUPERIEUR UNIVERSITAIRE PUBLIC : ETAT DES LIEUX, PROPOSITIONS DE PISTES DE PRẾVENTION ET DẾTECTION CAS DE L’UNIVERSITẾ SULTAN MOULAY SLIMANE DE BENI MELLAL