Creación de un prototipo de sistema de detección de plagio con NLTK

Enllaç permanent

Descripció

  • Resum

    El plagio es un problema en el mundo académico y educativo. Se ha intentado paliar mediante detección automática con aplicativos, pero estos aplicativos tienen limitaciones. Además, no siempre se realizan comprobaciones de plagio y posiblemente muchas veces se pasen muchos casos por alto. En una primera parte de este trabajo exploramos el estado del arte de la cuestión. Allí explicamos que plagiar es hacer copias sustanciales de textos de otros. El plagio se puede clasificar en literal, de cambios superficiales, de paráfrasis, de traducción, y estructural o de idea. El plagio tiene una faceta social y otra lingüística. Existen diferentes métodos de detección de plagio pero ninguno es óptimo actualmente para la paráfrasis o detección de la idea. El software que hay en el mercado depende de que se conserve una parte importante del texto original. Definidas estas cuestiones, iniciamos el desarrollo del prototipo de un sistema de detección propio para un tipo determinado de plagio, el plagio de cambios superficiales de un fragmento de texto de extensión de un párrafo, utilizando conocimientos adquiridos durante el grado. Estructuramos el prototipo en módulos. Una vez finalizado, nuestro prototipo es capaz de detectar los párrafos originales de textos copiados de internet; párrafos que presentan cambios de orden de palabras, de flexión, de orden de frases, y algunos casos de sinonimia. Concluimos que es posible realizar un sistema como este con los conocimientos adquiridos en Lenguas Aplicadas.
    El plagi és un problema en el món acadèmic i educatiu. S'ha intentat pal·liar mitjançant la detecció automàtica amb aplicacions, però aquestes aplicacions tenen limitacions. A més, no sempre es realitzen comprovacions de plagi i possiblement moltes vegades es passin per alt molts casos. En una primera part d'aquest treball explorarem l'estat de l'art d'aquesta qüestió. Allà explicarem que plagiar és fer copies substancials de textos d'altres persones. El plagi es pot classificar en literal, de canvis superficials, de paràfrasi, de traducció, i estructural o d'idea. El plagi té una faceta social i una altra de lingüística. Existeixen diferents mètodes de detecció de plagi però cap és òptim actualment per al plagi de paràfrasi o de detecció de la idea. El software que hi ha al mercat depèn que es conservi una part important del text original. Una vegada definides aquestes qüestions, iniciem el desenvolupament del prototip d'un sistema de detecció propi per a un determinat tipus de plagi, el plagi de canvis superficials d'un fragment de text d'un paràgraf d'extensió, utilitzant coneixements adquirits durant el grau. Estructurarem el prototip en mòduls. Un cop finalitzat, el nostre prototip és capaç de detectar els paràgrafs originals de textos copiats d'internet; paràgrafs que presenten canvis d'ordre de paraules, de flexió, d'ordre de frases, i alguns casos de sinonímia. Podem concloure que és possible realitzar un sistema com aquest amb els coneixements adquirits en Llengües Aplicades.
    Plagiarism is a problem in the academic and educational world. Attempts have been made to combat it using automatic detection with applications, but these applications have limitations. Furthermore, plagiarism checks are not always applied, and many cases may be overlooked. In the first part of this paper we explore the state of the art of this issue. There we explain that plagiarism is to make substantial copies of other people's texts. Plagiarism can be classified into literal, of superficial changes, paraphrase, translation, and structural or idea based. Plagiarism has a social and a linguistic facet. There are different methods of detecting plagiarism, but none is currently optimal for paraphrasing or detecting the idea. The software available on the market depends on the preservation of a significant part of the original text. Once these issues have been defined, we start developing the prototype of our own detection system for a specific type of plagiarism, the plagiarism of superficial changes in a text fragment of a paragraph length, using knowledge acquired during the Degree. We structure the prototype in modules. Once completed, our prototype is capable of detecting the original paragraphs of texts copied from the Internet, paragraphs that present changes in word order, inflection, sentence order, and some cases of synonymy. We conclude that it is possible to make a system like this with the knowledge acquired in Applied Languages.
  • Descripció

    Treball de fi de grau en Llengües aplicades. Tutor: Antoni Badia Cardus
  • Mostra el registre complet