Extracció i anàlisi d'informació de la web

Mostra el registre complet Registre parcial de l'ítem

  • dc.contributor.author Galbany Duran, Francescca
  • dc.date.accessioned 2015-03-30T09:38:58Z
  • dc.date.available 2015-03-30T09:38:58Z
  • dc.date.issued 2014
  • dc.description Tutor: Carles Martín Badell
  • dc.description.abstract El punt de partida del projecte és el d'implementar un sistema que permeti classificar les planes/nweb en funció del seu idioma. Després d'analitzar diferents metodologies per a la detecció de/nl'idioma i diverses tècniques d'obtenció d'informació web, s'ha decidit de treballar en un enfoc/nmés generalista que permeti obtenir informació arbitraria de cada plana web per al seu posterior/nanàlisi, de la mateixa manera, donat que no és viable estadísticament treballar sobre tota la web,/nel sistema proposat permet acotar l'estudi de forma que es pugui obtenir la totalitat de les planes/nd'un subconjunt definit. Això̀ permet que el sistema proposat serveixi tant per analitzar la/nimplantació́ d'un idioma en un conjunt de planes web com, per exemple, per determinar la/nfreqüència d'una sèrie de paraules clau en el conjunt d'estudi o com n'estan distribuïts els/nservidors geogràficament parlant, entre d'altres possibilitats./nEl projecte engloba la creació́ d'un entorn que té en compte les tres fases en l'anàlisi/nd'informació de l'entorn web. Tracta el problema de l’adquisició́ d’informació́ i la seva/nclassificació per a poder ser explotada. Proposa un sistema d'enriquiment de les dades/nobtingudes a partir de terceres fonts o generades a partir de calculs implementats en el propi/nsistema. Per últim, mostra un métode de transformació de les dades i la seva abstracció en un/nmodel visual per a resoldre el problema de la representació de la informació.ca
  • dc.format.mimetype application/pdfca
  • dc.identifier.uri http://hdl.handle.net/10230/23311
  • dc.language.iso catca
  • dc.rights Attribution-NonCommercial-NoDerivs 3.0 Spainca
  • dc.rights.accessRights info:eu-repo/semantics/openAccessca
  • dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/3.0/es/ca
  • dc.subject.other Pàgines web -- Anàlisi i indexació de documents
  • dc.title Extracció i anàlisi d'informació de la webca
  • dc.type info:eu-repo/semantics/bachelorThesisca