El punt de partida del projecte és el d'implementar un sistema que permeti classificar les planes/nweb en funció del seu idioma. Després d'analitzar diferents metodologies per a la detecció de/nl'idioma i diverses tècniques d'obtenció d'informació web, s'ha decidit de treballar en un enfoc/nmés generalista que permeti obtenir informació arbitraria de cada plana web per al seu posterior/nanàlisi, de la mateixa manera, donat que no és viable estadísticament treballar sobre tota la web,/nel sistema ...
El punt de partida del projecte és el d'implementar un sistema que permeti classificar les planes/nweb en funció del seu idioma. Després d'analitzar diferents metodologies per a la detecció de/nl'idioma i diverses tècniques d'obtenció d'informació web, s'ha decidit de treballar en un enfoc/nmés generalista que permeti obtenir informació arbitraria de cada plana web per al seu posterior/nanàlisi, de la mateixa manera, donat que no és viable estadísticament treballar sobre tota la web,/nel sistema proposat permet acotar l'estudi de forma que es pugui obtenir la totalitat de les planes/nd'un subconjunt definit. Això̀ permet que el sistema proposat serveixi tant per analitzar la/nimplantació́ d'un idioma en un conjunt de planes web com, per exemple, per determinar la/nfreqüència d'una sèrie de paraules clau en el conjunt d'estudi o com n'estan distribuïts els/nservidors geogràficament parlant, entre d'altres possibilitats./nEl projecte engloba la creació́ d'un entorn que té en compte les tres fases en l'anàlisi/nd'informació de l'entorn web. Tracta el problema de l’adquisició́ d’informació́ i la seva/nclassificació per a poder ser explotada. Proposa un sistema d'enriquiment de les dades/nobtingudes a partir de terceres fonts o generades a partir de calculs implementats en el propi/nsistema. Per últim, mostra un métode de transformació de les dades i la seva abstracció en un/nmodel visual per a resoldre el problema de la representació de la informació.
+