viernes, 12 de junio de 2009

La wikipedia en Cd. Descargatela!!

Aunque de momento resulta un poco complicado hacerlo y configurarlo, os comento que hay iniciativas para poder aprovechar el contenido de la wikipedia y poder llevarlo contigo en un cd.

Os pongo un extracto de lo que nos dicen sus autores:

"Que es?

La Wikipedia Offline es un proyecto para meter en un solo CD todo el contenido que sea posible de la wikipedia en español, para ser usado por colegios, escuelas, y alumnos que no tengan acceso directo a Internet.

Como se hace?

Se parte de un dump estático de la wikipedia que contiene cada articulo de la wikipedia en un archivo .html, todo junto dentro de un paquete comprimido con .7z

En un primer paso se utiliza un script que descomprime este paquete y trata de borrar todas las paginas que consideramos que pueden ser borradas, tales como paginas de usuarios, discusiones sobre los articulos en sí, etc.

En un segundo paso se arma un índice de palabras existentes en cada página html, para posibilitar la búsqueda de artículos, y se recomprimen las páginas en un formato tal como ZIP que permita el acceso aleatorio a una página, que no es posible en un formato de paquete de acceso secuencial como es .7z

El tercer paso es armar un programa en python que al ser ejecutado escuche como un server de http en un determinado puerto de la maquina local, y que a continuacion abra un browser apuntado a si mismo. El servidor de http al ser consultado por el browser devolverá una página sacada del archivo comprimido, y de no encontrar la página permitirá hacer una búsqueda usando el índice de palabras armado en el paso anterior."

Via: wikipediaoffline, descarga

No hay comentarios: