28.11.05

Lo que la casa blanca no quiere que veas

He puesto un titular mas bien sensacionalista, pero en el fondo no es asi. Mas que "lo que la casa blanca no quiere que veas" es "lo que la casa blanca no quiere que los motores de busqueda de internet vean y guarden una copia" o "lo que la casa blanca no quiere que en un futuro se pueda demostrar que estaba alli". No me regañeis, si esto fuera un quiosco habría vendido muchos mas periodicos.

Todos conocemos la cache de google, una copia de las paginas web que indexa en su buscador. Esta cache es muy utilizada cuando algun medio borra una noticia o comunicado en el que mete la pata, podemos visitar la cache de google para ver que es lo que habia en esa web antes de que borrasen esa informacion "sensible".

Existe un fichero en los servidores web, robots.txt, que le dice a los buscadores lo que pueden y lo que no pueden indexar/copiar. Un blogero ha encontrado el de la casa blanca y lo puedes ver aqui.

En el fondo no es mas que un fichero de prohibiciones, yo creo que si hubiesen puesto *iraq* acababan antes.

via guerraeterna.

6 Comments:

Anonymous Anónimo said...

No lo entiendo muy bien. El listado que ha encontrado el tío ese, ¿es de búsquedas que ha realizado la WaitJaus en google y que luego ha querido eliminar?

28/11/05 12:59  
Anonymous Anónimo said...

nou nou nou, es un listado de las cosas que witejaus quiere que sean invisibles para los buscadores en el caso de que existan alguna vez, que no se puedan encontrar por esos motores de busqueda ni copiar para las "caches".

28/11/05 13:25  
Anonymous Anónimo said...

Pero, ¿eso es legal? ¿No están manipulando el funcionamiento interno de google? ¿A google no le importa?

28/11/05 13:45  
Anonymous Anónimo said...

Pero, ¿eso es legal? ¿No están manipulando el funcionamiento interno de google?

28/11/05 13:47  
Blogger Alxemi said...

Claro que es legal, internet funciona asi, si tu pones un servidor web y no quieres que ningun programa recolectador de paginas web haga una replica de lo que hay en tu servidor sin que tu te enteres, tienes derecho a que sea asi, igual que puedes prohibir el acceso a quien no quieras, poner contraseñas,etc.

El fichero robots.txt existe precisamente para eso, todos los servidores web tiene uno. Mirad por ejemplo el de la web de elmundo.es:

http://www.elmundo.es/robots.txt

o el de elpais.es
http://www.elpais.es/robots.txt

Como veis no hace falta ser un hacker ni nada de eso para leer el robots.txt de cualquier servidor web. Tienen que ser ficheros de acceso público para que los programas puedan leerlos y marcharse sin hacer nada...

28/11/05 13:55  
Blogger Alxemi said...

Fijaos, hasta google tiene un robots.txt:

http://www.google.com/robots.txt

La verdad es que es una buena tecnica para investigar algo de un sitio web, descubres muchos directorios a los que se puede acceder, pero que por alguna razon, su dueño no quiere que sean indexados, por ejemplo con el de google viendo esto:

Disallow: /palm

significa que existe un directorio http://www.google.com/palm al que podemos acceder, y ademas, no quieren que sea indexado, por lo que mas ganas todavia de entrar xD

28/11/05 14:04  

Publicar un comentario

<< Home