Recuperar el contenido único de un portal antiguo eliminado para usarlo en un portal nuevo: beneficios y pasos a seguir

A veces nos encontramos en grandes empresas con numerosos portales que con el paso del tiempo se han vuelto obsoletos y se han cerrado sin que su contenido este aprovechado para migrarlo a otro portal o bien sin redirigir con 301 las URLs para transferir el peso SEO de sus backlinks a otro dominio.

Aquí no vamos a tratar el tema de las redirecciones, sino la posibilidad de recuperar años después algún contenido único y de valor que podían tener estos portales antiguos para aprovecharlos y publicarlos en nuevos portales.

La cuestión es entonces de saber cómo copiar el contenido archivado por Way Back Machine (WBM) o Web Archive: http://web.archive.org/ dado que aspiradores de sites como WinHTTrack Website Copier no funcionan con WBM porque el robots.txt bloquea el rastreo y la indexación de sus páginas.

Para conseguir copiar el contenido archivado de WBM debemos seguir estos pasos:

1/ Conseguir URL inicial:

Ejemplo: http://web.archive.org/web/*/http://dominio.com

2/ Configurar el Spider Screaming Frog de la siguiente manera:

3/ Añadir filtro de URL “Include” para rastrear solo el dominio que nos interesa:

Si el número de páginas es demasiado elevado y Screaming Frog se queda sin memoria, realizar un crawl por año, usando la URL del año y añadiendo un filtro de URL “Include”:

http://web.archive.org/web/20100601000000*/http://dominio.com

4/ Extraer URLs:

Extraer URLs internas con respuesta 200 y ordenar por número de palabras encontradas. Quitar del listado las URLs con “*/” dado que no son URLs del dominio analizado sino propias de WBM que no nos interesan para extraer el contenido (suelen tener un volumen importante de palabras contadas):

5/ Extraer contenido a partir de las URLs validas con iMacros:

a)      Instalar Firefox y el complemento iMacros: https://addons.mozilla.org/es/firefox/addon/imacros-for-firefox/

b)      En caso de fallos de memoria de Firefox, instalar también el complemento www.browsermemory.com que limpia la cache de Firefox en continuo.

c)       Crear un script similar a este para que a partir de un listado de URLs iMacros vaya copiando y almacenando el contenido de las páginas en archivos TXT, HTML y eventualmente JPG:

VERSION BUILD=6900210
SET !ERRORIGNORE YES
SET !TIMEOUT_STEP 0
SET !TIMEOUT_PAGE 15
SET !EXTRACT_TEST_POPUP NO
FILTER TYPE=IMAGES STATUS=ON
SET !ERRORIGNORE YES
CMDLINE !DATASOURCE C:\Users\BR\Documents\iMacros\Macros\List-URL-a-copiar.txt
SET !DATASOURCE_COLUMNS 1
SET !DATASOURCE_LINE {{!LOOP}}
TAB CLOSEALLOTHERS
TAB T=1
‘PROXY ADDRESS=206.214.93.35:8800
URL GOTO={{!COL1}}
WAIT SECONDS=20
SAVEAS TYPE=TXT FOLDER=C:\Users\BR\Documents\iMacros\Macros\Copypages\TXT\ FILE={{!COL1}}.txt
WAIT SECONDS=5
SAVEAS TYPE=HTM FOLDER=C:\Users\BR\Documents\iMacros\Macros\Copypages\HTM\ FILE={{!COL1}}
WAIT SECONDS=5
SAVEAS TYPE=JPEG FOLDER=C:\Users\BR\Documents\iMacros\Macros\Copypages\JPEG\ FILE={{!COL1}}
WAIT SECONDS=10
URL GOTO=https://www.google.es/
WAIT SECONDS=1
CLEAR

d)      Pegar URLs en el archivo List-URL-a-copiar.txt y ejecutar en bucle tantas veces como hay de URLs.

6/ Comprobar el contenido duplicado para quedarnos con el contenido único utilizable en nuestros portales nuevos:

Para ello, utilizaremos una cuenta de pago http://www.copyscape.com/ que permite exportar un índice de % de contenido duplicado por cada contenido que subamos.

 

Étiquettes

Ce site web utilise des cookies qui nous permettent de personnaliser le contenu et les annonces, d'offrir des fonctionnalités relatives aux médias sociaux et d'analyser notre trafic. Cliquez sur le bouton « Accepter » pour activer tous les cookies. Vous pouvez à tout moment consulter et modifier votre consentement depuis la page politique de cookies.

Les paramètres des cookies sur ce site sont définis sur « accepter les cookies » pour vous offrir la meilleure expérience de navigation possible. Si vous continuez à utiliser ce site sans changer vos paramètres de cookies ou si vous cliquez sur "Accepter" ci-dessous, vous consentez à cela.

Fermer