Arno39,
Pour une fois que je peux aider :-)
J’ai eu le même souci très récemment, avec OVH aussi. J’ai passé un temps fou dessus, à tatonner, et j’ai des infos à te donner (à donner à tout le monde, si on peut faire avancer le schmilblick !).
Tout d’abord, tu peux réactiver ton site (en attendant la prochaine coupure si rien ne change !) : par FTP pour rétablir l’accès il faut remettre les bons droits/chmod en 705 sur la racine du FTP (extrait de la doc OVH)
(ce qui suit est un copier coller, je reviendrai dessus ensuite car là je vais avoir un rdv, mais ça peut donner des pistes)
J’ai successivement :
– viré quelques plugins dont je n’avais pas vraiment l’utilité (sur
les conseils "légers" de l’assistance technique OVH) (pas grand
intérêt),
– identifié l’IP qui générait les surcharges CPU,
– bloqué cette IP par un deny from dans .htaccess, histoire de voir,
– constaté que c’était l’adresse du bot Google, qu’elle tentait un
accès à mon site toutes les 2 minutes (et essuyait un refus), et que
les surcharges avaient disparu à partir du deny from,
– appris à déchiffrer à peu près les logs OVH (en particulier celui
des erreurs),
– essayé de diminuer l’agressivité des bots avec un crawl-delay dans
robots.txt (sans effet sur celui de Google apparemment), suite à des
discussions ici ou là,
– amélioré mon .htaccess (commande « RewriteEngine on » apparemment
indispensable chez OVH pour que les RewriteRule fonctionnent
(notamment celle liée au SiteMap.xml),
– supprimé le retour chariot en trop, après le #cache dans le sitemap.xml.html de la
dist (bug de la 2.10 de SPIP d’après ce que j’ai compris), pensant que
le bot Google consommait mon CPU parce qu’il n’arrivait pas bien à
lire mon fichier sitemap)
– puis débloqué l’IP.
Depuis le déblocage, le bot Google fonctionne apparemment sans trop de soucis (4 erreurs depuis ce matin, tant que je n’arrive pas à 150 erreurs dans la journée, OVH ne bronche pas, apparemment).
Donc pour les surcharges résiduelles, je crois avoir une piste :
la commande du bot était :
66.249.66.218 www.cabinet-antoine.fr - [20/Jul/2010:19:31:41 +0200] "GET /index.php ?calendrier_mois=11&calendrier_annee=2038 HTTP/1.1" 500 354 "-" "Mozilla/5.0 (compatible ; Googlebot/2.1 ; +http://www.google.com/bot.html)"
l’erreur fut :
[Tue Jul 20 19:32:59 2010] [error] [client 66.249.66.218] [host www.cabinet-antoine.fr] Premature end of script headers : index.php
et ça ressemble fichtrement aux erreurs que j’avais les jours
précédent la coupure par OVH (il était souvent question du calendrier
et de 2038).
Je me suis dit que le bot cherchait à lire mon calendrier en 2038
(quelle drôle d’idée) et... j’ai essayé de le faire manuellement sur
mon site (flèche droite sur l’année). Ça fonctionne, ça ralentit un
peu vers 2035, puis pour 2038, rien ne s’affiche, la noisette
calendrier reste grisée (pas de mise à jour par Ajax si je comprends
bien).
Je cherche pour circonscrire le souci : SPIP, plugin calendrier (dont est inspiré celui dans Sarka si je ne me trompe pas) ou Sarka. Ou changement de comportement du robot Google...
A suivre !
Commentaires Forum fermé