Wenn ich jetzt davon ausgehe, dass Qihoo so oder so jede Webseite im Web lesen will (es aber leider nicht wirklich kann), dann gehe ich davon aus, das diese Suchmaschine auch deutsch versteht (Utopie). Na ja, was soll's, es gibt mir die möglichkeit einmal einen Spidertrap zu erklären. Qihoo kann diese ja perfekt generieren.
Die Beispielsseite, Webtourist, beinhaltet etwas mehr als 800'000 Dokumente. Ein gefundenes Fressen für Suchmaschinen (Crawler). Doch wie soll eine Suchmaschine eine URL interpretieren? Eigentlich wurde bei der Architektur von Webtourist grosser Wert auf sprechende URL's gelegt, doch diese sind wohl zu kompliziert für einen chinesischen Crawler.
Zum Schema der Website von Webtourist:
Wir unterscheiden in:
- Länder (http://www.webtourist.net/china/)
- Staaten (http://www.webtourist.net/usa/california/)
- Städte (http://www.webtourist.net/china/beijing/)
In jedem dieser Berreiche kann es dokumente geben. Gibt es Dokumente im Bereich Beijing, China heissen diese zum Beispiel:
- http://www.webtourist.net/china/beijing/all-hotels-in-beijing.phtml
- http://www.webtourist.net/china/beijing/hotel-discounts-in-beijing.phtml
- http://www.webtourist.net/china/beijing/prefered-hotels-in-beijing.phtml
Diese Dokumente verweisen wiederum auf einzelne Leistungen wie zum Beispiel die Hotel-Details. Ein Link auf ein Hotel kann auf 2 Arten wiedergegeben werden.
Variante 1:
http://www.webtourist.net/china/beijing/century-golden-resources-hotel-beijing.phtml
Variante 2: (wir wollen die Dokumente HTML Conform aber schlank halten)
century-golden-resources-hotel-beijing.phtml
Bei der Variante 2 muss sich das Dokument also im Folder /china/beijing/ befinden. So weit alles klar und logisch. Doch wenn jetzt ein Chinese das interpretieren will, dann behauptet der, dass er 100% MSIE 6.0 kompatibel sei.... Dem ist leider nicht so. Wurde die Variante 2 gewählt wird das zum Spidertrap für Qihoo. Er wiederspiegelt die URL als:
http://www.webtourist.net/china/beijing/all-hotels-in-beijing.phtml/century-golden-resources-hotel-beijing.phtml
Gibt es in diesem Dokument wieder einen Link auf alle Hotels in Beijing ist der Spider so intelligent dass er nochmals eine neue URL generiert.
http://www.webtourist.net/china/beijing/all-hotels-in-beijing.phtml/century-golden-resources-hotel-beijing.phtml/all-hotels-in-beijing.phtml
Ein Schmunzeln wäre eigentlich angebracht. Doch so entstehen in einer Seite mit 81'500 Hotels, 120'000 Flugverbindungen, 5 Hotel Stern Klassen, 4 Hotel Qualitätsgruppen, 250 Hotelketten etc Millionen von nicht existierenden Dokumenten.
Wer jetzt glaubt, der Crawler würde diesen Fehler realisieren, weil er einen Fehlercode 404 zurückerhält, wird getäuscht, der macht einfach munter weiter. Was ein HTTP-Status 403 ist muss wohl auch zuerst ins chinesische übersetzt werden, da auch dies nicht verstanden wird.
Damit ist das Problem Perfekt und man wird den Crawler mit seinem Spider-Trap einfach nicht mehr los. Also, aufgepasst, wenn neue unterentwickelte Bots auf Webseiten losgelassen werden. Dies kann extreme Performance einbussen generieren und andererseits ein endloses Error-Log-File auf dem Server aufbauen.