Sezon ogórkowy w pełni, dzięki czemu wszyscy pastwią się nad wyciekiem danych osobowych w Pekao SA. O ile błąd udostępnienia danych został naprawiony w miarę szybko (od jego ujawnienia), to zignorowanie wyszukiwarek do tej pory odbija się czkawką...
Dzisiaj (niedziela) trwa w najlepsze dyskusja (chociażby tutaj, ale i na interaktywnie.com) "co, gdzie i w jakim zakresie można znaleźć w Google", preparując odpowiednie zapytania. Problem jest poważny, ponieważ wyszukiwarka nie tylko posiada kopię strony z bezpośrednimi odnośnikami do plików CV i listów motywacyjnych (wystarczy przecież zmienić lokalizację plików na serwerze, by umieszczone tam linki przestały działać), ale przede wszystkim Google zdążyło zindeksować kilkaset dokumentów z samymi danymi (w chwili obecnej: dokładnie 95 dokumentów w formacie PDF i 586 w formacie DOC). I nad tymi informacjami bank (czy też podmiot zarządzający serwisem) niestety utracił kontrolę (!).
Niestety, smutna prawda jest taka, że sytuacja Pekao potwierdza niewesoły obraz beztroski webmasterów w zakresie ochrony danych umieszczonych na serwerach (a więc nie tylko dostępnych przez witryny WWW) dla wyszukiwarek internetowych (i nie tylko). Z zawodowej ciekawości wziąłem pod lupę witryny 24 banków pochodzących z dwóch źródeł: a) listy największych polskich banków wg Wikipedii i b) banków objętych niedawno analizą obecności w wyszukiwarkach (opracowanie autorskie). Wyniki są niestety przygnębiające:
Mamy zatem tylko 2 instytucje finansowe (na 24, czyli 8,5%), które mogą być w miarę spokojne, jeżeli chodzi o konfigurację tego pliku. Oczywiście trzeba w tym miejscu dodać, że samo to nie daje żadnych gwarancji bezpieczeństwa danych - spełnionych musi być szereg dodatkowych warunków (np. zablokowanie możliwości pokazywania listy plików w taki sposób jak odbyło się to w przypadku Pekao SA), które jednak - jak wynika z moich obserwacji - w wielu przypadkach są ignorowane przez firmy tworzące serwisy internetowe. No bo kto zastanawia się jak "te wścibskie wyszukiwarki" odnajdują treści w Internecie?. Efekt - tylko 2 agencje interaktywne z tego zestawienia (digital One i Janmedia) w ogóle mają plik robots.txt...
W myśl przysłowia "mądry Polak po szkodzie" pewnie niebawem wrócimy do tego tematu - zmieni się tylko serwis / klient / branża (**)
(**) - niepotrzebne skreślić
Ps. Możliwości blokowania indeksacji treści jest wiele - samo Google wymienia przynajmniej kilka sposobów postępowania. Trzeba tylko uwierzyć we wścibskość wyszukiwarki i zadać sobie trud konfiguracji.
Dzisiaj (niedziela) trwa w najlepsze dyskusja (chociażby tutaj, ale i na interaktywnie.com) "co, gdzie i w jakim zakresie można znaleźć w Google", preparując odpowiednie zapytania. Problem jest poważny, ponieważ wyszukiwarka nie tylko posiada kopię strony z bezpośrednimi odnośnikami do plików CV i listów motywacyjnych (wystarczy przecież zmienić lokalizację plików na serwerze, by umieszczone tam linki przestały działać), ale przede wszystkim Google zdążyło zindeksować kilkaset dokumentów z samymi danymi (w chwili obecnej: dokładnie 95 dokumentów w formacie PDF i 586 w formacie DOC). I nad tymi informacjami bank (czy też podmiot zarządzający serwisem) niestety utracił kontrolę (!).
Niestety, smutna prawda jest taka, że sytuacja Pekao potwierdza niewesoły obraz beztroski webmasterów w zakresie ochrony danych umieszczonych na serwerach (a więc nie tylko dostępnych przez witryny WWW) dla wyszukiwarek internetowych (i nie tylko). Z zawodowej ciekawości wziąłem pod lupę witryny 24 banków pochodzących z dwóch źródeł: a) listy największych polskich banków wg Wikipedii i b) banków objętych niedawno analizą obecności w wyszukiwarkach (opracowanie autorskie). Wyniki są niestety przygnębiające:
- 16 z 24 serwisów bankowych nie ma skonfigurowanego pliku robots.txt (*), pozwalającego na zakazanie indeksacji wydzielonych części witryny;
- Z 8 serwisów posiadających plik, tylko w 2 przypadkach jego treść jest poprawnie i w miarę kompleksowo skonfigurowana (chodzi o: Fortis Bank i Deutsche Bank PBC).
Mamy zatem tylko 2 instytucje finansowe (na 24, czyli 8,5%), które mogą być w miarę spokojne, jeżeli chodzi o konfigurację tego pliku. Oczywiście trzeba w tym miejscu dodać, że samo to nie daje żadnych gwarancji bezpieczeństwa danych - spełnionych musi być szereg dodatkowych warunków (np. zablokowanie możliwości pokazywania listy plików w taki sposób jak odbyło się to w przypadku Pekao SA), które jednak - jak wynika z moich obserwacji - w wielu przypadkach są ignorowane przez firmy tworzące serwisy internetowe. No bo kto zastanawia się jak "te wścibskie wyszukiwarki" odnajdują treści w Internecie?. Efekt - tylko 2 agencje interaktywne z tego zestawienia (digital One i Janmedia) w ogóle mają plik robots.txt...
W myśl przysłowia "mądry Polak po szkodzie" pewnie niebawem wrócimy do tego tematu - zmieni się tylko serwis / klient / branża (**)
(**) - niepotrzebne skreślić
Ps. Możliwości blokowania indeksacji treści jest wiele - samo Google wymienia przynajmniej kilka sposobów postępowania. Trzeba tylko uwierzyć we wścibskość wyszukiwarki i zadać sobie trud konfiguracji.
Ja dodam że:
Jest zepętlającym się stwierdzeniem bo gdyby pliki były poprawnie "zabezpieczone" (i mówię tu o zabezpieczeniu przed dostępem a nie robotami) to dyskusji na temat robots.txt też by nie było....
Co do stwierdzenia:
to pojęcie "poprawna konfiguracja" jest tu względne. Jak słusznie stwierdził ktoś (nie pamiętam bo strasznie dużo komentarzy) plik robots.txt może też pomóc hackerom "Disallow: /files/0/" - a przed robotami można ten katalog całkiem inaczej "zasłonić".
Dodaj komentarz
Wpisy tego samego autora