
Sezon ogórkowy w pełni, dzięki czemu wszyscy pastwią się nad wyciekiem danych osobowych w Pekao SA. O ile błąd udostępnienia danych został naprawiony w miarę szybko (od jego ujawnienia), to zignorowanie wyszukiwarek do tej pory odbija się czkawką...
Dzisiaj (niedziela) trwa w najlepsze dyskusja (chociażby tutaj, ale i na interaktywnie.com) "co, gdzie i w jakim zakresie można znaleźć w Google", preparując odpowiednie zapytania. Problem jest poważny, ponieważ wyszukiwarka nie tylko posiada kopię strony z bezpośrednimi odnośnikami do plików CV i listów motywacyjnych (wystarczy przecież zmienić lokalizację plików na serwerze, by umieszczone tam linki przestały działać), ale przede wszystkim Google zdążyło zindeksować kilkaset dokumentów z samymi danymi (w chwili obecnej: dokładnie 95 dokumentów w formacie PDF i 586 w formacie DOC). I nad tymi informacjami bank (czy też podmiot zarządzający serwisem) niestety utracił kontrolę (!).
Niestety, smutna prawda jest taka, że sytuacja Pekao potwierdza niewesoły obraz beztroski webmasterów w zakresie ochrony danych umieszczonych na serwerach (a więc nie tylko dostępnych przez witryny WWW) dla wyszukiwarek internetowych (i nie tylko). Z zawodowej ciekawości wziąłem pod lupę witryny 24 banków pochodzących z dwóch źródeł: a) listy największych polskich banków wg Wikipedii i b) banków objętych niedawno analizą obecności w wyszukiwarkach (opracowanie autorskie). Wyniki są niestety przygnębiające:
Mamy zatem tylko 2 instytucje finansowe (na 24, czyli 8,5%), które mogą być w miarę spokojne, jeżeli chodzi o konfigurację tego pliku. Oczywiście trzeba w tym miejscu dodać, że samo to nie daje żadnych gwarancji bezpieczeństwa danych - spełnionych musi być szereg dodatkowych warunków (np. zablokowanie możliwości pokazywania listy plików w taki sposób jak odbyło się to w przypadku Pekao SA), które jednak - jak wynika z moich obserwacji - w wielu przypadkach są ignorowane przez firmy tworzące serwisy internetowe. No bo kto zastanawia się jak "te wścibskie wyszukiwarki" odnajdują treści w Internecie?. Efekt - tylko 2 agencje interaktywne z tego zestawienia (digital One i Janmedia) w ogóle mają plik robots.txt...
W myśl przysłowia "mądry Polak po szkodzie" pewnie niebawem wrócimy do tego tematu - zmieni się tylko serwis / klient / branża (**)
(**) - niepotrzebne skreślić
Ps. Możliwości blokowania indeksacji treści jest wiele - samo Google wymienia przynajmniej kilka sposobów postępowania. Trzeba tylko uwierzyć we wścibskość wyszukiwarki i zadać sobie trud konfiguracji.
Dzisiaj (niedziela) trwa w najlepsze dyskusja (chociażby tutaj, ale i na interaktywnie.com) "co, gdzie i w jakim zakresie można znaleźć w Google", preparując odpowiednie zapytania. Problem jest poważny, ponieważ wyszukiwarka nie tylko posiada kopię strony z bezpośrednimi odnośnikami do plików CV i listów motywacyjnych (wystarczy przecież zmienić lokalizację plików na serwerze, by umieszczone tam linki przestały działać), ale przede wszystkim Google zdążyło zindeksować kilkaset dokumentów z samymi danymi (w chwili obecnej: dokładnie 95 dokumentów w formacie PDF i 586 w formacie DOC). I nad tymi informacjami bank (czy też podmiot zarządzający serwisem) niestety utracił kontrolę (!).
Niestety, smutna prawda jest taka, że sytuacja Pekao potwierdza niewesoły obraz beztroski webmasterów w zakresie ochrony danych umieszczonych na serwerach (a więc nie tylko dostępnych przez witryny WWW) dla wyszukiwarek internetowych (i nie tylko). Z zawodowej ciekawości wziąłem pod lupę witryny 24 banków pochodzących z dwóch źródeł: a) listy największych polskich banków wg Wikipedii i b) banków objętych niedawno analizą obecności w wyszukiwarkach (opracowanie autorskie). Wyniki są niestety przygnębiające:
- 16 z 24 serwisów bankowych nie ma skonfigurowanego pliku robots.txt (*), pozwalającego na zakazanie indeksacji wydzielonych części witryny;
- Z 8 serwisów posiadających plik, tylko w 2 przypadkach jego treść jest poprawnie i w miarę kompleksowo skonfigurowana (chodzi o: Fortis Bank i Deutsche Bank PBC).
Mamy zatem tylko 2 instytucje finansowe (na 24, czyli 8,5%), które mogą być w miarę spokojne, jeżeli chodzi o konfigurację tego pliku. Oczywiście trzeba w tym miejscu dodać, że samo to nie daje żadnych gwarancji bezpieczeństwa danych - spełnionych musi być szereg dodatkowych warunków (np. zablokowanie możliwości pokazywania listy plików w taki sposób jak odbyło się to w przypadku Pekao SA), które jednak - jak wynika z moich obserwacji - w wielu przypadkach są ignorowane przez firmy tworzące serwisy internetowe. No bo kto zastanawia się jak "te wścibskie wyszukiwarki" odnajdują treści w Internecie?. Efekt - tylko 2 agencje interaktywne z tego zestawienia (digital One i Janmedia) w ogóle mają plik robots.txt...
W myśl przysłowia "mądry Polak po szkodzie" pewnie niebawem wrócimy do tego tematu - zmieni się tylko serwis / klient / branża (**)
(**) - niepotrzebne skreślić
Ps. Możliwości blokowania indeksacji treści jest wiele - samo Google wymienia przynajmniej kilka sposobów postępowania. Trzeba tylko uwierzyć we wścibskość wyszukiwarki i zadać sobie trud konfiguracji.
Napisz komentarz
Tutaj nie zgodze sie niestety z autorem wpisu. O bezpieczenstwie danych wcale nie swiadczy plik robots.txt. To ze autor wytyka bankom jego brak nie może być karygodną wadą.
Prosze sobie wyobrazic sytuacja gdy na stronie zainwestujwsiebie.pl znajduje sie plik o takiej tresci:
User-agent: *
Disallow: /files/0/
co z tego ze robot nie zaindeksuje zawartosci katalogu /files/0 jesli co sprytniejszy internauta odczyta sobie ten plik bez problemu i wie od razu co bank ma do ukrycia.
Wiele razy spotykalem sie na stronach ze zlym zastosowaniem tego pliku przykladowo plik blokowal indeksowanie katalogu /admin/ gdzie byl panel administracyjny bez autoryzacji.
Powiem w skrocie tak nadgorliwe stosowanie tej metody moze bardziej zaszkodzic niz pomoc.
Tomku, oczywiscie ze sama poprawna konfiguracja robots.txt nie wystarczy - pisze o tym powyzej.
Dlatego napisalem: (...)np. zablokowanie możliwości pokazywania listy plików w taki sposób jak odbyło się to w przypadku Pekao SA(...)
Tomek ma racje - jeśli nasze dane ma zabezpieczać plik robots.txt, to ja dziękuje za takie bezpieczeństwo.
Banki - jako instutucje szczególnego zaufania - powinny kłaść podwójny nacisk na kwestie bezpieczeństwa...
Aby utrudnic dostanie sie do danych "schowanych" w ten sposob wystarczy najpierw wykluczyc z indexowania folder przez robots.txt, a potem jako index.html w tym folderze umiescic przekierowanie do strony gl.
Bardzo prosta i intuicyjna metoda, ktora zapobiegnie listowaniu zawartosci katalogu, jednak nie mozna opierac sie tylko na niej przy zabezpieczeniu waznych danych.
"Security through obscurity" przestalo sie juz b. dawno temu sprawdzac.
Robots.txt stosuje się do treści, którą ktoś może obejrzeć, ale nie wyszukiwarki - w tym przypadku nikt tej treści nie powinien oglądać, więc użycie robots było niepotrzebne, błąd jest na poziomie zarządzania danymi.
Ciekaw jestem czy Pekao skorzystało z funkcji usunięcia tej treści z Googla np. przez Webmasters Central. A może wszyscy teraz zastanawiają się gorączkowo jak tu zwalić winę na kogoś innego. ;-)
Rozmowa o jakims pliku robots.txt, kotry jest, albo go nie ma, to stawianie sprawy na glowie.
Wina banku jest oczywista, ale chyba wiekszosc komentatorow nie dostrzega przy tym, ze Google swiadomie lamie polskie prawo. Jego roboty oprocz indeksowania, wykonuja bowiem kopie stron i dokumentow, po czym te kopie rozpowszechniaja. Konkretnie, firma Google lamie Ustawe o Prawie Autorskim oraz rozpowszechnia dane osobowe osob bez ich zgody.
CV i listy motywacyjne sa chronione prawem autorskim. Nie funkcjonuje w Polsce cos takiego jak zgoda domyslna na rozpowszechnianie utworu ani domyslna zgoda na przetwarzanie danych osobowych. A Google robi wlanie to: rozpowszechnia te dane bez zgody ich wlascicieli.
I nie ma tu najmniejszego znaczenia, ze dokumenty byly dostepne bez zadnych zabezpieczen na stronie banku. Teraz nie sa, a Google dalej rozpowszechnia ich kopie. Czyli w sensie prawnym nie rozni sie od "piratow".
Nie ma tez znaczenia, ze robi to "robot" nieswiadomy cachowanych tresci. Za dzialania robota odpowiada firma, bedaca jego wlascicielem i jej problemem jest, zeby odroznial tresci chronione od niechronionych (btw. domyslnie chroniona przed rozpowszechnianiem bez zgody autora jest praktycznie kazda strona www - bo kazda jest dzielem w rozumieniu Ustawy o Prawie Autorskim).
Domyslnie zadne strony ani dokumenty nie powinny byc cachowane przez wyszukiwarke. To umieszczenie jakiegos specjalnego pliku czy znaku, powinno ZEZWALAC, a nie zabraniac wyszukiwarce okreslonych czynnosci. Tylko taki mechanizm, byc moze przeniosloby odpowiedzialnosc za zlamanie prawa z Google na bank.
Ja na miejscu osob poszkodowanych (ktorych dane wyciekly) skarzylbym rowniez Google. Nie wyobrazam sobie zeby ta sprawa byla do obrony przed polskim sadem.
@Arek - czyli, że niby chodzi Ci o coś takiego jak skarżenie Google z tytułu bezprawnego (?) rozpropagowania poufnych danych, które ktoś składował w miejscu publicznym w którym tego robić nie powinien ?
Jeżeli chodzi o domyślny brak cacheowania przez wyszukiwarkę konkretnego dokumentu czy też podstrony - to chyba od tego był taki meta-tag ala "no-cache" czy jakoś tak - ale to takie rozdrabnianie się w kontekście całej dyskusji.
Czy ja wiem czy Google łamie polskie prawo ? jakoś, to nasze prawo to miejscami powinno się połamać do cna i zrekonstruować od podstaw.
To co teraz ? Polska vs. Google ? a później Polska vs. Yahoo i inne podobne ? Ten kraj już dla wielu nie jest taki jaki powinien być a takie stanowisko to trochę godzenie w samego siebie. Moim zdaniem jeżeli już mowa o łamaniu "prawa autorskiego" to złamał je jedynie Bank - bo nie zabezpieczył tych danych w należyty sposób przechowując je w miejscu publicznym.
Autor posta ładnie odesłał pod sam koniec do strony którą warto na prawdę przeczytać.
Na koniec: skarżenie Google w tym przypadku to jak dla mnie takie gryzienie ręki która pomaga nie jednemu dzisiaj w uzyskaniu $ na jedzenie.
Ach ten plik robots.txt... Jeśli odpowiadałby za bezpieczeństwo naszych danych to faktycznie nie jest z nim najlepiej. Na szczęście nie tędy droga.
Jak słusznie zauważył Robert - plik "robots.txt" służy do tego by blokować wyszukiwarki przed tym co mogą widzieć ludzie, a nie wyszukiwarki, lecz nie do tego by chronić przed wypłynięciem cennych danych.
Co więcej, niezgodne z przeznaczeniem zastosowanie tego pliku może przynieść więcej zagrożeń niż zabezpieczeń. Mam tu przede wszystkim na myśli wskazywanie w pliku robots.txt miejsc, które są miejscami dostępnymi dla wybranych np. po zalogowaniu. Jest to doskonała mapa miejsc, które mogą stać się celem potencjalnego ataku prawdziwego włamywacza.
Przykładem mogą być tu chwalone za wykorzystanie robots agencje, które wskazują gdzie znajdują się treści dostępne po zalogowaniu. Teraz jedyną barierą ochronną jest tylko poziom zabezpieczeń aplikacji CMS.
ps. wścibskie wyszukiwarki?
nie ma co zwalać winy na biedne wyszukiwarki :} one tylko idą tam gdzie człowiek im zostawi ślad
Google oczywiście w sposób bezpretensjonalny łamie prawo polski i nie tylko i nie mówię o ostatniej wpadce banku, ale o publikowaniu treści prywatnych maili w kontach gmail ! Dokładna dyskusja "Czy Google sprawdza nasze gmaile" Ale po krótko mówiąc przesyłając link nigdzie nie publikowany i niewidoczny dla google w treści maila w poczcie Gmail w ciągu kilku dni jest już widoczny w wynikach wyszukiwania !! Google ma to wszystko głęboko jest gigantem i monopolistą wiec pozwala sobie na wiele, to już nie to samo fajne i miłe Google z przed kilku lat :(
hmmm, znalazłem coś takiego
"dane rejestujacych sie lutkow sa dostepne dla fszystkich moszna se pobrac z http://www.zainwestujwprzyszlosc.pl/files/0 - lamy se zostafily hasioro do ftp na serwie... pozdro"
http://tiny.pl/2gxj
Czyzby jednak ktoś się włamał na serwer i włączył przeglądanie katalogów?
...a po umieszczeniu odnośnika na stronie (może właśnie to ten link?) Google mogło bez problemu zindeksować (dostępne bo niezakazane) treści...
@arek: Czemu zatem nie słyszy się o sprawach dotyczących nieprzestrzegania praw autorskich przez Google - w Polsce i na świecie?
@Kluk Paweł - z linku który podałeś (na temat czytania przez google skrzynek email) wynika więcej spekulacji niżeli faktów.
Tak czy inaczej - wiem, że to mały offtopic - ale zacząłem doszukiwać się informacji i klik po kliku trafiłem tutaj: http://zeitgeistmovie.com/ - to sobie obejrzyjcie - jeden z filmów po obejrzeniu których mówię "to daje w palnik". Na stronie są polskie napisy - jeżeli ktoś chce wersję z napisami to należy po prostu kliknąć w odpowiedni link w żółtej ramce.
link który podałem zawiera pewne sugestie i zdarzenia a nie odpowiedź na pytanie, faktem jest natomiast to że google ma informacje i tyle im wystarczy by zrobić właściwie wszystko.
Filmiki które podesłałeś mogą wydać się zrobione przez grupę fanatyków co wszędzie widzi spisek, ale ogrom tych informacji ktore zostały tam przedstawione to prawda, i robią wrażenie
robots.txt nie służy do zabezpieczania, sam serwis poświęcony mu (http://www.robotstxt.org/) mówi:
Ale jak widzę sezon ogórkowy w pełni także w branży SEM :]
Wracając od szczegółu do ogółu: gdyby na wspominanym wyżej serwisie istniał poprawnie skonfigurowany plik robots.txt, nie mielibyśmy o czym dzisiaj rozmawiać - bo treści nie zostałyby zindeksowane. I w ten sposób zostałyby zabezpieczone przed wyszukiwarkami :]
@Maciej - argument typu "jesli Google lamie prawo, to czemu nie ma procesow?" nie ma zadnej wagi w sensie prawnym. Licza sie ustawy a nie brak precedensow. Nie jest to tez argument prawdziwy. Slyszy sie: Google mialo procesy dotyczace podobnych spraw i je przegrywalo (np w sprawie cytowania ("przedrukow") fragmentow newsow prasowych w Belgii 2 lata temu). Moge poszukac linkow.
Pamietajmy tez, ze proces przeciw tak bogatym firmom jak Google nie jest sprawa prosta. W Polsce dodatkowo nie bylo dotad mozliwosci zlozenia pozwu zbiorowego, co indywidualnego pookrzywdzonego stawialo w bardzo kiepskiej pozycji w starciu z gigantem. Byc moze nie bylo tez dotad tak ewidentnego przypadku szkody jak w omawianym przykladzie wycieku danych bankowych.
Zgadzam sie z argumentem, ze _zazwyczaj_ cachowanie tresci przez wyszukiwarke przynosi korzysci. Twierdze jednak, ze prawie zawsze jest to lamanie prawa polskiego. Moze prawno nalezy zmienic, ale poki co jest jakie jest i Google musi sie z nim liczyc. Przypadek wycieku danych z banku pokazal, ze wspomniana funkcjonalnosc cachowania moze byc bardzo szkodliwa. A jesli wiaze sie ze zlamaniem prawa, to Google jak najbardziej moze byc pozwane i bedzie to imho pozew zasadny.
@Atrur - tak wiec na razie nie Polska vs Google ale Poszkodowani vs Google w tej konkretnej sprawie.
Powtarzam: nielegalne umieszczenie tresci objetych prawem autorskim (oraz dodatkowo ochroną danych osobowych) w internecie (w tym wypadku przez bank) nie zwalnia z odpowiedzialnosci osoby czy firmy, ktore te tresci dalej rozpowszechniaja. Szczegolnie, jesli sa swiadome nielegalnosci takiego dzialania. A wnoszac z wypowiedzi rzecznika banku, Google zostalo poinformowane o problemie bardzo szybko.
Gdyby prawo tak nie dzialalo, moglbys napisac program (pod szumna nazwa "robot"), ktory "cachowalby" i udostepnial kazdy plik MP3 czy film, ktory choc raz nielegalnie znalazl sie w sieci za sprawa piratow. Uwazasz, ze uniknalbys odpowiedzialnosci zwalajac wine na pirata, ktory nie umiescil w katalogu z filmami specjalnego pliku robots.txt, ktory powiedzialby twojemu robotowi ze tych tresci ma nie cachowac? Nie sadze ;)
@Arek - prawnikiem nie jestem, ani też nie ma jakiejś specjalnie dużej wiedzy z zakresu prawa - być może masz rację.
Rozpatrujemy ten problem z dwóch punktów widzenia: Ty od strony prawnej a ja od strony niższej czyli od tej, która była powodem tego, że w ogóle takie dane się pojawiły. I ten mój punkt widzenia kładzie nacisk na architekturę składowania informacji przez bank. To wg. mnie jest tym centrum problemu - ktoś źle zaprojektował architekturę składowania danych (wykonawca systemu), ktoś drugi taką architekturę najwyraźniej zaakceptował (ktoś z banku) no i powstał problem i teraz GIODO odwiedzi i jednego i drugiego.
Po prostu nie widzę jakoś tego, żeby ktoś w banku mógł "przyklepać" taki a nie inny schemat składowania konkretnego typu danych. No ale najwyraźniej błędy się zdarzają i to niestety ludzka rzecz. Szkoda, że bank starał się ratować sytuację w taki nieudolny i nieprzyjazny środowisku sposób - w moich oczach na pewno stracili.
Może po prostu nie jestem jakoś negatywnie nastawiony do Google - jakoś nigdy do tej pory nie doświadczyłem nieprzyjemnych sytuacji związanych z użytkowaniem którejś z dostępnych usług. Być może jest to siła skali w pewnym sensie - mnie bardziej Google dzisiaj pomaga niż przeszkadza i dlatego nie zauważam minusów takie jakie np. nakreślił Arek w swoich postach.
I nie mogę się jakoś doszukać takiej hmm możliwości pozwania Google przez poszkodowanych. Patrzę po prostu na taką organizację jak RIAA (Recording Industry Association of America) i Google. Czemu oni w takim razie pierwsi nie dossali się do Google (chyba ? jak się mylę to mnie poprawcie - nie mogę w Google znaleźć informacji na ten temat) ?
Przecież Google na co dzień, składuje w sobie tyle linków do nielegalnie zamieszczonej muzyki, propaguje tyle serwisów, które łamią na co dzień prawa autorskie wykonawców że RIAA mogło by bez problemu od Google dostawać nazwijmy to "wypłatę" - co tydzień kolejny pozew, wygrana sprawa i tak w kółko.
Z tego co jedynie ostatnio słyszałem - była sprawa związana z Rapidshare i faktycznie RS dostał po łapkach, ale nie doszukałem się tam powiązania i oskarżeń w stronę brata G.
A może nikt nie chce, by społeczeństwo mogło mieć dostęp do tego rodzaju "ekstra wypłat" od Google ? Może społeczeństwo samo z własnej woli nie chce ubić swojego internetowego sojusznika ?
Robert powyzej napisal:
Dokładnie to samo mnie zastanowiło :-)
Najdziwniejsze jest to że te dane osobowe są dalej widoczne w Google po wpisaniu frazy: site:zainwestujwprzyszlosc.pl inurl:/files/0/ , 1360 CVlek dalej jest zaindeksowanych.
Podejrzewam że PKO nie ma niestety pojęcia o czymś takim jak Google Webmaster Tools, gdzie można usunąć link do strony z indexu jak i wersje która została pobrana do "cachu".
A co robots.txt , to o takim rozwiazaniu mogli myslec na poczatku, teraz to tylko GWT im zostaje.
Pozdrawiam
Wartosc prawna jest zerowa bo nie jestem prawnikiem i pozostaje mi przywolywac jedynie zdroworozsadkowe argumenty :)
Natomiast zastanawia mnie jeszcze jedno rowniez zdroworozsadkowo) - jak do tego maja sie Zasady Korzystania z wyszukiwarki oraz Polityka Prywatnosci Google? Czy to nie jest tak, ze korzystajac z Google niejako przerzucamy na siebie (tj. uzytkownika) odpowiedzialnosc za to, co chcemy podejrzec?
Wypraszam sobie :P
A to w takim razie przepraszam za mala sugestie :D
@Maciej Gałecki napisał powyżej:
Z warunków korzystania z usług Google najciekawszymi jak dla mnie są paragrafy: 5.6, 8.1, 8.4, 8.5, 11.1, a w szczególności cały par 15, 18 oraz paragraf 20.7
z omówienia ochrony prywatności interesujący wydaje się być punkt "Zastosowania" w szczególności podpunkt 4.
To wszystko znaczy jak dla mnie (tak jak ja to rozumiem), że:
wszystko co publikuję w internecie a do czego ma dostęp Google - może być przez G. kopiowane i przechowywane przy jednoczesnym zachowaniu zasady iż ja jako użytkownik ponoszę sam odpowiedzialność za publikowane informacje i także w moim interesie leży odpowiednie zabezpieczenie tych informacji przed osobami dla których ów informacje nie mają z mojego punktu widzenia być dostępne.
@Maciej i @Artur - rzeczywiscie moje podjecie do tematu bylo scisle prawnicze (choc prawnikiem nie jestem ;). Chcialem po prostu zwrocic uwage na te, pomijana w komentarzach kwestie .
Z "zasadami" googla zapoznam sie, przypominam jednak, ze wszelkie wewnetrzne "zasady" i "regulaminy" musza byc zgodne z prawem polskim albo sa niewazne.
Chyba zostalem zle zrozumiany w kwestii winy Google. Nie chodzilo mi absolutnie o odpowiedzialnosc Google za linkowanie do chronionych tresci. Owszem, slyszalem o tego rodzaju podchodach, aby uczynic wyszukiwarke odpowiedzialna za samo linkowanie do materialow chronionych prawem autorskim. Ale mi w tym przypadku chodzi o fakt skopiowania (cachowania) nie tylko na potrzeby indexowania ale rowniez udostepniania publicznie (to wazne!) tych kopii. Zwrocmy uwage, ze CV byly przez dlugi czas dostepne _na stronach Google_ juz po tym jak zostaly usuniete ze stron banku. Zdaje sobie sprawe ze specyfiki pracy wyszukiwarki, ale fakt rozpowszechniania przez Google materialow chronionych prawem autorskim pozostaje niepodwazalny.
Bardzo jestem ciekaw ewentualnego procesu :D
Maciej pisze: "Czy to nie jest tak, ze korzystajac z Google niejako przerzucamy na siebie (tj. uzytkownika) odpowiedzialnosc za to, co chcemy podejrzec?"
Moim zdaniem jest dokladnie odwrotnie! Zdecydowanie nie wolno materialow chronionych rozpowszechniac, niezaleznie czy zrobil to juz ktos inny wczesniej.
W tym konkretnym przypadku nie powinno sie takze tych materialow sciagac, bo nie moze byc mowy o dozwolonym "uzytku wlasnym". Ustawa o Prawie Autorskim mowi w Art 23: "Bez zezwolenia twórcy wolno nieodpłatnie korzystać z już rozpowszechnionego utworu w zakresie własnego użytku osobistego". Natomiast Art 6 definiuje: "utworem rozpowszechnionym jest utwór, który za zezwoleniem twórcy został
w jakikolwiek sposób udostępniony publicznie".
A te CV zostaly rozpowszechnione bez zezwolenia tworcow, prawda?
Czyli nikomu nie wolno ani z nich korzystac ani tym bardziej rozpowszechniac dalej. Bez wyjatkow i niezaleznie od jakichkolwiek regulaminow Google'a.
Ciekawe omowienie kwestii cache'owania stron znalazlem tutaj:
http://prawo.vagla.pl/node/2628
A tu przyklady, ze pretensje i pozwy wobec Google o naruszenie praw autorskich nie sa wcale tak rzadkie:
http://webmade.org/wiadomosci/microsoft-google.php
http://www.idg.pl/news/76744.html
http://www.internetstandard.pl/news/83290.html
Podsumowujac: mozna powiedziec, ze polskie prawo obecnie nie uwzglednia specyfiki pracy wyszukiwarek internetowych i nie robi dla nich prawnych wyjatkow.
Krążymy wokół Googla, przyznam że mnie też ten temat kręci, szczególnie myśląc jak tu dzięki temu Guglu trochę kasy zarobić ;] Tylko, że w obliczu polskiego prawa winę za wyciek danych osobowych ponosi administrator i właściciel danych czyli Bank Pekao SA. Swoja drogą ciekawe co zostało napisane we wniosku do GIODO w ramach opisu zabezpieczenia danych, może: "nie dotyczy"? No i oczywiście koronne pytania:
1/ czy GIODO taki wniosek otrzymało od banku w temacie budowania bazy kariery z przesyłanych CV
2/ jeśli tak to jak wyglądała jego akceptacja
ale myślę że obie instytucje są obecnie w stałym kontakcie i oficjalny komunikat wkrótce sie pojawi.
Natomiast dla zainteresowanych ciekawsze wpadki i eksperymenty względem wyszukiwarek zdarzały się w bardziej poważnych instytucjach niż bank i CV Marioli nr 1245, np.: jedna z największych/najlepszych armii świata i jej procedury postępowania, pewna agencja od atomu, instytucje rządowe wielkiej 5, pewna agencja co sie wiąże nazwą z inteligencją, firma co się para unikalnymi numerami identyfikacyjnymi, itd.
Więcej szczegółów polecam [I Hack Stuff][http://johnny.ihackstuff.com/] Jest dostępny również ładny PDF z sshotami poszczególnych dokumentów :]
Dlaczego zatem nikt nie oskarżył Google lub autora strony [ekspert w temacie zabezpieczeń] o posiadanie poufnych danych? Albo dlaczego jakiś sympatyczny kolo w czarnym prochowcu nie podał naszemu autorowi glukozy, zwinął mu sprzęt i nie zafundował permanentnego zniknięcia w ramach zagospodarowania betonem terenów zielonych?
Dlatego, że tacy jak on wykrywają ignorancję, brak kompetencji i amatorkę dając do zrozumienia jak słabo zabezpieczone są nasze dane. Dlatego przechytrzone instytucje często dziękują za wykrycie nieścisłości.
I podobnie zalecałbym postąpić ze strony Banku względem Google.
@Zbigniew - podobnie jak przedmowcy (przedpiścy? ;) masz chyba na mysli linkowanie i wyszukiwanie przez Google treści, ktore ktos nieswiadomie i przez niedopatrzenie/niewiedze/pomylke udostepnil na swoim serwisie wez zabezpieczen. Zgadzam sie - nie widze tu odpowiedzialnosci Googla. Jesli ktos nie dopatrzyl to jego wina i jego odpowiedzialnosc wzgledem ewentualnych dalszych poszkodowanych. Nie mozna karac Googla za samo linkowanie.
Powtarzam jednak do znudzenia: moje watpliwosci prawne dotyczyly jedynie KOPIOWANIA i nastepujacego po nim ROZPOWSZECHNIANIA w zmienionej formie (tzw. "wersja HTML" z cache) przez Google. W szczegolnosci wtedy, kiedy dane pomylkowo udostepnione na stronie Banku zostaly juz usuniete. Na to zgody w polskim prawie moim zdaniem nie ma.
Przy okazji: sama technologia prezentacji dokumentow PDF albo DOC w Googlowej "wersji HTML" jest tez bardzo dwuznaczna w swietle polskiego prawa autorskiego. Bo ochronie podlega nie tylko tresc ale rowniez forma dziela i o ile prywatnie mozemy sobie dzielo dowolnie przerabiac to juz nie mamy prawa publikowac (rozpowszechniac) go w zmienionej formie. Fakt darmowego udostepnienia dziela w formie oryginalnej w internecie przez autora jest tu chyba bez znaczenia.
Interesujaca kwestia... Sprobuje popytac o to prawnikow.
Szkoda, że firmy zajmujące się tworzeniem serwisów internetowych, tak rzadko korzystają z usług audytu serwisów w zakresie jakości i bezpieczeństwa. Weryfikacja taka istotnie wpływa na zmniejszenie ryzyka wycieku chronionych danych.
Szczęka mi opadła po tym wszystkim. Już raz mi Pekao SA zrobiło psikusa gdy nie mogłem wyciągnąć pieniędzy z żadnego bankomatu ani zapłacić kartą, pomimo tego, że na koncie miałem jeszcze kilka stówek. Po tej aferze myślę, że nadszedł czas na zmianę banku.
@Radek
Celnie i zwięźle ująłeś moją sugestie ;] Obecnie myśl o audycie dowolnego wymiaru, klienci i dostawcy traktują jako "atak wścibskich i pazernych mądrali", a nie "ekspercką gwarancję spokoju i bezpieczeństwa".
@Radek i @Zbyszek - kilka osób znam (chodzi mi o small business) - i w tym wypadku czasem również takie osoby potrafią traktować dobry audyt, który faktycznie daje korzyści jak nic innego tylko zwiększenie kosztów realizowanego projektu. I teraz jeszcze pytanie: kto ma ponosić koszty audytu ? wykonawca czy zamawiający ? Jak to wg. Was powinno wyglądać ?
Zależy, kto i co chce sprawdzić.
Jeśli wykonawca chce uwiarygodnić wykonany projekt, to "ponosi" koszty audytu. Jeśli klient chce zweryfikować poprawność prac wykonawcy, to koszty ponosi klient. Czyli zależy jak ustawiony jest zakres projektu.
Ponoszenie ujęte w cudzysłowie oznacza, iż ostatecznie i tak koszty poniesie klient, w takiej lub innej formie. A czy jest to zwiększenie kosztów to już pozostawiam do decyzji w odniesieniu do ryzyka jakie ów audyt minimalizuje.
... ciężko to wszystko przeczytać ;)
Ja dodam że:
Jest zepętlającym się stwierdzeniem bo gdyby pliki były poprawnie "zabezpieczone" (i mówię tu o zabezpieczeniu przed dostępem a nie robotami) to dyskusji na temat robots.txt też by nie było....
Co do stwierdzenia:
to pojęcie "poprawna konfiguracja" jest tu względne. Jak słusznie stwierdził ktoś (nie pamiętam bo strasznie dużo komentarzy) plik robots.txt może też pomóc hackerom "Disallow: /files/0/" - a przed robotami można ten katalog całkiem inaczej "zasłonić".