Google kupiło reCAPTCHA, jednego z głównych dostawców CAPTCHA. System ten znajdzie zastosowanie w projektach Google: Books oraz News.
System CAPTCHA, tworzący wizualne puzzle mające pomóc w odróżnienia prawdziwego użytkownika od botów i złośliwych programów, może być użyty w procesie digitalizacji starszych, zniszczonych lub nieczytelnych tekstów drukowanych.
"Odwrócony" algorytm CAPTCHA pozwala na bardziej efektywne przetwarzanie zeskanowanych obrazów książek na prosty tekst. System ten - OCR (Optical Character Recognition - Optyczne Rozpoznawanie Znaków) rozwijany jest w kierunku pracy na dużych i bardzo dużych tekstach, a głównie takie znajdują się w bazie Google Books.
Posiadanie w bazie wersji tekstowej jest pomocne z dwóch powodów. Po pierwsze ułatwia przeszukiwanie i wyświetlanie materiałów, zwłaszcza na urządzeniach mobilnych. Po drugie zaś może służyć użytkownikom posiadającym problemy ze wzrokiem.
Rozwijanie systemu OCR i digitalizacja tekstów analogowych wpisuje się w filozofię Google. Jak mówi Will Cathcart, menadżer produktu w Google: - Zwiększanie dostępności do wszystkich materiałów w sieci jest dla nas bardzo ważne. Dlatego planujemy rozwinąć tę technologię w ramach grupy reCAPTCHA.
Źródło:googleblog.blogspot.com
Dodaj komentarz
Podobne tematy