S eguro que navegando por internet os habéis encontrado más de una vez con esas letras y/o números distorsionados que hay que acertar para validar un formulario o registrarse en alguna página web. Unos 1.000 millones de personas lo hemos hecho, por lo menos, una vez.

Pero, ¿qué son y para qué sirven? Se llaman captchas y están colocados ahí para discernir si el usuario que está realizando la operación es un humano o un robot. Por ejemplo, si no existiese un captcha al final de la compra de las entradas para un concierto de David Bisbal, un robot informático de esos las podría adquirir todas. Y no es plan. También sirven para evitar el spam en las páginas webs o en los blogs y que no lleguen correos de Viagra o publicidades similares.

Los captchas fueron creados por el guatemalteco, Luis Von Ahn, a la edad que se crean estas cosas de internet: 21 años. Lo hizo en el 2000 en EEUU. No en un garaje, sino en una universidad, de donde también salen estas historias. Nueve años después vendió el invento a Google por una cantidad que no se hizo pública, pero por la que ni él, ni sus hijos, ni los nietos de sus hijos necesitarán trabajar más. Aún así, ha seguido inventando otras historias.

Hay una evolución de los captchas, que se denomina recaptcha y que también fue creada por Van Ahn. En este caso, en lugar de tener que acertar una palabra distorsionada o borrosa o un conjunto de números aleatorios, son dos. Sigue teniendo el mismo objetivo de determinar si el usuario es humano o no y protegernos del spam. Pero tiene otro fin más interesante: digitalizar libros, hemerotecas de periódicos, como los del New York Times o The Washington Post, o transcribir los números de las calles que vemos en Google Maps. La biblioteca virtual de Google, la Google Books, ya cuenta con más de 15 millones de libros digitalizados. Y sigue creciendo.

¿Y cómo lo hace? Pues lo hacemos nosotros. Por lo menos una parte, la que es más importante. Cuando nos encontramos con un recaptcha, nos pregunta por dos palabras o dos series de números. Una la conoce Google y la otra no. La que desconoce es un fragmento de un texto que ha digitalizado y que no entiende.

Tras digitalizar las páginas, Google las pasa por un OCR, que en cristiano significa reconocimiento óptico de caracteres. Es decir, convierte esas imágenes de páginas de libros o periódicos en texto. Pero las máquinas no son perfectas y hasta un tercio de esas palabras, ya sea porque los originales están deteriorados, borrosos o tienen manchas no las pueden reconocer.

Y ahí es donde entramos nosotros. Cada vez que una decena de usuarios acierta el recaptcha, el sistema da por bueno que esa imagen con esa palabra borrosa significa ese texto que hemos puesto y lo incorpora a su base de datos. Así es como trabajamos gratis para Google.

Y no es una tontería. Se calcula que cada día se digitalizan 100 millones de palabras. O lo que es lo mismo, dos millones de libros cada año. Cada día, unos 200 millones de internautas desciframos uno de estos recaptchas. Cada uno de estos acertijos se tarda en resolver unos 10 segundos, pero por los 200 millones salen 55.000 horas que estamos regalando entre todos a Google. Cada día.

Así que ya sabéis, la próxima vez que resolváis un recaptcha pedidle a Google una parte de sus beneficios.

Sugerencias, dudas y/o comentarios a jm.rodriguez@epi.es