Web Scraping: conheça a técnica de coleta de dados

[ad_1]

No início de abril, um novo vazamento de dados expôs 533 milhões de usuários do Facebook em todo o mundo, incluindo o próprio fundador da rede social Mark Zuckerberg e em torno de 8 milhões de brasileiros que possuem perfis no serviço.

De acordo com a plataforma, essa exposição de dados não se deve a nenhuma invasão aos seus servidores. As informações, que pararam em um fórum de hackers, foram obtidas por meio de uma técnica conhecida como scraping.

O método, utilizado por agências de marketing, jornalistas e cientistas de dados, já ganhou as manchetes em outras ocasiões, como em setembro de 2020, quando vazaram dados de 235 milhões de usuários do YouTube, Instagram e TikTok. Mas o caso mais famoso talvez seja o escândalo Cambridge Analytica, no qual informações de perfis do Facebook foram usadas para gerar mapas comportamentais de eleitores.

O Facebook costuma ser um dos alvos dos scrapers.O Facebook costuma ser um dos alvos dos scrapers.Fonte:  Rawpixel 

O que é scraping?

Também chamado de raspagem web, o scraping é uma técnica que permite coletar informações na internet de maneira automatizada, a partir de bases de dados públicas, disponibilizadas em sites, redes sociais e outros serviços online.

Geralmente, a ferramenta é utilizada para acelerar a consulta e a coleta destas informações, enquanto o trabalho feito de forma manual levaria um tempo muito maior. A agilidade do processo se deve a aplicativos específicos, linguagem de programação ou scripts para copiar dados em grande escala.

Programas específicos são usados na coleta automática de informações públicas.Programas específicos são usados na coleta automática de informações públicas.Fonte:  Unsplash 

O scraping é acionado quando um pesquisador, cientista, jornalista ou outro profissional precisa levantar uma grande quantidade de dados para alimentar um estudo, pesquisa ou reportagem, automatizando a coleta em uma base pública do governo federal ou qualquer outra fonte.

Com a raspagem de dados, também é possível obter informações abertas de perfis nas redes sociais (nome, foto, endereço, telefone, e-mail etc) e por meio do Google, para os mais variados objetivos, como a segmentação de campanhas publicitárias e o monitoramento de concorrentes.

A raspagem de dados é legal?

Coletar dados por scraping não é considerado ilegal, desde que a raspagem ocorra em bases públicas. Ou seja, as informações obtidas são acessíveis a qualquer internauta e assim como visitar o perfil de alguém e visualizar os dados disponibilizados lá não é crime, utilizar uma ferramenta automatizada para tal trabalho também não infringe as leis.

Dados públicos nas redes sociais podem ser "raspados".Dados públicos nas redes sociais podem ser “raspados”.Fonte:  Unsplash 

Porém, é preciso saber que o Facebook, o Instagram, o YouTube e o TikTok, entre outras plataformas, atualmente consideram a cópia automatizada de dados armazenados por elas como uma violação às regras de uso dos seus serviços.

Há riscos para quem tem os dados copiados?

Ao usar o scraping, pessoas e empresas podem ter acesso a informações públicas de qualquer indivíduo incluído naquela base, como número de telefone, e-mail, foto de perfil, idade e sexo, dependendo do tipo de fonte acessada pela ferramenta automática.

No caso de uma rede social, os scrapers também conseguem detalhes como número de seguidores, engajamento e até mesmo links compartilhados, além de postagens públicas e os demais conteúdos abertos a outros usuários, se a plataforma conceder tal acesso.

Fotos coletadas por scraping já foram usadas em programas de reconhecimento facial.Fotos coletadas por scraping já foram usadas em programas de reconhecimento facial.Fonte:  Pixabay 

Em geral, a coleta destas informações não causa maiores prejuízos, se feita com o objetivo de apoiar pesquisas e em campanhas com autorização dos usuários.

No entanto, o método também pode ser utilizado com intenções maliciosas, por cibercriminosos em busca de dados para aplicar golpes e outros tipos de fraudes ou em ações como a da Cambridge Analytica — suspeita-se que os dados serviram para favorecer Donald Trump nas eleições dos EUA em 2016.

Como diminuir os perigos?

Para evitar novos vazamentos, as plataformas têm bloqueado a coleta de dados por robôs e lançado novas opções de privacidade. Mas como nem sempre é possível evitar as ações de hackers e bots, o usuário deve tomar o máximo cuidado para que as suas informações não caiam em mãos erradas.

Revise as configurações de privacidade dos seus perfis.Revise as configurações de privacidade dos seus perfis.Fonte:  Facebook/Reprodução 

Dessa forma, aumentar a privacidade dos seus perfis nas redes sociais consiste em uma boa medida para reduzir as chances de que os dados sejam coletados por scraping. Uma dica interessante é limitar a visualização das informações e postagens apenas para seguidores, modificando a configuração da conta.

Esta revisão da privacidade deve ser feita em todas as plataformas, deixando o mínimo possível de dados em aberto.

[ad_2]
Source link

× Consulte-nos!