Doslovný český překlad pojmu „web scraping“ – seškrabávání dat – může znít trochu úsměvně. Ale tato dříve spíše okrajová aktivita nabývá na popularitě, a to nejen u firem, ale i domácností. Svým uživatelům poskytuje možnost dostat se k datům z webu v podobě, která umožňuje jejich další zpracování.
Právě na téma „web scraping“ bude na konferenci Webexpo mluvit Ondra Urban, Head of Delivery Engineering ve firmě Apify. Tato společnost poskytuje svým klientům automatizované možnosti stahování dat z webu. Apify díky tomu pomáhá mimo jiné identifikovat nedobrovolné sexuální pracovnice. Jak se to v praxi provádí? A jaké další možnost web scraping nabízí? Přečtěte si rozhovor s Ondrou Urbanem.
Na konferenci WebExpo vystoupíte s tématem „web scraping“. Můžete zjednodušeně vysvětlit, co to znamená?
Je to jednoduché. Pokaždé, když si otevřete webovou stránku, a něco si z ní vykopírujete do poznámek nebo Excelu, tak ten web „scrapujete“. Web scraping je jen jiný název pro extrakci informací z běžně dostupných webových stránek. Ten dodatek – běžně dostupných – je důležitý, protože web scrapingem vždy získáváme jen data, která jsou přístupná běžným uživatelům daného webu. Scraping není hacking.
Firmy po celém světě dnes využívají obrovská množství dat z internetu pro optimalizaci svých procesů a vývoj nových produktů. Web scraping je pro ně cesta, jak taková data získat ve strukturované formě, se kterou můžou dále pracovat. Když to zjednoduším, tak můžu říct, že v Apify každý den proměníme desítky milionů webových stránek na stovky milionů řádků v Excelu. To samozřejmě nejde zvládnout ručně, takže jsme postavili platformu, která to dělá automaticky.
Jaké jsou obvykle překážky pro webscraping? Které programovací jazyky se pro něj obvykle používají? Dá se proti němu nějak „bránit“?
Těch překážek je skutečně mnoho. Některé jsou technické, jiné právní. Jako technické příklady můžu uvést omezení počtu přístupů z jedné IP adresy, captchu nebo identifikaci robotů pomocí takzvaných fingerprintů – digitálních otisků. Právními překážkami jsou například ochrana osobních údajů nebo autorské právo. Úkolem každého poctivého web scrapera je v prvé řadě zjistit, jestli ta data, o která má zájem, vůbec smí legálně stáhnout. Pokud ano, stávají se technické překážky zajímavou výzvou. Pokud ne, neměl by se do scrapování pouštět, ani když se webová stránka scrapingu nijak nebrání. V naší branži se tomu říká „ethical web scraping“ a poměrně obsáhlou analýzu najdete na našem blogu.
Co se programovacích jazyků týče, není problém naprogramovat scraper v kterémkoli z nich. V dnešní době jsou nejlepší volbou JavaScript a Python.
Má webscraping i nějaké využití pro „běžného“ internetového uživatele?
Jasně. V Apify máme free plán, se kterým dostanete každý měsíc zdarma pár hodin provozu našich serverů. Díky tomu vidíme, že lidé používají web scraping i na hobby projekty jako sledování počasí pro surfování, výprodeje v jejich oblíbených obchodech, dostupnost zboží v bazarech a další.
Já sám jsem jednou před dovolenou rychle spíchnul scraper, který pro mou partnerku sledoval vyprodanou velikost šatů. Jakmile se její velikost znovu naskladnila, poslal se jí email. Ona pak už musela jen párkrát kliknout z mobilu a šaty byly doma.
E-shopy ho často používají ke sledování konkurence. Můžete obecně popsat, jak to funguje?
Každý obchodník potřebuje znát, za jakou cenu nabízí produkty jeho konkurenti, aby s nimi mohl úspěšně soupeřit. V době kamenné byly ceny součástí privátních nabídek a katalogů, ale e-shopy mají všechny své ceny veřejně dostupné. Je tedy přirozené, že se navzájem neustále sledují a upravují ceny podle nabídek konkurence.
Web scraping je pro tohle dokonalý nástroj, protože vám, jako provozovateli e-shopu, dokáže poskytnout veškerá data o cenách konkurence klidně i několikrát denně. Vy tak můžete okamžitě reagovat například na slevové akce. A protože vyšší konkurence obvykle vede k nižším cenám, vydělá na tom i zákazník. Cenová data z českých a slovenských e-shopů si každý může prohlédnout naším nástrojem Hlídač Shopů, který jsme vytvořili společně s našimi partnery TopMonks a Keboolou.
Dají se popsat nějaké aktuální trendy?
Osobně za nejvýznamnější trend na poli web scrapingu považuji jeho společenský posun od okrajové disciplíny k plnohodnotné součásti technologického stacku globálních společností i malých firem. Web scraping získal ochranu v legislativě Evropské unie. Ve Spojených státech sledujeme soudní rozhodnutí, ve kterém soud zakázal společnosti LinkedIn bránit se proti scrapování. V Apify věříme, že volný přístup k veřejně dostupným datům je základním právem každého uživatele internetu a jsem rád, že i celý svět se posouvá tímto směrem.
S jakým neobvyklým požadavkem týkající se webscrapingu jste se setkal?
To je zajímavá otázka. Web scraping se skutečně dá použít téměř na cokoliv, a tak máme spoustu projektů, které by se daly označit za neobvyklé. Oslovila nás například americká nadace Thorn, abychom pro ně scrapovali fotky a videa z eskortních a porno stránek ve Spojených státech. Nejdřív jsme to moc nechápali, ale Thorn se zabývá bojem proti obchodu s lidmi a hlavně dětmi. S pomocí našich dat a vlastní umělé inteligence dokázali identifikovat už více než 17 000 dětí. Mnoho z nich díky tomu policie dokázala zachránit. Na tenhle projekt jsme všichni v Apify opravdu hodně pyšní.
Jaký objem dat klienti Apify za měsíc stáhnou?
Naší platformou proteče zhruba jeden petabyte dat měsíčně, což je tisíc terabytů nebo jeden milion gigabytů. Nějakých 450 terabytů z toho jsou data stažená uživateli. Hrubým odhadem scrapujeme 1,3 miliardy stránek měsíčně.
Máte zajímavé zákazníky. Můžete některé z nich jmenovat a říct, co pro ně děláte?
Správně se ptáte, jestli můžu některé jmenovat. I když se to lepší, pořád je web scraping něco, s čím velké firmy obvykle nechtějí být spojovány. Můžu tak mluvit jen o velmi malé části z našich projektů a klientů.
Kromě nadace Thorn, o které jsem už mluvil, používá naše nástroje třeba Microsoft. Ten s jejich pomocí hodnotí přístupnost webových stránek. Pro americký fintech startup Truebill automatizujeme odhlašování placených služeb jejich uživatelů. A Samsung díky naší platformě každých deset vteřin monitoruje publikované softwarové zranitelnosti.
Nástup pandemie vedl k vyšší aktivitě v online prostředí. Projevilo se to i nějak na Apify?
V roce 2020 se nám obrat zvětšil na dvojnásobek, a v letošním roce to vypadá, že znovu vyrosteme dvojnásobně na 5 milionů dolarů obratu. Takže se zdá, že pandemie se nás nijak nedotkla. Máme spoustu plánů, nápadů a projektů, které chceme uskutečnit a všechny vydělané peníze investujeme do růstu. Od začátku roku jsme se zvětšili z přibližně 30 na 60 lidí a pořád přidáváme nové kolegy.
Co je podle vás „Web of Tomorrow“? Jak se bude lišit od současného? Co lepšího uživatelům přinese?
Není to ještě tak dávno, co byl Web úplně statický a webové stránky připomínaly spíše knihy nebo katalogy, než plnohodnotné aplikace jako známe dnes. Microsoft Office existovaly jen jako desktopové aplikace. Dnes spustíte jejich plnohodnotnou verzi přímo v browseru. Nebo používáte GSuite od Googlu, který ani desktopovou verzi nemá. Z webových stránek se stávají webové aplikace a browser je vaším novým operačním systémem.
Před chvílí jsem mluvil o startupu Truebill, pro který automatizujeme odhlašování placených služeb. Funguje to zjednodušeně tak, že aplikace Truebill vám v bankovních výdajích najde služby, za které platíte měsíční předplatné, a spočítá vám, kolik můžete ušetřit jejich odhlášením. Naše roboty, říkáme jim „actors“, pak za uživatele odhlášení automaticky provedou. To znamená, že skutečně proklikají weby jednotlivých služeb až do finálního potvrzení odhlášení, jako kdyby to dělal sám uživatel.
Web of Tomorrow je přesně tohle. Web, kde triviální činnosti nedělají lidé, ale stroje, protože mezi sebou samy komunikují prostřednictvím API a automatizací. Dokud weby byly jen statické stránky, nedalo se s nimi nic moc dělat, ale čím více webů je nabitých funkcemi, tím větší prostor vzniká pro nové produkty, které tyto funkce využívají a kombinují. V Apify makáme na tom, abychom se mohli na vzniku tohoto nového Webu významně podílet.
Společnost Apify poskytuje svým klientům nástroje na automatizaci činností na webu. Sídlí v Praze, ale obsluhuje zákazníky po celém světě, především v USA.