Webscrapingová platforma Apify nově spouští Crawlee, svou open-source knihovnu pro webscraping a automatizaci prohlížeče i pro programovací jazyk Python. Rozhodla se tak po úspěšném uvedení knihovny Crawlee pro open-source runtime prostředí v JavaScript Node.js v srpnu 2022, které komunita vývojářů na platformě GitHub ocenila více než 13 tisíci hvězdičkami. Těmi uživatelé GitHubu vyjadřují svůj zájem o konkrétní projekt, který si zároveň ukládají k pozdějšímu využití. Společnost Apify tak skrze Crawlee přináší vývojářům programujícím v Pythonu řadu výhod, které si dosud užívali pouze uživatelé JavaScriptu.
Crawlee pro Python přináší vývojářům v jednom z nejrozšířenějších programovacích jazyků řadu výhod, které dosud měli k dispozici pouze uživatelé JavaScriptu. „Crawlee pro Node.js mělo obrovský úspěch, a proto jsme se rozhodli rozšířit svoje působení i na programovací jazyk Python, který je dominantní ve světě dat i web scrapingu,“ říká Jan Čurn, zakladatel a CEO společnosti Apify. „Komunita JavaScriptu již ocenila Crawlee pro jeho robustní funkce a díky její zpětné vazbě bylo možné vytvořit silný základ pro pythonovou verzi. Zatím jsme Crawlee pro Python představili na konferenci EuroPython a na platformách Hacker News nebo ProductHunt. Během necelého týdne od spuštění jsme potom získali přes 2 000 hvězdiček na GitHubu, nyní jsme už dokonce na 15 tisících. To je v našich očích jasný důkaz zájmu vývojářů o inovativní nástroje a užitečné funkce.“
Crawlee pro Python poskytuje jednoduché a intuitivní rozhraní pro stahování webových stránek a extrakci dat. Podporuje využití tzv. headless webových prohlížečů a umožňuje paralelní zpracování a škálování, což je klíčové pro efektivní scraping velkého množství stránek nebo automatické spravování relací a usnadnění práce s webovými stránkami vyžadujícími přihlášení nebo používání cookies. K tomu poskytuje konfigurovatelné směrování požadavků, trvalou frontu pro adresy URL a možnost připojení úložiště dat, což usnadňuje správu složitých webových scrapingových úloh.
Vývojáři v Pythonu tak nemusejí kombinovat různé nástroje a mohou využít automatické paralelní procházení, opakování při chybách, rotaci proxy serverů a správu relací. Pythonová verze přináší také typové nápovědy, které zlepšují vývojářský zážitek a snižují chyby díky statické kontrole typů.
„Crawlee for Python je alternativou pro knihovnu Scrapy, která sice patří mezi nejpopulárnější knihovny na web scraping pro vývojáře v Pythonu, ale zároveň je poměrně zastaralá a nemoderní,“ říká Jan Čurn. „Open-source knihovna Crawlee poskytuje vývojářům kompletní balík funkcí, aniž musejí platit za přístup k know-how Apify. A protože Python je jedním z nejrozšířenějších programovacích jazyků a jeho využití v oblasti web scrapingu je velmi časté, jde o důležitý krok směrem k širší vývojářské komunitě,“ dodává.
Platforma Apify tak reaguje na časté žádosti vývojářů a rozšiřuje dostupnost této výkonné knihovny pro webový scraping a automatizaci i na Python komunitu. Jako open-source projekt navíc Crawlee pro Python zve vývojáře k aktivnímu přispívání a zapojení se do komunity, čímž podporuje další inovace a zlepšování tohoto nástroje.
Web scrapingová platforma Apify umožňuje firmám těžit data z webů a získat data pro AI. Zároveň dokáže automatizovat jakékoli workflow, které člověk dělá manuálně ve webovém prohlížeči, a následně jej spustit ve větším měřítku v cloudu. Jednou z klíčových služeb společnosti je také otevřené tržiště s takzvanými Aktory – cloudovými programy, které lze snadno spouštět, sdílet, integrovat a stavět na nich. Těch Apify nabízí přes 1 500. Apify v roce 2015 založili Jan Čurn a Jakub Balada, kteří se poznali během studia informatiky na Matematicko-fyzikální fakultě UK, kdy si také uvědomili, že programování může být vedle zábavy výnosný byznys. Viděli poptávku po softwaru, který by dokázal získávat z webových stránek určitá data, a vytvořili proto platformu, která k tomu nabízí nástroje. Mezi jejich klienty patří aktuálně například Siemens, Intercom, Microsoft, T-Mobile nebo Accenture.