Apify: V Česku zakazuje AI boty jen 5 % nejvíce navštěvovaných webů, v USA téměř třetina. Co to vlastně znamená a jaká jsou pro a proti?

Zatímco ve Spojených státech zakazuje AI boty téměř třetina z tisícovky nejnavštěvovanějších webových domén, v Česku jsou to pouze 5,1 %. Tuto skutečnost potvrzuje analýza web scrapingové platformy Apify, která zkoumala 1 000 webů s největší návštěvností v Česku a stejný počet na Slovensku. Ukázalo se, že na rozdíl od Spojených států nezakazují AI boty například ani mnohá velká média, včetně České televize nebo Hospodářských novin. Podle Apify může zákaz botů sice pomoci tvůrcům obsahu omezit komerční využívání jejich obsahu cizími společnostmi, na druhou stranu zákaz botů omezuje rozvoj umělé inteligence a kvalitních AI aplikací, které mají potenciál lidem výrazně zlepšit život.

„Z našeho průzkumu vyplývá, že AI boti jsou v ČR zakázáni pouze na jednotkách procent webů. To je dobrá zpráva, protože webový obsah je zcela nezbytný pro trénink AI modelů a vývoj nových aplikací, jako třeba ChatGPT. Mají-li budoucí AI systémy umět dobře česky a znát místní kontext, potřebují získat přístup k velkému množství českého obsahu, ať už ve formě textu, audia, nebo videa. Čím více dostupný bude kvalitní a hlavně pravdivý obsah, tím kvalitnější a pravdivější budou také tyto nové AI systémy,“ vysvětluje Jan Čurn, CEO a spoluzakladatel Apify.

Jan Čurn, spoluzakladatel a CEO Apify

Samotné zakázání AI botů je proces, při kterém webové stránky a online platformy určují, které automatizované programy je mohou stahovat. Tito boti, jako například GPTBot, CCBot nebo Google-Extended, hrají klíčovou roli pro trénování AI modelů a přispívají ke zlepšování umělé inteligence.

„Zákaz AI botů na webech pomocí souborů robots.txt typicky omezuje pouze pár konkrétních firem, jako OpenAI nebo Antrophic, ale všichni ostatní mohou stahovat obsah dál. Tento zákaz ovšem nemá oporu v zákonech a boti ho nemusejí respektovat. Rozhodující bude, zda využití cizího obsahu pro trénink vlastních AI modelů nebo jeho využití v AI aplikacích představuje porušení copyrightu vlastníků obsahu, nebo ne. A o tom rozhodnou buď zákonodárci, nebo soudy, jako nyní ve Spojených státech ve sporu New York Times versus OpenAI a Microsoft,“ uvádí Jan Čurn.

Nejčastěji boty blokují média a pracovní portály

Podle průzkumu Apify blokují AI boty v Česku a na Slovensku nejčastěji stránky z kategorie zprávy a média. Z 90 webových stránek online magazínů a mediálních domů byl přístup AI botům zablokován na 55 z nich. Mezi blokujícími stránkami jsou například iDnes, Nova, Deník, eXtra.cz, Lidovky, CzechCrunch, Metro, ČTK, slovenská Pluska nebo TREND. Je to běžné i mezi pracovními portály – ukázalo se, že AI boty blokují 4 z 10 prozkoumaných stránek. Do této kategorie patří například portály Práce.cz nebo Jobs.cz. České a slovenské weby nejčastěji blokují GPTbot, který byl zablokován v 3,7 % – na 23 českých a 14 slovenských stránkách. Následuje claudebot blokovaný v 2,5 % na 14 českých a 11 slovenských webech. Na třetím místě je anthropic-ai s 2 %, který je blokován 10 českými a 10 slovenskými stránkami.

„Aby byla umělá inteligence co nejdokonalejší, potřebuje přísun obrovského množství kvalitních trénovacích dat. Jedním z hlavních zdrojů těchto dat jsou právě i webové stránky. Pokud webový server přístup AI botům zakazuje nebo je zcela blokuje, omezuje tak jejich příležitost k učení a rozvoji kvalitní umělé inteligence. Blokováním botů se navíc weby vystavují riziku, že je nenajdou noví návštěvníci ze vznikajících AI vyhledávačů a aplikací, a bude klesat jejich relevance. Měly by proto pečlivě zvážit, kdy je blokování skutečně nutné a kdy je zbytečné až škodlivé,“ dodává Čurn.

Všechna uvedená data jsou platná k 11. říjnu 2024.

Web scrapingová platforma Apify umožňuje firmám těžit data z webů a získat data pro AI. Zároveň dokáže automatizovat jakékoli workflow, které člověk dělá manuálně ve webovém prohlížeči, a následně jej spustit ve větším měřítku v cloudu. Jednou z klíčových služeb společnosti je také otevřené tržiště s takzvanými Aktory – cloudovými programy, které lze snadno spouštět, sdílet, integrovat a stavět na nich. Těch Apify nabízí přes 1 500. Apify v roce 2015 založili Jan Čurn a Jakub Balada, kteří se poznali během studia informatiky na Matematicko-fyzikální fakultě UK, kdy si také uvědomili, že programování může být vedle zábavy výnosný byznys. Viděli poptávku po softwaru, který by dokázal získávat z webových stránek určitá data, a vytvořili proto platformu, která k tomu nabízí nástroje. Mezi jejich klienty patří aktuálně například Siemens, Intercom, Microsoft, T-Mobile nebo Accenture.

Newsletter