Crawler Addmention pro sběr článků z internetu
Pro slovenský projekt Addmention jsem vytvořil a provozoval webovou aplikaci webový crawler, která pravidelně různými způsoby prochází zadané webové zdroje - internetové média a nachází v nich nové články. Po nalezení článku v něm identifikuje zadané parametry a transformuje jej do unifikovaného formátu. Takto následně článek spolu se zadanými metadaty poskytne prostřednictvím API internímu informačnímu systému k dalšímu zpracování.
Webový crawler je navržen tak, aby umožňoval procházet a objevovat články v jakémkoliv webovém zdroji a jakémkoliv formátu. Pravidelně v zadaných intervalech prochází různé internetové média (webové stránky) a to buď pomocí XML sitemap, RSS kanálů, nebo přímo systematickým procházením webového obsahu a objevuje nové URL adresy, které v daném webovém zdroji přibyly.
Následně identifikuje, jaký obsah se nachází na nově objevených URL adresách zdroje. Takové URL, které neobsahují zajímaví obsah, vyřadí. Ty, na kterých je nalezen nový článek dále zpracovává. Obsah všech nalezených článků sparsuje a pomocí různých metod z něj extrahuje zadané parametry, které následně k danému článku uchovává v databázi.
Webový crawler obsahuje také API, pomocí kterého poskytuje informace o nalezených a zpracovaných článcích dalším systémům. Pomocí API přistupuje k systému prodejní informační systém, který si přes API stahuje data o článcích v unifikovaném formátu a dále je zpracovává při prodeji zmínek v těchto článcích.
Tvorba webového crawleru pro dolování dat z internetu
Vytvořit dlouhodobě udržitelný webový crawler pro dolování dat z internetu může být nelehký úkol a je nutné předem pořádně promyslet všechny aspekty řešení. Tato webová aplikace již slouží ke stahování množství nových článků z internetových medií. Pokud uvažujete o tvorbě podobné aplikace pro dolování dat z internetu, rád Vám s tím pomohu. Kontaktujte mě, rád s Vámi proberu podrobnosti Vašeho projektu …
Michal Strelec
Ing. Michal Strelec
|
michal@strelec.pro
|
+420 608 407 544
Jsem softwarový inženýr na volné noze a zkušený vývojář informačních systémů a webových aplikací na míru. Nabízím dlouhodobé a spolehlivé partnerství při vývoji, provozu, rozšiřování a podpoře softwarového řešení. Mám přes 15 let zkušeností a úspěšně jsem realizoval více než 35 projektů webových aplikací a informačních systémů. Kancelář mám v hlavním městě Praha, své služby ale poskytuji také na dálku po celé České republice.
Zajímá Vás více informací?
Přečtěte si podrobněji, jak budeme postupovat při vývoji softwaru na míru, nebo si stáhněte moji vizitku s podrobnými informacemi v PDF. Pokud Vás blíže zajímá moje práce, prohlédněte si moje reference, nebo mě kontaktujte a zeptejte se na více informací …
Další podobné články
Multi e-shopový systém na míru
Pro společnost Glentyn(e) Shops CZ jsem vyvinul multi e-shopový systém na míru, pomocí kterého společnost provozuje a v jedné přehledné administraci spravuje všechny své e-shopy s prémiovými alkoholickými nápoji …
Aplikace pro online SEO analýzu webu
Pro firmu SEOlight poskytující svým klientům služby v oblasti SEO jsem na míru vyvinul a provozuji webovou aplikaci pro detailní analýzu jednotlivých SEO faktorů webových stránek, která je veřejně dostupná online …
Informační systém nejen pro sledování zásilek
Zákazníci firmy Gama Logistics můžou pomocí nového informačního systému vyvinutého na míru kdykoliv online sledovat stav doručování svých zásilek. Systém GamaLogIS ale nabízí i další chytré funkce …
Informační systém Elektronická objednávková kniha
Pro firmu PRAGUE BOATS jsem vyvinul na míru a provozuji rozsáhlý informační systém pro plánování a objednávání lodní dopravy, který ulehčuje nebo zcela nahrazuje práci dispečerů a obchodního oddělení firmy …
Webová aplikace pro prodej služeb
Pro firmu VolnéKapacity jsem vyvinul na míru webovou aplikaci jobuya.cz, která umožňuje registrovaným uživatelům vytvářet a nabízet online různé nabídky případně poptávky mikroslužeb …
Pokladní informační systém na míru s pokročilou kalkulaci
Pro Pražskou paroplavební společnost a firmu PRAGUE BOATS jsem vyvinul na míru a provozuji pokladní informační systém na míru s pokročilými možnostmi kalkulace a tisku …
Informační systém pro zpracování objednávek a fakturaci
Pro Brašnářství Tatiana jsem vytvořil a provozuji informační systém pro zpracování objednávek a fakturaci, který pomáhá spravovat a automatizovat množství objednávek z e-shopu i prodejny …