dd-logo-loader
logo
logo

Plotr

  • Category
  • Technology
  • Start Date
  • Handover

  • default

Skalbart Web Scraping System för
Restaurangmenydata Integration över USA

Limousine Car Services Banner

PROJEKTET I KORTHET

Projektet syftade till att utveckla ett mycket skalbart och fel-tolerant system för att skrapa och sammanställa menydatan från olika snabbmatskedjor på tusentals platser. Målet var att skapa en sömlös pipeline för att extrahera, bearbeta och visualisera data effektivt.
Limousone Car Services Image 1
Limousine Car Services Image 2

UTMANINGAR

  • Hantera storskaliga skrapningsoperationer över flera platser.
  • Hantera olika dataformat från olika snabbmatskedjor.
  • Säkerställa fel-tolerans och skalbarhet för pålitlig prestanda.
  • Minska exekveringstiden från dagar till timmar för varje parser.

LÖSNINGSARKITEKTUR TEKNOLOGI ANVÄND:

  • AWS EventBridge & Step Functions: För att orkestrera och schemalägga webbskrapningsuppgifter.
  • AWS Lambda: För att möjliggöra distribuerad bearbetning, vilket gör att uppgifter kan köras parallellt och skalas automatiskt.
  • AWS Glue: För att rensa, transformera och sammanställa skrapad data.
  • Snowflake: Som datalager för att lagra bearbetad data och skapa visualiseringar.

GENOMFÖRANDEDETALJER

Skalbar Datainsamling

  • Byggde parsers för flera snabbmatskedjor för att extrahera menydatan per plats.
  • Använde AWS Lambda för att möjliggöra parallell skrapning, vilket avsevärt minskade exekveringstiden för uppgifterna.


Data Bearbetning & Transformation:

  • Använde AWS Glue för att bearbeta rådata till ett enhetligt schema.
  • Åtgärdade skillnader i format mellan datakällor för att säkerställa konsekvens.


Schemaläggning & Automatisering:

  • Konfigurerade AWS EventBridge och Step Functions för att automatisera skrapningsscheman, vilket säkerställer uppdaterad data.


Dataexport & Visualisering:

  • Exporterade bearbetad data till Snowflake för lagring.
  • Aktiverade visualiseringsmöjligheter för handlingsbara insikter och rapportering
Limousone Car Services Image 1
Limousine Car Services Image 2

OPTIMERING

Omdesignade parsers och införde parallellism för att minska körtiden från dagar till timmar.

RESULTAT

  • Uppnådde en 90% minskning av exekveringstiden för dataskrapningsuppgifter.
  • Levererade ett fel-tolerant och skalbart system som kan bearbeta storskalig data utan avbrott.
  • Möjliggjorde realtidsvisualisering av menydatan i Snowflake för affärsinsikter.
  • Förbättrade den övergripande systemtillförlitligheten och underhållbarheten genom AWS inbyggda tjänster.

SLUTSATS

Detta projekt visade framgångsrikt integrationen av serverlös databehandling, distribuerad bearbetning och avancerat datalagring för att skapa en robust webbscrapning och data-visualiseringspipeline. Optimeringarna och automatiseringen förbättrade avsevärt datatillgängligheten och beslutsfattande förmågan.

Har du några frågor?