Enjaz
systems / محرك-استخراج-محتوى-memory-aware
serviceLive

محرّك استخراج محتوى Memory-Aware

محرّك بحثي يستخرج المحتوى من تطبيقات الويب المعقّدة عبر hooking لـ JavaScript runtime واعتراض ArrayBuffers مباشرة من ذاكرة المتصفح. مشروع بحثي تقني متقدم.

JavaScriptSeleniumCDPMemoryResearchHooking

abstract

مشروع بحثي يستكشف تقنيات استخراج البيانات من تطبيقات SPA المتقدّمة.

🎯 التحدّي البحثي: التطبيقات الحديثة تحوّل الردود في الذاكرة، ولا تكشفها للـ network tab. كيف نلتقطها؟

✨ النهج: حقن JavaScript يعترض دوال Web API في الـ runtime قبل أن تستهلكها التطبيقات.

التقنيات البحثية: • Response.prototype.arrayBuffer hooking — اعتراض المعالجة قبل التشفير • Blob URL inspection للكشف عن البصمات الثنائية (Magic Numbers) • Selenium CDP للتحكم العميق بالمتصفح • مراقبة الذاكرة لحظياً واستخراج البيانات قبل تخريبها • استكشاف Worker threads + Service Workers • توثيق التقنيات لأغراض الأبحاث الأمنية والتعليمية

architecture

  ┌──────────────┐      ┌────────────┐      ┌─────────────┐
  │  client      │─────▶│   nginx    │─────▶│  next.js    │
  │  (browser)   │      │  (proxy)   │      │  (ssr)      │
  └──────────────┘      └─────┬──────┘      └──────┬──────┘
                              │                    │
                              ▼                    ▼
                        ┌───────────┐        ┌──────────┐
                        │ fastapi   │◀──────▶│ postgres │
                        │ (asyncio) │        │ (asyncpg)│
                        └───────────┘        └──────────┘

Stateless API behind a reverse proxy. SSR delivers HTML in under a second on warm cache. Connection pool keeps Postgres hot. JWT in HttpOnly cookie for the admin panel.

notes

  • SSR-first to keep TTFB < 1s on cold visits.
  • Type-checked end-to-end via Pydantic schemas mirrored to TS.
  • Migrations versioned via Alembic; zero-downtime restarts.