ما هو استخراج البيانات ولماذا يشكل تهديدًا؟

يعد استخراج البيانات طريقة أخرى يمكن من خلالها استخراج البيانات من موقع الويب أو البوابة الإلكترونية أو المنصة الخاصة بك. ومن المثير للدهشة أن شرعية استخراج البيانات تشكل منطقة رمادية. وإليك كيفية الدفاع ضدها.




ما هو كشط البيانات وكشط الويب؟

إن استخراج البيانات وكشط الويب هما تقنيتان آليتان مختلفتان تحققان نفس الغاية. فهما تحصدان البيانات من أنظمة مملوكة لأطراف ثالثة. وتستخرجان البيانات وتقارنانها وتخزنانها بطرق تسهل إعادة استخدامها. وهذا يعني عادةً وضعها في قاعدة بيانات أو في تنسيق محمول مثل CSV.

يستخدم كشط البيانات واجهات برمجة التطبيقات التي توفرها المنصة التي يتم كشطها، على الرغم من أن شروط استخدام واجهة برمجة التطبيقات تحظر على الأرجح جمع البيانات بشكل جماعي.

تعمل عملية كشط الويب عن طريق تقديم طلبات لصفحات الويب تمامًا كما يفعل متصفح الويب. ولكن بدلاً من عرض صفحة الويب، يستخرج البرنامج البيانات التي يهتم بها ويحفظها ويطلب صفحة أخرى. تحظر شروط وأحكام معظم مواقع الويب وبالتأكيد جميع منصات الوسائط الاجتماعية كشط البيانات والويب. وعلى الرغم من ذلك، فإن أعداد المستخدمين المرتبطة بمنصات الوسائط الاجتماعية تجعلها أهدافًا جذابة لكشط البيانات.


يمكن أن يقوم مجرمو الإنترنت بجمع بيانات تسجيل الدخول أو تفاصيل الدفع أو المعلومات الشخصية التي يمكن التعرف عليها. ويمكن أيضًا استخدامها لأسباب مشروعة مثل تجميع القصص الإخبارية أو مراقبة البائعين للتأكد من عدم انتهاكهم لاتفاقيات التسعير أو لتحليل السوق. كما تُستخدم أيضًا لجمع معلومات الأعمال وتحديد مواقع العملاء المحتملين ودعم التسويق والإعلان.

أرقام كبيرة – الكشط والجرائم الإلكترونية

في عام 2020، بلغ عدد السجلات الشخصية التي تم استخراجها من موقع يوتيوب 4 ملايين. وكان الرقم بالنسبة لتيك توك أعلى بعشر مرات، حيث بلغ 42 مليونًا. وفي نفس العام، تم استخراج 191 مليون سجل شخصي من موقع إنستغرام. وتحظر كل هذه المنصات استخراج البيانات.

في أبريل 2021، تصدرت LinkedIn عناوين الأخبار عندما قامت بتأسيس قاعدة بيانات 500 مليون سجل شخصي تم طرح قاعدة البيانات للبيع على شبكة الويب المظلمة. وقالت شركة مايكروسوفت، التي تملك LinkedIn، إنه لم يحدث أي خرق أمني. وكانت قاعدة البيانات نتيجة لكشط البيانات.


تحتوي قاعدة البيانات على بيانات كل عضو متأثر:

  • الاسم الحقيقي
  • جنس
  • عناوين URL لملف LinkedIn
  • عناوين البريد الإلكتروني المسجلة
  • أرقام الهاتف الثابت والهواتف الذكية
  • العناوين الفعلية
  • تفاصيل الموقع الجغرافي
  • أسماء المستخدمين لحسابات وسائل التواصل الاجتماعي الأخرى

في يونيو 2021، تم إنشاء قاعدة بيانات 700 مليون سجل شخصي وقد ظهرت هذه البيانات. وهذا يمثل أكثر من 90% من عضوية LinkedIn. وبالإضافة إلى 200 مليون سجل إضافي، يتم ربط قاعدة البيانات الثانية بالبيانات التي تم جمعها من مصادر أخرى، مما يوفر صورة أكثر تفصيلاً للأفراد المتضررين.

تم إنشاء قاعدة البيانات هذه بواسطة مجرمين إلكترونيين لصالح مجرمي الإنترنت، ويمكن شراؤها مقابل 5000 دولار وقت كتابة هذه المقالة من أسواق ومنتديات الويب المظلم. سيتم استخدام المعلومات التي تحتويها في جرائم مثل هجمات التصيد الاحتيالي، وهجمات التصيد الاحتيالي، وهجمات الهندسة الاجتماعية، وغيرها من عمليات الاحتيال المالي.

ذات صلة: كيفية منع سارقي الهوية من فتح حسابات باسمك


الكشط التجاري يشكل مشكلة أيضًا

ماذا عن الويب التجاري وكشط البيانات الذي يحدث؟ هناك شركات يمكنك التعامل معها والتي ستقوم بكشط البيانات نيابة عنك. يمكنك استخدام أدوات تحليل البيانات مثل المتوفرة مجانًا حساء جميل مكتبة Python لإنشاء تطبيقات كشط الويب الخاصة بك.

المشكلة هي أنك لا تزال تنتهك قواعد المنصة التي تقوم باستخراج البيانات منها بكل تأكيد. وستحاول المنصات الدفاع عن نفسها. وإذا لم تفعل ذلك، فإن أعضائها أو عملائها أو المستخدمين الآخرين معرضون لخطر مغادرة منصاتهم.

عندما تختار تقديم بياناتك الشخصية إلى خدمة عبر الإنترنت، فإنك بذلك توكل إلى هذه المؤسسة مهمة التعامل مع بياناتك. ولا تمنح إذنًا لأي شخص آخر بجمع هذه البيانات واستخدامها كما يحلو له. وعندما تستخرج المؤسسات بياناتك، فإنك لا تعرف من هي هذه المؤسسات، وماذا ستفعل بهذه البيانات، وكيف ستحافظ عليها وتحميها، ولا تعرف من ستشاركها معه.


رفعت شركة LinkedIn دعوى قضائية ضد شركة hiQ Labs Inc. بشأن بياناتها وكشطها للويب. وفي دفاعها، ادعت شركة hiQ أن البيانات التي كانت تستخلصها من LinkedIn كانت في المجال العام وهذا يعني أنها كانت متاحة للاستيلاء عليها. في عام 2019، حكمت محكمة الاستئناف الأمريكية للدائرة التاسعة لصالح شركة hiQ. ولكن في 14 يونيو 2021، أصدرت المحكمة حكمًا لصالح شركة hiQ. ألغت المحكمة العليا قرار الدائرة التاسعةاعتبارًا من يوليو 2021، أصبح كشط البيانات وكشط الويب لأغراض غير إجرامية في منطقة رمادية من الناحية القانونية.

وتزداد الأمور تعقيدًا عندما تأخذ في الاعتبار تشريعات البيانات التي تنطبق على أعضاء المنصة. على سبيل المثال، سواء كانت بيانات مواطن الاتحاد الأوروبي في المجال العام أم لا، فلا يمكنك حصادها وتخزينها ومعالجتها رقميًا دون أساس قانوني – كما هو محدد في اللائحة العامة لحماية البيانات – للقيام بذلك. وهناك أيضًا فرق بين ما هو مرئي للعامة وما هو في المجال العام.


بموجب اللائحة العامة لحماية البيانات، لا يوجد سوى أساسين قانونيين يمكن تطبيقهما على استخراج البيانات. الأول هو “الموافقة” والثاني هو “المصلحة المشروعة”. من الواضح أن الموافقة لم يتم منحها من قبل الأفراد، لذا فإن هذا أمر غير وارد. وسيكون من الصعب للغاية أن تزعم أن لديك مصلحة مشروعة في استخراج البيانات دون أن تدوس على المصالح المشروعة لأصحاب البيانات وحقوقهم وحرياتهم في خصوصية البيانات. تطالب اللائحة العامة لحماية البيانات بالحفاظ على هذه الحقوق والحريات وعدم الاستخفاف بها.

يحمي قانون حماية البيانات العامة (GDPR) حقوق خصوصية البيانات لمواطني الاتحاد الأوروبي بغض النظر عن مكان إجراء المعالجة. لا يزال يتعين على المنظمة في الولايات المتحدة التي تقوم باستخراج البيانات من منظمة أخرى مقرها الولايات المتحدة الالتزام بقانون حماية البيانات العامة (GDPR) إذا كانت البيانات التي يتم استخراجها تتضمن معلومات تعريف شخصية لمواطني الاتحاد الأوروبي.


تتبنى تشريعات حماية البيانات في مناطق أخرى نفس الموقف، مع بعض الاختلافات الطفيفة. إن شرعية استخراج البيانات ضعيفة، على أقل تقدير. ومن المرجح أن نشهد المزيد من التحديات الرسمية.

كيفية حماية مؤسستك

هناك خطوات وتدابير تضعها موضع التنفيذ لجعل الحياة أكثر صعوبة بالنسبة لكاشطات البيانات.

شروط الاستخدام والأحكام

على الرغم من أن الشروط والأحكام وشروط الاستخدام لن تفعل أي شيء لوقف مجرمي الإنترنت وقد لا توقف حتى الاستخراج “المشروع”، فمن المنطقي مع ذلك حظر جمع أو معالجة أو تخزين أو مشاركة أي بيانات بما في ذلك على سبيل المثال لا الحصر البيانات الشخصية القابلة للتحديد.

قد يمنع هذا بعض الأشخاص من الاحتيال. وإذا حدث ذلك، فهذا فوز سهل. وحتى إذا لم يحدث ذلك، فسوف يمنحك ميزة قانونية إذا كان من الضروري حل الأمور في المحكمة.

تعطيل الارتباط الساخن

يُطلق على عرض الصور والوسائط الأخرى على موقع ويب واحد عن طريق الارتباط بالموقع الأصلي اسم “الربط المباشر”. ويستخدم هذا الربط عرض النطاق الترددي للموقع الأصلي والموارد الأخرى لخدمة الوسائط.


عادةً ما يسترد كشط الويب الصور مباشرةً، وبالتالي فإن تعطيل الربط الساخن لن يؤثر على أنشطة الكشط الخاصة بهم. ولكن إذا حدث أي كشط يعتمد على الربط الساخن، فإنه على الأقل يمنع إضافة الضرر إلى الضرر. ولن يتسبب ذلك في استنزاف المزيد من النطاق الترددي عند عرض بياناتك المسروقة.

استخدم رموز CSRF

تقوم الأنظمة الآلية التي تقوم بعملية الكشط بإرسال طلبات HTTPS متتالية إلى موقع الويب الخاص بك. وتقوم بالزحف من صفحة إلى أخرى، وتتبع الروابط. كما تقوم بإنشاء عناوين URL لمحاولة الوصول إليها. وإذا رصدت نمطًا – مثل عناوين URL التي تختلف برقم واحد – فإن البرنامج يعمل على شق طريقه عبر التركيبات المتوقعة حتى يفشل التسلسل.

إن إضافة رموز تزوير الطلبات عبر المواقع إلى موقعك على الويب قد يربك كل برامج الاستخراج باستثناء أذكى برامج التزوير. رمز تزوير الطلبات عبر المواقع هو معرف فريد يتم إرساله من خادم الويب إلى العميل الذي يقدم الطلب. وفي الظروف العادية، يكون هذا هو المتصفح.


يتعين على العميل إعادة رمز CSRF إلى الخادم عند تقديم طلبه التالي. لن يستجيب الخادم لأي طلبات لا تتضمن رمز CSRF الصحيح. لا تستطيع معظم برامج كشط الويب التعامل مع رموز CSRF، لذا فإن هذا إجراء فعال للحد من تعرضك للخطر.

طلبات صفحة حد المعدل

تحدد حدود المعدلات حدودًا لعدد الطلبات التي يمكن إجراؤها من العميل خلال فترة زمنية معينة. وعادةً ما يتم ذلك من خلال عنوان IP، مع فرض قيود على عدد طلبات الصفحات أو التنزيلات التي يمكن إجراؤها في الثانية.

استخدم برنامجًا مخصصًا لمكافحة الكشط

تتوفر حزم تجارية يمكنها اكتشاف نشاط الكشط وحظره. وهي تستخدم تقنيات تتجاوز إلى حد كبير مجرد تحديد هوية العميل من خلال عنوان IP الخاص به. وهي تستخدم تقنيات التعلم الآلي لتحديد نشاط الروبوتات من خلال قياس الإجراءات مثل السرعة التي يمكن للعميل من خلالها ملء الحقول والنماذج، والطريقة التي يتحرك بها الماوس عبر الصفحة، والطريقة التي يتحرك بها العميل عبر موقع الويب. يتم حظر أي نشاط غير بشري.


تتطلب التفاعل البشري

إن إجبار العملاء على إنشاء حساب واستخدام CAPTCHA أو اختبارات الاستجابة والتحدي الأخرى يمكن أن يساعد في رفض الكاشطات التلقائية.

اجعل واجهات برمجة التطبيقات الخاصة بك صامتة

قم بتأمين واجهات برمجة التطبيقات الخاصة بك، وقم بتقييد قدراتها بحيث تقوم بإرجاع الحد الأدنى من البيانات اللازمة لتلبية استدعاء واجهة برمجة التطبيقات التي تخدمها.

من المغري للمطورين توفير واجهات برمجة تطبيقات غنية بالبيانات، والإفراط في التوفير بدلاً من النقص في التوفير. وهذا يضع المسؤولية على العميل لتحليل المعلومات التي يريدها ورفض الباقي. وهذا يقلل من فرصة إعادة العمل لأن واجهة برمجة التطبيقات لم تقدم قطعة معينة من المعلومات. ولكن هذا الإسهاب يلعب في أيدي الكاشطين.

بدلاً من ذلك، اجعل واجهات برمجة التطبيقات الخاصة بك بسيطة وفعّالة. قدم ما تم طلبه، ولا شيء أكثر من ذلك. يمكنك أيضًا تحديد أسعار عملاء واجهة برمجة التطبيقات.

ستكون الروابط المخفية على صفحة الويب غير مرئية للمستخدمين الحقيقيين، ولكن برامج كشط الويب ستعثر على جميع الروابط وتتابعها. إذا اتبع العميل رابطًا مخفيًا، فمن المحتمل أن تكون عملية آلية. يمكنك بعد ذلك حظره.


الوقت سوف يخبرنا

لا يبالي مجرمو الإنترنت بالقانون بحكم التعريف. ولا تملك العمليات التجارية أي خيار. وإذا كانت قضية hiQ ضد LinkedIn قد أسست سابقة قانونية واعتبرت أن استخراج البيانات ينتهك قانون الاحتيال وإساءة استخدام الكمبيوتر، فلن يؤثر ذلك إلا على تنفيذ عملية استخراج البيانات “التجاري”. وسوف يستمر مجرمو الإنترنت في استخراج البيانات.

لذا، مهما كانت النتيجة، فسوف تظل بحاجة إلى حماية مؤسستك.

أضف تعليق