แมงมุมและโปรแกรมรวบรวมข้อมูลเว็บ: สิ่งที่คุณต้องรู้เพื่อปกป้องข้อมูลเว็บไซต์
แมงมุมซึ่งเรียกว่า 'โปรแกรมรวบรวมข้อมูลเว็บ' จะค้นหาเว็บและไม่ทั้งหมดมีความเป็นมิตรในความตั้งใจของพวกเขา
ผู้ส่งอีเมลขยะ Spider เว็บไซต์เพื่อรวบรวมข้อมูล
Google, Yahoo!
และเครื่องมือค้นหาอื่น ๆ ไม่ได้เป็นคนเดียวที่สนใจในการรวบรวมข้อมูลเว็บไซต์ - เพื่อเป็น scammers และผู้ส่งอีเมลขยะ
แมงมุมและเครื่องมืออัตโนมัติอื่น ๆ ถูกใช้โดยผู้ส่งอีเมลขยะเพื่อหาที่อยู่อีเมล (บนอินเทอร์เน็ตการปฏิบัตินี้มักเรียกว่า 'harvesting') บนเว็บไซต์แล้วใช้เพื่อสร้างรายชื่อสแปม
แมงมุมยังเป็นเครื่องมือที่เครื่องมือค้นหาใช้เพื่อค้นหาข้อมูลเพิ่มเติมเกี่ยวกับเว็บไซต์ของคุณ แต่ไม่ได้รับการตรวจสอบเว็บไซต์ที่ไม่มีคำแนะนำ (หรือ 'สิทธิ์') ในการรวบรวมข้อมูลไซต์ของคุณอาจมีความเสี่ยงด้านความปลอดภัยข้อมูลที่สำคัญ แมงมุมเดินทางโดยทำตามลิงก์และพวกเขาเชี่ยวชาญในการค้นหาลิงก์ไปยังฐานข้อมูลไฟล์โปรแกรมและข้อมูลอื่น ๆ ที่คุณอาจไม่ต้องการให้พวกเขาเข้าถึงได้
ผู้ดูแลเว็บสามารถดูบันทึกเพื่อดูสิ่งที่แมงมุมและหุ่นยนต์อื่น ๆ เข้าเยี่ยมชมเว็บไซต์ของตน ข้อมูลนี้ช่วยให้ผู้ดูแลเว็บทราบว่าใครเป็นผู้จัดทำดัชนีไซต์ของตนและบ่อยแค่ไหน
ข้อมูลนี้มีประโยชน์เพราะช่วยให้เว็บมาสเตอร์สามารถปรับแต่ง SEO ของตนและอัปเดตไฟล์ robot.txt เพื่อห้ามไม่ให้โรบอตบางรุ่นรวบรวมข้อมูลไซต์ของตนในอนาคต
เคล็ดลับในการปกป้องเว็บไซต์ของคุณจากโปรแกรมรวบรวมข้อมูลหุ่นยนต์ที่ไม่พึงประสงค์
มีวิธีง่ายๆในการเก็บซอฟต์แวร์รวบรวมข้อมูลที่ไม่ต้องการออกจากเว็บไซต์ของคุณ แม้ว่าคุณจะไม่กังวลเกี่ยวกับแมงมุมที่เป็นอันตรายที่รวบรวมข้อมูลไซต์ของคุณก็ตาม (การซ่อนที่อยู่อีเมลจะไม่ปกป้องคุณจากโปรแกรมรวบรวมข้อมูลส่วนใหญ่) คุณยังคงต้องให้เครื่องมือค้นหาพร้อมคำแนะนำที่สำคัญ
เว็บไซต์ทั้งหมดควรมีไฟล์อยู่ในไดเรกทอรีรากที่เรียกว่าไฟล์ robots.txt ไฟล์นี้ช่วยให้คุณสามารถแนะนำโปรแกรมรวบรวมข้อมูลเว็บที่คุณต้องการให้ดูหน้าดัชนี (เว้นแต่จะมีการระบุไว้เป็นอย่างอื่นในข้อมูลเมตาของหน้าที่เฉพาะเจาะจงเพื่อไม่จัดทำดัชนี) ถ้าเป็นเครื่องมือค้นหา
เช่นเดียวกับที่คุณสามารถบอกโปรแกรมรวบรวมข้อมูลที่ต้องการได้จากที่ที่คุณต้องการให้เรียกดูคุณยังสามารถบอกได้ว่าพวกเขาอาจไม่ไปและแม้แต่บล็อกโปรแกรมรวบรวมข้อมูลเฉพาะจากเว็บไซต์ของคุณทั้งหมด
เป็นสิ่งสำคัญที่ต้องจำไว้ว่าไฟล์ robots.txt ที่รวบรวมไว้อย่างดีจะมีมูลค่ามหาศาลสำหรับเครื่องมือค้นหาและอาจเป็นองค์ประกอบสำคัญในการปรับปรุงประสิทธิภาพของเว็บไซต์ของคุณได้ แต่ซอฟต์แวร์รวบรวมข้อมูลของหุ่นยนต์บางส่วนจะยังคงละเว้นคำแนะนำของคุณ ด้วยเหตุนี้คุณจำเป็นต้องทำให้ซอฟต์แวร์ปลั๊กอินและแอปของคุณอัปเดตตลอดเวลาอยู่เสมอ
บทความและข้อมูลที่เกี่ยวข้อง
เนื่องจากความชุกของการเก็บเกี่ยวข้อมูลที่ใช้เพื่อวัตถุประสงค์ที่ไม่เป็นระเบียบ (สแปม) จึงได้มีการออกกฎหมายเพื่อให้การปฏิบัติบางอย่างผิดกฎหมายในปี 2546 กฎหมายคุ้มครองผู้บริโภคเหล่านี้อยู่ภายใต้พระราชบัญญัติ CAN-SPAM ปีพ. ศ. 2546
เป็นสิ่งสำคัญที่คุณต้องใช้เวลาในการอ่านพระราชบัญญัติ CAN-SPAM หากธุรกิจของคุณมีส่วนร่วมในการส่งจดหมายหรือการรวบรวมข้อมูลเป็นจำนวนมาก
คุณสามารถหาข้อมูลเพิ่มเติมเกี่ยวกับกฎหมายต่อต้านสแปมและวิธีการจัดการกับผู้ส่งอีเมลขยะและสิ่งที่คุณเป็นเจ้าของธุรกิจไม่สามารถทำได้โดยอ่านบทความต่อไปนี้:
- CAN-SPAM Act 2003
- กฎ CAN-SPAM Act สำหรับองค์กรที่ไม่หวังผลกำไร
- 5 กฎระเบียบของ CAN-SPAM เจ้าของธุรกิจขนาดเล็กจำเป็นต้องทำความเข้าใจ