Αόρατο Web

Αόρατο Web

Τι είναι και πως μπορούμε να το κάνουμε ορατό.

 

Το Web (διαδίκτυο) όπως είναι γνωστό, παρέχει πρόσβαση σε ένα τεράστιο αριθμό πληροφοριών. Μερικοί πιστεύουν ότι  το μέγεθός του διπλασιάζεται κάθε 4 μήνες. Αν στο γεγονός αυτό προσθέσουμε ότι η πληροφορία που προσφέρει δεν είναι οργανωμένη όπως για παράδειγμα σε μια βιβλιοθήκη, αλλά είναι ένα μέρος όπου ο καθένας μπορεί να δημοσιεύσει οτιδήποτε, δεν είναι περίεργο που πολλοί νοιώθουν να κατακλύζονται από άχρηστες πληροφορίες αλλά και να μην βρίσκουν εύκολα ή και καθόλου αυτό που αναζητούν

Εκτός όμως της τεράστιας ποσότητας της πληροφορίας, υπάρχει και το πρόβλημα της προσβασιμότητας. Πολλές από τις πληροφορίες που υπάρχουν στο web είναι αποθηκευμένες σε εξειδικευμένες βάσεις δεδομένων που μπορεί να περιέχουν πολύτιμες πληροφορίες αφού έχουν στοιχεία που δεν μπορεί κανείς  βρει πουθενά αλλού. Οι βάσεις αυτές όμως δεν ανιχνεύονται από τις γνωστές μηχανές αναζήτησης αφού δεν έχουν στατικό URL (σταθερή διαύθυνση).

Δυναμικές και στατικές ιστοσελίδες

Στο web έχουμε δύο ειδών ιστοσελίδες τις δυναμικές και τις στατικές. Οι δυναμικές είναι αυτές που δημιουργούνται σαν αποτέλεσμα μιας αναζήτησης σε μια βάση δεδομένων (database-driven web pages). Το περιεχόμενο των δυναμικών ιστοσελίδων συχνά αλλάζει και έτσι η σελίδα ξαναδημιουργείται τη στιγμή που ζητείται (on the fly) βασιζόμενη στην πληροφορία που προσφέρεται από τη βάση δεδομένων. Ένα παράδειγμα δυναμικής ιστοσελίδας είναι το Amazon. Όλες οι πληροφορίες για το ποια βιβλία είναι διαθέσιμα από το Amazon, πόσο κοστίζουν κ.ά. είναι αποθηκευμένες σε βάσεις δεδομένων και όπως ο χρήστης κάνει την αναζήτηση  η βάση δεδομένων «στέλνει» τα στοιχεία που παρουσιάζονται στην ιστοσελίδα. Η Amazon θέλει οι πελάτες της να έχουν την πιο πρόσφατη πληροφορία για τα προϊόντα της και έτσι οι σελίδες της ενημερώνονται σε απάντηση των ερωτημάτων που μπαίνουν από τους χρήστες (on the fly).

Σε αντίθεση οι στατικές ιστοσελίδες δεν αλλάζουν συνεχώς. Οι σελίδες αυτές είναι κυρίως αρχεία HTML και δεν εξαρτώνται από βάσεις δεδομένων για το περιεχόμενό τους αλλά περιμένουν απλώς στον server τη στιγμή που θα ανακτηθούν.

Το αόρατο web

Πίσω από αυτά τα τρισεκατομμύρια των σελίδων, βρίσκεται ένα ακόμη μεγαλύτερο κρυμμένο μέρος του web με αρχεία που αφορούν οικονομικές πληροφορίες, εμπορικούς καταλόγους, δρομολόγια πτήσεων, ιατρική έρευνα και άλλα είδη πληροφορίας που αποθηκεύονται σε βάσεις δεδομένων και είναι αόρατα στις μεγάλες μηχανές αναζήτησης.

Το web στο οποίο δεν μπορούμε να έχουμε πρόσβαση αποκαλείται αόρατο (invisible) ή βαθύ (deep) web. Η έκφραση αυτή χρησιμοποιήθηκε πρώτη φορά το 1994 και από τότε πολλά είδη αρχείων που στο παρελθόν δεν ήταν ανακτήσιμα, είναι πλέον προσβάσιμα από τους crawlers (οι crawlers ή spiders ή robots είναι ειδικά αυτόματα προγράμματα που επισκέπτονται τις ιστοσελίδες, τις διαβάζουν και ακολουθούν τις υπερσυνδέσεις (hyperlinks)  αυτών προς άλλες ιστοσελίδες).

Παρόλα αυτά  εκτιμάται ότι το Αόρατο web, που είναι 500 φορές μεγαλύτερο από το ορατό και  καλύπτει 1 τρισεκατομμύριο σελίδες παραμένει αόρατο για τους περισσότερους χρήστες.

Οι σελίδες αυτές είναι αόρατες γιατί μπορεί να απαιτούν κωδικό εισόδου ή συνδρομές, να προστατεύονται από firewalls ή να δημιουργούνται με την παράθεση του ερωτήματος, είτε ακόμη να μην μπορούν να αναζητηθούν λόγω format. Σε ορισμένες περιπτώσεις οι μηχανές δεν συμπεριλαμβάνουν κάποια στοιχεία στην αναζήτησή τους  επειδή επιλέγουν να μην το κάνουν, όπως παράδειγμα οι σελίδες που περιέχουν spam. Πάντως το 95% του αόρατου web είναι ελεύθερο, χωρίς να χρειάζεται κανείς συνδρομές και κωδικούς.

Πληροφορίες και πηγές για το Αόρατο web

O Marcus P.Zillman, ειδικός του διαδικτύου σε θέματα ανάκτησης της πληροφορίας, ανακάλυψης και συγκομιδής της γνώσης (knowledge discovery-knowledge harvesting), τεχνητής νοημοσύνης (artificial intelligence) καθώς και σε ζητήματα ευφυών διαμεσολαβητών (bots/intelligent agents) δημιούργησε ένα κατάλογο πηγών του Αόρατου web που τον χώρισε σε δέκα κατηγορίες. Ο οδηγός αυτός (http://www.llrx.com/authors/398 ) παρέχει πηγές που είναι απαραίτητες για την κατανόηση του Αόρατου web καθώς και ταξινομημένες πηγές πληροφοριών που βρίσκονται μόνο στο αόρατο web.

Θα πρέπει να έχουμε υπόψη μας ότι το web έχει και την αόρατη πλευρά του. Εκτός των γνωστών μηχανών αναζήτησης υπάρχουν πηγές μεγάλης αξίας που μένουν ανεξερεύνητες και περιμένουν να τις ανακαλύψουμε.

Ευφροσύνη Γκουνταβά

 

Leave a Reply

Your email address will not be published. Required fields are marked *