Caricare documenti e articoli online 
INFtub.com è un sito progettato per cercare i documenti in vari tipi di file e il caricamento di articoli online.


 
Non ricordi la password?  ››  Iscriviti gratis
 

Ricerca di informazioni in rete

informatica



Ricerca di informazioni in rete

Internet comprende moltissime sorgenti di informazioni. Il problema tipicamente consiste nel selezionare l'informazione che effettivamente ci interessa.

Esistono diversi servizi che consentono l'accesso alle informazioni disponibili in rete.

Per quello che riguarda la ricerca scientifica, essi sono principalmente:

le pagine-indice (contenenti link) delle varie organizzazioni che realizzano o finanziano la ricerca (Università, Dipartimenti, gruppi universitari di ricerca, Ministeri, l'Unione Europea...)



i servizi di accesso in rete ai cataloghi delle biblioteche

i motori di ricerca (search engines), che mantengono enormi indici di pagine su cui svolgono ricerche su richiesta degli utilizzatori.

le directory, che catalogano grosse quantità di pagine per argomenti e sotto-argomenti

i documenti elettronici scaricabili, che si possono leggere sul monitor o stampare su carta

i corsi in linea, vere e proprie lezioni in rete

Oltre a conoscere l'uso di ciascun servizio, l'utilizzatore espert 636h75g o conosce anche gli accorgimenti per raggiungere in breve le informazioni utili e filtrare quelle inutili. Alcuni suggerimenti verranno dati qui, altre tecniche si imparano dall'esperienza.

Pagine-indice

I centri di ricerca, i singoli studiosi di una determinata disciplina, e in generale chiunque sfrutti a fondo il WWW, fanno spesso il lavoro di raccogliere, catalogare e mettere a disposizione i link in rete più utili secondo la loro esperienza.

Una pagina WWW che contiene solo o prevalentemente indirizzi di altre pagine è detta una pagina-indice (index page).

Per sfruttare le pagine indice occorre conoscere l'indirizzo di rete della pagina dell'ente, gruppo o persona che mantiene l'indice.

Le università italiane hanno indirizzi WWW della forma https://www.uniXX.it (sostituire a XX la sigla della città). I politecnici italiani hanno indirizzi WWW della forma https://www.poliXX.it (idem).

Esempio: https://www.unibo.it Università di Bologna

Esempio: https://www.unimi.it Università di Milano

Anche in molti Paesi stranieri esistono convenzioni analoghe.

Gli indirizzi accademici USA sono del tipo www.nomeistituzione.edu ; quelli britannici sono del tipo www.nomeistituzione.ac.uk ; quelli tedeschi sono del tipo www.uni-nomecittà.de .

I siti personali dei singoli studiosi sono spesso accessibili cliccando successivamente sui link presenti sulle pagine:

dal sito dell'istituzione

poi da quello del dipartimento

poi da quello del gruppo di ricerca a cui appartengono.

Queste regole consentono di "intuire" un indirizzo non conosciuto, con buona probabilità di successo.

Se uno o due tentativi non dovessero andare a segno, si consiglia di ricorrere al sito del MIUR (ministero dell'Istruzione, Università e Ricerca), www.miur.it .

Dalla home page del sito MIUR, cliccando su "Università", si trovano un paio di link a pagine-indice che elencano i siti di moltissime università in tutto il mondo (alla voce intitolata "atenei").


Quello che si è detto finora vale se si sa già dove cominciare a cercare: se si conosce l'indirizzo WWW di uno studioso che ha una pagina in rete, oppure se si conosce il nome di una istituzione esperta della materia di interesse.

E se non si sa da dove iniziare?

Motori di ricerca e altri servizi in rete

Motori di ricerca

Un motore di ricerca è un servizio in rete che ha la funzione di indicizzare automaticamente le pagine del World-Wide Web.

A un motore di ricerca si accede attraverso una pagina WWW con un proprio indirizzo.

Su questa pagina si trovano principalmente 2 elementi:

Pubblicità, fonte di finanziamento del servizio;

Una zona per effettuare la ricerca, comprendente una casella per introdurre la query, il tasto Search (o simili), ed eventuali altre opzioni.

Nel gergo delle basi di dati, si chiama query l'espressione di una richiesta di dati che soddisfino un dato insieme di condizioni.

Nel caso dei motori di ricerca, la query più semplice è costituita da un semplice termine da cercare.

Premuto il tasto Search, si ottengono varie pagine di risposte. Ogni risposta comprende:

il titolo di una pagina WWW;

l'indirizzo (cliccabile) della pagina;

un estratto della pagina, per avere un'idea del contenuto;

eventuali altre informazioni, come p.es. la dimensione in byte della pagina, la data di creazione o ultimo aggiornamento, ecc.

Alcuni popolari motori di ricerca:

https://www.google.com

https://www.altavista.com

https://www.lycos.it

https://www.yahoo.com

Directory e altri servizi di ricerca in rete

La parola directory indica un elenco del telefono, come p.es. le pagine gialle.

Un sito definito directory ha la stessa struttura delle pagine gialle, ossia si consulta per argomento e all'interno di un argomento si consulta per nominativo.

Una possibile differenza tra la versione di carta e la versione in rete è nel fatto che in una directory in rete esistono argomenti, sotto-argomenti, sotto-sotto-argomenti, ecc.

Un'altra differenza è che i nominativi dei siti (titolo o indirizzo) possono essere organizzati sia alfabeticamente, sia secondo altri criteri (p.es. per popolarità).

In sostanza, una directory non è altro che una collezione di numerose pagine indice, relative a molti argomenti diversi e organizzate in modo logico per facilitare l'accesso.


I principali portali e motori di ricerca hanno sia funzione di motore di ricerca, sia funzione di directory.

Indirizzi di alcune directory:

https://dmoz.org/

https://directory.google.com/Top/Science/

Come strutturare una query

Per sfruttare bene gli strumenti presentati conviene capire qualcosa in più su come è fatta una query.

Tipicamente, le parole di una query vengono cercate all'interno dei documenti in qualunque ordine e non necessariamente tutte insieme.

Inoltre esse vengono filtrate per eliminare parole troppo comuni (come gli articoli). Questa operazione è detta stoplisting perché la lista delle parole da "non far passare", o stopwords,  è detta stoplist.

Esse vengono anche filtrate per eliminare le varianti (p.es. desinenze dei verbi, plurali). Questa operazione è detta stemming, perché, privata della desinenza, una parola si riduce alla sola radice (stem).

Gli indirizzi che vengono riportati corrispondono quindi a pagine che contengono:

Tutte o alcune delle parole della query

Parole simili a quelle della query (p.es. un'altra voce dello stesso verbo)

A volte, parole con significato correlato a quello delle parole della query

Gli indirizzi vengono inoltre ordinati per rilevanza.

Un motore di ricerca ritiene più rilevante un documento in base a criteri diversi (infatti motori diversi danno ordinamenti diversi).

Ci si può aspettare che un documento sia più rilevante, rispetto alla query, se:

Contiene più parole della query

Contiene le parole della query vicine fra loro

Contiene le parole della query nel titolo

Inoltre i motori di ricerca tentano anche di valutare l'affidabilità di un documento, ritenendo meno affidabili:

I documenti che nel testo non hanno le parole del titolo

I documenti che presentano liste di parole-chiave nascoste

Documenti per i quali hanno ricevuto segnalazioni di insoddisfazione da parte di utilizzatori delusi.

Documenti inaffidabili saranno in coda alla lista presentata.

Vediamo alcuni consigli su come strutturare una query.


Specificità

Poiché esistono i filtri che eliminano le parole inutili, è possibile anche inserire come query una domanda vera e propria. P.es.:

does my IBM computer work with Windows 2000?


Come obbligare l'inclusione di un termine

Se si vuole che un termine sia considerato obbligatorio anziché preferenziale si può usare il segno + davanti al termine. P.es. con

IBM Windows

troverò molti documenti che parlano di calcolatori IBM oppure del sistema operativo Windows. Invece, con

+IBM +Windows

troverò solo i documenti che parlano di Windows e di calcolatori IBM.

Questo accorgimento serve a ridurre le "inondazioni di risultati".


Come obbligare l'esclusione di un termine

Se si vuole evitare di ottenere tutte le pagine che riguardano un "secondo significato" dei termini della query, si può aggiungere un termine caratteristico solo del secondo significato, e imporre che esso NON sia presente aggiungendo il segno - davanti. P.es. con

medea -giasone

otterrò tutti i documenti che contengono il termine medea, escludendo però tutti quelli che si riferiscono al mito greco in cui compare anche il personaggio chiamato Giasone.


Come obbligare l'adiacenza di due termini

Sono interessato a Windows 2000, ma con la query

Windows 2000

ottengo anche tante pagine sugli eventi dell'anno 2000 e tanti cataloghi di installatori di finestre.

Posso allora richiedere che il motore mi cerchi proprio l'espressione "Windows 2000". Per fare questo, racchiudo i termini dell'espressione fra virgolette.

"Windows 2000"

Attenzione: per fare questo, occorre che io sappia con ragionevole certezza che i termini sono sempre usati in quell'ordine. Se invece so che sono possibili varianti, devo aggiungerle come se fossero termini in più, distinti. Per esempio:

"camera dei deputati" "camera deputati"

(Questo perché più è precisa la mia richiesta, più selettiva sarà la ricerca).


Questi suggerimenti valgono con tutti i principali motori di ricerca. Conviene consultare la pagina di help se in qualche caso non dovessero funzionare.

Il sito https://www.searchenginewatch.com fornisce altri utili suggerimenti per sfruttare al meglio i motori di ricerca e per comporre query più specifiche e più selettive.

Anche le pagine di aiuto dei singoli motori di ricerca forniscono preziose informazioni.


Un altra categoria di informazioni reperibili in rete sono i lavori scientifici.

Una delle motivazioni originarie per la nascita di Internet era proprio lo scambio di informazioni fra istituzioni di ricerca.

Ovviamente la circolazione dei lavori pubblicati è vincolata dalle leggi sul copyright. Quindi un lavoro pubblicato su una rivista scientifica o negli atti di un congresso, di norma, non sarà disponibile in rete.

L'argomento che segue riguarda come rintracciare in rete le informazioni bibliografiche sui lavori pubblicati. Sarà mio compito, successivamente, recuperare in biblioteca tali lavori.

Successivamente, vedremo come recuperare in rete il testo completo di lavori non pubblicati oppure eventualmente l'abstract di lavori pubblicati.

Bibliografie e cataloghi in linea

Ho intenzione di iniziare un lavoro di ricerca scientifica.

La prima cosa da fare è sapere qual è lo "stato dell'arte" sull'argomento di mio interesse. Quindi devo fare una ricerca bibliografica per sapere quali sono le pubblicazioni sull'argomento. Perciò vado in biblioteca e comincio la ricerca.

Qual è il difetto di questa tecnica?

Se mi interessasse sapere se esiste almeno una pubblicazione, potrei smettere di cercare appena la trovo. Purtroppo, io vorrei conoscere tutte le pubblicazioni sull'argomento, quindi devo fare una ricerca esaustiva in tutta la biblioteca.

E se la mia biblioteca non è abbonata ad una rivista importante?

L'unico modo è rendere la ricerca più sistematica. I concetti di ricerca in rete che abbiamo imparato fin qui possono essere sfruttati nei modi spiegati di seguito.


Ricerca per temi: pagine di bibliografia in rete

Si tratta di identificare un certo numero di siti www di persone che si occupano del tema di nostro interesse.

Come abbiamo visto, l'uso è di mettere in rete delle pagine-indice con gli indirizzi di interesse per il proprio specifico ambito di ricerca.

Allo stesso modo, frequentemente viene messa in rete anche una bibliografia tematica, ossia i riferimenti bibliografici dei lavori più importanti pubblicati sul tema.

Si tratta poi di annotarsi i riferimenti più interessanti e andare in biblioteca a cercare i documenti cartacei.

Suggerimento: i riferimenti bibliografici sono spesso molto sintetici: conviene copiarli per esteso, in modo da non tralasciare dati potenzialmente necessari.

Altro suggerimento: non è detto che nella mia biblioteca ci sia tutto, quindi, anche se mi sembra che due lavori parlino della stessa cosa, conviene che me li annoti tutti e due: così, se non trovo l'uno, posso ancora trovare l'altro.

Commento: il caso più frequente è quello di bibliografie tematiche, piuttosto che bibliografie per grandi discipline.


Ricerca per parole chiave: basi di dati bibliografici

Una "base di dati" o database è, nella sua forma più fondamentale, un elenco di schede (dette i record). Ogni record è composto da un insieme prefissato di spazi, ciascuno dei quali accoglie una specifica informazione, chiamati i campi del record.

Questa struttura è esattamente analoga allo schedario che accoglie il catalogo di una biblioteca: per ogni libro o rivista esisterà una scheda (un record), e ogni record conterrà spazi (campi) dedicati al titolo, all'autore, all'editore, all'anno di pubblicazione, all'argomento, alla collocazione, e così via.

Esempio:

 

Scheda n.


 

Scheda n.

3


 

Scheda n.




Scheda n.

1




Titolo





Autore





Editore





Anno




 

Argomento



 

Collocaz


 


Le biblioteche universitarie hanno normalmente un catalogo informatizzato con questa struttura. Esso è accessibile da un calcolatore presente in biblioteca, oppure, sempre più comunemente, direttamente dalla rete.

Per il Sistema Bibliotecario di Ateneo dell'Università di Bologna, l'accesso è dall'indirizzo:

https://www.cib.unibo.it

e mette a disposizione l'accesso ai cataloghi e a vari archivi.

I record del catalogo di una biblioteca normalmente contengono solo informazioni del genere di quelle indicate sopra. Perciò non è possibile fare una ricerca sul contenuto di una pubblicazione, ma solo sul titolo, sull'argomento generale, sull'autore, ecc.

Esistono altri tipi di basi di dati bibliografiche (o banche dati, termine che suggerisce il loro scopo commerciale). Esse raccolgono grandissime quantità di pubblicazioni periodiche, per moltissime annate, e vengono regolarmente aggiornate. Anche se i periodici che mi interessano sono presenti nel catalogo della biblioteca, le banche dati presentano vantaggi in quanto di solito includono un numero di campi superiore, tra cui spesso anche un campo Abstract.

L'abstract è un riassunto del testo di un articolo, che dovrebbe dare un'idea piuttosto precisa sul contenuto limitandosi a 10-30 righe. Eseguendo la ricerca sull'abstract ho moltissime probabilità in più di trovare quello che cerco.

Queste basi di dati sono normalmente limitate a uno specifico ambito di conoscenze. Occorre quindi scegliere quella di interesse.

Le biblioteche hanno spesso tali basi di dati su CDROM, accessibili al pubblico da un calcolatore dedicato.


Suggerimenti per la ricerca booleana

I programmi di accesso ad una base di dati consentono di effettuare ricerche di tipo simile a quelle viste per i motori di ricerca.

Ossia, ci sarà uno spazio da riempire, in cui scriverò le parole chiave che mi interessano, e ci sarà un comando cerca.

Tuttavia c'è una importante differenza: i motori di ricerca valutano il grado di rilevanza di un documento come un numero. Esistono documenti più rilevanti e documenti meno rilevanti.

I programmi di ricerca nelle basi di dati valutano solo se un documento risponde o no alla query. Quindi, in questo caso, non ci sono gradi di rilevanza: un documento o risponde alla query, oppure no; in tal caso non viene mostrato.

Questo tipo di ricerca è detto ricerca booleana. L'algebra booleana è quell'algebra che si basa solo sui due valori vero e falso. Quindi nella ricerca booleana il fatto che un documento sia interessante può essere solo vero o falso: non ci sono sfumature intermedie.

Questo significa anche che non esiste il concetto di sinonimo: nella query devo mettere esattamente i termini

Per cercare tutte le pubblicazioni la cui scheda contenga la parola colonne userò la query semplice:

colonne

Se però sono in dubbio che sia usato il termine pilastri, dovrò indicare l'alternativa:

colonne OR pilastri

Otterrò tutti i documenti la cui scheda contiene almeno uno dei due termini.

Se invece mi interessano tutte le pubblicazioni che riguardano entrambi, potrò indicare:

colonne AND pilastri

Otterrò tutti i documenti la cui scheda contiene entrambi i termini, in qualunque posizione.

Documenti scaricabili in linea

Se sono fortunato, dalla mia ricerca in rete otterrò non solo un riferimento bibliografico, ma il testo completo del lavoro che mi interessa.

Troverò un file che contiene tutto l'articolo che cercavo.

Tale file sarà "in linea" (on line), cioè accessibile dalla rete Internet, e sarà "scaricabile", cioè potrò copiarlo (download) sul mio calcolatore e leggerlo sullo schermo, o stamparlo.

Tipi di documenti ottenibili in linea

I lavori che si trovano più facilmente in linea sono i rapporti tecnici (technical reports).

Un rapporto tecnico è un lavoro pubblicato internamente da un'università o ente di ricerca, disponibile autonomamente.

Un rapporto tecnico, se sufficientemente curato, può essere inviato ad una rivista per la pubblicazione vera e propria.

Per questo motivo, un rapporto tecnico può essere quasi equivalente a un articolo su rivista, ma con i seguenti notevoli vantaggi:

Il copyright non è stato trasferito a un editore, ma è ancora dell'autore che può farne quello che vuole - p.es. lo distribuisce in rete

Per pubblicare un lavoro su rivista ci vuole tipicamente un minimo di sei mesi, quindi lo stesso lavoro in forma di rapporto tecnico è disponibile mesi di anticipo.

Lo svantaggio principale è il seguente:

Il lavoro non è stato sottoposto a revisione, quindi è possibile che contenga delle inesattezze.

A questo svantaggio si deve rimediare con un po' di buon senso da parte del lettore, e verificando l'attendibilità scientifica dell'autore.

La morale è che i rapporti tecnici, se usati con cautela, sono una preziosissima fonte di aggiornamento e studio scientifico.

I rapporti tecnici sono tipicamente messi a disposizione dalle università, dipartimenti o enti di ricerca, piuttosto che dai singoli autori. Vanno quindi cercati non sulle pagine personali, ma sui siti delle rispettive istituzioni.

Un altro tipo di documento è l'abstract. Come nelle basi di dati bibliografiche, è possibile trovare in rete gli abstract dei lavori pubblicati. Infatti l'editore non consente la diffusione di un lavoro di cui detiene il copyright, ma consente (e incoraggia) la diffusione del suo abstract.

Gli abstract si trovano tipicamente tra le pagine personali degli autori, che li mettono personalmente a disposizione.

Alcune riviste mettono in linea il testo completo (full text) degli articoli che pubblicano.

Normalmente ciò avviene dietro pagamento di una quota di abbonamento con caratteristiche analoghe all'abbonamento alla rivista convenzionale su carta.

In alcuni casi, un abbonamento è valido per tutte le persone che si collegano da un dato indirizzo. Per esempio, potrebbe esistere una rivista che consente a tutti i calcolatori che possiedono un indirizzo che termina per .unibo.it di scaricare gratuitamente gli articoli. Questa possibilità va indagata chiedendo p.es. al personale delle biblioteche (eventualmente per e-mail).

In altri casi, le riviste rendono disponibili gratuitamente  articoli scelti a campione, per dare la possibilità di valutare un eventuale abbonamento.

In tutti questi casi, la ricerca va effettuata sul sito della casa editrice della rivista su cui è comparso l'articolo che mi interessa.

Infine, alcuni autori mettono illegalmente in linea il full-text dei propri lavori.

Illegalmente, perché, una volta pubblicato un lavoro, il diritto di diffonderlo (copyright) è trasferito all'editore, e l'autore non ha più il diritto di decidere sulla diffusione della propria opera.


Il formato elettronico dei documenti scaricabili

I documenti elettronici sono dei normali file, che posso scaricare con un programma FTP (vedi Modulo 3) oppure direttamente da pagine www (vedi sempre Modulo 3).

Il tipo di tali file può essere variabile.

Occasionalmente si trovano lavori nella forma di pagine www. In questo caso sono facilmente consultabili come tutte le altre pagine di un sito www.

Tuttavia se cerco di stamparli il risultato non è di solito eccellente.

Raramente posso trovare articoli nel formato proprio di qualche programma di elaborazione di testi, con cui è stato creato.

P.es.: potrei trovare un file che si chiama article.doc ed è un documento nel formato proprio di Microsoft Word.

Questo tipo di diffusione è raro perché, se mi viene dato il file originale, io potrei modificare il contenuto dell'articolo, o per manomissione, o per errore.

I due formati di gran lunga più frequentemente usati sono il Postscript e il Portable Document Format.

Questi formati di file garantiscono che, usando appositi programmi di visualizzazione e stampa, l'articolo possa:

essere letto sullo schermo di un calcolatore qualunque

essere stampato su una stampante qualunque

mantenere la forma grafica e l'impaginazione decise dall'autore;

mantenere il contenuto invariato, senza possibilità di manomissioni o errori.

Nel Modulo 7 di questo corso si vedranno questi tipi di file con maggiori dettagli.




Privacy




Articolo informazione


Hits: 1807
Apprezzato: scheda appunto

Commentare questo articolo:

Non sei registrato
Devi essere registrato per commentare

ISCRIVITI



Copiare il codice

nella pagina web del tuo sito.


Copyright InfTub.com 2024