Early AdoptersUser loginLicense![]() The contents of this website, unless otherwise stated, are licensed under a Creative Commons License. |
Autonomous Citation Indexing: BibliographyCiteseerCiteseer è un archivio di articoli nell'ambito dell'informatica, che mantiene e aggiorna automaticamente il grafo delle citazioni presenti negli articoli. Citeseer è capace sia di citation extraction che di citation matching. Un'introduzione al sistema con una descrizione dei principi usati per il riconoscimento delle citazioni è qui. Un'introduzione più approfondita è Steve Lawrence, Kurt Bollacker, C. Lee Giles, Indexing and Retrieval of Scientific Literature (1999) . Un articolo che descrive più in particolare l'architettura e gli algoritmi usati da CiteSeer è Kurt D. Bollacker, Steve Lawrence, C. Lee Giles, CiteSeer: An Autonomous Web Agent for Automatic Retrieval and Identification of Interesting Publications (1998) . In quest'articolo è descritto abbastanza bene l'algoritmo usato per stabilire se più citazioni si riferiscono allo stesso articolo. L'algoritmo usato per il citation matching è descritto in Autonomous Citation Matching (1999) . Extracting Citation Metadata from Online Publication Lists Using BLASTQuesto interessantissimo progetto è un parser di citazioni (non all'interno di un testo ma solo come riferimenti bibliografici) basato su template. La particolarità di questo approcco è che i template sono scritti come sequenze di aminoacidi, in modo da poter utilizzare il programma BLAST per riconoscere il template migliore per una data citazione. La cosa interessante che l'articolo fa emergere è che per il buon funzionamento di un parser basato su template, serve un database di template con un numero elevato di template diversi (il programma ne usa 2500). Anche questo progetto è stato sviluppato pensando ad articoli di informatica. Sarawagi, Srinivasan, Vinod Vydiswaran, Bhudhia, Resolving citations in a paper repositoryQuest'articolo è il resoconto sommario del lavoro di costruzione del grafo delle citazioni riguardanti circa 35,000 articoli di fisica da arXiv.org in formato LaTeX. Il programma sviluppato da questi signori riguarda un caso molto particolare e per loro stessa ammissione non contiene nulla di riusabile per risolvere problemi pi generali. Si tratta di un algoritmo che da una parte fa il parsing del titolo e degli autori di ogni articolo, costruendo un database, e dall'altra cerca di mettere in relazione le citazioni con gli articoli presenti nell'archivio. A tale scopo utilizza tecniche come TF-IDF, oltre a tecniche basate sulla conoscenza del particolare dominio affrontato. Reference Linking for Journal ArticlesArticolo che discute l'ontologia alla base di un qualsiasi meccanismo di citazione. Non particolarmente pertinente al nostro problema.OpcitProgetto interessantissimo ma concluso che ha una quantità di bibliografia sull'argomento dell'ACI. Ha anche delle implementazioni (vecchie e poco efficaci ma libere) di algoritmi per estrarre citazioni. Peccato che questi algoritmi fanno acqua da tutte le parti. Si tratta di un insieme di moduli Perl (ParaTools) che estraggono i metadati delle citazioni basandosi su matching di template. I template sono conservati in un file Perl, sono pochi e sembrano scritti a mano! Non coprono minimamente tutti i possibili casi e inoltre sembra che anche l'algoritmo per scegliere il template giusto sia davvero ingenuotto. Non si trova letteratura che descriva algoritmi e performance del sistema, a parte il confronto di prestazioni effettuato dai taiwanesi che hanno usato BLAST. Altra bibliografia (da commentare)McNee et al., On the Recommending of Citations for Research Papers è un articolo che indaga sull'uso che si potrebbe fare del grafo delle citazioni allo scopo di trovare, attraverso algoritmi di collaborative filtering, citazioni addizionali da aggiungere alla bibliografia di un dato articolo. Homepage di Stuart Russell: vedere l'articolo BLOG: Relational Modeling with Unknown Objects, e queste slide. http://www.oaforum.org ParsCit un programma per il parsing delle citazioni e la loro estrazione da documenti. http://bibliographic.openoffice.org/ Hidden Markov Models, questi sconosciuti: J. Connan, C. W. Omlin, Bibliography Extraction with Hidden Markov Models (2000) e pure questo. Automatic Combination of Multiple Ranked Retrieval Systems (1994) Algoritmi per il ranking delle pagineL'algoritmo Page Rank di Google articolo Raffinamento di PageRank che tiene conto di Hub e AuthoritiesALBERT-LSZL BARABASI, Link. La scienza delle reti, EINAUDI 2004 Spiega come funzionano le reti ad invarianza di scala, spiega il concetto di Hub e Authorities. Ha una bibliografia molto interessante. Ce l'ho a casa ricordatemi di portarvelo. Dello stesso autore (e del suo gruppo) ci sono una marea di paper in rete. Il libro e' un must. Citation Linking in Federated Digital Libraries Da questo articolo: leggere [HCH+ 97, 98]. Siamo arrivati alla sezione 3 compresa. Fase di validazioneThe Open Archives Initiative Protocol for Metadata HarvestingSi tratta di un protocollo per l'accesso a metadati. Il formato dei metadati il Dublin Core , ma il protocollo costruito in modo da supportare anche altri formati. Potrebbe essere utile? E' gi implementato in HyperJournal? eprintsE' OAI-PMH compliant? I metadati possono essere raccolti? Bibsterhttp://e-prints.unifi.it/archive/00000011/ http://e-prints.unifi.it/archive/00000275/ http://www.eprints.org/ ( categories: Documentation )
|
DonationsTo make a donation just click the button below. You can donate via paypal and credit card. Thank you!!!
AdsNavigation |