BVLAC corpus - Extracted Data: Corpus BVLAC - Données extraites
Abstract
[FR] Dans le cadre du projet SONGES sur la mise en correspondance de données textuelles massives et hétérogènes, nous élaborons des modèles de représentation de données ainsi que des mesures de similarité à partir d’indicateurs trouvés dans les textes (thématiques, spatiaux et temporels). L’objectif est d’organiser et valoriser des ensembles de données dans leurs dimensions hétérogènes et massives. Parmi les données exploitées, nous travaillons sur un ensemble de données produites dans le cadre du projet BVLAC, un projet mené par le CIRAD qui promeut des techniques agricoles issues de l’agroécologie à Madagascar.
<br>
Ce dépôt rassemble les données brutes extraites à partir du corpus BVLAC. Les données contenus dans l'archive sont :
<ul>
<li>Les données pour chaque document (*.txt)</li>
<li>dans "association‧json" : le nom des fichiers originaux pour chaque identifiant</li>
<li>dans "association_lang‧json" : langue utilisée dans chaque document</li>
</ul>
<br>
[EN] As part of the SONGES project on the matching of massive and heterogeneous textual data, we are developing data representation models and similarity measures based on indicators found in the texts (thematic, spatial and temporal). The objective is to organize and valorize data sets in their heterogeneous and massive dimensions. Among the data used, we are working on a dataset produced as part of the BVLAC project, a project led by CIRAD that promotes agricultural techniques derived from agroecology in Madagascar.
<br>
This repository contains the raw data extracted from the BVLAC corpus. The data contained in the archive are:
<ul>
<li>Data for each document (*.txt)</li>
<li>in "association‧json" : the name of the original files for each identifier</li>
<li>in "association_lang‧json" : language used in each document</li>
</ul>