Talend, premier éditeur de logiciels d'intégration de données Open Source, annonce que UMIT (University for Health Sciences, Medical Informatics and Technology), Université basée à Hall en Autriche, s'appuie sur Talend Open Studio pour alimenter un Data Warehouse partagé avec cinq autres organismes de recherche sur le cancer issus d'Allemagne et d'Autriche, permettant ainsi d'analyser d'importants volumes de données médicales et de procéder à des traitements statistiques à grande échelle.
Le cancer de la prostate représente le premier type de tumeur et la seconde cause de mortalité affectant les adultes masculins dans le monde. Partant de ce constat, UMIT a lancé avec cinq autres organismes de recherche un projet baptisé IMGuS (Institute for Medical Genome Research and Systems Biology), qui vise à identifier des signatures moléculaires permettant la classification des patients nécessitant un traitement contre ce type de cancer. Les analyses portent sur des jeux de données existants fournis par l'Université d'Urologie d'Innsbruck, qui sont collectés, analysés et préparés de manière systématique via Talend Open Studio pour alimenter les études moléculaires. Les résultats sont analysés à l'aide de méthodes statistiques et de Data Mining, dans le but de découvrir des signatures moléculaires permettant de développer de nouvelles thérapies et de rendre plus fiables les diagnostics. L'ensemble de ces données est intégré à un Data Warehouse développé et géré par l'Institut d'ingénierie biomédicale d'UMIT.
UMIT a ainsi évalué les performances de plusieurs solutions Open Source et propriétaires d'intégration de données, et a choisi Talend Open Studio pour son ouverture, ses performances et sa flexibilité. La solution lui a en outre permis, au-delà de l'intégration de l'ensemble des sources de données, d'intégrer des approches spécifiques de traitement de données (par exemple, pour réaliser des prétraitements sur des données revêtant différents formats et issues d'équipements médicaux).
Les jeux de données sont traités en deux étapes: d'une part, différentes informations sont collectées (données patients, données médicales de référence, cartographie du génome, données administratives, etc.). D'autre part, Talend Open Studio assure le rapprochement, la transformation, le nettoyage et le chargement de ces données dans un Data Warehouse reposant sur PostgreSQL, puis intègre également des données de référence issues de fournisseurs externes (publications médicales, bases de données, etc.).
Pour aller plus loin sur ce sujet
|
|