Après le forage, le raffinage de données

Publié le 26/01/2013 à 00:00, mis à jour le 24/01/2013 à 09:16

Après le forage, le raffinage de données

Publié le 26/01/2013 à 00:00, mis à jour le 24/01/2013 à 09:16

Si les données volumineuses sont le pétrole du XXIe siècle, les logiciels comme Hadoop en sont les raffineries. Grâce à eux, le flot grandissant de données colligées par les entreprises peut être traité dans des délais raisonnables.

Hadoop permet d'accélérer le traitement de grandes quantités de données en découpant une requête en un grand nombre de sous-requêtes pouvant être effectuées par des ordinateurs différents. Par exemple, s'il faut une heure pour faire une requête avec un seul ordinateur, Hadoop permet d'en utiliser 100 en même temps et d'arriver ainsi au même résultat en moins d'une minute.

L'implantation du logiciel libre ne nécessite pas l'achat d'équipement spécialisé : «L'un des principaux avantages de Hadoop, c'est qu'il a été conçu pour fonctionner sur du matériel informatique de base», explique Ian Rae, pdg de CloudOps, une entreprise montréalaise qui déploie le logiciel chez plusieurs de ses clients. Selon lui, rares sont les grandes entreprises qui n'ont pas encore déployé le logiciel ou qui n'y travaillent pas.

Le Groupe Pages Jaunes, notamment, prévoit implanter Hadoop dans ses propres centres de données au courant de l'année. Notamment, les rapports de Pages Jaunes Analytique seront compilés avec le logiciel, mais l'entreprise compte aussi en tirer d'autres bénéfices : «Avec Hadoop, les données entreposées pourront être mises à contribution pour développer notre moteur de recherche, comprendre les besoins des utilisateurs mobiles, etc.», fait valoir Saïd Radhouani, directeur général, contenu digital et moteurs de recherche chez Groupe Pages Jaunes.

Intégration tous azimuts

De son côté, SAP permet à ses clients depuis le 10 janvier, d'installer tous les logiciels de sa suite d'affaires sur la banque de données SAP HANA, conçue pour traiter des données volumineuses. Ainsi, une entreprise pourra faire de l'analyse en temps réel de toutes les données qui sont entrées dans les logiciels qu'elles utilisent. «Là où le marché s'en va, c'est vers une interconnexion de toutes sortes de données ensemble, car il n'est pas possible de savoir lesquelles sont pertinentes avant de les avoir analysées», explique David Jonker, directeur des données volumineuses chez SAP.

Contrairement à Hadoop, SAP HANA ne peut être installée sur n'importe quelle machine. La banque de données a en effet été conçue de manière à fonctionner sur des serveurs équipés de mémoire flash, une technologie de stockage qu'on retrouve également dans les clés USB et les téléphones. Quoique plus coûteuse, cette dernière est beaucoup plus rapide que les disques durs traditionnels. «Grâce à HANA, les requêtes de nos clients peuvent être effectuées jusqu'à 7 000 fois plus rapidement», explique David Jonker de SAP.

Malgré les avantages, la quantité de données qu'on peut traiter avec HANA n'est pas infinie. David Jonker soutient du reste que plusieurs clients de SAP utilisent à la fois Hadoop et HANA. Il cite l'exemple de MKI, une entreprise japonaise mettant au point des traitements personnalisés contre le cancer : «D'abord, ils utilisent Hadoop pour comparer le génome du patient avec ceux d'autres patients qui ont suivi des traitements. Ensuite, ils utilisent HANA pour faire de 10 à 20 millions de requêtes. Le processus au complet prend moins de 10 minutes.»

Du côté d'IBM, on considère aussi que les deux approches sont complémentaires : «Pour nous, les données volumineuses ne sont pas une technologie, mais un phénomène qui touche tous les aspects des entreprises, explique David Corrigan, directeur de produit, marketing, pour InfoSphere, chez IBM. Les entreprises doivent adopter des technologies, mais aussi, des politiques de gouvernance pour déterminer quelles données sont les plus importantes et lesquelles peuvent être archivées.»

IBM offre une version propriétaire d'Hadoop, baptisée IBM Infosphere BigInsights, mais aussi de nombreux autres produits, dont des serveurs, visant à entreposer, puis à analyser de grands volumes de données. IBM étant une entreprise de services avant tout, ses produits s'intègrent avec plusieurs de ses logiciels et de ceux de ses concurrents : «L'intégration de tous les logiciels demeure un objectif à atteindre, mais c'est vers ça que le marché s'en va», soutient David Corrigan.

«Je pense que, ultimement, les tendances de l'informatique en nuage et des données volumineuses vont nous rapprocher du point où tous les différents silos de données des entreprises seront intégrés.» - Ian Rae, pdg de CloudOps

À lire aussi sur son blogue

Québecor devrait lancer son propre fonds en capital de risque

Rackspace vient de tuer le marché des serveurs

twitter.com/ julienbrault

www.lesaffaires.com/blogues/julien-brault

julien.brault@tc.tc

À la une

Bourse: records en clôture pour Nasdaq et S&P 500, Nvidia première capitalisation mondiale

Mis à jour le 18/06/2024 | lesaffaires.com, AFP et Presse canadienne

REVUE DES MARCHÉS. Les titres de l’énergie contribuent à faire grimper le TSX.

Stellantis rappelle près de 1,2 million de véhicules aux États-Unis et au Canada

Environ 126 500 véhicules au Canada sont concernés par le rappel.

Le régulateur bancaire fédéral maintient la réserve de stabilité intérieure à 3,5%

L’endettement des ménages reste une préoccupation pour le Bureau du surintendant des institutions financières.