Système de fichiers distribués

Q: Pourquoi un système de fichiers distribués est-il nécessaire ?

Un accès local transparent : l’utilisateur peut accéder aux données comme si elles étaient sur son appareil ou son ordinateur. Une indépendance par rapport à l’emplacement : les utilisateurs peuvent ignorer où se trouvent physiquement les données des fichiers. Une évolutivité importante : les équipes peuvent ajouter autant de machines qu’elles le souhaitent à un DFS pour le faire monter en charge (scale-out). Une tolérance aux pannes : les machines sont connectées entre elles et le DFS peut basculer facilement de l’une à l’autre, donc il peut continuer de fonctionner même si certains de ses serveurs ou disques tombent en panne.

Qu’est-ce qu’un système de fichiers distribués ?

Un système de fichiers distribués (DFS, distributed file system) est un système de fichiers qui s’étend sur plusieurs serveurs de fichiers ou plusieurs sites, comme par exemple des serveurs de fichiers situés dans différents lieux physiques. Les fichiers sont accessibles à partir de n’importe quel appareil et de n’importe quel endroit du réseau, comme s’ils étaient stockés localement. Un DFS permet aux utilisateurs d’un réseau de partager des informations et des fichiers de manière contrôlée et autorisée.

Pourquoi un système de fichiers distribués est-il important ?

Les entreprises utilisent un DFS principalement pour rendre les mêmes données accessibles à partir de plusieurs endroits. Une équipe répartie dans le monde entier doit par exemple pouvoir accéder aux mêmes fichiers pour collaborer. Dans un monde de plus en plus basé sur le cloud hybride, un DFS sert également chaque fois que vous devez accéder aux mêmes données à partir d’un centre de données, d’un site distant et du cloud.

Un DFS est essentiel lorsque vous avez besoin :

D’un accès local transparent : l’utilisateur doit pouvoir accéder aux données comme si elles étaient en local pour avoir des performances élevées.
D’une indépendance d’emplacement : les utilisateurs n’ont pas besoin de savoir où les données des fichiers sont physiquement stockés.
De capacités scale-out : pouvoir monter en charge massivement de façon parallèle en ajoutant plus de machines. Les systèmes DFS peuvent évoluer vers des clusters très importants qui comptent des milliers de serveurs.
D’une tolérance aux pannes : votre système doit continuer à fonctionner correctement même si certains de ses serveurs ou disques tombent en panne. Un DFS tolérant aux pannes peut gérer de telles défaillances en répartissant les données sur plusieurs machines.

Quels sont les avantages d’un DFS ?

Un système de fichiers distribué (DFS) est un système de fichiers qui est distribué et stocké en plusieurs endroits, par exemple des serveurs de fichiers situés sur différents sites. Les fichiers sont accessibles à partir de n’importe quel appareil et de n’importe quel endroit, comme s’ils étaient stockés localement. Un DFS permet aux utilisateurs d’un réseau de partager des informations et des fichiers de manière contrôlée.

Quels sont les différents types de systèmes de fichiers distribués ?

Voici les mises en œuvre de DFS les plus courantes :

Système de fichiers distribués Windows
NFS (Network File System)
SMB (Server Message Block)
GFS (Google File System)
Lustre
Système de fichiers distribués Hadoop (HDFS)
GlusterFS
Ceph
Système de fichiers MapR

Que signifient DFS et NFS ?

NFS signifie Network File System (système de fichiers en réseau). C’est un exemple de système de fichiers distribués (DFS). Le protocole NFS est une architecture client-serveur qui permet aux utilisateurs d’ordinateurs de visualiser, de stocker et de mettre à jour des fichiers situés à distance comme s’ils étaient en local. Le protocole NFS est l’une des nombreuses normes DFS pour le stockage NAS (network-attached storage, stockage en réseau).

Qu’est-ce qu’un système de fichiers distribués dans le domaine du Big Data ?

Le principal problème avec les big data, c’est que les données sont trop volumineuses pour être gérées sur un seul serveur, quelle que soit sa capacité de stockage ou sa puissance de calcul. À partir d’un certain point, il n’est plus judicieux, d’un point de vue économique ou technique, de continuer à le faire monter en puissance (scale-up), c’est-à-dire d’ajouter de plus en plus de capacité à ce seul serveur. Il est alors préférable de répartir les données sur plusieurs clusters (également appelés nœuds), pour les faire monter en charge de façon parallèle (scale-out) et utiliser la puissance de calcul de chaque cluster. Un système de fichiers distribué (DFS) permet aux entreprises de gérer l’accès aux big data sur plusieurs clusters ou nœuds. Elles peuvent alors les lire rapidement et effectuer plusieurs lectures et écritures parallèles.

Comment fonctionne un système de fichiers distribués ?

Un système de fichiers distribués fonctionne de la manière suivante :

Distribution : le DFS distribue d’abord les jeux de données sur plusieurs clusters ou nœuds. Chaque nœud fournit sa propre puissance de calcul, ce qui permet au DFS de traiter les jeux de données en parallèle.
Réplication : le DFS répliquera également les jeux de données sur différents clusters en copiant les mêmes informations sur plusieurs clusters. Cela rend le système de fichiers distribués tolérant aux pannes (pour pouvoir récupérer les données en cas de défaillance d’un nœud ou d’un cluster), et lui permet d’atteindre un niveau élevé de concurrence (et donc de pouvoir traiter simultanément la même donnée).

Qu’est-ce qu’une réplication du système de fichiers distribués ?

Une réplication DFS est un moteur de réplication maître multiple dans Microsoft Windows Server. Vous pouvez l’utiliser pour synchroniser des dossiers entre des serveurs sur des connexions réseau ayant une bande passante limitée. Lorsque les données changent dans chaque dossier répliqué, les modifications sont répliquées entre les connexions.

Où se trouve un système de fichiers distribués ?

L’objectif d’un système de fichiers distribués est de permettre aux utilisateurs de systèmes physiquement distribués de partager leurs données et leurs ressources. Un DFS est donc situé sur n’importe quelle collection de stations de travail, de serveurs, de mainframes, ou sur un cloud connecté par un réseau local (LAN).

Pourquoi un système de fichiers distribués est-il nécessaire ?

Voici quelques avantages à utiliser un DFS :

Un accès local transparent : l’utilisateur peut accéder aux données comme si elles étaient sur son appareil ou son ordinateur.
Une indépendance par rapport à l’emplacement : les utilisateurs peuvent ignorer où se trouvent physiquement les données des fichiers.
Une évolutivité importante : les équipes peuvent ajouter autant de machines qu’elles le souhaitent à un DFS pour le faire monter en charge (scale-out).
Une tolérance aux pannes : les machines sont connectées entre elles et le DFS peut basculer facilement de l’une à l’autre, donc il peut continuer de fonctionner même si certains de ses serveurs ou disques tombent en panne.

Cohesity et les systèmes de fichiers distribués

Les entreprises ont besoin d’un système de fichiers distribués (DFS) capable de gérer simultanément plusieurs cas d’usage pour consolider efficacement leurs silos de stockage. Celui-ci doit fournir des interfaces NFS, SMB et S3 standard, de solides performances pour les E/S séquentielles et aléatoires, une déduplication en ligne à longueur variable, et de fréquents snapshots persistants.

Il doit également pouvoir s’intégrer nativement avec le cloud public pour prendre en charge une structure de données multicloud, afin que les entreprises puissent envoyer des données vers le cloud à des fins d’archivage, ou pour des cas d’usage plus avancés comme la reprise après sinistre, le test/développement agile et l’analyse.

Tout cela doit se faire sur une architecture web-scale pour gérer efficacement des volumes de données toujours plus importants.

Cohesity a créé un tout nouveau système de fichiers pour permettre aux entreprises de reprendre le contrôle de leurs données à l’échelle : SpanFS. SpanFS est conçu pour consolider et gérer efficacement toutes les données secondaires, notamment les données des sauvegardes, des fichiers, des objets, des tests/développements et des analyses, sur une plateforme multicloud web-scale qui s’étend du site principal au site distant et au cloud.

Cohesity SpanFS vous permet de consolider les silos de données de tous vos sites en exposant de manière unique NFS, SMB et S3, les protocoles standards distribués à l’échelle mondiale, sur une plateforme unique.

Voici quelques-uns des principaux avantages de SpanFS :

Une évolutivité illimitée : commencez avec seulement trois nœuds, puis évoluez sans limites, sur site ou dans le cloud, grâce à un modèle de paiement « pay-as-you-grow ».
Une indexation globale automatisée : faites des recherches globales puissantes et exploitables par caractères génériques pour toute machine virtuelle (VM), fichier ou objet.
Une résilience des données garantie : maintenez une cohérence stricte entre les nœuds d’un cluster pour garantir la résilience des données à grande échelle.
Une déduplication entre les charges de travail et les clusters : réduisez votre volume de données grâce à la déduplication globale à longueur variable entre les charges de travail et les protocoles.
Cloud-ready : utilisez la plateforme de données multicloud Cohesity Helios pour ne plus dépendre d’autres passerelles cloud.
Un accès multi-protocole : lisez et écrivez en toute transparence sur le même volume de données grâce à un accès multi-protocole simultané pour NFS, SMB et S3.