Cette figure de style est décrite sur ce site.
On trouve aussi une présentation sur Slideshare et une note de principes.
Des questions fréquentes concernent les distinctions à faire avec d'autres figures de style :
- Data Lake
- ODS
- MDM (voir ici)
En ce qui concerne les Data Lake et ODS les différences figurent ci-après :
Puits et Data Lake
Malgré une apparente proximité, il y a une forte
opposition entre ces 2 figures :
Par vocation un puits concentre
« peu » (au sens sémantique) de données, très structurées, et avec la
contrainte d’être au niveau de grain le plus fin. Mais les données d’un puits
sont des données pivot, très fortement partagées.
Le Data Lake à l’opposé stocke des données en vrac, non mises en qualité, non modélisées (donc non structurées), le modèle étant reconstitué à la volée. La technologie Hadoop permet en effet de stocker très facilement de telles données et d'y accéder sans indexation ou modélisation préalable.
En conséquence, sur les mêmes données stockées dans le Data Lake à différents instant d'un cycle, il n’y pas forcément de cohérence du
résultat… Ce n'est pas le souci principal, puisque l'objectif est de tout conserver en vrac. Le Data Lake a ainsi une approche différente de celle d'un ODS, qui doit aussi nettoyer les données (data cleansing) et les mettre en cohérence avant toute exploitation statistique.
Certes un Puits vise aussi à conserver toutes les données, dans la dimension historique, et au travers des différents flux, afin de créer la traçabilité par rapport aux silos de l'Entreprise, ou de la balkanisation de l'écosystème. Mais la modélisation doit être commune afin de garantir la cohérence de ces données pivot.
En ce qui concerne le Data Lake, il y aura des évolutions et certains experts du Data Lake disent d’ailleurs qu’il vaut mieux modéliser
(et les mettre dans le Data Lake) les données les plus utiles et
récurrentes.
Puits et ODS
Une architecture décisionnelle classique comprend, en amont du flux de données qui alimente les différentes bases mises en forme inversée (modèles en étoile, …), un entrepôt de données où les données sont chargées et travaillées par un ETL (classiquement appelé ODS).
En première analyse il y a duplication entre les puits et ce type d’entrepôt.
Cependant, en analysant plus en détail il apparaît que :
- Certaines transformations, par exemple de conversion de format, si elles sont réalisées en amont dans le puits, seront disponibles pour l’ensemble des applications et portail et n’auront plus à être refaites, et maintenues, au niveau de l’entrepôt, il y a ainsi clairement une économie d’échelle,
- Les problématiques d’intégration en particulier le lien avec les référentiels sont mieux placées si elles sont plus en amont, car plus proches de la source et là encore ce positionnement est gagnant,
- Les besoins de données à date sont spécifiques au décisionnel (en particulier pour disposer de lots de données homogènes en date), mais le puits peut alimenter l’entrepôt correctement grâce à sa gestion complète des dates (modèle tri-daté),
Il existe ainsi une complémentarité très importante :
- Il n’est pas nécessaire que tous le flux passent par des Puits, surtout si certains flux n’ont d’intérêt que pour le décisionnel, la problématique de profondeur historique est différente (par exemple, retropolation de séries selon la nomenclature actuelle).
- La coexistence Puits-ODS introduit une flexibilité pour les choix de périmètre et la gouvernance.
- Le décisionnel doit disposer de données détaillées mises dans l’ODS et de données inversées plus ou moins agrégées (en mode OLAP, ROLAP,…) pour faciliter les analyses.
- Un ODS répond au même type de besoin qu’un puits de données : constituer un point unique où se trouvent les données de références pour différents usages. La préoccupation est d’éviter les divergences et incohérences qui ne manquent de se produire si les analyses puisent les mêmes données à des sources différentes.
- Homogénéité des « populations » (au sens statistique) étudiées :
- mêmes définitions, quelles que soient les provenances, afin que de fausses divergences ne puissent apparaître (les « biais »),
- disponibilité des différentes informations qui ont des provenances différentes. On peut d’ailleurs se satisfaire de données manquantes, mais de toutes manières, les exigences sont différentes de celles qui sont de règle pour des systèmes opérationnels, tels que ceux que doit satisfaire un puits de données,
- Stabilité du « peuplement » des lots :
- Le décisionnel fonctionne à rythme lent et cadencé, pour créer des agrégats comparables et suivre des évolutions.
- Il faut donc garantir la représentativité de la série, pour ne pas générer de fausses évolutions qui seraient dues à des variations de date, de production des données, de couverture, …
- Enrichissement sémantique par création de nouveaux concepts de classement propres à l’analyse :
- Le décisionnel permet de créer une classification dynamique, mais celle-ci est naturellement fluctuante, et un besoin de suivi « longitudinal » implique de créer des codifications stables,
- Ces codifications sont issues de croisement de données existantes et sont à créer au préalable à toute analyse, par exemple : la catégorie socioprofessionnelle,
- Des retraitements automatiques peuvent être exécutés : apurement des erreurs mineures, conversions de codes, de données,… la mise en qualité des données répond au cahier des charges de statisticiens, qui n’est pas celui du gestionnaire
- Les besoins de documentation sont en partie spécifiques, signalant par exemple les évolutions qui peuvent provoquer des biais.
Enfin, et ceci est majeur, les Puits, traçant des données opérationnels de référence, ont vocation à être situé en amont dans les échanges et flux opérationnels. C'est en effet ce positionnement qui permet de contrôler la migration et de jouer le Lego dans l'intégration des composants, des moteurs qui encapsulent la complexité.
A contrario, les ODS sont en aval, après l'enrichissement par les moteurs de complexité.
De toutes façons on va vers la
coexistence de plusieurs « paterns » : les bases
relationnelles bien adaptées aux « Legacy », les bases non
structurées en Data Lake, et les ODS.
Very interesting content which helps me to get the in depth knowledge about the technology. To know more details about the course visit this website.
RépondreSupprimerhadoop training in chennai | Big Data Training in Chennai
Excellent content. Thanks for sharing content which is very useful that provided me the required information.
RépondreSupprimerCloud Computing Training in Chennai | Cloud Computing Courses in Chennai
Merci pour ces informations
RépondreSupprimerI am impressed with the way you describe a topic and make it clear to the readers. Thanks for sharing and do share more.
RépondreSupprimerSpoken English Classes in Chennai
IELTS Coaching in Chennai
Best Spoken English Classes in Chennai
Spoken English Class in Chennai
Spoken English in Chennai
English Classes in Chennai
RépondreSupprimerI feel satisfied to read your blog, you have been delivering a useful & unique information to our vision.keep blogging.
Regards,
Certified Ethical Hacking Course in Chennai
Ethical Hacking Training in Chennai
Tally Course in Chennai
Salesforce Training in Chennai
Angularjs Training in Chennai
ui design course in chennai
ethical hacking course in chennai
hacking course in chennai
You are giving the post is too good and The content is very useful for me. Thanks for your brief explanation with sharing and Keep posting...!
RépondreSupprimerExcel Training in Chennai
Advanced Excel Training in Chennai
Tableau Training in Chennai
Pega Training in Chennai
Spark Training in Chennai
Embedded System Course Chennai
Oracle DBA Training in Chennai
Power BI Training in Chennai
Excel Training in Chennai
Advanced Excel Training in Chennai
RépondreSupprimerGet inspired by your blog. Keep doing like this....
Best IELTS Coaching in Bangalore
IELTS Training in Bangalore
IELTS Coaching centre in Chennai
IELTS Classes in Bangalore
IELTS Coaching in Bangalore
IELTS Coaching centre in coimbatore
IELTS Coaching in madurai
IELTS Coaching in Hyderabad
Selenium Training in Chennai
Ethical hacking course in bangalore
Thanks for the informative article. This is one of the best resources I have found in quite some time.
RépondreSupprimerTOEFL Coaching in Chennai
TOEFL Training in Chennai
Data Analytics Courses in Chennai
Informatica MDM Training in Chennai
Hadoop Admin Training in Chennai
German Language Course in Chennai
spanish language in chennai
content writing training in chennai
TOEFL Coaching in Adyar
TOEFL Coaching in VelaChery
Your article is very informative. Thanks for sharing the valuable information.
RépondreSupprimerData Science Course in Chennai
Data Science Courses in Bangalore
Data Science Course in Marathahalli
Best Data Science Training in Marathahalli
Data Science Institute in Marathahalli
AWS Training in Bangalore
Data Science Training in Bangalore
Data Science Institute in Bangalore
Spoken English Classes in Bangalore
DevOps Training in Bangalore
RépondreSupprimerYou write this post very carefully I think, which is easily understandable to me. Not only this, but another post is also good. As a newbie, this info is really helpful for me. Thanks to you.
Tally ERP 9 Training
tally classes
Tally Training institute in Chennai
Tally course in Chennai
RépondreSupprimerThis content of information has
helped me a lot. It is very well explained and easy to understand.
seo training classes
seo training course
seo training institute in chennai
seo training institutes
seo courses in chennai
seo institutes in chennai
seo classes in chennai
seo training center in chennai
Great Article. Thank you for sharing! Really an awesome post for every one.
RépondreSupprimerDigital Marketing Course In Kolkata
Web Design Course In Kolkata
Nice Blog...Thanks for sharing the article waiting for next update...
RépondreSupprimerArtificial Intelligence Course in Chennai
AI Training in chennai
ai courses in chennai
Mobile Testing Training in Chennai
C C++ Training in Chennai
javascript training in chennai
Html5 Training in Chennai
QTP Training in Chennai
Spring Training in Chennai
DOT NET Training in Chennai
Python Training in Chennaii
RépondreSupprimerI am glad that I have visited this blog. Really helpful, eagerly waiting for more updates.
Valuable one, Thanks for sharing waiting for next update...
RépondreSupprimerDOT NET Training in Chennai
asp .net training in chennai
best .net training institute in chennai
dot net institute in chennai
dot net training in Tambaram
Html5 Training in Chennai
Spring Training in Chennai
Struts Training in Chennai
Wordpress Training in Chennai
SAS Training in Chennai
Great!it is really nice blog information.after a long time i have grow through such kind of ideas.
RépondreSupprimerthanks for share your thoughts with us. share more details.
Ai & Artificial Intelligence Course in Chennai
PHP Training in Chennai
Ethical Hacking Course in Chennai Blue Prism Training in Chennai
UiPath Training in Chennai
Nice! you are sharing such helpful and easy to understandable blog. i have no words for say i just say thanks because it is helpful for me.
RépondreSupprimerDot Net Training in Chennai | Dot Net Training in anna nagar | Dot Net Training in omr | Dot Net Training in porur | Dot Net Training in tambaram | Dot Net Training in velachery
The development of artificial intelligence (AI) has propelled more programming architects, information scientists, and different experts to investigate the plausibility of a vocation in machine learning. Notwithstanding, a few newcomers will in general spotlight a lot on hypothesis and insufficient on commonsense application. machine learning projects for final year In case you will succeed, you have to begin building machine learning projects in the near future.
RépondreSupprimerProjects assist you with improving your applied ML skills rapidly while allowing you to investigate an intriguing point. Furthermore, you can include projects into your portfolio, making it simpler to get a vocation, discover cool profession openings, and Final Year Project Centers in Chennai even arrange a more significant compensation.
Data analytics is the study of dissecting crude data so as to make decisions about that data. Data analytics advances and procedures are generally utilized in business ventures to empower associations to settle on progressively Python Training in Chennai educated business choices. In the present worldwide commercial center, it isn't sufficient to assemble data and do the math; you should realize how to apply that data to genuine situations such that will affect conduct. In the program you will initially gain proficiency with the specialized skills, including R and Python dialects most usually utilized in data analytics programming and usage; Python Training in Chennai at that point center around the commonsense application, in view of genuine business issues in a scope of industry segments, for example, wellbeing, promoting and account.
valuable blog,Informative content...thanks for sharing, Waiting for the next update…
RépondreSupprimerStudy Abroad Consultants in Kerala
study abroad consultants in thrissur
Study Abroad Consultants in Calicut
abroad job consultancy in coimbatore
abroad job consultancy in calicut
abroad job recruitment agencies in calicut
study abroad
study in poland
study in europe
education in germany
The blogs seems to be so interesting. Keep sharing more.
RépondreSupprimerIELTS Coaching in chennai
German Classes in Chennai
GRE Coaching Classes in Chennai
TOEFL Coaching in Chennai
spoken english classes in chennai | Communication training
architects in chennai
RépondreSupprimerArchitects and Interior Designers make your home look marvelous. They bring to you, your dream home. Here are top architects in Chennai that you look for.
selenium interview questions and answers
RépondreSupprimerGet here for Selenium Interview Questions and Answers for freshers and experienced person those who want to explore more on testing selenium interview questions and answers for experienced
selenium interview questions and answers for experienced
RépondreSupprimerGet here for Selenium Interview Questions and Answers for freshers and experienced person those who want to explore more on testing selenium interview questions and answers for experienced
aws interview questions and answers for devops
RépondreSupprimerImportant DevOps Interview Questions and Answers for freshers and experienced to start your career in DevOps! 101 DevOps Basic Interview Questions for Freshers.devops interview questions and answers for experienced
Various businesses are investing in data analytics because it has already proven its necessity in the world of trade. It doesn't matter if it's about buying or selling goods or services, the business world is intertwined with data analytics. data science course syllabus
RépondreSupprimerĐại lý Aivivu chuyên cung cấp vé máy bay, tham khảo
RépondreSupprimervé máy bay tết 2021 Vietjet
vé máy bay đi Mỹ giá rẻ
ve may bay di Phap gia re
giá vé máy bay hàn quốc
vé máy bay vietjet từ nhật về việt nam
vé máy bay đi Anh giá rẻ 2020
vé máy bay giá rẻ nhất
Aivivu chuyên vé máy bay, tham khảo
RépondreSupprimerVe may bay di My
thời gian bay từ los angeles về việt nam
cách mua vé máy bay từ nhật về việt nam
vé máy bay từ canada về việt nam
come and start your journey abroad
RépondreSupprimer