令和5年度の情報システムの選択科目Ⅱ-1の私なりの回答をまとめてみようと思います。
回答内容に問題や改善点があれば是非コメントください!
今回はデータレイクハウスについてです。
過去問のリンクはこちら。
16 情報工学部門|公益社団法人 日本技術士会 (engineer.or.jp)
まず、論文の必要な文字数は
試験科目 | MAX記述量 | 配点 | 回答時間 |
---|---|---|---|
I 必須科目I | 600字×3枚 | 40点 | 2時間(10:00〜12:00) |
II 選択科目 + III 選択科目 | 600字×3枚 + 600字×3枚 | 30点 + 30点 | 3時間30分(13:00〜16:30) |
で、Ⅱ選択科目は2つ(Ⅱー1とⅡー2)があり、それぞれ600字と1200字の合計1800字です。
今回はⅡー1について論述していきますので、600字でまとめていきます。
問題文
※Ⅱー1の他の問題の掲載は省略します
Ⅱ-1ー4 データレイクハウスの特徴と出現した背景、およびデータウェアハウス(DWH)との違いについて説明し、データを利活用するうえでの留意点について述べよ。
選択Ⅱー1 コンピテンシーの確認
コンピテンシーは以下の記事で掘り下げて確認していますので、興味があればどうぞ。
試験区分とコンピテンシーの対応関係は以下の通りです。
必須Ⅰ | 選択Ⅱ-1 | 選択Ⅱ-2 | 選択Ⅲ | 口頭試験 | |
---|---|---|---|---|---|
専門的学識 | ○ | ○ | ○ | 〇 | |
問題解決 | ○ | 〇 | |||
マネジメント | ○ | 〇 | |||
評価 | ○ | 〇 | ○ | ||
コミュニケーション | ○ | ○ | ○ | 〇 | ○ |
リーダーシップ | ○ | 〇 | |||
技術者倫理 | 〇 | 〇 | |||
継続研鑽 | 〇 |
専門的学識とコミュニケーションだけなので、純粋に知識問題かつ問われた内容に的確にこたえることができているか、という観点のようです。
データウェアハウス(DWH)、データレイク、データレイクハウスのまとめ
知識がないと絶対に論述できないですね。
まずは勉強として、それぞれの特徴などをまとめてみたいと思います。
DWH、データレイク、データレイクハウスの成り立ちの背景
- 1980sDWH
データを効率的に取り扱い、ビジネスに役立てるためDWHが誕生。
ETLを経由してBIやレポートを生成していく。
(課題)
しかし、BIやレポート毎に個別のフォーマットを要求するため、コスト面で難があった。
また、画像などの非構造化データの取り扱いには向いていない。 - 2010sデータレイク
多くのデータソースから多量のデータを集めデータ分析に対するニーズの高まり、音声や画像など様々なデータを格納するデータレイクの構築が始まる。
しかしデータレイクにはトランザクションやデータ品質の保証などRDBMSには必須の機能が欠けており、データスワンプに陥る。
結果的にデータレイクに期待されていたことが実現せず、DWHのメリットも失う結果に。 - その結果DWHとデータレイクからわかったこと
異なるシステム間でのデータ移動が必要で、データ分析に必要なスピード感も得られない。
DWHやデータレイク導入はシステム全体の構造を複雑にしてしまう課題も。 - 2020sレイクハウス
DWHとデータレイクのいいとこどり。
DWH同様のデータマネジメント機構であり、安価&オープンなストレージを活用可能。
非構造化データのバージョン管理、ガバナンス、セキュリティ、ACID特性。
レイクハウスは単一プラットフォームで、DWHとデータレイクの両方のメリットを活用しビジネス価値創出を劇的に加速させる。
トランザクションサポートがあれば、データの完全性が保証されるし、DWHとデータレイクでのデータの2重持ちによるデータ鮮度やコストの問題も解決できる。
また、機械学習やSQL、APIにも対応でき、様々なユースケースで活用可能。
こんな感じですかね。
これをベースにまとめていこうと思います。
回答作成 原稿用紙1枚(600字以内)
データレイクハウスの特徴と出現した背景、およびデータウェアハウス(DWH)との違いについて説明し、データを利活用するうえでの留意点について述べよ。
論点は3つですね。均等割りしてそれぞれ200字ずつ(原稿用紙3分の1ずつ)のイメージで行きたいと思います。
原稿用紙1枚に収まるように書いていきたいと思います。
データレイクハウスの特徴と出現した背景
(1)データレイクハウスの特徴と出現した背景
特徴は、構造化データ・非構造化データに対して、トランザクションデータの完全性を保証しSQL・機械学習・APIを実行できる。一方で、データレイクではACID特性を満たさないため活用されないデータが大量に保管される状態(データスワンプ)が発生していた。これを解決するためデータウェアハウスとデータレイクのメリットを合わせたデータレイクハウスが出現した。
データウェアハウス(DWH)との違い
(2)データウェアハウスとの違い
レイクハウスは音声や画像などの非構造化データも扱うことができるためストレージ容量もデータウェアハウスよりも非常に大きくなる。また、レイクハウスはローデータ(生データ)が格納されているが、データウェアハウスは目的に応じた処理がされたデータが格納されている点も異なる。
データを利活用するうえでの留意点
(3)データを利活用するうえでの留意点
ユースケースの明確化し、ユースケースに応じたデータのインプットにより、データスワンプを回避する。また、データガバナンスを講じないとデータスワンプに陥る危険があるため、データの更新権限や処理済データの保管など、データの更新・保管に関するガバナンスに留意して利活用を推進する。
原稿用紙1枚しか書けないので、あまり細かく段落分けしていられないです…。短くまとめる練習が必要です。
まとめ
全部で501字でした。
字数を原稿用紙1枚分の600字にまとめると文字数オーバーになってしまったので、原稿用紙にはまるように結構削りました。
でもこれ、、、全く知らないことを説明しろって言われたら厳しいですね。。。
そうならないように、日頃から知らないことはどんどん調べたり業務で関わるようにしていく必要があると痛感しました…。
回答した論文の内容にコメントがあればいつでもご連絡ください!
勉強中の身なので、非常に助かります!
コメント