コース内容
紹介
0/5
講座タイトル
01:08
本コースの概要
08:01
講師の自己紹介
01:40
本コースがビッグデータ基盤のどこに当たるのか?
02:04
環境構築
00:44
環境構築と基本操作(DataFrame)
環境構築を行います
0/11
本セクションの目次
01:07
分散処理とは?
05:32
PySparkとは
04:32
ノートブックとは?
02:36
Spark(PySpark)がデータ操作で利用するもの
04:41
データ読み込み
13:15
データフレームを操作する
11:15
カラムナーフォーマット/行指向フォーマット
06:53
パーティションとダイナミックパーティション
07:30
スモールファイルとデータスキュー
02:57
セクション2小テスト
PySpark基本操作(SQLとDataFrame)
SQLとDataFrameを退避させながら勉強していきましょう
0/9
本セクションの目次
01:35
ビッグデータ世界のDDL
15:19
ビッグデータ世界のDMLとは?
11:13
分析関数を練習してみよう(agg関数)
04:51
分析関数を利用してみよう(Window関数その1)
03:31
分析関数を練習してみよう(LAG/Lead関数
04:12
分析関数を練習してみよう(ピボットテーブル
03:01
SparkのRDDを使って1レコードつづ処理してみよう
02:35
セクション3小テスト
非構造データのラングリング(エクストラ)
非構造データのラングリング(エクストラ)
0/7
本セクションの目次
00:45
データラングリングとは?
01:25
テーブル形式を含まないExcelのラングリング
07:27
PDFのラングリングを行ってみよう
03:17
ラングリングで気をつけること
01:00
セクション4小テスト
データセット(ensyu.jso)についてデータの重複を行いつつハッシュ値(UUID)をカラムに付与してみましょう。
超速入門!【データサイエンスへの最初の一歩】PythonとSparkで学ぶデータ分析のための前処理と分散処理 一気見講座
レッスン内容
本コースの概要を説明します。
本コースは、普段よく利用されるSparkでのデータ操作や概念を一つにまとめたコースです
0%
完了
受講を完了する
リンクの挿入/編集
閉じる
リンク先 URL を入力してください
URL
リンク文字列
リンクを新しいタブで開く
または既存のコンテンツにリンク
検索
検索キーワードが指定されていません。最近の項目を表示しています。
検索もしくは上下矢印キーを使って項目を選択してください。
キャンセル