(https://www.youtube.com/watch?v=1LLAN29W-4wから)
Sparkのドキュメントによると、DataFrameは、データの分散コレクションを「名前付きの列」に整理したもので、概念的には、リレーショナルデータベースのテーブルや、R、Pythonのデータフレームと同等だが、グラフデータ用に「高度に最適化されている」という。 GraphFrameは構造化データファイル、Apache Hiveのテーブル、外部データベース、既存のリレーショナルデータベースなど、多様なソースから構築できる。Scala、Java、Python、R向けのAPIが用意されている。 Databricksによると、GraphFramesはDataFrameが持つスケーラビリティと高いパフォーマンスの恩恵を受けており、Scalaの他、Java、Pythonでグラフデータ処理を利用するための単一のAPIを提供する。これにより、PythonとJavaから「GraphX」の全てのアルゴリズムを利用可能になった。この他、SparkのGraphXライブラリと似た一般的なグラフデータ処理をサポートする他、「幅優先探索(BFS)」や「モチーフ探索」といった新しいアルゴリズムにも対応する。 また、GraphFramesはDataFrameのデータソースを完全にサポートするので、Hadoop向けの列指向ストレージ「Parquet」形式や、JSON、CSVなど、さまざまなデータフォーマットを利用できる。 同社は公式ブログで、ソーシャルネットワークを簡単なグラフとして表現した例を用いてGraphFramesを紹介している(ユーザーが「点」、ユーザー間の関係が「辺」)。「どのユーザーが最も影響力があるか」「ユーザーAとBは知らない者同士だが、引き合わせるべきか」といった問いに対して、グラフのクエリやアルゴリズムを使って答えを出すことができるという。 この例では、ユーザー(点)は「名前」「年齢」を、ユーザー間の関係(辺)は「関係タイプ」といった属性を持つが、GraphFramesでは点と辺をDataFrameとして保存する。多くのクエリはDataFrame(またはSQL)クエリとなるため「グラフに対するクエリを簡単に表現できる」と、Databricksは説明している。 Apache Hive 2.0では「Hive-on-Spark parallel ORDER BY」が実装 Spark周辺のプロダクト開発が活性化しており、直近では、米クラウデラが開発を主導するHadoop向けSQLクエリエンジンの最新版「Apache Hive 2.0」でも、Sparkに対する並列ソート機能「Hive-on-Spark parallel ORDER BY」などが新たに実装されている。
http://headlines.yahoo.co.jp/hl?a=20160307-00000092-zdn_ait-sci
このあいだ行った大泉町
#カシオペア 上り最後の定期運行 #仙台駅
1: 名無し募集中。。。@\(^o^)/ 2016/04/24(日) 00:54:04.78 0.net これ (more…)
View On WordPress
共和党内では最近「トランプ氏以外ならだれでもいい」が合言葉になりつつある。
http://headlines.yahoo.co.jp/hl?a=20160303-00000078-mai-n_ame
A US government agency says it has attained the “holy grail” of energy – the next-generation system of battery storage — that could help electricity companies bring more solar and wind power on to the grid.
Read more in The Guardian.
(https://www.youtube.com/watch?v=CfihYWRWRTQから)
ごめん。出てる女性ごっつ美人なんやけど誰なんだろ。