import matplotlib def func(a, b): return a + b
きょう行ってきた。ダ・ヴィンチ展。4月10日までなので行ってない人は是非。前の桜もちょうど見頃。#ダ・ヴィンチ展
Sparkのドキュメントによると、DataFrameは、データの分散コレクションを「名前付きの列」に整理したもので、概念的には、リレーショナルデータベースのテーブルや、R、Pythonのデータフレームと同等だが、グラフデータ用に「高度に最適化されている」という。 GraphFrameは構造化データファイル、Apache Hiveのテーブル、外部データベース、既存のリレーショナルデータベースなど、多様なソースから構築できる。Scala、Java、Python、R向けのAPIが用意されている。 Databricksによると、GraphFramesはDataFrameが持つスケーラビリティと高いパフォーマンスの恩恵を受けており、Scalaの他、Java、Pythonでグラフデータ処理を利用するための単一のAPIを提供する。これにより、PythonとJavaから「GraphX」の全てのアルゴリズムを利用可能になった。この他、SparkのGraphXライブラリと似た一般的なグラフデータ処理をサポートする他、「幅優先探索(BFS)」や「モチーフ探索」といった新しいアルゴリズムにも対応する。 また、GraphFramesはDataFrameのデータソースを完全にサポートするので、Hadoop向けの列指向ストレージ「Parquet」形式や、JSON、CSVなど、さまざまなデータフォーマットを利用できる。 同社は公式ブログで、ソーシャルネットワークを簡単なグラフとして表現した例を用いてGraphFramesを紹介している(ユーザーが「点」、ユーザー間の関係が「辺」)。「どのユーザーが最も影響力があるか」「ユーザーAとBは知らない者同士だが、引き合わせるべきか」といった問いに対して、グラフのクエリやアルゴリズムを使って答えを出すことができるという。 この例では、ユーザー(点)は「名前」「年齢」を、ユーザー間の関係(辺)は「関係タイプ」といった属性を持つが、GraphFramesでは点と辺をDataFrameとして保存する。多くのクエリはDataFrame(またはSQL)クエリとなるため「グラフに対するクエリを簡単に表現できる」と、Databricksは説明している。 Apache Hive 2.0では「Hive-on-Spark parallel ORDER BY」が実装 Spark周辺のプロダクト開発が活性化しており、直近では、米クラウデラが開発を主導するHadoop向けSQLクエリエンジンの最新版「Apache Hive 2.0」でも、Sparkに対する並列ソート機能「Hive-on-Spark parallel ORDER BY」などが新たに実装されている。
http://headlines.yahoo.co.jp/hl?a=20160307-00000092-zdn_ait-sci
(https://www.youtube.com/watch?v=1LLAN29W-4wから)
(https://www.youtube.com/watch?v=CfihYWRWRTQから)
ごめん。出てる女性ごっつ美人なんやけど誰なんだろ。
#カシオペア 上り最後の定期運行 #仙台駅
かえりびなはもともと、還暦を迎えた女性の再出発を祝って贈るもの。11日で震災から5年になる今回は、震災不明者への祈りを込めて展示会を企画した。 仙台市宮城野区の自宅が被災し市内のみなし仮設住宅で暮らす松崎翠代表(69)は「私も気持ちが沈んだ時期があったが、会の活動で元気を取り戻した。かえりびなを見る人にも笑顔になってほしい」と語った。
http://headlines.yahoo.co.jp/hl?a=20160304-00000001-khks-soci