数列と漸化式①(概要と例題解説)|高校数学の例題解説&基本演習 #1

f:id:lib-arts:20190914203304p:plain

以前のシリーズで機械学習アルゴリズムであるニューラルネットワークやランダムフォレストに絡めて高校レベルの数学の様々なトピックについて取り扱いました。

関数や行列など様々なトピックを取り扱ったものの、いくつか取り扱えなかったものがあるので取り扱わなかったものを中心に再収録したいと思います。
#1では勾配降下法(Gradient Descent)との兼ね合いで取り扱いはしたものの、単体では解説を行わなかった数列と漸化式について例題の解説と簡単な問題演習を行えればと思います。
以下目次になります。
1. 数列の基本
1-1. 数列、項、一般項とは
1-2. 例題①解説
2. 漸化式と一般項
2-1. 漸化式とは
2-2. 例題②解説
3. まとめ


1. 数列の基本
1-1. 数列、項、一般項とは
1節では数列の基本について取り扱います。1-2節で例題の解説に移る前に簡単な概要を抑えます。

f:id:lib-arts:20190914203700p:plain

数列 - Wikipedia
まずは概要の把握ということでWikipediaの記述を簡単に確認します。
確認すると、数列(numerical sequence)とは、数が列になったもの(sequence of numbers)のことであるとされています。単独の数というよりはまとめて考えた際に規則性を見出すといった類の考え方になります。
ここで例として挙がっているのが『1,3,5,7, ...』や『1,2,3,4, ...』などでこれらはどちらも等差数列という考え方です。またそれぞれの数が置かれる場所のことを項(term)と呼んでおり、英語表現含めて抑えておくのが良いと思います。項には置かれる順番を表現に含めて第n項と表現することが多いです。ちなみに機械学習けいの論文ではnやNはサンプル数を表すことが多く、サンプルを数える際に第i項などと呼ぶことが多い印象です。iはプログラミングをする際もindexとして用いることからindexを指しているのではないかと思われます。高校数学ではnを用いることが多いので以下nと表記していきます。
置かれる順番について理解したので、次にそれぞれの場所における値のことを考えます。第n項の値のことを一般項(general term)と定義し、a_{n}のように定義します。一般項と聞くと難しそうに聞こえますが、関数のxに対するf(x)のようなものと考えておくと良いです。
a_{n}=2n-1
a_{n}=n
言葉だけ聞くとわかりにくいので上記に『1,3,5,7, ...』や『1,2,3,4, ...』の一般項について式として記しました。詳しくは後ほど解説するとして、一般項はnの式で表されることが多いということだけ一旦抑えておいてください。

 

1-2. 例題①解説
1-2では数列の例題について取り扱います。

ex.01
1) 以下のそれぞれの数列の一般項を求めよ
(1-A) {2, 5, 8, 11, 14, 17, ...}
(1-B) {4, 6, 8, 10, 12, ...}
(1-C) {2, 4, 8, 16, 32, ...}
(1-D) {6, 12, 24, 48, 96, ...}

2) 以下の一般項の項を列記せよ
(2-A) a_{n}=4n-2
(2-B) a_{n}=3^n

Answer.
(1-A) a_{n}=3n-1
(1-B) a_{n}=2n+2
(1-C) a_{n}=2^n
(1-D) a_{n}=3×2^n

(2-A) {2, 6, 10, 14, 18, 22, ...}
(2-B) {3, 9, 27, 81, ...}

解説.
例題とAnswerを見比べることで、一般項a_{n}と数の並びの対応について理解できるかと思います。一般項は数の並びの法則性に基づいて、第n項の値をnの式で表しています。
ここで、それぞれの法則性についてですが、(1-A)、(1-B)、(2-A)については値の増加が一定であるため等差数列(arithmetic sequence)、(1-C),
(1-D)、(2-B)は値の増加にあたって同じ数を毎回掛け合わされるので等比数列(geometric sequence)と呼んでいます。
これらの二つの数列の考え方はどちらもよく出てくるので、例題と解答を見比べながらイメージをつかんでいただけたらと思います。


2. 漸化式と一般項
2-1. 漸化式とは
2節では漸化式について取り扱います。2-1節では2-2節の例題の解説に移る前に簡単な概要を抑えます。

f:id:lib-arts:20190914213446p:plain
漸化式 - Wikipedia
まずは概要の把握ということでWikipediaの記述を簡単に確認します。
漸化式(recurrence relatin)は、各項をそれ以前の項の函数として定めるということを意味するとされています。これは再帰的に演算を定めることであり、英語表記ではrecurrenceが用いられています。
漸化式を用いた数式の定義で有名なのがフィボナッチ数列で、フィボナッチ数列は下記のような漸化式で数列を定めます。
a_{n+2}=a_{n+1}+a_{n}a_{1}=1a_{2}=1
この数を並べると、{1,1,2,3,5,8,13,21,34,...}のようになります。フィボナッチ数列は冒頭の画像でも用いていますが、漸化式を用いて定義する数列においては有名な数列です。
だいたいのイメージがつかめたので、漸化式について再度まとめると、隣接する項の関係性を記述することで数の並びの規則を記述する式であるということです。また、隣接2項間の漸化式なら第1項、隣接3項間の漸化式なら第1項と第2項の値が定義上必要になることに注意が必要です。

 

2-2. 例題②解説

ex.02 下記の漸化式で表される数列の要素を記述せよ
1) a_{n+1}=a_{n}+3a_{1}=2
2) a_{n+1}=a_{n}×3a_{1}=3

Answer.
1) {2, 6, 10, 14, 18, 22, ...}
2) {3, 9, 27, 81, ...}

解説.
1節で取り扱った(2-A)と(2-B)と同じ数列になっていることに注意してください。一般項と数の並びだけでなく、それに漸化式を加えた上でそれぞれの表現を理解するようにしておくのが良いと思います。


3. まとめ
#1では数列の基本的なトピックとして、項、一般項や漸化式について取り扱いました。
#2ではこれらのトピックの定着のために演習問題をいくつかご紹介できればと思います。

Ch.2_計画は左脳で経営は右脳で|『H.ミンツバーグ経営論』読解メモ #3

f:id:lib-arts:20190831180014p:plain

課題本として、「H.ミンツバーグ経営論」を設定したので読み進めていきます。

H.ミンツバーグ経営論 | 書籍 | ダイヤモンド社

#1、#2では第1章のマネジャーの職務(その神話と事実の隔たり)についてまとめました。
https://lib-arts.hatenablog.com/entry/mintzberg_management1
https://lib-arts.hatenablog.com/entry/mintzberg_management2
#3では第2章の「計画は左脳で経営は右脳で」についてまとめられればと思います。
以下、目次になります。
1. ナスルディンのカギ
2. 第一の質問
3. 第二の質問
4. 第三の質問
5. 右脳による経営
6. 左脳への影響
7. 感想・まとめ

 

1. ナスルディンのカギ(簡単な要約)
中近東の民話のナスルディンのカギというものがある。カギを探すにあたって見当違いのところを探してしまっていたというのがナスルディンのカギの概要ではあるが、この軽い小噺は使い古されているようで時間を超越した不思議な力を持っており、2章でまとめられている内容とも大きく関連している。
この話について考察する前に、以下の三つの質問について考える。

1) なぜある人間が非常に有能であると同時に非常に鈍重でありうるのか。言い換えるのであれば、ある種の知的活動をマスターすることには極めて優れているのに、他のことでは無能であるのか。
2) 当然知っているはずの明白な事実を読むか聞くかした時、人々が時として非常に驚くのはなぜか。
3) 組織の中において、少なくとも方針決定のレベルにおいては、経営の理論や計画と、実戦との間にどうして大きなギャップがあるのか。計画と分析の手法が、トップマネジャーの働きにあまり効果をもたらさないのはなぜか。

2章ではこれらの三つの質問に一応の答えを出しながら、章のテーマである「計画は左脳で経営は右脳で」を取り扱う。


2. 第一の質問(簡単な要約)
大多数の人の左脳には論理的思考過程が見出される。左脳の活動形式は線形(linear)であるようである。左脳では情報は連鎖的に一つ一つ順序よく処理される。最も強く線形の性質を持つのは言語である。これとは全く対照的に、右脳は同時並行的処理を特徴としている。その活動はより全体論であり相関的である。最も特徴的な機能は資格的なイメージの把握である。
このことにより、第一の質問に答えることができる。ある個人は同時に愚者と賢者になりうる。それは単純にどちらか片方の脳が他方よりもよく発達しているためによってである。
ある人たち例えば弁護士、会計士、プランナーたちの多くは、左脳の思考過程が非常によく発達している。他方で芸術家や彫刻家それからおそらく政治家などは、右脳の思考過程がよく発達している。
したがって、芸術家は自分の感じていることを言葉で表すことはできないし、反対に法律家は絵を描く素質が全くないということがある。つまり、政治家は数学を学ぶことが苦手で、経営学者は政治的活動の波の中では絶えず翻弄されることになる。


3. 第二の質問(簡単な要約)
第二の質問についても右脳と左脳を考えることによって説明することができる。知識を右脳だけが持っていたと考えると説明がつく。左脳はそれまでそのことを知らず、右脳がずっと以前から知っていたことを左脳が明示的に知ることがあると、それは天啓のように思えるのである。


4. 第三の質問(簡単な要約)
第三の質問は計画と経営のギャップの問題である。今まで経営の研究者たちは、理論的な分析という明るさの中に経営のカギを探し求めてきたが、それは間違いなのかもしれない。
計画という形式的な行為と経営という非形式な行為との違いは、人間の脳の両半球の違いに似ている。計画や経営学の手法は連鎖的であり、系統的であり、そして明快な説明がついている。一定の形式に基づいた計画策定は、左脳の活動と似た思考過程を使うものと思われ、さらにプランナーや経営学者は系統的で秩序だった世界の人間で、相関的、全体論的な方法にはあまり重きを置かないものである。
一方で、「組織の重要事項についての方針決定過程においては、右脳の活動に代表される資質の働きに依存するところが大きい」とも思われる。計画と分析についての新しい手法が次々に出現したのにも関わらず、方針決定のレベルにおいてはほとんど成功を収めなかったことの理由をこれによって説明できる。


5. 右脳による経営(簡単な要約)
経営に関する研究の結果から考えると、右脳思考の特徴が強く存在することがわかる。研究の中で何回も繰り返し出てくる事実として、経営という行為の重要な部分が計り知れぬほど複雑であり、奇怪だということである。
以下10項目にわたっての調査の結果をまとめる。

1) 観察した5人のCEOは、コミュニケーションの手段として書類の読み書きよりも、会議などの口頭の手段に依存することを強く望んだ。
2) マネジャーが受け入れる情報の多くはソフト(不確定)で、推測の入ったものである。一方で非常に分析的な情報、すなわち記録、報告書など全般的にハード(確定的)なデータは、多くのマネジャーにとってあまり重要ではないと考えている。マネジャーは情報を分析するのではなく、むしろ総合するのだと思われる。
3) マネジャーは組織の中で最も多くの情報を持っているが、その情報をなかなか従業員に流せない。したがって、すでに仕事をたくさん抱え込んだマネジャーが新たな事態に直面した場合、マネジャーはジレンマに陥る。
4) マネジャーの情報利用法は行動に結びつけることであって、思考ではない。
5) マネジャーの10の機能のうち最も重要性の高いのは、リーダー的役割、リエゾン的役割、および障害排除者であるということができる(他の7つは看板的役割、監視者、散布者、スポークスマン、交渉者、企業家、および資源配分者である)。
6) 戦略的意思決定の方法に関しては、七段階の「通常の手順」があり、それは「認識、診断、研究、設計、審査、評価・選択、認可」の七段階である。
7) 戦略的意思決定過程は重要な動的プロセスであり、意思決定はしばしば邪魔が入って中断されたり、タイミング(時間調整)のために繰り上げられたり、遅らされたりし、その結果脇道にそれたり同じ場所に戻ることを余儀なくされる。
8) 重要な問題についてマネジャーが多くの手段の中から慎重に選ばなければならない際は、基本的には三つの方法が挙げられる。この三つの方法としては、分析、判断、及び交渉である。
9) 戦略決定は、計画理論の文献がくどくど説明しているような整然とした、連続的で系統立った仕事ではなさそうで、最も一般的なケースでは非連続な仕事であって、手当たり次第に発作的に進めるものである。
10) 仮にある組織が戦略を持たないとすると、環境に対して一定の方法で対応することができず、新しい圧力が加わるたびに単に反応するだけになってします。この時に生み出される創造的で統合された戦略は、おそらく単一の頭脳の単一の右脳の産物である。

これら10項目の調査結果の結論としては、「組織の重要事項についての決定過程では、右脳の活動に代表される資質の働きに依存することが大きい」ということを裏付けるように思われる。

 

6. 左脳への影響(簡単な要約)
分析的な人間の集団は、多くの組織の実務部門や中間層では不可欠なものとなっているが、真の問題は方針決定レベルにある。ここでは理論的分析が直感と共存する(あるいは直感をリードする)ことを要求される。多くの分析者やプランナーにとってこれは容易に受け入れがたいことである。
この際に下記の二点を考えておくと良い。

1) プランナーは特別な状況においてのみ計画を作るべきである。
2) 方針決定レベルで有効な意思決定を行うには、良い分析的情報のインプットが必要であり、それをトップに供給するのがプランナーや経営学者の仕事である。マネジャーはソフトな情報を入手するという点では非常に有能であるが、往往にして同様に重要な分析的情報を過小評価しがちである。

 

フレデリックテーラーが前世紀末に実験を始めて以来、我々の組織を進歩させたのは、直感の領域から離脱して意識的分析を強めていくという活動であった。しかしマネジャーまたはマネジャーのそばで仕事をする人間は、分析的手法で扱うものと、直感の領域に残しておくべきものを注意深く区別する必要がある。当分の間、我々は経営のための失われたカギをその直感の分野に求めなければならない。


7. 感想・まとめ
#3では第2章の「計画は左脳で経営は右脳で」について取り扱いました。興味深い論述の印象でした。
#4以降では第3章について取り扱っていきます。

XGBoostの論文を読み解く②(Introductionの把握)|論文と実装を元に掴む木構造ベースのアルゴリズムの変遷 #2

f:id:lib-arts:20190909191254p:plain

以前の記事で高校数学の内容を元に決定木(Decision Tree)やランダムフォレスト(Random Forest)についてまとめました。

微分・最小値問題の復習と増減表|高校数学の演習を通して理解する決定木・ランダムフォレスト #1 - lib-arts’s diary

ジニ係数と情報エントロピー|高校数学の演習を通して理解する決定木・ランダムフォレスト #3 - lib-arts’s diary

上記の記事はどちらかというと高校数学の理解に基づいた基本的な仕組みの解説がメインで、木構造ベース(Tree-based)のアルゴリズムの応用については詳しく触れていませんでしたので、木構造アルゴリズムの話題やその変遷について取り扱っていきます。
最初のテーマとしては近年よく聞くXGBoostについて取り扱います。

[1603.02754] XGBoost: A Scalable Tree Boosting System

#1ではAbstractの読解を通した概要の把握を行いました。
https://lib-arts.hatenablog.com/entry/tree_based_algo1
#2では引き続き同論文のIntroductionについて確認していければと思います。
以下目次になります。
1. Introductionの読解
2. まとめ


1. Introductionの読解
1節ではSection1のIntroductionについて確認していきます。

f:id:lib-arts:20190910105721p:plain

以下パラグラフ単位でリーディングを行なっていきます。

f:id:lib-arts:20190910105958p:plain

第一パラグラフでは、機械学習(Machine learning)やデータドリブン(data-driven)のアプローチが多くの分野で重要度を増しており、応用の具体例としてスパム判定、広告最適化、不正利用検知、物理学的な発見に繋がる事象の発見などが述べられています。また、次に応用にあたっての二つの重要な要素(factors)があるとしており、(1)複雑なデータの依存性を学習する効率的なモデルと、(2)大きなデータセットから学習するにあたってのスケーラブルな学習システムの二つであるとされています。ざっくりまとめるならば様々な応用に際して、精度と処理効率の双方が求められるとされています。

f:id:lib-arts:20190910111131p:plain

f:id:lib-arts:20190910111149p:plain

第二パラグラフでは、勾配ブースティング(gradient tree boosting)系のアプローチについて色々とまとまっています。[10]で示された、Greedy function approximation: a gradient boosting machine.をベースにLambdaMARTなどのモデルや、Netfilixのコンペティションにおいてデファクトチョイスとなったなどの話がまとまっています。

f:id:lib-arts:20190910112001p:plain

第三パラグラフでは、論文の主題であるXGBoostに話題が写っています。XGBoostはスケーラビリティの高い機械学習のシステムであるとされており、オープンソースで入手可能とされています。このXGBoostのインパクトについては、データマイニングコンペティションにおけるXGBoostの位置付けを元に話が進められています。コンペティションサイトのKaggleでは、2015年に行われた29のコンペティションのうち、17のソリューションにお知恵XGBoostが用いられたとされています。

f:id:lib-arts:20190910112841p:plain

第四パラグラフでは、XGBoostの汎用性について言及されています。XGBoostが幅広い分野の問題(wide range of problems)においてSotAとなったことについて触れられ、具体的な例としては、店舗の売上予測、顧客の行動予測、動作検知、広告クリック率の予測、コンピュータウィルスの検知、製品のカテゴリ化、病気のリスクの予測、オンラインコースを途中でやめる場合の予測などが挙げられています。feature engineeringの重要性が高い一方で、XGBoostがモデル選択されるコンセンサスがある事実はこの研究に重要性をもたらしているとされています。

f:id:lib-arts:20190910113829p:plain

f:id:lib-arts:20190910113845p:plain

第五パラグラフでは、XGBoostの成功の要因としてスケーラビリティ(scalability)に言及がされています。既存の他の分類器を用いた解法の10倍以上速いとされており、これは木の学習においてsparse dataを取り扱う新たなアルゴリズムのためであるとされています。また論文のメインのcontributuionsとして、下記の四点が挙げられています。

・高度にスケーラブル可能なend-to-endの木構造のブースティングシステムの設計(design)と構築(build)を行なった点。
・効率的な計算にあたって、理論的に証明されたweighted quantile sketchを提案している点。
・木の並行学習にあたって新しいsparsity-awareのアルゴリズムを導入している点。
・out-of-coreな木の学習にあたって、効率的なcache-aware block構造を提案している点。

f:id:lib-arts:20190910115024p:plain

第六パラグラフでは、先行研究との差分として、out-of-coreの計算、cache-aware、sparsity-aware、end-to-endの(学習)システムなどについて言及されています。またこれらの主要なcontributionに加えて、正則化された(regularized)な学習にあたっての目的関数における改善についても作成できたとあります。この辺は詳細を見た方がわかりやすいので、Introductionの読解においてはこれ以上立ち入らないものとします。

f:id:lib-arts:20190910115523p:plain

第七パラグラフでは、以降の章立てについて言及されています。Section2(TREE BOOSTING IN A NUTSHELL)では、tree boostingのレビューと正則化された目的関数(regularized objective)を行うとされています。Section3(SPLIT FINDING ALGORITHMS)では、分割の発見にあたっての方法(決定木の木を作成するにあたって変数を選ぶこと)について取り扱うとされています。Section4(SYSTEM DESIGN)ではシステムの設計と実験結果についてまとめたとあります。Section5(RELATED WORKS)では関連研究について、Section6(END TO END EVALUATIONS)ではend-to-endの評価、最後にSection7(CONCLUSION)では論文の結論について述べるとされています。

 

2. まとめ
#2ではIntroductionについてまとめました。Abstractの際と同様に数式などを用いた説明がないのでいまいち細かいところまではつかみきれていませんが、だいたい重要となるキーワードとマッピングについてはつかめたので現段階では十分とし、以降を進めていきたいと思います。
#3ではSection2のTREE BOOSTING IN A NUTSHELLについて取り扱っていきます。

Ch.1_マネジャーの職務(後編)|『H.ミンツバーグ経営論』読解メモ #2

f:id:lib-arts:20190831180014p:plain

課題本として、「H.ミンツバーグ経営論」を設定したので読み進めていきます。

H.ミンツバーグ経営論 | 書籍 | ダイヤモンド社

#1では第1章のマネジャーの職務(その神話と事実の隔たり)から、前半半分についてまとめました。

#2では同じく第1章の後半部分についてまとめられればと思います。
以下、目次になります。
1. 情報に関わる役割
2. 意思決定に関わる役割
3. 統合化された職務
4. より効果的なマネジメントを目指して
5. マネジャーの教育
6. 感想・まとめ

 

1. 情報に関わる役割(簡単な要約)
部下や様々なネットワークとの対人関係を保つことによって、マネジャーは自分の組織の神経中枢となる。マネジャーは全てを知っているというわけではないが、部下の誰よりもよく知っているものである。マネジャーはリーダーとして自分のスタフの誰にでもフォーマルかつ容易にアクセスできる。さらにリエゾン的な役割を通じて部下が到底近づき得ない外部情報を知るチャンスが生まれる。
マネジャーの仕事の枢要な部分は情報の処理である。研究(by Mintzberg)によると、トップマネジメントは交際時間の40%を情報伝達だけをを目的とした行動に使い、受け取った手紙の70%は純粋に情報的なものであった。
次の三つの役割がマネジャーの仕事の情報的側面をよく物語っている。

1) 監視者
-> マネジャーは「監視者」として、常に情報を求めて自分の周囲の動きを探り、リエゾン的に接触する相手や部下に質問する一方、自分で開発したネットワークの成果として求めずして情報を手に入れる。

2) 散布者
-> マネジャーは情報の散布者として、自分が保有している情報のいくつかをそうした情報にアクセスする機会のない部下たちに直接手渡す。

3) スポークスマン
-> スポークスマンとしてのマネジャーは情報の一部を組織の部外者に送り届ける。さらにどのマネジャーもスポークスマンとして、自身の担当する組織をコントロールするような影響力を有する人々に情報を流し、満足させる必要がある。

 

2. 意思決定に関わる役割(簡単な要約)
情報収拾はそれ自体が目的ではなく、意思決定におけるインプットであることに注意しなければならない。担当する組織の意思決定システムにおいて、マネジャーは重要な役割を演じている。フォーマルな権限として、マネジャーだけが新しい重要な針路へと組織の舵を切り直すことができる。また組織の神経中枢として、マネジャーだけがいま現在の情報を網羅的に掴んでおり、これによって組織の戦略を決定する一連の意思決定を下すことができる。
以下の四つの役割が意思決定者としてのマネジャー像を表している。

1) 企業家
-> マネジャーは「企業家」として、担当する組織を改善し、変化する状況に適応させようとしている、また監視者としての役割ではたえず新しいアイデアに目を配っている。優れたアイデアが現れると、自分が陣頭指揮するなり、だれかに任せるなりして
開発プロジェクトに着手する。

2) 障害排除者
-> 企業家としての役割が自発的に変革を起こすマネジャー像を表現するのに対し、「障害排除者」としての役割は、なんらかの変化にやむなく対処するマネジャー像を描き出す。

3) 資源配分者
-> 組織ユニット内の誰が何を受け取るのかを決める責任は、その組織のマネジャーに帰属するものである。また、マネジャーは組織の構造を設計する責任を負っており、構造とは仕事がどのように分割され調整されるかを決めるフォーマルな関係のパターンである。

4) 交渉者
-> マネジャーは相当の時間を交渉に費やしていると言われている。交渉はマネジャーの職務に含まれる義務であり、理由としてはマネジャーだけが組織内の資源にリアルタイムで関与できる権限を有しており、重要な交渉に必要な神経中枢的な情報を持っているからである。

 

3. 統合化された職務(簡単な要約)
マネジャーの職務は容易に分離できるものではなく、各要素は統一的な全体を形作っている。例えばリエゾン的に接触する機会を持たないマネジャーは外部情報が不足し、その結果として部下の必要とする情報を伝達することも外部情勢を適切に反映した意思決定を下すこともできなくなる。そのため、複数の人間が一つのマネジャー色を共有することは、彼らが一体となって行動しない限り不可能である。
本当の難しさは情報面における役割にあり、マネジメントに関する情報を完全に共有できなければチームのマネジメントは崩壊する。


4. より効果的なマネジメントを目指して(簡単な要約)
マネジャーの能力は、自身の仕事に対する洞察力によって大きく左右される。仕事の手際のよし悪しは、職務のプレッシャーとジレンマをいかによく理解し、対応できるかにかかっている。したがって、自分の仕事に関して内省できるマネジャーはその職務をうまくこなすことができる。
マネジャーの仕事を停滞させている三つの原因となっている、権限委譲のジレンマ、一人の頭脳に集中したデータベース、マネジメント・サイエンティストとの協力関係は、マネジメント情報のほとんどが口頭でのコミュニケーションから得られるためであり、それゆえに起こる。また組織に関わるデータバンクをマネジャーの頭の中に集中するのは極めて危険であり、マネジャーが辞めてしまうと記憶も持ち去ってしまうことになるからである。
以下マネジャーに対する三つの要求についてまとめる。

1) マネジャーは自分が所有する情報を分かち合う、系統立ったシステムを確立するよう求められている。
2) マネジャーは表面的な仕事に追いやろうとする慌ただしさを意識的に克服するために、真に関心を払うべき問題に真剣に取り組み、断片的で具体的な情報ではなく幅広い状況を視野に収め、さらにまた分析的なインプットを活用するように求められる。
3) マネジャーは義務を利点に変え、やりたいことを義務に変える事によって、自分の時間を自由にコントロールできるように求められている。

 

5. マネジャーの教育(簡単な要約)
現在のビジネススクールは、組織に関するスペシャリスト、例えばマネジメントサイエンティスト、マーケティングリサーチャー、会計士、組織開発の専門家などを訓練する優れた業績を残している。しかし、真のマネジャーの訓練に取り組んでいるところはほとんどない。マネジメントスキルの訓練が知識学習に肩を並べるほど重要な位置を占めるようになれば、ビジネススクールはマネジャーを真剣に訓練し始めると思われる。
マネジャーは実務を通じて学び続けるように、自分の仕事について常に内省的でなければならない。
マネジャーの職務ほど企業にとって重みを持つものはない。社会が我々に仕えてくれるのかあるいは我々の能力や資源を浪費するのかを決めるのはマネジャーである。


6. 感想・まとめ
#2では第1章の後半部分の情報に関わる役割、意思決定に関わる役割、統合化された職務、より効果的なマネジメントを目指して、マネジャーの教育について取り扱いました。意思決定に関わる役割のところが非常に興味深い内容でした。
#3以降では、第2章について進めていきます。

XGBoostの論文を読み解く①(Abstractの確認と概要の把握)|論文と実装を元に掴む木構造ベースのアルゴリズムの変遷 #1

f:id:lib-arts:20190909191254p:plain

以前の記事で高校数学の内容を元に決定木(Decision Tree)やランダムフォレスト(Random Forest)についてまとめました。

微分・最小値問題の復習と増減表|高校数学の演習を通して理解する決定木・ランダムフォレスト #1 - lib-arts’s diary

ジニ係数と情報エントロピー|高校数学の演習を通して理解する決定木・ランダムフォレスト #3 - lib-arts’s diary

上記の記事はどちらかというと高校数学の理解に基づいた基本的な仕組みの解説がメインで、木構造ベース(Tree-based)のアルゴリズムについては詳しく触れていませんでした。
木構造ベースのアルゴリズムでXGBoostなどをここ何年かよく聞きますが、そういった新しい話題などについても触れられればということで、新しいシリーズをスタートさせ、木構造アルゴリズムの話題やその変遷について取り扱っていければと思います。
進め方としては、XGBoostについてがやはりよく聞くので、まずはXGBoostの論文について確認した後、実装や他のトピックなどについて確認していければと思います。

[1603.02754] XGBoost: A Scalable Tree Boosting System

#1ではAbstractの読解を通した概要の把握を行えればと思います。
以下目次になります。
1. Abstractの読解
2. まとめ


1. Abstractの読解
1節ではAbstractの読解を行なっていきます。一文ずつ和訳と簡単な補足解説を行なっていければと思います。

f:id:lib-arts:20190909193032p:plain

Tree boosting is a highly effective and widely used machine learning method.

和訳:『木(決定木)のブースティングは非常に効率的で広範に用いられている機械学習の手法である。』
第1文は決定木のブースティングについて言及されています。機械学習の文脈で木と言ったら決定木を指すことが多いので和訳でもそちらを反映させています。また、ブースティングについては以下のWikipediaの記述がわかりやすいので引用しておきます。

f:id:lib-arts:20190909193751p:plain

ブースティング - Wikipedia

上記によるとブースティング(Boosting)は教師あり学習におけるメタアルゴリズムの一種で、「一連の弱い学習器をまとめて強い学習器を生成する」というのが概要になります(画像の学習器は誤記のようだったので訂正しています)。ランダムフォレスト(Random Forest)などがこの具体的な例であり、詳しい考察は以前の記事の#2で行っています。

二項定理と多数決|高校数学の演習を通して理解する決定木・ランダムフォレスト #2 - lib-arts’s diary

In this paper, we describe a scalable end-to-end tree boosting system called XGBoost, which is used widely by data scientists to achieve state-of-the-art results on many machine learning challenges.

和訳:『この論文においては、我々はXGBoostと名付けた拡張性のあるend-to-endの決定木のブースティングを紹介している。このXGBoostは多くの機械学習コンペティションにおいてデータサイエンティストがSotAの結果を出すにあたって広く用いられている。』
カンマ区切りの関係代名詞の後が長かったため、セオリー通り二文に分けた和訳を行っています。決定木ベースのブースティングの手法を開発し、XGBoostと読んだとあります。また、多くのコンペティションにおいて用いられていることについても言及がなされています。

We propose a novel sparsity-aware algorithm for sparse data and weighted quantile sketch for approximate tree learning.

和訳:『我々は疎なデータのための新しいsparsity-awareなアルゴリズムと木の学習の近似のための重み付けquantile sketchについて提案する。』
sparsity-aware algorithmやweighted quantile sketchがいまいち意味が取れなかっったのですが、こちらについては論文の肝となりそうなので、詳細の読解とともに掴むと良さそうです。

More importantly, we provide insights on cache access patterns, data compression and sharding to build a scalable tree boosting system.

和訳:『さらに重要なこととして、我々は拡張可能なブースティングシステムを構築するにあたってキャッシュアクセスのパターン、データ圧縮、シャーディングの洞察も提供している。』
こちらに関しては規模的に拡張可能(scalable)にするために、処理に関して効率化を行っていることについて言及されています。詳細の記述は論文内にあると思うので、詳しく知るにはそちらを見るのが良さそうです。

By combining these insights, XGBoost scales beyond billions of examples using far fewer resources than existing systems.

和訳:『ここまでに挙げた洞察を合わせることで、XGBoostの処理は既存のシステムよりもずっと少ない計算リソースを用いて何十億ものサンプル以上にスケールさせることができる。』
scaleが直訳だと少々わかりづらくなったので、若干意訳を行いました。Abstractで述べた様々な工夫を元に、計算リソースの効率化を行い、処理のスケールが可能になることについて述べられています。


2. まとめ
#1ではXGBoostの論文のAbstractを元に簡単な概要の把握を行いました。とりあえず、木構造がベースになっていること、多くのコンペティションにおいて用いられていること、処理の効率が高くスケーラビリティに優れることというのが読み取れた形になったかと思います。
#2ではIntroduction以下について確認していければと思います。

Ch.1_マネジャーの職務(前編)|『H.ミンツバーグ経営論』読解メモ #1

f:id:lib-arts:20190831180014p:plain

課題本として、「H.ミンツバーグ経営論」を設定したので読み進めていきます。

H.ミンツバーグ経営論 | 書籍 | ダイヤモンド社

#1では第1章のマネジャーの職務(その神話と事実の隔たり)から、前半半分についてまとめられればと思います。
以下、目次になります。
1. マネジメントを縛ってきた四つの言葉
2. マネジメント業務についての神話と現実
3. マネジャーの仕事の基本とは何か
4. 対人関係における役割
5. 感想・まとめ

 

1. マネジメントを縛ってきた四つの言葉(簡単な要約)
マネジャーにあなたは何をしているかと尋ねれば、ほとんどが「計画し、組織し、調整し、統制する」と答えると思われる。とは言え、実際に現実に彼らがしていることを考えたときに、実際の行動とこの四つの項目を結びつけられなかったとしても、それは決して驚くべきことではない。
経営学はこれまで、進歩と変化に向けて邁進しすぎたがゆえに、半世紀以上の間、マネジャーは何をしているのかといった、まさに根本的な問いかけをしてこなかった。
本書の意図は簡単であり、読者をファヨールの四つの単語から引き離し、もっと根拠のある、そしてもっと役に立つマネジャーの仕事の説明に案内することである。この説明の基となったのは、多種多様なマネジャーたちがどのように自分の時間を使うかについての研究を検討し、まとめたものである。
こうして発見された事実を総合すると興味深い話が出てくるが、これはファヨールの古典的見解とはかけ離れている。ある意味では、この違いはデスクの前であろうと後ろであろうと、マネジャーのオフィスで位置にち過ごした経験のある者の目には明らかなことであるが、同時にこの事実はマネジャーの仕事について我々が受け入れてきた話の大半を疑問に付すことになる。

 

2. マネジメント業務についての神話と現実(簡単な要約)
マネジャーの仕事についての四つの神話は事実を注意深く調べていくと根拠が存在しないことがわかる。それぞれの神話と現実に関して下記にまとめる。

神話1: マネジャーは内省的で論理的な思考をする、システマティックなプランナーである。
現実1: どの研究をとってみても、マネジャーはたゆみないペースで仕事をし、その行動は簡略、多様、不連続を特徴としており、さらに行動に出ようとする強い志向を持っていて、内省的な活動を好まない。

神話2: 有能なマネジャーは、遂行すべき決まった職分を持たない。
現実2: 例外的な事項を処理するほかに、マネジャーの仕事には儀式や式典、交渉、それに組織を周りの環境に結びつけるソフトな情報の処理など、数多くの決まった職分の遂行が含まれている。

神話3: シニア・マネジャーが求める者は集計的な情報であり、それを提供するのに最適な手段は公式のMISである。
現実3: マネジャーは口頭のメディア、すなわち電話と会議を重視している。

神話4: マネジメントは科学であり、専門的職業である。現在はそう出ないとしても、少なくとも急速にそうなりつつある。
現実4: マネジャーのプログラム(時間の配分や情報の処理、意思決定など)は、マネジャーの頭脳の奥深くにしまい込まれている。 


3. マネジャーの仕事の基本とは何か(簡単な要約)
マネジャーは「組織、あるいはそのサブユニットの責任者である」という定義は、CEOのみならず、バイス・プレジデント、宗教の指導者、職長、ホッケーの監督、総理大臣にも当てはまる。このような人々はみな共通するものを持っており、それはある組織単位に対するフォーマルな権限である。その権限から様々な対人関係が生まれ、この対人関係によって情報にアクセスすることが可能になる。逆に情報によってマネジャーは自分の組織のために意志決定し、戦略を策定することが可能になる。

 

4. 対人関係における役割(簡単な要約)
マネジャーの役割のうち三つはフォーマルな権限から直接的に派生し、基本的な対人関係を構築する。下記に三つの役割をまとめる。

1) 看板的役割
-> ある組織単位の長としての地位にあるため、どのマネジャーも各種の儀式にまつわる義務を果たさなければならない。対人関係の役割に関わる仕事はルーチンであることもあり、その場合、重大なコミュニケーションや重要な意思決定は必要ない。にも関わらず、これらは組織が円滑に機能するためには不可欠であり、マネジャーが無視してはならないものである。

2) リーダー的役割
-> マネジャーは組織に属する人々の仕事に対して責任を負う。この点に関連したマネジャーの行動が「リーダー」的役割を構成する。

3) リエゾン的役割
-> リエゾン的な役割においては、マネジャーは垂直的命令系統の外側で接触を持とうとする。マネジャーの仕事に関する研究のどれを取っても、マネジャーはその部下との接触に使うのと同時に自分の担当組織が胃にいる同僚、その他の人々との接触に時間を咲いている。 


5. 感想・まとめ
#1では第1章のマネジャーの仕事からマネジメントを縛ってきた四つの言葉、マネジメント業務についての神話と現実、マネジャーの仕事の基本とは何か、対人関係における役割について取り扱いました。マネジメントがテーマであるので、ドラッカーのマネジメントの内容を思い出しながら読み進めていくと良さそうでした。
#2では第1章の後半ということで、情報に関わる役割以降について取り扱います。

RoBERTa(論文の詳細④ RoBERTa、Related Work、Conclusion)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #17

f:id:lib-arts:20190818234338p:plain

言語処理へのDeepLearningの導入をご紹介するにあたって、#3〜#8においては、Transformer[2017]やBERT[2018]について、#9~#10ではXLNet[2019]について、#11~#12ではTransformer-XL[2019]について取り扱ってきました。

#13以降では2019年7月にリリースされたBERTベースでハイパーパラメータ(学習にあたってのlossやデータセット)のチューニングを行なった事前学習モデルであるRoBERTa[2019]について取り扱っていきます。

[1907.11692] RoBERTa: A Robustly Optimized BERT Pretraining Approach

#13では上記のAbstractをベースにRoBERTa[2019]の概要について、#14ではRoBERTa[2019]の論文のIntroductionとBackgroundについて、#15ではRoBERTa[2019]の論文のSection3のExperimental Setupについて、#16ではSection4のTraining Procedure Analysisについて確認しました。

RoBERTa(論文のAbstractの確認)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #13 - lib-arts’s diary

RoBERTa(論文の詳細① Introduction&Background)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #14 - lib-arts’s diary

RoBERTa(論文の詳細② Experimental Setup)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #15 - lib-arts’s diary

RoBERTa(論文の詳細③ Training Procedure Analysis)|言語処理へのDeepLearningの導入の研究トレンドを俯瞰する #16 - lib-arts’s diary

#17ではRoBERTa[2019]の論文のSection5〜Section7のRoBERTa、Related Work、Conclusionについて確認していきます。
以下目次になります。

1. RoBERTa(Section5 冒頭)
1-1. GLUE Results(Section5.1)
1-2. SQuAD Results(Section5.2)
1-3. RACE Results(Section5.3)
2. Related Work(Section6)
3. Conclusion(Section7)
4. まとめ

 

1. RoBERTa(Section5 冒頭)
まずはSection5の冒頭部について確認していきます。

f:id:lib-arts:20190908121041p:plain

上記の第一パラグラフですが、Section5の主題を掴むにあたって簡単に和訳を行います。

これまでのSectionでは、end-task(finetuningを通して解くタスクで、pretrainingのタスクであるMasked Language ModelやNext Sentence Predictionと対になっていると把握しておくと良いです)の精度を改善するBERTの事前学習手順の修正について述べた。5章ではこれらの改善を集約し、組み合わせによる衝撃(impact)を評価する。この設定(configuration)を我々はRoBERTaと名付け、RoBERTaは頑健に最適化されたBERTのアプローチ(Robustly optimized BERT approach)を意味している。具体的には、RoBERTaはSection4.1で述べた動的なマスキング(dynamic masking)、Section4.2で述べたNext Sentence Predictionなしの誤差関数(without NSP loss)、Section4.3で述べたミニバッチの巨大化、Section4.4で述べたより大きなbyte-levelを用いたByte-Pair Encodingを用いて学習が行われている。

第一パラグラフでは、Section4のTraining Procedure Analysisの内容を改めて振り返っています。Section5のRoBERTaはSection4を踏まえた上で、内容を集約し、評価を行なっているとあります。このようにアイデアについて述べたのちにそれを集約したモデルの話をする論文の構成は良くあり、たとえば物体検出のRetinaNet[2017]もそのような構成でSection3でアイデアとして導入するFocal Lossの話をした後にSection4で実際に実装したネットワークであるRetinaNet Detectorの話をしています。
Section5の全体として、Section4の内容を元に実際のモデルへの集約とその評価を行うというのがわかったので、以下Section5の冒頭部をパラグラフ単位で読み進めていきます。

f:id:lib-arts:20190908123135p:plain

上記の第二パラグラフでは、第一パラグラフで述べた4つに加えて二つの重要な要素について言及しています。一つ目は事前学習に用いるデータ、二つ目は学習データを何回通すかの数です。これらは先行研究において強調が不十分だった(under-enphasized; to fail to emphasize adequately)とされています。学習データを何回通すか(training passes through the data)については最近提案されたXLNetはoriginalのBERTに比較して10倍のデータを通したなども言及されています。

f:id:lib-arts:20190908123942p:plain

f:id:lib-arts:20190908124000p:plain

第三パラグラフでは、第二パラグラフまでに述べた要素の重要性の検討を他のモデル構築にあたっての選択から分離する(disentangle)ためにRoBERTaをBERT_{LARGE}の構造にしたがって構築したとされています。BERT_{LARGE}の構造(architecture)は、隠れ層が24層、隠れ層のサイズが1024、Attention Headsが16で、全体で3億5,500万のパラメータであるとされています(L = 24, H = 1024, A = 16, 355M parameters)。BERT_{BASE}が1億1,000万のため、パラメータ数だけ見てもおよそ3倍になっていることがわかります。事前学習(pretrain)にあたっては[1810.04805] BERT: Pre-training of Deep Bidirectional Transformers for Language Understandingに習い、BookCorpus plus Wikipediaデータセットを用いて、10万ステップの学習を行なったとされています。

f:id:lib-arts:20190908125339p:plain

第四パラグラフでは、Resultsということで上記のTable4について言及されています。RoBERTa、BERT_{LARGE}XLNet_{LARGE}などについてそれぞれ比較が行われていますが、強調されているRoBERTaのpretrain even longerの評価指標が他のものに比べて良い結果となっていることが確認できます。

f:id:lib-arts:20190908130003p:plain

第五パラグラフでは、Section3.2やTable4で言及されているデータ量についての記載がされています。元々の16GBから160GBに変更することで、向上が見られたとされています。

f:id:lib-arts:20190908130201p:plain

第六パラグラフでは、学習ステップの増加に関して言及されています。最終文では一番学習ステップを増やしたモデルも過学習の状態にはまだ至っていないようだと述べられているので、さらに増やすかどうかの検討はまだ可能な段階のようです(とはいえ計算量の問題もあるので、どこまで行うかはコストとのトレードオフでもありそうです)。

f:id:lib-arts:20190908130750p:plain

f:id:lib-arts:20190908130844p:plain

第七パラグラフでは、Section5のこの後の展開について書かれています。Section5では三つの異なるベンチマークにおいてRoBERTaを評価するとされています。三つのベンチマークとしては、GLUE(The General Language Understanding Evaluation)、SQuaD(The Stanford Question Answering Dataset)、RACE(The ReAding Comprehension from Examinations)が紹介されています。また具体的な学習としてはSection3.2で紹介された5つのデータセットに対して50万ステップで学習しているとされています。


1-1. GLUE Results(Section5.1)
Section5.1はGLUE(The General Language Understanding Evaluation)ベンチマークを用いた評価についてまとめられています。以下パラグラフ単位で読み進めていきます。

f:id:lib-arts:20190908132135p:plain

第一パラグラフでは、finetuningにあたっての設定について言及されています。ハイパーパラメータを検討するにあたって、バッチサイズ(16,32)、学習率(10^{-5},2×10^{-5},2×10^{-5})などについて記述されています。その他多くのハイパーパラメータは事前学習(pretrain)時のままにしたとされています。

f:id:lib-arts:20190908132951p:plain

第二パラグラフでは、GLUEのleaderboard(GLUEベンチマークの評価が順位付けされたもの)において、RoBERTaを他のアプローチを比較したとされています。GLUEのleaderboardに対しての多くの提出(submission)はマルチタスク(multi-task)のfinetuningに依存しているのに対して、RoBERTaはsingle-taskのfinetuningのみを用いているとされています。

f:id:lib-arts:20190908133550p:plain

次にTask-specific modificationsを見ていきます。GLUEタスクの二つはleaderboardに対抗できるようにするためにタスク特化のfinetuningのアプローチを必要としたとされています。QNLIとWNLIについて言及されています。
最後にResultsについて見ていきます。

f:id:lib-arts:20190908152107p:plain

f:id:lib-arts:20190908151957p:plain

一つ目のパラグラフでは、Table5に示したように9つのGLUEタスクでState of the Artの結果となったことについて言及されています。さらに強調されている点としては、RoBERTaがBERTと同様のMasked Language Modelingの事前学習の目的関数(objective)を用いており、BERT_{LARGE}と同様のネットワーク構造(architecture)を用いたとされています。一方でRoBERTaはBERT_{LARGE}XLNet_{LARGE}を上回る成果を出したとされています。このことによりモデルのarchitectureや事前学習の目的関数を当研究において検証したデータセットのサイズや学習時間と比較した際の相対的重要性については考察の必要性を生じさせている(raises questions)とあります。

f:id:lib-arts:20190908152934p:plain

二つ目のパラグラフでは、RoBERTaがGLUEのleaderboardにおいて9つのうちの4つでSOTAとなり、さらに平均スコアでは最も高いスコアとなったことについて言及がされています。


1-2. SQuAD Results(Section5.2)
Section5.2はSQuAD(The Stanford Question Answering Dataset)ベンチマークを用いた評価についてまとめられています。以下パラグラフ単位で読み進めていきます。

f:id:lib-arts:20190908153707p:plain

f:id:lib-arts:20190908153730p:plain

第一パラグラフでは、SQuADに対するアプローチとしてBERTやXLNetよりもシンプルなアプローチを用いたとされています。BERTやXLNetは学習データにSQuAD以外にも追加でQAのデータセットを用いた一方で、RoBERTaにおいてはSQuADのデータのみを用いたとされています。

f:id:lib-arts:20190908171349p:plain

第二パラグラフでは、SQuADのv1.1とSQuADのv2.0それぞれについての学習アプローチについて記載されています。v1.1は[1810.04805] BERT: Pre-training of Deep Bidirectional Transformers for Language Understandingと同様の手順を用いているとされています。v2.0に対しては与えられた質問が回答可能かどうかの分類を追加で行っているとされています。

以下ではResultsについて見ていきます。

f:id:lib-arts:20190908173215p:plain

f:id:lib-arts:20190908173303p:plain

一つ目のパラグラフでは、結果をTable6でまとめたとされています。Table1ではSQuADのv1.1とv2.0に対しそれぞれベンチマークについてまとめられています。

f:id:lib-arts:20190908173839p:plain
二つ目のパラグラフでは、SQuADのpublicなleaderboardに提出(submit)し、他の手法との相対的な性能の評価を行ったとあります。BERTやXLNetに基づいて作られたほとんどの高い評価を得ているシステムは、finetuningにあたって追加の外部データに頼っている一方で、RoBERTaはfinetuningにあたっては外部データに頼っていないとされています。
三つ目のパラグラフでも同様な意図の記述のようでしたので省略します。


1-3. RACE Results(Section5.3)
Section5.3はRACE(The ReAding Comprehension from Examinations)ベンチマークを用いた評価についてまとめられています。以下パラグラフ単位で読み進めていきます。

f:id:lib-arts:20190908174528p:plain

第一パラグラフでは、RACEのデータセットの問題定義について言及されています。RACEのネーミングがReAding Comprehensionから取られているように、分類システムは文章の読解問題において四つの回答候補からどれが正しいかを分類すること(四択問題を解くこと)を求められるとされています。

f:id:lib-arts:20190908175145p:plain

f:id:lib-arts:20190908175204p:plain

第二パラグラフでは、RACEタスクに対してRoBERTaの修正を行ったとされています。それぞれの回答候補を同じ(corresponding)問題の質問と文章をくっつけるとされています。詳しい処理については文だけでは読み取りづらいので、詳細については実装などを確認する方が早そうです。

f:id:lib-arts:20190908175901p:plain

f:id:lib-arts:20190908175914p:plain

第三パラグラフにおいては、Table7にまとめた検証結果について言及されています。RoBERTaはmiddle-schoolとhigh-schoolの双方においてSotAの結果を獲得したとなっています。Section3でRACEが中国の学校の英語の試験(examinations)より集めたとあったので、それぞれ中学校と高校を指していると思われます。

Education in China - Wikipedia

上記のWikipediaにjunior middle schoolは12~15歳とあるので、概ね中学と高校という認識で良さそうです。

ここまででSection5については一通り取り扱えたので1節はここまでとします。


2. Related Work(Section6)
2節ではSection6のRelated Workについて取り扱います。そこまで長くないので、簡単な和訳とそれぞれ簡単な補足についてまとめます。

Pretraining methods have been designed with different training objectives, including language modeling (Dai and Le, 2015; Peters et al., 2018; Howard and Ruder, 2018), machine translation (McCann et al., 2017), and masked language modeling (Devlin et al., 2019; Lample and Conneau, 2019).

和訳:『事前学習の手法は異なった学習の目的関数によってデザインされてきており、言語モデリング(language modeling)や機械翻訳(machine translation)、マスク化された言語モデリング(masked language modeling)を含んでいる。』
第1文では様々な言語処理のタスク(different training objectivesとありますが、タスクと解釈できなくもないのでタスクと書いています)について言及されています。ちなみにmasked language modelingの参照論文である"Devlin et al., 2019"がBERTのオリジナル論文である、"BERT: Pre-training of deep bidirectional transformers for language understanding."を指していることに注意です。

Many recent papers have used a basic recipe of finetuning models for each end task (Howard and Ruder, 2018; Radford et al., 2018), and pretraining with some variant of a masked language model objective.

和訳:『多くの直近の論文はそれぞれの応用タスク(end task)のためのfinetuningモデルとマスク化された言語モデルの目的関数を変更した事前学習の基本的な方法を用いてきている。』
第2文では、言語のモデリングにあたって事前学習(pretraining)とfinetuningによる応用タスク(end task)の学習について述べられています。

However, newer methods have improved performance by multi-task finetuning (Dong et al., 2019), incorporating entity embeddings(Sun et al., 2019), span prediction(Joshi et al., 2019), and multiple variants of autoregressive pretraining (Song et al., 2019; Chan et al., 2019; Yang et al., 2019).

和訳:『しかしながら、マルチタスクのfinetuningによって性能が向上した手法はなく、entity embeddingsやspan prediction、autoregressive pretrainingなども同様である。』
incorporatingがいまいち意味が取れませんでしたが、この最後のautoregressive pretrainingの"Yang et al., 2019"はXLNetの論文である"XLNet: Generalized Autoregressive Pretraining for Language Understanding"を指しているのに注意です。

Performance is also typically improved by training bigger models on more data (Devlin et al., 2019; Baevski et al., 2019; Yang et al., 2019; Radford et al., 2019).

和訳:『性能は大きなモデルや多くのデータを用いることによって向上した。』
BERTやXLNetの論文を参照した上で上記を述べているので、BERT_{BASE}BERT_{LARGE}の違いやXLNet_{BASE}XLNet_{LARGE}について示唆されていると考えることができます。

Our goal was to replicate, simplify, and better tune the training of BERT, as a reference point for better understanding the relative performance of all of these methods.

和訳:『我々の目的は、BERTの学習を再現、単純化しより良くすることである。』
後半部分はいまいち意味が取れなかったので訳しませんでした。最後にRoBERTaの論文の目的に触れてRelated Workについては締められています。


3. Conclusion(Section7)
2節ではSection7のConclusionについて取り扱います。パラグラフ単位で確認していきます。

f:id:lib-arts:20190908192148p:plain

第一パラグラフでは、論文の流れについて再度まとめています。BERTモデルに関して様々なデザインの選択を試し、モデルの大きさやバッチサイズを大きくすることでパフォーマンスが向上したとされています。また、NSPを削除したり、動的マスクを用いたりについて言及されています。事前学習の手順を改善させたものをRoBERTaと呼び、SotAの結果をGLUE、RACE、 SQuADの三つのデータセットで出したとあります。

f:id:lib-arts:20190908192739p:plain
第二パラグラフでは、新規で追加したデータセットやリリースしたモデルに関して言及されています。また、コードについては下記で確認できるとされています。

GitHub - pytorch/fairseq: Facebook AI Research Sequence-to-Sequence Toolkit written in Python.


4. まとめ
#17ではRoBERTa[2019]の論文のSection5〜Section7のRoBERTa、Related Work、Conclusionについて取り扱いました。
ここまででRoBERTaについては一通り取り扱うことができましたので、RoBERTaについてはこれで一区切りとできればと思います。