容易疲勞要吃什麼消除疲勞保健食品哪邊可以買得到－差點沒有第五節

AlphaGo Zero的啟示：監督學習和無監督學習的利弊

本文系網易智眼睛保養品哺乳期維他命能工作室（公眾號smartman 163）出品。聚焦AI，讀懂下一個大時代！

【網易科技訊 10月24日消息】2016年，作為世界上最好的圍棋選手之一，李世石在首爾的比賽中，以四比一的成績輸給瞭AlphaGo。無論是在圍棋歷史上，還是在人工智能（AI）的歷史上，這都是一件大事。圍棋在中國、韓國和日本的文化中具有的地位就像西方文化中的象棋一樣重要。

在擊敗李世石後，AlphaGo在網上的一系列匿名遊戲中擊敗瞭數十名知名人類選手，隨後在5月重新出現，應對來自中國烏鎮圍棋選手的柯潔。但是柯先生的表現並不比李先生的好，最終以3-0的比分輸給瞭計算機。

對於人工智能研究人員來說，圍棋同樣是被尊崇的。國際象棋在1997年出現在計算機上，Garry Kasparov與IBM的一臺名為深藍的計算機進行對抗，最後輸掉瞭比賽。但是，在李世石失敗之前，圍棋的復雜性讓其很難在機器上表現。AlphaGo的勝利十分引人，它充分展示瞭一種名為“機器學習”的人工智能力量，目標是讓計算機教會自己一些復雜的任務。

AlphaGo通過研究人類專傢棋手之間的數千場對抗，進而從這些遊戲中學習規則和策略，然後在數百萬場比賽中不斷改進，從而學會圍棋。這足以讓它比任何人類都更強大。但是AlphaGo的公司，DeepMind的研究人員相信，他們可以改進這一技術。在剛剛發表在《自然》雜志上的一篇論文中，他們公佈瞭最新版本的“AlphaGo Zero”。它在遊戲中表現得更好，學得更快，需要更少的計算硬件便可以做得好。不過，最重要的是，與原版不同的是，AlphaGo Zero在沒有向人類專傢求助的情況下，成功地自學瞭這款遊戲。

這一技術立刻吸引瞭很多關註。像很多遊戲一樣，學習圍棋雖然容易，卻很難玩好。兩名持黑子與白子選手輪流在一個由19條垂直線和19條水平線組成的棋盤交叉處放置棋子。目標是占領比對手更多的領土。被對手包圍的棋子將從棋盤上移除。玩傢繼續前進，直到雙方都不願繼續。然後，每個人都將他的棋子數目加到所環繞空網格的交叉點上。最後，數量多的將成為贏傢。

困難來自於多種可能的走法。19x19的棋盤上有361個不同的地方，黑色的一方可以最先放置棋子。隨後，白子有360種可能的走法。在棋盤上的走法總產後補給品數有10170種，這個數字實在是太大瞭，因此無法進行任何物理類比（例如，可觀測宇宙中大約有1080個原子）。

而人類專傢則致力於在更高的層面上去理解這個遊戲。圍棋規則簡單卻會湧現出大量不同情況。玩傢會談論諸如“眼睛”和“梯子”之類的棋局，以及諸如“威脅”和“生與死”之類的概念。但是，盡管人類棋手理解這些概念，但用一種超文字的方式解釋計算機程序要困難得多。相反，最初的Alpha Go研究瞭數千個人類遊戲的例子，這個過程被稱為“監督學習”。由於人類的遊戲反映瞭人類對這類概念的理解，一個接觸到棋局足夠多的計算機也能理解這些概念。一旦AlphaGo在人類教師的幫助下，熟練掌握瞭戰術和策略，便克服瞭重重障礙，開始參加到百萬場無人監督的訓練遊戲，每一場比賽都提升瞭它的技巧。

受監督的學習比圍棋更有用。這是最近人工智能領域取得進步背後的基本理念，它幫助計算機學會做一些事情，比如識別照片中的人臉，可靠地識別人類語音，有效地過濾電子郵件中的垃圾郵件。但是，正如Deepmind老板Demis Hassabis所言，監督學習是有限度的。它依賴於訓練數據的可用性，以及向計算機提供數據，從而向機器顯示它應該做什麼。這些數據必須經過人類專傢的過濾。例如，面部識別的訓練數據由成千上萬張圖片組成，有些照片上有人臉，有些則沒有，每一張照片都需要人為的標註。這使得這類數據的成本很高，前提是它們是可以獲取到的。而且，正如論文指出的那樣，這裡可能會存在一些更細微的問題。依靠人類專傢的指導，可能會限制人類對計算機能力的限制。

“AlphaGo Zero”的設計初衷是為瞭避免所有這些問題，從而完全跳過“火車車輪”階段。這個項目的開展利用遊戲規則和“獎勵功能”，即當它贏得比賽便獎勵一點，輸掉則扣除一點。然後不斷進行實驗，反復通過遊戲來對抗其他版本的自己，並受限於獎勵機制，即必須盡可能多地贏得獎勵，從而使獎勵最大化。

這個項目是從隨機放置棋子開始的，機器完全不知道自己在做什麼。但它取得瞭快速的進步。一天之後，它的棋藝便上升到瞭高級專傢級別。兩天之後，它的表現就超過瞭2016年擊敗李世石的版本。

DeepMind的研究人員能夠觀察到他們的自我革新，重新發現人類幾千年來積累起來的圍棋知識。有時候，它看起來像人類一樣詭異。經過大約三個小時，專註於“捕捉棋子”的訓練，這是大多數人類初學者也必須經歷的階段。在另一些人看來，這顯然是外星人。例如，“梯子”是一種棋子的排列模式，當一個玩傢試圖捕獲一群對手的棋子時，他會在棋盤上的對角線上放置。它們是圍棋遊戲的常見局面。因為梯子由一個簡單的重復模式組成，人類新手很快就會學會並去推斷它們，對梯子“搭建”的成功與否進行評估。但AlphaGo Zero——它無法推斷，而是半隨機地嘗試新動作——這花瞭比預期時間更長的時間來掌握這個技巧。

然而，自己學習而不是依靠人類的暗示，總的來說是一個很大的進步。例如，josek是表述棋盤邊緣附近發生的一系列動作的特殊序列。（他們的劇本自然讓他們有點像國際象棋的開場。）AlphaGo Zero發現瞭josek教給人類棋手的準則。但它也發現瞭一些完全屬於自己的方法，並最終成為瞭自己的下棋的首選。負責AlphaGo項目的David Silver表示，這臺機器似乎具有一種明顯非人類的風格。

其結果是一個不僅是超人的項目，而且是令人難以接受的。圍棋（和國際象棋，以及其他許多遊戲）都可以用一種叫做“Elo評級”的東西來量化，它根據過去的表現給出瞭一個玩傢可以打敗另一個玩傢的概率。一個球員有50:50的幾率擊敗對手，但隻有25%的幾率比對手高出200分。柯先生獲勝的支持率為3661。李先生的是3526。在經過40天的訓練後，AlphaGo Zero的得分超過瞭5,000——這一數字遠遠領先超強選手柯潔先生，同時暗指包括柯潔在內的任何一個人類選手都沒有可能打敗它。當它與AlphaGo的第一個擊敗李斯基的版本對戰時，它以100比0獲勝。

當然，比起圍棋，生活中還有很多別的事情。它的創造者希望，像那些為AlphaGo的不同迭代提供動力的算法，理論上可以應用於相似的任務的中。（DeepMind已經利用瞭AlphaGo背後的技術，幫助谷歌大幅削減其數據中心的能耗。）但是，一種無需他人指導就能學習的算法，意味著機器可以在人們不知道如何解決的問題上放手。Hassabis表示，任何可以歸結為通過大量可能性進行智能搜索的事情，都可以從AlphaGo的方法中受益。他列舉瞭一些經典的棘手問題，比如研究蛋白質如何折疊成最終的功能形狀，預測哪些分子可能作為藥物，或者準確地模擬化學反應。

眼睛保健食品ptt

人工智能的進步常常引發人們對人類退化的擔憂。DeepMind希望這類機器最終能成為生物大腦的助手，而不是取代它們，就像從搜索引擎到紙張一樣。畢竟，一臺機器發明新的解決問題的方法，能夠推動人們走上新的、高效的道路。Silver先生表示，AlphaGo的一個好處是，在一個充滿歷史和傳統的遊戲中，它鼓勵人類棋手對古老的智慧提出質疑，並進行實驗。在輸給瞭AlphaGo之後，柯潔研究瞭計算機陣法，尋找靈感。之後，他又以22連勝的成績打敗瞭人類對手，這是一個令人印象深刻的壯舉，即使對於他的對手來說也是如此。畢竟，監督學習是雙向的。

（選自：economists. 翻譯：網易見外翻譯機器人審校：秦昕）

關註網易智能公眾號（smartman163），獲取人工智能行業最新報告。

本抗疲勞保健食品文來源：網易智能

責任編輯：丁廣勝_NT1941

dxv573f1j3

差點沒有第五節

dxv573f1j3 發表在痞客邦留言(0) 人氣()

E-mail轉寄

差點沒有第五節

差點沒有第五節

容易疲勞要吃什麼消除疲勞保健食品哪邊可以買得到

歷史上的今天

留言列表

站方公告

活動快報

萌髮科...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

差點沒有第五節

差點沒有第五節

容易疲勞要吃什麼 消除疲勞保健食品哪邊可以買得到

歷史上的今天

留言列表

站方公告

活動快報

萌髮科...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

容易疲勞要吃什麼消除疲勞保健食品哪邊可以買得到