好 大家早上好 今天 很荣幸能够 回来台湾 对各位学员 做这个LM的简报 那么我想从 这个整个 昨天晚上听了 大家的自我介绍以后我觉得说 我回去还是改了一下头一篇为什么呢因为我觉得这个东西要讲到浅而易懂 这个比较重要因为 里面也有一些学员好像是 我记得好像是右边这边好像有一個 上个礼拜才去了我们的AI forum的 是吧 上个礼拜才去了我们的Google的AI forum的一个 我刚刚也是用类似的通译片所以对不起这位学员你要再听一次 不过呢这个部分呢我在想的方法就是 来解释给你听从过去跟现在然后呢怎么样子去make a prediction about the future 我们怎么样去展望未来怎么样子去能够 预测这个未来 所以是分成 三段 前面第一段就是讲一些 为什么这些事情会在这个时候发生 然后我第二段就是告诉你有关于 现在所发生的一些现象然后再过来就是看看我们往前走会碰上什么样的事情从我的观点来看 往前会 发生什么样的事情 好那 就是从浅谈的 部位开始 这个 科技的发展我觉得这个速度非常快我昨天也讲过 我是 在台湾土生土长的 学生然后后来 因为妈妈去念博士 然后我就 从小留学生的身份 当年还要有 兵役的问题 所以我就 逃出去从台湾逃出去 不想服供 想要继续 在国外发展 那么我 我后来 在念研究所的时候, 就到了昨天讲到的Zerox PARC, 这个是在美国非常著名的一个 研究中心。 昨天也说过, 最重要的是 当时1970年代、 80年代, 最重要的事情是什么? 个人电脑。 当然 用中国大陆的术语, 他们叫计算机, 个人的计算机。 那左边这一台 就是1973年 发展出来的这个 个人计算机你要想想看这是 50年前的事情 对你们来说肯定都是很多都是觉得这是非常的遥远 但是在那个时代 看到这个东西简直就是 瞠目结舌的事情为什么呢 因为当时 基本上全世界 顶多可能就是 应该不超过100台电脑 这就是大家都觉得 覺得說這個以後呢大家只有大企業才會擁有這個電腦 你也可以這樣想現在我們常常在台灣 很夯的一件事情是什麼 這個Jensen Huang 從NVIDIA回來就覺得說喔大家都需要什麼計算能力很高然後呢這個國家計算中心什麼什麼之類的50年以後你可以想像說你的口袋裡面就有那樣子的計算能力嗎 是有可能的事情對吧 因為我們50年前就覺得說個人計算其實 多么 神奇的事情 那么 在过了 二十年左右以后大概 二十五年以后 右边的这个是我 看得出来对吧 这个当然样子现在很不一样我年轻的时候的样子是这个样子这个大概是应该是我如果没猜错的话应该是 一九九九年的时候 照的照片 那么你们注意到什么东西呢 一九九九年那个时候大概是25年 25年前的时候 我的桌子上已经有差不多 有六个 LCD的screen你们现在去那个什么MOMO购物网上面去 找这种LCD screen大概一个多少钱啊 两三千 六千块钱顶多 是不是六千块钱 当时 买一个这样子的LCD screenNEC做的 就要两千块钱美金六个的话就一万二 一万二美金 一万二美金的话就是 三十多万 快四十万了 所以我桌子上就排了一排 三四十万的LCD screen 然后你有没有看到我的keyboard特别的不一样 为什么呢1999年我们的当时的想法做研究特别是在 电脑研究的时候 最想要做的 push to the extreme 做到極端 所以為什麼現在LM的development也是在做一種極端的動作就是說 我們能夠做到最極端的時候能夠得到什麼這個是研究 研究的精神等一下这个 廖鸿元这个Mark也会聊 这个有关于怎么样做研究的问题对不对其中一个方法 就是把所有的事情push到最极端然后看会发生什么样的事情 那所以我在1996年 25年前的时候 就已经在 Poloto Research CenterZerox Park 做这样子的 研究 以前有绝对说有个人计算机 个人电脑那现在 我们把 一个最强大的电脑放在你面前让你使用 你会有什么样不同的想法 那所以LM事实上也是在做 类似这样子的事情为什么要讲这件事情呢因为 这很多事情都是在90年代的时候 電競的基礎 那麼90年代第一件最重要的事情是什麼1991年這個網際網路的開始 World Wide Web 在World Wide Web開始之前 事實上呢 大家所使用的搜尋引擎是長這個樣子 這個大概在座的除了可能我猜想除了 廖老师之外可能全部都忘光了这件事情 当时的这个搜寻引擎叫做Archie 那它Archie事实上我猜想也就是Archive的意思 那Archie呢 是你 输入一个字在这个地方 比如說search terms 輸入一個字Cermet 然後你去喝杯咖啡 喝個 五六分鐘回來希望你找到你要的file 而且不是展示給你只是給你那個file 你還要download可能還要 因為它是壓縮過的然後你可能要unarchive然後才能夠得到裡面的資訊 而且甚至於你可能需要選擇你想要去的 不是web server是FTP server 去找你想要的 檔案所以 所以1991年发明的这个World Wide Web也是Tim Berners -Lee所发明的World Wide Web 你可以想象当时对所有人来说是多么大的一个突破 就是说文字 跟图像 并茂的一个环境1991年 现在隔现在刚才那个 是孙老师是吧考大家是1991年到现在是多少年 33年是吧已經33年了 我們把這個數字記住33年我們減一個1 32把這個數字記住32為什麼32很重要我們等一下 慢慢來細說1991年加8是多少 1999年, 1999年發生了事情 Google 搜尋引擎, 你想想看 在八年前, 你要搜尋資料你得喝杯咖啡 喔,那時候不曉得喝了多少杯咖啡 常常需要資料我們以前是 整天跑圖書館的你知道嗎 就從1991年開始 慢慢的不跑圖書館 以前我是 跑圖書館的時候1991年92年93年 可能都還要跑 一直跑到大概九四九五年開始才慢慢的不跑了 跑圖書館是幹嘛去看文獻我們那時候連那個 就是那個 學術的週刊 放在哪一層 哪一個 夾層裡面我們都清清楚楚 現在沒有了 現在沒有人跑圖書館 找那些資料去 跑圖書館是為了泡妞 現在都不跑圖書館 那 那當然Google就是首當其衝最重要的一件事情就是收錢引擎1995年當時 是多麼大的一個革命性的發展你可以想想看你們現在 早上起來 用Google的時候 如果你連不到Google的話你會覺得是Google down了 還是你的手機壞了?
還是你的Wi -Fi壞了? Google是不會Down的對不對? 你覺得這是多神奇的事情 它像水電一樣 水可以停電可以停 但Google不會停 只是你連不到, 那是你的問題, 不是Google沒在那, 對不對? 所以 Google做到這麼reliable, 事實上這就是另外一個故事, 怎麼樣做到那麼的reliable? 那當然Google沒有 在這個地方就...
就停下来了 下一步是什么 把所有的东西当时真的是不想让你跑图书馆事实上这个东西还有另外一个游言 Google的前身事实上是一个美国的国科会的一个计划叫做Digital Libraries 就是把Library放到 網際網路上面去 所以呢 這個Larry Page跟Sergey Brin事實上是我另外一個恩師叫做Terry Winograd的學生 Terry Winograd當時就是 美國國科會的這個Digital Library的Project 主导人之一 所以就把所有的 书籍全部scan 放到网上去 当然这后面也有一些很多大家知道的这个copyright的问题什么之类的 这些都是对社会的一些冲击我们有机会今天有 不管是资讯也好或者是 人工智慧的对社会的冲击我们也会有一些讨论所以1995年当时 就不只是把 我YP能够搜索 书籍能够搜索还有什么 街道也开始能够搜索 你知道吗我记得当时Google Map出来的时候我妈还问我说 你们这个是不是用很多无形的这种无人机在那边整天在那边飞来飞去的 所以是車子到是每天都在那跑 你一說你要看哪一個街道車子就開到那去 這不是當然不是這樣子它是那個車子整天在這個街道上面跑然後把它照相起來然後知道它GPS的定位 所以你說你要這個 GPS的地方它就把那個圖像給找出來 Make the world searchable所以呢1999 年這也是一個革命性的發展第一個是 1991年八年之后 搜寻引擎 再过八年发生了什么事情 我iPhone事实上很多人不记得这件事情就是说iPhone 跟Android事实上是同一个时间几乎是同一个时间 发布的但是iPhone 大家都知道 但是Android 在同一年发生 比较不知道的原因因为是当时 Android事实上 在这个作业系统的 发展是 稍微比较落后的 稍微有一点落后但是但是 现在catch up了 但是呢这个2007年最重要的事情大概就是 这个mobile phone 那么 2007年事实上还有另外一件事情但 我有点这个数学不大好所以 加一减一无所谓了2006年事实上是有另外一个很重要的事情是什么social webfacebooktwitter 的发展 所以现在呢基本上 有谁早上起来是不先看一下 Facebook啊什麼 或者是說看一下新聞啊 早上第一件事情起來以後是看手機的請舉手 不可能只有這麼少人好不好 我這樣子問好了 第一件事情 是上廁所的請舉手 第二件事情是看手機的請舉手 這基本上所有的人 早上起來大概 第一件事情就是看手機有什麼新的訊號進來 所以 智慧行手心对我们的 生活是有带来到 多大的一个冲击 所以你要想想看在这个16年的时间 从1991年开始 网际网路才刚刚开始16年之后 你早上起来 第一件事情就是check Google, check Facebook, 就是看有什么 Line有什么东西, 发生了什么事情, 川普又说了什么怪话, 对不对? 所以这个mobile phone对我们的生活冲击是有多么的大, 这是在16年的时间就发生这么多的事情, 再过8年2015年发生了什么事? 2015年真的沒發生什麼感覺上沒發生什麼事情對不對 Neural Network所以我們2015年的事情暫時先撇開 先不講 我們現在有沒有人覺得 智慧型手機是很神奇的東西 沒有了吧 你沒有一個智慧型手機你會覺得好像很不方便 你出門第一件事情 是帶身分證你忘了帶身分證 可能都還不會跑回家 拿 你忘了手機一定會去拿 不可能 沒有手機就沒有生活的那種感覺 你知道當時 手機出來的時候在 挪威這邊 這些歐洲的國家甚至於他的 他的名字叫做HandyHandy是什麼意思就是說他是你第三 隻手 Handy 所以呢這個有意思的地方是說 以前有一個 很著名的一個科幻作家 他名字叫做Arthur C.
Clarke 在美國非常的有名 他寫了很多很多對 科技人有很大啟發性的一些 科幻的 書 那他說過一句話他說 任何夠先進的科技人就跟魔法沒有聯繫 感覺就像是魔法 你可以想想看如果說 在2007年之前我把一個手機放到你手中 現在的手機 放到你的手中 那是 簡直就是像Magic一樣 你什麼東西都可以你可以Navigate 你可以找到商店 你可以找到吃的甚至可以把吃的叫到你門前 簡直就是神奇的一個東西 但是呢有一個 有一個事情 大家可能沒有意識到就是說過了16年以後事實上是17年2007到現在大概是剛好是17年發生了什麼事情我們覺得這個平徒無奇 對吧 你覺得有手機是很正常的事情 所以就是任何常見的技術 就不是魔法了 這很有意思喔為什麼呢 你知道人類在一百一十一百二十年前是不能飛的 我們不能飛人類在 一百多年前是不能飛的 我們在座有一些 同學們是從 什麼馬來西亞 還有一個 講師老師是從 東岸飛回來那個大概是從東岸飛回來應該是要到 可能要12到16個小時是吧14個小時班級有汙點嗎余老師 大家在外面 這個馬來西亞的 來 從台灣 之外來的班基有沒有污點的 沒有污點很開心是吧 都沒有污點是吧 沒有一個人的 班機有污點 有污點的話你氣壞了 現在一百年前人類不能飛你現在班機污點要氣壞了 更神奇的是什麼 大家有沒有看到最近台灣的一個新聞 前兩天的新聞 什麼事情 因為颱風天 這個班機 原本下午兩點鐘要從日本飛到這裡 結果呢到了 凌晨兩點鐘也就是十二個小時才從日本飛 从日本飞到台湾 结果行李 又要过三个小时 才送到这个人的手中结果发生一件 很重大的 在中文界大家都有 看到的新闻 草原機場的 地勤人員要給 乘客下跪 有沒有發生這樣子社會的亂象 你想想看人類在 一百多年前是 不能飛現在你的行李沒到 你就破口大罵 這個是不是就是說任何 神奇的 技術就 變成很commonplace就不是魔法的意思就是在這個地方你早上起來覺得有手機有internet 是非常正常的事情 你能夠飛 你有錢你可以飛到美國你可以飛到日本這也是非常正常的事情 但在一百多年前這是完全不正常的 有車子也是不正常的一百多年前有車有飛機有手機 所以2015年 你可以想想看我們已經 在科技裡人 在這個環境裡面已經 很久很久了 就覺得說這個發展速度這麼快結果2015年 好像没事发生 大家在讲神经网络那神经网络对 你们的生活真的 2015年的时候有带来任何的冲击吗 基本上好像感觉上没有 这是什么原因呢 事实上那个时候才慢慢的正在开始。 我来 解说一下为什么那时候刚刚开始。 2015年的时候你能够做到的事情是, 你把一个图像放进去, 它告诉你说这个是个 狮子。
这个好像也感觉没什么了, 现在八年以后感觉没什么。 你把音讯放进去, 比如说你说一句话, How cold is it outside? 他说 他可以辨认出你说的话是 How cold is it outside而且 2015年事实上已经开始 就是不神奇的地方是说他不单是知道你问的是How cold is it outside他还会告诉你说 现在外面是32 度对不对你已经那时候已经觉得不神奇了老实说 那么 這兩個也許你們當時還不覺得 非常的驚訝但是從念電腦、 念資訊工程的 對我來說的話 你可以想想看1991年網際網路都還沒有 到了 2015年的时候你可以对他说话他知道你要说什么 然后他还会回答 你外面的天气是什么 那不就是magic吗 对不对而且更神奇的地方是什么就是2015年在10年前也就是2005年2001年那个时候 你如果要有这种语音辨识的技术是非常非常困难的而且我当时会觉得说 在我有生之年可能 做不到 跟人类一样的 但是現在呢事實上 機器的聽力有時候事實上是比人還要好的 好到什麼地方呢等一下我還會跟大家細說一下 但是還有另外一件很神奇的事情是什麼呢 而且這個部分呢是最重要的部分為什麼我等一下會解說 如果你輸入的文字是 Hello how are you你問他說你可不可以把它翻譯成法文 大家都知道現在奧運是在 法國對不對你知道有多少人是走來走去用 在做Live Translation他们才能够跟法国人交谈 我讲一个小插曲 当然我现在我昨天透露过我跟林志玲是同学 这个中正国中的同学 那个时代的二十多岁 三十多岁的时候我去过法国 然后在法国那法国很有意思因为 法国人大部分人事实上是不大会讲 很多人都不大会讲英文的台湾 他们对自己的语言是非常 有认同感的 所以 法文又困难对我们来说都比较困难一点学过英语的人都会觉得法文比较困难一点那发音也比较 特别一点 但是我也很喜欢跟人家交谈 昨天好像有几个学员说特别喜欢交朋友我觉得这个很好 为什么交谈你就能够 所以刚才 孙老师 也在 鼓励大家要跟其他人交谈所以 所以我去法國的時候就很希望能夠 認識法國的朋友, 但是 發現跟意大利人 比較容易做朋友, 法國的朋友比較難。
我就很希望能夠有這樣子的capability。 我還記得我在法國的 巴黎街道上面行走, 然後看到一些 漂亮的法國女孩子想要跟她們交談, 都沒有辦法, 現在可以了。 用Android Live Live Translation的capability就完全沒有問題 但是我在義大利就真的是交了一些朋友因為他們很健談 喜歡跟外國人 溝通所以我們 用這些方法都可以慢慢的把這些文化的隔閡語言的隔閡 能夠慢慢的減低而且這個 為什麼說文化的隔閡我要賣一個關子等一下再跟你們說 最後一個案例是什麼呢 你把這個 圖片放進去 你問他說 你可不可以 描述这个图片 他居然一个字一个字的跟你说这个是A blue and yellow train traveling down the tracks 这个很神奇的地方事实上有好几个地方第一个你会发现他的语法是正确的他写traveling不是travel 也不是travels他说traveling 然后还有什么呢 这英文有时候也很奇怪 我不晓得你会不会觉得说 外国人讲中文有時候會覺得 覺得說他好像講不大流利像譬如說你可能也會覺得我講的不是 特別的流利 我因為小留學生出去了然後呢 在外面的薰陶也 跟大陸的學生常常交談所以有時候也會用一些 台灣不用的一些什麼剛剛講什麼計算機啊或什麼很牛逼啊這種 語詞所以你會覺得說可能我中文還是有一點怪怪的 怪怪的原因是什麼英文也有這種事情我們通常 通常会讲blue and yellow, 而不是讲yellow andblue。
你说yellow and blue train travelling down the track, 就感觉好像有一点怪怪的。 原因就是因为我们通常都会讲blue and yellow, 而不是yellow andblue。 这可能跟这个 色系的排列有关系。
red green blue, 我们会讲red green blue, 而不是blue green red, RGB嘛。 所以这个部分有没有大家发现一个 很特别的地方 就是上面两个跟下面两个是不一样的东西 下面这两个 是一个字一个字 三层的 Hello, how are you? 它在解答, 就是de -coding的时候是一个字一个字上升 这就是Generative AI的开始 上面是 在做prediction 就是说这个东西是个lion它是一个prediction 下面这个是一个字一个字在发生所以 Generative AI 是从这个地方开始的 你問得很好, 為什麼呢? 當時, 最起碼2015年那個時候 這個音訊轉成 文字這件事情它是把 一個一個音訊把它 結出來 segment出来 然后segment每一个segment去把它对应到一个文字那个对应的过程是个prediction 它不是一个字一个字生成的 而且它的conditional probability就是 第二个字跟 第一个字之间的relationship不见得是 这个用对序跟对序的方法来产生的不见得是这样子 大概是2015年开始 后来音讯的处理 就是用 这个 Genitive AI的方法开始在做 所以你问的这个问题很专业哦 不晓得是不是有学过积极学习 这个很好 所以刚刚讲的这个神奇的地方在什么地方呢2011年你 用机器学习所做出来的图片辨识, 只能够做到26% 的errorrate。 Human是5%, 2016年做到的时候是3%, 也就是说人 已经比机器还要更弱了, 机器已经有一个superhuman的capability, 当时我们还发现一些什么 特别的情况, 比如说 很多人 对狗没有什么 品种,没有什么认知, 但是机器完全没问题, 他可以告白 告诉你说这个是 Labrador,这个是Golden Retriever什么之类的, 它分别 比人还要更厉害。
所以它���错误力, 在 2016年已经超过人类了。 那这之间是 有什么样的重大的改变呢? 80年代呢, 当时 因为神经网络, 这个计算的能力非常的低, 所以呢, 他的方法prediction 基本上都 比其他的方法要 更不準確到了 我們現在有更多的computation更多的算力以後 這個算力不是garlic 算力 算是comput 寫音梗昨天是誰說很喜歡寫音梗的 寫音梗到了现在神经网路因为有更多 更多的數據量 跟更多的算力 所以我們現在能夠 做到神經網路 可以取代其他的方法 這對我們 念電子 這個志工的 基本上這個都是一個revolution 就已經是個revolution 那麼從2015年這個時代來講的話Google就事實上就已經致力於 这个AI first的一个development 的方向 那么 事实上呢我在那个时代也已经开始做很多很多 这个积极学习的research特别是 在位 有谁在用YouTube 这真的是在测试有谁在听 没举手的这是骗人的大家都有在用YouTube吧 有谁没有在用YouTube 举手你真的没在用YouTube用不了喔 李宏毅的那個 的東西你一定要去看喔這個真的他那個真的講得很棒 翻一下牆喔這個鼓勵一下翻牆 這個 YouTube裡面為什麼提這件事情呢因為你們有在除了這個 大陸來的同學不肯翻牆的之外 我們你在用YouTube的話裡面的這個推薦系統基本上就是我的team做的 所以你們對推薦信頭有什麼問題也可以問沒問題那基本上都是我的團隊做的 然後呢Google Play裡面的這個App Recommendation 也是我的團隊做的 然後 其他像比如說Google Photos photo裡面很神奇的地方 大家有在用google photo的大家都知道你要拿出來你可以search for food或者是pasta pizza他都能把你的pizza給找出來 這很神奇就是剛剛講的這個圖片 認知認識 他能夠把 這個東西給 造出來 那麼Google把AI放到產品裡面事實上已經做了很久了 Google的智慧鏡頭 事實上很多人公認是比 Apple的這個 這個鏡頭還要更好 那比如說 Google的地圖 也比Apple做得要好 其中的原因有很多就是因為 這個機器學習所帶來的一些capabilityPixel手機呢像剛剛講的這個即時翻譯 或者是這個 你在edit這些photo的時候呢有一種魔術橡皮擦你可以 把其他的這個遊客給delete掉的這些capability都相當的 神奇喔現在都還感覺像是魔術一樣 但是將來還有更多的魔術會發生 那麼 從2015年加8的話是多少 2023而且剛好2023呢 就是 大家覺得這個 大型雲霧末星的到來 所以從這個角度來看的話呢就是從2007年到2023年這個16年 感覺上好像前面16年 馬不停蹄的這種技術的更新然後突然16年好像感覺沒什麼事情發生 一下子16年又爆發了 這種感覺16年一下子過去又爆發但是 但我知道在位的有很多这种 大二大 三生大四的同学们, 我趋子一算, 你们如果说是 大二大三的话, 现在应该是这个 二十岁左右, 对不对? 那 十六年前你们才 四岁的小孩子, 所以根本没有那个记忆, 你们一生出来, 智慧型手机就已经在父母的手中了, 甚至于 有 谁十岁 就有缝的, 自己 自己的10歲 哇有 沒有11歲的有沒 有有沒有人11歲手上就有手機的 在美國現在大概是12 13有沒有12歲的有手機的 有喔12歲手上就有手機了 而且智慧型的對不對不是只能打電話的那種 所以你們根本沒有經歷到前面那16年所以你們在生長的日子的時候感覺就是 平平無奇 對吧 但我 想講這一段的原因就是告訴你這個歷史是在什麼地方 而且為什麼我們 老司機的這邊 會感覺 那麼的深處 那大型語言模型的到來 為什麼感覺會那麼大呢 這每八年的一次的科技的變革 其中就是最重要的2015年所發生的這件事情 就是我们叫做 所谓的sequence Sequence to sequence learning这件事情 我想跟大家稍微再 细说一下 这个地方呢就是真的是在讲现在刚才是在讲过去 现在讲现在 那么从现在的角度来看这件事情这件事情呢发生的由来在什么地方 这个讲起来很有意思我等一下会说一件事情就是说这一篇paper 有一篇paper叫做Sequence to sequence learning是2014年12月 发表的一篇paper那它的由来 还在什么地方呢 你可以这样想 Google一直是在做 有关于make information accessiblesearchable 这个search engine的这件事情 那很麻烦的事情是什么网际网络这个World Wide Web上面 有很多的language是你不会说的刚刚讲过我不会讲法文 Hello how are you我可以说comment on level 5这个我可以说但其他的要 更难我根本不可能对吧 看了看不懂, 听也听不懂。
那你如果要致力于这个information的普及的话, 你这不同的language一定要有能够处理的方法。 所以 Google在translation上面实际上做了很大的 投资。 但你想想看, 当时 用prediction的方法, 基本上用prediction的方法, 在做translation有多麻烦。 你比如说Google最重要的有, 现在列为最重要的40个语言, 如果你这 四十个语言每一个语言都要能够翻译到另外一个语言的话 一共有多少个pair 对 40乘以39除以2對不對 這位學員非常的踴躍 其他人都在睡覺是不是 應該數學是你們的強項才對 應該馬上有人能夠算出來答案40乘以39除以2是多少728是吧 780剛剛已經除以2了40乘以39除以2嘛應該是才800左右 哇你想想看這有多麻煩每一個都還要有pair喔而且我沒有說direction喔 比如說英文翻譯成中文 Chinese translate到 English事實上是不一樣的喔因為有時候 你中文這樣子說你英文怎麼樣子翻譯還不見得是剛好是 是equivalent對不對 所以我們就那個 那個方向先略過不講 你要manage800 個模型有多麻煩你想想看 而且每個手機你都要download你想要用的 這個語言那更麻煩了 你還要記得去法國之前去奧運之前 你要download法文的你忘記download還要到那個地方還要去找啊幹嘛的對不對 這很麻煩的事情所以當時就有人在想說 把这所有的 語言放到一個model裡面去 光是這個想法帶來革命性的發展 就是所謂的sequence to sequencelearning這件事情 所以第一個 LM最重要的事情是什麼 把所有的任務壓縮到 一個model裡面 但是我們發現什麼呢不只是translation的capabilitysummarization的capability 寫作的能力 全部都在一個model裡面 都可以在一個model裡面執行 這個事實上是LM 从sequence to sequence开始 第二件最重要的事情这是很多人 没有注意到 没有注意到这是一个很关键的insight 这个地方有多神奇呢 他不只是能够 了解语言 他事实上还能够做 推理 我在 高中的時候呢 花了很多時間學德文而不是法文 所以呢有沒有會德文的同學在這裡 只有一個啊 兩個 哇這個很神奇喔因為為什麼呢今天早上不是在講吳大友嗎 吳大友先生事實上在他那個年代 有很多人念物理的是要念德文的 為什麼呢 像看愛因斯坦 好多好多 那個時候的物理文獻 第一個出來的是用德文寫的 所以你不會德文的話是那個文獻你還要等人家 翻譯那那個 你還要去找人才能夠翻譯他不見得又知道物理學翻譯起來又特別的困難 所以你們現在是 到網上去download還有人什麼Harley Speaks 他還幫你 解答他還講得清清楚楚用YouTube給你那個時代是沒有這個東西 吳大佑先生當時學物理的時候哪有這個東西 你要看 德文的文獻你得自己會講德文 所以我當時學 這個 我裡面研究所 所以就想也许我也来学一点 德文所以这个地方他说 Ich versteht nur Bahnhof 会讲德文的人 知道这什么意思吧 Ich就是我 Versteht就是understandNur是only的意思 Bahnhof是train stationI only understand train station 这是什么意思啊这是什么鬼话 对吧 所以你直接就可以问教会 Gemini你说Can this translation be misunderstood? 他说YesBecause this is an idiom谚语 什么意思呢 他说I don 't understand anything那这个由来是什么呢 这很有意思 你想想看 你有没有去过德国的人就知道说他们的那个train station要特别的大而且跟现在 现在所建造的这种train station是不大一样他们是 很多轨道并列而行 然后一看望远看去就像一个大 大的工廠這樣子的一個地方 所以呢火車竟然很大聲的你要想現在還是電汽車 用 電車 以前的話是用這種什麼引擎啊柴油引擎啊什麼很大聲的那個 火車進站的時候會咚咚咚咚這樣子響 那你根本聽不到啊如果你想想看如果你的 這個 旁邊有個美女說我愛你你都聽不到 所以你的回答就是Each fresh day no more bon好我只能夠聽 到translation事实上 这个谚语的由来是这个原因 那所以 现在的情况是什么这些 语言模型不只是 能够做translation 他能够知道 这些谚语的由来 可以解释给你听他是真的是 有那个理解的能力 這很神奇啦!
我們從2015年只能夠做translation 而且還要用800 個model才能夠做到的事情現在是一個model而且他還能夠解釋給你聽為什麼要這樣子translate 這很神奇 那么 有很多细节从2015年一直到20232024里面有很多很多的细节 这个部分呢 老实说我真的没有时间一个一个跟大家讲像比如说 跟JAMA这个Open Model的事情 我今天都没有时间跟大家细说 但是呢我把一个很简略的一个 部分呢挑出来跟大家说刚刚讲说2014年12月的时候 Sequence to Sequence Learning 发生了很多人 知道的是另外一篇Google的Paper 是2017年12月发表的叫做Transformer这篇PaperTransformer里面呢在講的是attention 在讲的是这个transformer怎么样子用auto regression的方法 来做 序列与序列之间的translation或者是一些这种deep learning的动作 那么 事实上我个人认为更重要的这篇paper是2014年这个sequence to sequence 这个learning的capability 那他在讲的就是说你输入的是一个sequence 输出的也是一个sequence 这个概念呢现在基本上可以说是 覆盖了 所有machine learning最重要的concept里面比如说图像的 辨识刚才 这位学员问的有关于音讯 的输入也都是用sequence的方法跟sequence输出的方法在做 所以呢 2014年这篇paper是 绝对是 革命性的一个发展很有意思的是另外一个小故事是什么呢 这篇paper一共有三个图 作者一个作者名字叫做 Ilya Satsvaker 是 OpenAI的Chief Scientist刚刚卸任的OpenAI大家也许有听到一些消息有关于他 跟这个San Elman吵架的一些事情 這位鼎鼎大名的這個科學家就是叫做 Elias Sutzfaker當時也在Google Brain我也在Google Brain的時候就是 他在那裡 這是第一個作者 第二個作者是誰呢 我在講的不是真正的paper的 就是第二个作者 里面的另外一个是Orio Van Yals 现在是Gemini的负责人之一也是我一个好朋友 第三个作者是Quark Le 是越南来的一个Andrew Ng的学生 Quark Le就在我的团队里面他report给我 所以一共这三个鼎鼎大名的学者 现在他们 这个像Quark的他有机会我应该请他来台湾 非常风趣的 一个讲者講者 他现在我觉得 他的光是这个citation大概就有quarter of million了, 都是非常非常厉害的这个科学家。 那么2015 年6月的时候呢, 我们就已经发表了一个neural translation, neural conversational model, 也就是说 六个月之后做过这个sequence sequence 的这个learning的这篇paper以后, 我们就觉得说 可以用这个方法来做聊天机器人, 就可以做聊天机器人。 那么我 我個人認為 在下一篇從Transformer這個事實上有點大言不慚為什麼呢因為 2017年到2022年一共過了 五年的時間 我跟一些同事們 在Google Brain 的時候 發表了另外一篇paper叫做Chain of Thought也就是 思維連的一個concept這個部分我等一下有一個混沌片我會跟大家稍微講一下這裡面的idea 基本上 就是用 Connected Science的一些方法 来让 大型语言模型能够有思维 能够有思考的能力 然后2002年的2月也就是一个月之后我们又发表了另外一篇paper 也就是Instruction Fine Tuning所以 真的有在念有关于LM这方面文献的同学们应该都知道这些很重要的事情 重要的發展instruction fine tuning意思就是說我們 把一些 指令指示把 它交給 LM所以它不只是 用patternsequence to sequence的pattern它會follow一些pattern 也就是 類似跟 思維連有關係的方法 來教導 這些 大型明媛模型怎麼樣子來solve problems 所以這兩篇 這兩篇paper合在一起事實上才是真正奠定 這個比如說 ChatGPT或Gemini的基礎事實上是這兩篇paper 那麼ChatGPT是2022年的11月底11月30號發表的 不為人知的地方是什麼呢 ChatGPT的負責人之一 名字叫做BearZoff就是從我的團隊出去的就是我從 他是8月 去了OpenAI然后 然後呢12月發表了ChatGPT也就是為什麼 我們後來說這個 講難聽一點 他居然把我們的東西 跑到startup裡面把它發表出來了 所以呢我們就這個在Google呢就奮起直追喔我們在100天之後3月呢 就發表了BART然後我是BART 當時發表BART的負責人之一就一直在這100天那幾乎是可以說是 几乎是没有睡觉我们就 说好那你们能发表我们也发表 就是这样子 但昨天听到各位学员在讲 有关于这方面LM的事情都在讲ChatGPT因为它已经有一个brand在那个地方但事实上 从这个 时间轴来讲你们可以看出来 几乎所有最重要的innovation都是在Google跟Google Brain 所 发展出来的謝謝 跟我的团队事实上是非常有关系的 那我现在还是 继续致力于在这个BAR跟Gemini之间的relationship 跟development 那么里面有很多细节像比如说 这个sequence to sequence learning是什么东西transformer是怎么样子你真的有兴趣去了解里面的细节的话 特别是念过统计的同学去上这个李红毅的这个 李老師 是在嗎?
就去我們的網紅喔我也是他的fans之一喔他現在是有 兩百三二十三四千個subscriber這是昨天晚上我 截圖喔所以 好像是不是quarter million又可以得到另外一個獎牌是不是? 要一百 喔剛才講過說YouTube那邊我有很多朋友 這個我幫他們的推薦系統 做過很多手腳所以 等一下你 塞一點紅包給我也許我可以 看看可以在神經網路裡面做一些小手腳然後 讓你破一百萬快一點对 李宏毅真的是很厲害我聽過他的演講很多次都覺得他非常的風趣而且 很能夠帶動人心所以我 在這個地方也推一下我們 在座的網紅來繼續 推廣我們機器學習 的知識 跟特別是 這個LM大型雲模型的知識 那所以我這個地方我覺得我負責的地方呢就是講得更 淺而易懂 就是告訴你們這個整個的發展的過去跟現在 是在发生什么事情 我个人认为 很多人觉得说 现在这种AI是吵到夯到不能台湾人 大陆来的学生可能不知道我们说夯是什么就是很hot的意思 夯 很夯的东西 我个人认为事实上这个不是hype 为什么呢 你现在会觉得说智慧型手机当时是hype吗 我iPhone发行的时候我也是排斗 对买iPhone的 其中一个那 有些人就觉得说这有什么 大不了就是 一个MP3 player加上 一个能够打电话的机器而已 对不对但事实上呢它是一个革命性的发展 那LM希望我这样子 解释给你听有关于这种sequence to sequence的capabilitymultitask把它放到 一个model里面去 你现在有一点感觉说为什么这个感觉是一个革命性的发展而并不是完全实际的 是个hype 那么 这个刚刚也讲过 为什么会造成这个 现象呢是有两件事情一个是big data另外一个是big compute 这个地方的 部分呢我像比如说这个礼拜会去国科会 跟国科会的主委啊或者是谁啊都会有聊这方面的问题 为什么呢因为这个算力 跟大数据的 问题事实上呢在 政策上也好在这个 在這個國家的發展上面 都有 非常重要的角色 在很多 國家我去一些國際上的會議 大陸來的學者也好 也有碰上巴西來的學者 他們有很多都是政府派出來的為什麼? 他們覺得 這個人工智慧現在已經變成一個 國家級的一個重要的發展的方向 當然這個跟國防 也有關係 但是呢跟人民的 這個生活也有很大的關係所以它是 雙病用的一種 技術 那Gemini事實上在目前為止是在 所有的這個 LM的这种 模型里面第一个得分超过90% 有关于理解 MMLU这个测试的 模型的第一个 所以我们Gemini现在在LM Sys上面 基本上也跟ChatGPT 跟GPT的model 可以说是 快要平行了 所以我们的capability有机会来试试看我们的Gemini不要光用 也是free的 所以在这边打一个小广告不要 就一味的只使用这个Chad G.
Peavy我们也来试试看我们的Gemini 那Gemini 在事实上这个是一个model family一个模型的家族 一共有四种 Ultra是我们最大的Nano是我们最小的 那最小的这个model现在已经在手机上面可以运行 所以呢这个 往前走的 这个速度非常的快 你可以想象说 刚才在讲的800个model 这光是translation还不包括summarization 还不包括 写作的能力什么之类的 这些以后 都非常有可能能够直接在手机 上面这个装置上on device直接上的这个computer 跟运作 这里面也有跟 台湾有很多的 其他细节 像比如说运算的 这个速度 或者是battery的问题 这些问题 都非常我都會在 Google裡面 有时候会碰上这方面的 这个research 的问题 那么Gemini里面现在往前走事实上有三个趋势 这还已经我还是更认为是现在是现在的发展 等一下才真正再讲有关于往前走的发展 第一个呢是这个更成熟的这个推理能力 这个推理能力呢 可以理解 视觉的信息进行复杂的数学跟物理的推理 啊 在座有一些 物理学家跟 物理学科的 学生事实上刚刚好应该是 前几天而已我要想想看是几天前我 来到台湾的时候时间有点算不准 但是有没有参加过International Math Olympia的学生在这里 有没有听过这个东西 这很有名的 数学竞赛叫做IMO你们有参加过吗 有試過真的很 厲害 真的有好像有數學的同學 昨天我記得有一些數學念數學的同學 我們上個禮拜我的團隊才剛剛參加過 當然是用我們的大型語言模型 參加了 國際型的International Math Olympia得了銀牌 這個可以這樣講, 就是說 得銀牌這件事情是 很多人認為 大概可能還要再過 十年以後, 我們才有可能會達到 銀牌或金牌這樣子的capability 但是我們現在已經可以 幾乎是可以 達到那樣子的算力 跟capability推理的 這不是只是算力 這是真的是在做推理 它裡面的這個問題你連看都看不懂 這數學題有多難啊 难到那个地方那往前走像比如说物理的一些推理 这以后都是 AI能够做到的 一些方法当然它不见得会 等一下这个Mark这个 廖老师会讲这个怎么样子做research这个部分我觉得这个地方还是一定需要人的 但是它能够帮你做一些推理的动作这个是 无容置疑往前走一定 会发生的事情 那這個推理的方法, 這個地方就是 剛剛講說這個 I 'm not going to be humble about this, 因為這篇paper我真的是覺得非常的重要, 而且這篇paper事實上是Danny跟我 兩個人之力推出來的一篇paper 就它這個idea非常簡單怎麼樣呢 以前的machine learning的方法就是說 你要什麼樣的 輸入你想要什麼樣的輸出 這個就是 ML最基本的東西就是input and output把它pair在一起 然後呢做出來的成果像譬如說 你如果有一個input是要他做一個推理的動作 比如說Roger有五個tennis ball然後他 買了兩個can 一個can 有三個tennis ball 那麼一共他現在有多少個tennis ball the answer is 11他给他的一个范例为什么2乘以3是66加5是11对吧 所以呢他给的answer是11所以这只是输入跟输出的问题所以他给的范例以后 以後呢, 現在老師考試不都是這樣考嘛, 對吧? 給你一個範例, 然後你以此類推。 那麼我現在問你另外一個問題。 The cafeteria has 23 apples. They used 20 to make lunch and bought 6 more.
How many apples do they have? 正確答案當然是23, 減掉20是3, 3加6應該是9。 但是Chachy PD給的answer是什麼?
27, 就是錯誤的。 为什么他会算出来27我也 搞不懂 有谁能够 搞出来为什么是27呢23 -20是3 呢20也不能除以6啊 这很奇怪对吧 我不晓得这个就幻想了对不对 但我们发现一件什么事情呢这个就是我们这个chain of thought这个思维连的一个想法 就是说你给他 他範例的時候也告訴他是怎麼樣算出來的 算出來的方法是 Roger started with 5 balls, 2 can 't of 3 is 6, 5 plus 6 equals 11所以blue這個部分是我們加進去的 那結果呢 就发现他输出的时候他也会真的以此类推 而并不是只是输入跟输出他中间有一个rational有一个explanation 我觉得这个非常的重要 我觉得在 华语的国家里面学习常常有那种填鸭式的方法 像我们这位从大陆来的同学是不是也觉得大陆的 教育方法是也有一种 填鸭式的方法对吧 不晓得什么原因我们在华语 的 世界里面大部分的 我们还有一大堆基隆坡来的独立中学的 老师们希望你们回去了以后不要 光用填鸭式的方法来教导我们的下一代 应该要告诉他们这些rational这些explanation 这个事实上这个concept是在 认知学里面非常重要的一个concept叫做schematal learning事实上是我跟我妈妈学的 我妈妈在念博士的时候就是在做这方面的 研究 所以我后来在做这个research的时候就想说 也许我们可以用这个方法来教导机器学习 怎么样子来做推理 结果这件事情呢 能够提升 机器的推理能力 最起码20个 百分比有兴趣的人呢可以去看这篇paper因为 事实上你是不需要有任何机器学习的background背景都能够读这篇paper因为它基本上没有数学 非常的神奇的一个capability 那么除了这个之外第二个 往前走会有什么样子一个冲击呢第二个 冲击是 这个advanced coding跟planning的capability更进阶式的 城市设计跟策划 这个能力有多强啊 我现在来用一个范例我没有办法解释给你听为什么可以 产生这样子的capability但是我想 想要给你一个范例 这个范例是什么你想要 在这个程式编辑的时候呢有这个老师给你出一个这样子的题目他说 下面有一个这个Python codeCan you fix this codethat has a bug in itand add line by line commentsin Korean 不但是要你把這個題目給解答了而且我要你的comments用韓文寫出來 我們跟我們 會講韓文的 同事們verify過這個是 完全正確的 語法也正確, 這是一個model 產生出來的結果。 它告訴你說, the bug in the original code is that the visitor set is not updated when a node is visited.
所以你念過 計算機, 電腦系的 電子系, 都懂 這個東西, 這是在 做什麼? 這個東西是 在做DFS, 就是 Deaf First Search, Deaf First Search是一個很基本的, 大概是大一 這個資工系就會學的東西, 然後他告訴你說, 這個是 大一level的coding problem 但是神奇的地方是他居然能夠explain in Koreanin any language actually you want 這是神奇的地方 第三点 往前走现在 已经爆发的事情是什么叫做原生多模态的特性 原生就是在英文里面叫做native然后多模态是multimodality 所谓multimodality的意思 是指 文字图像音讯等等意思是什么呢就是说 把文字图像音讯同时输入到 一个模型里面去 然后叫它解答 所以像刚才这个capability 我等一下會有一個 这个video你会看到 它可以是in real time 看到荧幕上面的code然后解答问题这 是很神奇的事情 好 所以这个现在已经是 事实我们来看一下这个是没有声音 聲音的影片你就看這個地方我們重複看幾次你就看到 這個女孩子呢 她用 這個動作來當作click 然後呢她可以 張開嘴巴就說話然後這樣子 嘴巴動一下就click 她是真的是in real time 就是這個不是 之後再做的影片這是in real time 可以做到這樣子的capability那這個有多神奇呢就是你可以想像中比如說你在 我們一直有一個思維就是說 我們現在使用 電腦都需要用雙手 要嘛就是拿著手機要打字 然後另外一個就是用鍵盤 那你 人就只有兩隻手啊 我們的進化還沒有到能夠有四隻手而且 我不曉得四隻手的美 美女会不会好看你们想想看林志玲如果有四只手我们还会觉得她很美吗 所以这个很大的问题我们只有两只手那怎么办呢 那绝对只好 用语音的辨识的方法对吧 所以呢我们一直在想说有没有办法 让双手能够free up 当然语音有语音的问题 可能会吵到旁边的人什么之类的这也是一些问题 不过语音的输入 已经就在我们的面前 但是這個部分 以後會不需要 還要按個按鈕這些問題都會消失這些問題都會消失 所以這已經是現在了我覺得大概再過來這兩三年 這些技術都會 非常的普及 只是你可能現在覺得這可能還不是真正呈現的方法了你可以想像說我們在做捷運的時候一大堆人嘴巴這樣 動來動去這很奇怪對吧 这个大家 美女也不想這樣做啦 曾寧叫什麼 四個字曾寧什麼 對這個不大可能 這只是一個範例就是讓你知道說有這樣子的capability 那麼 展望未來從這個角度來看 你現在已經 聽了大概 這個 四五十分鐘的這個講解了以後 你可以想想看 你已經知道過去是什麼現在是什麼 那你能够predict 预测未来是什么吗 很有意思你可以想想看1999年的时候 你会怎么样子预测未来 你1999年如果你预测到Facebook 如果你预测到智慧型手机 你现在不只是 百万富翁我讲的是美金 你将会是 富翁 billions billions 所以你要想想看你们的前途是多么的无量 搞不好在座的其中 一位以后就是像什么 我们今天荣幸的能够在这个 最后一秒钟能够在这个麻布 山林 董事长多厉害 打个电话 一天搞定你们 饭有的吃 有的煮 就 肯定董事長是有 前瞻性的 那我现在 告诉你是什么东西 我已经给你了一些知识 你能够开始predict未来了 那你能够predict未来的话那是多么 很多人说我如果 能够predict未来的话我去买 这个彩券 我在讲的不是那种prediction 你想想看你会怎么样子去predict我们以后的输入 跟手机互动的方法是什么 会戴眼镜的方法输入 会不会是用AR VR的方法呢 还是继续手经呢还是说 胸前会挂一个什么东西 或者是也许是 更好的手表或是怎么样 這個 我們再過八年 發生的這件事情 再過八年你會覺得平而無奇 就像能夠飛一樣 你就會覺得平而無奇對吧 再過八年會發生什麼事情呢 第一, 這個很容易 了解的Google一定會把JavaMap放到所有的產品裡面光是這一點, 你在Google裡面你要做工程師, 就有很大的優勢了 為什麼呢? 你知道要往哪一個方向走 去哪一個部門 那个地方肯定 有发展的 空间 还有很多硬体的方面比如说在台湾 有很多硬体的问题 像比如说算力的问题Power efficiency的问题 你现在可能能够预测未来说 這個 Jensen Huang 為什麼現在在台灣這麼夯 原因是因為他預測到 AI的這個未來 你知道嗎他在成立NVIDIA 有關於CUDA 這個 算力capability的時候 他的 那個最致力於這個部分的 一個學者 當時是Stanford的研究生 我跟他聯繫過 用過他的software在2007年左右吧把2007年 2008年 刚刚手机才开始的时候我们就是已经在用Kudada 现在它是 尖声晃底下的Billionaire 它预测到未来 它预测到说我们可以用 Graphical Computing的Capability来做AI的东西 而且那是16、 17年前的事情 预测到未来代表 不只是你能够致富 甚至于可以成名 所以怎麼樣預測未來呢? Power一定有問題, Memory一定會有問題, 運算的能力一定會有問題, 所以你做Hardware往這個方向走絕對不會有錯。
這裡面還有很多細節, 什麼呢? 手機上面事實上運算的能力 不見得是個問題, 什麼問題呢? Memory bandwidth, 非常有可能會有一個問題。 這個為什麼是Memory bandwidth, 我還有, 沒時間講, 但是有原因的。 除了這個部分 還有其他的sneak peek 進入未來的一年像剛才一直在 做的一件事情就是想要播放這個影片 為什麼呢?
那個工作人員你如果 準備好了話呢就給我一個OK 那麼 原因是什麼呢? 這個團隊 現在也有報告給我 你們看看這個未來有什麼樣的一個結果在現實時間的一個拍攝好的, 我們來做一些測試你會看到有聲音的東西嗎? I see a speaker which makes sound. What is that part of the speaker called? That is the tweeter.
It produces high frequency sounds. Give me a creative alliteration about these. Creative crayons color cheerfully. They certainly craft colorful creations. What does that part of the code do?
This code defines encryption and decryption functions. It seems to use AESCBC encryption to encode and decode databased on a key and an initialization vector, IV. That 's right.
What neighborhood do you think I 'm in? This appears to be the King 's Cross area of London. It is known for its railway station and transportation connections. Do you remember where you saw my glasses? Yes, I do.
Your glasses were on the desk near a red apple. What can I add here to make this system faster? The cache between the server and database could improve speed. What does this remind you of?
Schrodinger 's cat. Alright, give me a band name for this duo. Golden StripesNice, thanks Gemini 够神奇吧 这个我团队做出来的 那只狗啊我去伦敦的时候 它是我们团队里面的一个 同人的狗 他特別的可愛然後很乖因為乖巧然後我們就把他放到影片裡面去了 真的是 因為看了這個影片你就知道未來在什麼地方 雙手 還是open的 你可以做很多事情 直接跟 这个large model能够直接互动 就像人一样 好 刚才这位 学员所问的问题说这个Chain of Thought 是不是真的感觉是不是真的这件事情我们问得非常的好 为什么呢 因为在我们的了解 现在呢就是说我可以做一个 解释 还没有去这个李洪毅老师的这个 我们 我们的网红 YouTube里面 看过他的影片的人, 可能对 LM, Transformer这些技术可能一知无解, 不知道说它是怎么样子work的, 但事实上我有用一个很简单的方法能够解释给大家听, Transformer最底下的capability, 我刚刚讲过是Sequence to Sequence Learning这件事情, 那么Sequence to Sequence Learning, 我刚刚也没有解释说这个是 什么意思, 对不对? 但是呢在某种程度上你已经 你人已经在做sequence to sequence learning为什么呢 你现在在听我说话对吧 然后呢你每一次 在听我说话你都在process这个information而且是一个字一个字的在听 对吧那么 我继续讲下去的时候呢我可以在任何的一个sentence里面我可以 停顿 下来然后继续缩下 我没说下一个 字,你也知道是 什么字。 有没有发现?
这就是prediction, 而且就是sequence to sequenceprediction。 我可以在任何 时候 停下来, 你 都能够 了解 我在讲什么。 為什麼你能夠做這個prediction 這就是 大型語言模型 第一個在做的事情 但是難的地方是什麼呢你剛剛提問的時候事實上自己有做過planning的 你在頭腦裡面想過了 想說你要問什麼問題 然後你才一個一個的跟著那個計劃 顯示出來。
所以我們當時做 思維聯,就是這個 Chain of Thought的想法, 就是這個。 就是說, 這個 語言模型它在做什麼, 做decoding的时候就是这个 生成的这个部分的时候 它是一个字一个生成但是它生成的方法在 计算机 理论里面叫做greedy decodinggreedy的意思就是说它是follow一个maximum likelihood的一个decoding的方法 但是maximum likelihood 不见得是你最想要的东西 那怎么样子来force 这个language model 不要走最简单的那条 因为最简单的路 在物理学里面可能是觉得是说它是一个 最make sense这个entropy 最低的 一个解答 但是我们看得出来有时候entropy最低的解答不见得是正确的答案 原因是因为 正确的答案可能是会经过一些 低谷高低的一个部分才会达到最好的地方 那我们要帮助机器能够经过 不是只是一个规律的 的strategy而去解答一些问题的时候 我们就需要给它一个范例 而且这个范例里面要有explanation 所以从这个角度来去看思维链这件事情就是Chainsaw这件事情 这个是绝对是 有迹可循的所以这不是假的 这也就是 现在我们AI能够往 所谓 AGI的方向走 我个人认为是 非常有可能发生的原因是在这个地方 所以你问这个问题 這個問題非常的好 而且跟我跟 李賓國教授 在車子上面討論的問題就非常跟這個有關係 嘿, 老師好 我這裡有 三個小問題 第一個是我剛剛看到這個影片又有Google Glass這是要復出了嗎然後第二個第二個問題是說 就是 因為 剛剛有提到說 希望這樣的AI Model這樣子可以Affordable 那 就是像Google SearchGoogle Search它有一個很棒的 商業模式就是說它可以有一些贊助商的廣告或者是搜尋的順序會有差別但是目前的深層是AI或者是說像這樣子大型語言模型它沒有一個 可以比較落地或者說可以去跑 運行的這樣一個 商業模式 還蠻好奇說 就是您對這樣子的 看法是怎麼樣然後第三個是就是比較是偏生涯相關的就是說 我想了解一下Google在這邊做學術會跟我們一般在 學校裡面做學術會差 在哪裡 對, 相信。 哇, 這三個問題非常的 尖銳喔, 非常的, 我已經有一點被嚇到喔。
第一個問題, 這個有關於這個Google Glass的這件事情, 我覺得你問得 好的原因是在 在这个地方 在座我发现大概可能 七八十个percent以上的 七十个percent以上的 人是戴着眼镜的 你戴着眼镜的人可能会觉得说 再戴一个眼镜无所谓 也许 刚好可能镜框稍微粗一点但是他如果能够带来一些方便的话我不介意会戴另外一个眼镜 但是 很多不戴眼镜的人会对戴眼镜事实上是一个很排斥的问题 所以 我们 人往前走 这个特别是 Wearable中文要怎么翻译 能够穿戴的 一些这种device装置的问题事实上它是跟fashion很有关系 也许 我真的需要去找林志玲来帮忙一下这个 有关于fashion这个部分 但是我也想过其他的方法像比如說 也许戴个项链 或者是一些 胸章或者是在shoulder上面的一些 也许是穿在衣服上面的 一些方法但是这些都有很大的问题为什么呢 你做眼镜的其中一个原因就是你看哪里 这个镜头就在哪里 对吧所以 这个部分呢事实上是 一个比较稍微困难的问题 往前 前者像比如说一些 为什么现在会发生 其中一个原因是 这个 电池你不能太重 对不对然后这个 镜框不能太粗 很多女孩子可能不愿意戴这个镜框太粗的 眼镜所以你会发现为什么 现在的智慧型的 这个眼镜 大部分都镜框比较粗 然后做成像是太阳眼镜这样子的形状 原因事实上也就是跟这个fashion有关系 你对 镜框粗一点的 太阳眼睛是完全没有排斥感但你平常 看电脑用的 真的读纸本书的眼睛你肯定是不希望太粗 也许会想要不要太粗所以这里面的research事实上光是硬体这个部分 就有很大的一些困难 所以我跟你 聊这个问题的时候你就可以像想欸 搞不好再过 十年以后你是某某什么智慧型眼镜的 厂商的创始人对不对 然后呢以后我就是 我 七八十岁以后我来参加这些论坛的时候就是在你的 你的 这个这个员工的这个training center里面都有可能的对吧 这是真的有可能发生的事情所以你问的这个第一个问题很好我事实上是不知道这个 往前走未来是怎么样子但是 有机可循你第二 第二个问题是有关于 Google往前走, 因为之前是用advertising的方法来赚钱。 在某种程度上, 我觉得很多人对这个advertising事实上是有一个误解。 怎么说呢?
因为 在一个capitalistic economy里面, 资本主义的 这种一个模态里面, 基本上 这个market formation 就是跟有关于特别是念过经济学的人就知道说 我们致力于经济里面最重要的是什么减低friction 那advertising事实上是减低friction的一种方法 那所以你问的问题刚刚在讲的就是说Google它事实上为什么能够赚这么多钱 他真的是在sell你的個資嗎? 但不是這個問題。 他賺這麼多錢的原因, 事實上是因為他在reduce the friction of making sure you want what you said you want, 這件事情上面。
那是问题好的地方是什么 往前走如果你有这种 大型语言模型 来回答你的问题的时候并不是要你一个一个网页去找 的时候你这个freshing又降低了 对不对那Google在这里面的 角色是什么 这不只是billion dollar questionthis is a trillion dollar question 我猜想你问这个问题的其中一个原因也就是这一两天来 发布的一个新闻是有关不是chat GPT 是SearchGPT的这件事情 SearchGPT事实上 这只是一个branding的东西它们原本就已经有这个web browsing的capability 我昨天晚上就测试了它们那个result不行 你进去问 問誰是計劃型人, 他根本不知道, 他那個web search沒做好, 所以他那個肯定是有問題的。 所以 這個部分呢, 還有一些research的路程要走。 以后会是怎么样子赚钱这个事情 这个是subscription呢 还是用其他的方法 我觉得是会改变的 但是我觉得事实上改变呢 一定是有钱可以赚为什么呢你可以这样想 我们现在如果你在Google上面比如说我要去巴黎看奥运 他也许会推一些什么 机票的网站什么之类的但是以后 这种LM的planning的capability他會一直問 不是一直問, 他不是在pessimism, 他真的像一個travel agent一樣子在幫你嗎? 那他幫你的時候, 他中間一定有一些 仲介的 這個fee可以 賺,這些東西都是以後發展的趨勢。 那你 第三個問題是我忘了。
对对对就是说学术界能够做到什么样的research跟在Google里面做什么research 你问这个问题好的原因是在这个 地方我在念研究所的时候我的导师 当时跟我讲说 学术界跟业界一直是一个循环的动作 就是说 业界好的时候学术界可能会 比较 没那么吃香 然后一阵子业界 做的差不多了学术界的面业 也会起来所以这个是一个循环性的 而且现在已经看出一些迹象就是比如说LM的research这边 一年前的时候 好多在美国的学术界的 大佬们跟 老师都跟我讲说我们糟了我们死定了 往前需要这么多的运算能力我们的research没得做了事实上你如果注意去看那些文献的话 过去这一年半来 有很多很多的research其實是在 学术界里面做得非常的好 而且不需要用很大的算力就能够做出来的东西 你不要跟人家只比算力的问题 你可以做很多很多LM prompting的东西agent的research我今天没有机会讲有关于agent platform的research的东西reg的researchretrieval augmented generation的东西 都是能够在学术界就能够做的东西 所以这个部分我事实上并不担忧 我想請教吉博是一個比較基本的問題像 剛剛這樣的影片或者這些AI的東西會surprise我們這些 一般大眾 我們覺得是intelligence 但does it surprise you? 你這個問題我覺得也 挺有意思的因為 怎麼說呢就是 我剛剛給的這個talk 其中一個宗旨就是說 讓你知道裡面的一些 由來那你就 你就会觉得说 有一些东西感觉好像 我比较能够知道说它将来一定会发生。 我把我的问题说完, 我会觉得说, 所谓intelligence, 我们看的一般人会觉得, 因为你不知道它演算法, 所以觉得很神奇, 但对于 背后设计演算法的人来讲, it 's not intelligence, it 's just a gadget, as predicted, 你告诉他做什么, 他就会output什么东西, 所以对你来讲, 它不是intellectual 我会觉得所谓Artificial Intelligence对我粗浅的认识, 如果它能够超越它背后的背后零, 真的会surprise you, 我觉得你才是一个intelligence。
我觉得我回答你的问题可以用一个类比的方法来回答, 就是说 在2007年的时候, 我们看到智慧型手机, 事实上大家都知道这个东西是什么东西结合在一起, 但是你还是觉得它是一个 很有用很神奇, 神奇也许是 错误的 字眼,但是就觉得说这是一个revolution。 那我的感觉就是那个样子我知道里面是怎么样的运行的但是我也知道说它compose起来 Steve Jobs有机会 同学可以回去看的是十六 十七年前的影片 记得他在发表iPhone的时候他说iPhone事实上平平无奇就只有三个function 一个是什么 能够打电话 第二个是能够听音乐 而且第三个它是个internet它叫做internet navigator 就是说他可能有个 就像一個網路軟件 平平無奇的事情嘛, 對吧? 2007年大家都有 MP3 player能夠打電話 然後有個web browser是在他們的電腦上面而不是在手機上面這三個東西加在一起放在你的手機裡面 突然這個composition 是有一個神奇的效果 所以像LM這件事情也是這樣子就是說它裡面的每一個component事實上都是我們知道的東西 但它compose起來 把它加在一起的時候呢 是有一個爆發性的東西 這跟物理學裡面有一些 东西事实上是有相似的地方的会不会会不会会 不会 这个surprising的地方就是从composition开始 很多他的工作, 其实他有一个很重要的 工作,我读了他paper, 才注意到这个工作非常重要, 就是叫emerging ability, 那个是一个big surprise, 我想对everyone, 包括所有的人。 做AI的不做物理的人看到都晓得 这是一个 非常奇怪的特别现象到现在大家都不理解这是一个很重要的 问题就是他忽然出了一些 新的能力 原来没有 没有意想到的, 就是把这些component, 每一个都没有什么神奇, 摆在一起的时候, something very surprising happened, 这个到现在是一个big mystery, 它的重要的paper, 现在是很多人做这个研究了, 物理的人都跳进去, 因为这个是 标准的物理现象, emerging the new ability, 所谓emerging, 我不晓得大家懂不懂, 这字非常重要, 当然不是emergency了, 但是也是emerging的 一个ability, 那这个是一个新的名词, 它的一个paper 对这个提出了重要的观点, data, 那个是吸引了 很多物理的 开始要跳进来, 我也是做这个问题。 所以我刚刚讲 这个是 有surprise, 而且是very big surprise, 完全不理解的。
但是 有的是我们可以预见的, 就继续推动会做什么事, 但 这个是不是有更新的emergingability。 那就是不晓得了That 's another surprise所以我想这个是 我想时间的原因我们就赶快停到这里我们要到下 好那谢谢 季博士