AlphaGo Documentary สุดยอดสารคดีที่อยากบอกต่อ

ปีนี้ผมดู Documentary ไปแล้ว 15 เรื่องจากบน Netflix บอกเลยว่าเรื่องที่ชอบมากที่สุดคือ Alpha Go Documentary เพราะสารคดีนำเสนอด้านที่เรามองไม่เห็น ไม่ได้ปรากฏบนหน้าสื่อในช่วงเกิดการแข่งขัน แน่นอนว่าเหตุการณ์ประวัติศาสตร์วันนั้นที่ AI เอาชนะเซียน Go ระดับโลก ผมเองได้ติดตามและได้อ่านข่าวอ่านบทความจำนวนมาก แต่สารคดีนี้ถ่ายทอดหลายประเด็นเหลือเกินที่ทำให้เราได้เรียนรู้จาก AlphaGo บทความนี้จะขอมาสรุปประเด็นที่น่าสนใจให้พวกเราอ่านกัน

1. Fan Hui ผู้แพ้ที่ไม่ธรรมดา

สารคดีนี้ดูเหมือนจะโฟกัสไปที่การแข่งขันระหว่าง alpha Go กับ Lee Sedol แต่บุคคลที่อยู่เบื้องหลังและมีบทบาทสำคัญมากอีกคนคือ Fan Hui เป็นลูกครึ่งจีน-ฝรั่งเศส เป็นนักเล่นโก๊ะมืออาชีพ แชมป์โกะยุโรป 3 สมัยที่เคยพ่ายแพ้ให้กับ AlphaGo ไปขาดลอย 5-0 ในปีก่อนหน้า

Fan Hui มองข้ามความพ่ายแพ้ที่เกิดว่ามันไม่ใช่ความล้มเหลวแต่เขามองเห็นความสวยงาม ความอัศจรรย์ในเกมส์ที่เกิดจากการได้แข่งขันกับ AlphaGo ดังนั้นเมื่อ DeepMind ติดต่อไปช่วงก่อนการแข่งขันใหญ่ Fan Hui จึงตอบรับมาเป็นที่ปรึกษา

ตัวเขาได้เล่นกับ AlphaGo อีกหลายร้อยกระดาน จน 1 วันก่อนแข่งเขาหาจุดอ่อนของ AlphaGo จนเจอแล้วได้แจ้งให้ ทีมพัฒนาทราบ แต่ในเวลาที่มีทีมพัฒนาของ Deep Mind ไม่สามารถแก้หรือปรับปรุงอะไรได้แล้ว สารคดีแสดงให้เห็นภาพจากความเชื่อมั่น กลายเป็นความเครียด ความกังวลขึ้นมาทันที Demis Hassabis หัวหน้าทีพัฒนาถึงกับเอ่ยปากขอให้ Lee Sedol  หาจุดอ่อนนั้นไม่พบ แล้วทุกคนก็ต้องเก็บกระเป๋าเดินหน้าไปแข่งขันที่เกาหลีใต้


2. Alpha Go รู้จัก Lee Sedol แต่ Lee Sedol ไม่รู้จัก AlphaGo

Alpha Go เป็น AI ประเภท Deep Reinforcement Learning ที่เกิดจากการฝึกหัดทั้งจากข้อมูลเกมส์การแข่งขันโกะจำนวนมหาศาลของผู้เล่นต่างๆ(รวมถึงเกมส์ที่เล่นกับตัวเอง) แล้วนำข้อมูลการเล่นของมืออาชีพจำนวนมากใช้ฝึกพัฒนาเป็น learning algorithm ในการเล่น(ภายหลังบทความงานวิจัยเผยให้เห็นข้อมูลที่ใช้เทรน policy network จากตำแหน่งการเล่นมากกว่า 30 ล้านตา) เช่นเดียวกันหนึ่งในข้อมูลฝึกหัดนั้นก็มีเกมส์การเล่นของ  Lee Sedol ในอดีตผู้เป็นแชมป์โลกโกะ 18 สมัยมาก่อนด้วย 

นอกจากนี้ AlphaGo มาพร้อมกับขุมพลังการประมวลผล 1,202 CPUs และ 176 GPUs ทำให้ตรงนี้คือจุดแข็ง รองรับโมเดลประเมินความน่าจะเป็น(value network)ของแผนการเล่นล้อมพื้นที่(policy network) ผนวกกับการสร้างแบบจำลองหมากไปข้างหน้า(Monte Carlo Tree Search) เพื่อดูผลที่เกิด แล้วใช้คำนวนคะแนนสำหรับการตัดสินใจเดินหมากตอบสนองฝ่ายตรงข้ามแบบทันท่วงที

ในสารคดีจะเห็นบทสนทนาออนไลน์ของ  Lee Sedol กับ Demis Hassabis ช่วง 3 วันก่อนการแข่งขันซึ่งในตอนนั้นดูเหมือน  Lee Sedol จะเชื่อมั่นในตัวเองสูงมาก เขาไม่เคยศึกษาเกมส์ของ AlphaGo และยังเชื่อว่า AlphaGo เป็นเพียงโปรแกรมคอมพิวเตอร์ ปิดท้ายเขายังกล่าวประมาณว่า AlphaGo จะชนะเขาได้หรือ เขาเก่งกว่า Fan Hui มากนะ (ตรงนี้ถ้า Lee Sedol ศึกษาเกมส์การแข่งใหญ่ครั้งนั้น อาจจะทำให้เขาเข้าใจ AlphaGo มากขึ้น)

สุดท้ายอย่างที่ทราบ Lee พ่ายแพ้ Alpha Goไปแบบหมดท่า(4-1 เกมส์) สิ่งหนึ่งที่สารคดีนำเสนอให้เห็นคือ ความคิดเห็นของ Fan Hui ที่เขามองว่า Lee นั้นเก่ง พยายามจะสู้แต่พ่ายแพ้เพราะเล่นตาม AlphaGo แต่ไม่ได้เล่นในเกมส์ของตัวเองส่วนใหญ่ ด้วยความเป็น AI ที่ไม่ได้เดินหมาก ไม่ได้คิดแบบคนทำให้ Lee จึงไม่สามารถจับทางและเอาชนะเกมส์หมากแบบนั้นไปได้

3. แรงกดดันของ Lee Sedol

การแข่งขันนี้น่าจะเป็นเกมส์โกะที่มีคนติดตามชมมากที่สุดในประวัติศาสตร์ ประเมินกันว่ามีผู้ติดตามการแข่งขันเกือบ 60 ล้านคน ทั่วโลกโดยเฉพาะประเทศอย่างจีน เกาหลีใต้ และญุี่ปุ่นที่โกะ ดูจะเป็นมากกว่าแค่เกมส์หมากล้อมธรรมดา มันคืออารยธรรมกว่า 3000 ปี มันคือตัวแทนของภูมิปัญญาตะวันออก ทำให้ตั้งแต่ก่อนเริ่มแข่งขัน Lee Sedol  ดูจะแบกน้ำหนักและแรงกดดันมหาศาล ถ้าไม่ได้มองที่เกมส์โกะอย่างเดียว อีกมุมหนึ่งก็กล่าวได้ว่า Lee Sedol นั้นเป็นตัวแทนของมนุษย์ที่กำลังจะเข้าแข่งขันกับปัญญาประดิษฐ์หรือ AI ที่ฝ่ายตรงข้าม ทำให้เหมือนการแข่งขันนี้สำหรับ Lee ยากยิ่งขึ้นไปอีก

สารคดีถ่ายทอดให้เห็นเบื้องหลัง การแข่งขันทุกมุมอย่างใกล้ชิด ที่น่าสนใจคือปฏิกิริยาของ Lee Sedol โดยเฉพาะในเกมส์แรก ที่เขาต้องเจอกับการเล่นของ AlphaGo แบบที่ไม่เคยพบมาก่อนเดาเกมส์ เดาแผนของฝ่ายตรงข้ามไม่ออก เราจะเห็นสีหน้า ท่าทาง และการตื่นตระหนกเมื่อโดนกดดันและไล่ต้อนหนักทำให้แรงกดดันของเขามากขึ้นไปอีก โดยเฉพาะจุดที่เขายอมแพ้ในเกมส์แรก ที่เหมือนสีหน้าของ Lee ได้สะท้อนถึงความเศร้า ความเครียด ความเจ็บปวดราวกับโลกทั้งใบกำลังระเบิด

สารคดีได้ถ่ายภาพภรรยาและลูกสาวที่เข้ามาเชียร์ในห้อง ยามเข้าตาจนใกล้พ่ายแพ้ ได้เห็นลูกสาวของ Lee ร้องไห้ฉากนั้นทำเอา เรียกความเศร้าได้ทีเดียว เช่นเดียวกับความเงียบ ความเศร้าของคนในห้องแถลงข่าว ชาวเกาหลีใต้และคนทั่วโลกที่ติดตามการแข่งขัน ตามมาซึ่งกระแสและประเด็นต่างๆนานา พูดถึงถึงวิวัฒนาการความก้าวหน้าของ AI ที่ดูเหมือนทุกคนจะหันมาจับตามอง

4. ไม่มีใครเข้าใจ AlphaGo

ด้านหนึ่งที่สารคดี ฉายให้เห็นในเกมส์การแข่งขัน คือความเห็นของผู้เชี่ยวชาญ ผู้บรรยายเกมส์ ที่ดูเหมือนไม่ได้มีประโยชน์อะไร เพราะผู้บรรยายไม่ว่าจะเป็นของเกาหลีใต้ หรือของยุโรป ก็ไม่ได้เข้าใจความคิดของ AlphaGo เดาไม่ถูกว่า AI กำลังเล่นกลยุทธ์ไหน ยิ่งกว่านั้นบางครั้งจะพบว่าทั้งผู้บรรยายและผู้ชมก็งุนงงเหมือนกันว่า AlphaGo กำลังทำอะไร

เหตุการณ์หนึ่งที่สะท้อนประเด็นนี้ได้ดีคือ กรณีการเดินหมากแบบ slack move หรือเดินแบบผ่านๆดูธรรมดา ไม่มีชั้นเชิง ผู้บรรยายคิดว่านั้นคือความผิดพลาดของ AlphaGo แทนที่จะเลือกเดินหมากที่ฉลาดทำแต้มมากๆจากฝ่ายตรงข้าม แต่อีกความคิดเห็นของทีมพัฒนา อธิบายว่านั้นคือวิธีคิดและการเรียนรู้ของ Machine  ที่ไม่ได้สนใจจะโกยแต้มหรือเอาชนะด้วยคะแนนสูงๆ จนต้องเสี่ยงหรือเลือกเดินหมากที่ยากเสมอไป ตรงกันข้ามทางเดินที่ให้ผลคะแนนน้อยแบบการเดินหมากแบบธรรมดาที่มีความน่าจะเป็นสูงที่จะทำให้ชนะเกมส์กระดานนั้น หรือทำให้จบเกมส์ได้รวดเร็วไม่กี่ตาตามกลยุทธ์ นั้นจะเป็นทางเลือกที่ดีที่สุดของ AlphaGo

5. ชัยชนะช๊อคโลก

เกมส์แรกเป็นเกมส์ที่บีบหัวใจสุดๆ สารคดีฉายให้เห็นภาพความกดดัน ความเครียดในห้องแข่งขันโดยเฉพาะสีหน้าท่าทางของ Lee Sedol  ผู้ชมและผู้ติดตาม เกมส์การแข่งขันนี้ไม่ใช่เกมส์โกะทั่วไป เพราะมันดูเหมือนจะเป็นการพิสูจน์ความสามารถระหว่างคนและ AI ซึ่งพอสุดท้ายผลออกมาว่า Lee Sedol  ต้องพ่ายแพ้จึงทำให้บรรยายกาศ นิ่ง เงียบ อึ้งและเศร้าเข้าปกคลุมห้องแข่งขันทันที เราจะพบสายตาแห่งความเศร้า ความผิดหวังที่เกิด

จุดน่าสนใจคือผู้ถ่ายทำสารคดีได้ไปสัมภาษณ์ ทีมงาน DeepMind ในการจบการแข่งขันวันแรก กับชัยชนะที่ได้รับ ทีมวิจัยคนหนึ่งเธอกล่าวว่าดีใจ แต่ไม่ได้อยากจะฉลองชัยชนะเท่าไหร่ เหมือนลึกๆแล้วเธอยังอยากให้มนุษย์นั้นเอาชนะ AI ได้เช่นกัน

6. Move 37 ความสวยงามของ AI

หลังจากเกมส์แรกที่ Lee Sedol แพ้ต่อ AlphaGo ไปดูเหมือนจะดึงดูดความสนใจให้กับคนจำนวนมากมาติดตามการแข่งขันนี้ เช่นเดียวกัน Lee ก็เดินหมากในรูปแบบแตกต่างจากวันแรกไป ไม่ประมาท AlphaGo และดูเหมือน AlphaGo ยังสร้างปัญหา แรงกดดันทำให้ Lee ต้องสับสน

สารคดีนี้สะท้อนความเห็นของผู้เชี่ยวชาญ ที่พยายามบรรยายเกมส์ แต่ก็ต้องไม่เข้าใจการเดินหมากของ AlphaGo โดยเฉพาะตาเดินสำคัญอย่าง Move 37 ที่ทำเอาผู้บรรยายและผู้ชมทั่วโลกต้องงุนงงตกตะลึง เมื่อ AlphaGo เดินหมากแบบที่ไม่มีใครคาดคิด แม้ทีมงานของ Deepmind ยังคิดว่ามันเป็นการเดินที่ผิดพลาดหรืออาจจะเกิดการคำนวณความน่าจะเป็นที่เพี้ยนและเป็นการเดินที่อาจจะไม่เกิดเลยในการเล่นของมืออาชีพทั่วไป

เกมส์กดดันมาก Move 37 นี้เกิดช่วงที่ Lee ขอเบรกออกไปสูบบุหรี่ เมื่อเขากลับมาเห็นการเดินหมากตานี้ของ AlphaGo เขาถึงกับ งง !! ใช้เวลาคิดนานกว่า 12 นาทีก่อนจะเดินหมากตอบโต้กลับ

สุดท้ายสารคดีอธิบายให้เห็นความสร้างสรรค์ของ AlphaGo ผ่านการเดินตาที่ 37 การเดินที่ดูเหมือนจะไร้ประโยชน์ ไม่ได้เปรียบอะไรในความคิดของคนผู้เชี่ยวชาญนักหมากล้อมที่บรรยายเกมส์ แต่เมื่อจบเกมส์ผู้วิจัยอธิบายให้ว่าสำหรับ AlphaGo แล้วนั้นการตัดสินใจผ่านการ simulation ไปข้างหน้าจำนวนมาก(45-60 ตา) เพื่อให้ได้คำตอบว่ามันเป็นการตัดสินใจที่ดีที่สุดต่อภาพรวมของเกมส์ทั้งหมด ไม่ใช่แค่การทำแต้มสร้างคะแนนจำนวนมากระยะสั้น การเดิน Move37 นั้นระยะสั้นอาจจะดูไม่มีค่าอะไร แต่จุดนั้นกลับสร้างความได้เปรียบเชิงกลยุทธ์เพราะมันเป็นการเชื่อมพื้นที่ สองส่วนเข้าหากันทำให้ได้เปรียบ และบีบฝ่ายตรงข้าม จนสุดท้ายเกมส์นี้ Lee Sedol ก็พ่ายแพ้ไปอีก

 7. Move 78 ความหวังของมนุษย์

หลังจากพ่ายแพ้มา 3 เกมส์ติดนั้นคือผลแน่นอนแล้วว่า  Lee Sedol ไม่สามารถเอาชนะ AlphaGo ได้ แต่ยังแข่งต่อในเกมส์ 4 และ 5 สิ่งที่ในสารคดีสะท้อนให้เห็น คำถามใหญ่บนความคาดหวังว่า มนุษย์จะสามารถเอาชนะปัญญาประดิษฐ์ไปได้หรือไม่

Lee Sedol  ต้องเจอกับกลยุทธ์และเกมส์หมากแปลกๆที่เขาไม่เคยพบ หลายครั้งต้องสับสนและยากที่จะคาดเดาแผนของ AlphaGo ดังนั้นทำให้ดูเหมือน AlphaGo จะคุมเกมส์และไล่กดดัน Lee เป็นส่วนใหญ่ แต่ใน การเดินหมากตาที่ 78 ของเกมส์นี้ กลายเป็นจุดเปลี่ยนสำคัญ เมื่อตานี้ Lee ผ่อนคลายขึ้น กล้าทดลองสามารถเปลี่ยนเกมส์ ทำให้ AlphaGo ต้องตกเป็นฝ่ายตาม การโจมตีของ Lee ที่กลางกระดาน ทำให้ AlphaGo เดินหมากไม่ดี ไม่สามารถสร้างความได้เปรียบได้จนทำให้ต้องพ่ายแพ้ในเกมส์นี้ไป

ผู้บรรยายเรียกการเดินหมากตาที่ 78 นี้ว่าเป็น หัตถ์พระเจ้า(Hand of god) สำหรับ Lee ดูเหมือนเป็นการทดลองแผนการเล่นใหม่ที่เขาก็ไม่ได้มั่นใจเท่าไหร่ว่าจะชนะ เริ่มโจมตียึดพื้นที่กลางกระดาน แต่สำหรับทีมพัฒนาของ Deep mind นั้นสารคดี สะท้อนให้เห็น ความเครียด ความวิตกกังวล เพราะทั้งทีมพัฒนาและ  Fan Hui ทราบดีว่า AlphaGo ไม่ได้สมบูรณ์แบบมี Error ซ่อนอยู่ ซึ่งจุดอ่อนนี้ Fan Hui เพิ่งค้นพบในช่วงวันก่อนการแข่งขันทำให้ไม่สามารถแก้โมเดลได้ทัน สุดท้ายนำมาซึ่งความพ่ายแพ้ อดทำให้คิดไม่ได้ว่าถ้า Lee สามารถหาจุดอ่อนตรงนี้เจอตั้งแต่ เกมส์แรกๆ อาจจะทำให้เขามีโอกาสชนะ หรือแพ้ในคะแนนที่ไม่แย่ก็เป็นได้ ชัยชนะเกมส์นี้ แม้ไม่มีผลต่อภาพรวม แต่มันทำให้คนเกาหลีใต้และคนทั่วโลกที่ติดตามมีความสุข มันเหมือนกับความหวังมวลมนุษย์ชาติยังคงอยู่

8. แก่นแท้ของเกมส์โกะ

สารคดีมีการสัมภาษณ์คนที่เกี่ยวข้องจำนวนไม่น้อยมีหลายมุมมองน่าสนใจ ผมชอบตอนจบกับคำสัมภาษณ์ของ Lee เขากล่าวว่าการแข่งขันนี้คือ ประสบการณ์ครั้งสำคัญในชีวิต เขาได้เรียนรู้อะไรมากมายจาก AlphaGo ซึ่งสุดท้ายมันทำให้เขาค้นพบเหตุผลว่าทำไมถึงเลือกหันมาเล่นโกะตลอดหลายสิบปี นอกจากนี้มันทำให้เขาตระหนักได้ว่า เขาได้เลือกเส้นทางเดินชีวิตที่ถูกแล้ว

ฉากจบของสารคดี ปิดท้ายที่ภาพของ Fan Hui กับลูกสาวที่กำลังเดินเล่นในไร่องุ่น เขาให้สัมภาษณ์สั้นๆว่า AlphaGo ไม่ใช่แค่โปรแกรมคอมพิวเตอร์ มันคิดและสร้างสรรค์ได้ หลังจากเขาได้มีโอกาสเล่นกับ AlphaGo หลายเกมส์ทำให้เขาพบกับความสวยงามของเกมส์ ราวกับ AlphaGo ได้เปิดมุมมอง ได้สอนให้มนุษย์ค้นพบสิ่งที่ซ่อนอยู่ในโกะ ค้นพบแก่นแท้และความหมายของเกมส์   

9. มันคือจุดเริ่มต้นของเรื่องราว

แม้การแข่งขันนี้จะจบลง แต่มันก็ทำให้เกิดเป็นจุดเริ่มต้นประเด็นพูดถึง AI ในอนาคต ความก้าวหน้าในด้านความสามารถที่ดูเหมือน AlphaGo จะพิสูจน์ให้คนทั้งโลกเห็น และเหมือนว่าจะทำให้คนไม่น้อยต้องกังวล แต่เหมือนที่ทีมพัฒนา DeepMind ได้กล่าวไว้ ว่ามันเป็นจุดเริ่มต้นในการพัฒนา

DeepMind พัฒนา AI ตัวใหม่ชื่อ AlphaGo Zero ปิดจุดอ่อน แก้ไขข้อผิดพลาด เพิ่มประสิทธิ์ภาพสิ่งสำคัญ มันไม่ได้ใช้ข้อมูลการเล่นของมนุษย์มาเป็นตัวแบบในการฝึกหัดอีกต่อไป โดยใช้ข้อมูลการเล่นหมากกับตัวเอง เก็บผลแพ้ชนะมาสร้างเป็นโมเดลการเรียนรู้ ทำให้พัฒนาฝีมือได้ดีรวดเร็ว ลักษณะการเล่นหมากที่แตกต่างออกไป

ปัจจุบัน AlphaGo Zero เป็นปัญญาประดิษฐ์เวอร์ชั่นที่ดีที่สุดสามารถเอาชนะ AlphaGo ตัวที่ล้ม Lee Sedol  และ AlphaGo Master ที่ใช้แข่งชนะ Ke Jie มือหนึ่งของวงการโกะ ชาวจีนผู้เป็นแชมป์โลกในวัย 18 ปีไปได้จากการใช้เวลาฝึก 40 วันจน AlphaGo Zero มีค่า Elo rating ถึง 5185 คะแนนสูงกว่ามืออาชีพและแชมป์โลก

-Mr.Chatpat-