หลัก บริการสตรีมมิ่ง AI เรียนรู้ที่จะโกง Q*bert ในแบบที่มนุษย์ไม่เคยทำมาก่อน

AI เรียนรู้ที่จะโกง Q*bert ในแบบที่มนุษย์ไม่เคยทำมาก่อน



AI สามารถโกงกับมนุษย์ที่ดีที่สุดที่มีให้หลังจากค้นพบช่องโหว่ในเกมอาร์เคดคลาสสิก Q * bert และดำเนินการกับมัน

ในขณะที่การทำซ้ำของ AI ก่อนหน้านี้จะเล่น Q*bert ได้อย่างเหมาะสม ในบางจุดในการเรียนรู้วิธีการทำงานของเกม มันค้นพบช่องโหว่ที่ทำให้มันเพิ่มคะแนนที่บ้า โดยธรรมชาติแล้ว อย่างที่ผู้เล่นล่าสัตว์คะแนนจะทำ มันทำซ้ำขั้นตอนเพื่อที่จะสามารถเพิ่มคะแนนของตนได้อย่างมีประสิทธิภาพสูงสุด

คุณสามารถเห็น AI ทำงานในแพลตฟอร์มต่างๆ ในวิดีโอด้านล่าง ตอนแรกมันดูราวกับว่ามันกระโดดไปมาระหว่างแพลตฟอร์มอย่างไร้จุดหมาย แทนที่จะเห็นความคืบหน้าของเกมในรอบต่อไป Q*bert กลับติดอยู่กับวงจรที่ทุกแพลตฟอร์มเริ่มฉายแสง – นี่คือ AI ที่สามารถทำคะแนนได้อย่างบ้าคลั่งเพื่อสะสมคะแนนมหาศาล

อ่านถัดไป: ในที่สุดหนึ่งในสถิติเกมที่มีการโต้เถียงกันมากที่สุดก็ถูกทำให้เสียชื่อเสียงในที่สุด

วิธีลบดูล่าสุดเมื่อต้องการ

AI ชนะสงคราม Q*bert ได้อย่างไร

ทำลายสถิติตลอดกาลสำหรับชื่อนี้ AI ได้รับคะแนนสูงอย่างเหลือเชื่อด้วยการเขียนโปรแกรมอัลกอริทึมกลยุทธ์วิวัฒนาการ กลยุทธ์วิวัฒนาการ (ES) แตกต่างจากการเรียนรู้แบบเสริมแรงปกติ (RL) ที่ AI แบบดั้งเดิมใช้เนื่องจากถูกมองว่าสามารถปรับขนาดได้มากขึ้นเนื่องจากการเรียนรู้ในรุ่น

แต่ละลูปการเรียนรู้จะเรียกว่าเป็นรุ่นและจะทำงานต่อไปจนกว่าจะตรงตามเงื่อนไขที่กำหนดไว้ (ในกรณีนี้คือคะแนนสูง) ในแต่ละรุ่นต่อๆ มา AI จะดูดซับความรู้ของคนรุ่นก่อน ดังนั้นจึงสามารถบรรลุเป้าหมายเดียวกันและก้าวข้ามได้ดีกว่า ทำต่อไปและคุณจะพบกับ AI ที่ไม่มีใครเทียบได้กับงานของมัน นั่นคือสิ่งที่เกิดขึ้นที่นี่กับคะแนน Q*bert

ระบุไว้ใน กระดาษ ซึ่งตีพิมพ์เมื่อสัปดาห์ที่แล้วโดยนักวิจัยจากมหาวิทยาลัยไฟรบูร์ก ประเทศเยอรมนี ดูเหมือนว่าบั๊กจะไม่ทราบปริมาณที่ทราบ ที่จริงแล้วในขณะที่พวกเขาไม่แปลกใจกับการค้นหาจุดบกพร่อง เป็นเรื่องที่น่าสนใจที่จะเห็นว่า AI เดินหน้าต่อไปอย่างไรและเรียนรู้ที่จะใช้ประโยชน์จากมันทุกครั้งที่เล่นเพื่อเพิ่มศักยภาพในการให้คะแนนสูงสุด

อ่านถัดไป: ปัญญาประดิษฐ์นี้ได้เรียนรู้ที่จะเชี่ยวชาญ Super Mario Bros

เพื่อหาจุดบกพร่อง ตัวแทนต้องเรียนรู้ที่จะเกือบผ่านด่านแรกก่อน ซึ่งไม่ได้ทำในทันที แต่ใช้การปรับปรุงเล็กๆ น้อยๆ หลายอย่าง นักวิจัยอธิบายให้ การลงทะเบียน . เราสงสัยว่าในบางช่วงของการฝึกอบรม หนึ่งในวิธีแก้ปัญหาสำหรับรุ่นต่อๆ ไปพบจุดบกพร่องและได้คะแนนที่ดีกว่ามากเมื่อเทียบกับพี่น้อง ซึ่งจะทำให้มีส่วนสนับสนุนในการอัปเดตเพิ่มขึ้น โดยน้ำหนักของมันคือค่ากลางที่ถ่วงน้ำหนัก สิ่งนี้ค่อยๆย้ายวิธีแก้ปัญหาไปยังพื้นที่ที่ลูกหลานเริ่มพบข้อผิดพลาดเดียวกันมากขึ้นเรื่อย ๆ

เราไม่ทราบเงื่อนไขที่แน่นอนที่จุดบกพร่องปรากฏขึ้น เป็นไปได้ที่มันจะปรากฏขึ้นก็ต่อเมื่อตัวแทนปฏิบัติตามรูปแบบที่ดูเหมือนไม่เหมาะสม [เช่น เมื่อตัวแทนเสียเวลา หรือแม้กระทั่งเสียชีวิต] หากเป็นกรณีนี้ มันจะยากมากสำหรับ RL มาตรฐานในการค้นหาจุดบกพร่อง: หากคุณใช้รางวัลที่เพิ่มขึ้น คุณจะได้เรียนรู้กลยุทธ์ที่ให้ผลตอบแทนอย่างรวดเร็ว แทนที่จะเรียนรู้กลยุทธ์ที่ไม่ได้ให้รางวัลมากมายชั่วขณะหนึ่ง และ ทันใดนั้นก็ชนะรางวัลใหญ่

ดูที่เกี่ยวข้อง แชมป์ Dragster Todd Rogers เพิ่งสูญเสียมงกุฎหลังจาก 35 ปี ปัญญาประดิษฐ์นี้เรียนรู้ที่จะเชี่ยวชาญ Super Mario Bros 1-2 มาเป็นเวลา 17 วัน ดู AI เรียนรู้การขับรถใน GTA V บน Twitch

อย่างไรก็ตาม แม้จะมีผลลัพธ์ที่ยอดเยี่ยมของบอท นักวิจัยไม่ได้บอกว่านี่เป็นกรณีที่จะสนับสนุนการเรียนรู้ ES ผ่าน RL อันที่จริง ทั้งสองระบบมีปัญหาของตัวเอง และการรวมกันของทั้งสองส่วนใหญ่ถูกมองว่าเป็นตัวเลือกที่ดีที่สุดในอนาคต

วิธี ES เดียวกันในเกม Atari อื่น ๆ ไม่ได้ให้ผลลัพธ์เชิงบวกที่ใกล้เคียงกัน ในทางกลับกัน RL มีหน้าที่ทำลายสถิติทางซ้าย ขวา และตรงกลาง รวมถึงการเอาชนะผู้เล่น GO ที่ดีที่สุดในโลก ES ยังคงมีสถานที่ของตัวเองในสิ่งต่าง ๆ และจริง ๆ แล้วเป็นวิธีที่ Nvidia ดำเนินการฝึกอบรม AI เป็นจำนวนมากเนื่องจากต้องใช้พลังในการคำนวณมากขึ้น แต่ได้ผลลัพธ์ที่ดีขึ้นในระยะเวลานาน

ไม่ว่าทางไหนจะกลายเป็นอนาคตสำหรับการพัฒนา AI อย่างน้อยบอทที่โกงระบบก็ไม่เลวแบบนี้ ตอนนี้แชมป์โลกวิดีโอเกมที่น่าอับอาย .

บทความที่น่าสนใจ

ตัวเลือกของบรรณาธิการ

รายการแป้นพิมพ์ลัดทั้งหมดสำหรับ Microsoft Paint
รายการแป้นพิมพ์ลัดทั้งหมดสำหรับ Microsoft Paint
หากคุณสนใจเรียนรู้แป้นพิมพ์ลัดสำหรับแอป Paint ใน Windows เวอร์ชันใหม่โปรดอ่านบทความนี้
วิธีเพิ่มการประทับวันที่/เวลาให้กับรูปภาพบน iPhone
วิธีเพิ่มการประทับวันที่/เวลาให้กับรูปภาพบน iPhone
ไม่ว่าคุณจะต้องการสร้างข้อแก้ตัวหรือเขย่าความจำ การดูข้อมูลที่ประทับบนภาพถ่ายโดยตรงจะสะดวกกว่า น่าเสียดายที่ Apple ไม่มีการประทับเวลาในตัวสำหรับรูปภาพบน iPhone หรือ iPad ที่'
ดาวน์โหลดธีม 4K ระดับพรีเมียมอันน่าทึ่งเหล่านี้สำหรับ Windows 10
ดาวน์โหลดธีม 4K ระดับพรีเมียมอันน่าทึ่งเหล่านี้สำหรับ Windows 10
วิธีดาวน์โหลดธีม 4K สำหรับ Windows 10 จาก Microsoft Store เมื่อเร็ว ๆ นี้ Microsoft ได้เปิดตัวธีม 4K ระดับพรีเมี่ยมจำนวนมากผ่านทาง Store สำหรับ Windows 10 ซึ่งมีอยู่ในรูปแบบ * .deskthemepack และสามารถติดตั้งได้ในคลิกเดียว แต่ละธีมประกอบด้วยชุดวอลเปเปอร์สวย ๆ ที่เกี่ยวข้องกับหัวข้อของธีมเช่น ธรรมชาติทิวทัศน์
ปิดใช้งานการป้องกันการป้องกันมัลแวร์ในช่วงต้นอย่างถาวรใน Windows 10
ปิดใช้งานการป้องกันการป้องกันมัลแวร์ในช่วงต้นอย่างถาวรใน Windows 10
วิธีปิดใช้งานการป้องกันมัลแวร์ก่อนเปิดตัวอย่างถาวรใน Windows 10 Windows 10 มาพร้อมกับไดรเวอร์พิเศษ Early Launch Anti-malware (ELAM)
วิธีเปลี่ยนการสมัครแผน Netflix ของคุณ
วิธีเปลี่ยนการสมัครแผน Netflix ของคุณ
วันที่อากาศหนาวเย็นกำลังจะมาถึงและเราทุกคนรู้ดีว่าเราไม่สามารถทำบรรยากาศสบาย ๆ ได้อีกต่อไปหากไม่มี Netflix หากคุณพร้อมที่จะทำใจให้สบายคุณอาจมีรายการทีวีที่คุณชื่นชอบอยู่แล้วพร้อมที่จะรับชม
โทรศัพท์แสดงการชาร์จแต่เปอร์เซ็นต์แบตเตอรี่ไม่เพิ่มขึ้น
โทรศัพท์แสดงการชาร์จแต่เปอร์เซ็นต์แบตเตอรี่ไม่เพิ่มขึ้น
ไม่สามารถปิดใช้งานโฆษณาอัตโนมัติแบบเป็นโปรแกรมบนหน้าเว็บได้ อยู่นี่แล้ว!
วิธีทำให้หมายเลขโทรศัพท์ของคุณเป็นส่วนตัว
วิธีทำให้หมายเลขโทรศัพท์ของคุณเป็นส่วนตัว
อาจมีหลายสาเหตุที่คุณต้องการซ่อนหมายเลขโทรศัพท์ของคุณเมื่อโทรออก คุณอาจกำลังเล่นตลกกับเพื่อน กำลังโทรหาใครบางคนที่คุณไม่ได้พูดคุยด้วยใน