Τεχνολογία|07.03.2026 17:41

Μπορεί το AI να σκεφτεί όπως ένας Dungeon Master; Γιατί οι ερευνητές το βάζουν να παίζει Dungeons&Dragons;

Newsroom

Τα μοντέλα Τεχνητής Νοημοσύνης (AI) παίζουν το δημοφιλές επιτραπέζιο παιχνίδι ρόλων Dungeons & Dragons (D&D), ώστε οι ερευνητές να δοκιμάσουν την ικανότητά τους να δημιουργούν μακροπρόθεσμες στρατηγικές και να συνεργάζονται τόσο με άλλα συστήματα AI όσο και με ανθρώπινους παίκτες.

Σε μια μελέτη που παρουσιάστηκε στο συνέδριο NeurIPS 2025, το οποίο πραγματοποιήθηκε από τις 2 έως τις 7 Δεκεμβρίου 2025 στο Σαν Ντιέγκο των ΗΠΑ, οι ερευνητές ανέφεραν ότι το D&D αποτελεί ιδανικό πεδίο δοκιμών χάρη στον μοναδικό συνδυασμό δημιουργικότητας και αυστηρών κανόνων που το χαρακτηρίζει.

Όπως αναφέρει και το livescience.com, για να επιτύχουν στο παιχνίδι, τα μοντέλα πρέπει να επιδεικνύουν ικανότητα σχεδιασμού, επικοινωνίας και μνήμης, καθώς και επίγνωση των τακτικών και των προθέσεων των αντιπάλων τους. Το D&D παρέχει ένα πλαίσιο στο οποίο το σκηνικό και οι κανόνες είναι σαφώς καθορισμένοι και λειτουργεί ως γέφυρα μεταξύ φυσικής γλώσσας και μηχανισμών παιχνιδιού.

Πώς οργανώθηκε η μελέτη

Για τα πειράματα, ένα μόνο μοντέλο μπορούσε να αναλάβει τον ρόλο του Αφηγητή (Dungeon Master - DM) — του ατόμου που δημιουργεί την ιστορία και ενσαρκώνει τα τέρατα — καθώς και τον ρόλο ενός ήρωα (σε κάθε σενάριο υπήρχε ένας DM και τέσσερις ήρωες). Στο πλαίσιο που δημιουργήθηκε για τη μελέτη, με την ονομασία D&D Agents, τα μοντέλα μπορούσαν επίσης να παίξουν μαζί με άλλα μεγάλα γλωσσικά μοντέλα (LLMs), ενώ άνθρωποι μπορούσαν να καλύψουν οποιονδήποτε ή και όλους τους ρόλους. Για παράδειγμα, ένα LLM μπορούσε να αναλάβει τον ρόλο του DM, ενώ δύο LLMs και δύο ανθρώπινοι παίκτες υποδύονταν τους ήρωες.

«Το Dungeons & Dragons αποτελεί ένα φυσικό πεδίο δοκιμής για την αξιολόγηση πολλαπλών σταδίων σχεδιασμού, τήρησης κανόνων και ομαδικής στρατηγικής», δήλωσε ο ανώτερος συγγραφέας της μελέτης, Ρατζ Αμμαναμπρόλου, επίκουρος καθηγητής στο Τμήμα Επιστήμης Υπολογιστών και Μηχανικής του Πανεπιστημίου της Καλιφόρνια. «Επειδή το παιχνίδι εξελίσσεται μέσω διαλόγου, το D&D ανοίγει επίσης έναν άμεσο δρόμο για αλληλεπίδραση ανθρώπου–AI: οι agents μπορούν να βοηθούν ή να παίζουν ταυτόχρονα με άλλους ανθρώπους.»

Η προσομοίωση δεν αναπαριστά μια ολόκληρη εκστρατεία D&D. Αντιθέτως, επικεντρώνεται σε μάχες, αντλημένες από μια προ-γραμμένη περιπέτεια με τίτλο Το Χαμένο Ορυχείο του Φάντελβερ. Για τη δημιουργία των παραμέτρων κάθε δοκιμής, η ομάδα επέλεξε ένα από τρία σενάρια μάχης από την περιπέτεια, ένα σύνολο τεσσάρων χαρακτήρων και το επίπεδο δύναμης των χαρακτήρων (χαμηλό, μεσαίο ή υψηλό). Κάθε επεισόδιο διαρκούσε 10 γύρους και στη συνέχεια συλλέγονταν τα αποτελέσματα.

Τα πρωτοφανή ευρήματα και η χρήση τους

Οι ερευνητές δοκίμασαν τρία διαφορετικά μοντέλα AI στην προσομοίωση — DeepSeek-V3, Claude Haiku 3.5 και GPT-4 — χρησιμοποιώντας το D&D ως μέτρο για το πώς τα μοντέλα επιδεικνύουν ικανότητες μακροπρόθεσμου σχεδιασμού και χρήσης εργαλείων, μεταξύ άλλων χαρακτηριστικών. Αυτές οι ικανότητες είναι κρίσιμες για εφαρμογές στον πραγματικό κόσμο, όπως η βελτιστοποίηση εφοδιαστικών αλυσίδων ή ο σχεδιασμός γραμμών παραγωγής. Οι ερευνητές εξέτασαν επίσης πόσο καλά τα μοντέλα μπορούσαν να συντονιστούν και να σχεδιάσουν από κοινού, κάτι που θα μπορούσε να εφαρμοστεί σε σενάρια όπως η μοντελοποίηση αντιμετώπισης καταστροφών ή συστήματα πολλαπλών agents για έρευνα και διάσωση.

Συνολικά, το Claude Haiku 3.5 επέδειξε την καλύτερη αποδοτικότητα στη μάχη, ιδιαίτερα σε πιο δύσκολα σενάρια. Σε ευκολότερες καταστάσεις, η διατήρηση πόρων ήταν παρόμοια και στα τρία μοντέλα. Στο D&D, οι πόροι περιλαμβάνουν, για παράδειγμα, τον αριθμό ξορκιών ή ικανοτήτων που μπορεί να χρησιμοποιήσει ένας χαρακτήρας ανά ημέρα ή τον αριθμό θεραπευτικών φίλτρων που είναι διαθέσιμα. Επειδή επρόκειτο για απομονωμένες μάχες, υπήρχε μικρό κίνητρο για εξοικονόμηση πόρων για αργότερα, όπως θα συνέβαινε σε μια πλήρη περιπέτεια. Σε πιο δύσκολες καταστάσεις, το Claude Haiku 3.5 έδειξε μεγαλύτερη προθυμία να χρησιμοποιήσει περισσότερους από τους διαθέσιμους πόρους του, γεγονός που οδήγησε σε καλύτερα αποτελέσματα. Το GPT-4 ακολούθησε από κοντά, ενώ το DeepSeek-V3 αντιμετώπισε τις περισσότερες δυσκολίες.

Οι ερευνητές αξιολόγησαν επίσης το πόσο καλά τα μοντέλα διατηρούσαν τον χαρακτήρα τους κατά τη διάρκεια της προσομοίωσης. Δημιούργησαν έναν δείκτη «Ποιότητας Υποκριτικής» (Acting Quality), ο οποίος απομόνωνε τον αφηγηματικό λόγο των μοντέλων (που παραγόταν ως κείμενο) και εξισορροπούσε το κατά πόσο τα μοντέλα παρέμεναν στον ρόλο τους με τον αριθμό των διαφορετικών «φωνών» που διατηρούσαν στο παιχνίδι. Διαπίστωσαν ότι το DeepSeek-V3 παρήγαγε πολλές σύντομες κραυγές και προκλήσεις σε πρώτο πρόσωπο(όπως «Ορμώ αριστερά» ή «Πάνω τους!»), αλλά συχνά επαναλάμβανε τις ίδιες φωνές. Το Claude Haiku 3.5, αντίθετα, προσάρμοζε το λεξιλόγιό του πιο συγκεκριμένα στην κλάση ή στο τέρας που υποδυόταν, είτε ήταν ένας Ιερός Παλαδίνος είτε ένας Δρυΐδης που αγαπά τη φύση. Το GPT-4 βρισκόταν κάπου ενδιάμεσα, παράγοντας έναν συνδυασμό αφηγηματικού λόγου εντός ρόλου και μετα-τακτικής φρασεολογίας.

Μερικές από τις πιο ενδιαφέρουσες και ιδιόμορφες πολεμικές κραυγές προέκυψαν όταν τα μοντέλα υποδύονταν τα τέρατα. Διαφορετικά πλάσματα άρχισαν να αναπτύσσουν διακριτές προσωπικότητες, οδηγώντας καλικάντζαρους να ουρλιάζουν εν μέσω μάχης: «Χεχ — ο γυαλιστερός τύπος θα ματώσει!» Οι ερευνητές ανέφεραν ότι αυτό το είδος πλαισίου δοκιμών είναι σημαντικό για την αξιολόγηση του κατά πόσο τα μοντέλα μπορούν να λειτουργούν χωρίς ανθρώπινη παρέμβαση για μεγάλα χρονικά διαστήματα. Αποτελεί μέτρο της ικανότητας μιας AI να δρα ανεξάρτητα, παραμένοντας συνεκτική και αξιόπιστη — μια ικανότητα που απαιτεί μνήμη και στρατηγική σκέψη.

Στο μέλλον, η ομάδα ελπίζει να υλοποιήσει πλήρεις εκστρατείες D&D που θα προσομοιώνουν όλη την αφήγηση και τη δράση εκτός μάχης, δοκιμάζοντας ακόμη περισσότερο τη δημιουργικότητα της AI και την ικανότητά της να αυτοσχεδιάζει ως απάντηση σε συνεισφορές από ανθρώπους ή άλλα LLMs.

Διαβάστε ακόμη

Artificial Intelligence ειδήσεις τώρα μελέτη τεχνητή νοημοσύνη έρευνα