Den Test kannte ich noch nicht, aber mit zwei Testspielern ist er auch nicht sooo viel aussagekräftiger als bei nur einem Testspieler. Aber das soll auch kein Vorwurf sein, ich weiß selber, wie aufwändig solche Tests sein wollen. Das ufert schnell zur Doktorarbeit aus.
Wenn man nicht messen will, welches Programm für eine bestimmte Zielgruppe das Spielstärkste ist, braucht man wohl um die 10 Testspieler: starker Ligaspieler (BL), schwacher Ligaspieler (LL), starker Freizeitspieler, Hobbyspieler, Anfänger - und das ganze jeweils in den Ausprägungen "offensiv" und "defensiv".
Jeder von denen muss dann gegen jedes Programm einige Serien spielen, und zwar am besten so, dass er nach jeder Serie das Programm wechselt. Oder aber alle Serien gegen ein Programm und dann wieder vier Wochen Realskat. Ansonsten kann es passieren, dass er nach dem dritten Programm sich so an den Computerskat gewöhnt hat (der ja vom Realskat abweichen könnte), dass die Messergebnisse verzerrt werden.
Zur Auswertung schlage ich vor, in jeder Serie die Differenz zwischen dem Wert des Menschen und dem Mittelwert der Computerspieler zu bilden. So wird auch das Programm belohnt, das ein starkes Gegenspiel hat.
Eine Alternative - aber wohl Zukunftsmusik - wäre ein Spielserver, auf dem sich Menschen und Computerprogramme tummeln und der für jeden, der dort jemals gespielt hat, eine Art ELO-Zahl führt. Für die, die damit nichts anfangen können: Das ist das Ranglistensystem beim Schach. Es funktioniert - vereinfacht gesagt so: Wenn zwei Spieler X und Y mit ELO x und y gegeneinander spielen, so sagt die Differenz x-y etwas darüber aus, wie viele Punkte der Spieler X im Durchschnitt pro Partie machen müsste. Erfüllt er genau diesen Durchschnitt, so bleiben die ELO unverändert. Macht er mehr Punkte, so gibt Y ein bischen von seiner ELO an X ab, macht er weniger Punkte, so ist es umgekehrt.
Der Vorteil dieses Systems ist: Man muss Tests nicht normieren! Mit einem ganzen Rudel von Testspielern, die keine strenge Aufgabe bekommen (spiele 5 Serien gegen Programm 1 und dann 5 Serien gegen Programm 2), sondern nur den Auftrag haben, fleißig gegen mehrere Programme zu spielen, ohne genau auf die Anzahl der Serien und die Reihenfolge zu achten, könnte man aussagekräftige Ergebnisse erzielen. Wichtig wäre nur, dass alle Programme ungefähr gleich oft dran kommen (über die gesamte Testgruppe gerechnet, nicht auf jeden einzelnen Tester heruntergebrochen!). Schöner Nebeneffekt wäre, dass auch die Menschen eine Leistungszahl bekämen.
Wie ein ELO-artiges System beim Skat funktionieren könnte, habe ich dort beschrieben:
http://www.32karten.de/forum/viewtopic. ... hlight=elo