430 likes | 646 Views
Metody oceny siły rąk w rozdaniach brydżowych. mgr inż. Krzysztof Mossakowski Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska. Warszawa, 8 listopada 2006. Zagadnienie.
E N D
Metody oceny siły rąk w rozdaniach brydżowych mgr inż. Krzysztof Mossakowski Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Warszawa, 8 listopada 2006
Zagadnienie • Znając dokładny rozkład kart w rozdaniu brydżowym, odpowiedzieć na pytanie ile lew weźmie para NS przy założeniu optymalnej gry wszystkich graczy • Miara skuteczności - dla ilu procent rozdań: • bezbłędny wynik • tolerancja jednej lewy • tolerancja dwóch lew
Sieci neuronowe • Java Neural Network Simulator • Sieci feed-forward: • funkcja aktywacji: unipolarna lub bipolarna sigmoidalna, • resilient backpropagation (RProp), • 52 lub 104 neurony wejściowe, • eksperymenty z liczbą warstw i neuronów ukrytych, • 1 lub 14 neuronów wyjściowych.
W procentach: błąd nie większy niż dwie lewy W procentach: błąd nie większy niż jedna lewa WynikiGra BA, wist W W procentach:bezbłędnie
WynikiGry kolorowe, wist W • (26x4;1) – dodatkowy neuron • 52 i 104 – wzmacniane wartości wejściowe neuronów kart atutowych
WynikiGra w Piki, zmiana wistu • W 7,1% rozdań liczba lew zależy od tego, kto wistuje
WynikiPodsumowanie • Najlepsze dotychczasowe wyniki • uczenie wyłącznie na przykładach • bez ludzkiej wiedzy • bez znajomości zasad gry
Punkty Miltona Worka Punkty Bambergera Punkty Colleta Punkty czterech asów Polskie punkty Punkty AKD Punkty Reitha Punkty Robertsona Punkty Vernesa A K Q J T 4 3 2 1 0 7 5 3 1 0 4 3 2 0.5 0.5 3 2 1 0.5 0 7 4 3 0 0 4 3 2 0 0 6 4 3 2 1 7 5 3 2 1 4 3.08 1.88 0.94 0 Punkty za honory
Punkty Vernesa • Relatywna wartość honorów w stosunku do asa, obliczona na podstawie 2400 rozdań z Mistrzostw Świata w 1965 roku A K Q J 4,00 3,08 1,88 0,94 • Sieci neuronowe 52-1 • BA: 4,00 2,67 1,68 1,05 • Atu: 4,00 3,11 2,27 1,63 ... 2: 0,59Nie-Atu: 1,82 0,64 -0,26 -0,73
Punkty za układModyfikacje Miltonów • Plus • +0.25 za każdego asa • +0.5 za każdą dziesiątkę z innym honorem lub dziewiątką • +0.5 za zgrupowanie honorów • +0.5 za każdą figurę za ręką • Minus • -1 za brak asa na ręce • -0.5 za brak dziesiątek • -1 za brak odpowiedniej liczby kart towarzyszących honorowi • -0.5 za brak zgrupowania honorow • -1 za każdą figurę przed ręką • Trzech i czterech reguła • +1 za każdą kartę powyżej 4 w atu • +1 za każdą kartę powyżej 3 w bocznym kolorze
Punkty za układModyfikacje Miltonów c.d. • Punkty przeliczeniowe Truscotta • +1 za kolor 5+ • +1 za singel • +2 za renons • Punkty przeliczeniowe Staymana • +1 za 4 asy • +1 za K, D lub KD w kolorze partnera • -1 za brak asów • -1 za honory w bocznych kolorach bez obstawy • +2 za piątą, szóstą itd. kartę w kolorach 5+ z AKDW lub AKD • +1 za piątą, szóstą itd. kartę w kolory 5+ z co najmniej dwoma honorami • +3 za renons, +2 za singel, +1 za dubleton
Punkty za układUjemna lewa • Ile lew jest do oddania w kolorze • 1 LU za K, D, x, AD, Ax, Kx, AKW, AKx, ADW, ADx, KDW, KDx • 2 LU za DW, Dx, xx, AWx, Axx, KW10, Kxx, DW10, Dxx • 3 LU za W10x, xxx
Punkty za układWygrywająca lewa • Ile lew jest do wzięcia w kolorze • wartości honorów w krótkich kolorach • np. AKD 3, AKW 2.5, KW10 1,5, KDW 2, • wartości honorów w sekwensach i niskich kart w długich kolorach zawierających sekwensy • np. AKDW 4, AKD10 3.5, AW109 2.5 • +1 za 5 kart w kolorze, +2 za 6, +3 za 7 • wartości niskich kart w długich kolorach • np. dla 5-kartowego koloru: +2 dla atu, +1 dla bocznego koloru • dodatkowo za kolor atutowy • +1 za A, K lub DW, +0,5 za D lub W10 • +2 za 6 kart, +1 za 5, +0,5 za 4 • krótkość w bocznym kolorze przy grze w atu
Liczba punktów a liczba lew(wg sieci 1-1) Bez Atu 93.73 | 76.41 | 31.37
Punkty Zara • Siła ręki to suma: • wartości honorów wg puktacji:A: 6, K: 4, D: 2, W: 1 • różnicy długości najdłuższego i najkrótszego koloru • sumy długości dwóch najdłuższych kolorów • Wyniki dla Pików ze zmianą wistu:
Reprezentacja danych52x4 NOWOŚĆ
(26x4) 10 tys. rozdań ~ 50 tys. iteracji 52 i 104 100 tys. rozdań ~ 1 tys. iteracji 52x4 100 tys. rozdań ~ 10 tys. iteracji Porównanie procesu nauki 26x4 52 104 52x4
Sprawdzenie powtarzalności wyników • 4 sieci 52-25-1 uczone niezależnie na tych samych rozdaniach98.84 | 88.69 | 40.9198.52 | 87.23 | 39.5498.87 | 88.65 | 41.1698.51 | 87.11 | 39.6098.82 | 88.47 | 40.8998.52 | 87.17 | 39.5898.87 | 88.61 | 40.7998.51 | 87.09 | 39.42 BA Atu zgodne wyniki 61.23% 63.40%1 lewa rozbieżności 37.93% 36.56%2 lewy rozbieżności 0.81% 0.04%3 lewy rozbieźności 0.03% 0.00%
Użycie średniej wartości wynikowej kilku sieci • Cztery niezależnie uczone sieci 52-25-1: • Biorąc ich średnią wartość wyjścia: Bez Atu 96.21 | 81.29 | 34.7796.16 | 81.30 | 34.8696.36 | 81.72 | 35.0096.36 | 81.94 | 35.15 Kontrakty atutowe 98.81 | 88.85 | 40,7198.86 | 88.75 | 41,0298.81 | 88.51 | 40.7198.87 | 88.62 | 40.71 96.43 | 82.14 | 35.46 98.91 | 89.13 | 41.13
Sprawdzenie skuteczności dla poszczególnych liczb lew Piki 52-25-1 lewy # ±2 ±1 0 0 1138 93,32% 66,61% 12,30% 1 2725 97,39% 81,21% 34,53% 2 5156 98,10% 86,66% 40,73% 3 8043 98,93% 88,96% 41,41% 4 10447 98,94% 89,04% 40,36% 5 12201 98,85% 88,67% 40,80% 6 12927 99,03% 88,75% 41,32% 7 12709 99,10% 88,99% 40,50% 8 11467 99,28% 89,29% 40,46% 9 9618 99,14% 89,19% 42,14% 10 6866 98,89% 88,45% 40,58% 11 4225 97,94% 85,87% 42,32% 12 1935 97,57% 81,71% 31,94% 13 543 94,66% 73,85% 9,39%
Sprawdzenie skuteczności na granicach Piki 52-25-1
Uczenie na błędach Piki, sieci 52-25-1 • I faza98.77 | 88.00 | 40.13 • II faza – inna sieć uczona na błędach I fazy97.48 | 77.56 | 15.17wynik dla poprawnych z I fazy: 100.00 | 99.96 | 74.35 • III faza – inna sieć uczona na błędach II fazy96.61 | 73.01 | 12.77wynik dla poprawnych z I fazy: 100.00 | 99.87 | 70.69wynik dla poprawnych z II fazy: 100.00 | 98.34 | 39.15
Uczenie na błędach kontynuacja • Używając 2 sieci w II fazie (jedna uczona na błędach przeszacowania, druga niedoszacowania) • przeszacowanie: uczenie: 99.85 | 98.29 | 65.72na całym testowym: 91.85 | 65.02 | 21.13 • niedoszacowanie: uczenie: 99.94 | 98.56 | 67.68na całym testowym: 92.47 | 66.52 | 22.08 • Tworząc system 3 sieci (dwie powyższa i ta z pierwszej fazy) i jako wynik biorąc ich średnią:98.80 | 88.01 | 40.37dla porównania wynik pierwotnej sieci:98.77 | 88.00 | 40.13
Podsumowanie: • Wyniki najlepszej sieci52x4-26x4-26-13-1 • Bez Atu: 96.89 | 83.64 | 37.31 • Piki ze zmianą wistu: 99.88 | 96.48 | 53.11 • Uczenie wyłącznie na przykładach • Bez ludzkiej wiedzy • Bez znajomości zasad gry
Pomysły ?