bzoj1076【SCOI2008】獎勵關
1076: [SCOI2008]獎勵關
Time Limit: 10 Sec Memory Limit: 128 MBSubmit: 1568 Solved: 876
[Submit][Status][Discuss]
Description
你正在玩你最喜歡的電子遊戲,並且剛剛進入一個獎勵關。在這個獎勵關裡,系統將依次隨機丟擲k次寶物,
每次你都可以選擇吃或者不吃(必須在丟擲下一個寶物之前做出選擇,且現在決定不吃的寶物以後也不能再吃)。
寶物一共有n種,系統每次丟擲這n種寶物的概率都相同且相互獨立。也就是說,即使前k-1次系統都丟擲寶物1(
這種情況是有可能出現的,儘管概率非常小),第k次丟擲各個寶物的概率依然均為1/n。 獲取第i種寶物將得到Pi
分,但並不是每種寶物都是可以隨意獲取的。第i種寶物有一個前提寶物集合Si。只有當Si中所有寶物都至少吃過
一次,才能吃第i種寶物(如果系統丟擲了一個目前不能吃的寶物,相當於白白的損失了一次機會)。注意,Pi可
以是負數,但如果它是很多高分寶物的前提,損失短期利益而吃掉這個負分寶物將獲得更大的長期利益。 假設你
採取最優策略,平均情況你一共能在獎勵關得到多少分值?
Input
第一行為兩個正整數k和n,即寶物的數量和種類。以下n行分別描述一種寶物,其中第一個整數代表分值,隨
後的整數依次代表該寶物的各個前提寶物(各寶物編號為1到n),以0結尾。
Output
輸出一個實數,保留六位小數,即在最優策略下平均情況的得分。
Sample Input
1 21 0
2 0
Sample Output
1.500000HINT
【資料規模】
1<=k<=100,1<=n<=15,分值為[-10^6,10^6]內的整數。
狀壓DP+概率DP,思路好題
f[i][j]表示到第i步,二進位制狀態為j的答案。逆向DP會比較好做,最後輸出f[1][0]。
預處理p[i],表示i的前提寶物集合,用二進位制位表示。
轉移方程為:
if ((p[x]&j)==p[x]) f[i][j]+=max(f[i+1][j],f[i+1][j|(1<<(x-1))]);
else f[i][j]+=f[i+1][j];
f[i][j]/=n;
感覺這道題思路有一點抽象,略難理解。
#include<iostream> #include<cstdio> #include<cstdlib> #include<cstring> #include<cmath> #include<algorithm> #define F(i,j,n) for(int i=j;i<=n;i++) #define D(i,j,n) for(int i=j;i>=n;i--) #define ll long long using namespace std; int n,k,t,a[20],p[20]; double f[105][40000]; inline int read() { int x=0,f=1;char ch=getchar(); while (ch<'0'||ch>'9'){if (ch=='-') f=-1;ch=getchar();} while (ch>='0'&&ch<='9'){x=x*10+ch-'0';ch=getchar();} return x*f; } int main() { k=read();n=read(); F(i,1,n) { a[i]=read();t=read(); while (t) p[i]+=1<<(t-1),t=read(); } D(i,k,1) F(j,0,(1<<n)-1) { F(x,1,n) if ((p[x]&j)==p[x]) f[i][j]+=max(f[i+1][j],f[i+1][j|1<<(x-1)]+a[x]); else f[i][j]+=f[i+1][j]; f[i][j]/=n; } printf("%.6lf\n",f[1][0]); return 0; }