Computer Modeling And Simulation

Computer Modeling And Simulation F.Ramezani Department of Computer Engineering Islamic Azad University SARI Branch Introduction toComputer Modeling AndSimulation

تعیین توزیع داده ها • خلاصه اطلاعاتی از داده هامثال: میانگین I / O دیسک به معنی 13، واریانس 48. • به علاوه، توزیع داده برای مدل سازی شبیه سازی و یا تحلیل داده بسیار مفید است. • چگونه می توانیم توزیع داده ها را تعیین کنیم؟ • هیستوگرام طرح

توزیع داده ها • plot • yi is observed, xi is theoretical • If distribution fits, will have line qi = F(xi), or xi = F-1(qi) Where F-1? Normal distribution: xi = 4.91[qi0.14 – (1-qi)0.14] Sample Quantile Theoretical Quantile

اندازه گیری ارزش های خاص Accuracy Mean of measured values (sample mean) Resolution (determined by tools) True value (population mean)

مقایسه سیستم با استفاده از داده های نمونه • کلمه "نمونه" از همان ریشه کلمه "به عنوان مثال” می آید • به طور مشابه، یک نمونه یک نظریه را ثابت نمی کند، بلکه یک مثالی از آن است • یک بیانیه قطعی می تواند در مورد ویژگی های یک سیستم قطعی ساخته شده اطلاعاتی بدهددر عوض، بیانیه احتمالاتی در مورد طیف وسیعی از اکثر سیستم ها حرف میزند • فاصله اطمینان

نمونه در مقابل جمعیت • Say we generate 1-million random numbers • mean  and stddev. •  is population mean • selecting n samples • Sample {x1, x2, …, xn} has mean x, stddev s • x is likely different than ! • With many samples, x1 != x2!= … • بطور معمول میانگین داده ها شناخته شده نیست اما میتوان برای یک جمعیت نمونه محاسبه کرد

فاصله اطمینان برای میانگین • محاسبه احتمال میانگین در فاصله [c1,c2] • Prob{c1 << c2} = 1- • (c1, c2) is فاصله اطمينان •  is سطح اهمیت • 100(1- ) is سطح اطمینان • بطور معمول سطح اطمینان بین90%, 95% or 99%

قضیه حد مرکزی • - مجموع و میانگین مقادیر یک نمونه تصادفیn تایی که از یک جامعه آماری انتخاب می شوند بطورتقریبی به یک توزیع نمونه گیری قرینه گرایش دارد. • - در قضیه حدمرکزی اگر یک نمونه تصادفیn تایی که از یک جامعه غیرنرمال با میانگین و انحراف معیارانتخاب شود وقتی بزرگ باشد توزیع نمونه گیری تقریبا به صورت نرمال توزیع خواهد شد و میانگین و انحراف معیار زیر را خواهد داشت: • x¯=x • x¯=x/√n • وقتی n بزرگ شود غیر نرمال به نرمال تبدیل می شود. • در قضیه حد مرکزی هرگاه مجموع و یا متوسط مورد استفاده و اندازه نمونه به قدر کافی بزرگ باشد انتظار می رود که تخمین زننده دارای یک توزیع نرمال (البته به طور تقریبی) در نمونه گیریهای مکرر باشد. به صورت حسی، قضیه حد مرکزی می‌گوید که یک سری از چند متغیر تصادفی مستقل با توزیع یکسان در بینهایت به سمت یک متغیر تصادفی مشخص میل می‌کنند.

1- تخمین فاصله ای میانگین جامعه آماریx • اگر از یک جامعه نامحدود نمونه گیری کنیم، خواهیم داشت: x¯x x¯=x/√n • اگر جامعه نمونه گیری نرمال باشد  بدون توجه به اندازه نمونه x¯دارای توزیع نرمال است. • اگر جامعه نمونه گیری غیرنرمال باشد  طبق قضیه حد مرکزی اگر نمونه بزرگ باشد خواهیم داشت: x¯x x¯=x/√n • تخمین فاصله ای یک پارامتر جامعه قاعده ای است که می گوید چگونه دو مقدار را بر پایه داده های نمونه محاسبه کنیم تا x¯ در وسط آن قرار گیرد • وقتی تخمین فاصله ای برای پارامتر جامعه آماری بکار رود  یک جفت عدد از تخمین زننده بدست می آید  که به آن تخمین فاصله ای ( فاصله اطمینان ) برای پارامتر گویند.

ادامه تخمین فاصله ای میانگین جامعه آماریx • تخمین فاصله ای x می شود: x¯± دقت برآورد : مقدار ثابتی است که به کمک آن حد بالا و حد پایین را می توان تعریف کرد.

ادامه تخمین فاصله ای میانگین جامعه آماریx • سطح اطمینان محقق : همان سطح احتمال تخمین زدن پارامتر است و یا سطح دلخواه در یک توزیع آماری که xدر آن قرار می گیرد. مثل سطح اطمینان 95%. • سطح خطا  • فاصله اطمینان خوب فاصله ای است که با کوچکترین عرض برآورد در برگیرنده پارامتر باشد. هرچه nنمونه بزرگتر باشد  صحت و دقت در یک فاصله اطمینان بیشتر و بالاتر است

تحمین زن فاصله ای • می خواهیم پارامتر  را آنچنان تخمین بزنیم که اختلاف  و ˆحد از اندازه  کمتر باشد. این حرف با اطمینان  همراه است، یعنی احتمال آن  است. P(|ˆ-|<)==1- بنابراین فاصله اطمینان در سطح  می شود: ˆ ˆ بنابراین حد بالا و پایین عبارت خواهد بود از: (Ļ,Ĺ) =ˆ ˆ • بطور کل در تخمین زن فاصله ای باید 4 مرحله را انجام داد: 1- احتمال قائل شدن برای تخمین زن 2- خطای حدی 3- فاصله اعتماد 4- تخمین فاصله ای

(Sorted) CPU Time 1.9 2.7 2.8 2.8 2.8 2.9 3.1 3.1 3.2 3.2 3.3 3.4 3.6 3.7 3.8 3.9 3.9 3.9 4.1 4.1 4.2 4.2 4.4 4.5 4.5 4.8 4.9 5.1 5.1 5.3 5.6 5.9 Confidence Interval Example • x = 3.90, stddev s=0.95, n=32 • فاصله اطمینان:??

 f(x) معنی فاصله اطمینان SampleIncludes ? 1 yes 2 yes 3 no …

تعیین حجم نمونه • هرچه تعداد نمونه بیشتر ، نرخ اعتماد بیشتر خواهد بود • اما هرچه نمونه ها بیشتر باشند زمان بیشتری نیز نیاز میباشد • هدف این است که با کوچکترین اندازه مجموعه نمونه نرخ درستی بیشتری داشته باشیم • مجموعه ای کوچک از اندازه گیری های اولیه • به منظور برآورد واریانس • برای تعیین حجم نمونه برای دقت بیشتر

Regression • اندازه گیری عملکرد در تمام مقادیر ورودی یک سیستم، گران (و گاهی اوقات غیر ممکن) است • در عوض، اندازه گیری عملکرد برای ورودی های محدود و استفاده از بیش از طیف وسیعی از مقادیر ورودی برای تولید مدل میتواند آسان باشد • ساخت مدل رگرسیون

Linear Regression (1 of 2) • Captures linear relationship between input values and response • Of the form: y = a + bx • Where x input, y response and we want to know a and b • If yi is measured for input xi, then each pair (xi, yi) can be written: yi = a + bxi + ei • where ei is error for regression model

Linear Regression (2 of 2) • The sum of the errors squared: SSE = ei2 = (yi - a - bxi)2 • Find a and b that minimizes SSE na + bxi = yi axi + bxi2 = xiyi • Solving for b gives: b = nxiyi – (xi)(yi) nxi2 – (xi)2 • Using (1) and solving for a: a = y – bx

Linear Regression Example (1 of 3) File Size Time (bytes) (sec) 10 3.8 50 8.1 100 11.9 500 55.6 1000 99.6 5000 500.2 10000 1006.1 Develop linear regression model for time to read file of size bytes

File Size Time (bytes) sec) 10 3.8 50 8.1 100 11.9 500 55.6 1000 99.6 5000 500.2 10000 1006.1 Develop linear regression model for time to read file of size bytes xi = 16,660.0 yi= 1685.3 xiyi = 12,691,033.0 xi2= 126,262,600.0 x = 2380 y = 240.76 b = (7)(12691033)(16660)(1685.3) (7)(126262600)– (16660)2 a = 240.76–.1002(2380) = 2.24 y = 2.24 + 0.1002x Linear Regression Example (2 of 3)

Linear Regression Example (3 of 3) File Size Time (bytes) (sec) 10 3.8 50 .1 100 11.9 500 55.6 1000 99.6 5000 500.2 10000 1006.1 y=2.24 + 0.1002x Ex: predict time to read 3k file is 303 sec

ضریب تصمیموضریب همبستگی • After developing regression model, useful to know how well the regression equation fits the data • ضریب تصمیم • ضریب همبستگی

Coefficient of Determination • Earlier: SSE = Syy – bSxy • Let: SST = Syy and SSR = bSxy • Now: SST = SSR + SSE • Total variation (SST) has two components • SSR by regression (Sum of Squares Regression) • SSE is model error (distance from line)(sum of squared residuals) • Fraction of total variation explained by model line: r2 = SSR / SST = (SST – SSE) / SST • ضریب تصمیم • How “good” is the regression model? Roughly: • 0.8 <= r2 <= 1 strong • 0.5 <= r2 < 0.8 medium • 0 <= r2 < 0.5 weak

ضریب همبستگی • Square root of coefficient of determination is the correlation coefficient. Or: r = Sxy / sqrt(SxxSyy) • Note, equivalently: r = b sqrt(Sxx/Syy) = sqrt(SSR/SST) • Where b = Sxy/Sxx is slope of regression model line • Value of r ranges between –1 and +1 • +1 is perfect linear positive relationship • Change in x provides corresponding change in y • -1 is perfect linear negative relationship

Correlation Example • From Read Size vs. Time model, correlation: r = b sqrt(Sxx/Syy) = 0.1002 sqrt(86,611,800 / 869,922.4171) = 0.9998 • Coefficient of determination: r2 = (0.9998)2 = 0.9996 • So, 99.96% by the linear model

Correlation Visual Examples (1 of 2) (http://peace.saumag.edu/faculty/Kardas/Courses/Statistics/Lectures/C4CorrelationReg.html)

r = 1.0 r = .85 r = -.94 r = .17 Correlation Visual Examples (2 of 2) (http://www.psychstat.smsu.edu/introbook/SBK17.htm)

Computer Modeling And Simulation