|
|
AC In/Out OS Slow Response . ~6 l% ]7 ]- e4 q T/ Q# q, u
- Phenomenon
6 V% V6 j( v: h9 w ~7 w 9 a) E, s+ x+ B7 g3 T1 l
手上一个超薄NB的案子DQA报了这样一条bug:频繁的插拔AC,vista右下角的power icon有时反应很慢,AC插拔过后有时需要等几秒或十几秒才发现power icon有变化。Power icon指的是下图红色圆圈标出的部分:# z$ v# m( T/ n$ e2 r
K: ^! g9 q7 j5 Y1 e! m# d# h8 A, L4 M/ l
刚看到这条bug时,我有点不以为然,因为有些机种也有这样的状况,所以我以为这个有可能是不同的测试人员认知上差异。而且超薄NB为了解决好功耗、导热的问题都使用比较低的配置,我最初还觉得可能跟配置有关。但是他们找了个相同chipset的机器去试,反应很流畅没有这样的现象L!我的猜测站不住脚了,这时我觉得应该是FW有些地方没有处理好导致的了。随后我们开始debug,首先我们要理清AC in/out 过程中EC、BIOS、OS都做了哪些动作,我所知道的状况是这样:1. EC检测到AC in/out的中断,更新EC ram中的AC状态并引发SCI IRQ通知OS。2.OS收到SCI IRQ后调用BIOS中的_Q method并通过Notify function通知OS power source change。3.OS调用_PSR function获取AC的状态并据此更新power icon显示。上述過程sample code 如下述所示:) n0 s' h$ ~& u* A! l2 k
// AC Change event
3 ?- Y4 P3 _' d3 L
( H' s$ G/ Q1 H( Z3 ~$ |6 W6 E& @Method(_QXX), G. C; x" i+ H/ w8 m* X
" f" g, C5 V* u+ a{
$ C# }8 @- ^9 _+ k
8 |. W& B0 j6 fStore(0x09, DBG8)
0 e2 y' I4 l5 k4 `) k; x8 e5 [3 ?# u, O9 {. `/ I
Notify(\_SB. ADP,0x80)
! _ N2 N7 C( |9 g! `' E( x4 |. \1 w//Power Source status changed
$ ` f, L0 o2 D8 d( _: L Z' P. B9 k* J$ ~* `% _
Store(0x0A, DBG8)* f4 x" w( ^7 x5 [) l; d3 d
5 {9 _+ |, P$ E- G/ i' v
+ c$ _: }4 C4 A% m+ U! @/ E }/ D}
/ H- Z6 u3 r3 N6 E' L6 j% n X f! Q3 n1 ~9 G) \1 L; i
( F/ K+ n# T5 E/ `1 S
* f$ ^+ Q) j! z# u8 U. [Method(_PSR,0)
/ M$ j& n" _% l/ h3 u2 N9 }) s/ w- B+ _: _& d
- H2 W8 {) V5 i- T$ c, x
{
; f' d2 j h6 Y- @0 Z7 W0 {2 w# P: ~+ X* I, a& W* q3 |
/ Y$ @- M4 e6 |/ R% V3 H+ K
Store(0x0B, DBG8)
% F. w' q3 ^ H1 P' Z- t* ?* M) e/ m# x# m6 X2 M) |$ n# O
: h; H' J4 b/ y
If(ACST)! I8 A$ G, T9 K% ~; x. I8 a
//check AC status& e* p3 s0 _ e3 \" g
2 l2 n" ~4 P7 n, b' y* t6 z
{
' L/ h/ E) k* N* C, V( x# U
0 D8 F7 `0 F y5 `3 D- C% a# `) u5 A c. ^
return(One)
2 H% E( z/ [2 Q) p/ k4 M// AC Present5 ^- @! t3 B- U l |: M' S
1 `5 |1 `+ {! A' i2 {% g}
S, W+ j6 g# [9 n! z/ @
& ?# V; H8 y# T# A3 \else2 r; [( c, p$ F/ ~# l, \* ?
6 m( W6 D- K: x/ J* @# u G- a5 x{- C! C/ }6 f9 i
- h" B6 U% A$ }4 [
return(Zero)
/ z2 H; m, I2 E, X3 V4 f& a6 S// AC Not Present9 }& K! z* s, }" U) B" z; J
# K1 Q; @: N$ T}( E1 o5 f/ Q+ I- J. v9 h" o/ W3 E
& [" }8 D! l7 b% N" PStore(0x0C, DBG8)
* f7 R8 N0 N) o$ V- F/ f: Z" `6 L7 A3 E; d) @ a; Z
}1 W1 m1 a# R' ~# p9 D4 M
9 ]' O( U. B* x5 p, m
0 i a8 m) G) } }$ I+ w( \
我能猜到的大概的流程应该就是这样了。那我们就从头开始追,先在AC change qevent中抛点,可是发现AC change对应的_Q method反应很快,一旦AC in/out debug card马上就会有显示。那么说明什么呢?跟EC没有关系吗?接着抛,又发现有时停在’0x0A’比较久才会出现,有时’0x0C’比较久。
6 A+ e9 z. U' m/ w- }- N5 Z状况不太一致;没感觉就把网撒大点,在几乎所有的ACPI method中都抛上点然后再try,试了几个回合以后有感觉了,我们发现一旦现象出现在Device Battery _BST method中停的久的几率非常高,也就是说AC in/out OS还会更新battery的信息。这段代码最明显的特征就是它会从EC ram中获取非常多的电池信息,sample code如下所示:2 K( G" x9 {! p* L" u y
Method(_BST)
- M0 Y1 J+ l' n( c& F" p$ n( E{
0 k8 {; k2 W m5 C+ j I6 u+ s* ?1 a- o
Store(BSTS,Local0)
" Z% \0 N# m/ z0 ~6 d$ m
: A6 h$ A/ |2 v& Z- B
) C% b! M9 g% }) O# dIf(LEqual(Local0,1)) //Check Battery Present Bit- n( h: {, X: x
" y6 i5 p6 l. F, i, ?5 [! [6 ?# j{
# J/ k2 W' d7 ]: m0 x7 f. F
3 Q" b, E8 T3 n3 h: z0 S) w
7 y' J5 W6 S n
x+ n2 n# e( G& p' G7 b. e0 L4 v! \4 ^; l' Z* a! ?2 h& h$ e
& Q# N* Q$ V# z4 a//Read Battery information from EC5 M& Z5 N1 ] P9 a* T$ }
. R) o7 B @6 c$ _' X0 K
… …
# @- u+ k: F6 ~. q. v& d. p! k$ M" m. k% m: _* n
1 P# h0 J) s* e9 Z( j}; M6 X% `: M6 i! D. J/ i
^8 N4 I4 w' U% I7 E, b' P
Store(0x0D, DBG8)- h/ L7 h+ @5 C* H; u
} , o. h. m( l( R. x- _% [
那么问题好像是由读EC ram导致的,ACPI中读取EC内容的方式是发0x80 cmd到ox66 port,随后EC产生一个SCI通知OS,接着OS将EC ram index发给0x62 port,EC将数据送给0x62 port再产生一个SCI通知0S,接着OS读0x62 port就获得了EC ram指定位置的数据了。我在EC 端加入debug信息,发现出现状况时0x80 cmd EC很晚才收到,0x80 cmd是OS发的,所以貌似和EC也没什么关系吗?继续思考,EC产生一个SCI的目的应该是产生一个IRQ让ACPI driver获悉前面的指令已经完成,ACPI driver可以继续送指令下来了。如果某一条指令慢则有可能是前一个SCI IRQ通知 ACPI drive而 driver还没有处理好导致,也有可能ACPI driver已经处理好但是EC没有ready所致。5 ~) Q" W7 U% c
那么SCI中断机制是怎样的呢?EC SCICFG register通常将SCI IRQ配置成HLH的pulse trigger,而且L的时间通常设置成64us,如下图2所示:' ~4 B% J3 L" j2 s9 O/ y
+ u4 q! Y6 N; a) }
2 X' x* T( |+ G3 Q9 y1 z4 H- p$ x
而BIOS对SB SCI pin通常配置成low edge trig, SCI的pulse trig有个优点就是它能够自动复位,产生一个中断后SCI pin会pull high。可是因为BIOS是下降沿触发,所以EC SCI保持64us低电平会不会太长呢?会不会导致ACPI driver收到IRQ后下命令给EC,而EC SCI pin还没有复位而太久才收到?又或者说EC SCI pin保持低会影响到ACPI driver IRQ latency?有了这个想法以后,我就开始放大它,修改EC SCICFG将SCI IRQ配置成128 us pulse trig,然后再做AC in/out的实验,嘿嘿病情加重了,fail率接近了80%之前只有10%;那我再将pulse width调整为16us再试,结果200次竟然没有一次出现症状J.
1 H/ `3 U. p% } m+ s% t0 T+ ~9 Q X8 ^
' Q) ^7 ~' v5 b1 i
7 Q7 j& L7 |, I7 T3 i! U" L经过上面的分析,大概的原因已经清楚了。所以解决问题的方法应该是调整SCI IRQ pulse width,将保持低电平的时间调短,这样就可以有效的避免这条bug。通过这条bug我发现在分析问题的过程中需要理清问题的各个环节,并且对各个环节所涉及到的细节也要深入分析。不能够看到现象就轻易的下结论,更不能想当然,正确的态度是不放过任何蛛丝马迹,大胆假设多方求证!4 d# W$ Q- f# X v2 L
. r, l! x( i& s X9 [* P/ N5 S8 G
" p" P: B9 a5 K3 T4 J. x: S4 ?. B/ z9 F D/ b
5 ]1 i) D" T5 e. S+ T9 |. K3 h0 {
That’s all!$ _9 U z4 d, d5 [0 [+ W( U
4 ~+ q# O u3 O1 L: NPeter |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?加入计匠网
×
|