Mối quan tâm hiện tại đối với các vấn đề này: Chương trình Giáo dục Quốc gia, sự so sánh và cạnh tranh quốc tế
Chương này xem xét khái niệm “đánh giá” là gì và liệu nó có giá trị về mặt giáo dục hay không. Nhiều lập luận phản đối vấn đề đánh giá sẽ được xem xét và bác bỏ. Cụ thể: (1) khẳng định rằng giáo dục đòi hỏi cung cấp các cơ hội giáo dục thay vì cung cấp kiến thức; (2) khẳng định rằng các giáo viên nghiêm túc chỉ cần theo dõi thay vì phải đánh giá sự tiến bộ của học sinh; và (3) khẳng định rằng đánh giá không bao giờ đạt được sự chính xác hoàn toàn và do đó rất dễ gây ra hiểu lầm. Các lập luận ủng hộ việc đánh giá nổi lên gắn liền với nhu cầu về trách nhiệm giải trình và khẳng định, như đã nêu ở Chương 3, rằng việc dạy học bao gồm chủ định nghiêm túc để giúp cho người học có thể học tập. Tiếp theo, chương này thảo luận rằng liệu các thành tích giáo dục có thể được so sánh trên cả hai phương diện – sự tiến bộ của cá nhân người học và thành công tương đối của trường học hoặc thậm chí của các quốc gia hay không. Người ta cho rằng có thể thực hiện so sánh như thế miễn là ai đó cẩn trọng nêu ra hạn định đối với các phát hiện của mình trong phạm vi sai số có thể xảy ra.
Mối quan tâm hiện tại đối với các vấn đề này: Chương trình Giáo dục Quốc gia, sự so sánh và cạnh tranh quốc tế
Rất khó để xác định một chủ đề giáo dục nhận được nhiều sự quan tâm hơn chủ đề đánh giá trong các xã hội đương thời. Sự tăng trưởng mạnh mẽ của nền thương mại tự do kể từ sau Chiến tranh Thế giới thứ hai cũng như sự cạnh tranh giữa các quốc gia được hưởng lợi từ nó đã khiến các chính phủ tập trung tâm trí vào những yếu tố đóng góp cho hiệu quả kinh tế. Dù đúng hay sai, giáo dục giờ đây vẫn được nhiều người xem là yếu tố quyết định then chốt đối với sự thành công về mặt kinh tế. Mọi người đều muốn có “lợi nhuận” tốt từ sự đầu tư của mình vào lĩnh vực giáo dục để dẫn đầu hoặc chỉ đơn giản củng cố vị trí của mình trong cuộc cạnh tranh kinh tế toàn cầu. Ở cấp độ cá nhân, sự thành công ở phương diện giáo dục đem lại triển vọng về một công việc được trả lương cao trong một thị trường lao động nơi mà những người tay nghề yếu kém sẽ có ít cơ hội hơn.
Trong giai đoạn này, cái gọi là “văn hóa trách nhiệm giải trình” đã phổ biến, trong đó những ai nhận được nguồn lực để phục vụ một mục đích cụ thể sẽ được yêu cầu phải biện giải cho việc sử dụng những nguồn lực đó. Trong giáo dục, điều này có nghĩa là tập trung nhiều hơn vào thành tích giáo dục, cả ở cấp độ cá nhân lẫn cấp độ thành tựu giáo dục quốc gia. Nhưng thành tích giáo dục được xác định như thế nào? Liệu có thể xác định thành tích giáo dục theo một cách đáng tin cậy nào đó hay không? Đây là hai câu hỏi mà chúng tôi sẽ cố gắng trả lời trong chương này. Chúng tôi sẽ bắt đầu từ khái niệm trách nhiệm giải trình, kế đó sẽ bàn luận về các khái niệm cốt lõi được sử dụng phổ biến để mô tả và phân tích thành tích giáo dục, đặc biệt chú ý đến công tác đánh giá vốn là thứ chúng tôi xem như thành tố trung tâm trong quá trình giải thích về trách nhiệm giải trình. Sau đó, chúng tôi sẽ xem xét một lập luận đạo đức quan trọng ủng hộ việc sử dụng đánh giá, đồng thời mổ xẻ hai ý kiến phản đối các loại hình đánh giá giáo dục phổ biến, [từ đó đi tới] lập luận rằng rốt cuộc thì chúng không yêu cầu phải có lòng tin. Chúng tôi sẽ tiếp tục xem xét khẳng định cho rằng tiến bộ giáo dục về đại thể có thể đo lường được, để một người có thể, giả dụ, phát biểu rằng Trường A khiến cho học sinh tiến bộ nhiều hơn Trường B. Chúng tôi sẽ kết thúc chương này với việc khảo xét phạm vi cùng những hạn chế của việc đánh giá giáo dục.
Trách nhiệm giải trình là gì và những cách để bảo đảm nó: Dựa trên quá trình thực hiện và dựa trên kết quả
Như chúng tôi đã nói ở trên, trách nhiệm giải trình có thể định nghĩa là những ai nhận được nguồn lực nhằm phục vụ một mục đích cụ thể nào đó có khả năng được yêu cầu biện hộ, lý giải cho việc sử dụng, khai thác những nguồn lực đó. Sẽ hoàn toàn tự nhiên khi nghĩ rằng điều này có nghĩa là những ai được trao cho nguồn lực để cung cấp giáo dục thì cũng được kỳ vọng không chỉ không gây lãng phí những nguồn lực được cung cấp, mà còn sử dụng chúng một cách hiệu quả hết mức có thể. Điều này có nghĩa họ được kỳ vọng thực hiện các mục tiêu giáo dục bằng cách truyền đạt kiến thức, hiểu biết và kỹ năng cho người học. Đây là một ý tưởng đủ đơn giản, song chúng ta cần xem xét kỹ lưỡng hơn chút nữa những đòi hỏi của nó.
Giáo dục diễn ra thông qua hai quá trình gồm quá trình dạy và quá trình học. Mấu chốt của việc tồn tại một hệ thống giáo dục là giúp mọi người được tạo điều kiện để học tập. Việc này thường được thực hiện thông qua hoạt động giảng dạy hoặc đào tạo. Như chúng ta đã thảo luận ở Chương 2 và Chương 3, các mục tiêu của một hệ thống giáo dục công lập liên quan đến những gì mà người thụ hưởng giáo dục nên biết như là kết quả của các quá trình giáo dục. Điều này có vẻ hiển nhiên nhưng nó rất quan trọng đối với hiểu biết của chúng ta về vấn đề trách nhiệm giải trình. Do các mục tiêu của giáo dục liên quan đến những gì người trẻ tuổi nên biết như là kết quả của giáo dục, nên tiêu chí để xác định liệu những mục tiêu đó có đạt được hay không lại sẽ [liên quan tới chuyện] người trẻ có thực sự biết về những điều đã được xác định là các em nên biết (như là kết quả của việc đã có một trải nghiệm giáo dục) hay không. Nếu như các em thực sự biết thì các mục tiêu giáo dục đều đạt được. Rõ ràng việc thực hiện các mục tiêu của giáo dục không phải một vấn đề theo kiểu được ăn cả ngã về không. Một số người có thể học những điều vốn được xác định là họ nên học trong khi những người khác thì không, và bất cứ cá nhân nào cũng có thể đạt được thành tựu lớn hay nhỏ khi học nội dung đó. Để xác định các mục tiêu của giáo dục có đạt được không, cần tiến hành khảo sát việc người học đã học được cái gì và họ đã học nó nhuần nhuyễn đến mức nào.
Mặc dù tất cả những điều này đều hiển nhiên, vẫn có nhiều ý kiến phản đối. Ví dụ, có ý kiến tranh luận rằng cái mà giáo dục cung cấp không phải là kiến thức thuần túy mà là đem đến các cơ hội giáo dục (Tooley 1998). Nếu tin điều này, người ta có thể cho rằng công tác giáo dục chỉ thành công khi nó đạt thành tựu trong việc đem đến các cơ hội giáo dục. Tuy nhiên, một người có thể đem đến các cơ hội giáo dục mà những người tiếp nhận các cơ hội đó không học được gì cả. Mô hình đa mục tiêu của giáo dục cho thấy tính hiệu quả trong bối cảnh mà thị trường giáo dục đang được cung cấp chủ yếu cho các khách hàng tư nhân, những người được tự do làm việc họ thích với những cơ hội được trao. Có thể tranh luận rằng, nếu ai đó mua một chiếc xe hơi thì đồng nghĩa với việc họ mua cơ hội thực hiện các chuyến đi. Nếu người mua xe không tận dụng những cơ hội đó thì cũng không phải lỗi của nhân viên bán xe. Theo phép loại suy này, nếu ai đó mua các cơ hội giáo dục, thì các nhà giáo dục sẽ không có lỗi nếu như người mua không khai thác triệt để các cơ hội đó. Chúng ta có thể mặc nhiên thừa nhận điều này, mặc dù thị trường trong giáo dục đó đang lợi dụng sự cả tin [của chúng ta]. Trường tư có vẻ chỉ đơn thuần đem đến cho học sinh của họ cơ hội được học tập. Chúng tôi không biết nhiều về chuyện đó. Nhưng vẫn có những ngoại lệ khả dĩ. Một số cơ sở giáo dục theo kiểu tự do “thái quá” lại cố ý tránh tạo ra bất kỳ áp lực nào lên học sinh của họ. Tuy nhiên, sau khi đã trả một số tiền lớn cho việc giáo dục con cái, rất ít cha mẹ sẽ cảm thấy hài lòng nếu nghe nói hoặc được biết con cái họ đã chẳng học được bất cứ điều gì ở trường. Và dù đã nhận rất nhiều cơ hội để làm điều gì đó khác đi, song chúng đã không tận dụng các cơ hội. Do đó, chúng ta có cơ sở để tin tưởng rằng phần lớn các phụ huynh từng chi tiền để con em mình tiếp nhận nền giáo dục trong các cơ sở giáo dục tư nhân đã xem việc học chỉ diễn ra khi và chỉ khi trẻ em thực sự tiếp thu những điều mà các em được cho là phải học (như những gì đã được thiết lập trong chương trình giáo dục của nhà trường), chứ không chỉ đơn giản là các em có cơ hội đến trường. Đây là một tiêu chí của sự thành công.
Thông thường các hệ thống giáo dục công lập không biểu đạt rõ các mục tiêu về mặt cơ hội. Lý do rất đơn giản: Giáo dục được nhà nước tài trợ nhằm bảo đảm việc toàn dân thực sự được học hành, chứ không phải toàn dân có cơ hội được học hành1. Nếu chính phủ chỉ quan tâm đến vế thứ hai thì họ sẽ không thể biến giáo dục trở thành nội dung bắt buộc trong một khoảng thời gian đáng kể. Như đã nói ở Chương 1, giáo dục hết sức quan trọng đối với nhà nước nên không thể phó mặc nó theo cách này. Vì vậy chúng ta tin tưởng rằng nhà nước tài trợ nhiều nguồn lực cho giáo dục nhằm giúp trẻ em và người trẻ tuổi tiếp cận lĩnh vực này và rằng tiêu chí thành công ở đây là các em thực sự được giáo dục, hay nói cách khác là, các em học được những điều đã được xác định là nên học. Khi đó, yêu cầu về trách nhiệm giải trình đối với các hệ thống giáo dục công lập không khác với yêu cầu các khoản tiền chi cho giáo dục nên sử dụng để đạt được các mục tiêu giáo dục thông qua việc người trẻ tuổi lĩnh hội nội dung trong chương trình giáo dục. Chúng tôi muốn tranh luận rằng, điều này đòi hỏi đánh giá phải luôn đóng một vai trò quan trọng trong việc đảm bảo trách nhiệm giải trình.
Một số khái niệm quan trọng: Tiêu chuẩn, thành tích, tiến bộ, đánh giá
Đánh giá gồm những thành tố gì? Rõ ràng, nó bao gồm sự nhìn nhận, nhận xét, sắp xếp và phân loại (evaluation) thành tích của người học. Nhưng để làm việc này, cần có một tiêu chí về sự thành công. Nếu người học học gì đó nhưng học không đủ, hoặc nếu không đủ số người học đầy đủ thì sẽ không sai khi nói rằng các mục tiêu của giáo dục vẫn chưa đạt được hoặc chỉ mới đạt được một phần. Do vậy, chúng ta không chỉ đòi hỏi người học chứng tỏ rằng họ đã học được gì đó, mà còn cần họ chứng tỏ họ đã học được những điều mà được cho là phải học. Nói cách khác, chúng ta cần một tiêu chuẩn để xét thành tích học tập của người học (Pring 1992). Do đó, tiêu chuẩn là một loại thước đo về mặt giáo dục mà dựa vào đó thành tích học tập có thể được đo lường. Theo đó, lấy một ví dụ từ Chương trình Giáo dục Quốc gia của Anh, ở Giai đoạn 1 trong môn Tiếng Anh, phần Đọc, học sinh cần thể hiện được nhận thức về âm vị và kiến thức ngữ âm. Cụ thể, các em cần có khả năng đạt được những điều sau đây:
1. Nghe, xác định, phân tách và kết hợp các âm vị trong các từ.
2. Phát âm và gọi tên các chữ cái trong bảng chữ cái.
3. Liên kết các âm và chữ cái, tìm hiểu về vần, sự lặp lại âm đầu và các dạng âm khác.
4. Xác định các âm tiết trong các từ.
5. Nhận biết được các âm giống nhau có thể có những cách viết khác nhau và rằng các từ được viết giống nhau có thể liên quan đến những âm khác nhau.
(DfEE 1999, tr.46)
Những phát biểu trên là các tiêu chuẩn tương ứng dành cho một học sinh hoàn tất Giai đoạn 1, phần Đọc của môn Tiếng Anh trong Chương trình Giáo dục Quốc gia. Hiển nhiên học sinh, phụ huynh, nhà trường, chính phủ và công chúng đều muốn biết những tiêu chuẩn này đã được đáp ứng tốt đến mức nào. Richard Pring đã hướng dư luận chú ý tới một sự nhầm lẫn nghiêm trọng tiềm tàng ở đây (Pring 1992). Thuật ngữ “các tiêu chuẩn” vốn được sử dụng phổ biến trong bối cảnh của việc đánh giá trên thực tế khá mơ hồ. Cái thực sự được sản sinh, nói một cách chặt chẽ, là thành tích giáo dục. Những phương tiện dựa vào thành tích để đánh giá là các tiêu chuẩn giáo dục phù hợp. Chúng ta thường nghe nói về sự tăng giảm của các tiêu chuẩn trong khi ý nghĩa thực sự lại là thành tích giáo dục này đang tăng lên hay giảm xuống, hoặc tốt hơn hay tệ hơn so với thành tích giáo dục khác. Tiêu chuẩn, nói theo nghĩa chặt chẽ, là tiêu chí hay thước đo mà dựa theo đó các thành tích được đánh giá. Một điều dễ hiểu, cả học sinh lẫn phụ huynh đều sẽ quan tâm đến thành tích của chính bản thân học sinh. Phụ huynh và nhà trường sẽ quan tâm đến thành tích của nhà trường. Các Sở Giáo dục Địa phương sẽ quan tâm đến thành tích của các trường thuộc trách nhiệm quản lý của họ. Còn công chúng và chính phủ sẽ tập trung vào thành tích của toàn bộ hệ thống giáo dục. Để biết thành tích đó là gì, theo một cách có thể làm thỏa mãn mong muốn của tất cả các bên vừa nêu, người ta trước hết phải đánh giá thành tích của từng cá nhân người học để xem liệu tuyên bố về các tiêu chuẩn mà người học cần đạt được, thực sự có đạt được không và đang đạt ở mức độ nào. Đánh giá là quy trình được sử dụng để thực hiện việc này. Học sinh được yêu cầu thể hiện kiến thức của mình, thứ sẽ được đối chiếu với tiêu chuẩn phù hợp. Đây là nghĩa chung nhất của thuật ngữ “đánh giá”.
Tiến bộ
Khi hỏi một học sinh đang học tốt ra sao hay một nhà trường vận hành hiệu quả như thế nào, chúng ta thường quan tâm đến khái niệm tiến bộ giáo dục. Ý tưởng về tiến bộ giáo dục là giữa hai thời điểm, học sinh sẽ học để đến thời điểm thứ hai, các em hiểu biết nhiều hơn so với thời điểm thứ nhất. Các em càng hiểu biết nhiều, sự tiến bộ của các em càng lớn. Ngẫm nghĩ một chút thì thấy rằng người ta không thể nào đo lường sự tiến bộ mà không tiến hành việc đánh giá. Để chỉ ra một học sinh đã tiến bộ tới mức nào giữa hai thời điểm tạm đặt là t1 và t2, thì cần đo lường thành tích học tập của các em tại t1 và sau đó tại t2. Sự khác biệt về kiến thức của học sinh giữa hai thời điểm trên càng lớn bao nhiêu, mức độ tiến bộ học sinh đó đạt được sẽ càng lớn bấy nhiêu.
Điều này nghe có vẻ hiển nhiên, nhưng giống như rất nhiều vấn đề khác trong giáo dục, các vấn đề kiểu này không hề đơn giản. Ngay từ đầu, không khó để nói một học sinh riêng biệt có tiến bộ hay không bằng phương pháp đã đề cập. Nhưng chúng ta thường muốn biết nhiều hơn thế. Ví dụ, chúng ta muốn biết trường học đó đã góp phần vào sự gia tăng kiến thức của học sinh ở mức nào. Chỉ đơn thuần nắm được kết quả đánh giá vào cuối năm học sẽ không giúp chúng ta nhiều trong việc này. Điểm số vào cuối giai đoạn giáo dục học đường bắt buộc ở trường này có thể rất ấn tượng so với điểm số của các trường khác. Tuy nhiên, nếu kỳ thực điểm số phản ánh thực tế rằng học sinh học ở trường đó hiểu biết rất nhiều, trong khi lại tiến bộ rất ít so với chính mức độ hiểu biết đó, thì thực trạng đó lại gây ảnh hưởng rất xấu đến một trường học. Nếu một học sinh tiếp thu vô khối kiến thức trong suốt một năm học chẳng hạn, nhưng toàn bộ việc học diễn ra nhờ gia sư riêng mà phụ huynh em đó đã thuê ngoài giờ học ở trường, thì điều này cũng không tác động tích cực đến tính hiệu quả của nhà trường. Hoặc lấy một dẫn chứng khác, nếu học sinh phải chiến đấu với đủ các loại nghịch cảnh khách quan như nghèo đói, không có nơi để học, áp lực tiêu cực từ bạn bè đồng trang lứa và nhiều thứ khác, thì việc một trường không giúp cho học sinh đạt được sự tiến bộ đáng kể nào không hẳn là yếu tố làm mất toàn bộ uy tín của ngôi trường đó.
Thực ra việc đo lường tác động của một nhà trường lên mức độ tiến bộ của người học có thể không đơn giản như ta thấy ban đầu. Bởi lẽ sự tiến bộ của người học chịu ảnh hưởng của rất nhiều yếu tố, trong đó không nhiều yếu tố thuộc tầm kiểm soát của nhà trường. Vì người ta chỉ có thể khen ngợi hay đổ lỗi dựa trên việc một cá nhân hay tổ chức chịu trách nhiệm về các quá trình dẫn tới một kết quả cuối cùng, nên chúng ta cũng chỉ có thể đánh giá các nhà trường căn cứ vào những yếu tố mà họ chịu trách nhiệm. Do nhà trường không chịu trách nhiệm về vấn đề địa vị xã hội hay thành tích của học sinh trước khi theo học ở trường, hay bản chất của các cộng đồng mà các em xuất thân (và đây có khả năng là những yếu tố chủ yếu chi phối kết quả giáo dục) nên có thể một số yếu tố rất quan trọng ảnh hưởng đến sự tiến bộ của học sinh [vẫn luôn] nằm ngoài khả năng kiểm soát của từng trường học.
Đánh giá: Lập luận từ sự nghiêm túc của Flew
Chúng ta sẽ xem xét một lập luận khiến mọi người nghi ngờ ý kiến rằng có thể tiến hành so sánh các đánh giá được tiến hành ở những địa điểm và thời điểm khác nhau và cho rằng lập luận này không thuyết phục. Tuy nhiên, chúng ta cần tự hỏi có những lý do nào thuyết phục hơn để tiến hành đánh giá không. Nhờ đóng góp của Anthony Flew, chúng ta biết về một lập luận chứng minh câu trả lời có. Lập luận của Flew (chúng tôi trình bày bằng câu chữ của mình) như sau (xem Flew 1976). Giáo dục là một hoạt động có thể được thực hiện tốt hoặc tồi. Tiêu chí chủ chốt đánh dấu sự thành công trong một hoạt động giáo dục là những người mà hoạt động giáo dục đó hướng đến học được những điều đã được xác định là họ nên học. Để biết một người đã học được những điều được xác định là họ nên học hay chưa, người ta cần đánh giá kiến thức của người học để xem liệu nó có gồm những điều được giáo viên chủ định là người đó nên học như là kết quả của quá trình giáo dục. Những người nghiêm túc với việc họ đang làm sẽ luôn triển khai các bước để biết liệu họ có đang thành công trong công việc mà họ làm không, và nếu có thì thành công đến mức nào. Đánh giá được hiểu là đo lường sự thành công trong giáo dục. Do đó, nếu các nhà giáo dục nghiêm túc với việc họ đang làm, họ sẽ đánh giá người học của mình.
Theo lập luận này, đánh giá là đặc điểm cốt yếu của bất cứ quá trình giáo dục nào được tiến hành nghiêm túc. Nếu lập luận của Flew có căn cứ vững chắc, các nhà giáo dục phải coi đánh giá là một thành tố trung tâm trong công việc của họ. Lưu ý rằng lý lẽ của Flew chỉ “nhắc nhở” các nhà giáo dục cần đánh giá thành tích của người học. Nó không gợi ý nên hình thành các kỳ thi chung, bảng xếp hạng thành tích của các trường hay bất cứ phương tiện phục vụ trách nhiệm giải trình hiện đại nào khác trong giáo dục. Tuy nhiên, nếu lập luận của Flew sai thì mọi hoạt động khác đều không có nghĩa lý gì, bởi tất cả chúng đều phụ thuộc vào dữ liệu được tổng hợp từ nhiều cấp độ thành tích của học sinh. Cũng cần lưu ý rằng lập luận của Flew không yêu cầu việc đánh giá phải hoàn hảo. Để đáp ứng yêu cầu của ông, không nhất thiết phải nhận xét, phân loại, đánh giá mọi thứ mà học sinh học được, cũng như không phải cố gắng để không có sai sót trong các quy trình và kết quả đánh giá. Về cơ bản, đánh giá nên được tiến hành ở nơi mà việc đánh giá là khả thi và cần thiết, và tốt nhất nó không nên gặp sai sót cũng như cần toàn diện hết sức có thể, xét đến những hạn chế về mặt thời gian, nguồn lực và các quy trình khảo thí (testing procedures). Sự hoàn hảo vốn dĩ không tồn tại trong thế giới đầy khiếm khuyết này.
Điểm cuối cùng trong lập luận của Flew, tuy không phải lúc nào cũng được chú ý nhưng vẫn nên trình bày ra ở đây. Để xác định sự thành công của một hoạt động giáo dục, người ta cần các tiêu chí về thời điểm ai đó thành công hay không thành công và ở mức độ nào. Do đó, để đáp ứng yêu cầu của Flew về sự nghiêm túc, người ta sẽ phải sử dụng các tiêu chí trong quá trình đánh giá mà sẽ xác định liệu hoạt động giáo dục đó có thành công không và [thành công] tới mức nào. Loại đánh giá này thường được biết đến với tên gọi đánh giá tham chiếu tiêu chí (criterion referenced assessment). Nó thường được đối sánh với loại đánh giá chỉ đơn thuần ghi lại thành tích và thứ hạng mà học sinh đạt được dựa theo mức độ hoàn thành mục tiêu của các em. Thành công hay thất bại khi đó được xác định tại một điểm giới hạn ngẫu nhiên nào đó trong thang điểm. Nhưng nếu điểm số đó không gắn với các tiêu chí để xác định những cái đã học được, chúng sẽ chỉ cho người đánh giá biết học sinh nào đã làm tốt hơn học sinh nào trong quá trình đánh giá. Theo như lập luận của Flew, điều này không đủ để xác định sự thành công liên quan đến những điều đáng lẽ ra [người học] đã học được.
Theo White (1999), lập luận của Flew chỉ cho thấy rằng giáo viên nên theo dõi, chứ không nên đánh giá sự tiến bộ của học sinh. Theo đó, ý tưởng của ông là giáo viên cần xem những phản hồi của người học tiết lộ điều gì và không cần có thêm bất kỳ hành động nào từ phía giáo viên (sđd., tr.205). Phản hồi này có thể là “cái nhìn chăm chú trên gương mặt của học sinh” hay câu hỏi mà các em hỏi giáo viên. Vì thế, việc thiết lập các nhiệm vụ học tập, các bài kiểm tra và bài thi trở nên không cần thiết đối với một giáo viên nghiêm túc trong công việc họ đang làm. Chúng tôi không thấy ý này có sức thuyết phục. Những giáo viên muốn biết họ có thành công hay không cần phải biết liệu một phát biểu như “A biết p”, trong đó “A” đại diện cho một học sinh còn “p” đại diện cho một tri thức cụ thể, là đúng hay sai. Một cái nhìn chăm chú hay một câu hỏi sắc bén không thể giúp giáo viên nắm bắt được điều đó. Những học sinh không đặt câu hỏi hoặc không nhìn chăm chú có thể bị đánh giá sai hoặc không nhận được đánh giá. Những giáo viên nghiêm túc sẽ không phó mặc [bản thân cho] những vấn đề kiểu như thế mà sẽ nghĩ ra những phương cách công bằng và có hệ thống để tìm hiểu xem học sinh đã học được những gì. Từ đó, họ xác định xem những phát biểu dạng như “A biết p” là đúng hay sai. Ai đó có thể gọi đây là “theo dõi” nếu thích, nhưng xét theo những khía cạnh quan trọng nhất, nó hệt như đánh giá.
Các lập luận phản đối việc đánh giá:
Giá trị hiệu lực là một vấn đề
Những ý này tuy đủ rõ ràng nhưng vẫn cần được nêu ra do chính quan điểm về đánh giá tham chiếu tiêu chí đã bị một số nhà bình luận triết học công kích. Andrew Davis (1995, 1998) đã mở màn một cuộc công kích bền bỉ nhằm vào đánh giá tham chiếu tiêu chí, mặc dù những bài viết sau này của ông (Davis 1999; Davis và White 2001) đã bổ sung cho quan điểm ấy ở mức độ nào đó. Cơ sở phê phán của Davis là đánh giá tham chiếu tiêu chí rất khó hợp lý theo nghĩa rằng nó không bao giờ có thể đo lường chính xác những gì nó định đo lường, cụ thể là kiến thức mà một người học lĩnh hội được. Như chúng ta đã thấy, đánh giá liên quan tới những thành tích cụ thể, thông thường ở dạng các bài kiểm tra hoặc bài thi. Vấn đề với các hệ thống đo lường thành tích được hợp thức hóa này là chúng không thể nắm bắt tri thức theo một nghĩa thỏa đáng. Davis lập luận rằng tri thức thật sự có giá trị tương đương với cái mà ông gọi là “tri thức chiều sâu” (Davis 1995). Nó vốn sở hữu hai đặc điểm: (1) kết nối với các mục tri thức khác trong tâm trí của chủ thể biết về nó; và (2) có khả năng biểu lộ dưới nhiều mô thức khác nhau trong những hoàn cảnh khác nhau. Vì bản chất việc đánh giá thành tích dưới dạng bài thi vốn dĩ tập trung vào cô lập các mục tri thức này với các mục khác nhằm phục vụ nhiều mục đích đánh giá, đồng thời tập trung vào yêu cầu người học thể hiện kiến thức của các em theo một cách cụ thể, nên tất cả những gì nó có thể hy vọng đánh giá được là “tri thức bề mặt” hay “tri thức về cách làm”. Cả hai [cách tiếp cận trên] đều bị cô lập và biểu lộ một cách hạn hẹp, nên nó khó hy vọng đi vào được bản chất của tri thức chiều sâu mà nếu được tiến hành đúng đắn, nó sẽ là dạng kiến thức học sinh sẽ lĩnh hội được.
Đánh giá theo lối truyền thống có lẽ đáng tin cậy. Điều này thể hiện ở chỗ, người ta có thể thu được cùng một kết quả trong những lần lặp lại, nhưng nó sẽ không có giá trị, sẽ không đo lường được những thứ mà nó nhắm đến để đo lường. Một mặt, để đánh giá được tri thức chiều sâu, [chúng ta cần biết về] tính kết nối của loại tri thức này cũng như những cách thức khác nhau mà nó được biểu lộ. Hay nói cách khác, chúng ta cần những kỹ thuật đánh giá đa dạng để nắm bắt được những chiều kích khác nhau của nó. Nếu làm được điều này, chúng ta nhất định sẽ gặt hái nhiều kết quả khác nhau với những công cụ đánh giá khác nhau, và do đó sẽ hy sinh độ tin cậy trong quá trình truy cầu giá trị hiệu lực. Davis tỏ ra cẩn trọng khi phát biểu trong những công trình công bố về sau rằng đánh giá có một chức năng hạn chế. Chẳng hạn, nó có thể cung cấp cho giáo viên một hồ sơ thành tích của cá nhân người học và cho phép các trường thu được bức tranh tổng quát về sự tiến bộ của người học (Davis 1999). Tuy vậy, cái nó không thể làm được là đóng vai trò như một công cụ mà nhờ đó người ta có thể so sánh thành tích của các trường với nhau hoặc so sánh thành tích của cả một hệ thống giáo dục công lập.
Chúng tôi đã lưu ý một số khó khăn trong đánh giá sự tiến bộ của học sinh và chúng tôi sẽ trở lại với những khó khăn này trong phần bàn luận về tính hiệu quả của trường học. Tuy nhiên, các ý tưởng mà Davis nêu ra cần được xem xét trước khi chúng ta đi vào từng vấn đề cụ thể. Trước hết, phải thừa nhận rằng không hệ thống đánh giá nào tuyệt đối hoàn hảo, luôn có sự thỏa hiệp giữa giá trị hiệu lực với độ tin cậy. Câu hỏi quan yếu ở đây có thể không như Davis nêu ra về chủ đề “tri thức chiều sâu”, mà là “các công cụ đánh giá có đủ tốt để triển khai đánh giá không?”. Như vậy, lấy ví dụ, nhắc lại các mục tiêu lĩnh hội (attainment targets) đối với Giai đoạn 1, phần Đọc, môn tiếng Anh trong Chương trình Giáo dục Quốc gia ở Anh, những mục kiến thức đã đề cập có đáng để đánh giá không, và việc đưa ra các phương pháp đánh giá thiết thực có khả thi không? Nếu yêu cầu chúng có khả năng đo lường mọi chiều kích kiến thức của học sinh, thì sẽ chẳng bao giờ chúng đủ tốt để làm việc đó theo nghĩa này. Nhưng chúng ta buộc phải thực tế và không nên kỳ vọng quá nhiều vào các hệ thống đánh giá. Thứ hai, đối với sự nghi ngờ này, công trình phản biện của Davis đã cho thấy sự hiểu lầm nghiêm trọng với bản chất của việc đánh giá. Tham gia đánh giá tham chiếu tiêu chí không phải là để hiểu lầm bản chất đa chiều kích và kết nối lẫn nhau của tri thức, mà là cố gắng để nắm bắt nó. Đánh giá có thể được thực hiện không tốt. Tình trạng đó thể xảy ra khi mà giáo viên và học sinh biết được chính xác cách triển khai công tác đánh giá. Trong những hoàn cảnh này, nhất là khi kết quả của các quá trình đánh giá đóng vai trò quan trọng, dễ nảy sinh một sự cám dỗ lớn khiến giáo viên dạy theo hướng tối đa hóa thành tích dựa theo công cụ đánh giá, bất kể mục tiêu kiến thức đặt ra trong chương trình giáo dục là gì.
Tuy nhiên, khi nó được thực hiện đúng cách, đánh giá sẽ tương đương việc lấy mẫu kiến thức mà học sinh lĩnh hội. Trong ví dụ ở trên, chúng ta không thể kỳ vọng việc đánh giá sẽ cho phép kiểm tra xem liệu một học sinh có thể xác định được từng âm tiết trong từng từ hay không, mà thay vào đó, chúng ta mong rằng thông qua đánh giá kiểm tra xem liệu học sinh có thể làm việc này với các từ mà các em có thể sẽ bắt gặp hay không và từ sự thành công hay thất bại của các em trong bài kiểm tra này, chúng ta suy luận ra một thứ năng lực chung. Ý tưởng là những học sinh học chủ đề đó trong chương trình mà nếu được hướng dẫn đúng cách, sẽ thể hiện đặc điểm đa chiều kích và tính nối kết mà Davis lập luận rằng tri thức hữu ích phải có. Tuy nhiên, do bản chất phức tạp, không một quy trình đánh giá nào có thể nắm bắt được tất cả những đặc điểm kể trên một cách trọn vẹn nhất trong phạm vi một số lượng nhỏ các bài kiểm tra. Tuy nhiên, bằng cách tạo ra những câu hỏi làm nổi bật các khía cạnh đa dạng trong kiến thức của một học sinh, người đánh giá sẽ thu được một bức tranh chính xác, hợp lý để trả lời cho câu hỏi về mặt đại thể môn học đó đã được lĩnh hội tốt tới đâu. Việc này sẽ tiến hành bằng cách lấy mẫu kiến thức của học sinh đó, cả về nội dung có tính chất thực tế, ứng dụng lẫn suy luận và [người ta triển khai việc đó sao cho] tính nối kết cũng được lấy mẫu đầy đủ. Giống như có thể dự đoán chiều hướng bỏ phiếu của một bộ phận dân chúng bằng cách phỏng vấn một mẫu các cử tri xem họ dự định bỏ phiếu ra sao, chúng ta cũng hoàn toàn có thể đo lường kiến thức của học sinh nhờ vào lấy mẫu kiến thức của các em.
Tuy nhiên, ẩn đằng sau tư duy có vẻ tiêu cực cùng sự hoài nghi không chính đáng về hoạt động đánh giá này là một vấn đề nghiêm trọng. Đánh giá là phương tiện để đạt được một mục tiêu, đó là cơ chế giúp hình thành một bức tranh chính xác và hợp lý về những gì học sinh đã học được. Với tư cách một phương tiện, đánh giá nên được đặt ở tầm quan trọng thấp hơn so với mục tiêu hình thành bức tranh này. Mục tiêu chính của dạy và học không gì khác ngoài thúc đẩy việc học tập, không phải đơn thuần để học sinh thể hiện ra chỉ những điều tốt đẹp trong các quá trình đánh giá. Đánh giá quá trình (formative assessment), phương pháp được dùng để hiểu cấp độ thành tích cũng như giúp xác định điểm mạnh và điểm yếu của học sinh, là một phương tiện thích hợp trong kho kỹ thuật của giáo viên nhằm thúc đẩy việc dạy và học, và như lập luận của Flew chỉ ra, đánh giá quá trình rất cần thiết nếu giáo viên nghiêm túc với công việc dạy học. Dạng đánh giá này là yếu tố thiết yếu trong dạy và học hằng ngày.
Ở phương diện khác, đánh giá tổng kết (summative assessment) lại quan tâm đến việc ghi nhận việc kiểm soát cơ hội tiếp cận việc làm, tiếp tục học và duy trì trách nhiệm giải trình. Dễ hiểu, thành công trong đánh giá tổng kết là mối quan tâm lớn của tất cả các bên liên quan: học sinh và sinh viên, giáo viên, phụ huynh, các cơ quan quản lý giáo dục, chính phủ. Điều quan trọng là các quá trình đánh giá tổng kết khác biệt căn bản với các quá trình dạy và học. Nếu không, có nguy cơ là chương trình giáo dục sẽ trở nên méo mó vì các hạng mục đánh giá. Do đánh giá cung cấp một bức tranh toàn diện cũng như tương đối chính xác về những điều học sinh đã học được, việc chỉ giảng dạy những hạng mục mà người ta biết sẽ được đánh giá chắc chắn sẽ phá hỏng quá trình này. Điều cốt yếu là chương trình giáo dục được triển khai cũng phải là cái sẽ được lấy mẫu cho các quá trình đánh giá. Tuy vậy, nếu người ta chỉ chăm chăm vào dạy những hạng mục kiến thức mà họ biết chắc sẽ được đánh giá, thì chương trình giáo dục sẽ suy yếu về chất lượng. Người ta rất thường xuyên nói rằng “dạy để thi” là sai lệch, là biến tướng. Nhưng xét theo một nghĩa nào đó, điều này không có gì sai, nếu theo đó, người ta chỉ đơn giản ngụ ý rằng chương trình chuẩn bị đánh giá đã được triển khai đến nơi đến chốn trong chương trình dạy học. Việc “dạy để thi” chỉ hoàn toàn méo mó trong những trường hợp mà tính toàn diện bị hy sinh vì mục tiêu hoàn thành tốt việc đánh giá tổng kết.
Không phương thức đánh giá nào tuyệt đối hoàn hảo. Phải có những thỏa hiệp giữa độ tin cậy và giá trị hiệu lực không bao giờ có thể đạt 100%. Như Dearden (1979) đã chỉ ra, sẽ luôn có một khoảng suy luận giữa kết quả đánh giá với kiến thức của học sinh. Chúng ta phải bằng lòng rằng đánh giá đã công bằng và chính xác hết mức có thể. Tuy nhiên, điều cần phải chỉ ra là, phần lớn kiến thức của nhân loại đều không trọn vẹn và hoàn mỹ. Kiến thức của chúng ta về những gì học sinh biết cũng sẽ luôn như thế. Đây không phải lý do để loại bỏ đánh giá tổng kết. Đó là một lý lẽ để nhìn nhận lại nó một cách nghiêm túc, thiết kế và triển khai một cách cẩn thận và thường xuyên thẩm định lại nó.
Khả năng so sánh của các tiêu chuẩn:
Thành tích so với tiêu chuẩn
Chúng tôi đã lập luận rằng, khi đã có một tiêu chuẩn thì đo lường thành tích theo tiêu chuẩn đó là khả dĩ. Hiển nhiên, một việc quan trọng và đáng chú ý đối với phụ huynh, nhà trường cũng như học sinh là có thể thấy được thành tích học thuật đang ở ngưỡng nào theo một bộ tiêu chuẩn cụ thể. Vì mục đích so sánh và trách nhiệm giải trình, đặc biệt là của toàn bộ hệ thống giáo dục công lập, với thành tích trước đó, hoặc là với thành tích của các hệ thống giáo dục khác, nên cần áp dụng cùng một tiêu chuẩn để so sánh các thành tích. Nếu không làm được điều này, chúng ta cần có khả năng so sánh các tiêu chuẩn với nhau. Có hai vấn đề cần được giải quyết ở đây. Thứ nhất, rất ít khả năng hai hệ thống giáo dục bất kỳ sử dụng các tiêu chuẩn giống nhau để đánh giá. Ví dụ, Anh và Pháp sẽ có những kỳ vọng khác nhau dành cho học sinh ở những giai đoạn khác nhau và trong một số lĩnh vực, các tiêu chuẩn dự kiến sẽ khác xa nhau. Chẳng hạn, chúng ta sẽ không kỳ vọng rằng một học sinh 12 tuổi người Anh đạt mức độ thông thạo tiếng Pháp giống như một học sinh người Pháp cùng tuổi. Thứ hai, nếu muốn so sánh thành tích hiện tại với thành tích trong quá khứ thì chúng cần so sánh theo một tiêu chuẩn chung.
Tuy nhiên, chuyện gì sẽ xảy ra nếu chúng ta không thể so sánh những thành tích khác nhau dựa theo một tiêu chuẩn chung? Nếu điều này xảy ra thì việc dùng các phương thức đánh giá để so sánh những thành tích rất lâu về trước với những thành tích hiện tại, hoặc so sánh thành tích ở các hệ thống giáo dục khác với thành tích ở hệ thống giáo dục của Anh sẽ không khả thi. Vai trò của việc đánh giá sẽ bị hạn chế nghiêm trọng. Chúng ta nên lo lắng về khả năng này thế nào? Chúng ta cần lo lắng nếu việc so sánh các tiêu chuẩn với nhau là bất khả. Một lý do có thể nêu ra, khi so sánh tiêu chuẩn A với tiêu chuẩn B, chúng ta cần thêm tiêu chuẩn C để đánh giá chúng. Lúc này nảy sinh tình huống đặc biệt, để so sánh A và B với C, chúng ta lại cần thêm tiêu chuẩn D để so sánh ba tiêu chuẩn này và cứ thế tiếp diễn cho đến vô cùng. Nếu lập luận này (theo Pring 1992) có giá trị, thì về mặt logic việc so sánh tiêu chuẩn giáo dục này với tiêu chuẩn giáo dục kia lại là bất khả thi.
Tuy nhiên, chúng tôi không cho rằng đây là một lập luận có giá trị và hệ quả là, chúng tôi không nghĩ có khó khăn nào về mặt logic trong [quá trình] so sánh các tiêu chuẩn. Để chúng tôi minh họa ý này bằng một ví dụ. Các tiêu chí của môn đọc đã nêu ở trên phù hợp cho trẻ 7 tuổi. Nếu chúng ta nói rằng đây nên là tiêu chuẩn cho trẻ 8 tuổi chứ không phải trẻ 7 tuổi, với giả định hữu lý rằng trẻ 8 tuổi được kỳ vọng có nhiều kiến thức hơn trẻ 7 tuổi, thì sẽ đúng khi nói rằng tiêu chuẩn đó hiện giờ đã bị hạ xuống bởi vì chúng ta đang giả định rằng trẻ 7 tuổi hiện nay học được ít hơn. Tất cả những gì chúng ta cần phản đối ở đây là tư duy bất di bất dịch rằng trong một môn học cụ thể, trẻ lớn tuổi hơn nên được kỳ vọng biết nhiều hơn so với trẻ nhỏ hơn. Lần nữa, vận dụng nguyên tắc rằng một tiêu chuẩn đòi hỏi ít kiến thức hơn so với một tiêu chuẩn khác với tất cả khía cạnh còn lại hoàn toàn giống nhau, là một tiêu chuẩn thấp hơn, chúng ta có thể phát biểu rằng: các tiêu chí áp dụng cho trẻ 8 tuổi sẽ tạo ra một tiêu chuẩn thấp hơn nếu các tiêu chí đó đồng thời được áp dụng cho trẻ 7 tuổi, vì trẻ 8 tuổi nên hiểu biết nhiều hơn trẻ 7 tuổi. Như thế nhìn chung không có vấn đề gì khi kết luận rằng tiêu chuẩn này cao hơn hay thấp hơn tiêu chuẩn khác.
Tuy nhiên, vẫn có thể nảy sinh những khó khăn về mặt chuyên môn khi so sánh các tiêu chuẩn với nhau, điều chúng tôi sẽ bàn luận ngay sau đây. Những khó khăn đó gồm hai loại: loại thứ nhất liên quan đến so sánh giữa các hệ thống giáo dục khác nhau tại cùng một thời điểm (đồng đại); loại thứ hai liên quan đến các so sánh về mặt lịch sử trong cùng một hệ thống giáo dục (lịch đại). Khó khăn thứ nhất là cái mà những người thiết kế các nghiên cứu so sánh quốc tế, chẳng hạn như TIMMS (một bài kiểm tra Toán quốc tế) hay PISA (một bài kiểm tra quốc tế gồm nhiều môn), phải vật lộn tìm cách giải quyết. Vấn đề ở đây tương đối rõ ràng. Một người có thể xây dựng tiêu chuẩn trong phạm vi một hệ thống giáo dục [nếu nó] cho phép bạn so sánh thành tích của học sinh trong cùng hệ thống đó. Dù vậy, làm thế nào để có thể so sánh hai hay nhiều hệ thống giáo dục trong bối cảnh mỗi cái đều có tiêu chuẩn nội bộ riêng? Ví dụ, việc “nhận biết những âm giống nhau có thể có những cách viết khác nhau hoặc những từ có cách viết giống nhau có thể liên quan đến những âm khác nhau” có thể trở thành một kỳ vọng dành cho trẻ 7 tuổi ở hệ thống giáo dục này và dành cho trẻ 8 tuổi trong hệ thống giáo dục khác. Đáng lo hơn, một số hệ thống chính tả của Anh ngữ có nhiều bất quy tắc hơn và thường khó thông thạo hơn so với những hệ thống khác, chẳng hạn Pháp ngữ. Do đó, việc đạt được tiêu chuẩn trên danh nghĩa đối với một học sinh người Anh có vẻ khó hơn khi so với một học sinh người Pháp. Giải pháp để xử lý những khó khăn này là xây dựng một tiêu chuẩn độc lập, có thể áp dụng cho học sinh cùng độ tuổi trong tất cả các hệ thống giáo dục được đem ra so sánh. Ở trường hợp môn đọc, điều này đồng nghĩa với việc người ta sẽ phải xây dựng một bài kiểm tra có cùng độ khó cho từng ngôn ngữ và gần như tương đương về phương diện hình thức văn bản. Khó khăn này không phải là không thể vượt qua, miễn sao người ta chấp nhận thực tế không bao giờ đạt được sự hoàn hảo tuyệt đối trong đánh giá. Nhưng, như chúng tôi đã lập luận, mục tiêu của đánh giá không phải là đạt được sự hoàn hảo.
Phân tích trên cũng có thể minh họa bằng một ví dụ từ Chương trình Giáo dục Quốc gia. Ở cuối Giai đoạn 2 (khoảng 11 tuổi), xét về năng lực hiểu văn bản, học sinh cần có khả năng làm được những điều sau:
1. Sử dụng các phép quy nạp và diễn dịch.
2. Tìm kiếm ý nghĩa [vượt ra] ngoài nghĩa đen [của văn bản].
3. Liên kết các phần khác nhau của một văn bản.
4. Sử dụng kiến thức của mình về các văn bản khác mà các em đã từng đọc.
(DfEE 1999, tr.53)
So sánh [quy mô] quốc tế có thể thực hiện bằng cách kiểm tra những năng lực đó thông qua việc sử dụng các văn bản có cùng độ khó, mà chính nó có thể được xác định cụ thể bằng một định nghĩa chặt chẽ hơn về bốn tiêu chí ở trên, phù hợp với độ tuổi của học sinh đang được đánh giá.
So sánh về phương diện lịch sử (lịch đại) đặc biệt khó khi [chúng ta] phải lùi sâu về quá khứ. Để so sánh với quá khứ gần, người ta có thể dùng cùng một bài kiểm tra lặp đi lặp lại nhiều lần. Càng lùi về sâu hơn thì bài kiểm tra trước đó càng ít có giá trị hơn. Lấy ví dụ một bài kiểm tra đọc, từ vựng thông dụng có thể đã thay đổi (chẳng hạn, “lorry” thay cho “truck”), và mức thành tích cơ bản có thể đã tăng hoặc giảm. Đây có vẻ là một vấn đề vì các bài kiểm tra thường được chuẩn hóa để đảm bảo một mô thức thành tích bình thường theo kiểu “đường cong hình chuông” (cho thấy sự phân hóa năng lực của người học). Việc tái chuẩn hóa định kỳ có nghĩa là các kết quả kiểm tra trước và sau khi việc này xảy ra không thể so sánh trực tiếp được. Khi lùi lại xa hơn, chúng ta sẽ thấy rằng các bài kiểm tra trong quá khứ đo lường các khía cạnh của môn đọc khác với những gì được đo lường ở hiện tại, và thậm chí khi lùi xa hơn nữa thì không hề có bài kiểm tra nào. Dù vậy, điều quan trọng là so sánh thành tích giữa các năm học với nhau cần được tiến hành và những điều chúng ta đã bàn về khó khăn [xuất hiện] trong các so sánh dài hạn không gây tác động nghiêm trọng nào lên việc đó.
Sự tiến bộ và giá trị gia tăng
Sự tiến bộ, như chúng ta đã thấy, có liên quan đến việc đo lường sự gia tăng kiến thức của học sinh sau mỗi giai đoạn. Khi chúng ta quan tâm đến việc đánh giá xem một hệ thống giáo dục có đang vận hành hiệu quả hay không, cách công bằng nhất để làm việc này dường như là đánh giá sự tiến bộ của học sinh. Theo những gì đã phân tích ở trên, sau khi tính toán mức độ tiến bộ giữa các giai đoạn đánh giá người ta sẽ tổng hợp chúng, trước tiên cho các lớp, sau đó cho các trường, tiếp đến cho các cơ quan giáo dục và cuối cùng cho cả nước. Thật không may, có những khó khăn ở đây. Một là, như chúng tôi đã lưu ý, có một số yếu tố mà nhà trường không chịu trách nhiệm. Những yếu tố này lại tác động mạnh đến sự tiến bộ của học sinh. Hai là, có những yếu tố sai sót buộc chúng ta phải xem dữ liệu về sự tiến bộ của học sinh như yếu tố chịu ảnh hưởng của biên độ sai. Những sai sót này phát sinh từ nhiều nguồn: thứ nhất, thành tích của học sinh biến động qua từng năm phụ thuộc vào năng lực riêng của các em; thứ hai, nơi có biến động thường xuyên về lượng học sinh nhập học và ra trường sẽ khó thu thập dữ liệu chính xác cho toàn bộ trường đó; thứ ba, có những yếu tố khiến học sinh học ở bên ngoài trường lớp hoặc học sinh quên đi những thứ các em đã học được. Cuối cùng, vì chúng ta biết rằng các yếu tố như đói nghèo, giới tính và nền tảng xã hội có tác động quan yếu đến sự tiến bộ của học sinh nên chúng cần thiết phải được xem xét khi chúng ta tính toán tính hiệu quả của ngôi trường đó xét về mặt tổng thể. Do những yếu tố đó không thể đo lường một cách chính xác [tuyệt đối], mà chỉ có thể ước tính, nên có phạm vi sai số lớn hơn trong đánh giá sự đóng góp của một trường vào tiến bộ của học sinh.
Điều này có nghĩa là chúng ta phải rất thận trọng khi đánh giá tính hiệu quả của một nhà trường, hoặc mức độ các trường thúc đẩy sự tiến bộ của học sinh. Biên độ sai số khi ước tính tính hiệu quả sẽ lớn đến nỗi có lẽ không thể thực hiện bất kỳ so sánh có ý nghĩa nào giữa các trường với các yếu tố hậu cảnh giống nhau mà đạt được những tỷ lệ tiến bộ dù tương tự nhau nhưng khác nhau. Những khác biệt giữa các trường có thể nhỏ tới mức chúng có thể được xét như các yếu tố ngẫu nhiên và sai số đo lường. Khả năng cao hơn là chúng ta rút ra những kết luận có ý nghĩa trong những tình huống mà tỷ lệ tiến bộ khác xa nhau và những yếu tố thuộc về nội bộ của các trường rất tương tự nhau. Điều này hàm ý chúng ta sẽ chỉ thực sự đưa ra những đánh giá vững chắc về các trường thể hiện tính hiệu quả, khả thi ở các thái cực tốt nhất hoặc tệ nhất. Tuy nhiên, điều này sẽ là một bài học giá trị nếu nó khiến cho các trường và các nhà hoạch định chính sách thấy rõ các yếu tố có xu hướng thúc đẩy hoặc cản trở sự tiến bộ. Người ta sẽ dễ bị cám dỗ để chối bỏ mọi nỗ lực như thế, bởi vì họ thường chú tâm thái quá tới sai số nên không thể nhận ra ý nghĩa thực sự của nỗ lực. Chúng tôi sẽ phản đối nhận định đó vì lý do sau đây.
Hãy để chúng tôi giả định điều ngược lại, rằng cách tự tổ chức của một ngôi trường không tạo ra bất cứ khác biệt nào đối với tỷ lệ tiến bộ của học sinh. Đó là một giả định thực nghiệm và do đó, có thể đúng hoặc sai. Nếu nó đúng hoặc sai, thì có những thực tế kia làm cho nó đúng hoặc sai và những thực tế đó xét về mặt nguyên tắc thì có thể điều tra được. Nếu giả định trên đúng, thì chúng ta vừa phát hiện ra rằng tính hiệu quả của trường học là hiện hữu. Còn nếu giả định trên sai, thì chúng ta vừa nhận ra rằng không có cái gì như thế cả. Dẫu theo cách nào đi chăng nữa, câu hỏi đó vẫn không thể được quyết định nếu chỉ thông qua suy luận, mà buộc phải xác định thông qua điều tra, cho dù việc này hóa ra rất khó khăn. Những lựa chọn thay thế kiểu này dường như muốn ám chỉ, hoặc là không có thực tế nào giúp ta xác định liệu những trường này có hiệu quả hơn những trường khác không, điều này có vẻ vô lý; hoặc không có niềm tin về tính hiệu quả của trường học theo cách này hay cách khác cũng là điều bình thường. Ở trường hợp thứ nhất, chúng ta sẽ cam kết với lập luận, lấy ví dụ, thực tế Trường A toàn những giáo viên trình độ cao, xuất sắc, còn trường B chỉ có những giáo viên xuất thân là người tay ngang với trình độ bằng cấp tối thiểu. Xét về mặt logic, có thể không có ảnh hưởng nào lên thực tế rằng học sinh Trường A có nhiều tiến bộ rõ rệt hơn so với học sinh Trường B. Trong trường hợp thứ hai, chúng ta sẽ phải nói rằng giáo viên, học sinh, phụ huynh và nhà hoạch định chính sách sẽ có lý do chính đáng để giải thích cho việc họ không nêu ý kiến liệu giảng dạy tốt hay công tác tổ chức trường học quy củ có tác động đến mức độ tiến bộ của học sinh hay không. Điều này hiếm khi khá hơn bởi nó gợi ý một sự thoái thác hoàn toàn trách nhiệm điều tra một thứ hết sức quan trọng và liên quan đến việc học ở trường. Do đó chúng ta nên đưa ra kết luận rằng, dù những khó khăn trong việc tìm hiểu vấn đề này có gây nản lòng thế nào đi nữa, dù kết luận chúng tôi rút ra từ những cuộc điều tra như thế có thiếu dứt khoát ra sao đi nữa, thì từ chối tham gia vào một cuộc điều tra như vậy cũng bám víu vào, hoặc là sự chối bỏ rằng có những căn cứ thực tế giúp xác định vấn đề đó, hoặc là giả định việc không có ý kiến về vấn đề đó theo cách này hay cách khác cũng là hợp tình hợp lý.
Kết luận: Đánh giá có thể cho ta biết gì và không cho ta biết gì?
1. Chúng tôi đã lập luận ủng hộ cũng như bảo vệ quan điểm cho rằng việc dạy học cần phải có sự đánh giá nếu muốn triển khai một cách nghiêm túc. Chúng tôi cũng bảo vệ quan điểm này trước hàng loạt thách thức, hoài nghi và trong khi làm vậy, chúng tôi đã thừa nhận việc đánh giá không bao giờ hoàn hảo tuyệt đối.
2. Trách nhiệm giải trình trong giáo dục đòi hỏi phải có sự đánh giá. Những gì mà một nền giáo dục thành công đem lại là kiến thức, không phải là cơ hội tiếp thu kiến thức. Những giáo viên nghiêm túc sẽ đánh giá học sinh của mình và điều này đòi hỏi họ có sẵn trong tay những cách làm công bằng, kỹ lưỡng, hợp lý để xác định học sinh đã học được những gì.
3. Phân biệt giữa thành tích với tiêu chuẩn là việc quan trọng.
Các tiêu chuẩn có thể được so sánh với nhau cả về phương diện lịch sử và giữa các quốc gia với nhau. Do vậy triển khai các so sánh ở quy mô quốc tế về thành tích giáo dục bằng cách sử dụng một tiêu chuẩn chung là một việc khả thi.
Câu hỏi thảo luận
1. Giáo viên nên làm gì để bảo đảm rằng [công việc giảng dạy của] họ diễn ra thuận lợi?
2. Phương pháp đánh giá không hoàn hảo có gây nên vấn đề gì không?
3. Các so sánh quốc tế về thành tích giáo dục có cho chúng ta biết điều gì hữu ích không?
4. “Rõ ràng các tiêu chuẩn đã giảm xuống, giáo dục Anh không giống như giai đoạn trước Thế chiến thứ Hai nữa”. Liệu có thể đánh giá về tính xác thực của phát biểu như thế này hay không?
5. Các kỳ thi có cần thiết cho mục đích đánh giá giáo dục không?
Đọc thêm
Công trình mang tên Những Hạn chế của Đánh giá Giáo dục (The Limits of Educational Assessment, Oxford, Blackwell, 1998) của Andrew Davis là phê bình triết học duy nhất có giá trị dài lâu liên quan tới chính sách đánh giá giáo dục mà chúng tôi biết. Cuốn sách Đánh giá Giáo dục: Một Phê bình về Chính sách hiện hành của Davis (Educational Assessment: A Critique of Current Policy, London, Philosophy of Education Society of Great Britain (Hiệp hội Triết học Giáo dục Vương Quốc Anh), 1999) lại là một dẫn luận dễ tiếp cận về các quan điểm của ông. Độc giả có thể tìm đọc tranh luận của Anthony Flew về đánh giá trong cuốn Xã hội học, Bình đẳng và Giáo dục (Sociology, Equality and Education, London, Macmillan, 1976).
Một tác giả nữa, người đã cố gắng bảo vệ các thực tiễn đánh giá là Kevin Williams với chương “Đánh giá và Thách thức của Sự hoài nghi” (Assessment and the Challenge of Scepticism) in trong cuốn sách có tên Giáo dục, Tri thức và Sự thật (Education, Knowledge and Truth, London, Routledge, 1998) của David Carr (biên tập).
Đọc thêm về sự khác biệt giữa tiêu chuẩn và thành tích trong bài báo của Pring, tiêu đề “Tiêu chuẩn và Chất lượng trong Giáo dục” (Standards and Quality in Education, British Journal of Educational Studies (Tạp chí Nghiên cứu Giáo dục Anh Quốc), 40, 3:4−22, 1992).
Winch bàn luận cùng chủ đề này ở chương “Biện hộ cho các Tiêu chuẩn Giáo dục” (In Defence of Educational Standards) in trong cuốn sách mang tên Vấn đề Chất lượng và Giáo dục (Quality and Education, Oxford, Blackwell, 1996). Chủ đề giáo dục so sánh quốc tế, xem thêm cuốn sách của Harvey Goldsteins, cuốn Diễn giải các So sánh Quốc tế về Thành tích của Học sinh (Interpreting International Comparisons of Student Achievement, Paris, UNESCO, 1995). Phần phân tích dữ liệu về giá trị gia tăng ở Vương Quốc Anh, xem thêm Harvey Goldsteins và các cộng sự, cuốn Sử dụng Thông tin Giá trị Gia tăng trong Đánh giá Thành tích Trường học (The Use of Value Added Information in Judging School Performance, London, Institute of Education (Viện Giáo dục), 2000).