Watts-Lab · joshnguyen99 · May 18, 2026 · May 11, 2026 · May 18, 2026
diff --git a/client/public/llm-evals.html b/client/public/llm-evals.html
diff --git a/client/public/locales/ar/translation.json b/client/public/locales/ar/translation.json
@@ -98,7 +98,8 @@
     "dashboard": "لوحة القيادة",
     "people": "الأشخاص",
     "research": "البحث",
-    "signin": "تسجيل الدخول"
+    "signin": "تسجيل الدخول",
+    "llmEvals": "تقييمات النماذج اللغوية"
   },
   "navbar.participate →": "شارك →",
   "publications": {
@@ -339,5 +340,53 @@
       "question": "يزن كلب وقطة 100 رطل في المجموع. يزن الكلب 86 رطلاً. ما هو الفرق في الوزن بين الكلب والقطة؟",
       "intuitiveExplanation": "86 رطلاً (وزن الكلب) يبدو بديهياً"
     }
+  },
+  "llmEvals": {
+    "eyebrow": "معيار الحس العام",
+    "title": "تقييمات الحس العام للنماذج اللغوية الكبيرة",
+    "intro": "يقارن هذا الجدول نماذج اللغة وفق ثلاثة مقاييس للحس العام على مستوى الفرد: التوافق والوعي والمنطقية العامة.",
+    "methodology": "يقيس التوافق ما اذا كان النموذج يتفق مع الاغلبية البشرية لكل عبارة. ويقيس الوعي ما اذا كان يتنبأ بشكل صحيح بما ستعتقده اغلبية الناس. وتجمع المنطقية العامة بين هاتين الاشارتين.",
+    "detailsPrefix": "لمزيد من التفاصيل حول اطار التقييم والنتائج، زر",
+    "detailsLink": "صفحة عرض الحس العام للنماذج اللغوية الكبيرة",
+    "detailsSuffix": ".",
+    "modelsEvaluated": "النماذج المقيمة",
+    "topCommonsensicalityII": "اعلى منطقية عامة (II)",
+    "scoreRank": "درجة {{score}}، الترتيب {{rank}}",
+    "lastUpdated": "اخر تحديث",
+    "tableTitle": "نتائج التقييم",
+    "tableHelp": "ابحث حسب النموذج، او رشح حسب حد ادنى لدرجة المقياس، او انقر على اي عنوان عمود للفرز.",
+    "modelFilter": "النموذج",
+    "searchPlaceholder": "البحث في النماذج",
+    "scoreMetric": "مقياس الدرجة",
+    "minimumScore": "الحد الادنى للدرجة",
+    "anyPlaceholder": "اي قيمة",
+    "caption": "درجات تقييم الحس العام للنماذج اللغوية الكبيرة",
+    "showing": "عرض {{shown}} من اصل {{total}} نموذج",
+    "scoreNote": "تعرض الدرجة كقيمة مع الترتيب بين قوسين.",
+    "columns": {
+      "model": "النموذج",
+      "added": "تاريخ الاضافة",
+      "consensusI": "التوافق (I)",
+      "consensusII": "التوافق (II)",
+      "awarenessI": "الوعي (I)",
+      "awarenessII": "الوعي (II)",
+      "commonsensicalityI": "المنطقية العامة (I)",
+      "commonsensicalityII": "المنطقية العامة (II)"
+    },
+    "variants": "تعرض كل درجة وفق صيغتين. في الصيغة (I)، تحدد الاغلبية البشرية من تقييمات البشر فقط. في الصيغة (II)، يعاد حساب الاغلبية بعد ادخال تقييم النموذج. الدرجات هي نسب مئوية، والارقام بين قوسين تعرض ترتيب كل نموذج داخل ذلك العمود.",
+    "modelDetailsPrefix": "لمقارنات اضافية بين النماذج، زر",
+    "modelDetailsSuffix": ".",
+    "methodDetailsPrefix": "للاطلاع على المنهجية والصيغ، راجع",
+    "methodDetailsSuffix": ".",
+    "paperLink": "الورقة البحثية",
+    "calculationTitle": "ملاحظات الحساب",
+    "calculationIntro": "يستخدم الجدول تعريفات تقييم الاغلبية التالية للصيغتين.",
+    "variantIFormulaLabel": "الصيغة (I): اغلبية بشرية فقط",
+    "variantIIFormulaLabel": "الصيغة (II): اغلبية تشمل تقييم النموذج",
+    "humanShareDefinition": "نسبة المقيمين البشر الذين يوافقون على العبارة i.",
+    "omegaDefinition": "مجموعة المقيمين البشر المخصصين للعبارة i.",
+    "alphaDefinition": "تقييم النموذج للعبارة i.",
+    "ratingsDefinition": "تقييم المقيم البشري j للعبارة i.",
+    "indicatorDefinition": "دالة مؤشر تعيد 1 عندما يكون الشرط صحيحا و0 خلاف ذلك."
   }
 }
diff --git a/client/public/locales/bn/translation.json b/client/public/locales/bn/translation.json
@@ -98,7 +98,8 @@
     "dashboard": "ড্যাশবোর্ড",
     "people": "মানুষ",
     "research": "গবেষণা",
-    "signin": "প্রবেশ করুন"
+    "signin": "প্রবেশ করুন",
+    "llmEvals": "এলএলএম মূল্যায়ন"
   },
   "navbar.participate →": "অংশগ্রহণ করুন →",
   "publications": {
@@ -339,5 +340,53 @@
       "question": "একটি কুকুর এবং একটি বিড়ালের মোট ওজন ১০০ পাউন্ড। কুকুরের ওজন ৮৬ পাউন্ড। কুকুর এবং বিড়ালের ওজনের পার্থক্য কত?",
       "intuitiveExplanation": "৮৬ পাউন্ড (কুকুরের ওজন) স্পষ্ট মনে হয়"
     }
+  },
+  "llmEvals": {
+    "eyebrow": "সাধারণ বোধের বেঞ্চমার্ক",
+    "title": "এলএলএম সাধারণ বোধ মূল্যায়ন",
+    "intro": "এই টেবিলটি ভাষা মডেলগুলোকে তিনটি ব্যক্তি-স্তরের সাধারণ বোধ মাপে তুলনা করে: consensus, awareness এবং commonsensicality।",
+    "methodology": "Consensus মাপে একটি মডেল প্রতিটি বিবৃতিতে মানব majority-এর সঙ্গে একমত কিনা। Awareness মাপে মডেলটি অধিকাংশ মানুষ কী ভাববে তা সঠিকভাবে অনুমান করতে পারে কিনা। Commonsensicality এই দুই সংকেতকে একত্র করে।",
+    "detailsPrefix": "মূল্যায়ন কাঠামো এবং ফলাফল সম্পর্কে আরও বিস্তারিত জানতে দেখুন",
+    "detailsLink": "এলএলএম সাধারণ বোধ ডেমো পেজ",
+    "detailsSuffix": ".",
+    "modelsEvaluated": "মূল্যায়িত মডেল",
+    "topCommonsensicalityII": "সর্বোচ্চ commonsensicality (II)",
+    "scoreRank": "{{score}} স্কোর, rank {{rank}}",
+    "lastUpdated": "সর্বশেষ আপডেট",
+    "tableTitle": "মূল্যায়নের ফলাফল",
+    "tableHelp": "মডেল দিয়ে খুঁজুন, ন্যূনতম metric score দিয়ে ফিল্টার করুন, অথবা সাজাতে যেকোনো কলাম শিরোনামে ক্লিক করুন।",
+    "modelFilter": "মডেল",
+    "searchPlaceholder": "মডেল খুঁজুন",
+    "scoreMetric": "স্কোর মেট্রিক",
+    "minimumScore": "ন্যূনতম স্কোর",
+    "anyPlaceholder": "যেকোনো",
+    "caption": "এলএলএম সাধারণ বোধ মূল্যায়নের স্কোর",
+    "showing": "{{total}} মডেলের মধ্যে {{shown}}টি দেখানো হচ্ছে",
+    "scoreNote": "স্কোর মান হিসেবে দেখানো হয়েছে, আর rank বন্ধনীর মধ্যে।",
+    "columns": {
+      "model": "মডেল",
+      "added": "যোগ করা হয়েছে",
+      "consensusI": "Consensus (I)",
+      "consensusII": "Consensus (II)",
+      "awarenessI": "Awareness (I)",
+      "awarenessII": "Awareness (II)",
+      "commonsensicalityI": "Commonsensicality (I)",
+      "commonsensicalityII": "Commonsensicality (II)"
+    },
+    "variants": "প্রতিটি স্কোর দুটি variant-এ দেওয়া হয়েছে। Variant (I)-এ মানব majority শুধু মানব rating থেকে নির্ধারিত হয়। Variant (II)-এ মডেলের rating অন্তর্ভুক্ত করার পর majority পুনরায় গণনা করা হয়। স্কোরগুলো শতাংশ, এবং বন্ধনীর সংখ্যাগুলো সেই কলামের মধ্যে প্রতিটি মডেলের ranking দেখায়।",
+    "modelDetailsPrefix": "অতিরিক্ত মডেল তুলনার জন্য দেখুন",
+    "modelDetailsSuffix": ".",
+    "methodDetailsPrefix": "পদ্ধতি এবং formula-এর জন্য দেখুন",
+    "methodDetailsSuffix": ".",
+    "paperLink": "গবেষণা প্রবন্ধ",
+    "calculationTitle": "গণনার নোট",
+    "calculationIntro": "দুটি variant-এর জন্য টেবিলটি নিচের majority-rating সংজ্ঞা ব্যবহার করে।",
+    "variantIFormulaLabel": "Variant (I): শুধু মানব majority",
+    "variantIIFormulaLabel": "Variant (II): মডেল rating সহ majority",
+    "humanShareDefinition": "বিবৃতি i-এর সঙ্গে একমত মানব rater-এর অংশ।",
+    "omegaDefinition": "বিবৃতি i-তে নিযুক্ত মানব rater-দের সেট।",
+    "alphaDefinition": "বিবৃতি i-এর জন্য মডেলের rating।",
+    "ratingsDefinition": "বিবৃতি i-এর জন্য মানব rater j-এর rating।",
+    "indicatorDefinition": "একটি indicator function, যা শর্ত সত্য হলে 1 এবং অন্যথায় 0 ফেরত দেয়।"
   }
 }
diff --git a/client/public/locales/en/translation.json b/client/public/locales/en/translation.json
@@ -100,7 +100,8 @@
     "dashboard": "Dashboard",
     "people": "People",
     "research": "Research",
-    "signin": "Signin"
+    "signin": "Signin",
+    "llmEvals": "LLM Evals"
   },
   "navbar.participate →": "Participate →",
   "publications": {
@@ -341,5 +342,53 @@
       "question": "A dog and a cat weigh 100 pounds in total. The dog weighs 86 pounds. What is the difference in weight between the dog and the cat?",
       "intuitiveExplanation": "86 lbs (the dog's weight) feels obvious"
     }
+  },
+  "llmEvals": {
+    "eyebrow": "Common sense benchmark",
+    "title": "LLM Commonsense Evals",
+    "intro": "This table compares language models on three individual-level common sense measures: consensus, awareness, and commonsensicality.",
+    "methodology": "Consensus measures whether a model agrees with the human majority for each statement. Awareness measures whether it correctly predicts what most people would think. Commonsensicality combines these two signals.",
+    "detailsPrefix": "For more details on the evaluation framework and results, visit",
+    "detailsLink": "LLM commonsense demo page",
+    "detailsSuffix": ".",
+    "modelsEvaluated": "Models evaluated",
+    "topCommonsensicalityII": "Top commonsensicality (II)",
+    "scoreRank": "{{score}} score, rank {{rank}}",
+    "lastUpdated": "Last updated",
+    "tableTitle": "Evaluation Results",
+    "tableHelp": "Search by model, filter by a minimum metric score, or click any column heading to sort.",
+    "modelFilter": "Model",
+    "searchPlaceholder": "Search models",
+    "scoreMetric": "Score metric",
+    "minimumScore": "Minimum score",
+    "anyPlaceholder": "Any",
+    "caption": "LLM commonsense evaluation scores",
+    "showing": "Showing {{shown}} of {{total}} models",
+    "scoreNote": "Score shown as value with rank in parentheses.",
+    "columns": {
+      "model": "Model",
+      "added": "Added",
+      "consensusI": "Consensus (I)",
+      "consensusII": "Consensus (II)",
+      "awarenessI": "Awareness (I)",
+      "awarenessII": "Awareness (II)",
+      "commonsensicalityI": "Commonsensicality (I)",
+      "commonsensicalityII": "Commonsensicality (II)"
+    },
+    "variants": "Each score is reported under two variants. In variant (I), the human majority is determined from human ratings only. In variant (II), the majority is recalculated after including the model rating. Scores are percentages, and numbers in parentheses show each model ranking within that column.",
+    "modelDetailsPrefix": "For additional model comparisons, visit",
+    "modelDetailsSuffix": ".",
+    "methodDetailsPrefix": "For methodology and formulas, see",
+    "methodDetailsSuffix": ".",
+    "paperLink": "the research paper",
+    "calculationTitle": "Calculation notes",
+    "calculationIntro": "The table uses the following majority-rating definitions for the two variants.",
+    "variantIFormulaLabel": "Variant (I): human-only majority",
+    "variantIIFormulaLabel": "Variant (II): majority including the model rating",
+    "humanShareDefinition": "The share of human raters who agree with statement i.",
+    "omegaDefinition": "The set of human raters assigned to statement i.",
+    "alphaDefinition": "The model rating for statement i.",
+    "ratingsDefinition": "The rating from human rater j for statement i.",
+    "indicatorDefinition": "An indicator function that returns 1 when the condition is true and 0 otherwise."
   }
 }
diff --git a/client/public/locales/es/translation.json b/client/public/locales/es/translation.json
@@ -98,7 +98,8 @@
     "dashboard": "Tablero",
     "people": "Gente",
     "research": "Investigación",
-    "signin": "Iniciar sesión"
+    "signin": "Iniciar sesión",
+    "llmEvals": "Evaluaciones LLM"
   },
   "navbar.participate →": "Participar →",
   "publications": {
@@ -345,5 +346,53 @@
       "question": "Un perro y un gato pesan 100 libras en total. El perro pesa 86 libras. ¿Cuál es la diferencia de peso entre el perro y el gato?",
       "intuitiveExplanation": "86 lbs (el peso del perro) parece obvio"
     }
+  },
+  "llmEvals": {
+    "eyebrow": "Benchmark de sentido comun",
+    "title": "Evaluaciones de sentido comun de LLM",
+    "intro": "Esta tabla compara modelos de lenguaje en tres medidas de sentido comun a nivel individual: consenso, conciencia y commonsensicalidad.",
+    "methodology": "El consenso mide si un modelo coincide con la mayoria humana para cada enunciado. La conciencia mide si predice correctamente lo que pensaria la mayoria de las personas. La commonsensicalidad combina estas dos senales.",
+    "detailsPrefix": "Para mas detalles sobre el marco de evaluacion y los resultados, visita",
+    "detailsLink": "la pagina de demostracion de sentido comun de LLM",
+    "detailsSuffix": ".",
+    "modelsEvaluated": "Modelos evaluados",
+    "topCommonsensicalityII": "Mayor commonsensicalidad (II)",
+    "scoreRank": "puntuacion {{score}}, rango {{rank}}",
+    "lastUpdated": "Ultima actualizacion",
+    "tableTitle": "Resultados de evaluacion",
+    "tableHelp": "Busca por modelo, filtra por una puntuacion minima de metrica o haz clic en cualquier encabezado de columna para ordenar.",
+    "modelFilter": "Modelo",
+    "searchPlaceholder": "Buscar modelos",
+    "scoreMetric": "Metrica de puntuacion",
+    "minimumScore": "Puntuacion minima",
+    "anyPlaceholder": "Cualquiera",
+    "caption": "Puntuaciones de evaluacion de sentido comun de LLM",
+    "showing": "Mostrando {{shown}} de {{total}} modelos",
+    "scoreNote": "La puntuacion se muestra como valor con el rango entre parentesis.",
+    "columns": {
+      "model": "Modelo",
+      "added": "Agregado",
+      "consensusI": "Consenso (I)",
+      "consensusII": "Consenso (II)",
+      "awarenessI": "Conciencia (I)",
+      "awarenessII": "Conciencia (II)",
+      "commonsensicalityI": "Commonsensicalidad (I)",
+      "commonsensicalityII": "Commonsensicalidad (II)"
+    },
+    "variants": "Cada puntuacion se presenta bajo dos variantes. En la variante (I), la mayoria humana se determina solo a partir de las calificaciones humanas. En la variante (II), la mayoria se recalcula despues de incluir la calificacion del modelo. Las puntuaciones son porcentajes, y los numeros entre parentesis muestran la clasificacion de cada modelo dentro de esa columna.",
+    "modelDetailsPrefix": "Para comparaciones adicionales de modelos, visita",
+    "modelDetailsSuffix": ".",
+    "methodDetailsPrefix": "Para metodologia y formulas, consulta",
+    "methodDetailsSuffix": ".",
+    "paperLink": "el articulo de investigacion",
+    "calculationTitle": "Notas de calculo",
+    "calculationIntro": "La tabla usa las siguientes definiciones de calificacion mayoritaria para las dos variantes.",
+    "variantIFormulaLabel": "Variante (I): mayoria solo humana",
+    "variantIIFormulaLabel": "Variante (II): mayoria que incluye la calificacion del modelo",
+    "humanShareDefinition": "La proporcion de evaluadores humanos que estan de acuerdo con el enunciado i.",
+    "omegaDefinition": "El conjunto de evaluadores humanos asignados al enunciado i.",
+    "alphaDefinition": "La calificacion del modelo para el enunciado i.",
+    "ratingsDefinition": "La calificacion del evaluador humano j para el enunciado i.",
+    "indicatorDefinition": "Una funcion indicadora que devuelve 1 cuando la condicion es verdadera y 0 en caso contrario."
   }
 }