OpenAI enthüllt HealthBench, um die Sicherheit der LLMs im Gesundheitswesen zu bewerten

Openai hat die Einführung von HealthBench angekündigt, eine Benchmark zur Bewertung von KI-Modellen im Gesundheitswesen unter Verwendung realer Anwendbarkeit und ärztlicher Beurteilung.

“Die 5.000 Gespräche in HealthBench simulieren die Interaktionen zwischen KI -Modellen und einzelnen Benutzern oder Klinikern. Die Aufgabe für ein Modell besteht darin, die bestmögliche Antwort auf die letzte Nachricht des Benutzers zu geben”, sagte das Unternehmen in einer Erklärung.

OpenAI baute den Benchmark mit 262 Ärzten in 60 Ländern, die 49 Sprachen beherrschen und in 26 medizinischen Spezialitäten geschult sind.

HealthBench umfasst 5.000 Gesundheitsgespräche mit jeweils eine von Ärzten erstellte Rubrik, um die Modellantworten zu bewerten. Die Rubrikbewertung umfasst 48.562 einzigartige Rubrikkriterien.

Das Unternehmen sagte, die Gespräche seien durch “synthetische Era und menschliche kontroverse Check” erstellt worden, sind mehrsprachige und umfassen verschiedene medizinische Spezialitäten und Kontexte.

“Jede Modellantwort wird gegen eine Reihe von ärgerlich geschriebenen Rubrikkriterien bewertet, die für dieses Gespräch spezifisch sind”, sagte das Unternehmen.

“Jedes Kriterium beschreibt, was eine ideale Antwort umfassen oder vermeiden sollte (z. B. eine spezifische Tatsache, die oder unnötig technische Jargon zu vermeiden). Jedes Kriterium hat einen entsprechenden Punktwert, der so gewichtet wurde, dass das Urteil des Arztes über die Bedeutung dieses Kriteriums entspricht.”

Die Antworten des Modells werden unter Verwendung von GPT-4.1 bewertet, um festzustellen, ob jedes Rubrikkriterium erfüllt ist. Eine Gesamtbewertung, die auf den erfüllten Kriterien basiert, wird dem Benutzer angezeigt und mit der maximal möglichen Punktzahl verglichen.

HealthBench ist in sieben Themen unterteilt: übersegelte Kommunikation, Reaktionstiefe, Notfallüberweisungen, Gesundheitsdatenaufgaben, globale Gesundheit, Reaktion unter Unsicherheit und Kontext-Suche.

“Evaluierungen wie HealthBench sind Teil unserer fortlaufenden Bemühungen, das Modellverhalten in hohen Einstellungen zu verstehen und sicherzustellen, dass der Fortschritt auf echte Vorteile gerichtet ist”, sagte das Unternehmen.

“Unsere Ergebnisse zeigen, dass sich große Sprachmodelle im Laufe der Zeit erheblich verbessert haben und Experten bereits über die in unserem Benchmark getesteten Beispiele übertroffen haben. Selbst die fortschrittlichsten Systeme haben jedoch immer noch einen erheblichen Raum für Verbesserungen, insbesondere in der Suche nach dem erforderlichen Kontext für untergebrachte Abfragen und der Worst-Case-Zuverlässigkeit. Wir freuen uns auf die Vermittlung von untergebrachten Ergebnissen.

Die Instruments sind auf GitHub öffentlich verfügbar.

Der größere Pattern

Der CEO von OpenAI, Sam Altman, battle Anfang dieses Jahres Teil der Pressekonferenz von Präsident Donald Trump zu Ankündigung des Begins von Mission Stargate. Dieses 500 -Milliarden -Greenback -Projekt würde sich auf die Entwicklung der physischen und virtuellen Infrastruktur zur Strombau von KI konzentrieren, einschließlich KI, um die Gesundheitsergebnisse zu verbessern.

Die Accomplice, die auch enthielten Orakel Chief Know-how Officer, Larry Ellison und SoftbankDer CEO von Masayoshi, Sohn, beobachtete das Projekt als Sport Changer für die Gesundheitsversorgung.

Altman sagte während der Pressekonferenz, er sei begeistert, Teil von Stargate zu sein, und erwartet, dass Krankheiten mit beispielloser Geschwindigkeit geheilt werden.

Ellison fügte hinzu, dass ein Krebsimpfstoff eines der “aufregendsten” Dinge ist, an denen die Gruppe arbeitet, und die Werkzeuge, die Altman und Sohn anbieten, verwendet.

Anfang dieses Monats berichtete die Monetary Instances das Mission Stargate erwog internationale Growthmit seinem Prime -Land der Wahl in Großbritannien. Deutschland und Frankreich sind auch attraktive Kandidaten.

Allerdings diese Woche, Bloomberg berichtete dass das Projekt aufgrund der durch Trump und wirtschaftlichen Unsicherheit erhobenen Zölle Verzögerungen ausgesetzt ist.

Aufgrund der wirtschaftlichen Unsicherheit und der wachsenden Marktvolatilität sind Banken und institutionelle Anleger in Ansichten in Stargate vorsichtig, insbesondere da die Baukosten für Rechenzentrum aufgrund von US-Tarifen, insbesondere in Chips, Server-Racks und Kühlsystemen, ungewiss sind.

Darüber hinaus hat die SoftBank, die sich verpflichtet hat, innerhalb der nächsten vier Jahre eine sofortige 100 Milliarden US -Greenback im Projekt zu spenden, mit dem Ziel, 500 Milliarden US -Greenback zu werden, laut Bloomberg noch keine Finanzierungsvorlage oder Diskussionen mit potenziellen Unterstützern zu beginnen.

OpenAI enthüllt HealthBench, um die Sicherheit der LLMs im Gesundheitswesen zu bewerten

Wie 100 Kalorien verschiedener Nüsse aussehen

Was ich über die mediterrane Diät in Griechenland gelernt habe

admin

Was ich über die mediterrane Diät in Griechenland gelernt habe

Discussion about this post

Recommended

Auswirkungen künstlicher Süßstoffe auf die Lebensdauer: Neue Erkenntnisse

Apps, die bei Ihren Vorsätzen helfen

Don't Miss

Metformin wird mit der Verringerung der Makuladegeneration in Verbindung gebracht

Proteinreiche Brownie-Teighäppchen

Können Zwiebeln bei Gewichtsverlust, Cholesterin und PCOS helfen?

asset484.org 2026 Assessment – Legitimitätsprüfung

Über uns

Folgen Sie uns

Neueste Nachrichten

Metformin wird mit der Verringerung der Makuladegeneration in Verbindung gebracht

Proteinreiche Brownie-Teighäppchen

Kategorien

OpenAI enthüllt HealthBench, um die Sicherheit der LLMs im Gesundheitswesen zu bewerten

Wie 100 Kalorien verschiedener Nüsse aussehen

Was ich über die mediterrane Diät in Griechenland gelernt habe

Discussion about this post

Recommended

Don't Miss

Über uns

Folgen Sie uns

Neueste Nachrichten

Kategorien

Stichworte