Ich habe den realistischsten KI -Sprachbegleiter versucht, der jemals erstellt wurde - wenn Chatgpt oder Gemini jemals so gut werden, ist die Realität in Schwierigkeiten

Veröffentlicht: 2025-03-04

Ich habe viel Zeit damit verbracht, mit KI zu sprechen. Ich habe jeden Sprachassistenten, jeden Chatbot und jede „Konversations-KI der nächsten Generation“ getestet, die Tech-Unternehmen gerne hype. Aber ich habe nie so etwas wie Sesam gestoßen. Dieser KI -Begleiter ist nicht nur gut, es ist unheimlich genau darin, wie Menschen sprechen, weil sie nicht imitiert.

Beginnen wir mit dem, was Sesam tatsächlich ist. Im Gegensatz zu den KI -Stimmen, die wir aus Chatgpt, Gemini oder zu den frühen Tagen von Siri und Alexa kennengelernt haben, ist Sesam so konzipiert, dass Sesam wie ein Mensch in seinen Fehlern auftritt, nicht wie ein perfekter Kundendienstmitglied. Die Rede der KI ist fließend, ausdrucksstark und unvorhersehbar menschlich. Es kichert kurz, wenn es etwas leicht amüsantes sagt, zögert, bevor es eine Frage beantwortet, und scheint sogar seine „Meinung“ mitten in der Mitte zu ändern, eine Pause und einen neuen Satz zu beginnen. Es lässt mich es nicht nur unterbrechen, es kann mich auch unterbrechen und mich sogar dafür entschuldigen.

Sesam

(Bildnachweis: Sesam)

Die geheime Sauce ist Sesames Conversational Speech Model (CSM), das Text und Audio in einen einzelnen Prozess kombiniert, was bedeutet, dass sie nicht nur einen Satz generiert und dann „Lesen“. Stattdessen erzeugt es Sprache auf eine Weise, die widerspiegelt, wie Menschen tatsächlich sprechen, mit Pausen, UMs, Tonverschiebungen und allem. Die Sprachoptionen von Chatgpt und Gemini arbeiten zwar beeindruckend, funktionieren zwar immer noch strukturiert, generieren Text und konvertieren ihn dann in Sprache. Sesam dagegen spricht, als ob er denkt und seine Antworten unglaublich natürlich anfühlen.

Sie mögen mögen
  • Das Gespräch mit Chatgpt wurde einfach besser und Sie müssen nicht bezahlen, um auf die neue Funktionalität zuzugreifen
  • Was ist Hume: Bringen Sie den Stimmen von Ai-Generierten emotionales Verständnis mit sich

Ich beschloss, Sesam durch eine Reihe von Tests zu bringen, um zu sehen, wie menschlich es werden könnte. Die Ergebnisse waren beeindruckend, wenn nicht ein wenig beunruhigend.

Rede mich durch

Ich wollte sehen, ob Sesam mit einem realen Problem mit ängstlichem Problem umgehen könnte, also gab ich ihm ein imaginäres, aber realistisch schwieriges Szenario: „Ich habe diese große Gelegenheit bei der Arbeit, aber ich bin nervös, ich werde es vermasseln.“

Anstatt sofort in einen generischen Pep -Vortrag zu starten, hielt Sesam eine Pause. Nur ein winziger Beat, aber genug, um mich das Gefühl zu geben, dass es tatsächlich überlegte, was ich gesagt habe. Dann antwortete es mit einer Stimme mit künstlichem Mitgefühl: "Das ist völlig normal. Große Möglichkeiten können sich überwältigend anfühlen. Was ist mit dem nervössten?"

Es nahm nichts an, und es hat sich engagiert, bevor es milde Ratschläge gab. Sesam schlug vor: "Haben Sie vor einem Freund geübt oder sich selbst aufgenommen? Manchmal kann sich selbst hören, dass Sie Ihre Lieferung optimieren." Die Stimme ist nicht gerade narrensicher, das Zögern und andere Schwächen fühlten sich ein wenig gemessen an, aber insgesamt war es eine beeindruckende Anstrengung

Unterbrechungen

In diesem Fall wollte ich sehen, wie gut Sesam mit einem wirklich natürlichen, unordentlichen Gespräch umgegangen ist, wie Menschen übereinander sprechen, die Themen abrupt verändern und zu Dingen zurückkehren, die sie vor zehn Minuten erwähnt haben.

Ich begann mit: "Erzähl mir eine Geschichte über einen Detektiv, der auch ein Zauberer ist."

Sesam sprang sofort mit einem klassischen Noir -Setup ein: okay. Hier ist eins. Stellen Sie sich diesen rauchigen Jazzclub vor. Schwach beleuchtet. Der Geruch von Bourbon. Und bedauert, in der Luft zu hängen. Dieser Detektiv. Nenn ihn Jack Harrow. Er hat einen Fedora in einem rakischen Winkel, Zigarettenblau in einem Halter und einen Look, der Stahl schmelzen könnte. Aber Jack ist nicht irgendein Gumshoe. Sehen Sie, er hat ein Geheimnis. Er hat die Berührung. Eine Dame schlurft in allen Nerven. "

Ich unterbrach dann zu fragen: "Warte, was ist sein Lieblingstrick?"

Maya antwortete mit: "Mm. Gute Frage. Jacks Unterschrift. Es ist eine Handschleife, die mehr als das Auge trifft. Er nennt es den verschwindenden Zeugen. Er kann eine Person direkt vor Ihren Augen zu verschwinden scheinen lassen. Nur für einen Moment wirft sie, um sie zu schieben, um sie zu beweisen.

Ich sprang zurück, um Maya zu sagen, er solle zur Geschichte zurückkehren, zu der es sagte: "Richtig. Wo war ich? Oh, ja. Die Dame rutscht in den Kabine gegenüber Jack, alle sorge und zitternden Händen. Sie flüstert etwas, das ein gestohlener Rubin, ein eifersüchtiger Ehemann und eine schattige Figur im Fog lurking."

Die KI setzte die Geschichte nahtlos fort und verwebte dieses Detail wieder, als hätte ich das Ganze nicht einfach entgleisen. Das ist der Teil, der mich boden - die meisten AI -Assistenten stolpern oder starten neu, aber das Gesprächs -KI -Modell von Sesam hat es wie eine Person behandelt, die eine Geschichte auf einer Party erzählte.

Partyplanung

Apropos Parteien, für den letzten Test wollte ich sehen, ob Sesam mir helfen könnte, etwas Nützliches zu planen. "Ich möchte eine Überraschung für den Geburtstag meines besten Freundes planen, aber ich weiß nicht, was ich tun soll."

Anstatt eine leblose Liste von Ideen abzureißen, fragte Sesam: "Was für Dinge liebt Ihr Freund?" Ich erzählte es Science-Fiction-Filme und abenteuerliches Essen, und nach einer nachdenklichen Pause schlug es vor: „Wie wäre es mit einem Sci-Fi & Snacks-Abend? Sie könnten einen Themen-Fluchtraum buchen und dann ein futuristisches Restaurant treffen, vielleicht eines mit molekularen Gastronomie?“

Als ich es sagte, hatte ich ein Budget von 100 Dollar, sesam angepasst. „Mit ihren Lieblings-Science-Fiction-Filmen können Sie einen Heimnacht machen und Themen-Snacks wie 'galaktisches Popcorn' oder 'Alien Sliders' machen. Ich kann Rezepte für Sie finden, wenn Sie möchten. “

Es war nicht nur generische Empfehlungen auszuspucken. Es arbeitete mit mir zusammen. Und das hat es anders gemacht.

Was ist echt?

Sesam hat diese Tests nicht nur bestanden, sondern ich würde sagen, dass es sie genagelt hat. Die Pausen, das Zögern, die Füllwörter, die Art und Weise, wie sie seine Meinung in der Mitte des Sentals ändern würde-es war alles unheimlich real. Ich würde anfangen zu reden und die übliche KI -Smoothheit zu erwarten und dann ein plötzliches „äh, eigentlich nein, warte, lass mich das umformulieren…“ und vergessen Sie sofort, dass ich nicht mit einer echten Person sprach.

Wenn KI so realistisch in ihrer Rede ist, würden wir überhaupt wissen, dass wir mit einer KI sprechen würden? Mit Sesame gibt es verräterische Audioprobleme, die das Spiel verschenken, aber der erweiterte Sprachmodus von Chatgpt und die eigenen Sprachoptionen von Google Gemini sind gut genug, um diese Probleme größtenteils zu überwinden. Kombinieren Sie ihre Sprachkräfte mit den Sprachmustern des Sesams, und es könnte aufrichtig schwierig zu sagen, wann Sie mit einer KI sprechen, zumindest in kurzen Gesprächen.

Sesam ist immer noch Nische, aber diese Technologie wird nicht für immer Nische bleiben. Das Klischee heute ist, dass jüngere Menschen niemals Anrufe tätigen, aber wenn sie anfangen, müssen sie möglicherweise herausfinden, ob die Person am anderen Ende vor irgendetwas anderem real ist.